regressão e correlação linear - sisne.orgsisne.org/disciplinas/grad/probestat1/aula 25.pdf ·...

15
Probabilidade e Estatística I – Antonio Roque – Aula 25 1 Regressão e Correlação Linear Até o momento, vimos técnicas estatísticas em que se estuda uma variável de cada vez, estabelecendo-se sua distribuição de freqüências, média, desvio padrão, etc. Em muitos casos, porém, é necessário estudar duas ou mais variáveis ao mesmo tempo. Por exemplo, pode-se obter mais informações estudando peso e altura juntos do que estudando cada um separadamente; ou ainda, renda mensal junto com gastos com livros. Neste capítulo veremos alguns métodos usados para estudar ao mesmo tempo duas variáveis. Em geral estuda-se duas variáveis ao mesmo tempo com o objetivo de determinar se há alguma relação entre elas e, se houver, qual o tipo dessa relação. Pode-se, por exemplo, pesquisar uma relação entre idade e tempo de sobrevivência em casos de cirurgia, ou procurar saber que tipo de relação (linear, exponencial ou outra) existe entre tempo de permanência de um paciente num programa de atendimento domiciliar e os custos do atendimento. Outras vezes estudam-se duas variáveis conjuntamente na expectativa de se poder usar uma delas para prever a outra. Por exemplo, será que se pode prever o gasto de uma família com balas e chocolates conhecendo-se a sua renda mensal? Fundamentos Quando se consideram duas variáveis aleatórias ao mesmo tempo, X e Y, as técnicas estatísticas aplicadas são as de regressão e correlação. As duas técnicas estão relacionadas, mas são usadas para diferentes propósitos. O objetivo mais comum da análise de regressão é obter uma equação que possa ser usada para prever ou estimar o valor de uma variável em função de um dado valor de uma outra variável. A análise de correlação, por outro lado, é usada para se obter uma medida do grau ou da força da associação entre duas variáveis. Tanto para regressão como para correlação, os dados consistem de pares de medidas selecionadas da população de interesse. Por exemplo, um comitê elaborador de vestibular (FUVEST, p. ex.) pode querer saber se há alguma associação entre a média das notas

Upload: lamkhuong

Post on 18-Nov-2018

221 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Regressão e Correlação Linear - sisne.orgsisne.org/Disciplinas/Grad/ProbEstat1/aula 25.pdf · procurar saber que tipo de relação (linear, ... O diagrama de dispersão A técnica

Probabilidade e Estatística I – Antonio Roque – Aula 25

1

Regressão e Correlação Linear

Até o momento, vimos técnicas estatísticas em que se estuda uma variável de cada

vez, estabelecendo-se sua distribuição de freqüências, média, desvio padrão, etc. Em

muitos casos, porém, é necessário estudar duas ou mais variáveis ao mesmo tempo. Por

exemplo, pode-se obter mais informações estudando peso e altura juntos do que estudando

cada um separadamente; ou ainda, renda mensal junto com gastos com livros. Neste

capítulo veremos alguns métodos usados para estudar ao mesmo tempo duas variáveis.

Em geral estuda-se duas variáveis ao mesmo tempo com o objetivo de determinar se

há alguma relação entre elas e, se houver, qual o tipo dessa relação. Pode-se, por exemplo,

pesquisar uma relação entre idade e tempo de sobrevivência em casos de cirurgia, ou

procurar saber que tipo de relação (linear, exponencial ou outra) existe entre tempo de

permanência de um paciente num programa de atendimento domiciliar e os custos do

atendimento. Outras vezes estudam-se duas variáveis conjuntamente na expectativa de se

poder usar uma delas para prever a outra. Por exemplo, será que se pode prever o gasto de

uma família com balas e chocolates conhecendo-se a sua renda mensal?

Fundamentos

Quando se consideram duas variáveis aleatórias ao mesmo tempo, X e Y, as técnicas

estatísticas aplicadas são as de regressão e correlação. As duas técnicas estão relacionadas,

mas são usadas para diferentes propósitos.

O objetivo mais comum da análise de regressão é obter uma equação que possa ser

usada para prever ou estimar o valor de uma variável em função de um dado valor de uma

outra variável. A análise de correlação, por outro lado, é usada para se obter uma medida

do grau ou da força da associação entre duas variáveis.

Tanto para regressão como para correlação, os dados consistem de pares de medidas

selecionadas da população de interesse. Por exemplo, um comitê elaborador de vestibular

(FUVEST, p. ex.) pode querer saber se há alguma associação entre a média das notas

Page 2: Regressão e Correlação Linear - sisne.orgsisne.org/Disciplinas/Grad/ProbEstat1/aula 25.pdf · procurar saber que tipo de relação (linear, ... O diagrama de dispersão A técnica

Probabilidade e Estatística I – Antonio Roque – Aula 25

2

obtidas na escola de 2º grau e a média das notas obtidas no exame vestibular. Os dados

podem ser arranjados como abaixo, onde o par de números (Xi, Yi) dá as médias das notas

do 2º grau e do vestibular para o i-ésimo aluno da amostra.

Aluno Média do 2º

grau

Média do

vestibular

1 X1 Y1

2 X2 Y2

ξ ξ ξ

n Xn Yn

A decisão final sobre se é razoável ou não assumir que existe uma relação entre Y e

X será baseada na análise de regressão e correlação. Obtém-se uma equação matemática

expressando uma relação entre Y e X e usa-se testes de hipóteses para se decidir se a

equação é provável ou não. Caso a equação seja provável, ela pode ser usada para predizer

possíveis valores de Y a partir de valores de X.

Antes, porém, de se fazer uma análise de regressão para um conjunto de pares de

dados é importante escolher adequadamente quais as duas variáveis que se vai estudar

conjuntamente. Se, por exemplo, há o interesse em estudar o consumo de balas, biscoitos e

chocolates por família de uma dada região, deve-se inicialmente construir alguma hipótese

sobre quais variáveis podem estar associadas a ele. Por exemplo, algumas dessas variáveis

poderiam ser renda familiar, número de crianças na família, número de pessoas na família,

idade média da família, etc.

Uma vez determinadas as duas variáveis que serão estudadas, deve-se definir qual

será considerada como a variável dependente e qual será a variável independente. A

variável independente, em geral descrita por x, é a que vai determinar o comportamento da

outra variável, por isto chamada de dependente, em geral descrita por y. A variável

dependente (y) é aquela que queremos estudar e a variável independente (x) é aquela que,

segundo nossa hipótese, causa alguma modificação em y. Em textos de economia costuma-

Page 3: Regressão e Correlação Linear - sisne.orgsisne.org/Disciplinas/Grad/ProbEstat1/aula 25.pdf · procurar saber que tipo de relação (linear, ... O diagrama de dispersão A técnica

Probabilidade e Estatística I – Antonio Roque – Aula 25

3

se chamar a variável independente de exógena, porque ela está fora do sistema em

estudo, e a variável dependente de endógena, porque ela faz parte do sistema em estudo.

Em muitos casos é fácil determinar, entre duas variáveis, qual deve ser a

independente e qual será a dependente. Usando de novo o exemplo do consumo familiar

de balas, biscoitos e chocolates, vemos que esta deve ser a variável dependente quando se

escolhe a renda familiar como outra variável, a qual seria então a variável independente.

Seria absurdo supor que é o consumo de guloseimas que determina a renda de uma

família. Agora, em um caso em que se quer estudar as variáveis vendas de jornais

sensacionalistas (tipo Notícias Populares) e vendas de bebidas alcoólicas em uma dada

região fica mais difícil decidir qual deve ser tratada como dependente e qual como

independente. Em casos como este a decisão sobre qual variável será a dependente e qual

será a independente depende do modelo teórico ou da interpretação adotada pelo

investigador, mas isto não irá influenciar os métodos de regressão e correlação descritos a

seguir.

O diagrama de dispersão

A técnica mais simples e provavelmente mais útil para estudar a relação entre duas

variáveis é o diagrama de dispersão. Em um diagrama de dispersão, cada um dos n pares

de observações (Xi,Yi), i = 1, ..., n, é representado graficamente como um único ponto. Os

Xs são colocados no eixo horizontal (abscissa) e os Ys são colocados no eixo vertical

(ordenada). Olhando para o arranjo dos pontos no gráfico, pode-se discernir um padrão

indicador da forma funcional subjacente aos dados. Algumas possíveis formas funcionais

estão indicadas a seguir:

X

Y

X

Y

X

Y

a) linear b) não-linear c) sem relação

Page 4: Regressão e Correlação Linear - sisne.orgsisne.org/Disciplinas/Grad/ProbEstat1/aula 25.pdf · procurar saber que tipo de relação (linear, ... O diagrama de dispersão A técnica

Probabilidade e Estatística I – Antonio Roque – Aula 25

4

O caso (a) é o de uma relação linear entre Y e X, que pode ser representada por uma

reta. O caso (b) é o de uma relação curvilínea, ou não-linear, que pode ser representada por

uma função não-linear. O caso (c) é um em que não há relação entre Y e X: o valor de Y

(maior ou menor) não depende de X.

Nesta aula, só iremos considerar relações lineares.

Regressão linear simples

Como exemplo introdutório da análise de regressão, vamos considerar dados

relacionando pressão sangüínea sistólica com nível de dosagem de uma droga anti-

hipertensão.

Nível de dosagem da droga

(mg)

Pressão sangüínea sistólica média

(mm Hg)

2 278

3 240

4 198

5 132

6 111

Olhando para os dados, vemos que alguma relação existe entre eles: quanto maior o

nível de dosagem, menor a pressão sangüínea. Estes dados estão mostrados no diagrama

de dispersão abaixo. Observe que nem todos os pontos caem exatamente sobre uma linha

reta, mas a tendência é que os valores de Y decresçam de uma maneira aproximadamente

linear à medida que os valores de X cresçam. Isto indica que a relação entre Y e X pode

ser linear e pode ser descrita por uma linha reta. Vamos tentar determinar uma “equação”

para essa reta.

Page 5: Regressão e Correlação Linear - sisne.orgsisne.org/Disciplinas/Grad/ProbEstat1/aula 25.pdf · procurar saber que tipo de relação (linear, ... O diagrama de dispersão A técnica

Probabilidade e Estatística I – Antonio Roque – Aula 25

5

0

50

100150

200

250

300

1 2 3 4 5 6 7

Nível de dosagem da droga anti-hipertensivaPr

essã

o sa

ngüí

nea

sist

ólic

a

Diagrama de dispersão para os dados da tabela acima.

Qualquer linha reta tem a forma geral: bXaY += , onde b dá a inclinação da linha e a

é o ponto onde a linha cruza o eixo Y. Para quaisquer dois pontos, é fácil determinar a

linha reta que os une; porém, para três ou mais pontos, como no caso em questão, é em

geral impossível encontrar uma linha reta que passe por todos os pontos. Neste caso, o que

se tenta fazer é encontrar a linha reta que melhor represente a configuração dos pontos.

Uma ilustração disto é dada pelo gráfico abaixo:

O chapéu sobre o Y, (Ŷ), indica que a reta da

figura, cuja equação é bXaY +=ˆ , é uma

estimativa para a hipotética reta verdadeira. As

distâncias dos pontos para a linha são dadas

por: iii YYd ˆ−= , onde ii bXaY +=ˆ . A reta

bXaY += tenta minimizar as distâncias (ou

desvios, ou ainda resíduos) id dos pontos para

ela: pode-se perceber isto visualmente.

Para o gráfico acima, 1d é positiva,

2d é negativa e

3d é positiva. Poderíamos somar

as três distâncias e tentar encontrar alguma maneira matemática de minimizar seu valor.

Porém, é comum que desvios em torno de algum valor se anulem quando somados, como

no caso do desvio médio.

Page 6: Regressão e Correlação Linear - sisne.orgsisne.org/Disciplinas/Grad/ProbEstat1/aula 25.pdf · procurar saber que tipo de relação (linear, ... O diagrama de dispersão A técnica

Probabilidade e Estatística I – Antonio Roque – Aula 25

6

Para se medir o grau de adequação (ou ajuste) de uma linha reta a um conjunto de

pontos, é mais conveniente calcular a soma dos quadrados dos desvios. Esta é sempre uma

quantidade positiva e é a que se costuma usar para medir o ajuste dos pontos pela reta:

( )∑∑ −=22

iii YYd .

O método usado para se encontrar a reta que mais se ajuste a um conjunto de pontos

utilizando a fórmula acima é chamado de método dos mínimos quadrados e a reta

calculada é chamada de reta de regressão. O método é chamado de “mínimos quadrados”

porque o seu objetivo é encontrar a reta Y que minimize a soma dos quadrados da

equação. A discussão formal deste método não será feita aqui. Apenas os seus princípios

serão dados. Para uma dada reta bXaY +=ˆ , a soma dos quadrados dos desvios é escrita

como

( ) ( )∑ ∑ −−=−=Φ 22ˆiii bXaYYY .

Esta somatória pode ser vista como uma função dos parâmetros a e b, pois variando-se os

valores de a e de b altera-se o valor da soma dos quadrados dos desvios. Note que a forma

funcional desta função é a de um parabolóide (pois a dependência de maior ordem em a e

b é quadrática), de maneira que existe um par (a, b) para o qual ela tem um valor mínimo.

Pela teoria dos máximos e mínimos do Cálculo, o ponto de mínimo (a, b) é determinado

pela condição de que ele seja um extremo, ou seja

.0 e 0 =∂

Φ∂=

Φ∂

ba

Calculando as derivadas chega-se a um sistema de equações algébricas com duas

incógnitas, a e b. Resolvendo esse sistema de equações chega-se aos valores de a e b:

( )( )

( )∑

−−=

ii

iii

XX

YYXXb 2 ; XbYa −= ,

onde X e Y são as médias dos valores de X e Y, respectivamente. Há uma fórmula mais

simples para o cálculo de b, que pode ser obtida expandindo-se os termos entre parênteses.

O resultado (tente obtê-lo como exercício) é:

Page 7: Regressão e Correlação Linear - sisne.orgsisne.org/Disciplinas/Grad/ProbEstat1/aula 25.pdf · procurar saber que tipo de relação (linear, ... O diagrama de dispersão A técnica

Probabilidade e Estatística I – Antonio Roque – Aula 25

7

∑ ∑

∑ ∑ ∑

⎟⎠

⎞⎜⎝

⎛−

−=

i iii

i i iiiii

XXn

YXYXnb 2

2

,

onde n é o número de pares de pontos.

Voltando agora ao exemplo sobre pressão sangüínea sistólica, temos que a reta de

regressão que melhor se ajusta à amostra de pontos ( )ii YX , é dada por

bXaY +=

onde a e b são dados pelas fórmulas acima. Para calcular a reta de regressão devemos

montar uma tabela como a mostrada abaixo:

Dados para o cálculo da linha de regressão para nível de dosagem da droga (X) e pressão

sangüínea sistólica (Y):

n X Y X2 Y2 X.Y

1 2 278 4 77284 556

2 3 240 9 57600 720

3 4 198 16 39204 792

4 5 132 25 17424 660

5 6 111 36 12321 666

Soma 20 959 90 203833 3394

A partir dos valores da tabela, calculamos:

81915959 ,

nYY ==∑= ; 04

520 ,

nXX ==∑=

2,44502210

2090.5959.203394.52 −=−=

−=b ;

( ) 6368042448191 ,, ,,XbYa =−−=−=

X,,Y 2446368 −=

Page 8: Regressão e Correlação Linear - sisne.orgsisne.org/Disciplinas/Grad/ProbEstat1/aula 25.pdf · procurar saber que tipo de relação (linear, ... O diagrama de dispersão A técnica

Probabilidade e Estatística I – Antonio Roque – Aula 25

8

Gráfico de Ŷ=368,6-

44,2X

Conhecendo-se a equação para a reta, ela pode ser traçada determinando-se 2 pontos.

Por exemplo, para 2=X e 7=X a equação dá, respectivamente: 2280,Y = e 259,Y = . É

assim que se traçou o gráfico acima. Note que a reta traçada representa bem os pontos do

gráfico de dispersão, pelo menos visualmente. Ainda nesta aula, quando tratarmos de

correlação linear, veremos como medir de maneira quantitativa a força desse ajuste linear

entre os pontos e a reta.

A variância em torno da linha de regressão

Assim como se pode definir uma variância (ou desvio padrão) de um conjunto de

pontos em torno de seu valor médio Y , também se pode definir uma variância (ou desvio

padrão) de um conjunto de pontos ordenados Yi em torno da sua linha de regressão Ŷ. Esta

quantidade, denotada por 2XYS , é definida como

( )2

ˆ 2

2

−=∑n

YYS i

i

XY ,

e a sua raiz quadrada, chamada de erro padrão da previsão, é dada por 2XYXY SS = .

Esta última quantidade é análoga ao desvio padrão visto nas aulas de estatística descritiva.

Ela dá uma medida do desvio “médio” dos valores observados Yi em relação ao valor

predito Ŷ pela linha de regressão. Note que a única diferença da definição de 2XYS para a da

variância usual é que se dividiu por n − 2 ao invés de por n − 1.

Ŷ=368,6 – 44,2 X

Page 9: Regressão e Correlação Linear - sisne.orgsisne.org/Disciplinas/Grad/ProbEstat1/aula 25.pdf · procurar saber que tipo de relação (linear, ... O diagrama de dispersão A técnica

Probabilidade e Estatística I – Antonio Roque – Aula 25

9

Para um conjunto grande de dados a computação de cada ( )YYi ˆ− é trabalhosa

quando deve ser feita manualmente. Existe, porém, uma fórmula algebricamente

equivalente par 2XYS que simplifica os cálculos:

( ) ( )

2

222

2

−−−=∑ ∑

n

XXbYYS i

ii

XY .

Com o uso da tabela para os dados de pressão sistólica temos:

( ) 1,117,12230,368

25102,444,19904 2

22 ==⇒==

×−−= XYXYXY SSS

Da fórmula acima, vê-se que a variância em relação à reta Ŷ é igual à variância em

relação à média Y se 0=b (inclinação nula) e se n for muito grande, de maneira que

.12 −≅− nn

O coeficiente de correlação linear

Em geral, na análise de correlação, procura-se determinar a “força” de uma relação

funcional entre duas variáveis. A medida mais comumente usada para o grau de associação

linear entre Y e X é o chamado coeficiente de correlação de Pearson (ou simplesmente

coeficiente de correlação), denotado por r, e definido como

( )( )

( ) ( )n

YYn

XXn

YYXXr

∑∑

−−

−−

=22

.

O termo no numerador desta fórmula é chamado de covariância de X e Y. Note que ele se

parece muito com a variância, só que agora aparecem os desvios tanto de X como de Y em

relação às suas médias. A covariância mede a variação conjunta de X e Y em torno de suas

médias. Já o termo no denominador é o produto do desvio padrão de X pelo desvio padrão

de Y. Expandindo-se os termos entre parênteses, a fórmula do coeficiente de correlação

pode ser reescrita em uma forma mais fácil para o cálculo, que é a seguinte (tente obtê-la

como exercício):

Page 10: Regressão e Correlação Linear - sisne.orgsisne.org/Disciplinas/Grad/ProbEstat1/aula 25.pdf · procurar saber que tipo de relação (linear, ... O diagrama de dispersão A técnica

Probabilidade e Estatística I – Antonio Roque – Aula 25

10

( )[ ] ( )[ ]∑ ∑∑ ∑∑∑∑

−−

−=

2222 YYnXXn

YXXYnr

Os valores de r estão sempre no intervalo 11 +≤≤− r . Um valor “grande” de r

(positivo ou negativo) indica uma forte relação linear entre X e Y. Um valor negativo de r

indica que grandes valores de X estão associados a baixos valores de Y, ou baixos valores

de X estão associados a grandes valores de Y (o produto ( )( )∑ −− YY XX será negativo

nos dois casos). Já um valor positivo de r indica que grandes valores de X estão associados

a grandes valores de Y e que baixos valores de X estão associados a baixos valores de Y

(tanto ( )∑ − XX como ( )∑ −YY terão os mesmos sinais nos dois casos).

Os sinais de r e de b (a inclinação da reta Ŷ) são os mesmos: quando a inclinação da

reta é negativa, a correlação também é negativa, indicando uma relação inversa entre Y e

X. Igualmente, uma relação positiva existe entre Y e X quando r e b são positivos. Uma

relação positiva exata ocorre quando 1+=r (todos os pontos estão exatamente sobre a

reta), e uma relação negativa exata ocorre quando 1−=r (todos os pontos também estão

exatamente sobre a reta, só que ela tem inclinação negativa). Quando 0=r , isto significa

que não há relação linear entre as variáveis Y e X. Note que r pode ser zero e ainda assim

existir possivelmente alguma relação funcional entre as duas variáveis, mas não-linear.

Diagramas de dispersão para os quais 0=r

Exercícios Exemplo

Page 11: Regressão e Correlação Linear - sisne.orgsisne.org/Disciplinas/Grad/ProbEstat1/aula 25.pdf · procurar saber que tipo de relação (linear, ... O diagrama de dispersão A técnica

Probabilidade e Estatística I – Antonio Roque – Aula 25

11

1. Predizer a nota média de um estudante de uma universidade ao final do seu primeiro

ano com base na sua nota média do exame vestibular. Seleciona-se uma amostra de

interesse (por exemplo estudantes de Biologia da USP/Ribeirão) e toma-se suas notas

médias no vestibular e no primeiro ano da universidade. Constrói-se uma tabela, um

diagrama de dispersão e, caso se desconfie que haja uma relação linear, determina-se a

linha de regressão e o coeficiente de correlação.

Estudante Média do vestibular

(X)

Média do primeiro ano

(1≤C.R.≤5) (Y)

1 24 1,5

2 61 3,5

3 30 1,7

4 48 2,7

5 60 3,4

6 32 1,6

7 19 1,2

8 22 1,3

9 41 2,2

10 46 2,7

18210821

10,,Yi

Y === ∑ ; 33810383

10,

XX === ∑

( )∑ =− 120982 ,XX ; ( )∑ =− 54,62YY

( )( )∑ =−− 16116,YY XX

Com o auxílio dos dados obtidos:

( )( )( )

05,01,2098

16,116 2 ==

−−=

∑∑

XX

YYXXb ,

Page 12: Regressão e Correlação Linear - sisne.orgsisne.org/Disciplinas/Grad/ProbEstat1/aula 25.pdf · procurar saber que tipo de relação (linear, ... O diagrama de dispersão A técnica

Probabilidade e Estatística I – Antonio Roque – Aula 25

12

( )( ) 06,03,38 0554,018,2 =−=−= XbYa .

Então:

XY 05,006,0ˆ +=

Diagrama de dispersão para os dados do exemplo

Variância em torno de Ŷ:

( ) ( )=

−−−=∑ ∑

2

222

2

nXXbYY

S iyXY

( ) ( )⇒=

−= 012,0

81,209805,054,6 2

⇒Erro padrão da previsão 11,02 === XYXY SS

Coeficiente de correlação:

( )( )( ) ( ) ( )( )

990536612098

1611622

,, ,

,

YYXX

YY XXr ==

∑ ∑ −−

∑ −−= (forte relação

linear positiva)

Um estudante com média no vestibular = 40 teria, de acordo com a análise de regressão

feita, C.R. no 1º ano = Ŷ = 0,06+0,05 (40) = 2,27.

Page 13: Regressão e Correlação Linear - sisne.orgsisne.org/Disciplinas/Grad/ProbEstat1/aula 25.pdf · procurar saber que tipo de relação (linear, ... O diagrama de dispersão A técnica

Probabilidade e Estatística I – Antonio Roque – Aula 25

13

2. A tabela abaixo fornece os valores médios, antes da 2ª Guerra Mundial, da ingestão

diária de calorias e da taxa de mortalidade infantil para alguns países selecionados.

Países Nº de calorias por

pessoa por dia (X)

Taxa de

mortalidade infantil

por 1.000 (Y)

Argentina 2.730 98,8

Burma 2.080 202,1

Ceilão 1.920 182,8

Chile 2.240 240,8

Colômbia 1.860 155,6

Cuba 2.610 116,8

Egito 2.450 162,9

Índia 1.970 161,6

Uruguai 2.380 94,1

a) Faça o diagrama de dispersão para estes dados;

b) Calcule a reta de regressão para os dados e desenhe-a no diagrama;

c) Calcule o coeficiente de correlação.

2249=X ; 157=Y ; ( )( )∑ −=−− 67163YY XX ;

( ) 7852892 =∑ − XX ; ( )∑ =− 187402YY .

( )( )( )

0855078528967163

2,

XX

YY XXb −=−=∑ −

∑ −−= ;

( ) 349224908550157 =×−−=−= ,XbYa ; X,Y 08550349−=

( )( )( ) ( )

5536012131167163

1874078528967163

22,

YYXX

YY XXr −=−

−=

∑ ∑ −−

∑ −−=

Page 14: Regressão e Correlação Linear - sisne.orgsisne.org/Disciplinas/Grad/ProbEstat1/aula 25.pdf · procurar saber que tipo de relação (linear, ... O diagrama de dispersão A técnica

Probabilidade e Estatística I – Antonio Roque – Aula 25

14

90110130150170190210230250

1800 2000 2200 2400 2600 2800

3. Os lucros de uma companhia no período de 1990 a 1994 são dados abaixo. Obtenha a

reta de regressão e o coeficiente de correlação para os dados. Com base na reta obtida,

estime o lucro para 1995.

Ano

(t) X

Lucro

(milhões

US$)

( )XX − ( )YY − ( )2XX − ( )2YY − ( )XX − ( )YY −

1990 0 2,3 - 2 -

2,16 4 4,67 4,32

1991 1 2,9 - 1 -

1,56 1 2,43 1,56

1992 2 5,2 0 0,74 0 0,55 0

1993 3 5,8 1 1,34 1 1,80 1,34

1994 4 6,1 2 1,64 4 2,69 3,28

Quando uma das variáveis é o ano, não é conveniente usá-la para fazer os cálculos

(isso os tornaria muito trabalhosos). É mais fácil definir uma outra variável X a partir do

tempo em anos. Por exemplo, aqui escolheu-se o ano de 1990 como o ano para o qual X =

0. A partir daí, acrescenta-se 1 à variável X para cada ano. Portanto:

⇒==== 46453222510 ,/,Y;/X

( )( ) ( ) ( )∑ ∑ ∑ ⇒=−=−=−−⇒ 141221025010 ,YY;XX;,YY XX

Reta de Regressão

Page 15: Regressão e Correlação Linear - sisne.orgsisne.org/Disciplinas/Grad/ProbEstat1/aula 25.pdf · procurar saber que tipo de relação (linear, ... O diagrama de dispersão A técnica

Probabilidade e Estatística I – Antonio Roque – Aula 25

15

⇒=×−=−===⇒ 362205146405110510 ,,,XbYa;,,b

X,,Y 051362 +=⇒

9528002115010

1412105010 ,

,,

,,r ==×

=

A estimativa de lucros para 95 é:

617505136251995 ,,,Yx =×+=⇒=→

2

3

4

5

6

7

90 91 92 93 94 95

Ano

Lucr

o (m

ilhõe

s US$

)