estatística aplicada - s3.amazonaws.com · a regressão linear simples estima uma equação...
TRANSCRIPT
www.acasadoconcurseiro.com.br
Estatística Aplicada
Correlação e Regressão
Professor Lucas Schmidt
www.acasadoconcurseiro.com.br 3
Estatística Aplicada
REGRESSÃO
Correlação não implica Causalidade!
O coeficiente de correlação não mede a relação causa e efeito entre as variáveis, apesar de que essa relação possa estar presente.
Um exemplo é a forte correlação positiva entre as vendas anuais de chicletes e a taxa de criminalidade nos EUA. Obviamente, não podemos concluir que haja a relação de causa e efeito e que para reduzir a taxa de criminalidade bastaria proibir a venda de chicletes.
O que se observa é que as duas variáveis são dependentes do tamanho da população, e é essa relação mútua com a terceira variável (tamanho da população) que produz a correlação forte e positiva entre a venda de chicletes e a incidência de crimes nos EUA.
Outro exemplo é a associação de câncer de pulmão com consumo de café preto. A terceira variável (bloqueadora) é hábito de fumar.
Análise de Regressão
A análise de regressão estuda a dependência de uma variável (Y) em relação a uma ou mais variáveis independentes (X) com o objetivo de:
• Estudar o comportamento que a variação de X impacta sob Y.
• Estimar e prever o valor médio (esperado) de Y para valores conhecidos de X.
Aplicações
• Precificação de imóveis (m², nº de banheiros, nº de quartos, peças, localização, andar, churrasqueira, lareira, banheira, suítes, dependência para empregada, condomínio)
• Nº de sinistros (idade, sexo, ocupação, histórico)
• Rendimento (escolaridade, sexo, idade)
www.acasadoconcurseiro.com.br4
Regressão Linear Simples
A regressão linear simples estima uma equação matemática (modelo) que tendo posse dos valores de X seja possível prever, com determinada exatidão, os valores de Y.
É dito regressão linear simples, pois supõe-se tendência linear entre as variáveis e simples por ser uma única variável preditora (X).
Modelo de Regressão Linear Simples
em que o coeficiente !" é a intersecção (valor de Y quando X=0);o coeficiente !$ é a inclinação da reta, podendo ser positiva,negativa ou nula.O modelo é estimado com base na amostra de tamanho ncomposta pelos pares de dados (%$, '$), ..., (%(, '() através dométodo dos Mínimos Quadrados Ordinários (MQO).
Modelo de Regressão Linear Simples
)* = !" + !$-* + .*
Estimação do Modelo
em que !"# e !"$ são os estimadores para "# e "$ respectivamente.
O termo de erro em média é zero, isto é, % &' = 0 ∀ +.
Estimação do ModeloReta estimada: ,-' = !"# + !"$/'
011 =2'3$
45' − 5̅ 8 =2
'3$
45'8 −
∑'3$4 5' 8
:
0;; =2'3$
4<' − =< 8 =2
'3$
4<'8 −
∑'3$4 <' 8
:
01; =2'3$
4(5' − 5̅)(<' − =<) =2
'3$
45'<' −
(∑'3$4 5')(∑'3$4 <'):
!"$ =01;011
!"# = =< − !"$5̅
Estatística Aplicada – Correlação e Regressão – Prof. Lucas Schmidt
www.acasadoconcurseiro.com.br 5
Exemplo
Após uma regulagem eletrônica um veículo apresenta um rendimento ideal no que tange a consumo de combustível. Contudo, com o passar do tempo, o rendimento vai se degradando. Os dados a seguir representam o rendimento medido mês a mês após a regulagem.
X Y XY X² Y²1 10,7 10,7 1 114,492 10,9 21,8 4 118,813 10,8 32,4 9 116,644 9,3 37,2 16 86,495 9,5 47,5 25 90,256 10,4 62,4 36 108,167 9,0 63,0 49 81,008 9,3 74,4 64 86,499 7,6 68,4 81 57,7610 7,6 76,0 100 57,7611 7,9 86,9 121 62,4112 7,7 92,4 144 59,29
Σ 78 110,7 673,1 650 1039,55
!"" =$%&'
()%* −
∑%&'( )% *
-
!.. =$%&'
(/%* −
∑%&'( /% *
-
!". =$%&'
()%/% −
(∑%&'( )%)(∑%&'( /%)-
23% = 456 + 45'8%
45' =!".!""
456 = 9/ − 45')̅
www.acasadoconcurseiro.com.br6
Reta estimada!"#$ = 11,336 − 0,3248×0123#$
456 = 789788
= −46,45143 = −0,3248
45; = <= − 456?̅ = 9,225 − −0,3248 ×6,50 = 11,336
Reta estimada: !"#$ = 11,336 − 0,3248×0123#$
Interpretação de 456: o consumo
médio quando o tempo = 0 (quando
sai da oficina) é de 11,336.
Interpretação de 457: a cada mês após
a regulagem, o consumo decai em
média 0,3248.
Estatística Aplicada – Correlação e Regressão – Prof. Lucas Schmidt
www.acasadoconcurseiro.com.br 7
Reta estimada: !"#$ = 11,336 − 0,3248×0123#$Qual é o valor esperado do consumo
passados 5 meses da regulagem?
4 5 6 = 67 = 897 + 89;674 5 6 = 5 = 11,336 − 0,3248×5
= 9,712
Inferências da Regressão
Inferências da RegressãoTestar se a Regressão é significativa ao nível de !%:
#$ %& ; 1 − ! % = +%& ± -./0; ⁄2 3 . 56789 não pode conter zeroou
Testar a seguinte hipótese:H0: %& = 0H1: %& ≠ 0
-<=>< =789?@7A9
~-./0
A Tabela ANOVA e o teste F
também podem ser utilizados
para testar a significância da
regressão.
www.acasadoconcurseiro.com.br8
Inferências da RegressãoTestar se a Regressão passa pela origem ao nível de !%:
#$ %& ; 1 − ! % = +%& ± -./0; ⁄2 3 . 56789 não pode conter zero
ou
Testar a seguinte hipótese: H0: %& = 0H1: %& ≠ 0
-<=>< =789?@7A9
~-./0
Coeficiente de Determinação
r² é conhecido como Coeficiente de Determinação.
Pode ser calculado elevando o Coeficiente de Correlação ao quadrado. Dessa forma,
− 1 ≤ r ≤ 1
0 ≤ r2 ≤ 1
Interpretação do Coeficiente de Determinação
O Coeficiente de Determinação representa o grau de ajuste da regressão através do cálculo da proporção da variância dos valores de Y que pode ser atribuída à regressão estimada a partir da variável X, ou seja, quanto da variação de Y pode ser explicada pela variação de X através do modelo estimado.
Estatística Aplicada – Correlação e Regressão – Prof. Lucas Schmidt
www.acasadoconcurseiro.com.br 9
Exemplo do rendimento do combustívelExemplo do rendimento do combustível
! = −0,907 !( = (−0,907)(= 0,8282% da variabilidade do
rendimento de combustível é
devida ao tempo decorrido após a
regulagem.
O restante (18%) é devido ao
erro aleatório e a outros fatores
que não foram investigados.
www.acasadoconcurseiro.com.br 11
Questões
1. (FUNDATEC – AFRE – SEFAZ-RS – 2009)
Em relação às variáveis X, definida pela co-tação média diária do dólar e Y definida pelo valor máximo do índice BOVESPA no dia, obteve-se para um período de 30 dias a equação de regressão linear de y sobre x: é y = 66720 + bx. Para uma cotação média do dólar em 200 a reta de regressão permitiu estimar pontualmente um BOVESPA igual a 66480 e o teste do coeficiente angular de regressão mostrou uma relação linear esta-tisticamente significativa entre as duas vari-áveis para um nível de significância de 0,05. A afirmação falsa é:
a) Para uma cotação média de 220, o índi-ce BOVESPA estimado é de 66456.
b) Para um nível de significância de 0,05, a correlação linear é estatisticamente sig-nificativa entre X e Y
c) O coeficiente de correlação linear é po-sitivo.
d) Através dos valores da covariância en-tre x e y e dos desvios padrões de x e y, pode-se obter a correlação entre x e y.
e) Através dos valores do coeficiente de correlação, dos desvios padrões e das médias de x e y, pode se obter a reta de regressão de y sobre x.
2. (FUNDATEC – AFRE – SEFAZ-RS – 2009)
Sabendo que a correlação estatisticamen-te significativa entre o preço do vinho e a quantidade vendida é de -0,70 pode-se di-zer que:
a) 70% da variabilidade da quantidade vendida é determinada pelo preço do vinho.
b) Quanto maior o preço do vinho, maior a quantidade vendida.
c) Há uma redução de 30% na quantidade vendida para um aumento de R$ 1,00 no preço.
d) Da variabilidade total da quantidade vendida, 49% é explicada pelo preço do produto.
e) Para um aumento de R$ 1,00 no preço do vinho, há uma redução de 0,7 na quantidade vendida.
Gabarito: 1. C 2. D