aula4 regressao linear
Post on 29-Dec-2015
66 Views
Preview:
TRANSCRIPT
MBA em Gestão de Projetos e MBA em Gestão de Projetos e Processos OrganizacionaisProcessos Organizacionais
1
EstatísticaEstatística AplicadaAplicada
Galo Lopez NoriegaGalo Lopez Noriegagalo.noriega@trevisan.edu.brgalo.noriega@trevisan.edu.br
Regressão Linear Simples
2
Simples
Levine: Capítulos Levine: Capítulos 11 11 e e 1212
Anderson: Capítulo Anderson: Capítulo 1212
Alguns Exemplos
� Aumento das vendas de acordo com a incidência de anúncios na TV em horário nobre;
� Receita do Hotel Bellagio em Las Vegas de acordo com o número de shows feitos pelo Cirque du Soleil;
� Coerência das deduções feitas pelos contribuintes em relação à sua receita bruta;
3
relação à sua receita bruta;
� Aumento do consumo de energia elétrica devido ao crescimento do uso de computadores;
� Taxas especiais em hotéis para quem viaja à negócios;
� Taxa de desemprego e taxa de criminalidade.
Previsão de Vendas
Andreia é a Diretora de Novos Negócios da AL&O, umaempresa da área de varejo. A AL&O lançou um nova linhaempresa da área de varejo. A AL&O lançou um nova linhade produtos no mercado. Esta nova linha de produtos foilançado inicialmente em algumas de suas unidades nonordeste norte americano, fazendo uso de campanhaspublicitárias (a tabela a seguir mostra os gastos empublicidade e os valores das vendas).
Região Gastos (milhões) Vendas ( milhões)Mês ano Publicidade Primeiro ano
Janeiro 1994 Maine $1,80 $104,00Fevereiro 1994 New Hampshire $1,20 $68,00Março 1994 Vermont $0,40 $39,00Abril 1994 Massachusetts $0,50 $43,00Maio 1994 Connecticut $2,50 $134,00Junho 1994 Rhode Island $2,50 $127,00
Data da Introdução
5
Julho 1994 New York $1,50 $87,00Agosto 1994 New Jersey $1,20 $77,00Setembro 1994 Pennsylvania $1,60 $102,00Outubro 1994 Delaware $1,00 $65,00Novembro 1994 MaryLand $1,50 $101,00Dezembro 1994 Wet Virginia $0,70 $46,00Janeiro 1995 Virginia $1,00 $52,00Fevereiro 1995 Ohio $0,80 $33,00
Andreia está interessada em analisar estes dados paradeterminar quais serão as vendas em duas novas regiõesnas quais as verbas para Publicidade são de US$ 2,0milhões.
Com base nas informações fornecidas gostaríamosresponder as seguintes questões:
6
1) Qual a relação entre a publicidade e as vendas?
2) Qual o valor estimado para as vendas em regiõesnas quais se pretende investir $2,0 milhões?
3) Quão confiáveis são estes valores estimados?
Publicidade vs. Vendas
$120,00$140,00$160,00
Primeiro vamos desenhar o gráfico scatter plot ...
7
$0,00$20,00$40,00$60,00$80,00
$100,00$120,00
$0,00 $0,50 $1,00 $1,50 $2,00 $2,50 $3,00
Gastos em publicidade
Ven
das
Publicidade vs. Vendas
y = 48,597x + 13,824
$100,00$120,00$140,00$160,00
Ven
das
Agora vamos adicionar a linha de tendência...
8Reta estimada
$0,00$20,00$40,00$60,00$80,00
$100,00
$0,00 $0,50 $1,00 $1,50 $2,00 $2,50 $3,00
Gastos em publicidade
Ven
das
Para estimarmos quais serão as vendas para uminvestimento de $2,0 milhões em publicidade, bastausarmos a equação determinada:
6,4882,13ˆ xy +=
Com isso, temos a Equação de Regressão Estimada...
9
Conclusão: As vendas estimadas serão de $111,02milhões
02,111$)2(6,4882,13ˆ
6,4882,13ˆ
USy
xy
=+=
+=
Regressão Linear Simples
A regressão linear simples ocorre quando desejamosexplicar uma variável y usando uma variável explicativa x.
O Modelo de Regressão Linear Simples:
10
A Equação de Regressão Estimada
εββ ++= xy 10
xbby 10ˆ +=Valores estimados
Não é causa e efeito entre as variáveis
RESUMO DOS RESULTADOS
Estatística de regressãoR múltiplo 0,964136108R-Quadrado 0,929558435R-quadrado ajustado 0,923688304Erro padrão 9,106122272Observações 14
Coeficiente de Correlação (–1<r<1)
Relação Linear
Coeficiente de Determinação (0<r2<1)
Relações lineares e não-lineares
Análise ANOVA no Excel...ANalysis Of VAriance
11
ANOVAgl SQ MQ F F de significação
Regressão 1 13130,94245 13130,94245 158,3539653 2,8433E-08Resíduo 12 995,057554 82,92146283Total 13 14126
Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superioresInterseção 13,82374101 5,579203078 2,477726803 0,029078957 1,667701969 25,97978005Variável X 1 48,5971223 3,861856052 12,5838772 2,8433E-08 40,18286093 57,01138367
Teste t Valor p
Como exemplo, podemos citar a correlação fortementepositiva da relação entre idade e estatura de uma criança;quanto maior a idade maior a estatura.
Um exemplo de forte correlação negativa é a relação entrea temperatura e o consumo de cobertores; quando maior atemperatura, menor o consumo de cobertores.
Coeficiente de Correlação
12
temperatura, menor o consumo de cobertores.
Um exemplo da inexistência de correlação é a relaçãoentre o número do calçado de um adulto e o seu nívelintelectual.
Ou ainda, a paixão pelo Timão em função do número devitórias ou derrotas!
Resumo
R-Múltiplo=0,96 é o coeficiente de correlação amostral (lembre-seque o coeficiente de correlação situa-se entre –1 e 1)
R-quadrado=0,93 é o coeficiente de Determinação da regressão.Explica que 93% das variações nas vendas (y) são “explicadas” pelosgastos em publicidade, ficando 7% sem explicação.
13
gastos em publicidade, ficando 7% sem explicação.
O valor 0,0000000284 é o valor p do teste de hipótese de β1 serzero. Como o p-value é menor que 5% rejeitamos a hipótese nula,
isto é, β1 é diferente de zero. (p ≥ αααα,,,, a hipótese nula não érejeitada; p < αααα,,,, a hipótese nula é rejeitada).
A equação estimada é y = 13,82 + 48,6x
Exercício
O índice Dow Jones Industrial Average (DJIA) e o
Standard & Poor’s (S&P500) são ambos medidas da
movimentação no mercado de ações. O DJIA é
14
baseado na movimentação dos preços dos papéis
das 30 maiores companhias, o S&P500 é um índice
composto de 500 ações. A tabela a seguir mostra os
índices para o DJIA e S&P500 para as últimas 10
semanas de 1997.
Data Dow Jones S&P500out/24 7715 942out/31 7442 915nov/07 7581 928nov/14 7572 928nov/21 7881 963nov/28 7823 955
15
nov/28 7823 955dez/05 8149 984dez/12 7838 953dez/19 7756 947dez/26 7679 936
1) Qual é a relação entre o DJIA e o S&P500 ?
2) Quão confiáveis são os valores estimados?
Análise da Regressão
Dow Jones versus S&P500 y = 0,1006x + 166,08
R2 = 0,9904
960
970
980
990
valo
res
S&
P50
0
16
910
920
930
940
950
960
7400 7500 7600 7700 7800 7900 8000 8100 8200
valores DJ
valo
res
S&
P50
0
Análise ANOVA no Excel
RESUMO DOS RESULTADOS
Estatística de regressão
R múltiplo 0,995205176
R-Quadrado 0,990433342
R-quadrado ajustado 0,98923751
Erro padrão 2,069336983
Observações 10
17
ANOVA
gl SQ MQ F F de significaçãoRegressão 1 3546,64276 3546,642756 828,237722 2,29915E-09Resíduo 8 34,2572444 4,282155549Total 9 3580,9
Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores Inferior 95,0% Superior 95,0%Interseção 166,0828321 27,0767411 6,133782172 0,00027891 103,6437551 228,5219092 103,6437551 228,5219092Dow Jones 0,100601422 0,00349564 28,77911954 2,2992E-09 0,092540463 0,10866238 0,092540463 0,10866238
Estudo de caso 1: Gastos e Desempenho Estudantil
Deseja-se descobrir se o progresso educacional dos estudantes está relacionado comquanto um estado em que residem gasta com educação. Em muitas comunidades, essaimportante questão tem sido colocada nas pautas das discussões pelos secretários deeducação, que vêem uma relação positiva entre os gastos e o progresso dos estudantes,para que haja um aumento na taxa de gastos governamentais com o ensino. Neste casovocê é convidado a analisar os dados relativos a gastos e pontuações de progresso para
18
determinar se há alguma relação entre os gastos e o progresso dos estudantes nasescolas públicas.
O Levantamento Nacional de Progresso Educacional (National Assessment EducationalProgress-NAEP) é freqüentemente usado para medir a qualidade da educação nos EUA.O arquivo EC-Reg Linear.xls (planilha EC1-naep) exibe o gasto total corrente poraluno/ano e a pontuação média do teste NAEP para 35 estados participantes doprograma.
A pontuação média é a soma das pontuações em matemática, ciências e leitura no testeNAEP de 1996. A pontuação máxima é de 1300 pontos.
Relatório Gerencial:
a) Desenvolva um resumo numérico e gráfico dos dados (média, desvio padrão ediagrama de dispersão).
b) Verifique – utilizando regressão linear - se há alguma relação entre a quantiagasta por aluno e a pontuação média do teste NAEP. Discuta suas conclusões(teste o gasto como variável independente).
c) Você acredita que a regressão estimada poderia ser usada para estimar aspontuações médias para estados que não participaram do programa NAEP?
19
pontuações médias para estados que não participaram do programa NAEP?Explique.
d) Suponha que você use na regressão somente estados que gastam no mínimoUS$4000 por aluno e não mais que US$6000 por aluno. Para estes estados, arelação entre as duas variáveis parece ser de alguma forma diferente doconjunto completo de dados? Explique.
e) Baseado nas suas análises, você acha que o nível de progresso educacionaldos estudantes está relacionado com o montante que o estado gasta comeducação?
Relatório Gerencial :
Desenvolva um resumo numérico e gráfico dos dados (média, desvio padrão ediagrama de dispersão).
Gasto por aluno (US$)
Média 5068,828571Erro padrão 183,5153486Mediana 4985Modo #N/DDesvio padrão 1085,691444Variância da amostra1178725,911Curtose 1,125309956Assimetria 0,881640123Intervalo 4882Mínimo 3280Máximo 8162Soma 177409Contagem 35
Pontuação Média
Média 631,1714Erro padrão 4,661028Mediana 628Modo 580Desvio padrão 27,57502Variância da amostra 760,3815Curtose -0,75544Assimetria -0,28605Intervalo 95Mínimo 580Máximo 675Soma 22091Contagem 35
20
Contagem 35 Contagem 35
Gastos por Aluno versus Pontuação Média
560
580
600
620
640
660
680
0 1.000 2.000 3.000 4.000 5.000 6.000 7.000 8.000 9.000
gastos com alunos
pont
uaçã
o m
édia
Relatório Gerencial :
Verifique – utilizando regressão linear - se há alguma relação entre a quantia gasta poraluno e a pontuação média do teste NAEP. Discuta suas conclusões (teste o gastocomo variável independente).
Gastos por Aluno versus Pontuação Média
y = 0,0087x + 587,32
R2 = 0,116
620
640
660
680
pont
uaçã
o m
édia
21
560
580
600
620
0 1.000 2.000 3.000 4.000 5.000 6.000 7.000 8.000 9.000
gastos com alunos
pont
uaçã
o m
édia
O que você achaO que você acha
Relatório Gerencial:
Você acredita que a regressão estimada poderia ser usada para estimar as pontuaçõesmédias para estados que não participaram do programa NAEP? Explique.
22
Relatório Gerencial :
Suponha que você use na regressão somente estados que gastam no mínimo US$4000por aluno e não mais que US$6000 por aluno. Para estes estados, a relação entreas duas variáveis parece ser de alguma forma diferente do conjunto completo dedados? Explique.
Gasto por Aluno versus Pontuação Média
620
640
660
680
Pon
tuaç
ão M
édia
23
560
580
600
620
0 1.000 2.000 3.000 4.000 5.000 6.000
Gasto por Aluno
Pon
tuaç
ão M
édia
O que você achaO que você acha
RESUMO DOS RESULTADOS DE US$ 4000,00 à US$ 6000,00
Estatística de regressãoR múltiplo 0,394666329R-Quadrado 0,155761512R-quadrado ajustado 0,117387035Erro padrão 27,102816Observações 24
ANOVAgl SQ MQ F F de significação
Análise ANOVA no Excel
24
gl SQ MQ F F de significaçãoRegressão 1 2981,58 2981,58 4,058987 0,056320226Resíduo 22 16160,38 734,5626Total 23 19141,96
Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores Inferior 95,0% Superior 95,0%Interseção 524,2888252 53,35746 9,82597 1,66E-09 413,6322178 634,9454326 413,6322178 634,9454326Gasto por aluno (US$) 0,022119752 0,010979 2,014693 0,05632 -0,000649753 0,044889257 -0,000649753 0,044889257
Relatório Gerencial:
Baseado nas suas análises, você acha que o nível de progresso educacional dosestudantes está relacionado com o montante que o estado gasta com educação?
25
Exercício PropostoA Value Line (February 24, 1995) reportou que o mercado beta para aWoolworth Corporation é 1,25. Mercados beta para ações sãodeterminados por regressão linear simples. Para cada ação, a variáveldependente é a sua porcentagem do retorno trimestral (valorização docapital mais dividendos) menos a porcentagem de retorno que poderia serobtida de um investimento livre de riscos (risk-free). A variávelindependente é a porcentagem de retorno trimestral (valorização do
26
independente é a porcentagem de retorno trimestral (valorização docapital mais dividendos) para o mercado de ações (S&P500) menos aporcentagem de retorno de um investimento livre de riscos. Uma equaçãode regressão estimada é desenvolvida com dados trimestrais; o mercadobeta para a ação é a inclinação da equação de regressão estimada (b1).O valor do mercado beta é freqüentemente interpretado como umamedida do risco associado à ação. Mercados beta maiores que 1 indicamque ação é mais volátil do que a média do mercado; mercados betamenores que 1 indicam que a ação é menos volátil do que a média domercado.
As diferenças entre a porcentagem de retorno e a porcentagem livre deriscos para 10 trimestres da S&P500 e da IBM são mostradas:
S&P 500 IBM1,2 -0,7-2,5 -2,0-3,0 -5,52,0 4,75,0 1,8
a) Desenvolva a equação de regressão linear para determinar o mercado beta para a IBM. Qual é o mercado beta da IBM?
b) Faça o teste t de significância da regressão com 0,05 de nível de significância
27
1,2 4,13,0 2,6-1,0 2,00,5 -1,32,5 5,5
significância
c) A equação de regressão estimada forneceu um bom ajuste? Explique.
d) Use os mercados beta da Woolworth e da IBM para comparar o risco associado às duas ações.
(a) Mercado beta=0,95; (b)relação significante; (c)r2=0,470, não éum ajuste muito bom; (d) Woolworth tem um risco maior
Analisando a não-linearidade
AnosGastos com
propaganda (R$ mil)Volume de vendas
(mil un.)1 7 72 6 53 4,5 3
28
3 4,5 34 3 1,55 2 16 1 0,57 8 78 8 9
2
4
6
8
10
Vol
ume
de v
enda
s
Desenhando o gráfico scatter plot ...
29
0
0 2 4 6 8 10
Gastos com propaganda
Vol
ume
de v
enda
s
Como os dados estão Como os dados estão relacionadosrelacionados
Função linear
y = 1,1418x - 1,3878R2 = 0,9456
-2
3
8
13
0 2 4 6 8 10
Gastos com propaganda
Vol
ume
de
vend
asFunção logarítm ica
y = 3,8457Ln(x) - 1,1303R2 = 0,8085
-2
3
8
13
0 2 4 6 8 10
Gastos com propaganda
Vol
ume
de
vend
as
Função potência
13
Função polinomial (2 o grau)
13
Tipos de regressão
30
y = 0,4133x1,3919
R2 = 0,9786
-2
3
8
13
0 2 4 6 8 10
Gastos com propaganda
Vol
ume
de
vend
as
y = 0,0953x2 + 0,2491x + 0,0757R2 = 0,967
-2
3
8
13
0 2 4 6 8 10
Gastos com propaganda
Vol
ume
de
vend
as
Função exponencial
y = 0,4424e0,3806x
R2 = 0,9708
-2
3
8
13
0 2 4 6 8 10
Gastos com propaganda
Vol
ume
de
vend
as
Principais transformações lineares
Tipo de função
Equação original Equação linearizada x y
Linear y=a+b.x y=a+b.x x yExponencial y=a.eb.x ln y=ln a + b.x x ln y
Potência y=axb ln y=ln a + b.ln x ln x ln yLogarítimica y=a+b.lnx y=a+b.ln x ln x y
31
Logarítimica y=a+b.lnx y=a+b.ln x ln x y
AnosGastos com
propaganda (R$ mil)Volume de vendas
(mil un.) ln x ln y1 7 7 1,946 1,9462 6 5 1,792 1,6093 4,5 3 1,504 1,0994 3 1,5 1,099 0,4055 2 1 0,693 0,0006 1 0,5 0,000 -0,6937 8 7 2,079 1,9468 8 9 2,079 2,197
Estatística de regressãoR múltiplo 0,989257161R-Quadrado 0,978629731R-quadrado ajustado 0,975068019Erro padrão 0,166589309Observações 8
ANOVAgl SQ MQ F F de significação
Regressão 1 7,625247085 7,6252471 274,7639 3,07462E-06
32
Regressão 1 7,625247085 7,6252471 274,7639 3,07462E-06Resíduo 6 0,166511988 0,027752Total 7 7,791759073
Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superioresInterseção -0,883601976 0,131413674 -6,7238207 0,000526 -1,205159887 -0,562044065ln x 1,391859059 0,083968313 16,576004 3,07E-06 1,186395849 1,59732227
Estudo de caso 2: U.S. Department of Transportatio n
Exercício de hoje
Escolha umum dos casos abaixo, faça todas as análises estatísticas e de regressão. O que podemos concluir?
33
Estudo de caso 3: Mudanças leste-oeste
Estudo de caso 4: Springville Herald
Entregar exercício, na próxima aula, em duplas
top related