Download - Análise de Regressão Linear Simples (SPSS)
Análise de Regressão Linear (SPSS)
Autor: Filipe Mahaluca Page 1
ANÁLISE DE RESULTADOS
O sucesso de um programa de investimento em papéis de outros países depende, em grande
parte, do controle do risco soberano dos países constantes no portfólio. Um meio de se avaliar o
risco é através da taxa de juros praticada pelo país. Uma amostra de 40 países forneceu os
valores anualizados das taxas de risco e de juros praticadas em 1997.
Analise os dados através de um modelo de regressão linear simples construído para se estimar
o risco soberano esperado do país em função da taxa de juros por ele praticada.
Solução
Neste caso você deve fazer a regressão linear, pois se deseja explicar uma variável quantitativa
(taxa de risco) por meio de outra variável quantitativa (taxa de juros). A variável que você quer
explicar chama-se variável dependente, ou variável explicada (também chamada de resposta
ou endógena) - Y. A outra é conhecida como variável independente, ou explicativa (ou exógena)
- X.
Então, a primeira coisa a ser feita nesse tipo de problema é identificar quem é a variável Y
(dependente - aquela que você quer prever, estimar) e quem é a variável X (aquela que irá
ajudar você a estimar a variável Y).
Após digitar os dados, ou abrir o arquivo que contém os dados, no SPSS, deve-se ‘rodar’ a
regressão.
Análise de Regressão Linear (SPSS)
Autor: Filipe Mahaluca Page 2
COMO RODAR A REGRESSÃO LINEAR SIMPLES NO SPSS
Primeiramente deve-se selecionar ANALYZE
REGRESSION
LINEAR
Como temos apenas uma variável independente (X), a regressão linear é simples.
Na próxima tela selecionamos a variável dependente (Y = taxa de risco) e a variável
independente (X = taxa de juros).
O método selecionado será o Enter.
Análise de Regressão Linear (SPSS)
Autor: Filipe Mahaluca Page 3
Após isto, seleciona-se STATISTICS.
Como a regressão é SIMPLES, seleciona-se apenas os itens: "estimates","confidence intervals",
"model fit", "descriptives" e "casewise diagnostics".
Obs.: quando o "casewise diagnostics" for selecionado, aparecerá: "Outliers outside 3 standards
deviations".
Deixe assim. Isso quer dizer que os resíduos que estiverem acima ou abaixo de 3 desvios
padrões serão considerados outliers.
Após isto selecione CONTINUE.
Selecione então a tecla PLOTS.
Aqui serão feitos os gráficos utilizados para verificar a existência de outlier (ou valor influente),
e também verificar as premissas do modelo.
Análise de Regressão Linear (SPSS)
Autor: Filipe Mahaluca Page 4
Selecione para Y o "ZRESID". Ele corresponde ao resíduo padronizado.
Para a variável X selecione "ZPRED". Este é o valor de Y estimado padronizado.
Selecione NORMAL PROBABILITY PLOT. Este gráfico é também conhecido como PP-Plot e será
utilizado para testar a premissa da Normalidade.
Após isto, selecione CONTINUE.
Selecione então a tecla SAVE.
Quando selecionamos qualquer item no SAVE, o SPSS irá salvar na base de dados (Data view) os
valores correspondentes aos itens que forem selecionados.
Análise de Regressão Linear (SPSS)
Autor: Filipe Mahaluca Page 5
O "Cook's" é a distância de Cook e será utilizada para se verificar a existência de valores
influentes. Caso seja próximo ou maior do que 1, será um valor influente. Isso significa dizer que
existe uma (ou mais) observação que influencia o modelo. Caso essa observação seja retirada, os
valores dos coeficientes serão alterados, o modelo será todo alterado.
O "Leverage value" funciona da mesma forma.
O "Studentized delected" irá sinalizar a existência de um outlier. Para isso seria necessário ter a
tabela t de Student.
Após isto selecione CONTINUE e depois OK.
Obs.: não mexa no botão OPTIONS.
A regressão linear simples será realizada. O próximo passo é analisar o seu resultado.
Análise de Regressão Linear (SPSS)
Autor: Filipe Mahaluca Page 6
COMO ANALISAR O RESULTADO DA REGRESSÃO LINEAR SIMPLES
Serão apresentados aqui todos os quadros que foram gerados pelo SPSS.
Após cada quadro é mencionada a utilidade dele.
Regression
Este quadro apresenta a média e o desvio padrão de cada variável. Quanto maior for o desvio
padrão em relação à média, mais dispersa será a distribuição da variável, dificultando a sua
estimação (variável Y). E também, caso a variável X possua dispersão alta, isto irá resultar em
uma regressão com estimativas não tão boas, se compararmos com uma regressão na qual a
variável X possui baixa dispersão.
Devemos, então, calcular o CV (coeficiente de variação). O CV é calculado dividindo-se o desvio
padrão pela média.
Caso o CV seja maior do que 50%, sugerimos alteração na variável. Essa alteração pode ser o
logarítimo ou a raiz quadrada da variável. Com isso, a variável ficará menos dispersa e o
resultado da regressão será melhor, ou seja, estaremos estimando Y mais eficientemente.
Interpretação
Para este nosso exemplo, teremos:
Variável Y - taxa de risco
CV = 15,3 / 32,4 = 0,47
Variável X - taxa de juros
CV = 22,1 / 63,2 = 0,34
Como os coeficientes de variação da variável Y e da variável X são menores do que 50%,
considera-se que ambas as variáveis não possuem dispersão alta. Dessa forma, não se sugere
transformação nas variáveis.
Análise de Regressão Linear (SPSS)
Autor: Filipe Mahaluca Page 7
Esta tabela apresenta as correlações (de Pearson) entre as variáveis.
Como se trata de uma regressão simples, só é apresentado o coeficiente de correlação entre X e
Y.
O valor do coeficiente de correlação mede a força da relação entre duas variáveis. O sinal
indica se essa relação é diretamente proporcional (sinal positivo) ou inversamente proporcional
(sinal negativo).
Quanto mais próximo de 1 (ou de -1), maior será a relação linear entre duas variáveis. Costuma-
se considerar que a relação é alta, quando o coeficiente de correlação está acima de 0,7 ou
0,8, (ou abaixo de -0,7 ou -0,8). Quando queremos avaliar se o coeficiente de correlação e alto
ou baixo, desconsideramos o sinal.
Interpretação
Neste caso, temos:
O coeficiente de correlação entre as variáveis Taxa de Risco e Taxa de Juros é igual a -0,578. Isso
indica que a relação entre essas duas variáveis é inversa, uma vez que o sinal é negativo. Com isso,
se a Taxa de Juros subir, a Taxa de Risco irá cair e vice-versa.
Além disso, considera-se uma relação linear fraca entre as variáveis Taxa de Risco e Taxa de Juros,
pois o valor de 0,578 (o módulo de -0,578) é bem inferior a 0,7.
Análise de Regressão Linear (SPSS)
Autor: Filipe Mahaluca Page 8
Este quadro apresenta o método que foi utilizado para a seleção das variáveis no modelo. Como
a regressão é simples, o método foi o Enter (o que o SPSS coloca como padrão). Com isso, a
Variables Entered, é apenas a Taxa de Juros (X).
Não fazemos análises deste quadro.
Este quadro aparece quando você seleciona Model Fit no quadro Statistics.
Ele apresenta o coeficiente de correlação (R), em módulo (ou seja, desconsidera o sinal).
A análise desse coeficiente já foi feita acima, no quadro Correlations.
Na segunda coluna é apresentado o R Square.
R Square = coeficiente de determinação.
Ele fornece a capacidade preditiva do modelo. Diz qual é a proporção da variação total que é
explicada pela relação entre X e Y.
O valor do R2 é uma das medidas para se escolher o melhor modelo (na regressão simples).
Quanto mais próximo de 1 melhor. Acima de 0,70 já está bom.
Interpretação
No nosso exemplo
Pode-se dizer que 33,4% da variação total é explicada pela relação entre Taxa de Juros e Taxa de
Risco.
Análise de Regressão Linear (SPSS)
Autor: Filipe Mahaluca Page 9
Esse coeficiente de determinação de 33,4% indica que o modelo possui uma baixa capacidade
preditiva.
A terceira coluna apresenta do R² ajustado.
Neste caso não iremos analisá-lo, pois ele só é útil na Regressão Linear Múltipla (quando temos
mais de um ‘X’).
A quarta coluna apresenta o Std Error of the Estimate. Ele é o desvio padrão do modelo, e é
usado para compararmos diversos modelos e escolhermos o melhor (o que possuir menor desvio
padrão).
O desvio padrão do modelo é a raiz quadrada da variância residual do modelo (Mean Square
Residual).
A unidade dele é a mesma unidade de Y.
No nosso exemplo
O desvio padrão do modelo é igual a 12,67 %.
Obs.: a unidade das variáveis X e Y é % (taxa em %).
Neste quadro iremos fazer o teste F. É o ‘teste do modelo’. Com ele vamos testar se o modelo
completo (com a variável X) é melhor do que o modelo reduzido (só com beta zero).
O teste F tenta avaliar a importância relativa dos resíduos devido à entrada da nova variável,
sobre os resíduos da regressão sem esta variável. Este teste é mais útil no caso de regressão
múltipla, quando se pretende escolher as variáveis que no conjunto melhoram o modelo. Quanto
maior for o valor de F, maior será a evidência da inclusão da variável X no modelo.
Procedimento para o teste F (na regressão simples):
{
Análise de Regressão Linear (SPSS)
Autor: Filipe Mahaluca Page 10
Testamos aqui o modelo reduzido (H0) contra o modelo completo (H1). O alpha não será divido
por dois, pois a curva do F só tem uma cauda, ele será sempre positivo.
Compara-se o Sig. (valor-p) com o valor de alpha. Caso o Sig seja menor do que alpha, rejeita-
se H0 e conclui-se que o modelo completo (com a variável independente) é melhor do que o
modelo reduzido (que só contém a média).
Caso contrário, não se rejeita H0, com de significância, e diz-se que o modelo reduzido é
melhor do que o modelo completo.
Interpretação No nosso exemplo
Teste F - teste do modelo
{
Nível de significância (alpha) = 5%
Sig = 0,000
Como Sig é menor que o nível de significância (alpha), rejeita-se H0 e conclui-se que o modelo
completo (o que contém a variável independente, a variável Taxa de Juros) é melhor do que o
modelo reduzido (o que não contém a variável Taxa de Juros (X)).
Em outras palavras: existe relação linear entre X e Y.
Outra informação: A variância residual do modelo é igual a 160,72%2
Esse quadro fornece os coeficientes (beta zero e beta1), com isso, podemos montar o modelo.
Temos que olhar para os "Unstandardized Coefficients".
São apresentados, também, os intervalos de confiança.
Não podemos esquecer-nos de fazer o teste t (teste do coeficiente).
Análise de Regressão Linear (SPSS)
Autor: Filipe Mahaluca Page 11
Interpretação
Faremos, então:
Variável X - Taxa de Juros
Teste t para Beta 1 - teste do coeficiente
{
= 0,05 Como Sig (da variável Taxa de Juros, referente ao coeficiente beta 1) é igual a 0,000, ou seja,
menor do que alpha (0,05), rejeita-se H0 e conclui-se que há evidência de relação linear entre a
Taxa de Juros (X) e a Taxa de Risco (Y).
O modelo linear será:
Y= 57,75 - 0,4 (X)
Interpretação do modelo:
Beta zero = 57,75
Se a Taxa de Juros (X) for igual a zero, a Taxa de Risco será igual a 57,75 %.
Beta 1 = -0,4
A cada unidade adicional na variável Taxa de Juros (X), a variável Taxa de Risco (Y) diminui em
0,4.
(Mesmo não fazendo sentido economicamente falando, uma vez que a relação está inversa, o
modelo é este. Talvez o problema esteja no conjunto de países da amostra).
Quanto ao intervalo de confiança, podemos dizer que existe 95% de confiança verdadeiro beta 1
(o beta 1 da população) pertencer ao intervalo [-0,58 ; -0,21].
Este quadro aparecerá quando for diagnosticado algum caso de possível outlier (ou valor
influente).
Se o resíduo padronizado estiver acima de 3 desvios (tanto positivo quanto negativo), a
observação será uma candidata a outlier. Ela poderá ser outlier ou valor influente.
Análise de Regressão Linear (SPSS)
Autor: Filipe Mahaluca Page 12
Interpretação
No exemplo
O primeiro país (case 1) possui o resíduo padronizado acima de 3. Portanto, ele é um candidato a
outlier.
Neste quadro olharemos para o "Std Residual". Se este for menor que -3 ou maior do que 3,
existem candidatos a outlier ou valor influente.
Para isso vamos ver a Cook's Distance, se o Maximum estiver maior de 1 é porque existe
alguma (ou algumas) observações que são valores influentes. Neste caso iremos até a base de
dados (Data view), e na coluna "Coo_1" iremos procurar quem é (ou quem são) essa observação.
No caso estudado as observações são países.
Se caso o Maximun estiver menor do que 1 é porque não existem valores influentes. Logo, a
observação que estiver excedendo 3 desvios padrões será considerada outlier.
Interpretação
No exemplo
Como a distância de Cook (Cook's Distance) máxima é menor do que 1, o país Argentina, que
possui resíduo padronizado acima de 3 desvios, não é considerado valor influente, mas sim um
outlier.
Análise de Regressão Linear (SPSS)
Autor: Filipe Mahaluca Page 13
Sugere-se que essa observação seja retirada do banco de dados e que a regressão linear seja
rodada novamente. Com isso, iremos comparar os resultados das duas regressões (com esta
observação e sem ela) e será muito provável que os resultados melhorem (desvio padrão do modelo
diminua e o R2 aumente).
Resta-nos verificarmos as premissas do modelo!!!
São cinco as premissas a serem verificadas e faremos isso com o auxílio dos gráficos abaixo.
Análise de Regressão Linear (SPSS)
Autor: Filipe Mahaluca Page 14
Premissas básicas do modelo:
Devem ser verificadas para assegurar a adequabilidade do modelo.
São elas:
1. Linearidade
2. ~ Normal Normalidade
3. E( ) = 0
4. ( ) constante Homocedasticidade
5. cov , ) = 0 Independência
A primeira é a premissa de linearidade. Pode ser verificada pelo teste F. Se rejeitar H0 é
porque existe relação linear, então, a premissa foi satisfeita.
Outra forma de verificar é usando o gráfico dos resíduos (Regression Standardized Residuals)
versus valores ajustados, no qual os pontos devem estar distribuídos de forma aleatória
(totalmente sem formas definidas). Caso eles estejam em forma de parábola, a premissa estaria
Análise de Regressão Linear (SPSS)
Autor: Filipe Mahaluca Page 15
sendo violada, então, deve-se incluir uma variável quadrática (x2) no modelo, ou buscar novas
formas de relação.
A segunda premissa é a da normalidade (distribuição Normal). Deve-se observar o gráfico
chamado P-P Plot. Caso as observações estejam na reta ou próximas da reta diagonal,
aceitamos a normalidade. Essa premissa é fundamental, pois toda inferência é feita com base
nas distribuições (t, F) que vêm da Normal. Se a Normal for violada, os testes que serão feitos
não irão servir pra nada. Se não tiver normalidade, não pode-se testar os parâmetros, realizar
o modelo.
A quarta premissa é a de homocedasticidade, que é o mesmo que dizer que a variância dos
erros é constante. Caso não seja, deve-se usar o método dos mínimos quadrados ponderados.
Essa premissa será observada no gráfico dos resíduos (na vertical) versus valores ajustados (na
horizontal). Se os pontos estiverem em forma de buzina é porque existe problema e essa
premissa está sendo violada.
A premissa da independência dos erros pode ser observada no mesmo gráfico dos resíduos
versus valores ajustados. Se os pontos estiverem distribuídos aleatoriamente (sem formas) é
porque não há problema. Mas caso eles estejam distribuídos como retas paralelas, a premissa
estará sendo violada. Esse problema ocorre mais em séries temporais.
Interpretação
A premissa da linearidade foi verificada por meio do teste F. Como rejeitou-se H0, concluiu-
se que existe relação linear entre X e Y;
Por meio do gráfico P-P Plot, verificou-se a premissa da Normalidade. Como os pontos
estão bem próximos da linha diagonal (de probabilidade acumulada), a premissa da
Normalidade foi satisfeita.
A homocedasticidade (variância dos erros constante) foi verificada através do Scattreplot
(Valores preditos X Resíduos padronizados). Como os pontos não formaram a figura de um
gramofone (buzina), a premissa da homocedasticidade foi satisfeita.
A independência dos erros foi verificada através do Scatterplot (Valores preditos X Resíduos
padronizados). Como os pontos não formaram linhas paralelas, a premissa da independência
foi satisfeita.
Análise de Regressão Linear (SPSS)
Autor: Filipe Mahaluca Page 16
Conclusão
Ao realizar a regressão linear, constatou-se que existe uma relação linear significativa entre as
variáveis Y (Taxa de Risco) e X (Taxa de Juros), para a amostra estudada. Dessa forma, podemos
estimar a Taxa de Risco a partir da Taxa de Juros, através do modelo de regressão linear
Ou
(Taxa de juros)
Base de Dados
País Taxa de Risco (%) Taxa de Juros (%)
21 26,7 64,4
22 26,4 77,6
23 26,3 83,8
24 26,3 68,9
25 26,1 76,0
26 25,7 94,5
27 24,8 70,8
28 24,5 79,5
29 24,4 26,4
30 23,8 85,3
31 23,4 66,4
32 23,0 93,4
33 22,0 78,4
34 21,8 87,6
35 20,6 72,6
36 19,6 94,7
37 19,2 87,1
38 18,5 87,6
39 17,6 33,6
40 15,4 93,4
País Taxa de Risco (%) Taxa de Juros (%)
1 87,0 31,8
2 74,1 32,6
3 64,8 36,2
4 53,7 72,9
5 47,5 56,7
6 46,3 43,3
7 46,0 45,0
8 41,4 30,6
9 39,6 51,9
10 38,4 29,6
11 35,6 24,5
12 34,3 69,6
13 31,6 38,6
14 31,5 44,4
15 30,7 62,2
16 30,0 46,6
17 28,3 83,0
18 28,0 75,5
19 27,0 55,8
20 26,9 78,2