Download - Análise de Regressão Linear Simples (SPSS)

Análise de Regressão Linear (SPSS)

Autor: Filipe Mahaluca

ANÁLISE DE RESULTADOS

O sucesso de um programa de investimento em papéis de outros países depende, em grande

parte, do controle do risco soberano dos países constantes no portfólio. Um meio de se avaliar o

risco é através da taxa de juros praticada pelo país. Uma amostra de 40 países forneceu os

valores anualizados das taxas de risco e de juros praticadas em 1997.

Analise os dados através de um modelo de regressão linear simples construído para se estimar

o risco soberano esperado do país em função da taxa de juros por ele praticada.

Solução

Neste caso você deve fazer a regressão linear, pois se deseja explicar uma variável quantitativa

(taxa de risco) por meio de outra variável quantitativa (taxa de juros). A variável que você quer

explicar chama-se variável dependente, ou variável explicada (também chamada de resposta

ou endógena) - Y. A outra é conhecida como variável independente, ou explicativa (ou exógena)

- X.

Então, a primeira coisa a ser feita nesse tipo de problema é identificar quem é a variável Y

(dependente - aquela que você quer prever, estimar) e quem é a variável X (aquela que irá

ajudar você a estimar a variável Y).

Após digitar os dados, ou abrir o arquivo que contém os dados, no SPSS, deve-se ‘rodar’ a

regressão.



COMO RODAR A REGRESSÃO LINEAR SIMPLES NO SPSS

Primeiramente deve-se selecionar ANALYZE

REGRESSION

LINEAR

Como temos apenas uma variável independente (X), a regressão linear é simples.

Na próxima tela selecionamos a variável dependente (Y = taxa de risco) e a variável

independente (X = taxa de juros).

O método selecionado será o Enter.



Após isto, seleciona-se STATISTICS.

Como a regressão é SIMPLES, seleciona-se apenas os itens: "estimates","confidence intervals",

"model fit", "descriptives" e "casewise diagnostics".

Obs.: quando o "casewise diagnostics" for selecionado, aparecerá: "Outliers outside 3 standards

deviations".

Deixe assim. Isso quer dizer que os resíduos que estiverem acima ou abaixo de 3 desvios

padrões serão considerados outliers.

Após isto selecione CONTINUE.

Selecione então a tecla PLOTS.

Aqui serão feitos os gráficos utilizados para verificar a existência de outlier (ou valor influente),

e também verificar as premissas do modelo.



Selecione para Y o "ZRESID". Ele corresponde ao resíduo padronizado.

Para a variável X selecione "ZPRED". Este é o valor de Y estimado padronizado.

Selecione NORMAL PROBABILITY PLOT. Este gráfico é também conhecido como PP-Plot e será

utilizado para testar a premissa da Normalidade.

Após isto, selecione CONTINUE.

Selecione então a tecla SAVE.

Quando selecionamos qualquer item no SAVE, o SPSS irá salvar na base de dados (Data view) os

valores correspondentes aos itens que forem selecionados.



O "Cook's" é a distância de Cook e será utilizada para se verificar a existência de valores

influentes. Caso seja próximo ou maior do que 1, será um valor influente. Isso significa dizer que

existe uma (ou mais) observação que influencia o modelo. Caso essa observação seja retirada, os

valores dos coeficientes serão alterados, o modelo será todo alterado.

O "Leverage value" funciona da mesma forma.

O "Studentized delected" irá sinalizar a existência de um outlier. Para isso seria necessário ter a

tabela t de Student.

Após isto selecione CONTINUE e depois OK.

Obs.: não mexa no botão OPTIONS.

A regressão linear simples será realizada. O próximo passo é analisar o seu resultado.



COMO ANALISAR O RESULTADO DA REGRESSÃO LINEAR SIMPLES

Serão apresentados aqui todos os quadros que foram gerados pelo SPSS.

Após cada quadro é mencionada a utilidade dele.

Regression

Este quadro apresenta a média e o desvio padrão de cada variável. Quanto maior for o desvio

padrão em relação à média, mais dispersa será a distribuição da variável, dificultando a sua

estimação (variável Y). E também, caso a variável X possua dispersão alta, isto irá resultar em

uma regressão com estimativas não tão boas, se compararmos com uma regressão na qual a

variável X possui baixa dispersão.

Devemos, então, calcular o CV (coeficiente de variação). O CV é calculado dividindo-se o desvio

padrão pela média.

Caso o CV seja maior do que 50%, sugerimos alteração na variável. Essa alteração pode ser o

logarítimo ou a raiz quadrada da variável. Com isso, a variável ficará menos dispersa e o

resultado da regressão será melhor, ou seja, estaremos estimando Y mais eficientemente.

Interpretação

Para este nosso exemplo, teremos:

Variável Y - taxa de risco

CV = 15,3 / 32,4 = 0,47

Variável X - taxa de juros

CV = 22,1 / 63,2 = 0,34

Como os coeficientes de variação da variável Y e da variável X são menores do que 50%,

considera-se que ambas as variáveis não possuem dispersão alta. Dessa forma, não se sugere

transformação nas variáveis.



Esta tabela apresenta as correlações (de Pearson) entre as variáveis.

Como se trata de uma regressão simples, só é apresentado o coeficiente de correlação entre X e

Y.

O valor do coeficiente de correlação mede a força da relação entre duas variáveis. O sinal

indica se essa relação é diretamente proporcional (sinal positivo) ou inversamente proporcional

(sinal negativo).

Quanto mais próximo de 1 (ou de -1), maior será a relação linear entre duas variáveis. Costuma-

se considerar que a relação é alta, quando o coeficiente de correlação está acima de 0,7 ou

0,8, (ou abaixo de -0,7 ou -0,8). Quando queremos avaliar se o coeficiente de correlação e alto

ou baixo, desconsideramos o sinal.

Interpretação

Neste caso, temos:

O coeficiente de correlação entre as variáveis Taxa de Risco e Taxa de Juros é igual a -0,578. Isso

indica que a relação entre essas duas variáveis é inversa, uma vez que o sinal é negativo. Com isso,

se a Taxa de Juros subir, a Taxa de Risco irá cair e vice-versa.

Além disso, considera-se uma relação linear fraca entre as variáveis Taxa de Risco e Taxa de Juros,

pois o valor de 0,578 (o módulo de -0,578) é bem inferior a 0,7.



Este quadro apresenta o método que foi utilizado para a seleção das variáveis no modelo. Como

a regressão é simples, o método foi o Enter (o que o SPSS coloca como padrão). Com isso, a

Variables Entered, é apenas a Taxa de Juros (X).

Não fazemos análises deste quadro.

Este quadro aparece quando você seleciona Model Fit no quadro Statistics.

Ele apresenta o coeficiente de correlação (R), em módulo (ou seja, desconsidera o sinal).

A análise desse coeficiente já foi feita acima, no quadro Correlations.

Na segunda coluna é apresentado o R Square.

R Square = coeficiente de determinação.

Ele fornece a capacidade preditiva do modelo. Diz qual é a proporção da variação total que é

explicada pela relação entre X e Y.

O valor do R2 é uma das medidas para se escolher o melhor modelo (na regressão simples).

Quanto mais próximo de 1 melhor. Acima de 0,70 já está bom.

Interpretação

No nosso exemplo

Pode-se dizer que 33,4% da variação total é explicada pela relação entre Taxa de Juros e Taxa de

Risco.



Esse coeficiente de determinação de 33,4% indica que o modelo possui uma baixa capacidade

preditiva.

A terceira coluna apresenta do R² ajustado.

Neste caso não iremos analisá-lo, pois ele só é útil na Regressão Linear Múltipla (quando temos

mais de um ‘X’).

A quarta coluna apresenta o Std Error of the Estimate. Ele é o desvio padrão do modelo, e é

usado para compararmos diversos modelos e escolhermos o melhor (o que possuir menor desvio

padrão).

O desvio padrão do modelo é a raiz quadrada da variância residual do modelo (Mean Square

Residual).

A unidade dele é a mesma unidade de Y.

No nosso exemplo

O desvio padrão do modelo é igual a 12,67 %.

Obs.: a unidade das variáveis X e Y é % (taxa em %).

Neste quadro iremos fazer o teste F. É o ‘teste do modelo’. Com ele vamos testar se o modelo

completo (com a variável X) é melhor do que o modelo reduzido (só com beta zero).

O teste F tenta avaliar a importância relativa dos resíduos devido à entrada da nova variável,

sobre os resíduos da regressão sem esta variável. Este teste é mais útil no caso de regressão

múltipla, quando se pretende escolher as variáveis que no conjunto melhoram o modelo. Quanto

maior for o valor de F, maior será a evidência da inclusão da variável X no modelo.

Procedimento para o teste F (na regressão simples):

{



Testamos aqui o modelo reduzido (H0) contra o modelo completo (H1). O alpha não será divido

por dois, pois a curva do F só tem uma cauda, ele será sempre positivo.

Compara-se o Sig. (valor-p) com o valor de alpha. Caso o Sig seja menor do que alpha, rejeita-

se H0 e conclui-se que o modelo completo (com a variável independente) é melhor do que o

modelo reduzido (que só contém a média).

Caso contrário, não se rejeita H0, com de significância, e diz-se que o modelo reduzido é

melhor do que o modelo completo.

Interpretação No nosso exemplo

Teste F - teste do modelo

{

Nível de significância (alpha) = 5%

Sig = 0,000

Como Sig é menor que o nível de significância (alpha), rejeita-se H0 e conclui-se que o modelo

completo (o que contém a variável independente, a variável Taxa de Juros) é melhor do que o

modelo reduzido (o que não contém a variável Taxa de Juros (X)).

Em outras palavras: existe relação linear entre X e Y.

Outra informação: A variância residual do modelo é igual a 160,72%2

Esse quadro fornece os coeficientes (beta zero e beta1), com isso, podemos montar o modelo.

Temos que olhar para os "Unstandardized Coefficients".

São apresentados, também, os intervalos de confiança.

Não podemos esquecer-nos de fazer o teste t (teste do coeficiente).



Interpretação

Faremos, então:

Variável X - Taxa de Juros

Teste t para Beta 1 - teste do coeficiente

{

= 0,05 Como Sig (da variável Taxa de Juros, referente ao coeficiente beta 1) é igual a 0,000, ou seja,

menor do que alpha (0,05), rejeita-se H0 e conclui-se que há evidência de relação linear entre a

Taxa de Juros (X) e a Taxa de Risco (Y).

O modelo linear será:

Y= 57,75 - 0,4 (X)

Interpretação do modelo:

Beta zero = 57,75

Se a Taxa de Juros (X) for igual a zero, a Taxa de Risco será igual a 57,75 %.

Beta 1 = -0,4

A cada unidade adicional na variável Taxa de Juros (X), a variável Taxa de Risco (Y) diminui em

0,4.

(Mesmo não fazendo sentido economicamente falando, uma vez que a relação está inversa, o

modelo é este. Talvez o problema esteja no conjunto de países da amostra).

Quanto ao intervalo de confiança, podemos dizer que existe 95% de confiança verdadeiro beta 1

(o beta 1 da população) pertencer ao intervalo [-0,58 ; -0,21].

Este quadro aparecerá quando for diagnosticado algum caso de possível outlier (ou valor

influente).

Se o resíduo padronizado estiver acima de 3 desvios (tanto positivo quanto negativo), a

observação será uma candidata a outlier. Ela poderá ser outlier ou valor influente.



Interpretação

No exemplo

O primeiro país (case 1) possui o resíduo padronizado acima de 3. Portanto, ele é um candidato a

outlier.

Neste quadro olharemos para o "Std Residual". Se este for menor que -3 ou maior do que 3,

existem candidatos a outlier ou valor influente.

Para isso vamos ver a Cook's Distance, se o Maximum estiver maior de 1 é porque existe

alguma (ou algumas) observações que são valores influentes. Neste caso iremos até a base de

dados (Data view), e na coluna "Coo_1" iremos procurar quem é (ou quem são) essa observação.

No caso estudado as observações são países.

Se caso o Maximun estiver menor do que 1 é porque não existem valores influentes. Logo, a

observação que estiver excedendo 3 desvios padrões será considerada outlier.

Interpretação

No exemplo

Como a distância de Cook (Cook's Distance) máxima é menor do que 1, o país Argentina, que

possui resíduo padronizado acima de 3 desvios, não é considerado valor influente, mas sim um

outlier.



Sugere-se que essa observação seja retirada do banco de dados e que a regressão linear seja

rodada novamente. Com isso, iremos comparar os resultados das duas regressões (com esta

observação e sem ela) e será muito provável que os resultados melhorem (desvio padrão do modelo

diminua e o R2 aumente).

Resta-nos verificarmos as premissas do modelo!!!

São cinco as premissas a serem verificadas e faremos isso com o auxílio dos gráficos abaixo.



Premissas básicas do modelo:

Devem ser verificadas para assegurar a adequabilidade do modelo.

São elas:

1. Linearidade

2. ~ Normal Normalidade

3. E( ) = 0

4. ( ) constante Homocedasticidade

5. cov , ) = 0 Independência

A primeira é a premissa de linearidade. Pode ser verificada pelo teste F. Se rejeitar H0 é

porque existe relação linear, então, a premissa foi satisfeita.

Outra forma de verificar é usando o gráfico dos resíduos (Regression Standardized Residuals)

versus valores ajustados, no qual os pontos devem estar distribuídos de forma aleatória

(totalmente sem formas definidas). Caso eles estejam em forma de parábola, a premissa estaria



sendo violada, então, deve-se incluir uma variável quadrática (x2) no modelo, ou buscar novas

formas de relação.

A segunda premissa é a da normalidade (distribuição Normal). Deve-se observar o gráfico

chamado P-P Plot. Caso as observações estejam na reta ou próximas da reta diagonal,

aceitamos a normalidade. Essa premissa é fundamental, pois toda inferência é feita com base

nas distribuições (t, F) que vêm da Normal. Se a Normal for violada, os testes que serão feitos

não irão servir pra nada. Se não tiver normalidade, não pode-se testar os parâmetros, realizar

o modelo.

A quarta premissa é a de homocedasticidade, que é o mesmo que dizer que a variância dos

erros é constante. Caso não seja, deve-se usar o método dos mínimos quadrados ponderados.

Essa premissa será observada no gráfico dos resíduos (na vertical) versus valores ajustados (na

horizontal). Se os pontos estiverem em forma de buzina é porque existe problema e essa

premissa está sendo violada.

A premissa da independência dos erros pode ser observada no mesmo gráfico dos resíduos

versus valores ajustados. Se os pontos estiverem distribuídos aleatoriamente (sem formas) é

porque não há problema. Mas caso eles estejam distribuídos como retas paralelas, a premissa

estará sendo violada. Esse problema ocorre mais em séries temporais.

Interpretação

A premissa da linearidade foi verificada por meio do teste F. Como rejeitou-se H0, concluiu-

se que existe relação linear entre X e Y;

Por meio do gráfico P-P Plot, verificou-se a premissa da Normalidade. Como os pontos

estão bem próximos da linha diagonal (de probabilidade acumulada), a premissa da

Normalidade foi satisfeita.

A homocedasticidade (variância dos erros constante) foi verificada através do Scattreplot

(Valores preditos X Resíduos padronizados). Como os pontos não formaram a figura de um

gramofone (buzina), a premissa da homocedasticidade foi satisfeita.

A independência dos erros foi verificada através do Scatterplot (Valores preditos X Resíduos

padronizados). Como os pontos não formaram linhas paralelas, a premissa da independência

foi satisfeita.



Conclusão

Ao realizar a regressão linear, constatou-se que existe uma relação linear significativa entre as

variáveis Y (Taxa de Risco) e X (Taxa de Juros), para a amostra estudada. Dessa forma, podemos

estimar a Taxa de Risco a partir da Taxa de Juros, através do modelo de regressão linear

Ou

(Taxa de juros)

Base de Dados

País Taxa de Risco (%) Taxa de Juros (%)

21 26,7 64,4

22 26,4 77,6

23 26,3 83,8

24 26,3 68,9

25 26,1 76,0

26 25,7 94,5

27 24,8 70,8

28 24,5 79,5

29 24,4 26,4

30 23,8 85,3

31 23,4 66,4

32 23,0 93,4

33 22,0 78,4

34 21,8 87,6

35 20,6 72,6

36 19,6 94,7

37 19,2 87,1

38 18,5 87,6

39 17,6 33,6

40 15,4 93,4

País Taxa de Risco (%) Taxa de Juros (%)

1 87,0 31,8

2 74,1 32,6

3 64,8 36,2

4 53,7 72,9

5 47,5 56,7

6 46,3 43,3

7 46,0 45,0

8 41,4 30,6

9 39,6 51,9

10 38,4 29,6

11 35,6 24,5

12 34,3 69,6

13 31,6 38,6

14 31,5 44,4

15 30,7 62,2

16 30,0 46,6

17 28,3 83,0

18 28,0 75,5

19 27,0 55,8

20 26,9 78,2

Download - Análise de Regressão Linear Simples (SPSS)

Top Related