modelo de previsão para arrecadação tributária · uma das finalidades da secretaria da receita...
Post on 23-Jan-2019
215 Views
Preview:
TRANSCRIPT
Escola de Administração Fazendária – ESAF
Tema: Ajuste Fiscal e Dívida Pública
SubTema: Ajuste Fiscal e Equilíbrio Macroeconômico
Título: MODELO DE PREVISÃO PARA ARRECADAÇÃO TRIBUTÁRIA
i
SUMÁRIO
1 - INTRODUÇÃO 1
2 - REVISÃO BIBLIOGRÁFICA 6
2.1 - SÉRIES TEMPORAIS 6
2.1.1 - Estacionariedade 72.1.2 - Função de autocorrelação 82.1.3 - Operador de diferença e operador de defasagem 102.1.4 - O modelo auto-regressivo (AR) 11
2.1.4.1 - A função de autocorrelação parcial (PACF) 132.1.5 - O modelo de médias móveis (MA) 152.1.6 - O modelo auto-regressivo de médias móveis (ARMA) 162.1.7 - O modelo auto-regressivo integrado de médias móveis (ARIMA) 172.1.8 - O modelo sazonal auto-regressivo integrado de médias móveis (SARIMA)
172.2- MÉTODOS DE PREVISÃO 19
2.2.1 - Alisamento exponencial 202.2.2 - Método de Box-Jenkins 24
2.2.2.1 - Identificação 252.2.2.2 - Estimação 292.2.2.3 - Verificação de diagnóstico 30
2.3 - Métodos de comparação de previsão 31
2.4 - Softwares estatísticos 33
2.4.1 - O programa R 332.4.2 - O programa ITSM2000 33
3 - ANÁLISE DO MÉTODO DE PREVISÃO UTILIZADO PELA SECRETARIA DA
RECEITA FEDERAL (SRF) 35
3.1 - Descrição do método de indicadores 35
3.2 - Resultados 37
3.3 - Análise econométrica 41
4 - ANÁLISE E PREVISÃO DA SÉRIE TEMPORAL DO IMPOSTO SOBRE A
RENDA (IR) 43
4.1 - Considerações gerais 43
ii
4.2 - Análise exploratória 44
4.3 - Modelagem e previsão 50
4.3.1 - Alisamento exponencial 504.3.2 - Método Box-Jenkins 52
5 - DISCUSSÃO DOS RESULTADOS 71
5.1 - Comparação de resultados 71
5.2 - Escolha do método de previsão 77
5.3 - Escolha de um modelo SARIMA 79
5.4 - Resultados da previsão para outros impostos 80
5.5 - Previsões com horizonte reduzido 84
6 - CONCLUSÃO 88
7 - REFERÊNCIAS BIBLIOGRÁFICAS 91
APÊNDICE A 93
APÊNDICE B 95
1
1 - INTRODUÇÃO
Uma das finalidades da Secretaria da Receita Federal (SRF), estabelecida em
seu Regimento Interno pela Portaria nº 227, de 03 de março de 1998, é a “de
realizar a previsão, o acompanhamento, a análise e o controle das receitas sob sua
administração, assim como a de coordenar e consolidar as previsões das demais
receitas federais, para subsidiar a proposta orçamentária da União”. Além de
expresso no Regimento Interno, a atividade de previsão de receitas públicas é um
dos requisitos essenciais da Responsabilidade na Gestão Fiscal, instituída pela
denominada Lei de Responsabilidade Fiscal (Lei Complementar nº 101, de 04 de
maio de 2000, artigo 11).
Dentro desse contexto institucional, a atividade de previsão consiste em
produzir estimativas da arrecadação de todos os tributos e contribuições
administrados pela SRF e demais receitas federais para o exercício seguinte. Então,
pode-se ter como objetivos básicos da atividade de previsão da arrecadação
tributária federal a de constituir-se em um instrumento gerencial aos administradores
e a de subsidiar a elaboração da proposta do Orçamento Geral da União.
Dessa maneira, a previsão da arrecadação dos tributos federais é uma
atividade que exerce influência na atividade econômica do país e não pode ser
relegada a uma atividade meramente cumpridora de exigências legais. Por isso, a
atividade de previsão dos tributos deve possuir características que façam dela uma
ferramenta segura de apoio para a tomada de decisões futura dos policymakers,
2
como planos de investimentos governamentais e planejamento de políticas públicas
de longo prazo. Assim, as previsões devem caracterizar-se pela precisão ou
acurácia de seus resultados, pela simplicidade dos métodos empregados e,
sobretudo, pela confiabilidade estatística dos modelos empregados para gerar as
previsões.
Em vista disso, o presente trabalho tem por objetivo principal desenvolver um
método de previsão baseado em modelos estatísticos e econométricos para a
previsão das receitas tributárias federais. Secundariamente, o trabalho mostrará que
o método de previsão utilizado atualmente no âmbito da Secretaria, denominado
método de indicadores, trata-se de uma prática, embora intuitiva,
econometricamente limitada.
Para cumprir os objetivos, analisou-se o poder preditivo do método de
indicadores e comparou-o a alguns métodos de previsão existentes, como
alisamento exponencial e modelos ARIMA (metodologia Box-Jenkins). A análise
detalhada dos procedimentos foi efetuada para a série temporal da arrecadação
agregada do Imposto sobre a Renda (IR) de julho de 1994 a junho de 1999, com os
meses do ano de 2000 servindo como parâmetros de comparação para as previsões
geradas. Foram estimadas também as previsões para os Impostos de Renda das
Pessoas Físicas e Jurídicas e o Imposto de Renda Retido na Fonte - Rendimentos
do Trabalho.
Esta dissertação encontra-se organizada em três partes principais: uma
revisão bibliográfica que aborda os conceitos básicos de séries temporais e os
3
softwares utilizados nos cálculos; a apresentação dos resultados obtidos para a
previsão dos valores futuros da série do IR para o ano de 2000 pelos métodos dos
indicadores, pelo método de alisamento exponencial e pelo método de Box-Jenkins;
e a discussão sobre os resultados obtidos.
A revisão bibliográfica compreende o estudo dos conceitos básicos de séries
temporais, buscando apresentá-los de forma simples e didática, para que esses
conceitos pudessem ser aplicados no embasamento teórico das metodologias de
previsão. Além disso, os softwares, R para Windows e ITSM2000 para Windows,
também foram objeto de abordagem detalhada.
Os resultados são apresentados por meio de gráficos e tabelas. A
comparação dos resultados se dá na parte da discussão, onde os resultados para os
três métodos são analisados detidamente e seus desempenhos preditivos colocados
à prova. Nessa parte, uma metodologia de previsão é indicada como satisfatória
para gerar as previsões dos tributos federais administrados pela Receita Federal.
A continuação desta dissertação está organizada em mais 5 capítulos: revisão
bibliográfica, análise do método dos indicadores, análise e previsão do IR, discussão
dos resultados e conclusão.
No capítulo 2 é realizado um resumo dos principais conceitos sobre séries
temporais, que envolvem a caracterização da estacionariedade de uma série,
funções de autocorrelação e autocorrelação parcial, modelos auto-regressivos, de
médias móveis e sua combinação, modelos integrados e modelos sazonais. Em
4
seguida, faz-se uma apresentação do método de previsão por alisamento
exponencial, mostrando-se os algoritmo de Holt-Winters sazonal aditivo e
multiplicativo, e da metodologia de Box-Jenkins, apresentando-se as três etapas do
ciclo iterativo que a compõe. A seguir, mostram-se os métodos mais utilizados para
a comparação dos resultados de previsão, os chamados índices de acurácia ou
precisão, e uma medida de acurácia, o MSE, é escolhida. Conclui-se o capítulo com
uma apresentação dos programas estatísticos empregados nesta dissertação, o R
para Windows e o ITSM2000 para Windows.
No capítulo 3 é feita uma análise dos métodos dos indicadores com a
descrição do método, a apresentação dos resultados das previsões geradas para 12
meses do ano de 2000 para os impostos de Renda agregado, o imposto de renda
sobre Pessoas Físicas e Jurídicas e o imposto de Renda Retido na Fonte -
Rendimentos sobre o Trabalho. A seguir, uma análise econométrica é empregada no
método para se determinar a confiança estatística das previsões geradas pelo
método utilizado pela Receita Federal.
No capítulo 4 é efetuada uma análise exploratória da série do IR agregado e
possíveis valores outliers são considerados. Ressalta-se que por causa dos outliers
6 diferentes séries do IR serão analisadas. Em seguida, são geradas previsões para
a série do IR pelos métodos de alisamento exponencial e Box-Jenkins. Todas as
etapas da metodologia de Box-Jenkins são explicadas e possíveis modelos são
escolhidos por meio de um critério de seleção de modelos, o BIC. Os modelos
escolhidos são testados pelos métodos de diagnóstico disponíveis no programa R.
5
No capítulo 5 os resultados obtidos nos capítulos 3 e 4 são comparados
utilizando os valores do BIC e do MSE. A seguir, faz-se uma escolha do método com
melhores capacidades preditivas que servirá como sugestão para a utilização pela
Secretaria da Receita Federal. Em seguida, são apresentadas as previsões para as
séries desagregadadas do IR, ou seja, as séries do IRPF, IRPJ e IRRF (rendimentos
do trabalho) e comparadas com as previsões obtidas pelo método dos indicadores.
Conclui-se apresentando previsões para horizontes reduzidos, com 1 passo e 3
passos à frente, de maneira que tal procedimento possa servir como uma espécie de
ajuste de previsões já realizadas.
O capítulo final faz uma conclusão sobre os métodos empregados na
dissertação, sugere mudanças na forma de produção de previsões e indica
possíveis extensões do trabalho.
6
2 - REVISÃO BIBLIOGRÁFICA
Neste capítulo serão apresentados os conceitos básicos de séries temporais para
subsidiar a explicação dos métodos de previsão por alisamento exponencial e
metodologia Box-Jenkins. Além disso, os softwares estatísticos utilizados neste
trabalho são analisados e seu funcionamento é apresentado.
2.1 - SÉRIES TEMPORAIS
Uma série temporal caracteriza-se como um conjunto de observações que
representa uma variável observada ao longo do tempo. Quando as observações são
obtidas continuamente, isto é, a todo instante ao longo do tempo, diz-se que a série
temporal é contínua, cuja representação é X(t). Contrariamente, uma série temporal
discreta é aquela em que as observações são tomadas em um conjunto discreto, ou
seja, em intervalos fixos de tempo, cuja representação é dada por Xt.
Uma série temporal {xt} é a realização de uma família de variáveis aleatórias
{Xt}. De outra maneira, um modelo de série temporal para dados observados {xt} é
uma especificação das distribuições de uma seqüência de variáveis aleatórias {Xt}
da qual {xt} é denominada uma realização [Brockwell & Davis, 1996]. São
necessários para a caracterização da seqüência de variáveis aleatórias somente os
momentos de primeira e segunda ordem da distribuição conjunta [Granger &
Newbold, 1986]. O momento de primeira ordem é definido como o valor esperado ou
média de Xt :
7
( ).tt XE=µ
O momento de segunda ordem é definido como o produto esperado ou a covariância
entre Xt e Xs:
( ) ( )( )[ ] .,cov, ssttstst XXEXX µµγ −−==
Define-se também a variância de Xt como
( ) ( ) ( )( )[ ] ( )[ ].var,cov 2, ttttttttttt XEXXEXXX µµµγ −=−−===
2.1.1 - Estacionariedade
Uma série temporal {Xt} é dita ser (fracamente) estacionária se
( ) ; µ=tXE(i)
; 2, ∞<= xtt(ii) σγ
. , stst(iii) −= γγ
Então, um processo estacionário apresenta média (condição (i)) e
variância (condição (ii)) constantes ao longo do tempo t e a covariância (condição
(iii)) entre os dois pontos dependente da distância entre esses pontos e
independente do tempo t [Granger & Newbold, 1986].
Em vista da condição (iii), tem-se que
02 γσ =x
e a covariância é usualmente escrita como
( ).,cov thth XX +=γ
(1.4)
(1.5)
(1.2)
(1.3)
(1.1)
8
2.1.2 - Função de autocorrelação
Define-se a função de autocovariância de uma série temporal
estacionária {Xt} como
( ) ( ) .,cov thtx XXh +=γ
A função de autocorrelação (ACF) de uma série temporal estacionária
{Xt} é definida como
( ) ( )( )
( ).,0 tht
x
xx XXcor
hh +==
γγ
ρ
As funções de autocovariância e de autocorrelação fornecem uma
medida útil do grau de dependência entre os valores de uma série temporal em
diferentes períodos. As autocorrelações medem ainda o tamanho e a força da
“memória” do processo.
O gráfico das autocorrelações amostrais versus h é chamado de
correlograma. Tal gráfico apresenta valores que serão utilizados para caracterizar as
propriedades lineares ou não do mecanismo gerador do processo [Granger &
Newbold, 1986]. Porém, não é simples examinar um correlograma e extrair dele as
correspondentes propriedades populacionais. O que se faz necessário é averiguar
alguns modelos plausíveis que provejam correlogramas de formas reconhecidas.
As funções de autocovariância e autocorrelação amostrais podem ser
(1.6)
(1.7)
9
calculadas para qualquer conjunto de dados e não estão restritas a observações de
séries temporais estacionárias [Brockwell & Davis, 1996]. Para dados contendo
tendência, a ACF exibirá um decaimento lento na medida que t aumenta, conforme
mostra a Figura 1.1. Para dados com um componente periódico determinístico,
como sazonalidade, a ACF exibirá um comportamento similar ao período, conforme
a Figura 1.2.
-1.00
-.80
-.60
-.40
-.20
.00
.20
.40
.60
.80
1.00
0 5 10 15 20 25 30 35 40
Sample ACF
Figura 1.1 - Correlograma para um série com tendência
-1.00
-.80
-.60
-.40
-.20
.00
.20
.40
.60
.80
1.00
0 5 10 15 20 25 30 35 40
ACF amostral
10
Figura 1.2 - Correlograma para um série com sazonalidade
Assim, o correlograma pode ser utilizado como um indicador de não-
estacionariedade da série temporal [Brockwell & Davis, 1996]. Deve-se notar que as
linhas tracejadas nas Figuras 1.1 e 1.2 representam limites de significância
estatística, acima dos quais as autocorrelações são consideradas significativamente
diferentes de zero.
2.1.3 - Operador de diferença e operador de defasagem
Considere a série temporal {Xt}, com t = 0,..., n. A primeira diferença da
série é definida como
,...3,2,1,1 =−=∆ − txxx ttt
O operador ∆ é denominado operador de diferença. Generalizando (1.8), a n-ésima
diferença da série é dada por
( )( ) .
!!
!,1 .
01
11
rnr
n
r
nondex
r
nxxx rt
rn
rt
nt
nt
n
−=
−=∆−∆=∆ −
=−
−− ∑
Deve-se notar que n observações são perdidas ao se calcular a n-ésima diferença.
O operador de defasagem B é definido como
.1−= tt xBx
Generalizando (1.10),
,...2,1,0, == − nxxB nttn
O operador B pode ser utilizado na forma polinomial, de maneira que
(1.8)
(1.9)
(1.10)
11
tntnttt kxdxdxdx =++++ −−− L2211
pode ser escrito como
( ) ttn
n kxBdBdBd =++++ L2211
ou
( ) ,tt kxBd =
onde
( ) ( ) .1 1n
nBdBdBd +++= L
2.1.4 - O modelo auto-regressivo (AR)
Um modelo auto-regressivo é definido de maneira que os valores da
série no tempo t dependem dos valores passados. Mais especificamente o modelo
autoregressivo de orem p AR(p) é
,1
1211 ∑=
−−−− +=++++=p
jtjtjtptpttt XXXXcX εφεφφφ L
onde a série {εt} é ruído branco1 com média zero e E[Xtεt+s] = 0, para s>0.
Escrevendo a equação (1.12) em termos do polinômio do operador de defasagem B
tem-se que
( ) .tt cXB εφ +=
O polinômio φ(B) de ordem p é chamado de polinômio AR e tem-se que
( ) .1 221
ppBBBB φφφφ −−−−= L
Para que a condição de estacionariedade para modelos AR(p) seja
(1.11)
(1.12)
(1.13)
12
satisfeita é necessário que as raízes do polinômio φ(B) estejam foram do círculo
unitário (no plano complexo). Para um modelo AR(1),
,11 ttt XcX εφ ++= −
a condição de estacionariedade é satisfeita quando |φ |<1.
Assumindo que a condição de estacionariedade está satisfeita, a média
do processo AR(p) é obtida tomando os valores esperados em (1.12),
,...21 µφµφµφµ pc ++++=
ou ainda,
( )p
c
φφφµ
−−−−=
L211
As autocovariâncias são calculadas multiplicando-se ambos os lados de (1.14) por
(Xt-j - µ) e tomando os valores esperados,
.0,
,2,1,2
11
11{=+++
=++= −−
h
h
pp
phph
h σγφγφγφγφ
γL
LL
A autocorrelação é obtida dividindo-se a equação (1.15) por γ0,
LL ,2,1,11 =++= −− hphphh ρφρφρ
As p equações obtidas de (1.16) são denominadas de equações de Yule-Walker e
podem ser escritas na forma matricial como
,ñ öP=
onde
( ) ( )′=′= p211 öñ φφφρρρ ,,,,,,, 2 LL p
1 Para definição sobre o processo ruído branco consultar [Granger & Newbold, 1986]
(1.15)
(1.16)
.
(1.14)
13
e
=
−−−
−
−
1
1
1
321
211
121
K
MMM
K
K
ppp
p
p
ρρρ
ρρρρρρ
P.
Então,
ñ,Pö 1−=
de forma que os parâmetros auto-regressivos podem ser expressos como uma
função das p autocorrelações [Mills, 1990].
O comportamento da função de autocorrelação de um processo auto-
regressivo é uma mistura de decaimento exponencial e/ou decaimento senoidal. Se
as raízes da equação auto-regressiva forem reais, então as autocorrelações
decairão exponencialmente. Caso as raízes sejam complexas, o decaimento será na
forma senoidal [Granger & Newbold, 1986].
2.1.4.1 - A função de autocorrelação parcial (PACF)
Em um processo AR(1), Xt e Xt-2 são correlacionados, mesmo que Xt-2
não apareça diretamente no modelo. O valor da correlação entre Xt e Xt-2 (i.e., ρ2) é
igual à correlação entre Xt e Xt-1 (ρ1) multiplicada pela correlação entre Xt-1 e Xt-2 (ρ1),
de forma que ρ2 = ρ12. Assim, toda essa correlação “indireta” está presente na ACF
de qualquer processo auto-regressivo [Enders, 1995].
Dessa maneira, define-se a função de autocorrelação parcial
14
(PACF) como a seqüência de correlações entre (Xt e Xt-1), (Xt e Xt-2), (Xt e Xt-3) e
assim por diante, desde que os efeitos de defasagens anteriores sobre Xt
permaneçam constantes [Hill, Griffiths & Judge, 1999]. A PACF é calculada como o
valor do coeficiente φkk na equação
.2211 tktkktktkt eXXXX ++++= −−− φφφ L
O coeficiente φkk é obtido das equações de Yule-Walker aplicadas a
(1.17). Tais equações são dadas por (1.16) e, substituindo p = k e φi = φii, tem-se
[Mills, 1990]
.
1
1
1
1
1
121
231
121
121
231
121
ρρρ
ρρρρρρρρρρ
ρρρρρρ
φ
L
MMLMM
L
L
L
MMLMM
L
L
−−
−−
−−
−−
−
−
=
kk
kk
kk
kkk
k
k
kk
Assim, para um processo AR(p) não há correlação entre Xt e Xt-k para
k > p [Mills, 1990]. Então, todos os valores de φkk para k > p são zero e a PACF para
um processo AR(p) puro apresenta um “corte” para zero para defasagens maiores
que p [Enders, 1995].
Assim, pode-se resumir que um processo AR(p) é descrito por:
- possuir uma função de autocorrelação, ACF, que é uma
combinação de decaimentos exponenciais e senoidais e tamanho
(1.17)
15
infinito; e
- possuir uma função de autocorrelação, PACF, que é zero para
defasagens maiores que p.
2.1.5 - O modelo de médias móveis (MA)
O modelo de médias móveis de ordem q, MA(q), é dado pela forma
,1,0
02211 ∑=
−−−− ≡+=+++++=q
jjtjqtqttttX θεθµεθεθεθεµ L
onde {εt} é ruído branco com média zero. Alternativamente,
( ) ( ) ,1, 1q
qtt BBBBX θθθεθ +++== L
onde θ(B) é o polinômio do operador de defasagem B. Um processo MA(q) é dito ser
invertível se as raízes de
01 221 =++++ q
q zzz θθθ L
se encontrarem fora do círculo unitário.
As autocovariâncias de ordem superior são
( )( ) ( )( )qjtqjtjtqtqttjttj EXXE −−−−−−−− ++++++=−−= εθεθεεθεθεµµγ LL 1111
e, como os termos envolvendo produtos de ε´s em diferentes instantes de tempo têm
valor esperado zero, para j > q, γj = 0, seguindo que
( ) ,,,2,1,2111 qjjqqjj LL =+++= −+ σθθθθθγ
.,0 qjj >=γ
Dessa feita, para um processo MA(q) a ACF apresenta um “corte” para zero para
(1.18)
(1.19)
16
defasagens maiores que q [Mills, 1990]. A função de autocorrelação parcial de um
processo MA(q) possui tamanho infinito [Mills, 1990].
Pode-se resumir que um processo MA(q) é descrito por:
- possuir uma ACF que é zero para defasagens maiores que q; e
- possuir uma PACF que é uma combinação de decaimentos
exponenciais e senoidais e tamanho infinito.
2.1.6 - O modelo auto-regressivo de médias móveis
(ARMA)
Um processo ARMA(p,q) é uma generalização dos modelos AR(p) e
MA(q), sendo definido como
qtqtttptpttt XXXcX −−−−−− +++++++++= εθεθεθεφφφ LL 22112211
ou ainda na forma polinomial
( ) ( ) .tt BcXB εθφ +=
A série temporal {Xt} é estacionária se e somente se as raízes de φ(z)
estiverem fora do círculo unitário. A série temporal {Xt} é invertível se e somente se
as raízes de θ(z) estiverem fora do círculo unitário. Para os modelos ARMA, as
funções de autocorrelação (ACF) e autocorrelação parciais (PACF) decaem até o
infinito em vez de apresentarem um “corte” em alguma defasagem particular, como
ocorre com os processos AR e MA puros [Mills, 1990]. Assim, para um processo
ARMA(p,q), a ACF decairá, seja diretamente ou oscilando ao redor de zero, a partir
(1.20)
17
da defasagem q. Por sua vez, a PACF decairá, seja diretamente ou oscilando ao
redor de zero, a partir da defasagem p [Enders, 1995].
2.1.7 - O modelo auto-regressivo integrado de médias
móveis (ARIMA)
Se d for um número inteiro não-negativo, então uma série temporal {Xt}
é dita ser um processo ARIMA(p,d,q) ou um processo integrado de ordem d se
( ) td
td
t XXBY ∆=−= 1
for um processo ARMA(p,q) causal [Brockwell & Davis, 1996]. Um processo
integrado é utilizado para séries não-estacionárias.
Assim, um modelo ARMA(p,q) é um modelo ARIMA(p,0,q).
Alternativamente, {Xt} deve satisfazer
( ) ( ) ( ) ,]1[ ttd BXBB εθµφ =−−
onde {εt} é ruído branco com média zero, φ(B) e θ(B) são polinômios de ordem p e q,
respectivamente, φ(B) é um operador estacionário, µ é a média de ∆dXt e d é a
ordem de diferenciação. A ordem de diferenciação será 0 ou 1 para a maioria dos
processos e raramente d = 2 [Granger & Newbold, 1986].
2.1.8 - O modelo sazonal auto-regressivo integrado de
médias móveis (SARIMA)
Suponha uma série temporal sazonal não-estacionária {Xt} observada s
(1.21)
18
períodos por ano, de maneira que s = 4 para séries trimestrais e s = 12 para séries
mensais. Uma forma de remover a sazonalidade da série e transformá-la em uma
série estacionária {Zt}, para que um modelo ARIMA possa ser empregado, é efetuar
uma diferenciação sazonal, nos moldes da diferenciação vista anteriormente. Assim,
( ) .1 tts
stt ZXBXX =−=− −
Contudo, em muitos casos é necessário adicionar ao modelo uma modelagem de Zt
determinada por seu padrão sazonal, então
( )( ) ( ) ,1 ts
t
Dss ZBXBB Θ=−Φ
onde
( ) ( ) ,1 1Ps
Pss
ss BBB Φ−−Φ−=Φ L
( ) ( ) .1 1Qs
Qss
ss BBB Θ++Θ+=Θ L
Pela equação (1.22), nota-se que o padrão sazonal é aleatório entre os ciclos s
[Brockwell & Davis, 1996].
Se a sazonalidade da série Zt tiver sido filtrada, um modelo
ARIMA(p,d,q) regular pode representar Zt, assim
( )( ) ( ) ,1 ttd BXBB εθφ =−
onde
( ) ( ),1 1p
pBBB φφφ −−−= L
( ) ( ),1 1q
qBBB θθθ +++= L
e {εt} é ruído branco com média zero.
Combinando (1.22) e (1.23), chega-se a classe de modelos sazonais
(1.22)
(1.23)
19
multiplicativos ARIMA(p,d,q)x(P,D,Q) ou SARIMA,
( ) ( )( ) ( ) ( ) ( ) ,11 ts
t
Dsds BBXBBBB εθφ Θ=−−Φ
onde {εt} é ruído branco com média zero. Nessa classe de modelos permite-se tanto
a diferenciação regular quanto a diferenciação sazonal. Nota-se que a série
diferenciada pode ser representada usando tanto componentes auto-regressivos e
de médias móveis regulares quanto sazonais. Em geral, o valor para D é raramente
maior que um e os valores de P e Q não ultrapassam 2 [Brockwell & Davis, 1996].
O processo representado por (1.24) é causal se e somente se φ(B) ≠ 0
e Φ (B) ≠ 0, para | z | ≤ 1, ou seja, se as raízes do polinômios auto-regressivos se
encontrarem fora do círculo unitário [Brockwell & Davis, 1996]. Um modelo particular
dessa classe de modelos é o chamado modelo “airline”, um modelo
SARIMA(0,1,1)(0,1,1).
A seguir, os modelos teóricos apresentados nessa seção serão
aplicados nas metodologias de previsão de alisamento exponencial e Box-Jenkins.
Tais metodologias utilizam conceitos e procedimentos diferentes para produzir
prognósticos de séries univariadas, que são séries que possuem somente um
conjunto de dados.
2.2- MÉTODOS DE PREVISÃO
Nesta seção, serão apresentados dois métodos de previsão. O primeiro
método, denominado de alisamento exponencial (exponential smoothing), é
(1.24)
20
considerado um método automático de previsão e seu procedimento é bem simples.
O segundo método, denominado de metodologia Box-Jenkins, é um método de
utilização mais complexa que o anterior e emprega a classe de modelos
ARIMA/SARIMA em sua concepção.
2.2.1 - Alisamento exponencial
O alisamento exponencial é um procedimento geral para obtenção de
algoritmos de previsão automática que produz resultados relativamente acurados, de
maneira rápida e barata [Granger & Newbold, 1986].
A forma mais simples de alisamento exponencial é aquela para séries
temporais que não possuem sazonalidade nem tendência crescente ou decrescente.
O objetivo é estimar o “nível” (ou a “média”) presente da série e usar esse nível
como previsão de valores futuros. O nível da série no tempo t é estimado como
( ) ( ) ,11 22
1 L+−+−+= −− tttt xxxx ααααα
com 0 < α < 1. Uma forma mais simples de cálculo é obtida substituindo t por t-1 e
multiplicando os dois lados de (1.46) por (1-α), o que leva a
( ) .1 1−−+= ttt xxx αα
A previsão de todos os valores futuros (fn,h), com h = 1, 2,. . ., é obtida utilizando-se a
equação (1.26), i.e.,
., nhn xf =
Para se iniciar o algoritmo é necessário especificar um valor inicial, que usualmente
é [Granger & Newbold, 1986]
.11 xx =
(1.25)
(1.26)
21
O peso de cada termo é determinado pelo valor de α, a constante de
suavização. A escolha dessa constante é feita de maneira que seu valor minimize a
soma dos erros quadrados [Janacek, 2001]. O erro de previsão é definido como
,1,1−−= ttt fxe
para t = 3, 4, ... , n. Então, a soma dos erros quadrados é dada por
( ) .3
21,1
3
2 ∑∑=
−=
−==n
ttt
n
tt fxeS
Caso a série temporal apresente tendência, a equação (1.26) não é
capaz de fazer previsões de movimentos crescentes ou decrescentes futuros. O
algoritmo de alisamento exponencial de Holt-Winters leva em consideração esses
movimentos e permite estimar também a inclinação atual da série.
O nível e a inclinação da série são dados, respectivamente, por
( )( )( ) ( ) ,1
,1
11
11
−−
−−
−+−=
+−+=
tttt
tttt
TxxT
Txxx
ββαα
com 0 < α < 1 e 0 < β < 1, constantes de suavização. As previsões são obtidas
supondo um acréscimo ou decréscimo continuado dado pela última estimativa de
inclinação; assim,
.,,4,3,, nhhTxf nnhn K=+=
Os possíveis valores iniciais do algoritmo são
.
,
122
22
xxT
xx
−=
=
Os valores para as constantes de suavização são obtidos como anteriormente, de
forma que seus valores minimizem a soma dos quadrados dos erros de previsão um
(1.27)
22
passo à frente. O erro de previsão é dado por
( ) .,,5,4,111,1 ntTxxfxe tttttt K=+−=−= −−−
Então, a soma dos erros quadrados é
( ) .4
21,1
4
2 ∑∑=
−=
−==n
ttt
n
tt fxeS
Se a série temporal contiver movimentos sazonais de período s, o
algoritmo de Holt-Winters precisa ser modificado para que a sazonalidade seja
estimada. Assim, o algoritmo de Holt-Winters sazonal é definido de modo que para
cada período seja necessário estimar um fator de sazonalidade, Ft. No instante t, a
última estimativa do fator de sazonalidade para o período é Ft-s (obtido do mesmo
período do ano anterior) [Cribari-Neto, 2000]. As equações para o nível, a inclinação
e para o fator de sazonalidade são, considerando que a sazonalidade seja aditiva,
( ) ( )( )( ) ( )( ) ( )( ) ,1
,1
,1
11
11
stttt
tttt
ttsttt
FxxF
TxxT
TxFxx
−
−−
−−−
−+−=
−+−=
+−+−=
γγββαα
com 0 < α < 1 , 0 < β < 1 e 0 < γ < 1, constantes de suavização. As previsões são
dadas por
M
K
K
,2,,2,1,
,,,2,1,
2
,
ssshFhTx
shFhTxf
shtnn
shtnnhn
++=++=
=++=
−+
−+
Considerando a sazonalidade multiplicativa, as equações para o nível,
a inclinação e para o fator de sazonalidade são, respectivamente,
(1.28)
23
( )( )
( ) ( )
( )( ) ,1
,1
,1
11
11
stt
tt
tttt
tt
st
tt
Fx
xF
TxxT
TxF
xx
−
−−
−−−
−+
=
−+−=
+−+
=
γγ
ββ
αα
com 0 < α < 1 , 0 < β < 1 e 0 < γ < 1, constantes de suavização. As previsões são
dadas por
( )( ).
,2,,2,1,
,,,2,1,
2
,
M
K
K
ssshFhTx
shFhTxf
shtnn
shtnnhn
++=+=
=+=
−+
−+
Os possíveis valores iniciais do algoritmo podem ser [Brockwell & Davis, 1996]
( )
( )( ) .,,1,1
,
,
1
111
11
siiTxxFs
xxT
xx
siii
ss
ss
K=−+−=
−=
=
+
++
++
Tanto para a sazonalidade aditiva quanto para a sazonalidade
multiplicativa, os valores das constantes de suavização são calculados de forma a
minimizar a soma dos quadrados dos erros de previsão um passo à frente. O erro de
previsão é
( ) .,,51,14,111,1 ntFTxxfxe sttttttt K=++−=−= −−−−
Então, a soma dos erros quadrados é
( ) .14
21,1
14
2 ∑∑=
−=
−==n
ttt
n
tt fxeS
As formas aditivas e multiplicativas do algoritmo de Holt-Winters
sazonal podem fornecer previsões bem diferentes. Se a série apresentar oscilações
(1.29)
24
sazonais aproximadamente constantes, o modelo aditivo é mais indicado. Porém, se
as oscilações sazonais forem proporcionais ao nível da série, o modelo multiplicativo
é mais indicado. Alternativamente, pode-se utilizar os dois procedimentos e escolher
aquele que fornece a menor soma dos erros de previsão um passo à frente ao
quadrado [Cribari-Neto, 2000].
2.2.2 - Método de Box-Jenkins
Dada uma série temporal não-sazonal não-estacionária {Xt}, considere
que ela possa ser representada por um modelo da classe ARIMA(p,d,q),
( )( ) ( ) ,1 tt
d BXBB εθφ =−
onde
( ) ( ) ,1 1p
pBBB φφφ −−−= L
( ) ( ) .1 1q
qBBB θθθ +++= L
O objetivo da metodologia de Box-Jenkins [Box & Jenkins, 1970] é
encontrar um modelo estocástico linear da classe ARIMA que possa ter gerado {Xt} e
que esse modelo possa ser utilizado para fornecer previsões de valores futuros da
série [Granger & Newbold, 1986]. Caso a série temporal {Xt} apresente
sazonalidade, {Xt} pode ser representada por um modelo da classe
SARIMA(p,d,q) (P,D,Q), conforme a equação (1.24).
A estratégia de modelagem, tanto para modelos sazonais quanto para
não-sazonais, é baseada em um ciclo de três etapas iterativas:
25
(i) identificação do modelo;
(ii) estimação do modelo; e
(iii) verificação de diagnóstico.
A etapa de identificação consiste em selecionar valores para p, d, q e
P, D, Q (no caso de modelos sazonais). Essa etapa envolve subjetividade e
julgamento pessoal. Na etapa de estimação, os coeficientes identificados na etapa
anterior são estimados usando técnicas estatísticas. A última etapa indica se o
modelo identificado e estimado descreve adequadamente o comportamento dos
dados da série {Xt}. Caso o modelo não seja adequado, o ciclo deve começar
novamente [Cribari-Neto, 2000].
Um conceito importante nessa metodologia é o princípio da parcimônia
[Enders, 1995]. Tal princípio sugere que modelos mais simples, com poucos
parâmetros, produzem melhores previsões que modelos superparametrizados. Um
modelo parcimonioso ajusta bem os dados sem incorporar coeficientes inúteis. O
objetivo é se aproximar do processo gerador original dos dados e não descrevê-lo
exatamente [Enders, 1995].
2.2.2.1 - Identificação
Essa etapa é considerada a mais difícil e delicada, e não há consenso
sobre qual a melhor estratégia a ser seguida [Granger & Newbold, 1986]. Dentre as
várias estratégias existentes, duas se destacam: a análise das funções de
26
autocorrelação e autocorrelação parcial amostrais, e o uso de um critério de seleção
de modelos.
Para utilizar a primeira estratégia é necessário reconhecer modelos
AR, MA e ARMA por meio das características da ACF e da PACF. A Tabela 2.1
resume as propriedades da ACF e da PACF para diversos modelos ARIMA [Mills,
1990]. Para modelos sazonais, o comportamento da ACF e da PACF deve ser
analisado também próximo da defasagem sazonal, por exemplo, defasagem 12 para
dados mensais e defasagem 4 para dados trimestrais. A Tabela 2.2 resume as
propriedades da ACF e da PACF para modelos SARIMA [Bowerman & O’Connell,
1987].
Tabela 2.1 - Propriedades da ACF e da PACF para vários modelos ARIMAModelo ACF PACF
(1,d,0)Decaimento exponencial ouoscilatório
φkk=0 para k > 1
(2,d,0)Decaimento exponencial ousenoidal
φkk=0 para k > 2
(p,d,0)Decaimento exponencial e/ousenoidal
φkk=0 para k > p
(0,d,1)ρk = 0 para k > 1 Dominado por decaimento
exponencial
(0,d,2)ρk = 0 para k > 2 Dominado por decaimento
exponencial ou senoidal
(0,d,q)ρk = 0 para k > q Dominado pela combinação
linear de decaimentoexponencial e/ou senoidal
(1,d,1)Decaimento exponencial apartir da defasagem 1
Dominado por decaimentoexponencial a partir dadefasagem 1
(p,d,q)Decaimento exponencial e/ousenoidal depois da defasagemq-p
Dominado por decaimentoexponencial ou senoidaldepois da defasagem q-p
27
Tabela 2.2 - Propriedades da ACF e da PACF para modelos SARIMAModelo ACF PACF(P,D,0) Decaimento Picos nas defasagens s, 2s, ...Ps
e corte após Ps
(0,D,Q) Picos nas defasagens s, 2s, ...Qse corte após Qs
Decaimento
(P,D,0)ou
(0,D,Q)
Picos nas defasagens s, 2s, ...Qse corte após Qs
Picos nas defasagens s, 2s, ...Pse corte após Ps
(P,D,0)e
(0,D,Q)
Decaimento rápido nadefasagem sazonal
Decaimento rápido nadefasagem sazonal
Nenhumoperadorsazonal
Valores pequenos em todas asdefasagens sazonais (não hápicos)
Valores pequenos em todas asdefasagens sazonais (não hápicos)
Além de identificar os valores para p e q (e os valores de P e Q para
modelos SARIMA), o grau de diferenciação da série (valor d e valor D para modelos
sazonais) precisa ser conhecido. Para tanto, utiliza-se também a inspeção da ACF e
da PACF amostrais. Para um modelo não-sazonal, um comportamento suave
persistente nas autocorrelações amostrais em defasagens altas indica não-
estacionariedade, i.e., necessidade de diferenciação. Assim, deve-se diferenciar a
série para sucessivos valores positivos de d e examinar o correlograma de {∆dXt}
[Cribari-Neto, 2000].
A segunda estratégia para identificar os valores de p, d, q é utilizar um
critério de informação que selecione os modelos por meio de um conjunto de
“regras” [Mills, 1990]. Os critérios de seleção para modelos ARIMA mais utilizados
são o AIC (Akaike information criterion), o AICC (Akaike information criterion
corrected) e o BIC (Bayesian information criterion). Esses critérios incorporam um
termo de penalidade para o aumento do número de parâmetros (p e q) no modelo,
28
de forma que modelos mais “parcimoniosos”, ou seja, com o menor número de
parâmetros, sejam escolhidos. As equações para esses critérios, sendo T o número
de observações, são [Cribari-Neto, 2000]
( )( )
( ) ,logˆlog2
,1
2ˆlog2
,2ˆlog2
TqpLBIC
qpT
TqpLAICC
qpLAIC
++−=
−−−+
+−=
++−=
onde L representa a verossimilhança maximizada.
O critério AIC superestima assintoticamente a ordem verdadeira do
modelo [Granger & Newbold, 1986] apresentando tendência a escolher modelos
superparametrizados [Cribari-Neto, 2000]. O AICC é uma versão corrigida do AIC
que incorpora uma correção de viés para amostras finitas, possuindo uma
penalidade mais forte para modelos de ordem elevada [Brockwell & Davis, 1996].
O BIC é um critério consistente, de forma que ele fornece estimativas
de p e q que convergem em probabilidade para os valores verdadeiros à medida que
T tende a infinito [Brockwell & Davis, 1996]. Já os critérios AIC e AICC não são
consistentes. Por outro lado, o AIC é assintoticamente eficiente para modelos
puramente auto-regressivos.
Na prática, a seleção de modelos é feita calculando o valor do critério
(o BIC, por exemplo) para todos os modelos ARIMA associados aos valores de p, d
e q de forma que p,q =0,1,2,3,4,5 e d =0,1. Assim, seleciona-se o modelo que
apresenta o menor valor do BIC e modelos alternativos cuja diferença para o valor
^
29
mínimo do BIC seja inferior a 2 [Brockwell & Davis, 1996]. Para a modelagem
SARIMA, a quantidade de modelos investigados é maior, pois além dos valores de
p, d e q, deve-se incluir ainda os valores para P,Q = 0,1,2 e D = 0,1. Porém, os
modelos são selecionados pelos mesmos critérios que os utilizados para os modelos
ARIMA.
2.2.2.2 - Estimação
Assumindo que um modelo ARIMA da forma
( )( ) ( ) tq
qtdp
p BBXBBB εθθφφ +++=−−−− LL 11 111
seja escolhido conforme a etapa anterior, o objetivo agora é estimar, utilizando o
método de máxima verossimilhança (ML)2, os parâmetros φφ = (φ1,...,φp)´,
θθ = (θ1,...,θq)´ e σ2, a variância de εt.
A estimação da ML é difícil e geralmente requer muito tempo de
processamento computacional. Desta forma, existem alternativas que aproximam a
função de máxima verossimilhança. Duas dessas alternativas são o MQE (mínimos
quadrados exatos) e o MQC (mínimos quadrados condicional). Contudo, alguns
estudos têm sugerido [Ansley & Newbold, 1980] que o método de máxima
verossimilhança é superior aos demais.
Para a modelagem SARIMA o procedimento é idêntico ao mostrado
para a modelagem ARIMA, com a superioridade da estimação por máxima
2 Para uma demonstração da estimativa de ML, consultar [Mills, 1990].
(1.30)
30
verossimilhança sendo ainda mais pronunciada para modelos sazonais [Ansley &
Newbold, 1980].
2.2.2.3 - Verificação de diagnóstico
A correta especificação de um modelo ARIMA ou SARIMA é verificada
no termo εt, pois ele deve constituir um processo ruído branco [Granger & Newbold,
1986]. Assim, a verificação da adequabilidade do modelo é efetuada nas
autocorrelações amostrais dos erros (εt), as quais seguem assintoticamente uma
distribuição normal, com média zero e desvio padrão n- ½, se forem provenientes de
um ruído branco. Como os erros verdadeiros (εt) não são conhecidos, a inferência
baseia-se nas estimativas dos erros, os resíduos εt.
Dessa forma, se o modelo estiver corretamente especificado, os
resíduos não devem apresentar correlação serial, pois toda a dinâmica dos dados já
foi capturada pelo modelo [Cribari-Neto, 2000]. A autocorrelação amostral dos
resíduos de ordem j é calculada como [Granger & Newbold, 1986]
( ) .ˆ
ˆˆ
ˆ
1
2
1
∑
∑
=
+=−
=T
tt
T
jtjtt
jrε
εεε
Então, os valores das autocorrelações residuais devem estar contidos no intervalo
de confiança assintótico de 95% que é [Cribari-Neto, 2000]
−
TT
2,
2,
31
onde T indica o número de observações da série.
Em adição ao exame das autocorrelações individuais dos resíduos um
teste conjunto das primeiras m autocorrelações pode ser utilizado, que é conhecido
por teste Ljung-Box. Tal teste “portmanteau” compara o valor de
( ) ( ) ( )jj
m
j
rjTTTQ ε̂2 2
1
1∑=
−−+=
com valores tabulados da distribuição do χ2 (qui-quadrado) com (m - p - q) graus de
liberdade e com a rejeição da hipótese nula (de que o modelo é adequado) para
valores de Q maiores que o valor crítico assintótico [Granger & Newbold, 1986]. O
valor de m deve ser pelo menos igual a √T [Cribari-Neto, 2000].
2.3 - Métodos de comparação de previsão
Um dos métodos de escolha do melhor mecanismo de previsão é a
comparação dos valores previstos (Xt) com os valores observados da série (Xt), o
que caracteriza a acurácia ou a capacidade preditiva do mecanismo utilizado. Os
três métodos mais populares de medição da acurácia utilizam os resíduos em seus
cálculos [Kvanli et al.,1996]. Esses métodos são o desvio absoluto médio (MAD), o
erro quadrático médio (MSE) e o erro percentual absoluto médio (MAPE). Assim, os
resíduos são definidos como
.ˆttt XXe −=
O desvio absoluto médio (MAD) é definido como a média dos valores
^
32
absolutos de cada resíduo e é representado por
,n
eMAD t∑=
onde n é o número de valores previstos obtidos dos dados passados.
O erro quadrático médio (MSE) é a média dos valores quadráticos de cada
resíduo, assim
.2
n
eMSE
t∑=
O erro percentual absoluto médio (MAPE) considera o erro relativo de cada
previsão. O erro relativo em cada período t é definido como et /Xt. Então,
.n
X
e
MAPE t
t∑=
Não há consenso entre os estatísticos sobre qual método é preferível. Assim,
se erros elevados de previsão são inaceitáveis, então o uso do MSE faz-se
necessário. Entretanto, se é possível ignorar alguns erros elevados, o MAD funciona
melhor. E o MAPE é utilizado para comparar a acurácia (precisão) de duas séries
temporais diferentes [Kvanli, et al., 1996]. Dessa forma, o MSE será utilizado como
critério de acurácia para as comparações dos métodos de previsão apresentados
neste trabalho.
33
2.4 - Softwares estatísticos
2.4.1 - O programa R
O programa R é um sistema para computação estatística e gráfica. Ele
provê, dentre outras coisas, uma linguagem de programação, ferramentas gráficas
de alto nível, interface com outras linguagens de programação e ferramentas para
depuração. O R é uma versão gratuita do programa S-PLUS comercializado pela
MathSoft, Inc. Essa plataforma possui várias qualidades. A primeira é ser um
programa gratuito e de livre distribuição. A segunda é permitir a criação de novas
funções e a possibilidade de modificação das funções internas. O R pode ser obtido
via Internet no endereço www.r-project.org e possui versões para os sistemas
operacionais Windows, Unix e Macintosh.
2.4.2 - O programa ITSM2000
O programa ITSM2000, diferentemente do R, é um programa
proprietário. Não há a possibilidade de alteração de suas funções, nem a
possibilidade de distribuição gratuita. O programa (versão Windows) acompanha o
livro “Introducion to Time Series and Forecasting” de Peter Brockwell & Richard
Davis. Trata-se de um programa simples e bastante intuitivo, baseado em escolhas
de menu e botões, seguindo o padrão dos programas para o sistema operacional
Windows.
Contudo, o ITSM2000 é um programa razoavelmente preciso e
34
completo, permitindo estimação de modelos ARIMA por máxima verossimilhança
exata [Cribari-Neto, 2000]. O critério de seleção de modelos utilizado no programa é
o AICC.
No próximo capítulo, o método de previsão utilizado no âmbito da
Secretaria da Receita Federal será descrito e detalhado. A descrição envolve a
formulação teórica do método, bem como os resultados obtidos na sua aplicação.
Os resultados mostrados neste capítulo restringem-se ao Imposto sobre a Renda e
seus componentes mais significativos.
35
3 - Análise do método de previsão utilizado
pela Secretaria da Receita Federal (SRF)
Este capítulo descreve sucintamente o método de previsão utilizado pela SRF,
mostra as previsões geradas por tal método e faz uma análise econométrica,
mostrando sua inadequabilidade como instrumento estatisticamente confiável de
previsão.
3.1 - Descrição do método de indicadores
O método utilizado no âmbito da SRF, denominado de indicadores, consiste
na multiplicação da arrecadação do período anterior por:
- um índice de preço que represente a variação inflacionária a que
está sujeito o fato econômico gerador da arrecadação;
- um índice de quantidade que represente a variação real desse fato
gerador;
- um índice que represente o efeito causado na arrecadação por
modificações na legislação tributária;
- outros índices que representem quaisquer influências na
arrecadação tributária.
Esse método pode ser resumido genericamente na fórmula
36
( )( )( )( ),11111 ULQPXX tt ∆+∆+∆+∆+= −
onde
Xt = arrecadação prevista para determinado período do ano t;
Xt-1 = arrecadação efetiva do mesmo período do ano t-1;
∆P = variação percentual do indicador de preços;
∆Q = variação percentual do indicador de quantidades;
∆L = variação percentual decorrente de alterações da legislação; normalmente
significa variação de alíquotas;
∆U = variação percentual de qualquer outro indicador que tenha influência na
arrecadação e não possa ser enquadrado nos indicadores básicos (preço,
quantidade e legislação).
Os termos (1+∆P), (1+∆Q) e (1+∆L) são denominados, respectivamente,
Efeito-Preço, Efeito-Quantidade e Efeito-Legislação. O termo (1+∆U) representa o
Efeito-Residual. A qualidade da previsão com a utilização desse método depende da
obtenção de bons indicadores de preço e quantidade específicos para cada caso
(tributo, setor econômico ou item de receita).
Os órgãos de pesquisa de preços e acompanhamento da conjuntura
econômica (IBGE, FGV, IPEA) são fontes importantes para se identificar quais os
índices de preço e quantidade melhor se adequam aos vários tributos. Na Tabela 3.1
estão relacionados alguns tributos e seus principais indicadores de preço e
quantidade.
(3.1)
37
A SRF mantém registro de séries históricas dos principais indicadores de
preços e algumas séries de quantidade. As projeções dos parâmetros
macroeconômicos (inflação, PIB, taxa de câmbio e taxa de juros) que influenciam os
diversos indicadores são elaboradas pela Secretaria de Política Econômica do
Ministério da Fazenda (SPE).
Tabela 3.1 - Tributos e seus indicadores de preço e quantidadeINDICADORES ESPECÍFICOSTRIBUTO/CONTRIBUIÇÃO
PREÇO QUANTIDADE
Imposto de Importação Taxa de câmbio Volume de importaçõestributadas, em dólar
IPI - Bebidas Índice de preços de bebidasVolume de vendas de bebidas ao
mercado interno
IPI - AutomóveisÍndice de preços da indústria
automobilísticaVolume de vendas de
automóveis ao mercado internoImposto de Renda Pessoa
Física - IRPFIGP - Índice Geral de Preços Número de contribuintes
Imposto de Renda PessoaJurídica - IRPFJ
IGP - Índice Geral de Preços PIB
Imposto de Renda Retido naFonte - IRRF - Trabalho
Variação nominal de salários Nível de emprego
Imposto de Renda Retido naFonte - IRRF - Capital
Taxa de jurosVolume em R$ de aplicações
financeirasIOF - Imposto sobreoperações financeiras
Variação nominal do volume de credito e prêmios de seguro (emR$)
COFINS IGP - Índice Geral de Preços PIB
3.2 - Resultados
Os resultados obtidos pela SRF com a utilização do método dos indicadores
para os componentes mais significativos da série do Imposto de Renda estão
mostrados na Tabela 3.2, juntamente com os valores reais da arrecadação, a
diferença percentual entre a previsão e o valor observado (∆%) e o valor do critério
38
de acurácia MSE.
Tabela 3.2 - Previsão gerada pelo método dos indicadoresSérie Imposto sobre a Renda - Agregado
Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez Totalprevisão 5.042 3.619 5.641 4.079 4.777 3.820 3.952 4.486 3.666 3.854 4.154 4.847 51.937
Real 5.156 4.206 5.718 4.713 4.113 4.261 4.937 4.619 4.375 4.825 4.705 6.546 58.174∆∆% -2,22 -13,97 -1,35 -13,46 16,13 -10,34 -19,96 -2,88 -16,20 -20,12 -11,70 -25,95 -10,72
∆∆% média -10,17MSE 585.247
Série Imposto de Renda Pessoa Física - IRPFJan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez Total
previsão 136 106 124 819 424 401 405 383 381 138 124 136 3.578Real 209 159 173 829 407 334 371 336 334 182 226 194 3.754∆∆% -35,09 -33,33 -28,14 -1,20 4,30 20,09 9,05 13,97 14,19 -23,96 -45,14 -30,04 -4,70
∆∆% média -11,28MSE 3.062
Série Imposto de Renda Pessoa Jurídica - IRPJJan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez Total
previsão 1.305 1.029 2.338 1.180 1.019 871 1.195 1.014 857 1.177 854 937 13.777Real 1.519 1.629 2.652 1.501 963 1.013 1.866 1.285 1.111 1.901 1.159 1.592 18.191∆∆% -14,11 -36,84 -11,82 -21,37 5,83 -13,99 -35,97 -21,07 -22,84 -38,09 -26,34 -41,12 -24,26
∆∆% média -23,14MSE 188.725
Série Imposto de Renda Retido na Fonte - Rendimentos do TrabalhoJan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez Total
previsão 1.370 1.302 1.454 1.052 1.557 1.219 1.222 1.528 1.236 1.246 1.723 2.072 16.980Real 1.462 1.306 1.625 1.227 1.494 1.333 1.350 1.547 1.476 1.435 1.755 2.870 18.880∆∆% -6,31 -0,32 -10,53 -14,29 4,20 -8,53 -9,49 -1,24 -16,24 -13,17 -1,80 -27,82 -10,06
∆∆% média -8,80MSE 69.494
As Figuras 3.1, 3.2, 3.3 e 3.4 mostram o gráfico da série temporal do imposto,
somente para o ano de 1999, em preto, o valor da arrecadação real no ano de 2000
em azul e o valor da previsão para o ano de 2000 em vermelho pontilhado, para
cada um dos impostos constantes na Tabela 3.2. Todos os valores da arrecadação
são mostrados a preços constantes de junho de 2000.
39
Figura 3.1 - Gráfico do valor real e da previsão gerada
Figura 3.2 - Gráfico do valor real e da previsão gerada
40
Figura 3.3 - Gráfico do valor real e da previsão gerada
Figura 3.4 - Gráfico do valor real e da previsão gerada
41
3.3 - Análise econométrica
Considere novamente a equação que descreve o método dos indicadores
( )( )( )( ).11111 ULQPXX tt ∆+∆+∆+∆+= −
Substituindo o resultado da multiplicação dos índices entre parênteses por uma
constante ct, a equação (3.2) fica
.1−= ttt XcX
Caso ∆P, ∆Q, ∆L e ∆U sejam simultaneamente zero, ou seja, não ocorram
alterações percentuais em nenhum dos índices, o valor de ct em (3.3) será igual a 1
e a previsão será igual ao último valor observado. Caso um dos índices apresente
variação percentual positiva, por exemplo ∆P = 10%, ceteris paribus, o valor de ct em
(3.3) será igual a 1,1. Caso a variação percentual seja negativa, por exemplo ∆P = -
10%, ceteris paribus, o valor de ct em (3.3) será igual a 0,9. Assim, ct pode assumir,
dependendo do sinal da variação percentual, valores maiores ou menores que 1.
Generalizando, caso haja variações positivas e negativas simultâneas em todos os
índices, o valor de ct na equação (3.3) pode assumir valores maiores ou menores
que zero.
A equação (3.3) assemelha-se a uma estrutura AR(1), conforme mostra a
equação (1.12), a menos do termo de erro εt e do fato que em (3.3) ct varia com t.
Assim, o método dos indicadores deve ser considerado como uma representação de
um modelo auto-regressivo de ordem 1 uma vez que Xt-1 representa a arrecadação
efetiva no período anterior.
(3.3)
(3.2)
42
Contudo, além de não conter um termo residual, o método dos indicadores
falha em reproduzir um AR(1) ao possibilitar que o valor de ct possa assumir
qualquer valor diferente de zero. E, como já foi visto, todo processo auto-regressivo
de ordem 1 que apresenta o valor absoluto de sua raiz como maior que 1 não pode
representar um processo estacionário. Então, não há perda alguma em se
desconsiderar processos AR(1) com |φ1 | > 1 [Brockwell & Davis, 1996].
Desta maneira, o método dos indicadores utilizado pela Secretaria da Receita
Federal não está reproduzindo um processo auto-regressivo causal, estacionário.
Suas previsões não são confiáveis, uma vez que as condições básicas de
estacionariedade não são satisfeitas. Por isso, tal método deveria ser abandonado
em prol de alguma outra metodologia mais adequada.
Tal metodologia pode ser alguma das que serão mostradas no próximo
capítulo, que inicia-se com uma análise exploratória da série agregada do Imposto
sobre a Renda. Depois, as metodologias de previsão por alisamento exponencial e
modelagem SARIMA serão empregadas para essa série e os resultados das
previsões obtidas passarão por uma análise detalhada.
43
4 - Análise e previsão da série temporal do
Imposto sobre a Renda (IR)
Este capítulo começa com considerações gerais sobre a série temporal do IR e suas
especificidades na utilização desse trabalho. A seguir, são empregadas as
metodologias de previsão de Holt-Winters sazonal e Box-Jenkins para a obtenção de
valores futuros para a série do IR.
4.1 - Considerações gerais
O Imposto sobre a Renda foi escolhido para a análise nesse trabalho devido a
sua importância na arrecadação federal. De acordo com a Tabela 4.1, verifica-se
que esse imposto correspondeu a mais de 30% tanto das receitas administradas
pela SRF quanto do total arrecadado pela União Federal no ano de 2000 (em
valores nominais).
Existem dados mensais da série histórica do Imposto de Renda, assim como
de todos os tributos federais, desde janeiro de 1986. Dessa forma, há mais de 180
observações na série temporal. Apesar de ser um número razoável de observações,
deve-se considerar as inúmeras mudanças econômicas ocorridas no Brasil desde
então para se utilizar todos esses dados em uma análise econométrica. Assim,
neste trabalho optou-se por utilizar os dados disponíveis após a implementação do
Plano Real, por ser esse um período de estabilidade inflacionária persistente.
44
Tabela 4.1 - Participação do Imposto sobre a Renda na arrecadação total daSRF - 2000
Imposto R$ - milhões % - administradas % - arrecadaçãoImposto sobre a Importação 8.510,1 5,12 4,83Imposto sobre a Exportação 2,5 0,00 0,00Imposto sobre Produtos Industrializados 18.839,1 11,33 10,70Imposto sobre a Renda 56.396,6 33,92 32,04I.O.F. - Imposto s/ Operações Financeiras 3.126,7 1,88 1,78I.T.R. - Imposto Territorial Rural 267,0 0,16 0,15CPMF - Contrib. Movimentação Financeira 14.544,6 8,75 8,26Cofins - Contribuição Seguridade Social 39.903,2 24,00 22,67Contribuição para o Pis/Pasep 10.043,0 6,04 5,71CSLL - Contribuição Social s/ Lucro 9.278,0 5,58 5,27Contrib. p/ Plano Seg. Social Servidores 3.626,6 2,18 2,06Contribuição para o Fundaf 372,4 0,22 0,21Outras Receitas Administradas 1.350,3 0,81 0,77Receitas de Loterias 951,6 0,57 0,54Demais 398,7 0,24 0,23Receitas Administradas pela SRF 166.260,10 100,00 94,45Total da Arrecadação Federal 176.020,60 100,00Fonte: Secretaria da Receita Federal - MF
Desta maneira, os dados analisados foram divididos em duas partes. A
primeira parte corresponde aos valores observados a partir de julho de 1994 até o
mês de dezembro de 1999. Esses dados serão utilizados pelos métodos de
alisamento exponencial e de Box-Jenkins para prever os dados conhecidos da
segunda parte, os valores da arrecadação do ano de 2000. A medida de acurácia de
previsão empregada será o MSE. A seguir, será feita uma análise exploratória sobre
a série do Imposto de Renda.
4.2 - Análise exploratória
O Imposto de Renda possui a seguinte classificação: IRPF - Pessoa Física,
IRPJ - Pessoa Jurídica, IRRF - Retido na Fonte. O IRRF apresenta ainda quatro
subdivisões, a saber: Rendimentos do Trabalho, Rendimentos do Capital, Remessas
45
para o Exterior e Outros Rendimentos
Desta maneira, oito séries distintas de dados precisam ser analisadas. Para
simplificação e para evitar repetição de procedimentos, somente a série agrupada do
imposto será descrita e analisada detalhadamente. Para as séries do IRPF , do IRPJ
e do IRRF - Rendimentos do Trabalho, somente os resultados serão apresentados.
A série do imposto de renda {IR} analisada possui 66 observações e seu
gráfico é apresentado na Figura 4.1 em milhões de reais. Os dados foram ajustados
pelo índice de preços IGP-DI divulgado pela Fundação Getúlio Vargas em janeiro de
2000, com base em junho de 2000. Assim, os dados são expressos em reais de
junho de 2000 e podem ser interpretados como a preços constantes, sem centavos.
A Tabela 4.2 mostra os valores em milhões de reais das observações da série {IR}.
Figura 4.1 - Gráfico da série do IR
46
Tabela 4.2 - Valores do Imposto sobre a Renda agregado em R$-milhõesJan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez
1994 2.546 2.677 2.731 2.507 2.574 4.0521995 3.950 3.041 4.245 3.042 5.295 3.568 3.411 3.550 3467 3.425 3.458 4.3091996 3.532 2.883 6.992 3.502 3.629 3.260 3.657 3.201 3.397 3.339 3.359 6.1011997 4.095 3.102 4.093 4.375 3.411 3.419 4.145 3.345 3.511 4.055 3.492 5.9871998 6.331 4.366 5.869 4.780 3.463 3.575 5.246 4.989 4.529 4.189 3.834 5.8901999 5.139 5.718 6.127 5.187 4.083 4.268 4.519 3.683 5184 4.210 3.654 5.9522000 5.156 4.206 5.718 4.713 4.113 4.261 4.937 4.619 4.375 4.825 4.705 6.546
A série {IR} apresenta uma média amostral de 4,099 bilhões de reais com um
desvio padrão de 1,047 bilhões de reais. O valor máximo das observações é de
6,992 bilhões de reais, que corresponde ao mês de março de 1996, e o valor mínimo
é de 2,507 bilhões de reais, referente ao mês de outubro de 1994. Nota-se, pela
Figura 4.1, que há uma flutuação considerável na série, que pode estar sendo
causada por movimentos sazonais. A distribuição de freqüências de {IR} está
mostrada no histograma da Figura 4.2, em milhões de reais. Verifica-se que a
distribuição é positivamente assimétrica, com o valor do coeficiente de assimetria de
Pearson igual a 0,809. O coeficiente de curtose é 2,90 e a distribuição do {IR} é dita
platicúrtica relativamente à distribuição normal.
Figura 4.2 - Histograma da série
47
A presença de movimentos sazonais na série {IR} pode ser observada na
Figura 4.3, que mostra a componente de sazonalidade presente na série. Nota-se
claramente um comportamento sazonal homogêneo e estável em todos os anos da
série, o que caracteriza a série como uma série sazonal.
Figura 4.3 - Componente sazonal do IR
Em relação ao crescimento da arrecadação do IR, a taxa média de
crescimento é de 5,43% ao mês, com a taxa mediana ficando em 0,23% ao mês. O
gráfico na Figura 4.4 mostra a taxa de crescimento da série {IR} e a Figura 4.5
mostra o histograma da taxa de crescimento da série. Pelo gráfico da Figura 4.4,
nota-se que o crescimento máximo foi entre os meses de fevereiro e março de 1996,
142,5%. Esse crescimento elevado deveu-se principalmente ao pagamento
antecipado do ajuste anual do IRPJ realizado em março daquele ano. Anteriormente,
esse pagamento era estendido até o mês de maio [Folha de S. Paulo, 1996].
O crescimento mínimo foi entre os meses de março e abril de 1996, -49,9%.
48
Tal decréscimo deveu-se em parte na decisão da Secretaria da Receita Federal em
processar as declarações do IRPF, recolhidas até o dia 31 de abril, apenas no final
de maio [Folha de S. Paulo, 1996]. O valor elevado do desvio padrão, 32,58%,
evidencia a alta variabilidade na arrecadação desse imposto, o que pode ser
corrigido mediante o uso da série transformada em logaritmo.
Figura 4.4 - Gráfico da taxa de crescimento do IR
Figura 4.5 - Histograma da taxa de crescimento
49
Pelo gráfico da Figura 4.4, pelo histograma na Figura 4.5 e pela descrição dos
valores máximos e mínimos da taxa de crescimento, verifica-se que claramente o
valor de março de 1996, 6,99 bilhões de reais, é uma observação que destoa das
demais, ou seja, essa observação é um outlier e pode distorcer todo o
comportamento da série.
A evolução da arrecadação pode ser observada na Figura 4.6, que mostra a
componente de tendência da série. Observam-se quatro níveis principais nesse
gráfico, o 1º nível, que vai até novembro de 1995, apresenta um elevado
crescimento da série; o 2º nível, que compreende os meses de dezembro de 1995 a
fevereiro de 1997, mostra um crescimento quase nulo da arrecadação; o 3º nível,
que vai até janeiro de 1999, mostra novamente um crescimento elevado da série e o
4º nível, que compreende o ano de 1999, apresenta um início de diminuição da
arrecadação.
Figura 4.6 - Componente de tendência da série - crescimento da arrecadação
50
Devido à elevada variabilidade da série, a transformação de Box-Cox com
λ = 0 (transformação logarítmica) será empregada e a série resultante será também
modelada. Dado que o valor de março de 1996 é um outlier, ele será substituído
pelo menor valor para o mês de março na série e também pelo valor médio dos
meses de março na série [Venables & Ripley, 1999]. Desta maneira, além da série
original do IR, serão modeladas mais 5 séries: uma série utilizando o valor do mês
de março como o menor valor dos meses de março {IRmodif}, outra série utilizando
o valor médio dos meses de março {IRmodif2} e as transformações logarítmicas de
{IR}, {IRmodif} e {IRmodif2}, que serão denominadas log{IR}, log{IRmodif} e
log{IRmodif2}.
4.3 - Modelagem e previsão
4.3.1 - Alisamento exponencial
Como o método de alisamento exponencial é considerado um
procedimento automático de previsão, não se faz necessário aplicar nenhuma
estratégia de modelagem, a menos para verificar se existem tendências ou
sazonalidades. Desta maneira, o algoritmo de Holt-Winters sazonal aditivo será
empregado para a previsão das séries por meio da utilização do programa
ITSM2000. A Tabela 4.3 mostra os valores otimizados das constantes de suavização
da equação (1.28), α, β e γ , para cada uma das séries analisadas. As Tabelas 4.4,
4.5 e 4.6 mostram as previsões obtidas para cada uma das séries, a diferença
percentual entre a previsão e o valor observado (∆%) e o valor do MSE.
51
Tabela 4.3 - Coeficientes otimizadosCoeficientes otimizados
Sériesα β γ
{IR} 0,09 0,07 0,48log{IR} 0,13 0,10 0,55
{IRmodif} 0,10 0,06 0,69log{IRmodif} 0,14 0,07 0,68{IRmodif2} 0,10 0,07 0,61
log{IRmodif2} 0,13 0,10 0,64
Tabela 4.4 - Previsões geradas para as séries {IR} e log {IR}Série {IR} Série log{IR}
Mês/2000Arrecadação Real
em R$ milhões previsão ∆% MSE Previsão ∆% MSEJaneiro 5.156 5.670 9,97 - 5.622 9,04 -Fevereiro 4.206 5.135 22,09 - 4.996 18,78 -Março 5.718 6.180 8,08 - 6.072 6,19 -Abril 4.713 5.126 8,76 - 4.977 5,60 -Maio 4.113 4.376 6,39 - 4.070 -1,05 -Junho 4.261 4.350 2,09 - 4.111 -3,52 -Julho 4.937 4.994 1,15 - 4.788 -3,02 -Agosto 4.619 4.427 -4,16 - 4.140 -10,37 -Setembro 4.375 5.030 14,97 - 4.841 10,65 -Outubro 4.825 4.538 -5,95 - 4.289 -11,11 -Novembro 4.705 4.140 -12,01 - 3.845 -18,28 -Dezembro 6.546 6.355 -2,92 - 6.225 -4,90 -
Total 58.174 60.321 3,69 207.963 57.976 -0,34 221.613Diferença percentual média 4,04 -0,17
Tabela 4.5 - Previsões geradas para as séries {IRmodif} e log{IRmodif}Série {IRmodif} Série log{IRmodif}
Mês/2000Arrecadação Realem R$ milhões previsão ∆% MSE previsão ∆% MSE
Janeiro 5.156 5.709 10,73 - 5.706 10,67 -Fevereiro 4.206 5.488 30,48 - 5.309 26,22 -Março 5.718 6.140 7,38 - 6.038 5,60 -Abril 4.713 5.225 10,86 - 5.092 8,04 -Maio 4.113 4.163 1,22 - 4.020 -2,26 -Junho 4.261 4.289 0,66 - 4.139 -2,86 -Julho 4.937 4.915 -0,45 - 4.806 -2,65 -Agosto 4.619 4.285 -7,23 - 4.141 -10,35 -Setembro 4.375 5.187 18,56 - 5.055 15,54 -Outubro 4.825 4.499 -6,76 - 4.376 -9,31 -Novembro 4.705 4.043 -14,07 - 3.903 -17,05 -Dezembro 6.546 6.332 -3,27 - 6.364 -2,78 -Total 58.174 60.275 3,61 312.879 58.949 1,33 281.221Diferença percentual média 4,01 1,57
52
Tabela 4.6 - Previsões geradas para a série {IRmodif2}Série {IRmodif2} Série log{IRmodif2}
Mês/2000Arrecadação Real
em R$ milhões previsão ∆% MSE previsão ∆% MSEJaneiro 5.156 5.687 10,30 - 5.652 9,62 -Fevereiro 4.206 5.327 26,65 - 5.185 23,28 -Março 5.718 6.107 6,80 - 6.027 5,40 -Abril 4.713 5.164 9,57 - 5.034 6,81 -Maio 4.113 4.183 1,70 - 3.995 -2,87 -Junho 4.261 4.271 0,23 - 4.087 -4,08 -Julho 4.937 4.921 -0,32 - 4.746 -3,87 -Agosto 4.619 4.309 -6,71 - 4.083 -11,60 -Setembro 4.375 5.089 16,32 - 4.915 12,34 -Outubro 4.825 4.475 -7,25 - 4.280 -11,30 -Novembro 4.705 4.037 -14,20 - 3.815 -18,92 -Dezembro 6.546 6.306 -3,67 - 6.199 -5,30 -
Total 58.174 59.876 2,93 260.900 58.018 -0,27 272.674Diferença percentual média 3,29 -0,04
4.3.2 - Método Box-Jenkins
A estratégia de modelagem de Box-Jenkins consiste de três etapas,
conforme explicitado anteriormente. Para a etapa de identificação é utilizado o
correlograma da série, para uma aproximação inicial, e um procedimento de procura
dos menores valores do critério de seleção BIC. Inicialmente, a análise recairá sobre
as funções de autocorrelação amostral.
O correlograma da série {IR} está mostrado na Figura 4.7, com o
número de defasagens indo de 0 a 36 (36 corresponde a 3 no eixo horizontal). Os
picos nas autocorrelações de ordem 1, 3 e 9 indicam a não-estacionariedade da
série e sugerem a necessidade de diferenciação, talvez d = 1. Além disso, os valores
das autocorrelações indicam que o valor do termo de médias móveis pode ser de
ordem 1 ou 3, p = 0 e q = 1 ou 3.
53
Figura 4.7 - Função de autocorrelação amostral de {IR}
Ao se analisar o correlograma da primeira diferença de {IR},
mostrado na Figura 4.8, evidencia-se fortemente que o termo de médias móveis
pode ser de ordem 1, uma vez que todas as autocorrelações amostrais entre as
defasagens 2 e 10 são estatisticamente iguais a zero.
Figura 4.8 - Função de autocorrelação amostral da primeira diferença de{IR}
54
Já os valores de ρ(12) = 0,44, ρ(24) = 0,21 e ρ(36) = 0,08 na série {IR}
indicam a presença de sazonalidade e sugerem que o valor do termo de médias
móveis sazonal pode ser de ordem 1, P = 0 e Q = 1, além da necessidade de
diferenciação sazonal, D = 1. A sazonalidade pode ser evidenciada também no
gráfico da primeira diferença da série, cujos valores de ρ(12), ρ(24) e ρ(36) são 0,45,
0,32 e 0,19, respectivamente.
O gráfico da diferença sazonal, D = 1, confirma a suspeita de não-
estacionariedade e da existência de sazonalidade na série original {IR}. O resultado,
mostrado na Figura 4.9, indica autocorrelações amostrais estatisticamente iguais a
zero em todas as defasagens, menos nas defasagens 12 e 29, sendo que esse
último valor pode ser explicado como erro amostral [Granger & Newbold, 1986].
Figura 4.9 - Função de autocorrelação amostral da 12ª diferença de { IR}
Esses resultados sugerem o exame da série diferenciada duas vezes,
55
uma diferenciação regular e outra sazonal, de forma que d = 1 e D = 1
simultaneamente. O correlograma para essa diferenciação dupla está mostrado na
Figura 4.10. Notam-se valores estatisticamente diferentes de zero na defasagem 1,
o que sugere um termo MA(1), e nas defasagens 12 e 13, o que sugere fortemente a
presença de sazonalidades, de forma que Q = 1. Então, um modelo SARIMA(p = 0,
d = 1, q = 1)(P = 0, D = 1, Q = 1), representado por
( )( ) ( )( ) ,1111 1211
12tt BBXBB εθ Θ++=−−
pode ser uma estimada inicial para a análise da série em questão. Essa análise
revela-se idêntica para a série do log{IR}.
Figura 4.10 - ACF amostral da 1º e 12º diferenças de { IR}
A série {IRmodif} apresenta um comportamento que se aproxima da
estacionariedade mais do que a série original {IR}, o que comprova o fato que o
outlier de março de 1996 distorce a série. O correlograma da primeira diferença para
a série {IRmodif} não apresenta um valor estatisticamente diferente de zero na
56
defasagem 11, mas os valores referentes às defasagens 1 e 12 são significativos. Já
o correlograma da 12ª diferença mostra-se totalmente estacionário, representando
um processo ruído branco, o que significa que todo movimento sazonal foi absorvido
pela diferenciação, caracterizando o termo de média móvel sazonal como zero,
Q = 0.
O correlograma para a dupla diferenciação não apresenta pico na
defasagem 12, mas nas defasagens 1 e 13 o valor da autocorrelação amostral é
significativo. Assim, tanto a 1ª diferença quanto a 12ª diferença produzem resultados
estacionários, o que pode ser indicativo que d = D = 1. Dessa maneira, espera-se
que os modelos SARIMA(0,1,1)(0,1,0) ou SARIMA(0,1,1)(0,1,1) possam representar
adequadamente a série {IRmodif}.
Para a série log{IRmodif}, o comportamento da série se aproxima mais
da condição de estacionariedade do que a série {IRmodif}. O correlograma da
primeira diferença é idêntico ao da série {IRmodif}. O correlograma da 12ª diferença
apresenta somente um valor estatisticamente diferente de zero na defasagem 1, o
que sugere q = 1 e Q = 0. O correlograma da 1ª e 12ª diferenças simultâneas
apresenta também somente um valor elevado na defasagem 1, o que sugere que
novamente q = 1 e Q = 0. Assim, tanto pode ocorrer a diferenciação regular ou não,
de forma que d = 0 ou d = 1 e espera-se que os modelos SARIMA(0,1,1)(0,1,0) e
SARIMA(0,0,1)(0,1,0) possam representar adequadamente a série log{IRmodif}.
A série {IRmodif2} não se aproxima tanto da condição de
estacionariedade do quanto a série {IRmodif}, mostrando-se bem próxima da série
57
original {IR}. Assim, os correlogramas da 1ª diferença e da 1ª e 12ª diferenças
simultâneas possuem um comportamento similar ao correlograma da série {IR}. O
correlograma da 12ª diferença apresenta somente um valor estatisticamente
diferente de zero na defasagem 12, o que característico de série sazonal. Assim,
espera-se que um modelo SARIMA(0,1,1)(0,1,1) possa representar adequadamente
a série {IRmodif2}.
A série log{IRmodif2} apresenta no correlograma da 1ª diferença um
comportamento similar ao correlograma de {IR}. O correlograma da 12ª diferença
apresenta um valor estatisticamente diferente de zero na defasagem 11,
caracterizando o termo sazonal. No correlograma da 1ª e 12ª diferenças simultâneas
há picos na defasagem 1 e 12. Então, espera-se que um modelo
SARIMA(0,1,1)(0,1,1) possa representar adequadamente a série log{IRmodif2}.
Deve-se destacar que para as 5 séries descritas acima o correlograma
da série sem diferenciação é semelhante ao da série original {IR}, com picos nas
defasagens 1, 3 e 12, caracterizando a necessidade de diferenciação serial.
Após a análise feita com os correlogramas, a identificação dos modelos
a serem estimados utilizará um critério de seleção de modelos. A escolha dos
modelos se baseia na minimização do valor do BIC. Esse critério foi utilizado por ser
um critério consistente, ou seja, quanto maior as observações, mais ele seleciona
um modelo que se aproxima do verdadeiro mecanismo gerador de dados, e por ele
ser parcimonioso, ou seja, por tipicamente escolher modelos com poucos
parâmetros.
58
Aqueles modelos que apresentarem o menor valor para o BIC e os que
tiverem valor até duas unidades a mais que o menor valor do BIC serão escolhidos.
Deve-se notar que a função interna do R, a função arima0, não informa o valor do
critério BIC, mas sim do AIC. Dessa maneira, a função arima0 foi modificada para
que o valor do BIC fosse informado.
Assim, será utilizada uma função externa ao programa R obtida de
[Cribari-Neto, 2000] que se encontra no Apêndice A. Tal função calcula, para um
dado conjunto inicial de d, P, D, e Q, o valor do BIC para diferentes valores de p e q,
com 0 ≤ p ≤ 4 e 0 ≤ q ≤ 4. Assim, esses valores do BIC são armazenados em uma
matriz, cuja posição (ij) representa os valores p e q, calculados como
.11 −=−= jqeip
Os intervalos possíveis para os valores de d, P, D, e Q são definidos
como D = [1], P = [0,2], Q = [0,2], d = [0,1]. Assim, para cada série são examinados
450 modelos e seus respectivos valores do BIC, uma vez que há 18 combinações
possíveis de modelos com os valores de d, P, D, e Q conforme definidos acima e a
matriz gerada pela função externa é de tamanho 5x5, ou seja, apresenta 25
elementos ou 25 valores de p e q. A Tabela 4.7 traz, para cada série, os modelos
escolhidos pelo menor valor do critério BIC e aqueles modelos que diferem em até
duas unidades do menor valor do BIC. Os resultados resumidos dos 450 modelos
possíveis de cada série estão mostrados no Apêndice B.
Assim, para a série {IR}, a Tabela 4.7 mostra que o modelo que
apresenta o menor valor do critério BIC é o modelo airline, ou seja, um modelo
59
SARIMA(0,1,1)(0,1,1). O modelo alternativo que também será estimado é um
modelo SARIMA(0,1,1)(1,1,0). Essa conclusão coincide com a oriunda da análise
dos correlogramas.
Tabela 4.7 - Valores do BIC e modelos escolhidosModelos
Série(p,d,q) (P,D,Q)
BIC
(0,1,1) (0,1,1) 873{IR}
(0,1,1) (1,1,0) 874,9(0,1,1) (0,1,1) -18,5(0,1,1) (1,1,0) -16,7log{IR}(1,0,1) (0,1,1) -16,4(0,1,1) (0,1,0) 857,2(0,1,1) (0,1,1) 857,9(0,1,1) (1,1,0) 859,1
{IRmodif}
(1,1,1) (0,1,0) 859,3(0,0,1) (0,1,0) -32,8(0,1,1) (0,1,0) -32,3(1,0,1) (0,1,0) -31,7(0,1,1) (0,1,1) -30,9(1,0,0) (0,1,1) -30,7
log{IRmodif}
(1,0,0) (1,1,0) -30,7(0,1,1) (0,1,1) 861,6(0,1,1) (1,1,0) 863,3(0,1,2) (0,1,1) 863,5
{IRmodif2}
(1,1,1) (0,1,1) 863,8(1,0,0) (0,1,0) -27,3(0,0,1) (0,1,0) -26,7(0,1,1) (0,1,1) -26,7(0,1,1) (0,1,0) -25,5
log{IRmodif2}
(0,1,1) (1,1,0) -25,3
Nota-se, para a série log{IR}, que o modelo que apresenta o menor
valor do critério BIC é novamente o modelo airline, ou seja, um modelo
SARIMA(0,1,1)(0,1,1). Os modelos alternativos que também serão estimados são
um modelo SARIMA(0,1,1)(1,1,0) e um modelo SARIMA(1,0,1)(0,1,1). Outra vez, a
análise efetuada com os correlogramas acertou ao sugerir o modelo airline como um
modelo adequado para a série log{IR}.
60
Para a série {IRmodif} o modelo com menor valor do BIC é um
SARIMA(0,1,1)(0,1,0), mas o modelo airline, SARIMA(0,1,1)(0,1,1), apresenta um
valor do BIC muito próximo ao daquele modelo. Assim, além desses dois, um
modelo SARIMA(0,1,1)(1,1,0) e outro SARIMA(1,1,1)(0,1,0) também serão
estimados. Para essa série, a análise dos correlogramas está novamente certa, pois
sugeriu os mesmos dois modelos que também apresentaram o menor valor para o
BIC.
A série log{IRmodif} apresentou 6 modelos diferentes para serem
estimados. O modelo que possui o menor BIC é um SARIMA(0,0,1)(0,1,0), mas o
modelo SARIMA(0,1,1)(0,1,0) possui o valor do BIC muito próximo ao do modelo
anterior. Esses dois modelos se distinguem por causa da diferenciação regular, ou
seja, o valor de d. E tal fato foi previsto corretamente na análise dos correlogramas
da série. Além desses dois modelos, os modelos SARIMA(1,0,1)(0,1,0),
SARIMA(1,0,0)(0,1,1), SARIMA(0,1,1)(0,1,1) e SARIMA (1,0,0)(1,1,0) serão também
estimados.
Para a série {IRmodif2} o modelo que apresenta o menor valor do BIC
é novamente um modelo airline, SARIMA(0,1,1)(0,1,1). Além desse modelo, os
modelos SARIMA(0,1,1)(1,1,0), SARIMA(0,1,2)(0,1,1) e SARIMA(1,1,1)(0,1,1) serão
estimados. O exame das autocorrelações amostrais feito anteriormente revelou
também que um possível modelo para estimação era o modelo airline.
O modelo que possui o menor valor do BIC, para a série log{IRmodif2},
é um SARIMA(1,0,0)(0,1,0). Mais 4 modelos apresentam um valor de BIC próximo
ao do menor valor, SARIMA(0,0,1)(0,1,0), SARIMA(0,1,1)(0,1,1),
61
SARIMA(0,1,1)(0,1,0) e SARIMA(0,1,1)(1,1,0). Nessa série, a análise do
correlograma não revelou apropriadamente o modelo principal a ser estimado,
porém ainda assim o modelo airline foi especificado.
Após a identificação dos prováveis modelos, a etapa da estimação
gerará os valores estimados dos parâmetros φ, θ, Φ e Θ e, por conseqüência, as
previsões. Para essa etapa, as funções internas do R arima0 e predict serão
utilizadas. Assim, de posse dos modelos escolhidos pela etapa anterior, que são
aqueles com menor valor do BIC e aqueles com uma diferença para o menor BIC
não superior a 2 unidades, calcula-se para cada série a previsão para 12 meses, a
diferença percentual entre o valor previsto e o valor real (∆%) e o valor do MSE.
As Tabelas 4.8, 4.9, 4.10, 4.11, 4.12 e 4.13 mostram os resultados das
previsões para as séries {IR}, log{IR}, {IRmodif}, log{IRmodif}, {IRmodif2} e
log{IRmodif2}, respectivamente. A Tabela 4.14 mostra o cálculo das estatísticas t,
que medem a significância estatística dos parâmetros estimados, para serem
comparados com o valor de 1,96 que corresponde ao nível assintótica da
distribuição normal a 95% de significância, para aqueles modelos com o menor valor
do BIC, conforme mostrados na Tabela 4.7.
As Figuras 4.11, 4.12, 4.13, 4.14, 4.15 e 4.16 mostram,
respectivamente, para cada uma das séries {IR}, log{IR}, {IRmodif}, log{IRmodif},
{IRmodif2} e log{IRmodif2}, um gráfico da previsão gerada pelos modelos com o
menor valor do BIC. O gráfico é composto da série temporal do imposto de renda
somente para o ano de 1999 em preto, o valor da arrecadação real no ano de
62
2000 em azul e o valor da previsão gerada para o ano de 2000 em vermelho
pontilhado.
Tabela 4.8 - Previsões geradas para a série {IR} - valores em R$ milhões(0,1,1)(0,1,1) (0,1,1)(1,1,0)
Mês Real Prev. ∆∆% Prev. ∆∆%Jan 5.156 5.708 10,71 6.232 20,87Fev 4.206 5.058 20,26 5.555 32,07Mar 5.718 6.443 12,68 6.504 13,75Abr 4.713 5.293 12,31 5.491 16,51Mai 4.113 4.750 15,49 4.282 4,11Jun 4.261 4.573 7,32 4.430 3,97Jul 4.937 5.161 4,54 5.382 9,01Ago 4.619 4.681 1,34 4.832 4,61Set 4.375 5.098 16,53 5.365 22,63Out 4.825 4.773 -1,08 4.704 -2,51Nov 4.705 4.439 -5,65 4.247 -9,73Dez 6.546 6.560 0,21 6.426 -1,83
Total 58.174 62.537 7,50 63.450 9,07∆∆% média 7,89 9,45
MSE 253.846 476.673
Figura 4.11 - Gráfico da previsão gerada para o modelo SARIMA(0,1,1)(0,1,1)
63
Tabela 4.9 - Previsões geradas para a série log{IR} - valores em R$ milhões(0,1,1)(0,1,1) (0,1,1)(1,1,0) (1,0,1)(0,1,1)
Mês Real Prev. ∆∆% Prev. ∆∆% Prev. ∆∆%Jan 5.156 5.636 9,31 6.025 16,85 5.586 8,34Fev 4.206 4.967 18,09 5.464 29,91 4.930 17,21Mar 5.718 6.401 11,94 6.451 12,82 6.319 10,51Abr 4.713 5.223 10,82 5.372 13,98 5.158 9,44Mai 4.113 4.370 6,25 4.081 -0,78 4.294 4,40Jun 4.261 4.322 1,43 4.243 -0,42 4.249 -0,28Jul 4.937 5.027 1,82 5.165 4,62 4.935 -0,04Ago 4.619 4.378 -5,22 4.497 -2,64 4.287 -7,19Set 4.375 5.010 14,51 5.247 19,93 4.912 12,27Out 4.825 4.561 -5,47 4.505 -6,63 4.458 -7,61Nov 4.705 4.118 -12,48 4.000 -14,98 4.016 -14,64Dez 6.546 6.616 1,07 6.354 -2,93 6.446 -1,53
Total 58.174 60.629 4,22 61.404 5,55 59.590 2,43∆∆% média 4,34 5,81 2,57
MSE 207.871 397.849 193.268
Figura 4.12 - Gráfico da previsão gerada para o modelo SARIMA(0,1,1)(0,1,1)
64
Tabela 4.10 - Previsões geradas para a série {IRmodif} - valores em R$ milhões(0,1,1)(0,1,0) (0,1,1)(0,1,1) (0,1,1)(1,1,0) (1,1,1)(0,1,0)
Mês Real Prev. ∆∆% Prev. ∆∆% Prev. ∆∆% Prev. ∆∆%Jan 5.156 5.153 -0,06 5.505 6,77 5.547 7,58 5.388 4,50Fev 4.206 5.732 36,28 5.283 25,61 5.521 31,26 6.015 43,01Mar 5.718 6.141 7,40 6.040 5,63 6.190 8,25 6.437 12,57Abr 4.713 5.201 10,35 5.181 9,93 5.215 10,65 5.500 16,70Mai 4.113 4.097 -0,39 4.137 0,58 4.060 -1,29 4.396 6,88Jun 4.261 4.282 0,49 4.239 -0,52 4.228 -0,77 4.582 7,53Jul 4.937 4.533 -8,18 4.860 -1,56 4.817 -2,43 4.833 -2,11Ago 4.619 3.697 -19,96 4.194 -9,20 4.118 -10,85 3.997 -13,47Set 4.375 5.198 18,81 5.047 15,36 5.153 17,78 5.498 25,67Out 4.825 4.224 -12,46 4.401 -8,79 4.330 -10,26 4.524 -6,24Nov 4.705 3.668 -22,04 3.922 -16,64 3.821 -18,79 3.968 -15,66Dez 6.546 5.966 -8,86 6.171 -5,73 6.062 -7,39 6.266 -4,28
Total 58.174 57.892 -0,48 58.980 1,39 59.062 1,53 61.404∆∆% média 0,12 1,79 1,98 6,26
MSE 517.505 264.761 374.351 584.730
Figura 4.13 - Gráfico da previsão gerada para o modelo SARIMA(0,1,1)(0,1,0)
65
Tabela 4.11 - Previsões geradas para a série log{IRmodif} - valores em R$milhões
(0,0,1)(0,1,0) (0,1,1)(0,1,0) (1,0,1)(0,1,0) (0,1,1)(0,1,1) (1,0,0)(0,1,1) (1,0,0)(1,1,0)Mês Real
Prev. ∆∆% Prev. ∆∆% Prev. ∆∆% Prev. ∆∆% Prev. ∆∆% Prev. ∆∆%Jan 5.156 5.171 0,29 5.100 -1,09 5.114 -0,81 5.431 5,33 5.238 1,59 5.243 1,69Fev 4.206 5.718 35,95 5.674 34,90 5.695 35,40 5.217 24,04 5.583 32,74 5.615 33,50Mar 5.718 6.127 7,15 6.080 6,33 6.106 6,79 6.032 5,49 6.094 6,58 6.113 6,91Abr 4.713 5.187 10,06 5.147 9,21 5.172 9,74 5.143 9,12 5.149 9,25 5.158 9,44Mai 4.113 4.083 -0,73 4.052 -1,48 4.073 -0,97 4.035 -1,90 4.026 -2,12 4.034 -1,92Jun 4.261 4.268 0,16 4.235 -0,61 4.260 -0,02 4.157 -2,44 4.202 -1,38 4.212 -1,15Jul 4.937 4.519 -8,47 4.484 -9,18 4.512 -8,61 4.781 -3,16 4.570 -7,43 4.570 -7,43Ago 4.619 3.683 -20,26 3.655 -20,87 3.678 -20,37 4.049 -12,34 3.770 -18,38 3.768 -18,42Set 4.375 5.184 18,49 5.144 17,58 5.178 18,35 5.001 14,31 5.114 16,89 5.132 17,30Out 4.825 4.210 -12,75 4.178 -13,41 4.206 -12,83 4.321 -10,45 4.207 -12,81 4.208 -12,79Nov 4.705 3.654 -22,34 3.626 -22,93 3.651 -22,40 3.814 -18,94 3.667 -22,06 3.667 -22,06Dez 6.546 5.952 -9,07 5.906 -9,78 5.948 -9,14 6.157 -5,94 5.947 -9,15 5.947 -9,15
Total 58.174 57.756 -0,72 57.281 -1,54 57.593 -1,00 58.138 -0,06 57.567 -1,04 57.667 -0,87
∆∆% média -0,13 -0,84 -0,41 0,26 -0,52 -0,34MSE 518.353 516.689 512.026 278.206 455.430 467.035
Figura 4.14 - Gráfico da previsão gerada para o modelo SARIMA(0,1,1)(0,1,0)
66
Tabela 4.12 - Previsões geradas para a série {IRmodif2} - valores em R$milhões
(0,1,1)(0,1,1) (0,1,1)(1,1,0) (0,1,2)(0,1,1) (1,1,1)(0,1,1)Mês Real
Prev. ∆∆% Prev. ∆∆% Prev. ∆∆% Prev. ∆∆%Jan 5.156 5.624 9,08 5.847 13,40 5.720 10,94 5.704 10,63Fev 4.206 5.194 23,49 5.523 31,31 5.406 28,53 5.378 27,86Mar 5.718 6.151 7,57 6.320 10,53 6.332 10,74 6.325 10,62Abr 4.713 5.247 11,33 5.327 13,03 5.428 15,17 5.425 15,11Mai 4.113 4.360 6,01 4.147 0,83 4.503 9,48 4.507 9,58Jun 4.261 4.370 2,56 4.306 1,06 4.533 6,38 4.533 6,38Jul 4.937 5.021 1,70 5.061 2,51 5.183 4,98 5.184 5,00Ago 4.619 4.420 -4,31 4.431 -4,07 4.567 -1,13 4.570 -1,06Set 4.375 5.079 16,09 5.236 19,68 5.264 20,32 5.260 20,23Out 4.825 4.571 -5,26 4.487 -7,01 4.728 -2,01 4.729 -1,99Nov 4.705 4.139 -12,03 4.002 -14,94 4.285 -8,93 4.289 -8,84Dez 6.546 6.358 -2,87 6.214 -5,07 6.512 -0,52 6.515 -0,47
Total 58.174 60.534 4,06 60.901 4,69 62.461 7,37 62.419 7,30
∆∆% média 4,45 5,10 7,83 7,75MSE 225.266 372.106 326.076 317.364
Figura 4.15 - Gráfico da previsão gerada para o modelo SARIMA(0,1,1)(0,1,1)
67
Tabela 4.13 - Previsões geradas para a série log{IRmodif2} - valores em R$milhões
(0,0,1)(0,1,0) (0,1,1)(0,1,0) (1,0,1)(0,1,0) (0,1,1)(0,1,1) (1,0,0)(0,1,1)Mês Real
Prev. ∆∆% Prev. ∆∆% Prev. ∆∆% Prev. ∆∆% Prev. ∆∆%Jan 5.156 5.160 0,08 5.173 0,33 5.502 6,71 5.143 -0,25 5.714 10,82Fev 4.206 5.727 36,16 5.718 35,95 4.993 18,71 5.723 36,07 5.448 29,53Mar 5.718 6.131 7,22 6.127 7,15 6.101 6,70 6.132 7,24 6.281 9,85Abr 4.713 5.188 10,08 5.187 10,06 5.134 8,93 5.191 10,14 5.251 11,42Mai 4.113 4.083 -0,73 4.083 -0,73 4.162 1,19 4.086 -0,66 4.024 -2,16Jun 4.261 4.268 0,16 4.268 0,16 4.193 -1,60 4.271 0,23 4.190 -1,67Jul 4.937 4.519 -8,47 4.519 -8,47 4.889 -0,97 4.523 -8,39 4.929 -0,16Ago 4.619 3.683 -20,26 3.683 -20,26 4.208 -8,90 3.686 -20,20 4.222 -8,59Set 4.375 5.184 18,49 5.184 18,49 4.944 13,01 5.188 18,58 5.158 17,90Out 4.825 4.210 -12,75 4.210 -12,75 4.418 -8,44 4.213 -12,68 4.369 -9,45Nov 4.705 3.654 -22,34 3.654 -22,34 3.949 -16,07 3.657 -22,27 3.857 -18,02Dez 6.546 5.952 -9,07 5.952 -9,07 6.362 -2,81 5.957 -9,00 6.166 -5,81
Total 58.174 57.759 -0,71 57.758 -0,72 58.855 1,17 57.770 -0,69 59.609 2,47
∆∆% média -0,12 -0,12 1,37 -0,10 2,80MSE 520.964 518.359 194.672 518.733 359.625
Figura 4.16 - Gráfico da previsão gerada para o modelo SARIMA(1,0,0)(0,1,0)
68
Tabela 4.14 - Cálculo das estatísticas t para os modelos com menor BICParâmetros estimados
Série Modeloerro-padrão
estatística t (em valor absoluto)
-1,00 -0,69{IR} (0,1,1)(0,1,1)
0,13 0,277,69 2,55
-0,84 -0,57log{IR} (0,1,1)(0,1,1)
0,12 0,207,00 2,85
-0,78{IRmodif} (0,1,1)(0,1,0)
0,126,50
0,41log{IRmodif} (0,0,1)(0,1,0)
0,113,72
-0,87 -0,50{IRmodif2} (0,1,1)(0,1,1)
0,15 0,205,80 2,50
0,39log{IRmodif2} (0,0,1)(0,1,0)
0,128,33
Após a obtenção das previsões, a próxima etapa do método de Box-
Jenkins é a verificação da qualidade do ajuste. Por causa da quantidade de modelos
selecionados, somente aqueles modelos que apresentaram o menor valor do BIC
são verificados. Para essa verificação, a função interna do R arima0.diag será
utilizada, mas com algumas modificações. Como a função original não traça as
bandas assintóticas da distribuição normal (1,96 e -1,96) no gráfico dos Resíduos
Normalizados, tais linhas foram incorporadas.
A função original calcula os valores p para a estatística Box-Pierce e
não para a estatística Ljung-Box, e isso também foi modificado, uma vez que a
estatística Ljung-Box é tipicamente mais precisa em amostras pequenas. Nesse
mesmo gráfico, como todos os valores p devem estar acima de 0,05 e abaixo de 1, o
limite do eixo vertical foi aumentado para que uma linha tracejada fosse traçada
justamente no limite de y = 1. Além disso, os títulos e as legendas dos gráficos estão
em português.
69
Os gráficos de diagnóstico para o modelo SARIMA(0,1,1)(0,1,1) da
série {IR}, cuja equação estimada é dada por
( )( ) ( )( )[ ] [ ]27,013,0
,69,01111 1212tt BBXBB ε−−=−−
onde os valores entre colchetes representam os valores aproximados do erro padrão
para os parâmetros estimados, sugerem a validade do modelo.
Os gráficos de diagnóstico para o modelo SARIMA(0,1,1)(0,1,1) da
série log{IR}, cuja equação estimada é dada por
( )( ) ( )( )[ ] [ ]20,012,0
,57,0184,0111 1212tt BBXBB ε−−=−−
onde os valores entre colchetes representam os valores aproximados do erro padrão
para os parâmetros estimados, sugerem a validade do modelo.
Os gráficos de diagnóstico para o modelo SARIMA(0,1,1)(0,1,0) da série
{IRmodif}, cuja equação estimada é dada por
( )( ) ( )[ ]12,0
,78,0111 12tt BXBB ε−=−−
onde os valores entre colchetes representam os valores aproximados do erro padrão
para os parâmetros estimados, sugerem a validade do modelo.
Os gráficos de diagnóstico para o modelo SARIMA(0,0,1)(0,1,0) da série
log{IRmodif}, cuja equação estimada é dada por
( ) ( )[ ]11,0
,41,011 12tt BXB ε+=−
70
onde os valores entre colchetes representam os valores aproximados do erro padrão
para os parâmetros estimados, sugerem a validade do modelo.
Os gráficos de diagnóstico para o modelo SARIMA(0,1,1)(0,1,1) da série
{IRmodif2}, cuja equação estimada é dada por
( )( ) ( )( )[ ] [ ]20,015,0
,50,0187,0111 1212tt BBXBB ε−−=−−
onde os valores entre colchetes representam os valores aproximados do erro padrão
para os parâmetros estimados, sugerem a validade do modelo.
Os gráficos de diagnóstico para o modelo SARIMA(0,0,1)(0,1,0) da série
log{IRmodif2}, cuja equação estimada é dada por
( )( )[ ]12,0
,139,01 12ttXBB ε=−+
onde os valores entre colchetes representam os valores aproximados do erro padrão
para os parâmetros estimados, sugerem a validade do modelo.
Após a apresentação dos resultados obtidos para as previsões
oriundas dos diversos métodos, no próximo capítulo discutir-se-ão as previsões e
será feita uma comparação entre os três métodos de previsão apresentados até
aqui. Depois da comparação, um dos métodos será recomendado para realizar
previsões na SRF. De posse desse método, serão geradas previsões para as séries
desagregadadas do IR (IRPF, IRPJ e IRRF-trab) e seus resultados serão
comparados com os valores obtidos pelo método dos indicadores. Por fim, serão
realizadas previsões com o horizonte reduzido para 1 passo e 3 passos à frente.
71
5 - Discussão dos resultados
Neste capítulo, serão comparados os resultados obtidos pelo método de
indicadores, pelo algoritmo de Holt-Winters sazonal e pela modelagem de Box-
Jenkins para a série {IR} e faz-se a escolha de um método de previsão para
representar os dados. Serão apresentados ainda os resultados para mais três
impostos que compõem o Imposto sobre a Renda. Além disso, são obtidas
previsões para 1 passo e 3 passos à frente.
5.1 - Comparação de resultados
Apesar de o método utilizado pela SRF não ser estatisticamente confiável,
deve-se comparar os resultados obtidos pelo método dos indicadores com os
oriundos dos métodos de alisamento exponencial e Box-Jenkins, para analisar o
melhoramento nos resultados de previsão introduzido pela adoção dessas novas
técnicas econométricas, estatisticamente mais confiáveis.
Como o método dos indicadores utiliza somente a série de dados sem
transformação, inicialmente a comparação será feita com os resultados para a série
intitulada {IR}. Teoricamente, a comparação pode se basear no valor do MSE, uma
vez que os valores reais estão disponíveis. A Tabela 5.1 resume os resultados das
Tabelas 3.2, 4.3 e 4.7. O modelo SARIMA escolhido foi aquele de menor valor do
BIC, que coincidentemente também possui o menor valor de MSE.
72
Tabela 5.1 - Comparação de resultados para a série {IR}Índices
Método∆% agregada ∆% média MSE
Indicadores -10,72 -10,17 585.247Holt-Winters sazonal 3,69 4,04 207.963
SARIMA(0,1,1)( 0,1,1) 7,5 7,9 253.846
Apesar de o valor da diferença percentual ser um índice meramente
ilustrativo, que mostra quão próximo o modelo previu o valor observado, esse valor
pode ser utilizado como comparação didática entre os modelos. Assim, os modelos
de alisamento exponencial e de Box-Jenkins aproximam-se melhor dos valores
observados para a série{IR} quando comparados aos valores das diferenças
percentuais dos métodos. Verifica-se ainda que as previsões geradas pelo método
de indicadores subestimam as receitas anuais totais em mais de 10% e subestimam,
na média, as arrecadações mensais em mais de 10%.
Além disso, nota-se que as metodologias de alisamento exponencial e Box-
Jenkins superaram a capacidade preditiva do métodos de indicadores, pois elas
apresentam menores valores de MSE. A diferença do MSE entre os dois métodos e
do métodos de indicadores é maior que 100%, o que indica a presença de grandes
resíduos gerados pelo método utilizado pela SRF, caracterizando novamente a
inadequabilidade desse método. A comparação entre os métodos de Holt-Winters e
Box-Jenkins será apresentada a seguir.
Como o método dos indicadores não inclui uma análise exploratória dos
dados da série histórica e como o valor de março de 1996 é uma observação outlier,
a comparação agora será feita entre as metodologias alisamento exponencial (HWS)
e Box-Jenkins, e entre as séries {IR}, log{IR}, {IRmodif}, log{IRmodif}, {IRmodif2}
73
e log{IRmodif2}. Essa comparação utilizará o menor valor do MSE para caracterizar
o modelo com a melhor capacidade preditiva. A Tabela 5.2 resume as informações
das Tabelas 4.3, 4.4, 4.5, 4.7, 4.8, 4.9, 4.10, 4.11 e 4.12. Os 6 modelos SARIMA
foram escolhidos pelo critério de menor BIC.
Tabela 5.2 - Comparação de resultados para todas as sériesÍndices
Série Método/Modelo∆% agregada ∆% média MSE
HWS 3,69 4,04 207.963{IR}
SARIMA(0,1,1)( 0,1,1) 7,5 7,9 253.846HWS -0,34 -0,17 221.613
log{IR}SARIMA(0,1,1)( 0,1,1) 4,22 4,34 207.871
HWS 3,61 4,01 312.879{IRmodif}
SARIMA(0,1,1)( 0,1,0) -0,48 -0,12 517.505HWS 1,33 1,57 281.221
log{IRmodif}SARIMA(0,0,1)( 0,1,0) -0,72 -0,13 518.353
HWS 2,93 3,29 260.900{IRmodif2}
SARIMA(0,1,1)( 0,1,1) 4,06 4,45 225.266HWS -0,27 -0,04 272.674
log{IRmodif2}SARIMA(0,0,1)( 0,1,0) -0,71 -0,12 520.964
Em relação à série {IR}, o método de alisamento exponencial forneceu
melhores previsões do que o modelo SARIMA, pois os valores das diferenças
percentuais são menores para o primeiro método. Ainda, a capacidade preditiva do
método HWS é melhor que a do método Box-Jenkins em termos do valor do MSE.
Os dois métodos superestimaram as previsões da arrecadação total e a média da
arrecadação mensal.
Para a série log{IR}, o método de alisamento exponencial conseguiu
aproximar-se com diferenças quase nulas dos valores observados, visto que a ∆%
agregada é inexpressiva. Contudo, a modelagem SARIMA possui uma capacidade
74
preditiva superior, pois o valor do seu MSE é inferior ao valor do MSE para o
método HWS. A modelagem HWS subestimou tanto a arrecadação agregada quanto
a arrecadação média mensal. Já o método Box-Jenkins superestimou as receitas em
aproximadamente 4%.
A transformação da série {IR} em logaritmos produziu efeitos diversos nas
duas modelagens. Para o alisamento exponencial, a transformação fez as diferenças
percentuais se reduzirem a quase zero, mas o valor do MSE aumentou em
aproximadamente 10%. Em relação ao método Box-Jenkins, a transformação
diminui tanto as diferenças percentuais quanto o MSE. Assim, a transformação
logarítmica conseguiu estabilizar a série e apresentar previsões melhores do que a
série original.
Em relação à série {IRmodif}, nota-se que a modelagem SARIMA aproximou-
se mais dos valores reais observados, com diferenças percentuais próximas de zero,
mas o valor do MSE foi menor para a modelagem HWS. Assim, para essa série, o
método de alisamento exponencial apresenta uma melhor capacidade preditiva. A
modelagem SARIMA subestimou as receitas enquanto que HWS superestimou a
arrecadação em 4%.
Em relação à série log{IRmodif}, a capacidade preditiva do método HWS é
muito superior à do método Box-Jenkins, visto que a diferença entre os MSE é maior
que 80%. As diferenças percentuais são menores para a modelagem. Tal qual na
série {IRmodif}, a modelagem SARIMA subestimou as receitas enquanto que HWS
superestimou a arrecadação em 2%.
75
Assim, a transformação logarítmica da série {IRmodif} produziu efeitos
diversos nas duas modelagens. Para a modelagem HWS, os logaritmos diminuíram
tanto o valor do MSE quanto os valores das diferenças percentuais. Por outro lado, a
metodologia Box-Jenkins não captou muito bem essa transformação, uma vez que
suas diferenças percentuais e o valor do MSE mantiveram-se constantes.
Para a série {IRmodif2}, verifica-se que a modelagem SARIMA possui uma
capacidade de previsão superior ao método HWS em cerca de 20% e as diferenças
percentuais são menores para o método HWS. As duas modelagens
superestimaram as receitas total e a média mensal entre 3 e 4%. A transformação
logarítmica fez com que as duas modelagens diminuíssem suas capacidades
preditivas, sendo que o método Box-Jenkins apresentou uma piora maior, pois a
diferença entre os MSE é de mais de 100%. Nota-se que os logaritmos fizeram as
diferenças percentuais serem reduzidas para próximo de zero para os dois métodos.
A substituição do valor outlier de março de 1996, ou seja, a transformação da
série {IR} em {IRmodif} e em {IRmodif2}, produziu efeitos diversos nas duas
modelagens. Para o método de alisamento exponencial essas transformações
diminuíram a capacidade preditiva do método. O valor do MSE aumentou em cerca
de 50% para a transformação {IRmodif} e em cerca de 30% para a transformação
{IRmodif2}. Nota-se que as diferenças percentuais se mantiveram praticamente
constantes nas duas transformações.
Para o método de Box-Jenkins a transformação da série original {IR} em
{IRmodif} diminui sensivelmente a capacidade preditiva do método. O valor do MSE
76
aumentou em mais de 100%. Porém, a transformação {IRmodif2} aumentou a
capacidade de previsão do método, pois o valor do MSE diminuiu 10%. Nota-se que
as diferenças percentuais para a transformação {IRmodif} são bem próximas de
zero, enquanto que para a outra transformação essas diferenças são próximas de
4%.
As transformações logarítmicas das séries, log{IR} em log{IRmodif} e em
log{IRmodif2}, produzirem efeitos iguais para as duas modelagens. Os valores do
MSE para a série log{IR} nas duas modelagens são menores do que os mesmos
valores para as séries log{IRmodif} e log{IRmodif2}. Isso mostra que para os
logaritmos a substituição do outlier diminuiu a capacidade preditiva dos métodos de
alisamento exponencial e Box-Jenkins.
A Tabela 5.1 mostra ainda que a modelagem HWS se adapta melhor à série
original {IR}, com o valor do MSE em 207.963. A modelagem Box-Jenkins adapta-se
melhor à série log{IR}, com o valor do MSE em 207.871. Em termos da diferença
percentual agregada, a modelagem HWS produziu as menores diferenças na série
log{IRmodif2}, -0,27%. A modelagem Box-Jenkins produziu as menores diferenças
na série {IRmodif}, 0,48%.
Em relação à significância estatística dos modelos SARIMA constantes da
Tabela 4.14 e da tabela 5.2, deve-se comparar os valores absolutos calculados para
a estatística t com o valor crítico de 1,96, que corresponde ao nível assintótico da
distribuição normal para 5% de significância. Assim, deve-se rejeitar a hipótese nula
que os parâmetros são individualmente nulos, com 95% de confiança, para todos os
77
modelos constantes da Tabela 4.14. Porém, tais testes devem ser tomados com
cautela, devido ao fato que o número reduzido de observações pode causar viés nas
estimativas das variâncias [Ansley & Newbold, 1980]. Por isso, os testes de
significância estatística não serão considerados.
5.2 - Escolha do método de previsão
Pelo explicitado na seção anterior, os dois métodos de previsão, baseados no
algoritmo de Holt-Winters sazonal e de Box-Jenkins, apresentaram resultados muito
parecidos entre si, tanto para valores de MSE quanto para as diferenças percentuais
agregadas. Então, a escolha do método poderia ser feita em relação a
características de simplicidade, automaticidade ou praticidade no uso. Assim, a
escolha mais óbvia seria o método de alisamento exponencial em detrimento ao
método de Box-Jenkins.
Contudo, nem sempre o método de alisamento exponencial produz previsões
iguais ou superiores ao método de Box-Jenkins. Em um estudo realizado por Paul
Newbold e Clive Granger [Newbold & Granger, 1974] com 106 séries econômicas
(80 mensais e 26 trimestrais), incluindo séries macro e microeconômicas sazonais e
não-sazonais, a capacidade preditiva dos métodos de Box-Jenkins e alisamento
exponencial foi comparada utilizando o critério do MSE. A Tabela 5.3 mostra a
percentagem de ocasiões que o método Box-Jenkins (BJ) superou o alisamento
exponencial (HW) para previsões até 8 passos a frente.
78
Tabela 5.3 - Percentagem (%) de vezes que BJ superou HWPassos à frente
1 2 3 4 5 6 7 8BJ:HW 73 64 60 58 58 57 58 58
Nota-se pela Tabela 5.3 que a metodologia de Box-Jenkins é claramente
superior ao método de alisamento exponencial para previsões poucos passos à
frente. Quando o horizonte de previsão é mais longo, a vantagem comparativa do
método ARIMA diminui. Mas isso é devido principalmente à influência das séries
não-sazonais e, ao se considerar somente séries sazonais, a vantagem do método
Box-Jenkins persiste a longo prazo [Newbold & Granger, 1974]. Ao se analisar mais
detalhadamente as previsões um passo à frente, nota-se que
.8,0previsõesde
previsõesde=
HWMSE
ARIMAMSE
Isso mostra que os erros de previsão do método Box-Jenkins são 20% inferiores aos
erros do método de alisamento exponencial.
Os autores sugerem ainda algumas regras que servem de base para decidir
qual método de previsão escolher:
(a) Para séries com até 30 observações o método de Holt-Winters deve ser
utilizado.
(b) Para séries com mais de 30 e menos de 50 observações não há muita
certeza, e pode-se escolher entre Holt-Winters e modelos ARIMA.
(c) Para séries com mais de 50 observações, se o custo de previsão não
for importante, deve-se utilizar modelos ARIMA. Caso o custo de previsão
seja importante, deve-se utilizar Holt-Winters ou modelos AR.
79
Então, recomenda-se que a modelagem Box-Jenkins seja seguida para se
fazer as previsões da série do Imposto de Renda e, generalizando, para todas as
previsões dos tributos administrados pela Secretaria da Receita Federal.
5.3 - Escolha de um modelo SARIMA
Como na prática não se dispõe dos dados futuros para que o modelo com a
melhor capacidade preditiva (menor valor de MSE) seja escolhido, o valor do critério
BIC deve ser utilizado. Assim, analisando a Tabela 4.6, nota-se que o modelo com o
menor valor de BIC é um modelo SARIMA(0,1,1)(0,1,0) com uma diferença de 0,7
unidades para um modelo SARIMA(0,1,1)(0,1,1), para a série {IRmodif}. Nota-se
que, para as três séries não transformadas em logaritmo, o modelo com o menor
BIC é o modelo airline.
Para as séries logarítmicas, o modelo com menor BIC é um
SARIMA(0,0,1)(0,1,0) com uma diferença de 0,5 unidades para um modelo
SARIMA(0,1,1)(0,1,0), para a série log{IRmodif}. Para as séries logarítmicas, o
modelo airline não obteve um valor para o BIC competitivo.
Assim, se em termos do valor do MSE as transformações no valor outlier
tiveram pouco sucesso, conforme visto na seção 5.1, para a análise do valor do BIC
a transformação do valor do mês de março para o menor valor da série mostrou-se
satisfatória. Os modelos selecionados que possuem o menor valor do BIC são os
das séries {IRmodif} e log{IRmodif}, conforme mostra a Tabela 4.6. Ainda, ao se
analisar as Tabelas 4.9 e 4.10, nota-se que esses modelos apresentam valores
80
muito baixos para as diferenças percentuais agregadas, o modelo
SARIMA(0,1,1)(0,1,0), da série {IRmodif}, produziu uma ∆% agregada de -0,48% e o
modelo SARIMA(0,0,1)(0,1,0), da série log{IRmodif}, produziu uma ∆% agregada de
-0,72%.
Desta maneira, apesar de a diferença em termos de BIC ser menor que 0,1%
para os modelos SARIMA da série {IRmodif}, a escolha do modelo deve ser feita
respeitando-se o princípio da parcimônia, aquele em que modelos mais simples
sempre devem ser preferidos. Então, o modelo SARIMA(0,1,1)(0,1,0) é escolhido em
vez do modelo airline. A equação do modelo ajustado é dada por
( )( ) ( )[ ]12,0
78,0111 12tt BXBB ε−=−−
e os gráficos de diagnóstico sugerem a validade do modelo escolhido e ajustado.
Para a série log{IRmodif}, o modelo escolhido é um SARIMA(0,0,1)(0,1,0),
respeitando-se o princípio da parcimônia. A equação do modelo ajustado é dada por
( ) ( )[ ]11,0
41,011 12tt BXB ε+=−
e os gráficos de diagnóstico sugerem a validade do modelo escolhido e ajustado.
5.4 - Resultados da previsão para outros impostos
Com o objetivo de evitar repetições, as previsões para os impostos sobre a
renda de Pessoas Físicas (IRPF), Pessoas Jurídicas (IRPJ) e o imposto de renda
retido na fonte - Rendimentos do Trabalho (IRRF- trab) não serão analisadas tão
81
detidamente quanto a previsão para o imposto de renda agregado. Os resultados
obtidos pelo método dos indicadores, conforme mostra a Tabela 3.2, serão
comparados aos obtidos por modelos SARIMA. Tais modelos foram escolhidos
conforme os procedimentos apresentados na seção 5.3, ou seja, modelos com o
menor valor do BIC, que respeitem o princípio da parcimônia.
Além das séries do {IRPF}, {IRPJ} e {IRRF-trab} foram investigadas também
as transformações logarítmicas para as mesmas. Assim, a Tabela 5.4 mostra as
previsões obtidas para as séries {IRPF}, log{IRPF}, {IRPJ}, log{IRPJ} e {IRRF-trab} e
log{IRRF-trab}, de acordo com cada método de previsão.
Tabela 5.4 - Comparação de resultados para as outras sériesÍndices
Série Método/Modelo∆% agregada ∆% média MSE
Indicadores -4,70 -11,28 3.602{IRPF}
SARIMA(0,1,1)(0,1,0) -2,50 -5,84 3.171
log{IRPF} SARIMA(0,1,1)(0,1,0) 0,75 -2,64 3.631
Indicadores -24,26 -23,14 188.725{IRPJ}
SARIMA(0,1,1)(0,1,1) -18,93 -19,23 117.418
log{IRPJ} SARIMA(0,0,0)(0,1,1) -15,94 -14,37 104.643
Indicadores -10,06 -8,8 69.494{IRRF-trab}
SARIMA(0,1,1)(0,1,1) -9,94 -8,55 59.961
log{IRRF-trab} SARIMA(1,0,0)(0,1,0) -9,79 -8,55 60.765
Nota-se pela análise da Tabela 5.4 que todos os modelos SARIMA possuem
capacidade preditiva superior ao método dos indicadores, i.e., possuem o valor do
MSE inferior ao obtido pelo método dos indicadores. A única exceção é o modelo
SARIMA(0,1,1)(0,1,0) da série log{IRPF}. Porém, a diferença dos valores do MSE
para as duas previsões é desprezível, cerca de 1%. Verifica-se também que os
82
valores das diferenças percentuais calculadas para os modelos SARIMA são bem
inferiores que para o método dos indicadores.
Além disso, nota-se que a utilização da transformação logarítmica trouxe
resultados benéficos, em termos do MSE, somente para a série {IRPJ}, cujo valor do
MSE foi reduzido em torno de 10%. As duas outras séries apresentaram ou
resultado pior, com diminuição da capacidade preditiva em cerca de 13% para a
série {IRPF}, ou resultado praticamente constante, com diminuição em torno 1,5%
para a série {IRRF-trab}.
O modelo SARIMA(0,1,1)(0,1,0) estimado para a série {IRPF} possui equação
de acordo com
( )( ) ( )[ ]085,0
84,0111 12tt BXBB ε−=−−
e os gráficos de diagnóstico sugerem a validade do modelo escolhido e ajustado. Os
valores entre colchetes representam os valores aproximados do erro padrão para os
parâmetros estimados.
O modelo SARIMA(0,1,1)(0,1,0) estimado para a série log{IRPF} possui
equação de acordo com
( )( ) ( )[ ]081,0
81,0111 12tt BXBB ε−=−−
e os gráficos de diagnóstico sugerem a validade do modelo escolhido e ajustado. Os
valores entre colchetes representam os valores aproximados do erro padrão para os
parâmetros estimados.
83
O modelo SARIMA(0,1,1)(0,1,1) estimado para a série {IRPJ} possui equação
de acordo com
( )( ) ( )[ ] [ ]32,017,0
)1(97,0111 1212tt BBXBB ε−−=−−
e os gráficos de diagnóstico sugerem a validade do modelo escolhido e ajustado. Os
valores entre colchetes representam os valores aproximados do erro padrão para os
parâmetros estimados.
O modelo SARIMA(0,0,0)(0,1,1) estimado para a série log{IRPJ} possui
equação de acordo com
( )[ ]20,0
)63,01(1 1212tt BXB ε−=−
e os gráficos de diagnóstico sugerem a validade do modelo escolhido e ajustado. Os
valores entre colchetes representam os valores aproximados do erro padrão para os
parâmetros estimados.
O modelo SARIMA(0,1,1)(0,1,1) estimado para a série {IRRF-trab} possui
equação de acordo com
( )( ) ( )[ ] [ ]24,011,0
)45,01(62,0111 1212tt BBXBB ε−−=−−
e os gráficos de diagnóstico sugerem a validade do modelo escolhido e ajustado. Os
valores entre colchetes representam os valores aproximados do erro padrão para os
parâmetros estimados.
O modelo SARIMA(1,0,0)(0,1,0) estimado para a série log{IRRF-trab} possui
84
equação de acordo com
( )( )[ ]11,0
12159,01 ttXBB ε=−−
e os gráficos de diagnóstico sugerem a validade do modelo. Os valores entre
colchetes representam os valores aproximados do erro padrão para os parâmetros
estimados.
5.5 - Previsões com horizonte reduzido
Em conformidade com o estudo realizado por Paul Newbold e Clive Granger
[Newbold & Granger, 1974], o horizonte de previsão será reduzido para que os dois
métodos de previsão, alisamento exponencial e Box-Jenkins, possam ser
comparados em relação ao grau de acurácia, que será medido pelo MSE. As
previsões serão feitas para 1 passo e 3 passos à frente para a série log{IR}, de
forma que se utilizará a série com observações até janeiro de 2000 para prever o
valor da arrecadação do mês de fevereiro de 2000 e com observações até março de
2000 para fazer previsões para os meses de abril, maio e junho de 2000.
Os métodos de previsão utilizados serão alisamento exponencial e método
Box-Jenkins. O modelo para o método Box-Jenkins é um SARIMA(0,1,1)(0,1,1), que
possui o menor valor para o critério do BIC para a série log{IR}, conforme mostra a
Tabela 4.7. A Tabela 5.5 mostra os resultados obtidos para a previsão 1 passo à
frente para cada método e a Tabela 5.6 mostra os resultados para a previsão 3
passos à frente para cada método.
85
Tabela 5.5 - Previsões geradas 1 passo à frente - valores em R$ milhõesMês
Método/ModeloFevereiro
∆% MSE
HWS 4.897 16,43 477.481SARIMA(0,1,1)(0,1,1) 4.489 15,28 413.449Valor arrecadado real 4.206
Tabela 5.6 - Previsões geradas 3 passos à frente - valores em R$ milhõesMês
Método/ModeloAbril Maio Junho
∆% -agregada
∆% -média
MSE
HWS 4.673 3.860 3.856 -5,33 -5,50 76.545SARIMA(0,1,1)(0,1,1) 4.873 4.207 4.088 0,62 0,54 21.455Valor arrecadado real 4.713 4.113 4.621
Pela Tabela 5.5, nota-se que o modelo SARIMA forneceu melhores previsões
do que o método HWS, pois o valor da diferença percentual é menor para o modelo
airline. Ainda, a capacidade preditiva do modelo SARIMA é superior em cerca de
10% em relação ao método HWS, em termos do valor do MSE. Os dois métodos
superestimaram a previsão mensal em torno de 15%.
Pela Tabela 5.6, verifica-se que o modelo SARIMA possui características
preditivas superiores ao método de alisamento exponencial, pois os valores da
diferença percentual agregada e média são quase nulos para a modelagem Box-
Jenkins. Além disso, a diferença dos valores do MSE para os dois métodos é
superior a 300%, indicando que, em termos de precisão segundo o MSE, o modelo
SARIMA é mais de 3 vezes preciso. Então, evidencia-se pela análise das duas
tabelas que o método de Box-Jenkins produziu previsões superiores em relação ao
método de alisamento exponencial para horizontes curtos de previsão, o que está de
acordo com o estudo dos autores mencionados.
86
Além de se comparar os dois métodos de previsão, a redução do horizonte de
previsão pode ser útil para se revisar e ajustar as previsões calculadas
anteriormente. Assim, pode-se imaginar uma estratégia de revisão a cada bimestre
ou trimestre à medida que novas observações vão sendo acrescentadas à série. Por
exemplo, suponha que ocorra uma revisão em meados do final de 1º trimestre para
ajustar as previsões efetuadas para o 2º trimestre, que foram calculadas com um
modelo com horizonte de 12 passos à frente.
Ao se comparar os dados de previsão para os meses do 2º trimestre da
Tabela 4.9 com os dados da Tabela 5.6, nota-se uma clara melhoria em relação
tanto ao valores das diferenças agregadas e médias quanto em relação ao valor do
MSE. A Tabela 5.7 mostra os resultados dessa comparação utilizando um modelo
SARIMA(0,1,1)(0,1,1) para a série log{IR}. A Figura 5.1 mostra graficamente tal
comparação, na qual a reta azul representa o valor real, a reta vermelha a previsão
com 3 passos à frente e a reta verde a previsão com 12 passos à frente.
Tabela 5.7 - Comparação entre previsões - valores em R$ milhõesMêsNº de passos à frente do
modelo Abril Maio Junho∆% -
agregada∆% -média
MSE
3 4.873 4.207 4.088 0,62 0,54 21.45512 5.223 4.370 4.322 6,33 6,17 109.957
Valor arrecadado real 4.713 4.113 4.621
87
Figura 5.1 - Comparação gráfica da revisão da arrecadação
88
6 - Conclusão
O objetivo principal desse trabalho foi aplicar métodos estatísticos e
econométricos na busca de previsões mais confiáveis e mais acuradas para a
arrecadação do tributo federal denominado como Imposto sobre a Renda. Ao
mesmo tempo, buscou-se mostrar que o método atualmente utilizado pela Secretaria
da Receita Federal, conhecido como método de indicadores, poderia ser aprimorada
econometricamente mediante a utilização da metodologia proposta neste estudo.
Os métodos estatísticos de previsão utilizados ao longo do trabalho foram o
alisamento exponencial, principalmente o algoritmo de Holt-Winters sazonal aditivo,
e a metodologia de Box-Jenkins, principalmente a modelagem SARIMA. Tais
métodos se mostraram superiores ao método de indicadores, gerando previsões
mais acuradas. Um fato importante relacionado ao uso dessas modelagens é que
sua utilização depende apenas dos dados históricos da série temporal em questão,
ou seja, as modelagens trabalham com séries temporais univariadas.
Apesar de parecer paradoxal que as previsões obtidas com modelos mais
simples possam gerar previsões mais precisas, tal fato está bem estabelecido na
literatura [Cooper, 1972]. Existem também comparações entre os vários métodos de
previsão com modelos univariados, sendo o principal estudo realizado por [Newbold
& Granger, 1974]. Os autores mostraram a superioridade da modelagem SARIMA
em relação a métodos de modelagem automático. Nesse mesmo estudo, os autores
verificaram que a combinação de métodos de previsão pode gerar resultados tão ou
89
mais precisos que a utilização dos métodos individualmente.
Assim, fica aqui a primeira recomendação para um futuro trabalho, estudar os
resultados da combinação do método de Box-Jenkins com o alisamento exponencial
e verificar a precisão das previsões geradas. Essa combinação pode ser pensada
como uma combinação linear entre os dois métodos, de forma que os pesos
associados ao métodos possam ser estimados.
A comparação entre os métodos efetuada nesta dissertação teve como
principal função a escolha de uma metodologia que pudesse ser aplicada para a
previsão de todos os tributos federais. Assim, a escolha da metodologia Box-Jenkins
foi amplamente amparada na literatura e no estudo de caso aqui exposto. Porém,
pode surgir a dúvida por que nessa comparação não foram utilizados também os
resultados de uma regressão.
Primeiramente, porque a modelagem de uma regressão requer um total
conhecimento da relação entre as variáveis do modelo, o que no caso de
arrecadação tributária poderia gerar modelos subparametrizados ou
superparametrizados, uma vez que a arrecadação de tributos é dependente de
muitas variáveis econômicas. Tal fato poderia gerar modelos incorretamente
especificados, principalmente se o analista possuir pouca experiência com modelos
de regressão. Além disso, Gourieroux & Monfort (1997), em uma comparação entre
a modelagem ARIMA e a modelagem de regressão, mostraram que o erro relativo
de previsão da modelagem ARIMA foi inferior 2,5 pontos percentuais em relação a
modelos de regressão.
90
Portanto, como uma segunda sugestão para um futuro trabalho sugere-se
incluir variáveis exógenas, tais como o PIB, o consumo de energia elétrica ou o
comportamento da taxa de juros, entre outras, no modelo ARIMA e estudar a classe
de modelos ARMAX.
Por fim, depreende-se do estudo que a Secretaria da Receita Federal poderia
aprimorar fortemente sua previsão de arrecadação, em particular do Imposto de
Renda, com a metodologia ora proposta, que permitiu reduzir o erro de previsão
médio de 10% para 0,17% aproximadamente, para o período janeiro de 2000 a
dezembro de 2000. Neste sentido, este trabalho mostrou que existem metodologias
econometricamente mais apropriadas que fornecem previsões muito superiores e de
uma maneira relativamente simples, apesar do trabalho de modelagem ser
“artesanal” que poderiam complementar o método dos indicadores correntemente
utilizado pela Receita Federal.
Ainda, cabe destacar que a utilização das técnicas aqui consideradas pode
tornar o trabalho tanto do analista de previsões quanto do administrador mais eficaz,
uma vez que o primeiro não precisará de tantas variáveis em seu modelo e o
segundo poderá tomar decisões mais realistas e precisas quando utilizar os
resultados das previsões como instrumento de planejamento econômico.
91
7 - Referências bibliográficas
[1] Ansley, C.F. & Newbold, P. (1980). Finite sample properties of estimators
for autoregressive moving average models. Journal of Econometrics.13, 159-
183.
[2] Bowerman, B.L. & O’Connell, R.T. (1987). Time Series Forecasting, Unified
Concepts and Computer Implementation, 2ª Edição. Boston: Duxbury Press.
[3] Box, G.E.P., & Jenkins, G.M. (1970). Time Series Analysis, Forecasting
and Control. San Francisco: Holden Day.
[4] Brockwell, P.J. & Davis, R.A. (1996). Introduction to Time Series and
Forecasting. NewYork: Springer-Verlag.
[5] Cooper, R.L. (1972). The predictive performance of quartely econometric
models of the United States. Em Hickman, B.G. (ed.) Econometric Models of
Cyclical Behavior. New York: Columbia University Press.
[6] Cribari-Neto, F. (2000). Método de Previsão de Arrecadação Tributária.
MIMEO
[7] Enders, W. (1995). Applied Econometric Time Series. New York: John
Wiley & Sons.
[8] Folha de S. Paulo. Jornal Folha de S. Paulo edição de 17/05/1996. Editoria
Dinheiro, páginas 2 a 4.
[9] Gourieroux, C. & Monfort, A. (1997). Time Series and Dinamics Models.
New York: Cambridge University Press.
[10] Granger, C.W.J. & Newbold, P. (1986). Forecasting Economic Time
Series. New York: Academic Press.
92
[11] Hill, R.C., Griffiths, W.E. & Judge, G.G. (1999). Econometria. São Paulo:
Editora Saraiva.
[12] Janacek, G. (2001). Practical Time Series. London: Arnold Publishers.
[13] Kvanli, A.H, Guynes, C.S. & Pavur, R..J. (1996). Introduction to Business
Statistics, A Computer Integrated Approach, 4ª Edição. St.Paul: West
Publishing Company.
[14] Mills, T.C. (1990). Time Series Techniques for Economists. Cambridge:
Cambridge University Press.
[15] Newbold, P. & Granger, C.W.J. (1974). Experience with forecasting
univariate time series and the combination of forecasts. Journal of the Royal
Statistics Society A, 137, 131-146.
[16] Venables, W.N. & Ripley, B.D. (1999). Modern Applied Statistics with S-
PLUS 3rd Edition. New York: Springer-Verlag.
93
Apêndice A
94
Este apêndice apresenta a função utilizada no R para a seleção de modelos com
base nos valores do BIC. Tal função foi adaptada de Cribari-Neto (2000) e calcula,
para uma dada configuração inicial de P, D, Q, d, uma matriz com o valor do BIC
para diversas combinação de valores de p e q.
bic<-function(serie,d,P,D,Q)
{
M<-matrix(0,5,5)
if(P==0 && Q==0)
{
for(i in 0:4)
{
for(j in 0:4)
{
if(i==0 && j==0) M[1,1]<-NA
else
M[i+1,j+1]<-
my.arima0(serie,order=c(i,d,j),seasonal=list(order=c(P,D,Q)))$aic
}
}
}
else
{
for(i in 0:4)
{
for(j in 0:4)
{
M[i+1,j+1]<-
my.arima0(serie,order=c(i,d,j),seasonal=list(order=c(P,D,Q)))$aic
}
}
}
M.AIC<-M
return(M)
}
95
Apêndice B
96
Este apêndice apresenta os resultados do valor do critério de seleção de modelos
BIC para cada série. Em cada tabela estão listados os modelos com o menor BIC
para uma dada configuração inicial dos valores de P, D, Q, d e aqueles modelos que
possuem uma diferença de até dois para o BIC do modelo com menor BIC.
Tabela B.1 - Modelos e valores para o BIC da série {IR}Modelo Modelo Modelo Modelo
(p,d,q) (P,D,Q)BIC
(p,d,q) (P,D,Q)BIC
(p,d,q) (P,D,Q)BIC
(p,d,q) (P,D,Q)BIC
(0,0,1) (0,1,0) 897,6 (0,0,1) (1,1,0) 894,7 (1,0,0) (2,1,0) 898,4 (0,1,1) (0,1,1) 873(1,0,0) (0,1,0) 897,7 (0,0,0) (1,1,0) 895,6 (0,0,1) (2,1,0) 898,9 (0,1,1) (0,1,2) 877,1(1,0,1) (0,1,1) 892 (1,0,1) (1,1,1) 896,1 (1,0,1) (2,1,1) 901,5 (0,1,1) (1,1,0) 874,9(1,0,1) (0,1,2) 896,8 (1,0,0) (1,1,1) 898,5 (1,0,0) (2,1,1) 902,1 (0,1,1) (1,1,1) 887,1(0,0,1) (0,1,2) 898,1 (0,0,1) (1,1,1) 898,9 (0,0,1) (2,1,1) 902,4 (0,1,1) (1,1,2) 881,3(1,0,0) (0,1,2) 898,5 (1,0,1) (1,1,2) 900,3 (1,0,1) (2,1,2) 904,2 (0,1,1) (2,1,0) 877,3(1,0,1) (1,1,0) 893,9 (0,0,1) (1,1,2) 902,5 (1,0,0) (2,1,2) 906 (0,1,1) (2,1,1) 881,5(1,0,0) (1,1,0) 894,3 (1,0,1) (2,1,0) 896 (0,1,1) (0,1,0) 881,9 (0,1,1) (2,1,2) 885,4
Tabela B.2 - Modelos e valores para o BIC da série log{IR}Modelo Modelo Modelo Modelo
(p,d,q) (P,D,Q)BIC
(p,d,q) (P,D,Q)BIC
(p,d,q) (P,D,Q)BIC
(p,d,q) (P,D,Q)BIC
(1,0,0) (0,1,0) -14,5 (1,0,1) (1,1,1) -12 (1,0,0) (2,1,1) -6,6 (0,1,1) (1,1,0) -16,7(0,0,1) (0,1,0) -14,5 (1,0,0) (1,1,1) -10,4 (0,0,1) (2,1,1) -6,3 (0,1,2) (1,1,0) -15
(1,0,1) (0,1,1) -16,4 (0,0,1) (1,1,2) -6,6 (1,0,1) (2,1,2) -3,6 (1,1,1) (1,1,0) -14,5
(1,0,0) (0,1,1) -14 (1,0,0) (1,1,2) -6,4 (1,0,0) (2,1,2) -2,9 (0,1,1) (1,1,1) -14,4(0,0,1) (0,1,2) -10,7 (1,0,1) (1,1,2) -5,1 (0,0,1) (2,1,2) -2,8 (0,1,1) (1,1,2) -10,2
(1,0,0) (0,1,2) -10,6 (1,0,1) (2,1,0) -11,2 (0,1,1) (0,1,0) -13,1 (0,1,1) (2,1,0) -14,2(1,0,1) (1,1,0) -14,7 (1,0,0) (2,1,0) -10,4 (0,1,2) (0,1,0) -11,3 (0,1,1) (2,1,1) -10,1(1,0,0) (1,1,0) -14,6 (0,0,1) (2,1,0) -9,7 (0,1,1) (0,1,1) -18,5 (0,1,1) (2,1,2) -6,1
(0,0,1) (1,1,0) -13,7 (1,0,1) (2,1,1) -7,9 (0,1,1) (0,1,2) -14,4
Tabela B.3 - Modelos e valores para o BIC da série {IRmodif}Modelo Modelo Modelo Modelo
(p,d,q) (P,D,Q)BIC
(p,d,q) (P,D,Q)BIC
(p,d,q) (P,D,Q)BIC
(p,d,q) (P,D,Q)BIC
(1,0,0) (0,1,0) 872 (0,0,1) (1,1,0) 877,2 (0,0,1) (2,1,2) 889,7 (0,1,2) (1,1,0) 861(0,0,1) (0,1,0) 873,4 (1,0,0) (1,1,1) 879,5 (0,0,0) (2,1,2) 890,1 (0,1,1) (1,1,1) 861(1,0,1) (0,1,0) 874,4 (1,0,1) (1,1,1) 880,2 (0,1,1) (0,1,0) 857.2 (1,1,1) (1,1,1) 863.4(1,0,0) (0,1,1) 875,3 (0,0,1) (1,1,1) 881,4 (1,1,1) (0,1,0) 859.3 (0,1,2) (1,1,1) 863.6(1,0,1) (0,1,1) 876,1 (1,0,1) (1,1,2) 883 (0,1,2) (0,1,0) 859.9 (0,0,0) (1,1,2) 879.7(0,0,1) (0,1,1) 877,2 (1,0,0) (1,1,2) 883,2 (0,1,1) (0,1,1) 857.9 (0,0,0) (2,1,0) 875.6(1,0,1) (0,1,2) 879,1 (1,0,1) (2,1,0) 879,1 (0,1,2) (0,1,1) 859.8 (0,0,0) (2,1,1) 879.8(1,0,0) (0,1,2) 879,4 (1,0,0) (2,1,0) 879,4 (1,1,1) (0,1,1) 860.1 (0,0,0) (2,1,2) 883.8(0,0,1) (0,1,2) 881,4 (0,0,1) (2,1,0) 881,4 (0,0,0) (0,1,2) 875.8(1,0,0) (1,1,0) 875,4 (0,0,1) (2,1,1) 884,6 (0,1,1) (1,1,0) 859.1(1,0,1) (1,1,0) 877 (0,0,0) (2,1,1) 886,4 (1,1,1) (1,1,0) 860.9
97
Tabela B.4 - Modelos e valores para o BIC da série log{IRmodif}Modelo Modelo Modelo Modelo BIC
(p,d,q) (P,D,Q)BIC
(p,d,q) (P,D,Q)BIC
(p,d,q) (P,D,Q)BIC
(p,d,q) (P,D,Q)(0,0,1) (0,1,0) -32,8 (0,0,1) (1,1,1) -27 (1,0,0) (2,1,2) -19,5 (1,1,1) (1,1,0) -28,3(1,0,1) (0,1,0) -31,7 (1,0,1) (1,1,1) -25,2 (1,0,1) (2,1,2) -17,8 (0,1,2) (1,1,0) -28,2(1,0,0) (0,1,1) -30,7 (1,0,0) (1,1,2) -22,8 (0,0,1) (2,1,2) -16,3 (0,1,1) (1,1,1) -27,7(1,0,1) (0,1,1) -29,2 (1,0,1) (1,1,2) -21,9 (0,1,1) (0,1,0) -32,3 (0,1,2) (1,1,1) -25(0,0,1) (0,1,1) -28,6 (0,0,1) (1,1,2) -21,2 (0,1,2) (0,1,0) -30,4 (0,0,1) (1,1,2) -24,1(1,0,0) (0,1,2) -26,7 (1,0,0) (2,1,0) -26,8 (1,1,1) (0,1,0) -30 (0,1,2) (1,1,2) -22,4(1,0,1) (0,1,2) -26,1 (1,0,1) (2,1,0) -25,1 (0,1,1) (0,1,1) -30,9 (1,1,1) (1,1,2) -22,2(0,0,1) (0,1,2) -24,4 (0,0,1) (2,1,0) -24,4 (1,1,1) (0,1,1) -29 (0,0,1) (2,1,0) -28,1(1,0,0) (1,1,0) -30,7 (1,0,0) (2,1,1) -22,7 (0,1,2) (0,1,1) -28,9 (0,0,1) (2,1,1) -23,9(0,0,1) (1,1,0) -28,6 (1,0,1) (2,1,1) -21,9 (0,1,1) (0,1,2) -28,2 (0,1,2) (2,1,1) -22,6(1,0,1) (1,1,0) -28,2 (0,0,1) (2,1,1) -20,6 (0,1,1) (1,1,0) -29,9 (0,0,1) (2,1,2) -20
Tabela B.5 - Modelos e valores para o BIC da série {IRmodif2}Modelo Modelo Modelo Modelo BIC
(p,d,q) (P,D,Q)BIC
(p,d,q) (P,D,Q)BIC
(p,d,q) (P,D,Q)BIC
(p,d,q) (P,D,Q)(1,0,0) (0,1,0) 879,4 (2,0,1) (1,1,2) 888,6 (0,1,2) (0,1,1) 863,5 (0,1,1) (1,1,2) 869,6(0,0,1) (0,1,0) 879,8 (1,0,0) (2,1,0) 884,8 (1,1,1) (0,1,1) 863,8 (0,1,2) (1,1,2) 871,7(1,0,1) (0,1,1) 880,1 (1,0,1) (2,1,0) 885,1 (0,1,1) (0,1,2) 865,5 (1,1,1) (1,1,2) 871,9(1,0,0) (0,1,1) 880,9 (1,0,1) (2,1,1) 888,2 (0,1,2) (0,1,2) 867,7 (0,1,1) (2,1,0) 865,7(1,0,1) (0,1,2) 884 (1,0,0) (2,1,1) 888,8 (1,1,1) (0,1,2) 867,9 (0,1,2) (2,1,0) 867,6(1,0,0) (0,1,2) 884,5 (1,0,0) (2,1,2) 892,5 (0,1,1) (1,1,0) 863,3 (1,1,1) (2,1,0) 867,9(1,0,2) (1,1,0) 880,6 (1,0,1) (2,1,2) 893 (0,1,2) (1,1,0) 864,5 (0,1,1) (2,1,1) 869,7(1,0,1) (1,1,0) 881,5 (0,1,1) (0,1,0) 864,4 (1,1,1) (1,1,0) 864,9 (0,1,2) (2,1,1) 871,8(1,0,1) (1,1,1) 884,1 (0,1,2) (0,1,0) 866,4 (0,1,1) (1,1,1) 865,5 (0,1,1) (2,1,2) 873,7(1,0,0) (1,1,1) 884,8 (1,1,1) (0,1,0) 866,6 (0,1,2) (1,1,1) 867,7 (0,1,2) (2,1,2) 875,8(1,0,1) (1,1,2) 888,3 (0,1,1) (0,1,1) 861,6 (1,1,1) (1,1,1) 867,9
Tabela B.6 - Modelos e valores para o BIC da série log{IRmodif2}Modelo Modelo Modelo Modelo
(p,d,q) (P,D,Q)BIC
(p,d,q) (P,D,Q)BIC
(p,d,q) (P,D,Q)BIC
(p,d,q) (P,D,Q)BIC
(1,0,0) (0,1,0) -27,3 (1,0,1) (1,1,2) -16,7 (0,1,2) (0,1,1) -24,7 (0,1,2) (1,1,2) -16,8(0,0,1) (0,1,0) -26,7 (1,0,0) (2,1,0) -20,5 (1,1,1) (0,1,1) -24,4 (0,1,1) (2,1,0) -22,9(1,0,1) (0,1,1) -24,6 (1,0,1) (2,1,0) -19,9 (0,1,1) (0,1,2) -23,1 (1,1,1) (2,1,0) -20,4(1,0,0) (0,1,1) -23,3 (1,0,0) (2,1,1) -16,6 (0,1,2) (0,1,2) -20,6 (0,1,1) (2,1,1) -18,8(1,0,1) (0,1,2) -20,9 (1,0,1) (2,1,1) -16,6 (1,1,1) (0,1,2) -20,3 (0,1,2) (2,1,1) -17,9(1,0,0) (0,1,2) -20,8 (1,0,0) (2,1,2) -13 (0,1,1) (1,1,0) -25,3 (0,1,1) (2,1,2) -14,8(1,0,0) (1,1,0) -24,7 (1,0,1) (2,1,2) -12,6 (0,1,2) (1,1,0) -24,2 (0,1,2) (2,1,2) -13(1,0,1) (1,1,0) -23,6 (0,1,1) (0,1,0) -25,5 (1,1,1) (1,1,0) -23,7(1,0,0) (1,1,1) -20,6 (0,1,2) (0,1,0) -24,3 (0,1,1) (1,1,1) -23(1,0,1) (1,1,1) -20,6 (1,1,1) (0,1,0) -23,8 (0,1,2) (1,1,1) -20,5(1,0,0) (1,1,2) -16,7 (0,1,1) (0,1,1) -26,7 (0,1,1) (1,1,2) -19
top related