1
UNIVERSIDADE FEDERAL DO PARANÁ
MONIQUE VERCHAI PEREIRA SUELEN FERREIRA CORDEIRO
UMA APLICAÇÃO DE SÉRIES TEMPORAIS EM DADOS DE CONSUMO DE PAPEL EM INDÚSTRIAS GRÁFICAS
CURITIBA
2010
2
MONIQUE VERCHAI PEREIRA SUELEN FERREIRA CORDEIRO
UMA APLICAÇÃO DE SÉRIES TEMPORAIS EM DADOS DE CONSUMO DE PAPEL EM INDÚSTRIAS GRÁFICAS
CURITIBA 2010
Trabalho de Conclusão de Curso apresentado à Banca Examinadora, como exigência parcial para a obtenção do título de Graduação do Curso de Estatística, Setor de Ciências Exatas, Universidade Federal do Paraná. Orientador: Prof. Fernando Lucambio Pérez.
3
MONIQUE VERCHAI PEREIRA SUELEN FERREIRA CORDEIRO
UMA APLICAÇÃO DE SÉRIES TEMPORAIS EM DADOS DE CONSUMO DE PAPEL EM INDÚSTRIAS GRÁFICAS
COMISSÃO EXAMINADORA ________________________________ Fernando Lucambio Pérez ________________________________ Elias Teixeira Krainski
Curitiba, 01 de dezembro de 2010.
4
AGRADECIMENTOS
Agradecemos primeiramente a Deus que iluminou o nosso caminho durante esta trajetória. Ao nosso professor orientador Fernando Lucambio Pérez, pelas longas horas de ensinamentos e discussões. Aos funcionários da empresa fornecedora dos dados utilizados neste trabalho de conclusão de curso. Aos professores, pelas experiências, profissionalismo e incríveis capacidades de ensino. Pelas amizades conquistadas durante estes quatro anos de vida acadêmica. Também somos gratas a todas as pessoas que contribuíram diretamente ou indiretamente para a realização deste trabalho.
5
LISTA DE SIGLAS
ACF AIC AR ARMA LWC MA MAPE NaN PACF SARIMA SC
-Autocorrelation Function -Akaike’s information criterion -Autoregressive -Autoregressive Moving Average -Light Weight Coated -Moving Average -Mean Absolute Percentage Error -Not a Number -Partial Autocorrelation Function -Seasonal Auto Regressive Integrated Moving Average -Supercalendered
6
LISTA DE ILUSTRAÇÕES
Figura 1 – Impressora rotativa antiga para baixas gramaturas. ................................................. 12 Figura 2 – Impressora rotativa moderna com alta capacidade de produção. ............................ 13
Figura 3 – Modelo aditivo de Holt-Winters. ............................................................................. 21 Figura 4 – Modelo multiplicativo de Holt-Winters. .................................................................. 22 Gráfico 1 - Consumo mensal de papel SC e LWC gramaturas 52, 56 e 60 no período de janeiro
de 2001 a outubro de 2010. .................................................................................................. 25 Gráfico 2 - Consumo mensal de papel SC e LWC, separado por ano. ..................................... 26
Gráfico 3 - Decomposição da série de consumo mensal no período de janeiro de 2001 a dezembro de 2009. ................................................................................................................ 26
Gráfico 4 - Função de autocorrelação e função de autocorrelação parcial da série consumo mensal de papel no período de janeiro de 2001 a dezembro de 2009. ................................. 27
Gráfico 5 - Função de autocorrelação e função de autocorrelação parcial da série diferenciada. .............................................................................................................................................. 28
Gráfico 6 - Decomposição da série diferenciada. ..................................................................... 29 Gráfico 7 - Consumo mensal do papel e ajuste da tendência pelos polinômios de graus 2, 6, e
8, no período de janeiro de 2001 a dezembro de 2009. ....................................................... 30 Gráfico 8 - Série sem tendência do consumo mensal de papel SC e LWC gramaturas 52, 56 e
60 no período de janeiro de 2001 a dezembro de 2009. ....................................................... 32 Gráfico 9 - Função de autocorrelação e função de autocorrelação parcial da série sem
tendência. .............................................................................................................................. 33
Gráfico 10 - Análise de resíduos do ajuste1 para a série sem tendência. .................................. 35 Gráfico 11 - Histograma e gráfico Q-Qplot dos resíduos para o modelo da série sem tendência.
.............................................................................................................................................. 36
Gráfico 12 - Valores estimados e observados da série sem tendência. ..................................... 38
Gráfico 13 - Valores estimados e observados da série com tendência. ..................................... 39
Gráfico 14 - Observados e estimados através do modelo Holt-Winters Aditivo. ..................... 43
Gráfico 15 - Observados e estimados através do modelo Holt-Winters Multiplicativo. .......... 45 Gráfico 16 - Consumo mensal do papel e ajuste da tendência pelos polinômios de graus 2, 6, e
8, no período de janeiro de 2001 a outubro de 2010. .......................................................... 46 Gráfico 17 - Análise residual do ajuste1 para a série sem tendência de janeiro de 2001 a
outubro de 2010. ................................................................................................................... 48
Gráfico 18 - Histograma e gráfico Q-Qplot dos resíduos para o modelo da série sem tendência. .............................................................................................................................................. 49
Gráfico 19 – Comportamento dos grupos de clientes no período de janeiro de 2008 a outubro de 2010. ................................................................................................................................ 52
Gráfico 20 – Comportamento dos grupo de clientes no período de janeiro de 2008 a junho de 2010. ..................................................................................................................................... 55
Gráfico 21 – Comportamento da série no período 2005 a 2010. .............................................. 56
7
LISTA DE TABELAS
Tabela 1: Primeiras linhas do banco de dados .......................................................................... 24 Tabela 2: Tendências para as previsões de janeiro a outubro de 2010. .................................... 31
Tabela 3 - DF e Critério de Akaike para os modelos ajustados. ............................................... 34 Tabela 4 – Estimação dos dados originais – dados sem tendência + tendência. ....................... 39
Tabela 5 - Estimativa do modelo ajustado versus o valor real observado. ............................... 40
Tabela 6 - Estimativa do intervalo de confiança inferior. ......................................................... 40 Tabela 7 - Estimativa do intervalo de confiança superior. ........................................................ 41 Tabela 8 - Estimativas pontuais e intervalares do modelo ajustado versus o valor real. .......... 41
Tabela 9 - Estimativas do modelo Holt-Winters aditivo versus o valor real. ........................... 42
Tabela 10 - Estimativas do modelo Holt-Winters multiplicativo versus o valor real. .............. 44
Tabela 11 - Comparativo modelo SARIMA e modelos Holt-Winters. ..................................... 46
Tabela 12 – Tendência dos valores futuros ............................................................................... 47 Tabela 13 - DF e AIC para os modelos ajustados de janeiro de 2001 a outubro de 2010. ....... 47
Tabela 14 – Estimação dos dados originais. ............................................................................. 50 Tabela 15 – Estimativas pontuais e intervalares do consumo para os meses futuros. .............. 50
Tabela 16 – Previsão de consumo do primeiro grupo de clientes para os meses futuros. ........ 51
Tabela 17 – Previsão de consumo do segundo grupo de clientes para os meses futuros. ......... 51
Tabela 18 – Previsão de consumo do terceiro grupo de clientes para os meses futuros. .......... 52
Tabela 19 – MAPE para as análises das séries com 9 e 5 anos. ................................................ 57
8
SUMÁRIO 1. RESUMO .......................................................................................................................... 10
2. INTRODUÇÃO ................................................................................................................ 11
3. OBJETIVOS...................................................................................................................... 13
4. METODOLOGIA ............................................................................................................. 14
4.1. Série Temporal .............................................................................................................. 14 4.2. Decomposição Clássica ................................................................................................. 14 4.3. Modelos Box-Jenkins .................................................................................................... 15 4.4. Séries com Tendência .................................................................................................... 15 4.5. Função de Autocorrelação ............................................................................................. 16 4.6. Autocorrelações Parciais ............................................................................................... 16 4.7. O Correlograma ............................................................................................................. 17 4.8. Modelos Sazonais .......................................................................................................... 17 4.9. Análise dos Resíduos ..................................................................................................... 18 4.9.1. Testes de independência ............................................................................................ 19 4.9.2. Teste de normalidade ................................................................................................. 20 4.10. Modelos de Holt-Winters .............................................................................................. 20 4.11. Critérios para escolha do melhor modelo ...................................................................... 22 4.12. MAPE ............................................................................................................................ 23
4.13. Performance Preditiva ................................................................................................... 23
5. APLICAÇÃO DA METODOLOGIA ............................................................................... 24
5.1. Análise descritiva dos dados com tendência ................................................................. 24 5.2. Modelagem .................................................................................................................... 29 5.3. Ajuste Polinomial para tendência .................................................................................. 30 5.4. Procedimento utilizado para estimar os valores futuros ................................................ 31
5.5. Análise descritiva para os dados sem tendência ............................................................ 32 5.6. Modelagem para Séries Temporais ............................................................................... 33 5.7. Critérios de Seleção do Modelo..................................................................................... 34 5.8. Análise Residual ............................................................................................................ 35 5.9. Performance Preditiva Modelo SARIMA ..................................................................... 37
5.10. Previsão de valores futuros SARIMA ........................................................................... 39 5.11. Predição de Valores Futuros Holt- Winters ................................................................... 42 5.12. Holt-Winters Aditivo ..................................................................................................... 42 5.12.1. Performance Preditiva Holt- Winters Aditivo ........................................................... 43
5.13. Holt-Winters Multiplicativo .......................................................................................... 44 5.13.1. Performance Preditiva Holt- Winters Multiplicativo ................................................. 45
5.14. Comparação Modelo SARIMA e Modelos Holt-Winters ............................................. 45
5.14.1. Erro percentual médio absoluto ................................................................................. 45 5.14.2. Amplitude do Intervalo de Confiança ........................................................................ 45 5.15. Previsão dos valores futuros .......................................................................................... 46
6. CONCLUSÕES ................................................................................................................. 53
7. CONSIDERAÇÕES FINAIS ............................................................................................ 54
7.1. Diferenciação ................................................................................................................. 55 7.2. Transformação ............................................................................................................... 55 7.3. Análise para dados 2001 a 2005 .................................................................................... 56
9
7.4. Ajuste Polinomial .......................................................................................................... 57
8. GLOSSÁRIO .................................................................................................................... 58
9. ANEXOS ........................................................................................................................... 59
10. REFERÊNCIAS ................................................................................................................ 70
10
1. RESUMO
As indústrias visam obter a maior margem de lucro possível, por isso a necessidade de criar dispositivos para que a compra de mercadorias seja a mais assertiva possível garantindo à empresa um diferencial competitivo frente aos concorrentes. Para prever o consumo de papel em indústrias gráficas, modelando o comportamento da variável resposta consumo mensal em quilogramas do principal tipo de papel do segmento comercial e gramaturas (espessura das folhas), fez-se uso de algumas técnicas de séries temporais. Considerando que o consumo do papel primordial pode apresentar tendências e também sazonalidades, principalmente em datas comemorativas, utilizou-se o modelo Autorregressivo Integrado de Médias Móveis para Dados Sazonais - SARIMA (p, d, q), cujos parâmetros foram estimados computacionalmente para predizer os valores futuros de consumo, utilizando-se o Critério de Akaike – AIC para a decisão do melhor modelo. Para o cálculo das previsões estudou-se a séries histórica dos dados mensais de consumo de papel (em quilogramas), de 2001 a 2009, fazendo-se previsões para 2010 e validando os resultados com os dados reais observados. Estimou-se a curva de tendência polinomial dos dados, resultando em um polinômio de sexto grau que possibilitou uma melhor assertividade das estimativas pontuais e dos intervalos de confiança. Também utilizou-se os modelos de alisamento exponencial de Holt Winters Aditivo e Multiplicativo para a previsão. Os valores preditos mostraram-se coerentes com a realidade desse tipo de comércio. Os resultados obtidos mostram que a metodologia pode ser utilizada futuramente em empresas do mesmo segmento, possibilitando uma maior competitividade no mercado. Palavras-chave: Séries Temporais, SARIMA, Holt Winters.
11
2. INTRODUÇÃO
Empresa gráfica de Curitiba criada em 1972, atualmente considerada principal gráfica do país, líder desde 1997 no segmento de livros, revistas e impressos promocionais, consolidou uma parceria estratégica junto às maiores redes de varejo do Brasil por mais de 14 anos. Durante esse tempo, continuamente sofreu diversas expansões para acompanhar as necessidades de seus clientes e por isso é reconhecida ano após ano como parceira estratégica. Com o passar do tempo, substituiu as impressoras mais antigas (Figura 1) por novas máquinas com maior capacidade de produção, como pode ser visto na Figura 2 e com isso desenvolveu-se cada vez mais. Devido ao consumo ser extremamente alto, vinculado ao tipo de impressão, a empresa está direcionada a prever o consumo de papéis em diferentes períodos do ano. Os trabalhos dividem-se essencialmente em editoriais (didáticos) e comerciais. As impressões do didático incluem trabalhos como apostilas regulares, extensivos, dicionários, modulares e licitações, sendo o Offset e o Cartão os principais papéis, comprados de acordo com empenhos e mais uma determinada quantidade para possíveis reimpressões ou reedições. As impressões do comercial são, atualmente, as de consumo maior e menos previsível, por este motivo será o alvo de nosso estudo. Os papéis essenciais para impressão comercial são: SC e LWC. Esses papéis possuem a mesma qualidade de impressão, mas o LWC pode ser nacional ou importado enquanto o SC é somente importado, o qual é mais representativo em relação aos demais papéis.Esses dois primordiais papéis são utilizados em folhetos, tablóides, revistas e catálogos, as gramaturas mais utilizadas são: 52 g/m², 56 g/m² e 60 g/m². Houve uma mudança no processo de compra desses materiais, pois até meados da década de 90 o consumo de LWC era mais significativo e a maioria das compras era nacional. Com a competitividade de preços no mercado internacional, a empresa optou por começar a importar SC, adquirindo mais vantagens estratégicas, devido ao menor preço e assumindo o risco do prazo de entrega de 90 dias em média. Todavia se houver falta de SC compra-se LWC no mercado nacional, pagando-se mais caro, porém com prazo menor de entrega. Por esses motivos e por orientação da empresa, decidiu-se fazer a previsão para a soma desses papéis, pois eles são de mesma natureza. Ademais, decidiu-se por juntar as primordiais gramaturas 52, 56 e 60 g/m² por serem as mais consumidas. As gramaturas 52 e 56 são do papel SC,onde a 52 era consumida inicialmente e que depois mudou para 56 .Já a 60 é do papel LWC. Hodiernamente o processo de compra da maioria dos insumos gráficos é geralmente realizado de acordo com o consumo para compor estoque. O que se compra a mais, é cerca de 10% do consumo empenhado (contratado pelo cliente), ou então o que completa uma carga de matéria-prima (por exemplo, precisa-se de 13 bobinas, mas com 15 completa-se uma carga, compra-se as 15 e as 2 restantes ficam em estoque para outros trabalhos). Já o processo utilizado para verificar as quantidades a serem importadas de papel SC (Supercalandrado), é realizado da seguinte maneira: olha-se o relatório de empenhos para os próximos meses e o relatório de consumo dos últimos meses, considerando a média mensal de consumo para estabelecer a quantidade a ser comprada. Esse papel não é produzido em fábricas no Brasil, ou seja, é importado de países como Finlândia, Canadá e Estados Unidos. Por este motivo é de total relevância ter uma previsão confiável do consumo desse insumo para os próximos meses, pois com os prazos nos processos de importação, a empresa pode ter muitos custos, tanto ao importar quantidades a mais do que o necessário, gerando aumento de estoque e custos com
12
armazenagem, como ao importar menos, não conseguindo finalizar a tiragem de alguns trabalhos ou até mesmo perdendo algum cliente. Assim, considerando o elevado nível de impressões que a gráfica produz mensalmente e a importância de seus clientes, ter uma previsão mais precisa do consumo por tipo de papel implica ter menor estoque, redução de custos, antecipar estoques estratégicos, negociar melhores preços, diminuir o grau de risco conseqüentemente maior competitividade no mercado. Para alcançar estes objetivos de melhoria na empresa serão utilizadas técnicas de séries temporais para prever estatisticamente o consumo mensal dos papéis SC e LWC, por suas gramaturas e por grupos de clientes, utilizando como base de dados o consumo mensal, em quilogramas, no decorrer dos últimos anos.
Figura 1 – Impressora rotativa antiga para baixas gramaturas.
Fonte: http://www.portalentretextos.com.br
13
Figura 2 – Impressora rotativa moderna com alta capacidade de produção.
Fonte: http://www.portalentretextos.com.br
3. OBJETIVOS
O objetivo principal deste trabalho é estudar e aplicar métodos de previsão para consumo dos papéis SC e LWC e suas principais gramaturas de uma gráfica, em séries com tendências e sazonalidade utilizando apenas os regressores da série histórica. A idéia é utilizar os dados de consumo para trabalhos comerciais ao longo de 10 anos - de 2001 a 2010 para prever valores futuros. Outro objetivo é a Descrição (Descrever propriedades da série, o padrão de tendência, existência de variação sazonal ou cíclica, mudanças no padrão de tendência ou da sazonalidade, etc). Também tem-se como meta fazer uma análise dos clientes responsáveis por esse consumo, ou seja, analisando-se a série histórica, verificar quais foram os clientes com consumos mais representativos em diferentes períodos.Depois,agrupá-los em 3 grupos de clientes para que, além de ter-se a estimativa pontual e os intervalos de confiança da previsão, ainda seja possível verificar qual o percentual dessa estimativa corresponde ao consumo dos maiores clientes.
4. METODOLOGIA
Para a realização deste trabalho aplicaramséries temporais.
4.1. Série Temporal Uma série temporal consiste em um conjunto de observações ou medidas sob um intervalo de tempo. Se estas observações consecutivas são dependentes uma das outras, é possível conseguir-se uma previsão (SAMOHYL, ROCHA & MATTOS, 2001) e assim fornecer bases para compreender o comportamento do evento ao qual esta se analisando.De acordo com Morettin & Toloi (2004), ao se realizar um estudo de séries temporais, podese estar interessado em: a) Investigar o mecanismo gerador da série temporal;b) Fazer previsões de valores futuros da série;c) Descrever apenas o comportamento da série, como tendências e sazonalidades, por exemplo; d) Procurar periodicidades relevantes nos dados. Esses autores também ressaltam que os modelos devem ser simples, com o menor número de parâmetros possíveis, e sua utilização não deve apresentar dificuldades às pessoas interessadas em manipulá-los, entendendouma série temporal.
4.2. Decomposição Clássica Conforme Morretin & Toloi (1987), séries temporais são compostas por quatro elementos:1. Tendência: verifica o sentido de deslocamento da série ao longo de vários anos;2. Ciclo: movimento ondulatório que ao longo de vários3. Sazonalidade: movimento ondulatório de curta duração, em geral, inferior a um ano associada, na maioria dos casos, a mudanças climáticas;4. Ruído aleatório ou erro: compreende a variabilidade intrínseca aos dados e não podemodelado. De acordo com Notas de aula do professor Ricardo S. Ehlers 2009, muitas das propriedades observadas em uma série temporal Xt podem ser captadas assumindode decomposição onde Tt é uma componente de tendência, Cuma componente aleatória ou ruído (a parte não explicada, que esperaaleatória). A componente cíclica Assim, variações periódicas podem ser cap
Para a realização deste trabalho aplicaram-se algumas metodologias empregadas na análise de
Uma série temporal consiste em um conjunto de observações ou medidas sob um intervalo de tempo. Se estas observações consecutivas são dependentes uma das outras, é possível
uma previsão (SAMOHYL, ROCHA & MATTOS, 2001) e assim fornecer bases para compreender o comportamento do evento ao qual esta se analisando.De acordo com Morettin & Toloi (2004), ao se realizar um estudo de séries temporais, pode
) Investigar o mecanismo gerador da série temporal; b) Fazer previsões de valores futuros da série; c) Descrever apenas o comportamento da série, como tendências e sazonalidades, por
d) Procurar periodicidades relevantes nos dados.
também ressaltam que os modelos devem ser simples, com o menor número de parâmetros possíveis, e sua utilização não deve apresentar dificuldades às pessoas
los, entendendo-se por modelos uma descrição probabilística de
Decomposição Clássica
Conforme Morretin & Toloi (1987), séries temporais são compostas por quatro elementos:1. Tendência: verifica o sentido de deslocamento da série ao longo de vários anos;2. Ciclo: movimento ondulatório que ao longo de vários anos tende a ser periódico;3. Sazonalidade: movimento ondulatório de curta duração, em geral, inferior a um ano associada, na maioria dos casos, a mudanças climáticas; 4. Ruído aleatório ou erro: compreende a variabilidade intrínseca aos dados e não pode
De acordo com Notas de aula do professor Ricardo S. Ehlers 2009, muitas das propriedades observadas em uma série temporal Xt podem ser captadas assumindo
a componente de tendência, Ct e uma componente cíclica ou sazonal e Rt é uma componente aleatória ou ruído (a parte não explicada, que esperaaleatória). A componente cíclica se repete a cada intervalo fixos, i.e.
Assim, variações periódicas podem ser captadas por esta componente.
14
todologias empregadas na análise de
Uma série temporal consiste em um conjunto de observações ou medidas sob um intervalo de tempo. Se estas observações consecutivas são dependentes uma das outras, é possível
uma previsão (SAMOHYL, ROCHA & MATTOS, 2001) e assim fornecer bases para compreender o comportamento do evento ao qual esta se analisando. De acordo com Morettin & Toloi (2004), ao se realizar um estudo de séries temporais, pode-
c) Descrever apenas o comportamento da série, como tendências e sazonalidades, por
também ressaltam que os modelos devem ser simples, com o menor número de parâmetros possíveis, e sua utilização não deve apresentar dificuldades às pessoas
se por modelos uma descrição probabilística de
Conforme Morretin & Toloi (1987), séries temporais são compostas por quatro elementos: 1. Tendência: verifica o sentido de deslocamento da série ao longo de vários anos;
anos tende a ser periódico; 3. Sazonalidade: movimento ondulatório de curta duração, em geral, inferior a um ano
4. Ruído aleatório ou erro: compreende a variabilidade intrínseca aos dados e não pode ser
De acordo com Notas de aula do professor Ricardo S. Ehlers 2009, muitas das propriedades observadas em uma série temporal Xt podem ser captadas assumindo-se a seguinte forma
e uma componente cíclica ou sazonal e Rt é uma componente aleatória ou ruído (a parte não explicada, que espera-se ser puramente
4.3. Modelos Box-Jenkins Segundo Apostila CE017-metodologia Box & Jenkins é,Séries Temporais.Foi esse estcorrespondente formalização da área de estudo de Séries Temporais.O trabalho dos pesquisadores Box & Jenkins foi baseado no importante resultado de Wold
“qualquer série temporal pode ser representamóveis infinita” ou melhor “qualquer processo estocástico estacionário representado como a soma de dois processos mutuamente inter
processo Médias Móveis infinito (MA( A parte determinística pode ser uma fu
que descreve uma oscilação senoidal ao longo do tD é quando se tem modelos lineares conhecida ARIMAsérie temporal { , =1,2,3,....,n}.
4.4. Séries com Tendência Conforme notas de aula do professor Ricardo S. Ehlers 2009, não existe uma definição precisa de tendência e diferentes autores usam este terpensar em tendência como uma mudança de longo prazo no níveldificuldade aqui é definir longo prazo.A forma mais simples de tendência é
Onde são constantes a serem estimadas e O nível médio da série no tempo termo de tendência. Porém alguns autores preferem chamar a inclinação seja, a mudança no nível da série por unidadetendência na equação (1.1) é uma função determinística do de tendência global (i.e. vale paraDe um modo geral, uma forma de se lidar cem ajustar uma função polinomial, Uma função linear ou quadrática seria apropriada no caso de uma tendência monotonicamente crescente ou decrescente. Caso contrário polinômios de ordem mais alta devem ser ajustados. Outras possíveis formas de tendência são os crescimentos descritos por uma curva
Jenkins
-Análise de Séries Temporais, Professor Anselmo Chaves Neto,a metodologia Box & Jenkins é, sem dúvida,o mais importante trabalho na área de Previsão de Séries Temporais.Foi esse estudo o responsável pelo grande desenvolvimento e a correspondente formalização da área de estudo de Séries Temporais.O trabalho dos pesquisadores Box & Jenkins foi baseado no importante resultado de Wold
“qualquer série temporal pode ser representada por uma estrutura de médias móveis infinita” ou melhor “qualquer processo estocástico estacionário representado como a soma de dois processos mutuamente inter
, onde D é linearmente determinístico processo Médias Móveis infinito (MA(∞))”.
A parte determinística pode ser uma função exata do tempo, como por exemplo, que descreve uma oscilação senoidal ao longo do tempo.O caso mais simples para
. Box & Jenkins em 1970 propuseram uma classe geral de conhecida ARIMA (Autoregressive Integrated Moving A
=1,2,3,....,n}.
Séries com Tendência
Conforme notas de aula do professor Ricardo S. Ehlers 2009, não existe uma definição precisa de tendência e diferentes autores usam este termo de diversas formas. Podemos pensar em tendência como uma mudança de longo prazo no nível
aqui é definir longo prazo. A forma mais simples de tendência é
são constantes a serem estimadas e denota um erro aleatório com média zero. ível médio da série no tempo é dado por que é algumas vezes
de tendência. Porém alguns autores preferem chamar a inclinação , a mudança no nível da série por unidade de tempo já que
tendência na equação (1.1) é uma função determinística do tempo e algumas vezes é chamada ale para toda a série), em oposição a tendência local.
De um modo geral, uma forma de se lidar com dados que contenham uma tendência consiste em ajustar uma função polinomial,
Uma função linear ou quadrática seria apropriada no caso de uma tendência monotonicamente crescente ou decrescente. Caso contrário polinômios de ordem mais alta devem
Outras possíveis formas de tendência são os crescimentos descritos por uma curva
15
Análise de Séries Temporais, Professor Anselmo Chaves Neto,a sem dúvida,o mais importante trabalho na área de Previsão de
udo o responsável pelo grande desenvolvimento e a correspondente formalização da área de estudo de Séries Temporais.O trabalho dos pesquisadores Box & Jenkins foi baseado no importante resultado de Wold (1938)
da por uma estrutura de médias móveis infinita” ou melhor “qualquer processo estocástico estacionário pode ser representado como a soma de dois processos mutuamente inter-relacionados,
é linearmente determinístico (sistemático) e A , é um
como por exemplo, empo.O caso mais simples para
. Box & Jenkins em 1970 propuseram uma classe geral de (Autoregressive Integrated Moving Average) para a
Conforme notas de aula do professor Ricardo S. Ehlers 2009, não existe uma definição mo de diversas formas. Podemos
pensar em tendência como uma mudança de longo prazo no nível médio da série. A
(1.1)
um erro aleatório com média zero. que é algumas vezes chamado de
de tendência. Porém alguns autores preferem chamar a inclinação de tendência, ou . Note que a
tempo e algumas vezes é chamada toda a série), em oposição a tendência local.
om dados que contenham uma tendência consiste
Uma função linear ou quadrática seria apropriada no caso de uma tendência mono- tonicamente crescente ou decrescente. Caso contrário polinômios de ordem mais alta devem
Outras possíveis formas de tendência são os crescimentos descritos por uma curva Gompertz,
onde , e são parâmetros com onde são parâmetros. uma assíntota quando Seja qual for a curva utilizada, a função ajustada fornece uma medida da tendência da série, enquanto os resíduos (valores observados flutuações locais.
4.5. Função de Autocorrelação De acordo com notas de aulaautocorrelação amostral de uma série temporal observada são uma ferramenta importante paradescrever a série. Analogamente, a função deestocástico estacionário é uma ferramenta importante para acessar suas serão apresentadas propriedades gerais da função de autocorrelação.Se um processo estocástico estacionário e portanto . As se 1. A correlação entre
2.
3. Embora um processo estocástico tenha uma estrutura de autocovariâncnão é verdadeiro em geral. É possível encontrautocorrelação, o que dificulta ainda
4.6. Autocorrelações Parciais Para um processo AR(), defasagem p que não é levado em conta por um modelo AR(ésimo coeficiente de autocorrelaçãfunção de autocorrelação parcial (FAPor outro lado, em um processo AR(, Xt . . . e substituindo que todos os coeficientes de correlação parcial serão nulos pasubstituindo-se segue que
são parâmetros com , ou uma curva Logística,
são parâmetros. Estas duas últimas são chamadas curvas S e se aproxi. Neste caso o ajuste pode levar a equações não lineares.
Seja qual for a curva utilizada, a função ajustada fornece uma medida da tendência da série, enquanto os resíduos (valores observados – valores ajustados) fornecem uma estimativa de
Função de Autocorrelação
otas de aula do professor Ricardo S. Ehlers 2009,autocorrelação amostral de uma série temporal observada são uma ferramenta importante para
Analogamente, a função de autocorrelação teórica (FAC) de um processonário é uma ferramenta importante para acessar suas propriedades.
serão apresentadas propriedades gerais da função de autocorrelação. Se um processo estocástico estacionário tem média e variância então
. As seguintes propriedades são facilmente verificáveis.
e é a mesma que entre
3. Embora um processo estocástico tenha uma estrutura de autocovariâncnão é verdadeiro em geral. É possível encontrar vários processos com a mesma função de autocorrelação, o que dificulta ainda mais a interpretação do correlograma.
Parciais
), o último coeficiente mede o “excesso de correlação” na defasagem p que não é levado em conta por um modelo AR( ). Este é chamado de p
de autocorrelação parcial. Assim, variando k= 1, 2, . . . temos a chamada função de autocorrelação parcial (FACP).
em um processo AR() não existe correlação direta entre . . . e substituindo , , . . . nas equações de Yule
que todos os coeficientes de correlação parcial serão nulos para segue que
16
, ou uma curva Logística,
Estas duas últimas são chamadas curvas S e se aproximam de pode levar a equações não lineares.
Seja qual for a curva utilizada, a função ajustada fornece uma medida da tendência da série, valores ajustados) fornecem uma estimativa de
do professor Ricardo S. Ehlers 2009, os coeficientes de autocorrelação amostral de uma série temporal observada são uma ferramenta importante para
(FAC) de um processo propriedades. A seguir
então
guintes propriedades são facilmente verificáveis.
e , ou seja,
3. Embora um processo estocástico tenha uma estrutura de autocovariância única o contrário ar vários processos com a mesma função de
mais a interpretação do correlograma.
mede o “excesso de correlação” na ). Este é chamado de p-
1, 2, . . . temos a chamada
) não existe correlação direta entre e , . . . nas equações de Yule-Walker obtêm-se
. Por exemplo,
O fato de que a FACP é igual a zero para como uma ferramenta para temporais observadas.
4.7. O Correlograma Um gráfico com os k primeiros coeficientes de autocorrelação como função de k é chamado de correlograma e pode ser uma ferramenta poderosa para identificar características da série temporal. Porém isto requer uma interpretação adequassociar certos padrões do correlograma como determinadastemporal. Esta nem sempre é uma tarefa simples.
4.8. Modelos Sazonais Muitas séries temporais contêmobservações ( ). Por exemplo, com dadosque dependa de -12 e talvez de Neste caso tomar a primeira (aproximadamente) estacionária. acentuado é tomar diferenças no período sazonal. Pordiferença sazonal é e terá variabilidade menor do que a primeira diferença não sazonal sendo portanto mais fácil de identificar e estimar.Em geral, uma diferença sazonal é denotada por diferença sazonal é então denotada por obtêm-se o operador ▽ ▽uma série mensal tem-se que Box & Jenkins (197º) generalizaram o modelo ARdefiniram um modelo ARIMA onde
O fato de que a FACP é igual a zero para é sugerido em Box and Jenkins (197º, p. 17º) como uma ferramenta para determinar a ordem p do processo autoregressivo para
Um gráfico com os k primeiros coeficientes de autocorrelação como função de k é chamado de correlograma e pode ser uma ferramenta poderosa para identificar características da série temporal. Porém isto requer uma interpretação adequada do correlograma, i.eassociar certos padrões do correlograma como determinadas características de uma série temporal. Esta nem sempre é uma tarefa simples.
Modelos Sazonais
as séries temporais contêm uma componente periódica sazonal que ). Por exemplo, com dados mensais e
e talvez de -24 além de t-1 t-2
Neste caso tomar a primeira diferença não é suficiente para tornar a série adamente) estacionária. A forma apropriada de diferenciar dados com padrão sazonal
diferenças no período sazonal. Por exemplo, para dados mensais a primeira
r do que a primeira diferença não sazonal ▽sendo portanto mais fácil de identificar e estimar.
diferença sazonal é denotada por ▽ onde é o período sazonal. A Ddiferença sazonal é então denotada por ▽ . Combinando-se os dois tipos de
▽ . Por exemplo, tomando-se 1 diferença simples e 1 sazonal em se que
Box & Jenkins (197º) generalizaram o modelo ARIMA para lidar com sazonalidadeum modelo ARIMA sazonal multiplicativo, denominado SARIMA,
17
o em Box and Jenkins (197º, p. 17º) do processo autoregressivo para séries
Um gráfico com os k primeiros coeficientes de autocorrelação como função de k é chamado de correlograma e pode ser uma ferramenta poderosa para identificar características da série
correlograma, i.e. deve-se características de uma série
componente periódica sazonal que se repete a cada tipicamente espera-se
e para tornar a série A forma apropriada de diferenciar dados com padrão sazonal
para dados mensais a primeira
▽ ,
é o período sazonal. A D- ésima se os dois tipos de diferenciação
1 diferença simples e 1 sazonal em
IMA para lidar com sazonalidade e nominado SARIMA, dado por
Este modelo é chamado SARIMA multiplicativo de ordemextremamente complicado serão maiores do que 1 e um número pequenocom temos que o que significa simplesmente que original tomando-se diferenças simples para remover a tendência remover a sazonalidade. Para fixar idéias considere o modelo SARIMAseja, temos um termo autoregressivo e um termo média móvel sazonal modelando a primeira diferença sazonal. O modelo pode ser escrito como e desenvolvendo os produtos obtemos que Assim, depende de Para finalizar, ao ajustar umvalores de e que tornam a série (aproximadamente) estacionária e remove da sazonalidade. Como já foi dito, estes valores rarPosteriormente os valores de autocorrelação e autocorrelação parcial da série diferenciada. Os valores de especificados basicamente a partir de
é grande mas é pequenoadequado. Após ter identificado, por tentativa, o que parece ser um modelo SARIMA razoável os parâmetros serão estimados por algum procedimento iterativo similar àqueles promodelos ARMA. Detalhes sobre as rotinaaqui e podem ser obtidos em Box & Jenkins (197º).
4.9. Análise dos Resíduos Após um modelo ter sido ajustado a uma série temporal devedescrição adequada dos dados. Assim como eo comportamento dos resíduosPara os modelos vistos aqui o valor ajustado é a previsão 1 passo a frente de modo que o resíduo fica definido como o erro de pAR(1) se α é a estimativa do coeficiente autoregressivo então o valor ajustado no tempo t é xt-1 e o resíduo correspondente é et=xtse que os resíduos se distribuam aleatoriamente em torno de zero com variância aproximadamente constante e sejam não correlacionados. Se a variância dos resíduos for crescente uma transformação logarítmica nos dados pode ser apropriada. O fenômeno de “não constância” na variância é denominado de volatilidade na literatura de séries temporais e pode ser tratado através de transformações nos dados (e.g. transformações de Box
Este modelo é chamado SARIMA multiplicativo de ordem à primeira vista mas na prática os valores de
e um número pequeno de coeficientes será suficiente.
o que significa simplesmente que depende de t-S . A série é formadase diferenças simples para remover a tendência e diferenças sazonais para
fixar idéias considere o modelo SARIMA para dados mensais. Ou temos um termo autoregressivo e um termo média móvel sazonal modelando a primeira
odelo pode ser escrito como
e desenvolvendo os produtos obtemos que
e além do erro no tempo Para finalizar, ao ajustar um modelo sazonal aos dados a primeira tarefa é especificar os
que tornam a série (aproximadamente) estacionária e remove Como já foi dito, estes valores raramente serão maiores
Posteriormente os valores de e devem ser especificados com base naautocorrelação e autocorrelação parcial da série diferenciada. Os valores de especificados basicamente a partir de ... . Por exemplo, para dados mensais
é pequeno isto sugere que um termo média móvel sazonal pode ser
Após ter identificado, por tentativa, o que parece ser um modelo SARIMA razoável os parâmetros serão estimados por algum procedimento iterativo similar àqueles promodelos ARMA. Detalhes sobre as rotinas de estimação destes modelos não serão abordadosaqui e podem ser obtidos em Box & Jenkins (197º).
Análise dos Resíduos
Após um modelo ter sido ajustado a uma série temporal deve-se verificar se ele fornecedescrição adequada dos dados. Assim como em outros modelos estatísticos a idéia
comportamento dos resíduos, onde resíduo = valor observado - valor ajustado.Para os modelos vistos aqui o valor ajustado é a previsão 1 passo a frente de modo que o resíduo fica definido como o erro de previsão 1 passo a frente. Por exemplo, em um modelo
é a estimativa do coeficiente autoregressivo então o valor ajustado no tempo t é respondente é et=xt-(α) xt-1. Se o modelo tiver um
íduos se distribuam aleatoriamente em torno de zero com variância aproximadamente constante e sejam não correlacionados. Se a variância dos resíduos for crescente uma transformação logarítmica nos dados pode ser apropriada. O fenômeno de “não
a variância é denominado de volatilidade na literatura de séries temporais e pode ser tratado através de transformações nos dados (e.g. transformações de Box
18
e parece à primeira vista mas na prática os valores de e em geral não
coeficientes será suficiente. Por exemplo,
formada a partir da série e diferenças sazonais para
para dados mensais. Ou temos um termo autoregressivo e um termo média móvel sazonal modelando a primeira
além do erro no tempo . modelo sazonal aos dados a primeira tarefa é especificar os
que tornam a série (aproximadamente) estacionária e remove a maior parte amente serão maiores do que 1.
devem ser especificados com base nas funções de autocorrelação e autocorrelação parcial da série diferenciada. Os valores de e são
. Por exemplo, para dados mensais se média móvel sazonal pode ser
Após ter identificado, por tentativa, o que parece ser um modelo SARIMA razoável os parâmetros serão estimados por algum procedimento iterativo similar àqueles pro- postos para
tes modelos não serão abordados
se verificar se ele fornece uma m outros modelos estatísticos a idéia é verificar
valor ajustado. Para os modelos vistos aqui o valor ajustado é a previsão 1 passo a frente de modo que o
revisão 1 passo a frente. Por exemplo, em um modelo é a estimativa do coeficiente autoregressivo então o valor ajustado no tempo t é α
Se o modelo tiver um “bom” ajuste espera-íduos se distribuam aleatoriamente em torno de zero com variância
aproximadamente constante e sejam não correlacionados. Se a variância dos resíduos for crescente uma transformação logarítmica nos dados pode ser apropriada. O fenômeno de “não
a variância é denominado de volatilidade na literatura de séries temporais e pode ser tratado através de transformações nos dados (e.g. transformações de Box-Cox)¹. Além
19
disso, em modelos de séries temporais os resíduos estão ordenados no tempo e é portanto natural tratá-los também como uma série temporal. É particularmente importante que os resíduos de um modelo estimado sejam serialmente (i.e. ao longo do tempo) não correlacionados. Evidência de correlação serial nos resíduos é uma indicação de que uma ou mais características da série não foi adequadamente descrita pelo modelo. Conseqüentemente, duas maneiras óbvias de verificar a adequação do modelo consistem em representar graficamente os resíduos e o seu correlograma. O gráfico temporal poderá revelar a presença de dados discrepantes, efeitos de autocorrelação ou padrões cíclicos enquanto que o correlograma permite uma análise mais detalhada da estrutura de autocorrelação indicando possíveis termos faltantes no modelo. Ou seja, assim como em outros modelos estatísticos, a idéia é que os resíduos poderão identificar características que não foram adequadamente modeladas. Por exemplo, autocorrelações residuais significativas nas defasagens 1 ou 2, ou em defasagens ¹Uma tendência mais recente no entanto consiste em tentar modelar simultaneamente a média e a variância ao invés de usar transformações. sazonais (e.g. 12 para dados mensais) são uma indicação de que mais termos médias móveis devem ser incluídos no modelo. Por outro lado, um valor de rk ligeiramente fora dos limites de confiança em defasagens sem significado óbvio (e.g. k=5) não é indicação suficiente para se rejeitar o modelo. O mesmo comentário vale para as autocorrelações parciais dos resíduos no que diz respeito a inclusão de termos autoregressivos (sazonais e não sazonais).
4.9.1. Testes de independência Ao invés de olhar para as autocorrelações residuais individualmente pode-se testar se um grupo de autocorrelações é significativamente diferente de zero através das chamadas estatísticas Q. Para modelos ARMA Box & Jenkins (1970) sugeriram o uso do teste de Box-Pierce para as hipóteses
sendo a estatística de teste dada por
Na prática o número m de autocorrelações amostrais é tipicamente escolhido entre 15 e 30. Se o modelo ajustado for apropriado então Q terá distribuição aproximadamente qui-quadrado com m-p-q graus de liberdade. Assim, valores grandes de Q fornecem indicação contra a hipótese de que as autocorrelações são todas nulas, em favor da hipótese de que ao menos uma delas é diferente de zero. O teste de Box-Pierce não tem bom desempenho em amostras pequenas ou moderadas no sentido de que a distribuição se afasta da qui-quadrado. Vários testes alternativos foram sugeridos na literatura e o mais conhecido é o teste de Ljung-Box, aonde a estatística de teste é dada por
Sua distribuição amostral também é aproximadamente quiliberdade.
4.9.2. Teste de normalidade Em estatística, os testes de normalidade sãde uma dada variável aleatória, é bem modelada por uma distribuição normal ou não, ou para calcular a probabilidade da variável aleatória subjacente estar normalmente distribuída. O teste de Shapiro Wilk, pamostra aleatória de tamanho n provém de uma distribuição normal. Valores pequenos de W são evidência de desvios da normalidade e pontos percentuais para a estatística W, podem ser obtidos via simulação de Monte Carlo. A estatística W é calculada de acordo com a seguinte equação:
em que os são os valores amostrais ordenado e os médias, variâncias e covariâncias das estatítamanho n de uma distribuição normal. esse teste comporta-se bem.No R existe a função shapiro.test(x)
4.10. Modelos de Holt O procedimento de alisamento extendência e variação sazonal. Suponha
, e o nível, a tendência e o índice sazonal no tempo redução esperada por mês no nível atual da série.
Suponha que no tempo os termos (Então, após observar os termos a variação sazonal for multiplicativa, i.e. com amplitudes que tendem a crescer ao longo do tempo, as equações de atualização na forma de recorrência são dadas
Sua distribuição amostral também é aproximadamente qui-quadrado com
Teste de normalidade
Em estatística, os testes de normalidade são usados para determinar se um conjunto de dados de uma dada variável aleatória, é bem modelada por uma distribuição normal ou não, ou para calcular a probabilidade da variável aleatória subjacente estar normalmente distribuída.
O teste de Shapiro Wilk, proposto em 1965, calcula uma estatística W que testa se uma amostra aleatória de tamanho n provém de uma distribuição normal. Valores pequenos de W são evidência de desvios da normalidade e pontos percentuais para a estatística W, podem ser
ulação de Monte Carlo. A estatística W é calculada de acordo com a seguinte equação:
são os valores amostrais ordenado e os são constantes médias, variâncias e covariâncias das estatísticas de ordem de uma
n de uma distribuição normal. Em comparação a outros testes de bondade de ajuste, se bem. shapiro.test(x).
Modelos de Holt-Winters
O procedimento de alisamento exponencial pode ser generalizado para séries que com tenham ia e variação sazonal. Suponha por exemplo que as observações são mensais e sejam
o nível, a tendência e o índice sazonal no tempo . Assim, redução esperada por mês no nível atual da série.
os termos (1 ), . . . , (os termos , e são atualizados via alisamento exponencial. Se
a variação sazonal for multiplicativa, i.e. com amplitudes que tendem a crescer ao longo do tempo, as equações de atualização na forma de recorrência são dadas por
20
quadrado com graus de
o usados para determinar se um conjunto de dados de uma dada variável aleatória, é bem modelada por uma distribuição normal ou não, ou para calcular a probabilidade da variável aleatória subjacente estar normalmente distribuída.
roposto em 1965, calcula uma estatística W que testa se uma amostra aleatória de tamanho n provém de uma distribuição normal. Valores pequenos de W são evidência de desvios da normalidade e pontos percentuais para a estatística W, podem ser
são constantes geradas das amostra aleatória de
Em comparação a outros testes de bondade de ajuste,
para séries que com tenham ervações são mensais e sejam . Assim, é o aumento ou
) sejam conhecidos. são atualizados via alisamento exponencial. Se
a variação sazonal for multiplicativa, i.e. com amplitudes que tendem a crescer ao longo do por
e as previsões k períodos a No caso de sazonalidade aditiva as equações de atualização para o nívelmodificadas para e as previsões k períodos à frente ficam Aqui temos parâmetros de alescolhidos no intervalo (0,1) e podem ser estimados minimizandoerros de previsão como na seção anterior. Aqui vale também o comentário sobre valores próximos aos extremos devido à soma de quadrados variarestes parâmetros não dependem temporais do nível, tendência e sazonalidade da série. Valem os mesmos comentários sobre estes valores refletindo a inflcomponente. Para o caso particular de sériesacima (sem o índice t-12 ). Ou seja, e a previsão k passos à frente no tempo t e simplesmente Lt+kTt. Se a série também não tem uma tendência sistemática retorna e Lt e a previsão 1 passo à frente (( x) Segundo Serra, C.M.V.; et. al. (2005), caso a amplitude da variação sazonal mantenhaconstante, diz-se que o modelo é aditivo (figura 1), caso aumente com o tempo, dizmodelo é multiplicativo (figura 2).
Figura 3 – Modelo aditivo de H
Fonte: Ragsdale (2004)
e as previsões k períodos a frente são dadas por
aditiva as equações de atualização para o nível
e as previsões k períodos à frente ficam
Aqui temos parâmetros de alisamento α, γ e δ para cada componente da série que são em geral escolhidos no intervalo (0,1) e podem ser estimados minimizando-se a soma de quadrados dos erros de previsão como na seção anterior. Aqui vale também o comentário sobre valores
vido à soma de quadrados variar pouco nesta região. Além disso,estes parâmetros não dependem da escala das observações mas sim das propriedades temporais do nível, tendência e sazonalidade da série. Valem os mesmos comentários
s refletindo a influência das observações passadas nas previsões de cada
o caso particular de séries sem variação sazonal basta utilizar as equações para ). Ou seja,
e a previsão k passos à frente no tempo t e simplesmente Lt+kTt. Se a série também não tem uma tendência sistemática retorna-se à equação (5.3), ou seja,
e Lt e a previsão 1 passo à frente (( x) t(1)).
et. al. (2005), caso a amplitude da variação sazonal mantenhase que o modelo é aditivo (figura 1), caso aumente com o tempo, diz
modelo é multiplicativo (figura 2).
Modelo aditivo de Holt-Winters.
Fonte: Ragsdale (2004)
21
e o índice sazonal são
da série que são em geral se a soma de quadrados dos
erros de previsão como na seção anterior. Aqui vale também o comentário sobre valores pouco nesta região. Além disso,
mas sim das propriedades temporais do nível, tendência e sazonalidade da série. Valem os mesmos comentários
nas previsões de cada
as equações para t e
e a previsão k passos à frente no tempo t e simplesmente Lt+kTt. Se a série também não tem
et. al. (2005), caso a amplitude da variação sazonal mantenha-se se que o modelo é aditivo (figura 1), caso aumente com o tempo, diz-se que o
Figura 4 – Modelo multiplicativo de Holt
Fonte: Ragsdale (2004)
Conforme afirmam Morettin e Toloi (1985) as vantagens de se utilizar o modelo proposto é que o mesmo é adequado à análise de sériedesvantagens apontam quanto às dificuldades de determinar valores mais apropriados das constantes de alisamento e a impossibilidade de estudar propriedades estatísticas como médias e variâncias de previsão e, cons
4.11. Critérios para escolha do melhor modelo De acordo com notas de aula do professor Ricardo S. Ehlers 2009,vários modelos podem ser julgados adequados Uma forma de “discriminar” entre estes modelos competidores é utilizar os chamados critérios de informação que levam em conta não apenas a qualidade do ajuste mas também penalizam a inclusão de parâmetros extras. Assim, umpode ter um ajuste melhor mas não necessariamente será preferível em termos de critério de informação. A regra básica consiste em selecionar o modelo cujo critério de informação calculado seja mínimo. A regra mais utilizada em séries informação de Akaike, denotado por AIC. A definição mais comumente utilizada é
Onde m é o número de parâmetros.estimativas de máxima verossi
¹ O fator 2 é somente uma convenção e não irá alterar a seleção do modelo.
Modelo multiplicativo de Holt-Winters.
Fonte: Ragsdale (2004)
Conforme afirmam Morettin e Toloi (1985) as vantagens de se utilizar o modelo proposto é que o mesmo é adequado à análise de séries com padrão de comportamento geral. Já as desvantagens apontam quanto às dificuldades de determinar valores mais apropriados das constantes de alisamento e a impossibilidade de estudar propriedades estatísticas como médias e variâncias de previsão e, conseqüentemente, a construção de um intervalo de confiança.
Critérios para escolha do melhor modelo
otas de aula do professor Ricardo S. Ehlers 2009, vários modelos podem ser julgados adequados em termos do comportamento Uma forma de “discriminar” entre estes modelos competidores é utilizar os chamados critérios de informação que levam em conta não apenas a qualidade do ajuste mas
inclusão de parâmetros extras. Assim, um modelo copode ter um ajuste melhor mas não necessariamente será preferível em termos de critério de informação. A regra básica consiste em selecionar o modelo cujo critério de informação calculado seja mínimo. A regra mais utilizada em séries temporais é o chamado critério de informação de Akaike, denotado por AIC. A definição mais comumente utilizada é
Onde m é o número de parâmetros. Para dados normalmente distribuídos e usandoestimativas de máxima verossimilhança para os parâmetros pode-se mostrar que
O fator 2 é somente uma convenção e não irá alterar a seleção do modelo.
22
Conforme afirmam Morettin e Toloi (1985) as vantagens de se utilizar o modelo proposto é s com padrão de comportamento geral. Já as
desvantagens apontam quanto às dificuldades de determinar valores mais apropriados das constantes de alisamento e a impossibilidade de estudar propriedades estatísticas como médias
eqüentemente, a construção de um intervalo de confiança.
em muitas aplicações em termos do comportamento dos resíduos.
Uma forma de “discriminar” entre estes modelos competidores é utilizar os chamados critérios de informação que levam em conta não apenas a qualidade do ajuste mas
modelo com mais parâmetros pode ter um ajuste melhor mas não necessariamente será preferível em termos de critério de informação. A regra básica consiste em selecionar o modelo cujo critério de informação
temporais é o chamado critério de informação de Akaike, denotado por AIC. A definição mais comumente utilizada é
Para dados normalmente distribuídos e usando-se se mostrar que
O fator 2 é somente uma convenção e não irá alterar a seleção do modelo.
4.12. MAPE A média do erro percentual absoluto (MAPE) é a medida de precisão em uma série temporalvalor montados em estatísticas, eporcentagem de precisão, e é definido pela fórmula:
onde A t é o valor real e t A diferença entre t e é dividido pelo valor real de um t novamente. O valor absoluto deste cálculo é somada para cada ponto instalado ou previsão de tempo e novamente dividido pelo número de n pontos instalados. Isso o torna ucomparar o erro de séries temporais equipado que diferem em nível. Existem outros critérios de informação que são baside penalizar a inclusão de parâmetros extras,
4.13. Performance Preditiva Na prática é preciso verificar se os resíduos se comportam dimprevisível) em torno de zero e com variância aproximadamente constante, além de serem não correlacionados ao longo do Além disso, dois ou mais modelos podem ser comparados segundopreditiva, ou seja construindométodos de previsão baseiaabsolutos dos erros de previsão e esta é também uma medida usada para comparar a adequação de modelos alternativos.A idéia então é comparar o erro quadrático médio para diferentes modelos, onde m é o número de parâmetros a serem estimados. Uma estratégia simples de se fazer previsões conscomo a melhor previsão de um valor futuro da série Note que esta é a previsão 1 passo ‘a frente de um passeio aleatório. Assim, uma forma de medir a capacidade preditiva de um modelo consiste em comparar seus erros de previsão com aqueles estatística U de Theil definida como
A média do erro percentual absoluto (MAPE) é a medida de precisão em uma série temporalvalor montados em estatísticas, especificamente tendências. É geralmente expressa como uma porcentagem de precisão, e é definido pela fórmula:
é o valor previsto. é dividido pelo valor real de um t novamente. O valor absoluto deste
cálculo é somada para cada ponto instalado ou previsão de tempo e novamente dividido pelo número de n pontos instalados. Isso o torna uma percentagem de erro para que se possa comparar o erro de séries temporais equipado que diferem em nível.
Existem outros critérios de informação que são basicamente modificações do AIC na a inclusão de parâmetros extras, porém não serão citado nesse trabalho.
Performance Preditiva
Na prática é preciso verificar se os resíduos se comportam de maneira aleatória imprevisível) em torno de zero e com variância aproximadamente constante, além de serem não correlacionados ao longo do tempo.
sso, dois ou mais modelos podem ser comparados segundopreditiva, ou seja construindo-se medidas baseadas nos erros de previsão. A maioria dos
baseia-se na idéia de minimizar somas de quadrados ou dabsolutos dos erros de previsão e esta é também uma medida usada para comparar a adequação de modelos alternativos. A idéia então é comparar o erro quadrático médio ou erro absoluto médio
diferentes modelos, onde m é o número de parâmetros a serem estimados.
Uma estratégia simples de se fazer previsões consiste em tomar a observação mais de um valor futuro da série, i.e
Note que esta é a previsão 1 passo ‘a frente de um passeio aleatório. Assim, uma forma de medir a capacidade preditiva de um modelo consiste em comparar seus erros de
do passeio aleatório. Isto pode ser feito através daestatística U de Theil definida como
23
A média do erro percentual absoluto (MAPE) é a medida de precisão em uma série temporal . É geralmente expressa como uma
é dividido pelo valor real de um t novamente. O valor absoluto deste cálculo é somada para cada ponto instalado ou previsão de tempo e novamente dividido pelo
ma percentagem de erro para que se possa
camente modificações do AIC na forma rão citado nesse trabalho.
e maneira aleatória (ou imprevisível) em torno de zero e com variância aproximadamente constante, além de serem
sso, dois ou mais modelos podem ser comparados segundo a sua performance se medidas baseadas nos erros de previsão. A maioria dos
somas de quadrados ou de valores absolutos dos erros de previsão e esta é também uma medida usada para comparar a
ou erro absoluto médio
diferentes modelos, onde m é o número de parâmetros a serem estimados.
iste em tomar a observação mais recente
Note que esta é a previsão 1 passo ‘a frente de um passeio aleatório. Assim, uma forma de medir a capacidade preditiva de um modelo consiste em comparar seus erros de
asseio aleatório. Isto pode ser feito através da chamada
24
Note que valores maiores do que 1 são uma indicação de que globalmente os erros de previsão tendem a ser grandes em relação aos erros de um passeio aleatório. Esta não é uma boa característica e gostaríamos que o valor de U fosse sempre menor do que 1. Vale notar também que neste caso os erros de previsão estão sendo avaliados independente da escala dos dados. Finalmente, vale notar que todas as medidas de capacidade preditiva citadas podem ser estendidas para erros de previsão) passos a frente. Outra prática comum em séries temporais consiste em estimar o modelo excluindo algumas observações finais e usar o modelo estimado para fazer previsões. Neste caso as previsões podem ser comparadas com os valores observados. Por exemplo, para uma série mensal observada ao longo de 5 anos poderia-se estimar o modelo identificado usando os primeiros 4 anos e meio (54 observaçoes) e fazer previsões para os últimos 6 meses.
5. APLICAÇÃO DA METODOLOGIA Uma vez de posse dos dados, plotou-se o consumo em função dos meses, com a finalidade de avaliar o comportamento da série quanto a estacionaridade, tendência de crescimento (ou decrescimento), sazonalidade ou ciclos. Para efeito de análise dos resultados fez-se a modelagem considerando o período de janeiro de 2001 até dezembro de 2009, prevendo os valores de janeiro a outubro de 2010, que serviram para comparação dos resultados previstos do modelo com os dados reais. Assim, logo após aplicou-se a metodologia nos dados de janeiro de 2001 a outubro de 2010 para previsão dos próximos seis meses (novembro de 2010 a abril de 2011), que serão as estimativas (pontuais e intervalares) que a empresa utilizará para a tomada de decisão na hora de comprar/importar os papéis SC e LWC. Como metodologia, aplicaram-se nos dados o modelo Autorregressivo Integrado de Médias Móveis para Dados Sazonais - SARIMA (p, d, q) e os modelos de alisamento exponencial de Holt-Winters - Aditivo e Multiplicativo. Para definir o melhor modelo SARIMA, ou seja, os parâmetros mais adequados para a modelagem, utilizou-se o critério de Akaike (AIC). A escolha entre SARIMA, Holt-Winters Aditivo ou Holt-Winters Multiplicativo, baseou-se no menor erro percentual médio (MAPE). Para o desenvolvimento desse trabalho utilizou-se o software R (R Development Core Team, 2010), versão 2.11.1, pacotes STATS, TSERIES e LATTICE.
5.1. Análise descritiva dos dados com tendência Os primeiros dados de consumo mensal de papéis SC e LWC podem ser vistos na tabela abaixo:
Tabela 1: Primeiras linhas do banco de dados
Ano Mês Kg.papel
2001 Jan 801499
2001 Fev 709774
2001 Mar 428274
2001 Abr 464605
2001 Mai 579913
2001 Jun 477221
Antes de se realizar qualquer análise estatística deve fazer um estudo descritgráfico a seguir, pode-se observar o comportamento da série no decorrer dos anos.
Gráfico 1 - Consumo mensal de papel SC e LWC gramaturas 52, 56 e 60 no pejaneiro de 2001 a outubro de 2010.
Podemos observar que há uma tendência de crescimento, ou seja, uma mudança de longo prazo no nível médio da série.Para uma interpretação mais detalhada, plotouobservados por ano, utilizando o pacote Lattice Graphics do R
de se realizar qualquer análise estatística deve fazer um estudo descritse observar o comportamento da série no decorrer dos anos.
Consumo mensal de papel SC e LWC gramaturas 52, 56 e 60 no pejaneiro de 2001 a outubro de 2010.
Podemos observar que há uma tendência de crescimento, ou seja, uma mudança de longo prazo no nível médio da série. Para uma interpretação mais detalhada, plotou-se também uma separação dos dados
ano, utilizando o pacote Lattice Graphics do R, (Sarkar,
25
de se realizar qualquer análise estatística deve fazer um estudo descritivo dos dados. No se observar o comportamento da série no decorrer dos anos.
Consumo mensal de papel SC e LWC gramaturas 52, 56 e 60 no período de
Podemos observar que há uma tendência de crescimento, ou seja, uma mudança de longo
se também uma separação dos dados 2010).
Gráfico 2 - Consumo mensal de papel SC e LWC, separado por ano.
Para validar a metodologia a ser adotada realizoujaneiro de 2001 a dezembro 2009. Rvisualizar separadamente os componentes da série: tendência, sazonalidade e o resíduo, o que possibilita uma melhor interpretação dos dados.
Gráfico 3 - Decomposição da série de consumo mensal no períoddezembro de 2009.
Consumo mensal de papel SC e LWC, separado por ano.
Para validar a metodologia a ser adotada realizou-se a análise considerando os dados de janeiro de 2001 a dezembro 2009. Realizou-se a decomposição dos dados, na qual podevisualizar separadamente os componentes da série: tendência, sazonalidade e o resíduo, o que possibilita uma melhor interpretação dos dados.
Decomposição da série de consumo mensal no período de janeiro de 2001 a
26
se a análise considerando os dados de
se a decomposição dos dados, na qual pode-se visualizar separadamente os componentes da série: tendência, sazonalidade e o resíduo, o que
o de janeiro de 2001 a
No primeiro quadro estão os dados originais. A sazonalidade é apresentada no segundo quadro, no qual nota-se que a série possui uma nítida sazonalidade. Também se pode afirmar que a série possui tendência de crescresíduo, ou seja, o que não pode ser explicado pela sazonalidade nem pela tendência.Ademais, para propor os modelos é necessário verificar a função de autocorrelação (ACF) e a função de autocorrelação parcial (PACF).
Gráfico 4 - Função de autocorrelação e função de autocorrelação parcial da série consumo mensal de papel no período de janeiro de 2001 a dezembro de 2009.
Como se observa no correlograma acima,os valores da autocuma forma relativamente lenta,indicando não estacionaridade.Neste caso, pouca ou nenhuma informação pode ser extraída do correlograma já que a tendência dominará outras características.Logo,a série precisa ser diferenciada comcomportamento da série. Esperaseja estacionário. Aplicar esse tipo de diferenciaçãofundamentalmente a tendência mas não a sazona Assim foi realizada a primeira diferença e plotadas as funções de autocorrelações.
No primeiro quadro estão os dados originais. A sazonalidade é apresentada no segundo se que a série possui uma nítida sazonalidade. Também se pode afirmar
que a série possui tendência de crescimento, no terceiro quadro. E no último, é apresentado o resíduo, ou seja, o que não pode ser explicado pela sazonalidade nem pela tendência.Ademais, para propor os modelos é necessário verificar a função de autocorrelação (ACF) e a
ão parcial (PACF).
Função de autocorrelação e função de autocorrelação parcial da série consumo mensal de papel no período de janeiro de 2001 a dezembro de 2009.
Como se observa no correlograma acima,os valores da autocorrelação decaem para zero de uma forma relativamente lenta,indicando não estacionaridade.Neste caso, pouca ou nenhuma informação pode ser extraída do correlograma já que a tendência dominará outras características.Logo,a série precisa ser diferenciada com o objetivo de identificar melhor o comportamento da série. Espera-se que uma vez removido esse efeito, o processo resultante
esse tipo de diferenciação aos dados originais eliminam, fundamentalmente a tendência mas não a sazonalidade.
Assim foi realizada a primeira diferença e plotadas as funções de autocorrelações.
27
No primeiro quadro estão os dados originais. A sazonalidade é apresentada no segundo se que a série possui uma nítida sazonalidade. Também se pode afirmar
imento, no terceiro quadro. E no último, é apresentado o resíduo, ou seja, o que não pode ser explicado pela sazonalidade nem pela tendência. Ademais, para propor os modelos é necessário verificar a função de autocorrelação (ACF) e a
Função de autocorrelação e função de autocorrelação parcial da série consumo mensal de papel no período de janeiro de 2001 a dezembro de 2009.
orrelação decaem para zero de uma forma relativamente lenta,indicando não estacionaridade.Neste caso, pouca ou nenhuma informação pode ser extraída do correlograma já que a tendência dominará outras
o objetivo de identificar melhor o se que uma vez removido esse efeito, o processo resultante
aos dados originais eliminam,
Assim foi realizada a primeira diferença e plotadas as funções de autocorrelações.
Gráfico 5 - Função de autocorrelação e função de autocorrelação parcial da série diferenciada.
Para vermos se a tendência foi eliminada, observaremodiferença no gráfico a seguir
Função de autocorrelação e função de autocorrelação parcial da série
Para vermos se a tendência foi eliminada, observaremos a decomposição dessa primdiferença no gráfico a seguir:
28
Função de autocorrelação e função de autocorrelação parcial da série
s a decomposição dessa primeira
Gráfico 6 - Decomposição da série diferenciada.
Concluí-se que a tendência foi eliminada com apenas uma diferença. Verificouhá autocorrelação nos dados, stemporais.
5.2. Modelagem Construi-se os modelos SARIMA considerando uma diferenciação e Holtverificou-se que os resultados não foram satisfatórios para empresa,devido a alta amplitude do intervalo de confiança das previsões ,por causa da alta variablidade dos dados.Uma alternativa para esse empecilho,foi aplicar uma transformação log nos dados originais afim de dar intervalos de confiança mais informativos para a gerência da gráfica.Como resultado,verificou-se que mesmo com transformação logarítima o intervalo permaneceu com grande amplitude.Mais detalhes serão citados em consideraçõesCom a finalidade de melhorar tanto as previsões pontuais quanto as intervalares,optoumodelar a tendência através de um ajuste polinomial.
Decomposição da série diferenciada.
que a tendência foi eliminada com apenas uma diferença. Verificouhá autocorrelação nos dados, sendo assim, pode-se prosseguir com a análise de séries
se os modelos SARIMA considerando uma diferenciação e Holtse que os resultados não foram satisfatórios para empresa,devido a alta amplitude
rvalo de confiança das previsões ,por causa da alta variablidade dos dados.Uma alternativa para esse empecilho,foi aplicar uma transformação log nos dados originais afim de dar intervalos de confiança mais informativos para a gerência da gráfica.Como
se que mesmo com transformação logarítima o intervalo permaneceu com grande amplitude.Mais detalhes serão citados em considerações finais. Com a finalidade de melhorar tanto as previsões pontuais quanto as intervalares,optou
a tendência através de um ajuste polinomial.
29
que a tendência foi eliminada com apenas uma diferença. Verificou-se então que
se prosseguir com a análise de séries
se os modelos SARIMA considerando uma diferenciação e Holt-Winters e se que os resultados não foram satisfatórios para empresa,devido a alta amplitude
rvalo de confiança das previsões ,por causa da alta variablidade dos dados.Uma alternativa para esse empecilho,foi aplicar uma transformação log nos dados originais afim de dar intervalos de confiança mais informativos para a gerência da gráfica.Como
se que mesmo com transformação logarítima o intervalo permaneceu com
Com a finalidade de melhorar tanto as previsões pontuais quanto as intervalares,optou-se por
5.3. Ajuste Polinomial para tendência O ajuste polinomial para tendência consiste em ajustar um polinômio para a tendência da série, cuja função é do tipo:
Uma linha de tendência polinomiavariações. A escolha da ordem da polinomial pode ser determinada pelo próprio perfil que os dados sugerem num gráfico de dispersão. Na figura abaixo,foram estimadas 3 curvas polinomiais para a tendêncescolher a que mais se adéqua aos dados
Gráfico 7 - Consumo mensal do papel e ajuste da tendência pelos polinômios de graus 2, 6, e 8, no período de janeiro de 2001 a dezembro de 2009.
Percebe-se que não houve diferenças significComo o propósito é escolher o mais simples,escolheuPara esse trabalho, o ajuste foi calculado com uma função criada Assim, foram utilizados os seguintes> x=1:108 > X=matrix(NA,108,6) > for (i in 1:6) X[,i] = x**i> a=as.numeric(lm(Kg.papel~X)$coeff)
Ajuste Polinomial para tendência
O ajuste polinomial para tendência consiste em ajustar um polinômio para a tendência da cuja função é do tipo:
nnxbxbxbay ++++= L
221ˆ
Uma linha de tendência polinomial pode ajustar uma curva quando os dados têm diversas
A escolha da ordem da polinomial pode ser determinada pelo próprio perfil que os dados sugerem num gráfico de dispersão. Na figura abaixo,foram estimadas 3 curvas polinomiais para a tendêncescolher a que mais se adéqua aos dados.
Consumo mensal do papel e ajuste da tendência pelos polinômios de graus 2, 6, e 8, no período de janeiro de 2001 a dezembro de 2009.
se que não houve diferenças significativas entre as curvas de grau 6 e de grau 8. Como o propósito é escolher o mais simples,escolheu-se o polinômio de sexto grau.
o ajuste foi calculado com uma função criada no R (detalhes em anexosforam utilizados os seguintes parâmetros para o cálculo dos coeficientes:
> for (i in 1:6) X[,i] = x**i a=as.numeric(lm(Kg.papel~X)$coeff)
30
O ajuste polinomial para tendência consiste em ajustar um polinômio para a tendência da
l pode ajustar uma curva quando os dados têm diversas
A escolha da ordem da polinomial pode ser determinada pelo próprio perfil que os dados
Na figura abaixo,foram estimadas 3 curvas polinomiais para a tendência para que se possa
Consumo mensal do papel e ajuste da tendência pelos polinômios de graus 2, 6,
ativas entre as curvas de grau 6 e de grau 8.
se o polinômio de sexto grau. detalhes em anexos).
âmetros para o cálculo dos coeficientes:
Os coeficientes ajustados para o polinômio de sexto grau para os dados de 2001 a 2009 foram:> a
[1] 1.013531e+06 - 1.754977e+05 1.787076e+04 [6] -7.853930e- 02 2.259556e
Já para a tendência estimadacoeficientes acima e substituindo na função.Segue abaixo a tendência estimada via ajuste polinomial:
Tabela 2: Tendências para as previsões de janeiro a outubro de 2010.
5.4. Procedimento utilizado para estimar os valores futuros Segue abaixo uma representação do que foi realizado para se ter a previsão dos dados:
¹Dados Sem Tendência = Dados Originais sexto grau) ²Dados Originais = Dados Sem Tendência + Tendência( estimada via função polinomialsexto grau)
Tendência Estimada
s coeficientes ajustados para o polinômio de sexto grau para os dados de 2001 a 2009 foram:
1.754977e+05 1.787076e+04 - 6.310673e+02 1.029994e+0102 2.259556e -04
estimada para os dados previstos de 2010 foi calculada utilizando os acima e substituindo na função.
xo a tendência estimada via ajuste polinomial:
Tendências para as previsões de janeiro a outubro de 2010.
Tendência
jan/10 1.402.594
fev/10 1.419.467
mar/10 1.452.894
abr/10 1.505.450
mai/10 1.579.911
jun/10 1.679.270
jul/10 1.806.738
ago/10 1.965.754
set/10 2.160.001
out/10 2.393.407
Procedimento utilizado para estimar os valores futuros
Segue abaixo uma representação do que foi realizado para se ter a previsão dos dados:
Legenda ¹Dados Sem Tendência = Dados Originais – Tendência( estimada via função polinomial de
²Dados Originais = Dados Sem Tendência + Tendência( estimada via função polinomial
Previsões Sem Tendência
Dados Sem Tendência¹
Previsões Sem
Tendência
Tendência Estimada
Previsões dos Dados Originais²
31
s coeficientes ajustados para o polinômio de sexto grau para os dados de 2001 a 2009 foram:
6.310673e+02 1.029994e+01
para os dados previstos de 2010 foi calculada utilizando os
Tendências para as previsões de janeiro a outubro de 2010.
Segue abaixo uma representação do que foi realizado para se ter a previsão dos dados:
endência( estimada via função polinomial de
²Dados Originais = Dados Sem Tendência + Tendência( estimada via função polinomial de
Previsões dos Dados Originais²
5.5. Análise descritiva para os dados sem tendência Após a retirada da tendência dos dados originais para verificar se a série sem tendên
Gráfico 8 - Série sem tendência do consumo mensal de papel SC e LWC gramaturas 52, 56 e 60 no período de janeiro de 2001
Em seguida verifica-se o gráfico de autocorrelação:
Análise descritiva para os dados sem tendência
pós a retirada da tendência dos dados originais realizou-se as análises descritivas abaixo, para verificar se a série sem tendência ainda possui características de séries temporais.
Série sem tendência do consumo mensal de papel SC e LWC gramaturas 52, 56 e 60 no período de janeiro de 2001 a dezembro de 2009.
se o gráfico de autocorrelação:
32
se as análises descritivas abaixo, cia ainda possui características de séries temporais.
Série sem tendência do consumo mensal de papel SC e LWC gramaturas 52, 56
Gráfico 9 - Função de autocorrelação e função de autocorrelação parcial da série sem tendência.
Verificou-se então que há autocorrelação nos dados, sendo asanálise de séries temporais.
5.6. Modelagem para Séries Temporais As propostas dos modelos basearamAtravés da ACF defini-se o parâmetro q do SARIMA, ou seja, a ordem do termo dmóveis da série. E a PAFC define o parâmetro p do SARIMA, propondo a ordem to termo autorregressivo da série.De acordo com alguns autores,como Morettin & Toloi (2004), é ressaltado que os modelos devem ser simples,sendo assim,fezparâmetros simples:
ajuste1=arima(dadossemtendencia, order = c(1,0,1), seasonal = list(order=c(1,0,1)))
ajuste2=arima(dadossemtendencia, order = c(1,0,2), seasonal = list(order=c(1,0,2)))
ajuste3=arima(dadossemtendencia, order = c(1,0,3), s
ajuste4=arima(dadossemtendencia, order = c(2,0,1), seasonal = list(order=c(2,0,1)))
ajuste5=arima(dadossemtendencia, order = c(2,0,2), seasonal = list(order=c(2,0,2)))
ajuste6=arima(dadossemtendencia, order = c(2,0,3),
ajuste7=arima(dadossemtendencia, order = c(3,0,1), seasonal = list(order=c(3,0,1)))
ajuste8=arima(dadossemtendencia, order = c(3,0,2), seasonal = list(order=c(3,0,2)))
ajuste9=arima(dadossemtendencia, order = c(3,0,3
Função de autocorrelação e função de autocorrelação parcial da série sem
se então que há autocorrelação nos dados, sendo assim, podeanálise de séries temporais.
Modelagem para Séries Temporais
As propostas dos modelos basearam-se fundamentalmente nas funções de autocorrelações. se o parâmetro q do SARIMA, ou seja, a ordem do termo d
móveis da série. E a PAFC define o parâmetro p do SARIMA, propondo a ordem to termo autorregressivo da série.De acordo com alguns autores,como Morettin & Toloi (2004), é ressaltado que os modelos devem ser simples,sendo assim,fez-se todas as combi
ajuste1=arima(dadossemtendencia, order = c(1,0,1), seasonal = list(order=c(1,0,1)))
ajuste2=arima(dadossemtendencia, order = c(1,0,2), seasonal = list(order=c(1,0,2)))
ajuste3=arima(dadossemtendencia, order = c(1,0,3), seasonal = list(order=c(1,0,3)))
ajuste4=arima(dadossemtendencia, order = c(2,0,1), seasonal = list(order=c(2,0,1)))
ajuste5=arima(dadossemtendencia, order = c(2,0,2), seasonal = list(order=c(2,0,2)))
ajuste6=arima(dadossemtendencia, order = c(2,0,3), seasonal = list(order=c(2,0,3)))
ajuste7=arima(dadossemtendencia, order = c(3,0,1), seasonal = list(order=c(3,0,1)))
ajuste8=arima(dadossemtendencia, order = c(3,0,2), seasonal = list(order=c(3,0,2)))
ajuste9=arima(dadossemtendencia, order = c(3,0,3), seasonal = list(order=c(3,0,3)))
33
Função de autocorrelação e função de autocorrelação parcial da série sem
sim, pode-se prosseguir com a
se fundamentalmente nas funções de autocorrelações. se o parâmetro q do SARIMA, ou seja, a ordem do termo de médias
móveis da série. E a PAFC define o parâmetro p do SARIMA, propondo a ordem to termo autorregressivo da série.De acordo com alguns autores,como Morettin & Toloi (2004), é
se todas as combinações com
ajuste1=arima(dadossemtendencia, order = c(1,0,1), seasonal = list(order=c(1,0,1)))
ajuste2=arima(dadossemtendencia, order = c(1,0,2), seasonal = list(order=c(1,0,2)))
easonal = list(order=c(1,0,3)))
ajuste4=arima(dadossemtendencia, order = c(2,0,1), seasonal = list(order=c(2,0,1)))
ajuste5=arima(dadossemtendencia, order = c(2,0,2), seasonal = list(order=c(2,0,2)))
seasonal = list(order=c(2,0,3)))
ajuste7=arima(dadossemtendencia, order = c(3,0,1), seasonal = list(order=c(3,0,1)))
ajuste8=arima(dadossemtendencia, order = c(3,0,2), seasonal = list(order=c(3,0,2)))
), seasonal = list(order=c(3,0,3)))
34
5.7. Critérios de Seleção do Modelo Para decidir qual será o melhor modelo para explicar a série e posteriormente fazer previsões, utilizou-se o critério de informação Akaike (AIC),pois é a regra mais utilizada em séries temporais .De acordo com a Wikipedia, o critério de informação de Akaike foi desenvolvido pela Hirotsugu Akaike sob o nome de “um critério de informação” (AIC), em 1971, e propôs em Akaike (1974), é uma medida da qualidade do ajuste de cerca de modelo estatístico . Ele se baseia no conceito de entropia , de fato oferecendo uma medida relativa da perda de informações quando um determinado modelo é usado para descrever a realidade e pode ser dito para descrever o equilíbrio entre viés e variância na construção do modelo, ou vagamente falar que de precisão e complexidade do modelo. Assim, para os modelos propostos, foram resultados os seguintes AIC:
Tabela 3 - DF e Critério de Akaike para os modelos ajustados.
MODELO DF AIC
ajuste1 6 2.979.273
ajuste2 8 2.982.356
ajuste3 10 2.974.874
ajuste4 8 2.982.526
ajuste5 10 2.982.640
ajuste6 12 2.983.702
ajuste7 10 2.974.195
ajuste8 12 2.985.384
ajuste9 14 2.969.734
Após rodar os ajustes e ver os AIC, percebeu-se que o erro padrão de alguns ajustes não foram estimados devido à mensagem “NaN”* aparecer no lugar do erro padrão estimado. (ver comandos em anexos). *NaN : Segundo a Wikipedia, NaN ( Not a Number, ou seja, não é um número), é um valor de tipo de dados numéricos representando um valor indefinido ou irrepresentável, especialmente em cálculos de ponto flutuante. Por exemplo, 0 / 0 é indefinido como um número real, e assim representado por NaN. Sendo assim,foram eliminados esses modelos que apresentavam NaNs e dentre os que sobraram,foi escolhido o modelo com menor AIC. Portanto, o ajuste 1 foi escolhido. > ajuste1 Call: arima(x = dadossemtendencia, order = c(1, 0, 1), seasonal = list(order = c(1, 0, 1))) Coefficients: ar1 ma1 sar1 sma1 intercept 0.3452 -0.2694 0.3452 -0.2694 24.3122 s.e. 0.7485 0.7755 0.7485 0.7755 26728.2181 sigma^2 estimated as 5.007e+10: log likelihood = -1483.64, aic = 2979.27
5.8. Análise Residual Após a escolha do modelo é necessário realizar a análise de resíduos (obsajustado). Se o modelo for adequado aos dados esperaaleatoriamente em torno de zero com variância aproximadamente constante. Também esperase que os resíduos sejam independentes e possuam distribuição normaNo terceiro quadro do gráfico abaixo é apresentado o Teste Ljung amostral é aproximadamente Quiindependência dos resíduos, cujas hipóteses podem ser interpretadas da seguinte Ho: Resíduos independentes vs Ha: Resíduos não são independentes.
Gráfico 10 - Análise de resíduos do ajuste1 para a série sem tendência.
Pode-se observar que todas as observações possuem um presíduos são independentes. Cerca de 95% das bolinhas acima da barra é um indicativo de independência.
Após a escolha do modelo é necessário realizar a análise de resíduos (obsajustado). Se o modelo for adequado aos dados espera-se que os resíduos se distribuam aleatoriamente em torno de zero com variância aproximadamente constante. Também esperase que os resíduos sejam independentes e possuam distribuição normal. No terceiro quadro do gráfico abaixo é apresentado o Teste Ljung – Box, cuja distribuição amostral é aproximadamente Qui-quadrado com m-p-q graus de liberdade para testar a independência dos resíduos, cujas hipóteses podem ser interpretadas da seguinte
Ho: Resíduos independentes vs Ha: Resíduos não são independentes.
Análise de resíduos do ajuste1 para a série sem tendência.
se observar que todas as observações possuem um p-valor alto, indicação de queresíduos são independentes. Cerca de 95% das bolinhas acima da barra é um indicativo de
35
Após a escolha do modelo é necessário realizar a análise de resíduos (observação – valor se que os resíduos se distribuam
aleatoriamente em torno de zero com variância aproximadamente constante. Também espera- Box, cuja distribuição
q graus de liberdade para testar a independência dos resíduos, cujas hipóteses podem ser interpretadas da seguinte forma:
Análise de resíduos do ajuste1 para a série sem tendência.
valor alto, indicação de que os resíduos são independentes. Cerca de 95% das bolinhas acima da barra é um indicativo de
Para verificar a normalidade dos resíduos, segue abaixo o Teste deShapiroseguintes hipóteses: Ho: Resíduos possuem distribuiçã z=ajuste1$residuals a=shapiro.test(z) a Shapiro-Wilk normality testdata: z W = 0.9907, p-value = 0.6701 O p-valor alto não mostra evidências para a rejeição da hipótese nula, ou seja, os dadonormalmente distribuidos. Também pode-se verificar o histograma dos resíduos do ajuste escolhido e o gráfico Normal Q-Q Plot:
Gráfico 11 - Histograma e gráfico Qtendência.
Para verificar a normalidade dos resíduos, segue abaixo o Teste deShapiro
Ho: Resíduos possuem distribuição normal vs Ha: Resíduos não possuem distribuição normal.
Wilk normality test
value = 0.6701
valor alto não mostra evidências para a rejeição da hipótese nula, ou seja, os dado
se verificar o histograma dos resíduos do ajuste escolhido e o gráfico Normal
Histograma e gráfico Q-Qplot dos resíduos para o modelo da série sem
36
Para verificar a normalidade dos resíduos, segue abaixo o Teste deShapiro-Wilk que vefica as
o normal vs Ha: Resíduos não possuem distribuição normal.
valor alto não mostra evidências para a rejeição da hipótese nula, ou seja, os dados são
se verificar o histograma dos resíduos do ajuste escolhido e o gráfico Normal
Qplot dos resíduos para o modelo da série sem
37
Com esta análise residual, pode-se afirmar que o modelo escolhido é adequado aos dados, pois os resíduos seguem os pressupostos de normalidade e independência.
5.9. Performance Preditiva Modelo SARIMA Uma forma de medir a capacidade preditiva do modelo consiste em comparar seus erros de previsão com aqueles do passeio aleatório. Isso pode ser feito através da chamada estatística U de Theil. O coeficiente U de Theil, avalia o desempenho da previsão em relação à previsão ingênua ou trivial. Previsão ingênua ou trivial significa que a estimativa do valor futuro é igual ao valor atual. O coeficiente U de Theil analisa a qualidade de uma previsão através dos seguintes valores: - U > 1, significa que o erro do modelo é maior do que da previsão ingênua; - U < 1, significa que o erro do modelo é menor que da previsão ingênua. O coeficiente U de Theil menor do que 1 já indica uma previsão melhor que a previsão ingênua; quanto mais próximo o mesmo for de zero, melhor será o resultado da previsão. A estatística U- Theil aplicada aos dados estimados e observados de janeiro a outubro de 2010 é: 0,06 indicando também uma boa qualidade do modelo em relação aos valores preditos. Conforme dito anteriormente, o ajustes SARIMA foi modelado em cima de dados sem tendência e para comparar com os dados reais, foi somada a tendência. O modelo escolhido foi: > ajuste1=arima(dadossemtendencia, order = c(1,0,1), seasonal = list(order=c(1,0,1))) Assim, para a estatística U-Theil, os dados estimados pelo modelo são os dados sem tendência menos os resíduos do ajuste escolhido: >estimados = dadossemtendencia - ajuste1$residuals E os observados é a série sem tendência (ver gráfico 8). Assim, como a estatística U-Theil mede o quanto a curva dos dados observados (série sem tendência – gráfico 8) se parece com os valores estimados do modelo, segue abaixo um gráfico dos observados x estimados do modelo sem tendência:
Gráfico 12 - Valores estimados
Percebe-se que as duas linhas desacordo. O U-Theil calculado para esses dados provando o que o gráfico mostra1,19. Porém, ao calcularmos o Uacima + tendência, em relação aos dados de
Valores estimados e observados da série sem tendência.
linhas parecem ter um comportamento diferente, ou seja, estão em Theil calculado para esses dados de 2001 a 2009 sem tendência
provando o que o gráfico mostra. Para as previsões do modelo sem tendência,
Porém, ao calcularmos o U-Theil considerando estimados acima + tendência e observados em relação aos dados de 2001 a 2009 é 0,07.
38
diferente, ou seja, estão em
2001 a 2009 sem tendência é 0,84, Para as previsões do modelo sem tendência, o resultado é
estimados acima + tendência e observados
39
Gráfico 13 - Valores estimados e observados da série com tendência.
Já para jan 2010 a out 2010, o resultado é 0,06 indicando uma boa qualidade do ajuste.
5.10. Previsão de valores futuros SARIMA Calculou-se os valores previstos do consumo de papel para os dez primeiros meses do ano de 2010 e comparou-se com os valores reais.
Tabela 4 – Estimação dos dados originais – dados sem tendência + tendência.
Dados sem
tendência Tendência
Estimação dados
originais
jan/10 12.212,75 1.402.594 1.414.806,75
fev/10 4.637,89 1.419.467 1.424.104,89
mar/10 1.757,15 1.452.894 1.454.651,15
abr/10 670,91 1.505.450 1.506.120,91
mai/10 264,24 1.579.911 1.580.175,24
jun/10 112,91 1.679.270 1.679.382,91
jul/10 56,89 1.806.738 1.806.794,89
ago/10 36,25 1.965.754 1.965.790,25
set/10 28,67 2.160.001 2.160.029,67
out/10 25,90 2.393.407 2.393.432,90
40
Tabela 5 - Estimativa do modelo ajustado versus o valor real observado.
Estimativa Pontual Valor Real
jan/10 1.414.807 1.294.873
fev/10 1.424.105 1.408.301
mar/10 1.454.651 1.905.549
abr/10 1.506.121 1.655.691
mai/10 1.580.175 1.897.463
jun/10 1.679.383 1.785.078
jul/10 1.806.795 1.877.517
ago/10 1.965.790 1.911.227
set/10 2.160.030 2.089.385
out/10 2.393.433 1.889.405
Também calculou-se o intervalo de confiança com 95% de confiança para os valores preditos:
Tabela 6 - Estimativa do intervalo de confiança inferior.
IC Inferior
Dados sem
tendência Tendência Estimação dados originais
jan/10 -426.346,90 1.402.594 976.247,10
fev/10 -438.932,70 1.419.467 980.534,30
mar/10 -442.544,30 1.452.894 1.010.349,70
abr/10 -443.735,60 1.505.450 1.061.714,40
mai/10 -444.157,20 1.579.911 1.135.753,80
jun/10 -444.310,60 1.679.270 1.234.959,40
jul/10 -444.366,90 1.806.738 1.362.371,10
ago/10 -444.387,60 1.965.754 1.521.366,40
set/10 -444.395,10 2.160.001 1.715.605,90
out/10 -444.397,90 2.393.407 1.949.009,10
41
Tabela 7 - Estimativa do intervalo de confiança superior.
IC Superior
Dados sem
tendência Tendência Estimação dados originais
jan/10 450.772,40 1.402.594 1.853.366,40
fev/10 448.208,50 1.419.467 1.867.675,50
mar/10 446.058,60 1.452.894 1.898.952,60
abr/10 445.077,40 1.505.450 1.950.527,40
mai/10 444.685,60 1.579.911 2.024.596,60
jun/10 444.536,40 1.679.270 2.123.806,40
jul/10 444.480,70 1.806.738 2.251.218,70
ago/10 444.460,10 1.965.754 2.410.214,10
set/10 444.452,50 2.160.001 2.604.453,50
out/10 444.449,70 2.393.407 2.837.856,70
Tabela 8 - Estimativas pontuais e intervalares do modelo ajustado versus o valor real.
SARIMA
IC Inferior Estimativa
Pontual IC Superior Valor Real
jan/10 976.247 1.414.807 1.853.366 1.294.873
fev/10 980.535 1.424.105 1.867.676 1.408.301
mar/10 1.010.350 1.454.651 1.898.953 1.905.549
abr/10 1.061.714 1.506.121 1.950.527 1.655.691
mai/10 1.135.754 1.580.175 2.024.597 1.897.463
jun/10 1.234.960 1.679.383 2.123.807 1.785.078
jul/10 1.362.371 1.806.795 2.251.218 1.877.517
ago/10 1.521.367 1.965.790 2.410.215 1.911.227
set/10 1.715.606 2.160.030 2.604.454 2.089.385
out/10 1.949.009 2.393.433 2.837.857 1.889.405
5.11. Predição de Valores Futuros Holt Para poder ter a opção de escolher um modelo mais adequado para os dados,fa modelagem via Holt-Winters,a qual é um procedimento de alisamento exponencial. Esse método foi aplicado nos dados da seguinte forma:
5.12. Holt-Winters Aditivo Considerando o Holt-Winters Aditivo,seguem abaixo as previsões para 2010outubro, com seus intervalos de confiança e os valores reais observados para comparação:
Tabela 9 - Estimativas do modelo Holt
jan/10
fev/10
mar/10 1.082.491
abr/10 1.076.815
mai/10
jun/10
jul/10 1.082.469
ago/10 1.089.161
set/10
out/10 1.037.831
Observa-se que todos os valores reais estão dentro dos intervalos de confiança estimados.Comparando os valores pontuais com os meses.
Previsões Com Dados Originais
Predição de Valores Futuros Holt- Winters
Para poder ter a opção de escolher um modelo mais adequado para os dados,fWinters,a qual é um procedimento de alisamento exponencial.
Esse método foi aplicado nos dados da seguinte forma:
Winters Aditivo
Winters Aditivo,seguem abaixo as previsões para 2010com seus intervalos de confiança e os valores reais observados para comparação:
Estimativas do modelo Holt-Winters aditivo versus o valor real.
Holt-Winters Aditivo
Limite
Inferior Estimativa
Pontual Limite
Superior Valor Real
839.580 1.385.287 1.930.994
788.098 1.354.918 1.921.739
1.082.491 1.669.666 2.256.840
1.076.815 1.683.661 2.290.508
991.318 1.617.218 2.243.119
877.376 1.521.768 2.166.159
1.082.469 1.744.835 2.407.201
1.089.161 1.769.027 2.448.893
945.765 1.642.691 2.339.618
1.037.831 1.751.410 2.464.989
valores reais estão dentro dos intervalos de confiança estimados.omparando os valores pontuais com os dados reais, verifica-se proximidade na maioria dos
Previsões Com Dados Originais
Dados Originais
42
Para poder ter a opção de escolher um modelo mais adequado para os dados,foi feito também Winters,a qual é um procedimento de alisamento exponencial.
Winters Aditivo,seguem abaixo as previsões para 2010 até o mês de com seus intervalos de confiança e os valores reais observados para comparação:
Winters aditivo versus o valor real.
Valor Real
1.294.873
1.408.301
1.905.549
1.655.691
1.897.463
1.785.078
1.877.517
1.911.227
2.089.385
1.889.405
valores reais estão dentro dos intervalos de confiança estimados. se proximidade na maioria dos
Porém, antes de se tomar alguma decisão apenas olhando os valores,todos os modelos será calculado o MAPEo modelo mais adequado. Logo abaixo, seguem os parâmetros estimados:alpha: 0.2808475 beta : 0 gamma: 0.577182 Os dados reais e os dados estimados são represenprevisões para 2010 são mostradas com intervalo de confiança:
Gráfico 14 - Observados e estimados através do modelo Holt
5.12.1. Performance Preditiva Holt Em relação à performance preditiva,foi calculado o UTambém pode-se utilizar a correlação entre os valores observados e preditos como um critério de qualidade do ajuste, quanto maior a correlação melhor o modelo.A correlação entre os valores observados e preditos é modelo.
antes de se tomar alguma decisão apenas olhando os valores, ao final doscalculado o MAPE (Mean Absolute Percentage E
seguem os parâmetros estimados:
Os dados reais e os dados estimados são representados pelo seguinte gráfico abaixo e as previsões para 2010 são mostradas com intervalo de confiança:
Observados e estimados através do modelo Holt-Winters Aditivo
Performance Preditiva Holt- Winters Aditivo
ormance preditiva,foi calculado o U- Theil, cujo resultado foi: 0.0870125se utilizar a correlação entre os valores observados e preditos como um critério
de qualidade do ajuste, quanto maior a correlação melhor o modelo. valores observados e preditos é 0,79, indicando uma boa qualidade do
43
ao final dos ajustes de (Mean Absolute Percentage Error) para decidir qual
tados pelo seguinte gráfico abaixo e as
Winters Aditivo.
cujo resultado foi: 0.0870125 se utilizar a correlação entre os valores observados e preditos como um critério
, indicando uma boa qualidade do
44
Assim, como foi dito na metodologia,quanto menor o U-Theil, melhor a qualidade do ajuste, pode-se afirmar que para esse caso, há uma boa qualidade do ajuste do modelo.
5.13. Holt-Winters Multiplicativo Agora, ajustando o Holt-Winters Multiplicativo, seguem os resultados:
Tabela 10 - Estimativas do modelo Holt-Winters multiplicativo versus o valor real.
Holt-Winters Multiplicativo
Limite Inferior
Estimativa
Pontual Limite Superior
Valor
Real
jan/10 819.330 1.358.167 1.897.004 1.294.873
fev/10 771.326 1.322.707 1.874.088 1.408.301
mar/10 909.607 1.479.891 2.050.176 1.905.549
abr/10 1.000.163 1.588.798 2.177.433 1.655.691
mai/10 806.932 1.393.361 1.979.789 1.897.463
jun/10 812.214 1.411.545 2.010.876 1.785.078
jul/10 924.585 1.548.442 2.172.299 1.877.517
ago/10 1.043.407 1.694.631 2.345.855 1.911.227
set/10 877.345 1.515.391 2.153.437 2.089.385
out/10 1.051.401 1.728.607 2.405.813 1.889.405
Percebe-se que todos os valores reais também estão dentro dos intervalos de confiança estimados. A mesma conclusão pode-se tirar em relação ao Holt-Winters Adivivo, quando se compara os valores pontuais com os reais, que estão próximos, mas não tão precisos. Logo abaixo, seguem os parâmetros estimados: alpha: 0.1916123 beta : 0 gamma: 0.8174372
Gráfico 15 - Observados e estimados através do modelo Holt
5.13.1. Performance Preditiva Holt Para a performance preditiva, o resultado do Uobservados e os preditos foi de Então, pode-se afirmar que há uma boa qualidade do ajuste do modelo.
5.14. Comparação Modelo SARIMA e Modelos Holt
5.14.1. Erro p ercentual médio absolutoCalculou-se o Erro Percentual Médio Absoluto (MAPE) para SARIMA, HoltAdiyivo e Holt –Winters Multiplicativo a fim de escolher o melhor modelo.
5.14.2. Amplitude do Intervalo de ConfiançaTambém calculou-se a amplitude dos intervda empresa, esta é uma medida importante para a tomada de decisão na hora da compra/importação. A partir dessa amplitude podemédia para fins de comparação dos trêSegue uma tabela com um resumo d
Observados e estimados através do modelo Holt-Winters Multiplicativo
Performance Preditiva Holt- Winters Multiplicativo
Para a performance preditiva, o resultado do U- Theil é 0,10. E a correlação entre os s e os preditos foi de 0,76.
se afirmar que há uma boa qualidade do ajuste do modelo.
Comparação Modelo SARIMA e Modelos Holt-Winters
ercentual médio absoluto se o Erro Percentual Médio Absoluto (MAPE) para SARIMA, Holt
Winters Multiplicativo a fim de escolher o melhor modelo.
Amplitude do Intervalo de Confiança se a amplitude dos intervalos de confiança, pois segundos os funcionários
da empresa, esta é uma medida importante para a tomada de decisão na hora da compra/importação. A partir dessa amplitude pode-se calcular a amplitude total e a amplitude média para fins de comparação dos três modelos
com um resumo dos estudos:
45
Winters Multiplicativo.
E a correlação entre os
Winters
se o Erro Percentual Médio Absoluto (MAPE) para SARIMA, Holt -Winters Winters Multiplicativo a fim de escolher o melhor modelo.
alos de confiança, pois segundos os funcionários da empresa, esta é uma medida importante para a tomada de decisão na hora da
se calcular a amplitude total e a amplitude
Tabela 11 - Comparativo modelo SARIMA e modelos Holt
Assim, embora o SARIMA não apresente menor MAPE,Intervalos de Confiança. O que vale ressaltar é qHolt-Winters foi de apenas 0,48% o que se pode considerar baixo.
5.15. Previsão dos valores futuros Após a escolha e validação do modelo escolhido, ou seja, definir a melhor modelagem a ser aplicada: modelo SARIMA e validameses de 2010, aplicou-se o mesmo modelo (com ajuste polinomial) nos dados de janeiro de 2001 a outubro de 2010 para a previsão dos seis meses seguintes (novembro2011).
Gráfico 16 - Consumo mensal do papel e ajuste da tendência pelos polinômios de graus 2, 6, e 8, no período de janeiro de 2001 a outubro de 2010.
Comparativo modelo SARIMA e modelos Holt
Assim, embora o SARIMA não apresente menor MAPE, possui menor amplitude média nosIntervalos de Confiança. O que vale ressaltar é que a diferença do MAPE do SARIMA e do
Winters foi de apenas 0,48% o que se pode considerar baixo.
Previsão dos valores futuros
Após a escolha e validação do modelo escolhido, ou seja, definir a melhor modelagem a ser aplicada: modelo SARIMA e validar os resultados com os dados reais dos dez primeiros
se o mesmo modelo (com ajuste polinomial) nos dados de janeiro de 2001 a outubro de 2010 para a previsão dos seis meses seguintes (novembro
sumo mensal do papel e ajuste da tendência pelos polinômios de graus 2, 6, e 8, no período de janeiro de 2001 a outubro de 2010.
46
Comparativo modelo SARIMA e modelos Holt-Winters.
possui menor amplitude média nos ue a diferença do MAPE do SARIMA e do
Após a escolha e validação do modelo escolhido, ou seja, definir a melhor modelagem a ser r os resultados com os dados reais dos dez primeiros
se o mesmo modelo (com ajuste polinomial) nos dados de janeiro de 2001 a outubro de 2010 para a previsão dos seis meses seguintes (novembro-2010 a abril de
sumo mensal do papel e ajuste da tendência pelos polinômios de graus 2,
47
Os coeficientes do polinômio de sexto grau são:
> a [1] 9.588620e+05 -1.556078e+05 1.606529e +04 -5.653158e+02 9.182990e+00 [6] -6.969446e-02 1.996154e-04
A partir desses coeficientes pode-se calcular a tendência dos valores futuros, como pode ser visto na tabela abaixo:
Tabela 12 – Tendência dos valores futuros
Tendência
nov/10 2.499.791
dez/10 2.772.409
jan/11 3.090.100
fev/11 3.457.222
mar/11 3.878.395
abr/11 4.358.509
Para os modelos propostos para a previsão dos meses citados acima, tem-se como resultado os seguintes AIC:
Tabela 13 - DF e AIC para os modelos ajustados de janeiro de 2001 a outubro de 2010.
MODELO DF AIC
ajuste1 6 3.253.451
ajuste2 8 3.256.332
ajuste3 10 3.260.234
ajuste4 8 3.256.496
ajuste5 10 3.256.421
ajuste6 12 3.259.907
ajuste7 10 3.260.257
ajuste8 12 3.264.262
ajuste9 14 3.263.276
Após rodar os ajustes e ver os AIC, percebeu-se que o erro padrão de alguns ajustes não foram estimados devido à mensagem “NaN” aparecer no lugar do erro padrão estimado. Foram eliminados esses modelos que apresentavam NaNs e dentre os que sobraram, foi escolhido o modelo com menor AIC. Portanto, o ajuste 1 foi escolhido.
> ajuste1 Call: arima(x = dadossemtendencia, order = c(1, 0, 1), seas0, 1))) Coefficients: ar1 ma1 sar1 sma1 intercept 0.3697 -0.2852 0.3697 s.e. 0.7815 0.6507 0.7815 0.6507 26352.5459 sigma^2 estimated as 4.982e+10: log likelihood =
5.16. Análise Residual
Após o ajuste do modelo coa análise dos resíduos abaix
Gráfico 17 - Análise residualoutubro de 2010.
arima(x = dadossemtendencia, order = c(1, 0, 1), seasonal = list(order = c(1,
ar1 ma1 sar1 sma1 intercept 0.2852 0.3697 -0.2852 -982.9826
s.e. 0.7815 0.6507 0.7815 0.6507 26352.5459
sigma^2 estimated as 4.982e+10: log likelihood = -1620.73, aic = 3253.45
Análise Residual
onsiderando os dados de janeiro de 2001 a ouxo:
residual do ajuste1 para a série sem tendência de janeiro de 2001 a
48
onal = list(order = c(1,
0.73, aic = 3253.45
utubro de 2010, fez-se
de janeiro de 2001 a
Pode-se observar que todas as observações possuem um presíduos são independentes. Cerca de 95% das bolinhas acima da barra é um indicativo de independência. Para verificar a normalidade dos resíduos, segue abaixo o Teste deShapiroseguintes hipóteses: Ho: Resíduos possuem distribuição normal vs Ha: Resíduos não possuem distribuição normal. z=ajuste1$residuals a=shapiro.test(z) a Shapiro-Wilk normality testdata: z W = 0.9906, p-value = 0.603 O p-valor alto não mostra evidências para a rejeição da hipótese nula, ou seja, os dados são normalmente distribuídos. Também pode-se verificar o histograma dos resíduos do ajuste escolhido e o gráfico Normal Q-Q Plot:
Gráfico 18 - Histograma e gráfico Qtendência.
se observar que todas as observações possuem um p-valor alto, indicação de que os resíduos são independentes. Cerca de 95% das bolinhas acima da barra é um indicativo de
rmalidade dos resíduos, segue abaixo o Teste deShapiro
Ho: Resíduos possuem distribuição normal vs Ha: Resíduos não possuem distribuição normal.
Wilk normality test
value = 0.603
valor alto não mostra evidências para a rejeição da hipótese nula, ou seja, os dados são
se verificar o histograma dos resíduos do ajuste escolhido e o gráfico Normal
Histograma e gráfico Q-Qplot dos resíduos para o modelo da série sem
49
valor alto, indicação de que os resíduos são independentes. Cerca de 95% das bolinhas acima da barra é um indicativo de
rmalidade dos resíduos, segue abaixo o Teste deShapiro-Wilk que vefica as
Ho: Resíduos possuem distribuição normal vs Ha: Resíduos não possuem distribuição normal.
valor alto não mostra evidências para a rejeição da hipótese nula, ou seja, os dados são
se verificar o histograma dos resíduos do ajuste escolhido e o gráfico Normal
Qplot dos resíduos para o modelo da série sem
50
Com esta análise residual, pode-se afirmar que o modelo escolhido é adequado aos dados de 2001 a 2010, pois os resíduos seguem os pressupostos de normalidade e independência. Para obter as estimativas pontuais para os valores futuros somaram-se as estimativas do modelo sem tendência com a tendência, como pode ser visto na tabela 9.
Tabela 14 – Estimação dos dados originais.
Dados sem
tendência Tendência
Estimação dados
originais
nov/10 -63.811 2.499.791 2.435.980
dez/10 -26.882 2.772.409 2.745.527
jan/11 -11.545 3.090.100 3.078.555
fev/11 -5.253 3.457.222 3.451.969
mar/11 -2.696 3.878.395 3.875.699
abr/11 -1.666 4.358.509 4.356.843
Calcularam-se os valores previstos do consumo de papel para o período de novembro de 2010 a abril de 2011, bem como as estimativas intervalares:
Tabela 15 – Estimativas pontuais e intervalares do consumo para os meses futuros.
SARIMA
IC Inferior Estimativa
IC Superior Pontual
nov/10 1.998.487 2.435.980 2.873.474
dez/10 2.301.835 2.745.527 3.189.220
jan/11 2.633.819 3.078.555 3.523.291
fev/11 3.007.060 3.451.969 3.896.879
mar/11 3.430.761 3.875.699 4.320.636
abr/11 3.911.901 4.356.843 4.801.785
Nota-se que as estimativas pontuais acompanham a tendência de crescimento do consumo de papel para os próximos meses.
51
Conforme os objetivos desse trabalho, outra informação importante para a empresa é a divisão das previsões de consumo por clientes. Fez-se um estudo e os clientes foram agrupados da seguinte maneira: Primeiro grupo - os clientes que consomem mais e que foram constantes em todos os períodos, ou seja, sempre permaneceram no grupo top de consumo e consumiram em todos os anos desde que entraram como clientes. (76,47% do consumo total de 2001 a 2010); Segundo grupo - os clientes que consomem mais, mas que NÃO foram constantes em todos os períodos, ou seja, nem sempre esses clientes consumiram em todos os anos (13,69% do consumo total de 2001 a 2010); Terceiro grupo - os clientes que consomem menos (9,84% do consumo total de 2001 a 2010). Assim, segue a divisão das previsões pelos grupos de clientes:
Tabela 16 – Previsão de consumo do primeiro grupo de clientes para os meses futuros.
SARIMA - GRUPO 1
IC Inferior
Estimativa IC Superior
Pontual
nov/10 1.528.243 1.862.794 2.197.346
dez/10 1.760.213 2.099.504 2.438.797
jan/11 2.014.081 2.354.171 2.694.261
fev/11 2.299.499 2.639.721 2.979.943
mar/11 2.623.503 2.963.747 3.303.990
abr/11 2.991.431 3.331.678 3.671.925
Tabela 17 – Previsão de consumo do segundo grupo de clientes para os meses futuros.
SARIMA - GRUPO 2
IC Inferior
Estimativa IC Superior
Pontual
nov/10 270.395 329.588 388.781
dez/10 311.438 371.470 431.501
jan/11 356.356 416.528 476.701
fev/11 406.855 467.051 527.248
mar/11 464.182 524.382 584.582
abr/11 529.280 589.481 649.682
52
Tabela 18 – Previsão de consumo do terceiro grupo de clientes para os meses futuros.
SARIMA - GRUPO 3
IC Inferior
Estimativa IC Superior
Pontual
nov/10 199.849 243.598 287.347
dez/10 230.184 274.553 318.922
jan/11 263.382 307.856 352.329
fev/11 300.706 345.197 389.688
mar/11 343.076 387.570 432.064
abr/11 391.190 435.684 480.179
Ademais construiu-se um gráfico para demonstrar o comportamento dos três grupos em relação aos últimos anos (2008, 2009 e 2010)
Gráfico 19 – Comportamento dos grupos de clientes no período de janeiro de 2008 a outubro de 2010.
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
jan
/08
fev/
08
ma
r/0
8a
br/
08
ma
i/0
8ju
n/0
8ju
l/0
8a
go
/08
set/
08
ou
t/0
8n
ov/
08
de
z/0
8ja
n/0
9fe
v/0
9m
ar/
09
ab
r/0
9m
ai/
09
jun
/09
jul/
09
ag
o/0
9se
t/0
9o
ut/
09
no
v/0
9d
ez/
09
jan
/10
fev/
10
ma
r/1
0a
br/
10
ma
i/1
0ju
n/1
0ju
l/1
0a
go
/10
set/
10
ou
t/1
0
% d
e C
on
sum
o
Variação do Consumo em % de SC e LWC dos grupos de
clientes - de jan/08 a out/10
Grupo1
Grupo2
Grupo3
53
6. CONCLUSÕES
Conclui-se que o melhor modelo utilizado para a previsão dos valores de 2010 foi o Modelo Autoregressivo Integrado de Médias Móveis Sazonal - SARIMA (1, 0, 1) x (1, 0, 1), com ajuste polinomial da tendência, apresentando menor valor da estatística U-Theil e menor amplitude média de Intervalo de Confiança. Verificou-se através das várias técnicas aplicadas neste trabalho, que Séries Temporais não é a metodologia mais adequada para esses dados, pois a variabilidade é muito grande, o que não possibilita estimativas precisas. Outra evidência é que considerando a modelagem do Holt-Winters para os dados originais o intervalo de confiança ficou muito grande. No SARIMA via ajuste polinomial da tendência, dados previstos para 2010 ficam coerentes com os valores reais. Porém ao verificar a estatística U – Theil, percebe-se que para a modelagem nos dados sem tendência de 2001 a 2009, as estimativas e os valores observados sem tendência estão em desacordo, ou seja, considerando a tendência os dados coincidentemente ficam bons, mas considerando a modelagem sem tendência, o modelo não está em acordo com os dados observados sem tendência. Ou seja, a tendência influencia na estatística U-theil, sendo um problema para a modelagem. Outros estudos foram feitos e encontram-se em considerações finais. Mesmo aplicando transformação logarítmica nos dados os intervalos ficaram muito grandes, o que não é interessante para a empresa. Sugestão para estudos futuros seria a análise de Modelos Markovianos, considerando a probabilidade do consumo médio por cliente, Redes Neurais ou modelos probabilísticos com restrições dos parâmetros. Por serem sugestões, deve-se validar a aplicação dos mesmos e ver se realmente o modelo é adequado, caso contrário, terá que se procurar outras formas de modelagem. Ademais, outro trabalho futuro é tentar modelar o consumo de outros tipos de papéis e gramaturas, dado que o interesse da empresa é ter previsões de consumo de suas principais matérias-primas, baseadas em técnicas estatísticas.
54
7. CONSIDERAÇÕES FINAIS
Após a realização da análise descritiva, aplicaram-se aos dados algumas técnicas estatísticas geralmente utilizadas para análise de séries temporais, antes de se concluir o trabalho com a metodologia mais adequada. Espera-se aqui descrever um pouco sobre estas técnicas aplicadas, cujos resultados não foram satisfatórios, necessitando assim, de uma alternativa para a solução do problema, que no nosso caso foi o ajuste polinomial da tendência.
Conforme citado na introdução, os trabalhos da gráfica dividem-se basicamente em didáticos e comerciais. Uma sugestão dada pela própria empresa foi iniciar as análises pelos editoriais didáticos, pois é relativamente mais fácil de trabalhar devido aos clientes serem “mais previsíveis”. E ao final, analisar o consumo dos trabalhos comerciais. Assim, o trabalho foi iniciado pelo didático, considerando os principais tipos de papel e gramaturas (Offset – 75g/m², Cartão - 250 e 350g/m² e Couche – 80g/m²), durante o período de janeiro de 2001 a junho de 2010. Após fazer toda a análise descritiva e correlograma, percebeu-se que os clientes influenciavam muito na série de consumo devido às licitações, pois os gráficos e a autocorrelação não possuíam características de séries temporais. O principal tipo de papel é Offset, mas grande parte do seu consumo é representado por licitações. Então, fez-se a análise desse papel por CNPJ. Verificou-se que mesmo separando o consumo por CNPJ, os dados não apresentaram características de séries temporais. Por conseguinte, ficou como sugestão futura fazer um modelo probabilístico considerando os clientes e seus consumo médios mensais, talvez usar modelos de regressão com restrição nos parâmetros ou até mesmo modelos markovianos. Prosseguiu-se as análises considerando os dados de consumo de trabalhos comerciais. Fez-se um estudo de clientes para ver se os mesmos definem o consumo no comercial, pois no didático viu-se claramente que o cliente definia o consumo. Também realizou-se um estudo do consumo total de papel ao longo do período estudado separado por dois grupos de clientes: os que mais consomem e os que menos consomem (definido por estudo descritivo dos dados em consenso com a empresa). Para cada tipo de papel (no comercial os principais são: SC e LWC, Couche e Offset.) e suas principais gramaturas, realizou-se um estudo do comportamento dos clientes, separando-os em 2 grupos diferentes. O primeiro grupo representando 90% do consumo total até a data da análise e o segundo grupo, 10%. Exemplo da primeira análise feita para observar o comportamento dos clientes. O gráfico a seguir é considerado SC e LWC:
55
Gráfico 20 – Comportamento dos grupo de clientes no período de janeiro de 2008 a junho de 2010.
Por outras análises também percebeu-se que o consumo dos clientes é constante e como os clientes não influenciam no consumo, pode-se fazer aplicação de técnicas de séries temporais. Após todas essas análises para os papéis do comercial, decidiu-se iniciar a aplicação de séries temporais para a matéria-prima mais representativa nas impressões comerciais: papéis SC e LWC.
7.1. Diferenciação Ao verificar que a série possuía tendência de crescimento e que isso estava prejudicando a interpretação do comportamento da série, a primeira alternativa para tornar possível a análise foi a técnica de diferenciação. Diferenciação é um tipo de filtro especial, muito útil para remover a componente de tendência polinomial dos dados. Fez-se a primeira diferença e já foi suficiente para eliminar a tendência. Assim, prosseguiu-se com a construção dos modelos considerando o modelo SARIMA com o parâmetro d sendo 1, que justifica uma diferenciação e as combinações de 1 a 3 para os parâmetros p e q. Escolhido o modelo com menor AIC e verificando os valores preditos percebeu-se que as estimativas ficaram muito distantes dos valores reais e os intervalos de confiança tiveram alta amplitude. Assim, com o propósito de diminuir essa amplitude e ter estimativas pontuais mais precisas, fez-se uma transformação nos dados originais antes de se realizar a modelagem.
7.2. Transformação Em muitas aplicações a série modelada é na verdade uma transformação dos dados originais, sendo a transformação logarítmica a mais usual. Assim, tanto as previsões pontuais quanto os intervalos de previsão são obtidos para a série transformada e estes valores precisam ser
0
500000
1000000
1500000
2000000
2500000
20
01
20
01
20
01
20
02
20
02
20
02
20
03
20
03
20
03
20
04
20
04
20
04
20
05
20
05
20
05
20
06
20
06
20
06
20
07
20
07
20
07
20
08
20
08
20
08
20
09
20
09
20
09
20
10
20
10
Comparação Clientes - Valor absoluto
mais consomem menos consomem
transformados novamente para a escala original. A abordagemadotada) consiste simplesmente em tomar a transformaçãoAplicou-se o log nos dados originais, construiutransformados a aplicou-se a exponenciação nas estimativas de previsão.Através da comparação entre preditos e observados em 2010, verificoutransformação logarítmica as previsões não foram satisfatórias, muito menos os intervaloconfiança. Os comandos estão disponíveis em anexos.
7.3. Análise para dados 2001 a 2005 Outra alternativa foi re-fazer toda análise realizada com os dados de 2001 a 2009 (estudo descritivo, ajuste SARIMA, Holtlogarítmica) para os dados de 2005 a 2009, pois no gráfico da série apresentada abaixo, percebe-se uma mudança no comportamento a partir de 2005.
Gráfico 21 – Comportamento da série no período 2005 a 2010.
Porém os resultados dessa outra análi
transformados novamente para a escala original. A abordagem mais simples (e geralmente adotada) consiste simplesmente em tomar a transformação inversa.
se o log nos dados originais, construiu-se os modelos SARIMA para ose a exponenciação nas estimativas de previsão.
Através da comparação entre preditos e observados em 2010, verificoutransformação logarítmica as previsões não foram satisfatórias, muito menos os intervalo
Os comandos estão disponíveis em anexos.
Análise para dados 2001 a 2005
fazer toda análise realizada com os dados de 2001 a 2009 (estudo descritivo, ajuste SARIMA, Holt-Winters Aditivo e Multiplicativo, transforlogarítmica) para os dados de 2005 a 2009, pois no gráfico da série apresentada abaixo,
se uma mudança no comportamento a partir de 2005.
Comportamento da série no período 2005 a 2010.
dessa outra análise não foram satisfatórios.
56
mais simples (e geralmente
se os modelos SARIMA para os dados se a exponenciação nas estimativas de previsão.
Através da comparação entre preditos e observados em 2010, verificou-se que mesmo com a transformação logarítmica as previsões não foram satisfatórias, muito menos os intervalos de
fazer toda análise realizada com os dados de 2001 a 2009 (estudo Winters Aditivo e Multiplicativo, transformação
logarítmica) para os dados de 2005 a 2009, pois no gráfico da série apresentada abaixo,
57
7.4. Ajuste Polinomial Outra opção foi ajustar uma curva polinomial para a tendência, fazer modelagem nos dados sem tendência e para comparar com os dados reais observados, somar a tendência (método explicado na aplicação desse trabalho). Nota-se que comparado às demais metodologias adotadas, o ajuste SARIMA com o ajuste polinomial de tendência resultou em estimativas pontuais mais assertivas e em intervalos de confiança mais precisos. Sendo assim, esse foi o modelo SARIMA escolhido para comparar com os Modelos Holt-Winters. Além disso, foi aplicado o ajuste polinomial para os dados de 2005 a 2009, porém percebeu-se que entre a modelagem de 2005 a 2009 e a de 2001 a 2009, esta última foi mais satisfatória.Inclusive foi calculado o MAPE para as previsões de 2010:
Tabela 19 – MAPE para as análises das séries com 9 e 5 anos.
MAPE
2001 a 2009 2005 a 2009
SARIMA 10,24% 20,73%
Holt. Aditivo 9,76% 45,06%
Holt. Multiplicativo 14,97% 18,66%
58
8. GLOSSÁRIO GRAMATURA: Gramatura ou Gramagem é a medida da espessura e densidade de um papel, expressa em gramas por metro quadrado (g/m²). Sua especificação foi padronizada pela norma ISO 536. Quanto maior for a gramatura, mais “grosso” será o papel. Fonte: Wikipédia. LICITAÇÃO: É o procedimento administrativo para contratação de serviços ou aquisição de produtos pelos governos Federal, Estadual, Municipal ou entidades de qualquer natureza. No Brasil, para licitações por entidades que façam uso da verba pública, o processo é regulado pela lei ordinária brasileira nº 8666/93. Fonte: Wikipédia, a enciclopédia livre.
59
9. ANEXOS Comandos software R Leitura dos dados > SCeLWC_2001a2010=read.table('SCeLWC_2001a2010.txt ',h=T) > head(SCeLWC_2001a2010) > attach(SCeLWC_2001a2010) > names(SCeLWC_2001a2010)
Estudo descritivo > SCeLWC_2001a2010.ts<-ts(Kg.papel,start=c(2001,1), frequency=12) > head(SCeLWC_2001a2010.ts) > require(lattice) > X11() > par(mfrow=c(1,1),cex.main=0.9,cex.lab=0.7,cex.axi s=0.7,pch=16, + font.main=3) > plot(SCeLWC_2001a2010.ts,xlab='Data',main='Consum o mensal de papel SC e LWC no período de 2001 a 2010',ylab='Observações',t ype='l', col="blue") > m <- cbind(Kg = Kg.papel, + Mes = rep(1:12, length(Kg.papel) %% 12 )[1:length(Kg.papel)], + Ano = rep(2001:2010, c(rep(12, 9), 10))) > > xyplot(Kg / 1e3 ~ factor(Mes) | factor(Ano), + as.data.frame(m), type = 'l', as.table = T RUE)
Análise do período de 2001 a 2009 > SCeLWC_ate2009=read.table('SCeLWC_ate2009.txt',h= T) > head(SCeLWC_ate2009) > attach(SCeLWC_ate2009) > names(SCeLWC_ate2009)
Estudo descritivo > SCeLWC_ate2009.ts<-ts(Kg.papel,start=c(2001,1),fr equency=12) > head(SCeLWC_ate2009.ts) #Decomposição# > plot(stl(SCeLWC_ate2009.ts,s.window='periodic'), col="blue")
Autocorrelação > X11() > par(mfrow=c(3,1)) > plot(SCeLWC_ate2009.ts,main='Série não estacionár ia',type='l', col="blue") > plot(acf(SCeLWC_ate2009.ts[1:108],plot=F)[1:20], col="blue") > plot(pacf(SCeLWC_ate2009.ts[1:108],plot=F)[1:20], col="blue")
Primeira diferença > W=diff(SCeLWC_ate2009.ts,differences=1) > X11() > par(mfrow=c(3,1)) > plot(W,main='Primeira diferenciação',type='l', co l="blue") > plot(acf(W[1:107],plot=F)[1:20], col="blue")
60
> plot(pacf(W[1:107],plot=F)[1:20], col="blue") > plot(stl(W,s.window='periodic'), main="Primeira D iferenciação", col="blue")
SARIMA-uma diferenciação > ajuste1=arima(Kg.papel, order = c(1,1,1), seasona l = list(order=c(1,1,1))) > ajuste2=arima(Kg.papel, order = c(1,1,2), seasona l = list(order=c(1,1,2))) > ajuste3=arima(Kg.papel, order = c(1,1,3), seasona l = list(order=c(1,1,3))) > ajuste4=arima(Kg.papel, order = c(2,1,1), seasona l = list(order=c(2,1,1))) > ajuste5=arima(Kg.papel, order = c(2,1,2), seasona l = list(order=c(2,1,2))) > ajuste6=arima(Kg.papel, order = c(2,1,3), seasona l = list(order=c(2,1,3))) > ajuste7=arima(Kg.papel, order = c(3,1,1), seasona l = list(order=c(3,1,1))) > ajuste8=arima(Kg.papel, order = c(3,1,2), seasona l = list(order=c(3,1,2))) > ajuste9=arima(Kg.papel, order = c(3,1,3), seasona l = list(order=c(3,1,3))) > AIC(ajuste1,ajuste2,ajuste3,ajuste4,ajuste5,ajust e6,ajuste7, ajuste8,ajuste9) > ajuste1 > ajuste2 > ajuste3 > ajuste4 > ajuste5 > ajuste6 > ajuste7 > ajuste8 > ajuste9
Resíduos > X11() > tsdiag(ajuste2) > z=ajuste1$residuals > a=shapiro.test(z) > a > par(mfrow=c(2,1)) > hist(z,freq=F) > qqnorm(z) > qqline(z)
Valores preditos > preditos=predict(ajuste1,n.ahead=6) > preditos > ICsuperior=preditos$pred + 1.96 * preditos$se
61
> ICsuperior > ICinferior=preditos$pred - 1.96 * preditos$se > ICinferior
SARIMA-Transformação LOG > ajuste1=arima(log(Kg.papel), order = c(1,1,1), se asonal = list(order=c(1,1,1))) > ajuste2=arima(log(Kg.papel), order = c(1,1,2), se asonal = list(order=c(1,1,2))) > ajuste3=arima(log(Kg.papel), order = c(1,1,3), se asonal = list(order=c(1,1,3))) > ajuste4=arima(log(Kg.papel), order = c(2,1,1), se asonal = list(order=c(2,1,1))) > ajuste5=arima(log(Kg.papel), order = c(2,1,2), se asonal = list(order=c(2,1,2))) > ajuste6=arima(log(Kg.papel), order = c(2,1,3), se asonal = list(order=c(2,1,3))) > ajuste7=arima(log(Kg.papel), order = c(3,1,1), se asonal = list(order=c(3,1,1))) > ajuste8=arima(log(Kg.papel), order = c(3,1,2), se asonal = list(order=c(3,1,2))) > ajuste9=arima(log(Kg.papel), order = c(3,1,3), se asonal = list(order=c(3,1,3))) > AIC(ajuste1,ajuste2,ajuste3,ajuste4,ajuste5,ajust e6,ajuste7, ajuste8,ajuste9) > ajuste1 > ajuste2 > ajuste3 > ajuste4 > ajuste5 > ajuste6 > ajuste7 > ajuste8 > ajuste9
Resíduos > X11() > tsdiag(ajuste3) > z=ajuste2$residuals > a=shapiro.test(z) > a > par(mfrow=c(2,1)) > hist(z,freq=F) > qqnorm(z) > qqline(z)
Valores preditos > preditos=predict(ajuste3,n.ahead=6) > preditos > preditos_exp=exp(preditos$pred)
62
> preditos_exp
Intervalos do confiança > ICsuperior=preditos$pred + 1.96 * preditos$se > ICsupExp=exp(ICsuperior) > ICsupExp > ICinferior=preditos$pred - 1.96 * preditos$se > ICinfExp=exp(ICinferior) > ICinfExp
Análise retirando a tendência 2001 a 2009 prevendo 2010 > mypolytrend=function(y,degree=1) { > mypolytrend=function(y,degree=1) { + #Polinomial regression on time (with intercept) + n=length(y) + x=1:n + X=matrix(NA,n,degree) + for (i in 1:degree) X[,i] = x**i + a=as.numeric(lm(y~X)$coeff) + z=ts(cbind(rep(1,n),X)%*%a,start=start(y),freq=fr equency(y)) + z + } > z3 = mypolytrend(Kg.papel[1:108],3) > z6 = mypolytrend(Kg.papel[1:108],6) > z8 = mypolytrend(Kg.papel[1:108],8) > X11() > par(pch=19,cex=0.8,mar=c(5,5,5,5)) > plot(ts(Kg.papel,start=c(2001,1),frequency=12),ty pe='b',ylab='Kg de papel + consumido') > title('Observados e Tendências Polinomiais') > lines(ts(z3,start=c(2001,1),frequency=12),col=2) > lines(ts(z6,start=c(2001,1),frequency=12),col='bl ue') > lines(ts(z8,start=c(2001,1),frequency=12),col='gr een') > legend(2001,2500000,legend=c("Polinômio grau 3"," Polinômio grau + 6","Polinômio grau 8"),lty=1,col=c(2,'blue','gree n'))
Arrumando dados > dadossemtendencia<-Kg.papel-z6 > head(dadossemtendencia) > plot(ts(dadossemtendencia,start=c(2001,1),frequen cy=12),ylab='Kg de papel consumido', col="blue") title('Dados sem Tendência',col='blue')
Função de autocorrelação > X11() > par(mfrow=c(3,1)) > plot(dadossemtendencia,main='Dados Sem Tendência ',type='l',col='blue') > plot(acf(dadossemtendencia[1:108],plot=F)[1:20], col='blue') > plot(pacf(dadossemtendencia[1:108],plot=F)[1:20] ,col='blue')
63
Modelos > ajuste1=arima(dadossemtendencia, order = c(1,0,1) , seasonal = list(order=c(1,0,1))) > ajuste2=arima(dadossemtendencia, order = c(1,0,2) , seasonal = list(order=c(1,0,2))) > ajuste3=arima(dadossemtendencia, order = c(1,0,3) , seasonal = list(order=c(1,0,3))) > ajuste4=arima(dadossemtendencia, order = c(2,0,1) , seasonal = list(order=c(2,0,1))) > ajuste5=arima(dadossemtendencia, order = c(2,0,2) , seasonal = list(order=c(2,0,2))) > ajuste6=arima(dadossemtendencia, order = c(2,0,3) , seasonal = list(order=c(2,0,3))) > ajuste7=arima(dadossemtendencia, order = c(3,0,1) , seasonal = list(order=c(3,0,1))) > ajuste8=arima(dadossemtendencia, order = c(3,0,2) , seasonal = list(order=c(3,0,2))) > ajuste9=arima(dadossemtendencia, order = c(3,0,3) , seasonal = list(order=c(3,0,3))) > AIC(ajuste1,ajuste2,ajuste3,ajuste4,ajuste5,ajust e6,ajuste7, ajuste8,ajuste9) > ajuste1 > ajuste2 > ajuste3 > ajuste4 > ajuste5 > ajuste6 > ajuste7 > ajuste8 > ajuste9 > X11() > tsdiag(ajuste1,col='blue') > z=ajuste1$residuals > a=shapiro.test(z) > a > par(mfrow=c(2,1)) > hist(z,freq=F,col='lightblue') > qqnorm(z,col='blue') > qqline(z)
Valores preditos > preditos=predict(ajuste1,n.ahead=10) > preditos
Estimação do polinômio > x=1:108 > X=matrix(NA,108,6)
64
> for (i in 1:6) X[,i] = x**i > a=as.numeric(lm(Kg.papel~X)$coeff) > a [1] 1.013531e+06 -1.754977e+05 1.787076e+04 -6.31 0673e+02 1.029994e+01 [6] -7.853930e-02 2.259556e-04 > > x = 109:118 > X = matrix(NA,10,6) > for (i in 1:6) X[,i] = x**i > tendencia = ts(cbind(rep(1,10),X)%*%a,start=start(2010,1),freq= frequency(12)) > tendência
Estatistica U-Theil U-Theil dados 2001 a 2009 com tendência > dadossemtendencia<-Kg.papel-z6 > ajuste1=arima(dadossemtendencia, order = c(1,0,1 ), seasonal = list(order=c(1,0,1))) > estimados=dadossemtendencia-ajuste1$residuals > estimadoscomtendencia=estimados+z6 > N=length(SCeLWC_ate2009.ts) > N > estimadoscomtendencia.ts<-ts(estimadoscomtendencia,start=c(2001,1),frequency= 12) > residuos=estimadoscomtendencia.ts-SCeLWC_ate2009. ts > num=sum((residuos)^2)/N > dem1=sum((SCeLWC_ate2009.ts)^2)/N > dem2=sum((estimadoscomtendencia.ts)^2)/N > U=sqrt(num)/(sqrt(dem1)+sqrt(dem2)) > U > plot(ts(SCeLWC_ate2009.ts,start=c(2001,1),frequen cy=12),col='blue',main =" Comparação Estimados e Observados ",ylab='Observ ações',xlab='Data') >lines(ts(estimadoscomtendencia.ts,start=c(2001,1), frequency=12),col='red')
U-Theil dados com tendência 2010 > estimados=c(1414806, 1424104, 1454651, 1506120, 1 580175, 1679382, 1806794, 1965790, 2160029, 2393432) > N=10 > observados=c(1294873, 1408301, 1905549, 1655691, 1897463, 1785078, 1877517, 1911227, 2089385, 1889405) > e=estimados-observados > num=sum((e)^2)/N > dem1=sum((observados)^2)/N > dem2=sum((estimados)^2)/N > U=sqrt(num)/(sqrt(dem1)+sqrt(dem2)) > U
U-Theil dados 2001 a 2009 sem tendência > estimados=dadossemtendencia-ajuste1$residuals > dadossemtendencia<-Kg.papel-z6 > plot(ts(dadossemtendencia,start=c(2001,1),frequen cy=12),col='blue',main =" Comparação Estimados e Observados ",ylab='Observ ações',xlab='Data') > lines(ts(estimados,start=c(2001,1),frequency=12) ,col='red') > N=length(dadossemtendencia)
65
> N > num=sum((ajuste1$residuals)^2)/N > dem1=sum((dadossemtendencia)^2)/N > dem2=sum((estimados)^2)/N > U=sqrt(num)/(sqrt(dem1)+sqrt(dem2)) > U
U-Theil dados 2010 sem tendência > estimados=c(12212.7515899999, 4637.89337, 1757.15 125, 670.9077, 264.23545, 112.90634, 56.88811, 36.24565, 28.66928, 25.89834) >N=10 > observados=c(-107721, -11166, 452655, 150241, 317 552, 105808, 70779, -54527, -70616, -504002) > num=sum((c(-119933.75159, -15803.89337, 450897.84 875, 149570.0923, 317287.76455, 105695.09366, 70722.11189, -545632.45 65, -70644.66928, -504027.89834))^2)/N >dem1=sum((observados)^2)/N >dem2=sum((estimados)^2)/N > U=sqrt(num)/(sqrt(dem1)+sqrt(dem2)) > U
Estimação de tendência em 2010 > X11() > par(pch=19,cex=0.8) > plot(ts(Kg.papel,start=c(2001,1),frequency=12),ty pe='b',ylab='Kg de papel consumido') > title('Observados e Tendências Polinomiais') > lines(ts(z3,start=c(2001,1),frequency=12),col=2) > lines(ts(rbind(z6,tendencia),start=c(2001,1),freq uency=12),col='blue') > lines(ts(z8,start=c(2001,1),frequency=12),col='gr een') > legend(2001,2500000,legend=c("Polinômio grau 3"," Polinômio grau 6","Polinômio grau 8"),lty=1,col=c(2,'blue','green' ) > tendencia
Intervalo de confiança com 95% de confiança para os valores preditos > ICs=preditos$pred + 1.96 * preditos$se > ICs > ICsup=c(450772.4, 448208.5, 446058.6, 445077.4, 4 44685.6, 444536.4, 444480.7, 444460.1, 444452.5, 444449.7) > ICsuperior=ICsup+tendencia > ICsuperior > ICi=preditos$pred - 1.96 * preditos$se > ICi > ICinf=c(-426346.9, -438932.7, -442544.3, -443735. 6, -444157.2, -444310.6, -444366.9, -444387.6, -444395.1, -444397.9) > ICinferior=ICinf+tendencia > ICinferior
66
Modelos Holt Winters Aditivo > m1<-HoltWinters(SCeLWC_ate2009.ts, seasonal='addi t') > p1<-predict(m1, n.ahead=10, prediction.interval=T ) > p1 > X11() > plot(m1,p1,main='Holt Winters Aditivo')
Correlacao entre observados e preditos > cor(SCeLWC_ate2009.ts[-(1:12)],m1$fitted[,1])
Estatistica U-Theil > N=length(SCeLWC_ate2009.ts[-(1:12)]) > num=sum((SCeLWC_ate2009.ts[-(1:12)]-m1$fitted[,1] )^2)/N > dem1=sum((SCeLWC_ate2009.ts[-(1:12)])^2)/N > dem2=sum((m1$fitted[,1])^2)/N > U=sqrt(num)/(sqrt(dem1)+sqrt(dem2)) > U
Multiplicativo > m2<-HoltWinters(SCeLWC_ate2009.ts, seasonal='mult iplicative') > p2<-predict(m2, n.ahead=10, prediction.interval=T ) > p2 > m2 > X11() > plot(m2,p2, main='Holt Winters Multiplicativo')
Correlacao entre observados e preditos > cor(SCeLWC_ate2009.ts[-(1:12)],m2$fitted[,1])
Estatistica U-Theil > N=length(SCeLWC_ate2009.ts[-(1:12)]) > num=sum((SCeLWC_ate2009.ts[-(1:12)]-m2$fitted[,1] )^2)/N > dem1=sum((SCeLWC_ate2009.ts[-(1:12)])^2)/N > dem2=sum((m2$fitted[,1])^2)/N > U=sqrt(num)/(sqrt(dem1)+sqrt(dem2)) > U
Previsão de valores futuros Nov/10 a Abr/11 > SCeLWC_2001a2010=read.table('SCeLWC_2001a2010.txt ',h=T) > head(SCeLWC_2001a2010) > attach(SCeLWC_2001a2010) > names(SCeLWC_2001a2010) > mypolytrend=function(y,degree=1) { + #Polinomial regression on time (with intercept) + n=length(y) + x=1:n
67
+ X=matrix(NA,n,degree) + for (i in 1:degree) X[,i] = x**i + a=as.numeric(lm(y~X)$coeff) + z=ts(cbind(rep(1,n),X)%*%a,start=start(y),freq=fr equency(y)) + z + } > z3 = mypolytrend(Kg.papel[1:118],3) > z6 = mypolytrend(Kg.papel[1:118],6) > z8 = mypolytrend(Kg.papel[1:118],8) > > # > X11() > par(pch=19,cex=0.8) > # > plot(ts(Kg.papel,start=c(2001,1),frequency=12),ty pe='b',ylab='Kg de papel + consumido') > title('Observados e Tendências Polinomiais') > > lines(ts(z3,start=c(2001,1),frequency=12),col=2) > lines(ts(z6,start=c(2001,1),frequency=12),col='bl ue') > lines(ts(z8,start=c(2001,1),frequency=12),col='gr een') > > legend(2001,2500000,legend=c("Polinômio grau 3"," Polinômio grau + 6","Polinômio grau 8"),lty=1,col=c(2,'blue','gree n')) >
Arrumando os dados > dadossemtendencia<-Kg.papel-z6 > head(dadossemtendencia) [1] -17264.194 2244.404 -193815.503 -94970.238 62597.903 -15604.487 > > plot(ts(dadossemtendencia,start=c(2001,1),frequen cy=12),ylab='Kg de papel consumido') > title('Dados sem Tendência') >
Função de autocorrelação > X11() > par(mfrow=c(3,1)) > plot(dadossemtendencia,main='Dados Sem Tendência ',type='l') > plot(acf(dadossemtendencia[1:118],plot=F)[1:20]) > plot(pacf(dadossemtendencia[1:118],plot=F)[1:20] )
Modelos > ajuste1=arima(dadossemtendencia, order = c(1,0,1) , seasonal = list(order=c(1,0,1))) > ajuste2=arima(dadossemtendencia, order = c(1,0,2) , seasonal = list(order=c(1,0,2))) > ajuste3=arima(dadossemtendencia, order = c(1,0,3) , seasonal = list(order=c(1,0,3))) > ajuste4=arima(dadossemtendencia, order = c(2,0,1) , seasonal = list(order=c(2,0,1))) > ajuste5=arima(dadossemtendencia, order = c(2,0,2) , seasonal = > ajuste6=arima(dadossemtendencia, order = c(2,0,3) , seasonal = list(order=c(2,0,3))) > ajuste7=arima(dadossemtendencia, order = c(3,0,1) , seasonal = list(order=c(3,0,1)))
68
> ajuste8=arima(dadossemtendencia, order = c(3,0,2) , seasonal = list(order=c(3,0,2))) > ajuste9=arima(dadossemtendencia, order = c(3,0,3) , seasonal = list(order=c(3,0,3))) > AIC(ajuste1,ajuste2,ajuste3,ajuste4,ajuste5,ajust e6,ajuste7, ajuste8,ajuste9) > ajuste1 > ajuste1 > ajuste2 > ajuste3 > ajuste4 > ajuste5 > ajuste6 > ajuste7 > ajuste8 > ajuste9
Análise residual > X11() > tsdiag(ajuste1) > > z=ajuste1$residuals > a=shapiro.test(z) > a > par(mfrow=c(2,1)) > hist(z,freq=F,col='lightblue') > qqnorm(z,col='blue') > qqline(z) > estimados=dadossemtendencia-ajuste1$residuals
Valores preditos > preditos=predict(ajuste1,n.ahead=6) > preditos > x=1:118 > X=matrix(NA,118,6) > for (i in 1:6) X[,i] = x**i > a=as.numeric(lm(Kg.papel~X)$coeff) > a > x = 119:124 > X = matrix(NA,6,6) > for (i in 1:6) X[,i] = x**i > tendencia = ts(cbind(rep(1,6),X)%*%a,start=start(2010,11),freq= frequency(12)) > tendencia > X11() > par(pch=19,cex=0.8, mar=c(5, 5, 5, 5)) > plot(ts(Kg.papel,start=c(2001,1),frequency=12),ty pe='b',ylab='Kg de papel + consumido') > title('Observados e Tendências Polinomiais - 2001 a 2010') > lines(ts(z3,start=c(2001,1),frequency=12),col=2) > lines(ts(rbind(z6,tendencia),start=c(2001,1),freq uency=12),col='blue') > lines(ts(z8,start=c(2001,1),frequency=12),col='gr een') > legend(2001,2500000,legend=c("Polinômio grau 3"," Polinômio grau
69
+ 6","Polinômio grau 8"),lty=1,col=c(2,'blue','gree n')) > tendencia
Intervalo de confiança > ICsuperior=preditos$pred + 1.96 * preditos$se > ICsuperior > ICinferior=preditos$pred - 1.96 * preditos$se > ICinferior
70
10. REFERÊNCIAS
BOX, G. E. P.; JENKINS, G. M. Time series analysis forecasting and control. San Francisco: Holden- Day, 1976. Edição revisada
EHLERS, R. S., Apostila Análise de Séries Temporais,quinta edição.UFPR – Curitiba, 2009. LAMDIN , F. M. P. F..Disponível em: <> http://www.im.ufrj.br/flavia/ >. UFRJ. Rio de Janeiro,Rio de Janeiro, Brasil. Acesso em: novembro 2010. MORETTIN, P. A. e TELOI, C.M.C. Análise de Séries Temporais. Editora Blucher, 2004. NETO, A. C., Apostila CE017 - Análise de Séries Temporais. UFPR – Curitiba. PÉREZ, F. L. CE017 - Análise de Séries Temporais. Disponível em: <>.http://people.ufpr.br/~lucambio/CE017/1S2010/CE017.html>. Curitiba,Paraná, Brasil. Acesso em: jul. a Nov/2010. R DEVELOPMENT CORE TEAM. R: A Language and Environment for Statistical Computing. Disponível em: <>.http://CRAN.R-project.org>.Acesso em: jul. a Nov/2010. RAMOS, E. M. L. S., et al. Amazônia: Ci & Desenv., Belém,v. 2, n.3, jul./dez. 2006. SARKAR,D. Lattice: Lattice Graphics. R package version 0.18-8,2010. Disponível em: <>.http://CRAN.R-project.org/package=lattice>. Acesso em: jul. a Nov/2010. SERRA, C. M. V., et al. Aplicação de séries temporais na análise de demanda turística no estado do Pará usando os modelos de Holt-Winters. XXV Encontro Nacional de Engenharia de Produção, Porto Alegre, RS, 2005. SPANHOL, C. P. , et al. Modelo de Previsões de Holt -Winters Aplicado ao Índice de Faturamento Real do Comércio Varejista de Alimentos da RMSP. XI SIMPEP - Bauru, SP, Brasil,novembro 2004.
TRAPLETTI,A. ; HORNIK, K. Tseries: Time Series Analysis and Computational Finance.R package version 0.10-22. Vienna, Austria , 2009.Disponível em: <>.http://CRAN.R-project.org/package=tseries>. Acesso em: jul. a Nov/2010. WIKIPEDIA. Disponível em: <>.http://pt.wikipedia.org/wiki/P%C3%A1gina_principal.>.Acesso em: jul. a Nov/2010.