Download - UNIVERSIDADE FEDERAL DO PARANÁ MONIQUE ......Gráfico 11 - Histograma e gráfico Q-Qplot dos resíduos para o modelo da série sem tendência..... 36 Gráfico 12 - Valores estimados

1

UNIVERSIDADE FEDERAL DO PARANÁ

MONIQUE VERCHAI PEREIRA SUELEN FERREIRA CORDEIRO

UMA APLICAÇÃO DE SÉRIES TEMPORAIS EM DADOS DE CONSUMO DE PAPEL EM INDÚSTRIAS GRÁFICAS

CURITIBA

2010

2



CURITIBA 2010

Trabalho de Conclusão de Curso apresentado à Banca Examinadora, como exigência parcial para a obtenção do título de Graduação do Curso de Estatística, Setor de Ciências Exatas, Universidade Federal do Paraná. Orientador: Prof. Fernando Lucambio Pérez.

3



COMISSÃO EXAMINADORA ________________________________ Fernando Lucambio Pérez ________________________________ Elias Teixeira Krainski

Curitiba, 01 de dezembro de 2010.

4

AGRADECIMENTOS

Agradecemos primeiramente a Deus que iluminou o nosso caminho durante esta trajetória. Ao nosso professor orientador Fernando Lucambio Pérez, pelas longas horas de ensinamentos e discussões. Aos funcionários da empresa fornecedora dos dados utilizados neste trabalho de conclusão de curso. Aos professores, pelas experiências, profissionalismo e incríveis capacidades de ensino. Pelas amizades conquistadas durante estes quatro anos de vida acadêmica. Também somos gratas a todas as pessoas que contribuíram diretamente ou indiretamente para a realização deste trabalho.

5

LISTA DE SIGLAS

ACF AIC AR ARMA LWC MA MAPE NaN PACF SARIMA SC

-Autocorrelation Function -Akaike’s information criterion -Autoregressive -Autoregressive Moving Average -Light Weight Coated -Moving Average -Mean Absolute Percentage Error -Not a Number -Partial Autocorrelation Function -Seasonal Auto Regressive Integrated Moving Average -Supercalendered

6

LISTA DE ILUSTRAÇÕES

Figura 1 – Impressora rotativa antiga para baixas gramaturas. ................................................. 12 Figura 2 – Impressora rotativa moderna com alta capacidade de produção. ............................ 13

Figura 3 – Modelo aditivo de Holt-Winters. ............................................................................. 21 Figura 4 – Modelo multiplicativo de Holt-Winters. .................................................................. 22 Gráfico 1 - Consumo mensal de papel SC e LWC gramaturas 52, 56 e 60 no período de janeiro

de 2001 a outubro de 2010. .................................................................................................. 25 Gráfico 2 - Consumo mensal de papel SC e LWC, separado por ano. ..................................... 26

Gráfico 3 - Decomposição da série de consumo mensal no período de janeiro de 2001 a dezembro de 2009. ................................................................................................................ 26

Gráfico 4 - Função de autocorrelação e função de autocorrelação parcial da série consumo mensal de papel no período de janeiro de 2001 a dezembro de 2009. ................................. 27

Gráfico 5 - Função de autocorrelação e função de autocorrelação parcial da série diferenciada. .............................................................................................................................................. 28

Gráfico 6 - Decomposição da série diferenciada. ..................................................................... 29 Gráfico 7 - Consumo mensal do papel e ajuste da tendência pelos polinômios de graus 2, 6, e

8, no período de janeiro de 2001 a dezembro de 2009. ....................................................... 30 Gráfico 8 - Série sem tendência do consumo mensal de papel SC e LWC gramaturas 52, 56 e

60 no período de janeiro de 2001 a dezembro de 2009. ....................................................... 32 Gráfico 9 - Função de autocorrelação e função de autocorrelação parcial da série sem

tendência. .............................................................................................................................. 33

Gráfico 10 - Análise de resíduos do ajuste1 para a série sem tendência. .................................. 35 Gráfico 11 - Histograma e gráfico Q-Qplot dos resíduos para o modelo da série sem tendência.

.............................................................................................................................................. 36

Gráfico 12 - Valores estimados e observados da série sem tendência. ..................................... 38

Gráfico 13 - Valores estimados e observados da série com tendência. ..................................... 39

Gráfico 14 - Observados e estimados através do modelo Holt-Winters Aditivo. ..................... 43

Gráfico 15 - Observados e estimados através do modelo Holt-Winters Multiplicativo. .......... 45 Gráfico 16 - Consumo mensal do papel e ajuste da tendência pelos polinômios de graus 2, 6, e

8, no período de janeiro de 2001 a outubro de 2010. .......................................................... 46 Gráfico 17 - Análise residual do ajuste1 para a série sem tendência de janeiro de 2001 a

outubro de 2010. ................................................................................................................... 48

Gráfico 18 - Histograma e gráfico Q-Qplot dos resíduos para o modelo da série sem tendência. .............................................................................................................................................. 49

Gráfico 19 – Comportamento dos grupos de clientes no período de janeiro de 2008 a outubro de 2010. ................................................................................................................................ 52

Gráfico 20 – Comportamento dos grupo de clientes no período de janeiro de 2008 a junho de 2010. ..................................................................................................................................... 55

Gráfico 21 – Comportamento da série no período 2005 a 2010. .............................................. 56

7

LISTA DE TABELAS

Tabela 1: Primeiras linhas do banco de dados .......................................................................... 24 Tabela 2: Tendências para as previsões de janeiro a outubro de 2010. .................................... 31

Tabela 3 - DF e Critério de Akaike para os modelos ajustados. ............................................... 34 Tabela 4 – Estimação dos dados originais – dados sem tendência + tendência. ....................... 39

Tabela 5 - Estimativa do modelo ajustado versus o valor real observado. ............................... 40

Tabela 6 - Estimativa do intervalo de confiança inferior. ......................................................... 40 Tabela 7 - Estimativa do intervalo de confiança superior. ........................................................ 41 Tabela 8 - Estimativas pontuais e intervalares do modelo ajustado versus o valor real. .......... 41

Tabela 9 - Estimativas do modelo Holt-Winters aditivo versus o valor real. ........................... 42

Tabela 10 - Estimativas do modelo Holt-Winters multiplicativo versus o valor real. .............. 44

Tabela 11 - Comparativo modelo SARIMA e modelos Holt-Winters. ..................................... 46

Tabela 12 – Tendência dos valores futuros ............................................................................... 47 Tabela 13 - DF e AIC para os modelos ajustados de janeiro de 2001 a outubro de 2010. ....... 47

Tabela 14 – Estimação dos dados originais. ............................................................................. 50 Tabela 15 – Estimativas pontuais e intervalares do consumo para os meses futuros. .............. 50

Tabela 16 – Previsão de consumo do primeiro grupo de clientes para os meses futuros. ........ 51

Tabela 17 – Previsão de consumo do segundo grupo de clientes para os meses futuros. ......... 51

Tabela 18 – Previsão de consumo do terceiro grupo de clientes para os meses futuros. .......... 52

Tabela 19 – MAPE para as análises das séries com 9 e 5 anos. ................................................ 57

8

SUMÁRIO 1. RESUMO .......................................................................................................................... 10

2. INTRODUÇÃO ................................................................................................................ 11

3. OBJETIVOS...................................................................................................................... 13

4. METODOLOGIA ............................................................................................................. 14

4.1. Série Temporal .............................................................................................................. 14 4.2. Decomposição Clássica ................................................................................................. 14 4.3. Modelos Box-Jenkins .................................................................................................... 15 4.4. Séries com Tendência .................................................................................................... 15 4.5. Função de Autocorrelação ............................................................................................. 16 4.6. Autocorrelações Parciais ............................................................................................... 16 4.7. O Correlograma ............................................................................................................. 17 4.8. Modelos Sazonais .......................................................................................................... 17 4.9. Análise dos Resíduos ..................................................................................................... 18 4.9.1. Testes de independência ............................................................................................ 19 4.9.2. Teste de normalidade ................................................................................................. 20 4.10. Modelos de Holt-Winters .............................................................................................. 20 4.11. Critérios para escolha do melhor modelo ...................................................................... 22 4.12. MAPE ............................................................................................................................ 23

4.13. Performance Preditiva ................................................................................................... 23

5. APLICAÇÃO DA METODOLOGIA ............................................................................... 24

5.1. Análise descritiva dos dados com tendência ................................................................. 24 5.2. Modelagem .................................................................................................................... 29 5.3. Ajuste Polinomial para tendência .................................................................................. 30 5.4. Procedimento utilizado para estimar os valores futuros ................................................ 31

5.5. Análise descritiva para os dados sem tendência ............................................................ 32 5.6. Modelagem para Séries Temporais ............................................................................... 33 5.7. Critérios de Seleção do Modelo..................................................................................... 34 5.8. Análise Residual ............................................................................................................ 35 5.9. Performance Preditiva Modelo SARIMA ..................................................................... 37

5.10. Previsão de valores futuros SARIMA ........................................................................... 39 5.11. Predição de Valores Futuros Holt- Winters ................................................................... 42 5.12. Holt-Winters Aditivo ..................................................................................................... 42 5.12.1. Performance Preditiva Holt- Winters Aditivo ........................................................... 43

5.13. Holt-Winters Multiplicativo .......................................................................................... 44 5.13.1. Performance Preditiva Holt- Winters Multiplicativo ................................................. 45

5.14. Comparação Modelo SARIMA e Modelos Holt-Winters ............................................. 45

5.14.1. Erro percentual médio absoluto ................................................................................. 45 5.14.2. Amplitude do Intervalo de Confiança ........................................................................ 45 5.15. Previsão dos valores futuros .......................................................................................... 46

6. CONCLUSÕES ................................................................................................................. 53

7. CONSIDERAÇÕES FINAIS ............................................................................................ 54

7.1. Diferenciação ................................................................................................................. 55 7.2. Transformação ............................................................................................................... 55 7.3. Análise para dados 2001 a 2005 .................................................................................... 56

9

7.4. Ajuste Polinomial .......................................................................................................... 57

8. GLOSSÁRIO .................................................................................................................... 58

9. ANEXOS ........................................................................................................................... 59

10. REFERÊNCIAS ................................................................................................................ 70

10

1. RESUMO

As indústrias visam obter a maior margem de lucro possível, por isso a necessidade de criar dispositivos para que a compra de mercadorias seja a mais assertiva possível garantindo à empresa um diferencial competitivo frente aos concorrentes. Para prever o consumo de papel em indústrias gráficas, modelando o comportamento da variável resposta consumo mensal em quilogramas do principal tipo de papel do segmento comercial e gramaturas (espessura das folhas), fez-se uso de algumas técnicas de séries temporais. Considerando que o consumo do papel primordial pode apresentar tendências e também sazonalidades, principalmente em datas comemorativas, utilizou-se o modelo Autorregressivo Integrado de Médias Móveis para Dados Sazonais - SARIMA (p, d, q), cujos parâmetros foram estimados computacionalmente para predizer os valores futuros de consumo, utilizando-se o Critério de Akaike – AIC para a decisão do melhor modelo. Para o cálculo das previsões estudou-se a séries histórica dos dados mensais de consumo de papel (em quilogramas), de 2001 a 2009, fazendo-se previsões para 2010 e validando os resultados com os dados reais observados. Estimou-se a curva de tendência polinomial dos dados, resultando em um polinômio de sexto grau que possibilitou uma melhor assertividade das estimativas pontuais e dos intervalos de confiança. Também utilizou-se os modelos de alisamento exponencial de Holt Winters Aditivo e Multiplicativo para a previsão. Os valores preditos mostraram-se coerentes com a realidade desse tipo de comércio. Os resultados obtidos mostram que a metodologia pode ser utilizada futuramente em empresas do mesmo segmento, possibilitando uma maior competitividade no mercado. Palavras-chave: Séries Temporais, SARIMA, Holt Winters.

11

2. INTRODUÇÃO

Empresa gráfica de Curitiba criada em 1972, atualmente considerada principal gráfica do país, líder desde 1997 no segmento de livros, revistas e impressos promocionais, consolidou uma parceria estratégica junto às maiores redes de varejo do Brasil por mais de 14 anos. Durante esse tempo, continuamente sofreu diversas expansões para acompanhar as necessidades de seus clientes e por isso é reconhecida ano após ano como parceira estratégica. Com o passar do tempo, substituiu as impressoras mais antigas (Figura 1) por novas máquinas com maior capacidade de produção, como pode ser visto na Figura 2 e com isso desenvolveu-se cada vez mais. Devido ao consumo ser extremamente alto, vinculado ao tipo de impressão, a empresa está direcionada a prever o consumo de papéis em diferentes períodos do ano. Os trabalhos dividem-se essencialmente em editoriais (didáticos) e comerciais. As impressões do didático incluem trabalhos como apostilas regulares, extensivos, dicionários, modulares e licitações, sendo o Offset e o Cartão os principais papéis, comprados de acordo com empenhos e mais uma determinada quantidade para possíveis reimpressões ou reedições. As impressões do comercial são, atualmente, as de consumo maior e menos previsível, por este motivo será o alvo de nosso estudo. Os papéis essenciais para impressão comercial são: SC e LWC. Esses papéis possuem a mesma qualidade de impressão, mas o LWC pode ser nacional ou importado enquanto o SC é somente importado, o qual é mais representativo em relação aos demais papéis.Esses dois primordiais papéis são utilizados em folhetos, tablóides, revistas e catálogos, as gramaturas mais utilizadas são: 52 g/m², 56 g/m² e 60 g/m². Houve uma mudança no processo de compra desses materiais, pois até meados da década de 90 o consumo de LWC era mais significativo e a maioria das compras era nacional. Com a competitividade de preços no mercado internacional, a empresa optou por começar a importar SC, adquirindo mais vantagens estratégicas, devido ao menor preço e assumindo o risco do prazo de entrega de 90 dias em média. Todavia se houver falta de SC compra-se LWC no mercado nacional, pagando-se mais caro, porém com prazo menor de entrega. Por esses motivos e por orientação da empresa, decidiu-se fazer a previsão para a soma desses papéis, pois eles são de mesma natureza. Ademais, decidiu-se por juntar as primordiais gramaturas 52, 56 e 60 g/m² por serem as mais consumidas. As gramaturas 52 e 56 são do papel SC,onde a 52 era consumida inicialmente e que depois mudou para 56 .Já a 60 é do papel LWC. Hodiernamente o processo de compra da maioria dos insumos gráficos é geralmente realizado de acordo com o consumo para compor estoque. O que se compra a mais, é cerca de 10% do consumo empenhado (contratado pelo cliente), ou então o que completa uma carga de matéria-prima (por exemplo, precisa-se de 13 bobinas, mas com 15 completa-se uma carga, compra-se as 15 e as 2 restantes ficam em estoque para outros trabalhos). Já o processo utilizado para verificar as quantidades a serem importadas de papel SC (Supercalandrado), é realizado da seguinte maneira: olha-se o relatório de empenhos para os próximos meses e o relatório de consumo dos últimos meses, considerando a média mensal de consumo para estabelecer a quantidade a ser comprada. Esse papel não é produzido em fábricas no Brasil, ou seja, é importado de países como Finlândia, Canadá e Estados Unidos. Por este motivo é de total relevância ter uma previsão confiável do consumo desse insumo para os próximos meses, pois com os prazos nos processos de importação, a empresa pode ter muitos custos, tanto ao importar quantidades a mais do que o necessário, gerando aumento de estoque e custos com

12

armazenagem, como ao importar menos, não conseguindo finalizar a tiragem de alguns trabalhos ou até mesmo perdendo algum cliente. Assim, considerando o elevado nível de impressões que a gráfica produz mensalmente e a importância de seus clientes, ter uma previsão mais precisa do consumo por tipo de papel implica ter menor estoque, redução de custos, antecipar estoques estratégicos, negociar melhores preços, diminuir o grau de risco conseqüentemente maior competitividade no mercado. Para alcançar estes objetivos de melhoria na empresa serão utilizadas técnicas de séries temporais para prever estatisticamente o consumo mensal dos papéis SC e LWC, por suas gramaturas e por grupos de clientes, utilizando como base de dados o consumo mensal, em quilogramas, no decorrer dos últimos anos.

Figura 1 – Impressora rotativa antiga para baixas gramaturas.

Fonte: http://www.portalentretextos.com.br

13

Figura 2 – Impressora rotativa moderna com alta capacidade de produção.

Fonte: http://www.portalentretextos.com.br

3. OBJETIVOS

O objetivo principal deste trabalho é estudar e aplicar métodos de previsão para consumo dos papéis SC e LWC e suas principais gramaturas de uma gráfica, em séries com tendências e sazonalidade utilizando apenas os regressores da série histórica. A idéia é utilizar os dados de consumo para trabalhos comerciais ao longo de 10 anos - de 2001 a 2010 para prever valores futuros. Outro objetivo é a Descrição (Descrever propriedades da série, o padrão de tendência, existência de variação sazonal ou cíclica, mudanças no padrão de tendência ou da sazonalidade, etc). Também tem-se como meta fazer uma análise dos clientes responsáveis por esse consumo, ou seja, analisando-se a série histórica, verificar quais foram os clientes com consumos mais representativos em diferentes períodos.Depois,agrupá-los em 3 grupos de clientes para que, além de ter-se a estimativa pontual e os intervalos de confiança da previsão, ainda seja possível verificar qual o percentual dessa estimativa corresponde ao consumo dos maiores clientes.

4. METODOLOGIA

Para a realização deste trabalho aplicaramséries temporais.

4.1. Série Temporal Uma série temporal consiste em um conjunto de observações ou medidas sob um intervalo de tempo. Se estas observações consecutivas são dependentes uma das outras, é possível conseguir-se uma previsão (SAMOHYL, ROCHA & MATTOS, 2001) e assim fornecer bases para compreender o comportamento do evento ao qual esta se analisando.De acordo com Morettin & Toloi (2004), ao se realizar um estudo de séries temporais, podese estar interessado em: a) Investigar o mecanismo gerador da série temporal;b) Fazer previsões de valores futuros da série;c) Descrever apenas o comportamento da série, como tendências e sazonalidades, por exemplo; d) Procurar periodicidades relevantes nos dados. Esses autores também ressaltam que os modelos devem ser simples, com o menor número de parâmetros possíveis, e sua utilização não deve apresentar dificuldades às pessoas interessadas em manipulá-los, entendendouma série temporal.

4.2. Decomposição Clássica Conforme Morretin & Toloi (1987), séries temporais são compostas por quatro elementos:1. Tendência: verifica o sentido de deslocamento da série ao longo de vários anos;2. Ciclo: movimento ondulatório que ao longo de vários3. Sazonalidade: movimento ondulatório de curta duração, em geral, inferior a um ano associada, na maioria dos casos, a mudanças climáticas;4. Ruído aleatório ou erro: compreende a variabilidade intrínseca aos dados e não podemodelado. De acordo com Notas de aula do professor Ricardo S. Ehlers 2009, muitas das propriedades observadas em uma série temporal Xt podem ser captadas assumindode decomposição onde Tt é uma componente de tendência, Cuma componente aleatória ou ruído (a parte não explicada, que esperaaleatória). A componente cíclica Assim, variações periódicas podem ser cap

Para a realização deste trabalho aplicaram-se algumas metodologias empregadas na análise de

Uma série temporal consiste em um conjunto de observações ou medidas sob um intervalo de tempo. Se estas observações consecutivas são dependentes uma das outras, é possível

uma previsão (SAMOHYL, ROCHA & MATTOS, 2001) e assim fornecer bases para compreender o comportamento do evento ao qual esta se analisando.De acordo com Morettin & Toloi (2004), ao se realizar um estudo de séries temporais, pode

) Investigar o mecanismo gerador da série temporal; b) Fazer previsões de valores futuros da série; c) Descrever apenas o comportamento da série, como tendências e sazonalidades, por

d) Procurar periodicidades relevantes nos dados.

também ressaltam que os modelos devem ser simples, com o menor número de parâmetros possíveis, e sua utilização não deve apresentar dificuldades às pessoas

los, entendendo-se por modelos uma descrição probabilística de

Decomposição Clássica

Conforme Morretin & Toloi (1987), séries temporais são compostas por quatro elementos:1. Tendência: verifica o sentido de deslocamento da série ao longo de vários anos;2. Ciclo: movimento ondulatório que ao longo de vários anos tende a ser periódico;3. Sazonalidade: movimento ondulatório de curta duração, em geral, inferior a um ano associada, na maioria dos casos, a mudanças climáticas; 4. Ruído aleatório ou erro: compreende a variabilidade intrínseca aos dados e não pode

De acordo com Notas de aula do professor Ricardo S. Ehlers 2009, muitas das propriedades observadas em uma série temporal Xt podem ser captadas assumindo

a componente de tendência, Ct e uma componente cíclica ou sazonal e Rt é uma componente aleatória ou ruído (a parte não explicada, que esperaaleatória). A componente cíclica se repete a cada intervalo fixos, i.e.

Assim, variações periódicas podem ser captadas por esta componente.

14

todologias empregadas na análise de

Uma série temporal consiste em um conjunto de observações ou medidas sob um intervalo de tempo. Se estas observações consecutivas são dependentes uma das outras, é possível

uma previsão (SAMOHYL, ROCHA & MATTOS, 2001) e assim fornecer bases para compreender o comportamento do evento ao qual esta se analisando. De acordo com Morettin & Toloi (2004), ao se realizar um estudo de séries temporais, pode-

c) Descrever apenas o comportamento da série, como tendências e sazonalidades, por

também ressaltam que os modelos devem ser simples, com o menor número de parâmetros possíveis, e sua utilização não deve apresentar dificuldades às pessoas

se por modelos uma descrição probabilística de

Conforme Morretin & Toloi (1987), séries temporais são compostas por quatro elementos: 1. Tendência: verifica o sentido de deslocamento da série ao longo de vários anos;

anos tende a ser periódico; 3. Sazonalidade: movimento ondulatório de curta duração, em geral, inferior a um ano

4. Ruído aleatório ou erro: compreende a variabilidade intrínseca aos dados e não pode ser

De acordo com Notas de aula do professor Ricardo S. Ehlers 2009, muitas das propriedades observadas em uma série temporal Xt podem ser captadas assumindo-se a seguinte forma

e uma componente cíclica ou sazonal e Rt é uma componente aleatória ou ruído (a parte não explicada, que espera-se ser puramente

4.3. Modelos Box-Jenkins Segundo Apostila CE017-metodologia Box & Jenkins é,Séries Temporais.Foi esse estcorrespondente formalização da área de estudo de Séries Temporais.O trabalho dos pesquisadores Box & Jenkins foi baseado no importante resultado de Wold

“qualquer série temporal pode ser representamóveis infinita” ou melhor “qualquer processo estocástico estacionário representado como a soma de dois processos mutuamente inter

processo Médias Móveis infinito (MA( A parte determinística pode ser uma fu

que descreve uma oscilação senoidal ao longo do tD é quando se tem modelos lineares conhecida ARIMAsérie temporal { , =1,2,3,....,n}.

4.4. Séries com Tendência Conforme notas de aula do professor Ricardo S. Ehlers 2009, não existe uma definição precisa de tendência e diferentes autores usam este terpensar em tendência como uma mudança de longo prazo no níveldificuldade aqui é definir longo prazo.A forma mais simples de tendência é

Onde são constantes a serem estimadas e O nível médio da série no tempo termo de tendência. Porém alguns autores preferem chamar a inclinação seja, a mudança no nível da série por unidadetendência na equação (1.1) é uma função determinística do de tendência global (i.e. vale paraDe um modo geral, uma forma de se lidar cem ajustar uma função polinomial, Uma função linear ou quadrática seria apropriada no caso de uma tendência monotonicamente crescente ou decrescente. Caso contrário polinômios de ordem mais alta devem ser ajustados. Outras possíveis formas de tendência são os crescimentos descritos por uma curva

Jenkins

-Análise de Séries Temporais, Professor Anselmo Chaves Neto,a metodologia Box & Jenkins é, sem dúvida,o mais importante trabalho na área de Previsão de Séries Temporais.Foi esse estudo o responsável pelo grande desenvolvimento e a correspondente formalização da área de estudo de Séries Temporais.O trabalho dos pesquisadores Box & Jenkins foi baseado no importante resultado de Wold

“qualquer série temporal pode ser representada por uma estrutura de médias móveis infinita” ou melhor “qualquer processo estocástico estacionário representado como a soma de dois processos mutuamente inter

, onde D é linearmente determinístico processo Médias Móveis infinito (MA(∞))”.

A parte determinística pode ser uma função exata do tempo, como por exemplo, que descreve uma oscilação senoidal ao longo do tempo.O caso mais simples para

. Box & Jenkins em 1970 propuseram uma classe geral de conhecida ARIMA (Autoregressive Integrated Moving A

=1,2,3,....,n}.

Séries com Tendência

Conforme notas de aula do professor Ricardo S. Ehlers 2009, não existe uma definição precisa de tendência e diferentes autores usam este termo de diversas formas. Podemos pensar em tendência como uma mudança de longo prazo no nível

aqui é definir longo prazo. A forma mais simples de tendência é

são constantes a serem estimadas e denota um erro aleatório com média zero. ível médio da série no tempo é dado por que é algumas vezes

de tendência. Porém alguns autores preferem chamar a inclinação , a mudança no nível da série por unidade de tempo já que

tendência na equação (1.1) é uma função determinística do tempo e algumas vezes é chamada ale para toda a série), em oposição a tendência local.

De um modo geral, uma forma de se lidar com dados que contenham uma tendência consiste em ajustar uma função polinomial,

Uma função linear ou quadrática seria apropriada no caso de uma tendência monotonicamente crescente ou decrescente. Caso contrário polinômios de ordem mais alta devem

Outras possíveis formas de tendência são os crescimentos descritos por uma curva

15

Análise de Séries Temporais, Professor Anselmo Chaves Neto,a sem dúvida,o mais importante trabalho na área de Previsão de

udo o responsável pelo grande desenvolvimento e a correspondente formalização da área de estudo de Séries Temporais.O trabalho dos pesquisadores Box & Jenkins foi baseado no importante resultado de Wold (1938)

da por uma estrutura de médias móveis infinita” ou melhor “qualquer processo estocástico estacionário pode ser representado como a soma de dois processos mutuamente inter-relacionados,

é linearmente determinístico (sistemático) e A , é um

como por exemplo, empo.O caso mais simples para

. Box & Jenkins em 1970 propuseram uma classe geral de (Autoregressive Integrated Moving Average) para a

Conforme notas de aula do professor Ricardo S. Ehlers 2009, não existe uma definição mo de diversas formas. Podemos

pensar em tendência como uma mudança de longo prazo no nível médio da série. A

(1.1)

um erro aleatório com média zero. que é algumas vezes chamado de

de tendência. Porém alguns autores preferem chamar a inclinação de tendência, ou . Note que a

tempo e algumas vezes é chamada toda a série), em oposição a tendência local.

om dados que contenham uma tendência consiste

Uma função linear ou quadrática seria apropriada no caso de uma tendência monotonicamente crescente ou decrescente. Caso contrário polinômios de ordem mais alta devem

Outras possíveis formas de tendência são os crescimentos descritos por uma curva Gompertz,

onde , e são parâmetros com onde são parâmetros. uma assíntota quando Seja qual for a curva utilizada, a função ajustada fornece uma medida da tendência da série, enquanto os resíduos (valores observados flutuações locais.

4.5. Função de Autocorrelação De acordo com notas de aulaautocorrelação amostral de uma série temporal observada são uma ferramenta importante paradescrever a série. Analogamente, a função deestocástico estacionário é uma ferramenta importante para acessar suas serão apresentadas propriedades gerais da função de autocorrelação.Se um processo estocástico estacionário e portanto . As se 1. A correlação entre

2.

3. Embora um processo estocástico tenha uma estrutura de autocovariâncnão é verdadeiro em geral. É possível encontrautocorrelação, o que dificulta ainda

4.6. Autocorrelações Parciais Para um processo AR(), defasagem p que não é levado em conta por um modelo AR(ésimo coeficiente de autocorrelaçãfunção de autocorrelação parcial (FAPor outro lado, em um processo AR(, Xt . . . e substituindo que todos os coeficientes de correlação parcial serão nulos pasubstituindo-se segue que

são parâmetros com , ou uma curva Logística,

são parâmetros. Estas duas últimas são chamadas curvas S e se aproxi. Neste caso o ajuste pode levar a equações não lineares.

Seja qual for a curva utilizada, a função ajustada fornece uma medida da tendência da série, enquanto os resíduos (valores observados – valores ajustados) fornecem uma estimativa de

Função de Autocorrelação

otas de aula do professor Ricardo S. Ehlers 2009,autocorrelação amostral de uma série temporal observada são uma ferramenta importante para

Analogamente, a função de autocorrelação teórica (FAC) de um processonário é uma ferramenta importante para acessar suas propriedades.

serão apresentadas propriedades gerais da função de autocorrelação. Se um processo estocástico estacionário tem média e variância então

. As seguintes propriedades são facilmente verificáveis.

e é a mesma que entre

3. Embora um processo estocástico tenha uma estrutura de autocovariâncnão é verdadeiro em geral. É possível encontrar vários processos com a mesma função de autocorrelação, o que dificulta ainda mais a interpretação do correlograma.

Parciais

), o último coeficiente mede o “excesso de correlação” na defasagem p que não é levado em conta por um modelo AR( ). Este é chamado de p

de autocorrelação parcial. Assim, variando k= 1, 2, . . . temos a chamada função de autocorrelação parcial (FACP).

em um processo AR() não existe correlação direta entre . . . e substituindo , , . . . nas equações de Yule

que todos os coeficientes de correlação parcial serão nulos para segue que

16

, ou uma curva Logística,

Estas duas últimas são chamadas curvas S e se aproximam de pode levar a equações não lineares.

Seja qual for a curva utilizada, a função ajustada fornece uma medida da tendência da série, valores ajustados) fornecem uma estimativa de

do professor Ricardo S. Ehlers 2009, os coeficientes de autocorrelação amostral de uma série temporal observada são uma ferramenta importante para

(FAC) de um processo propriedades. A seguir

então

guintes propriedades são facilmente verificáveis.

e , ou seja,

3. Embora um processo estocástico tenha uma estrutura de autocovariância única o contrário ar vários processos com a mesma função de

mais a interpretação do correlograma.

mede o “excesso de correlação” na ). Este é chamado de p-

1, 2, . . . temos a chamada

) não existe correlação direta entre e , . . . nas equações de Yule-Walker obtêm-se

. Por exemplo,

O fato de que a FACP é igual a zero para como uma ferramenta para temporais observadas.

4.7. O Correlograma Um gráfico com os k primeiros coeficientes de autocorrelação como função de k é chamado de correlograma e pode ser uma ferramenta poderosa para identificar características da série temporal. Porém isto requer uma interpretação adequassociar certos padrões do correlograma como determinadastemporal. Esta nem sempre é uma tarefa simples.

4.8. Modelos Sazonais Muitas séries temporais contêmobservações ( ). Por exemplo, com dadosque dependa de -12 e talvez de Neste caso tomar a primeira (aproximadamente) estacionária. acentuado é tomar diferenças no período sazonal. Pordiferença sazonal é e terá variabilidade menor do que a primeira diferença não sazonal sendo portanto mais fácil de identificar e estimar.Em geral, uma diferença sazonal é denotada por diferença sazonal é então denotada por obtêm-se o operador ▽ ▽uma série mensal tem-se que Box & Jenkins (197º) generalizaram o modelo ARdefiniram um modelo ARIMA onde

O fato de que a FACP é igual a zero para é sugerido em Box and Jenkins (197º, p. 17º) como uma ferramenta para determinar a ordem p do processo autoregressivo para

Um gráfico com os k primeiros coeficientes de autocorrelação como função de k é chamado de correlograma e pode ser uma ferramenta poderosa para identificar características da série temporal. Porém isto requer uma interpretação adequada do correlograma, i.eassociar certos padrões do correlograma como determinadas características de uma série temporal. Esta nem sempre é uma tarefa simples.

Modelos Sazonais

as séries temporais contêm uma componente periódica sazonal que ). Por exemplo, com dados mensais e

e talvez de -24 além de t-1 t-2

Neste caso tomar a primeira diferença não é suficiente para tornar a série adamente) estacionária. A forma apropriada de diferenciar dados com padrão sazonal

diferenças no período sazonal. Por exemplo, para dados mensais a primeira

r do que a primeira diferença não sazonal ▽sendo portanto mais fácil de identificar e estimar.

diferença sazonal é denotada por ▽ onde é o período sazonal. A Ddiferença sazonal é então denotada por ▽ . Combinando-se os dois tipos de

▽ . Por exemplo, tomando-se 1 diferença simples e 1 sazonal em se que

Box & Jenkins (197º) generalizaram o modelo ARIMA para lidar com sazonalidadeum modelo ARIMA sazonal multiplicativo, denominado SARIMA,

17

o em Box and Jenkins (197º, p. 17º) do processo autoregressivo para séries

Um gráfico com os k primeiros coeficientes de autocorrelação como função de k é chamado de correlograma e pode ser uma ferramenta poderosa para identificar características da série

correlograma, i.e. deve-se características de uma série

componente periódica sazonal que se repete a cada tipicamente espera-se

e para tornar a série A forma apropriada de diferenciar dados com padrão sazonal

para dados mensais a primeira

▽ ,

é o período sazonal. A D- ésima se os dois tipos de diferenciação

1 diferença simples e 1 sazonal em

IMA para lidar com sazonalidade e nominado SARIMA, dado por

Este modelo é chamado SARIMA multiplicativo de ordemextremamente complicado serão maiores do que 1 e um número pequenocom temos que o que significa simplesmente que original tomando-se diferenças simples para remover a tendência remover a sazonalidade. Para fixar idéias considere o modelo SARIMAseja, temos um termo autoregressivo e um termo média móvel sazonal modelando a primeira diferença sazonal. O modelo pode ser escrito como e desenvolvendo os produtos obtemos que Assim, depende de Para finalizar, ao ajustar umvalores de e que tornam a série (aproximadamente) estacionária e remove da sazonalidade. Como já foi dito, estes valores rarPosteriormente os valores de autocorrelação e autocorrelação parcial da série diferenciada. Os valores de especificados basicamente a partir de

é grande mas é pequenoadequado. Após ter identificado, por tentativa, o que parece ser um modelo SARIMA razoável os parâmetros serão estimados por algum procedimento iterativo similar àqueles promodelos ARMA. Detalhes sobre as rotinaaqui e podem ser obtidos em Box & Jenkins (197º).

4.9. Análise dos Resíduos Após um modelo ter sido ajustado a uma série temporal devedescrição adequada dos dados. Assim como eo comportamento dos resíduosPara os modelos vistos aqui o valor ajustado é a previsão 1 passo a frente de modo que o resíduo fica definido como o erro de pAR(1) se α é a estimativa do coeficiente autoregressivo então o valor ajustado no tempo t é xt-1 e o resíduo correspondente é et=xtse que os resíduos se distribuam aleatoriamente em torno de zero com variância aproximadamente constante e sejam não correlacionados. Se a variância dos resíduos for crescente uma transformação logarítmica nos dados pode ser apropriada. O fenômeno de “não constância” na variância é denominado de volatilidade na literatura de séries temporais e pode ser tratado através de transformações nos dados (e.g. transformações de Box

Este modelo é chamado SARIMA multiplicativo de ordem à primeira vista mas na prática os valores de

e um número pequeno de coeficientes será suficiente.

o que significa simplesmente que depende de t-S . A série é formadase diferenças simples para remover a tendência e diferenças sazonais para

fixar idéias considere o modelo SARIMA para dados mensais. Ou temos um termo autoregressivo e um termo média móvel sazonal modelando a primeira

odelo pode ser escrito como

e desenvolvendo os produtos obtemos que

e além do erro no tempo Para finalizar, ao ajustar um modelo sazonal aos dados a primeira tarefa é especificar os

que tornam a série (aproximadamente) estacionária e remove Como já foi dito, estes valores raramente serão maiores

Posteriormente os valores de e devem ser especificados com base naautocorrelação e autocorrelação parcial da série diferenciada. Os valores de especificados basicamente a partir de ... . Por exemplo, para dados mensais

é pequeno isto sugere que um termo média móvel sazonal pode ser

Após ter identificado, por tentativa, o que parece ser um modelo SARIMA razoável os parâmetros serão estimados por algum procedimento iterativo similar àqueles promodelos ARMA. Detalhes sobre as rotinas de estimação destes modelos não serão abordadosaqui e podem ser obtidos em Box & Jenkins (197º).

Análise dos Resíduos

Após um modelo ter sido ajustado a uma série temporal deve-se verificar se ele fornecedescrição adequada dos dados. Assim como em outros modelos estatísticos a idéia

comportamento dos resíduos, onde resíduo = valor observado - valor ajustado.Para os modelos vistos aqui o valor ajustado é a previsão 1 passo a frente de modo que o resíduo fica definido como o erro de previsão 1 passo a frente. Por exemplo, em um modelo

é a estimativa do coeficiente autoregressivo então o valor ajustado no tempo t é respondente é et=xt-(α) xt-1. Se o modelo tiver um

íduos se distribuam aleatoriamente em torno de zero com variância aproximadamente constante e sejam não correlacionados. Se a variância dos resíduos for crescente uma transformação logarítmica nos dados pode ser apropriada. O fenômeno de “não

a variância é denominado de volatilidade na literatura de séries temporais e pode ser tratado através de transformações nos dados (e.g. transformações de Box

18

e parece à primeira vista mas na prática os valores de e em geral não

coeficientes será suficiente. Por exemplo,

formada a partir da série e diferenças sazonais para

para dados mensais. Ou temos um termo autoregressivo e um termo média móvel sazonal modelando a primeira

além do erro no tempo . modelo sazonal aos dados a primeira tarefa é especificar os

que tornam a série (aproximadamente) estacionária e remove a maior parte amente serão maiores do que 1.

devem ser especificados com base nas funções de autocorrelação e autocorrelação parcial da série diferenciada. Os valores de e são

. Por exemplo, para dados mensais se média móvel sazonal pode ser

Após ter identificado, por tentativa, o que parece ser um modelo SARIMA razoável os parâmetros serão estimados por algum procedimento iterativo similar àqueles propostos para

tes modelos não serão abordados

se verificar se ele fornece uma m outros modelos estatísticos a idéia é verificar

valor ajustado. Para os modelos vistos aqui o valor ajustado é a previsão 1 passo a frente de modo que o

revisão 1 passo a frente. Por exemplo, em um modelo é a estimativa do coeficiente autoregressivo então o valor ajustado no tempo t é α

Se o modelo tiver um “bom” ajuste espera-íduos se distribuam aleatoriamente em torno de zero com variância

aproximadamente constante e sejam não correlacionados. Se a variância dos resíduos for crescente uma transformação logarítmica nos dados pode ser apropriada. O fenômeno de “não

a variância é denominado de volatilidade na literatura de séries temporais e pode ser tratado através de transformações nos dados (e.g. transformações de Box-Cox)¹. Além

19

disso, em modelos de séries temporais os resíduos estão ordenados no tempo e é portanto natural tratá-los também como uma série temporal. É particularmente importante que os resíduos de um modelo estimado sejam serialmente (i.e. ao longo do tempo) não correlacionados. Evidência de correlação serial nos resíduos é uma indicação de que uma ou mais características da série não foi adequadamente descrita pelo modelo. Conseqüentemente, duas maneiras óbvias de verificar a adequação do modelo consistem em representar graficamente os resíduos e o seu correlograma. O gráfico temporal poderá revelar a presença de dados discrepantes, efeitos de autocorrelação ou padrões cíclicos enquanto que o correlograma permite uma análise mais detalhada da estrutura de autocorrelação indicando possíveis termos faltantes no modelo. Ou seja, assim como em outros modelos estatísticos, a idéia é que os resíduos poderão identificar características que não foram adequadamente modeladas. Por exemplo, autocorrelações residuais significativas nas defasagens 1 ou 2, ou em defasagens ¹Uma tendência mais recente no entanto consiste em tentar modelar simultaneamente a média e a variância ao invés de usar transformações. sazonais (e.g. 12 para dados mensais) são uma indicação de que mais termos médias móveis devem ser incluídos no modelo. Por outro lado, um valor de rk ligeiramente fora dos limites de confiança em defasagens sem significado óbvio (e.g. k=5) não é indicação suficiente para se rejeitar o modelo. O mesmo comentário vale para as autocorrelações parciais dos resíduos no que diz respeito a inclusão de termos autoregressivos (sazonais e não sazonais).

4.9.1. Testes de independência Ao invés de olhar para as autocorrelações residuais individualmente pode-se testar se um grupo de autocorrelações é significativamente diferente de zero através das chamadas estatísticas Q. Para modelos ARMA Box & Jenkins (1970) sugeriram o uso do teste de Box-Pierce para as hipóteses

sendo a estatística de teste dada por

Na prática o número m de autocorrelações amostrais é tipicamente escolhido entre 15 e 30. Se o modelo ajustado for apropriado então Q terá distribuição aproximadamente qui-quadrado com m-p-q graus de liberdade. Assim, valores grandes de Q fornecem indicação contra a hipótese de que as autocorrelações são todas nulas, em favor da hipótese de que ao menos uma delas é diferente de zero. O teste de Box-Pierce não tem bom desempenho em amostras pequenas ou moderadas no sentido de que a distribuição se afasta da qui-quadrado. Vários testes alternativos foram sugeridos na literatura e o mais conhecido é o teste de Ljung-Box, aonde a estatística de teste é dada por

Sua distribuição amostral também é aproximadamente quiliberdade.

4.9.2. Teste de normalidade Em estatística, os testes de normalidade sãde uma dada variável aleatória, é bem modelada por uma distribuição normal ou não, ou para calcular a probabilidade da variável aleatória subjacente estar normalmente distribuída. O teste de Shapiro Wilk, pamostra aleatória de tamanho n provém de uma distribuição normal. Valores pequenos de W são evidência de desvios da normalidade e pontos percentuais para a estatística W, podem ser obtidos via simulação de Monte Carlo. A estatística W é calculada de acordo com a seguinte equação:

em que os são os valores amostrais ordenado e os médias, variâncias e covariâncias das estatítamanho n de uma distribuição normal. esse teste comporta-se bem.No R existe a função shapiro.test(x)

4.10. Modelos de Holt O procedimento de alisamento extendência e variação sazonal. Suponha

, e o nível, a tendência e o índice sazonal no tempo redução esperada por mês no nível atual da série.

Suponha que no tempo os termos (Então, após observar os termos a variação sazonal for multiplicativa, i.e. com amplitudes que tendem a crescer ao longo do tempo, as equações de atualização na forma de recorrência são dadas

Sua distribuição amostral também é aproximadamente qui-quadrado com

Teste de normalidade

Em estatística, os testes de normalidade são usados para determinar se um conjunto de dados de uma dada variável aleatória, é bem modelada por uma distribuição normal ou não, ou para calcular a probabilidade da variável aleatória subjacente estar normalmente distribuída.

O teste de Shapiro Wilk, proposto em 1965, calcula uma estatística W que testa se uma amostra aleatória de tamanho n provém de uma distribuição normal. Valores pequenos de W são evidência de desvios da normalidade e pontos percentuais para a estatística W, podem ser

ulação de Monte Carlo. A estatística W é calculada de acordo com a seguinte equação:

são os valores amostrais ordenado e os são constantes médias, variâncias e covariâncias das estatísticas de ordem de uma

n de uma distribuição normal. Em comparação a outros testes de bondade de ajuste, se bem. shapiro.test(x).

Modelos de Holt-Winters

O procedimento de alisamento exponencial pode ser generalizado para séries que com tenham ia e variação sazonal. Suponha por exemplo que as observações são mensais e sejam

o nível, a tendência e o índice sazonal no tempo . Assim, redução esperada por mês no nível atual da série.

os termos (1 ), . . . , (os termos , e são atualizados via alisamento exponencial. Se

a variação sazonal for multiplicativa, i.e. com amplitudes que tendem a crescer ao longo do tempo, as equações de atualização na forma de recorrência são dadas por

20

quadrado com graus de

o usados para determinar se um conjunto de dados de uma dada variável aleatória, é bem modelada por uma distribuição normal ou não, ou para calcular a probabilidade da variável aleatória subjacente estar normalmente distribuída.

roposto em 1965, calcula uma estatística W que testa se uma amostra aleatória de tamanho n provém de uma distribuição normal. Valores pequenos de W são evidência de desvios da normalidade e pontos percentuais para a estatística W, podem ser

são constantes geradas das amostra aleatória de

Em comparação a outros testes de bondade de ajuste,

para séries que com tenham ervações são mensais e sejam . Assim, é o aumento ou

) sejam conhecidos. são atualizados via alisamento exponencial. Se

a variação sazonal for multiplicativa, i.e. com amplitudes que tendem a crescer ao longo do por

e as previsões k períodos a No caso de sazonalidade aditiva as equações de atualização para o nívelmodificadas para e as previsões k períodos à frente ficam Aqui temos parâmetros de alescolhidos no intervalo (0,1) e podem ser estimados minimizandoerros de previsão como na seção anterior. Aqui vale também o comentário sobre valores próximos aos extremos devido à soma de quadrados variarestes parâmetros não dependem temporais do nível, tendência e sazonalidade da série. Valem os mesmos comentários sobre estes valores refletindo a inflcomponente. Para o caso particular de sériesacima (sem o índice t-12 ). Ou seja, e a previsão k passos à frente no tempo t e simplesmente Lt+kTt. Se a série também não tem uma tendência sistemática retorna e Lt e a previsão 1 passo à frente (( x) Segundo Serra, C.M.V.; et. al. (2005), caso a amplitude da variação sazonal mantenhaconstante, diz-se que o modelo é aditivo (figura 1), caso aumente com o tempo, dizmodelo é multiplicativo (figura 2).

Figura 3 – Modelo aditivo de H

Fonte: Ragsdale (2004)

e as previsões k períodos a frente são dadas por

aditiva as equações de atualização para o nível

e as previsões k períodos à frente ficam

Aqui temos parâmetros de alisamento α, γ e δ para cada componente da série que são em geral escolhidos no intervalo (0,1) e podem ser estimados minimizando-se a soma de quadrados dos erros de previsão como na seção anterior. Aqui vale também o comentário sobre valores

vido à soma de quadrados variar pouco nesta região. Além disso,estes parâmetros não dependem da escala das observações mas sim das propriedades temporais do nível, tendência e sazonalidade da série. Valem os mesmos comentários

s refletindo a influência das observações passadas nas previsões de cada

o caso particular de séries sem variação sazonal basta utilizar as equações para ). Ou seja,

e a previsão k passos à frente no tempo t e simplesmente Lt+kTt. Se a série também não tem uma tendência sistemática retorna-se à equação (5.3), ou seja,

e Lt e a previsão 1 passo à frente (( x) t(1)).

et. al. (2005), caso a amplitude da variação sazonal mantenhase que o modelo é aditivo (figura 1), caso aumente com o tempo, diz

modelo é multiplicativo (figura 2).

Modelo aditivo de Holt-Winters.


21

e o índice sazonal são

da série que são em geral se a soma de quadrados dos

erros de previsão como na seção anterior. Aqui vale também o comentário sobre valores pouco nesta região. Além disso,

mas sim das propriedades temporais do nível, tendência e sazonalidade da série. Valem os mesmos comentários

nas previsões de cada

as equações para t e

e a previsão k passos à frente no tempo t e simplesmente Lt+kTt. Se a série também não tem

et. al. (2005), caso a amplitude da variação sazonal mantenha-se se que o modelo é aditivo (figura 1), caso aumente com o tempo, diz-se que o

Figura 4 – Modelo multiplicativo de Holt


Conforme afirmam Morettin e Toloi (1985) as vantagens de se utilizar o modelo proposto é que o mesmo é adequado à análise de sériedesvantagens apontam quanto às dificuldades de determinar valores mais apropriados das constantes de alisamento e a impossibilidade de estudar propriedades estatísticas como médias e variâncias de previsão e, cons

4.11. Critérios para escolha do melhor modelo De acordo com notas de aula do professor Ricardo S. Ehlers 2009,vários modelos podem ser julgados adequados Uma forma de “discriminar” entre estes modelos competidores é utilizar os chamados critérios de informação que levam em conta não apenas a qualidade do ajuste mas também penalizam a inclusão de parâmetros extras. Assim, umpode ter um ajuste melhor mas não necessariamente será preferível em termos de critério de informação. A regra básica consiste em selecionar o modelo cujo critério de informação calculado seja mínimo. A regra mais utilizada em séries informação de Akaike, denotado por AIC. A definição mais comumente utilizada é

Onde m é o número de parâmetros.estimativas de máxima verossi

¹ O fator 2 é somente uma convenção e não irá alterar a seleção do modelo.

Modelo multiplicativo de Holt-Winters.


Conforme afirmam Morettin e Toloi (1985) as vantagens de se utilizar o modelo proposto é que o mesmo é adequado à análise de séries com padrão de comportamento geral. Já as desvantagens apontam quanto às dificuldades de determinar valores mais apropriados das constantes de alisamento e a impossibilidade de estudar propriedades estatísticas como médias e variâncias de previsão e, conseqüentemente, a construção de um intervalo de confiança.

Critérios para escolha do melhor modelo

otas de aula do professor Ricardo S. Ehlers 2009, vários modelos podem ser julgados adequados em termos do comportamento Uma forma de “discriminar” entre estes modelos competidores é utilizar os chamados critérios de informação que levam em conta não apenas a qualidade do ajuste mas

inclusão de parâmetros extras. Assim, um modelo copode ter um ajuste melhor mas não necessariamente será preferível em termos de critério de informação. A regra básica consiste em selecionar o modelo cujo critério de informação calculado seja mínimo. A regra mais utilizada em séries temporais é o chamado critério de informação de Akaike, denotado por AIC. A definição mais comumente utilizada é

Onde m é o número de parâmetros. Para dados normalmente distribuídos e usandoestimativas de máxima verossimilhança para os parâmetros pode-se mostrar que

O fator 2 é somente uma convenção e não irá alterar a seleção do modelo.

22

Conforme afirmam Morettin e Toloi (1985) as vantagens de se utilizar o modelo proposto é s com padrão de comportamento geral. Já as

desvantagens apontam quanto às dificuldades de determinar valores mais apropriados das constantes de alisamento e a impossibilidade de estudar propriedades estatísticas como médias

eqüentemente, a construção de um intervalo de confiança.

em muitas aplicações em termos do comportamento dos resíduos.

Uma forma de “discriminar” entre estes modelos competidores é utilizar os chamados critérios de informação que levam em conta não apenas a qualidade do ajuste mas

modelo com mais parâmetros pode ter um ajuste melhor mas não necessariamente será preferível em termos de critério de informação. A regra básica consiste em selecionar o modelo cujo critério de informação

temporais é o chamado critério de informação de Akaike, denotado por AIC. A definição mais comumente utilizada é

Para dados normalmente distribuídos e usando-se se mostrar que

O fator 2 é somente uma convenção e não irá alterar a seleção do modelo.

4.12. MAPE A média do erro percentual absoluto (MAPE) é a medida de precisão em uma série temporalvalor montados em estatísticas, eporcentagem de precisão, e é definido pela fórmula:

onde A t é o valor real e t A diferença entre t e é dividido pelo valor real de um t novamente. O valor absoluto deste cálculo é somada para cada ponto instalado ou previsão de tempo e novamente dividido pelo número de n pontos instalados. Isso o torna ucomparar o erro de séries temporais equipado que diferem em nível. Existem outros critérios de informação que são baside penalizar a inclusão de parâmetros extras,

4.13. Performance Preditiva Na prática é preciso verificar se os resíduos se comportam dimprevisível) em torno de zero e com variância aproximadamente constante, além de serem não correlacionados ao longo do Além disso, dois ou mais modelos podem ser comparados segundopreditiva, ou seja construindométodos de previsão baseiaabsolutos dos erros de previsão e esta é também uma medida usada para comparar a adequação de modelos alternativos.A idéia então é comparar o erro quadrático médio para diferentes modelos, onde m é o número de parâmetros a serem estimados. Uma estratégia simples de se fazer previsões conscomo a melhor previsão de um valor futuro da série Note que esta é a previsão 1 passo ‘a frente de um passeio aleatório. Assim, uma forma de medir a capacidade preditiva de um modelo consiste em comparar seus erros de previsão com aqueles estatística U de Theil definida como

A média do erro percentual absoluto (MAPE) é a medida de precisão em uma série temporalvalor montados em estatísticas, especificamente tendências. É geralmente expressa como uma porcentagem de precisão, e é definido pela fórmula:

é o valor previsto. é dividido pelo valor real de um t novamente. O valor absoluto deste

cálculo é somada para cada ponto instalado ou previsão de tempo e novamente dividido pelo número de n pontos instalados. Isso o torna uma percentagem de erro para que se possa comparar o erro de séries temporais equipado que diferem em nível.

Existem outros critérios de informação que são basicamente modificações do AIC na a inclusão de parâmetros extras, porém não serão citado nesse trabalho.

Performance Preditiva

Na prática é preciso verificar se os resíduos se comportam de maneira aleatória imprevisível) em torno de zero e com variância aproximadamente constante, além de serem não correlacionados ao longo do tempo.

sso, dois ou mais modelos podem ser comparados segundopreditiva, ou seja construindo-se medidas baseadas nos erros de previsão. A maioria dos

baseia-se na idéia de minimizar somas de quadrados ou dabsolutos dos erros de previsão e esta é também uma medida usada para comparar a adequação de modelos alternativos. A idéia então é comparar o erro quadrático médio ou erro absoluto médio

diferentes modelos, onde m é o número de parâmetros a serem estimados.

Uma estratégia simples de se fazer previsões consiste em tomar a observação mais de um valor futuro da série, i.e

Note que esta é a previsão 1 passo ‘a frente de um passeio aleatório. Assim, uma forma de medir a capacidade preditiva de um modelo consiste em comparar seus erros de

do passeio aleatório. Isto pode ser feito através daestatística U de Theil definida como

23

A média do erro percentual absoluto (MAPE) é a medida de precisão em uma série temporal . É geralmente expressa como uma

é dividido pelo valor real de um t novamente. O valor absoluto deste cálculo é somada para cada ponto instalado ou previsão de tempo e novamente dividido pelo

ma percentagem de erro para que se possa

camente modificações do AIC na forma rão citado nesse trabalho.

e maneira aleatória (ou imprevisível) em torno de zero e com variância aproximadamente constante, além de serem

sso, dois ou mais modelos podem ser comparados segundo a sua performance se medidas baseadas nos erros de previsão. A maioria dos

somas de quadrados ou de valores absolutos dos erros de previsão e esta é também uma medida usada para comparar a

ou erro absoluto médio

diferentes modelos, onde m é o número de parâmetros a serem estimados.

iste em tomar a observação mais recente

Note que esta é a previsão 1 passo ‘a frente de um passeio aleatório. Assim, uma forma de medir a capacidade preditiva de um modelo consiste em comparar seus erros de

asseio aleatório. Isto pode ser feito através da chamada

24

Note que valores maiores do que 1 são uma indicação de que globalmente os erros de previsão tendem a ser grandes em relação aos erros de um passeio aleatório. Esta não é uma boa característica e gostaríamos que o valor de U fosse sempre menor do que 1. Vale notar também que neste caso os erros de previsão estão sendo avaliados independente da escala dos dados. Finalmente, vale notar que todas as medidas de capacidade preditiva citadas podem ser estendidas para erros de previsão) passos a frente. Outra prática comum em séries temporais consiste em estimar o modelo excluindo algumas observações finais e usar o modelo estimado para fazer previsões. Neste caso as previsões podem ser comparadas com os valores observados. Por exemplo, para uma série mensal observada ao longo de 5 anos poderia-se estimar o modelo identificado usando os primeiros 4 anos e meio (54 observaçoes) e fazer previsões para os últimos 6 meses.

5. APLICAÇÃO DA METODOLOGIA Uma vez de posse dos dados, plotou-se o consumo em função dos meses, com a finalidade de avaliar o comportamento da série quanto a estacionaridade, tendência de crescimento (ou decrescimento), sazonalidade ou ciclos. Para efeito de análise dos resultados fez-se a modelagem considerando o período de janeiro de 2001 até dezembro de 2009, prevendo os valores de janeiro a outubro de 2010, que serviram para comparação dos resultados previstos do modelo com os dados reais. Assim, logo após aplicou-se a metodologia nos dados de janeiro de 2001 a outubro de 2010 para previsão dos próximos seis meses (novembro de 2010 a abril de 2011), que serão as estimativas (pontuais e intervalares) que a empresa utilizará para a tomada de decisão na hora de comprar/importar os papéis SC e LWC. Como metodologia, aplicaram-se nos dados o modelo Autorregressivo Integrado de Médias Móveis para Dados Sazonais - SARIMA (p, d, q) e os modelos de alisamento exponencial de Holt-Winters - Aditivo e Multiplicativo. Para definir o melhor modelo SARIMA, ou seja, os parâmetros mais adequados para a modelagem, utilizou-se o critério de Akaike (AIC). A escolha entre SARIMA, Holt-Winters Aditivo ou Holt-Winters Multiplicativo, baseou-se no menor erro percentual médio (MAPE). Para o desenvolvimento desse trabalho utilizou-se o software R (R Development Core Team, 2010), versão 2.11.1, pacotes STATS, TSERIES e LATTICE.

5.1. Análise descritiva dos dados com tendência Os primeiros dados de consumo mensal de papéis SC e LWC podem ser vistos na tabela abaixo:

Tabela 1: Primeiras linhas do banco de dados

Ano Mês Kg.papel

2001 Jan 801499

2001 Fev 709774

2001 Mar 428274

2001 Abr 464605

2001 Mai 579913

2001 Jun 477221

Antes de se realizar qualquer análise estatística deve fazer um estudo descritgráfico a seguir, pode-se observar o comportamento da série no decorrer dos anos.

Gráfico 1 - Consumo mensal de papel SC e LWC gramaturas 52, 56 e 60 no pejaneiro de 2001 a outubro de 2010.

Podemos observar que há uma tendência de crescimento, ou seja, uma mudança de longo prazo no nível médio da série.Para uma interpretação mais detalhada, plotouobservados por ano, utilizando o pacote Lattice Graphics do R

de se realizar qualquer análise estatística deve fazer um estudo descritse observar o comportamento da série no decorrer dos anos.

Consumo mensal de papel SC e LWC gramaturas 52, 56 e 60 no pejaneiro de 2001 a outubro de 2010.

Podemos observar que há uma tendência de crescimento, ou seja, uma mudança de longo prazo no nível médio da série. Para uma interpretação mais detalhada, plotou-se também uma separação dos dados

ano, utilizando o pacote Lattice Graphics do R, (Sarkar,

25

de se realizar qualquer análise estatística deve fazer um estudo descritivo dos dados. No se observar o comportamento da série no decorrer dos anos.

Consumo mensal de papel SC e LWC gramaturas 52, 56 e 60 no período de

Podemos observar que há uma tendência de crescimento, ou seja, uma mudança de longo

se também uma separação dos dados 2010).

Gráfico 2 - Consumo mensal de papel SC e LWC, separado por ano.

Para validar a metodologia a ser adotada realizoujaneiro de 2001 a dezembro 2009. Rvisualizar separadamente os componentes da série: tendência, sazonalidade e o resíduo, o que possibilita uma melhor interpretação dos dados.

Gráfico 3 - Decomposição da série de consumo mensal no períoddezembro de 2009.

Consumo mensal de papel SC e LWC, separado por ano.

Para validar a metodologia a ser adotada realizou-se a análise considerando os dados de janeiro de 2001 a dezembro 2009. Realizou-se a decomposição dos dados, na qual podevisualizar separadamente os componentes da série: tendência, sazonalidade e o resíduo, o que possibilita uma melhor interpretação dos dados.

Decomposição da série de consumo mensal no período de janeiro de 2001 a

26

se a análise considerando os dados de

se a decomposição dos dados, na qual pode-se visualizar separadamente os componentes da série: tendência, sazonalidade e o resíduo, o que

o de janeiro de 2001 a

No primeiro quadro estão os dados originais. A sazonalidade é apresentada no segundo quadro, no qual nota-se que a série possui uma nítida sazonalidade. Também se pode afirmar que a série possui tendência de crescresíduo, ou seja, o que não pode ser explicado pela sazonalidade nem pela tendência.Ademais, para propor os modelos é necessário verificar a função de autocorrelação (ACF) e a função de autocorrelação parcial (PACF).

Gráfico 4 - Função de autocorrelação e função de autocorrelação parcial da série consumo mensal de papel no período de janeiro de 2001 a dezembro de 2009.

Como se observa no correlograma acima,os valores da autocuma forma relativamente lenta,indicando não estacionaridade.Neste caso, pouca ou nenhuma informação pode ser extraída do correlograma já que a tendência dominará outras características.Logo,a série precisa ser diferenciada comcomportamento da série. Esperaseja estacionário. Aplicar esse tipo de diferenciaçãofundamentalmente a tendência mas não a sazona Assim foi realizada a primeira diferença e plotadas as funções de autocorrelações.

No primeiro quadro estão os dados originais. A sazonalidade é apresentada no segundo se que a série possui uma nítida sazonalidade. Também se pode afirmar

que a série possui tendência de crescimento, no terceiro quadro. E no último, é apresentado o resíduo, ou seja, o que não pode ser explicado pela sazonalidade nem pela tendência.Ademais, para propor os modelos é necessário verificar a função de autocorrelação (ACF) e a

ão parcial (PACF).

Função de autocorrelação e função de autocorrelação parcial da série consumo mensal de papel no período de janeiro de 2001 a dezembro de 2009.

Como se observa no correlograma acima,os valores da autocorrelação decaem para zero de uma forma relativamente lenta,indicando não estacionaridade.Neste caso, pouca ou nenhuma informação pode ser extraída do correlograma já que a tendência dominará outras características.Logo,a série precisa ser diferenciada com o objetivo de identificar melhor o comportamento da série. Espera-se que uma vez removido esse efeito, o processo resultante

esse tipo de diferenciação aos dados originais eliminam, fundamentalmente a tendência mas não a sazonalidade.

Assim foi realizada a primeira diferença e plotadas as funções de autocorrelações.

27

No primeiro quadro estão os dados originais. A sazonalidade é apresentada no segundo se que a série possui uma nítida sazonalidade. Também se pode afirmar

imento, no terceiro quadro. E no último, é apresentado o resíduo, ou seja, o que não pode ser explicado pela sazonalidade nem pela tendência. Ademais, para propor os modelos é necessário verificar a função de autocorrelação (ACF) e a

Função de autocorrelação e função de autocorrelação parcial da série consumo mensal de papel no período de janeiro de 2001 a dezembro de 2009.

orrelação decaem para zero de uma forma relativamente lenta,indicando não estacionaridade.Neste caso, pouca ou nenhuma informação pode ser extraída do correlograma já que a tendência dominará outras

o objetivo de identificar melhor o se que uma vez removido esse efeito, o processo resultante

aos dados originais eliminam,

Assim foi realizada a primeira diferença e plotadas as funções de autocorrelações.

Gráfico 5 - Função de autocorrelação e função de autocorrelação parcial da série diferenciada.

Para vermos se a tendência foi eliminada, observaremodiferença no gráfico a seguir

Função de autocorrelação e função de autocorrelação parcial da série

Para vermos se a tendência foi eliminada, observaremos a decomposição dessa primdiferença no gráfico a seguir:

28

Função de autocorrelação e função de autocorrelação parcial da série

s a decomposição dessa primeira

Gráfico 6 - Decomposição da série diferenciada.

Concluí-se que a tendência foi eliminada com apenas uma diferença. Verificouhá autocorrelação nos dados, stemporais.

5.2. Modelagem Construi-se os modelos SARIMA considerando uma diferenciação e Holtverificou-se que os resultados não foram satisfatórios para empresa,devido a alta amplitude do intervalo de confiança das previsões ,por causa da alta variablidade dos dados.Uma alternativa para esse empecilho,foi aplicar uma transformação log nos dados originais afim de dar intervalos de confiança mais informativos para a gerência da gráfica.Como resultado,verificou-se que mesmo com transformação logarítima o intervalo permaneceu com grande amplitude.Mais detalhes serão citados em consideraçõesCom a finalidade de melhorar tanto as previsões pontuais quanto as intervalares,optoumodelar a tendência através de um ajuste polinomial.

Decomposição da série diferenciada.

que a tendência foi eliminada com apenas uma diferença. Verificouhá autocorrelação nos dados, sendo assim, pode-se prosseguir com a análise de séries

se os modelos SARIMA considerando uma diferenciação e Holtse que os resultados não foram satisfatórios para empresa,devido a alta amplitude

rvalo de confiança das previsões ,por causa da alta variablidade dos dados.Uma alternativa para esse empecilho,foi aplicar uma transformação log nos dados originais afim de dar intervalos de confiança mais informativos para a gerência da gráfica.Como

se que mesmo com transformação logarítima o intervalo permaneceu com grande amplitude.Mais detalhes serão citados em considerações finais. Com a finalidade de melhorar tanto as previsões pontuais quanto as intervalares,optou

a tendência através de um ajuste polinomial.

29

que a tendência foi eliminada com apenas uma diferença. Verificou-se então que

se prosseguir com a análise de séries

se os modelos SARIMA considerando uma diferenciação e Holt-Winters e se que os resultados não foram satisfatórios para empresa,devido a alta amplitude

rvalo de confiança das previsões ,por causa da alta variablidade dos dados.Uma alternativa para esse empecilho,foi aplicar uma transformação log nos dados originais afim de dar intervalos de confiança mais informativos para a gerência da gráfica.Como

se que mesmo com transformação logarítima o intervalo permaneceu com

Com a finalidade de melhorar tanto as previsões pontuais quanto as intervalares,optou-se por

5.3. Ajuste Polinomial para tendência O ajuste polinomial para tendência consiste em ajustar um polinômio para a tendência da série, cuja função é do tipo:

Uma linha de tendência polinomiavariações. A escolha da ordem da polinomial pode ser determinada pelo próprio perfil que os dados sugerem num gráfico de dispersão. Na figura abaixo,foram estimadas 3 curvas polinomiais para a tendêncescolher a que mais se adéqua aos dados

Gráfico 7 - Consumo mensal do papel e ajuste da tendência pelos polinômios de graus 2, 6, e 8, no período de janeiro de 2001 a dezembro de 2009.

Percebe-se que não houve diferenças significComo o propósito é escolher o mais simples,escolheuPara esse trabalho, o ajuste foi calculado com uma função criada Assim, foram utilizados os seguintes> x=1:108 > X=matrix(NA,108,6) > for (i in 1:6) X[,i] = x**i> a=as.numeric(lm(Kg.papel~X)$coeff)

Ajuste Polinomial para tendência

O ajuste polinomial para tendência consiste em ajustar um polinômio para a tendência da cuja função é do tipo:

nnxbxbxbay ++++= L

221ˆ

Uma linha de tendência polinomial pode ajustar uma curva quando os dados têm diversas

A escolha da ordem da polinomial pode ser determinada pelo próprio perfil que os dados sugerem num gráfico de dispersão. Na figura abaixo,foram estimadas 3 curvas polinomiais para a tendêncescolher a que mais se adéqua aos dados.

Consumo mensal do papel e ajuste da tendência pelos polinômios de graus 2, 6, e 8, no período de janeiro de 2001 a dezembro de 2009.

se que não houve diferenças significativas entre as curvas de grau 6 e de grau 8. Como o propósito é escolher o mais simples,escolheu-se o polinômio de sexto grau.

o ajuste foi calculado com uma função criada no R (detalhes em anexosforam utilizados os seguintes parâmetros para o cálculo dos coeficientes:

> for (i in 1:6) X[,i] = x**i a=as.numeric(lm(Kg.papel~X)$coeff)

30

O ajuste polinomial para tendência consiste em ajustar um polinômio para a tendência da

l pode ajustar uma curva quando os dados têm diversas

A escolha da ordem da polinomial pode ser determinada pelo próprio perfil que os dados

Na figura abaixo,foram estimadas 3 curvas polinomiais para a tendência para que se possa

Consumo mensal do papel e ajuste da tendência pelos polinômios de graus 2, 6,

ativas entre as curvas de grau 6 e de grau 8.

se o polinômio de sexto grau. detalhes em anexos).

âmetros para o cálculo dos coeficientes:

Os coeficientes ajustados para o polinômio de sexto grau para os dados de 2001 a 2009 foram:> a

[1] 1.013531e+06 - 1.754977e+05 1.787076e+04 [6] -7.853930e- 02 2.259556e

Já para a tendência estimadacoeficientes acima e substituindo na função.Segue abaixo a tendência estimada via ajuste polinomial:

Tabela 2: Tendências para as previsões de janeiro a outubro de 2010.

5.4. Procedimento utilizado para estimar os valores futuros Segue abaixo uma representação do que foi realizado para se ter a previsão dos dados:

¹Dados Sem Tendência = Dados Originais sexto grau) ²Dados Originais = Dados Sem Tendência + Tendência( estimada via função polinomialsexto grau)

Tendência Estimada

s coeficientes ajustados para o polinômio de sexto grau para os dados de 2001 a 2009 foram:

1.754977e+05 1.787076e+04 - 6.310673e+02 1.029994e+0102 2.259556e -04

estimada para os dados previstos de 2010 foi calculada utilizando os acima e substituindo na função.

xo a tendência estimada via ajuste polinomial:

Tendências para as previsões de janeiro a outubro de 2010.

Tendência

jan/10 1.402.594

fev/10 1.419.467

mar/10 1.452.894

abr/10 1.505.450

mai/10 1.579.911

jun/10 1.679.270

jul/10 1.806.738

ago/10 1.965.754

set/10 2.160.001

out/10 2.393.407

Procedimento utilizado para estimar os valores futuros

Segue abaixo uma representação do que foi realizado para se ter a previsão dos dados:

Legenda ¹Dados Sem Tendência = Dados Originais – Tendência( estimada via função polinomial de

²Dados Originais = Dados Sem Tendência + Tendência( estimada via função polinomial

Previsões Sem Tendência

Dados Sem Tendência¹

Previsões Sem

Tendência

Tendência Estimada

Previsões dos Dados Originais²

31

s coeficientes ajustados para o polinômio de sexto grau para os dados de 2001 a 2009 foram:

6.310673e+02 1.029994e+01

para os dados previstos de 2010 foi calculada utilizando os

Tendências para as previsões de janeiro a outubro de 2010.

Segue abaixo uma representação do que foi realizado para se ter a previsão dos dados:

endência( estimada via função polinomial de

²Dados Originais = Dados Sem Tendência + Tendência( estimada via função polinomial de

Previsões dos Dados Originais²

5.5. Análise descritiva para os dados sem tendência Após a retirada da tendência dos dados originais para verificar se a série sem tendên

Gráfico 8 - Série sem tendência do consumo mensal de papel SC e LWC gramaturas 52, 56 e 60 no período de janeiro de 2001

Em seguida verifica-se o gráfico de autocorrelação:

Análise descritiva para os dados sem tendência

pós a retirada da tendência dos dados originais realizou-se as análises descritivas abaixo, para verificar se a série sem tendência ainda possui características de séries temporais.

Série sem tendência do consumo mensal de papel SC e LWC gramaturas 52, 56 e 60 no período de janeiro de 2001 a dezembro de 2009.

se o gráfico de autocorrelação:

32

se as análises descritivas abaixo, cia ainda possui características de séries temporais.

Série sem tendência do consumo mensal de papel SC e LWC gramaturas 52, 56

Gráfico 9 - Função de autocorrelação e função de autocorrelação parcial da série sem tendência.

Verificou-se então que há autocorrelação nos dados, sendo asanálise de séries temporais.

5.6. Modelagem para Séries Temporais As propostas dos modelos basearamAtravés da ACF defini-se o parâmetro q do SARIMA, ou seja, a ordem do termo dmóveis da série. E a PAFC define o parâmetro p do SARIMA, propondo a ordem to termo autorregressivo da série.De acordo com alguns autores,como Morettin & Toloi (2004), é ressaltado que os modelos devem ser simples,sendo assim,fezparâmetros simples:

ajuste1=arima(dadossemtendencia, order = c(1,0,1), seasonal = list(order=c(1,0,1)))


ajuste3=arima(dadossemtendencia, order = c(1,0,3), s



ajuste6=arima(dadossemtendencia, order = c(2,0,3),



ajuste9=arima(dadossemtendencia, order = c(3,0,3

Função de autocorrelação e função de autocorrelação parcial da série sem

se então que há autocorrelação nos dados, sendo assim, podeanálise de séries temporais.

Modelagem para Séries Temporais

As propostas dos modelos basearam-se fundamentalmente nas funções de autocorrelações. se o parâmetro q do SARIMA, ou seja, a ordem do termo d

móveis da série. E a PAFC define o parâmetro p do SARIMA, propondo a ordem to termo autorregressivo da série.De acordo com alguns autores,como Morettin & Toloi (2004), é ressaltado que os modelos devem ser simples,sendo assim,fez-se todas as combi










33

Função de autocorrelação e função de autocorrelação parcial da série sem

sim, pode-se prosseguir com a

se fundamentalmente nas funções de autocorrelações. se o parâmetro q do SARIMA, ou seja, a ordem do termo de médias

móveis da série. E a PAFC define o parâmetro p do SARIMA, propondo a ordem to termo autorregressivo da série.De acordo com alguns autores,como Morettin & Toloi (2004), é

se todas as combinações com



easonal = list(order=c(1,0,3)))



seasonal = list(order=c(2,0,3)))



), seasonal = list(order=c(3,0,3)))

34

5.7. Critérios de Seleção do Modelo Para decidir qual será o melhor modelo para explicar a série e posteriormente fazer previsões, utilizou-se o critério de informação Akaike (AIC),pois é a regra mais utilizada em séries temporais .De acordo com a Wikipedia, o critério de informação de Akaike foi desenvolvido pela Hirotsugu Akaike sob o nome de “um critério de informação” (AIC), em 1971, e propôs em Akaike (1974), é uma medida da qualidade do ajuste de cerca de modelo estatístico . Ele se baseia no conceito de entropia , de fato oferecendo uma medida relativa da perda de informações quando um determinado modelo é usado para descrever a realidade e pode ser dito para descrever o equilíbrio entre viés e variância na construção do modelo, ou vagamente falar que de precisão e complexidade do modelo. Assim, para os modelos propostos, foram resultados os seguintes AIC:

Tabela 3 - DF e Critério de Akaike para os modelos ajustados.

MODELO DF AIC

ajuste1 6 2.979.273

ajuste2 8 2.982.356

ajuste3 10 2.974.874

ajuste4 8 2.982.526

ajuste5 10 2.982.640

ajuste6 12 2.983.702

ajuste7 10 2.974.195

ajuste8 12 2.985.384

ajuste9 14 2.969.734

Após rodar os ajustes e ver os AIC, percebeu-se que o erro padrão de alguns ajustes não foram estimados devido à mensagem “NaN”* aparecer no lugar do erro padrão estimado. (ver comandos em anexos). *NaN : Segundo a Wikipedia, NaN ( Not a Number, ou seja, não é um número), é um valor de tipo de dados numéricos representando um valor indefinido ou irrepresentável, especialmente em cálculos de ponto flutuante. Por exemplo, 0 / 0 é indefinido como um número real, e assim representado por NaN. Sendo assim,foram eliminados esses modelos que apresentavam NaNs e dentre os que sobraram,foi escolhido o modelo com menor AIC. Portanto, o ajuste 1 foi escolhido. > ajuste1 Call: arima(x = dadossemtendencia, order = c(1, 0, 1), seasonal = list(order = c(1, 0, 1))) Coefficients: ar1 ma1 sar1 sma1 intercept 0.3452 -0.2694 0.3452 -0.2694 24.3122 s.e. 0.7485 0.7755 0.7485 0.7755 26728.2181 sigma^2 estimated as 5.007e+10: log likelihood = -1483.64, aic = 2979.27

5.8. Análise Residual Após a escolha do modelo é necessário realizar a análise de resíduos (obsajustado). Se o modelo for adequado aos dados esperaaleatoriamente em torno de zero com variância aproximadamente constante. Também esperase que os resíduos sejam independentes e possuam distribuição normaNo terceiro quadro do gráfico abaixo é apresentado o Teste Ljung amostral é aproximadamente Quiindependência dos resíduos, cujas hipóteses podem ser interpretadas da seguinte Ho: Resíduos independentes vs Ha: Resíduos não são independentes.

Gráfico 10 - Análise de resíduos do ajuste1 para a série sem tendência.

Pode-se observar que todas as observações possuem um presíduos são independentes. Cerca de 95% das bolinhas acima da barra é um indicativo de independência.

Após a escolha do modelo é necessário realizar a análise de resíduos (obsajustado). Se o modelo for adequado aos dados espera-se que os resíduos se distribuam aleatoriamente em torno de zero com variância aproximadamente constante. Também esperase que os resíduos sejam independentes e possuam distribuição normal. No terceiro quadro do gráfico abaixo é apresentado o Teste Ljung – Box, cuja distribuição amostral é aproximadamente Qui-quadrado com m-p-q graus de liberdade para testar a independência dos resíduos, cujas hipóteses podem ser interpretadas da seguinte

Ho: Resíduos independentes vs Ha: Resíduos não são independentes.

Análise de resíduos do ajuste1 para a série sem tendência.

se observar que todas as observações possuem um p-valor alto, indicação de queresíduos são independentes. Cerca de 95% das bolinhas acima da barra é um indicativo de

35

Após a escolha do modelo é necessário realizar a análise de resíduos (observação – valor se que os resíduos se distribuam

aleatoriamente em torno de zero com variância aproximadamente constante. Também espera- Box, cuja distribuição

q graus de liberdade para testar a independência dos resíduos, cujas hipóteses podem ser interpretadas da seguinte forma:

Análise de resíduos do ajuste1 para a série sem tendência.

valor alto, indicação de que os resíduos são independentes. Cerca de 95% das bolinhas acima da barra é um indicativo de

Para verificar a normalidade dos resíduos, segue abaixo o Teste deShapiroseguintes hipóteses: Ho: Resíduos possuem distribuiçã z=ajuste1$residuals a=shapiro.test(z) a Shapiro-Wilk normality testdata: z W = 0.9907, p-value = 0.6701 O p-valor alto não mostra evidências para a rejeição da hipótese nula, ou seja, os dadonormalmente distribuidos. Também pode-se verificar o histograma dos resíduos do ajuste escolhido e o gráfico Normal Q-Q Plot:

Gráfico 11 - Histograma e gráfico Qtendência.

Para verificar a normalidade dos resíduos, segue abaixo o Teste deShapiro

Ho: Resíduos possuem distribuição normal vs Ha: Resíduos não possuem distribuição normal.

Wilk normality test

value = 0.6701

valor alto não mostra evidências para a rejeição da hipótese nula, ou seja, os dado

se verificar o histograma dos resíduos do ajuste escolhido e o gráfico Normal

Histograma e gráfico Q-Qplot dos resíduos para o modelo da série sem

36

Para verificar a normalidade dos resíduos, segue abaixo o Teste deShapiro-Wilk que vefica as

o normal vs Ha: Resíduos não possuem distribuição normal.

valor alto não mostra evidências para a rejeição da hipótese nula, ou seja, os dados são


Qplot dos resíduos para o modelo da série sem

37

Com esta análise residual, pode-se afirmar que o modelo escolhido é adequado aos dados, pois os resíduos seguem os pressupostos de normalidade e independência.

5.9. Performance Preditiva Modelo SARIMA Uma forma de medir a capacidade preditiva do modelo consiste em comparar seus erros de previsão com aqueles do passeio aleatório. Isso pode ser feito através da chamada estatística U de Theil. O coeficiente U de Theil, avalia o desempenho da previsão em relação à previsão ingênua ou trivial. Previsão ingênua ou trivial significa que a estimativa do valor futuro é igual ao valor atual. O coeficiente U de Theil analisa a qualidade de uma previsão através dos seguintes valores: - U > 1, significa que o erro do modelo é maior do que da previsão ingênua; - U < 1, significa que o erro do modelo é menor que da previsão ingênua. O coeficiente U de Theil menor do que 1 já indica uma previsão melhor que a previsão ingênua; quanto mais próximo o mesmo for de zero, melhor será o resultado da previsão. A estatística U- Theil aplicada aos dados estimados e observados de janeiro a outubro de 2010 é: 0,06 indicando também uma boa qualidade do modelo em relação aos valores preditos. Conforme dito anteriormente, o ajustes SARIMA foi modelado em cima de dados sem tendência e para comparar com os dados reais, foi somada a tendência. O modelo escolhido foi: > ajuste1=arima(dadossemtendencia, order = c(1,0,1), seasonal = list(order=c(1,0,1))) Assim, para a estatística U-Theil, os dados estimados pelo modelo são os dados sem tendência menos os resíduos do ajuste escolhido: >estimados = dadossemtendencia - ajuste1$residuals E os observados é a série sem tendência (ver gráfico 8). Assim, como a estatística U-Theil mede o quanto a curva dos dados observados (série sem tendência – gráfico 8) se parece com os valores estimados do modelo, segue abaixo um gráfico dos observados x estimados do modelo sem tendência:

Gráfico 12 - Valores estimados

Percebe-se que as duas linhas desacordo. O U-Theil calculado para esses dados provando o que o gráfico mostra1,19. Porém, ao calcularmos o Uacima + tendência, em relação aos dados de

Valores estimados e observados da série sem tendência.

linhas parecem ter um comportamento diferente, ou seja, estão em Theil calculado para esses dados de 2001 a 2009 sem tendência

provando o que o gráfico mostra. Para as previsões do modelo sem tendência,

Porém, ao calcularmos o U-Theil considerando estimados acima + tendência e observados em relação aos dados de 2001 a 2009 é 0,07.

38

diferente, ou seja, estão em

2001 a 2009 sem tendência é 0,84, Para as previsões do modelo sem tendência, o resultado é

estimados acima + tendência e observados

39

Gráfico 13 - Valores estimados e observados da série com tendência.

Já para jan 2010 a out 2010, o resultado é 0,06 indicando uma boa qualidade do ajuste.

5.10. Previsão de valores futuros SARIMA Calculou-se os valores previstos do consumo de papel para os dez primeiros meses do ano de 2010 e comparou-se com os valores reais.

Tabela 4 – Estimação dos dados originais – dados sem tendência + tendência.

Dados sem

tendência Tendência

Estimação dados

originais

jan/10 12.212,75 1.402.594 1.414.806,75

fev/10 4.637,89 1.419.467 1.424.104,89

mar/10 1.757,15 1.452.894 1.454.651,15

abr/10 670,91 1.505.450 1.506.120,91

mai/10 264,24 1.579.911 1.580.175,24

jun/10 112,91 1.679.270 1.679.382,91

jul/10 56,89 1.806.738 1.806.794,89

ago/10 36,25 1.965.754 1.965.790,25

set/10 28,67 2.160.001 2.160.029,67

out/10 25,90 2.393.407 2.393.432,90

40

Tabela 5 - Estimativa do modelo ajustado versus o valor real observado.

Estimativa Pontual Valor Real

jan/10 1.414.807 1.294.873

fev/10 1.424.105 1.408.301

mar/10 1.454.651 1.905.549

abr/10 1.506.121 1.655.691

mai/10 1.580.175 1.897.463

jun/10 1.679.383 1.785.078

jul/10 1.806.795 1.877.517

ago/10 1.965.790 1.911.227

set/10 2.160.030 2.089.385

out/10 2.393.433 1.889.405

Também calculou-se o intervalo de confiança com 95% de confiança para os valores preditos:

Tabela 6 - Estimativa do intervalo de confiança inferior.

IC Inferior

Dados sem

tendência Tendência Estimação dados originais

jan/10 -426.346,90 1.402.594 976.247,10

fev/10 -438.932,70 1.419.467 980.534,30

mar/10 -442.544,30 1.452.894 1.010.349,70

abr/10 -443.735,60 1.505.450 1.061.714,40

mai/10 -444.157,20 1.579.911 1.135.753,80

jun/10 -444.310,60 1.679.270 1.234.959,40

jul/10 -444.366,90 1.806.738 1.362.371,10

ago/10 -444.387,60 1.965.754 1.521.366,40

set/10 -444.395,10 2.160.001 1.715.605,90

out/10 -444.397,90 2.393.407 1.949.009,10

41

Tabela 7 - Estimativa do intervalo de confiança superior.

IC Superior

Dados sem

tendência Tendência Estimação dados originais

jan/10 450.772,40 1.402.594 1.853.366,40

fev/10 448.208,50 1.419.467 1.867.675,50

mar/10 446.058,60 1.452.894 1.898.952,60

abr/10 445.077,40 1.505.450 1.950.527,40

mai/10 444.685,60 1.579.911 2.024.596,60

jun/10 444.536,40 1.679.270 2.123.806,40

jul/10 444.480,70 1.806.738 2.251.218,70

ago/10 444.460,10 1.965.754 2.410.214,10

set/10 444.452,50 2.160.001 2.604.453,50

out/10 444.449,70 2.393.407 2.837.856,70

Tabela 8 - Estimativas pontuais e intervalares do modelo ajustado versus o valor real.

SARIMA

IC Inferior Estimativa

Pontual IC Superior Valor Real

jan/10 976.247 1.414.807 1.853.366 1.294.873

fev/10 980.535 1.424.105 1.867.676 1.408.301

mar/10 1.010.350 1.454.651 1.898.953 1.905.549

abr/10 1.061.714 1.506.121 1.950.527 1.655.691

mai/10 1.135.754 1.580.175 2.024.597 1.897.463

jun/10 1.234.960 1.679.383 2.123.807 1.785.078

jul/10 1.362.371 1.806.795 2.251.218 1.877.517

ago/10 1.521.367 1.965.790 2.410.215 1.911.227

set/10 1.715.606 2.160.030 2.604.454 2.089.385

out/10 1.949.009 2.393.433 2.837.857 1.889.405

5.11. Predição de Valores Futuros Holt Para poder ter a opção de escolher um modelo mais adequado para os dados,fa modelagem via Holt-Winters,a qual é um procedimento de alisamento exponencial. Esse método foi aplicado nos dados da seguinte forma:

5.12. Holt-Winters Aditivo Considerando o Holt-Winters Aditivo,seguem abaixo as previsões para 2010outubro, com seus intervalos de confiança e os valores reais observados para comparação:

Tabela 9 - Estimativas do modelo Holt

jan/10

fev/10

mar/10 1.082.491

abr/10 1.076.815

mai/10

jun/10

jul/10 1.082.469

ago/10 1.089.161

set/10

out/10 1.037.831

Observa-se que todos os valores reais estão dentro dos intervalos de confiança estimados.Comparando os valores pontuais com os meses.

Previsões Com Dados Originais

Predição de Valores Futuros Holt- Winters

Para poder ter a opção de escolher um modelo mais adequado para os dados,fWinters,a qual é um procedimento de alisamento exponencial.

Esse método foi aplicado nos dados da seguinte forma:

Winters Aditivo

Winters Aditivo,seguem abaixo as previsões para 2010com seus intervalos de confiança e os valores reais observados para comparação:

Estimativas do modelo Holt-Winters aditivo versus o valor real.

Holt-Winters Aditivo

Limite

Inferior Estimativa

Pontual Limite

Superior Valor Real

839.580 1.385.287 1.930.994

788.098 1.354.918 1.921.739

1.082.491 1.669.666 2.256.840

1.076.815 1.683.661 2.290.508

991.318 1.617.218 2.243.119

877.376 1.521.768 2.166.159

1.082.469 1.744.835 2.407.201

1.089.161 1.769.027 2.448.893

945.765 1.642.691 2.339.618

1.037.831 1.751.410 2.464.989

valores reais estão dentro dos intervalos de confiança estimados.omparando os valores pontuais com os dados reais, verifica-se proximidade na maioria dos

Previsões Com Dados Originais

Dados Originais

42

Para poder ter a opção de escolher um modelo mais adequado para os dados,foi feito também Winters,a qual é um procedimento de alisamento exponencial.

Winters Aditivo,seguem abaixo as previsões para 2010 até o mês de com seus intervalos de confiança e os valores reais observados para comparação:

Winters aditivo versus o valor real.

Valor Real

1.294.873

1.408.301

1.905.549

1.655.691

1.897.463

1.785.078

1.877.517

1.911.227

2.089.385

1.889.405

valores reais estão dentro dos intervalos de confiança estimados. se proximidade na maioria dos

Porém, antes de se tomar alguma decisão apenas olhando os valores,todos os modelos será calculado o MAPEo modelo mais adequado. Logo abaixo, seguem os parâmetros estimados:alpha: 0.2808475 beta : 0 gamma: 0.577182 Os dados reais e os dados estimados são represenprevisões para 2010 são mostradas com intervalo de confiança:

Gráfico 14 - Observados e estimados através do modelo Holt

5.12.1. Performance Preditiva Holt Em relação à performance preditiva,foi calculado o UTambém pode-se utilizar a correlação entre os valores observados e preditos como um critério de qualidade do ajuste, quanto maior a correlação melhor o modelo.A correlação entre os valores observados e preditos é modelo.

antes de se tomar alguma decisão apenas olhando os valores, ao final doscalculado o MAPE (Mean Absolute Percentage E

seguem os parâmetros estimados:

Os dados reais e os dados estimados são representados pelo seguinte gráfico abaixo e as previsões para 2010 são mostradas com intervalo de confiança:

Observados e estimados através do modelo Holt-Winters Aditivo

Performance Preditiva Holt- Winters Aditivo

ormance preditiva,foi calculado o U- Theil, cujo resultado foi: 0.0870125se utilizar a correlação entre os valores observados e preditos como um critério

de qualidade do ajuste, quanto maior a correlação melhor o modelo. valores observados e preditos é 0,79, indicando uma boa qualidade do

43

ao final dos ajustes de (Mean Absolute Percentage Error) para decidir qual

tados pelo seguinte gráfico abaixo e as

Winters Aditivo.

cujo resultado foi: 0.0870125 se utilizar a correlação entre os valores observados e preditos como um critério

, indicando uma boa qualidade do

44

Assim, como foi dito na metodologia,quanto menor o U-Theil, melhor a qualidade do ajuste, pode-se afirmar que para esse caso, há uma boa qualidade do ajuste do modelo.

5.13. Holt-Winters Multiplicativo Agora, ajustando o Holt-Winters Multiplicativo, seguem os resultados:

Tabela 10 - Estimativas do modelo Holt-Winters multiplicativo versus o valor real.

Holt-Winters Multiplicativo

Limite Inferior

Estimativa

Pontual Limite Superior

Valor

Real

jan/10 819.330 1.358.167 1.897.004 1.294.873

fev/10 771.326 1.322.707 1.874.088 1.408.301

mar/10 909.607 1.479.891 2.050.176 1.905.549

abr/10 1.000.163 1.588.798 2.177.433 1.655.691

mai/10 806.932 1.393.361 1.979.789 1.897.463

jun/10 812.214 1.411.545 2.010.876 1.785.078

jul/10 924.585 1.548.442 2.172.299 1.877.517

ago/10 1.043.407 1.694.631 2.345.855 1.911.227

set/10 877.345 1.515.391 2.153.437 2.089.385

out/10 1.051.401 1.728.607 2.405.813 1.889.405

Percebe-se que todos os valores reais também estão dentro dos intervalos de confiança estimados. A mesma conclusão pode-se tirar em relação ao Holt-Winters Adivivo, quando se compara os valores pontuais com os reais, que estão próximos, mas não tão precisos. Logo abaixo, seguem os parâmetros estimados: alpha: 0.1916123 beta : 0 gamma: 0.8174372

Gráfico 15 - Observados e estimados através do modelo Holt

5.13.1. Performance Preditiva Holt Para a performance preditiva, o resultado do Uobservados e os preditos foi de Então, pode-se afirmar que há uma boa qualidade do ajuste do modelo.

5.14. Comparação Modelo SARIMA e Modelos Holt

5.14.1. Erro p ercentual médio absolutoCalculou-se o Erro Percentual Médio Absoluto (MAPE) para SARIMA, HoltAdiyivo e Holt –Winters Multiplicativo a fim de escolher o melhor modelo.

5.14.2. Amplitude do Intervalo de ConfiançaTambém calculou-se a amplitude dos intervda empresa, esta é uma medida importante para a tomada de decisão na hora da compra/importação. A partir dessa amplitude podemédia para fins de comparação dos trêSegue uma tabela com um resumo d

Observados e estimados através do modelo Holt-Winters Multiplicativo

Performance Preditiva Holt- Winters Multiplicativo

Para a performance preditiva, o resultado do U- Theil é 0,10. E a correlação entre os s e os preditos foi de 0,76.

se afirmar que há uma boa qualidade do ajuste do modelo.

Comparação Modelo SARIMA e Modelos Holt-Winters

ercentual médio absoluto se o Erro Percentual Médio Absoluto (MAPE) para SARIMA, Holt

Winters Multiplicativo a fim de escolher o melhor modelo.

Amplitude do Intervalo de Confiança se a amplitude dos intervalos de confiança, pois segundos os funcionários

da empresa, esta é uma medida importante para a tomada de decisão na hora da compra/importação. A partir dessa amplitude pode-se calcular a amplitude total e a amplitude média para fins de comparação dos três modelos

com um resumo dos estudos:

45

Winters Multiplicativo.

E a correlação entre os

Winters

se o Erro Percentual Médio Absoluto (MAPE) para SARIMA, Holt -Winters Winters Multiplicativo a fim de escolher o melhor modelo.

alos de confiança, pois segundos os funcionários da empresa, esta é uma medida importante para a tomada de decisão na hora da

se calcular a amplitude total e a amplitude

Tabela 11 - Comparativo modelo SARIMA e modelos Holt

Assim, embora o SARIMA não apresente menor MAPE,Intervalos de Confiança. O que vale ressaltar é qHolt-Winters foi de apenas 0,48% o que se pode considerar baixo.

5.15. Previsão dos valores futuros Após a escolha e validação do modelo escolhido, ou seja, definir a melhor modelagem a ser aplicada: modelo SARIMA e validameses de 2010, aplicou-se o mesmo modelo (com ajuste polinomial) nos dados de janeiro de 2001 a outubro de 2010 para a previsão dos seis meses seguintes (novembro2011).

Gráfico 16 - Consumo mensal do papel e ajuste da tendência pelos polinômios de graus 2, 6, e 8, no período de janeiro de 2001 a outubro de 2010.

Comparativo modelo SARIMA e modelos Holt

Assim, embora o SARIMA não apresente menor MAPE, possui menor amplitude média nosIntervalos de Confiança. O que vale ressaltar é que a diferença do MAPE do SARIMA e do

Winters foi de apenas 0,48% o que se pode considerar baixo.

Previsão dos valores futuros

Após a escolha e validação do modelo escolhido, ou seja, definir a melhor modelagem a ser aplicada: modelo SARIMA e validar os resultados com os dados reais dos dez primeiros

se o mesmo modelo (com ajuste polinomial) nos dados de janeiro de 2001 a outubro de 2010 para a previsão dos seis meses seguintes (novembro

sumo mensal do papel e ajuste da tendência pelos polinômios de graus 2, 6, e 8, no período de janeiro de 2001 a outubro de 2010.

46

Comparativo modelo SARIMA e modelos Holt-Winters.

possui menor amplitude média nos ue a diferença do MAPE do SARIMA e do

Após a escolha e validação do modelo escolhido, ou seja, definir a melhor modelagem a ser r os resultados com os dados reais dos dez primeiros

se o mesmo modelo (com ajuste polinomial) nos dados de janeiro de 2001 a outubro de 2010 para a previsão dos seis meses seguintes (novembro-2010 a abril de

sumo mensal do papel e ajuste da tendência pelos polinômios de graus 2,

47

Os coeficientes do polinômio de sexto grau são:

> a [1] 9.588620e+05 -1.556078e+05 1.606529e +04 -5.653158e+02 9.182990e+00 [6] -6.969446e-02 1.996154e-04

A partir desses coeficientes pode-se calcular a tendência dos valores futuros, como pode ser visto na tabela abaixo:

Tabela 12 – Tendência dos valores futuros

Tendência

nov/10 2.499.791

dez/10 2.772.409

jan/11 3.090.100

fev/11 3.457.222

mar/11 3.878.395

abr/11 4.358.509

Para os modelos propostos para a previsão dos meses citados acima, tem-se como resultado os seguintes AIC:

Tabela 13 - DF e AIC para os modelos ajustados de janeiro de 2001 a outubro de 2010.

MODELO DF AIC

ajuste1 6 3.253.451

ajuste2 8 3.256.332

ajuste3 10 3.260.234

ajuste4 8 3.256.496

ajuste5 10 3.256.421

ajuste6 12 3.259.907

ajuste7 10 3.260.257

ajuste8 12 3.264.262

ajuste9 14 3.263.276

Após rodar os ajustes e ver os AIC, percebeu-se que o erro padrão de alguns ajustes não foram estimados devido à mensagem “NaN” aparecer no lugar do erro padrão estimado. Foram eliminados esses modelos que apresentavam NaNs e dentre os que sobraram, foi escolhido o modelo com menor AIC. Portanto, o ajuste 1 foi escolhido.

> ajuste1 Call: arima(x = dadossemtendencia, order = c(1, 0, 1), seas0, 1))) Coefficients: ar1 ma1 sar1 sma1 intercept 0.3697 -0.2852 0.3697 s.e. 0.7815 0.6507 0.7815 0.6507 26352.5459 sigma^2 estimated as 4.982e+10: log likelihood =

5.16. Análise Residual

Após o ajuste do modelo coa análise dos resíduos abaix

Gráfico 17 - Análise residualoutubro de 2010.

arima(x = dadossemtendencia, order = c(1, 0, 1), seasonal = list(order = c(1,

ar1 ma1 sar1 sma1 intercept 0.2852 0.3697 -0.2852 -982.9826

s.e. 0.7815 0.6507 0.7815 0.6507 26352.5459

sigma^2 estimated as 4.982e+10: log likelihood = -1620.73, aic = 3253.45

Análise Residual

onsiderando os dados de janeiro de 2001 a ouxo:

residual do ajuste1 para a série sem tendência de janeiro de 2001 a

48

onal = list(order = c(1,

0.73, aic = 3253.45

utubro de 2010, fez-se

de janeiro de 2001 a

Pode-se observar que todas as observações possuem um presíduos são independentes. Cerca de 95% das bolinhas acima da barra é um indicativo de independência. Para verificar a normalidade dos resíduos, segue abaixo o Teste deShapiroseguintes hipóteses: Ho: Resíduos possuem distribuição normal vs Ha: Resíduos não possuem distribuição normal. z=ajuste1$residuals a=shapiro.test(z) a Shapiro-Wilk normality testdata: z W = 0.9906, p-value = 0.603 O p-valor alto não mostra evidências para a rejeição da hipótese nula, ou seja, os dados são normalmente distribuídos. Também pode-se verificar o histograma dos resíduos do ajuste escolhido e o gráfico Normal Q-Q Plot:

Gráfico 18 - Histograma e gráfico Qtendência.

se observar que todas as observações possuem um p-valor alto, indicação de que os resíduos são independentes. Cerca de 95% das bolinhas acima da barra é um indicativo de

rmalidade dos resíduos, segue abaixo o Teste deShapiro


Wilk normality test

value = 0.603



Histograma e gráfico Q-Qplot dos resíduos para o modelo da série sem

49

valor alto, indicação de que os resíduos são independentes. Cerca de 95% das bolinhas acima da barra é um indicativo de

rmalidade dos resíduos, segue abaixo o Teste deShapiro-Wilk que vefica as




Qplot dos resíduos para o modelo da série sem

50

Com esta análise residual, pode-se afirmar que o modelo escolhido é adequado aos dados de 2001 a 2010, pois os resíduos seguem os pressupostos de normalidade e independência. Para obter as estimativas pontuais para os valores futuros somaram-se as estimativas do modelo sem tendência com a tendência, como pode ser visto na tabela 9.

Tabela 14 – Estimação dos dados originais.

Dados sem

tendência Tendência

Estimação dados

originais

nov/10 -63.811 2.499.791 2.435.980

dez/10 -26.882 2.772.409 2.745.527

jan/11 -11.545 3.090.100 3.078.555

fev/11 -5.253 3.457.222 3.451.969

mar/11 -2.696 3.878.395 3.875.699

abr/11 -1.666 4.358.509 4.356.843

Calcularam-se os valores previstos do consumo de papel para o período de novembro de 2010 a abril de 2011, bem como as estimativas intervalares:

Tabela 15 – Estimativas pontuais e intervalares do consumo para os meses futuros.

SARIMA

IC Inferior Estimativa

IC Superior Pontual

nov/10 1.998.487 2.435.980 2.873.474

dez/10 2.301.835 2.745.527 3.189.220

jan/11 2.633.819 3.078.555 3.523.291

fev/11 3.007.060 3.451.969 3.896.879

mar/11 3.430.761 3.875.699 4.320.636

abr/11 3.911.901 4.356.843 4.801.785

Nota-se que as estimativas pontuais acompanham a tendência de crescimento do consumo de papel para os próximos meses.

51

Conforme os objetivos desse trabalho, outra informação importante para a empresa é a divisão das previsões de consumo por clientes. Fez-se um estudo e os clientes foram agrupados da seguinte maneira: Primeiro grupo - os clientes que consomem mais e que foram constantes em todos os períodos, ou seja, sempre permaneceram no grupo top de consumo e consumiram em todos os anos desde que entraram como clientes. (76,47% do consumo total de 2001 a 2010); Segundo grupo - os clientes que consomem mais, mas que NÃO foram constantes em todos os períodos, ou seja, nem sempre esses clientes consumiram em todos os anos (13,69% do consumo total de 2001 a 2010); Terceiro grupo - os clientes que consomem menos (9,84% do consumo total de 2001 a 2010). Assim, segue a divisão das previsões pelos grupos de clientes:

Tabela 16 – Previsão de consumo do primeiro grupo de clientes para os meses futuros.

SARIMA - GRUPO 1

IC Inferior

Estimativa IC Superior

Pontual

nov/10 1.528.243 1.862.794 2.197.346

dez/10 1.760.213 2.099.504 2.438.797

jan/11 2.014.081 2.354.171 2.694.261

fev/11 2.299.499 2.639.721 2.979.943

mar/11 2.623.503 2.963.747 3.303.990

abr/11 2.991.431 3.331.678 3.671.925

Tabela 17 – Previsão de consumo do segundo grupo de clientes para os meses futuros.

SARIMA - GRUPO 2

IC Inferior


Pontual

nov/10 270.395 329.588 388.781

dez/10 311.438 371.470 431.501

jan/11 356.356 416.528 476.701

fev/11 406.855 467.051 527.248

mar/11 464.182 524.382 584.582

abr/11 529.280 589.481 649.682

52

Tabela 18 – Previsão de consumo do terceiro grupo de clientes para os meses futuros.

SARIMA - GRUPO 3

IC Inferior


Pontual

nov/10 199.849 243.598 287.347

dez/10 230.184 274.553 318.922

jan/11 263.382 307.856 352.329

fev/11 300.706 345.197 389.688

mar/11 343.076 387.570 432.064

abr/11 391.190 435.684 480.179

Ademais construiu-se um gráfico para demonstrar o comportamento dos três grupos em relação aos últimos anos (2008, 2009 e 2010)

Gráfico 19 – Comportamento dos grupos de clientes no período de janeiro de 2008 a outubro de 2010.

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

jan

/08

fev/

08

ma

r/0

8a

br/

08

ma

i/0

8ju

n/0

8ju

l/0

8a

go

/08

set/

08

ou

t/0

8n

ov/

08

de

z/0

8ja

n/0

9fe

v/0

9m

ar/

09

ab

r/0

9m

ai/

09

jun

/09

jul/

09

ag

o/0

9se

t/0

9o

ut/

09

no

v/0

9d

ez/

09

jan

/10

fev/

10

ma

r/1

0a

br/

10

ma

i/1

0ju

n/1

0ju

l/1

0a

go

/10

set/

10

ou

t/1

0

% d

e C

on

sum

o

Variação do Consumo em % de SC e LWC dos grupos de

clientes - de jan/08 a out/10

Grupo1

Grupo2

Grupo3

53

6. CONCLUSÕES

Conclui-se que o melhor modelo utilizado para a previsão dos valores de 2010 foi o Modelo Autoregressivo Integrado de Médias Móveis Sazonal - SARIMA (1, 0, 1) x (1, 0, 1), com ajuste polinomial da tendência, apresentando menor valor da estatística U-Theil e menor amplitude média de Intervalo de Confiança. Verificou-se através das várias técnicas aplicadas neste trabalho, que Séries Temporais não é a metodologia mais adequada para esses dados, pois a variabilidade é muito grande, o que não possibilita estimativas precisas. Outra evidência é que considerando a modelagem do Holt-Winters para os dados originais o intervalo de confiança ficou muito grande. No SARIMA via ajuste polinomial da tendência, dados previstos para 2010 ficam coerentes com os valores reais. Porém ao verificar a estatística U – Theil, percebe-se que para a modelagem nos dados sem tendência de 2001 a 2009, as estimativas e os valores observados sem tendência estão em desacordo, ou seja, considerando a tendência os dados coincidentemente ficam bons, mas considerando a modelagem sem tendência, o modelo não está em acordo com os dados observados sem tendência. Ou seja, a tendência influencia na estatística U-theil, sendo um problema para a modelagem. Outros estudos foram feitos e encontram-se em considerações finais. Mesmo aplicando transformação logarítmica nos dados os intervalos ficaram muito grandes, o que não é interessante para a empresa. Sugestão para estudos futuros seria a análise de Modelos Markovianos, considerando a probabilidade do consumo médio por cliente, Redes Neurais ou modelos probabilísticos com restrições dos parâmetros. Por serem sugestões, deve-se validar a aplicação dos mesmos e ver se realmente o modelo é adequado, caso contrário, terá que se procurar outras formas de modelagem. Ademais, outro trabalho futuro é tentar modelar o consumo de outros tipos de papéis e gramaturas, dado que o interesse da empresa é ter previsões de consumo de suas principais matérias-primas, baseadas em técnicas estatísticas.

54

7. CONSIDERAÇÕES FINAIS

Após a realização da análise descritiva, aplicaram-se aos dados algumas técnicas estatísticas geralmente utilizadas para análise de séries temporais, antes de se concluir o trabalho com a metodologia mais adequada. Espera-se aqui descrever um pouco sobre estas técnicas aplicadas, cujos resultados não foram satisfatórios, necessitando assim, de uma alternativa para a solução do problema, que no nosso caso foi o ajuste polinomial da tendência.

Conforme citado na introdução, os trabalhos da gráfica dividem-se basicamente em didáticos e comerciais. Uma sugestão dada pela própria empresa foi iniciar as análises pelos editoriais didáticos, pois é relativamente mais fácil de trabalhar devido aos clientes serem “mais previsíveis”. E ao final, analisar o consumo dos trabalhos comerciais. Assim, o trabalho foi iniciado pelo didático, considerando os principais tipos de papel e gramaturas (Offset – 75g/m², Cartão - 250 e 350g/m² e Couche – 80g/m²), durante o período de janeiro de 2001 a junho de 2010. Após fazer toda a análise descritiva e correlograma, percebeu-se que os clientes influenciavam muito na série de consumo devido às licitações, pois os gráficos e a autocorrelação não possuíam características de séries temporais. O principal tipo de papel é Offset, mas grande parte do seu consumo é representado por licitações. Então, fez-se a análise desse papel por CNPJ. Verificou-se que mesmo separando o consumo por CNPJ, os dados não apresentaram características de séries temporais. Por conseguinte, ficou como sugestão futura fazer um modelo probabilístico considerando os clientes e seus consumo médios mensais, talvez usar modelos de regressão com restrição nos parâmetros ou até mesmo modelos markovianos. Prosseguiu-se as análises considerando os dados de consumo de trabalhos comerciais. Fez-se um estudo de clientes para ver se os mesmos definem o consumo no comercial, pois no didático viu-se claramente que o cliente definia o consumo. Também realizou-se um estudo do consumo total de papel ao longo do período estudado separado por dois grupos de clientes: os que mais consomem e os que menos consomem (definido por estudo descritivo dos dados em consenso com a empresa). Para cada tipo de papel (no comercial os principais são: SC e LWC, Couche e Offset.) e suas principais gramaturas, realizou-se um estudo do comportamento dos clientes, separando-os em 2 grupos diferentes. O primeiro grupo representando 90% do consumo total até a data da análise e o segundo grupo, 10%. Exemplo da primeira análise feita para observar o comportamento dos clientes. O gráfico a seguir é considerado SC e LWC:

55

Gráfico 20 – Comportamento dos grupo de clientes no período de janeiro de 2008 a junho de 2010.

Por outras análises também percebeu-se que o consumo dos clientes é constante e como os clientes não influenciam no consumo, pode-se fazer aplicação de técnicas de séries temporais. Após todas essas análises para os papéis do comercial, decidiu-se iniciar a aplicação de séries temporais para a matéria-prima mais representativa nas impressões comerciais: papéis SC e LWC.

7.1. Diferenciação Ao verificar que a série possuía tendência de crescimento e que isso estava prejudicando a interpretação do comportamento da série, a primeira alternativa para tornar possível a análise foi a técnica de diferenciação. Diferenciação é um tipo de filtro especial, muito útil para remover a componente de tendência polinomial dos dados. Fez-se a primeira diferença e já foi suficiente para eliminar a tendência. Assim, prosseguiu-se com a construção dos modelos considerando o modelo SARIMA com o parâmetro d sendo 1, que justifica uma diferenciação e as combinações de 1 a 3 para os parâmetros p e q. Escolhido o modelo com menor AIC e verificando os valores preditos percebeu-se que as estimativas ficaram muito distantes dos valores reais e os intervalos de confiança tiveram alta amplitude. Assim, com o propósito de diminuir essa amplitude e ter estimativas pontuais mais precisas, fez-se uma transformação nos dados originais antes de se realizar a modelagem.

7.2. Transformação Em muitas aplicações a série modelada é na verdade uma transformação dos dados originais, sendo a transformação logarítmica a mais usual. Assim, tanto as previsões pontuais quanto os intervalos de previsão são obtidos para a série transformada e estes valores precisam ser

0

500000

1000000

1500000

2000000

2500000

20

01

20

01

20

01

20

02

20

02

20

02

20

03

20

03

20

03

20

04

20

04

20

04

20

05

20

05

20

05

20

06

20

06

20

06

20

07

20

07

20

07

20

08

20

08

20

08

20

09

20

09

20

09

20

10

20

10

Comparação Clientes - Valor absoluto

mais consomem menos consomem

transformados novamente para a escala original. A abordagemadotada) consiste simplesmente em tomar a transformaçãoAplicou-se o log nos dados originais, construiutransformados a aplicou-se a exponenciação nas estimativas de previsão.Através da comparação entre preditos e observados em 2010, verificoutransformação logarítmica as previsões não foram satisfatórias, muito menos os intervaloconfiança. Os comandos estão disponíveis em anexos.

7.3. Análise para dados 2001 a 2005 Outra alternativa foi re-fazer toda análise realizada com os dados de 2001 a 2009 (estudo descritivo, ajuste SARIMA, Holtlogarítmica) para os dados de 2005 a 2009, pois no gráfico da série apresentada abaixo, percebe-se uma mudança no comportamento a partir de 2005.

Gráfico 21 – Comportamento da série no período 2005 a 2010.

Porém os resultados dessa outra análi

transformados novamente para a escala original. A abordagem mais simples (e geralmente adotada) consiste simplesmente em tomar a transformação inversa.

se o log nos dados originais, construiu-se os modelos SARIMA para ose a exponenciação nas estimativas de previsão.

Através da comparação entre preditos e observados em 2010, verificoutransformação logarítmica as previsões não foram satisfatórias, muito menos os intervalo

Os comandos estão disponíveis em anexos.

Análise para dados 2001 a 2005

fazer toda análise realizada com os dados de 2001 a 2009 (estudo descritivo, ajuste SARIMA, Holt-Winters Aditivo e Multiplicativo, transforlogarítmica) para os dados de 2005 a 2009, pois no gráfico da série apresentada abaixo,

se uma mudança no comportamento a partir de 2005.

Comportamento da série no período 2005 a 2010.

dessa outra análise não foram satisfatórios.

56

mais simples (e geralmente

se os modelos SARIMA para os dados se a exponenciação nas estimativas de previsão.

Através da comparação entre preditos e observados em 2010, verificou-se que mesmo com a transformação logarítmica as previsões não foram satisfatórias, muito menos os intervalos de

fazer toda análise realizada com os dados de 2001 a 2009 (estudo Winters Aditivo e Multiplicativo, transformação

logarítmica) para os dados de 2005 a 2009, pois no gráfico da série apresentada abaixo,

57

7.4. Ajuste Polinomial Outra opção foi ajustar uma curva polinomial para a tendência, fazer modelagem nos dados sem tendência e para comparar com os dados reais observados, somar a tendência (método explicado na aplicação desse trabalho). Nota-se que comparado às demais metodologias adotadas, o ajuste SARIMA com o ajuste polinomial de tendência resultou em estimativas pontuais mais assertivas e em intervalos de confiança mais precisos. Sendo assim, esse foi o modelo SARIMA escolhido para comparar com os Modelos Holt-Winters. Além disso, foi aplicado o ajuste polinomial para os dados de 2005 a 2009, porém percebeu-se que entre a modelagem de 2005 a 2009 e a de 2001 a 2009, esta última foi mais satisfatória.Inclusive foi calculado o MAPE para as previsões de 2010:

Tabela 19 – MAPE para as análises das séries com 9 e 5 anos.

MAPE

2001 a 2009 2005 a 2009

SARIMA 10,24% 20,73%

Holt. Aditivo 9,76% 45,06%

Holt. Multiplicativo 14,97% 18,66%

58

8. GLOSSÁRIO GRAMATURA: Gramatura ou Gramagem é a medida da espessura e densidade de um papel, expressa em gramas por metro quadrado (g/m²). Sua especificação foi padronizada pela norma ISO 536. Quanto maior for a gramatura, mais “grosso” será o papel. Fonte: Wikipédia. LICITAÇÃO: É o procedimento administrativo para contratação de serviços ou aquisição de produtos pelos governos Federal, Estadual, Municipal ou entidades de qualquer natureza. No Brasil, para licitações por entidades que façam uso da verba pública, o processo é regulado pela lei ordinária brasileira nº 8666/93. Fonte: Wikipédia, a enciclopédia livre.

59

9. ANEXOS Comandos software R Leitura dos dados > SCeLWC_2001a2010=read.table('SCeLWC_2001a2010.txt ',h=T) > head(SCeLWC_2001a2010) > attach(SCeLWC_2001a2010) > names(SCeLWC_2001a2010)

Estudo descritivo > SCeLWC_2001a2010.ts<-ts(Kg.papel,start=c(2001,1), frequency=12) > head(SCeLWC_2001a2010.ts) > require(lattice) > X11() > par(mfrow=c(1,1),cex.main=0.9,cex.lab=0.7,cex.axi s=0.7,pch=16, + font.main=3) > plot(SCeLWC_2001a2010.ts,xlab='Data',main='Consum o mensal de papel SC e LWC no período de 2001 a 2010',ylab='Observações',t ype='l', col="blue") > m <- cbind(Kg = Kg.papel, + Mes = rep(1:12, length(Kg.papel) %% 12 )[1:length(Kg.papel)], + Ano = rep(2001:2010, c(rep(12, 9), 10))) > > xyplot(Kg / 1e3 ~ factor(Mes) | factor(Ano), + as.data.frame(m), type = 'l', as.table = T RUE)

Análise do período de 2001 a 2009 > SCeLWC_ate2009=read.table('SCeLWC_ate2009.txt',h= T) > head(SCeLWC_ate2009) > attach(SCeLWC_ate2009) > names(SCeLWC_ate2009)

Estudo descritivo > SCeLWC_ate2009.ts<-ts(Kg.papel,start=c(2001,1),fr equency=12) > head(SCeLWC_ate2009.ts) #Decomposição# > plot(stl(SCeLWC_ate2009.ts,s.window='periodic'), col="blue")

Autocorrelação > X11() > par(mfrow=c(3,1)) > plot(SCeLWC_ate2009.ts,main='Série não estacionár ia',type='l', col="blue") > plot(acf(SCeLWC_ate2009.ts[1:108],plot=F)[1:20], col="blue") > plot(pacf(SCeLWC_ate2009.ts[1:108],plot=F)[1:20], col="blue")

Primeira diferença > W=diff(SCeLWC_ate2009.ts,differences=1) > X11() > par(mfrow=c(3,1)) > plot(W,main='Primeira diferenciação',type='l', co l="blue") > plot(acf(W[1:107],plot=F)[1:20], col="blue")

60

> plot(pacf(W[1:107],plot=F)[1:20], col="blue") > plot(stl(W,s.window='periodic'), main="Primeira D iferenciação", col="blue")

SARIMA-uma diferenciação > ajuste1=arima(Kg.papel, order = c(1,1,1), seasona l = list(order=c(1,1,1))) > ajuste2=arima(Kg.papel, order = c(1,1,2), seasona l = list(order=c(1,1,2))) > ajuste3=arima(Kg.papel, order = c(1,1,3), seasona l = list(order=c(1,1,3))) > ajuste4=arima(Kg.papel, order = c(2,1,1), seasona l = list(order=c(2,1,1))) > ajuste5=arima(Kg.papel, order = c(2,1,2), seasona l = list(order=c(2,1,2))) > ajuste6=arima(Kg.papel, order = c(2,1,3), seasona l = list(order=c(2,1,3))) > ajuste7=arima(Kg.papel, order = c(3,1,1), seasona l = list(order=c(3,1,1))) > ajuste8=arima(Kg.papel, order = c(3,1,2), seasona l = list(order=c(3,1,2))) > ajuste9=arima(Kg.papel, order = c(3,1,3), seasona l = list(order=c(3,1,3))) > AIC(ajuste1,ajuste2,ajuste3,ajuste4,ajuste5,ajust e6,ajuste7, ajuste8,ajuste9) > ajuste1 > ajuste2 > ajuste3 > ajuste4 > ajuste5 > ajuste6 > ajuste7 > ajuste8 > ajuste9

Resíduos > X11() > tsdiag(ajuste2) > z=ajuste1$residuals > a=shapiro.test(z) > a > par(mfrow=c(2,1)) > hist(z,freq=F) > qqnorm(z) > qqline(z)

Valores preditos > preditos=predict(ajuste1,n.ahead=6) > preditos > ICsuperior=preditos$pred + 1.96 * preditos$se

61

> ICsuperior > ICinferior=preditos$pred - 1.96 * preditos$se > ICinferior

SARIMA-Transformação LOG > ajuste1=arima(log(Kg.papel), order = c(1,1,1), se asonal = list(order=c(1,1,1))) > ajuste2=arima(log(Kg.papel), order = c(1,1,2), se asonal = list(order=c(1,1,2))) > ajuste3=arima(log(Kg.papel), order = c(1,1,3), se asonal = list(order=c(1,1,3))) > ajuste4=arima(log(Kg.papel), order = c(2,1,1), se asonal = list(order=c(2,1,1))) > ajuste5=arima(log(Kg.papel), order = c(2,1,2), se asonal = list(order=c(2,1,2))) > ajuste6=arima(log(Kg.papel), order = c(2,1,3), se asonal = list(order=c(2,1,3))) > ajuste7=arima(log(Kg.papel), order = c(3,1,1), se asonal = list(order=c(3,1,1))) > ajuste8=arima(log(Kg.papel), order = c(3,1,2), se asonal = list(order=c(3,1,2))) > ajuste9=arima(log(Kg.papel), order = c(3,1,3), se asonal = list(order=c(3,1,3))) > AIC(ajuste1,ajuste2,ajuste3,ajuste4,ajuste5,ajust e6,ajuste7, ajuste8,ajuste9) > ajuste1 > ajuste2 > ajuste3 > ajuste4 > ajuste5 > ajuste6 > ajuste7 > ajuste8 > ajuste9

Resíduos > X11() > tsdiag(ajuste3) > z=ajuste2$residuals > a=shapiro.test(z) > a > par(mfrow=c(2,1)) > hist(z,freq=F) > qqnorm(z) > qqline(z)

Valores preditos > preditos=predict(ajuste3,n.ahead=6) > preditos > preditos_exp=exp(preditos$pred)

62

> preditos_exp

Intervalos do confiança > ICsuperior=preditos$pred + 1.96 * preditos$se > ICsupExp=exp(ICsuperior) > ICsupExp > ICinferior=preditos$pred - 1.96 * preditos$se > ICinfExp=exp(ICinferior) > ICinfExp

Análise retirando a tendência 2001 a 2009 prevendo 2010 > mypolytrend=function(y,degree=1) { > mypolytrend=function(y,degree=1) { + #Polinomial regression on time (with intercept) + n=length(y) + x=1:n + X=matrix(NA,n,degree) + for (i in 1:degree) X[,i] = x**i + a=as.numeric(lm(y~X)$coeff) + z=ts(cbind(rep(1,n),X)%*%a,start=start(y),freq=fr equency(y)) + z + } > z3 = mypolytrend(Kg.papel[1:108],3) > z6 = mypolytrend(Kg.papel[1:108],6) > z8 = mypolytrend(Kg.papel[1:108],8) > X11() > par(pch=19,cex=0.8,mar=c(5,5,5,5)) > plot(ts(Kg.papel,start=c(2001,1),frequency=12),ty pe='b',ylab='Kg de papel + consumido') > title('Observados e Tendências Polinomiais') > lines(ts(z3,start=c(2001,1),frequency=12),col=2) > lines(ts(z6,start=c(2001,1),frequency=12),col='bl ue') > lines(ts(z8,start=c(2001,1),frequency=12),col='gr een') > legend(2001,2500000,legend=c("Polinômio grau 3"," Polinômio grau + 6","Polinômio grau 8"),lty=1,col=c(2,'blue','gree n'))

Arrumando dados > dadossemtendencia<-Kg.papel-z6 > head(dadossemtendencia) > plot(ts(dadossemtendencia,start=c(2001,1),frequen cy=12),ylab='Kg de papel consumido', col="blue") title('Dados sem Tendência',col='blue')

Função de autocorrelação > X11() > par(mfrow=c(3,1)) > plot(dadossemtendencia,main='Dados Sem Tendência ',type='l',col='blue') > plot(acf(dadossemtendencia[1:108],plot=F)[1:20], col='blue') > plot(pacf(dadossemtendencia[1:108],plot=F)[1:20] ,col='blue')

63

Modelos > ajuste1=arima(dadossemtendencia, order = c(1,0,1) , seasonal = list(order=c(1,0,1))) > ajuste2=arima(dadossemtendencia, order = c(1,0,2) , seasonal = list(order=c(1,0,2))) > ajuste3=arima(dadossemtendencia, order = c(1,0,3) , seasonal = list(order=c(1,0,3))) > ajuste4=arima(dadossemtendencia, order = c(2,0,1) , seasonal = list(order=c(2,0,1))) > ajuste5=arima(dadossemtendencia, order = c(2,0,2) , seasonal = list(order=c(2,0,2))) > ajuste6=arima(dadossemtendencia, order = c(2,0,3) , seasonal = list(order=c(2,0,3))) > ajuste7=arima(dadossemtendencia, order = c(3,0,1) , seasonal = list(order=c(3,0,1))) > ajuste8=arima(dadossemtendencia, order = c(3,0,2) , seasonal = list(order=c(3,0,2))) > ajuste9=arima(dadossemtendencia, order = c(3,0,3) , seasonal = list(order=c(3,0,3))) > AIC(ajuste1,ajuste2,ajuste3,ajuste4,ajuste5,ajust e6,ajuste7, ajuste8,ajuste9) > ajuste1 > ajuste2 > ajuste3 > ajuste4 > ajuste5 > ajuste6 > ajuste7 > ajuste8 > ajuste9 > X11() > tsdiag(ajuste1,col='blue') > z=ajuste1$residuals > a=shapiro.test(z) > a > par(mfrow=c(2,1)) > hist(z,freq=F,col='lightblue') > qqnorm(z,col='blue') > qqline(z)

Valores preditos > preditos=predict(ajuste1,n.ahead=10) > preditos

Estimação do polinômio > x=1:108 > X=matrix(NA,108,6)

64

> for (i in 1:6) X[,i] = x**i > a=as.numeric(lm(Kg.papel~X)$coeff) > a [1] 1.013531e+06 -1.754977e+05 1.787076e+04 -6.31 0673e+02 1.029994e+01 [6] -7.853930e-02 2.259556e-04 > > x = 109:118 > X = matrix(NA,10,6) > for (i in 1:6) X[,i] = x**i > tendencia = ts(cbind(rep(1,10),X)%*%a,start=start(2010,1),freq= frequency(12)) > tendência

Estatistica U-Theil U-Theil dados 2001 a 2009 com tendência > dadossemtendencia<-Kg.papel-z6 > ajuste1=arima(dadossemtendencia, order = c(1,0,1 ), seasonal = list(order=c(1,0,1))) > estimados=dadossemtendencia-ajuste1$residuals > estimadoscomtendencia=estimados+z6 > N=length(SCeLWC_ate2009.ts) > N > estimadoscomtendencia.ts<-ts(estimadoscomtendencia,start=c(2001,1),frequency= 12) > residuos=estimadoscomtendencia.ts-SCeLWC_ate2009. ts > num=sum((residuos)^2)/N > dem1=sum((SCeLWC_ate2009.ts)^2)/N > dem2=sum((estimadoscomtendencia.ts)^2)/N > U=sqrt(num)/(sqrt(dem1)+sqrt(dem2)) > U > plot(ts(SCeLWC_ate2009.ts,start=c(2001,1),frequen cy=12),col='blue',main =" Comparação Estimados e Observados ",ylab='Observ ações',xlab='Data') >lines(ts(estimadoscomtendencia.ts,start=c(2001,1), frequency=12),col='red')

U-Theil dados com tendência 2010 > estimados=c(1414806, 1424104, 1454651, 1506120, 1 580175, 1679382, 1806794, 1965790, 2160029, 2393432) > N=10 > observados=c(1294873, 1408301, 1905549, 1655691, 1897463, 1785078, 1877517, 1911227, 2089385, 1889405) > e=estimados-observados > num=sum((e)^2)/N > dem1=sum((observados)^2)/N > dem2=sum((estimados)^2)/N > U=sqrt(num)/(sqrt(dem1)+sqrt(dem2)) > U

U-Theil dados 2001 a 2009 sem tendência > estimados=dadossemtendencia-ajuste1$residuals > dadossemtendencia<-Kg.papel-z6 > plot(ts(dadossemtendencia,start=c(2001,1),frequen cy=12),col='blue',main =" Comparação Estimados e Observados ",ylab='Observ ações',xlab='Data') > lines(ts(estimados,start=c(2001,1),frequency=12) ,col='red') > N=length(dadossemtendencia)

65

> N > num=sum((ajuste1$residuals)^2)/N > dem1=sum((dadossemtendencia)^2)/N > dem2=sum((estimados)^2)/N > U=sqrt(num)/(sqrt(dem1)+sqrt(dem2)) > U

U-Theil dados 2010 sem tendência > estimados=c(12212.7515899999, 4637.89337, 1757.15 125, 670.9077, 264.23545, 112.90634, 56.88811, 36.24565, 28.66928, 25.89834) >N=10 > observados=c(-107721, -11166, 452655, 150241, 317 552, 105808, 70779, -54527, -70616, -504002) > num=sum((c(-119933.75159, -15803.89337, 450897.84 875, 149570.0923, 317287.76455, 105695.09366, 70722.11189, -545632.45 65, -70644.66928, -504027.89834))^2)/N >dem1=sum((observados)^2)/N >dem2=sum((estimados)^2)/N > U=sqrt(num)/(sqrt(dem1)+sqrt(dem2)) > U

Estimação de tendência em 2010 > X11() > par(pch=19,cex=0.8) > plot(ts(Kg.papel,start=c(2001,1),frequency=12),ty pe='b',ylab='Kg de papel consumido') > title('Observados e Tendências Polinomiais') > lines(ts(z3,start=c(2001,1),frequency=12),col=2) > lines(ts(rbind(z6,tendencia),start=c(2001,1),freq uency=12),col='blue') > lines(ts(z8,start=c(2001,1),frequency=12),col='gr een') > legend(2001,2500000,legend=c("Polinômio grau 3"," Polinômio grau 6","Polinômio grau 8"),lty=1,col=c(2,'blue','green' ) > tendencia

Intervalo de confiança com 95% de confiança para os valores preditos > ICs=preditos$pred + 1.96 * preditos$se > ICs > ICsup=c(450772.4, 448208.5, 446058.6, 445077.4, 4 44685.6, 444536.4, 444480.7, 444460.1, 444452.5, 444449.7) > ICsuperior=ICsup+tendencia > ICsuperior > ICi=preditos$pred - 1.96 * preditos$se > ICi > ICinf=c(-426346.9, -438932.7, -442544.3, -443735. 6, -444157.2, -444310.6, -444366.9, -444387.6, -444395.1, -444397.9) > ICinferior=ICinf+tendencia > ICinferior

66

Modelos Holt Winters Aditivo > m1<-HoltWinters(SCeLWC_ate2009.ts, seasonal='addi t') > p1<-predict(m1, n.ahead=10, prediction.interval=T ) > p1 > X11() > plot(m1,p1,main='Holt Winters Aditivo')

Correlacao entre observados e preditos > cor(SCeLWC_ate2009.ts[-(1:12)],m1$fitted[,1])

Estatistica U-Theil > N=length(SCeLWC_ate2009.ts[-(1:12)]) > num=sum((SCeLWC_ate2009.ts[-(1:12)]-m1$fitted[,1] )^2)/N > dem1=sum((SCeLWC_ate2009.ts[-(1:12)])^2)/N > dem2=sum((m1$fitted[,1])^2)/N > U=sqrt(num)/(sqrt(dem1)+sqrt(dem2)) > U

Multiplicativo > m2<-HoltWinters(SCeLWC_ate2009.ts, seasonal='mult iplicative') > p2<-predict(m2, n.ahead=10, prediction.interval=T ) > p2 > m2 > X11() > plot(m2,p2, main='Holt Winters Multiplicativo')

Correlacao entre observados e preditos > cor(SCeLWC_ate2009.ts[-(1:12)],m2$fitted[,1])

Estatistica U-Theil > N=length(SCeLWC_ate2009.ts[-(1:12)]) > num=sum((SCeLWC_ate2009.ts[-(1:12)]-m2$fitted[,1] )^2)/N > dem1=sum((SCeLWC_ate2009.ts[-(1:12)])^2)/N > dem2=sum((m2$fitted[,1])^2)/N > U=sqrt(num)/(sqrt(dem1)+sqrt(dem2)) > U

Previsão de valores futuros Nov/10 a Abr/11 > SCeLWC_2001a2010=read.table('SCeLWC_2001a2010.txt ',h=T) > head(SCeLWC_2001a2010) > attach(SCeLWC_2001a2010) > names(SCeLWC_2001a2010) > mypolytrend=function(y,degree=1) { + #Polinomial regression on time (with intercept) + n=length(y) + x=1:n

67

+ X=matrix(NA,n,degree) + for (i in 1:degree) X[,i] = x**i + a=as.numeric(lm(y~X)$coeff) + z=ts(cbind(rep(1,n),X)%*%a,start=start(y),freq=fr equency(y)) + z + } > z3 = mypolytrend(Kg.papel[1:118],3) > z6 = mypolytrend(Kg.papel[1:118],6) > z8 = mypolytrend(Kg.papel[1:118],8) > > # > X11() > par(pch=19,cex=0.8) > # > plot(ts(Kg.papel,start=c(2001,1),frequency=12),ty pe='b',ylab='Kg de papel + consumido') > title('Observados e Tendências Polinomiais') > > lines(ts(z3,start=c(2001,1),frequency=12),col=2) > lines(ts(z6,start=c(2001,1),frequency=12),col='bl ue') > lines(ts(z8,start=c(2001,1),frequency=12),col='gr een') > > legend(2001,2500000,legend=c("Polinômio grau 3"," Polinômio grau + 6","Polinômio grau 8"),lty=1,col=c(2,'blue','gree n')) >

Arrumando os dados > dadossemtendencia<-Kg.papel-z6 > head(dadossemtendencia) [1] -17264.194 2244.404 -193815.503 -94970.238 62597.903 -15604.487 > > plot(ts(dadossemtendencia,start=c(2001,1),frequen cy=12),ylab='Kg de papel consumido') > title('Dados sem Tendência') >

Função de autocorrelação > X11() > par(mfrow=c(3,1)) > plot(dadossemtendencia,main='Dados Sem Tendência ',type='l') > plot(acf(dadossemtendencia[1:118],plot=F)[1:20]) > plot(pacf(dadossemtendencia[1:118],plot=F)[1:20] )

Modelos > ajuste1=arima(dadossemtendencia, order = c(1,0,1) , seasonal = list(order=c(1,0,1))) > ajuste2=arima(dadossemtendencia, order = c(1,0,2) , seasonal = list(order=c(1,0,2))) > ajuste3=arima(dadossemtendencia, order = c(1,0,3) , seasonal = list(order=c(1,0,3))) > ajuste4=arima(dadossemtendencia, order = c(2,0,1) , seasonal = list(order=c(2,0,1))) > ajuste5=arima(dadossemtendencia, order = c(2,0,2) , seasonal = > ajuste6=arima(dadossemtendencia, order = c(2,0,3) , seasonal = list(order=c(2,0,3))) > ajuste7=arima(dadossemtendencia, order = c(3,0,1) , seasonal = list(order=c(3,0,1)))

68

> ajuste8=arima(dadossemtendencia, order = c(3,0,2) , seasonal = list(order=c(3,0,2))) > ajuste9=arima(dadossemtendencia, order = c(3,0,3) , seasonal = list(order=c(3,0,3))) > AIC(ajuste1,ajuste2,ajuste3,ajuste4,ajuste5,ajust e6,ajuste7, ajuste8,ajuste9) > ajuste1 > ajuste1 > ajuste2 > ajuste3 > ajuste4 > ajuste5 > ajuste6 > ajuste7 > ajuste8 > ajuste9

Análise residual > X11() > tsdiag(ajuste1) > > z=ajuste1$residuals > a=shapiro.test(z) > a > par(mfrow=c(2,1)) > hist(z,freq=F,col='lightblue') > qqnorm(z,col='blue') > qqline(z) > estimados=dadossemtendencia-ajuste1$residuals

Valores preditos > preditos=predict(ajuste1,n.ahead=6) > preditos > x=1:118 > X=matrix(NA,118,6) > for (i in 1:6) X[,i] = x**i > a=as.numeric(lm(Kg.papel~X)$coeff) > a > x = 119:124 > X = matrix(NA,6,6) > for (i in 1:6) X[,i] = x**i > tendencia = ts(cbind(rep(1,6),X)%*%a,start=start(2010,11),freq= frequency(12)) > tendencia > X11() > par(pch=19,cex=0.8, mar=c(5, 5, 5, 5)) > plot(ts(Kg.papel,start=c(2001,1),frequency=12),ty pe='b',ylab='Kg de papel + consumido') > title('Observados e Tendências Polinomiais - 2001 a 2010') > lines(ts(z3,start=c(2001,1),frequency=12),col=2) > lines(ts(rbind(z6,tendencia),start=c(2001,1),freq uency=12),col='blue') > lines(ts(z8,start=c(2001,1),frequency=12),col='gr een') > legend(2001,2500000,legend=c("Polinômio grau 3"," Polinômio grau

69

+ 6","Polinômio grau 8"),lty=1,col=c(2,'blue','gree n')) > tendencia

Intervalo de confiança > ICsuperior=preditos$pred + 1.96 * preditos$se > ICsuperior > ICinferior=preditos$pred - 1.96 * preditos$se > ICinferior

70

10. REFERÊNCIAS

BOX, G. E. P.; JENKINS, G. M. Time series analysis forecasting and control. San Francisco: Holden- Day, 1976. Edição revisada

EHLERS, R. S., Apostila Análise de Séries Temporais,quinta edição.UFPR – Curitiba, 2009. LAMDIN , F. M. P. F..Disponível em: <> http://www.im.ufrj.br/flavia/ >. UFRJ. Rio de Janeiro,Rio de Janeiro, Brasil. Acesso em: novembro 2010. MORETTIN, P. A. e TELOI, C.M.C. Análise de Séries Temporais. Editora Blucher, 2004. NETO, A. C., Apostila CE017 - Análise de Séries Temporais. UFPR – Curitiba. PÉREZ, F. L. CE017 - Análise de Séries Temporais. Disponível em: <>.http://people.ufpr.br/~lucambio/CE017/1S2010/CE017.html>. Curitiba,Paraná, Brasil. Acesso em: jul. a Nov/2010. R DEVELOPMENT CORE TEAM. R: A Language and Environment for Statistical Computing. Disponível em: <>.http://CRAN.R-project.org>.Acesso em: jul. a Nov/2010. RAMOS, E. M. L. S., et al. Amazônia: Ci & Desenv., Belém,v. 2, n.3, jul./dez. 2006. SARKAR,D. Lattice: Lattice Graphics. R package version 0.18-8,2010. Disponível em: <>.http://CRAN.R-project.org/package=lattice>. Acesso em: jul. a Nov/2010. SERRA, C. M. V., et al. Aplicação de séries temporais na análise de demanda turística no estado do Pará usando os modelos de Holt-Winters. XXV Encontro Nacional de Engenharia de Produção, Porto Alegre, RS, 2005. SPANHOL, C. P. , et al. Modelo de Previsões de Holt -Winters Aplicado ao Índice de Faturamento Real do Comércio Varejista de Alimentos da RMSP. XI SIMPEP - Bauru, SP, Brasil,novembro 2004.

TRAPLETTI,A. ; HORNIK, K. Tseries: Time Series Analysis and Computational Finance.R package version 0.10-22. Vienna, Austria , 2009.Disponível em: <>.http://CRAN.R-project.org/package=tseries>. Acesso em: jul. a Nov/2010. WIKIPEDIA. Disponível em: <>.http://pt.wikipedia.org/wiki/P%C3%A1gina_principal.>.Acesso em: jul. a Nov/2010.

Download - UNIVERSIDADE FEDERAL DO PARANÁ MONIQUE ......Gráfico 11 - Histograma e gráfico Q-Qplot dos resíduos para o modelo da série sem tendência..... 36 Gráfico 12 - Valores estimados

Top Related