tcc cairo da silva borges

Upload: jaime-rc

Post on 07-Jul-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/18/2019 TCC Cairo Da Silva Borges

    1/61

     

    FACULDADE DE BALSASCURSO DE SISTEMAS DE INFORMAÇÃO

    CRIAÇÃO DE UM AMBIENTE DE EXPLORAÇÃO OLAP

    PARA ANALISAR DADOS DAS VENDAS DO GRUPO DE POSTOS

    DE COMBUSTÍVEIS PIONEIRO

    CAIRO DA SILVA BORGES

    BALSAS (MA)

    2010

  • 8/18/2019 TCC Cairo Da Silva Borges

    2/61

     

    FACULDADE DE BALSASCURSO DE SISTEMAS DE INFORMAÇÃO

    CRIAÇÃO DE UM AMBIENTE DE EXPLORAÇÃO OLAP

    PARA ANALISAR DADOS DAS VENDAS DO GRUPO DE POSTOS

    DE COMBUSTÍVEIS PIONEIRO

    POR:

    CAIRO DA SILVA BORGES

    Trabalho de Conclusão de Curso apresentado

    como exigência parcial para obtenção do título de

    Bacharel em Sistemas de Informação à Faculdade

    de Balsas, sob a orientação do Professor Junior

    Bandeira.

    BALSAS (MA)

    2010

  • 8/18/2019 TCC Cairo Da Silva Borges

    3/61

     

    FACULDADE DE BALSASCURSO DE SISTEMAS DE INFORMAÇÃO

    A Comissão Examinadora, abaixo assinada, aprova o Trabalho deConclusão de Curso (TCC).

    CRIAÇÃO DE UM AMBIENTE DE EXPLORAÇÃO OLAP

    PARA ANALISAR DADOS DAS VENDAS DO GRUPO DE POSTOS

    DE COMBUSTÍVEIS PIONEIRO

    Elaborada por

    CAIRO DA SILVA BORGES

    como requisito parcial para obtenção de Bacharel em Sistemas de Informação

    BANCA EXAMINADORA

     __________________________________Prof (a). Junior Bandeira

    Prof. Orientador

     __________________________________Prof (a). José Sinotti

    Membro da Banca Examinadora

     __________________________________

    Prof (a). Cassiana FagundesMembro da Banca Examinadora

  • 8/18/2019 TCC Cairo Da Silva Borges

    4/61

     

    DEDICATÓRIO

    Dedico este trabalho de conclusão de curso a Deus por me ter oferecido a

    oportunidade de viver, evoluir a cada dia, a todos os meus familiares que meajudaram a alcançar mais um objetivo na minha vida, aos meus pais em especial

    pelo apoio e carinho recebido durante esta etapa, a minha namorada que não mediu

    esforços para me ajudar a continuar nesta trajetória.

  • 8/18/2019 TCC Cairo Da Silva Borges

    5/61

     

     AGRADECIMENTOS

    Ao Profº. Junior Bandeira, meu orientador, pelo apoio, paciência, credibilidade ecompreensão que me proporcionou.

    Ao Profº Gustavo Borges, meu co-orientador, pela ajuda prestada e atenção

    dedicada a este trabalho.

    Ao Coordenador do curso de Sistemas de Informação, Profº Marlon Possani, pela

    amizade e apoio dedicado durante todo o período acadêmico.

    Aos meus companheiros de curso.

    A todos que contribuíram direta e indiretamente na realização deste trabalho.

  • 8/18/2019 TCC Cairo Da Silva Borges

    6/61

     

    RESUMO

    Na busca de um diferencial competitivo as empresas atuam dinamicamente. Nesta

    busca, uma das técnicas é transformar dados armazenados com o tempo em

    informações que auxiliem a tomada de decisão com o objetivo de descobrir fatos e

    atuar com ações. Este tipo de solução é a  Business Intelligence (BI), que utiliza

    ferramentas que possibilitam a exploração dos dados, transformando em

    informações visuais e de fácil entendimento para os gestores. No mercado existem

    inúmeras ferramentas de BI, o presente trabalho utilizou o software livre, PENTAHO 

    na versão 3.5. Aplicou-se a solução de BI ao Grupo de Postos de Combustíveis

    Pioneiro na qual se constitui por empresas localizadas nas cidades de Balsas e

    Açailândia no Maranhão. A solução resume-se na construção de um cubo OLAP,

    onde o mesmo explora uma grande massa de dados precisos e rápidos, referente às

    vendas ocorridas entre os períodos de 2009 e 2010. Construiu-se ainda um Data

    Mart  de vendas para armazenar e centralizar os dados históricos, além de um

    framework  em linguagem de programação PHP que realizou a importação dos

    dados dos Data Warehouses  para o Data Mart  central. Dessa forma a solução

    proveu uma comparação dos dados explorados com os feriados e fatoressocioeconômicos de cada uma das cidades utilizando a técnica de estatística Anova,

    com objetivo de agregar conhecimento para analisar fatos ocorridos nos períodos,

    ou ainda, usando a solução como vantagem competitiva.

    Palavras - chaves: Business Intelligence (BI). Postos Pioneiro. OLAP. Banco de

    Dados.

  • 8/18/2019 TCC Cairo Da Silva Borges

    7/61

     

    SUMÁRIO

    1. INTRODUÇÃO 

    ........................................................................................................ 91.1 Delimitação do tema  .......................................................................................... 9

    1.2 Problemática  ...................................................................................................... 9

    1.3 Objetivos  ............................................................................................................ 9

    1.3.1 Geral  ........................................................................................................... 9

    1.3.2 Específico  .................................................................................................... 9

    1.4 Justificativa  ...................................................................................................... 10

    1.5 Metodologia  ..................................................................................................... 10

    2. REFERENCIAL TEÓRICO  .................................................................................... 12

    2.1 Armazenamento de Banco de Dados  .............................................................. 12

    2.2 Business Intelligence  ....................................................................................... 12

    2.2.1 Fontes de dados  ........................................................................................ 13

    2.2.2 ETL (Extraction, Transformation and Loading)  .......................................... 14

    2.2.3 Modelagens  ............................................................................................... 14

    2.2.4 Data Warehouse e Data Marts  .................................................................. 17

    2.2.5 Exploração dos dados  ............................................................................... 18

    2.2.6 Cubos de dados OLAP  .............................................................................. 20

    2.2.7 Linguagens  ................................................................................................ 27

    2.2.8 Ferramentas OLAP  ................................................................................... 28

    2.3 PENTAHO uma ferramenta Open Source de BI  .............................................. 28

    2.3.1 A Plataforma  ............................................................................................. 28

    2.3.2 Características  .......................................................................................... 30

    2.3.3 Ferramentas  .............................................................................................. 30

    2.4 SPSS (Statistical Package for the Social Sciences)  ........................................ 34

    2.4.1 Análise de variância (Anova)  ..................................................................... 35

  • 8/18/2019 TCC Cairo Da Silva Borges

    8/61

     

    3. ESTUDO DE CASO  .............................................................................................. 37

    3.1 A Empresa  ....................................................................................................... 37

    3.2 As vendas  ........................................................................................................ 393.3 A solução  ......................................................................................................... 40

    3.4 Relações entre vendas com feriados e fatores socioeconômicos  ................... 51

    4. CONCLUSÃO  ........................................................................................................ 57

    5. REFERÊNCIAS BIBLIOGRÁFICAS  ...................................................................... 58

     

  • 8/18/2019 TCC Cairo Da Silva Borges

    9/61

    9

    1. INTRODUÇÃO

    Neste capítulo serão apresentados os objetivos definidos no trabalho,

     justificativas e metodologias utilizadas assim como a delimitação do tema proposto.

    1.1 Delimitação do tema

    O trabalho busca apresentar a criação de um ambiente de exploração dos

    dados através da técnica OLAP com a montagem de um cubo para analisar os

    dados das vendas nos períodos de 2009 e 2010 do Grupo de Postos de

    Combustíveis Pioneiro, fazendo uma comparação entre os feriados e fatores

    socioeconômicos com as vendas neste período e exemplificando como eles podem

    ser utilizados na tomada de decisões.

    1.2 Problemática

    A problemática do sistema atual está em não proporcionar ao gestor uma

    visão completa do andamento das vendas, podendo analisar os dados em apenas

    duas dimensões (tempo e vendas), o que dificulta uma tomada de decisões mais

    rápida e precisa, além da demora no processamento dos dados pré-existentes.

    1.3 Objetivos

    1.3.1 Geral

    Tornar a gestão do Grupo de Postos de Combustíveis Pioneiro mais

    dinâmica, com base na análise de relatórios multidimensionais oriundos do Cubo

    OLAP.

    1.3.2 Específico

    •  Fazer comparativo de vendas e lucratividade entre períodos semelhantes;

    •  Analisar se existem relações entre os feriados e fatores socioeconômicos com

    as vendas nos períodos de 2009 e 2010;

    •  Criar um Data Mart central para importação dos dados das vendas;

    •  Definir a estrutura do Cubo;

    •  Estudar e implementar a ferramenta PENTAHO;

    •  Proporcionar uma visão completa do andamento das vendas de todos os

    produtos;

  • 8/18/2019 TCC Cairo Da Silva Borges

    10/61

    10

    •  Tornar a tomada de decisões mais precisa, tendo como referencial os dados

    extraídos do Cubo OLAP;

    1.4 JustificativaAtravés de relatos informais fornecidos pelo gestor do Grupo de Postos de

    Combustíveis Pioneiro, pode-se analisar a dificuldade em realizar comparativos de

    vendas com a ferramenta de gestão atual, de acordo com a problemática

    supracitada.

    O sistema atual possibilita também a realização de comparações entre

    períodos, porém não oferece o dinamismo que o Cubo OLAP proporciona. A

    ferramenta proposta gera relatórios interligados enquanto que o sistema atual gera

    relatórios em separado, o que dificulta a visualização do conjunto de dados.

    Com a criação do ambiente de exploração OLAP através da montagem do

    Cubo, cada face pode ser analisada para posterior agrupamento dos dados das

    outras faces. A implantação do Cubo OLAP traz consigo a possibilidade de uma

    gestão facilitada, ampliando as potencialidades do empreendimento com os

    benefícios agregados pelo mesmo.

    1.5 Metodologia

    O levantamento dos dados foi realizado através das informações reais de

    vendas, repassadas pelo gestor do Grupo de Postos de Combustíveis Pioneiro,

    como também pelos relatos informais do mesmo.

    A metodologia utilizada para o desenvolvimento deste trabalho é constituída

    por quatro fases: 

    Primeira: análise quantitativa (juntamente com o gestor da empresa) para extração

    de informações pertinentes às vendas do grupo;

    Segunda: realização de estudo sobre a técnica OLAP;

    Terceira: Implementação da técnica do Cubo OLAP com referência aos dados

    extraídos na primeira fase, analisando-se especificamente os resultados obtidos

    com a ação.

  • 8/18/2019 TCC Cairo Da Silva Borges

    11/61

    11

    Quarta: Utilização da técnica de Anova (análise de variância) para realizar uma

    comparação entre os feriados e fatores socioeconômicos com as vendas nos

    períodos de 2009 e 2010.

    O trabalho que segue, está dividido da seguinte forma: capítulo 2; todo o

    referencial teórico com as definições das técnicas utilizadas; no capítulo 3 o estudo

    de caso, com a definição da necessidade do gestor do Grupo de Postos de

    Combustíveis Pioneiro além da contextualização do ambiente explorado, a definição

    do modelo e ferramentas utilizadas bem como os resultados obtidos, finalizando com

    a análise entre as vendas e os feriados e fatores socioeconômicos. Por fim, no

    capítulo 4 as considerações finais do trabalho desenvolvido.

  • 8/18/2019 TCC Cairo Da Silva Borges

    12/61

    12

    2. REFERENCIAL TEÓRICO

    Neste tópico será abordado todo o referencial teórico utilizado no trabalho,

    bem como as definições das técnicas e ferramentas que foram utilizadas.

    2.1 Armazenamento de Banco de Dados

    De acordo com o livro escrito por Ferrari (2007) banco de dados pode ser

    definido como um local no qual é possível armazenar informações, para consultas

    ou utilização quando necessário. Já Ramakrishnan (2008) define Sistemas

    Gerenciadores de Banco de Dados (SGBD) um software projetado para auxiliar a

    manutenção e utilização de vastos conjuntos de dados.

    Com o passar do tempo os dados armazenados se tornaram grandes e

    volumosos sendo capaz de gerar uma lentidão em consultas e processamento, para

    solucionar este problema surgiu então os Sistemas de Banco de Dados Relacionais

    (SGBDR), cuja principal característica é gerenciar seus dados usando apenas as

    capacidades relacionais.

    Segundo Rosa (2004) hoje o grande problema dos SGBDs, tornou-se a

    manipulação das informações, nunca se precisou extrair informações inteligentes

    como agora, o principal motivo disso está em que as empresas crescem

    constantemente com dados e informações.

    2.2 Business Intelligence 

    Nos últimos tempos, os sistemas empresariais avançaram consideravelmente,

    por conseguinte, os dados também evoluíram, em função desse crescimento, a

    utilização do processo de Inteligência de Negócios (BI) em uma organização cresceu

    fortalecendo a obtenção de informações gerenciais de maneira rápida e flexível de

    tal forma que os gestores da empresa possam tomar decisões gerenciais.

    A implantação do BI em uma empresa deve-se relacionar diretamente com o

    gestor da empresa, definindo o objetivo geral, através de entrevistas, estabelecer os

    objetivos específicos em base com os dados analisados. A partir das informações

    coletadas, pode-se realizar uma análise das ferramentas necessárias.

    Para Felber (2005) BI é a utilização de uma série de ferramentas para coletar,

    analisar e extrair informações, que serão utilizadas no auxílio ao processo de

    tomada de decisões.

  • 8/18/2019 TCC Cairo Da Silva Borges

    13/61

    13

    A figura 1 exibe todo o framework de implantação de BI em uma empresa,

    dando-se inicio a extração, carregamento e transformação dos dados contidos no 

    Data Warehouse  que por sua vez pode ser organizado por Data Marts. O Data

    Warehouse  como o Data Mart  serve de fonte de dados para exploração OLAP e

    Data Mining, com resultado final exibido em interface intuitiva os dados explorados.

    Figura 1: Processo de BI (Business Intelligence)

    Fonte: Miranda (2010)

    Um dos principais problemas encontrados durante o processo de extração

    dos dados de outras fontes é a forma de que estes dados estão modelados,

    dificultando todo o processo de BI, para isto o processo de Extraction,

    Transformation and Loading (ETL) cuida do tratamento.

    2.2.1 Fontes de dados

    As fontes de dados são necessariamente os softwares instalados naempresa, por exemplo: (aplicativos comerciais, sistema de estoque, base de dados,

    etc.), dados externos (internet, documentações), planilhas eletrônicas. Toda a fonte

    de dados possui seu repositório de dados independente com o objetivo de realizar

    as atividades e armazenar seus dados.

  • 8/18/2019 TCC Cairo Da Silva Borges

    14/61

    14

    2.2.2 ETL (Extraction, Transformation and Loading)

    ETL basicamente, esse processo indica que as informações devem ser

    extraídas das bases transacionais, transformadas para se adequar ao modelomultidimensional definido, e carregadas no Data Warehouse. Existem diversas

    ferramentas que visam apoiar a execução desse processo. Durante o processo a

    parte mais difícil se encontra na transformação, pois, indica as regras que devem ser

    aplicadas sobre os dados para evitar redundâncias e inconsistências garantindo uma

    visão única e integrada dos dados. O processo de ETL possibilita extrair os dados

    de diversas fontes criando uma visão única e consistente dos dados, a seguir a

    figura 2, ilustra o processo de ETL.

    O processo de ETL deve ser realizado de forma dinâmica sem deixar de lado

    a regra de negócio que a empresa definir, deixando os dados de todo o processo de

    forma simples para compreensão.

    2.2.3 Modelagens

    O SGBD possibilita que os usuários definam os dados que serão

    armazenados em forma de modelo de dados, as modelagens podem ser definidas

    como:

    •  Modelagem Relacional:

    A modelagem relacional foi criada para facilitar os acessos aos dados

    possibilitando que os usuários utilizassem uma grande variedade de abordagens no

    tratamento das informações, conforme Rodriguez (2000) este modelo está baseado

    Figura 2: Processo de ETL

    Fonte: Withee (2010, Pag. 78)

  • 8/18/2019 TCC Cairo Da Silva Borges

    15/61

    15

    no modelo matemático de relacionamento de conjuntos, a estrutura de dados é

    flexível tornando a visão dos dados simplificada.

    Seu principal conceito é a Entidade Relacionamento (ER), que descreve todosistema e o relacionamento entre os dados em um modelo gráfico.

    A modelagem relacional é a mais utilizada para modelagem de dados, pela

    sua forma estruturada de relacionar os dados.

    •  Modelagem Orientada a Objetos:

    Os conceitos de orientação a objetos também pode ser representada em

    banco de dados assim como na programação, Rodriguez (2000) representa uma

    estrutura, onde os dados são tratados como objeto e através disso é possível

    relacionar com atributos. De acordo com Figueiredo e Soares (2005) em seu artigo

    define a comparação entre modelagem relacional e modelagem orientada a objetos,

    enquanto a modelagem estruturada relacional baseia-se em conceitos de entidades

    e atributos, tais como relacionamentos, normalização, chaves para evitar a

    redundância e inconsistência à modelagem orientada a objetos se define

    basicamente em conceitos, estruturas e modelos baseados no mundo real.

    •  Modelagem Multidimensional:

    Apresenta características de utilizar uma estrutura de dados em dimensões,

    através de uma tabela centralizadora (tabela fato), e de tabelas que se relacionam

    com a mesma, chamada de tabela dimensões, enquanto a tabela fato armazena as

    medidas e variáveis, as tabelas dimensões caracterizam por apresentar visões sobre

    as medições e formas de visualizar os dados.

    Através de uma estrutura multidimensional se torna mais fácil a análise dos

    dados de forma detalhada sendo mais efetiva para o ambiente empresarial. A

    implementação se torna mais complexa necessitando de uma linguagem para o

    modelo, como a “MDX”, sendo muito parecida com o SQL, porém suporta realizar

    consultas de n dimensões, enquanto o SQL suporta apenas duas dimensões, das

    vendas por tempo como mostra a figura 3.

  • 8/18/2019 TCC Cairo Da Silva Borges

    16/61

    16

    Surgiu então o conceito de cubo, pois o mesmo apresenta uma melhor visão

    dos dados explorados, a figura 4 mostra um modelo de cubo, o assunto será mais

    detalhado no item 2.2.6. 

    Segundo Maganha (2006), a modelagem multidimensional permite que o

    usuário final observe seu banco de dados em formato de cubo com n dimensões, o

    número de dimensões é definido pelo projetista baseado em aspectos comuns de

    negócio da empresa.

    A modelagem multidimensional é a forma mais indicada para realizar a

    visualização de dados estruturados em várias dimensões realizando uma exploraçãomais efetiva dos dados.

    Figura 3: Visão SQL e Multidimensional

    Fonte: Autor Próprio (2010)

    Figura 4: Cubo de dados sob visão Multidimensional

    Fonte: Oracle (2010)

  • 8/18/2019 TCC Cairo Da Silva Borges

    17/61

    17

    2.2.4 Data Warehouse e Data Marts 

    Segundo Ramakrishnan (2008) o Data Warehouse  contém dados de

    diferentes fontes de dados, cobrindo um longo período de tempo. Data Warehouse 

    quer dizer (armazém de dados), os dados deste ambiente são utilizados de forma

    analítica para o processo de tomada de decisão dos negócios.

    Para visualizar e realizar as análises sobre os dados armazenados no Data

    Warehouse  podem ser utilizadas, basicamente, duas abordagens: ferramentas

    OLAP e mineração de dados. Conforme Araújo (2007) a tecnologia OLAP possibilita

    às organizações um método de acesso, visualização, e análise de dados

    corporativos com alta flexibilidade e desempenho, por meio de relatórios e análises acubos de dados. De acordo com Alves (2009) Data Mart  são na verdade um

    subconjunto de informações existentes no Data Warehouse, cujo desenho é

    elaborado de tal forma a atender a um segmento ou unidade de uma organização.

    Como mostra na figura 5, a melhor estrutura de uma Data Warehouse  é

    quando ele é composto por Data Marts, se não houver esta organização a

    complexidade de exploração e organizações dos dados serão imensas, além de

    gerar uma manutenção mais árdua e complexa. Data Mart é um subconjunto de uma

    Data Warehouse, cujo objetivo é facilitar a exploração de dados por áreas.

    Figura 5: Visão Data Warehouse e Data Marts

    Fonte: Autor Próprio (2010)

  • 8/18/2019 TCC Cairo Da Silva Borges

    18/61

    18

    Conforme Barbieri (2001) o Data Warehouse é um banco de dados orientado

    por assunto, não volátil, integrado e variante ao tempo. O alto nível de complexidade

    para o desenvolvimento de certos Data Warehouse, faz com que seja necessário

    iniciar o desenvolvimento através de Data Marts departamentais, que ao final, serão

    integrados ao Data Warehouse.

    2.2.5 Exploração dos dados

    A exploração de dados é a área que se dedica a busca do conhecimento

    através de grande quantidade de dados históricos. É notório que toda empresa

    necessita de conhecimento, porém é assegurado que existem passos anteriores

    como a obtenção de dados e consolidação destes em informação.

    Segundo Bispo (1998) as decisões são tomadas baseando-se em

    comparações e em tendências; é necessário realizar-se análises em diversas

    perspectivas (dimensões) do negócio com o passar do tempo.

    O Data Warehouse  é a fonte para a exploração dos dados, Data Mining  e

    OLAP são as técnicas mais utilizadas.

    Enquanto as técnicas de OLAP objetivam trabalhar os dados existentes,buscando consolidações em vários níveis, trabalhando fatos em dimensõesvariadas, a técnica de Data Mining busca algo mais que a interpretação dedados existentes. Visa fundamentalmente realizar inferências, tentandocomo que “adivinhar” possíveis fatos e correlações não explicitadas nasmontanhas de dados de uma Data Warehouse / Data Marts  (BARBIERI,2001. Pag. 424).

    Com a exploração dos dados pode-se utilizar as técnicas de Data Mining  e

    OLAP, a fim de proporcionar uma melhor análise dos dados.

    2.2.5.1 Data Mining (Mineração de dados)

    Segundo Bispo (1998), Mineração de dados (Data Mining) faz uso de técnicas

    de inteligência artificial, lógica fuzzy, redes neurais e outras, que buscam nos

    históricos, de uma empresa, padrões e tendências nos dados. Com o uso de

    ferramentas de mineração é possível efetuar analises em grandes massas de dados

    e como resultado descobrir relacionamentos, padrões nas vendas gerando

    condições para a empresa realizar uma boa tomada de decisão.

  • 8/18/2019 TCC Cairo Da Silva Borges

    19/61

    19

    A tecnologia utilizada no Data Mining  procura em grandes quantidades de

    dados armazenados extrair padrões e relacionamentos que podem ser fundamentais

    para os negócios da empresa.

    Para exemplificar, pode-se descobrir que clientes estão comprando

    determinado produto, porque está comprando, a faixa etária dos clientes, qual

    horário que mais vende o local de venda de determinado produto, entre outros,

    enfim, dados que antes eram obscuros aos olhos de um analista, com o Data Mining 

    são visíveis.

    2.2.5.2 OLAP (Online Analytical Processing)

    OLAP é uma ferramenta de Business Intelligence utilizada para apoiar as

    empresas na análise de suas informações, visando obter novos conhecimentos que

    são empregados na tomada de decisão.

    Segundo Fonseca (2007) OLAP é parte da tecnologia de Data Warehouse 

    que habilita usuários a explorar interativamente.

    Bispo (1998) caracteriza a visão multidimensional dos dados é um conceito

    que pode parecer algo completamente abstrato; porém, é mais natural, mais fácil eintuitiva, permitindo a visão dos negócios da empresa em diferentes perspectivas e,

    assim, transformando os usuários em exploradores de informações.

    O termo OLAP refere-se com objetivo final de transformar dados em

    informações capazes de suportar as decisões gerenciais de forma amigável e

    flexível ao usuário e em tempo hábil. OLAP trouxe uma grande capacidade de

    efetuar cálculos complexos como previsões, percentuais de crescimento e médias

    diversas considerando-se a variável tempo.

    A tecnologia OLAP possibilita às organizações um método de acesso,

    visualização, e análise de dados corporativos com alta flexibilidade e desempenho

    Araújo (2007), por meio de relatórios e análises a cubos de dados. Um cubo de

    dados é uma representação intuitiva do fato a ser analisado.

    Partindo dos primórdios da informática, quando um sistema que gerava

    relatórios era a principal fonte de dados residentes na empresa, toda vez que umaanálise necessitasse ser feita, eram produzidos novos relatórios. Estes relatórios

  • 8/18/2019 TCC Cairo Da Silva Borges

    20/61

    20

    eram produzidos pela área de informática, precisavam de muito tempo para ficar

    prontos e também, apresentavam os seguintes problemas: estáticos e com acúmulo

    de diferentes tipos de relatórios num sistema gerava um problema de manutenção.

    Os sistemas OLAP possibilitam efetuar diferentes tipos de consultas, eles

    efetuam a exploração dos dados no Data Warehouse. Neste tipo de análise

    denominada multidimensional os dados são representados como dimensões em vez

    de tabelas.

    O OLAP é uma solução de ambiente, integração e modelagem de dados. A

    maioria dos dados de uma aplicação OLAP, é originária de outros sistemas e fontes

    de dados. Para formular a topologia e o projeto de uma solução OLAPmultidimensional as seguintes perguntas devem ser feitas: Quando?, O quê?, Onde?

    e Quem?. Essas perguntas formam a base de todos os campos multidimensionais. A

    obtenção dos dados originários das respostas são destinados ao Data Warehouse e,

    possivelmente para um ou vários Data Marts.

    As ferramentas OLAP são conhecidas pela sua flexibilidade, tem como

    principal características a visão multidimensional dos dados, sendo capaz de

    mostrar os dados de uma empresa através de várias perspectivas, ou seja, onde

    antes havia uma consulta simples em uma tabela relacional, agora se pode ter em

    mãos uma consulta onde várias tabelas relacionadas ou não podem ser vistas,

    manipuladas, comparadas e exploradas, a fim de identificar tendências e conduzir os

    negócios com precisão milimétrica nas decisões.

    Outra característica do OLAP, que o diferencia da mineração, é o fato de que

    a relação entre os dados não é apresentada diretamente, mas sim fornecendo uma

    interface intuitiva para consultas do usuário, onde o mesmo interage com as

    dimensões, faz consultas, verifica informações em profundidade e compara as

    informações.

    2.2.6 Cubos de dados OLAP

    O conceito de cubo foi associado devido à semelhança entre as técnicas de

    modelagem e a apresentação visual de um cubo. A diferença entre o cubo de 6

    lados para o cubo OLAP, é que o segundo não apresenta limite de dimensões

  • 8/18/2019 TCC Cairo Da Silva Borges

    21/61

    21

    (lados) e medidas (tabela fato), sendo assim o primeiro serve apenas para conceito

    de multidimensão.

    O cubo possui dimensões e medidas associadas, e os dados são

    armazenados na forma de células.

    Um cubo de dados é um tipo de matriz multidimensional que permite que osusuários explorem a analisem uma coleção de dados de muitasperspectivas diferentes, geralmente considerando três fatores (dimensões)de cada vez (KAY, 2010).

    A Figura 6 apresenta os dados em forma de “cubo de 6 lados”, com três

    dimensões “produto”, “local” e “tempo”, ou seja, a quantidade vendida, pode ser

    visualizada quanto pela data, como por produto vendido e local de venda, neste

    caso podemos realizar consultas com “n” dimensões, usando a linguagem MDX, que

    será discutida nos próximos tópicos, e não se limitando a consultas simples como no

    uso da linguagem SQL.

    Quanto à forma de visualização dos dados no cubo, tem que ser explorado

    para que todos os lados sejam visíveis, visualizando assim as vendas de forma

    dinâmica e intuitiva, a figura 7 exibe a explosão do cubo de dados já a figura 8

    mostra a sua forma de organização.

    Figura 6: Cubo de dados

    Disponível in: Oracle (2010).

  • 8/18/2019 TCC Cairo Da Silva Borges

    22/61

    22

    O Data Warehouse  irá servir como base para construção dos cubos

    multidimensionais.

    As consultas OLAP são consultas de agregação. Os analistas queremrespostas rápidas para estas consultas sobre conjunto de dados muitogrande é natural considerar a computação prévia de visões(RAMAKRISHNAN, 2008. Pag. 706).

    Um cubo de dados é constituído por tabelas fatos e dimensões. As tabelas de

    fatos representam o tema central do cubo e contêm atributos que são medidas

    numéricas, pelas quais se quer analisar as relações existentes entre as dimensões.

    2.2.6.1 Tabela fato

    No modelo multidimensional um fato é representado por uma tabela fato. Uma

    tabela fato é constituída de valores quantitativos e numéricos que representam um

    assunto especifico no Data Warehouse.

    Figura 7: Explosão do Cubo

    Fonte: Autor próprio (2010)

    Figura 8: Organização da medida e dimensões.Fonte: Autor próprio (2010)

  • 8/18/2019 TCC Cairo Da Silva Borges

    23/61

    23

    Um conceito de tabela fato é citado conforme Imhoff e Geiger (2003) uma

    tabela fato é a tabela dentro de um modelo dimensional que contém as medidas e

    métricas de interesse.

    Segundo Inmon (1997) a tabela fato é altamente indexada, ou seja, possui

    muitos índices. Em alguns casos todas as colunas da tabela fato são indexadas. O

    resultado que se obtém indexando todos os dados é uma tabela fato muito

    acessível. Como regra, a tabela fato não é atualizada. Cada dado carregado é

    armazenado em um novo registro.

    Conforme mostra a figura 9 a tabela vendas é caracterizada como a tabela

    fato.

    2.2.6.2 Tabela dimensão

    Uma dimensão se constitui de elementos que permitem caracterizar um

    determinado fato, a figura 10 representa as dimensões mês, cliente, produto e

    região. Assim formando as dimensões da tabela fato vendas.

    Figura 9: Tabelas dimensões e Tabela fato

    Fonte: Devmedia 2010 .

    Figura 10: Tabela Dimensões

    Fonte: Devmedia (2010)

  • 8/18/2019 TCC Cairo Da Silva Borges

    24/61

    24

    Conforme Martins (2007), as informações são do tipo, tempo, geografia,

    produto, cliente entre outros. Sendo assim compostas por atributos e uma única

    chave primária, que interliga a tabela dimensão com a tabela fatos.

    Uma tabela dimensão é um conjunto de tabelas de referências queprovêem a base para restringir a agrupar consultas para informaçãoem uma tabela fato dentro de um modelo dimensional. A chave databela dimensão tipicamente é uma parte da chave concatenada databela fato, e tabela dimensão contém informação descritiva ehierárquica (IMHOFF, GALEMMO E GEIGER, 2003, p.400).

    Um modelo dimensional deve responder a algumas perguntas sobre o fato,

    onde aconteceu, quando aconteceu, o que aconteceu, e com quem aconteceu, a

    Figura 11 ilustra este modelo.

    Na visão de usuário, a tabela dimensão pode ser descrita como uma visão ou

    perspectiva do modelo analisado, pode-se dizer então que seria a pergunta de um

    determinado modelo de negócio, onde a resposta seria apresentada na tabela fato.

    2.2.6.3 Técnicas de Modelagem

    Segundo Felber (2005), existem várias técnicas de modelagem

    multidimensional e relacional, dentre elas, as mais utilizadas são: Star Schema 

    (esquema estrela) e Snowflake (esquema flocos de neve).

    Figura 11: Representando as dimensões do fato.

    Fonte: Machado (2004, pág. 115).

  • 8/18/2019 TCC Cairo Da Silva Borges

    25/61

    25

    •  Star Schema (esquema estrela)

    A tabela de fatos conecta-se as demais por múltiplas junções, e as tabelas de

    dimensões se conectam com a tabela de fatos com apenas uma junção, como

    mostra a Figura 12.

    De acordo com Colaço (2004) como o próprio nome já diz, ele tem

    semelhança com uma estrela, sendo que é composta por uma grande entidade, ou

    melhor, uma tabela central dominante, chamada de tabela fato. No conjunto de

    entidades, ou tabelas menores, que são arranjadas ao redor da tabela de fato, são

    denominadas tabelas de dimensão.

    •  Snowflake (esquema de floco de neve)

    O modelo Floco reduz o espaço de armazenamento dos dados dimensionais,

    mas acrescenta várias tabelas ao modelo, conforme mostra a figura 13.

    “O modelo floco de neve é o resultado da decomposição de uma ou maisdimensões, que possui hierarquia entre seus membros, pode se definirrelacionamentos muitos para um entre os membros de uma dimensão,formando, por meio desses relacionamentos entre entidades de dimensão,uma hierarquia é o resultado da aplicação da terceira forma normal sobre asentidades de dimensão” (MACHADO, 2000, p. 74).

    Figura 12: Representa a disposição das dimensões no modelo estrelaFonte: Machado (2004, pág. 93)

  • 8/18/2019 TCC Cairo Da Silva Borges

    26/61

    26

    Figura 13: Representa a disposição no modelo Flocos de Neve

    Fonte: Machado (2004, pág. 94)

    O Modelo deixa mais complexa a exploração dos dados, tornando mais difícil

    a navegação pelos softwares que utilizarão o banco de dados.

    2.2.6.4 Operações em cubo OLAP

    As características presentes nas ferramentas OLAP é a forma de operar os

    dados, como por exemplo, as operações de tipo, segundo Araújo (2007):

      Slice and DiceÉ uma das principais características de uma ferramenta OLAP. Modifica a posição

    de uma informação dentro do cubo através da troca de linhas e colunas.

    •  Drill Down

    Aumenta o nível de detalhe da informação consultada.

    •  Drill Up

    Diminui o nível de detalhe da informação.

      Drill AcrossPassa de um nível para outro na dimensão pulando algum nível intermediário.

  • 8/18/2019 TCC Cairo Da Silva Borges

    27/61

    27

    •  Drill Through

    Passa de uma informação contida numa dimensão para outra.

    Outras operações que podem ser encontradas no OLAP, mas com objetivosmais específicos são Drill Out, Drill Within, Sort, Ranking, Pivoting, Paging, Filtering,

    Tiling, Alerts, Break.

    2.2.7 Linguagens

    Nos cubos OLAP, destaca-se as linguagens, MDX Para realizar consultas

    multidimensionais, e para padronização dos códigos de busca o XML. 

    2.2.7.1 XML (Extensible Markup Language)

    O Extensible Markup Language (XML) surgiu com o principal intuito de

    padronização do código e segundo Benedito (2010), suas principais características

    são buscas mais eficientes, desenvolvimento de aplicações flexíveis para web,

    integração de dados de fontes diferentes, computação e manipulações locais,

    múltiplas formas de visualizar os dados, atualização granulares dos documentos,

    fácil distribuição da WEB, escalabilidade e flexibilidade, separação do conteúdo da

    formatação, possibilidade de criação de tags sem limitação, interligação de banco dedados distintos, legibilidade do código.

    Extensible Markup Language (XML) é linguagem de marcação de dados(meta-markup language) que provê um formato para descrever dadosestruturados. Isso facilita declarações mais precisas do conteúdo eresultados mais significativos de busca através de múltiplas plataformas. OXML também vai permitir o surgimento de uma nova geração de aplicaçõesde manipulação e visualização de dados via internet (BENEDITO, 2010).

    2.2.7.2 MDX

    A Linguagem MDX é semelhante à linguagem SQL, porém possibilitaconsultas multidimensionais, diferente da SQL onde é possível efetuar consultas

    com no máximo duas dimensões.

    Linguagem de consulta à base de dados multidimensionais criada pelaMicrosoft® em 1998, semelhante à linguagem SQL, parte de um padrãoindustrial, o OLE DB for OLAP. Permite a especificação de até 128 eixos deconsultas, sendo, porém incomum a utilização de mais de 3 eixos(TENORIO, 2010).

    A linguagem MDX se torna uma fundamental característica das consultas em

    cubos OLAP, pela sua dinâmica multidimensional.

  • 8/18/2019 TCC Cairo Da Silva Borges

    28/61

    28

    2.2.8 Ferramentas OLAP

    No mercado de BI (Business Intelligence) existem inúmeras ferramentas de

    soluções para OLAP, que proporcionam as empresas condições e características

    próprias para realizarem apoio à tomada de decisão, como soluções SQL SERVER,

    ORACLE, IBM, etc.

    Estas ferramentas proprietárias fornecem soluções somente para seus

    SGBDS, forçando as empresas utilizar estes recursos. Surge então às ferramentas

    gratuitas como o PENTAHO, uma ferramenta sob licença livre capaz de operar com

    a maioria dos SGBDS existentes no mercado. 

    2.3 PENTAHO uma ferramenta Open Source de BIO Pentaho Open Source Business Intelligence de acordo com Pentaho (2010)

    é uma plataforma completa de Business Intelligence (BI), desenvolvida, distribuída e

    implantada como código aberto, que inclui recursos de geração de relatórios,

    integração e armazém de dados (Data Warehouse), análise de informações em

    tempo real, painéis de controle gerencial, mineração de dados (Data Mining) e

    modelos estatísticos. Essa solução, atualmente, é a mais popular dentre as soluções

    de BI em código aberto do mundo. Ela é distribuída em duas versões: a versãoCommunity  (livre, gratuita) e a versão Enterprise  (paga). A plataforma Pentaho é

    composta por vários componentes que podem ser usados integrados, como um

    pacote de soluções, ou isoladamente, para atender necessidades específicas.

    2.3.1 A Plataforma

    A solução Pentaho  define-se a si mesma como uma plataforma de BI

    orientada para a solução e centrada em processos. Ou seja, não só apresenta os

    resultados de uma forma única e dando uma visão geral do estado da empresa,como implementa os próprios processos (workflow) para a resolução de problemas

    detectados e apresentados. Segundo Pentaho (2010) a Pentaho  Inc. integrou e

    promoveu o desenvolvimento de ferramentas open source que fornecem os recursos

    para criação de soluções de BI. O conjunto é conhecido por Pentaho Open BI Suíte

    (ou Suíte Pentaho), incluem as suítes Reporting  (Relatórios),  Analysis (Exploração

    dos dados), Data Integration  (Extração dos dados), Dashboards  (Relatórios

    personalizados) e Data Mining  (Mineração de dados). Devido à sua estrutura emcomponentes, a Suíte pode ser utilizada para atender demandas que vão além do

  • 8/18/2019 TCC Cairo Da Silva Borges

    29/61

    29

    escopo das Soluções de BI mais tradicionais. A figura 14 ilustra o processo da

    plataforma do Pentaho Open BI Suíte, o presente trabalho utilizou-se da versão 3.5.

    As principais funcionalidades disponíveis, segundo Felber (2005) são:

    •  Relatórios (Reporting):  Fornece desde simples relatórios em uma página

    WEB, relatórios de alta qualidade tais como relatórios de indicações

    financeiras e relatórios ricos em conteúdos como tabelas, gráficos entre

    outros.

    •  Análises ( Analysis):  Permite consultas de exploração interativa com

    operações slice-and-dice, drill-down e pivoting. Para exploração dos cubos

    OLAP.

    •  Painéis (Dashboards):  Reúnem relatórios, análises e outras exposições em

    um único local para simplificar o acesso, podendo ser customizado por

    usuário, role ou assunto.

    •  Data Mining:  Descobre relacionamentos ocultos nos dados, que podem ser

    utilizados para otimizar os processos de negócio e prever resultados futuros.

    Figura 14: Plataforma Pentaho Open BI Suíte

    Fonte: Miranda (2010)

  • 8/18/2019 TCC Cairo Da Silva Borges

    30/61

    30

    Permite que os resultados sejam exibidos em um formato de fácil

    entendimento ao usuário.

    •  Workflow:  Liga diretamente as medidas de desempenho de negócio aos

    processos, promovendo um ciclo contínuo de melhorias.

    2.3.2 Características

    Conforme Pentaho (2010) O Pentaho reuniu inúmeras características que o

    faz ser o software livre de BI (Business Intelligence), mais utilizado no mercado,

    entre as principais estão:

    •  Preço: O Projeto Pentaho considerado Open source, ou seja, o programa é

    distribuído gratuitamente com seu código-fonte aberto.

    •  Usabilidade:  A plataforma BI tem componentes de fácil integração com

    sistemas externos, e oferece interfaces de fácil customização.

    •  Orientação a ferramentas:  A plataforma de BI é centrada em processos e

    soluções. Ela não é projetada para ser um conjunto de ferramentas isoladas,

    é um sistema completamente integrado.

    •  Extensão:  O código fonte é fornecido. A infra-estrutura, componentes,

    mecanismos e interfaces podem ser facilmente modificados.

    •  Foco em relatórios: A plataforma pode ser facilmente integrada aos processos

    de negócios e tem facilidades para a geração de relatórios. Regras de

    negócios são usadas para identificar problemas e exceções.

    2.3.3 Ferramentas

    A plataforma Pentaho  é composta por vários componentes que podem ser

    usados integrados, como um pacote de soluções, ou isoladamente, para atendernecessidades específicas que são segundo Pentaho (2010):

    Mondrian – Servidor OLAP

    Jpivot – Visualização de cubos multidimensionais.

    Weka – Mineração de dados

    Kettle – Integração de dados

    JFreeReport – Gerador de relatórios

  • 8/18/2019 TCC Cairo Da Silva Borges

    31/61

    31

    Schema Workbench – Criação dos cubos

    •  Mondrian

    De acordo com Neto (2008) o Mondrian é um servidor OLAP, escrito em Java,e que foi incorporado como ferramenta ao pacote Pentaho. Ele executa consultas

    escritas na linguagem MDX e converte para SQL, lendo dados de bases relacionais

    e apresentando os dados no formato multidimensional, através de uma API Java.

    •  JPivot

    Um das principais ferramentas que realizam a comunicação entre Mondrian e

    usuário é o Jpivot, uma interface gráfica desenvolvida em Java com código aberto,

    para visualização de cubos multidimensionais. É através dele que são feitas asconsultas no cubo e também onde o cubo é visualizado, a figura 15 apresenta-se

    algumas funcionalidades do Jpivot.

    1:  Esta opção permite colocar as dimensões em linhas, colunas ou passar por

    filtros. Os filtros, também conhecidos como Slicer (fatiar) permitem filtrar os dados

    contidos em uma dimensão membro, colocá-los em diferentes posições para melhor

    análise.

    2: Esta opção permite a visualização e / ou editar a MDX para a atual consulta.

    3: Permite organizar os valores dos campos em ordem crescente ou

    decrescente, mostrar ou ocultar membros.

    4: Mostra os membro (s) pai de uma consulta em uma linha.

    5: Impede a exibição de cabeçalhos repetidos ou que retornem valor zero, do

    tipo “All produto”, fazendo com que assim múltiplos campos da próxima dimensão

    sejam relacionadas com apenas um campo.

    6: Inverte colunas/linhas ou linhas/colunas

    Figura 15: Barra de ferramentas JPivot 

    Fonte: Autor Próprio (2010)

  • 8/18/2019 TCC Cairo Da Silva Borges

    32/61

    32

    7-8-9: Botões de Drill up e Drill down, que controlam o comportamento de uma query

    de diferentes modos de detalhamento.

    10:  O Drill Through  adiciona uma seta indicativa nas medidas que possibilitemuma visualização mais especifica. 

    11:  Mostra o gráfico referente a consulta atual.

    12: Configura o gráfico, deixando personalizado da forma que o usuário desejar.

    13: Configuração de impressão.

    14: Exporta para PDF.

    15:  Exportar para o Excel.

    O Jpivot permite realizar toda a exploração através das tabelas do cubo e a

    analise das mesmas, a figura 16 ilustra a visualização de um cubo de dados no

    Jpivot:

    Figura 16: Visualização dos dados com o JPivot 

    Fonte: Autor Próprio (2010)

    •  Weka

    O Weka é um ambiente gráfico para Data Mining. Segundo Pentaho (2010)

    Permite ao usuário criar e testar hipóteses contra as bases de dados. Existem

    grandes potencialidades na utilização de Data Mining  para apoiar o processo de

    tomada de decisão.

  • 8/18/2019 TCC Cairo Da Silva Borges

    33/61

    33

    •  Kettle

    Faz parte da suíte do Data Integration, e utiliza as técnicas de ETL, para a

    obtenção dos dados que virão das várias fontes de dados, e que obrigatoriamente

    teremos de cruzá-las em algum momento dentro do ciclo de ETL. Conforme Pentaho

    (2010) o Kettle  é capaz de ler e escrever em vários formatos de SGBD, como

    Oracle, PostgreSQL, SQLServer, MySql, entre outros, e importar arquivos texto (csv

    ou fixo), planilhas Excel e bases de dados ODBC (apenas em Windows). Ele é um

    ambiente gráfico no qual conexões com fontes de dados são estabelecidas e

    seqüências de passos executam a extração de dados, sua modificação e a carga

    desses em um destino. O Kettle  pode integrar dados entre empresas e sistemas,

    substituindo a criação de camadas de programas para integração por operaçõesvisuais.

    •  JFreeReport

    Uma das principais funcionalidades é a geração de indicadores, como

    gráficos e painéis (Dashboards), os dois podem ser conectados a uma base de

    dados em uso, e apresentar os dados em tempo real. Os gráficos podem ser criados

    com modelos pré-definidos ou via Wizard com o sistema Report design, que se deu

    origem através do JFreeReport, tudo com uma interface fácil e intuitiva.

    •  Schema Workbench

    O Schema Workbench cria os cubos no formato XML que serão processados

    e exibidos pelo Pentaho. Ele tem uma interface visual para navegar entre as

    definições do cubo, permitindo criar, além de métricas, dimensões e hierarquias,

    muitas das estruturas que agregam valor na exploração de um cubo OLAP, como

    métricas derivadas, cubos virtuais (combinações de tabelas fato) e atributos dedimensões, a figura 17 exibe a tela do Schema Workbench, cujo foi desenvolvido em

     java.

  • 8/18/2019 TCC Cairo Da Silva Borges

    34/61

    34

    No próximo tópico será apresentada a ferramenta de estatística SPSS, que

    realiza a análise dos dados estatisticamente para apoiar a tomada de decisão, além

    disso, será abordada a técnica de Análise de variância (Anova) utilizada para

    comparar medidas e variáveis.

    2.4 SPSS (Statistical Package for the Social Sciences) 

    O software SPSS (Statistical Package for the Social Sciences) permite realizar

    cálculos estatísticos complexos, visualizar resultados de forma rápida permitindo

    assim aos seus usuários uma apresentação e uma interpretação sucinta dos

    resultados obtidos através de técnicas estatísticas, conforme Martinez e Ferreira(2007) com o SPSS é possível criar, definir e modificar variáveis, conhecer o número

    de casos e calcular percentuais para cada uma das variáveis existentes, calcular

    medidas simples e múltiplas, realizar cruzamentos de variáveis, gerar os mais

    diversos tipos de gráficos, verificar a existência de associações e/ou correlações

    entre variáveis, executar análises de variância, e muito mais, a imagem 18 exibe a

    tela inicial do SPSS, cuja apresenta semelhanças com o Microsoft Excel.

    Figura 17: Criação do cubo no Schema Workbench 

    Fonte: Autor próprio (2010)

  • 8/18/2019 TCC Cairo Da Silva Borges

    35/61

    35

    O SPSS pode ser utilizado nas mais diversas áreas do conhecimento e

    aplicações, tais como, marketing, psicologia, administração, educação, ciências

    sociais, serviço social, economia, finanças, saúde pública, pesquisa de mercado,pesquisa social, pesquisa eleitoral, pesquisa de opinião, pesquisa de mídia, entre

    vários.

    O software é proprietário da empresa IBM, sua licença é paga, a ultima

    versão atual do software é a 18.0, o sistema trabalha somente na plataforma

    Windows, as análises realizadas no sistema utilizarão somente menus e caixas de

    diálogos como mostra a figura 18, uma das principais técnicas utilizadas no software

    é a Anova (Análise de variância).

    2.4.1 Análise de variância (Anova)

    É uma técnica estatística cujo objetivo é decidir se existem ou não diferenças

    significativas entre as médias de várias amostras de uma variável numérica,

    definidas por diferentes tratamentos.

    De acordo com Naresh (2004) na forma mais simples pode ter somente uma

    variável dependente (sofre efeitos do tratamento), que seja métrica. Deve haver

    também uma ou mais variáveis independentes (é a causa ou tratamento numa inter-

    relação). 

    Figura 18: SPSS ela Inicial

    Fonte: Gerado pelo SPSS (2010)

  • 8/18/2019 TCC Cairo Da Silva Borges

    36/61

    36

    A saída final do teste de Anova é exibida através de uma tabela, onde consta

    a significância encontrada para tal teste, isto significa que é a probabilidade máxima

    de rejeitar acidentalmente uma hipótese nula ou verdadeira, como mostra a figura

    19:

    Conforme Aaker e George (2007) a tabela Anova é uma forma convencional

    de apresentar um teste de hipótese que trate das diferenças entre diversas medias,

    se a significância for acima de 0,05 isto expressa que não tem relação entre as

    variáveis (resultado nulo), caso o valor for abaixo, mostra-se então que possuirelação entre as mesmas (resultado verdadeiro).

    Figura 19: tabela Anova

    Fonte: Gerado pelo SPSS (2010)

  • 8/18/2019 TCC Cairo Da Silva Borges

    37/61

    37

    3. ESTUDO DE CASO

    O Estudo de caso aplicou-se a solução de BI ao Grupo de Postos de

    Combustíveis Pioneiro. A solução resume-se na construção de um cubo OLAP, ondeo mesmo explora uma grande massa de dados precisos e rápidos, referente às

    vendas ocorridas entre os anos de 2009 e 2010 e a comparando com os feriados e

    eventos socioeconômicos, A análise de vendas tem o propósito de servir como

    subsidio para uma melhor tomada de decisão de gerentes e gestores.

    3.1 A Empresa

    O Grupo de postos de Combustíveis Pioneiro é uma empresa revendedora

    dos produtos da empresa AleSat Combustíveis S.A. (Grupo ALE) a quarta maior

    distribuidora de combustíveis do Brasil. 

    O Grupo Pioneiro é uma empresa de médio porte com um total de 13

    colaboradores, atuando desde 2003 no estado do Maranhão nas cidades de Balsas

    e Açailândia.

    Para fins de gerenciamento como mostra a figura 20 o grupo utiliza um

    sistema web desenvolvido em PHP que utiliza banco de dados MYSQL, ao todo são33 tabelas que realizam o armazenamento dos dados diários de controle de

    estoque, vendas e financeiro, o sistema não utiliza o conceito de BI (Business

    Intelligence) deixando o gestor limitado à exploração de dados, dificultando os

    cenários que possam vir a acontecer com o decorrer das vendas.

    Figura 20: Sistema WebFonte: Autor Próprio (2010)

    http://pt.wikipedia.org/wiki/Brasilhttp://pt.wikipedia.org/wiki/Brasil

  • 8/18/2019 TCC Cairo Da Silva Borges

    38/61

    38

    Diversos relatórios são gerados por dia com pouco poder de estabelecer uma

    análise dinâmica e intuitiva, quando se espera uma análise de todas as vendas do

    ano o fluxo de informações a serem processadas pelo sistema. Se torna-se lento e

    demorado ocasionando o travamento, a arquitetura do ambiente do sistema é

    representada pela figura 21.

    Uma das principais características da aplicação utilizada na empresa é a

    mobilidade, pode-se ser utilizada em qualquer lugar que esteja, caso tenha acesso a

    internet, com isso facilita a consulta dos dados atuais.

    A figura 22 mostra que os relatórios atuais não disponibilizam uma consulta

    multidimensional (produto, filial, tempo, vendas), somente consultas SQL’S de duas

    dimensões. Não agregam em um único relatório todos os dados das empresas do

    grupo.

    Figura 21: Arquitetura da aplicação

    Adaptação de: Linha de código (2010).

  • 8/18/2019 TCC Cairo Da Silva Borges

    39/61

    39

    Para solucionar o problema de análise da empresa, foi proposto a criação de

    um ambiente de exploração OLAP para analisar os dados das vendas realizadas no

    período de 2009 e 2010.

    3.2 As vendas

    A realização das vendas do grupo apresenta índices de variâncias com

    decorrer de cada mês, sem uma análise mais detalhada, os dados somente

    apresentavam condições aos gestores realizarem pequenas tomadas de decisões

    sem favorecer o seu produto e até mesmo o seu cliente, neste cenário os feriados e

    eventos socioeconômicos que por ventura poderiam ou não contribuir para o

    aumento das mesmas, não eram mensurados e nem tão pouco acompanhados

    como fatores chaves de sucesso.

    Os produtos vendidos se constituem de gasolina comum, gasolina aditivada e

    diesel na filial da cidade de Balsas – MA (Posto Modelo) e na matriz em Açailândia –

    MA (Posto Pioneiro) gasolina comum e diesel, o cenário de vendas em cada uma

    das cidades são bastante diferentes por questões sociais e econômicas. Balsas –

    MA agricultura se prevalece e movimenta a região, já em Açailândia – MA o setor de

    indústria e siderúrgicas fortalecem a economia local.

    As vendas em ambas as cidades são divididas em dois turnos, matutino que

    reflete ao horário de 05h00min da manhã até ás 13h00min da tarde, e vespertino

    que inicia às 13h00min até 22h:00min, o público alvo no grupo está relacionado a

    veículos automotores de pequeno porte como motocicletas, carros e caminhonetes.

    Figura 22: Relatório de vendas

    Fonte: Autor Próprio (2010)

  • 8/18/2019 TCC Cairo Da Silva Borges

    40/61

    40

    O processo de registro de vendas no sistema se estabelece em fechamentos

    de turnos, ou seja, no final de cada turno o responsável passa para a área

    administrativa o valor final de litros de cada bomba, após a conferência os dados são

    lançados no sistema. A cada dia se estabelece o fechamento dos turnos.

    3.3 A solução

    Procurando uma solução para o problema encontrado, buscou-se a

    construção de um cubo OLAP, referenciando às vendas do Grupo Pioneiro, que

    permitisse uma análise intuitiva dos dados armazenados no período de 2009 e 2010,

    bem como análise comparativa com os fatores socioeconômicos das cidades de

    Balsas-MA e Acailândia-MA.Foi necessário realizar um processo dividindo em oito fases, desde o

    detalhamento dos dados a serem explorados, bem como a descrição de cada campo

    do relatório ofertado, além da identificação dos dados do negócio, extração e

    transformação e carga dos dados (ETL), armazenamento e análise com os aspectos

    socioeconômicos de cada cidade, fornecendo assim um cenário mais probabilístico

    para uma boa tomada de decisão.

    Para iniciar o projeto a primeira etapa foi realizada uma entrevista com o

    gestor para definir quais as reais necessidades do grupo, neste processo foi

    identificada a necessidade de explorar as vendas de ambas as empresas, pois os

    relatórios atuais que o sistema da empresa apresentava, não geravam condições

    satisfatórias para uma análise fácil e intuitiva de ambas filiais do Grupo ao mesmo

    tempo, dificultando a tomada de decisão, a figura 23 mostra o relatório de vendas da

    filial de Açailândia-MA no sistema atual.

    Figura 23: Relatório de Vendas

    Fonte: Autor Próprio (2010)

  • 8/18/2019 TCC Cairo Da Silva Borges

    41/61

    41

    As dimensões a serem exploradas serão tempo, filial, produto, turno,

    definindo-se o modelo de exploração dos dados das vendas, o tempo será dividido

    em ano, mês e dia, facilitando a análise dos dados. A solução permitirá a análise dos

    dados como, quantidade vendida por filial, por data, produto e turno, assim como as

    suas tendências em determinados turnos e períodos de tempo.

    Com a delimitação do problema, iniciou-se então a formalização das

    dimensões que formarão o cubo, para confirma o modelo de negócio a ser

    explorada, a figura 24 exibe a modelagem multidimensional proposta.

    A segunda etapa se iniciou com um estudo no Data Warehouse que o grupo

    possuía, para validar se a modelagem atual se adequava para as soluções

    multidimensionais, a figura 25 exibe as tabelas exploradas no cenário de vendas, no

    total foram identificadas  6 tabelas (gasolina_aditivada, gasolina, diesel, caixa,valores e turno) nas 33 existentes.

    Foram utilizadas as tabelas (gasolina_aditivada, gasolina, diesel, caixa,

    valores e turno) devido a sua prevalência no processo de negócio do grupo, cujo

    necessita das informações correspondentes as tabelas para finalizar o faturamento

    das vendas ocorridas durante o dia.

    Figura 24: Dimensões do Cubo

    Fonte: Autor Próprio

  • 8/18/2019 TCC Cairo Da Silva Borges

    42/61

    42

    Com as tabelas extraídas foi identificado que na forma de modelagem que o

    contexto de vendas estava não era propícia para uma exploração multidimensional

    do cubo OLAP, pois a modelagem de cubo OLAP necessita de uma Tabela Fato e

    tabelas dimensões, com isso se se tornou necessário a criação de um Data Mart de

    vendas, na qual irá armazenar os dados dos dois Data Warehouses  do grupo,

    centralizando as informações, facilitando assim a exploração dos dados de forma

    mais simples e objetiva.

    A terceira etapa do processo se iniciou com a criação de um Data Mart, foi

    criado para centralizar as informações de vendas em uma única base de dados, com

    base na modelagem do tipo Star Schema, foi desenvolvido neste modelo devido a

    facilidade de criação de um ambiente de exploração de um cubo OLAP no mesmo, o

    modelo de relacionamento no Data Warehouse  do grupo foi quebrado e dando

    origem a um novo modelo de relacionamento no Data Mart, como mostra a figura 25,

    ele apresenta a tabela fato (vendas) juntamente com as tabelas dimensões (tempo,

    turno, produto, filial).

    Figura 25: Tabelas do Data Warehouse vendas

    Fonte: Autor Próprio(2010)

  • 8/18/2019 TCC Cairo Da Silva Borges

    43/61

    43

    Com o Data Mart construído e as dimensões definidas, iniciou a quarta etapa,

    que se define como a transformação dos dados armazenados nos Data Warehouses para o Data Mart central, este processo de ETL é considerada uma das principais

    etapas, pois os dados serão extraídos e transformados para as consultas, para

    realizar este processo de forma intuitiva e automática foi desenvolvido um framework 

    em PHP, que constitui em uma página web capaz de extrair os dados dos Data

    Warehouses  para um Data Mart  dinamicamente, a figura 27 mostra o framework 

    construído, ao todo foram mais de 10.000 registros explorados e transformados.

    Figura 26: Data Mart Vendas

    Fonte: Autor Próprio(2010)

  • 8/18/2019 TCC Cairo Da Silva Borges

    44/61

    44

    No momento que o botão Deploy  e acionado, os dados começarão a ser

    processados conforme o processo de ETL citado no item 2.2.2, nesta etapa de

    filtragem, dados nulos, com campos incorretos ou duplicados, foram identificados e

    descartados, o filtro é executado pelo framework, cada botão referencia um tipo de

    produto vendido para cada filial, após os dados são armazenados no Data Mart de

    vendas.

    O modelo do banco dimensional não é suficiente para o Pentaho identificar os

    cubos e dimensões. É necessário criar um arquivo XML descrevendo quais são os

    cubos e dimensões e suas respectivas tabelas associadas, para isto a quinta fase se

    inicia, com a configuração do Data Mart no Schema Workbench, a figura 28 exibe a

    configuração utilizada no trabalho.

    Figura 27: Framework em PHP para importação de dados

    Fonte: Autor Próprio (2010)

    Figura 28: Configuração para conexão com banco de dados

    Fonte: Gerado pelo Schema Workbench (2010)

  • 8/18/2019 TCC Cairo Da Silva Borges

    45/61

    45

    A configuração deve ter como parâmetro o driver de conexão Java, além da

    URL de conexão, assim como o usuário e password da base de dados.

    O Schema Workbench  é um software de criação de cubos OLAP que faz

    parte do pacote de suíte do Pentaho, a sua escolha foi devido a sua interface

    amigável tornando o desenvolvimento mais intuitivo, a figura 29 exibe a visualização

    da montagem do cubo.

    Todas as tabelas utilizadas para a montagem do cubo são do Data Mart  de

    vendas criado, as dimensões a serem exploradas foram definidas como filial,

    produto, tempo e turno, como medidas foram consideradas o total de litros e total em

    reais, assim foi atribuído o agregador ‘sum’, para realizar a somatória dos dados

    explorados conforme o cenário analisado, a figura 30 exibe mais detalhado o

    esquema montado para o cubo OLAP.

    Figura 29: Criação do cuboFonte: Gerado pelo Schema Workbench (2010)

  • 8/18/2019 TCC Cairo Da Silva Borges

    46/61

    46

    O Schema Workbench  por fim, publicará este esquema montado do cubo

    através de um arquivo XML para o servidor Mondrian, que será o responsável pela

    interpretação do Schema no Pentaho e interpretar as consultas Multidimensionais.

    Para o Pentaho realizar o acesso ao Data Mart  é necessário realizar a

    configuração de acesso a base, a figura 31 ilustra a configuração da base de dados

    com o Pentaho, uma das principais características é que pode-se realizar a conexão

    com vários tipos de banco de dados como Firebird, Mysql, Oracle, SqlServer etc.

    Figura 30: Criação do cubo OLAP com as dimensões

    Fonte: Gerado pelo Schema Workbench (2010)

  • 8/18/2019 TCC Cairo Da Silva Borges

    47/61

    47

    Após a publicação do arquivo XML do Schema do cubo, começa a sexta fase

    que realiza a interpretação do cubo montado com os dados do Data Mart de vendas,

    conforme a figura 32 .

    Figura 31: Configuração com o Data Mart

    Fonte: Gerado pelo Pentaho (2010)

    Figura 32: New Analysis View para visualização do Cubo OlapFonte: Gerado pelo Pentaho (2010)

  • 8/18/2019 TCC Cairo Da Silva Borges

    48/61

    48

    O  Analysis View utiliza como cliente o JPivot e a engine do Mondrian. Exibe a

    Interface final do usuário, o software provê os recursos necessários para o

    gerenciamento de dados do Data Mart de forma fácil e dinâmica facilitando a análise

    do cubo, o Mondrian é configurado através de esquemas montados no Workbench,

    é o principal responsável interpretação das consultas MDX no cubo de dados, as

    consultas MDX são realizadas online, sendo exibida no próprio JPivot, a figura 33

    exibe um exemplo de consulta MDX no Data Mart de vendas .

    Se iniciou o processo de visualização do cubo de dados (sétima fase) atravésdo Analysis View criado, o JPivot possibilita o carregamento das definições do cubo,

    assim como a toolbar, que manipula as informações, afim de permitir segmentar a

    informação por eixos de análise, permitindo a análise da informação com base em

    várias perspectivas. Com isso é possível a compreensão das informações de uma

    forma mais intuitiva, uma vez que a solução permite decompor os valores nas

    diferentes perspectivas de análise, a figura 34 representa o cubo com os dados do

    Data Mart.

    Figura 34: Visualização do Cubo OLAP

    Fonte: Gerado pelo Pentaho (2010)

    Figura 33: Consulta MDX

    Fonte: Gerado pelo Pentaho (2010)

  • 8/18/2019 TCC Cairo Da Silva Borges

    49/61

    49

    O cubo foi fatiado exibindo as dimensões criadas como filial, produto, tempo e

    turno assim como as mensurações de total em litros vendidos e total em reais.

    Como resultado, pode-se observar quanto uma determinada venda por filial

    (Balsas-MA e Açailândia-MA), representaram em relação ao total de vendas em

    litros vendidos e em reais, assim como por produto (gasolina comum, gasolina

    aditivada e diesel), tempo (dia, mês e ano), e turno (matutino e vespertino), a forma

    de visualização dos dados se torna fácil, melhorando o entendimento do contexto de

    vendas do grupo ao gestor da empresa, dessa forma podendo realizar comparações

    de vendas entre as filiais distintas para uma perspectiva de análise de tomada de

    decisão baseado nos dados armazenados no Data Mart Central. Este cubo tem o

    principal intuito de servir como fonte de informações sobre as vendas ocorridas em2009 e 2010, para tanto, a figura 35 apresenta o cubo que demonstra o resultado

    desta operação com as informações armazenadas no Data Mart de vendas.

    Figura 35: Exploração do cubo OLAP com o Pentaho 

    Fonte: Gerado pelo Pentaho (2010)

  • 8/18/2019 TCC Cairo Da Silva Borges

    50/61

    50

    Observar-se então, que nas dimensões filial, produto, tempo e turno, quando

    se apresenta o sinal de “+” podemos navegar para dentro do cubo, realizando uma

    técnica de drill down, visualizando dados mais detalhados, como no caso acima

    demonstrado, onde foi selecionado o tempo do produto diesel da filial de Açailândia-

    MA, que por sua vez, pode-se especializá-los ainda mais, mostrando os meses e

    dias que houve vendas no ano. O mesmo caso ocorre na dimensão produto, onde

    quando selecionado um produto disponível, pode expandir os dados, de forma que

    se apresentam as filiais onde ocorreram vendas naquele produto selecionado. 

    Conforme mostra a figura 36 os dados e gráficos, tem-se a possibilidade de

    analisar eventos ocorridos durante as vendas, verificando o impacto ocorrido na

    empresa, assim como questionamentos do tipo:

    Figura 36: Visualização dos dados das vendas

    Fonte: Gerado pelo Pentaho (2010).

  • 8/18/2019 TCC Cairo Da Silva Borges

    51/61

    51

    •  Qual filial vendeu mais durante o ano de 2009 e 2010?

    •  Qual produto teve menos vendas e em qual filial?

    •  Em que período, verifica-se fortemente os efeitos dos feriados e eventos

    socioeconômicos e quando a empresa apresentou sinais de melhoria nas

    vendas?

    •  Quais filiais o grupo deve concentrar suas vendas?

    Com esta solução, podem-se responder estas perguntas, e tantas outras,

    agregando, assim, conhecimento sobre as vendas do Grupo de Postos de

    Combustíveis Pioneiro bem como tomar melhores decisões.

    3.4 Relações entre vendas com feriados e fatores socioeconômicos

    Além de realizar todo o processo de montagem do cubo bem como a extração

    dos dados, finalizou-se com a oitava fase que é relacionar os dados das vendas

    entre o período de abril de 2009, pois foi quando se iniciou a utilização do sistema

    de gerenciamento do grupo, até outubro de 2010 que foi o período final dos dados

    explorados, esta relação trás dois parâmetros que são os feriados e fatores

    socioeconômicos, estes foram divididos por cada cidade correspondente a filial do

    Grupo, com isso pode-se responder certas perguntas que ficavam a mercê do

    gestor, como por exemplo, será que no período do carnaval as minhas vendas serão

    boas, devido a este evento? Para isto foram listados e classificados todos os

    feriados e fatores socioeconômicos que podem ter relação com as vendas em um

    determinado período por região.

    Os feriados e fatores socioeconômicos nos períodos de 2009 e 2010, sempre

    ocorreram nos mesmos meses, para definir melhor como avaliar este cenário, foi

    realizado a classificação dos mesmos e associando determinados pesos para cada

    um. Os feriados foram associados o peso no valor de 1 ponto, devido a pouca

    movimentação de pessoas durante este período na cidade em relação a outros

    fatores, já os socioeconômicos associou-se o peso no valor de 2 pontos, isto se da

    pela relação de quantidade de pessoas que circulam na cidade durante este

    período, como exemplo pode-se citar o carnaval fora de época, Agrobalsas, festejo

    da cidade, entre outros, a tabela 1 abaixo mostra toda a classificação da cidade de

    Balsas-MA.

  • 8/18/2019 TCC Cairo Da Silva Borges

    52/61

    52

    Tabela 1: Listagem dos feriados e Fatores socioeconômicos de Balsas-MA

    Fonte: Autor Próprio (2010)

    Foi distribuída a categorização dos feriados e fatores nos meses de janeiro a

    dezembro totalizando o peso de cada mês, conforme mostra a tabela 2: 

    Tabela 2: Distribuição dos feriados e fatores para cidade de Balsas-MA

    Fonte: Autor Próprio (2010)

    FERIADOS FATORES

    1 2Confraternização Universal (Virada de ano)  Pré-Carnaval Carnaval  Aniversário de Balsas 

    Paixão de Cristo  Raly dos Sertões 

    Páscoa  Festejo da cidade de Balsas 

    Tiradentes  Férias 

    Dia do trabalhador  Agrobalsas 

    Corpus Christi 

    Independência do Brasil 

    Dia das crianças 

    Finados 

    Proclamação da República 

    Natal 

    Dia dos namorados 

    BALSAS-MA

    Eventos Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov DezConfraternização Universal (Virada de ano) 1Pré-Carnaval 2Carnaval 1

    Paixão de Cristo 1Páscoa 1Tiradentes 1Dia do trabalhador 1Corpus Christi 1

    Independência do Brasil 1Dia das crianças 1

    Finados 1Proclamação da República 1Natal 1Aniversário de Balsas 2Raly dos sertões 2Festejo da cidade de Balsas 2Férias 2

    Agrobalsas 2Dia dos namorados 1Total 3 1 2 3 3 6 2 0 1 1 2 1

  • 8/18/2019 TCC Cairo Da Silva Borges

    53/61

    53

    Com a categorização dos feriados e fatores socioeconômicos da cidade de

    Balsas-MA e com a distribuição nos períodos de janeiro a dezembro, foi

    demonstrado que o período que tem o maior peso é o mês de junho que acumulou o

    total de 6 pontos, desta maneira pode ser que durante este período os feriados e

    fatores podem influenciar no aumento das vendas, ao contrário do mês de agosto

    que totalizou a peso de 0 pontos, possivelmente neste período as vendas não irão

    ter o mesmo movimento.

    O mesmo processo de categorização dos feriados e fatores socioeconômicos

    foi realizado para a cidade de Açailândia – MA, divido com a mesma pontuação de

    Balsas-MA, conforme mostra a tabela 3:

    Tabela 3: Listagem dos feriados e Fatores socioeconômicos de Açailândia-MA

    Fonte: Autor próprio (2010)

    A cidade de Açailândia – MA já apresenta fatores diferenciados da cidade de

    Balsas – MA como o carnaval fora de época (Açaifolia), exposição (Expo Açai), entre

    outros, estes fatores podem diferenciar o aumento de vendas devido à grande

    circulação de pessoas nestes períodos na cidade, a distribuição foi realizada no

    período de janeiro a dezembro conforme mostra a tabela 4, sendo que no final de

    cada mês foi realizada a totalização dos mesmos.

    FERIADOS FATORES

    1 2Confraternização Universal (Virada de ano)  Açaifolia (Carnaval fora de época) 

    Paixão de Cristo  Aniversário de Açailândia 

    Páscoa  Expo Açai (Exposição)

    Tiradentes  Férias 

    Dia do trabalhador  Festejo da cidade de Açailândia-MA Dia das Mães 

    Corpus Christi 

    Dia dos namorados 

    Dia dos Pais 

    Independência do Brasil 

    Dia das crianças 

    Finados 

    Proclamação da República 

    Natal 

  • 8/18/2019 TCC Cairo Da Silva Borges

    54/61

    54

    O período que apresentou o maior peso em relação aos feriados e os fatores

    socioeconômicos foi o mês de junho com o total de 6 pontos com isso neste período

    pode ser que as vendas aumentem significadamente ao contrário dos meses de

    fevereiro e março que apresentaram 0 pontos, desta forma fica mais fácil verificar as

    tendências de vendas nestes períodos, podendo realizar estratégias de marketing

    que venham atrair o cliente para realizar a compra dos produtos ofertados durante

    os períodos de menor fluxo de vendas.

    Tabela 4: Distribuição dos feriados e fatores para cidade de Açailândia-MA.

    Fonte: Autor Próprio (2010)

    Após realizar todo este processo de classificação, distribuição e totalização

    dos pontos para cada cidade das filiais, foi utilizado o software SPSS juntamente

    com a técnica estatística de Anova (Análise de variância) para verificar se existem

    relações entre as vendas nos períodos de 2009 e 2010 com os feriados e fatores

    socioeconômicos no âmbito geral, o processo foi realizado com a exportação dos

    dados do cubo OLAP destes períodos de cada uma das filiais como mostra a tabela5 que fornece os dados da filial de Balsas-MA, a coluna período demonstra o

     AÇAILÂNDIA – MA

    Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez

    Confraternização Universal (Virada de ano) 1

    Paixão de Cristo 1

    Páscoa 1Tiradentes 1

    Dia do trabalhador 1

    Dia das Mães 1

    Corpus Christi 1

    Açaifolia 2

    Aniversário de Açailândia 2

    Dia dos namorados 1

    Expo Açai 2

    Férias 2

    Dia dos Pais 1

    Independência do Brasil 1

    Dia das crianças 1

    Festejo da cidade de Açailândia 2

    Finados 1

    Proclamação da República 1

    Natal 1

    Total 1 0 0 3 2 6 4 1 1 3 2 1

  • 8/18/2019 TCC Cairo Da Silva Borges

    55/61

    55

    período das vendas já a coluna total de vendas em litros exibe o total de litros

    vendidos de todos os produtos e a coluna peso dos feriados e fatores que fornece o

    peso de cada mês com relação aos fatores e feriados.

    Tabela 5: Listagem dos períodos com total de vendas e pesos de feriados e fatores da filial deBalsas-MA.

    Fonte: Autor Próprio (2010)

    O mesmo processo foi realizado para a filial de Açailândia – MA, como exibe

    a tabela 6:

    Tabela 6: Listagem dos períodos com total de vendas e pesos de feriados e fatores da filial de

    Açailândia-MA. 

    POSTO MODELO - BALSAS-MA

    Período Total de vendas em Litros Peso dos feriados e fatoresAbr-09 163155 3Mai-09 181804 3Jun-09 192744 6Jul-09 219248 2Ago-09 201737 0

    Set-09 217449 1Out-09 214604 1Nov-09 195305 2Dez-09 214068 1Jan-10 186791 3Fev-10 200465 1Mar-10 215813 2Abr-10 254433 3Mai-10 228356 3Jun-10 225848 6Jul-10 231388 2Ago-10 252469 0Set-10 244896 1Out-10 254514 1

    MINI POSTO PIONEIRO – AÇAILÂNDIA – MAPeríodo Total de vendas em Litros Peso dos feriados e fatoresAbr-10 120617 3Mai-10 122744 2Jun-10 123754 6Jul-10 132161 4Ago-10 139321 1Set-10 129592 1Out-10 134095 3

    Nov-10 117081 2Dez-10 122585 1Jan-11 112110 1

  • 8/18/2019 TCC Cairo Da Silva Borges

    56/61

    56

    Fonte: Autor Próprio (2010)

    Com os dados organizados iniciou-se o processo de teste da técnica de

    Anova (Análise de variância) no software SPSS, após a importação dos dados, o

    teste foi realizado para ambas filiais, tendo como resultado final a tabela de Anovaconforme mostra a figura 37 para a filial de Açailândia – MA (Mine Posto Pioneiro) e

    a figura 38 para a filial de Balsas – MA (Posto Modelo).

    Figura 37: Teste de Anova para Açailândia-MA.

    Fonte: Saída do SPSS (2010).

    Pelo fato da significância (Sig.) ser acima de 0,05 (0,399) conforme a

    ilustração na figura, verifica-se que não existe relação entre feriados de forma geral

    (variável dependente) e venda de combustíveis (variável independente) na cidade de

    Açailândia - MA.

    Figura 38: Teste de Anova para Balsas-MA.

    Fonte: saída do SPSS (2010).

    Fev-11 108966 0Mar-11 127582 0Abr-11 119593 3Mai-11 117365 2

    Jun-11 121280 6Jul-11 133279 4Ago-11 151423 1Set-11 163573 1Out-11 136937 3

  • 8/18/2019 TCC Cairo Da Silva Borges

    57/61

    57

    Pelo fato da significância (Sig.) ser acima de 0,05 (0,703), conforme ilustra na

    figura 38 verifica-se que não existe relação entre feriados de forma geral (variável

    dependente) e venda de combustíveis (variável independente) na cidade de Balsas -

    MA. Cabe ressaltar que os resultados encontrados para a filial de Balsas,

    apresentam uma distinção ainda maior entre as variáveis.

    4. CONCLUSÃO

    O presente trabalho ajudou a realizar um novo cenário de tomada de decisões

    (BI) no Grupo de Postos de Combustíveis Pioneiro, devido à aplicação da

    ferramenta OLAP bem como a exploração dos dados que por ventura estavamocultos na visão do gestor e que o sistema atual não proporcionava. Com a

    montagem do cubo OLAP a facilidade de manipulação dos dados ficou de forma

    intuitiva e fácil, a análise das vendas nos períodos de 2009 e 2010 condicionou uma

    comparação com os feriados e fatores socioeconômicos gerando o

    acompanhamento do comportamento da empresa durante estes períodos.

    A aplicação da ferramenta de BI PENTAHO  juntamente com a técnica de

    estatística Anova agregou de tal forma mais auxílio à tomada de decisão e mostrou

    estatisticamente que os feriados e fatores socioeconômicos em geral não

    influenciam nas vendas durante o período analisado, além disso o trabalho foi de

    grande importância para o gestor do Grupo de Postos de Combustíveis Pioneiro,

    devido a forma de visualização dinâmica que o cubo OLAP proporcionou aos dados

    da sua empresa.

    Levando em consideração a fundamentação teórica deste trabalho e a

    solução desenvolvida, podem-se indicar as seguintes propostas para trabalhosfuturos:

    •  Criação de um Data Mart para analisar o perfil de cada cliente;

    •  Criar um Data Mart  de feriados e fatores socioeconômicos para

    posteriormente aplicar a técnica de Data Mining;

    •  Criar um modelo de simulação para o cubo montado.

    Com o desenvolvimento das tecnologias citadas acima formará um projeto de

    BI completo e moderno, fortalecendo a probabilidade de aumentar os resultados

    significativos para o Grupo de Postos de Combustíveis Pioneiro.

  • 8/18/2019 TCC Cairo Da Silva Borges

    58/61

    58

    5. REFERÊNCIAS BIBLIOGRÁFICAS

    ALVES, William Pereira. Banco de dados: teoria e desenvolvimento. 1ª edição.

    São Paulo: Érica, 2009.

    AAKER, David A; KUMMAR, V; DAY, George S; Tradutor Reynaldo Cavalheiro

    Marcondes. Pesquisa de Marketing. 2 ed. 3 reimpressão. São Paulo: Atlas, 2007.

    ARAÚJO, E. M. T. ; BATISTA, M. L. S. ; MAGALHAES, T. M. . OLAP:

    Características, Arquitetura e Ferramentas. Jornal Eletrônico Cursos

    Tecnológicos do Instituo Vianna Júnior,Jornal Eletrônico Cursos Tecno, 26 out.

    2007.

    BARBIERI, Carlos. Bi-Business Intelligence modelagem & tecnologia, Rio de

    Janeiro: Axcel Books, 2001.

    BENEDITO, Miguel Furtado Junior, XML (Extensible Markup Language),

    Universidade Federal do Rio de Janeiro, curso de Redes de computadores.Disponível em acesso em: 15 de

    novembro de 2010.

    BISPO, Alberto Ferreira, Uma análise da nova geração de sistemas de apoio a

    decisão, Universidade de São Carlos, dissertação de mestrado em Engenharia da

    Produção. 1998.

    COLAÇO JUNIOR, Methanias. Projetando sistemas de apoio à decisão

    baseados em data Warehouse. Rio de janeiro: Axcel Books, 2004

    DEVMEDIA. Disponível em:.< http://www.devmedia.com.br/articles/post-5730-

    Introducao-ao-Analys is-Services-2005-Parte-2.html>. Acesso em: 12 de

    novembro de 2010.

  • 8/18/2019 TCC Cairo Da Silva Borges

    59/61

    59

    FELBER Edmilson J, W. Proposta de uma ferramenta olap em um data mart

    comercial: uma aplicação prática na industria calçadista, Trabalho de conclusão

    do curso de Ciências da Computação, Centro Universitário Feevale. Novo

    Hamburgo, novembro de 2005.

    FERRARI, Fabrício Augusto. Crie banco de dados em MySQL. São Paulo: Digerati

    Books, 2007.

    FIGUEIREDO, Marcos Leandro; SOARES, Hélio Rubens. Comparação entre a

    modelagem orientada a objeto e a modelagem estruturada relacional,

    Uberlândia, ano 2005, Centro Universitário do Triângulo – UNITRI, Curso de

    especialização em banco de dados.

    FONSECA, Marcelo Porto Alegre. Classificação Bayesiana de grandes massas de

    dados em ambientes ROLAP. Tese apresentada como requisito necessário para

    obtenção do grau de doutor em Ciências em engenharia civil. COPPE/URFJ.Rio de

    Janeiro, julho de 2007.

    IMHOFF, Claudia; GALEMMO, Nicholas; GEIGER, J.G. Mastering data Warehouse

    Design: Relational and Dimensional techniques. Indianapolis: Wiley Publishing,

    INC., 2003.

    INMON, W.H. – Como Construir o Data Warehouse. Rio de Janeiro: Campus

    1997.

    KAY, Russell. Data Cubes. Computerworld Inc., 2005. Disponível em:

    . Acesso em 14 de novembro de 2010.

    LINHA DE CODIGO, Disponível em:.< http: //www.linhadecodigo.com.br/artigo/

    2002/Web-%E2%80%93-Uma-int rodu%C3%A7%C3%A3o-ao-Desenvolvimento-

    par a-a-Internet-com-Java-%E2%80%93-Parte-01-%E2%80%93-Preparando-o-

     Ambient e-para-o-Desenvolvimento aspx>. Acesso em: 13 de novembro de 2010.

  • 8/18/2019 TCC Cairo Da Silva Borges

    60/61

    60

    MACHADO, Felipe Nery Rodrigues. Protótipo de Data Warehouse: Uma visão

    Multidimensional. São Paulo: Érica, 2000.

    MACHADO, Felipe Nery Rodrigues. Tecnologia e Projeto de Data Warehouse.São

    Paulo, 2004.

    MIRANDA, Alvira. Disponível em:.< http://www.alvimiranda.com/2010/04/pentaho-

    o-que-e.html>. Acesso em: 12 de novembro de 2010.

    MARTINS, Daniela Siqueira, Proposta de desenvolvimento de um datamart na

    área de gestão de pessoas e aplicação de uma ferramenta olap, Trabalho deconclusão do curso de Ciências da Computação, Centro Universitário Feevale, Novo

    Hamburgo, novembro 2007.

    MARTINEZ, Luís F; FERREIRA, Aristides I.  Análise de dados com SPSS –

    Primeiros passos.Lisboa: Escolar Editora, 2007.

    MAGANHA, Fernando. Implementação de um data warehouse na secretaria detrânsito de Guaíba para análise multidimensional de informações. Guaíba:

    ULBRA - Sistemas de Informação, 2006.

    NARESH, Malhotra. Pesquisa de marketing: uma orientaçao aplicada. 4ª ed.

    Porto Alegre: Pearson Education, 2004.

    NETO, Cl_audio Manoel da Silva e Sousa, Lilian Lucélia da Silva, Marcus Andre dos

    Santos Semblano, Peterson Sampaio - Apresentação sobre a Ferramenta Pentaho.

    Tutorial Mondrian e JPivot, Universidade federal de Minas Gerais – UFMG- Ciências

    da Computação- apresentado em 14 de maio de 2008.

    ORACLE. Disponível em:.< http://download.oracle.com/docs/ html/B13915_04/

    i_ol ap_chapter.htm#sthref85>. Acesso em: 13 de novembro de 2010.

    PENTAHO. Disponível em:. .Acesso em: 01 de

    novembro de 2010.

  • 8/18/2019 TCC Cairo Da Silva Borges

    61/61

    61

    RAMAKRISHNAN, Raghu. Sistemas de banco de dados. Tradutores: Acauan

    Pereira Fernandes, Celia Taniwaki, João Tortello, 3ª edição, São Paulo: McGraw-

    Hill, 2008.

    ROSA, Kátia Liane,  Análi se de ferramentas Olap Op