01341442883.pdf

9
1 Modelagem e Implementação de um Data Mart de Vendas de Exportação para Apoio à Tomada de Decisão Cristopher de Camargo (UNIOESTE) [email protected] Marcio Seiji Oyamada (UNIOESTE) [email protected] Clodis Boscarioli (UNIOESTE) [email protected] Resumo: Business Intelligence (BI) é o processo que visa explorar e analisar dados estruturados e específicos de um domínio para encontrar tendências ou padrões e, através disto, produzir percepções e tirar conclusões. Este artigo demonstra, em forma de estudo de caso, todo o processo de criação de um Data Mart no domínio de vendas para exportação de uma empresa de porte médio da área de agronegócio. Atualmente essa área da empresa não possui relatórios nem ferramentas de gestão, dificultando a análise e tomada de decisões. O desenvolvimento desse estudo de caso evidenciou a utilidade de um Data Mart do ponto de vista gerencial, possibilitando a análise de dados históricos, gerando estatísticas de vendas antes não mensuradas como: por região geográfica, por período de tempo, por cliente e por produto. Estas informações auxiliaram no processo de tomada de decisões por parte do especialista de domínio, que antes não estavam explícitas nos relatórios existentes. Palavras chave: Business Intelligence, Data Mart, Vendas. Modeling and Implementation of a Sales Export Data Mart for Decision-Making Process Abstract: Business Intelligence (BI) is a process that explores and analyses structured data in a given domain in order to find tendencies and patterns, allowing the production of perceptions and conclusions. This paper presents the modeling and creation process of an export sales Data Mart, in an agribusiness enterprise. Nowadays this enterprise does not have any report or management tool, becoming difficult the decision making process. The development of this case study showed the applicability of a Data Mart as management tool, allowing the analysis of historical data and generation of statistics of export sales. These statistics include sales by geographical region, time period, customers, and products. The information provided by the Data Mart helped the decision making process. Key-words: Data Mart, Business Intelligence, Sales.

Upload: carla-amaral

Post on 11-Aug-2015

29 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 01341442883.pdf

1

Modelagem e Implementação de um Data Mart de Vendas de Exportação para Apoio à Tomada de Decisão

Cristopher de Camargo (UNIOESTE) [email protected]

Marcio Seiji Oyamada (UNIOESTE) [email protected]

Clodis Boscarioli (UNIOESTE) [email protected]

Resumo: Business Intelligence (BI) é o processo que visa explorar e analisar dados estruturados e específicos de um domínio para encontrar tendências ou padrões e, através disto, produzir percepções e tirar conclusões. Este artigo demonstra, em forma de estudo de caso, todo o processo de criação de um Data Mart no domínio de vendas para exportação de uma empresa de porte médio da área de agronegócio. Atualmente essa área da empresa não possui relatórios nem ferramentas de gestão, dificultando a análise e tomada de decisões. O desenvolvimento desse estudo de caso evidenciou a utilidade de um Data Mart do ponto de vista gerencial, possibilitando a análise de dados históricos, gerando estatísticas de vendas antes não mensuradas como: por região geográfica, por período de tempo, por cliente e por produto. Estas informações auxiliaram no processo de tomada de decisões por parte do especialista de domínio, que antes não estavam explícitas nos relatórios existentes. Palavras chave: Business Intelligence, Data Mart, Vendas.

Modeling and Implementation of a Sales Export Data Mart for Decision-Making Process

Abstract: Business Intelligence (BI) is a process that explores and analyses structured data in a given domain in order to find tendencies and patterns, allowing the production of perceptions and conclusions. This paper presents the modeling and creation process of an export sales Data Mart, in an agribusiness enterprise. Nowadays this enterprise does not have any report or management tool, becoming difficult the decision making process. The development of this case study showed the applicability of a Data Mart as management tool, allowing the analysis of historical data and generation of statistics of export sales. These statistics include sales by geographical region, time period, customers, and products. The information provided by the Data Mart helped the decision making process. Key-words: Data Mart, Business Intelligence, Sales.

Page 2: 01341442883.pdf

2

1 Introdução

Em um mercado onde empresas do mundo todo disputam clientes como se não houvesse barreiras geográficas, inovar se tornou um conceito fundamental para qualquer corporação e uma prática muito necessária à conquista de diferenciais competitivos. Nesse contexto, está inserido o conceito de Inteligência de Negócios, ou BI – Business Intelligence, (HAISTEN, 1999).

Segundo BARBIERI (2001), BI “representa a habilidade de se estruturar, acessar e explorar informações, normalmente armazenadas em um Data Warehouse (DW - Armazém de Dados) ou Data Mart (DM), com o objetivo de desenvolver percepções, entendimentos, conhecimentos, os quais podem produzir um melhor processo de tomada de decisão”.

Nos dias de hoje, para uma empresa se tornar competitiva no mercado internacional, além da busca por excelência das suas atividades cotidianas é necessário que suas ações e decisões sejam baseadas em uma profunda análise, para que sua estratégia no mercado seja bem fundamentada. As tecnologias de BI auxiliam na definição destas estratégias trazendo benefício à organização. Para que tais benefícios sejam alcançados faz-se necessário um Data Mart bem estruturado, possibilitando esclarecer situações e fatos que antes passavam despercebidos.

Este artigo descreve um processo de modelagem, implementação e uso de um Data Mart para apoio a tomada de decisão na área de vendas de exportação a partir de um banco de dados da Plataforma TOTVS. A empresa ora utilizada no estudo de caso está inserida no mercado internacional, porém não possuía uma ferramenta de análise gerencial de seus dados.

O desenvolvimento de um Data Mart foi motivado porque, segundo a gerência de Tecnologia da Informação (ou TI), foi realizada uma pesquisa de mercado e não foi encontrada nenhuma ferramenta integrada ao ERP utilizado pela empresa que forneça o tipo de análise requerida. No aspecto organizacional, havia também uma demanda do departamento de exportação que segundo o gerente da área, o trabalho da sua equipe era prejudicado por falta de ferramentas de apoio para auxiliar na tomada de decisão e na conquista de novos mercados.

Esse artigo está dividido nas seguintes seções: na seção 2 é apresentado o embasamento teórico de Data Warehouse, Data Mart, modelagem multidimensional e ETL (Extração, Transformação e Carga), elementos de base ao desenvolvimento do trabalho. Na Seção 3 o problema-alvo é apresentado, descrevendo do processo de criação do Data Mart à visualização OLAP dos dados. A Seção 4 traz as conclusões e indicação de trabalhos futuros.

2 Fundamentação Teórica

Para um melhor entendimento dos sistemas de BI, é necessário introduzir alguns conceitos, acerca de modelagem de um Data Warehouse ou Data Mart, bem como do processo de extração, transformação e carga para esse repositório, a partir de bases de dados transacionais de uma organização.

2.1 Data Warehouse e seus Conceitos

Os bancos de dados são conjuntos de registros dispostos em estrutura regular que possibilita o armazenamento, a re-organização e a produção de informação (INMON 1997). Um Data

Warehouse é uma coleção de dados orientada por assuntos, integrada, não volátil e variante do tempo, que tem por objetivo ser um lugar onde as pessoas possam acessar seus dados (INMON 1997). Para (MONTEIRO, 2007), Data Warehouse é um repositório de dados provenientes dos dados operacionais, onde se cria um ambiente homogêneo e padronizado, com finalidade de propiciar análises de negócio concentradas em um só local.

Para melhor entendimento sobre Data Warehouse pode-se fazer uma comparação entre este e bancos de dados transacionais – ou operacionais, que armazenam as informações das transações diárias da empresa, e são utilizados por todos os funcionários para registrar e executar operações

Page 3: 01341442883.pdf

3

pré-definidas, por isso seus dados podem sofrer constantes mudanças. Já no DW são gerados dados analíticos, destinados às necessidades da gerência no processo de tomada de decisões, o que pode envolver consultas complexas que necessitam acessar um grande número de registros. Um DW armazena informações históricas de muitos anos, e por isso deve ter uma grande capacidade de processamento e armazenamento dos dados, detalhados ou resumidos.

Um Data Mart (DM), foco deste estudo, é subconjunto de dados de um DW que se referem a um assunto em especial como finanças, vendas e estoque, em diferentes níveis de sumarização. Segundo (BARBIERI, 2001), é um depósito de dados que atende a certas áreas específicas da empresa e voltados para o processo decisório gerencial.

Para (KIMBALL, et al., 1998), modelagem multidimensional é uma técnica utilizada para a definição do projeto lógico de um Data Warehouse (ou de um Data Mart). Três conceitos básicos são importantes nesta modelagem: tabelas fatos que representam as transações de negócios, as dimensões que são os diferentes tipos de visões que os usuários irão utilizar para analisar as métricas e os indicadores ou métricas que podem ser definidos como os atributos numéricos de um fato representando o comportamento de um negócio para as dimensões.

Nesse tipo de modelagem surgem dois padrões principais: o Modelo Estrela (Star Schema) e o Modelo Floco de Neve (Snow Flake) (KIMBALL, 1996).

Conforme THOMSEN (2002), um Modelo Estrela é um arranjo de tabelas em um banco de dados relacional onde uma tabela de fatos central é conectada a um conjunto de tabelas de dimensão, uma por dimensão. O nome estrela vem da representação diagramática normal desse esquema, com a tabela de fatos no centro e cada tabela de dimensão mostrada ao seu redor, como as pontas em uma estrela.

O outro padrão para modelagem dimensional é o modelo floco de neve, onde as tabelas dimensionais relacionam-se com a tabela de fatos, mas algumas dimensões relacionam-se apenas entre elas, isto ocorre para fins de normalização das tabelas dimensionais, visando diminuir o espaço em disco utilizado pelas tabelas de dimensões. Então informações como categoria, departamento e marca se tornam tabelas de dimensões auxiliares. Nesse modelo existem tabelas de dimensões auxiliares que normalizam as tabelas de dimensões principais.

2.1.1 Tabelas de fatos

Uma tabela de Fatos é a principal tabela que compõe um modelo dimensional, armazenam medições (linha em uma tabela de fatos) numéricas ou métricas de desempenho que está relacionada a um assunto ou processo de negócio. Todo registro de uma tabela de fato está ligado a um conjunto de dimensões que indicam a granularidade dos fatos que estão armazenados e definem qual o alvo destas medidas. Quanto menor a granularidade de um fato, maior será o nível de detalhe armazenado (KIMBALL, 2002).

2.1.2 Tabelas de dimensão

As tabelas de dimensão sempre acompanham uma tabela de fatos e possuem descritores textuais de um processo e são formadas por diversos atributos, que servem de base para definir regras de agrupamento e filtros para consultas em uma tabela de fatos. Os atributos nas tabelas de dimensão possuem um papel essencial, por ser a origem de todas as restrições e rótulos de relatórios, e fundamentais para que modelo seja utilizado e compreendido. Os dados que estão armazenados nas dimensões foram carregados do banco de dados de origem e são utilizados para realização de consultas e carga do DW ou DM.

A granularidade se refere ao nível de detalhamento das informações armazenadas. A granularidade afeta o volume de informações armazenadas e os tipos de consultas que podem ser

Page 4: 01341442883.pdf

4

respondidas aos usuários: quanto menor o nível de granularidade, mais informações serão armazenadas, e o maior detalhamento possível das consultas aos usuários; por outro lado, um alto nível de granularidade possui um volume menor de informações armazenadas e permite maior rapidez nas respostas das consultas, porém limita as mesmas quanto ao seu detalhamento.

2.2 ETL (Extract Transform and Load – Extração, Transformação e Carga)

Em um ambiente de Data Warehouse, os dados são inicialmente extraídos de grandes bases de dados e de fontes externas, posteriormente são integrados e transformados (limpos, eliminados, combinados, validados, consolidados, agregados e sumariados) antes de serem carregados (KIMBALL, 2002).

Esta é uma etapa crítica da construção de um DW ou DM, pois envolve toda a movimentação dos dados. A etapa de ETL se dá basicamente em três passos, são ferramentas para extração, padronização e limpeza, e carga de banco de dados. Mais precisamente, as ferramentas de ETL são utilizadas para carga do repositório (MONTEIRO, 2007). A etapa de extração envolve a leitura, compreensão e seleção dos dados de origem. A transformação é a etapa na qual ocorre a filtragem de erros de digitação, tratamento de elementos ausentes, limpeza de campos preenchidos com números seqüenciais ou viciados e padronização de campos com conteúdo não padronizado.

Hoje existem algumas ferramentas que auxiliam o Processo de ETL, dentre elas pode-se citar Kettle (KETTLE, 2012), uma ferramenta de ETL do projeto de BI Pentaho. Porém, essa etapa também pode ser realizada de forma integral por meio de scripts desenvolvidos manualmente, abordagem utilizada nesse estudo, por questões de decisão de projeto.

3 Estudo de Caso

Esta seção visa apresentar os materiais e métodos utilizados nesse estudo. O trabalho inicial foi uma pesquisa bibliográfica para melhor compreensão do problema e em seguida, partiu-se para um estudo de caso exploratório, no qual foram definidas as ferramentas a serem utilizadas e uma solução foi proposta, no intuito de averiguação da viabilidade da proposta. As decisões de projeto e o levantamento de requisitos foram realizados por meio de reuniões com o Departamento de Exportação da empresa.

Na implementação deste estudo de caso foi utilizada como fonte de dados uma base de dados do ERP TOTVS. Os fatos a serem analisados no DM são as vendas de exportação de uma empresa do ramo de agronegócio, de médio porte, com filiais em 15 estados brasileiros e 3 filiais no exterior, o principal foco de negócio da empresa é a produção de ovos de postura e industrialização de carnes e embutidos. O DM foi construído no Sistema Gerenciador de Banco de Dados (SGBD) MySQL por determinação da empresa.

A fonte dados utilizada no projeto é uma base de dados transacional normalizada e populada desde o ano de 1998. Essa base de dados é armazenada atualmente em SGBD Oracle 10G sobre o Sistema Operacional Solaris e possui uma tablespace de 380 GigaBytes de dados, não incluindo o espaço em disco usado para indexações e uso temporário.

Visando um processo de ETL menos complexo, todo atributo e tabela utilizados no processo de ETL fazem parte de visões construídas no banco de dados relacional, sendo algumas dessas visões já estão desnormalizadas, com o intuito de agilizar o processo de Transformação e Carga dos dados. Foram utilizados dados pertinentes a nota fiscal, item de nota fiscal, produto, cliente e importador. A Figura 1 apresenta o modelo relacional das visões utilizado como origem dos dados.

Page 5: 01341442883.pdf

5

Figura 1 – Parte do modelo relacional de banco de dados do sistema ERP

3.1 Modelagem e implementação do Data Mart

O Data Mart foi criado no SGBD MySQL versão 5.1 executando em plataforma Linux distribuição Debian (servidor já existente na empresa). A modelagem realizada nos moldes do modelo estrela, onde se tem as dimensões e a tabela fatos desnormalizadas. Criou-se a tabela de fatos vendas e como dimensões produtos, cliente, importador e tempo. A Figura 2 apresenta o modelo estrela do Data Mart:

Figura 2 – Modelo estrela do Data Mart

Os atributos e as dimensões utilizadas foram escolhidos em sua maioria pelo gerente do departamento de exportação, usando como critério a importância de cada campo a ser

Page 6: 01341442883.pdf

6

visualizado na análise. No processo de definição das dimensões, foram considerados os níveis de análise desejados pelo departamento beneficiado com o Data Mart. Esta fase é de fundamental importância, pois é pelas dimensões que é possível fazer o agrupamento dos dados na camada de visualização. Isso foi devidamente validado e acordado entre o Departamento de TI e o Departamento de Exportação.

3.2 O Processo de ETL

O processo de ETL foi todo desenvolvido a partir de scritps PHP. Na base origem foi elaborado da seguinte forma: em toda tabela utilizada pelo DM, adicionou-se uma nova coluna e implementou-se uma trigger (gatilho) que para cada linha inserida ou que os campos utilizados no DM sofrerem alteração ou deleção essa nova coluna é preenchida com a data e hora da inclusão, alteração ou exclusão.

Os mecanismos que realizam a carga de dados foram hospedados no mesmo servidor em que está o DM. Foram desenvolvidos dois mecanismos, um para a carga inicial de dados e outro para a carga periódica de dados. Os dois mecanismos utilizam linguagem de programação PHP.

Para a carga inicial foi desenvolvido um script PHP que se conecta na fonte de dados e realiza as consultas dos dados, esses dados são armazenados em arrays que são tratados linha a linha para serem inseridos na sua respectiva tabela na base de dados do DM. Esse script demorou aproximadamente cinco dias para construir toda a carga inicial dos dados.

Para a carga periódica foi desenvolvido outro script disparado todo dia às 20 horas, que busca uma tabela auxiliar do DM que contém a data e hora da ultima execução do mecanismo de carga inicial ou periódica. Baseado nessa data, uma consulta é realizado na fonte de dados, buscando-se apenas as linhas que foram incluídas ou alteradas após essa ultima execução. Desta forma, o script verifica registro a registro se ele já possui correspondência no DM, se possuir o sistema faz a alteração do DM, caso o registro não conste na base do DM o mecanismo de ETL o insere. É gravado também nessa tabela auxiliar a data e hora de início e término de execução dos scripts para monitoramento de interrupções e análise de tempo gasto. O processo de atualização de carga periódica demora, em média, cinco horas.

Para a visualização dos dados do DM, foi utilizada uma ferramenta web que mostra os dados e possui recursos de filtros, realocação, e ocultação de colunas de forma dinâmica, ou seja, sem a necessidade de recarregar toda a tela no browser a cada ação do usuário, conforme apresentado na Figura 3.

Esta ferramenta web não fornece recursos para a construção de cubo de dados e não possui os recursos de drill up e drill down que poderiam ser contemplados por ferramentas de visualização OLAP existentes.

Page 7: 01341442883.pdf

7

Figura 3 – Ferramenta WEB de visualização de dados do Data Mart

3.3 Desenvolvimento do Cubo de Dados

Após o processo de ETL foi necessário para fins analíticos, desenvolver o arquivo .xml do cubo de dados OLAP (On-line Analytical Processing), e para isso foi utilizado a ferramenta Schema

Workbench do software Pentaho (2012). Nessa fase do projeto foram mapeadas as dimensões e definidas as métricas da tabela de fatos a serem exibidas na ferramenta de visualização. O modelo de um cubo desenvolvido é apresentado na Figura 8.

Figura 4 – Cubo OLAP

Com o cubo de dados desenvolvido, o próximo passo foi sua publicação no servidor Pentaho, ainda pela ferramenta Schema Workbench.

Page 8: 01341442883.pdf

8

3.4 Visualização OLAP

A ferramenta de visualização OLAP utilizada no estudo foi o JPivot, incluso no software Pentaho. Para acessar a visualização do cubo é necessário criar uma nova análise na página inicial da interface do servidor Pentaho, apontando para o cubo que foi publicado no servidor OLAP na ferramenta Schema Workbench. Quando o usuário analisa o cubo OLAP, o servidor OLAP internamente executa consultas MDX (Multidimensional Expressions) sobre um arquivo .xml, possibilitando assim a navegação de análise do cubo. A Figura 9 exibe o modelo da visualização OLAP desenvolvida, onde várias operações de manipulação dos dados, sob diferentes perspectivas são possibilitadas.

Figura 5 – Visualização OLAP

4 Conclusões

Após seis meses de uso da ferramenta, foi colhido o depoimento do gerente de exportação o qual relatou que após a implantação do Data Mart, foi possível gerar estatísticas regionais e sazonais antes não mensuradas. Essas informações possibilitaram tomadas de decisão estratégicas no departamento, fazendo com que a empresa fosse até o cliente com maior possibilidade de compra para um determinado período do ano.

Por meio da ferramenta também foi gerado um ranking de maiores clientes por região/país do mundo, auxiliando na negociação e visando aumentar as vendas.

Ainda não foi possível uma análise do benefício quantitativo no setor de vendas da empresa, no

Page 9: 01341442883.pdf

9

entanto, por depoimentos do setor beneficiado pelo Data Mart, foi constatado a aplicabilidade e viabilidade de uso dentro da organização.

O departamento de exportação se mostrou satisfeito com o resultado do estudo, pois pode obter informações e estatísticas até então desconhecidas e de extrema importância para decisões gerenciais futuras. O gerente de vendas já esboçou desejo de ampliar o projeto, trazendo mais dados para análise do DM e estendendo-o para outras áreas da empresa. Os resultados também motivaram o estudo, o uso e a adoção de uma ferramenta de OLAP, a qual pode proporcionar um maior poder de análise ao modelo de estudo que a empresa optou por usar.

Com relação a trabalhos futuros, pode-se complementar os resultados obtidos com um estudo acerca das ferramentas OLAP e incorporação de dados de outros departamentos da empresa para o DM, além de um estudo mais detalhado sobre o processo de ETL visando maior desempenho e flexibilidade.

5 Referências

BARBIERI, C. Business intelligence: modelagem e tecnologia. Rio de Janeiro: Axcel Books, 2001.

HAISTEN, M. The next stage in data warehouse evolution, parts 1, 2 and 3. Junho, 1999. Disponível em http://www.information-management.com/news/946-1.html, Acesso em 05 abril de 2012.

INMON, W. H. Como Construir o Data Warehouse. 2ª ed., Rio de Janeiro: Campus, 1997.

KETTLE- Pentaho data integration. Disponível em http://kettle.pentaho.com/. Acesso em 05 de março de 2012.

KIMBALL, R.; REEVES, L.; ROSS, M.; THORNTHWAITE, W. The Data Warehouse

Lifecycle Toolkit: Expert Methods for Designing, Developing, and Deploying Data Warehouses. John Wiley & sons, New York, 1998.

KIMBALL, R. The Data Warehouse Toolkit: Practical Techniques for Building Dimensional Data Warehouses, New York: J. Wiley, 1996.

KIMBALL, R. The Data Warehouse Toolkit: Guia completo para modelagem dimensional. Tradução: Ana Beatriz Tavares, Daniela Lacerda. - Rio de Janeiro: Campus, 2002.

MONTEIRO, A. V. G. Uma aplicação de Data Warehouse para apoiar negócios. Trabalho científico. Universidade do Estado do Rio de Janeiro, 2007.

Pentaho. Disponível em http://www.pentaho.com/. Acesso em 05 de março de 2012.

THOMSEN, E. OLAP: construindo sistemas de informações multidimensionais. 2ª Ed. Rio de Janeiro: Campus, 2002.