dissertacao roberta

147

Click here to load reader

Upload: georham

Post on 17-Sep-2015

59 views

Category:

Documents


15 download

DESCRIPTION

dis

TRANSCRIPT

  • UNIVERSIDADE FEDERAL DA PARABA

    CENTRO DE CINCIAS EXATAS E DA NATUREZA DEPARTAMENTO DE INFORMTICA

    PROGRAMA DE PS-GRADUAO EM INFORMTICA

    MINERAO DE DADOS EM DATA WAREHOUSE PARA SISTEMA DE ABASTECIMENTO DE GUA

    ROBERTA MACDO MARQUES GOUVEIA

    Dissertao de Mestrado

    Joo Pessoa-PB Maio-2009

  • ROBERTA MACDO MARQUES GOUVEIA

    MINERAO DE DADOS EM DATA WAREHOUSE PARA SISTEMA DE ABASTECIMENTO DE GUA

    Dissertao de mestrado apresentada ao Centro de Cincias Exatas e da Natureza da Universidade Federal da Paraba, como requisito parcial para obteno do ttulo de Mestre em Informtica (Sistemas de Computao). Orientadora: Professora Dra. Valria Gonalves Soares Elias Co-orientador: Professor Dr. Heber Pimentel Gomes

    Joo Pessoa-PB Maio-2009

  • G719m Gouveia, Roberta Macdo Marques. Minerao de dados em data warehouse para sistema de abastecimento de gua / Roberta Macedo Marques Gouveia.

    Joo Pessoa, 2009. 147f. : il. Orientadora: Valria Gonalves Soares Elias. Co-orientador: Heber Pimentel Gomes. Dissertao (Mestrado) UFPB/CCEN 1. Data warehouse Banco de dados. 2. Minerao de dados. 3. Tecnologias OLAP. UFPB/BC CDU: 004.65 (043)

  • AGRADECIMENTOS A Deus pelo dom da vida e pelas oportunidades concedidas em minha vida, permitindo-me

    enveredar pelo caminho da cincia e do saber, e dando-me o alento necessrio para

    prosseguir. Nossa aliana eterna!

    Nossa Senhora, pelo seu grande exemplo de vida, mostrando-me o caminho da f,

    superao, esperana, tolerncia, doao e principalmente, seu exemplo de amor.

    Aos meus pais que tanto amo, Severino M. Gouveia e Ilsaira M. M. Gouveia, pelo

    exemplo de dedicao, amizade, amor incondicional e investimento dispensado ao longo da

    minha formao.

    Ao Prof. Dr. Heber Pimentel Gomes um agradecimento muito especial pelas orientaes e

    pela amizade conquistada ao longo desses dois anos juntos ao Laboratrio de Eficincia

    Energtica e Hidrulica em Saneamento - LENHS. Seus ensinamentos e motivaes foram

    significantes para a concluso deste trabalho.

    Profa. Dra. Valria Gonalves Soares Elias pelas orientaes sugeridas, das quais foram

    teis ao desenvolvimento desta pesquisa.

    Aos meus irmos Bruno M. M. Gouveia e Rafael M. M. Gouveia pelo apoio e harmnica

    convivncia, me incentivando a seguir em frente e fornecendo todo o sustentculo.

    Ao meu amado Alexandre Magno Gurgel Fialho pelo amor, dedicao, apoio, carinho e

    compreenso em todos os momentos.

    Aos meus amigos e colegas da UFPB, em especial a toda equipe do LENHS dentre eles,

    Moiss M. Salvino, Paulo Srgio O. Carvalho, Saulo B. de Tarso, Magno J. G. Silva e Wil L.

    L. Camboim pelo auxlio, incentivo e companheirismo.

    Ao Governo do Brasil, pelo apoio financeiro concedido atravs das Centrais Eltricas

    Brasileiras S.A. (ELETROBRS), da Financiadora de Estudos e Projetos (FINEP) e do

    Conselho Nacional de Desenvolvimento Cientfico (CNPq).

    Companhia de gua e Esgotos da Paraba (CAGEPA), em nome dos engenheiros

    Leonardo L. B. Montenegro e Jaqueline Pequeno, pela disponibilizao dos dados necessrios

    ao estudo de caso do trabalho.

    UFPB, instituio que, atravs de seus docentes e funcionrios, foi responsvel pela minha

    formao acadmica. E aqueles que contriburam de alguma forma para a realizao deste

    trabalho. Muito Obrigada!

  • RESUMO Esta dissertao se prope a utilizar tecnologias de Banco de Dados com a finalidade de

    oferecer apoio deciso para os gestores do setor de saneamento, haja vista que os servios de

    abastecimento de gua para uso da populao se constituem em um dos principais indicadores

    da qualidade de vida da humanidade. A idia fundamental consiste em coletar os dados

    operacionais, reduzi-los ao escopo de um problema, organiz-los em um repositrio de dados,

    e finalmente aplicar as tecnologias OLAP e os algoritmos de Minerao de Dados, a fim de

    obter resultados que proporcionem aos gestores um melhor entendimento do comportamento e

    perfil da companhia. Para facilitar a aplicao de tcnicas de Minerao de Dados

    necessrio que estes dados estejam armazenados apropriadamente. Neste sentido, uma das

    alternativas para o aumento da eficincia no armazenamento, gesto e operao dos dados

    para o suporte a deciso baseia-se no desenvolvimento do Data Warehouse. Este ambiente

    constitui fontes de informaes estratgicas do negcio, gerando um diferencial competitivo

    para a companhia. Diante deste contexto, se fez necessrio a implementao do repositrio de

    dados, o Data Warehouse, para armazenar, integrar e realizar as consultas multidimensionais

    sobre os dados extrados da companhia de abastecimento de gua. Portanto, esta dissertao

    de mestrado tem como objetivos projetar um Data Warehouse Departamental referente ao

    setor comercial, tambm conhecido como Data Mart; aplicar as tecnologias OLAP sobre os

    cubos de dados multidimensionais; e executar algoritmos de Minerao de Dados visando a

    gerao de um sistema de apoio deciso para minimizao das perdas aparentes no sistema

    de abastecimento urbano de gua.

    Palavras chave: Data Warehouse, OLAP, Data Mining, Sistemas de Abastecimento de gua e Perdas Aparentes.

  • ABSTRACT This work propose to use technologies of databases with the aim of providing decision

    support for managers of sector of sanitation, given that the services of water supply for use of

    the population are a key indicator of quality of life. The fundamental idea is to collect

    operational data, reduce them to the scope of the problem, organize them into a repository of

    data, and finally apply the techniques OLAP and Data Mining algorithms to obtain results that

    give managers a better understanding of the behavior and profile of the company. To facilitate

    the application of the techniques of Data Mining is necessary that the data are stored properly.

    Accordingly, an alternative for increasing the efficiency in storage, management and

    operation of data to support the decision based on the development of Data Warehouse. This

    is source of strategic information of the business, creating a competitive differential for the

    company. In this context, was required to implement the repository of data, Data Warehouse,

    to store, integrate and carry out consultations on the multidimensional data from the company

    of water supply. Therefore, this Master's thesis aims to design a Data Warehouse relating to

    Departmental Business, also known as Data Mart; applied the technology on the OLAP

    multidimensional cubes of data, and run the Data Mining algorithms to the generation of a

    decision support system to minimize the apparent losses in the urban water supply system.

    Keywords: Data Warehouse, OLAP, Data Mining, Water Supply Systems and Apparent Losses.

  • SUMRIO

    CAPTULO 1 14

    1 INTRODUO 14 1.1 OBJETIVOS 15 1.2 MOTIVAO DA PESQUISA 17 1.3 JUSTIFICATIVA DO TRABALHO 19 1.3.1 Perdas em Sistemas de Abastecimento de gua 19 1.4 ESTRUTURA DA DISSERTAO 21

    CAPTULO 2 22

    2 FUNDAMENTAO TERICA 22 2.1 SISTEMA DE APOIO DECISO 22 2.1.1 Descoberta de Conhecimento em Banco de Dados 24 2.2 DATA WAREHOUSE 25 2.2.1 Data Mart 27 2.2.2 Propriedades do Data Warehouse 29 2.2.3 Granularidade 31 2.2.4 Arquitetura do Data Warehouse 32 2.3 MODELAGEM DIMENSIONAL 35 2.3.1 Esquema Estrela 36 2.3.2 Esquema Floco de Neve 38 2.3.3 Esquema Constelao de Fatos 38 2.4 TECNOLOGIAS OLAP 39 2.4.1 Estrutura Multidimensional: Cubo de Dados 44 2.4.2 Conjunto de Operaes OLAP 46 2.5 DATA MINING 48 2.5.1 Metas do Data Mining 49 2.5.2 Aprendizado Indutivo 49 2.5.3 O Processo Iterativo do Data Mining 51 2.5.4 Principais Tarefas do Data Mining 52 2.5.5 Tcnicas de Data Mining 56 2.5.6 Viso Hierrquica do KDD 67 2.5.7 Ferramentas de Data Mining 68 2.5.8 Relao entre Data Warehouse, OLAP e Data Mining 70 2.6 TRABALHOS RELACIONADOS 71 2.7 CONSIDERAES FINAIS 75

  • CAPTULO 3 77

    3 PROJETO E IMPLEMENTAO DO SAD 77 3.1 O ESTUDO DE CASO 80 3.2 PROCESSO DE EXTRAO DO CONHECIMENTO: FASE 1 85 3.2.1 Implementao do Data Warehouse 85 3.2.2 Pr-Processamento: Limpeza e Enriquecimento 86 3.2.3 Transformao, Seleo e Integrao dos Dados 87 3.2.4 Utilizao do Esquema Constelao de Fatos 89 3.2.5 Pentaho Schema Workbench Modelagem Dimensional 92 3.2.6 Pentaho Analysis View - OLAP 93 3.3 PROCESSO DE EXTRAO DO CONHECIMENTO: FASE 2 98 3.3.1 Utilizao do Data Mining 98 3.3.2 Modelagem Realizada 99 3.3.3 Abordagem do Data Mining Aplicada aos Hidrmetros 100 3.3.4 Construo das Tarefas de Minerao 102 3.4 CONSIDERAES FINAIS 104

    CAPTULO 4 105

    4 DATA MINING APLICADO AO ESTUDO DE CASO 105 4.1 ETAPA DE DATA MINING 105 4.1.1 Software de Data Mining: WEKA 106 4.2 RESULTADOS E DISCUSSES 107 4.2.1 Pr-Minerao do Modelo Perfil do Setor 107 4.2.2 Pr-Minerao do Modelo Perdas Aparentes 111 4.3 INTERPRETAO E AVALIAO DOS RESULTADOS 114 4.3.1 Execuo do Data Mining: Modelo Perfil do Setor 116 4.3.2 Execuo do Data Mining: Modelo Perdas Aparentes 122 4.4 CONSIDERAES FINAIS 130

    CAPTULO 5 133

    5 CONCLUSO 133

    CAPTULO 6 137

    6 BIBLIOGRAFIA 137

    APNDICE 144

    APNDICE A 145 APNDICE B 146

  • LISTA DE FIGURAS

    Figura 2.1 - etapas do processo de KDD ............................................................................................................... 24

    Figura 2.2 - os quatro nveis de dados do ambiente arquitetural de um data warehouse ...................................... 33

    Figura 2.3 - exemplos de consultas referentes aos quatro nveis de dados ............................................................ 33

    Figura 2.4 - exemplo geral do esquema estrela ..................................................................................................... 36

    Figura 2.5 - exemplo geral do esquema floco de neve .......................................................................................... 38

    Figura 2.6 - exemplo geral do esquema constelao de fatos ................................................................................ 39

    Figura 2.7 - visualizao dos dados atravs de ferramenta OLAP pentaho analysis view .................................... 42

    Figura 2.8 - visualizao dos dados atravs do software PgAdmin ....................................................................... 43

    Figura 2.9 - (a) um cubo de dados com trs dimenses. (b) busca tridimensional de clulas no cubo .................. 44

    Figura 2.10 - exemplo de cuboids (1-D), (2-D) e (3-D) para o esquema constelao de fatos .............................. 45

    Figura 2.11 - Rede de cuboids para um cubo de trs dimenses ........................................................................... 46

    Figura 2.12 - exemplo da operao slice, dice, drill-down, drill-up e rotate. ........................................................ 47

    Figura 2.13 - taxonomia do data mining ............................................................................................................... 51

    Figura 2.14 - exemplo de dados utilizados na tarefa de classificao ................................................................... 53

    Figura 2.15 - exemplo de rvore de deciso .......................................................................................................... 57

    Figura 2.16 - arvore de deciso gerada com os dados da Figura 2.14 ................................................................... 57

    Figura 2.17 - classificao por rvore de deciso (pontos de utilizao versus fatura) ......................................... 59

    Figura 2.18 - taxonomia do processo de descoberta do conhecimento em banco de dados .................................. 67

    Figura 3.1 - componentes do ambiente de apoio deciso.................................................................................... 77

    Figura 3.2 - criao dos cubos de dados pela ferramenta schema workbench ....................................................... 79

    Figura 3.3 - tela inicial da ferramenta OLAP pentaho analysis view .................................................................... 79

    Figura 3.4 - minerao de dados pela ferramenta WEKA ..................................................................................... 80

    Figura 3.5 - sistemas de logradouros de Joo Pessoa - setor Miramar .................................................................. 81

    Figura 3.6 - desenvolvimento da modelagem dimensional no SGBD postgresql ................................................. 85

    Figura 3.7 - parte do esquema constelao de fatos para o setor de saneamento .................................................. 90

    Figura 3.8 - consulta ao esquema constelao de fatos da Figura 3.7 ................................................................... 91

    Figura 3.9 - criao do esquema constelao de fatos atravs da ferramenta schema workbench ........................ 92

    Figura 3.10 - consulta sobre o perfil do consumidor de baixa renda quanto a inadimplncia ............................... 94

    Figura 3.11 - exemplo de consulta ao esquema constelao de fatos da Figura 3.7 .............................................. 96

    Figura 3.12 - consulta ao cubo de dados fato perfil do setor (cuboids 1-D) ...................................................... 97

    Figura 3.13 - consulta ao cubo de dados fato perfil do setor (cuboids 2-D) ...................................................... 97

    Figura 3.14 - intervalos de valores percentuais do faturamento no ltimo semestre ........................................... 101

    Figura 4.1 - viso geral dos atributos do modelo perfil do setor. (A-C) .............................................................. 108

    Figura 4.2 - viso geral dos atributos do modelo perfil do setor. (D-F) .............................................................. 109

    Figura 4.3 - viso geral do perfil do setor 64 quanto inadimplncia. (A-C) ..................................................... 110

    Figura 4.4 - viso geral do perfil do setor 64 quanto inadimplncia. (D-F) ...................................................... 110

  • Figura 4.5 - atributos do modelo perdas aparentes associados ao atributo classe deciso. (A-C)....................... 112

    Figura 4.6 - atributos do modelo perdas aparentes associados ao atributo classe deciso. (D-F) ....................... 113

    Figura 4.7 - atributos do modelo perda aparente associados ao atributo classe deciso. (G-I) ........................... 113

    Figura 4.8 - atributos do modelo perdas aparentes associados ao atributo classe deciso. (J-M) ....................... 114

    Figura 4.9 - seleo dos algoritmos de data mining pela ferramenta WEKA...................................................... 115

    Figura 4.10 - rvore de deciso para o modelo perfil do setor ............................................................................ 119

    Figura 4.11 - rvore de deciso para o modelo perda aparente ........................................................................... 126

    Figura A.1 - modelagem dimensional do esquema constelao de fatos do data warehouse ..................... 145

  • LISTA DE TABELAS

    Tabela 2.1 - diferenas entre data mart e data warehouse .................................................................................... 28

    Tabela 2.2 - exemplo da modelagem dimensional em SGBDS ............................................................................. 36

    Tabela 2.3 - comparativo entre as tabelas de fatos e dimenso ............................................................................. 37

    Tabela 2.4 - diferenas entre OLAP e OLTP ........................................................................................................ 41

    Tabela 2.5 - regras de classificao geradas (descobertas) com os dados da Figura 2.14 ..................................... 53

    Tabela 2.6 - exemplo de dados para descoberta de regra de associao ................................................................ 55

    Tabela 2.7 - descoberta de regras de associao com fs = 0.3 e fc = 0.8 ............................................................... 55

    Tabela 2.8 - tcnicas, tarefas e algoritmos de data mining .................................................................................... 56

    Tabela 2.9 - operaes de especializao e generalizao por induo de regras ................................................. 60

    Tabela 2.10 - passos para construo da rvore de deciso atravs do ID-3 ......................................................... 61

    Tabela 2.11 - exemplo de dados para classificao bayesiana .............................................................................. 63

    Tabela 2.12 - clculo das probabilidades dos dados da Tabela 2.11 utilizando classificadores bayesianos .......... 64

    Tabela 2.13 - exemplo de uso do algoritmo apriori .............................................................................................. 66

    Tabela 2.14 - passos da execuo do algoritmo apriori ........................................................................................ 66

    Tabela 2.15 - ferramentas de data mining - apoio KDD ..................................................................................... 68

    Tabela 2.16 - avaliao comparativa entre as ferramentas de data mining ........................................................... 69

    Tabela 3.1 - dicionrio de dados. Fonte: CAGEPA ............................................................................................... 82

    Tabela 3.2 - matriz de confuso para a classificao com duas classes ............................................................... 102

    Tabela 4.1 - algoritmo ID-3 aplicado ao modelo perfil do setor ......................................................................... 117

    Tabela 4.2 - algoritmo J4.8 aplicado ao modelo perfil do setor .......................................................................... 118

    Tabela 4.3 - algoritmo naivebayes aplicado ao modelo perfil do setor ............................................................... 120

    Tabela 4.4 - algoritmo apriori aplicado ao modelo perfil do setor ...................................................................... 121

    Tabela 4.5 - algoritmo ID-3 aplicado ao modelo perda aparente ........................................................................ 122

    Tabela 4.6 - algoritmo J4.8 aplicado ao modelo perda aparente ......................................................................... 124

    Tabela 4.7 - algoritmo naivebayes aplicado ao modelo perda aparente .............................................................. 127

    Tabela 4.8 - algoritmo apriori aplicado ao modelo perda aparente ..................................................................... 129

    Tabela 4.9 - comparativo entre os algoritmos de data mining aplicados ao modelos perfil do setor .................. 130

    Tabela 4.10 - comparativo entre os algoritmos de data mining aplicados ao modelo perdas aparentes .............. 131

    Tabela B.1 - arquivo arff do modelo de data mining perfil do setor ........................................................... 146

    Tabela B.2 - arquivo arff do modelo de data mining perdas aparentes ...................................................... 147

  • LISTA DE ABREVIATURAS

    BI Business Intelligence

    CAGEPA Companhia de gua e Esgotos da Paraba

    DW Data Warehouse

    EIS Executive Information Systems

    ETL Extraction, Transformation and Load

    ID-3 Iterative Dichotomiser

    JDBC Java Database Connectivety

    KDD Knowledge Discovery in Databases

    OLAM On-Line Analytical Mining

    OLAP On-Line Analytical Processing

    OLTP On-Line Transaction Processing

    PNCDA Programa Nacional de Combate ao Desperdcio de gua

    ROLAP Relational On-Line Analytical Processing

    SAD Sistemas de Apoio Deciso

    SGBD Sistema Gerenciador de Banco de Dados

    SNIS Sistema Nacional de Informaes sobre Saneamento

    SQL Structured Query Language

    WEKA Waikato Environment for Knowledge Analysis

    XML Extensible Markup Language

  • CAPTULO 1 Este captulo introdutrio descreve as principais motivaes para realizao do trabalho, apresenta os objetivos e a justificativa da pesquisa e, finaliza, expondo a estrutura e organizao da dissertao.

    1 INTRODUO

    Os sistemas informatizados coletam e armazenam enormes quantidades de dados em

    seus bancos de dados, aumentando o nmero de corporaes que buscam alternativas para um

    planejamento, controle e gesto mais eficiente das informaes armazenadas, com o

    melhoramento dos processos de apoio tomada de deciso e sistemas inteligentes, baseados

    em descobertas de conhecimento.

    Nos dias atuais, com a necessidade de desenvolver sistemas para dar suporte a

    decises gerenciais, vem sendo utilizado e aperfeioado o Data Warehouse (DW). O DW

    um ambiente cuja finalidade extrair, integrar, limpar e dar consistncia aos dados

    provenientes dos sistemas transacionais da companhia. Alm disso, o DW dimensiona e

    consolida esses dados, organizando-os e melhorando a performance das consultas.

    Os primeiros sistemas de suporte deciso ficaram conhecidos como Executive

    Information Systems (EIS), e tornaram-se muito populares devido rapidez com que geravam

    as informaes. Contudo, a falta de flexibilidade para realizar consultas ad hoc e a

    necessidade de definio de frmulas e formatao de novos relatrios por parte do usurio,

    fizeram com que os EIS ficassem restritos gerao de relatrios corporativos pr-

    estabelecidos. Visando suprir as necessidades acima citadas surgiram as ferramentas OLAP

    (On-Line Analytical Processing). Elas tornaram vivel a construo de um ambiente no qual

    os analistas de negcio pudessem facilmente navegar pelos dados da companhia, realizando

    consultas ad hoc, fazendo novos cruzamentos entre as dimenses de anlise.

    Diante deste ambiente empresarial cada vez mais competitivo, a tecnologia da

    informao, quando bem utilizada, torna-se um importante diferencial entre as empresas que

    buscam excelncia na qualidade do servio prestado. Neste cenrio, surgem as tcnicas e

    aplicaes de Minerao de Dados com intuito de descoberta de padres de comportamento e

  • Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 15

    de novos conhecimentos sobre os dados armazenados. Portanto, a gesto aleatria baseada na

    intuio d lugar a inteligncia de negcio.

    O presente trabalho expe uma experincia do Processo de Descoberta do

    Conhecimento em Banco de Dados, tambm conhecido com Knowledge Discovery in

    Databases (KDD), a fim de observar a viabilidade e aplicabilidade de um caso real de apoio

    deciso. O estudo segue sob a forma da pesquisa bibliogrfica, da criao e implementao do

    Data Warehouse Departamental, do uso de tecnologias de anlise e recuperao de dados

    teis ao processo decisrio, conhecidas como OLAP, e da aplicao de tcnicas e algoritmos

    de Data Mining para descoberta de novos conhecimento e padres nos dados.

    1.1 OBJETIVOS

    Os servios de abastecimento de gua para uso da populao continuam sendo um dos

    indicadores da qualidade de vida da populao, sendo de fundamental importncia sade e

    alimentao. Estudos recentes comprovam que a gua est se tornando mais escassa, e que

    menos de 1% (um por cento) da gua no mundo est diretamente acessvel ao homem. Cerca

    de vinte pases, a maioria deles na frica e no Oriente Mdio, sofrem de escassez crnica de

    gua, causando danos severos produo de alimentos e atraso no desenvolvimento

    econmico (JAMES, et al., 2002).

    O estudo proposto por esta dissertao pretende provocar o interesse em pesquisadores

    envolvidos com a produo, implantao, manuteno, gerncia e utilizao de Sistemas de

    Informaes Gerenciais ou de Apoio Deciso. Assim, o resultado desse trabalho ter sua

    validade para todos aqueles profissionais envolvidos, de alguma forma, em projetos de Data

    Warehouse e Data Mining.

    Os objetivos gerais do trabalho so:

    Projetar e desenvolver um Sistema de Apoio Deciso (SAD); Aplicar as tecnologias de Banco de Dados voltadas para projetos de suporte a deciso

    (modelagem multidimensional);

    Organizar os dados do setor do sistema de abastecimento de gua em um Data Warehouse, para que eles possam ser analisados por tecnologias OLAP;

    Encontrar padres e conhecimentos nos dados do setor analisado atravs dos algoritmos de Data Mining.

  • Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 16

    De acordo com as peculiaridades do setor, os objetivos especficos so:

    Determinar o perfil do setor e do consumidor, por meio da verificao dos consumos de gua, valores faturados (conta de gua) e pontos de utilizao de gua;

    Verificar e diagnosticar a situao dos medidores (hidrmetros) presentes nos imveis; Encontrar respostas para as anormalidades e irregularidades praticadas pelos

    consumidores da qual a empresa de abastecimento de gua desconhece;

    Avaliar as inadimplncias dispostas no setor selecionado para o estudo de caso.

    Este trabalho visa contribuir para o uso racional e eficiente dos recursos hdricos, para

    isso so aplicadas tecnologias de Banco de Dados como Data Warehouse, OLAP e Data

    Mining. Tais tecnologias se propem em fornecer entidade gestora de um sistema de

    abastecimento de gua um controle maior do comportamento dos consumidores e imveis,

    proporcionando tomadas de decises eficientes que buscam a reduo de perdas de gua e das

    perdas econmicas da companhia de saneamento.

    Neste trabalho h a necessidade de conhecimentos envolvendo os dados histricos, tais

    como o tempo em que o cliente se encontra inadimplente junto operadora de abastecimento

    de gua; dados histricos das contas e consumos de gua e esgoto, histrico do hidrmetro

    (dados relativos troca do hidrmetro), etc. Os algoritmos de Data Mining com dados que

    variam com o tempo (sries temporais) so utilizados neste trabalho para prever novos

    conhecimentos a partir dos dados histricos da srie. Tais algoritmos analisam a quantidade

    de dados existentes e fornecem uma previso do que pode acontecer nos prximos perodos,

    levando em considerao os dados passados da base temporal.

    As tecnologias de Data Warehouse sero utilizadas como parte do processo de

    descoberta de conhecimento na base de dados do setor de saneamento da cidade de Joo

    Pessoa-PB. O ambiente de Data Warehouse organizar e disponibilizar os dados, visando

    facilitar os comandos e execues OLAP e as consultas para o processo de Data Mining.

    O termo Data Warehouse Departamental sinnimo de Data Mart. J o termo Data

    Warehouse Corporativo distinto de ambos. Desta forma, ao longo da dissertao sero

    encontrados os termos Data Warehouse, Data Warehouse Departamental ou Data Mart,

    ambos indicando o mesmo conceito, ou seja, um armazm de dados para o setor de

    saneamento urbano da cidade de Joo Pessoa - Paraba.

  • Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 17

    O uso das tecnologias OLAP proporcionar as agregaes e sumarizaes dos dados

    contidos no Data Warehouse, gerando informaes teis ao processo decisrio e oferecendo

    uma anlise mais detalhada do setor. A ferramenta OLAP utilizada neste trabalho foi Pentaho

    Analysis View, que por sua vez utiliza a ferramenta Pentaho Schema Workbench, ambas sero

    apresentadas no captulo 3.

    A aplicao do Data Mining visa encontrar os consumidores em potencial que

    apresentam algumas ou todas as caractersticas daqueles que j cometeram algum tipo de

    fraude e/ou inadimplncia na rede de distribuio de gua, assim como detectar erros e

    anormalidades na medio do consumo de gua por meio dos hidrmetros. Ao constatar tais

    irregularidades e anormalidades nos consumos e faturas, aes podero ser tomadas por parte

    da companhia para elimin-las, reduzindo o alto ndice de perdas de gua e consequentemente

    o alto percentual de perdas de faturamento.

    Os resultados obtidos com o Data Mining sero utilizados a fim de detectar padres,

    descobrir regras significativas e estabelecer relaes entre os ndices de inadimplncias e

    anormalidades das ligaes de gua e esgoto dos consumidores, na tentativa de reduzir os

    ndices de perdas aparentes na distribuio de gua.

    Os dados sero extrados do Data Warehouse Departamental para em seguida alguns

    algoritmos de Data Mining sero aplicados sobre esses dados pelo software Pentaho WEKA.

    Os resultados sero analisados com o propsito de obter medidas corretivas e preventivas para

    minimizar o problema das perdas aparentes nos sistemas de abastecimento de gua. Sero

    utilizados e comparados entre si trs algoritmos de minerao de dados do Aprendizado

    Indutivo Supervisionado. Quanto ao Aprendizado Indutivo No-Supervisionado ser aplicado

    um algoritmo que servir como complemento no processo de descoberta do conhecimento dos

    dados contidos no Data Warehouse (Os tipos de Aprendizado Indutivo sero explanados na

    seo 2.5.2).

    1.2 MOTIVAO DA PESQUISA

    As companhias de saneamento no Brasil perdem em mdia 44,18% da gua que corre

    no seu sistema de abastecimento, de acordo com o Programa Nacional de Combate ao

    Desperdcio de gua (PNCDA), (MARCKA, et al., Reviso 2004). Boa parte desta gua se

    perde antes mesmo de chegar aos imveis e atender a populao, isto , a gua que se perde

    entre as estaes de tratamento (ETA) e a rede de distribuio do consumidor final.

  • Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 18

    Segundo o Ministrio das Cidades, alm dos impactos negativos que as perdas hdricas

    provocam nos custos operacionais, ampliando a necessidade de investimento em novas

    instalaes de produo e tratamento, elas tambm causam danos natureza, pelo aumento da

    demanda, e geram prejuzos distribuio regional, principalmente para reas do Nordeste,

    onde h escassez de recursos hdricos, e tambm do Sudeste, cuja regio concentra a maior

    parte da populao.

    O problema das perdas aparentes em sistemas de abastecimento de gua um assunto

    que est sempre em foco, visto que o uso correto e consciente da gua pela populao e pela

    companhia significante para o desenvolvimento da humanidade. A deteco das perdas

    aparentes tem sido de grande interesse para diversas companhias de abastecimento de gua,

    uma vez que representam um fator negativo, tanto financeiro quanto ambiental. Foi desta

    forma que surgiu o interesse de aprofundar nesta rea e desenvolver este trabalho de

    mestrado.

    Portanto, a motivao da presente dissertao surge do interesse de investigar mais

    detalhadamente se as perdas aparentes de gua esto distribudas proporcionalmente pela

    cidade ou se esto concentradas em reas especficas, como por exemplo, nos setores onde o

    poder aquisitivo dos consumidores baixo. Para o estudo de caso, sero utilizados dados de

    um setor do saneamento da cidade de Joo Pessoa - Estado da Paraba.

    A Companhia de Abastecimento de gua da Paraba (CAGEPA) disponibilizou o

    setor 64, na cidade de Joo Pessoa-PB, para o estudo de caso da presente pesquisa. Este setor

    corresponde ao sistema de abastecimento urbano de gua do bairro e comunidade de Miramar

    e suas proximidades. Ele apresenta realidades sociais distintas, contemplando populao de

    classe alta, mdia e a populao de baixa renda (habitaes populares), alm de dispor de

    diversos tipos de estabelecimentos (comercial, pblico, industrial, residencial, etc.). Este setor

    possui aproximadamente 17.800 pontos de utilizao e 1.300 consumidores.

    A soluo desenvolvida nesta dissertao poder ser aplicada para os demais setores

    da cidade, trazendo como resultado futuro, uma viso geral dos consumidores de todo o setor

    de saneamento de Joo Pessoa. A idia fundamental desta pesquisa de mestrado traar e

    analisar o perfil dos consumidores e dos imveis quanto medio e s perdas aparentes em

    um determinado perodo de referncia contnuo.

  • Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 19

    1.3 JUSTIFICATIVA DO TRABALHO

    As perdas de gua em sistema de abastecimento de gua correspondem ao volume de

    gua retirado dos mananciais, e que se encontra na Estao de Tratamento de gua (ETA),

    subtrado dos volumes de gua medidos nos hidrmetros. As aes que visam o controle e a

    reduo de perdas de gua delineiam-se na melhoria da qualidade da operao e gesto dos

    sistemas de abastecimento de gua e, consequentemente, inserem-se no contexto do uso

    racional da gua.

    1.3.1 Perdas em Sistemas de Abastecimento de gua

    Segundo (MARQUES, et al., 2006), o volume de gua computado pela companhia de

    abastecimento de gua que no foi faturado corresponde ao ndice de perda do sistema. Estas

    perdas podem ser geradas por vazamentos nas tubulaes da rede de distribuio, erros de

    medio, fraudes nos hidrmetros, erros cadastrais, inadimplncias ligaes clandestinas de

    gua etc. As perdas so de dois tipos: Reais e Aparentes.

    1.3.1.1 Perdas Reais

    Segundo (GOMES, et al., 2007), as perdas fsicas de gua, tambm chamadas de

    Perdas Reais, ocorrem em todo o sistema de abastecimento, desde o ponto de captao at os

    de consumo, passando pela estao de tratamento, de bombeamento, reservatrios, rede de

    distribuio e ligaes prediais. Elas representam a gua que efetivamente no chega ao

    consumidor, em decorrncia de vazamentos nas redes de distribuio e seus ramais

    provocados por deficincia nos equipamentos, envelhecimento das tubulaes e conexes, e

    operao e manuteno inadequada em todo o sistema.

    1.3.1.2 Perdas Aparentes

    De acordo com a International Water Association (IWA), as Perdas Aparentes,

    tambm chamadas de Perdas No Fsicas ou Comerciais, referem-se a toda gua que no

    medida ou que no tenha o seu uso definido. Ocorre com a gua que tratada e fornecida pela

    companhia, e consumida pelos clientes, porm no corretamente medida e, portanto no

    faturada, nem gera arrecadao correspondente. Esto relacionadas s ligaes clandestinas

    e/ou irregulares, fraudes nos hidrmetros, erros de micro e macromedio, poltica tarifria,

    erro cadastral (desatualizao do cadastro, inatividade em ligao ativa, ligao no

    cadastrada por descuido), erro de leitura, etc.

  • Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 20

    Para (JAMES, et al., 2002), algumas das causas para as Perdas Aparentes so os erros

    e desatualizaes no cadastro de clientes; Fraudes, violao ou danificao de medio nos

    hidrmetros1; e Ligaes Clandestinas ou Ligaes no Cadastradas.

    Segundo estima (QUEYROI, 2007), metade dos problemas no segmento de

    saneamento esto ligados a vazamento, ou seja, perdas fsicas, e a outra metade so

    decorrentes de falhas na medio, ou seja, perdas aparentes.

    De acordo com (SNIS, 2007), as regies Norte e Nordeste so as reas onde h maior

    perda de faturamento e so tambm onde predominam as menores rendas per capta no pas.

    Isto aponta para dois aspectos possveis de situaes de perdas: um relacionado ao baixo

    poder de consumo destas populaes, altos ndices de inadimplncia e consequentemente

    lucros menores e outro relacionado s grandes potencialidades de irregularidades nas redes,

    com perdas de volumes de gua tratada em funo das ligaes clandestinas.

    No que se refere aos dados do (SNIS, 2007), o valor mdio das perdas de faturamento

    para todo o conjunto de prestadores de servios foi de 39,8%. Ressalta-se, segundo o

    relatrio, que os prestadores com maiores perdas concentraram-se nas regies Norte (53,4%)

    seguida do Nordeste (45,1%). A regio Sudeste possui ndices de perdas em torno de 39,8%,

    Centro-Oeste de 39,2% e Sul de 26,6%.

    A Companhia de gua e Esgotos da Paraba (CAGEPA), utilizada no estudo de caso,

    obteve um intervalo de perdas de faturamento entre 40,1 e 50,0 %. Este alto ndice reflete-se

    de forma negativa para o Estado, visto que as perdas de faturamento esto diretamente ligadas

    s perdas reais e aparentes. Estas, por sua vez, acarretam problemas estruturais, ambientais e

    sociais para toda a populao.

    importante reduzir as perdas aparentes para elevar a eficincia do sistema de

    abastecimento de gua. Na tentativa de minimizar e evitar tais desperdcios, este trabalho

    empenha-se em investigar e detectar perdas aparentes, e para alcanar este objetivo, utilizou-

    se o processo de descoberta do conhecimento em base de dados, com nfase no Data Mining.

    1 Por exemplo: rompimento do lacre e inverso do hidrmetro; execuo de by pass (i.e., desvio feito no aparelho, evitando que ele mea corretamente o volume consumido); colocao de arame para travar a turbina do hidrmetro etc.

  • Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 21

    A anlise de grande volume de dados permitir que se observem tendncias, que se

    detectem regies onde as perdas aparentes e inadimplncias dos consumidores so mais

    freqentes; quais so categorias de consumo mais suscetveis s perdas, entre outras aes.

    1.4 ESTRUTURA DA DISSERTAO

    A presente dissertao est organizada em 7 captulos, incluindo este introdutrio. O

    Captulo 2 configura o estado da arte da pesquisa e tem como objetivo apresentar os principais

    conceitos envolvidos com o tema da dissertao, sob forma de uma reviso bibliogrfica.

    O captulo 3 apresenta e caracteriza a companhia de abastecimento de gua envolvida

    no estudo de caso; e relaciona a teoria exposta no captulo 2 sob a forma de um estudo de caso

    real. Nele sero discutidas as tecnologias de banco de dados aplicadas ao setor de saneamento,

    alm de descrever os mecanismo de criao e implementao do Data Warehouse; a

    utilizao das tecnologias OLAP e de Data Mining, apresentando suas principais funes,

    vantagens e aplicabilidade.

    O captulo 4 apresenta os resultados e discusses do estudo de caso, apresentado as

    comparaes dos algoritmos de Data Mining quanto ao seu tipo de aprendizado indutivo.

    O captulo 5 retoma as discusses gerais do trabalho de forma conclusiva, finalizando

    a dissertao com os resultados e contribuies relevantes, dificuldades encontradas e as

    indicaes para trabalhos futuros. O ltimo captulo expe as referncias bibliogrficas

    consultadas.

  • CAPTULO 2 Este captulo configura o estado da arte da dissertao e empenha-se em discutir os assuntos e requisitos relacionados aos Sistemas de Apoio Deciso, Data Warehouse, OLAP e Data Mining. So apresentados os principais conceitos, o histrico e importncia de cada um no processo decisrio, mostrando sua relevncia para o atual mercado competitivo e tecnolgico do Business Intelligence.

    2 FUNDAMENTAO TERICA

    2.1 SISTEMA DE APOIO DECISO

    Os Sistemas de Apoio Deciso (SAD), ou Decision Support Systems (DSS), visam

    proporcionar uma avaliao crtica das informaes dos negcios, auxiliando a gerncia a

    definir tendncias, apontar problemas e absorver decises inteligentes.

    De acordo com (DATE, 2004), o processo de tomada de deciso com auxlio de

    computadores iniciou na dcada de 70, onde os processos comearam a ser informatizados e

    as informaes passaram a ser pr-definidas e selecionadas por meio dos Executive

    Information Systems (EIS). Na fase atual, os processos de tomada de deciso so totalmente

    informatizados e o gestor define os atributos mais importantes ao processo decisrio,

    recebendo subsdios e informaes processadas pelos Sistemas de Apoio Deciso, atravs de

    ferramentas OLAP, que ser discutida na seo 2.4.

    Nas dcadas anteriores, o foco estava voltado ao crescente aumento da quantidade de

    informao armazenada em formato eletrnico. Segundo (ZARUR, 2005), estima-se que a

    quantidade de dados duplica a cada um ano e meio e que o tamanho e nmero de bases de

    dados crescem a um ritmo ainda mais elevado. Este grande aumento deve-se essencialmente

    constante diminuio do custo de armazenamento dos dados e ao efetivo aumento da

    eficincia dos computadores em manuse-los.

    De acordo com (ELMASRI, et al., 2005), os Bancos de Dados de apoio deciso

    costumam ser extensos, fortemente indexados e envolver uma grande quantidade de

  • Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 23

    redundncia, em especial, sob a forma de replicao e de tabelas de totalizao. As chaves

    costumam envolver um componente temporal e as consultas costumam ser complexas.

    Certos aspectos dos sistemas de BD para apoio deciso os distinguem dos sistemas

    de BD tradicionais, sendo o principal deles o fato dos BD para apoio deciso serem quase

    que exclusivamente para leitura/consultas, e dificilmente para atualizaes. Como

    consequncia, observa-se as dificuldades em se trabalhar na prtica com um grande nmero

    de variveis, que so os atributos do BD, e a grande quantidade de dados histricos. Em

    virtude desta complexidade, opta-se por extrair apenas as informaes mais relevantes da base

    de dados transacional.

    O bom processamento de extrao dos dados a principal razo para o sucesso na

    tomada de deciso. Esta extrao corresponde cpia dos dados desejveis do ambiente

    operacional para o processamento subsequente. Significa que os usurios podem operar sobre

    os dados extrados da maneira como desejarem, sem interferncia no ambiente operacional.

    Aps tantos anos de concentrao na obteno de dados, o problema, agora, passa a

    ser o aproveitamento deste precioso recurso. Reconheceu-se que estes dados propiciam aos

    indivduos responsveis pelas decises, o planejamento das aes, a definio de estratgias e

    a eficcia em suas decises.

    O apoio deciso se utiliza de vrias tecnologias, dentre elas, Data Warehouse, Data

    Mart, Sistema Gerenciadores de Banco de Dados, Processamento Analtico On-line (OLAP),

    Banco de Dados Multidimensionais, Minerao de Dados (Data Mining) etc.

    As Ferramentas de Apoio Deciso (FAD) fazem parte do conceito de Business

    Intelligence (BI), ou Inteligncia de Negcios, e correspondem ao conjunto de tecnologias

    que permitem o cruzamento de informaes e suporte a anlise dos indicadores de

    desempenho de um negcio (COLAO, 2004).

    Estas ferramentas so softwares desenvolvidos com objetivo de apresentar

    graficamente (e no apenas numericamente) as informaes do negcio, auxiliando a

    simulao de ocorrncias, fornecendo maior capacidade de anlise para o descobrimento de

    novos conhecimentos e padres.

  • Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 24

    2.1.1 Descoberta de Conhecimento em Banco de Dados

    O processo de descoberta de conhecimento em banco de dados se prope em encontrar

    e interpretar padres atravs das anlises nas fontes de dados. O objetivo extrair de grandes

    bases de dados, sem nenhuma formulao prvia de hipteses, as informaes desconhecidas,

    vlidas e acionveis, que podero ser teis para a tomada de deciso.

    Ficou mais conhecido pelo acrnimo KDD, que em ingls significa Knowledge

    Discovery in Database. O processo de KDD foi proposto para determinar as etapas que

    produzem conhecimentos a partir dos dados e, principalmente, definir a etapa de Data Mining

    (Minerao de Dados), que a fase que transforma dados em conhecimento (FAYYAD, et al.,

    1996).

    Como ilustra a Figura 2.1, cada fase da execuo do processo KDD possui uma

    interseo com as demais. Deste modo, os resultados produzidos em uma fase podem ser

    utilizados para melhorar os resultados das prximas fases. Este cenrio revela um processo

    iterativo, que busca sempre aprimorar os resultados a cada iterao.

    Figura 2.1 - etapas do processo de KDD

    Fonte: (Adaptao) (SYMEONIDIS, et al., 2005 p. 14)

    O processo de KDD envolve trs etapas iniciais: seleo, (pr) processamento e

    transformao, as quais compem a preparao dos dados. Em seguida vem a fase de Data

    Mining, considerada essencial ao processo e foco principal deste trabalho. Por fim, o

    conhecimento gerado analisado e assimilado, por meio da etapa de anlise e interpretao

    dos resultados, que se encontra no topo do processo.

  • Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 25

    2.2 DATA WAREHOUSE

    Os Data Warehouses podem ser traduzidos como Armazns de Dados e so tipos

    especiais de banco de dados que se tornaram conhecidos e bastante utilizados a partir da

    dcada de 90. Ser utilizado o termo em ingls neste trabalho, visto que a maioria dos autores

    utiliza-o por considerarem mais intuitivo. De acordo com (INMON, 2005), o termo definido

    como um depsito de dados orientado por assunto, integrado, no voltil, varivel com o

    tempo, para apoiar as decises da gerncia. Onde no voltil significa que, uma vez

    inseridos, os dados no podem ser alterados, embora possam ser excludos. O conceito de

    armazm de dados surgiu por duas razes: primeiro, pela necessidade de fornecer uma origem

    de dados nica, limpa e consistente para fins de apoio deciso; segundo, pela necessidade de

    faz-lo sem causar impacto sobre os sistemas operacionais.

    O processo de desenvolver e gerenciar repositrios de dados a partir de vrias fontes

    com o propsito de obter uma viso detalhada e singular de parte ou todo um negcio,

    conhecido como Data Warehousing. De acordo com (GARDNER, 1998), a concretizao do

    Data Warehousing considerada um dos primeiros passos para tornar factvel a anlise de

    grande quantidade de dados no apoio ao processo decisrio.

    Segundo (PONNIAH, 2001), o Data Warehousing no um software ou produto de

    hardware que se adquire para fornecer informaes estratgicas. , sim, um ambiente

    computacional onde os usurios so colocados diretamente em contato com os dados que

    necessitam para tomar as melhores decises.

    O produto principal obtido de um projeto de Data Warehousing o seu Data

    Warehouse (DW), e cujo objetivo bsico gerar um repositrio que contenha dados limpos,

    agregados e consolidados, podendo este ser analisado por ferramentas do tipo OLAP (On-Line

    Analytical Processing) e Data Mining (assuntos abordados nas sees 2.4 e 2.5,

    respectivamente).

    As bases de dados convencionais (relacionais) possuem algumas caractersticas, tais

    como dinamismo, redundncias, incompletude e rudos, tornando-as confusas e no viveis

    extrao de informaes delas prprias. O Data Warehouse surgiu com o objetivo de fornecer

    os subsdios necessrios para a transformao de uma base de dados que utiliza On-Line

    Transaction Processing (OLTP) para On-Line Analytical Processing (OLAP). A primeira

    significa os processamentos que executam as operaes do dia-a-dia da organizao e a

  • Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 26

    ltima, os processamentos que suportam a tomada de decises. Os termos OLTP e OLAP

    sero detalhados na seo 2.4.

    Alguns problemas so apontados por (KIMBALL, et al., 2002; IMHOFF, et al., 2003)

    quanto ao uso do modelo relacional pra a realizao de consultas complexas. A manipulao

    dos dados, incluindo as consultas, muito mais rpida e intuitiva no modelo multidimensional

    em comparao ao modelo relacional.

    Enquanto uma busca no modelo relacional exige a navegao entre diversas tabelas,

    no modelo multidimensional isto no necessrio, o que o torna mais eficiente e com melhor

    desempenho. Devido ao grande nmero de tabelas normalizadas do modelo relacional, torna-

    se invivel a realizao das consultas, j que preciso fazer um grande nmero de conexes

    (inner join) entre as mesmas.

    Os benefcios da modelagem multidimensional que ela torna os esquemas de dados

    mais compreensveis para os usurios finais, e por outro lado, ela permite usar

    armazenamento especfico e tcnicas de acesso que melhoram o desempenho de queries. A

    maneira para obter estes benefcios a simplificao dos esquemas de dados, de forma que

    eles s contenham as coisas essenciais (i.e. um fato para ser analisado e suas dimenses de

    anlise).

    Constantemente h atualizao na base de dados e consequentemente as informaes

    histricas so perdidas. Na projeo de bases de dados para Data Warehouses, deve-se

    quebrar o paradigma dos modelos de dados normalizados utilizados nos BD tradicionais, e

    buscar armazenamento histrico/temporal. Ao desnormalizar as tabelas, o projetista do DW

    busca ganhar desempenho nas consultas, contudo, no se deve introduzir redundncia em

    qualquer lugar do modelo.

    A idia dos Data Warehouses geralmente se destina a fornecer uma nica origem aos

    dados para todas as atividades de apoio deciso. O propsito de construir uma espcie de

    warehouse limitado e de uso especial, adaptado finalidade imediata, uma soluo aos

    problemas encontrados com os Data Warehouses coorporativos, visto que desta forma

    possvel o acesso mais rpido aos dados, ao contrrio se eles tivessem que ser sincronizados

    com todos os outros dados a serem carregados no warehouse completo. Essas consideraes

    levaram ao conceito de Data Marts, que ser apresentado no prximo Item.

  • Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 27

    Existem trs tipos principais de processamentos usados com o Data Warehouses (HAN, et al.,

    2006):

    Processamento de Informao: suporta consultas, anlises estatsticas e relatrios; Processamento Analtico: ferramentas OLAP e suas operaes; Processamento de Minerao de Dados: descoberta de conhecimento automatizada,

    encontrando padres escondidos nos dados. Pode-se realizar visualizaes dos dados,

    assim como classificaes e predies atravs das tcnicas de Data Mining.

    2.2.1 Data Mart

    De acordo com (KIMBALL, et al., 2002 p. 36):

    Um Data Mart um Data Warehouse de menor capacidade e

    complexidade usado para atender a uma unidade especfica de

    negcios. Portanto, so tipicamente mais fceis de construir e

    manter.

    Um Data Mart, segundo (INMON, 2005) uma coleo de assuntos organizados para

    dar suporte tomada de deciso e esto baseados nas necessidades de um determinado

    departamento. geralmente descrito como um subconjunto dos dados extrado para um

    ambiente separado. Eles so teis nas seguintes condies:

    Os dados devem estar segregados para melhorar o desempenho do sistema do ponto de vista do usurio.

    Deve existir uma cpia dos dados onde apenas pessoas com autorizao podem ter o privilgio de acess-las.

    Em um ambiente corporativo, importante fortalecer o conceito de propriedade dentro do banco de dados. Diferentes setores (Financeiro, Marketing, Vendas, etc.) sero

    responsveis por diferentes Data Marts.

    Um Data Mart representa uma rea especfica a partir de um nico processo

    empresarial, sendo considerado a parte de um todo. por isso que o Data Mart, que uma

    abordagem descentralizada do conceito de Data Warehouse, no um pequeno Data

    Warehouse, mas sim uma unidade lgica de um DW, podendo ser qualificado como um

    Data Warehouse Departamental. A Tabela 2.1 relaciona algumas diferenas entre o ambiente

    de Data Mart e o ambiente de Data Warehouse.

  • Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 28

    Tabela 2.1 - diferenas entre data mart e data warehouse

    Data Mart Data Warehouse Departamental (nica rea); Corporativo (mltiplas reas); Nvel ttico; Nvel estratgico;

    Otimizado para acesso e anlise; Otimizado para armazenamento e gerenciamento de grandes volumes de dados;

    Poucas fontes de dados; Muitas fontes de dados;

    Pequenos estgios de implementao (menor tempo)

    Mltiplos estgios de implementao (maior tempo);

    Fonte: (INMON, 2005)

    Observa-se que as principais diferenas entre Data Mart e Data Warehouse esto

    relacionadas ao tamanho e o escopo do problema a ser resolvido. Enquanto um Data Mart

    trata de problema departamental ou local, um Data Warehouse envolve o esforo de toda a

    companhia para que o suporte decises atue em todos os nveis da organizao. Desta

    forma, o desenvolvimento de um Data Warehouse requer tempo, dados e investimentos

    gerenciais muito maiores que um Data Mart.

    De acordo com (INMON, 2005), um dos assuntos em pauta para a rea de TI nos

    ltimos anos decidir qual ambiente de apoio deciso desenvolver primeiro, o Data

    Warehouse ou os Data Marts. A escolha entre um nico Data Warehouse Corporativo e uma

    arquitetura consistindo de muitos Data Marts um ponto de algumas controvrsias entre os

    pesquisadores. Uma boa parte dos especialistas defende a implementao de Data Marts

    como passo inicial e existe uma unanimidade de especialistas alertando ao usurio que em

    momento algum ele pode esquecer o modelo corporativo, sob o risco de obter srios

    prejuzos.

    Aps o levantamento e definio do conjunto de atributos e dados necessrios para

    realizao desta pesquisa, optou-se por implementar um Data Warehouse Departamental, ou

    seja, um Data Mart do departamento comercial A escolha se deu em virtude dos dados

    adquiridos corresponderem s informaes comerciais dos consumidores e imveis de um

    setor da companhia de abastecimento de gua. Os resultados obtidos com aplicao das

    ferramentas OLAP e Data Mining sobre o Data Warehouse Comercial visam criao de um

    novo ambiente computacional com o propsito de fornecer informao estratgica para a

    companhia de saneamento.

  • Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 29

    A presena de vrios Data Marts em uma mesma companhia oferece alto risco de

    redundncia dos dados. Esses ambientes de armazenamento e anlises de dados fisicamente

    distintos trazem benefcios e facilidades, entretanto, existe um preo a se pagar. Desta forma,

    ao construir Data Marts deve-se sempre ter a preocupao de compartilhamento de dados,

    tabelas e relatrios em comum entre os demais departamentos, consequentemente entre os

    demais Data Marts. Afinal, relatrios em comum no podem possuir valores diferentes entre

    os departamento.

    A separao fsica dos dados em diferentes grupos, pela presena de vrios Data

    Marts em uma nica companhia, diminui a habilidade de organizao das informaes. A

    dificuldade em evitar a inconsistncia dos dados pode ir contra o paradigma de um Data

    Warehouse. Afinal, uma das principais motivaes para o surgimento do DW foi eliminar as

    inconsistncias dos dados e agrup-los em um nico ambiente de apoio deciso.

    2.2.2 Propriedades do Data Warehouse

    De acordo com (INMON, 2005), o DW deve seguir quatro propriedades fundamentais,

    so elas: Orientado por Temas, Integrado, Variante no Tempo e No Voltil.

    A propriedade Orientado por Tema, (INMON, 2005) refere-se importncia de

    organizar as informaes pelos temas principais. Para o setor de saneamento, que caracteriza

    o estudo de caso deste trabalho, os principais temas so: perfil dos consumidores e imveis,

    servio prestado e perdas aparentes.

    Cada tema pode envolver vrias tabelas e atributos e podem existir dados

    acumulativos e detalhados. Para o tema perfil dos consumidores, por exemplo, os atributos

    podem ser os dados cadastrais (nome, endereo, telefone, e-mail), dados das contas e

    consumos de gua, etc. Como exemplo de dados acumulativos tem-se a consulta que retorna o

    somatrio dos consumos descendentes, agrupados por clientes no perodo de 2007 a 2008.

    A propriedade Integrado presente em um DW mostra a necessidade de acoplar

    dados de diferentes formatos. Os dados precisam seguir uma conveno padro para que desta

    forma eles possam fornecer significados nicos. Um sistema do setor comercial pode

    codificar o indicativo de medidor como SIM ou NO. Onde SIM se refere ao consumidor

    que possui hidrmetro para medio do consumo de gua e NO caracteriza o consumidor

    que no possui hidrmetro para medio. Outro setor da companhia de abastecimento pode

  • Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 30

    codificar 0 (Tem Hidrmetro) e 1 (No tem Hidrmetro), assim como S (Tem Hidrmetro) e

    N (No tem Hidrmetro). Desta forma, necessrio definir uma nica codificao dos dados

    extrados para o Data Warehouse.

    A terceira propriedade Variante no Tempo em um ambiente de Data Warehouse

    determina que os dados no sejam atualizveis e que eles possam ser comparados ao longo do

    tempo. Os dados so atribudos como retratos da base de dados operacional atual, onde cada

    ocorrncia e cada mudana so consideradas como um novo registro, pois a informao

    histrica no perdida.

    Contudo, em um Ambiente Transacional2 a atualizao dos dados ocorre em virtude

    das mudanas ocorridas. Os dados retornados em consultas correspondem informao no

    momento da consulta, e neste caso as consultas histricas no so consideradas3.

    Supondo que desejamos recuperar a quantidade de pontos de consumo do consumidor.

    Em 2007 o consumidor possua 20 pontos de consumo em sua residncia, j em 2008 passou

    para 23 pontos de consumo. A consulta retornar apenas a estado atual dos pontos de

    consumo, ou seja, 23. A informao histrica anterior perdida. Entretanto, no DW ao

    consultar os pontos de acesso do cliente em 2007, do exemplo acima, o resultado

    corresponder ao valor 20.

    A ltima propriedade proposta por (INMON, 2005), que a no volatilidade dos

    dados, se verifica em banco de dados que disposto fisicamente para otimizaes de

    incluses e consultas. Ou seja, no deve ser um banco preparado para atualizaes.

    O DW consiste em fornecer apenas acessibilidade aos dados, no permitindo

    atualizaes ou alteraes. Ele concede apenas a carga inicial e consulta (acessos) aos dados.

    Ao contrrio, a volatilidade uma propriedade bastante observada em ambientes operacionais

    tradicionais, pois os registros dos dados so atualizados constantemente.

    2 Conhecido tambm por Ambiente Operacional. O termo mais utilizado nesta dissertao Ambiente Transacional. 3 Neste caso no esto sendo mencionados os ambientes que utilizam Banco de Dados Temporais (BDT), apenas os que utilizam Banco de Dados Relacionais.

  • Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 31

    2.2.3 Granularidade

    A questo da granularidade um dos mais importantes aspectos no projeto de Data

    Warehouse. Corresponde ao nvel no qual os dados esto sumarizados no Data Warehouse, ou

    seja, refere ao nvel de detalhamento das informaes armazenadas. Quanto mais detalhados

    os dados, menor a granularidade do DW (granularidade fina ou baixa). Quanto maior o nvel

    de granularidade, menor ser os detalhes dos dados (granularidade grossa ou alta).

    Segundo (PONNIAH, 2001 p. 23), a granularidade est diretamente ligada ao volume

    de informaes armazenadas e aos tipos de consultas que podem ser realizadas pelo usurio

    de um DW. Ao definir um nvel muito detalhado, o usurio poder ver a informao em

    qualquer nvel de agregao e maior ser o detalhamento das consultas. Contudo, a escolha de

    um nvel baixo demais poder ocasionar em um aumento do volume de dados armazenado e,

    consequentemente, afetar a performance do sistema. Por outro lado, ao definir um nvel

    pouco detalhado, o usurio ficar impossibilitado de realizar consultas mais detalhadas, visto

    que o volume de informaes armazenadas menor, porm, permite maior desempenho e

    rapidez nas respostas das consultas.

    Portanto, quanto mais alto o nvel de granularidade, menor o volume de dados e o

    nmero de ndices e, indiretamente, menor o processamento necessrio. O problema existente

    que o nvel de granularidade tambm inversamente proporcional ao nmero de consultas

    que podem ser atendidas.

    A utilizao de apenas um nvel de granularidade em projetos de Data Warehouse no

    recomendada como soluo eficiente. Afinal, o nvel de granularidade inversamente

    proporcional quantidade de consultas atendidas e/ou desempenho do processamento. O

    modelo dimensional (ver item 2.3) o mais utilizado nas aplicaes de DW, e este utiliza

    tcnicas de nveis duais de granularidade.

    O desenvolvimento de um ambiente com nveis duais de granularidade consiste em ter

    dados de um mesmo assunto em granularidades diferentes. A opo pelo uso de nveis duais

    tem como finalidade baixos tempos de resposta nas consultas de granularidade alta e anlise

    dos dados em maior detalhe nas consultas com nveis de granularidade baixa.

    A razo pela qual a granularidade a principal questo de projetos de Data

    Warehouses consiste no fato de que ela afeta profundamente o volume de dados, ao mesmo

  • Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 32

    tempo afeta no tipo de consulta que pode ser atendida. O volume de dados residentes no DW

    deve ser balanceado de acordo com o nvel de detalhe de uma consulta.

    2.2.4 Arquitetura do Data Warehouse

    Em um ambiente projetado de Data Warehouse h duas espcies de dados: Dados

    Primitivos (operacionais ou atmicos) e Dados Derivados (de apoio deciso ou

    sumarizados). Os dados primitivos consistem em valores referentes ao momento presente, e

    so baseados em aplicaes, podem ser atualizados, so detalhados, e processados

    repetitivamente. Enquanto que os dados derivados so geralmente valores histricos, baseados

    em assuntos ou negcios, so resumidos, ou refinados, no so atualizados, representam

    valores de momentos j decorridos ou instantneos e so processados de forma heurstica

    (INMON, 2005).

    A escolha de dados primitivos para o armazenamento em um DW proporciona vrios

    benefcios, porm gera algumas desvantagens. O maior benefcio est na possibilidade de se

    pesquisar em base de dados mais rica, proporcionando uma anlise mais aprofundada e

    cuidadosa nos dados, o que permite a verificao do histrico, de tendncias, de previses e

    de elaborao de cenrios. A principal desvantagem a necessidade de um espao muito

    maior nos dispositivos de armazenamento, assim como uma maior capacidade de

    processamento para que no haja baixa performance nas consultas e anlises dos dados.

    A escolha de dados derivados para o armazenamento em DW tambm traz benefcios

    e desvantagens. O maior benefcio que os dados j esto sumarizados, ou seja, j esto

    resumidos e armazenados em um formato no qual so mais consultados. Ocupam menos

    espao nos dispositivos de armazenamento e a performance das consultas e das anlises dos

    dados mais rpida. A desvantagem que o armazenamento dos dados sumarizados limita

    bastante a capacidade de pesquisa e de anlise. A maioria das empresas opta pelas duas

    formas de armazenamento simultaneamente. Desta forma, somam-se as vantagens e reduzem-

    se as desvantagens de ambas.

    Segundo (INMON, 2005), com estas diferenas nos dados, tem-se a projeo de

    quatro nveis do ambiente arquitetural de um DW, so eles: Nvel Operacional (ou

    Transacional), Nvel Atmico (ou Data Warehouse), Nvel Departamental (ou Data Mart) e

    Nvel Individual, como mostra a Figura 2.2.

  • Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 33

    Figura 2.2 - os quatro nveis de dados do ambiente arquitetural de um data warehouse

    Fonte: Adaptao de (INMON, 2005)

    O nvel Operacional de dados detm apenas a aplicao orientada a dados primitivos e

    atende comunidade de processamento de transaes de alta performance. O nvel de Data

    Warehouse contm dados primitivos que no so atualizados, alm de alguns dados

    derivados. O nvel Departamento contm quase que exclusivamente dados derivados. Este

    nvel moldado pelas necessidades dos usurios finais adaptadas s necessidades do

    departamento. E o nvel individual de dados onde muitas das anlises heursticas so

    realizadas. Segue a Figura 2.3 com exemplos dos quatro nveis de dados.

    Figura 2.3 - exemplos de consultas referentes aos quatro nveis de dados

  • Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 34

    O Nvel Operacional retornar a mdia na medio de consumo de gua do cliente

    Joo (nome e endereo fictcio) na ltima medio efetuada, ou seja, em Abril de 2008 e que

    corresponde a 24 m3de gua. O registro neste nvel contm os valores recentes do cliente,

    onde para se conhecer a situao atual dele, acessado o registro existente neste nvel. Para

    alterao dos dados de Joo, o registro do nvel operacional ser alterado, com o objetivo de

    refletir os novos dados atualizados.

    O segundo nvel, nvel de Data Warehouse, resulta no histrico de consumo do

    consumidor Joo, isto : 10,3 m3 entre Maio e Agosto de 2007, 10,5 m3 entre Setembro e

    Dezembro de 2007 e mdia de volume de 17,0 m3 entre Janeiro e Abril de 2008. Neste nvel

    existem vrios registros do Joo, apresentando o histrico das informaes sobre ele. No h

    sobreposio nos registros existentes no ambiente de DW. Quando houve mudana de

    endereo do consumidor (da Rua Iolanda para Rua Miramar), foi gerado um novo registro no

    DW, refletindo as datas do perodo que Joo residiu naquele local.

    O terceiro nvel, nvel de Data Mart, permitir ao executor extrair informaes de

    maior complexidade e especfico do negcio, facilitando as tomadas de decises. Um

    exemplo seria uma lista com todos os clientes por categoria, sendo o consumidor Joo

    includo nesse resumo de cada quadrimestre. Como consulta do nvel 3 tem-se: O volume de

    gua em m3 do setor analisado est aumentando ao longo do tempo (relatrio

    quadrimestral)?. O retorno desta consulta so as mdias de consumo agrupadas por

    quadrimestre (Maio a Agosto de 2007; Setembro a Dezembro de 2007 e Janeiro a Abril de

    2008).

    Por fim tem-se o nvel Individual, que possibilita a previso de informaes,

    fornecendo vises futuras por meio das anlises heursticas. Os dados neste nvel so,

    geralmente, temporrios e de pequenas propores.

    No exemplo apresentado na Figura 2.3, ao analisar o setor observou-se que a maioria

    dos consumidores inadimplentes possui hidrmetros instalados a mais de 10 anos e com

    capacidade de vazo de at 3 m3. Ainda no nvel Individual, verificou-se que

    aproximadamente metade dos consumidores est com consumo de gua igual a zero, o que

    representa hidrmetro parado. Estes resultados indicam casos onde uma inspeo tcnica

    poderia ser realizada, afinal os equipamentos de medio podem estar defasados e/ou

  • Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 35

    danificados, gerando perdas aparentes no sistema. Na seo 3.3.3 proposto um modelo de

    Minerao de Dados aplicado inspeo e troca de hidrmetros.

    2.3 MODELAGEM DIMENSIONAL

    A modelagem dimensional4 uma metodologia que possibilita que os dados sejam

    modelados visando aperfeioar o desempenho de consultas e oferecer facilidades de utilizao

    a partir de um grupo de eventos simples de medio. A viso dimensional facilita o

    entendimento e visualizao de problemas tpicos de sistemas de apoio deciso, mais

    intuitiva e eficaz para o processamento analtico e utilizada pelas tecnologias OLAP

    (discutidas na seo 2.4).

    Trs conceitos esto envolvidos com a modelagem dimensional, so eles: fatos,

    dimenses e mtricas (medidas ou atributos). De acordo com (BALLARD, et al., 1998), um

    fato uma coleo de itens de dados que consiste de mtricas e do contexto do negcio. A

    dimenso uma coleo de itens do mesmo tipo que representa as vises do negcio. A

    mtrica definida como um atributo numrico de um fato, e representa o comportamento do

    negcio para as dimenses.

    Os fatos so reunidos na tabela de fatos. Segundo (KIMBALL, 1997), as tabelas de

    fatos normalmente contm dados numricos e somatrios. Como os Data Warehouses

    geralmente recuperam muitos registros em uma nica consulta, uma tendncia agrupar os

    dados para anlise, pois esta compactao proporciona ganhos de performance. Cada

    dimenso possui uma tabela de dimenso associada que armazena as descries textuais das

    dimenses do negcio. Cada tabela de dimenso tem uma chave primria que corresponde

    exatamente a um dos componentes da chave composta da tabela de fatos.

    A Tabela 2.2 a seguir apresenta o modelo dimensional implementado em SGBD

    Multidimensional e SGBD Relacional. Os dados da tabela correspondem s mdias de

    consumo em m3 das quadras 010, 015, 020 e 025, agrupadas por categoria de consumo

    durante o perodo de 2007 a 2008.

    4 Os termos modelagem dimensional e modelagem multidimensional so utilizados na literatura para expressar o mesmo conceito. No h uma definio padro que indique uma diferena precisa entre os dois termos.

  • Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 36

    Tabela 2.2 - exemplo da modelagem dimensional em SGBDS Categoria

    Comercial Industrial Residencial

    Qua

    dra Quadra_010 190.0 - -

    Quadra_015 34.3 23.5 114.0 Quadra_020 38.2 - 88.8 Quadra_025 - - 19.8

    Modelagem Dimensional em SGBD

    Multidimensional Modelagem Dimensional em SGBD

    Relacional (PostgreSQL)

    A principal vantagem na utilizao de SGBDs Multidimensionais que eles

    implementam fisicamente o modelo dimensional. Contudo, uma das desvantagens a

    esparsidade, ou seja, clulas que ocupam espaos em disco, mas no contm dados

    cadastrados, como caso das quadras 010, 020 e 025. Outra desvantagem considerada

    quando o modelo dimensional possui um grande nmero de dimenses, pois traz como

    consequncias, problemas de desempenho e tempo maior de processamento das consultas. Os

    SGBDs Relacionais possuem uma maior aceitao e utilizao, entretanto, exigem

    adaptaes, visto que eles no implementam fisicamente o modelo dimensional.

    Existem trs esquemas utilizados para modelagem dimensional dos dados, so eles:

    Esquema Estrela (Star Schema), Esquema Floco de Neve (Snowflake Schema) e Esquema

    Constelao de Fatos (Facts Constallation Schema).

    2.3.1 Esquema Estrela

    Idealizado e criado por Ralph Kimball, o Esquema Estrela uma forma de dispor as

    tabelas do modelo relacional para o modelo dimensional, podendo ser implementado em BD

    relacionais e principalmente, em BD multidimensional (KIMBALL, et al., 2002).

    Figura 2.4 - exemplo geral do esquema estrela

  • Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 37

    Conforme ilustra a Figura 2.4, o Esquema Estrela uma estrutura com tabelas e

    ligaes bem definidas, baseado no formato de uma estrela. formado por uma tabela central,

    denominada tabela de fatos, a qual possui os dados principais da viso da anlise, ou seja, o

    assunto que est sendo analisado, por exemplo, o consumo, as quantidades de inadimplentes, as

    quantidades de consumidores, etc. Nela ficam ligadas as tabelas de dimenso, que possuem os

    aspectos pelos quais se deseja observar as medidas relativas ao processo que se est

    analisando.

    De acordo com (HAN, et al., 2006), as tabelas dimensionais so desnormalizadas para

    aumentar o desempenho das consultas. A consulta ocorre inicialmente nas tabelas de

    dimenso e em seguida na tabela de fatos, assegurando a preciso dos dados atravs de uma

    estrutura completa de chaves onde no preciso percorrer todas as tabelas. Isso garante um

    acesso mais eficiente e um melhor desempenho.

    Ao contrrio das tabelas de dimenso, a tabela de fatos armazena grandes quantidades

    de dados histricos, normalmente numricos, obtidos a partir da interseo de todas as

    dimenses do Esquema Estrela. Ela tambm armazena os indicadores de desempenho

    (medidas) do negcio. Para cada dimenso h uma chave primria que corresponde a um dos

    campos, chave estrangeira, da chave da tabela de fatos.

    A Tabela 2.3 apresenta um comparativo entre os dois tipos de tabelas do Esquema

    Estrela, mostrando as diferenas entre elas.

    Tabela 2.3 - comparativo entre as tabelas de fatos e dimenso

    Tabela de Fatos Tabela de Dimenso Grande volume de dados Volume comparativamente menor Chave composta Chave simples Referencia cada tabela de dimenso Descrevem os fatos

    Histrica Atributos usados como filtro nas consultas Agiliza consultas, pois os fatos (variveis) so usualmente numricos e tipicamente aditivos Desnormalizada (redundncias)

    Fonte: (KIMBALL, et al., 2002)

    Apesar do Esquema Estrela apresentar desvantagens em termos de espao de

    armazenamento devido redundncia dos dados e, principalmente, fazer com que o

    desempenho diminua nas operaes de atualizao dos dados, no qual o custo para manter a

  • Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 38

    integridade muito alto, esta caracterstica no possui importncia em um Data Mart por se

    tratar de uma estrutura de dados que sofre pouca ou nenhuma atualizao.

    2.3.2 Esquema Floco de Neve

    O Esquema Floco de Neve uma extenso do Esquema Estrela e consiste na

    decomposio de uma ou mais dimenses, formando hierarquias nas dimenses, isto ,

    normalizando-as. Esse tipo de esquema utilizado quando se tem dimenses grandes que so

    estticas ou semi-estticas. A Figura 2.5 ilustra um exemplo geral deste tipo de esquema, nele

    as dimenses 2 e 4 foram normalizadas.

    Figura 2.5 - exemplo geral do esquema floco de neve

    A vantagem do seu uso est na diminuio do volume de dados trazido para a

    memria, alm dos inner join com a tabela normalizada ser mais facilmente resolvido. No

    Esquema Floco de Neve o nmero de relacionamentos entre as tabelas maior, fazendo com

    que o tempo de execuo das consultas aumente devido necessidade de operaes de juno.

    Durante a especificao das tabelas do Data Mart importante levar em considerao estas

    caractersticas de forma a normalizar as tabelas somente nos casos em que no haja uma

    grande perda de desempenho. Em geral, recomenda-se utilizar o Esquema Estrela ou o

    Esquema Constelao de Fatos, pois ambos possuem dimenses desnormalizadas.

    2.3.3 Esquema Constelao de Fatos

    O Esquema Constelao de Fatos constitudo de duas ou mais tabelas de fatos que

    compartilham uma ou mais dimenses. Esse tipo de esquema pode ser visto como uma

    coleo de esquemas estrelas, conforme ilustra a Figura 2.6, na qual a tabela Dimenso 2 e

    Dimenso 4 so compartilhadas pela Tabela de Fatos 1 e 2.

  • Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 39

    Figura 2.6 - exemplo geral do esquema constelao de fatos

    Para Data Warehouses (ou Data Marts), o esquema de Constelao de Fatos mais

    comumente utilizado, visto que ele pode modelar assuntos mltiplos e inter-relacionados.

    Desta forma, o Esquema Constelao de Fatos foi o que apresentou mais adequao para a

    modelagem dimensional do Data Mart implementado para este trabalho, visto que algumas

    tabelas de dimenso precisaram ser compartilhadas entre as tabelas de fatos. O captulo 1.3,

    item 3.2.4, apresenta um exemplo de consulta SQL ao Esquema Constelao de Fatos

    modelado para o estudo de caso proposto por este trabalho, e apresenta tambm a tabela

    resultante com os valores obtidos da consulta.

    Na Figura A.1 do APNDICE A encontra-se a modelagem completa do Esquema

    Constelao de Fatos para o Perfil do Setor e das Perdas Aparentes da Companhia de

    Abastecimento de gua e Esgoto da Paraba. A Figura A.1 representa a tabela de fatos Perfil

    do Setor e suas 11 dimenses, juntamente com a tabela de fatos Perdas Aparentes

    associada a suas 12 dimenses. Quatro dimenses (Quadra, Matrcula, Inadimplncia e

    Referncia de Consumo) so compartilhadas pelas duas tabelas de fatos.

    2.4 TECNOLOGIAS OLAP

    Inicialmente, surgiram as tecnologias conhecidas como On-Line Transaction

    Processing (OLTP) que atendem s necessidades de operaes transacionais. Elas denotam as

    movimentaes tradicionais que acessam registros pequenos e individuais. As principais

    operaes neste tipo de processo so alterao, incluso, excluso e consultas. Estas

    operaes ocorrem muitas vezes em um mesmo dia e podem ser requisitadas ao sistema

    simultaneamente por muitos usurios, o que demanda uma resposta quase imediata do

    sistema. (AURLIO, et al., 2000)

  • Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 40

    As tecnologias On-Line Analytical Processing (OLAP), por sua vez, so projetadas

    para apoiar anlises e consultas, alm de auxiliar seus usurios a sintetizar informaes

    atravs de comparaes, vises personalizadas e anlises histricas. As tecnologias OLAP

    tm como caracterstica principal permitir uma viso mais fcil e intuitiva dos dados

    multidimensionais, por meio de anlises em diferentes perspectivas (INMON, 2005).

    De acordo com (HAN, et al., 2006), OLAP faz parte do processo que habilita usurios

    a explorar os dados do Data Warehouse, fornecendo funcionalidades para anlise interativa de

    dados em diferentes dimenses e granularidades.

    Alguns tipos de informaes podem ser interessantes ao gerente de uma companhia de

    abastecimento, como por exemplo: Qual a quantidade de consumidores, pontos de utilizao

    e quantidade de inadimplncias da subcategoria FAVELA, agrupados pelas categorias de

    consumo (Comercial, Industrial, Pblico e Residencial), situaes da ligao de gua

    (Cortada, Ligada, Suprimida parcial e Suprimida total) e estado de inadimplncia

    (Inadimplncia e Adimplncia) dos consumidores?, ou ainda, Qual a mdia de faturamento

    das quadras agrupadas pela categoria de consumo comercial e semestres de referncia

    (primeiros seis meses e ltimos seis meses de medio)?. Estas e outras consultas utilizando

    tecnologias OLAP so apresentadas em detalhes a partir da seo 3.2.6, pgina 93.

    O processamento analtico necessrio em diversas situaes no qual se deseja obter

    informaes referentes evoluo histrica. Tecnologias OLAP permitem esses tipos de

    consultas e melhoram o desempenho de tempo em relao quelas feitas em BD

    convencionais, ou seja, BD relacionais.

    O On-line Analytical Processing (OLAP), ou Processamento Analtico On-Line,

    surgiu pela necessidade de minerar conhecimento e padres em diferentes nveis de abstrao

    atravs de anlises multidimensionais dos dados, ou seja, uma viso lgica dos dados. uma

    anlise interativa dos dados, atravs de agregaes em todas as intersees de dimenses

    necessrias. Permite obter informaes sumarizadas e mostr-las em tabelas 1-D (planilhas),

    2-D (dimenses em xy), 3-D (dimenses em xyz), mapas e grficos, com suporte para

    modificaes dos eixos. Alm disso, compe anlises estatsticas (razes, mdias, somatrios,

    mnimos, mximos, contagens, varincias, etc.) envolvendo quaisquer medidas ou dados

    numricos entre muitas dimenses. A Tabela 2.4 mostra as diferenas entre as duas

    abordagens, OLTP versus OLAP.

  • Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 41

    Tabela 2.4 - diferenas entre OLAP e OLTP

    OLAP OLTP - Relevncia para dados histricos; - Mantm usualmente a situao corrente; - Necessidade de ver o dado sob diferentes perspectivas: aplicaes dinmicas;

    - Voltado para velocidade e automao de funes repetitivas;

    - Atualizaes quase inexistentes, apenas novas inseres; - Atualizaes em grande nmero;

    - Baseado em dados histricos, consolidados e frequentemente totalizados; - Baseado em transaes;

    - Operaes de agregao e cruzamentos. - Alto nvel de detalhe.

    Fonte: (COLAO, 2004)

    De acordo com (GONZALES, 2003), o termo OLAP tambm usado para descrever

    a estrutura de armazenamento dos dados e os mtodos utilizados para acess-los. OLAP

    representa diversos tipos de tecnologias que variam no mtodo de

    acesso. H trs adaptaes de mtodos de acesso OLAP, que so: OLAP Multidimensional

    (MOLAP); OLAP Relacional (ROLAP); OLAP Hbrido (HOLAP).

    Os mtodos de acesso do tipo MOLAP utilizam a estrutura de dados multidimensional

    e permitem a navegao pelos nveis de detalhamento em tempo real. Utiliza SGBDs

    Multidimensionais otimizados ao mximo para as consultas OLAP e com tratamento

    dimensional nativo. Requer migrao dos dados do SGBD Relacional para o armazenamento

    multidimensional e a sua constante atualizao. Teoricamente, a melhor arquitetura de

    acesso a ambientes multidimensionais, mas na prtica deixa a desejar pela falta de SGBDs

    Multidimensionais mais consolidados, dificultando sua aplicao.

    Os mtodos de acesso do tipo ROLAP a soluo mais utilizada hoje e surgiram em

    decorrncia do uso consagrado dos SGBDs Relacionais nos BDs operacionais (transacionais),

    com todas as vantagens da tecnologia aberta e padronizada da linguagem SQL. Os dados

    obtidos dos bancos fontes so armazenados em SGBDs Relacionais, formando o Data

    Warehouse com tabelas implementadas em estruturas relacionais clssicas. O mtodo de

    acesso ROLAP foi a soluo adotada neste trabalho.

    uma tendncia dos SGBDs Relacionais modernos adicionarem uma arquitetura

    multidimensional para prover facilidades ambientes de suporte a deciso. Tal conceito fez

    surgir os mtodos de acesso do tipo HOLAP, isto , mistura do ROLAP com o MOLAP, que

    proporciona o desempenho e flexibilidade de um BD Multidimensional e mantm a

    gerenciabilidade, escalabilidade, confiabilidade e acessibilidade conquistadas pelos BDs

  • Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 42

    Relacionais. A idia armazenar dados de maior granularidade do DW em estruturas

    relacionais normalizadas e os dados agregados de granularidade inferior em estruturas

    dimensionais nativas.

    A visualizao multidimensional dos dados atravs das tecnologias OLAP favorece a

    anlise de vrias dimenses em nica tela, em virtude da estrutura conceitual conhecida por

    cubos de dados. A visualizao se d atravs de configuraes tridimensionais de linhas,

    colunas, operaes Slice and Dice e grficos, como mostra a Figura 2.7. Os cubos de dados e

    operaes Slice and Dice sero discutidos nas sees 2.4.1 e 2.4.2, respectivamente.

    Figura 2.7 - visualizao dos dados atravs de ferramenta OLAP pentaho analysis view5

    Fonte: Dados do setor de saneamento de Joo Pessoa.

    Os dados da Figura 2.7 foram obtidos atravs de uma consulta ao Esquema

    Constelao de Fatos implementado para o estudo de caso deste trabalho. O retorno desta

    consulta corresponde s mdias de consumo de gua em m3 e mdias da fatura dos

    5 A ferramenta OLAP Pentaho Analysis View ser discutida com mais detalhes na seo 3.2.6 (pgina 119).

  • Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 43

    consumidores adimplentes6 agrupadas por quadra (010, 015, 020 e 025) e por categoria de

    consumo durante o perodo de 2007 a 2008.

    A Figura 2.8 ilustra a mesma consulta executada acima, contudo, utilizando o software

    pgAdmin III (desenvolvido para dar suporte ao SGBD PostgreSQL).

    Figura 2.8 - visualizao dos dados atravs do software PgAdmin

    A principal vantagem em utilizar uma ferramenta OLAP ao invs de uma ferramenta

    puramente de Banco de Dados, a facilidade proporcionada pela ferramenta OLAP quanto

    visualizao e manipulao do modelo dimensional (tabelas de fatos e dimenses). Outra

    vantagem que o analista no precisa escrever as queries SQL, como ocorre em ambientes

    puramente de BD, pois a ferramenta OLAP dispe de interface grfica para d o suporte a

    6 Inadimplncia igual a NAO significa que a conta de gua foi quitada pelo consumidor junto companhia de distribuio de gua.

  • Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 44

    realizao das consultas. Neste trabalho optou-se por utilizar a ferramenta OLAP Pentaho

    Analysis View, que apresentada no Captulo 3, item 3.2.6.

    2.4.1 Estrutura Multidimensional: Cubo de Dados

    A principal caracterstica das tecnologias OLAP permitir uma viso conceitual

    multidimensional dos dados de uma empresa. Um cubo de dados uma estrutura que

    armazena os dados em formato dimensional. Uma dimenso uma unidade de anlise com

    dados agrupados.

    Por exemplo, a dimenso tempo tem os dados agregados por meses, quadrimestres e

    semestres. A dimenso categoria tem os dados agregados em comercial, industrial, pblico e

    residencial, etc. A Figura 2.9 apresenta os dados modelados numa estrutura conhecida por

    Cubo, onde cada Dimenso (D1, D2 e D3) representa um tema importante da companhia para

    realizao de anlises e comparaes. O cubo da Figura 2.9 Fato Perfil do Setor e suas

    dimenses so Categoria, Status da gua e Status do Esgoto.

    Figura 2.9 - (a) um cubo de dados com trs dimenses. (b) busca tridimensional de clulas no cubo

    Fonte: Adaptao de (RAINARDI, 2008).

    A partir da modelagem do Esquema Estrela, Floco de Neve ou Constelao de Fatos

    pode-se construir os cubos de dados e realizar buscas nesse espao multidimensional. Os

    cubos de dados so vises lgicas multidimensionais dos dados com referncia hierrquica.

    As tecnologias OLAP fornecem funcionalidades para anlise interativa de dados em

    diferentes vises e granularidades, permitindo visualizar as hierarquias e navegar pelas

    dimenses (THOMSEN, 2002).

  • Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 45

    As operaes sobre os cubos de dados foram introduzidas por (GRAY, et al., 1996)

    visando suportar mltiplas agrega