um estudo sobre data warehouse

100

Upload: danielbernardo

Post on 06-Oct-2015

21 views

Category:

Documents


1 download

DESCRIPTION

Estudo sobre DW

TRANSCRIPT

  • Universidade de Caxias do Sul

    Cento de Cincias Exatas e Tecnologia

    Departamento de Informtica

    Bacharelado em Cincias da Computao

    Um Estudo sobre Data Warehouse

    ADRIANO DALALBA

    CAXIAS DO SUL - RS

  • 2

    Nominata

    Reitor:

    Prof. Ruy Pauletti

    Vice-reitor:

    Prof. Luiz Antnio Rizzon

    Pr-Reitor de Graduao:

    Prof. Luiz Antnio Rizzon

    Chefe do Departamento de Informtica:

    Profa. MSc. Maria de Ftima Webber do Prado Lima

    Sub-chefe do Departamento de Informtica:

    Prof. MSc. Heitor Strogulski

    Coordenadora do Colegiado do Curso de Bacharelado em Cincias da Computao:

    Profa. MSc. Carine Geltrudes Webber

  • 3

    Sumrio

    NOMINATA ......................................................................................................................................... 2

    SUMRIO ............................................................................................................................................ 3

    LISTA DE ABREVIATURAS.............................................................................................................. 5

    LISTA DE FIGURAS ........................................................................................................................... 6

    LISTA DE TABELAS .......................................................................................................................... 7

    RESUMO .............................................................................................................................................. 8

    ABSTRACT .......................................................................................................................................... 8

    1 INTRODUO ......................................................................................................................... 10

    2 CONCEITOS............................................................................................................................. 12

    3 CARACTERSTICAS DO DATA WAREHOUSE .................................................................... 15

    3.1 ORIENTAO POR ASSUNTO.................................................................................................... 15

    3.2 INTEGRAO ......................................................................................................................... 15

    3.3 VARIAO NO TEMPO ............................................................................................................ 16 3.4 NO VOLATILIDADE ............................................................................................................... 17

    3.5 LOCALIZAO ....................................................................................................................... 17

    3.6 CREDIBILIDADE DO DADOS ..................................................................................................... 18

    3.7 GRANULARIDADE .................................................................................................................. 20

    3.8 OS METADADOS ..................................................................................................................... 22

    3.8.1 Fontes de metadados ...................................................................................................... 23

    4 ARQUITETURA DO DATA WAREHOUSE ............................................................................ 25

    4.1 ARQUITETURA GENRICA DE DATA WAREHOUSE ..................................................................... 25

    4.2 ARQUITETURA SEGUNDO CHAUDHURI .................................................................................... 27

    4.2.1 Fontes de dados internas ................................................................................................ 29

    4.2.2 Fontes de dados externas ................................................................................................ 29

    4.3 ARQUITETURA SEGUNDO VALENTE......................................................................................... 30 4.3.1 Extrao dos dados ........................................................................................................ 30

    4.3.2 Integrador ...................................................................................................................... 30

    4.3.3 Processamento de informaes ....................................................................................... 31

    4.4 OUTRAS ARQUITETURAS......................................................................................................... 32

    4.4.1 Arquitetura de duas camadas .......................................................................................... 32

    4.4.2 Arquitetura de trs camadas ........................................................................................... 33

    5 MODELOS DE DADOS............................................................................................................ 35

    5.1 MODELO DE DADOS SEGUNDO R.KIMBALL .............................................................................. 35

    5.1.1 Modelo empresarial ....................................................................................................... 35

    5.1.2 Modelo dimensional ...................................................................................................... 37

    5.1.3 Modelo fsico ................................................................................................................ 43 5.2 MODELO DE DADOS SEGUNDO W.H.INMON ............................................................................. 45

    5.2.1 Modelo de dados de alto nvel ........................................................................................ 45

    5.2.2 Modelo de dados de nvel intermedirio ......................................................................... 46

    5.2.3 Modelo de dados de baixo nvel ..................................................................................... 47

    5.3 ESTRATGIA DE CONVERSO DO MODELO E-R PARA O MODELO DE DADOS DO DW ................... 48

    5.3.1 Remoo dos dados puramente operacionais .................................................................. 48

    5.3.2 Adio de um elemento de tempo na estrutura da chave .................................................. 48

  • 4

    5.3.3 Introduo de dados derivados ....................................................................................... 49

    5.3.4 Transformao de Relacionamentos entre dados em artefatos dos dados ......................... 49

    5.3.5 Acomodao dos diferentes nveis de granularidade ....................................................... 51

    5.3.6 Unio dos dados comuns de diferentes tabelas ................................................................ 52

    5.3.7 Criao de arrays de dados ............................................................................................ 52

    5.3.8 Separao dos atributos de dados de acordo com sua estabilidade ................................... 54

    5.4 MODELO DE ESTRUTURA DOS DADOS ...................................................................................... 55

    6 DESENVOLVIMENTO DO DATA WAREHOUSE ................................................................. 56

    6.1 AS FUNES EM UM DATA WAREHOUSE ................................................................................... 56

    6.2 CONSIDERAES INICIAIS PARA O DESENVOLVIMENTO DE UM DATA WAREHOUSE ..................... 57

    6.3 DESENVOLVIMENTO UTILIZANDO O MODELO ESTRELA ............................................................ 59 6.4 OS DADOS OPERACIONAIS....................................................................................................... 61

    6.4.1 Tcnicas de gerenciamento da quantidade de dados operacionais pesquisados ................. 63

    6.5 TCNICAS PARA INCREMENTAR A PERFORMANCE DO DATA WAREHOUSE ................................... 64

    6.6 OS DATA MARTS ..................................................................................................................... 66

    6.7 OS ERROS NO DESENVOLVIMENTO DE UM DATA WAREHOUSE .................................................. 68

    7 POVOANDO UM DATA WAREHOUSE ................................................................................ 70

    7.1 EXTRAO DOS DADOS DO AMBIENTE OPERACIONAL............................................................... 70

    7.2 FILTRAR, TRANSFORMAR E INTEGRAR OS DADOS EXTRADOS ................................................... 71

    7.3 FERRAMENTAS PARA EXTRAO DOS DADOS OPERACIONAIS ................................................... 72

    8 EXTRAO DE INFORMAES DO DATA WAREHOUSE ............................................... 75

    8.1 ACESSO AOS DADOS DO DATA WAREHOUSE .............................................................................. 75 8.2 GERADORES DE CONSULTA E RELATRIOS............................................................................... 77

    8.3 EIS - EXECUTIVE INFORMATION SYSTEMS ................................................................................. 77

    8.4 FERRAMENTAS DE OLAP (ON-LINE ANALYTICAL PROCESSING) ................................................. 78

    8.4.1 Tipos de Ferramentas de OLAP ..................................................................................... 79

    8.5 FERRAMENTAS DE MINERAO DE DADOS ............................................................................. 81

    8.6 FORNECEDORES ..................................................................................................................... 82

    8.7 FERRAMENTAS COMERCIAIS ................................................................................................... 83

    8.7.1 PowerPlay ..................................................................................................................... 83

    8.7.2 Maestro ......................................................................................................................... 85

    8.7.3 Oracle............................................................................................................................ 87

    9 ANLISE DO USO DA TECNOLOGIA DATA WAREHOUSE .............................................. 90

    9.1 VANTAGENS .......................................................................................................................... 90

    9.2 DESVANTAGENS .................................................................................................................... 91

    9.3 DIFICULDADES DE DESENVOLVIMENTO ................................................................................... 92

    9.4 EXEMPLOS ............................................................................................................................. 93

    10 CONCLUSO ........................................................................................................................... 95

    BIBLIOGRAFIA ................................................................................................................................ 97

  • 5

    Lista de Abreviaturas

    BDM Banco de Dados Multidimensional

    DSS Decision Support System

    DW Data Warehouse

    E-R Entidade/Relacionamento

    EIS Executive Information System

    ERP Enterprise Resource Planning

    HTML Hyper Text Markup Language

    MOLAP Multidimensional On-line Analytical Processing

    MPP Massively Parallel Processing

    ODBC Open Data Base Connectivity

    OLAP On-line Analytical Processing

    OLTP On-line Transaction Processing

    ROLAP Relational On-line Analytical Processing

    SAD Sistemas de Apoio Deciso

    SGBD Sistema Gerenciador de Banco de Dados

    SMP Symetric Parallel Processing

  • 6

    Lista de Figuras

    FIGURA 2.1 COMPONENTE DE UM DATA WAREHOUSE. ........................................................................... 14 FIGURA 3.1 INTEGRAO DOS DADOS. ................................................................................................. 15 FIGURA 3.3 NVEIS DE GRANULARIDADE.............................................................................................. 20 FIGURA 3.4 NVEIS DUPLOS DE GRANULARIDADE PARA DADOS RESUMIDOS. .......................................... 21 FIGURA 4.1 ARQUITETURA DO AMBIENTE DE DW [ORR96]. ................................................................ 26 FIGURA 4.2 COMPONENTES DE ARQUITETURA DE UM DW SEGUNDO CHAUDHURI [MOR98]. ................. 27 FIGURA 4.3 O FLUXO DE DADOS NO SISTEMA [MOR98]. ....................................................................... 28 FIGURA 4.4 ARQUITETURA BSICA DE UM DW [VAL 96]. .................................................................... 31 FIGURA 4.5 ARQUITETURA DE DUAS CAMADAS. ................................................................................... 33 FIGURA 4.6 ARQUITETURA DE TRS CAMADAS. .................................................................................... 34 FIGURA 5.1 MODELO DIMENSIONAL DO TIPO ESTRELA. ........................................................................ 39 FIGURA 5.2 MODELO DIMENSIONAL DO TIPO FLOCO DE NEVE. ............................................................. 40 FIGURA 5.3 COMPARAO ENTRE O BD RELACIONAL E O BD MULTIDIMENSIONAL. ............................. 43 FIGURA 5.4 DEPENDNCIAS TRANSITIVAS ENTRE TABELAS. .................................................................. 45 FIGURA 5.5 REPRESENTAO DA MODELAGEM DE ALTO NVEL. ............................................................ 46 FIGURA 5.6 OS ELEMENTOS DO MODELO DE DADOS DE NVEL INTERMEDIRIO [INM97]. ....................... 47 FIGURA 5.7 REMOO DE DADOS PURAMENTE OPERACIONAIS. ............................................................. 48 FIGURA 5.8 ADIO DE UMA ELEMENTO DE TEMPO NA ESTRUTURA DA CHAVE. ..................................... 49 FIGURA 5.9 INTRODUO DE DADOS DERIVADOS NA CHAVE. ................................................................ 49 FIGURA 5.10 RELACIONAMENTO ENTRE TABELAS NO SISTEMA CORPORATIVO. ...................................... 50 FIGURA 5.11 INCLUSO DOS ARTEFATOS NO DW. ................................................................................ 50 FIGURA 5.12 CAPTURA DOS DADOS A CADA RECEBIMENTO DO PRODUTO. ............................................. 51 FIGURA 5.13 ALTERAO DO NVEL DE GRANULARIDADE. ................................................................... 52 FIGURA 5.14 UNIO DOS DADOS DE DIFERENTES TABELAS. .................................................................. 53 FIGURA 5.15 CRIAO DE ARRAYS DE DADOS. ....................................................................................... 53 FIGURA 5.16 ANLISE DE ESTABILIDADE DOS DADOS [INM97]............................................................. 54 FIGURA 5.17 COMPONENTES DE UM INSTANTNEO [INM97]. ............................................................... 55 FIGURA 6.1 A TABELA DE FATOS E SUAS DIMENSES NO MODELO ESTRELA [CAM97]. .......................... 60 FIGURA 6.2 A FALTA DE INTEGRAO DOS DADOS DE DIFERENTES APLICAES. ................................... 61 FIGURA 6.3 INTEGRAO DE DADOS COM AS MESMAS INFORMAES. ................................................. 62 FIGURA 6.4 TCNICAS DE GERENCIAMENTO DA QUANTIDADE DE DADOS PESQUISADOS [INM97]. .......... 64 FIGURA 6.5 INTRODUO INTENCIONAL DE DADOS REDUNDANTES [INM97]. ........................................ 65 FIGURA 6.6 TCNICA DE SEPARAO DOS DADOS CONFORME A PROBABILIDADE DE ACESSOS. ............... 66 FIGURA 6.7 DATA MARTS DEPARTAMENTAIS. ........................................................................................ 67 FIGURA 8.1 ACESSO DIRETO AOS DADOS DO DW.................................................................................. 75 FIGURA 8.2 ACESSO INDIRETO AOS DADOS DO DW. ............................................................................. 76 FIGURA 8.3 MODELO DE BDM DE TRS DIMENSES. ............................................................................ 80 FIGURA 8.4 TELA DA FERRAMENTA POWERPLAY MOSTRANDO GRFICOS E DADOS [UNI98]. ................. 84 FIGURA 8.5 TELA DA FERRAMENTA MAESTRO. .................................................................................... 86 FIGURA 8.6 TELA DA FERRAMENTA ORACLE DISCOVERER [ORA98]. ................................................... 88

  • 7

    Lista de Tabelas

    TABELA 2.1 COMPARAO ENTRE BANCO DE DADOS OPERACIONAIS E DATA WAREHOUSE. ................... 13 TABELA 3.1 CONJUNTO DE CARACTERSTICA DA QUALIDADE DE DADOS. .............................................. 19 TABELA 6.1 FUNES EM UM DATA WAREHOUSE [BAR96]. .................................................................. 57 TABELA 7.1 FERRAMENTAS PARA EXTRAO, TRANSFORMAO E MIGRAO DE DADOS [ORL96]. ...... 74 TABELA 8.1 AS DOZES REGRAS PARA OLAP SEGUNDO CODD [COD95]. ............................................... 78 TABELA 8.2 PRODUTOS DA FAMLIA ORACLE EXPRESS PARA DW [ORA98].......................................... 87

  • 8

    Resumo

    O ambiente de dados para suporte aos processos de gerncia e tomada de deciso

    fundamentalmente diferente do ambiente convencional de processamento de

    transaes. No corao deste ambiente est a idia do Data Warehouse, integrando e

    consolidando dados disponveis em diferentes acervos para fins de explorao e anlise,

    ampliando o contedo informacional destes acervos para atender s expectativas e

    necessidades de nvel estratgico na empresa. Este trabalho tem por objetivo apresentar

    os principais conceitos da tecnologia de Data Warehouse (DW), entre estes pode-se

    destacar as caractersticas dos dados em um DW, as principais arquiteturas, os modelos

    envolvidos no processo de desenvolvimento de um DW, as atividades que devem ser

    realizadas durante o desenvolvimento de um DW, o povoamento do DW e a extrao de

    informaes teis.

  • 9

    Abstract

    The database environment supporting management and decision support systems

    is essentially different from the conventional database environment of transaction

    processing. Central to that environment is the Data Warehouse concept, integrating data

    from different sources to fulfill the strategic information requirements of companies.

    This work presents the main issues of Data Warehouse (DW) technology, among that

    we present the data features of a DW, the main architectures, the models involved in

    development process of a DW, the task that must be done in the DW development, the

    population of a DW and the extraction of useful knowledge.

  • 10

    1 Introduo

    Com a evoluo da tecnologia de informao e o crescimento do uso de

    computadores interconectados, praticamente todas as empresas de mdio e grande porte

    esto utilizando sistemas informatizados para realizar seus processos mais importantes,

    o que com o passar do tempo acaba gerando uma enorme quantidade de dados

    relacionados aos negcios, mas no relacionados entre si. Estes dados armazenados em

    um ou mais sistemas operacionais1 de uma empresa so um recurso, mas de modo geral,

    raramente servem como recurso estratgico no seu estado original. Os sistemas

    convencionais de informtica no so projetados para gerar e armazenar as informaes

    estratgicas, o que torna os dados vagos e sem valor para o apoio ao processo de

    tomada de decises das organizaes. Estas decises normalmente so tomadas com

    base na experincia dos administradores, quando poderiam tambm ser baseadas em

    fatos histricos que foram armazenados pelos diversos sistemas de informao

    utilizados pelas organizaes.

    Em termos simples, um Data Warehouse, ou em portugus, Armazm de Dados,

    pode ser definido como um banco de dados especializado, o qual integra e gerencia o

    fluxo de informaes a partir dos bancos de dados corporativos e fontes de dados

    externas2 empresa. Um Data Warehouse construdo para que tais dados possam ser

    armazenados e acessados de forma que no sejam limitados por tabelas e linhas

    estritamente relacionais. A funo do Data Warehouse (DW) tornar as informaes

    corporativas acessveis para o seu entendimento, gerenciamento e uso. Como o DW est

    separado dos bancos de dados operacionais, as consultas dos usurios no impactam

    nestes sistemas, que ficam resguardados de alteraes indevidas ou perdas de dados. O

    DW no como um software, que pode ser comprado e instalado em todos os

    computadores da empresa em algumas horas, na realidade sua implantao exige a

    integrao de vrios produtos e processos.

    Um DW oferece os fundamentos e os recursos necessrios para um Sistema de

    Apoio a Deciso (SAD) eficiente, fornecendo dados integrados e histricos que servem

    desde a alta direo, que necessita de informaes mais resumidas, at as gerncias de

    baixo nvel, onde os dados detalhados ajudam a observar aspectos mais tticos da

    empresa. Nele, os executivos podem obter de modo imediato respostas para perguntas

    que normalmente no possuem respostas em seus sistemas operacionais e, com isso,

    tomar decises com base em fatos, no com intuies ou especulaes.

    Com o surgimento do DW so necessrios novos mtodos de estruturao de

    dados e novas tecnologias, tanto para armazenamento, como para recuperao de

    informaes. A necessidade destes novos mtodos e tecnologias, surgiu da constatao,

    primeiro de que existe uma necessidade de informao no atendida pelos aplicativos

    comerciais convencionais, que atuam a nvel operacional do negcio, e segundo, pelo

    fato de que a tecnologia de armazenamento de dados utilizada nestes aplicativos no

    atende s necessidades detectadas. Graas aos avanos nos bancos de dados relacionais,

    1 A expresso sistemas operacionais, neste trabalho, sempre se referir aos sistemas transacionais de uma empresa, utilizados para controlar suas operaes dirias, como compras, vendas, estoques, etc. 2 A expresso fontes de dados externas, neste trabalho, ser utilizada para definir informaes que no esto associadas aos sistemas da empresa. Por exemplo: arquivos textos, imagens, sons, planilhas de

    clculos, etc.

  • 11

    no processamento paralelo e na tecnologia distribuda, finalmente a tecnologia da

    informao pode permitir que qualquer organizao elabore um Data Warehouse.

    Como as empresas demoram vrios anos para gerar e armazenar um volume

    considervel de informaes, normal que estes dados estejam espalhados por diversos

    locais e que tenham sido gerados por sistemas desenvolvidos em diferentes ambientes e

    linguagens. Um dos desafios da implantao de um DW justamente a integrao

    destes dados, eliminando as redundncias e identificando informaes iguais que

    possam estar representadas sob formatos diferentes em sistemas distintos.

    Estudar e conhecer a tecnologia de DW pode ajudar os empresrios a descobrir

    novas formas de competir em uma economia globalizada, trazendo melhores produtos

    ou servios para o mercado, mais rpido do que os concorrentes, sem aumentar o custo

    do produto ou do servio. No existem ainda metodologias formais para implementao

    de um DW, ela deve ser adaptada s caractersticas e s expectativas de cada empresa,

    mas o principal objetivo em todas elas o de descobrir maneiras diferentes de atuar no

    mercado e quais as mudanas internas que devem ocorrer para atender as novas

    realidades.

    Este trabalho tem como objetivo fazer um estudo dos principais conceitos

    necessrios para o desenvolvimento de um ambiente de DW. No captulo 2 so

    apresentados alguns conceitos encontrados na literatura sobre o termo Data Warehouse.

    No captulo 3 so apresentadas as principais caractersticas dos dados que sero

    mantidos em um DW. O captulo 4 apresenta uma arquitetura genrica para um

    ambiente de suporte a tomada de decises com o uso de Data Warehouse; alm dessa

    so apresentadas algumas propostas simplificadas de arquiteturas e os principais

    componentes de software que um Data Warehouse deve possuir.

    Uma questo muito importante no planejamento e desenvolvimento de um Data

    Warehouse a definio dos diversos modelos de dados que daro suporte e orientao

    ao trabalho do ambiente do DW. No captulo 5, so descritas duas metodologias de

    modelagem de dados para Data Warehouse conforme R.Kimball [KIM96] e

    W.H.Inmon [INM93], ambas apresentam trs nveis de modelagem para os dados: alto

    nvel (empresarial); intermedirio (dimensional); e baixo nvel (fsico).

    Depois de definir-se os modelos de dados do DW, deve-se definir algumas

    estratgias que orientaro o desenvolvimento do DW, estas orientaes so apresentadas

    no captulo 6. Aps, pode-se efetivamente utilizar as ferramentas de DW, as quais

    podem ser divididas em dois grupos ferramentas de povoao (aquelas que extraem

    dados dos sistemas operacionais da empresa) e ferramentas de consulta (aquelas que

    realizam consultas sobre o DW. Os captulos 7 e 8 tratam respectivamente da povoao

    e da extrao dos dados que faro parte do DW.

    No captulo 9 so apresentadas algumas vantagens e desvantagens da utilizao

    de um DW em uma organizao. Por fim, no captulo 10 so apresentadas algumas

    concluses e sugestes de trabalhos futuros.

  • 12

    2 Conceitos

    Na atual bibliografia podem ser encontrados muitos conceitos sobre DW como

    os apresentados a seguir:

    Segundo Inmon [INM97a], que tido como o pai do conceito, Data Warehouse uma coleo de dados orientados por assuntos, integrados,

    variveis com o tempo e no volteis, para dar suporte ao processo gerencial de

    tomada de deciso;

    Data Warehouse um processo em andamento que aglutina dados de fontes heterogneas, incluindo dados histricos e dados externos para atender

    necessidade de consultas estruturadas e ad-hoc, relatrios analticos e de suporte

    a deciso, conforme Harjinder [HAR96];

    Segundo Barquini [BAR96], Data Warehouse uma coleo de tcnicas e tecnologias que juntas disponibilizam um enfoque pragmtico e sistemtico para

    tratar com o problema do usurio final de acessar informaes que esto

    distribudas em vrios sistemas da organizao,

    Para entender o que um DW, importante fazer uma comparao com o

    conceito tradicional de banco de dados. Conforme [BAT86], "Um banco de dados

    uma coleo de dados operacionais armazenados e utilizados pelo sistema de aplicaes

    de uma empresa especfica". Os dados mantidos por uma empresas so chamados de

    "operacionais" ou "primitivos". Batini em [BAT86] refere-se aos dados no banco de

    dados como "dados operacionais", distinguindo-se de dados de entrada, dados de sada

    e outros tipos de dados.

    Levando em considerao esta definio sobre dados operacionais, pode-se dizer

    que um DW , na verdade, uma coleo de dados derivados dos dados operacionais para

    sistemas de suporte deciso. Estes dados derivados so, muitas vezes, referidos como

    dados "gerenciais", "informacionais" ou "analticos" [INM96].

    Os bancos de dados operacionais armazenam as informaes necessrias para as

    operaes dirias da empresa, so utilizados por todos os funcionrios para registrar e

    executar operaes pr-definidas, por isso seus dados podem sofrer constantes

    mudanas conforme as necessidades atuais da empresa. Por no ocorrer redundncia nos

    dados e as informaes histricas no ficarem armazenadas por muito tempo, este tipo

    de BD no exige grande capacidade de armazenamento.

    J um DW armazena dados analticos, destinados s necessidades da gerncia

    no processo de tomada de decises. Isto pode envolver consultas complexas que

    necessitam acessar um grande nmero de registros, por isso importante a existncia de

    muitos ndices criados para acessar as informaes da maneira mais rpida possvel. Um

    DW armazena informaes histricas de muitos anos e por isso deve ter uma grande

    capacidade de processamento e armazenamento dos dados que se encontram de duas

    maneiras, detalhados e resumidos.

    Na Tabela 2.1 esto relacionadas algumas diferenas entre bancos de dados

    operacionais e DW bem como as diferenas dos dados que eles manipulam segundo os

    seguinte autores: [INM96] [BAR96] [KIM96] [ONE97].

  • 13

    Caractersticas Bancos de dados

    Operacionais Data Warehouse

    Objetivo Operaes dirias do negcio Analisar o negcio

    Uso Operacional Informativo

    Tipo de processamento OLTP OLAP

    Unidade de trabalho Incluso, alterao, excluso Carga e consulta

    Nmero de usurios Milhares Centenas

    Tipo de usurio Operadores Comunidade gerencial

    Interao do usurio Somente pr-definida Pr-definida e ad-hoc

    Condies dos dados Dados operacionais Dados Analticos

    Volume Megabytes gigabytes Gigabytes terabytes

    Histrico 60 a 90 dias 5 a 10 anos

    Granularidade Detalhados Detalhados e resumidos

    Redundncia No ocorre Ocorre

    Estrutura Esttica Varivel

    Manuteno desejada Mnima Constante

    Acesso a registros Dezenas Milhares

    Atualizao Contnua (tempo real) Peridica (em batch)

    Integridade Transao A cada atualizao

    Nmero de ndices Poucos/simples Muitos/complexos

    Inteno dos ndices Localizar um registro Aperfeioar consultas

    Tabela 2.1 Comparao entre Banco de Dados Operacionais e Data Warehouse.

    Com base nestes conceitos podemos concluir que o DW no um fim, mas sim

    um meio que as empresas dispem para analisar informaes histricas podendo utiliz-

    las para a melhoria dos processos atuais e futuros. DW so resumos de dados retirados

    de mltiplos sistemas de computao normalmente utilizados a vrios anos e que

    continuam em operao. DW so construdos para que tais dados possam ser

    armazenados e acessados de forma que no sejam limitados por tabelas e linhas

    estritamente relacionais. Os dados de um DW podem ser compostos por um ou mais

    sistemas distintos e sempre estaro separados de qualquer outro sistema transacional, ou

    seja, deve existir um local fsico onde os dados desses sistemas sero armazenados, a

    Figura 2.1 ilustra os principais componentes de um DW, mostrando que entre as fontes

    de dados e os acessos a estes dados est o DW. Antes deste deslocamento, sempre

    haver a aplicao de tcnicas de filtragem, agrupamento e/ou refinamento dos dados.

  • 14

    Figura 2.1 Componente de um Data Warehouse.

  • 15

    3 Caractersticas do Data Warehouse

    Os dados de um DW devem ser classificados por assunto, alm disso

    importante que se faa a integrao (normalizao) de representao para facilitar as

    consultas, tambm deve-se definir a granularidade temporal da informao e a forma de

    armazenar os dados, ter conscincia de que dados em um DW no so modificados pois

    representam as informaes em um determinado instante de tempo e podem estar

    fisicamente armazenados de diferentes formas. Essas so as principais caractersticas do

    DW, as quais so apresentadas no conceito do W.H.Inmon [INM97] e sero detalhadas

    a seguir.

    3.1 Orientao por assunto

    Um DW sempre armazena dados importantes sobre temas especficos da

    empresa e conforme o interesse das pessoas que iro utiliz-lo. Uma empresa pode

    trabalhar com vendas de produtos alimentcios no varejo e o seu maior interesse ser o

    perfil de seus compradores, ento o DW ser voltado para as pessoas que compram seus

    produtos e no para os produtos que ela vende.

    Portanto, ao se construir um DW deve-se discutir com o usurio quais os seus

    objetivos, definir as informaes relevantes para o processo de anlise, alm de se

    preocupar com os tipos de anlise que sero realizadas sobre os dados do DW.

    3.2 Integrao

    Esta a caracterstica mais importante do DW, pois ela quem ir definir a

    representao nica para os dados provenientes dos diversos sistemas que formaro a

    base de dados do DW. A maior parte do trabalho na construo de um DW est na

    anlise dos sistemas operacionais e dos dados que eles contm. Como no existem

    padres de codificao, cada analista pode definir a mesma estrutura de dados de vrias

    formas, fazendo com que dados que representam a mesma informao sejam

    representados de diversas maneiras dentro dos sistemas utilizados pela empresa ao

    longo dos anos.

    Um exemplo clssico deste problema a representao do sexo, em um sistema

    pode-se definir um campo de uma posio alfanumrica, onde M signifique masculino e

    F feminino, em outro a mesma informao pode ser representada por 1 e 2 ou por H

    para homem e M para mulher e assim por diante. Com a integrao dos dados este

    problema desaparece, conforme ilustra a Figura 3.1, pois deve ser adotada uma nica

    representao para esta informao.

    Figura 3.1 Integrao dos dados.

    Ambiente operacional Data warehouse

    Aplicao A M, F Aplicao B H, M Aplicao C 0, 1

    M, F

  • 16

    3.3 Variao no tempo

    Segundo W.H.Inmon [INM97] todos os dados no DW so precisos em algum

    instante no tempo, como eles podem estar corretos somente em um determinado

    momento, dito que esses dados variam com o tempo.

    A variao no tempo pode apresentar-se de trs maneiras:

    Em um DW normal que as informaes sejam representadas em horizontes de tempo maiores de cinco anos chegando at o limite da idade dos dados ou em

    um perodo considerado satisfatrio conforme a sua aplicao. Nas aplicaes

    operacionais o perodo de tempo muito mais curto, variando entre sessenta e

    noventa dias, pois necessrio um resposta rpida s exigncias das tarefas

    dirias o que s pode ser conseguido com o processamento de poucos dados;

    Assim como os dados, os metadados, que incluem definies dos itens de dados, rotinas de validao, algoritmos de derivao, etc. tambm possuem

    elementos temporais para que com eventuais mudanas nas regras do negcio a

    empresa no perca dados histricos;

    Os dados armazenados corretamente no DW no sero mais atualizados tendo-se assim uma imagem fiel da poca em que foram gerados.

    Os dados ainda podem ser separados em duas categorias, a de dados atuais e de

    dados antigos. Os dados detalhados atuais so os dados de maior interesse por refletir os

    acontecimentos mais recentes, so em grande volume porque so armazenados no nvel

    mais baixo de granularidade e devem ficar armazenados em disco, um meio de acesso

    rpido mas de difcil gerenciamento. Os dados detalhados atuais fornecem uma viso do

    comportamento recente e podem permitir a utilizao de tcnicas como minerao de

    dados e descoberta de conhecimento. O horizonte de tempo, para esses dados,

    normalmente de dois anos.

    Os dados detalhados antigos so aqueles que no so acessados freqentemente

    e por isso normalmente ficam armazenados em meios de armazenamento de baixo custo

    pois possuem um grande volume por ficarem em um nvel de detalhe consistente com

    os dados detalhados atuais. Mesmo no ficando armazenados em outros meios, como

    fitas por exemplo, eles continuam fazendo parte do DW e podem ser carregados sempre

    que surgir necessidade de extrair informaes.

    Uma definio que deve ser feita sobre o perodo de atualizao dos dados que

    se refere ao tempo necessrio para que uma alterao sobre dados do ambiente

    operacional reflita no DW. Um vez que os dados tenham sido refletidos no ambiente

    operacional, as alteraes precisam ser passadas para o DW, o problema definir de

    quanto em quanto tempo isto deve ocorrer. Inmon [INM97] sugere que pelo menos 24

    horas devem se passar entre o momento em que a alterao observada pelo ambiente

    operacional e sua repercusso no DW.

    Existem algumas razes para a existncia deste intervalo, a primeira delas

    consiste no fato de que quanto mais rigidamente o ambiente operacional for

    emparelhado com o DW, mais dispendiosa e complexa ser a tecnologia necessria. A

    segunda que este intervalo de tempo possibilita a estabilizao dos dados, diminuindo

    a chance de o DW receber informaes incorretas.

  • 17

    3.4 No volatilidade

    Em um DW no existem alteraes de dados, somente a carga inicial e as

    consultas posteriores. Ele definido assim pois as operaes a nvel de registro em

    modo on-line como so os sistemas transacionais, exigem um controle e um

    processamento muito grande, fugindo do objetivo principal do DW. Segundo

    W.H.Inmon[INM97] dizer que existe redundncia de dados entre os sistemas

    transacionais e o DW demonstra a falta de conhecimento de como as coisas acontecem

    no DW.

    Deve-se considerar que os dados passam por filtros antes de entrar no DW, com

    isso muitos dados nunca passam do ambiente transacional e outros so resumidos de

    certa forma que no so encontrados fora do DW. Em outras palavras, a maior parte dos dados fsica e radicalmente alterada quando passam a fazer parte do DW. Do

    ponto de vista de integrao, no so mais os mesmos dados do ambiente operacional.

    luz destes fatores, a redundncia de dados entre os dois ambientes raramente ocorre,

    resultando em menos de 1 por cento de duplicaes.[INM97].

    3.5 Localizao

    Os dados podem estar fisicamente armazenados de trs formas[CAM97]:

    Armazenados em um nico local centralizando o banco de dados em um DW integrado, procurando maximizar o poder de processamento e agilizando a busca

    dos dados;

    Distribudos por reas de interesse, o que pode ser chamado de arquitetura federativa, com dados financeiros em um servidor, dados de marketing em outro

    e dados de manufatura em um terceiro lugar;

    Armazenados por nveis de detalhes em que as unidades de dados so mantidas no DW. Pode-se armazenar dados altamente resumidos em um

    servidor, dados resumidos em um nvel de detalhe intermedirio em um segundo

    servidor e os dados mais detalhados (atmicos) em um terceiro servidor. Os

    servidores da primeira camada podem ser otimizados para suportar um grande

    nmero de acessos e um baixo volume de dados enquanto servidores nas outras

    camadas podem ser adequados para processar grandes volumes de dados mas

    baixo nmero de acessos.

    Um DW pode possuir diferentes nveis de dados, que podem estar agrupados

    por idade, sintetizao ou detalhe. A forma geral de localizao dos dados em um DW

    mostrada na Figura 3.2. Os componentes da estrutura so divididos em:

    Dados detalhados atuais

    Dados detalhados antigos

    Dados levemente resumidos

    Dados altamente resumidos

    Metadados

  • 18

    Figura 3.2 Forma geral da localizao dos dados em um DW.

    Para mudar de nvel necessrio que ocorra um dos seguinte eventos: os dados

    so sintetizados, arquivados ou eliminados.

    O processo de sintetizao interage no nvel mais alto de detalhamento (dados

    detalhados atuais) para os nveis seguintes (levemente e altamente resumidos). Quando

    termina determinado perodo de tempo (semana, ms, trimestre, ano), os dados so

    indexados por estes perodos e armazenados nos seus respectivos nveis de

    detalhamento. Para facilitar o acesso aos dados estes devem estar sintetizados e

    indexados de vrias maneiras, portanto ao mesmo tempo que ocorre o agrupamento por

    datas tambm pode ocorrer a sintetizao por grupos e subgrupos.

    Cada nvel possui um horizonte de tempo definido para a permanncia dos

    dados, ento o fato dos dados serem transportados para nveis mais elevados no

    implica na sua excluso do nvel anterior. Um processo denominado processo de

    envelhecimento ocorre quando este limite ultrapassado e ento os dados podem ser

    transferidos para meios de armazenamentos alternativos ou passar de dados detalhados

    atuais para dados detalhados antigos.

    3.6 Credibilidade do dados

    A credibilidade dos dados o mais importante para o sucesso de qualquer

    projeto. Discrepncias simples de todo tipo podem causar srios problemas quando se

    quer extrair dados para suportar decises estratgicas para o negcio das empresas.

    Dados no dignos de confiana podem resultar em relatrio inteis, que no tm

    importncia alguma, como uma lista de pacientes do sexo masculino e grvidos, por

    M E T A D A D O

    S

    Dados altamente resumidos

    Dados levemente

    resumidos

    Dados detalhados atuais

    Dados detalhados

    antigos

  • 19

    exemplo. "Se voc tem dados de m qualidade e os disponibiliza em um DW, o seu

    resultado final ser um suporte a deciso de baixo nvel com altos riscos para o seu

    negcio", afirma Robert Craig [IDG98], analista do Hurwitz Group.

    Coisas aparentemente simples, como um CEP errado, podem no ter nenhum

    impacto em uma transao de compra e venda, mas podem influir nas informaes

    referentes a cobertura geogrfica, por exemplo. "No apenas a escolha da ferramenta

    certa que influi na qualidade dos dados", afirma Richard Rist [IDG98], vice-presidente

    Data Warehousing Institute. Segundo ele, conjuntos de colees de dados, processos de

    entrada, metadados e informaes sobre a origem dos dados, so de muita importncia.

    Outras questes como a manuteno e atualizao dos dados e as diferenas entre dados

    para bancos transacionais e para uso em Data Warehousing tambm so crucias para o

    sucesso dos projetos. Alm das camadas do DW propriamente dito, tem-se a camada

    dos dados operacionais, de onde os dados mais detalhados so coletados. Antes de fazer

    parte do DW estes dados passam por diversos processos de transformao para fins de

    integrao, consistncia e acuracidade.

    A Tabela 3.1 descreve um conjunto das caractersticas normalmente utilizadas

    para verificar a qualidade dos dados e indica algumas maneiras de medir o nvel da

    qualidade dos dados do DW. Nem todas as caractersticas da Tabela 3.1 precisam

    necessariamente ser averiguadas, deve-se escolher as que representam maior fator de

    risco para o ambiente proposto e trabalhar em cima destas caractersticas.

    Caracterstica da qualidade

    de dados Descrio Exemplo de medida

    Preciso Grau de informaes que

    esto corretas.

    Percentual de correo.

    Abrangncia Grau de dados requisitados e

    atendidos.

    Percentual atendimentos.

    Consistncia Consistncia dos dados /

    liberdade de contradio.

    Percentual de condies

    satisfeitas.

    Coerncia Coerncia lgica que permite

    criar relaes entre os dados.

    Percentual de regras de

    integridade referencial

    suportadas.

    Tempo de resposta Tempo entre o pedido de

    consulta e a resposta.

    Relao entre a

    complexidade e o tempo

    gasto para resposta.

    Singularidade Singularidade dos dados de

    mesma natureza.

    Percentual dos dados que

    tm valores dentro dos

    domnios de valores

    permitidos.

    Tabela 3.1 Conjunto de caracterstica da qualidade de dados.

  • 20

    3.7 Granularidade

    Granularidade diz respeito ao nvel de detalhe ou de resumo contido nas

    unidades de dados existentes no DW. Quanto maior o nvel de detalhes, menor o nvel

    de granularidade. O nvel de granularidade afeta diretamente o volume de dados

    armazenado no DW e ao mesmo tempo o tipo de consulta que pode ser respondida.

    Quando se tem um nvel de granularidade muito alto o espao em disco e o

    nmero de ndices necessrios se tornam bem menores, porm h uma correspondente

    diminuio da possibilidade de utilizao dos dados para atender a consultas detalhadas.

    A Figura 3.3 exemplifica o conceito acima utilizando os dados histricos das

    vendas de um produto, um nvel de granularidade muito baixo pode ser caracterizado

    pelo armazenamento de cada uma das vendas ocorridas para este produto e um nvel

    muito alto de granularidade seria o armazenamento do somatrios das vendas ocorridas

    por ms.

    Figura 3.3 Nveis de granularidade.

    Com um nvel de granularidade muito baixo, possvel responder a

    praticamente qualquer consulta, mas uma grande quantidade de recursos

    computacionais necessria para responder perguntas muito especficas. No entanto, no

    ambiente de DW, dificilmente um evento isolado examinado, mais comum ocorrer a

    utilizao de uma viso de conjunto dos dados.

    Os dados levemente resumidos compreendem um nvel intermedirio na

    estrutura do DW, so derivados do detalhe de baixo nvel encontrado nos dados

    detalhados atuais. Este nvel do DW quase sempre armazenado em disco. Na

    passagem para este nvel os dados sofrem modificaes, por exemplo, se as informaes

    nos dados detalhados atuais so armazenadas por dia, nos dados levemente resumidos

    estas informaes podem estar armazenadas por semanas. Neste nvel o horizonte de

    tempo de armazenamento normalmente fica em cinco anos e aps este tempo os dados

    sofrem um processo de envelhecimento e podem passar para um meio de

    armazenamento alternativo.

    Produto Data Qtd. Valor A1 13/9/98 10 100,00 B1 14/9/98 15 150,00 A1 16/9/98 20 200,00 A1 16/9/98 90 890,00 ........

    Ms/Ano Produto Qtd. Valor 09/98 A1 120 1190,00 09/98 B1 15 150,00

    Baixa

    Nveis de Granularidade

    Alta

  • 21

    Os dados altamente resumidos so compactos e devem ser de fcil acesso, pois

    fornecem informaes estatsticas valiosas para os Sistemas de Informaes Executivas,

    enquanto que nos nveis anteriores ficam as informaes destinadas aos Sistemas de

    Apoio a Deciso (SAD) que trabalham com dados mais analticos procurando analisar

    as informaes de forma mais ampla.

    O balanceamento do nvel de granularidade um dos aspectos mais crticos no

    planejamento de uma DW, pois na maior parte do tempo, h uma grande demanda por

    eficincia no armazenamento e no acesso aos dados, bem como pela possibilidade de

    analisar dados em maior nvel de detalhes. Quando uma organizao possui grandes

    quantidades de dados no DW, faz sentido pensar em dois ou mais nveis de

    granularidade na parte detalhada dos dados. Na realidade, a necessidade de existncia de

    mais de um nvel de granularidade to grande que a opo de projeto que consiste em

    duplos nveis de granularidade deveria ser o padro para quase todas as empresas.

    O chamado nvel duplo de granularidade, ilustrado na Figura 3.4, se enquadra

    nos requisitos da maioria das empresas. Na primeira camada de dados ficam os dados

    que fluem do armazenamento operacional e so resumidos na forma de campos

    apropriados para a utilizao de analistas e gerentes. Na segunda camada, ou nvel de

    dados histricos, ficam todos os detalhes vindos do ambiente operacional, como h uma

    verdadeira montanha de dados neste nvel, faz sentido armazenar os dados em um meio

    alternativo como fitas magnticas.

    Com a criao de dois nveis de granularidade no nvel detalhado do DW,

    possvel atender a todos os tipos de consultas, pois a maior parte do processamento

    analtico dirige-se aos dados levemente resumidos que so compactos e de fcil acesso e

    para ocasies em que um maior nvel de detalhe deve ser investigado existe o nvel de

    dados histricos. O acesso aos dados do nvel histrico de granularidade caro,

    incmodo e complexo, mas caso haja necessidade de alcanar esse nvel de detalhe, l

    estar ele.

    Primeira Camada Segunda Camada

    Dados resumidos por produto Dados detalhados por produto

    Produto A1 maio/1998 Produto A1

    Valor total: R$ 1.270,00 02/5/1998- Valor R$ 100,00 Quantidade 20

    Quantidade total: 254 09/5/1998- Valor R$ 50,00 Quantidade 10

    Valor mdio: R$ 5,00 12/5/1998- Valor R$ 125,00 Quantidade 25 20/5/1998- Valor R$ 350,00 Quantidade 70

    22/5/1998- Valor R$ 110,00 Quantidade 22

    29/5/1998- Valor R$ 320,00 Quantidade 64

    .........

    Figura 3.4 Nveis duplos de granularidade para dados resumidos.

    Dados Resumidos

    Primeira Camada

    Segunda camada

  • 22

    3.8 Os metadados

    Metadados so normalmente definidos como dados sobre os dados. Podem ser definidos tambm como um abstrao dos dados, ou dados de mais alto nvel que

    descrevem dados de um nvel inferior. Os metadados tm um papel muito importante na

    administrao de dados, mas no DW podem ser considerados de suma importncia pois

    a partir deles que as informaes sero processadas, atualizadas e consultadas.

    Como os usurios de DW procuram por fatos no usuais e relaes no

    conhecidas previamente eles precisam examinar os dados e para isso necessitam

    conhecer a estrutura e o significado dos dados do DW, o que no ocorre em um

    ambiente operacional onde os usurios trabalham com aplicaes que contm as

    definies de dados embutidas e simplesmente interagem com as telas do sistema sem

    precisar conhecer como os dados so mantidos pelo banco de dados.

    Geralmente os metadados em um DW podem ser apresentados em trs camadas

    diferentes:

    Metadados operacionais: definem a estrutura dos dados mantidos pelos bancos operacionais, usados pelas aplicaes de produo da empresa;

    Metadados centrais do DW: so orientados por assunto e definem como os dados transformados devem ser interpretados, incluem definies de agregao e

    campos calculados, assim como vises sobre cruzamentos de assuntos;

    Metadados do nvel do usurio: organizam os metadados do DW para conceitos que sejam familiares e adequados aos usurios finais;

    Os metadados podem ser classificados conforme a classe de seus componentes:

    Mapeamento: descrevem como os dados de sistemas operacionais so transformados antes de entrarem no DW. Exemplos desta classe de metadados

    podem ser os que identificam campos fontes, mapeamentos entre atributos,

    converses, codificaes, padres, etc.;

    Histrico: com a evoluo dos sistemas operacionais as regras de negcio da empresa podem mudar, cabe a estes metadados manter o histrico de

    mudanas destas regras, pois as regras certas devem ser aplicadas aos dados

    certos;

    Miscelnea: esta classe define diversos tipos de metadados, informaes da situao de desenvolvimento de partes do DW, informaes sobre volume dos

    dados para estimativas de tempo e recursos, etc.;

    Algoritmos de sumarizao: mostram a relao entre os diferentes nveis de detalhes dos dados, indicando inclusive que nvel de sumarizao mais

    adequado para um dado objetivo;

    Padres de acesso: mantm informaes sobre freqncia e tipo de acesso aos dados.

    Conforme visto acima os dados sobre desempenho e monitoramento tambm so

    qualificados com metadados, eles podem ser criados por processos que monitoram

    atividades como extrao, carga e uso dos dados. Dados que identificam questes

  • 23

    relativas a qualidade dos dados tambm devem estar disponveis para os usurios, afim

    de que estes identifiquem a acuracidade de suas anlises.

    Segundo Inmon[INM97] os metadados englobam o DW e mantm informaes

    sobre o que est aonde no DW. Tipicamente os aspectos sobre os quais os metadados mantm informaes so:

    A estrutura dos dados segundo a viso do programador;

    A estrutura dos dados segundo a viso dos analista de SAD;

    A fonte de dados que alimenta o DW;

    A transformao sofrida pelos dados no momento de sua migrao para o DW;

    O modelo de dados;

    O relacionamento entre o modelo de dados e o DW;

    O histrico das extraes de dados.

    3.8.1 Fontes de metadados

    Os metadados podem ser encontrados em vrios locais durante o desenvolvimento de um DW. Em [ADE97] alguns tipos de metadados so classificados

    conforme suas fontes, essas fontes e o tipo de metadados que pode ser obtido atravs

    delas so:

    Repositrios de ferramentas CASE: Normalmente os dados contidos em

    ferramentas CASE so estruturados o que facilita a integrao automtica entre a

    origem dos metadados e o repositrio do ambiente de DW. Pode-se extrair informaes

    sobre a origem dos dados, o fluxo dos dados (os processos que utilizam e transportam

    os dados), o formato dos dados e as definies de negcios.

    Documentao do desenvolvimento dos sistemas operacionais: O tipo de

    metadados potencialmente disponvel idntico ao item acima. A diferena que

    normalmente a documentao de desenvolvimento dos sistemas no est estruturada o

    que pode dificultar o entendimento das origens e fluxos dos dados.

    Cdigo fonte dos sistemas operacionais: Quando no existe uma

    documentao eficiente dos sistemas operacionais, possvel extrair as informaes

    sobre eles atravs dos programas fontes. Como vasculhar todos os programas de um ou

    vrios sistemas operacionais a procura de regras um trabalho demorado e oneroso

    possvel simplesmente utiliz-los como forma de esclarecer dvidas que a

    documentao no contempla, tambm cobre os mesmos tipos de informaes das

    fontes anteriores.

    Entrevistas: Apesar de no ser uma fonte estruturada de informaes,

    entrevistar profissionais da empresa que entendam do negcio, como gerentes e

    analistas, de vital importncia. Destas entrevistas pode se obter regras e informaes

    que no esto explcitas na documentao dos sistemas como, requisitos para teste dos

    dados e indicadores de qualidade dos dados.

    O prprio ambiente do DW: Informaes tais como freqncia de acesso s

    informaes, em que nvel de agregao, tempo de resposta de cada consulta, auditoria

  • 24

    de acesso de informaes por usurios, so informaes interessantes de se manter, que

    podem ser geradas pelo prprio sistema ao longo de sua utilizao, podendo ser usadas,

    dentre outros propsitos, para a criao de estruturas de metadados.

  • 25

    4 Arquitetura do Data Warehouse

    Para ser til o DW deve ser capaz de responder a consultas avanadas de

    maneira rpida, sem deixar de mostrar detalhes relevantes resposta. Para isso ele deve

    possuir uma arquitetura que lhe permita coletar, manipular e apresentar os dados de

    forma eficiente e rpida. Mas construir um DW eficiente, que servir de suporte a

    decises para a empresa, exige mais do que simplesmente descarregar ou copiar os

    dados dos sistemas atuais para um banco de dados maior. Deve-se considerar que os

    dados provenientes de vrios sistemas podem conter redundncias e diferenas, ento

    antes de pass-los para o DW necessrio aplicar filtros sobre eles.

    O estudo de uma arquitetura permite compreender como o DW faz para

    armazenar, integrar, comunicar, processar e apresentar os dados que os usurios

    utilizaro em suas decises. Um DW pode variar sua arquitetura conforme o tipo de

    assunto abordado, primeira caracterstica definida no captulo anterior, pois as

    necessidades tambm variam de empresa para empresa. possvel definir uma

    arquitetura genrica onde praticamente todas as camadas necessrias so apresentadas,

    conforme a arquitetura genrica vista a seguir, ou arquiteturas que utilizam somente

    algumas das camadas definidas como as arquiteturas em duas e trs camadas e a

    arquitetura segundo valente, por fim, pode-se definir uma arquitetura baseada na origem

    dos dados e no fluxo que eles seguem pelo DW, como a arquitetura definidas por

    Chaudhuri.

    4.1 Arquitetura Genrica de Data Warehouse

    A seguir descrita uma arquitetura genrica proposta por Orr[ORR96] e

    ilustrada na Figura 4.1. Esta descrio genrica procura apenas sistematizar papis no

    ambiente de DW, permitindo que as diferentes abordagens encontradas no mercado

    atualmente possam ser adaptadas a ela, deve-se considerar que esta arquitetura tem o

    objetivo de representar a funcionalidade de um DW sendo que vrias camadas propostas

    podem ser atendidas por um nico componente de software.

    Esta arquitetura composta pela camada dos dados operacionais e outras fontes

    de dados que so acessados pela camada de acesso aos dados. As camadas de

    gerenciamento de processos, transporte e DW formam o centro da arquitetura e so elas

    as responsveis por manter e distribuir os dados. A camada de acesso informao

    formada por ferramentas que possibilitam os usurios extrair informaes do DW.

    Todas as camadas desta arquitetura interagem com o dicionrio de dados (metadados) e

    com o gerenciador de processos.

    Camadas de bancos de dados operacionais e fontes externas: composto pelos dados dos sistemas operacionais das empresas e informaes provenientes

    de fontes externas que sero integradas para compor o DW;

    Camada de acesso a informao: Envolve o hardware e o software utilizado para obteno de relatrios, planilhas, grficos e consultas. nesta

    camada que os usurios finais interagem com o DW, utilizando ferramentas de

    manipulao, anlise e apresentao dos dados, incluindo-se as ferramentas de

    data-mining e visualizao.;

  • 26

    Camada de acesso aos dados: Esta camada faz a ligao entre as ferramentas de acesso informao e os bancos de dados operacionais. Esta

    camada se comunica com diferentes sistemas de bancos de dados, sistemas de

    arquivos e fontes sob diferentes protocolos de comunicao, o que se chama

    acesso universal de dados;

    Camada de metadados(Dicionrio de dados): Metadados so as informaes que descrevem os dados utilizados pela empresa, isto envolve

    informaes como descries de registros, comandos de criao de tabelas,

    diagramas Entidade/Relacionamentos (E-R), dados de um dicionrio de dados,

    etc. necessrio que exista uma grande variedade de metadados no ambiente de

    DW para que ele mantenha sua funcionalidade e os usurios no precisem se

    preocupar onde residem os dados ou a forma com que esto armazenados;

    Camada de gerenciamento de processos: a camada responsvel pelo gerenciamento dos processos que contribuem para manter o DW atualizado e

    consistente. Est envolvida com o controle das vrias tarefas que devem ser

    realizadas para construir e manter as informaes do dicionrio de dados e do

    DW;

    Camada de transporte: Esta camada gerencia o transporte de informaes pelo ambiente de rede. Inclui a coleta de mensagens e transaes e se encarrega

    de entreg-las em locais e tempos determinados. Tambm usada para isolar

    aplicaes operacionais ou informacionais, do formato real dos dados nas duas

    extremidades;

    Camada do Data Warehouse: o DW propriamente dito, corresponde aos dados utilizados para obter informaes. As vezes o DW pode ser simplesmente

    uma viso lgica ou virtual dos dados, podendo no envolver o armazenamento

    dos mesmos ou armazenar dados operacionais e externos para facilitar seu

    acesso e manuseio.

    Figura 4.1 Arquitetura do ambiente de DW [ORR96].

  • 27

    4.2 Arquitetura segundo Chaudhuri

    Alm de conhecer os componentes envolvidos na construo do DW

    necessrio compreender os fluxos de dados que ocorrem no sistema. Conforme

    [HAC95], "O verdadeiro valor de um sistema de DW no est em apenas colecionar

    dados, mas sim, gerenciar fluxos de dados". Chaudhuri [CHA97] prope uma

    arquitetura, ilustrada na Figura 4.2, conforme o fluxo e a origem dos dados no sistema

    de DW, esta arquitetura pode ser dividida em:

    Fontes de dados de onde o DW ir retirar os seus dados de origem;

    Um conjunto de estruturas de dados analticos armazenados: o DW do sistema;

    Um Sistema Gerenciador de Banco de Dados (SGBD) otimizado para atender os requisitos analticos dos sistemas de DW;

    Um componente back end: conjunto de aplicaes responsveis por extrair, filtrar, transformar, integrar e carregar os dados de diferentes origens no DW;

    Um componente front end: conjunto de aplicaes responsveis por disponibilizar aos usurios finais acesso ao DW;

    Um repositrio para armazenar e gerenciar os metadados do sistema.

    Figura 4.2 Componentes de arquitetura de um DW segundo Chaudhuri [MOR98].

    Data Warehouse

    (SGBD)

    Componente back-end

    Componente front-end

    Repositrio de metadados

    Fontes internas

    Fontes externas

  • 28

    Cinco principais fluxos fazem parte do sistema: fluxo de entrada (inflow), fluxo

    de sada (outflow), fluxo de subida (upflow), fluxo de descida (downflow) e o

    metafluxo (metaflow). A Figura 4.3 ilustra como estes cinco diferentes fluxos de dados

    esto inseridos dentro de sistema:

    Figura 4.3 O fluxo de dados no sistema [MOR98].

    O primeiro fluxo o de entrada dos dados no sistema (inflow), que envolve

    extrair, filtrar, transformar, integrar e carregar os dados de vrias fontes no DW. Deve-

    se considerar as fontes de dados que pertencem empresa e as fontes externas. O fluxo

    de entrada geralmente implementado com ajuda de ferramentas especialmente

    desenvolvidas para este fim.

    O segundo fluxo o de descida dos dados (downflow), ou seja, em tempos pr-

    determinados, de dois a cinco anos dependendo da empresa, os dados armazenados no

    DW passam para o estado de dados antigos [INM96]. Este o fluxo que remove do DW

    aqueles dados considerados velhos, que j no so mais utilizados com freqncia.

    O terceiro fluxo o de subida dos dados (upflow), onde enfocada a

    necessidade de colocar os dados em formatos mais acessveis aos usurios finais. Este

    processo sumariza e agrupa os dados dentro de "vises" mais adequadas aos usurios

    finais e as aplicaes front end que eles utilizam, tais como tabelas sumarizadas,

    planilhas, grficos, pginas no formato Hyper Text Markup Language (HTML), banco

    de dados pessoais, entre outros formatos. Tambm funo do fluxo de subida a

    distribuio dos dados para os diferentes nveis do sistema como, por exemplo, Data

    Marts e bancos de dados pessoais localizados nas estaes de trabalho dos usurios

    finais.

    Repositrio de metadados

    Downflow

    Data Warehouse

    Componente back-end

    Componente front-end

    Fontes internas

    Fontes externas

    Dados antigos

    Outflow

    Upflow

    Inflow

    Metaflow

  • 29

    O quarto fluxo o de sada dos dados (outflow), cuja funo disponibilizar

    acesso aos usurios finais do sistema. Este processo implementado atravs de uma

    variedade de ferramentas front end como, por exemplo, geradores de consulta e

    relatrio, ferramentas com caractersticas On-line Analytical Processing (OLAP),

    pacotes estatsticos, ferramentas de Data Mining, ferramentas de visualizao, Executive

    Information System (EIS), Decision Suport Systems (DSS), entre outras. As ferramentas

    front end podem acessar tanto dados previamente preparados pelo fluxo de subida,

    quanto dados "brutos" e detalhados armazenados no DW.

    O quinto e ltimo fluxo pode ser chamado de metafluxo (metaflow), ao

    contrrio dos quatro fluxos de dados citados acima, que descrevem como os dados se

    movem no DW o metafluxo move metadados, ou seja, dados sobre os outros fluxos. O

    repositrio de metadados responsvel pela gerncia do sistema como um todo,

    indicando de onde os dados vm, como so transformados, quando so atualizados, o

    que significam, como so acessados e quem os v.

    4.2.1 Fontes de dados internas

    Como regra bsica, a fonte primria dos dados de um DW so os sistemas de

    processamento de transaes, os quais do suporte ao dia a dia de uma empresa. Estes

    sistemas, tambm chamados de sistemas On-line Transaction Processing (OLTP), sistemas operacionais e sistemas de produo, tm como principal objetivo garantir as operaes bsicas das empresas nas reas de produo, administrao e comrcio,

    entre outras. Grandes projetos de DW chegam a tratar com mais de quarenta diferentes

    sistemas de produo [GEL96]. Todos estes sistemas acabam gerando grandes volumes

    de dados, os quais podem estar armazenados e organizados na forma de sistemas de

    arquivos, bancos de dados de arquitetura fechada ou aberta e bancos de dados

    distribudos.

    Alm dos dados referentes s transaes operacionais da empresa, podem ser

    necessrios outros dados de fontes internas, geralmente no computadorizados como,

    por exemplo, as metas a serem atingidas em determinado ano ou uma pesquisa mensal

    que revela o grau de satisfao dos clientes em relao a determinados produtos ou

    servios da empresa. Este tipo de informao raramente est disponvel atravs de

    atividades normais de processamento de dados, necessitando que seja coletada, inserida

    no DW e mantida.

    4.2.2 Fontes de dados externas

    Outra fonte de dados para um sistema de DW so as fontes externas a empresa,

    principalmente como apoio para decises nos nveis gerenciais mais altos. Dentre

    alguns exemplos esto informaes econmicas regionais, sobre o setor de atuao da

    empresa, sobre concorrentes, preferncias do consumidor, entre outras. Informaes de

    fontes externas so geralmente compradas de empresas que mantm bancos de dados

    comerciais.

    Muitas das informaes podem estar em um formato no tradicional como, por

    exemplo, imagens, udio e, principalmente, dados baseados em documentos. O

    contedo desses documentos, na medida do possvel, deve ser armazenado

    eletronicamente e recuperado de acordo com suas caractersticas.

  • 30

    4.3 Arquitetura segundo Valente

    Sabendo que nem todas as camadas descritas no modelo de Orr[ORR96] so

    necessrias para a implementao de um DW, possvel se definir uma arquitetura mais

    simples, conforme um estudo realizado por Valente [VAL96]. Na Figura 4.4 ilustrado

    um exemplo de arquitetura bsica, neste exemplo pode-se ver as bases de dados que

    compe o DW, logo acima tem-se os extratores que so responsveis pela deteco

    automtica de mudanas nas bases de dados. Sempre que existe uma mudana no

    contedo da base, a informao nova ou atualizada, que relevante para o DW,

    propagada para o integrador.

    O integrador responsvel em integrar o contedo fornecido pelos extratores e

    fornec-lo ao DW. Para integrar os dados advindos de diversos tipos de bases de dados

    necessrio que estes passem por alguns processos. Primeiro, os dados devem ser

    ajustados ao modelo de dados conceitual utilizado pelo DW, ento o dado deve ser

    unido com os dados j existentes, resolvendo possveis inconsistncias que possam

    existir entre as bases de dados e os dados do DW. Uma lista das tarefas do integrador

    pode conter itens como: especificar as diferenas das bases de dados, definir

    relacionamentos entre dados de mltiplas bases, resolver duplicaes e inconsistncias e

    determinar como as informaes sero integradas dentro do DW.

    4.3.1 Extrao dos dados

    Para que as modificaes nas bases de dados sejam detectadas pelos extratores

    necessrio que antes seja feita uma traduo das informaes das bases de dados para o

    modelo do DW. Quando alguma modificao de interesse detectada pelos extratores, a

    informao propagada em um formato genrico para o integrador. Quando a base dos

    dados operacionais um banco de dados relacional possvel definir um conjunto de

    gatilhos ou triggers e guardar as notificaes de mudanas. Uma outra maneira que o

    extrator examine o arquivo de atualizaes (log) e retire as modificaes que so de

    interesse do DW.

    Para sistemas que no possuem a facilidade de gatilhos e arquivos de

    atualizaes necessrio implementar funes que notifiquem os extratores a cada

    mudana na base ou criar um programa para descarregar a base de dados em um arquivo

    para que o extrator compare este arquivo com o que foi gerado anteriormente,

    detectando assim as modificaes existentes.

    Sempre que realizada a carga de novos dados no DW necessrio que estes

    passem por um processo de limpeza, descartando dados errados, inserindo dados em

    formato padro, eliminado duplicidades e inconsistncias e realizando agregaes e

    sumarizaes.

    4.3.2 Integrador

    O integrador pode ser implementado como um mecanismo de regra base,

    recebendo as notificaes dos extratores e integrando-as no DW [VAL96]. Cada regra

    responsvel pela manipulao de um determinado tipo de notificao e implementada

    como um mtodo em um sistema orientado a objetos. Quando o extrator gera um

    determinado tipo de notificao o mtodo correspondente chamado e ento executa os

  • 31

    processamentos necessrios para integrar os dados no DW, durante este processo o

    integrador pode obter dados extras no DW ou em outras bases de dados.

    Figura 4.4 Arquitetura bsica de um DW [VAL 96].

    4.3.3 Processamento de informaes

    Para receber respostas corretas de um DW necessrio elaborar perguntas

    certas, para isso o usurio deve ter conhecimento do assunto, experincia e capacidade

    de anlise. necessrio primeiro definir o problema a ser resolvido, depois elaborar as

    perguntas que necessitam de respostas, verificar se os dados apropriados esto

    disponveis e se so suficientes para responder as questes. O processo de consulta

    consiste de cinco etapas:

    Base de

    dados Base de

    dados

    Base de

    dados

    Integrador

    Extrator Extrator Extrator

    Data warehouse

    Consultas

  • 32

    Definio das consultas: O usurio deve definir a consulta de forma a traduzir as necessidades da empresas em termos que o DW possa responder, isso

    pode ser feito atravs de ferramentas comerciais ou aplicaes;

    Acesso e recuperao de dados: As ferramentas de acesso submetem a consulta e recuperam os dados apropriados, este processo pode envolver

    clculos;

    Clculo, manipulao e anlise: Anlises adicionais, como clculos e manipulaes, podem ser feitas para transformar os resultados da consulta em

    informaes;

    Apresentao das informaes: Os resultados podem ser apresentados em forma de relatrios, grficos, texto em tela ou como dados pr-processados para

    anlise posterior;

    Disseminao da informao: As informaes podem ser distribudas aos interessados das diversas formas existentes, como relatrios, arquivos, correio

    eletrnico, etc.

    As ferramentas para consulta dos dados normalmente possuem componentes

    grficos e suportam um certo grau de multidimensionalidade, como sondagem

    inteligente, relatrios de intertabelas e anlise de sries de tempo.

    4.4 Outras arquiteturas

    Segundo Pieter R. Mimno [BAR96], existem vrias opes de arquiteturas

    diferentes que podem ser consideradas na implementao de um DW. Algumas delas

    so:

    4.4.1 Arquitetura de duas camadas

    Uma opo de arquitetura para o DW utilizar um computador de alta

    capacidade como servidor, como mostrado na Figura 4.5. Isto uma incorporao das

    aplicaes utilizadas pelos usurios (front end) com os componentes do servidor (back

    end). Aplicaes front end construdas com ferramentas cliente/servidor fornecem uma

    interface grfica amigvel, suportam funes especficas da empresa, possibilitam o

    acesso transparente aos dados dos sistemas j existentes e escondem a complexibilidade

    e a falta de consistncia dos bancos de dados atuais alm de facilitar a utilizao e a

    visualizao dos resultados. Os sistemas operacionais de uma empresas podem estar em

    uso por 15 ou 20 anos e podem ter altas taxas de redundncia. Organizaes como as

    companhias de seguros, que podem crescer com a compra de outras seguradoras,

    gradualmente acumulam mltiplos sistemas de computao, cada um deles com

    redundncias e incompatibilidade de definies dos dados. A redundncia e a falta de

    consistncia dos dados pode dificultar a administrao da empresa e o acesso aos dados

    e impedem o desenvolvimento de novas aplicaes front end. Uma das maneiras de

    tratar com esta situao partir de um s sistema e construir uma espcie de sistema guarda-chuva que tenha facilidade de acesso aos dados do servidor principal.

  • 33

    Figura 4.5 Arquitetura de duas camadas.

    A arquitetura ilustrada na Figura 4.5, pode ser usada para construir um DW em

    duas camadas que consiste de componentes dos clientes (front end) e componentes do

    servidor (back end). Esta arquitetura atrativa porque ela utiliza os sistemas existentes

    bem como os servidores de bancos de dados existentes e requer um investimento

    mnimo em hardware e software. Entretanto, a arquitetura em duas camadas no

    escalonvel e no suporta um grande nmero de usurios simultaneamente. Isto

    estimula o desenvolvimento de estaes clientes muito pesadas, pois muito

    processamento alocado para processar nestas estaes.

    4.4.2 Arquitetura de trs camadas

    Uma alternativa utilizar a arquitetura de informao em mltiplas camadas,

    como mostrado na Figura 4.6. Esta arquitetura flexvel suporta um grande nmero de

    servios integrados, na qual a interface do usurio, as funes de processamento do

    negcio e as funes de gerenciamento do banco de dados so separadas em processos

    que podem ser distribudos atravs da arquitetura de informao.

    A arquitetura em trs camadas amplamente utilizada para DW. Na terceira

    camada ficam as fontes de dados. Dados e regras de negcio podem ser compartilhados

    pela organizao, assim como o banco de dados para o DW, ficam armazenados em

    servidores de alta velocidade na segunda camada. Na primeira camada ficam as

    aplicaes de interface com os usurios que devem ser grficas e baseadas em rede.

    No ambiente do DW, os servidores de banco de dados e os servidores de

    aplicaes da segunda camada fornecem um acesso eficiente e veloz aos dados

    compartilhados. Os dados de um DW so tipicamente estticos, por exemplo, no

    variam com o tempo e devem ser integrados, de natureza histrica e sumarizados ou

    agregados para que sejam significantes para os analistas de negcios. Como mostrado

    na Figura 4.6, dados operacionais e bancos de dados para o DW so freqentemente

    armazenados em servidores fisicamente separados. Bancos de dados operacionais so

    otimizados para ter alto desempenho no processamento de transaes on-line, em ingls

    Servidor Principal

    DW

    Sistema Operacional BD

    Sistema Operacional BD

    Sistema Operacional BD

  • 34

    conhecido como On-line Transaction Processing (OLTP). Bancos de dados para DW

    so otimizados para ter alto desempenho em consultas e anlises, em ingls conhecido

    como On-line Analytical Processing (OLAP).

    Figura 4.6 Arquitetura de trs camadas.

    importante reconhecer que no existe uma arquitetura correta para DW. Para algumas organizaes pode ser atrativo utilizar a arquitetura em duas camadas, por que

    ela minimiza o custo e a complexibilidade de construo do DW. Para outras que

    requerem grande performance e escalabilidade, a arquitetura em trs camadas pode ser

    mais apropriada. Nesta arquitetura dados extrados dos sistemas operacionais so

    filtrados, transformados e armazenados em servidores de bancos de dados de alta

    velocidade, os quais so utilizados para o acesso dos usurios finais. No planejamento

    do DW, as organizaes devem examinar as alternativas disponveis de arquiteturas e

    selecionar aquela que satisfaa os seu requisitos estratgicos e organizacionais.

    Servidor

    de aplicaes

    Sistema Operacional BD

    Sistema Operacional BD

    Sistema Operacional BD

    Servidor

    de BD p/DW

    DW

    BD

    Aplicaes front-end

    Aplicaes front-end

    Aplicaes front-end

  • 35

    5 Modelos de dados

    O modelo de dados tem um papel fundamental para o desenvolvimento

    interativo do DW. Quando os esforos de desenvolvimentos so baseados em um nico

    modelo de dados sempre que for necessrio unir estes esforos os nveis de

    sobreposio de trabalho e desenvolvimento desconexo sero muito baixos, pois todos

    os componentes do sistema estaro utilizando a mesma estrutura de dados.

    Existe um grande nmero de enfoques sobre modelagem de dados j

    desenvolvidos por vrios autores, a maioria deles pode ser usada para construir um DW.

    Dentre estes modelos dois sero resumidamente apresentados neste trabalho. O primeiro

    modelo foi escrito por R.Kimball em [KIM96] e divide a modelagem dos dados em

    trs partes: modelo empresarial, modelo dimensional e modelo fsico. O segundo

    modelo apresentado foi escrito por W.H.Inmon em [INM93] e tambm divide a

    modelagem dos dados em trs partes: a modelagem de alto nvel, a modelagem de nvel

    intermedirio e a modelagem de baixo nvel. Na seo final do captulo descrita uma

    estrutura de dados que padro em todos os ambientes de DW, os instantneos.

    5.1 Modelo de dados segundo R.Kimball

    A construo de um modelo de dados ajuda a compreender as regras de negcio

    que o DW ir apoiar. Muitas vezes a equipe que est desenvolvendo o ambiente do DW

    ignora a fase de construo do modelo de dados por no ter tempo ou achar que no

    uma parte fundamental para o desenvolvimento. Segundo [KIM96], um dos maiores

    problemas no desenvolvimento do DW a compreenso dos dados, em seu artigo so

    descritos trs modelos de dados, um modelo entidade-relacionamento normalizado das

    regras de negcio ou modelo empresarial, um modelo dimensional e um modelo fsico.

    5.1.1 Modelo empresarial

    A anlise do modelo de dados o primeiro passo para desenvolver um modelo

    entidade-relacionamento normalizado das regras de negcio. Este o modelo

    empresarial. Nesta fase no se deve pensar em como as informaes sero recuperadas

    nem em como sero utilizadas. Estas tarefas sero realizadas posteriormente. Nesta fase

    o importante ter o foco na estrutura da informao, como os atributos e as relaes

    entre elas. Por exemplo, se o DW que estiver sendo construdo for sobre vendas em

    marketing, o tipo de perguntas que deve-se procurar responder so:

    1) Quem compra o produto? (os clientes e sua estrutura);

    2) Quem vende o produto? (organizao das vendas, os canais de distribuio e assim por diante);

    3) O que vendido? (estrutura de produto);

    4) Quando vendido? (estrutura de tempo);

    5) Como e vendido? (contrato, telefone e assim por diante);

    6) Quais so as caractersticas da venda (de promoo, venda normal, etc.)

  • 36

    Estas questes iro ajudar a descobrir quais so os dados relevantes para o DW e

    quais os dados que iro resultar em estruturas dimensionais. muito comum iniciar um

    processo perguntando aos usurios o que eles querem ver. Existe um grande problema

    nisso. O problema que eles iro pedir por coisas no respondidas no passado, e se for

    trabalhado no sentido de oferecer respostas para perguntas do passado os novos

    problemas que surgirem podem requerer informaes novas que no estaro

    disponveis. E o novo DW estar instantaneamente obsoleto. Pelo menos durante a fase

    de construo do modelo empresarial importante desenvolver um modelo que

    contenha todos os dados que esto disponveis nos sistemas operacionais da empresa e

    em fontes externas.

    Isto demostra uma das diferena entre os sistemas de suporte a deciso e os

    sistemas operacionais. Nos sistemas operacionais, o processo empresarial quem define

    os requisitos dos dados. A utilidade de cada parte dos dados pode ser determinada

    avaliando seu valor dentro do processo empresarial. Considerando que o processo no

    muda, o valor dos dados no mudam. Embora o processo empresarial determine a

    informao em uma aplicao de DSS, o processo empresarial pode e vai mudar.

    muito comum confundir as perguntas que deveriam ser feitas com as

    perguntas que se deseja perguntar com as perguntas que podem ser feitas. Um exemplo

    disto a questo: Que produtos compram as pessoas casadas?. Esta parece ser uma pergunta interessante e relativamente fcil responder. Para executar alguma anlise de

    tendncia, poderia ser perguntado: O que compraram as pessoas casadas ano passado?. Esta pergunta parece com a primeira, entretanto sem a informao de estado civil do ltimo ano seria impossvel responder a questo. Este s em exemplo de como

    uma informao, ou a falta dela, pode fazer uma diferena crtica para o ambiente de

    DW.

    O DW pode ser considerado como uma estrutura orgnica, pois ele cresce e

    cresce em direes que no podem ser previstas. Se forem enfocadas exigncias

    funcionais atuais, ser desenvolvida uma soluo altamente aperfeioada para os

    problemas de hoje. Porm, como os problemas mudam a soluo pode ficar cada vez

    menos tima. Eventualmente, estar regular e consequentemente ficar inaceitvel. Um

    caminho melhor trocar otimizao por flexibilidade. A soluo resultante poder no

    ser a ideal mas ser mais adaptvel e consequentemente ter um tempo de vida maior.

    O segundo passo para o desenvolvimento do modelo empresarial a

    normalizao do modelo, uma vez definidas todas as entidades e relaes possvel

    normalizar o modelo. Pode-se utilizar a 3 Forma Normal que alcanada quando os

    atributos dependem exclusivamente da sua chave, h muitas vantagens em utilizar a 3

    FN.

    1) A estrutura notavelmente insensvel a mudanas. Se for preciso mudar, acrescentar ou excluir, atributos que so relacionados a uma chave em

    particular, no deveria haver nenhuma razo para mudar outras entidades ou

    relaes. De uma perspectiva do DW, isto significa que a estrutura do DW

    pode ser modificada facilmente para refletir mudanas organizacionais ou

    problemas empresariais novos.

    2) Os caminhos estruturais para ter acesso a informao ficam mais claros. Considerando que este modelo o resultado de regras de negcio possvel

    que surjam caminhos cclicos. Isto significa que necessrio educar os

    usurios sobre os caminhos diferentes e que interpretao cada um deles tm.

  • 37

    Os caminhos cclicos devem ser eliminados pois a maioria das ferramentas

    de consultas no consegue trabalhar com eles.

    3) Muito da discusso sobre as formas normais gira em torno da eliminao de problemas de atualizao. Isto , quais os tipos de problemas de atualizao

    que so resolvidos movendo-se para uma forma normal mais alta.

    Considerando que um DW raramente atualizado, a possibilidade destes

    problemas acontecerem muito baixa. Este o motivo pelo qual aceitvel

    falar sobre desnormalizao do DW.

    Tambm existem algumas desvantagens na utilizao da 3 FN:

    1) O desempenho pode ser comprometido, podendo ficar muito abaixo do desejado. Muito do trabalho que feito para desnormalizar o modelo de

    dados uma tentativa para alcanar objetivos de desempenho.

    2) possvel que muitas relaes pequenas sejam criadas e o usurio pode pensar que so uma nica relao ou grupo de dados. O modelo

    dimensional reduz este tipo de problema at um certo ponto.

    Considerando que o modelo empresarial no ser implementado, estas

    desvantagens raramente so crticas, porm se levadas para o modelo dimensional estas

    desvantagens podero reaparecer e ser necessrio um tratamento especial para cada

    situao.

    O terceiro passo, para desenvolver um modelo entidade-relacionamento

    normalizado das regras de negcio, a definio das restries ou regras de

    integridade. Como norma geral, deveria ser obrigatria a definio das restries de

    integridade dentro de um DW. As restries de integridade ajudam a garantir a

    consistncia dos resultados das consultas. Por exemplo, quando forem executadas

    operaes de refinamento das informaes, conhecidas por operaes de drill-down, por

    uma estrutura dimensional, as restries de integridade garantem que a resposta obtida

    seja sempre a mesma, como se tivesse sido feita uma pesquisa por toda a tabela. Nota-se

    que a no obrigatoriedade das restries de integridade pode resultar em respostas

    diferentes para perguntas iguais.

    Por outro lado a obrigatoriedade da definio das restries de integridade pode

    fazer com que alguns registros no sejam selecionados durante o processo de carga. A

    deciso sobre a definio de regras de integridade deve levar em conta o que melhor

    para o DW que est sendo construdo, respostas consistentes, mas possivelmente

    incompletas ou respostas completas mas possivelmente inconsistentes.

    possvel que as fontes de dados criem situaes onde no seja possvel utilizar

    as restries de integridade, neste caso importante saber as implicaes que isto pode

    ter sobre o DW e manter os usurios informados sobre o que pode acontecer em

    determinadas situaes.

    5.1.2 Modelo dimensional

    A resposta a perguntas complexas e que envolvam questes de anlise dos

    negcios de uma empresa, normalmente requerem uma viso dos dados de perspectivas

    diferentes. As respostas a esse tipo de pergunta que podem levar a tomadas de

    decises acertadas ou no. As ferramentas baseadas em SQL podem ajudar na pesquisa

  • 38

    de dados relacionados a este tipo de consulta, o que ocorre que normalmente as

    respostas no so conseguidas em um tempo curto, principalmente pela falta de

    flexibilidade destas ferramentas.

    Para exemplificar, imagine-se uma rede de supermercados que esteja querendo

    melhorar o desempenho de suas vendas ou saber se suas promoes esto trazendo bons

    resultados. Para isso, necessrio examinar os dados sobre as vendas disponveis na

    empresa. Uma avaliao deste tipo requer uma viso histrica do volume de vendas sob

    mltiplas perspectivas, como por exemplo: volume de vendas por produto, volume de

    vendas por marca, volume de vendas por filial, volume de vendas por perodo de tempo.

    Chama-se de dimenses as diferentes perspectivas envolvidas, no caso, produto,

    marca, filial e ms. Estas dimenses usualmente correspondem a campos no numricos

    em um banco de dados. Considera-se tambm um conjunto de medidas, tal como vendas

    ou despesas com promoo. Estas medidas correspondem geralmente a campos

    numricos em um banco de dados. A seguir, avaliam-se agregaes destas medidas

    segundo s diversas dimenses, essas agregaes ficam armazenadas para acesso futuro.

    Por exemplo, calcula-se a mdia de todas as vendas por todos os meses por filial. A

    forma como estas agregaes so armazena