data warehouse

25
09/12/13 www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 1/25 Algoritmos de Mineração Ferramentas de Mineração Tecnologias Relacionadas Data Wharehouse 2.4 - Data warehouse O potencial da mineração de dados pode ser melhorado se os dados apropriados tiverem sido coletados e armazenados em um data warehouse. Um data warehouse é um sistema de gerenciamento de banco de dados relacional (RDMS - Relational Database Management System) desenvolvido especificamente para atender as necessidades de sistemas de processamento de transações. Superficialmente, poderíamos definir data warehouse como um repositório centralizado de dados que pode ser consultado para benefícios comerciais, mas definiremos de maneira mais clara posteriormente. O Data Warehousing é uma nova e poderosa técnica, tornando possível a extração de dados operacionais e superação de inconsistências entre formatos de dados legados. Assim como é possível a integração de dados através da empresa independente da localização, formato ou requerimentos de comunicação, também é possível a incorporação de informações adicionais. Isto é A ligação lógica entre o que os gerentes veêm John McIntyre, do SAS Institute Inc. Em outras palavras, um data warehouse fornece dados que já estão transformados e resumidos, tornando apropriado um ambiente para aplicações DSS e EIS mais eficientes. [Dmi03] A primeira etapa importante no processo de mineração de dados é organizar grandes volumes de dados em alguma forma de categoria para facilitar a busca, interpretação e organização por usuários finais. Reunir os dados para a "mineração" pode ser um processo difícil. Normalmente, os dados são armazenados de uma maneira imprópria para a extração. As ferramentas para data warehouse consistem em dois tipos: transformação e limpeza de dados; e ferramentas de acesso para usuários finais. Estas ferramentas asseguram que o data warehouse contém integridade de dados, consistência através do tempo, alta eficiência e baixo custo de operação. O elemento importante de um data warehouse é que os dados são armazenados em diferentes níveis detalhamento, permitindo o acesso rápido aos mesmos. Este tipo de dados pode ser explorado para a mineração de dados. Um dos pré-requisitos para uma boa infraestrutura de sistemas para rápido acesso e paralelismo é a alta banda de I/O requerida. A tecnologia de fluxos paralelos a um custo efetivo é crítica para data warehouse. O processo de extração de dados extrai subconjuntos úteis de dados para a mineração. Amostragem e predicados selecionados podem limintar o tamanho dos dados extraídos, enquanto que a agregação resume os dados pertinentes. A limpeza dos dados assegura a validade dos mesmos e a minimização de dados redundantes. A normalização pode ser executada para reduzir a quantidade de dados redundantes, mas às vezes é necessário utilizar overlays, tal como demográficas - especialmente para pequisas de marketing, de maneira que o acesso a dados possa ser agilizado. O maior problema em data warehousing é a qualidade dos dados. Para evitar o princípio de GIGO (garbage in garbage out - literalmente lixo dentro, lixo fora), os dados devem ter valores nulos mínimos, porque isso afeta os resultados da mineração de dados. A chave é continuamente monitorar os dados à medida em que vão sendo adicionados ao data warehouse e fazer um exame formal dos dados através de uma mineração preliminar para asseguar a integridade dos mesmos. [Dmi02] 2.4.1 - Características de um data warehouse

Upload: camoca

Post on 28-Nov-2015

10 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Data Warehouse

09/12/13 www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 1/25

Algoritmos de Mineração Ferramentas de Mineração

Tecnologias Relacionadas Data Wharehouse

2.4 - Data warehouse

O potencial da mineração de dados pode ser melhorado se os dados apropriados tiverem sido

coletados e armazenados em um data warehouse. Um data warehouse é um sistema de gerenciamento

de banco de dados relacional (RDMS - Relational Database Management System) desenvolvido

especificamente para atender as necessidades de sistemas de processamento de transações.

Superficialmente, poderíamos definir data warehouse como um repositório centralizado de dados que

pode ser consultado para benefícios comerciais, mas definiremos de maneira mais clara

posteriormente. O Data Warehousing é uma nova e poderosa técnica, tornando possível a extração de

dados operacionais e superação de inconsistências entre formatos de dados legados. Assim como é

possível a integração de dados através da empresa independente da localização, formato ourequerimentos de comunicação, também é possível a incorporação de informações adicionais. Isto é

A ligação lógica entre o que os gerentes veêm

John McIntyre, do SAS Institute Inc.

Em outras palavras, um data warehouse fornece dados que já estão transformados e resumidos,

tornando apropriado um ambiente para aplicações DSS e EIS mais eficientes. [Dmi03]

A primeira etapa importante no processo de mineração de dados é organizar grandes volumes de

dados em alguma forma de categoria para facilitar a busca, interpretação e organização por usuários

finais. Reunir os dados para a "mineração" pode ser um processo difícil. Normalmente, os dados sãoarmazenados de uma maneira imprópria para a extração. As ferramentas para data warehouse

consistem em dois tipos: transformação e limpeza de dados; e ferramentas de acesso para usuários

finais. Estas ferramentas asseguram que o data warehouse contém integridade de dados, consistência

através do tempo, alta eficiência e baixo custo de operação. O elemento importante de um data

warehouse é que os dados são armazenados em diferentes níveis detalhamento, permitindo o acesso

rápido aos mesmos. Este tipo de dados pode ser explorado para a mineração de dados.

Um dos pré-requisitos para uma boa infraestrutura de sistemas para rápido acesso e paralelismo é a

alta banda de I/O requerida. A tecnologia de fluxos paralelos a um custo efetivo é crítica para data

warehouse. O processo de extração de dados extrai subconjuntos úteis de dados para a mineração.

Amostragem e predicados selecionados podem limintar o tamanho dos dados extraídos, enquanto quea agregação resume os dados pertinentes. A limpeza dos dados assegura a validade dos mesmos e a

minimização de dados redundantes. A normalização pode ser executada para reduzir a quantidade de

dados redundantes, mas às vezes é necessário utilizar overlays, tal como demográficas - especialmente

para pequisas de marketing, de maneira que o acesso a dados possa ser agilizado.

O maior problema em data warehousing é a qualidade dos dados. Para evitar o princípio de GIGO

(garbage in garbage out - literalmente lixo dentro, lixo fora), os dados devem ter valores nulos

mínimos, porque isso afeta os resultados da mineração de dados. A chave é continuamente monitorar

os dados à medida em que vão sendo adicionados ao data warehouse e fazer um exame formal dos

dados através de uma mineração preliminar para asseguar a integridade dos mesmos. [Dmi02]

2.4.1 - Características de um data warehouse

Page 2: Data Warehouse

09/12/13 www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 2/25

De acordo com Bill Inmon, autor de Building the Data Warehouse e guru que é considerado ooriginador do conceito de data warehousing, existem basicamente quatro características quedescrevem um data warehouse:

orientado ao assunto: os dados são organizados de acordo com o assunto ao invés daaplicação. Por exemplo, um companhia de seguros utilizando um data warehouse poderiaorganizar seus dados por consumidor, prêmio e franquia, ao invés de diferentesprodutos (automóvel, vida, etc.). Os dados são organizados por assunto, contendosomente as informações necessãrias para o processo de suporte à decisão.integrado: quando os dados residem em várias aplicações diferentes no ambienteoperacional, a codificação dos dados normalmente é inconsistente. Por exemplo, em umaaplicação o gênero pode estar codificado como "m" e "f" e em uma outra, como 0 e 1.Quando os dados são movidos de um ambiente operacional para o data warehouse,estes assumem uma convenção de código consistente - neste caso, o campo gênero étransformado em "m" e "f".variação em relação ao tempo: O data warehouse contem um lugar para oarmazenamento de dados que têm 5, 10 anos ou mais, para serem utilizados emcomparações, tendências e previsões. Estes dados não são atualizados.não-volatilidade: Os dados não são atualizados ou modificados em nenhum momentouma vez que estes entram no data warehouse, são somente acessados.

2.4.2 - Processos em data warehousing

A primeira fase do processo de data warehousing consiste em "isolar" a sua informaçãooperacional atual, preservando a segurança e integridade de aplicações de OLTP críticas aomesmo tempo em que permite o acesso à mais ampla possível base de dados. O banco dedados ou data warehouse resultante pode consumir centenas de gigabytes - ou mesmoterabytes - de espaço em disco. O que é necessário então são técnicas eficientes paraarmazenar e acessar grandes quantidades de informação. Além disso, grandes organizaçõesanalisaram que somente sistemas de processamento paralelo podem oferecer largura debanda suficiente para estas aplicações.

Logo, o data warehouse acessa dados de uma variedade de bancos de dados operacionaisheterogêneos. Os dados são então transformados e enviados para o data warehouse em ummodelo selecionado. A transformação de dados e o processo de movimentação sãoexecutados toda vez que uma atualização nos dados do depósito é requerida, logo deve haveralguma forma de automatização para gerenciar e executar estas funções. A informação quedescreve o modelo e a definição dos elementos da fonte de dados é chamada de "metadados".Os metadados são os meios pelos quais o usuário final compreende os dados no depósito e éuma parte importante do data warehouse. Os metadados devem conter ao menos:

a estrutura dos dados;o algoritmo utilizado para o resumo;o mapeamento do ambiente operacional para o data warehouse.

A limpeza dos dados é um importante aspecto da criação de um data warehouse eficiente, poisé a remoção de certos aspectos dos dados operacionais, tal como informações de transaçãode baixo-nível, que retarda muitas consultas. O estágio de limpeza deve ser o mais dinâmicopossível para acomodar todos os tipos de consulta, mesmo aquelas que requerem informaçõesde baixo-nível. Os dados devem ser extraídos de fontes de produção em intervalos regularesde tempo e concentrados de maneira central, mas o processo de limpeza deve removerduplicações e conciliar diferenças entre vários estilos de coleções de dados.

Uma vez que os dados tenham sido limpos então são transferidos para o data warehouse, queé tipicamente um grande banco de dados em um sistema de alta performance, tanto SMP -Symmetric Multi-Processing ou MPP - Massively Parallel Processing. Um absurdo poder decomputação também é um importante aspecto do data warehousing, pela complexidadeenvolvida no processamento e consultas e pela vasta quantidade de dados que a organizaçãodeseja utilizar no depósito. Um data warehouse pode ser utilizada de diferentes maneiras, porexemplo, pode ser utilizado como um depósito central sobre o qual as consultas são

Page 3: Data Warehouse

09/12/13 www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 3/25

executadas ou pode ser utilizado tal como um data mart. Data marts, que são pequenos datawarehouses podem ser estabelecidos para fornecer subconjuntos do depósito principal eresumir informações, dependendo dos requisitos de um grupo/departamento específico. Ometodologia do depósito central geralmente utiliza estruturas de dados bem simples compoucas informações acerca dos relacionamentos entre os dados, enquanto que os data martsnormalmente utilizam bancos de dados multidimensionais que podem agilizar o processo deconsultas, pois contêm estruturas de dados que refletem as questões mais comuns.

Muitos fornecedores têm produtos que fornecem uma ou mais das funções de data warehousedescritas acima. Entretanto, pode-se necessitar de uma quantidade significante de trabalho eprogramação especializada para fornecer a interoperabilidade necessária entre produtos demúltiplos fornecedores para permitir que os produtos realizem os processos de datawarehouse requeridos. Um implementação típica envolve uma mistura de produtos de umavariedade de fornecedores.

Uma outra metodologia para o data warehousing é o Parsaye's Sandwich Paradigm propostopelo Dr. Kamran Parsaye, CEO da Information Discovery, Hermosa Beach, CA. Este paradigmaou filosofia encoraja a aceitação da probabilidade de que a primeira interação com o datawarehousing irá requerer de revisões consideráveis. O "Paradigma do Sanduíche" (SandwichParadigm) propõe os seguints lemas:

realizar a pre-mineração dos dados para determinar que formatos de dados sãonecessários para suportar a aplicação de mineração de dados;construir um protótipo de mini-data warehouse (por analogia, a carne do sanduíche),considerando as características principais para o produto final;revisar as estratégias conforme o necessário;construir o warehouse final.

2.4.3 - Controle de qualidade dos dados

Antes de disponibilizar o data warehouse para seus usuários, o administrador devegarantir a qualidade dos dados. Alguns relatórios podem ser emitidos para verificar seos dados estão com valores razoáveis. Se os dados são diariamente carregados dossistemas de produção para o data warehouse então alguns dados agregados podem sercomparados em ambos os ambientes.

Existem muitas ferramentas para extração, limpeza e carga dos dados nowarehouse. Geralmente é difícil uma única ferramenta atender todas asnecessidades do data warehouse. O que se vê é a utilização de uma combinaçãode ferramentas. As ferramentas do componente Aquisição de Dados podem seragrupadas da seguinte maneira :

Gerador de Programas para Extração. Ferramentas que criam aplicativos customizados.O administrador do warehouse define as regras e conversões necessárias e aferramenta gera código para executar o processo de extração. Muitos destes produtosforam inicialmente projetados para a conversão de bases não-relacionais para sistemasrelacionais (1). Mais recentemente estes produtos tem sido projetados com ênfase emsoluções para sistemas data warehouse (2). Exemplos de produtos nesta categoria são:

Carleton Passport (1)Evolutionary Technologies Inc.'s Extract Tool Suite (1)Prism Warehouse Manager and Change Manager (2)

Replicador de Dados. São produtos que duplicam dados de um ambiente paraoutro. Os dados são mantidos sincronizados, isto é, alterações em uma cópia sãoreplicadas nas outras.

CA-Ingres ReplicatorIBM's DataPropagator Relational and NonRelationalOracle7 Symmetric ReplicationPraxis OmniReplication

nosiadmin
Highlight
Page 4: Data Warehouse

09/12/13 www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 4/25

Sybase Replication Server

Data Pumps. São produtos que utilizam tecnologia Middleware de banco de dadospara mover dados de um sistema para outro. Normalmente os dados são movidosatravés de um servidor de dados intermediário. Alguns produtos oferecemtécnicas de scripting para a definição de regras de limpeza e refinamento dosdados.

Cross AccessDEC AccessWorksGupta SQLNetworkIBM Distributed Database Connection Services (DDCS)Information Builders EDA/SQLIngres GatewaysOracle Open GatewaysSybase Enterprise Connect GatewaysTech-Gnosis Inc.'s SequeLinkTrinzic InfoHub

Data Cleaning. São produtos que corrigem, refinam e auditam os dados a seremcarregados no warehouse.

Apertus Enterprise/IntegratorGroup 1 Software NADISGupta SQLNetworkInformation Discovery IDISInnovative Systems Innovative - Warehouse SolutionPlatinum InfoRefinerPostalSoft Library ProductsQDB Solutions AnalyzeSAS SystemVality Integrity Data Reegineering Tool

Estas ferramentas podem ser caras e só devem ser selecionadas uma vez que osrequisitos para aquisição de dados estejam bem definidos.

2.4.4 - Diretório de informações do Data Warehouse

O diretório de informações é o ponto de integração e controle dos metadados de umdata warehouse. Metadados, ou informação sobre os dados, é um elemento crítico emum sistema data warehouse. É a chave para entender o conteúdo e a estrutura de umadata warehouse. Por exemplo, é por meio dos metadados que um analista acessa emanipula dados da empresa utilizando seus próprios termos e não o vocabulário técnico.Metadados provêem de diferentes fontes tais como, dicionário de dados, ferramentasCASE , catálogos de bancos relacionais, arquivos texto, documentos e etc ...

Em um data warehouse o diretório de informações contém dois tipos de metadados :

Metadados Técnicos descrevem a estrutura do warehouse e seu conteúdo.Geralmente são de interesse dos desenvolvedores e gerentes do warehouse.Exemplo de metadados técnicos são :

Origem dos dados no warehouseDestino dos dados no warehouseTransformações aplicada aos dadosNomes alternativos para dados no warehouseDescrição dos dados

nosiadmin
Highlight
nosiadmin
Highlight
nosiadmin
Highlight
Page 5: Data Warehouse

09/12/13 www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 5/25

Data da última carga no warehouseReferências aos dados externosResponsáveis pelos dados

Metadados dos Negócios descrevem os negócios da empresa, suas informações,processos, regras e etc. Por exemplo, as seguintes informações são metadadosdos negócios :

Informações sobre usuários, gerentes e desenvolvedores dowarehouseRegras de negócioEspecificações sobre segurançaVisões ou subsets do warehouseRelatórios e consultas (queries)Modelos dos processosSuporte a versões de metadadosMétricas do uso e performance do warehouse

Normalmente, metadados técnicos são mantidos em dicionários de dados e repositórios.Metadados dos negócios são mantidos por ferramentas desenvolvidas como parte dainfra-estrutura de um sistema data warehouse. Exemplos de ferramentas quemanipulam metadados são :

Repositórios e dicionários de dados para metadados técnicosMSP DataManagerPlatinum RepositoryR&O Rochade RepositoryInterfaces para repositórios e dicionários de dados para metadadostécnicosETI Metadata Exchange LibraryInformation Builders EDA/ExchangeDiretórios de informação para metadados dos negóciosHP Intelligent WarehousePlatinum Data ShopperIBM DataGuidePrism Directory Manager

Atualmente existem esforços para padronizar o intercâmbio de metadados. Trabalhosestão sendo feitos para criar uma API comum ou formato de arquivos paraimportação/exportação de metadados. Exemplos destes esforços são :

IRDS (Information Resource Dictionary System). O objetivo écriar um padrão de uma infra-estrutura que permita aintegração de ferramentas de análise e desenvolvimento.

CDIF (CASE Data Interchage Format) . O objetivo é padronizar ointercâmbio de informações entre ferramentas de modelagem.

Metadata Coalition . Coalisão de fornecedores e usuários com opropósito de apoiar projetos em andamento paradefinição/implementação de um formato para intercâmbio demetadados e ferramentas de suporte.

2.4.5 - Data warehouse e sistemas de OLTP

Um banco de dados desenvolvido para OLTP (On-Line Transaction Processing) geralmente éconsiderado inapropriado para data warehousing, pois teve um conjunto diferente derequisitos em questão. No caso, maximizando a capacidade de transações e tipicamente tendo

Page 6: Data Warehouse

09/12/13 www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 6/25

centenas de tabelas para não bloquear os usuários, etc. Data warehouses são voltados para oprocessamento de consultas, em oposição ao processamento de transações.

Sistemas de OLTP não podem ser respositórios de fatos e dados históricos para análisescomerciais. Estes não podem responder rapidamente a consultas e uma recuperação rápida

dos dados é quase impossível. Os dados são inconsistentes e em constante mudança, existementradas duplicadas, entradas podem estar ausentes e existe uma ausência de dados

históricos que são necessários para a análise de tendências. Basicamente, OLTP oferecegrandes quantidades de dados brutos que não são facilmente compreendidos. O datawarehouse oferece o potencial de recuperação e análise de informação rápida e fácil.

Entretanto, existem certas similaridades entre data warehouse e OLTP conforme a Tabela 2mostrada abaixo:

OLTP data warehouse

Propósito operações cotidianas recuperação de informação eanálise

Estrutura RDBMS RDBMS

Modelo dedados

normalizado multidimensional

Acesso SQL SQL + extensões de análise dedados

Tipo de dados dados que administram oempreendimento

dados que analisam oempreendimento

Condição dosdados

em mudança, incompleto histórica, descritiva

Tabela 2 - Similaridades e diferenças entre OLTP e data warehousing

O data warehouse serve a um propósito diferente dos sistemas de OLTP ao permitir queconsultas de análise de empreendimento sejam respondidas, ao invés de "simples agregações"tais como 'qual é o saldo atual para este cliente?' Consultas de data warehouses típicasincluem questões tais como 'qual linha de produtos vende mais na América Central e como istoestá relacionado com a densidade demográfica?'

2.4.6 - Tipos de Ferramentas

A figura apresenta um quadro-resumo com as principais características dos diversos tipos deferramentas que podem ser utilizadas para extrair informações de um ambiente de datawarehouse.

Tipo de Ferramenta

Questão Básica Exemplo de Resposta Usuário Típico e suas necessidades

Pesquisa erelatórios

"O que aconteceu" Relat. mensais de vendas,histórico do inventário

Dados históricos, habilidade técnicalimitada

OLAP "Ö que aconteceu e porquê?"

Vendas mensais versus mudança de preço dos competidores

Visões estáticas da

infor- mação para uma

visão multidimensional; tecnicamente astuto

SIE "O que eu preciso saber Memorandos, centros de Informações de alto

Page 7: Data Warehouse

09/12/13 www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 7/25

agora?" comando nível ou resumidas;pode não sertecnicamente astuto

Data Mining "O que é interessante?""O que pode acontecer?"

Modelos de previsão Tendências e relaçõesobscuras entre os

dados; tecnicamente astuto

Escolhendo a ferramenta certa (Fonte: Revista Byte Brasil, Janeiro 1997)

As ferramentas mais simples são os produtos para consultas e geradores de relatóriosbásicos. Em geral, oferecem uma interface gráfica para geração de SQL, permitindo o uso demenus e botões para a especificação de elementos de dados, condições, critérios deagrupamento, sem que seja necessário aprender uma linguagem especializada para acesso aobanco. O processamento estatístico, neste caso, é limitado a médias, totais, desvios padrão ealgumas outras funções básicas de análise.

Estes geradores de relatório não atendem a usuários que precisem mais do que uma visãoestática dos dados e que não pode mais ser manipulada . Ferramentas OLAP podem oferecer aeste tipo de usuário maior capacidade de manipulação, permitindo analisar o porque dosresultados obtidos. Estas ferramentas, muitas vezes, são baseadas em bancos de dadosmultidimensionais, o que significa que os dados precisam ser extraídos e carregados para asestruturas proprietárias do sistema, já que não há padrões abertos para o acesso de dadosmultidimensionais.

Outra solução oferecida por fornecedores nesta área é o OLAP relacional (ROLAP), que vaidiretamente ao data warehouse usando chamadas SQL padrão. As ferramentas front-endpermitem efetuar requisições multidimensionais, mas o programa de ROLAP transformaconsultas em rotinas SQL. O usuário recebe resultados cruzados de tabelas em forma deplanilha multidimensional ou de outra forma que suporte a rotação, "drill-down" e manipulação.Os defensores do ROLAP argumentam que ele se utiliza de padrões abertos de SQL e que fazos dados atômicos (no nível mais detalhado) estarem mais prontamente acessíveis. Por outrolado, os patronos dos bancos multidimensionais argumentam que uma estruturamultidimensional nativa alcança melhor desempenho e flexibilidade.

O OLAP não é uma solução imediata, configurar o programa de OLAP e ter acesso aos dadosrequer uma clara compreensão dos modelos de dados da empresa e das funções analíticasnecessárias aos executivos e outros analistas de dados.

Comparativamente ao OLAP, Sistemas de Informações Executivas apresentam umavisualização de dados mais simplificada, altamente consolidada e, na maior parte das vezes,estática. Até porque, em geral, os executivos não dispõem do tempo e da experiência paraexecutar uma análise OLAP.

O data mining ou mineração de dados é uma categoria de ferramentas de análise open-end. Aoinvés de fazerem perguntas, os usuários entregam para a ferramenta grandes quantidades dedados em busca de tendências ou agrupamentos dos dados. Ferramentas de data miningutilizam-se das mais modernas técnicas de computação, como redes neurais, descoberta porregra, detecção de desvio, programação genética, para extrair padrões e associações dedados.

A diferença entre sistemas do tipo SIE e a tecnologia de data mining pode ser vista daseguinte forma: se você tem perguntas específicas e sabe os dados de que necessita, utilizeum SIE; quando você não sabe qual a pergunta, mas mesmo assim precisa de respostas, usedata mining.

2.4.7 - Problemas com o data warehousing

Um dos problemas com o softwar de mineração de dados é a "corrida" com que as companhias

Page 8: Data Warehouse

09/12/13 www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 8/25

"atualizaram" seus produtos tecnologicamente:

estas companhias simplesmente colocaram rótulos de "data warehouse" emprodutos de processamento de transações tradicionais, e co-optaram pelovocabulário da indústria para serem considerados desenvolvedores desta novatecnologia.

Chris Erickson, presidente e CEO da Red Brick (HPCwire, 13 de outubro de 1995).

A Red Brick Systems estabeleceu um critério para um RDBMS ser adequado ao datawarehousing, e documentou 10 requisitos especializados para um RDBMS ser qualificado comoum servidor de data warehouse relacional; estes critérios estão relacionados na próximaseção.

De acordo com a Red Brick, os requerimentos para RDBMSs de data warehouse começam coma preparação para as consultas e análises de dados. Se um produto falha ao satisfazer oscritérios neste estágio, o restante do sistema será impreciso, não confiável e indisponível.

2.4.8 - Critérios para data warehouse

Os critérios para RDBMSs de data warehouse são os seguintes:

Desempenho de carregamento - Data warehouses requerem o carregamentoincremental de novos dados em bases periódicas entre janelas de tempo estreitas; odesempenho do processamento de carregamento deve ser medido em centenas demilhares de linhas e gigabytes por hora, e não deve restringir artificialmente o volumede dados requerido para o negócio.Processamento de carga - Muitas etapas devem ser tomadas para o carregamento dedados novos ou modificados dentro do data warehouse, incluindo conversões de dados,filtragem, reformatação, checagem de integridade, armazenamento físico, indexação emodificação dos metadados. Estas etapas devem ser executadas como um simples eúnica unidade de trabalho.Gerenciamento de qualidade dos dados - A mudança para o gerenciamento baseado emfatos exige a mais alta qualidade de dados possível. O warehouse deve assegurarconsistência local, consistência global, e integridade referencial mesmo com as fontesnão confiáveis e o enorme tamanho do banco de dados. Embora o carregamento e apreparação sejam etapas necessárias, não são suficientes. A taxa de desempenho dasconsultas é a medida de sucesso para aplicações de data warehouse. Quanto maisconsultas forem atendidas, mais os analistas são motivados a realizar mais consultas.Desempenho das consultas - O gerenciamento baseado em fatos e a análise ad-hoc nãodevem ser retardados ou inibidos pela performance do RDBMS de data warehouse;consultas grandes e complexas para operações comerciais essenciais devem sercompletadas em segundos, não dias.Escalabilidade a nível de terabytes - O tamanho dos data warehouses está crescendo ataxas estonteantes. Hoje estes podem estar a nível de umas poucas centenas degigabytes, mas data warehouses a nível de terabytes não estão fora da realidade. ORDBMS não deve ter nenhum tipo de limitação na arquitetura, devendo inclusivesuportar o gerenciamento modular e paralelo. Outra característica que deve o RDBMSdeve suportar é a disponibilidade contínua nos eventos de falha de pontos e devetambém prover mecanismos fundamentalmente diferentes para recuperação. Devetambém suportar dispositivos de armazenamento em massa tais como discos ópticos edispositivos de Gerenciamento de Armazenamento Hierárquico. Por último, odesempenho das consultas não deve ser dependente do tamanho do banco de dados, esim na complexidade das mesmas.Escalabilidade maciça a usuários - O acesso aos dados no warehouse não deve mais serlimitado a uma elite de poucos. O servidor de RDBMS deve suportar centenas, atémilhares de usuários concorrentes enquanto mantem um desempenho de consultasaceitável.Data warehouse disponível em rede - Data warehouss raramente existem isolados.Múltiplos sistemas de data warehouse cooperam em uma rede maior de datawarehouses. O servidor deve incluir ferramentas que coordenam os movimentos de

Page 9: Data Warehouse

09/12/13 www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 9/25

subconjuntos de dados entre warehouses. Os usuários devem estar aptos a visualizar etrabalhar com múltiplos warehouses de um simples workstation cliente. Gerentes dewarehouse devem gerenciam e administrar a rede de warehouses de uma simpleslocação física.Administração do warehouse - A enorme escala e a natureza cíclica através do tempodo data warehouse exige flexibilidade e facilidade administrativa. O RDBMS deve provercontroles para a implementação de limites de recursos e priorização de consultas paraservir às diferentes necessidades de classes de usuários e atividades. O RDBMS devetambém prover um monitoramento e reconfiguração da carga de trabalho de maneiraque os recursos do sistema possam ser otimizados para o máximo desempenho.Análise dimensional integrada - O poder de visões multidimensionais é amplamenteaceito, e o suporte dimesional deve ser inerente ao warehouse RDBMS para fornecer omais alto desempenho para as ferramentas de OLAP relacionais. O RDBMS deve suportara criação rápida e fácil de resumos pré-computados, comuns em grandes datawarehouses. Deve também prover as ferramentas de manutenção para automatizar acriação destas agregações pré-computadas. O cálculo dinâmico de agregados deve serconsistente com as necessidades de desempenho interativas.Funcionalidade de consultas avançadas - Usuários finais requerem avançados cálculosanalíticos, análises comparativas e seqüenciais, e acesso consistente para dadosresumidos e detalhados. Utilizando SQL em um ambiente de ferramentas point-and-clickcliente/servidor pode às vezes ser impraticável ou mesmo impossível. O RDBMS deveprover um conjunto completo de operações analíticas, incluindo operações estatísticas eseqüenciais de núcleo.

[Dmi03]

2.4.9 - Bancos de Dados chegam à fase Adulta

Fornecedores se focam em nichos, como o data warehouse e data mining

Depois da corrida para as soluções de gestão empresarial, a necessidade de fazer avaliaçõessofisticadas sobre o movimento dos negócios induz as empresas a pensar no data warehouse.Essa é a premissa em que apostam os players de banco de dados - como Informix, Sybase,IBM, Oracle e Microsoft - ao expandir as características dos software para altoprocessamento, análise e extração de informações e a integração com o ambiente Web. Emparalelo, traçam estratégias mais focadas no segmento.

Para José Eduardo de Faria, country manager da Sybase, todos pegam carona no vácuo dasimplementações ERP. "Esses sistemas são excelentes para a operação da companhia. Masinformações estratégicas para a tomada de decisão, só se consegue com o data warehouse",explica.

O grande interesse da Microsoft por este mercado - até o final do ano será apresentada novaversão do SQL Server - é explicado por números. Segundo Milton Jeronimides, gerente deTecnologias Corporativas, uma estimativa mundial do Gartner Group prevê movimentação deUS$ 15 bilhões no segmento de data warehouse no próximo ano.

Escalabilidade

Na Informix, a estratégia de data warehouse foi fortalecida com novas ferramentas deextração dos dados e a abertura de uma divisão específica para atender aos projetos de datawarehouse, focada em mercados verticais como finanças, varejo e telecomunicações. Em abril,a empresa lançou o pacote Advanced Decision Support Option, integrando em solução únicadiversos aplicativos (Workgroup Server, OnLine Dynamic Server, e Extended Paralel Server),antes vendidos separadamente.

"No passado, o usuário precisava comprar servidores distintos para cada uma das aplicações ehoje compra apenas uma vez e acrescenta o opcional que precisa", explica Roberto deCarvalho, gerente de Marketing Communications da Informix Brasil, complementando que hácinco opções de configuração. Com a solução customizada, é possível agregar métodos deindexação para consultas complexas e recursos de cluster para ambientes paralelos.

Page 10: Data Warehouse

09/12/13 www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 10/25

O processo, batizado pela Informix de abordagem incremental, concentra esforços em criaçõesmodulares desde aplicações de data marts até o warehouse corporativo. Nesse caminho, aempresa lançou o programa Fast Start, oferecendo condições de prototipar um data mart emdois meses. "O cliente se sente mais confortável ao testar pequenos protótipos antes de sedecidir por um data warehouse e pode mensurar melhor o seu valor", acredita.

Unificação

A Sybase está focando os seus produtos não só para o ambiente data warehouse, como Webe computação móvel. Segundo o country manager, José Eduardo de Faria, hoje a proposta daempresa é oferecer uma solução de ponta a ponta, ou seja, desde a modelagem àsferramentas de visualização. Entre os novos recursos do IQ, está a otimização de consultasem bases de dados heterogêneas.

As mudanças na Sybase começaram a tomar corpo no início deste ano. Antes disso, a empresatinha soluções implementadas em diversos sites, mas não havia um esforço conjunto decomercialização. "Juntamos todas as peças e demos início a um processo agressivo derecrutamento de parcerias", esclarece.

O resultado foi que o banco de dados abandonou características para aplicações pequenaspassando a criar mecanismos mais robustos. "Nossa solução já esteve mais voltada paraaplicações menores, mas hoje já temos clientes na casa de terabytes", conta, ao citar algunsdos seus públicos-alvo como os setores financeiro, serviço, telecomunicações, varejo egoverno.

Já a IBM deu prova recente de que está levando o data warehouse a sério. Em junho, aunidade de marketing do segmento ganhou status de diretoria de negócios, focando soluçõespara Business Intelingence, de simples aplicações a projetos complexos. Para Hilário Sano,especialista de sistemas da IBM, as modificações que vem sendo feitas no DB2, seguem umaorientação de reposicionamento para todos os produtos da empresa: escalabilidade.

"Não basta ser um repositório de dados. Estamos capacitando o produto para ser umaferramenta potente, capaz de rodar em ambientes paralelos e processar queries pesadaspara mineração de dados", cita A partir de um acordo com a Arbor, a big blue está oferecendoo recurso DB2 OLAP Server, permitindo que o cubo gerado não mais esteja armazenado nobanco de dados proprietário. Com isso, as interfaces de acesso a dados foram substituídas porinstruções mais pesadas. Para a extração dos dados operacionais, a IBM conta com aferramenta Visual Warehouse, mas também se garante fechando alianças com fornecedoresespecializados em produtos para criação e gerenciamento de informações como Cognos eBusiness Objects. "Oferecemos uma solução fechada ao cliente, mesmo que seja preciso fecharparcerias com outras empresas", explica Sano.

Na Oracle, o reforço da versão 8 do banco de dados foi garantir mais recursos para oarmazenamento, saindo dos gigabytes para alcançar os terabytes de dados. "Hoje, o clienteque compra tecnologia de banco quer ter associado o ambiente de suporte à decisão", afirmaAnna Célia Ferreira, gerente de Produto. Para focar melhor suas vendas, a Oracle concentraesforços nas áreas de finanças, telecomunicações, oil&gas, utilities, governo e produtos deconsumo, alinhando suporte, treinamento e consultorias.

Ao produto está sendo acrescentado mais velocidade de acesso, particionamento de dados,paralelismo, sumário para facilitar a pesquisa e ainda a disponibilização de informações emIntranets e Extranets. E o novo release, previsto para dezembro, irá suportar a linguagemJava, reforçando a estratégia da empresa no ambiente Web.

Para a criação de data marts, foram desenhadas as soluções financials e sales, enquanto osistema Tool Kit foi incorporado à camada de warehouse para conversar com os sistemas deERP. Os projetos mais complexos podem ser compostos pelo Oracle Express Server - a versãomultidimensional do Oracle 8, capaz de enxergar cubos de informações em diversas dimensões,armazenando-as de forma separada.

Fonte: 07/09/98- Computerworld Software - Edição Nº 268

Page 11: Data Warehouse

09/12/13 www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 11/25

2.4.10 - Arquiteturas Data Wherehouse

Desde que surgiu, a tecnologia e a terminologia de data warehouse têm evoluídoconstantemente. Atualmente existem 3 importantes tipos de data warehouse :

Data Warehouse Corporativo. É uma base de dados central projetada tendo a empresatoda como escopo.

Data Mart. Neste caso o escopo do projeto da base é mais limitado, por exemplo, umdata mart para as vendas em uma determinada região ou uma linha de produtos daempresa.

Operational Data Store (ODS). De uma maneira resumida, é uma re-organização dasbases de dados operacionais visando o aprimoramento de decisões operacionais(táticas).

Na tabela 2 é apresentada uma comparação das características dos diferentes tipos de datawarehouse.

Data Warehouse Data Mart Operational Data Store

Escopo Empresa Sub-conjunto da empresa Empresa

Integração Sim Sim Sim

Váriavel no Tempo Sim Sim Não

Agregação Sim Sim Não

Análise Estratégica Estratégica Tática

Dados Voláteis Não Não Sim

Tabela 2 - Tipos de Data Warehouse

Os primeiros projetos data warehouse implementavam uma arquitetura centralizada (videfigura 1). Embora forneça uniformidade, controle e maior segurança, a implementação destaabordagem não é uma tarefa fácil. Requer uma metodologia rigorosa e uma completacompreensão dos negócios da empresa. Esta abordagem pode ser longa e dispendiosa e poristo sua implementação exige um planejamento bem detalhado.

Com o aparecimento de data mart ou warehouse departamental, a abordagem de-centralizada(vide figura 2) passou a ser uma das opções de arquitetura data warehouse. As vantangensem relação a um data warehouse centralizado são custo mais baixo e implementação maisrápida. As desvantagens estão no maior número de extração/transformação dos dados dasbases operacionais para os data mart's e também quando data mart's se proliferam semcontrole, gerando problemas de integração.

Muitas empresas têm utilizado uma arquitetura multi-tier (vide figura 3), onde um datawarehouse co-existe com vários data marts. Neste caso, as abordagens podem ser :

top-down quando os dados fluem das bases operacionais para o data warehouse edeste para os data marts. A vantagem desta abordagem é a redução no número deextrações da produção para o warehouse. A desvantagem é que pode ser umaimplementação longa.

Page 12: Data Warehouse

09/12/13 www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 12/25

bottom-up quando os data marts são carregados diretamente das bases operacionais eo data warehouse é carregado a partir dos data mart's . Esta abordagem não é a ideal,mas é a utilizada quando data marts são construídos antes do data warehouse.

A longo prazo, a implementação de uma topologia multi-tier top-down é a solução ideal para oprojeto data warehouse de uma empresa. Esta solução provê uma simples fonte de dadosintegrados e consistentes assim como data marts elaborados para as necessidades dedeterminado grupo. Entretanto é um projeto mais difícil e oneroso de ser implementado egerenciado, tornando possível o surgimento na empresa de data warehouses e data martsisolados.

Uma outra opção na arquitetura multi-tier é acrescentar um Operational Data Store (ODS)(vide figura 4 ). Neste caso, o ODS é um local intermediário para os dados que vão para o datawarehouse. Os dados podem ser transferidos para o ODS, por exemplo, por uma ferramenta dereplicação e neste processo já sofrerem algum tipo de transformação (limpeza, reconstituiçãode chaves e etc). A replicação pode ser síncrona ou não. As vantagens desta abordagem sãoa melhoria da qualidade das decisões táticas proporcionada pelo ODS e a otimização doprocesso de extração e carregamento dos dados no data warehouse. A implementação destaabordagem também pode ser longa e dispendiosa, requerendo um planejamento bemdetalhado.

2.4.11 - Ferramentas de Acesso ao Data Warehouse

Ferramentas que acessam os dados armazenados no data warehouse podem ser colocadas em4 categorias :

Ferramentas de Consulta e Emissão de Relatórios (Query Reporting Tools)OLAPData MiningImplementação própria, utilizando SQLWindows, Visual Basic, Delphi, C++ ,etc...

Ferramentas de Consulta e Emissão de Relatórios e as de implementação própria sãoferramentas genéricas, normalmente desenvolvidas sem ter um data warehouse como alvoprincipal. Tipicamente, estas ferramentas permitem o usuário construir consultas aos dadoscombinando a interface Windows "point-and-click" com drivers ODBC .

Ferramentas nesta categoria têm se mostrado mais adequadas para sistemas de decisão depequeno porte. Sistemas mais complexos requerem ferramentas mais sofisticadas, tais comoOLAP e data mining. As limitações de ferramentas nesta categoria são :

Dificuldade em solucionar o desafio de consultas complexas. Os comandos para consultaad hoc (ad hocquery) são elaborados pelo usuário e em consequência, as ferramentasnão têm como otimizar a execução do comando ;

Ausência dos conceitos de tempo, consolidação e agregação ;

Contínuo envolvimento do pessoal técnico para ajudar na elaboração de consultas. Paraa maioria das ferramentas ainda é necessário conhecer um pouco do projeto da base dedados para que se possa fazer consultas ad hoc;

Projeto cliente gordo (fat-client). Em algumas ferramentas, a manipulação dos dados éexecutada na máquina do usuário, significando que a manipulação de uma massa dedados muito grande pode comprometer a performance da rede.

Existem muitas ferramentas nesta categoria e alguns exemplo são :

Borland Report Smith

Page 13: Data Warehouse

09/12/13 www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 13/25

Cognos ImpromptuCrystal ReportsSpeedware EasyReporterHewlett Packard Information AccessInformation Builders FOCUS sixIQ Sofware Intelligent QueryIntersolv DataDirect ExplorerLottus Approach e 1-2-3Microsoft, Access, Excel e QueryOracle Discoverer;2000Platinum Forest and Trees , e ProReportsSybase InfoMaker

Utilizando estruturas multi-dimensionais, ferramentas OLAP provêem análises sofisticadas dosdados no datawarehouse. Usualmente, estas ferramentas mostram os dados no formatospreadsheet e permitem a visualização destes em diferentes perspectivas. Maiores detalhessobre a tecnologia OLAP são dados na seção 7 deste documento.

Data mining é um conjunto de técnicas que de maneira automática faz a exploração de umgrande volume de dados, a procura de padrões, tendências e relacionamentos entre os dados.Data mining não é uma tecnologia nova, no entanto tomou impulso com o aparecimento dedata warehouse porque fazer análise de uma "montanha" de informações pode ser uma tarefaimpossível.

A diferença básica entre ferramentas OLAP e data mining está na maneira como a exploraçãodos dados é abordada. Com ferramentas OLAP a exploração é feita na base da verificação, istoé, o analista conhece a questão, elabora uma hipótese e utiliza a ferramenta pra refutá-la ouconfirmá-la. Com data mining, a questão é total ou parcialmente desconhecida e a ferramentaé utilizada para a busca de conhecimento.

A busca de conhecimento em uma grande massa de dados por uma ferramenta data mining éfeita procurando-se :

Associações entre os dados. É a procura de afinidades ou padrões entre um conjunto dedados. Por exemplo, " Quais produtos são comprados em conjunto ? " .

Grupos (Clusters). É a procura de grupos de dados de acordo com algum critério.Exemplo, " quais produtos têm mais defeitos ?" .

Classificações. Identifica regras que descrevem em qual grupo um item pertence.Examina itens já classificados e infere um conjunto de regras. Por exemplo, " se do sexomasculino, idade entre 18 e 30 e carro esportivo, então alta chance de ter um acidente".

Padrões sequenciais. Procura tendências na análise de um conjunto de dados em umdeterminado intervalo de tempo. Exemplo, " Se evento A ocorre, então X% das vezes,evento B ocorre".

Estas buscas são feitas utilizando uma ou mais das seguintes técnicas :

Análises Estatísticas. Algoritmos clássicos de estatística são utilizados para modelagem,análise de regressão e tendências. Exemplos de ferramentas :

S+SASSPSS

Raciocínio Baseado em Caso (Case-Based Reasoning). No contexto de banco de dados,ferramentas deste tipo fornecem mecanismos para achar registros iguais a outrosregistros especificados. Exemplos de ferramentas :

Inference CBR ExpressAlice ReCall

Page 14: Data Warehouse

09/12/13 www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 14/25

AcknoSoft KATE-CBR

Consulta e Análise Nebulosa (Fuzzy Query and Analysis). Utilizando esta técnica, asferramentas permitem o usuário verificar os resultados que se aproximam de umcritério. Estas ferramentas são úteis quando o usuário está checando múltiplos critériose deseja saber o quanto varia a aproximação de cada um. Exemplos de ferramentas :

HyperLogic CubiCalcFuziWare FuziCalcInform Software fuzzyTECH for Business

Algoritmos Genéticos. Técnicas de otimização que utilizam processos de combinaçãogenética, mutação e seleção natural nos conceitos de evolução. Exemplos deferramentas :

Lara's Discovery SystemUltragem Data MiningNeoVista Decision Access

Árvores de Decisão. É um mecanismo de indução que representa um conhecimento naforma de uma árvore. Os nodos são atributos e os caminhos são valores dos atributos.Um objeto é classificado descendo na árvore de acordo com os valores dos atributos doobjeto. Exemplos de ferramentas :

Alice d'IsoftHyperParallel //DiscoveryBusiness Objects BusinessMinerDataMindAngoss Knowledge Seeker

Redes Neurais. Esta técnica consiste em desenvolver estruturas matemáticas comcapacidade de aprendizagem. Redes neurais têm grande capacidade de derivarsignificado de dados complicados e imprecisos e são utilizadas para extração de padrõese detecção de tendências complexas de serem percebidas por pessoas ou mesmo poroutras técnicas de computação. Exemplos de ferramentas :

SPSS Neural ConnectionIBM Neural Network UtilityNeuralWare NeuralWorks Predict

Visualização. Esta técnica tem grande utilidade em data mining uma vez que a mentehumana tem facilidade de perceber tendências e padrões nos dados visualizados , nãoocorrendo o mesmo quando os dados são apresentados em relatórios ou planilhas. Alémdisso, esta técnica não se resume simplesmente na utilização dos recursos gráficos jáconhecidos. Estudos recentes buscam a melhor forma de apresentar em um monitor bi-dimensional, relações complexas. Por exemplo, a representação de forma intuitiva ecompreensível dos dados de uma estrutura multi-dimensional com cinco dimensões(vendas x produto x categoria x região x tempo). Exemplos de ferramentas :

IBM Parallel Visual ExplorerSAS SystemAdvanced Visual Systems (AVS) Express - Visualization Edition

Uma seção sobre acesso aos dados não seria completa se a Web não fosse mencionada. AWeb, assim como o data warehouse, tem por finalidade facilitar o acesso aos dados. Proveracesso remoto pode resultar em um ambiente complexo. Com a Web, este problemadesaparece uma vez que a Web oferece um mecanismo mais eficiente de se usufruir osbenefícios da arquitetura cliente-servidor. Além disso, o servidor no caso (Web browser) éuma ferramenta barata (ou mesmo gratuita) e já utilizada por mihões de pessoas.

Alguns fornecedores de produtos OLAP já estão vendendo soluções para a Web:

Essbase Web

Page 15: Data Warehouse

09/12/13 www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 15/25

MicroStrategy DSSWebInformation Advantage WebOLAP

Estas soluções podem ser a publicação de relatórios estáticos, relatórios dinâmicos e applets(Java ou ActiveX) para manipilação dos dados no cliente.

2.4.12 - OLAP

OLAP (On-Line Analytical Processing) representa um conjunto de tecnologias projetadas parasuportar análise e consultas ad hoc. Sistemas OLAP ajudam analistas e executivos asintetizarem informações sobre a empresa, através de comparações, visões personalizadas,análise histórica e projeção de dados em vários cenários de "e se ..." . Sistemas OLAP sãoimplementados para ambientes multi-usuário, arquitetura cliente-servidor e oferecemrespostas rápidas e consistentes às consultas iterativas executadas pelos analistas ,independente do tamanho e complexidade do banco de dados.

A característica principal dos sistemas OLAP é permitir uma visão conceitualmulti-dimensionaldos dados de uma empresa. A visão muti-dimensional é muito mais útil para os analistas doque a tradicional visão tabular utilizada nos sistemas de processamento de transação. Ela émais natural, fácil e intuitiva, permitindo a visão em diferentes perspectivas dos negócios daempresa e desta maneira tornando o analista um explorador da informação.

A modelagem dimensional é a técnica utilizada para se ter uma visão multi-dimensional dosdados. Nesta técnica os dados são modelados em uma estrutura dimensional conhecida porcubo. As dimensões do cubo representam os componentes dos negócios da empresa tais como"cliente", "produto" , "fornecedor" e "tempo". A célula resultante da interseção das dimensõesé chamada de medida e geralmente representa dados numéricos tais como "unidadesvendidas" , "lucro" e "total de venda". Além dos componentes dimensão e medida outroimportante aspecto do modelo multi-dimensional é a consolidação dos dados uma vez que paraa tarefa de análise são mais úteis e significativos a agregação (ou sumarização) dos valoresindicativos dos negócios.

Além da visão multi-dimensional dos dados da empresa, outras importantes característicasdos sistemas OLAP são :

Análise de tendências. A tecnologia OLAP é mais do que uma forma de visualizar ahistória dos dados. Deve, também, ajudar os usuários a tomar decisões sobre o futuro,permitindo a construção de cenários ( "e se ...") a partir de suposições e fórmulasaplicadas, pelos analistas, aos dados históricos disponíveis ;

Busca automática (reach-through) de dados mais detalhados que não estão disponíveisno servidor OLAP. Detalhes não são normalmente importantes na tarefa de análise masquando necessários, o servidor OLAP deve ser capaz de buscá-los;

Dimensionalidade genérica;

Operação trans-dimensional. Possibilidade de fazer cálculos e manipulação de dadosatravés diferentes dimensões;

Possibilidade de ver os dados de diferentes pontos de vista (slice and dice), mediante arotação (pivoting) do cubo e a navegação (drill-up/drill-down) entre os níveis deagregação;

Conjunto de funções de análise e cálculos não triviais com os dados.

Quanto a localização dos dados a serem utilizados na análise, atualmente existem duasabordagens para este local :

Um banco de dados multi-dimensional especializado ;

ou um data warehouse implementado com a tecnologia de banco de dados relacional,mas otimizado para a tarefa de análise. Neste caso os dados são modelados utilizando

Page 16: Data Warehouse

09/12/13 www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 16/25

um esquema especialmente projetado para balancear performance e volume de dados.Normalmente, uma representação desnormalizada conhecida por esquema estrela (videsub-seção 7.2) é utilizada

Sistemas OLAP que implementam a primeira abordagem são chamados de MOLAP e aquelesque implementam a segunda são chamados de ROLAP (Relational-OLAP).

Uma outra abordagem é a utilização de ferramentas front-end com capacidade de extrair erepresentar dados em múltiplas dimensões utilizando um banco de dados sem nenhuma

funcionalidade para suportar a visão multi-dimensional. Esta abordagem é conhecida pordesktop OLAP. Mas as abordagens MOLAP e ROLAP são as mais utilizadas devido ao grande

volume de dados que são capazes de manipular.

A integração dos sistemas OLAP e data warehouse pode ser feita utilizando um dos cenáriosa seguir:

No cenário 1, uma ferramenta ROLAP fornece um front-end para um data warehouse. Nestecaso, o acesso aos dados é feito via um modelo multi-dimensional dos negócios mapeado naestrutura do data warehouse. Este cenário é apropriado para empresas que analisam umasignificante porção dos dados do data warehouse.

No cenário 2, a ferramenta OLAP tem seu próprio banco de dados multi-dimensional que écarregado com dados oriundos do data warehouse. O cenário 3 é similar ao 1 sendo que adiferença é o servidor multi-dimensional (vide seçao 7.3 , MOLAP x ROLAP). Os cenários 2 e 3 são mais apropriados quando um segmento específico dos dados é utilizado na análise.

Exemplos de soluções MOLAP, ROLAP e desktop OLAP são fornecidos a seguir.

Servidor de Banco de Dados Multi-Dimensional

Arbor Software EssbaseInformation Builders FOCUS/FusionHolistics Systems HolosHyperion EnterpriseKenan Technologies Acumate ESOracle Express ServerPilot (D&B) LightShip ServerPlanning Sciences GentiumDBSinper TM/1

Sistema ROLAP

Andyne PaBLOCognos PowerPlayInformation Advantage DecisionSuite 3.0Informix-MetaCubeMicroStrategy DSS AgentProdea Beacon

Cliente MOLAP

Comshare Commander EIS/OLAPHolistics Systems HolosKenan Technologies AcutrieveOracle Express Objects e Express AnalyzerPilot (D&B) LightShip ProfessionalPlanning Sciences Gentium

Desktop OLAP

Andyne GQLBrio BrioQuery

Page 17: Data Warehouse

09/12/13 www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 17/25

Business Objects BusinessObjectsCognos Impromptu

Nas sub-seções a seguir são apresentados os conceitos básicos da modelagem dimensional edo esquema estrela e, por último, as características e as diferenças das abordagens MOLAP eROLAP.

Modelo Multi-Dimensional

Esta técnica de modelagem permite a visualização multi-dimensional do universo de umaorganização. Para os analistas das empresas, esta é uma forma mais natural, fácil e intuitivade trabalhar. As grandes vantagens deste modelo são a sua simplicidade e o fato de poder serimplementado em diferentes tipos de banco de dados, relacional, multi-dimensional ouorientado a objetos.

Através de comparações com o modelo entidade-relacionamento, são apresentadas a seguiras principais características do modelo multi-dimensional. Suponha a seguinte tabela de uma

base relacional :

Produto Região Vendas

Leite Sul 50

Leite Sudeste 260

Leite Nordeste 100

Leite Centro Oeste 40

Leite Norte 70

Iogurte Sul 80

Iogurte Sudeste 190

Iogurte Nordeste 120

Iogurte Centro Oeste 140

Iogurte Norte 20

Manteiga Sul 10

Manteiga Sudeste 300

Manteiga Nordeste 55

Manteiga Centro Oeste 80

Manteiga Norte 200

Requeijão Sul 130

Requeijão Sudeste 230

Requeijão Nordeste 75

Requeijão Centro Oeste 40

Requeijão Norte 100

Tabela 3 - Tabela relacional

Uma maneira mais natural para representar a tabela acima seria utilizar uma matriz bi-dimensional :

Page 18: Data Warehouse

09/12/13 www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 18/25

Sul Sudeste Nordeste Centro Oeste Norte

Leite 50 260 100 40 70

Iogurte 80 190 120 140 20

Manteiga 10 300 55 80 200

Requeijão 130 230 75 40 100

Tabela 4 - Tabela dimensional

No modelo multi-dimensional, a matriz apresentada acima representa o fator "Vendas"dimensionado por "Produtos" e "Regiões". Consultas do tipo "Qual foi a venda de manteiga na

região sul ?" seriam executadas, na tabela relacional, acessando apenas um registro. Noentanto, consultas do tipo "Qual foi o total de vendas na região Nordeste ? " seriam

executadas acessando muitos valores e totalizando-os. Em uma base relacional, dependendodo seu tamanho, a tarefa de acessar os valores e agregá-los (totalizar) pode tomar um tempo

considerável. No modelo multi-dimensional, a segunda consulta seria executada acessando acoluna "Nordeste" e agregando os valores. Entretanto, neste modelo o tempo de resposta

ainda depende da quantidade de valores a serem agregados. O que muitos usuários desejamde suas aplicações é um tempo de resposta consistente, independentemente da consultaexecutada. A maneira de se obter tempo de resposta consistente é consolidar (ou pré-

agregar) todos os totais e sub-totais. Na verdade isto pode ser perfeitamente alcançado emuma base relacional. Continuando o exemplo da tabela relacional, a consolidação se daria da

seguinte maneira :

Produto Região Vendas

Leite Sul 50

Leite Sudeste 260

Leite Nordeste 100

Leite Centro Oeste 40

Leite Norte 70

Iogurte Sul 80

Iogurte Sudeste 190

Iogurte Nordeste 120

Iogurte Centro Oeste 140

Iogurte Norte 20

Manteiga Sul 10

Manteiga Sudeste 300

Manteiga Nordeste 55

Manteiga Centro Oeste 80

Manteiga Norte 200

Requeijão Sul 130

Page 19: Data Warehouse

09/12/13 www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 19/25

Requeijão Sudeste 230

Requeijão Nordeste 75

Requeijão Centro Oeste 40

Requeijão Norte 100

Tabela 5 - Tabela Relacional

Produto Total

Leite 520

Iogurte 550

Manteiga 645

Requeijão 575

Tabela 6 - Consolidação

Região Total

Sul 270

Sudeste 980

Nordeste 350

Centro Oeste 300

Norte 390

Total 2290

Tabela 7 - Consolidação

No modelo dimensional a consolidação se daria da seguinte maneira :

Sul Sudeste NordesteCentroOeste

Norte Total

Leite 50 260 100 40 70 520

Iogurte 80 190 120 140 20 550

Manteiga 10 300 55 80 200 645

Requeijão 130 230 75 40 100 575

Page 20: Data Warehouse

09/12/13 www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 20/25

Total 270 980 350 300 390 2290

Tabela 8 - Consolidação

Observando os dois modelos, percebe-se que o dimensional, além de ser mais claro, requermenos espaço.

Antes de prosseguir com conceitos do modelo dimensional alguma terminologia deve serintroduzida : "sul", "sudeste", e etc são membros de entrada da dimensão "Região" . Os totaissão membros de saída. "leite", "iogurte" , "manteiga", "requeijão" e "total" são membros deentrada da dimensão "Produto" . A intersecção das duas dimensões é chamada de célula oumedida. No exemplo acima existem 30 células. Este conjunto (ou área) de células representauma variável. Variáveis geralmente são medidas numéricas tais como vendas, custos, lucros eetc...

Esta é uma hierarquia simples onde cada membro de entrada tem apenas um nível dedetalhamento. No próximo esquema é mostrado uma hierarquia com múltiplos níveis.

Neste esquema , as regiões representam níveis mais genéricos e as cidades representam osníveis mais detalhados. Na terminologia dimensional, a ação de ir de um nível genérico para ummais detalhado é chamado de drill-down. A ação inversa é chamada de drill-up.

Múltiplos níveis de hierarquia podem ser implementados através de múltiplas dimensões (umapara cada nível) ou dimensões hierárquicas. A hierarquia "estado-cidade" seria implementada

da seguinte maneira utilizando-se múltiplas dimensões :

Page 21: Data Warehouse

09/12/13 www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 21/25

Esta solução apresenta dois problemas : o primeiro é que haverá uma célula vazia naintersecção de cada cidade com um estado que não seja o seu, gerando uma base de dadosaltamente esparsa. O segundo problema surge quando o número de níveis da hierarquiaaumenta. Torna-se extremamente complicado trabalhar com várias dimensões.

Dimensões hierárquicas é uma solução que se adeqüa melhor aos múltiplos níveis de umahierarquia. A figura abaixo ilustra o esquema multi-hierárquico apresentado acima.

Quando utiliza dimensões hierárquicas, o servidor OLAP "entende" da hierarquia implementadae sabe como agregar os dados. Por exemplo, o servidor "sabe" que não deve somar os dadosde "estado" e "região" porque os dados do "estado" já foram incluídos na "região".

Page 22: Data Warehouse

09/12/13 www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 22/25

Outro aspecto muito importante do modelo dimensional se refere às variáveis. Como jámencionado antes, variáveis geralmente são medidas numéricas tais como "vendas" , "preço" ,"custo" , etc. Variáveisdevem incorporar regras de consolidação, isto é, ações que devem serfeitas quando se passa de um nível de detalhamento para outro. Por exemplo, somar os dadosde "vendas" ou tirar a média do "preço" quando se passa do nível "cidade" para o nível"estado". Variáveis podem ter outros atributos tais como descrição , unidade, regra deconversão e etc.

Outro conceito a ser introduzido neste ponto é variável derivada. Uma variável é dita derivadaquando é aplicado um cálculo ao dado, antes deste ser apresentado ao usuário. Para o usuárioé como se o dado estivesse na base de dados no entanto, a transformação é feita nomomento da consulta.

Esquema Estrela (Star Schema)

O esquema estrela é a representação do modelo dimensional em bancos de dados relacionais.No esquema estrela existe uma tabela dominante no centro do esquema. Esta é a única tabelacom múltiplos relacionamentos para as outras tabelas. As outras tabelas possuem um único

relacionamento para a tabela central. A tabela central é chamda fato (fact table) e as outrastabelas são chamadas de dimensão (dimension table). A figura abaixo ilustra o esquema

estrela.

A tabela fato é onde uma ou mais medidas numéricas dos negócios da empresa sãoarmazenadas. Os fatos podem ser "vendas" , "custo" , "unidades vendidas" , etc. Os fatosdevem ser numéricos porque eles serão agregados utilizando-se operações tais como, média ,soma, contagem e etc. Não faz sentido executar tais operações em dado textual. Os fatospodem ser aditivos, semi-aditivos e nao-aditivos. Um fato é aditivo quando pode ser agregadoem todas as dimensões. Por exemplo, "vendas" pode ser agregado em qualquer combinaçãodas dimensões "tempo", "produto" e "loja". Um fato é semi-adititivo quando ele não é adititvoem uma dimensão. Por exemplo, o número de empregados é aditivo nos diferentesdepartamentos da empresa mas não é aditivo na dimensão "tempo". Um fato é não-aditivoquando não pode ser agregado em nenhuma dimensão. Não faz muito sentido utilizar um fato

Page 23: Data Warehouse

09/12/13 www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 23/25

deste tipo mas um uso para ele seria uma simples contagem. Quando uma tabela não temnenhum fato associado a ela, a tabela é dita ser sem-fato (factless table). Isto acontecequando a tabela fato representa eventos que não tem nenhuma medida numérica associada,apenas a sua própria ocorrência. Por exemplo, a matrícula de um aluno em determinadamatéria.

As tabelas de dimensão descrevem os fatos. Geralmente as colunas são textos e as tabelassão altamente de-normalizadas para que o desenho da base fique simples. Uma dimensão

contém uma ou mais hierarquias que podem ser decompostas em tabelas separadas, gerandouma estrutura conhecida por snowflake. A próxima figura ilustra uma estrutura snowflake.

Na verdade, snowflake significa a normalização da tabela. Isto elimina redundância e diminui oespaço em disco. Mas, em um data warehouse, redundância não é importante porque não é umambiente transacional, operações de update não ocorrem com freqüencia. Espaço físicotambém é irrelevante porque a tabela fato é que ocupará a maior parte deste espaço.

Para uma boa performance do esquema estrela, é importante determinar o nível deconsolidação, ou a granularidade, dos fatos. O fato pode estar no nível de transação, porexemplo, a venda individual de determinado produto, ou o fato pode ser armazenado com umaconsolidação maior, como por exemplo, a venda de determinada linha de produtos em um dia.Armazenando o fato a nível de transação faz com que o tamanho da tabela fato se torneexcessivo e, além disso, este nível de detalhamento pode ser de pouca utilidade.

MOLAP x ROLAP

Multi-dimensional OLAP (MOLAP) é uma classe de sistemas que permite a execução de análisessofisticadas usando como gerenciador de dados um banco de dados multi-dimensional. Em umbanco de dados MOLAP os dados são mantidos em arranjos e indexados de maneira a proveruma ótima performance no acesso a qualquer elemento. O indexamento, a antecipação damaneira como os dados serão acessados e o alto grau de agregação dos dados fazem com quesistemas MOLAP tenham uma excelente performance. Além de serem rápidos, outra grande

Page 24: Data Warehouse

09/12/13 www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 24/25

vantagem destes sistemas é o rico e complexo conjunto de funções de análise que oferecem.

A maneira de se implentar os arranjos de dados pode variar entre fornecedores de soluçõesMOLAP. Existem as arquiteturas hiper-cubos e multi-cubos. Na arquiteturahiper-cubo existeum único cubo onde cada medida é referenciada por todas as outras dimensões. Por exemplo,um cubo onde a medida "vendas" é referenciada pelas dimensões "produto" , "ano" , "mes","estado" e "cidade" . Além da dificuldade em visualizar tal "cubo" (com 5 dimensões !!!) outrosproblemas desta abordagem são a maior necessidade de espaço em disco e a existência de ummecanismo para controlar a esparsidade dos dados que ocorre quando não existe uma medidana interseção das dimensões. Por exemplo, quando um produto não é vendido em determinadoestado. A grande vantagem é a consistência no tempo de resposta que é independente donúmero de dimensões envolvidas na consulta.

Na arquitetura multi-cubos uma medida é referenciada por dimensões selecionadas. Em umcubo, a medida "vendas" é referenciada pelas dimensões "semestre" , "estado" e "produto" eem outro cubo, a medida "custo" é referenciada pelas dimensões "mes" e "departamento".Esta arquitetura é escalável e utiliza menos espaço em disco. A performance é melhor em cadacubo individualmente, no entanto, consultas que requerem acesso a mais de um cubo podemexigir processamentos complexos para garantir a consistência do tempo de resposta.

Existem algumas limitações nos sistemas MOLAP. Bancos de dados multi-dimensionais sãosistemas proprietários que não seguem padrões (linguagem, API) estabelecidos pela indústriade banco de dados. Isto se torna uma desvantagem para tais sistemas, uma vez que aarquitetura não é aberta. A utilização das estruturas dimensionais adotadas também trazalgumas desvantagens. Mudanças do modelo dimensional requerem uma re-organização dobanco de dados e a estrutura de cubos não suporta a criação ad hoc de visões multi-dimensionais. Além desta falta de flexibilidade, sistemas MOLAP enfretam problemas quanto aescalabilidade porque um dos recursos para garantir a excelente performance é manter osíndices dos arranjos na memória e isto acaba limitando bancos de dados multi-dimesnional a 20ou 30 gigabytes de dados tornando-os, desta maneira, mais apropriados para data marts ouorganizações com pequenos data warehouses.

Sistemas ROLAP fornecem análise multi-dimensional de dados armazenados em uma base dedados relacional. Atualmente existem duas maneiras de se fazer este trabalho :

fazer todo o processamento dos dados no servidor da base de dados. O servidor OLAPgera os comandos SQL em múltiplos passos e as tabelas temporárias necessárias para oprocessamento das consultas;

ou executar comandos SQL para recuperar os dados mas fazer todo o processamento(incluindo joins e agregações) no servidor OLAP.

Além das características básicas de sistemas OLAP, servidores ROLAP devem também :

Utilizar metadados para descrever o modelo dos dados e para auxiliar na construção dasconsultas. Desta maneira um analista pode executar suas análises utilizando seuspróprios termos.

Criar comandos SQL otimizados para os bancos de dados com o qual trabalha.

A principal vantagem de se adotar uma solução ROLAP reside na utilização de uma tecnologiaestabelecida, de arquitetura aberta e padronizada como é a relacional, beneficiando-se dadiversidade de plataformas, escalabilidade e paralelismo de hardware ( SMP e MPP) .

Quanto as limitações, pode-se citar o pobre conjunto de funções para análise, a inadeqäaçãodo esquema estrela para atualização dos dados e as soluções proprietárias para metadadosque acaba por anular muitas das vantagens do uso da tecnologia relacional.

MOLAP OU ROLAP ? Qual escolher ? Atualmente existe um grande debate sobre esta questão ese possível, este debate deve ser deixado para os fornecedores. Para quem vai utilizar atecnologia o mais importante é entender os negócios da empresa para então decidir pelasolução que melhor atende o volume de dados e as necessidades de análise da empresa.

Page 25: Data Warehouse

09/12/13 www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html

www.din.uem.br/ia/a_multid/mineracao/tecnologia/warehouse.html 25/25

Provavelmente este debate não terá um vencedor. Já é notado que existe uma convergênciadestas duas tecnologias. Fornecedores MOLAP têm adicionado funcionalidade ROLAP nos seusprodutos e similarmente, fornecedores ROLAP têm enriquecido a funcionalidade e performancede seus servidores.

Conclusão

Data warehouse e OLAP são as respostas as demandas de usuários que precisam tomardecisões em uma organização. Data warehouse e OLAP fazem parte de uma arquitetura de sistemas parasuporte a decisão. Data warehouse provê a integração dos dados e OLAP oferece os mecanismos que realmente tiraos benefícios do data warehouse. A utilização em conjunto destas duas tecnologias dão às empresas os meios paramedir e gerenciar seus negócios eficientemente.

anterior / próximo / topo da página ©1999 GSI - Grupo de Sistemas Inteligentes - Mineração de Dados.

DIN - Departamento de Informática. UEM - Universidade Estadual de Maringá.