mestrando: vinicius prodocimo professor: alcides calsavara data warehouse
TRANSCRIPT
Mestrando: Vinicius ProdocimoProfessor: Alcides Calsavara
DATA WAREHOUSEDATA WAREHOUSE
Data Warehouse - Agenda
Introdução
Características
Arquitetura
Modelos de Dados
Desenvolvimento de um Data Warehouse (DW)
Extração de Informações de um DW
Conclusão
Data Warehouse - Introdução Crescimento de dados relacionados aos negócios mas não relacionados entre si promoveram o surgimento do DW; Características:
Utilização de dados estratégicos: apoio à tomada de decisões através de fatos históricos (anteriormente utilizava-se a experiência dos administradores do negócio); Banco de Dado especializado em integração: BD corpora- tivos e fontes externas; Não é um produto pronto; Consultas à sua base não afetam as bases que o alimentam; Fornece recursos e informações suficientes para um Sistema de Apoio à Decisão; Possui novas formas de armazenamento, processamento paralelo e distribuído; Integra dados de diferentes plataformas.
Data Warehouse - Características
Dados classificados por assunto
Integração de representação para facilitar as consultas
Variação no tempo
Dados não são modificados
Localização
Credibilidade dos dados
Granularidade temporal das informações
Data Warehouse - Características
Orientação por assuntoOrientação por assunto
Qual a informação mais importante para a organização?
Análise direcionada à necessidade da organização
Ex.: Uma empresa que vende produtos alimentícios no varejo
tem seu maior interesse no perfil de seus compradores e não
em quais produtos vende. Portanto o DW deve ser direciona-
do para o perfil dos compradores.
Data Warehouse - Características
Integração da representaçãoIntegração da representação
Característica mais importante do DW
Representação única para as informações provindas de
diversos sistemas.
Ex.: Representação do sexo de uma pessoa:
AMBIENTE OPERACIONAL
Aplicação X - M ou FAplicação Y - H ou MAplicação Z - 0 ou 1
DATA WAREHOUSE
M ou F
Data Warehouse - Características
Variação no tempoVariação no tempo
Informações atualizadas em períodos de 24 horas;
Pode apresentar-se como:
Em um DW os dados podem estar presentes em hori-
zontes maiores de 5 anos podendo chegar até o limite
de idade dos dados;
O metadados também possuem relação temporal;
Os dados não são mais atualizados.
Data Warehouse - Características Variação no tempoVariação no tempo
Os dados em um DW podem ser considerados como:
Dados detalhados atuais:
Acontecimentos mais recentes;
São em grandes volumes;
Tem baixo nível de granularidade;
São armazenados em meios de rápido acesso.
Dados detalhados antigos:
Acontecimentos mais antigos;
São normalmente armazenados em fitas.
Data Warehouse - Características
Não volatilidadeNão volatilidade
Não existem alterações no DW;
É feita somente a carga e consultas posteriores.
Data Warehouse - Características
LocalizaçãoLocalização
Os dados podem estar fisicamente armazenados como:
Um único local, centralizando o DW;
Distribuído por áreas de interesse (arquitetura federativa);
Distribuídos por níveis de detalhe (dados altamente
resumidos, dados detalhados, ... ).
Data Warehouse - Características
LocalizaçãoLocalização
DADOS DETALHADOS ATUAIS
Dados altamenteresumidos
Dados levementeresumidos
Dados detalhadosantigos
SÍNTESE
ENVELHECIMENTO
Data Warehouse - Características
Credibilidade dos dadosCredibilidade dos dados
Precisão: grau de informações que estão corretas;
Abrangência: grau de dados requisitados e atendidos;
Consistência: consistência dos dados/liberdade de contradição;
Coerência: coerência lógica que permite criar relações;
Tempo de resposta: tempo entre o pedido e a resposta;
Singularidade: percentual dos dados que têm valores dentro
dos domínios de valores permitidos.
Data Warehouse - Características
GranularidadeGranularidade
Diz respeito ao nível de detalhe dos dados numa unidade;
Produto Data Qtd Valor A1 13/09/98 10 100,00 B1 14/09/98 15 150,00 A1 16/09/98 20 200,00 A1 16/09/98 90 890,00
BAIXABAIXA
ALTAALTA
Mês/Ano Produto Qtd Valor09/98 A1 120 1190,0009/98 B1 15 150,00
Data Warehouse - Características
MetadadosMetadados
São dados sobre os dados;
Podem ser apresentados em três camadas:
Metadados operacionais;
Metadados centrais do DW;
Metadados do nível do usuário.
Data Warehouse - Características
MetadadosMetadados
Podem ser classificados como:
Mapeamento;
Histórico;
Miscelânea;
Algoritmos de sumarização;
Padrões de acesso.
Data Warehouse - Características
MetadadosMetadados
Mantém informações sobre:
A estrutura dos dados segundo a visão do programador;
A estrutura dos dados segundo a visão do analista SAD;
A fonte de dados que alimenta o DW;
A transformação sofrida pelos dados, na migração p/DW;
O modelo de dados;
O relacionamento entre o modelo de dados e o DW;
O histórico das extrações de dados.
Data Warehouse - Arquitetura
A arquitetura deve ser constituída de forma à:
Coletar dados de forma eficiente e rápida;
Manipular dados de forma eficiente e rápida;
Representar dados de forma eficiente e rápida.
Data Warehouse - Arquitetura Arquitetura genérica segundo Orr:
ACESSO ÀINFORMAÇÃO DW
ACESSO AO DADO TRANSPORTE
ACESSOA DADOS
BDOPERAC.
BDEXTERNAS
METADADOSGERENCIADOR DE PROCESSOS
METADADOS
USUÁRIODW
Data Warehouse - Arquitetura Arquitetura segundo Chaudhuri (fluxos de dados):
Data Warehouse(SGBD)
Fontes Internas Fontes Externas
Componenteback-end
Componentefront-end
Repositório demetadados
Data Warehouse - Arquitetura Arquitetura segundo Valente:
Data Warehouse(SGBD)
Fontes Externas
EXTRATOR
Fontes Internas
EXTRATOR EXTRATOR
CONSULTAS
INTEGRADOR
Data Warehouse - Modelo de Dados
Modelo de dados segundo R.Kimball;
Modelo de dados segundo W.H.Inmon;
Data Warehouse - Modelo de Dados
Modelo de dados segundo R.Kimball
É dividido em:
Modelo empresarial;
Modelo dimensional;
Modelo físico.
Data Warehouse - Modelo de Dados
Modelo de dados segundo R.Kimball - Empresarial
Primeiro passo: análise do modelo de dados para construir
um modelo E-R normalizado para as regras do negócio;
Não importa como as informações serão recuperadas ou
utilizadas;
Foco nas estruturas da informação: atributos e relações;
Quais são os dados relevantes para o DW;
Data Warehouse - Modelo de Dados
Modelo de dados segundo R.Kimball - Empresarial
Segundo passo: normalização do modelo;
O modelo empresarial não será implementado;
Terceiro passo: desenvolver um modelo E-R normalizado das
regras de negócio e a definição das regras de integridade.
Data Warehouse - Modelo de Dados
Modelo de dados segundo R.Kimball - Dimensional
Visão dos dados em diferentes perspectivas (dimensões);
A forma de como as agregações são armazenadas podem ser
vista em termos de dimensões e coordenadas, dando origem
ao modelo multidimensional;
Armazenamento em estruturas relacionais: Modelo Estrela
Data Warehouse - Modelo de Dados
Modelo de dados segundo R.Kimball - Dimensional
MODELO ESTRELA
Facilita o entendimento dos termos de negócio para o usuário;
Composto:
Tabela de fatos ao centro (tabela dominante)
Tabelas de dimensão (tabelas conectadas aos fatos)
A tabela de fatos contém milhares ou milhões de valores
Data Warehouse - Modelo de Dados
Modelo de dados segundo R.Kimball - Dimensional
MODELO ESTRELA
chave_tempochave_produtochave_lojareais_vendidosunidades_vendidas
FATOS VENDAS
chave_produtodescriçãomarcacategoria
DIMENSÃO PRODUTO
chave_lojanome_lojaendereçotipo
DIMENSÃO LOJA
Data Warehouse - Modelo de Dados
Modelo de dados segundo R.Kimball - Físico
Propósito: alcançar os objetivos de desempenho;
Depende de:
SGBD
Configuração de Hardware
Utilização de processamento paralelo.
Data Warehouse - Modelo de Dados
Modelo de dados segundo W.H.Inmon
Dividido em:
Modelo de alto nível;
Modelo de nível intermediário;
Modelo de baixo nível.
Data Warehouse - Modelo de Dados
Modelo de dados segundo W.H.Inmon - Alto nível
Apresenta-se somente as entidades e seus relacionamentos;
Mais alto nível de abstração.
CLIENTE PEDIDO
ESTOQUE PRODUÇÃO
Data Warehouse - Modelo de Dados
Modelo de dados segundo W.H.Inmon - Nível Intermediário
Criado à partir de áreas de interesse ou entidades;
Para cada área de interesse ou entidade é criado:
Agrupamento primário: atributos que aparecem uma vez;
Agrupamento secundário: atributos que aparecem mais
de uma vez;
Conector: representa os relacionamentos;
Tipo dos dados.
Data Warehouse - Modelo de Dados
Modelo de dados segundo W.H.Inmon - Nível Intermediário
chave_temponr_vendareais_vendidos
VENDAS
chave_produtodescriçãomarcacategoria
PRODUTO
nr_vendachave_produto
PRODUTO_VENDA
AGRUPAMENTO PRIMÁRIO
AGRUPAMENTO SECUNDÁRIO
CONECTOR
Data Warehouse - Modelo de Dados
Modelo de dados segundo W.H.Inmon - Baixo Nível
Expande o nível intermediário para que:
Apresente chaves;
Características físicas;
Características de desempenho.
Data Warehouse - Modelo de Dados
Estratégia de conversão do modelo E-R para o modelo DW
Remoção dos dados puramente operacionais:
#ID Nota FiscalData de EmissãoID ConsumidorMensagemDescriçãoTermosStatus
MODELO E-R
DADOS OPERACIONAIS
#ID Nota FiscalData de EmissãoID Consumidor
MODELO DW
Data Warehouse - Modelo de Dados
Estratégia de conversão do modelo E-R para o modelo DW
Adição de um elemento de tempo na estrutura da chave:
#ID ConsumidorNomeData de NascimentoEstado CivilLimite de Crédito
MODELO E-R
#ID Consumidor#Data do SnapshotNomeData de NascimentoEstado CivilLimite de Crédito
MODELO DW
Data Warehouse - Modelo de Dados
Estratégia de conversão do modelo E-R para o modelo DW
Introdução de dados derivados:
#ID Nota Fiscal# ItemCódigo do ProdutoQuantidadePreço Unitário
MODELO E-R
#ID Nota Fiscal# ItemCódigo do ProdutoQuantidadePreço UnitárioTotal CompradoCusto do Produto
MODELO DW
DADOSDERIVADOS
Data Warehouse - Modelo de Dados
Estratégia de conversão do modelo E-R para o modelo DW
Transformação de Relacionamento entre dados em artefatos
de dados:
PRODUTOS#Código do ProdutoDescriçãoUnidade de MedidaFornecedor PreferidoCidade do FornecedorEstado do Fornecedor
MODELO DW
PRODUTO# Código do ProdutoDescriçãoUnidade de Medida
MODELO E-R
FORNECEDOR PROD.# Código do Produto# Código do Consum.Fornecedor Preferido
MODELO E-R
Data Warehouse - Modelo de DadosEstratégia de conversão do modelo E-R para o modelo DW
Acomodação dos diferentes níveis de granularidade:
ATIVIDADE DE ENTREGAData da EntregaCódigo da EntregaEnviado porEnviado paraQuantidade
MODELO E-R
CÓDIGO DO PEDIDO INVENTÁRIO POR ITEM
ENTREGAS MENSAIS#Ano/MêsNúmero de EntregasValor da Entrega
MODELO DW
SUMAR.POR PRODUTO#Ano/Mês# ProdutoNúmero de EntregasValor da Entrega
MODELO DW
Data Warehouse - Modelo de DadosEstratégia de conversão do modelo E-R para o modelo DW
União dos dados comuns de diferentes tabelas:
Devem ser respeitadas as seguintes condições:
As tabelas compartilham uma chave comum(ou parcial)
Os dados das diferentes tabelas são usados juntos
O Padrão de inserção nas tabelas é o mesmo.
Data Warehouse - Modelo de DadosEstratégia de conversão do modelo E-R para o modelo DW
Criação de arrays de dados:
#COD.Previsão GastoGasto Mensal/AnualValor do Gasto
MODELO E-R
#COD.Previsão Gasto# AnoValor em JaneiroValor em Fevereiro...Valor em Dezembro
MODELO DW
Data Warehouse - Modelo de DadosEstratégia de conversão do modelo E-R para o modelo DW
Separação dos atributos de dados de acordo com
sua estabilidade:
CódigoDescriçãoPrincipal substitutaQuantidade atualUnidade de compraFornecedorPrazo de entregaTaxa de rejeiçãoTransportadoraLocal última entregaManifesto carga
TABELA DE PREÇOSRaramente éAlterada
Regularmente éAlterada
Freqüentemente éAlterada
Data Warehouse - Desenvolvimento Funções no desenvolvimento de um DW:
Gerente do DW
Arquiteto de Dados
Administrador de metadados
Administrador de BD
Usuário de nível gerencial
Analista de processos e aplicações
Especialista em Aplicações Operacionais
Analista e programador de conversões
Especialista em suporte técnico
Instrutor
Data Warehouse - Desenvolvimento
“Muitas empresas iniciam o processo de Data Warehousea partir de uma área específica que normalmente é umaárea carente de informações e cujo trabalho seja relevantepara os negócios da empresa, criando Data Marts, para depois ir crescendo aos poucos, seguindo uma estratégiabottom-up ou assunto-por-assunto e assim obtendo umData Warehouse corporativo”
Adriano Dal’Alba - Universidade Federal de Caxias - RShttp://www.geocities.com/SiliconValley/Port/5072Dezembro 1998
Data Warehouse - Desenvolvimento
“Empresas que têm exigências mais modestas, como as que necessitam construir DW para departamentos indivi-duais podem escolher em construir pequenos Data Martsque utilizam uma arquitetura baseada em rede”
Adriano Dal’Alba - Universidade Federal de Caxias - RShttp://www.geocities.com/SiliconValley/Port/5072Dezembro 1998
Data Warehouse - Desenvolvimento
“Pela complexidade de fatores que envolvem um DWcorporativo integral, a construção do projeto é lenta e cara.Para equilibrar os gastos e oferecer resultados em prazosmais curtos é possível construir Data Marts que são peque-nos DW departamentais. Entre as principais vantagens da utilização de Data Marts está a redução de tempo de imple-mentação (120 dias) e o fator preço (US$ 50 mil a US$ 1milhão).Sendo que um DW leva cerca de um ano para ser concluídoe gastos iniciais em torno de US$ 2 milhões”
Adriano Dal’Alba - Universidade Federal de Caxias - RShttp://www.geocities.com/SiliconValley/Port/5072Dezembro 1998
Data Warehouse - Desenvolvimento
DATAMARTVendas
X
Y
Z
W
DATA WAREHOUSE
DATAMART
Compras
DATAMART
Marketing
DATAMARTOutros
Data Warehouse - Extração de Informações
Formas de extração de dados de um DW:
Relatórios
Consultas
EIS
Ferramentas de OLAP
Ferramentas de Data Mining
Todas estão com tendências de integração com a WEB
Data Warehouse - Extração de Informações
Formas de acesso ao DW:
Acesso direto
Acesso indireto
Data Warehouse - Extração de Informações
ACESSO DIRETO:
É uma ocorrência rara
Sofre uma série de limitações:
Uma solicitação pode levar 24 horas para ser atendida
A solicitação deve ser referente a qtde mínima de dados
Deve existir compatibilidade entre DW e Ambiente Oper.
Não deve existir formatação de dados
Data Warehouse - Extração de Informações
ACESSO DIRETO:
DATAWAREHOUSE
APLICAÇÃOOPERACIONAL
CONSULTA
RESULTADO DA CONSULTA
Data Warehouse - Extração de Informações
ACESSO INDIRETO:
O que normalmente se utiliza
Eficiente
Muito rápido
Data Warehouse - Extração de Informações
ACESSO INDIRETO:
DATAWAREHOUSE
APLICAÇÃOOPERACIONAL
ARQUIVO DEINFORMAÇÕES
PROGRAMADE ANÁLISE
Data Warehouse - Conclusões
Vantagens:
Simplicidade
Qualidade dos dados
Acesso rápido
Facilidade de uso
Separa as operações de decisão das de produção
Vantagem competitiva
Custo de operação
Administração do fluxo das informações
Data Warehouse - Conclusões
Vantagens (continuação):
Habilidade de processamento paralelo
Infra-estrutura computacional
Valores quantitativos
Segurança
Data Warehouse - Conclusões
Desvantagens:
Complexidade de desenvolvimento
Tempo de desenvolvimento
Alto custo de desenvolvimento e administração
Treinamento
Dificuldade na coleta de dados
Dimensão de discos e CPUs
Data Warehouse - Bibliografia
Data Warehouse - MonografiaAdriano Dal’Alba - Universidade Federal de Caxias - RShttp://www.geocities.com/SiliconValley/Port/5072Dezembro 1998
Building a Data Warehouse for Decision SupportVidette Poe - Prentice HallISBN 0-13-371121-8
The Intranet Data WarehouseRichard Tanler - WileyISBN 0-471-18004-1