modelagem dw
TRANSCRIPT
Felipe David RosochanskyGerente de Inovao CPM email: [email protected] telefone: 11 3741 7100
Agenda Introduo Metodologia Business Intelligence Framework DW Conceitos Modelagem Processo Caractersticas Tcnicas
Exemplos Exerccio
#
CVRD Workshop Modelagem Dimensional Introduo CPMComo estamos indo? Porqu? O que deveramos estar fazendo?
Plataforma nica para tomada de deciso #
CVRD Workshop Modelagem Dimensional Introduo CPM O real valor do CPM alcanado atravs da capacidade dos tomadores de deciso de navegaremde forma integrada entre as 3 questes fundamentais.
Uma plataforma tecnolgica nica e integrada vital e to importante que, de fato, a definioprtica de CPM se tornou a integrao e automao de scorecarding, business intelligence e planejamento.
#
CVRD Workshop Modelagem Dimensional Introduo
Prover a informao apropriada pessoa certa na forma certa no tempo certo
Flexibilidade Diversidade Agilidade Simplicidade
#
Agenda Introduo Metodologia Business Intelligence Framework DW Conceitos Modelagem Processo Caractersticas Tcnicas
Exemplos Exerccio
#
CVRD Workshop Modelagem Dimensional Metodologia Business Intelligence Metodologia BI = Metodologia Ralph Kimball + Experincia NetPartners Orientao: Estratgia e Objetivos de Negcio Mtodo de Levantamento: Anlise por Objetivos
#
CVRD Workshop Modelagem Dimensional Metodologia Business Intelligence
Desenho Arquitetura TcnicaDefinio Requisitos de Negcio
Seleo Produto e Instalao Manuteno e Crescimento
Planejamento Do Projeto
Modelagem Dimensional
Desenho Fsico
Preparao dos Dados
Implantao
Especificao da Aplicao
Desenvolvimento da Aplicao
Gerenciamento do Projeto
Anlise por Objetivos
#
CVRD Workshop Modelagem Dimensional Metodologia Business IntelligenceHIERARQUIAS PROCESSOS ESCOPO VISES DE NEGCIO OBJETIVOS METADADOS MEDIDAS FILTROS DICIONARIO DE DADOS OBJETIVOS EST/FUNC PLANEJ. & IDENTIDADE PROJETO
DW
HIERARQUIAS OBJETIVOS MEDIDAS G A P
OBJETIVOS
MAPEAMENTO NEGCIO
MIDIAS
REAS
FILTROS
A N A L Y S I S
PROTTIPO
ETLFOUNDATION
BI
ATRIBUTOS NOME USURIOS FONTES DE DADOS CADASTROS TRANSAES
#
Agenda Introduo Metodologia Business Intelligence Framework DW Conceitos Modelagem Processo Caractersticas Tcnicas
Exemplos Exerccio
#
CVRD Workshop Modelagem Dimensional Framework DWSourcesSistema 1stg_table2
Staging Areastg_table1
Framework DWODSods_table1 ods_table2
DWfa_agregada
Front-end Cognos
ods_table4
ods_table6
ETL 1 Sistema 2stg_table3
ETL 2ods_table3
ETL 3di_dimensao1
fa_atomica
ETL 3
di_dimensao2
Sistema 3
Ad-Hoc TransacionalTable1 Table2 Table3
Excel
ETL
Relatrios de Aplicaes Master Data Management
RDBMS #
CVRD Workshop Modelagem Dimensional Framework DWStaging Area Definio Camada de importao dos dados Importar os dados dos sistemas transacionais e demais fontes de informao Cada arquivo ou result set ser importado em uma tabela exclusiva que atenda s suas necessidades de lay-out. Todas as linhas disponveis devero ser importadasODS
DW Camada orientada leitura e necessidade de informaes Base de dados informacional que responder a todas as questes de negcio da CVRD Ser utilizada como fonte de dados para as ferramentas de BI Conter os dados histricos, atmicos e agregados sempre orientados ao negcio e leitura.
Camada de tratamento, consistncia, transformao e unificao dos dados Importar os dados da Staging Area Efetuar as consistncias, clculos e transformaes dos dados de acordo com as regras definidas durante a fase de levantamento de requisitos e a anlise por objetivos. Garantia da integridade e qualidade do DW por processo Base para reprocessamento do DW
Objetivo
Modelagem
Sem integridade definida Orientada a importao de dados Campos do tipo data e numrico devero ser armazenados como texto para evitar problemas de importao Todos os campos devero ter tamanho suficiente para que nenhum erro ocorra durante a importao, conforme anlise de cada fonte.
Tabelas orientadas a integrao e consistncia dos dados Relacional e normalizado As integridades de relacionamento e constraints de check devero ser criadas, porm devem ficar desabilitadas.
Dimensional (Star Schema) Possuir as tabelas de fato atmicas e agregadas Orientado leitura As integridades de relacionamento e constraints de check devero ser criadas, porm devem ficar desabilitadas.
#
CVRD Workshop Modelagem Dimensional Framework DWStaging Area ODS Aps a carga do DW, os dados desta camada podero ser apagados. os dados do ltimo ciclo podero ser mantidos para auxiliar o reprocessamento do DW Possuir esforo de transformao, consistncia e clculos, visando preparar os dados para a carga do DW mantendo a integridade e consistncia dos dados Poder ter stored procedures ou packages para processamento das informaes Poder acessar os dados existentes no DW para clculos de faixa, obteno de chaves de negcio e chaves substitutas Opcional, se a fonte de dados for nica e no tiver nenhuma necessidade regras de transformao nem consistncia de dados. DW Incremental Cada grupo de tabelas dever ter uma regra de limpeza de registros determinada pela necessidade de informao histrica Os dados da sero reorganizados para otimizar a leitura e o negcio As tabelas de fatos agregadas sero geradas a partir das tabelas de fatos atmicas do DW Como exceo, ter como fonte a Staging Area se os dados forem provenientes de um nico source sem necessidade de consistncia ou transformao
Ciclo de vida
Aps a carga do ODS, os dados desta camada sero apagados.
ETL
Esforo de extrao depende da complexidade de acesso aos dados nos sources. Acesso aos dados dos sources ser obtido atravs da execuo de queries definidas pelos analistas funcionais da CVRD
Opcional?
Obrigatria em todos os projetos, porm a equipe da CVRD ir avaliar a necessidade de utilizao em cada projeto.
Obrigatria em todos os projetos
#
Agenda Introduo Metodologia Business Intelligence Framework DW Conceitos Modelagem Processo Caractersticas Tcnicas
Exemplos Exerccio
#
CVRD Workshop Modelagem Dimensional Conceitos Modelagem ER x DimensionalUm modelo para os dados de uma organizao que tem como objetivo remover todos os valores repetidos por meio da criao de tabelas adicionais O modelo de E/R (MER) divide os dados em vrias entidades distintas, cada qual transformada em uma tabela do banco de dados, ou seja o modelo muito simtrico, pois todas as tabelas parecem iguais, onde difcil saber qual delas maior ou mais importante, nem quais tabelas contm valores numricos do negcio e quais armazenam descries estticas ou praticamente estticas de objetivos. Os modelos E/R no podem ser utilizados como base para data warehouse.
Metodologia de projeto top-down que lista dimenses e fatos relevantes a cada processo de negcio. A modelagem dimensional permite-nos visualizar dados. A habilidade de visualizar algo to abstrato quanto um conjunto de dados de forma concreta e tangvel o segredo da compreensibilidade
Ex: Imagine um negcio em que o CEO descreva as atividades da empresa da seguinte forma: e d mo po uo e vr s ra o eaaa s V n e s rd ts m i mecd s vlmo o i n sod smp n oa l g d tmp os ee e h o o o o e o n fcil imaginar esse negcio como um cubo de dados, com legendas em cada uma das arestas do cubo.
#
CVRD Workshop Modelagem Dimensional ConceitosAs aplicaes de Data Warehouse devem atender aos seguintes requisitos: Manter as informaes acessveis na organizao. O contedo do DW deve ser de fcilinterpretao, acesso e com altos ndices de desempenho para respostas aos usurios. Os nomes dos campos devem ser bvios, para garantir uma fcil interpretao na seleo de dados para as pesquisas.
Garantir a consistncia dos dados da organizao. A mesma informao divulgada porreas diferentes dentro da empresa deve ser exatamente igual, garantindo a unicidade de conceitos regras e a confiabilidade do dado.
Ser adaptvel e flexvel s vrias fontes de informao. O DW deve ser desenhado paracontnuas alteraes. Quando novos questionamentos so feitos ao DW, tanto a tecnologia quanto os dados existentes no devem ser alterados e devem suportar as respostas.
Mtodos de controle e segurana dos dados. O DW permite no s o controle efetivo deacesso aos dados, mas d ao proprietrio uma visibilidade da forma com que os dados esto sendo utilizados.
Base para suporte deciso. O DW deve ser definido com base de dados nica para suporte tomada de deciso de toda a corporao.
#
CVRD Workshop Modelagem Dimensional Conceitos
Data WarehouseVendas RH
Geografia
Data MartFato Venda
Produto
ClienteFinanceiro Compras
Tempo
#
CVRD Workshop Modelagem Dimensional Conceitos VocabulrioMedida Tabela fato Tabela dimenso Gro Surrogate Key Business Key Hierarquia Atributo Informao numrica proveniente da medio das transaes da empresa Principal tabela no DW onde as medidas so armazenadas Contm as informaes descritivas e qualificadores do negcio. a porta de entrada do DW Menor nvel de informaes existente no DW e definida pelas dimenses ligadas s tabelas fato. Define o escopo da medida Chave substituta gerada no DW. a chave primria das tabelas Chave primria do transacional. Utilizada como chave de negcio Conjunto de atributos que possui uma ordem lgica do maior ao menor nvel Campo descritivo referente a uma dimensoSurrogate Key Business Key Hierarquia Surrogate Keys Medidas
Atributos
#
CVRD Workshop Modelagem Dimensional Conceitos Anlise Multidimensional Gerentes pensam de forma multidimensional A tecnologia de Business Intelligence formata a informao multidimensionalmente. Este formato acelera o processo de uso da informao pelos gerentes. Permite reduzir o custo de gerar e manusear a informao. Exemplo:Analisar 5 Indicadores de Vendas, de 10 Vendedores que vendem 10 Produtos para 100 Clientes todo ms, num perodo de 24 Meses: 5 Indicadores x 10 Vendedodres x 10 Produtos x 100 Clientes x 24 Meses = 1.200.000 combinaes
#
CVRD Workshop Modelagem Dimensional Conceitos Mitos Modelos dimensionais servem somente para dados agregados; Deve-se armazenar pouca quantidade de dados histricos; Modelos dimensionais so solues departamentais e no corporativas; Modelos dimensionais no so escalonveis; Modelos dimensionais s devem ser utilizados quando existe um padro definido de utilizao; No possvel integrar modelos dimensionais.
#
Agenda Introduo Metodologia Business Intelligence Framework DW Conceitos Modelagem Processo Caractersticas Tcnicas
Exemplos Exerccio
#
CVRD Workshop Modelagem Dimensional Modelagem Processo
Necessidades do negcioModelo DimensionalCiclo de vida da transao Desenho do negcio Gro Dimenses Fatos
Disponibilidade transacional
#
CVRD Workshop Modelagem Dimensional Modelagem ProcessoOrganizar campos Determinar dimenses Identificar chaves Determinar fatos Determinar gro Criar relacionamentos Teste de perguntas #
CVRD Workshop Modelagem Dimensional Modelagem Organizar campos Identificar os principais assuntos: Cliente, produto, nota fiscal, loja, promoo, etc
Organizar campos Determinar dimenses Identificar chaves Determinar fatos Determinar gro Criar relacionamentos Teste de perguntas
Separar os campos por afinidade associando-os aos assuntos Organizar os campos em: Atributos, Hierarquias, medidas
Organizar as hierarquias da maior para a menor Data de venda: ano, semestre, trimestre, ms, semana, dia Produto: categoria, linha, tipo, produto, sku
Evitar cdigos inteligentes Traduzir para o usurio
#
CVRD Workshop Modelagem Dimensional Modelagem Determinar dimenses Separar os grupos de assuntos em dimenses diferentes Colocar as hierarquias e seus atributos de forma organizada Identificar os dados de volumetria Quantidade de linhas, crescimento, carga inicial
Organizar campos Determinar dimenses Identificar chaves Determinar fatos Determinar gro Criar relacionamentos Teste de perguntas
Identificar as caractersticas de SCD (Slow Changing Dimensional) Podem ter linhas para dados no categorizados: 0 Outros -1 No informado -2 No se aplica -3 No preenchido -4 Desconhecido
Sem campos nulo, exceto data se for o caso
#
CVRD Workshop Modelagem Dimensional Modelagem Identificar chaves Criar Surrogate Keys para cada dimenso Inclusive as dimenses que no so SCD Identificador nico e sequencial
Organizar campos Determinar dimenses Identificar chaves Determinar fatos Determinar gro Criar relacionamentos Teste de perguntas
Surrogate Keys so as chaves primrias do modelo dimensional As chaves de negcio do sistema transacional (business key) devem ser trazidas e mantidas nodimensional
Dimenses podem ser multi-granulares
#
CVRD Workshop Modelagem Dimensional Modelagem Determinar os fatos Medidas normalmente so armazenados em tabelas fato Variam em funo do tempo Manter colunas para os itens individuais e para os clculos Deixar todos os clculos prontos nas tabelas fato
Organizar campos Determinar dimenses Identificar chaves Determinar fatos Determinar gro Criar relacionamentos Teste de perguntas
Os campos devero ter preciso no somente para os itens individuais, mas tambm paraagregaes
Tabelas agregadas sempre devem ser carregadas a partir das tabelas atmicas
#
CVRD Workshop Modelagem Dimensional Modelagem Determinar o gro Associar as tabelas fato somente s dimenses que tenham sentido Determinar o gro adequado das dimenses multi-granulares Colocar na primary key somente as colunas que determinaro a unicidade
Organizar campos Determinar dimenses Identificar chaves Determinar fatos Determinar gro Criar relacionamentos Teste de perguntas
#
CVRD Workshop Modelagem Dimensional Modelagem Criar relacionamentos Sem relacionamentos nulos Dimenses se relacionam com fatos Fatos se relacionam com dimenses Dimenses NO se relacionam com dimenses (snowflake) Fatos NO se relacionam com fatos Sem outer joins
Organizar campos Determinar dimenses Identificar chaves Determinar fatos Determinar gro Criar relacionamentos Teste de perguntas
#
CVRD Workshop Modelagem Dimensional Modelagem Teste de perguntas Testar o modelo dimensional efetuando perguntas Verificar se todas as perguntas so respondidas Verificar se os relacionamentos esto adequados O modelo deve ser facilmente entendido pelo usurio de negcio Todas respostas devem ser obtidas: Sem clculos (exceto agregaes) Sem outer joins Com escopo adequado Sem subqueries Sem outer joins De forma simples e rpida
Organizar campos Determinar dimenses Identificar chaves Determinar fatos Determinar gro Criar relacionamentos Teste de perguntas
#
Agenda Introduo Metodologia Business Intelligence Framework DW Conceitos Modelagem Processo Caractersticas Tcnicas
Exemplos Exerccio
#
CVRD Workshop Modelagem Dimensional Modelagem Caractersticas M d l s l , efc ltr eaeio cm on g c ; o e i e d ie ua p rc o o mp s li d e i o Minimiza a chance de erros de entendimento e de acesso; Modelo com poucos relacionamentos, facilmente executado pelos otimizadores dos bancos dedados;
Facilmente extensvel para acomodar mudanas das reas de negcio e incluso de novosassuntos, atributos, medidas, etc.;
Q a u r o n d q a u r i n p d sr maot d e t d oD u l e cl a e u l e d q u q me so o e e u p r e nr a d W; a a Possui tabelas atmicas e, quando necessrio, agregadas; Construo de queries e relatrios extremamente simples; Sem outer joins.
#
Agenda Introduo Metodologia Business Intelligence Framework DW Conceitos Modelagem Processo Caractersticas Tcnicas
Exemplos Exerccio
#
CVRD Workshop Modelagem Dimensional Tcnicas Slowly Changing DimensionsTipo 1: Substituio de valor Fcil de implementar, porm sem histrico Substitui o valor do campo atual com o novo valor recebido Sem atualizao das tabelas fato
#
CVRD Workshop Modelagem Dimensional Tcnicas Slowly Changing DimensionsTipo 2: Adicionar uma linha Mantm o histrico de forma temporal, incluindo uma nova linha para cada alterao Gerao de nova chave primria para cada verso do registro Chave original (business key) se mantm inalterada Pode-se incluir campos de data para identificar a data de vigncia Possibilidade de consultar o total, ou por alterao Sem atualizao das tabelas fato
#
CVRD Workshop Modelagem Dimensional Tcnicas Slowly Changing DimensionsTipo 3: Adicionar novas colunas Possibilidade de ver os dados como se nunca tivessem mudado Uma coluna para o valor histrico e uma coluna para o valor atual Permite a visualizao de 2 verses simultaneamente As duas verses podem ser consideradas verdadeiras
#
CVRD Workshop Modelagem Dimensional Tcnicas Dimenso Data Existe em praticamente qualquer modelo dimensional Normalmente a primeira dimenso a ser criada Carrega-se os dados no momento de gerao da tabela atravs de scripts Podem ser carregados diversos anos antecipadamente Cada 10 anos representa 3.650 linhas na tabela
Diversos relacionamentos, um para cada data existente nas tabelas fato
#
CVRD Workshop Modelagem Dimensional Tcnicas Dimenso descaracterizada Dimenso que s possui um nico atributo Utilizada para identificar cdigos que tem importncia mas no descrio Nmero da nota fiscal Nmero do pedido
#
CVRD Workshop Modelagem Dimensional Tcnicas Dimenso multi-granular Possui dados para diversos gros diferentes Na hierarquia de menor nvel, os campos estaro em branco Por exemplo, a dimenso data pode possuir registros para dia, outros para ms e outros para ano Cada SK ser utilizada na fato correta para manter o gro adequado Na mesma fato, todas as medidas devem estar na mesmo gro
#
CVRD Workshop Modelagem Dimensional Tcnicas Fato sem fato Determinado pela associao de dimenses sem um fato a ser medido Criar uma coluna com o valor fixo 1 para contar
#
CVRD Workshop Modelagem Dimensional Tcnicas Dimenses u k Jn " Agrupa diversas dimenses em um nica Todas as possibilidades so pr-gravadas Utilizadas em dimenses com pouca quantidade de linhas cada
#
CVRD Workshop Modelagem Dimensional Tcnicas Tipos de tabela fato Transao Snapshot Snapshot acumulado
#
CVRD Workshop Modelagem Dimensional Tcnicas Dimenses em conformidade Utilizar a mesma dimenso em todas as tabelas fato Reutilizao de dimenses Permite drill-across
#
Agenda Introduo Metodologia Business Intelligence Framework DW Conceitos Modelagem Processo Caractersticas Tcnicas
Exemplos Exerccio
#
CVRD Workshop Modelagem Dimensional Exemplos Listagem de produtos
#
CVRD Workshop Modelagem Dimensional Exemplos Relacionando dimenses com fatos
#
Agenda Introduo Metodologia Business Intelligence Framework DW Conceitos Modelagem Processo Caractersticas Tcnicas
Exemplos Exerccio
#
CVRD Workshop Modelagem Dimensional ExerccioModelo E-R de Transao de Nota Fiscal e Estoque Exerccio: Transformar num modelo Dimensional 1. Identificar as Dimenses 2. Desenhar o Modelo Dimensional (Star-Schema) 3. Classificar as Dimenses
#
CVRD Workshop Modelagem Dimensional Exerccio - Modelo E/R
#
CVRD Workshop Modelagem Dimensional Exerccio - Modelo Dimensional
#
CVRD Workshop Modelagem Dimensional Exerccio - QueriesDI_Cliente_hist
DI_Cliente
DI_Local
#
CVRD Workshop Modelagem Dimensional Exerccio - QueriesDI_Nvel_estoque
DI_Operacao_CFOP
DI_Prazo
DI_Status_NF
#
CVRD Workshop Modelagem Dimensional Exerccio - QueriesDI_Produto
DI_Tempo
#
CVRD Workshop Modelagem Dimensional Exerccio - QueriesFA_Estoque
FA_Nota_Fiscal
#
CVRD Workshop Modelagem Dimensional Referncias BibliogrficasThe Data Warehouse Lifecycle ToolkitRalph Kimball
The Data Warehouse ToolkitTcnicas de Construo de Data Warehouse Dimensionais Ralph Kimball
BI Business Intelligence - Modelagem & TecnologiaCarlos Barbieri
#
Felipe David RosochanskyGerente de Inovao CPM email: [email protected] telefone: 11 3741 7100