extração,transformação e carga dos dados

97
DATA WAREHOUSE ETL Kimball University 2008

Upload: sergio-henrique

Post on 13-Sep-2015

31 views

Category:

Documents


12 download

DESCRIPTION

Slides com conceitos sobre DW e ETL disponilibizadas pela Kimball Group

TRANSCRIPT

  • DATA WAREHOUSE

    ETL

    Kimball University

    2008

  • As Metas

    Aprender arquitetura do ETL

    Decompor o problema em partes manejveis

    Aplicar tcnicas que podem ser usadas novamente

    Investigao dos detalhes sem perder perspectiva!

    Desenvolver julgamento para evitar retrabalho ou deixar de fora capacidades importantes

  • Planejamento

    Preparar desenvolvimento ETL:

    desenvolvendo as perspectivas essenciais do projeto

    Subsistemas 1-3: profiling, change data capture, and extraction

    Subsistemas 22-24: agendamento de job, tratamento de exceo,

    backup, recovery e restart

    Tratando os dados: subsistemas 4-7, 28

    Conformidade, resolvendo os desafios da integrao: subsistema

    8

    Subsistemas 25-27, 29-30 controle de verso, migrao de

    sistema e teste

    Arquitetura de ETL em tempo real

  • O que voc deve saber

    Tabela fato

    Tabela dimenso

    De que forma o modelo estrela difere do modelo normalizado

    Surrogate keys chaves artificiais

    Natural keys chaves naturais

    SCDs (slowly changing dimensions) - Dimenses que mudam lentamente

    Os trs tipos de tabelas fatos

    Tabela ponte ou dimenses com multi-valores

    Aggregados (ou view)

  • O desafio do ETL

    Custo eficaz

    Confivel

    Extensvel

    Compatvel

    Observvel

    Seguro

    Sistema manejvel para trazer os dados para o data

    warehouse e deix-lo pronto para consulta do usurio

    final.

  • Todos entendem E, T, L

    E:

    Obter os dados da origem para o data warehouse

    T:

    Transformar e deixar pronto para o data warehouse

    L:

    Carregar os dados nas tabelas do data warehouse

  • Como faz para dividir em trs passos?

    Depende da Origem

    Quais ferramentas esto disponveis As habilidades dos envolvidos no trabalho

    A ferramenta de consulta e relatrio

  • hora de mais disciplina e estrutura no back room

    Familiarizar com os nomes e as tarefas do cliente

    Identificar as tarefas que voc no pode deixar

    de fora

    Agrup-los em quatro categorias (E, T, L e M)

    E: Obter os dados para o DW

    T: Tratamento e conformidade

    L: Preparar para apresentao

    M: Gerenciar todos os processos

  • First: Get the Data Into the DW

    Logical Data

    Map

    Data Profiling (1)

    Result:

    Extracted Tables

    incl Format

    Conversions

    Comprehensive

    Requirements

    Change Data

    Capture (2)

    Extract (3)

    E: Obter os dados para o DW

    prepare to start

    judge data

    isolate changes

    get into DW

    Preparar para iniciar

    Conhecer os dados

    Isolar as alteraes

    Carregar no DW

  • T: Tratar e conformar

    Second : Clean and Conform

    Cleansing Sys &

    Data Quality

    Screens (4)

    Deduplicating (7)

    and Conforming

    System (8)

    Result:

    Cleaned Tables

    and Conformed

    Dimensions

    fd

    d

    d

    d

    Error Event Schema (5)

    w. Audit Dimension (6)

    cleaning machinery

    cleaning control

    integration Integrao

    Controle de limpeza

    Tratamento nos dados

  • L: Preparar para Apresentao

    Third: Prepare for Delivery

    Surrogate Key

    Generator (10),

    Pipeline (14)

    SCD Manager (9)

    Dimension

    Manager (17),

    Fact Provider

    (18)

    Special

    Dimensions (12),

    Multi-Valued

    Dimensions (15)

    Hierarchy Table

    Manager (11):

    Fixed, Variable,

    Ragged

    Agg Tables (19),

    OLAP Cubes (20),

    DI Manager (21)

    Result:

    Fact & Dim

    Tables Ready for

    Delivery

    Fact Table

    Types (13):

    Late Arriving

    Data (16)

    keys

    time variance fact types &

    late data

    bridges

    hierarchies

    admin

    aggregates, cubes, & data integration

    Variao de tempo

    Chaves

    Hierarquias

    Tabelas pontes

    Tipos tabelas fato e

    dados atrasados

    Administrador

    Agregados, cubo

    e integrao dos

    dados

  • respond

    M: Controlar todos os processos

    Fourth: Manage

    Job Scheduler (22)

    Workflow Monitor (27)

    Recovery/Restart (24) Pipeline/Parallelize (31)

    Problem Escalation (30)

    Version Control (25) &

    Migration (26)

    Lineage &

    Dependency (29)

    Compliance (33)

    Metadata Repository (34)Sorting (28)

    Backup (23)

    Security (32)

    control source

    protect

    speed

    guard

    speed

    comply

    manage

    measure

    control

    Controlar

    Proteger

    Controlar

    Mtrica

    Velocidade

    Origem

    Velocidade

    Guardar

    Conformidade

    Gerenciar

    Responder

  • E (talvez) R: Adaptar para Real Time

    Fifth: Adapt to Real Time

    fd

    d

    d

    d

    streaming

    real-time

    ETL system

    convert existing systems converter sistemas existentes

  • Os termos back room e front room anlogo a um restaurante Cozinha (back room)

    Os ingredientes precisam ser selecionados e aprovados

    Preparar os alimentos

    Itens separados so reunidos harmoniosamente

    O produto final montado no prato que ser entregue na sala de jantar

    Sala de jantar (front room)

    O cliente recebe o prato montado pronto para consumi-lo utilizando os talheres

    O chef de cozinha o responsvel pela qualidade do que foi entregue

  • Os termos back room e front room no DW Sistema ETL (back room)

    Extrao

    Limpeza

    Conformidade

    Entrega (o modelo com os dados)

    Ambiente usurios finais (front room)

    Apresentar o que importante (do DW)

    Investigar as causas (usando o DW)

    Testar que se (usando o DW)

    Acompanhar as decises tomadas (de volta para o DW ! )

  • Necessidades do negcio

    Comece identificando os assuntos das reas de

    deciso

    Conduzir as reunies com usurios

    Identificar os indicadores de performance esperado

    (KPIs)

    Expandir as aplicaes analticas (AAs):

    Consultas e relatrios

    Isolar e enfatizar a importncia de encontrar as chaves

    Identificar as causas e conseqncias

    Acompanhar as decises tomadas atualmente

    Inferir os dados a partir dos indicadores e aplicaes

    analticas

  • Indicadores de performance

    Operao de manufatura

    Variao dos custos padres vs. localizao

    Operaes de venda

    Tempo do ciclo de venda vs. equipe de venda

    Call Center

    Tempo de resoluo das questes vs. treinamento dos empregados

    Web Site

    Quantidade de passos para completar uma compra

    Recursos humanos

    % de progresso para qualificar para o prximo nvel profissional

  • Anlise de comportamento

    Antecipar-se para as necessidades do usurio

    Ligar a pesquisa instantnea do cliente com visita, aspecto demogrfico, histrico de compras. Ex: site da Amazon.

    Acompanhar as promoes personalizadas e as ligaes de siga-me

    Durao das visita e quanto tempo o cliente demorou para retornar

    Sucesso de vendas associadas

    Tempo de latncia: quanto tempo demorou para vender o produto aps a sua primeira exposio

    Uso de inventrio online, mostra resposta de produto esgotado/ fora de estoque

    Reao a apresentao da mercadoria

    18

  • Novas fontes de dados

    Email/SMS

    Call center

    Blogs

    Redes sociais: Facebook, Twitter

    Ofertas na web e no celular

    Rastrear os registros RFID

    Cestas inteligentes

    Ex: Pagamento de pedgio

    Integrao rpida de diversas fontes, mudando constantemente!

    19

  • Compliance

    Identificar normas legais e financeiras especficas e de

    cumprimento imediato

    Determinar os requisitos especficos para o

    cumprimento destas normas

    Para ser seguro:

    Prove que o resultado final derivado do sistema

    origem

    Prove que os dados originais no foram modificados

    Documentar as transformaes usadas

  • Uso de Data Profiling

    Estratgia: decidir, o mais cedo possvel, se a fonte de

    dados suporta a misso bsica

    Descobrir mais tarde pode ser fatal para voc e

    para o projeto

    Ttica: identificar falhas nos dados

    Expor para o usurio a expectativa real se os dados

    no estiverem perfeitos

  • Segurana

    Dados do perfil de armazenamento de dados por nveis

    de sensibilidade

    Chegar a um acordo com os usurios finais e

    executivos

    Incluso de dados sensveis

    Uso de perfis para acesso aos dados

    Responsabilidade para administrar os perfis e permitir

    acesso telas de usurios finais

    Configurar redes e comunicaes

    Monitorar os usurios internos e as aes do

    administrador

    Proteger a mdia fsica incluindo backup

  • Integrao dos dados

    Comprometimento seguro para apoiar o processo de modelagem dimensional para construir dimenses e fatos conformados.

    Preparar as expectativas do usurio final

  • Latncia dos dados

    Como parte do data profiling, descrever a validade dos dados novos e atualizar os processos que podem ocorrer

    Quantificar, se possvel, o valor de dados acessveis mais rpido que o ETL atual pode entregar

    Identificar a origem e a tela do usurio final que deve ser baseada no fluxo de dados

    Identificar as fontes que do origem aos late arriving dimensions

  • Archiving, Lineage, Impact

    Estabelecer uma poltica para longo perodo de

    armazenamento e recuperao de dados

  • Interface do usurio final

    Conduzir os direitos no perfil do usurio

    Determinar as pastas visveis ao usurio conforme a

    sua classe ou grupo

  • Habilidades disponveis de TI

    e licenas

    Levantamento das competncias da equipe e das

    habilidades disponveis no mercado:

    Plataforma do sistema operacional

    DBMS

    Conjunto de ferramentas de ETL

    Linguagem de script e utilidades

    Experincia com data warehouse, em especial com

    modelagem dimensional

    Licenas legais que voc precisa conviver:

    DBMS, ERP, ETL

  • Ferramentas de ETL Pros e Contra

    Pros

    Grficos, parmetros baseados em programao

    Transparncia e lgica de alto nvel

    Documentao automtica Suporte extensivo automtico de metadados

    Biblioteca de conexes

    Balanceamento de carga automtico, paralelizao

    Controle automtico da verso e origem

    Habilidades do mercado e cursos lecionado pelos fabricantes.

    Contras

    Custo elevado

    Curva de aprendizado significativa

  • Transformaes tpicas fornecidas pelas ferramentas de ETL

    Agregados

    Expresses gerais

    Filtros

    Joins

    Lookups

    Normalizadores

    Gerador de seqncia

    Stored procedures

    Entrada e sada formato XML

    Facilidade para escrever a sua prpria transformao

  • Posio no mercado Current Marketplace ETL Tool Suite Offerings

    Microsoft SQL Server 2005 Integration Services (219,000 hits) Oracle Warehouse Builder (102,000 hits) Informatica PowerCenter (93,600 hits)

    Cognos DecisionStream (27,200 hits) SAP BusinessObjects Data Integrator (12,400 hits) Ab Initio Software (near impossible to evaluate) (9,380 hits) ETI (Evolutionary Technologies International) (7,810 hits) Ascential DataStage

    (acquired by IBM, now Websphere Information Integration) (7,430 hits)

    Data Flow Server (acquired by Group 1, Pitney Bowes Co.) (2,890 hits)

    DataMirror Transformation Server (2,460 hits) Hummingbird ETL (2,130 hits) IBM DB2 Data Warehouse Manager (1,710 hits) SAS Enterprise ETL Server (1,110 hits)

    Pentaho Talend

  • Hand Coding Pros e Contras

    Vantagens

    Rpida implementao por desenvolvedores

    experientes

    Baixo custo de entrada

    Altamente eficiente para aplicaes com destino

    especfico

    Desvantagens

    Os scripts e os programas devem ser

    especificamente documentados e mantidos

    Todo suporte aos metadatas deve ser concedido pelo

    programador

    No h suporte automtico para o agendamento,

    balanceamento de carga, controle de verso

    Sem conectores automticos com a origem

  • Ferramentas Data Profiling e Data Cleansing Vendors

    Profiling

    Ascential/IBM (ProfileStage)

    Evoke Software (acquired by Informatica)

    SAS DataFlux Trillium/Harte Hanks

    Pervasive Data Integrator

    Cleansing

    Ascential/IBM (acquisition of Vality)

    First Logic (acquired by SAP Business Objects) Group 1

    SAS DataFlux

    Search Software America

    Trillium (acquired Harte Hanks)

  • PARTE I: EXTRACT,

    CLEAN, AND

    CONFORM

    Kimball University 2008

  • 1: Data Profiling

    Objetivos

    Conhecer a preciso de dados, contedo e relevncia da fonte

    Ateno com os dados que devem ser fixados antes da extrao

    Fornecer uma lista, mais completa possvel, com as transformaes que devem ocorrer aps a extrao dos dados

    Gerar essas transformaes diretamente das ferramentas de data profiling

    Incorporar essas transformaes no fluxo de ETL

  • 2: Change Data Capture

    Isolar os dados alterados para permitir o processamento seletivo, em vez de atualizao completa

    Capturar todas as alteraes feitas nos dados do sistema origem incluindo as interfaces no padronizadas

    Capturar edies, inseres e delees no sistema origem

    Marcar os dados alterados com cdigo de motivo

    Apoiar o acompanhamento de conformidade com metadata adicionais

    Realizar a captura de dados de alterao o mais cedo possvel

  • 2: Change Data Capture

    Inputs

    Arquivos de log com as transaes do sistema

    Auditoria nas tabelas de origem

    Extrato de tempo

    Cpia completa da tabela

    Database triggers

    Outputs

    Inserts, updates, deletes

    Cdigo do motivo

    Conformidade metadata: aplicvel em um intervalo de tempo, origem

  • 2: Change Data Capture

    Arquitetura

    Executar CDC no sistema origem ou no sistema de ETL

    Confie em um tipo de entrada mas vincule o total da origem com as consultas de auditoria

    Substituir os campos de data nulos por datas 01-01-0001

    Para comparar uma tabela preciso a foto completa do perodo anterior

    Livro pp. 106-111, 186-187

  • 3: Extract

    Objetivos

    Copiar os dados da origem para o data warehouse

    usando biblioteca de maior rendimento possvel

    Puxar, empurrar, ou stream de dados dirigidos pelo agendamento de job e alertas

    Verificar se o formato do campo compatvel com data warehouse e quando necessrio converter para formatos suportados pelo data warehouse

    Carregar o modelo dimensional, esquemas normalizados e flat files

    Fase de extrao dos dados temporrios

  • 3. UDDI, WSDL, and SOAP Allow Orgs to Implement SOA Architecture

    permite

    comunicao

    entre descreve

    acessado usando

    obriga para capacita

  • SOA Architecture

    Promessas tradicionais

    Unido fracamente

    Padres abertos (UDDI, WSDL, SOAP, XML)

    Sobering Lessons

    SOA fora a organizao a confrontar

    Integrao e qualidade dos dados

    Exige governana sofisticada

    Muda o gerenciamento, medidas de qualidade, conformidade,

    segurana, privacidade, auditoria

    40

  • Building SOA Services for the

    EDW

    Visualizar a granularidade grosseiramente :

    Create customer Criar o cliente Read customer descriptors Ler a descrio do cliente Update customer descriptors Atualizar a descrio do

    cliente

    Delete customer Deletar o cliente

    Iniciar modestamente: Implementar os servios em torno do ETL e subsistemas de BI.

    Fracamente acoplados

    Estritamente definidos, enfatizando o desempenho e escalabilidade

    Sujeito a governana desde o incio

    41

  • Low Hanging SOA Fruit

    Candidatos bem definidos subsistemas ETL/BI

    Change data capture

    Tela data quality com colunas e estruturas

    Verifica se o endereo confivel

    Gera Surrogate key

    Publicao das conformed dimensions

    Tratamento para alerta em tempo real

    Construo e manuteno das hierarquias da tabela

    Drill across aplicao de BI

    42

  • 3: ETL Targets

    Flat Files

    Formato universal independente do DBMS,

    bom para arquivo a longo prazo

    Manipulao eficiente diretamente da linha de

    comando

    Notvel leitura, atualizao e acesso aleatrio no

    bom

    Agregaes usando quebra de linha bem eficiente

  • 22: Job Scheduler

    Objetivos

    Agendar e executar jobs de todos os tipos

    Agendamento mais vantajoso porque

    Controla relacionamentos e dependncias entre os jobs

    Mecanismo confivel para gerenciar estratgia de

    execuo

  • Example Modern Job

    Schedulers Microsoft SQL Server Agent (165,000 hits)

    IBM Tivoli (144,000 hits)

    BMC Control-M (41,100 hits)

    Oracle 10g dbms_scheduler (23,700 hits)

    Computer Associates Unicenter AutoSys (13,100 hits)

    Argent Job Scheduler (13,100 hits)

    Cronacle by Redwood (13,000 hits)

    Load Sharing Facility - LSF (Platform Computing) (10,700 hits)

    UC4 (6,460 hits)

    Opalis Integration Server (5,210 hits)

    CA/Cybermation ESP Espresso (1,800 hits)

    SAS DSx3 (575 hits)

    Pervasive Integration Hub (497 hits)

  • 23: Backup

    Objetivos

    Copiar os dados do data staging e da partio em tempo real para local mais seguro: Arquivo histrico, Restart incremental

    Operao automatizada

    Minimizar exposio de perda de dados

  • 24: Vulnerabilities of Long-Running ETL processes

    Quanto mais tempo um processo de ETL demorar para

    executar mais ciente voc deve ficar das

    vulnerabilidades ao fracasso

    Carregar no sistema origem para re-run

    Posio lgica necessria para retornar, ou reiniciar a

    partir da posio atual, por exemplo, usar a chave

    artificial (SK) da tabela fato

    Escolha uma dependncia de jobs horizontal ou vertical

    Horizontal executa os processos at o final

    independentemente

    Vertical significa que os processos aguardam a

    concluso das metas comuns, em especial, as

    prontas para carregar.

  • 24: Minimizing the Risk of Load Failures

    Modos de falha incluem

    Falha na rede

    Falha na base de dados

    Falha no disco Sistema origem Data staging Data warehouse

    Falha de memria

    Espao de tempo, espao de dados, espao de ndice

    Falha no data quality

    Atualizao do sistema sem aviso prvio

  • 24: Minimizing the Impact of Failure

    Particionar os processos

    Utilize pontos de recuperao

    Ponto de restart lgico. Ex: data e hora ou SK da

    tabela fato

    til para restart, backout, updating

    Salvar as chaves para serem substitudas no processo de

    atualizao

    Mantenha os metadados (Ex: os ltimos registros

    carregados)

  • 4: Data Cleansing System

    Objetivo

    Sistema global para gesto de qualidade dos dados

    Mensurar a qualidade dos dados: identificar dados que precisam ser tratados

    Tomar as aes corretivas apropriadas

    Interfaces para a interveno de dados defeituosos

    Montar descrio temporal seriada de dados deficiente e as medidas tomadas

    Unir os dados tratados com os atuais para gerar relatrios diretos de qualidade

    Dimenso de auditoria

  • 4: Data Cleansing System

    Entrada

    Dados sem tratamento

    Dependncia lgica para agendamento de job

    Sada

    Dados tratados

    Aes tomadas

    Registro das aes tomadas e todos os eventos de

    qualidade de dados

  • 4: Quality Screen Process Flow

  • 4: Oracle Process Flow Tool

  • 4: Informatica PowerCenter Workflow Manager

    PowerCenter

    Session

    External Process

    Decision Task

    Email Task

  • 5: Error Event Schema

    Objetivo

    Estrutura central para capturar e responder eventos de qualidade de dados

    Histrico dos eventos de qualidade de dados disponveis para anlise Six Sigma Quality = 3.4 defeitos por milho de

    oportunidades Definir os objetivos do projeto e o que ser

    entregue para o cliente Mensurar o processo para determinar a

    performance atual Analisar e determinar a causa dos defeitos Melhorar o processo eliminando os defeitos Controlar performance de futuros processos

  • 5: Error Event Schema

  • 6: Audit Dimension

    Objetivos

    Capturar os metadatas completos para criao e

    contexto de qualidade de cada registro da tabela fato

    Anexar esses metadados para cada tabela fato como

    uma dimenso

    Use contexto de dimenso para os relatrios de

    auditoria instrumentado

  • 6: Attaching an Audit Dimension

  • 6: Instrumenting a Report With an Audit Dimension

  • 28: Sort Data Immediately After Extract

    A maioria dos processos de ETL precisam de dados classificados

    Escolher o tipo de recursos mais eficiente

    Combinar extrao, converso de formato e classificao em um passo.

    A sabedoria convencional diz que os pacotes dedicados so mais rpidos, no entanto, vendedores de ETL e DBMS afirmam j estarem se recuperando...

  • 7: Deduplicating

    Objetivos

    Membros dimensionados de-duplicados dentro e

    atravs de tabelas de dimenso

    Implementar procedimento de sobrevivncia para

    integrar os dados de fontes mltiplas

  • 7: Microsoft: Fuzzy Grouping Module for Deduplicating

  • 7:

    Microsoft:

    Fuzzy

    Grouping

    Detailed

    Results

  • 7: Oracle Match-Merge Wizard

  • 7. Oracle: Expanded Match-Merge Operator in Map

  • 7: Survivorship Drive Tables

  • 7. Multiple Sources and Duplicated Customers

    Design:

    Se a origem possui referncia

    duplicada ento se pode

    implementar dimenso multivalor

    com a tabela ponte

  • 8: Conforming

    Objetivos

    Habilitar o drill across em ambientes com mais de uma tabela fato

    Aplicar domnios comuns de dados para campos designados nas tabelas dimenses conformadas

    Aplicar as regras de negcio comuns para os campos designados nas tabelas fatos conformados

  • Key Concept: Conformed Dimensions

    Uma dimenso que um subconjunto perfeito de linhas e colunas considerado conformed dimension

    O contedo das colunas comuns devem ser equivalentes (mesmo domnio)

  • Drilling Across Means Combining Row Headers

    Abrir uma conexo separada para cada origem

    Reunir cada conjunto de resposta

    Fazer o merge do conjunto de resposta nos cabealhos de colunas conformed

    Product

    Manufacturing

    Shipments

    Warehouse

    Inventory Retail Sales Turns

    Framis 2940 1887 761 21

    Toggle 13338 9376 2448 14

    Widget 7566 5748 2559 23

  • 8: Conforming

    Questes de arquitetura preciso definir bem o que ser entregue pelo gerente

    da dimenso Apenas um subconjunto de dimenses ou dimenses completas Mapeamento das SK nas tabelas de destino Dimenses snowflake encolhidas para suportar agregados

    Precisa de detalhamento lgico para atualizar dimension version numbers

    Precisa de ferramenta instrumentada que realize drill across para usar dimension version numbers

    Os membros duplicados da dimenso precisam de ponteiros para todas as chaves naturais (NK) dos registros na origem

    Livro pp. 148-159, 447, 449

  • 7, 8: Deliver Cleaned, Deduplicated, Conformed, and Survived Dimensions

    Source 1

    Merged,

    Survived and

    Globally

    Deduped

    Source 2

    Extracted

    using adapter

    Cleaned and

    locally

    Deduplicated

    Conformed

    Source 3

    Conformed

    Dimension ready

    for Delivery

    Extracted

    using adapter

    Cleaned and

    locally

    Deduplicated

    Conformed

    Extracted

    using adapter

    Cleaned and

    locally

    Deduplicated

    Conformed

    Repli-

    cation

    Engine

    fd

    d

    d

    d

    fd

    d

    d

    d

    fd

    d

    d

    d

    fd

    d

    d

    d

    Special contents:

    1) dimension version number

    2) back pointers to all source

    natural keys

  • 25: Version Control

    Objetivos do controle de verso versionamento

    Conjunto de fotos armazenadas com o objetivo de salvar e restaurar o contexto completo do ETL.

    Numerar as verses

    Alternativas

    Microsoft Visual Source Safe

    Livro pp. 353-368, 413-416

  • 26: Version Migration

    Desenvolvimento Teste Produo Completar os testes da fase de desenvolvimento

    Scripts de testes automticos de regresso para desenvolvimento e teste

    Testes do sistema completos na fase de teste

    Simulado com volume de dados reais na fase de teste

    Migrao para prxima fase inclui transferncia automtica completa do contexto de ETL incluindo todas as conexes e perfis de usurios

    Migrao para fase de produo inclui Documentao de migrao Cenrio de rollback: re-extrair os dados

  • 27: Workflow Monitor

    Objetivos

    Monitorar status do job incluindo aqueles que ainda

    esto pendente, executando, completo ou suspenso

    nos registros histricos

    Mensurar performance da infraestrutura incluindo

    CPU, memria, disco, banco de dados e utilizao do

    servidor

    Livro pp. 332-339

  • 27: Monitor Process Metadata

    Notificao de dados atrasados

    Linhas carregadas com sucesso

    Linhas rejeitadas

    Tempo decorrido

    Linhas processadas por segundo

    Tempo estimado de concluso

    Utilizao da memria Memria compartilhada

    Tamanhos do buffer

    Processador, banco de dados, memria, disputa do disco

    Rotina de uso de tabelas, ndices, agregados

  • 27: Ascential Example of ETL Job Monitoring

    Higher level run results

    Lower level discrete

    row counts per partition

    (flow always runs in

    parallel)

  • 22: Loading the Data

    Desligue o log de rollback!

    Separe inserts de atualizaes a menos que usando "Upsert

    Carregar em paralelo

    Construir os agregados fora da base de dados

    Particionar a tabela fato na FK de data que os usurios mais usam

  • 22: The Order of Things

    A carga deve ser feita na seguinte ordem:

    Subdimenses

    Dimenses

    Tabelas ponte (bridge tables)

    Tabelas fato

    Dimenses agregadas (contradas)

    Tabelas fato agregada

  • 29: Lineage and Dependency

    Objetivos

    Lineage: comeando com um elemento de dados

    especficos em uma tabela intermediria ou um relatrio de um usurio final, identificar a origem dos dados, as tabelas intermedirias que contm aqueles dados e a origem deles, e todas as transformaes que o elemento de dados e a origem foram submetidas

    Dependncia: comeando com um elemento de dados especficos em uma tabela de origem ou uma tabela intermediria, identificar todas as tabelas intermedirias e relatrio de usurio final que contm esse elemento de dado ou derivado dele e todas as transformaes aplicadas no elemento de dado e suas derivaes

  • 29: Informatica Lineage Analysis

    This is

    selected BO table Oracle table

  • 29: Oracle: Impact Map

  • 29: Oracle Worst Case Scenario Impact Diagram

  • 30: Problem Escalation

    Objetivo

    Capturar, priorizar, gerenciar e comunicar todo

    desenvolvimento, manuteno e problemas

    operacionais

    Resposta garantida

    Nveis de escalonamento

    Help desk

    Administrador do sistema ou DBA

    Gerente de ETL

    Suporte ao desenvolvedor ou fornecedor responsvel

  • Defining Real-Time ETL

    Tudo que muito rpido para o seu ETL atual

    Alterar de batch ETL para streaming ETL

    Gerao 1 Armazenamento de dados operacionais

    Sistemas fisicamente separados entre OLTP e DW

    Gerao 2 Partio de tempo real

    Extenso fsica separada de tabela fato existente, contendo

    apenas as atividades novas desde a ltima carga das tabelas

    estticas

    Na memria, sem ndices, sem agregaes

  • Real Time Operational

    Architecture

    86

  • Real Time

    Data Extract & Transform

    Alterar captura de dados (Change data capture)

    Notificao do efeito colateral da aplicao

    Escutar as transaes de entrada

    Pegar frequentemente os campos atualizados na base de dados

    Pegar frequentemente os log de transao

    Extrao

    Microbatch envia e recebe arquivos do staging file

    Transformao

    Estrutura e transformao limitada pela latncia

    Regras de negcio devem ser limitadas ou inviveis

    Os dados do real time podem ser substitudos por processos batch

    peridicos

  • Real Time Integration

    Gerenciando a dimenso (usando como exemplo o cliente)

    Ligar a identificao do cliente em tempo real com lista j existente

    Publicar lista temporria de novos clientes para a partio real time

    Tipo 1 atualiza a lista temporria mltiplas vezes ao dia

    Atualizao permanente da lista esttica de clientes na base batch

    Provedor da tabela fato (usando como exemplo o carregamento)

    Dividir as linhas de transferncia em tempo real em parties RT

    Responder s atualizaes das dimenses intra-day da DM

    Atualizar permanentemente a tabela de fatos estticos na base batch

  • Real Time Data Presentation

    Adicionar diariamente, na memria hot partition para cada tipo de tabela fato. A partio:

    contm todas as atividades desde a ltima

    atualizao do data warehouse esttico. Tabelas

    estticas so atualizadas uma vez a cada 24 horas.

    Conectar o mais prximo possvel ao gro da tabela

    fato esttica

    No indexado, assim dados novos de entrada

    podem entrar continuamente

    Suporta consultas altamente responsivas

    Tem backup no log de arquivo de disco caso tenha

    perdido a memria

    89

  • Transaction Grain Hot Partition

    Estrutura dimensional idntica como as tabelas fatos estticas

    Sem ndices (!), sem agregaes, tudo na memria

    Exemplo 10 milhes transaes/dia

    12 dimenses, 8 fatos = 80B 800 MB/dia

    Ferramenta de BI pesquisa periodicamente a base de dados com consultas idnticas se estiver usando tabelas estticas e hot tables, juntando-as. No h necessidade de consulta separada se a hot partition for uma partio real.

  • Transaction Grain Dimensions

    Registros necessrios de dimenso esttica so selecionados de entradas conhecidas as chaves naturais a medida que as transaes chegam, construindo um subconjunto de dimenso mnima na memria

    Entradas vazias de dimenso genrica so criadas para as transaes com chaves naturais (NK) de entrada desconhecidas cujo significado est atrasado

    As dimenses genricas vazias so parcialmente preenchidas posteriormente com valores dimensionais

    atrasados

  • Periodic Snapshot Hot Partition

    Hot partition o perodo evolutivo atual, atualizados continuamente at o final do perodo

    Fatos so substitudos continuamente

    Copiar as fotografias de todas as contas na hot partition no incio do perodo, mas teremos novas contas

    Em um banco com 20 milhes de contas,

    com 5 dimenses + 10 fatos:

    60 B x 20 milhes = 1.2 GB na hot partition

  • Hot Partition = ODS-Like

    Source Batch extract (todas as noites)

    Usar a partio quente para atualizar o lote se os dados no estiverem corrompidos

    Acrescentar os registros da fato nas tabelas fatos estticas

    Inserir/Atualizar os registros alterados da dimenso tabela de dimenso esttica

    Zerar a hot partition

    Ou, batch extract do sistema origem

    Use o arquivo original do sistema fonte se o arquivo possuir melhores regras de negcio

    Neste caso, o ETL convencional carrega a cada 24 horas

    Descartar a hot partition

  • Micro Batch ETL

  • Real Time Data Delivery Requires Hub-and-Spoke

  • Implement Real Time DW in EAI Environment

  • Zero Latency Enterprise Information Integration (EII)

    Direcionar OLTP para acabar com a planilha do usurio !

    Transformaes e integraes apenas no software

    Pros: Por definio zero de latncia/atraso

    Contra: sistemas OLTP manipulam toda a carga de consulta

    Considerar necessidade de novos ndices e agregaes

    Considerar as questes de OLTP a medida que afeta as ferramentas de consultas

    Contra: No h dados de teste

    Contra: Transformaes limitadas

    Contra: O histrico limitado ao que o OLTP fornece