tópicos avançados de bases de dados andré valente rodrigues 110370165 carlos filipe ribeiro...

Download Tópicos Avançados de Bases de Dados André Valente Rodrigues 110370165 Carlos Filipe Ribeiro Ferreira 060316048

Post on 17-Apr-2015

106 views

Category:

Documents

4 download

Embed Size (px)

TRANSCRIPT

  • Slide 1
  • Tpicos Avanados de Bases de Dados Andr Valente Rodrigues 110370165 Carlos Filipe Ribeiro Ferreira 060316048
  • Slide 2
  • Data Warehousing Data Warehouse BDOs vs DWs: BDOs DWs OLAP Cubos OLAP Exemplo de queries ad-hoc em excel Modelao dimensional Esquema em estrela Esquemas "Floco de Neve" e Constelaes de Fatos Arquitetura Data Warehousing Exemplo Prtico Utilidades e Ferramentas Back End Servidores de uma DW OLAP em BDOs Desafios Tipos de Servidores Metadata e Gesto de uma Warehouse 2/34
  • Slide 3
  • Data warehousing: coleo de tecnologias de suporte deciso, com o objetivo de permitir ao trabalhador (executivo, gestor, analista, etc.) tomar melhores e mais rpidas decises. O mercado de data warehousing explodiu tanto em nmero de produtos e servios oferecidos como na adoo destas tecnologias pela indstria. As tecnologias foram adotadas em imensas indstrias: - fabrico; - venda a retalho; - servios financeiros; - transportes; - telecomunicaes; - sade. 3/34
  • Slide 4
  • Data warehouse: uma coleo de dados no voltil, que varia no tempo, integrada e orientada para o utilizador que usada primeiramente na tomada de deciso organizacional. Tipicamente mantida separadamente das bases de dados operacionais das organizaes. Uma Data Warehouse (DW) suporta on-line analytical processing (OLAP). Uma Base de Dados Operacional (BDO) suporta on-line transaction processing (OLTP). Ambos tm requisitos de funcionalidade e de performance diferentes. 4/34
  • Slide 5
  • Aplicaes OLTP tipicamente automatizam tarefas como uma nova entrada na base de dados ou uma transao bancria que so tarefas dirias de uma organizao. Estas transaes requerem dados atualizados e detalhados. As bases de dados operacionais tendem a ter entre centenas de megabytes e gigabytes de tamanho. So desenhadas para refletir as semnticas operacionais de aplicaes conhecidas, em particular, para minimizar os conflitos de concorrncia. 5/34
  • Slide 6
  • Desenhadas para suporte deciso. Dados histricos, sumarizados e consolidados so mais importantes que entradas individuais detalhadas. Como tendem a conter dados consolidados de uma ou mais bases de dados tendem a ser ordens de magnitude maiores que estas. Warehouses de dados empresariais so projetadas para ser de centenas de gigabytes a terabytes em tamanho. As queries so intensivas por isso o throughput das queries e os tempos de resposta so mais importantes do que o throughput das transaes. 6/34
  • Slide 7
  • Para facilitar a visualizao, os dados so tipicamente modelados multidimensionalmente. Muitas vezes estas dimenses/atributos so hierrquicas: - tempo da venda pode ser organizado como uma hierarquia de dia-ms- trimestre-ano; - um produto pode ser organizado como uma hierarquia de produto-categoria- indstria. esta a tecnologia que oferece a interface para os utilizadores responsveis pelas tomadas de deciso. Operaes tpicas OLAP incluem: - rollup; - drill-down; - slide_and_dice; - pivot. 7/34
  • Slide 8
  • Apresentao ao utilizador da informao numa viso cbica, que se trata do output dos servidores OLAP, em que as dimenses e mtricas da DW so directamente mapeadas para este. Figura 1 Data Cube. 8/34
  • Slide 9
  • Figura 2 Exemplo de queries ad-hoc em excel. 9/34
  • Slide 10
  • Tabela de fatos Medidas numricas de performance; Granularidade da Tabela de Factos: Consiste no nvel de detalhe da DW em relao s transaces operacionais tendo por medida unidades de tempo. Evitar os Zeros (o que no aconteceu); Muitas Linhas, Poucas Colunas; 90% do espao; 2 ou mais Chaves Estrangeiras (FK); Chave Primria (composta). Figura 3 Tabela de fatos de vendas dirias. 10/34
  • Slide 11
  • Tabelas de Dimenses Descrio Textual do Negcio; Contm Atributos; Poucas Linhas(relativamente); Muitas Colunas; Chave Primria (PK) Integridade Referencial com factos; Respondem aos por: Vendas em por ms, por Cliente e por Artigo. Hierarquia de Dimenses (sem normalizao): Ex: Produtos->Marcas->Categorias. Figura 4 Tabela de Dimenses de Produtos. 11/34
  • Slide 12
  • Diagramas ER e tcnicas de normalizao so populares em ambientes OLTP. Diagramas ER so inapropriados para suporte deciso onde a eficincias das queries e no carregamento dos dados so importantes. Data Warehouses usam o esquema em estrela para representar modelos de dados multidimensionais. Figura 5 Esquema em estrela. 12/34
  • Slide 13
  • A hierarquia dimensional explicitamente representada normalizando as tabelas de dimenses. Figura 6 Esquema Floco de Neve. 13/34
  • Slide 14
  • Desvantagem: A estrutura desnormalizada das tabelas de dimenses em esquemas estrela pode ser mais apropriado para navegar nas dimenses. Constelaes de fatos: Estruturas mais complexas em que mltiplas tabelas de fatos partilham tabelas dimensionais. 14/34
  • Slide 15
  • Operational Source Systems(OSS): Transaces do Negcio; Performance e Disponibilidade; Heterogneos e no integrados. Data Staging Area: Storage + processos ETL ; Extraco de dados a partir dos OSS; Transformao (Limpeza de dados); Regra geral, BDs no Normalizadas; Carregamento (Loading) dos vrios Data Marts. Data PresentationArea: Conjunto de Data Marts; Estruturas (Modelos) Dimensionais: Baixa complexidade; Dados Atmicos. Factos e Dimenses Partilhados (Conformed ); Cubos OLAP. Data Access Tools: Ad-hoc queries acesso apenas a especialistas. ETL Extract Transform Load: Consiste no processo de transformao e passagem (load) dos dados para a DW; O ETL package, deve ser capaz de analisar o que h de novo na BD operacional, de modo a no momento do varrimento (refresh) actualizar a DW com sucesso, carregar a DW inteira no aplicvel isto s se deve fazer na primeira vez, estes updates DW so sempre feitos nas horas em que o sistema est menos sobrecarregado. Figura 7 Arquitetura Data Warehousing. 15/34
  • Slide 16
  • Esta DW pequena, teve origem na BD OLTP (Online Transaction Processing) proveniente da demonstrao do ERP da Primavera. Figura 8 Exemplo prtico de uma pequena DW. 16/34
  • Slide 17
  • Neste caso o que se esta a medir na tabela de factos so os dados relativos s vendas. As vendas so ento o somatrio das quantidades vendidas e totais ilquidos agrupados por artigo, entidade data e vendedor, esta agregao fcil de entender a olhar pela ilustrao a baixo. Neste caso TSQL. Figura 9 Screenshot dos valores retirados das BD e da DW. 17/34
  • Slide 18
  • Uma DW tem que ter sempre a dimenso tempo, pois deste que ela depende para organizar a sua granularidade. A DW no pode nunca conter valores nulos, regra geral o que se usa a substituio de nulos. Slowly changin dimensions, consiste em updates na base da dados operacional. ex: Produto = garrafa, Material = plstico passar a ser Material = vidro: Os tratamentos mais comuns so: De tipo 1 (no mantido histrico); De tipo 2 (todo o histrico mantido); De tipo 3 ( apenas mantido um histrico recente). Mapeamento Surrogate Key, Natural Key: Consiste num sistema de pk-fk interno DW, para ligar os factos s dimenses. Os dados da DW nunca so removidos. 18/34
  • Slide 19
  • Ferramentas de migrao dos dados. Ferramentas de data scrubbing. Ferramentas de audio dos dados. 19/34
  • Slide 20
  • Load Batch Load: processamento adicional para carregar os dados para uma data warehouse (toda a computao necessria para criar as tabelas derivadas que so guardadas na data warehouse); monitorizar o estado, suspender, resumir e reiniciar um load (carga) para a base de dados. Refresh: Quando fazer refresh e como faz-lo; A poltica de refresh definida pelo administrador dependendo nas necessidades e trfego dos utilizadores e pode ser diferente para diferentes fontes. 20/34
  • Slide 21
  • Dado que as BDOs esto desenhadas para suportar os workloads de OLTP, executar queries OLAP complexas resultaria em performance inaceitvel. Suporte deciso requere dados que podem no estar numa BDO: - Dados histricos; - Dados consolidados de vrias fontes heterogneas. BDOs no providencionam os modelos multidimensionais de dados e a organizao dos dados especial e os mtodos de implementao e de acesso que OLAP requere. 21/34
  • Slide 22
  • Desafios: Escolher que ndices gerar e que vistas materializar. Usar efetivamente os ndices e as vistas para responder a queries. Otimizao das queries complexas. Melhorar a eficincia de scans. Paralelismo tem que ser explorado para reduzir os tempos de resposta a queries. 22/34
  • Slide 23
  • As operaes de reunio e de interseo de ndices podem ser usadas para reduzir significativamente o acesso s bases de dados. Os servidores de Warehouses conseguem utilizar ndices bit map que suportam operaes sobre ndices eficientes. A natureza dos esquemas em estrela torna a utilizao de ndices join especialmente atrativa para suporte deciso. ndices para suportar pesquisa de texto tambm so muito teis. 23/34
  • Slide 24
  • Materializar resumos de dados pode ajudar a acelerar muitas queries comuns (por ex: num ambiente de investimento a grande maioria das queries pode ser baseada na performance do ltimo trimestre ou no ano fiscal actual). Uma estratgia simples mas muito til para usar uma view a utilizao de selection ou rollup (ex: query que pede o total de venda das calas de determinada marca do ano. aplica-se a seleo para a marca de calas e de seguida faz-se rollup do trimestre para o ano). 24/34
  • Slide 25
  • Traduo de quer