data warehouse– aula 06 - professores...

49
Data Warehouse– Aula 06 Prof a Janniele Aparecida Soares Araujo CSI462 – Sistemas de Apoio à Decisão

Upload: others

Post on 22-Jun-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

Data Warehouse– Aula 06

Profa Janniele Aparecida Soares Araujo

CSI462 – Sistemas de Apoio à Decisão

Page 2: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

2

Introdução

● Cenário Inicial● Problemas necessidades?

Page 3: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

3

Introdução

● A informação é o melhor recurso do qual empresas podem dispor para tomar decisões.● Obtida analisando históricos sobre vendas, clientes, produtos, etc.● Dados conflitantes de fontes diversas podem gerar informações

desencontradas.

Page 4: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

4

Introdução

● A quantidade de dados a serem considerados cresce com a expansão do negócio e com o passar do tempo.● Data Warehouses auxiliam a resolver esses problemas ao prover

grandes quantidades de dados temporais integrados para análise.

Page 5: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

5

Histórico

● Criado pela IBM na década de 60 com o nome Information Warehouse.● Relançado diversas vezes sem sucesso.● O nome Data Warehouse foi dado por William Inmon, considerado o

pai desta tecnologia.● Tornou-se viável com o surgimento de novas tecnologias para

armazenar e processar uma grande quantidade de dados.

Page 6: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

6

Definição

”Conjunto de dados agrupados por assunto, integrados, variável em relação ao tempo e não volátil, que serve de suporte para o processo de tomada de decisões.”

Page 7: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

7

Definição

● Orientado a assunto● Um Data Warehouse está sempre orientado ao redor do principal

assunto da organização. Ao contrário de aplicações clássicas, orientadas por processos / funções.

Page 8: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

8

Definição

● Integrado● Os dados criados dentro de um ambiente de Data Warehouse são

integrados. A integração beneficia com a convenção consistente de nomes, estrutura consistente de códigos, etc.

Page 9: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

9

Definição

● Não volátil● Os dados nunca são excluídos nem alterados de um Data Warehouse.

Page 10: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

10

Definição

● Variante no tempo● Data Warehouse apresenta os dados com seu posicionamento em

relação ao tempo.

Page 11: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

11

Comparativo com o BD operacional

Aspecto BD Operacional Data Warehouse

Usuários Funcionários Alta administração

Utilização Tarefas cotidianas Decisões estratégicas

Padrão de uso Previsíveis Difícil de prever

Princípio de funcionamento Com base me transações Com base em análise de dados

Valores de dados Valores atuais e voláteis Valores históricos e imutáveis

Detalhamento Alto Sumarizado

Organização dos dados Orientado a aplicações Orientado a assunto

Page 12: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

12

Comparativo com o BD operacional

● Algumas diferenças adicionais do Data Warehouse para um BD operacional● Permitem a redundância de dados.● Buscas complexas e ad hoc (personalizadas pelo usuário).● Modelagem de dados multidimensional.

Page 13: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

13

Ambiente de Data Warehouse - Centralizado

Page 14: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

14

Ambiente de Data Warehouse – Data Marts

Page 15: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

15

Ambiente de Data Warehouse – Data Marts

● Data Mart● Subconjunto lógico de um Data Warehouse, um Data Warehouse

setorial.● Geralmente descritos como um subconjunto dos dados contidos em

um Data Warehouse extraído para um ambiente separado.● Diferentes setores são responsáveis por diferentes Data Marts.

Page 16: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

16

Ambiente de Data Warehouse

Page 17: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

17

Ambiente de Data Warehouse – Arquitetura Genérica

Page 18: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

18

Ambiente de Data Warehouse

● Ambiente de extração● Ferramentas ETL (Extraction, Transformation and Load): Consiste da

integração, limpeza e carga dos dados.● Os processos ETL consomem 70% do tempo de desenvolvimento em

um projeto de DW.● Estes processos são específicos para cada organização.● Opcionalmente, pode-se ter uma segunda área intermediária,

chamada Operational Data Store (ODS).

Page 19: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

19

Ambiente de Data Warehouse

● Ambiente de extração ODS● Dados mantidos como no ambiente operacional.● Dados não modelados para consultas gerenciais.● Úteis para recuperação de cargas problemáticas.● Enquanto na Staging Area a limpeza se resume à integridade das

informações, as regras de negócio são verficadas nos ODSs.● Por economia de espaço em disco, muitos DWs são implementados

sem ODS.

Page 20: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

20

Ambiente de Data Warehouse

● Ambiente de extração ODS

Page 21: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

21

Processo ETL

Page 22: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

22

Ambiente de Data Warehouse

● Extraction (E)● Busca das informações mais importantes em sistemas fontes ou

externos.● Com o decorrer do tempo a extração deve estar preparada apenas

para fazer cargas incrementais.

Page 23: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

23

Ambiente de Data Warehouse

● Transformation (T)● Não só transforma os dados, mas também realiza a limpeza dos

mesmos. Correção de erros de digitação, descoberta de violação de integridade, padronização de abreviaturas, etc.

● Características para garantir qualidade dos dados: unicidade, precisão, completude e consistência.

Page 24: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

24

Ambiente de Data Warehouse

● Load (L)● A carga é a fase na qual os dados são inseridos no DW.● Este processo é extremamente complexo pois é nesta fase que se

deve garantir a integridade dos dados armazenados no DW.

Page 25: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

25

Ambiente de Data Warehouse

● Transformação e integração dos dados● Transformação é o processo de formatação e modificação de dados

extraídos de várias origens para transformá-los em informações úteis ao DW.

● Os dados de origem são consistentes mas apresentados de diferentes formas.

Page 26: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

26

Ambiente de Data Warehouse

● Transformação e integração dos dados

Page 27: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

27

Arquitetura Data Warehouse

● Arquitetura Global● É integrado e suas informações são utilizadas por todos os

departamentos da empresa.● É projetado e construído baseado nas necessidades da empresa como

um todo.● Repositório comum de dados de suporte à decisão, disponível em

toda empresa.

Page 28: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

28

Arquitetura Data Warehouse

● Arquitetura Data Marts independentes● Possui um data mart para atender a cada departamento em

específico.● Não se tem acesso aos data marts de outros departamentos.

Page 29: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

29

Arquitetura Data Warehouse

● Arquitetura Data Marts integrados● Aumenta a capacidade e a qualidade da visão corporativa das

informações.● Os dados são compartilhados entre os data marts de diferentes

departamentos.

Page 30: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

30

Implementação de Data Warehouse

● Abordagem Top-Down● O modo como os dados serão armazenados e consultados nasce do

DW e posteriormente são distribuídos entre os Data Marts.● Tem objetivo de atender às necessidades da organização como um

todo e não departamentos isolados.● Modelo mais comum de implementação.● Demorada implementação e resultado apenas a longo prazo.

Page 31: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

31

Implementação de Data Warehouse

● Abordagem Top-Down

Page 32: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

32

Implementação de Data Warehouse

● As fases de um DW global (Top-Down)

Levantamentode todos os dados

e requisitos

Projeto lógico e físico

Projeto e Implementação

extração

Implementação das aplicações

clientes

Carga de dadosoperação e manutenção

Page 33: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

33

Implementação de Data Warehouse

● Vantagens da abordagem Top-Down● Herança de arquitetura.● Visão de empreendimento.● Controle e centralização da manutenção e da administração.

● Desvantagens da abordagem Top-Down● Implementação muito longa.● Alta taxa de riscos.● Expectativas relacionadas ao ambiente.

Page 34: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

34

Implementação de Data Warehouse

● Abordagem Bottom-Up● Parte dos Data Marts até compor o DW por completo.● Maior dificuldade na padronização dos dados.● Implementação mais rápida e manutenção mais fácil devido ao menor

tamanho das partes.

Page 35: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

35

Implementação de Data Warehouse

● Abordagem Bottom-Up

Page 36: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

36

Implementação de Data Warehouse

● As fases de um DW global (Bottom-Up)

Definição dos requisitos

departamentais

Projeto lógico e físico

Projeto e Implementação

extração

Implementação das aplicações

clientes

Carga de dadosoperação e manutenção

Page 37: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

37

Implementação de Data Warehouse

● Vantagens da abordagem Bottom-Up● Rápida implementação.● Retorno rápido.● Herança incremental.

● Desvantagens da abordagem Bottom-Up● Dificulta futuras integrações.● Coordenar múltiplas iniciativas.● Desafio de possuir a visão de empreendimento.

Page 38: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

38

Implementação de Data Warehouse

● Abordagem Híbrida● Combina características de ambas abordagens.● Planejamento geral da estruturação do DW para toda a organização

(conforme Top-Down).● Desenvolvimento dos data marts de forma graduada, apresentando

funcionalidades parciais.● A criação de cada data mart é padronizada para facilitar a integração

dos dados.● Garantia da consistência dos dados.

Page 39: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

39

Implementação de Data Warehouse

● As fases de um DW global (híbrida)

Levantamento dos requisitos

globais eespecificação

integração

Projeto lógico e físico

Projeto e implementação

extração

Implementação das aplicações

clientes

Carga de dadosoperação e manutenção

Levantamentodos requisitos

do departamento

Page 40: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

40

Implementação de Data Warehouse

● Vantagens da abordagem híbrida● A apresentação dos primeiros resultados é feita de modo mais rápido e barato

do que a abordagem global.● A integração entre data marts possibilita a unicidade de representação dos

dados e informações mais confiáveis por não existirem redundâncias.● Os mecanismos de extração são projetados uma única vez.

● Desvantagens da abordagem híbrida● Complicações políticas por conta da determinação da sequência de

implementação dos data marts e das prioridades de manutenção.● Metadado mais complexo para gerenciar a distribuição e integração dos dados.● Maior controle no nível de granularidade e nas manutenções das tabelas

compartilhadas.

Page 41: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

41

Metadados

● “Dados sobre dados”● Possuem papel de grande importância nos DW.● Especialmente na fase de desenvolvimento, onde especificam os

dados de variadas fontes.● Fontes de dados, como por exemplo, documentos, são mais fáceis de

usar e gerir se soubermos alguma coisa sobre elas, por exemplo, autor, data, assunto, edição etc. Este tipo de informação é o que consideramos metadados.

Page 42: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

42

Metadados

ID NOME COR PESO CIDADE

P1 PORCA VERMELHO 12 LONDRES

P2 TRINCO VERDE 17 PARIS

P3 PARAFUSO AZUL 17 ROMA

METADADOS

DADOS

Page 43: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

43

Metadados

Page 44: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

44

Oracle Database 12 Data Warehousing

Page 45: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

45

Oracle - Autonomous Data Warehouse Architecture

Page 46: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

46

Oracle - Autonomous Data Warehouse

Page 48: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

48

Revisão

1)Quais as características dos DW de acordo com sua definição?

2)Como os Data Warehouses auxiliam a tomada de decisão?

3)Cite 4 diferenças entre BD operacional e DW em relação aos aspectos.

4)Data Mart são subconjuntos Físicos ou Lógicos? Qual a sua finalidade?

5)Qual a finalidade da ferramenta ETL?

6)Qual as diferenças entre abordagens Top-Down e Botton-up?

Page 49: Data Warehouse– Aula 06 - Professores UFOPprofessor.ufop.br/sites/default/files/janniele/files/aula06_0.pdf · Ambiente de Data Warehouse – Data Marts Data Mart Subconjunto lógico

49

Bibliografia

● Tecnologia e Projeto de Data Warehouse. Machado, F.N.R.. São Paulo, Erica, 2010.

● Araujo, N. M. Notas de aula de Sistemas de Apoio à Decisão. Universidade Federal de Ouro Preto, 2013.