02 data warehouse

54
1 Data Warehouse Professor Professor Edson Emílio Scalabrin telefone: 0xx41-271-2539 e-mail: [email protected] download: http://www.ppgia.pucpr.br/~scalabrin

Upload: jairson-monteiro

Post on 08-Aug-2015

30 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 02 Data Warehouse

1

Data Warehouse

ProfessorProfessor Edson Emílio Scalabrin

telefone: 0xx41-271-2539e-mail: [email protected]

download: http://www.ppgia.pucpr.br/~scalabrin

Page 2: 02 Data Warehouse

2

ObjetivoObjetivo

Apresentar:Apresentar:• conceitosconceitos• as características de um Data Warehouseas características de um Data Warehouse• algumas arquiteturasalgumas arquiteturas• Modelos de dadosModelos de dados• Desenvolvimento do Data WarehouseDesenvolvimento do Data Warehouse• Povoamento do Data WarehousePovoamento do Data Warehouse• Extração de informações do Data WarehouseExtração de informações do Data Warehouse• Análise do uso da tecnologia Data WarehouseAnálise do uso da tecnologia Data Warehouse

Page 3: 02 Data Warehouse

3

PlanoPlano

CONCEITOSCONCEITOS As Características de um Data Warehouse Algumas arquiteturasAlgumas arquiteturas Modelos de dadosModelos de dados Desenvolvimento do Data WarehouseDesenvolvimento do Data Warehouse Povoamento do Data WarehousePovoamento do Data Warehouse Extração de informações do Data WarehouseExtração de informações do Data Warehouse Análise do uso da tecnologia Data WarehouseAnálise do uso da tecnologia Data Warehouse

Page 4: 02 Data Warehouse

4

Data WarehouseData Warehouse

Definição I:Definição I:• “ “ É uma coleção de dados orientados por É uma coleção de dados orientados por

assuntos, integrados, variáveis no tempo e assuntos, integrados, variáveis no tempo e não voláteis, para dar suporte ao processo não voláteis, para dar suporte ao processo gerencial de tomada de decisão ” [ Inmon ]gerencial de tomada de decisão ” [ Inmon ]

Page 5: 02 Data Warehouse

5

Data WarehouseData Warehouse

Definição II:Definição II:• “ “ É um processo em andamento que aglutina É um processo em andamento que aglutina

dados de fontes heterogêneas, incluindo dados de fontes heterogêneas, incluindo dados históricos e dados externos para dados históricos e dados externos para atender às necessidades de consultas atender às necessidades de consultas estruturadas e estruturadas e ad-hocad-hoc, relatórios analíticos e , relatórios analíticos e de suporte a decisão ” [Harjinder ]de suporte a decisão ” [Harjinder ]

Page 6: 02 Data Warehouse

6

Data WarehouseData Warehouse

Definição III:Definição III:• “ “ É uma coleção de técnicas e tecnologias É uma coleção de técnicas e tecnologias

que juntas disponibilizam um enfoque que juntas disponibilizam um enfoque pragmático e sistemático para tratar com o pragmático e sistemático para tratar com o problema do usuário final de acessar problema do usuário final de acessar informações que estão distribuídas em informações que estão distribuídas em vários sistemas da organização ” vários sistemas da organização ” [ Barquini ][ Barquini ]

Page 7: 02 Data Warehouse

7

Dados operacionais Dados operacionais vs.vs. Data Data WarehouseWarehouse

Características BD Operacional Data WarehouseObjetivo Operações diários do negócio Analisar o negócio

Uso Operacional Informativo

Tipo de processamento OLTP OLAP

Unidade de trabalho Inclusão, alteração, exclusão Carga e consulta

Número de usuários Milhares Centenas

Tipo de usuário Operadores Comunidade gerencial

Interação do usuário Somente pré-definida Pré-definida e ad-hoc

Condições dos dados Dados operacionais Dados Analíticos

Volume Megabytes - gigabytes Gigabytes - terabytes

Histórico 60 a 90 dias 5 a 10 anos

Page 8: 02 Data Warehouse

8

Dados operacionais Dados operacionais vs.vs. Data Data WarehouseWarehouse

Características BD Operacional Data WarehouseGranularidade Detalhados Detalhados e resumidos

Redundância Não ocorre Ocorre

Estrutura Estática Variável

Manutenção desejada Mínima Constante

Acesso a registros Dezenas Milhares

Atualização Contínua (tempo real) Periódica (batch)

Integridade Transação A cada atualização

Número de índices Poucos / simples Muitos / complexos

Intenção dos índices Localizar um registro Aperfeiçoar consultas

Page 9: 02 Data Warehouse

9

Componente de um Data Componente de um Data WarehouseWarehouse

DadosOperacionais

DadosExternos

Qualquer fonte

DataWarehouse

Qualquer Dado Qualquer acesso

Ferramentasde OLAP

Aplicativos

Ferramentasde consultas(relatórios)

Data Warehouse não é o fim, ele é um meio que as empresas dispõem para analisar informações podendo utilizá-las para a melhoria dos processos atuais e futuros

Page 10: 02 Data Warehouse

10

PlanoPlano

ConceitosConceitos AS CARACTERÍSTICAS DE UM DATA

WAREHOUSE Algumas arquiteturasAlgumas arquiteturas Modelos de dadosModelos de dados Desenvolvimento do Data WarehouseDesenvolvimento do Data Warehouse Povoamento do Data WarehousePovoamento do Data Warehouse Extração de informações do Data WarehouseExtração de informações do Data Warehouse Análise do uso da tecnologia Data WarehouseAnálise do uso da tecnologia Data Warehouse

Page 11: 02 Data Warehouse

11

Data Warehouse Características

Orientação por assuntoOrientação por assunto IntegraçãoIntegração Variação no tempoVariação no tempo Não volatilidadeNão volatilidade LocalizaçãoLocalização Credibilidade dos dadosCredibilidade dos dados GranularidadeGranularidade MetadadosMetadados

Page 12: 02 Data Warehouse

12

Data Warehouse Características

Orientação por assuntoOrientação por assunto• Um DW sempre armazena dados importantes sobre Um DW sempre armazena dados importantes sobre

temas específicos da empresa e conforme o interesse temas específicos da empresa e conforme o interesse das pessoas que irão utilizá-lo.das pessoas que irão utilizá-lo.

Exemplo:Exemplo:• Uma empresa pode trabalhar com vendas de produtos Uma empresa pode trabalhar com vendas de produtos

alimentícios no varejo e o seu maior interesse ser o perfil alimentícios no varejo e o seu maior interesse ser o perfil de seus compradores, então o DW será voltado para as de seus compradores, então o DW será voltado para as pessoas que compram seus produtos e não para os pessoas que compram seus produtos e não para os produtos que ela vende.produtos que ela vende.

Page 13: 02 Data Warehouse

13

Data Warehouse Características

IntegraçãoIntegração

Incompatibilidade: mesmo elemento, nomes diferentes

Incoerência: diferentes elementos, mesmo nome

Aplicação A

Aplicação B

Aplicação C

(a)

Valor atual,2 anos

Aplicação AAplicação B

Aplicação C

Valor atual,1 ano

Valor atual,3 meses

Valor atual,6 meses

(b)

Page 14: 02 Data Warehouse

14

Data Warehouse Características

Integração de dadosIntegração de dadosOPERACIONAL DATA WAREHOUSEAplicação A: m,fAplicação B: 1,0Aplicação C: masculino, feminino

Aplicação A: caminho - centímetrosAplicação B: caminho - pés Aplicação C: caminho - jardas

Aplicação A: descriçãoAplicação B: descrição Aplicação C: descrição

Aplicação A: chave char(10)Aplicação B: chave dec fixed(9,2)Aplicação C: chave char(12)

sexo: m, f

caminho: centímetros

Chave char(12)

? descrição

Page 15: 02 Data Warehouse

15

Data Warehouse Características

Integração de dadosIntegração de dadosDATA WAREHOUSE

- Maria Silva - Feminino- Nascida em 01/12/68- Duas internações em 2000- Equipe médica- Duração média das internações- Exames requeridos- Resultados dos exames- Casada - 2 filhos

Plano de Saúde- Maria Silva - Feminino- 01/12/68

Clinica- Maria Silva- Duas internações em 2000- Equipe médica- Duração média das internações

Laboratório de Exames- Maria Silva- Exames requeridos- Resultados

OPERACIONAL

Page 16: 02 Data Warehouse

16

Data Warehouse Características

Variação no tempoVariação no tempoOperacional Atômico Departamental Individual

Maria SilvaRua XV, 02Medicação: X, YEntrada: 05/11/00Alta: 10/11/00

Janeiro 4101Fevereiro 4209Março 4175Abril 4215............

Pacientes desde1980 tomando o medicamento X e com período de internação superior à 5 dias

Quais são medicamentosministrados à Maria Silvaneste momento?

Quais foram osmedicamentos ministrados à Maria Silva nos últimos 5 anos?

Estamos atendendo mais ou menos pacientes ao longo do tempo?

Quais são os riscos(tendências) em relação aos pacientes que foram vitimas de infeção hospitalar?

Maria SilvaRua 24 horas, 12Medicação: X, ZEntrada: 01/03/98Alta: 10/03/98

Maria SilvaRua XV, 02Medicação: X, YEntrada: 10/11/00Alta: 10/11/00

Page 17: 02 Data Warehouse

17

Data Warehouse Características

Não volatilidadeNão volatilidade

OPERACIONAL

alterarincluir

acessar

excluirincluir

alterar

excluir

DATA WAREHOUSE

carregaracessar

Page 18: 02 Data Warehouse

18

Data Warehouse Características

LocalizaçãoLocalização

Dados detalhadosantigos

Dados detalhadosatuais

Dados levementeresumidos

Dados altamenteresumidos

Formas de Formas de armazenamento:armazenamento:

• único localúnico local(centralizado)(centralizado)

• por área de por área de interesseinteresse(distribuído)(distribuído)

• por nível de por nível de detalhesdetalhes

Page 19: 02 Data Warehouse

19

Data Warehouse Características

Credibilidade dos dadosCredibilidade dos dados• É o mais importante para o sucesso de É o mais importante para o sucesso de qualquer qualquer

projetoprojeto• Discrepâncias Discrepâncias simples de todo tiposimples de todo tipo podem causar sérios podem causar sérios

problemas quando se quer extrair dados para suportar problemas quando se quer extrair dados para suportar decisões estratégicas para o negócio das empresas;decisões estratégicas para o negócio das empresas;

• Dados não dignos de confiança podem resultar em Dados não dignos de confiança podem resultar em relatórios inúteis, que não tem importância algumarelatórios inúteis, que não tem importância alguma

– por exemplo, uma lista de pacientes do sexo masculino e por exemplo, uma lista de pacientes do sexo masculino e grávidos;grávidos;

Page 20: 02 Data Warehouse

20

Data Warehouse Características

GranularidadeGranularidade• BaixaBaixa

– é possível responder a praticamente qualquer consultaé possível responder a praticamente qualquer consulta– porémporém, grande quantidade de recursos computacionais , grande quantidade de recursos computacionais

é necessária para responder perguntas específicasé necessária para responder perguntas específicas• AltaAlta

– ocorre uma significativa redução da possibilidade de ocorre uma significativa redução da possibilidade de utilização dos dados para atender consultas detalhadasutilização dos dados para atender consultas detalhadas

– porémporém, reduz-se muito o espaço em disco e o número de , reduz-se muito o espaço em disco e o número de índices necessáriosíndices necessários

Page 21: 02 Data Warehouse

21

Data Warehouse Características

Exemplo de níveis de granularidadeExemplo de níveis de granularidade

Prod. Data Qtda. ValorA1 13/9/00 10 100,00B1 14/9/00 15 150,00A1 16/9/00 20 200,00A1 16/9/00 90 890,00

mês/ano Prod. Qtda. Valor09/00 A1 120 1190,0009/00 B1 15 150,00

Baixa Alta

Page 22: 02 Data Warehouse

22

Data Warehouse Características

Três diferentes camadas:Três diferentes camadas:• operacionais, centrais do Data Warehouse, nível do usuáriooperacionais, centrais do Data Warehouse, nível do usuário

Três diferentes componentes:Três diferentes componentes:• Mapeamento:Mapeamento: descrevem como os dados de sistemasdescrevem como os dados de sistemas operacionais operacionais

são transformados antes de entrarem no DWsão transformados antes de entrarem no DW• Histórico:Histórico: descrevem as regras corretas a serem aplicadas nos descrevem as regras corretas a serem aplicadas nos

dados corretos quando as regras de negócio mudamdados corretos quando as regras de negócio mudam• Algoritmos de sumarização:Algoritmos de sumarização:

– mostram a relação entre os diferentes níveis de detalhes dos dados, mostram a relação entre os diferentes níveis de detalhes dos dados, indicando inclusive que nível de sumarização é mais adequado para um indicando inclusive que nível de sumarização é mais adequado para um dado objetivo.dado objetivo.

MetadadosMetadados

Page 23: 02 Data Warehouse

23

Data Warehouse Características

Fontes de metadadosFontes de metadados• Repositórios de ferramentas CASERepositórios de ferramentas CASE• Documentação do desenvolvimento dos sistemas Documentação do desenvolvimento dos sistemas

operacionaisoperacionais• Código fonte dos sistemas operacionaisCódigo fonte dos sistemas operacionais• EntrevistasEntrevistas• O próprio ambiente do Data WarehouseO próprio ambiente do Data Warehouse

– informações tais como freqüência da acesso, em que nível de informações tais como freqüência da acesso, em que nível de agregação, tempo de resposta de cada consulta, etc..agregação, tempo de resposta de cada consulta, etc..

Page 24: 02 Data Warehouse

24

PlanoPlano

ConceitosConceitos As características de um Data WarehouseAs características de um Data Warehouse ALGUMAS ARQUITETURASALGUMAS ARQUITETURAS Modelos de dadosModelos de dados Desenvolvimento do Data WarehouseDesenvolvimento do Data Warehouse Povoamento do Data WarehousePovoamento do Data Warehouse Extração de informações do Data WarehouseExtração de informações do Data Warehouse Análise do uso da tecnologia Data WarehouseAnálise do uso da tecnologia Data Warehouse

Page 25: 02 Data Warehouse

25

ArquiteturaArquiteturaGenérica de um D/WGenérica de um D/W

Camadas de bancos de dados operacionais e fontes externas: Camadas de bancos de dados operacionais e fontes externas: • É composto pelos dados dos sistemas operacionais das empresas e É composto pelos dados dos sistemas operacionais das empresas e

informações provenientes de fontes externas que serão integradas para compor informações provenientes de fontes externas que serão integradas para compor o DWo DW..

Camada de acesso a informação: Camada de acesso a informação: • Envolve o Envolve o hardwarehardware e o e o softwaresoftware utilizado para obtenção de relatórios, planilhas, utilizado para obtenção de relatórios, planilhas,

gráficos e consultas. gráficos e consultas. • É nesta camada que os usuários finais interagem com o DW, utilizando É nesta camada que os usuários finais interagem com o DW, utilizando

ferramentas de manipulação, análise e apresentação dos dados, incluindo-se as ferramentas de manipulação, análise e apresentação dos dados, incluindo-se as ferramentas de data-mining e visualização.ferramentas de data-mining e visualização.

Camada de acesso aos dados: Camada de acesso aos dados: • Esta camada faz a ligação entre as ferramentas de acesso à informação e os Esta camada faz a ligação entre as ferramentas de acesso à informação e os

bancos de dados operacionais. bancos de dados operacionais. • Esta camada se comunica com diferentes sistemas de bancos de dados, sistemas Esta camada se comunica com diferentes sistemas de bancos de dados, sistemas

de arquivos e fontes sob diferentes protocolos de comunicação, o que se chama de arquivos e fontes sob diferentes protocolos de comunicação, o que se chama acesso universal de dadosacesso universal de dados..

Page 26: 02 Data Warehouse

26

ArquiteturaArquiteturaGenérica de um D/WGenérica de um D/W

Camada de metadados (Dicionário de dados): Camada de metadados (Dicionário de dados): • Metadados são as informações que descrevem os dados utilizados pela Metadados são as informações que descrevem os dados utilizados pela

empresaempresa– descrições de registros, comandos de criação de tabelas, diagramas descrições de registros, comandos de criação de tabelas, diagramas

Entidade/Relacionamentos (E-R), dados de um dicionário de dados, etc.Entidade/Relacionamentos (E-R), dados de um dicionário de dados, etc. Camada de gerenciamento de processos: Camada de gerenciamento de processos:

• É a camada responsável pelo gerenciamento dos processos que contribuem É a camada responsável pelo gerenciamento dos processos que contribuem para manter o DW atualizado e consistente. para manter o DW atualizado e consistente.

Camada de transporte:Camada de transporte:• Esta camada gerencia o transporte de informações pelo ambiente de rede. Esta camada gerencia o transporte de informações pelo ambiente de rede.

Inclui a coleta de mensagens e transações e se encarrega de entregá-las em Inclui a coleta de mensagens e transações e se encarrega de entregá-las em locais e tempos determinados.locais e tempos determinados.

Camada do Camada do Data WarehouseData Warehouse: : • Corresponde aos dados utilizados para obter informações. Corresponde aos dados utilizados para obter informações.

Page 27: 02 Data Warehouse

27

ArquiteturaArquiteturaGenérica de um D/WGenérica de um D/W

Page 28: 02 Data Warehouse

28

ArquiteturaArquitetura2o. 2o. ChaudhuriChaudhuri

Um componente Um componente back endback end:: conjunto de aplicações responsáveis por extrair, conjunto de aplicações responsáveis por extrair, filtrar, transformar, integrar e carregar os dados de diferentes origens no DW; filtrar, transformar, integrar e carregar os dados de diferentes origens no DW;

Um componente Um componente front endfront end:: conjunto de aplicações responsáveis por conjunto de aplicações responsáveis por disponibilizar aos usuários finais acesso ao DW; disponibilizar aos usuários finais acesso ao DW;   

Um repositório para armazenar e gerenciar os metadados do sistema. Um repositório para armazenar e gerenciar os metadados do sistema.

Data Warehouse

(SGBD)

Componenteback-end

Componente front-end

Repositório de metadados

Fontes internas

Fontes externas

Page 29: 02 Data Warehouse

29

ArquiteturaArquitetura: : 2o. 2o. ChaudhuriChaudhuriO fluxo de dadosO fluxo de dados

Repositório de metadados

Downflow

Data Warehouse

Fontes internas Fontes

externas

Dados antigos

OutflowUpflow

Inflow

Metaflow

Componente front-end

Componente

back-end

Page 30: 02 Data Warehouse

30

ArquiteturaArquitetura: : 2o. 2o. ValenteValente

Base de dados

Base de dados

Base de dados

Integrador

Extrator

Extrator

Extrator

Data warehouse

Consultas

Page 31: 02 Data Warehouse

31

Modelo de dados idealModelo de dados ideal

Page 32: 02 Data Warehouse

32

Arquitetura de dados

Dados detalhadosantigos

Dados detalhadosatuais

Dados levementeresumidos

Dados altamenteresumidos

Forma de armazenamento:Forma de armazenamento:• único localúnico local ( (centralizado)centralizado)

Servidor central

Page 33: 02 Data Warehouse

33

Arquitetura de dados

Dados detalhadosantigos

Dados detalhadosatuais

Dados levementeresumidos

Dados altamenteresumidos

Forma de armazenamento:Forma de armazenamento:• por área de interessepor área de interesse (distribuído)(distribuído)

Servidor Área Financeira

Servidor Área Marketing

Page 34: 02 Data Warehouse

34

Arquitetura de dados

Dados detalhadosantigos

Dados detalhadosatuais

Dados levementeresumidos

Dados altamenteresumidos

Forma de armazenamento:Forma de armazenamento:• por nível de detalhespor nível de detalhes

ServidorDW

ServidorS1

ServidorS2

Page 35: 02 Data Warehouse

35

PlanoPlano

ConceitosConceitos As características de um Data WarehouseAs características de um Data Warehouse Algumas ArquiteturasAlgumas Arquiteturas MODELO DE DADOSMODELO DE DADOS Desenvolvimento do Data WarehouseDesenvolvimento do Data Warehouse Povoamento do Data WarehousePovoamento do Data Warehouse Extração de informações do Data WarehouseExtração de informações do Data Warehouse Análise do uso da tecnologia Data WarehouseAnálise do uso da tecnologia Data Warehouse

Page 36: 02 Data Warehouse

36

MetadadosMetadados

Definição:Definição:• (a)(a) metadados são normalmente definidos como metadados são normalmente definidos como dados sobre dados sobre

os dadosos dados. . • (b)(b)  metadado é uma abstração dos dados, ou ainda, dados de metadado é uma abstração dos dados, ou ainda, dados de

mais alto nível que descrevem dados de um nível inferior. mais alto nível que descrevem dados de um nível inferior. Deve-se destacar que sem metadados, os dados Deve-se destacar que sem metadados, os dados

não têm significado. não têm significado. ExemploExemplo

• aas descrições de registros em um programa de aplicação ou o s descrições de registros em um programa de aplicação ou o esquema de um banco de dados descrito em seu catálogo ou esquema de um banco de dados descrito em seu catálogo ou ainda as informações contidas em um dicionário de dados. ainda as informações contidas em um dicionário de dados.

Page 37: 02 Data Warehouse

37

MetadadosMetadados

CCamadas de metadados em um data warehouse:amadas de metadados em um data warehouse:• metadados operacionais:metadados operacionais:

– definem a estrutura dos dados mantidos pelos bancos definem a estrutura dos dados mantidos pelos bancos operacionais, usados pelas aplicações de produção da empresa; operacionais, usados pelas aplicações de produção da empresa;

• metadados centrais do data warehousemetadados centrais do data warehouse: : – distinguem-se por serem orientados por assuntodistinguem-se por serem orientados por assunto.. Incluem Incluem

definições de agregados e campos calculados, assim como definições de agregados e campos calculados, assim como visões sobre cruzamentos de assuntos. visões sobre cruzamentos de assuntos.

• metadados do nível do usuário:metadados do nível do usuário: – mapeam os metadados do data warehouse para conceitos que mapeam os metadados do data warehouse para conceitos que

sejam familiares e adequados aos usuários finais. sejam familiares e adequados aos usuários finais.

Page 38: 02 Data Warehouse

38

MetadadosMetadados

Classificação de Classificação de metadados: metadados: • mapeamento:mapeamento:

– descrevem como os dados de bancos operacionais são transformados descrevem como os dados de bancos operacionais são transformados para chegarem ao data warehouse. Incluem identificação de campos para chegarem ao data warehouse. Incluem identificação de campos fontes, mapeamentos entre atributos, conversões, codificações, fontes, mapeamentos entre atributos, conversões, codificações, "defaults", etc.; "defaults", etc.;

• histórico:histórico: – mantém o histórico de mudanças das regras do negócio, pois as mantém o histórico de mudanças das regras do negócio, pois as

regras certas devem ser aplicadas aos dados certos, quando se regras certas devem ser aplicadas aos dados certos, quando se consideram evoluções ao longo do tempo; consideram evoluções ao longo do tempo;

• miscelânea:miscelânea: – informação de status sobre estágios de desenvolvimento de partes do informação de status sobre estágios de desenvolvimento de partes do

data warehouse, informações sobre volume dos dados (para data warehouse, informações sobre volume dos dados (para estimativas de tempo e recursos), etc.; estimativas de tempo e recursos), etc.;

Page 39: 02 Data Warehouse

39

MetadadosMetadados

Classificação de Classificação de metadados: metadados: • algoritmos de sumarização: algoritmos de sumarização:

– mostram a relação entre os diferentes níveis de mostram a relação entre os diferentes níveis de detalhe dos dados, indicando inclusive que nível de detalhe dos dados, indicando inclusive que nível de sumarização é mais adequado para um dado objetivo; sumarização é mais adequado para um dado objetivo;

• padrões de acesso:padrões de acesso: – mantém informações sobre freqüência e tipo de mantém informações sobre freqüência e tipo de

acesso aos dados. acesso aos dados.

Page 40: 02 Data Warehouse

40

PlanoPlano

ConceitosConceitos As características de um Data WarehouseAs características de um Data Warehouse Algumas ArquiteturasAlgumas Arquiteturas Modelo de dadosModelo de dados Esquema: Estrela ou Foco de NeveEsquema: Estrela ou Foco de Neve Povoamento do Data WarehousePovoamento do Data Warehouse Extração de informações do Data WarehouseExtração de informações do Data Warehouse Análise do uso da tecnologia Data WarehouseAnálise do uso da tecnologia Data Warehouse

Page 41: 02 Data Warehouse

41

Dimensões e Dimensões e bancos de dados bancos de dados relacionaisrelacionais

Esquema Estrela

Page 42: 02 Data Warehouse

42

Dimensões e Dimensões e bancos de dados bancos de dados relacionaisrelacionais

Esquema Foco de Neve

Page 43: 02 Data Warehouse

43

Multi-dimensionalMulti-dimensional

MODELOVan

CORAzul

VENDAS6

Van Vermelho 5Van Preta 4

Coupe Azul 3Coupe Vermelho 5Coupe Preta 5Sedan Azul 4Sedan Vermelho 3Sedan Preta 2

Banco de dados relacional

Azul6

Vermelho5

Preta4

3 5 54 3 2

MODELOVan

CoupeSedan

Matriz bidimensional

Azul6

Vermelho5

Preta4

3 5 54 3 2

MODELOVan

CoupeSedan

Totais consolidados em uma Representação multi-dimensional

Total151309

13 13 11Total 37

Page 44: 02 Data Warehouse

44

Níveis das dimensõesNíveis das dimensões

Page 45: 02 Data Warehouse

45

OLAP OLAP - - OOn-n-LLine ine AAnalytic nalytic PProcessingrocessing

TTipo de ipo de processo 1:processo 1:• Slide and diceSlide and dice

– Corresponde à técnica de mudar a ordem das Corresponde à técnica de mudar a ordem das dimensõesdimensões;;

– a mudança de orientação permite ao usuário a mudança de orientação permite ao usuário investigar diferentes inter-relacionamentos entre investigar diferentes inter-relacionamentos entre eles: eles:

– Qual é o item mais vendido em cada loja? Qual é o item mais vendido em cada loja? – Qual loja vende mais do item 3?Qual loja vende mais do item 3?

Page 46: 02 Data Warehouse

46

OLAP OLAP - - OOn-n-LLine ine AAnalytic nalytic PProcessingrocessing

TTipo de ipo de processo 2:processo 2: Drill downDrill down

• O "O "drill-downdrill-down" consiste em permitir ao usuário "descer" pelas " consiste em permitir ao usuário "descer" pelas hierarquias das dimensões: hierarquias das dimensões:

– é comum o usuário iniciar pelo nível resumido (tal como vendas nacionais, é comum o usuário iniciar pelo nível resumido (tal como vendas nacionais, por marca) e então seletivamente obter níveis de detalhe adicionais para por marca) e então seletivamente obter níveis de detalhe adicionais para seguir e explicar uma observação feita no nível resumido.seguir e explicar uma observação feita no nível resumido.

ExemploExemplo• Supondo que o produto da marca Supondo que o produto da marca MM tem o pior retorno de vendas em termos tem o pior retorno de vendas em termos

nacionais, o analista pode resolver examinar a venda da marca nacionais, o analista pode resolver examinar a venda da marca MM regionalmente regionalmente para ver se o problema está relacionado com a distribuição ou algum outro para ver se o problema está relacionado com a distribuição ou algum outro problema regional. problema regional.

OBS: são comuns processos de "OBS: são comuns processos de "drill-downdrill-down" segundo múltiplas hierarquias " segundo múltiplas hierarquias sobrepostas.sobrepostas.

Page 47: 02 Data Warehouse

47

PlanoPlano

ConceitosConceitos As características de um Data WarehouseAs características de um Data Warehouse Algumas ArquiteturasAlgumas Arquiteturas Modelo de dadosModelo de dados Esquema: Estrela ou Foco de NeveEsquema: Estrela ou Foco de Neve Abordagens para o desenvolvimento de um data Abordagens para o desenvolvimento de um data

warehousewarehouse Extração de informações do Data WarehouseExtração de informações do Data Warehouse Análise do uso da tecnologia Data WarehouseAnálise do uso da tecnologia Data Warehouse

Page 48: 02 Data Warehouse

48

Abordagens para o Abordagens para o desenvolvimento de um data desenvolvimento de um data

warehousewarehouse

Estratégia evolucionáriaEstratégia evolucionária Aspectos de ModelagemAspectos de Modelagem Etapas do desenvolvimento de um data warehouseEtapas do desenvolvimento de um data warehouse Relacional vs. multi-dimensionalRelacional vs. multi-dimensional Um ou mais bancos de dadosUm ou mais bancos de dados GranularidadeGranularidade Extração, Limpeza, Transformação e MigraçãoExtração, Limpeza, Transformação e Migração

• Extração, Transformação e Filtros, Incorporando Extração, Transformação e Filtros, Incorporando ModificaçõesModificações, , Derivação e SumarizaçãoDerivação e Sumarização

Page 49: 02 Data Warehouse

49

Abordagens para o Abordagens para o desenvolvimento de um data desenvolvimento de um data

warehousewarehouse

Estratégia evolucionáriaEstratégia evolucionária por assunto:por assunto:

• muitas empresas iniciam o processo a partir de uma área específica da muitas empresas iniciam o processo a partir de uma área específica da empresa, que normalmente é uma área carente de informação e cujo empresa, que normalmente é uma área carente de informação e cujo trabalho seja relevante para os negócios da empresa, criando os chamados trabalho seja relevante para os negócios da empresa, criando os chamados data martsdata marts (um data warehouse departamental), para depois ir crescendo (um data warehouse departamental), para depois ir crescendo aos poucos, seguindo uma estratégia aos poucos, seguindo uma estratégia assunto por assuntoassunto por assunto. .

por experimentação:por experimentação: • outra alternativa é selecionar um grupo de usuários, prover ferramentas outra alternativa é selecionar um grupo de usuários, prover ferramentas

adequadas, construir um protótipo do data warehouse, deixando que os adequadas, construir um protótipo do data warehouse, deixando que os usuários experimentem com pequenas amostras de dados. Somente após a usuários experimentem com pequenas amostras de dados. Somente após a concordância do grupo quanto aos requisitos e funcionamento, é que o data concordância do grupo quanto aos requisitos e funcionamento, é que o data warehouse será de fato carregado com dados dos sistemas operacionais da warehouse será de fato carregado com dados dos sistemas operacionais da empresa e dados externos. empresa e dados externos.

Page 50: 02 Data Warehouse

50

Abordagens para o Abordagens para o desenvolvimento de um data desenvolvimento de um data

warehousewarehouse

Aspectos de ModelagemAspectos de Modelagem• Os requisitos para um data warehouse não podem ser Os requisitos para um data warehouse não podem ser

conhecidos até que ele esteja parcialmente carregado e conhecidos até que ele esteja parcialmente carregado e já em uso.já em uso.

• Modelagem relacional (normalizada) não é apropriada. A Modelagem relacional (normalizada) não é apropriada. A alta fragmentação traz uma considerável complexidade à alta fragmentação traz uma considerável complexidade à formulação de uma consulta por um usuário finalformulação de uma consulta por um usuário final

Page 51: 02 Data Warehouse

51

Abordagens para o Abordagens para o desenvolvimento de um data desenvolvimento de um data

warehousewarehouse

Etapas do desenvolvimento de um data warehouseEtapas do desenvolvimento de um data warehouse• a identidade das tabelas de fatos:a identidade das tabelas de fatos:• a granularidade de cada tabela de fatos; a granularidade de cada tabela de fatos; • as dimensões de cada tabela de fatos; as dimensões de cada tabela de fatos; • os fatos pré-calculados; os fatos pré-calculados; • os atributos das dimensões; os atributos das dimensões; • a acompanhamento das mudanças graduais em dimensões; a acompanhamento das mudanças graduais em dimensões; • as agregações, dimensões heterogêneas, mini-dimensões e outras as agregações, dimensões heterogêneas, mini-dimensões e outras

decisões de projeto físico; decisões de projeto físico; • duração histórica do banco de dados; duração histórica do banco de dados; • a urgência com que se dá a extração e carga para o data warehouse.a urgência com que se dá a extração e carga para o data warehouse.

Page 52: 02 Data Warehouse

52

A tabela de fatos e suas dimensõesA tabela de fatos e suas dimensõesExemploExemplo

Page 53: 02 Data Warehouse

53

Abordagens para o Abordagens para o desenvolvimento de um data desenvolvimento de um data

warehousewarehouse

Relacional vs. multi-dimensionalRelacional vs. multi-dimensional• Quando utilizar um ou outroQuando utilizar um ou outro

Um ou mais bancos de dadosUm ou mais bancos de dados GranularidadeGranularidade

• Qual a implicação de uma granularidade alta?Qual a implicação de uma granularidade alta?• Qual a implicação de uma granularidade fina?Qual a implicação de uma granularidade fina?

Extração, Limpeza, Transformação e MigraçãoExtração, Limpeza, Transformação e Migração • Extração, Transformação e Filtros, Incorporando Extração, Transformação e Filtros, Incorporando

ModificaçõesModificações, , Derivação e SumarizaçãoDerivação e Sumarização

Page 54: 02 Data Warehouse

54

ExercícioExercício

Tabela tempo: ano, semestre, quadrimestre, trimestre, bimestre, mês, primeira semana, segunda semana, terceira semana, quarta semana, quinta semana, dia do mês, dia da semana, feriado, distância de um feriado.