data warehouse

49
UNIVERSIDADE FEDERAL DA PARAÍBA CENTRO DE CIÊNCIAS APLICADAS E EDUCAÇÃO CAMPUS IV – LITORAL NORTE DISICPLINA: BANCO DE DADOS II PROFESSORA VANESSA DANTAS

Upload: thiago-oliveira

Post on 05-Jun-2015

5.026 views

Category:

Technology


3 download

TRANSCRIPT

Page 1: Data Warehouse

UNIVERSIDADE FEDERAL DA PARAÍBACENTRO DE CIÊNCIAS APLICADAS E EDUCAÇÃO

CAMPUS IV – LITORAL NORTE

DISICPLINA: BANCO DE DADOS IIPROFESSORA VANESSA DANTAS

Page 2: Data Warehouse

Data Warehouse & Data Mining

Thiago Oliveira

Page 3: Data Warehouse

Agenda

• Por que usar DW e DM?

• Data Warehouse– Características de um Data Warehouse– Dados (OLTP x OLAP)– Operational Data Storage – ODS– Data Marts– Arquiteturas– Tipos de Implementação– Granularidade dos Dados– Estudo de Caso

Page 4: Data Warehouse

Agenda

• Data Mining– Conceito– Dados, Informações e Conhecimento– Objetivos– Como implementar um DM– Aplicações de DM– Barreiras no uso de DM

Page 5: Data Warehouse

Por que usar DW e DM?

• Business Inteligence– Apoio à tomada de Decisões

• Customer Relationship Management (CRM)– Tratar clientes diferentes de forma diferente

• Várias Plataformas de hardware e Software

• Constantes alterações nos sistemas transacionais corporativos

Page 6: Data Warehouse

Data Warehouse

Page 7: Data Warehouse

Data Warehouse

• Para se construir deve-se utilizar uma ferramenta ETL (Extraction, Transformation, Load)

• Após a ETL, os dados são processados e armazenados no DW

• Nem todos os dados devem ser transferidos para um DW

• Os dados são organizados no DW de forma simples para o usuário final acessá-lo

Page 8: Data Warehouse

Características (1)

• Extração de Dados de fontes heterogêneas

• Transformação e integração de dados

• Visualização de dados em diferentes níveis

Page 9: Data Warehouse

Características (2)• Orientação por Assunto

Ambiente Transacional Data Warehouse

Pedido, nota fiscal

Ordem de produção, máquina

Falha, produto

Vendas

Produção

Qualidade

Page 10: Data Warehouse

Características (3)

• Variação de Tempo

– Precisão em relação ao tempo

– Data é elemento essencial e componente-chave

– Ao contrário de sistemas transacionais, DW tem espaços de tempo mais longos

Page 11: Data Warehouse

Características (4)

• Não Volátil

Bancos de Dados transacionais

Bancos de Dados Data Warehouse

Incluir

Excluir

Acessar

Alterar

Incluir

Acessar

Page 12: Data Warehouse

Características (5)

• Integração

DW

Sexo “Masculino”Sexo “Feminino”

Sexo “1”Sexo “2”

ExtraçãoFiltro

Sexo “M”Sexo “F”

Page 13: Data Warehouse

Dados (OLTP x OLAP)OLTP:(Online Transactional Processing)

• Do negócio• Transacional• Operacional• Volátil• Não-padronizado

OLAP:(Online Analytical Processing)

• Sobre o Negócio• Analítico• Estratégico• Não-Volátil• Padronizado

• ROLAP (Relacional)• MOLAP (Multi)• DOLAP (Desktop)

Page 14: Data Warehouse

Operational Data Storage – ODS (1)

• Objetivo

– Criar um ambiente intermediário de armazenamento e processamento de dados vindos de diversas fontes para o processo de ETL, evitando problemas após a criação do DW.

Page 15: Data Warehouse

Operational Data Storage – ODS (2)

• Também chamado de Dynamic Data Storage - DDS e Staging Area

• Representa um armazenamento intermediário dos dados

• Ideal quando se tem várias fontes de dadosDW

Page 16: Data Warehouse

Operational Data Storage – ODS (3)

DW

Sistemas Legados

Fontes Externas

ODS

DW

OLAP Data Mining

Todos os dados são filtrados aqui!

Page 17: Data Warehouse

Operational Data Storage – ODS (4)

Sistema Conta-Corrente

Sistema Aplicações

Sistema Poupança

Cliente JoãoNum_001

Cliente JoãoNum_579

Cliente JoãoNum_351

ODS

DWJoão+ inf. Conta-corrente+ inf. Aplicações+ inf. poupança

Page 18: Data Warehouse

Data Marts (1)

• DW segmentado, por departamento, por exemplo.

• Representa um subconjunto do DW

• Pode ser feito de duas formas:– Capturando dados dos OLTPs

• Mais rápido• Pode haver problemas com padronização de dados

– Capturando dados do DW• Mais eficiente• Mais demorado

Page 19: Data Warehouse

Data Marts (2)

Nós somos Data Marts!

Nós somos Data Marts!

Nós somos Data Marts!

Page 20: Data Warehouse

Arquiteturas de DW

• Fatores que determinam a arquitetura:– Infra-estrutura– Recursos– Abrangência– Capacitação da equipe

• Muitas vezes a arquitetura é uma combinação das arquiteturas disponíveis e as abordagens de implementação.

Page 21: Data Warehouse

Arquitetura GlobalGlobal = Por toda a empresa

Dados Operacionais

e Externos

Arquitetura global distribuída

Arquitetura global centralizada

Page 22: Data Warehouse

Arquitetura de DM independente

Dados Operacionais

e Externos

Data Marts Stand Alone sem foco coorporativo nenhum

Page 23: Data Warehouse

Arquitetura de DM integrada

Dados Operacionais

e Externos

Dados Operacionais

e Externos

Page 24: Data Warehouse

Tipos de Implementação

• A escolha por um tipo é influenciada por fatores como:– Infra-estrutura de TI– Arquitetura escolhida– Escopo– Recursos disponíveis ($)– Necessidade ou não de acesso corporativo dos

dados– Velocidade de implementação

Page 25: Data Warehouse

Abordagem Top Down

ODS

.

DW

DM

DM

DM

..

Data Mining OLAP

Page 26: Data Warehouse

• Vantagens

– Herança de Arquitetura

– Repositório Centralizado

– Centralização de regras

• Desvantagens

- Implementação longa- Alta taxa de risco- Expectativas

Page 27: Data Warehouse

Abordagem Bottom Up

DM 1

DM 2

DM n

... } DM

DM

DM

DM

Data Warehouse

Sistemas Operacionais

Page 28: Data Warehouse

• Vantagens

– Implementação rápida

– Retorno rápido– Herança incremental

• Desvantagens

- Perigo de Legamarts (Dificultam futuras integrações)

- Desafio de possuir visão do empreendimento

- A maldição do sucesso

Page 29: Data Warehouse

Granularidade dos DadosAlto nível de detalhesBaixo nível de granularidade

ExemploDetalhe de cada transação de venda de um vendedor realizada durante um mês

DataHora

VendedorValor

50 registros por mês

Baixo nível de detalhesAlto nível de granularidade

ExemploSumário das transações de venda de um vendedor realizadas durante um mês

MêsVendedor

Valor

Page 30: Data Warehouse

Modelagem Multidimensional• Fato

– Representa um item, uma transação ou um evento de negócio. – Reflete a evolução dos negócios– Exemplo: “O índice de aprovação da cadeira de Cálculo I vem

aumentando nos últimos dois anos”

• Dimensões– Elementos que participam de um fato– Tempo, Localização, Clientes, Vendedores, etc.

• Medidas (Variáveis)– Atributos numéricos que representam um fato– Valor de vendas, número de alunos aprovados, etc.

Page 31: Data Warehouse

Star Schema

Fato de Vendas

Dimensão Vendedor

Dimensão Produto

Dimensão Cliente

Dimensão Data

Dimensão Região

Page 32: Data Warehouse

Fato de Vendas

Dimensão Vendedor

Dimensão Produto

Dimensão Cliente

Dimensão Data

Dimensão Região

Snowflake Schema

Dimensão Estado

Dimensão Cidade

Dimensão Tipo do Produto

Dimensão Mês

Dimensão Semana

Page 33: Data Warehouse

Estudo de Caso

• Uma grande distribuidora de filmes possui um sistema para controle dos seus filmes

• O sistema atual controla os filmes por salas de cinema onde são exibidos, tendo informações sobre capacidade da sala, localização regional, assim como a bilheteria de cada sessão.

Page 34: Data Warehouse

O sistema atual

• O sistema controla os atores que participam dos filmes

• Diretor do filme• Filmes são classificados por gênero e por

origem• Quantidade de público e valor arrecadado

pela bilheteria

Page 35: Data Warehouse

Necessidades Executivas (1)

• Acompanhar a evolução do público e valor arrecadado por região do país, estado e cidade, classificados por gênero e sala de cinema

• Também é necessário avaliar a evolução de filmes por ator e por diretor

Page 36: Data Warehouse

Necessidades Executivas (2)

• Saber quais diretores atraem mais publico e em que gênero está esse público.

• O tempo é fator fundamental de análise, pois é preciso saber quais períodos do ano possuem mais público por gênero, ator e diretor, e geograficamente.

Page 37: Data Warehouse

Modelo do DW solicitado

Page 38: Data Warehouse

Data Mining

“É o processo de busca por dados, por PADRÕES anteriormente desconhecidos e uso frequente desses padrões para predizer CONSEQUÊNCIAS futuras.”

• Jeff Jonas e Jim Harper

Page 39: Data Warehouse

Data Mining

“É a concepção de modelos computacionais capazes de identificar e revelar padrões desconhecidos mas existentes entre dados pertencentes a uma ou mais bases de dados”

Page 40: Data Warehouse

Simplificando...

• Torture os dados até eles confessarem ... Se você torturar o suficiente, eles irão confessar tudo

Page 41: Data Warehouse

Dados, Informações e Conhecimento

• “…dados são puramente sintáticos enquanto informação contém, necessariamente, semântica. Conhecimento é uma abstração interior (…) relacionada a alguma coisa existente no mundo real e do qual temos uma experiência direta”.

– Setzer

Page 42: Data Warehouse

Objetivos da DM• Descobrir PADRÕES– Representar informações úteis para a empresa– Caso da Cerveja e da Fralda

• Descrever– Explicar resultados ou valores obtidos em

determinados dados ou negócios

• Prever– Antecipar o comportamento ou valor futuro de algum

fenômeno com base em conhecimento prévio.

Page 43: Data Warehouse

Como implementar Data Mining• Algoritmos baseados em redes neurais– Processamento de dados de maneira semelhante ao

cérebro humano– Decisões baseadas na aprendizagem

• Algoritmos estatísticos– Utilizados na análise de dados, a fim de encontrar padrões

e correlações entre eles

• Algoritmos de Aprendizado– Extrair padrões a partir da interação com o ambiente

Page 44: Data Warehouse

Aplicações de Data Mining

• Cross-Selling– Identificar associação entre produtos

• Up-Selling– Identificar potenciais clientes para determinados

produtos

• Fidelização– Descobrir fatores associados a perda de clientes

Page 45: Data Warehouse

Barreiras do uso de DW e DM

• Altos Custos

• Ferramentas muito complexas

• Preparação dos dados (80% do trabalho)

• Dificuldade em estimar o retorno do investimento

Page 46: Data Warehouse

Concluindo...

“Um projeto de Data Warehouse nunca termina. As fontes de dados mudam, as necessidades dos usuários também mudam, o número deles aumenta, as regras de mercado se alteram, os usuários demandarão mais informações. Enfim, Data Warehousing não é o OBJETIVO; é o CAMINHO”

Page 47: Data Warehouse

Referências

• Tecnologia e Projeto de Data Warehouse– Felipe Nery Rodrigues Machado

• Tecnologia de Data Warehouse– Rafael Ramos Batista de Figueiredo

• Um projeto de Data Warehouse– Angelo Luiz de Bortoli

• Redes Neurais – Uma ferramenta para KDD e Data Mining– Antonio Carlos Gay Thomé

Page 48: Data Warehouse

Dúvidas?

Page 49: Data Warehouse

Obrigado!