data warehouse

Post on 05-Jun-2015

5.026 Views

Category:

Technology

3 Downloads

Preview:

Click to see full reader

TRANSCRIPT

UNIVERSIDADE FEDERAL DA PARAÍBACENTRO DE CIÊNCIAS APLICADAS E EDUCAÇÃO

CAMPUS IV – LITORAL NORTE

DISICPLINA: BANCO DE DADOS IIPROFESSORA VANESSA DANTAS

Data Warehouse & Data Mining

Thiago Oliveira

Agenda

• Por que usar DW e DM?

• Data Warehouse– Características de um Data Warehouse– Dados (OLTP x OLAP)– Operational Data Storage – ODS– Data Marts– Arquiteturas– Tipos de Implementação– Granularidade dos Dados– Estudo de Caso

Agenda

• Data Mining– Conceito– Dados, Informações e Conhecimento– Objetivos– Como implementar um DM– Aplicações de DM– Barreiras no uso de DM

Por que usar DW e DM?

• Business Inteligence– Apoio à tomada de Decisões

• Customer Relationship Management (CRM)– Tratar clientes diferentes de forma diferente

• Várias Plataformas de hardware e Software

• Constantes alterações nos sistemas transacionais corporativos

Data Warehouse

Data Warehouse

• Para se construir deve-se utilizar uma ferramenta ETL (Extraction, Transformation, Load)

• Após a ETL, os dados são processados e armazenados no DW

• Nem todos os dados devem ser transferidos para um DW

• Os dados são organizados no DW de forma simples para o usuário final acessá-lo

Características (1)

• Extração de Dados de fontes heterogêneas

• Transformação e integração de dados

• Visualização de dados em diferentes níveis

Características (2)• Orientação por Assunto

Ambiente Transacional Data Warehouse

Pedido, nota fiscal

Ordem de produção, máquina

Falha, produto

Vendas

Produção

Qualidade

Características (3)

• Variação de Tempo

– Precisão em relação ao tempo

– Data é elemento essencial e componente-chave

– Ao contrário de sistemas transacionais, DW tem espaços de tempo mais longos

Características (4)

• Não Volátil

Bancos de Dados transacionais

Bancos de Dados Data Warehouse

Incluir

Excluir

Acessar

Alterar

Incluir

Acessar

Características (5)

• Integração

DW

Sexo “Masculino”Sexo “Feminino”

Sexo “1”Sexo “2”

ExtraçãoFiltro

Sexo “M”Sexo “F”

Dados (OLTP x OLAP)OLTP:(Online Transactional Processing)

• Do negócio• Transacional• Operacional• Volátil• Não-padronizado

OLAP:(Online Analytical Processing)

• Sobre o Negócio• Analítico• Estratégico• Não-Volátil• Padronizado

• ROLAP (Relacional)• MOLAP (Multi)• DOLAP (Desktop)

Operational Data Storage – ODS (1)

• Objetivo

– Criar um ambiente intermediário de armazenamento e processamento de dados vindos de diversas fontes para o processo de ETL, evitando problemas após a criação do DW.

Operational Data Storage – ODS (2)

• Também chamado de Dynamic Data Storage - DDS e Staging Area

• Representa um armazenamento intermediário dos dados

• Ideal quando se tem várias fontes de dadosDW

Operational Data Storage – ODS (3)

DW

Sistemas Legados

Fontes Externas

ODS

DW

OLAP Data Mining

Todos os dados são filtrados aqui!

Operational Data Storage – ODS (4)

Sistema Conta-Corrente

Sistema Aplicações

Sistema Poupança

Cliente JoãoNum_001

Cliente JoãoNum_579

Cliente JoãoNum_351

ODS

DWJoão+ inf. Conta-corrente+ inf. Aplicações+ inf. poupança

Data Marts (1)

• DW segmentado, por departamento, por exemplo.

• Representa um subconjunto do DW

• Pode ser feito de duas formas:– Capturando dados dos OLTPs

• Mais rápido• Pode haver problemas com padronização de dados

– Capturando dados do DW• Mais eficiente• Mais demorado

Data Marts (2)

Nós somos Data Marts!

Nós somos Data Marts!

Nós somos Data Marts!

Arquiteturas de DW

• Fatores que determinam a arquitetura:– Infra-estrutura– Recursos– Abrangência– Capacitação da equipe

• Muitas vezes a arquitetura é uma combinação das arquiteturas disponíveis e as abordagens de implementação.

Arquitetura GlobalGlobal = Por toda a empresa

Dados Operacionais

e Externos

Arquitetura global distribuída

Arquitetura global centralizada

Arquitetura de DM independente

Dados Operacionais

e Externos

Data Marts Stand Alone sem foco coorporativo nenhum

Arquitetura de DM integrada

Dados Operacionais

e Externos

Dados Operacionais

e Externos

Tipos de Implementação

• A escolha por um tipo é influenciada por fatores como:– Infra-estrutura de TI– Arquitetura escolhida– Escopo– Recursos disponíveis ($)– Necessidade ou não de acesso corporativo dos

dados– Velocidade de implementação

Abordagem Top Down

ODS

.

DW

DM

DM

DM

..

Data Mining OLAP

• Vantagens

– Herança de Arquitetura

– Repositório Centralizado

– Centralização de regras

• Desvantagens

- Implementação longa- Alta taxa de risco- Expectativas

Abordagem Bottom Up

DM 1

DM 2

DM n

... } DM

DM

DM

DM

Data Warehouse

Sistemas Operacionais

• Vantagens

– Implementação rápida

– Retorno rápido– Herança incremental

• Desvantagens

- Perigo de Legamarts (Dificultam futuras integrações)

- Desafio de possuir visão do empreendimento

- A maldição do sucesso

Granularidade dos DadosAlto nível de detalhesBaixo nível de granularidade

ExemploDetalhe de cada transação de venda de um vendedor realizada durante um mês

DataHora

VendedorValor

50 registros por mês

Baixo nível de detalhesAlto nível de granularidade

ExemploSumário das transações de venda de um vendedor realizadas durante um mês

MêsVendedor

Valor

Modelagem Multidimensional• Fato

– Representa um item, uma transação ou um evento de negócio. – Reflete a evolução dos negócios– Exemplo: “O índice de aprovação da cadeira de Cálculo I vem

aumentando nos últimos dois anos”

• Dimensões– Elementos que participam de um fato– Tempo, Localização, Clientes, Vendedores, etc.

• Medidas (Variáveis)– Atributos numéricos que representam um fato– Valor de vendas, número de alunos aprovados, etc.

Star Schema

Fato de Vendas

Dimensão Vendedor

Dimensão Produto

Dimensão Cliente

Dimensão Data

Dimensão Região

Fato de Vendas

Dimensão Vendedor

Dimensão Produto

Dimensão Cliente

Dimensão Data

Dimensão Região

Snowflake Schema

Dimensão Estado

Dimensão Cidade

Dimensão Tipo do Produto

Dimensão Mês

Dimensão Semana

Estudo de Caso

• Uma grande distribuidora de filmes possui um sistema para controle dos seus filmes

• O sistema atual controla os filmes por salas de cinema onde são exibidos, tendo informações sobre capacidade da sala, localização regional, assim como a bilheteria de cada sessão.

O sistema atual

• O sistema controla os atores que participam dos filmes

• Diretor do filme• Filmes são classificados por gênero e por

origem• Quantidade de público e valor arrecadado

pela bilheteria

Necessidades Executivas (1)

• Acompanhar a evolução do público e valor arrecadado por região do país, estado e cidade, classificados por gênero e sala de cinema

• Também é necessário avaliar a evolução de filmes por ator e por diretor

Necessidades Executivas (2)

• Saber quais diretores atraem mais publico e em que gênero está esse público.

• O tempo é fator fundamental de análise, pois é preciso saber quais períodos do ano possuem mais público por gênero, ator e diretor, e geograficamente.

Modelo do DW solicitado

Data Mining

“É o processo de busca por dados, por PADRÕES anteriormente desconhecidos e uso frequente desses padrões para predizer CONSEQUÊNCIAS futuras.”

• Jeff Jonas e Jim Harper

Data Mining

“É a concepção de modelos computacionais capazes de identificar e revelar padrões desconhecidos mas existentes entre dados pertencentes a uma ou mais bases de dados”

Simplificando...

• Torture os dados até eles confessarem ... Se você torturar o suficiente, eles irão confessar tudo

Dados, Informações e Conhecimento

• “…dados são puramente sintáticos enquanto informação contém, necessariamente, semântica. Conhecimento é uma abstração interior (…) relacionada a alguma coisa existente no mundo real e do qual temos uma experiência direta”.

– Setzer

Objetivos da DM• Descobrir PADRÕES– Representar informações úteis para a empresa– Caso da Cerveja e da Fralda

• Descrever– Explicar resultados ou valores obtidos em

determinados dados ou negócios

• Prever– Antecipar o comportamento ou valor futuro de algum

fenômeno com base em conhecimento prévio.

Como implementar Data Mining• Algoritmos baseados em redes neurais– Processamento de dados de maneira semelhante ao

cérebro humano– Decisões baseadas na aprendizagem

• Algoritmos estatísticos– Utilizados na análise de dados, a fim de encontrar padrões

e correlações entre eles

• Algoritmos de Aprendizado– Extrair padrões a partir da interação com o ambiente

Aplicações de Data Mining

• Cross-Selling– Identificar associação entre produtos

• Up-Selling– Identificar potenciais clientes para determinados

produtos

• Fidelização– Descobrir fatores associados a perda de clientes

Barreiras do uso de DW e DM

• Altos Custos

• Ferramentas muito complexas

• Preparação dos dados (80% do trabalho)

• Dificuldade em estimar o retorno do investimento

Concluindo...

“Um projeto de Data Warehouse nunca termina. As fontes de dados mudam, as necessidades dos usuários também mudam, o número deles aumenta, as regras de mercado se alteram, os usuários demandarão mais informações. Enfim, Data Warehousing não é o OBJETIVO; é o CAMINHO”

Referências

• Tecnologia e Projeto de Data Warehouse– Felipe Nery Rodrigues Machado

• Tecnologia de Data Warehouse– Rafael Ramos Batista de Figueiredo

• Um projeto de Data Warehouse– Angelo Luiz de Bortoli

• Redes Neurais – Uma ferramenta para KDD e Data Mining– Antonio Carlos Gay Thomé

Dúvidas?

Obrigado!

top related