data warehouse e data mining

4
ETAPA 4 - PASSO 3 Data Warehouse e Data Mining Um armazém de dados, ou ainda depósito de dados, é utilizado para armazenar informações relativas às atividades de uma organização em bancos de dados, de forma consolidada. O desenho da base de dados favorece os relatórios, a análise de grandes volumes de dados e a obtenção de informações estratégicas que podem facilitar a tomada de decisão. O data warehouse possibilita a análise de grandes volumes de dados, coletados dos sistemas transacionais (OLTP). São as chamadas séries históricas que possibilitam uma melhor análise de eventos passados, oferecendo suporte às tomadas de decisões presentes e a previsão de eventos futuros. Por definição, os dados em um data warehouse não são voláteis, ou seja, eles não mudam, salvo quando é necessário fazer correções de dados previamente carregados. Os dados estão disponíveis somente para leitura e não podem ser alterados. A ferramenta mais popular para exploração de um data warehouse é a Online Analytical Processing OLAP ou Processo Analítico em Tempo Real, mas muitas outras podem ser usadas. Data mining é o processo de explorar grandes quantidades de dados à procura de padrões consistentes, como regras de associação ou sequências temporais, para detectar relacionamentos sistemáticos entre variáveis, detectando assim novos subconjuntos de dados. No campo da administração, a mineração de dados é o uso da tecnologia da informação para descobrir regras, identificar fatores e tendências-chave, descobrir padrões e relacionamentos ocultos em grandes bancos de dados para auxiliar a tomada de decisões sobre estratégia e vantagens competitivas.

Upload: pedro-sampietri

Post on 17-Dec-2015

5 views

Category:

Documents


2 download

DESCRIPTION

Data Warehouse e Data Mining

TRANSCRIPT

ETAPA 4 - PASSO 3Data Warehouse e Data Mining

Um armazm de dados, ou ainda depsito de dados, utilizado para armazenar informaes relativas s atividades de uma organizao em bancos de dados, de forma consolidada. O desenho da base de dados favorece os relatrios, a anlise de grandes volumes de dados e a obteno de informaes estratgicas que podem facilitar a tomada de deciso.O data warehouse possibilita a anlise de grandes volumes de dados, coletados dos sistemas transacionais (OLTP). So as chamadas sries histricas que possibilitam uma melhor anlise de eventos passados, oferecendo suporte s tomadas de decises presentes e a previso de eventos futuros. Por definio, os dados em um data warehouse no so volteis, ou seja, eles no mudam, salvo quando necessrio fazer correes de dados previamente carregados. Os dados esto disponveis somente para leitura e no podem ser alterados.A ferramenta mais popular para explorao de um data warehouse a Online Analytical Processing OLAP ou Processo Analtico em Tempo Real, mas muitas outras podem ser usadas.

Data mining o processo de explorar grandes quantidades de dados procura de padres consistentes, como regras de associao ou sequncias temporais, para detectar relacionamentos sistemticos entre variveis, detectando assim novos subconjuntos de dados.No campo da administrao, a minerao de dados o uso da tecnologia da informao para descobrir regras, identificar fatores e tendncias-chave, descobrir padres e relacionamentos ocultos em grandes bancos de dados para auxiliar a tomada de decises sobre estratgia e vantagens competitivas.Os dados oriundos dos mais diversos sistemas informacionais passam a ser armazenados, aps a fase de extrao e tratamento, na estrutura de tabelas de Dimenses e Fatos no modelo dimensional.A Dimenso possui caracterstica descritiva dentro do DW. Ela qualifica as informaes provenientes da tabela Fato. Atravs dela possvel analisar os dados sob mltiplas perspectivas. Por exemplo, podemos ter Dimenses como Produto, Regio e Tempo em um DW.A Fato possui caracterstica quantitativa dentro do DW. A partir dela so extradas as mtricas que so cruzadas com os dados das Dimenses, concebendo, assim, informaes significativas para a anlise do usurio. A Fato armazena as medies necessrias para avaliar o assunto pretendido. O contedo histrico no DW, contendo longo perodo de tempo, ficam depositadas na Fato.A estrutura dimensional normalmente desenhada no formado do esquema estrela (star schema). Nesse modelo, as tabelas de Dimenses so ligadas diretamente a tabela Fato. Outra caracterstica marcante que os dados so desnormalizados, pois a redundncia resultante gera benefcios para a otimizao das consultas e navegao das informaes.

Abaixo segue uma arquitetura genrica de DW e as descries dos seus elementos:

Fonte de dados:abrange todos os dados de origem que iro compor as informaes do DW. Compreende os sistemas OLTP, arquivos em diversos formatos (XLS, TXT, etc), sistemas de CRM, ERP, entre vrios outros. ETL:o ETL, do ingls Extract, Transform and Load, o principal processo de conduo dos dados at o armazenamento definitivo no DW. responsvel por todas as tarefas de extrao, tratamento e limpeza dos dados, e insero na base do DW. Staging Area:a Staging Area uma rea de armazenamento intermedirio situada dentro do processo de ETL. Auxilia a transio dos dados das origens para o destino final no DW. Data Warehouse:essa a estrutura propriamente dita de armazenamento das informaes decisivas. Apenas os dados com valor para a gesto corporativa estaro reunidos no DW. Data Mart:o Data Mart uma estrutura similar ao do DW, porm com uma proporo menor de informaes. Trata-se de um subconjunto de informaes do DW que podem ser identificados por assuntos ou departamentos especficos. O conjunto de Data Marts em conformidade dentro da organizao compe o DW. OLAP:o OLAP, do ingls On-line Analytical Processing, na arquitetura de um DW se refere as ferramentas com capacidade de anlise em mltiplas perspectivas das informaes armazenadas. Data Mining:Data Mining ou Minerao de Dados, se refere as ferramentas com capacidade de descoberta de conhecimento relevante dentro do DW. Encontram correlaes e padres dentro dos dados armazenados.

Empresas que utilizam DW/DM:A rede americana Wall-Mart, pioneira no uso de Data Mining, descobriu ao explorar seus nmeros que 60% das mes que compram boneca Barbie, levam tambm uma barra de chocolate.O banco Ita conseguiu aumentar sua taxa de retorno nas malas diretas para 30%. Reduzindo a conta do correio a um quinto. Armazenando e analisando a movimentao financeira de seus 3 milhes de correntistas nos ltimos 18 meses.

A Sprint, um dos lderes no mercado de americano de telefone de longa distncia, desenvolveu, com a anlise de Data Mining em seu Data Warehouse, um mtodo capaz de prever com 61% de segurana se um consumidor trocaria de companhia telefnica dentro de um perodo de dois meses. Com um marketing agressivo, conseguiu evitar a desero de 120.000 clientes e uma perda de 35 milhes de dlares em faturamento.

O governo de Massachusetts, no Estados Unidos, compilava informaes financeiras imprimindo telas e mais telas nos terminais de grande porte. S com papel foram economizados U$ 250.000,00 por ano. Alm de permitir que o oramento anual fosse assinado e analisado, antes do incio do ano fiscal.

O SERPRO no Brasil, implantando o seu Data Warehouse e Data Mining, j consegue hoje cruzar e analisar informaes em cinco minutos, o que antes demandavam quinze dias de trabalho.

E o clssico exemplo da grande rede varejista americana (Wal-Mart) que descobriu, atravs de seu Data Mining, que as vendas de fraldas estavam intimamente ligadas s vendas de cerveja. Explicao, os pais que saiam noite para comprar fraldas, compravam cerveja tambm.