data warehouse e big dataprofessorluizalberto.com.br/site/images/2020-1/data... · 2020. 2. 17. ·...
TRANSCRIPT
Big Data
– 0 – Prof. Luiz Alberto -Data warehouse e Big Data
O que é Big Data
• De forma geral, podemos dizer que Big Data é uma tecnologia que permite o processamento de informações com alto desempenho e disponibilidade.
• São ferramentas digitais que tornam a coleta, o processamento e a visualização de dados mais simples, padronizadas e eficazes.
• Assim, os gestores podem entender com mais clareza as tendências e os padrões para organizar sua estratégia de negócios.
– 1 –
Prof. Luiz Alberto -Data warehouse e Big Data
O que é Big Data
• Big Data faz referência ao grande volume, variedade e velocidade de dados que demandam formas inovadoras e rentáveis de processamento da informação, para melhor percepção e tomada de decisão.
Gartner
– 2 – Prof. Luiz Alberto -
E quando falamos em volume, velocidade e variedade... É isso mesmo!
Em 4 anos, haverá mais de 50
bilhões de dispositivos
conectados pelo mundo,
desenvolvidos para a coleta,
análise e compartilhamento de
dados
Até 2020, o mundo terá mais de 6,1 bilhões de smartphones
Só no YouTube, mais de 300 horas de
vídeo são enviadas no canal por
minuto.
Usuários do Facebook enviam
uma média de 31,25 milhões de
mensagens e assistem a 2,77
milhões de vídeos por minuto a
cada dia.
Só no Google, a humanidade faz cerca de 40.000 consultas por segundo, o que significa 3,5 bilhões de buscas por dia e 1,2 trilhão por ano.
Prof. Luiz Alberto -Data warehouse e Big Data
Big Data e seus 5 V’s
• A resposta para a pergunta “o que é Big Data”, vai um pouco além do que falamos até agora.
• O conceito completo está baseado em cinco princípios e cada um deles terá influência direta no desempenho das soluções disponibilizadas no mercado.
• Esses princípios são conhecidos como os 5 V’s do Big Data.
• Existem conteúdos que apontam até 10 V’s, mas acreditamos que esses são os cinco principais e que originam os demais.
– 4 – Prof. Luiz Alberto -Data warehouse e Big Data
Volume
• Uma ferramenta de Big Data deve ser capaz de lidar com um grande volume de dados.
• Graças às redes sociais, smartphones, internet móvel e os dispositivos conectados por meio da Internet das Coisas (IoT), a quantidade de informações que circula em meios digitais cresce continuamente.
• Por isso, somos e estamos cada vez dependentes de ferramentas de Big Data, que por meio da Inteligência Artificial e do aprendizado de máquinas nos levaram a um novo padrão de análise de dados.
– 5 –
Prof. Luiz Alberto -Data warehouse e Big Data
Volume
– 6 – Prof. Luiz Alberto -Data warehouse e Big Data
Variedade
• Outro aspecto é a capacidade de uma solução de Big Data em trabalhar com fluxos de dados variados.
• Como falamos, as informações podem ser originadas em equipamentos diversos, redes sociais, dispositivos móveis e mesmo em meios offline, como pesquisas de mercado e tabelas com dados de transações financeiras.
– 7 –
Prof. Luiz Alberto -Data warehouse e Big Data
Variedade
– 8 – Prof. Luiz Alberto -Data warehouse e Big Data
Velocidade
• Mais um cenário: o fluxo contínuo de dados em grande quantidade. Diante disso, companhias passaram a utilizar tecnologias auxiliares para garantir o maior desempenho de suas soluções de Big Data.
• A computação na nuvem, por exemplo, é uma das principais “aliadas” do Big Data.
• Assim, caso o fluxo de informações aumente , é possível escalar os recursos, impedindo que a nova demanda impacte na velocidade de execução das rotinas de análise.
– 9 –
Prof. Luiz Alberto -Data warehouse e Big Data
Velocidade
– 10 – Prof. Luiz Alberto -Data warehouse e Big Data
Veracidade
• Para garantir que a análise de dados seja capaz de atender às necessidades do negócio, é crucial que a empresa consiga trabalhar com conjuntos de dados confiáveis.
• Diante disso, as soluções de Big Data devem estar preparadas para buscar por dados de fontes confiáveis, e devem dar a possibilidade de filtrar quais conteúdos são relevantes para o negócio, além de eliminar aqueles não são confiáveis ou que não têm relevância.
– 11 –
Prof. Luiz Alberto -Data warehouse e Big Data
Valor
• Por fim, para entender o que é Big Data, temos o aspecto do valor. Ou seja, a solução deve ser capaz de agregar valor a processos e tornar serviços mais competitivos.
• Ou ainda, pelo aspecto operacional, poderá avaliar as rotinas internas e uso de ferramentas corporativas para rastrear gargalos e tornar a gestão de processos mais eficiente.
– 12 –
Inteligência Artificial
Prof. Ms. Luiz Alberto
Contato: [email protected]
Data Warehouse e Big Data
Prof. Luiz Alberto -Data warehouse e Big Data
Introdução
�Necessidade, nas organizações, da utilização de ferramentas que facilitem a interpretação e o uso dos dados obtidos;
� BI para desenvolver percepções, entendimentos e conhecimentos, possibilitando o uso de todo o potencial da informação armazenada;
Prof. Luiz Alberto -Data warehouse e Big Data
SISTEMAS DE APOIO À DECISÃO
– 15 –
Os tomadores de decisão necessitam de informações confiáveis sobre operaçõesatuais , tendências e mudanças. Além disso, os dados necessários para a tomada dedecisão estão espalhados em diversas áreas da empresa.
A integração e análise dos dados existentes nestes diferentes sistemas, é uma tarefadifícil e necessita de muito tempo e recursos.
Por este motivo, surge a necessidade de um ambiente voltado para os tomadores dedecisão, que permita que estes analisem dados confiáveis de forma eficiente eflexível.
Prof. Luiz Alberto -
Classificação dos Sistemas de Informação
Definição dos Sistemas de Informações Transacionais - SIT
Os SIT, também conhecidos como Sistemas de Informações Operacionais, são os mais simples e os mais comuns nas organizações. Eles apoiam as funções operacionais da organização, aquelas realizadas no dia-a-dia. Por isto, são facilmente identificados no nível operacional da organização.
Prof. Luiz Alberto -
EVOLUÇÃO DO CONHECIMENTO E INFORMAÇÃOClassificação dos Sistemas de Informação
Exemplos dos Sistemas de Informações Transacionais - SIT
• Sistemas de cadastro em geral (inclusão, exclusão, alteração e consulta) - Clientes,
produtos e fornecedores, etc.
• Sistemas de contabilidade e financeiros - contas a pagar e a receber, balanços, fluxo de
caixa, etc.
• Sistemas de vendas e distribuição - Pedidos, entregas, logística, controle de estoque, etc.
• Sistemas de gestão de pessoal - Folha de pagamento, benefícios, plano de carreira, etc.
• Sistemas de manufatura - Produção fabril, materiais, qualidade, etc.
Prof. Luiz Alberto -Data warehouse e Big Data
Inteligência nos Negócios
Definição
A habilidade de uma organização dominar as suas capacidades e convertê-los em conhecimento, provendo a informação certa às pessoas certas, no momento certo, através do canal direito.
“Bussines Inteligence é o processo de transformar dados em informação através da descoberta de transformar informação em conhecimento” – Gartner Group
Prof. Luiz Alberto -
Inteligência nos Negócios
Propósito
O objetivo é converter o volume de dados em informações relevantes ao negocio, através de relatórios analíticos.
O propósito é sempre de extrair inteligência dos dados. Quanto maior o volume menor é a capacidade analítica sobre uma massa de dados
Prof. Luiz Alberto -
Inteligência nos Negócios
Fluxo - Dados
Conceitua dados como elemento de caráter exclusivamente objetivo e capaz de ser decomposto em sistemas computadorizados.Ex: Data Nascimento é um dado.
Prof. Luiz Alberto -Data warehouse e Big Data
Fundamentação teórica
Business Intelligence
� O processo baseia-se transformação de dados em informações, depois em decisões e finalmente em ações;
� O conceito de BI pode ser entendido como a utilização de diferentes fontes de informação, para definir estratégias de competitividade nos negócios;
� O objetivo das premissas de BI é a definição de estruturas modeladas dimensionalmente, armazenadas em DW ou Data Mart, e interpretadas por ferramentas OLAP ou ferramentas de Data Mining.
Prof. Luiz Alberto -Data warehouse e Big Data
Fundamentação teórica
OLAP
• visa possibilitar diferentes formas de visualização de informações, obtidas de dados puros transformados para facilitar a sua interpretação.
Prof. Luiz Alberto -Data warehouse e Big Data
Ferramentas OLAP permitem que os usuário de forma interativa analisar
dados multidimensionais de múltiplas perspectivas.
OLAP – Online Analyticalprocessing
Prof. Luiz Alberto -Data warehouse e Big Data
Fundamentação teórica
Características das ferramentas OLAP:
• visão conceitual multidimensional;
• transparência ao usuário;
• fácil acessibilidade;
• consistente na geração de relatórios;
• arquitetura cliente/servidor;
• dimensionalidade genérica;Prof. Luiz Alberto -Data warehouse e Big Data
Fundamentação teórica
Características das ferramentas OLAP (cont.):
• manipulação dinâmica de matriz esparsa;
• suporte multiusuário;
• operações irrestritas com dimensões cruzadas;
• manipulação intuitiva dos dados;
• relatórios flexíveis;
• dimensões e níveis de agregações ilimitados.
Prof. Luiz Alberto -Data warehouse e Big Data
» É um banco de dados
» Prover uma visão histórica e unificada dos dados
» Orientado a informações relevantes ao negocio
» Composto por diferentes fontes de dados
» Dados não são alterados, somente incrementados
» Respostas rápidas para apoiar a estratégia de negocio
DW - DataWarehouse
Prof. Luiz Alberto -Data warehouse e Big Data
DATA WAREHOUSE (DW)
– 27 –
“Um data warehouse é um conjunto de dados produzido paraoferecer suporte à tomada de decisões; é um repositório de dadosatuais e históricos de possível interesse aos gerentes de toda aorganização. Os dados normalmente são estruturados de modo aestarem disponíveis em um formato pronto para as atividades deprocessamento analítico. Portanto, um Data Warehouse é umacoleção de dados orientada por assunto, integrada, variável notempo e não volátil, que proporciona suporte ao processo detomada de decisão”
(Turban E., Sharda R., Aronson J.E., King D: Business Intelligence – um enfoque gerencial para a inteligência do negócio)
Prof. Luiz Alberto -
Funcionalidades do data warehouse
• Integração de dados:– integração de plataformas (1-3)
– integração de modelos de dados (1-3)
– integração de esquemas (1)
– integração de valores(nomes, unidades, etc, 2,3)
• Transformação de dados:– re-modelagem de dados (1)
– discretização de dados (1-3)
– normalização de escala e distribuição (1-3)
• Limpeza de dados (2,3)• Seleção de dados
– seleção de atributos (1-3)– amostragem de registros (2,3)
• Derivação de novos dados:– novos atributos (1-3)– novas relações (1-3)– hierarquias conceituais (1-3)
• Consolidação de dados– construção de novos índices (2-4)– materialização de visões (2-4)– agregação de valores (2-4)
Etapas:
1. Criação do esquema do data warehouse 2. Carga inicial dos dados
3. Atualização periódica dos dados 4. Processamento de consultas
Tarefas:
Prof. Luiz Alberto -Data warehouse e Big Data
Integração de dados
• Objetivo:
– fornecer para usuário e software externo interface de consultae manipulação de dados homogêneo
– escondendo heterogeneidade subjacente das fontes de dados
• Dimensões de heterogeneidade:
– Modelo de dados: relacional, O-R, OO, multi-dimensional, semi-estruturado, dedutivo, temporal, ...
– Esquema: relações, atributos, chaves, restrições de integridade
– Codificação dos valores: unidades, nomes
– Linguagem de consulta e manipulação
– SGBD
– Sistema operacional
– Hardware
– 29 –
Prof. Luiz Alberto -Data warehouse e Big Data
Integrar vários BD OLTP relacionais no data warehouse: integração de plataforma
• SGBD diferentes:
– Largamente resolvido pela adoção de padrões
• linguagem de consulta: SQL-92, SQL-99
• API encapsulando todos os serviços de um SGBD relacional: ODBC, OLE DB
• Sistemas operacionais diferentes:
– Largamente resolvido
• pela escassez de opções: Windows, Unix
• pelo fornecimento da parte do vendedores de SGBD de versões para a maioria dos sistemas operacionais
• Hardware diferentes:
– Largamente abstraído pelo sistema operacional ou SGBD
– 30 – Prof. Luiz Alberto -Data warehouse e Big Data
Integrar vários BD OLTP relacionais no data warehouse: integração de esquema• Heterogeneidade semântica:
– Homonímia:
• relação ou atributo com mesmo nome em 2 bancos
• porém com semântica diferente, i.e., associados a conceitos do mundo real diferente na cabeça dos 2 DBAs
• ex, atributo tipo em BD1 pode ser marca em BD2 e modelo em BD3
– Polisemia:
• relação ou atributo com mesma semântica
• porém com nomes diferente em cada esquema
• se não identificado pode gerar redundância e inconsistência
– Redundância:
• tabela ou atributo de BD1 pode ser derivada a partir das tabelas ou atributo de BD2, via visões ou agregações
– 31 –
Prof. Luiz Alberto -Data warehouse e Big Data
Integrar vários BD OLTP relacionais no data warehouse: integração de esquema
• Heterogeneidade esquemática:– mesmos conceitos modelados como atributos em BD1
e como valores em BD2
Professor Inteligência
Artificial
Mineração
de Dados
Banco de
DadosCarol no no yes
Geber yes no no
Jacques yes yes no
Prof Curso
acs BD
glr IA
jr IA
jr Mineração de Dados
Heterogeneidade estrutural:• Relações e atributos com mesma semântica
• porém estruturados diferentemente
• ex, repartição diferente dos atributos entre as relações
– 32 – Prof. Luiz Alberto -Data warehouse e Big Data
Integrar vários BD OLTP relacionais no data warehouse: integração de esquema• Restrições de integridades:
– tipos diferentes para mesmo atributo
– ex, tipo do atributo mês:
• tipo pré-definido mês, string, inteiro, {“Janeiro”, ..., “Dezembro”}, {“Jan”, ..., “Dez”}, {“January”, ..., “December”}, {1, .., 12}, {01, ... , 12}
– valores autorizadas diferentes para mesmo atributo
– relevância de um atributo em função do valor de um outro codificado em BD1 e não em BD2
• ex, numero de parto quando sexo = masculino
– 33 –
Prof. Luiz Alberto -Data warehouse e Big Data
Integrar vários BD OLTP relacionais no data warehouse: integração de valores
• Atributos categóricos:– conflitos de nomes
– ex, “Internacional Business Machine” x “IBM” x “I.B.M.”
• Atributos numéricos:– unidades implíticas
– ex, 35o Celsius? Farenheit? Kelvin?
– 34 – Prof. Luiz Alberto -Data warehouse e Big Data
warehouse
Arquiteturas de data warehouse
Query/report Analysis Data mining
OLAP server OLAP server
Top tier: front-end tools
Middle tier: OLAP server
Bottom tier: data warehouse server
Data
Output
Extract Clean
Transform Load
Refresh
Data warehouse Data martsMonitoring
Metadata repository
Operational databases External sources
Administration
– 35 –
Prof. Luiz Alberto -Data warehouse e Big Data
Arquiteturas de data warehouse
– 36 –
Customer
Inventory
Operation
External
Credit
Sales
ETLtools
Data Warehouse
MarketingData Mart
FinanceData Mart
DistributionData Mart
BI
OLAP
Reports
Pivot Table
Prof. Luiz Alberto -
DB Relacional x DB Multidimensional
DB Relacional: DB Multidimensional:
Modelo Cor VendasModelo
CorTotais
van azul 6 Azul Verde Branca
van verde 8 van 6 8 9 23
van branca 9 coupe 12 15 - 27
coupe azul 12 sedan - 20 13 33
coupe verde 15 Totais 18 43 22 83
sedan verde 20 Os agrupamentos multidimensionais e as
sumarizações maximizam o desempenho
de acesso aos dados.sedan branca 13
Prof. Luiz Alberto -Data warehouse e Big Data
Projeto lógico de data warehouse: especificação do esquema analítico• Selecionar as tabelas operacionais relevantes das fontes subjacentes para o modelo
analítico
• Selecionar os atributos relevantes dessas tabelas
• Possivelmente definir atributos e relações (tabelas) derivados de granularidade suficiente para descoberta de insights por OLAP ou mineração
• Escolher um modelo de dados analítico
• Particionar os atributos relevantes e derivados em:– atributos da(s) tabela(s) de fatos do modelo analítico
– atributos das tabelas de dimensões do modelo analítico
– atributos não dimensionais (i.e., ao longo dos quais não há agregação)
– chaves ligando as tabelas
• Definir as funções de agregação para cada par (medida,dimensão)
• Definir as hierarquias conceituais de cada dimensão
– 38 – Prof. Luiz Alberto -Data warehouse e Big Data
Projeto lógico de data warehouse: exemplo
customer
cust_ID C1 . . . . . .
name Smith, Sandy
. . .
. . .
address 5463 E Hastings, Burnaby,
BC V5A 4S9, Canada . . .
age 21 . . . . . .
income $27000
. . .
. . .
credit_info 1
. . .
. . .
. . .
. . .
. . .
. . .
employee
empl_ID E55 . . .
name Jones, Jane
. . .
category home entertainment
. . .
group manager
. . .
salary $18,000
. . .
commission 2% . . .
branch
branch_ID B1 . . .
name City Square
. . .
address 369 Cambie St., Vancouver, BC V5L 3A2, Canada
. . .
purchases trans_ID
T100 . . .
cust_ID C1 . . .
empl_ID E55 . . .
date 09/21/98
. . .
time 15:45
. . .
method_paid Visa . . .
amount $1357.00
. . .
items_sold
trans_ID T100 T100 . . .
item_ID I3 I8
. . .
qty 1 2
. . .
works_at empl_ID
E55 . . .
branch_ID B1 . . .
item item_ID
13 18 . . .
name high-res-TV multidisc-
CDplay
brand Toshiba Sanyo
. . .
category high resolution
multidisc . . .
type TV
CD player . . .
price $988.00 $369.00
. . .
place_made Japan Japan
. . .
supplier NikoX
MusicFront . . .
cost $600.00 $120.00
. . .
time dimension table
time_key day day_of_week month quarter year
sales fact table
time_key item_key branch_key location_key dollars_sold units_sold
item dimension table
item_key item_name brand type supplier_key
branch dimension table
branch_key branch_name branch_type
location dimension table
location_key street city_key
supplier dimension table
supplier_key supplier_type
city dimension table
city_key city province_or_state country – 39 –
Prof. Luiz Alberto -Data warehouse e Big Data
Carga inicial e atualização periódicade dados: problemática e abordagens
• Como não atrapalhar o rendimento das fontes OLTP?
– Continuamente mantém no background uma cópia histórica de curto prazo
– Essa cópia é usada para a carga e a atualização
• Atualização incremental ?
• Manutenção da consistência e validade dos dados derivados:
– atributos derivados
– relações derivadas (visões materializadas)
– agregações derivadas – 40 – Prof. Luiz Alberto -Data warehouse e Big Data
DW - Extração de Dados
• Ferramentas ETL (Extraction, Transformationand Load): Consiste da integração, limpeza e carga dos dados.
• Os processos ETL consomem 70% do tempo de desenvolvimento em um projeto de DW.
• Estes processos são específicos para cada organização.
Prof. Luiz Alberto -Data warehouse e Big Data
Exemplo Transformação dos dados
– 42 – Prof. Luiz Alberto -Data warehouse e Big Data
Inovação na análise de dados
– 43 –
Prof. Luiz Alberto -Data warehouse e Big Data
DW - Definição
– 44 –
Data Warehouse
Orientação por assunto
Organizado de acordo com as principais areas de negocio da organizaçãoNão orientado a aplicação, permitindo a utilização dos dados de varias formas ao longodo tempo
Integração
Unificação fisica dos dados em um mesmo repositórioEstruturas e formatos de dados comuns, independente dos sistemas fonteA integracao é feita através dos principais processos de carrga
Variação temporal
Séries temporais de um conjunto de dadosVariações de estado (datas de mudança de status)Datas de eventos(chamadas, faturas,pedidos, etc)
Não volatilNão há atualização de registrosAs alterações de informação são armazenadas a partir da captura de um novo retrato das informações
Informações detalhadas e agregadas
Dados atômicosMantem a flexibilidade dos dados, facilitando futuras mudanças no negócioDeve-se tomar cuidado para não se tornar fonte de relatórios operacionais
Visões agregadas montadas em função das principais visões corporativasEstruturas consolidadas de perfis – utilizadaspara facilitar analises de eventos que sãobaseados em um grande volume de dados
Adaptado de: Prof. Fernando Nimer Prof. Luiz Alberto -Data warehouse e Big Data
PRINCIPAIS TAREFAS EFETUADAS PELO DW
• Obter dados dos BD’s operacionais e externos;
• Armazenar os dados;
• Fornecer informações para tomada de decisão;
• Administrar o sistema e os dados
– 45 –
Prof. Luiz Alberto -Data warehouse e Big Data
DATA WAREHOUSE x BD OPERACIONAL
– 46 –
CARACTERÍSTICA BD OPERACIONAL DATA WAREHOUSE
Objetivo Operações diárias do negócio
Analisar o negócio
Uso Operacional Analítico
Tipo de processamento
OLTP OLAP
Unidade de trabalho Inclusão, alteração, exclusão
Inserção e consulta
Interação do usuário Somente pré-definida Pré-definida e ad-hoc
Volume Megabytes – gigabytes Gigabytes – terabytes
Prof. Luiz Alberto -Data warehouse e Big Data
DATA WAREHOUSE x BD OPERACIONAL
– 47 –
Prof. Luiz Alberto -
Data WarehouseBase de informação corporativa que atende
toda a empresa.
Data Warehouse X Data Mart
Data Mart Base de informação por linha de negócio que contém um subconjunto dos dados corporativos.
Prof. Luiz Alberto -Data warehouse e Big Data
Cientista de dados
Prof. Luiz Alberto -Data warehouse e Big Data
Cientista de dados
Prof. Luiz Alberto -Data warehouse e Big Data
Revisão
1) Quais as características dos DW de acordo com sua definição?
2) Como os Data Warehouses auxiliam a tomada de decisão?
3) Cite 4 diferenças entre BD operacional e DW em relação aos aspectos.
4) Data Mart são subconjuntos Físicos ou Lógicos? Qual a sua finalidade?
5) Qual a finalidade da ferramenta ETL?