construindo um data lake - store & retrieve data …...2018/12/17 · 5 14,3 bi 10 receita...
Post on 19-Aug-2020
2 Views
Preview:
TRANSCRIPT
Construindo um Data LakeE democratizando os dados empresa a fora
Daniel CassianoHead of Data @ luizalabs
Olá! :)Daniel CassianoHead of Data @ luizalabs #magalu
@danielcassiano
br.linkedin.com/in/dcassiano
2
● Introdução e contexto
● Ecossistema e Arquitetura
● Democratizando os dados
● Ecossistema
● Perguntas?
3
Agenda
Um pouco decontexto
1
5
14,3 bi
10
Receitabruta 2017
3
Milhões de clientes ativos
Milhões de cartões Luiza
950 Lojas
+30% Participaçãoe-commerce (2017)
vs 24% em 2016
20M Visitantes únicos nos canais digitais
Foco em
Pessoas einovação
Data Team40 pessoas
8 times
6
DataData
Engineering
Intelligence
Recommendations
CRM BI
Search
Exploration
DS Tools
7
● Democratizar os Dados e a Ciência na empresa
● Resolver problemas de negócio com inteligência e dados
● Ser os owners, prover dados analíticos e ferramentas
● Governança
A missão
8
● +400 aplicações
● +200 bases
● Multi-cloud: AWS, Google Cloud, Azure e On-premises
● Múltiplos sabores: batch, streaming, file...
● 56 times
● 540 pessoas
O universo
Algumasáreasque consomem nossos dados
9
e-commerce
Logística
Planejamento e
abastecimento
Marketing
Financeiro
Arquitetura
2
Ecossistema de Dados
PlataformasMagalu
Inteligência / Machine Learning
Banco de DadosBI - negócio
TimeX
BILojas
BIe-comm
BILogística
Área de negócio
DataAnalyst
DataScientist
Dados externos
Data LakeHub
Arquitetura - v1
● 1 ano e meio de vida● 40 TB dados● ~200 pessoas● D-7 a T-2
Arquitetura - v2
● 6 meses de vida● 200 TB● ~250 pessoas● D-7 a Real Time
Zonas
Transient
Zona 1
Dado no seu estado mais puro, ou seja, não tem
otimização de leitura/escrita, validação de schema e pode estar
corrompido.
Zona 2
Raw Trusted
Zona 3 Zona 4
Refined
Dado otimizado para leitura usando Parquet já formatado, usando um schema e pronto para
consumo de aplicações/Data
Scientists.
Dado vindo da zona Raw com possíveis melhorias
semânticas e agregações, e que indica uma fonte
única da verdade. Aqui o dado pode ser usado
tanto em Parquet quanto enviado para outras fontes de dados como BigQuery,
Tableau, etc.
Variações do dado Raw/Trusted que não refletem uma verdade absoluta, mas que faz
sentido no contexto de algum time/aplicação. Ex:
Ações de usuários são dados Trusted mas
recomendações são uma visão Refined.
Sources
PlataformasMagalu
Sness Data LakeHub
PlataformasMagalu
PlataformasMagalu
PlataformasMagalu
DadosExternos
On-premises
Democratizandoos dados
3
17
● Simples é melhor do que complexo
● Acessível é melhor do que lindo tecnicamente
● Acurácia é tudo
● Documentação e didática fazem diferença
● Governança gera confiança
Premissas
18
● Vários formatos disponíveis, com samples e conexões
● Ferramentas exploratórias e dashboards
● Confiança nos dados: single source of truth
● Habilitar e não burocratizar
● D-1 é melhor do que zero
● Para todos os sabores
Pilares
Ecossistema
4
Quedê
21
22
23
Celebro
25
26
Arcade
28
29
30
31
Sness
34
Obrigado!Perguntas?cassiano@luizalabs.com
@danielcassiano
br.linkedin.com/in/dcassiano
top related