tdc2016poa | trilha bigdata - google bigquery: estudo de caso globo.com
TRANSCRIPT
Globalcode – Open4education
BigData – Google BigQuery: Estudo de Caso globo.com
Guilherme Balestieri Bedindev @ globo.com
BigData Globo.com
Relatórios
Comportamento
Offline
Tendências
Métricas
Qual o tempo médio de permanência dos usuários em
na página?
Cluster Globo.com
cluster de processamento
real time
offline
bancos chave-valor
relatórios
BigData Globo.com
Somente para offline: relatórios
Processo interativo com usuários
Volume muito grande de dados
Alternativas
Amazon Redshift
Paga por instância de HW
SQL
Ecossistema Amazon
Integração com ferramentas
Desempenho
Google BigQuerySQL like
Ecossistema Google
Paga por processamento e espaço em disco
Simplicidade
Desempenho
Inserir dados por Streaming
Sem índices: tudo é rápido
Configurações de infra-estrutura
Google BigQuery
Arquivos com dados do dia
Dados importados por Job
Tabelas com dados do dia
Job: prepara dados
Dados
Dados agrupados por dia
Job: envia dados do dia
Envia dados do dia no formato AVRO
Remove dados do dia no formato AVRO
Job: importa no BigQuery
Importa dados do dia via job
Tabela do dia
Tabelas por dia
mydata.20140319
mydata.20150321
mydata.20140320
…
Como se fosse uma única tabela concatenada
Comparação
Selecionar os hits na home do G1 feitos por iPhone de um dia
e persistir o resultado
BigQuery: 25s Cluster (10 cores): 3h
Ambiente
Python e R
Notebook Jupyter
Biblioteca BigQuery
Exemplo: pacotes Go mais usados
https://cloud.google.com/bigquery/public-data/github
Exemplo: pacotes Go mais usados
Exemplo: pacotes Go mais usados
Google BigQuery
Manter: $0.02 por GB ao mês
Dados descompactados
90 dias sem edição $0.01
Google BigQuery
Processar: $5 por TB
Depende dos dados que a query usa
Cache por 24h
Google BigQuery
Streaming: $0.01 por 200MB
JOB: gratuito
Enviar
Volume
~12 meses de dados
~10TB compactados
~43TB descompactados
~8TB de crescimento ao mês descompactado
~ $860
~ $160
Melhorias
Tratar os dados para diminuir tamanho
Janela de dados
Usar estruturas aninhadas (registro)
Tabela de domínio
Biblioteca de estudos mais comuns
Considerações
Estimar custos
JOB para importar os dados
Automatizar a importação dos dados
É possível realizar as análises em SQL?
Conexão internet: upload
Vagas
Perguntas
?