domando o big data no dia a dia - qcon são paulo · 2015. 5. 27. · domando o big data no dia a...

63
Allan Oliveira | allan@chaordic.com.br Sai Hadoop, entra Spark Domando o Big Data no dia a dia

Upload: others

Post on 29-Jan-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

  • Allan Oliveira | [email protected]

    Sai Hadoop, entra SparkDomando o Big Data no dia a dia

  • tópico 1Emails personalizados

  • CampanhaReduçãode Preço

  • CampanhaIndecisos

  • O Desafio dos Emails Personalizados

  • +600milhões

    Pageviews

  • Usuários

    +42milhões

  • Evolução de uma arquitetura de emails personalizados

    tópico 2

  • Evolução da arquiteturaA base de tudo

  • Evolução da arquiteturaA base de tudo

  • Evolução da arquiteturaA base de tudo

  • Evolução da arquiteturaO início da história

  • Evolução da arquiteturaO início da história

  • Evolução da arquiteturaO início da história

  • Evolução da arquiteturaO início da história

  • Evolução da arquiteturaO início da história

  • Evolução da arquiteturaO início da história

  • Evolução da arquiteturaO início da história

  • Evolução da arquiteturaO início da história

  • Evolução da arquiteturaO início da história

  • Evolução da arquiteturaO início da história

  • Evolução da arquiteturaQuando o Hadoop chegou

  • Evolução da arquiteturaQuando o Hadoop chegou

  • Evolução da arquiteturaQuando o Hadoop chegou

  • Evolução da arquiteturaQuando o Hadoop chegou

  • Evolução da arquiteturaQuando o Hadoop chegou

  • Evolução da arquiteturaQuando o Hadoop chegou

  • gasmtópico 3

  • Sparkgasm!Uma só plataforma para todos os seus problemas

  • Sparkgasm!Uma só plataforma para todos os seus problemas

  • Sparkgasm!Uma só plataforma para todos os seus problemas

  • Sparkgasm!Uma só plataforma para todos os seus problemas

  • Sparkgasm!Uma só plataforma para todos os seus problemas

  • Sparkgasm!Como Spark é mais rápido que Hadoop

    1

    6.75

    11

    82.5

  • As dificuldades ao seusar o Spark

    tópico 4

  • Hadoop-clientO presente de grego para o Spark

  • Bugs do Spark

  • Bugs do Spark

  • operação necessitainvestimento

  • Ignition: o nosso aprendizadotópico 5

  • Ignition-Template

    Job Runner:Advanced ClusterControl

    Job/SetupOrganization Examples

    Ignition-CoreCluster Management &Job Execution

    Multi-SetupRunner

    UtilitaryFunctions

    Projetos open-source da Chaordic

    github.com/chaordic/ignition-template

    github.com/chaordic/ignition-core

    http://github.com/chaordic/ignition-templatehttp://github.com/chaordic/ignition-templatehttp://github.com/chaordic/ignition-templatehttp://github.com/chaordic/ignition-templatehttp://github.com/chaordic/ignition-templatehttp://github.com/chaordic/ignition-template

  • montando um cluster robusto

  • Algoritmo

    ● Escolher a melhor máquina na melhor AZ cujo preço spot não é muito volátil;

    ● Levantar o cluster;

    ● Fazer um teste de sanidade no cluster;

    ● Rodar o Job (1 ou infinitas vezes);

    ● Quando falhar, refazer teste de sanidade;

    ● Recriar cluster caso teste de sanidade falhe, usando uma AZ/máquina diferente.

  • organizandoprojetos

  • Puro I/O

    Setups

    Mail Builder Setup

    Non-realtime Setup

    RealtimeSetup

  • Sem efeitos colaterais!

    Puro I/O

    Setups

    Jobs

    Mail Builder Setup

    Non-realtime Setup

    RealtimeSetup

    Mail Builder Job

    User History

    Job

    Entities Update Job

    Campaign A Job

  • Sem efeitos colaterais!

    Puro I/O

    Setups

    Jobs

    Reusable Libraries

    Mail Builder Setup

    Non-realtime Setup

    RealtimeSetup

    Mail Builder Job

    User History

    Job

    Entities Update Job

    Campaign A Job

    Mail-team library Chaordic library RealtimeSetupIgnition-core

  • como a não-saídaé tão importante quanto a saída

  • Success!(Email)

    ValidatedRec Products

    ValidatedBase Products Success Product

    Success Product

    Failed Product Reason

    Failed Product Reason

    SuccessProduct

    SuccessProduct

    SuccessProduct

    Failed Product Reason

  • Failure(Email Reason)

    Validated Rec Products Reference

    Validated Base Products Reference

    Failed Product Reason

    Failed Product Reason

    Failed Product Reason

    Failed Product Reason

    Success Product

    Success Product

    Failed Product Reason

    Failed Product Reason

    Reason: numberOfValidRecommendationsIsLessThanMinimum

  • lidando com dadosmal-comportados

  • Dado normal

  • Dados enviesados

  • Outliers: os vilões

  • Tratando outliers

    rdd.groupByKey()

  • Tratando outliers

    rdd.groupByKey()

  • Tratando outliers

    rdd.groupByKey()

    rdd.groupByKeyAndTake(max)

  • Batches near-realtimecom Secor, Kafka e S3

    S3

    http://github.com/pinterest/secor

    http://github.com/pinterest/secorhttp://github.com/pinterest/secor

  • Venha aprender junto com a gente!

    monkeys.chaordic.com.br

    github.com/chaordic

    [email protected]

    #QCONBIGDATA