big data: uma visão geral · apache hadoop •hadoop é um framework que permite o ... google...

16
BIG DATA: Uma Visão Geral Breno C. Costa [email protected]

Upload: vuongphuc

Post on 10-Dec-2018

216 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: BIG DATA: Uma Visão Geral · Apache Hadoop •Hadoop é um framework que permite o ... Google lança Map Reduce e GFS ... mineração de dados e Big Data

BIG DATA:

Uma Visão Geral

Breno C. Costa

[email protected]

Page 2: BIG DATA: Uma Visão Geral · Apache Hadoop •Hadoop é um framework que permite o ... Google lança Map Reduce e GFS ... mineração de dados e Big Data

Histórico

• Data Mining

• Big Data

• Data Science

Page 3: BIG DATA: Uma Visão Geral · Apache Hadoop •Hadoop é um framework que permite o ... Google lança Map Reduce e GFS ... mineração de dados e Big Data

Big Data: motivação

Page 4: BIG DATA: Uma Visão Geral · Apache Hadoop •Hadoop é um framework que permite o ... Google lança Map Reduce e GFS ... mineração de dados e Big Data

Big Data: conceitos

• 4v’s do Big Data

Vo

lum

e • Grande escala

• Gigabytes -> Terabytes -> Petabytes

Vel

oci

dad

e • Dados gerados rapidamente

• Tempo real

• Sensores Var

ied

ade

• Diferentes formas

• Estruturado

• Não estruturado

• Texto

• Multimídia

Ver

acid

ade • Incerteza

• Imprecisão

Page 5: BIG DATA: Uma Visão Geral · Apache Hadoop •Hadoop é um framework que permite o ... Google lança Map Reduce e GFS ... mineração de dados e Big Data

Big Data: quem está fazendo

• Empresas

• Produto em destaque

Page 6: BIG DATA: Uma Visão Geral · Apache Hadoop •Hadoop é um framework que permite o ... Google lança Map Reduce e GFS ... mineração de dados e Big Data

Apache Hadoop

• Hadoop é um framework que permite o processamento distribuído de grandes bases de dados através de clusters usando modelos de programação simples.

• Breve Histórico – 2003-2004: Google lança Map Reduce e GFS

– 2005: MR e DFS implementados por Doug Cutting

– 2006: Hadoop se torna um projeto Apache

– 2011: Apache disponibiliza Hadoop 1.x (HDFS + MR)

– 2013: Apache lança Hadoop 2.x (HDFS + MR + YARN)

Page 7: BIG DATA: Uma Visão Geral · Apache Hadoop •Hadoop é um framework que permite o ... Google lança Map Reduce e GFS ... mineração de dados e Big Data

Apache Hadoop

• O Hadoop é dividido em quatro módulos:

– Common: utilitários que auxiliam os outros módulos

– HDFS: sistema de arquivo distribuído do Hadoop

– MapReduce: processamento paralelo de grandes bases de dados

– YARN: agendamento de jobs e gerenciamento de recursos do cluster

Page 8: BIG DATA: Uma Visão Geral · Apache Hadoop •Hadoop é um framework que permite o ... Google lança Map Reduce e GFS ... mineração de dados e Big Data

Hadoop Distributed File System (HDFS)

• Sistema de arquivo distribuído de alta disponibilidade

Page 9: BIG DATA: Uma Visão Geral · Apache Hadoop •Hadoop é um framework que permite o ... Google lança Map Reduce e GFS ... mineração de dados e Big Data

Yarn/MapReduce

• Ao executar um job no Hadoop, ele o divide entre os nós que podem executá-lo naquele momento.

• Processamento

distribuído

Page 10: BIG DATA: Uma Visão Geral · Apache Hadoop •Hadoop é um framework que permite o ... Google lança Map Reduce e GFS ... mineração de dados e Big Data

Ecossistema Hadoop

Hive: DW distribuído, que gerencia os dados armazenados no HDFS e provê uma linguagem de consulta parecida com o SQL

Hbase: BD NoSQL distribuído em tabelas muito grandes orientadas a colunas

Pig: executa fluxo de dados usando a linguagem script Pig Latin para explorar dados

Mahout: biblioteca de aprendizado de máquina, incluindo várias implementações

Page 11: BIG DATA: Uma Visão Geral · Apache Hadoop •Hadoop é um framework que permite o ... Google lança Map Reduce e GFS ... mineração de dados e Big Data

Outros projetos

Cassandra: banco de dados distribuído altamente escalável

Spark: mecanismo geral e rápido para processamento de dados em grande escala

MongoDB: aplicação de alto desempenho, sem esquemas, orientada a documentos

Neo4j: banco de dados de grafos altamente robusto e escalável

Page 12: BIG DATA: Uma Visão Geral · Apache Hadoop •Hadoop é um framework que permite o ... Google lança Map Reduce e GFS ... mineração de dados e Big Data

Ecossistema Hadoop

• O Hadoop fornece uma base para usar os outros projetos sobre ele

Page 13: BIG DATA: Uma Visão Geral · Apache Hadoop •Hadoop é um framework que permite o ... Google lança Map Reduce e GFS ... mineração de dados e Big Data

Futuro

Page 14: BIG DATA: Uma Visão Geral · Apache Hadoop •Hadoop é um framework que permite o ... Google lança Map Reduce e GFS ... mineração de dados e Big Data

Proativa

• Startup de base tecnológica que pesquisa, desenvolve e comercializa soluções em mineração de dados e Big Data.

• Softwares de auxílio à tomada de decisão em processos de negócio complexos

Page 15: BIG DATA: Uma Visão Geral · Apache Hadoop •Hadoop é um framework que permite o ... Google lança Map Reduce e GFS ... mineração de dados e Big Data

Plataforma TARGET – Seleção de Alvos

Tecnologia: machine learning para extração de características e classificação de padrões

TARGET – Seleção de Alvos

Page 16: BIG DATA: Uma Visão Geral · Apache Hadoop •Hadoop é um framework que permite o ... Google lança Map Reduce e GFS ... mineração de dados e Big Data

Obrigado!

Breno C. Costa

[email protected]

brenoccosta7