conceito de big data - grupo energy telecom · grande que é impossível processar com técnicas de...

30

Upload: letruc

Post on 20-Jan-2019

219 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Conceito de Big Data - Grupo Energy Telecom · grande que é impossível processar com técnicas de banco de dados e software tradicionais. ... cartões ou celulares. Conclusão Energy
Page 2: Conceito de Big Data - Grupo Energy Telecom · grande que é impossível processar com técnicas de banco de dados e software tradicionais. ... cartões ou celulares. Conclusão Energy

Conceito de Big Data

Page 3: Conceito de Big Data - Grupo Energy Telecom · grande que é impossível processar com técnicas de banco de dados e software tradicionais. ... cartões ou celulares. Conclusão Energy

O que são Dados?

Energy Telecom - November 10th 2014 – pág. 3

A palavra “Dados” é o plural de Datum em Latin que significava “Dar", ou seja "algo dado".

Dados como um conceito abstrato pode ser explicado como o mais baixo nível de abstração a partir do qual as informações e, em seguida, o conhecimento são derivados.

Informações em forma bruta ou desorganizada (como letras, números ou símbolos) que se referem ou representam, condições, idéias ou objetos. Os Dados são ilimitados e presentes em todo o universo.

Computadores: símbolos ou sinais que são inseridos, armazenados, e processados por um computador, para gerar uma saída de informações utilizáveis.

Page 4: Conceito de Big Data - Grupo Energy Telecom · grande que é impossível processar com técnicas de banco de dados e software tradicionais. ... cartões ou celulares. Conclusão Energy

Tipos de dados

Energy Telecom - November 10th 2014 – pág. 4

Dados Relacionais (Tabelas / Transação / Legacy Data)

Texto de Dados (Web)

Semi-estruturados de dados (XML)

Gráfico de Dados de Redes Sociais, semanticweb (RDF)

Data Streaming - Você só pode digitalizar os dados uma vez

Page 5: Conceito de Big Data - Grupo Energy Telecom · grande que é impossível processar com técnicas de banco de dados e software tradicionais. ... cartões ou celulares. Conclusão Energy

Definição de Big Data

Energy Telecom - November 10th 2014 – pág. 4

Big data é um enorme volume de dados estruturados e não estruturados. O volume é tão

grande que é impossível processar com técnicas de banco de dados e software tradicionais.

Big data é o termo utilizado para uma coleção de conjuntos de dados tão grande e

complexo que se torna impossível processar usando ferramentas de gerenciamento de banco de dados ou aplicações de processamento de dados tradicionais.

Big data são dados cuja escala, diversidade e complexidade exigem novas arquiteturas,

técnicas, algoritmos e análises para gerenciá-los e extrair valor e conhecimento oculto deles.

Page 6: Conceito de Big Data - Grupo Energy Telecom · grande que é impossível processar com técnicas de banco de dados e software tradicionais. ... cartões ou celulares. Conclusão Energy

Onde está o Big Data?

Energy Telecom - November 10th 2014 – pág. 4

Walmart lida com mais de 1 milhão de transações de clientes a cada hora.

Facebook processa 40 bilhões de fotos a partir de sua base de usuários.

Decodificação do genoma humano originalmente levou 10 anos para processar; Agora isto pode ser conseguido em uma semana.

Google processava 20 PB por dia em 2008

Facebook tem 2,5 PB de dados de usuários + 15TB / dia em 2009

eBay tem 6,5 PB de dados do usuário + 50 TB / dia

Page 7: Conceito de Big Data - Grupo Energy Telecom · grande que é impossível processar com técnicas de banco de dados e software tradicionais. ... cartões ou celulares. Conclusão Energy

Características do Big Data

Energy Telecom - November 10th 2014 – pág. 4

Big Data se estende por três dimensões básicas:

VOLUMEPetabytes por dia/semana

VELOCIDADECaptura em tempo real

VARIEDADEDados não estruturados,

web logs, áudio vídeo, imagens

Page 8: Conceito de Big Data - Grupo Energy Telecom · grande que é impossível processar com técnicas de banco de dados e software tradicionais. ... cartões ou celulares. Conclusão Energy

Volume

Energy Telecom - November 10th 2014 – pág. 4

VOLUME DE DADOS

Aumento de 44x entre 2009 e 2020

De 0,8 zettabytes para 35zb

O volume de dados está crescendo exponencialmente

Page 9: Conceito de Big Data - Grupo Energy Telecom · grande que é impossível processar com técnicas de banco de dados e software tradicionais. ... cartões ou celulares. Conclusão Energy

Variedade

Energy Telecom - November 10th 2014 – pág. 4

Vários formatos, tipos e estruturas

Texto, imagens, áudio, vídeo, sequências, séries temporais, dados de mídia social, matrizes multi-dimensão, numéricos, entre outros.

Dados estáticos versus fluxo de dados

Uma única aplicação pode estar gerando / coletando muitos tipos de dados

Page 10: Conceito de Big Data - Grupo Energy Telecom · grande que é impossível processar com técnicas de banco de dados e software tradicionais. ... cartões ou celulares. Conclusão Energy

Velocidade

Energy Telecom - November 10th 2014 – pág. 4

Dados é começar gerado rápido e precisam ser processadas rapidamente

Análise de dados on-line

Decisões tardias perdem oportunidades

E-Promoções: Com base na sua localização atual, o seu histórico de compras, o que você gosta, enviar promoções agora para uma loja perto de você.

EXEMPLOS

Monitoramento em Saúde: sensores de monitoramento de suas atividades corporais. As medições anormais exigem reação imediata.

Page 11: Conceito de Big Data - Grupo Energy Telecom · grande que é impossível processar com técnicas de banco de dados e software tradicionais. ... cartões ou celulares. Conclusão Energy

Evolução do conceito de Big Data

Energy Telecom - November 10th 2014 – pág. 4

Fonte: Teradata, inc.

Page 12: Conceito de Big Data - Grupo Energy Telecom · grande que é impossível processar com técnicas de banco de dados e software tradicionais. ... cartões ou celulares. Conclusão Energy

+ 1 V

Energy Telecom - November 10th 2014 – pág. 4

VOLUME VELOCIDADE VARIEDADE VERACIDADE

Dados em repouso

Terabytes a Exabytes de dados

existentes para processamento.

Dados em movimentoStreaming

Milisecundos para secundos de resposta

Dados em várias formas

Estruturado, não estruturado, texto,

multimídia

Dados duvidososDados incertos devido

a inconsistências, ambiguidade, latência,

etc.

Page 13: Conceito de Big Data - Grupo Energy Telecom · grande que é impossível processar com técnicas de banco de dados e software tradicionais. ... cartões ou celulares. Conclusão Energy

Quem está Gerando Big Data?

Energy Telecom - November 10th 2014 – pág. 4

Redes de Mídias Sociais(Todos nós geramos dados)

Instrumentos Científicos(coletando todos os tipos de dados)

Dispositivos Móveis(Rastrando todos os objetos o tempo

todo)

Redes de sensors de tecnologia

(Medindo todos os tipos de dados)

Page 14: Conceito de Big Data - Grupo Energy Telecom · grande que é impossível processar com técnicas de banco de dados e software tradicionais. ... cartões ou celulares. Conclusão Energy

Dados Mudam Constantemente

Energy Telecom - November 10th 2014 – pág. 4

• Tudo que pode ser medido serámedido.

• Funcionários e clientes esperammais interações pessoais, mas não ao custo de sua privacidade.

• AS companhias mais inovadorasadotam a experimentação e agilidade.

• Instrumentalização • Consumerização • Experimentação

Page 15: Conceito de Big Data - Grupo Energy Telecom · grande que é impossível processar com técnicas de banco de dados e software tradicionais. ... cartões ou celulares. Conclusão Energy

Implantação de Big Data

Energy Telecom - November 10th 2014 – pág. 4

Tecnologias de DBMS Paralelas

Proposto no final dos anos oitenta

Amadurecido ao longo das últimas duas décadas

Indústria Multi-bilionária: Motores DBMS proprietários como solução de Data Warehousing para grandes empresas

Map Reduce

Google foi o pioneiro

Yahoo! popularizou (Hadoop)

Page 16: Conceito de Big Data - Grupo Energy Telecom · grande que é impossível processar com técnicas de banco de dados e software tradicionais. ... cartões ou celulares. Conclusão Energy

Comparação

Energy Telecom - November 10th 2014 – pág. 4

MapReduce Tecnologias de DBMS Paralelas

Modelo de programação de dados paralelo

Uma associação entre paralelo e distribuído

Implantação para clusters de Mercado (commodity)

Popularizado pelo Hadoop (Open Source)Usado peloYahoo!, Facebook,

Amazon, e a lista cresce…

Popularmente usado nas últimas duas décadas

Projetos de Pesquisa: Gamma, Grace, …

Comercial: Indústria Multi-billionária mas acessível a poucos privilegiados

Modelo de dados relacional

Indexação

Interface SQL familiar

Otimização de consulta avançada

Page 17: Conceito de Big Data - Grupo Energy Telecom · grande que é impossível processar com técnicas de banco de dados e software tradicionais. ... cartões ou celulares. Conclusão Energy

Vantagens do Map Reduce

Energy Telecom - November 10th 2014 – pág. 4

Paralelização automática:

Dependendo do tamanho da RAW de dados de entrada instancia múltiplas tarefas MAP

Da mesma forma, dependendo do número de intermediário <chave, valor> de partições instancia múltiplas tarefas REDUCE

Em tempo de execução:

Particionamento de dados

Agendamento de tarefas

Manuseio de erros de máquina

Gestão da comunicação inter-máquina

Completamente transparente para o programador, usuário final e analista

Page 18: Conceito de Big Data - Grupo Energy Telecom · grande que é impossível processar com técnicas de banco de dados e software tradicionais. ... cartões ou celulares. Conclusão Energy

O que o Hadoop armazena?

Energy Telecom - November 10th 2014 – pág. 4

Page 19: Conceito de Big Data - Grupo Energy Telecom · grande que é impossível processar com técnicas de banco de dados e software tradicionais. ... cartões ou celulares. Conclusão Energy

Por que Hadoop?

Energy Telecom - November 10th 2014 – pág. 4

Big Data analytics e o projeto Apache Hadoop Open Source estão emergindorapidamente como a solução preferida para resolver problemas de negócios etecnologia relacionados a tendências atuais que perturbam o modelotradicional de gerenciamento e processamento de dados.

Significando dizer que a atual demanda por informações com alto valor estratégico e avelocidade com a qual estes dados precisam ser disponibilizados, não podem ser entregues portecnologias tradicionais.

Page 20: Conceito de Big Data - Grupo Energy Telecom · grande que é impossível processar com técnicas de banco de dados e software tradicionais. ... cartões ou celulares. Conclusão Energy

Adoção do Hadoop pela indústria

Energy Telecom - November 10th 2014 – pág. 4

Page 21: Conceito de Big Data - Grupo Energy Telecom · grande que é impossível processar com técnicas de banco de dados e software tradicionais. ... cartões ou celulares. Conclusão Energy

O que é Hadoop?

Energy Telecom - November 10th 2014 – pág. 4

É um Sistema distribuído, tolerante a falhas e altamente escalável paraprocessamento e armazenamento de dados

O Hadoop possui dois principais componentes:Hadoop Distributed File System (HDFS). Auto recuperável, grande capacidade de

armazenamento de dados em clusters. Resiliente, redundante, otimizado para tratamentode grandes arquivos.

Map Reduce. Processamento distribuído e tolerante a falhas. Módulo programável paraprocessamento de conjuntos de dados. Mapeia entradas para saídas e reduz a saída demultiplos Mappers para 1 (uma ou algumas respostas).

Opera com dados estruturados ou não estruturados

Possui um extenso eco sistema de aplicações.

Page 22: Conceito de Big Data - Grupo Energy Telecom · grande que é impossível processar com técnicas de banco de dados e software tradicionais. ... cartões ou celulares. Conclusão Energy

Desafios para o Big Data

Energy Telecom - November 10th 2014 – pág. 4

A integração do Big Data é multidisciplinarMenos de 10% do mundo Big Data é genuinamente relacionalSignifica que a integração de dados no real, desarrumado e complexo mundo de Big

Data, banco de dados e web semantica usam métodos multi-disciplinares e multi-tecnologias.

Extratificação de dados abertosMapeamento, Classificação, Visualização, Correspondencia de chavesDemonstrar o valor da semantica: deixe a integração de dados direcionar a correta

tecnologia de DBMSGrandes volumes de dados heterogêneos, como em links de dados

Page 23: Conceito de Big Data - Grupo Energy Telecom · grande que é impossível processar com técnicas de banco de dados e software tradicionais. ... cartões ou celulares. Conclusão Energy

Desafios para o Big Data

Energy Telecom - November 10th 2014 – pág. 4

A automatização de pesquisas altera a definição do conhecimento

Objetividade e precisão das informações

Grande volume de dados não garante dados melhores

Nem todos os dados são equivalents

Só porque o dado é acessível não significa que seja ético

O acesso limitado ao Big Data cria novas divisas digitais

Page 24: Conceito de Big Data - Grupo Energy Telecom · grande que é impossível processar com técnicas de banco de dados e software tradicionais. ... cartões ou celulares. Conclusão Energy

Quem está coletando o Big Data

Energy Telecom - November 10th 2014 – pág. 4

Web Browsers Search Engines

Page 25: Conceito de Big Data - Grupo Energy Telecom · grande que é impossível processar com técnicas de banco de dados e software tradicionais. ... cartões ou celulares. Conclusão Energy

Quem está coletando o Big Data

Energy Telecom - November 10th 2014 – pág. 4

iPhones(Apple O/S)

Samsung, HTC.Nokia, Motorola(Android O/S)

Blackberry(BlackBerry O/S)

Tablets, Celulares & Apps

Apple iPads

Samsung Galaxy

Amazon Kindle Fire

Page 26: Conceito de Big Data - Grupo Energy Telecom · grande que é impossível processar com técnicas de banco de dados e software tradicionais. ... cartões ou celulares. Conclusão Energy

Qual a finalidade dos dados coletados?

Energy Telecom - November 10th 2014 – pág. 4

Companhias de Cartões de Crédito What data are they getting?

Notas de Restaturantes

Contas emSupermercados

Passagens aéreas

Contas em hotéis

Companhias de cartões de crédito vão aprimorar seus produtos e ofertas baseados no comportamento de consumo das pessoas.

Page 27: Conceito de Big Data - Grupo Energy Telecom · grande que é impossível processar com técnicas de banco de dados e software tradicionais. ... cartões ou celulares. Conclusão Energy

Por que coletar estes dados?

Energy Telecom - November 10th 2014 – pág. 4

Mercado Alvo

Enviar catálogos exatamente com a mercadoria que você normalmente compra.

Sugerir medicamentos que correspondem precisamente seu histórico médico.

Oferecer os canais de televisão específicos no seu pacote, em vez de esperar que você solicite.

Enviar anúncios personalizados de acordo com o seu perfil nesses canais.

Informação Específica

Saber o que você precise antes de vocêbaseado em seus hábitos de consumo.

Notificar você que sua habilitação estáprestes a expirer ou sobre recargas emcartões ou celulares.

Page 28: Conceito de Big Data - Grupo Energy Telecom · grande que é impossível processar com técnicas de banco de dados e software tradicionais. ... cartões ou celulares. Conclusão Energy

Conclusão

Energy Telecom - November 10th 2014 – pág. 4

Big Data e Big Data Analytics não são apenas para grandes empresas

Big Data não se trata de apenas construer bancos de dados gigantes

Mover o processamento para a fonte dos dados traz muitos ganhos

Escolha o cenário de Big Data mais apropriadoUm cenário completo de dados com conjuntos de dados inteiros podem ser devidamente tratados e

fatorados em processamento analítico, com tecnologias de processamento de banco de dados in-memory ou tecnologia de grid.

Para situações em que o uso conjunto de dados não é tecnicamente viável ou acrescenta pouco valor, um cenário de dados segmentados pode usar analytics e ferramentas de gerenciamento para determiner o dado correto a ser alimentado em modelos analíticos.

Page 29: Conceito de Big Data - Grupo Energy Telecom · grande que é impossível processar com técnicas de banco de dados e software tradicionais. ... cartões ou celulares. Conclusão Energy

Conclusão

Energy Telecom - November 10th 2014 – pág. 4

Big data não é apenas sobre ajudar uma organização a ser mais bem sucedida – Mas para o mercado tornar suas operações de negócios mais eficazes.

Analytics de alta performance foi concebido para apoiar iniciativas de Big Data com bancos de dados in-memory, e opções de computação em grid.

As organizações podem se beneficiar da computação em nuvem, onde a análise de grandes volumes de dados são entregues como um serviço e recursos de TI podem ser ajustados rapidamente para atender às demandas de negócios.

O modelo On Demand prove aos clientes a opção de impulsionar as analyses de big data para eliminar ou reduzir o tempo, o capital investido e custos com manutençãoassociados a infraestruturas on-premises.

Page 30: Conceito de Big Data - Grupo Energy Telecom · grande que é impossível processar com técnicas de banco de dados e software tradicionais. ... cartões ou celulares. Conclusão Energy