conceito de big data - grupo energy telecom · grande que é impossível processar com técnicas de...
TRANSCRIPT
Conceito de Big Data
O que são Dados?
Energy Telecom - November 10th 2014 – pág. 3
A palavra “Dados” é o plural de Datum em Latin que significava “Dar", ou seja "algo dado".
Dados como um conceito abstrato pode ser explicado como o mais baixo nível de abstração a partir do qual as informações e, em seguida, o conhecimento são derivados.
Informações em forma bruta ou desorganizada (como letras, números ou símbolos) que se referem ou representam, condições, idéias ou objetos. Os Dados são ilimitados e presentes em todo o universo.
Computadores: símbolos ou sinais que são inseridos, armazenados, e processados por um computador, para gerar uma saída de informações utilizáveis.
Tipos de dados
Energy Telecom - November 10th 2014 – pág. 4
Dados Relacionais (Tabelas / Transação / Legacy Data)
Texto de Dados (Web)
Semi-estruturados de dados (XML)
Gráfico de Dados de Redes Sociais, semanticweb (RDF)
Data Streaming - Você só pode digitalizar os dados uma vez
Definição de Big Data
Energy Telecom - November 10th 2014 – pág. 4
Big data é um enorme volume de dados estruturados e não estruturados. O volume é tão
grande que é impossível processar com técnicas de banco de dados e software tradicionais.
Big data é o termo utilizado para uma coleção de conjuntos de dados tão grande e
complexo que se torna impossível processar usando ferramentas de gerenciamento de banco de dados ou aplicações de processamento de dados tradicionais.
Big data são dados cuja escala, diversidade e complexidade exigem novas arquiteturas,
técnicas, algoritmos e análises para gerenciá-los e extrair valor e conhecimento oculto deles.
Onde está o Big Data?
Energy Telecom - November 10th 2014 – pág. 4
Walmart lida com mais de 1 milhão de transações de clientes a cada hora.
Facebook processa 40 bilhões de fotos a partir de sua base de usuários.
Decodificação do genoma humano originalmente levou 10 anos para processar; Agora isto pode ser conseguido em uma semana.
Google processava 20 PB por dia em 2008
Facebook tem 2,5 PB de dados de usuários + 15TB / dia em 2009
eBay tem 6,5 PB de dados do usuário + 50 TB / dia
Características do Big Data
Energy Telecom - November 10th 2014 – pág. 4
Big Data se estende por três dimensões básicas:
VOLUMEPetabytes por dia/semana
VELOCIDADECaptura em tempo real
VARIEDADEDados não estruturados,
web logs, áudio vídeo, imagens
Volume
Energy Telecom - November 10th 2014 – pág. 4
VOLUME DE DADOS
Aumento de 44x entre 2009 e 2020
De 0,8 zettabytes para 35zb
O volume de dados está crescendo exponencialmente
Variedade
Energy Telecom - November 10th 2014 – pág. 4
Vários formatos, tipos e estruturas
Texto, imagens, áudio, vídeo, sequências, séries temporais, dados de mídia social, matrizes multi-dimensão, numéricos, entre outros.
Dados estáticos versus fluxo de dados
Uma única aplicação pode estar gerando / coletando muitos tipos de dados
Velocidade
Energy Telecom - November 10th 2014 – pág. 4
Dados é começar gerado rápido e precisam ser processadas rapidamente
Análise de dados on-line
Decisões tardias perdem oportunidades
E-Promoções: Com base na sua localização atual, o seu histórico de compras, o que você gosta, enviar promoções agora para uma loja perto de você.
EXEMPLOS
Monitoramento em Saúde: sensores de monitoramento de suas atividades corporais. As medições anormais exigem reação imediata.
Evolução do conceito de Big Data
Energy Telecom - November 10th 2014 – pág. 4
Fonte: Teradata, inc.
+ 1 V
Energy Telecom - November 10th 2014 – pág. 4
VOLUME VELOCIDADE VARIEDADE VERACIDADE
Dados em repouso
Terabytes a Exabytes de dados
existentes para processamento.
Dados em movimentoStreaming
Milisecundos para secundos de resposta
Dados em várias formas
Estruturado, não estruturado, texto,
multimídia
Dados duvidososDados incertos devido
a inconsistências, ambiguidade, latência,
etc.
Quem está Gerando Big Data?
Energy Telecom - November 10th 2014 – pág. 4
Redes de Mídias Sociais(Todos nós geramos dados)
Instrumentos Científicos(coletando todos os tipos de dados)
Dispositivos Móveis(Rastrando todos os objetos o tempo
todo)
Redes de sensors de tecnologia
(Medindo todos os tipos de dados)
Dados Mudam Constantemente
Energy Telecom - November 10th 2014 – pág. 4
• Tudo que pode ser medido serámedido.
• Funcionários e clientes esperammais interações pessoais, mas não ao custo de sua privacidade.
• AS companhias mais inovadorasadotam a experimentação e agilidade.
• Instrumentalização • Consumerização • Experimentação
Implantação de Big Data
Energy Telecom - November 10th 2014 – pág. 4
Tecnologias de DBMS Paralelas
Proposto no final dos anos oitenta
Amadurecido ao longo das últimas duas décadas
Indústria Multi-bilionária: Motores DBMS proprietários como solução de Data Warehousing para grandes empresas
Map Reduce
Google foi o pioneiro
Yahoo! popularizou (Hadoop)
Comparação
Energy Telecom - November 10th 2014 – pág. 4
MapReduce Tecnologias de DBMS Paralelas
Modelo de programação de dados paralelo
Uma associação entre paralelo e distribuído
Implantação para clusters de Mercado (commodity)
Popularizado pelo Hadoop (Open Source)Usado peloYahoo!, Facebook,
Amazon, e a lista cresce…
Popularmente usado nas últimas duas décadas
Projetos de Pesquisa: Gamma, Grace, …
Comercial: Indústria Multi-billionária mas acessível a poucos privilegiados
Modelo de dados relacional
Indexação
Interface SQL familiar
Otimização de consulta avançada
Vantagens do Map Reduce
Energy Telecom - November 10th 2014 – pág. 4
Paralelização automática:
Dependendo do tamanho da RAW de dados de entrada instancia múltiplas tarefas MAP
Da mesma forma, dependendo do número de intermediário <chave, valor> de partições instancia múltiplas tarefas REDUCE
Em tempo de execução:
Particionamento de dados
Agendamento de tarefas
Manuseio de erros de máquina
Gestão da comunicação inter-máquina
Completamente transparente para o programador, usuário final e analista
O que o Hadoop armazena?
Energy Telecom - November 10th 2014 – pág. 4
Por que Hadoop?
Energy Telecom - November 10th 2014 – pág. 4
Big Data analytics e o projeto Apache Hadoop Open Source estão emergindorapidamente como a solução preferida para resolver problemas de negócios etecnologia relacionados a tendências atuais que perturbam o modelotradicional de gerenciamento e processamento de dados.
Significando dizer que a atual demanda por informações com alto valor estratégico e avelocidade com a qual estes dados precisam ser disponibilizados, não podem ser entregues portecnologias tradicionais.
Adoção do Hadoop pela indústria
Energy Telecom - November 10th 2014 – pág. 4
O que é Hadoop?
Energy Telecom - November 10th 2014 – pág. 4
É um Sistema distribuído, tolerante a falhas e altamente escalável paraprocessamento e armazenamento de dados
O Hadoop possui dois principais componentes:Hadoop Distributed File System (HDFS). Auto recuperável, grande capacidade de
armazenamento de dados em clusters. Resiliente, redundante, otimizado para tratamentode grandes arquivos.
Map Reduce. Processamento distribuído e tolerante a falhas. Módulo programável paraprocessamento de conjuntos de dados. Mapeia entradas para saídas e reduz a saída demultiplos Mappers para 1 (uma ou algumas respostas).
Opera com dados estruturados ou não estruturados
Possui um extenso eco sistema de aplicações.
Desafios para o Big Data
Energy Telecom - November 10th 2014 – pág. 4
A integração do Big Data é multidisciplinarMenos de 10% do mundo Big Data é genuinamente relacionalSignifica que a integração de dados no real, desarrumado e complexo mundo de Big
Data, banco de dados e web semantica usam métodos multi-disciplinares e multi-tecnologias.
Extratificação de dados abertosMapeamento, Classificação, Visualização, Correspondencia de chavesDemonstrar o valor da semantica: deixe a integração de dados direcionar a correta
tecnologia de DBMSGrandes volumes de dados heterogêneos, como em links de dados
Desafios para o Big Data
Energy Telecom - November 10th 2014 – pág. 4
A automatização de pesquisas altera a definição do conhecimento
Objetividade e precisão das informações
Grande volume de dados não garante dados melhores
Nem todos os dados são equivalents
Só porque o dado é acessível não significa que seja ético
O acesso limitado ao Big Data cria novas divisas digitais
Quem está coletando o Big Data
Energy Telecom - November 10th 2014 – pág. 4
Web Browsers Search Engines
Quem está coletando o Big Data
Energy Telecom - November 10th 2014 – pág. 4
iPhones(Apple O/S)
Samsung, HTC.Nokia, Motorola(Android O/S)
Blackberry(BlackBerry O/S)
Tablets, Celulares & Apps
Apple iPads
Samsung Galaxy
Amazon Kindle Fire
Qual a finalidade dos dados coletados?
Energy Telecom - November 10th 2014 – pág. 4
Companhias de Cartões de Crédito What data are they getting?
Notas de Restaturantes
Contas emSupermercados
Passagens aéreas
Contas em hotéis
Companhias de cartões de crédito vão aprimorar seus produtos e ofertas baseados no comportamento de consumo das pessoas.
Por que coletar estes dados?
Energy Telecom - November 10th 2014 – pág. 4
Mercado Alvo
Enviar catálogos exatamente com a mercadoria que você normalmente compra.
Sugerir medicamentos que correspondem precisamente seu histórico médico.
Oferecer os canais de televisão específicos no seu pacote, em vez de esperar que você solicite.
Enviar anúncios personalizados de acordo com o seu perfil nesses canais.
Informação Específica
Saber o que você precise antes de vocêbaseado em seus hábitos de consumo.
Notificar você que sua habilitação estáprestes a expirer ou sobre recargas emcartões ou celulares.
Conclusão
Energy Telecom - November 10th 2014 – pág. 4
Big Data e Big Data Analytics não são apenas para grandes empresas
Big Data não se trata de apenas construer bancos de dados gigantes
Mover o processamento para a fonte dos dados traz muitos ganhos
Escolha o cenário de Big Data mais apropriadoUm cenário completo de dados com conjuntos de dados inteiros podem ser devidamente tratados e
fatorados em processamento analítico, com tecnologias de processamento de banco de dados in-memory ou tecnologia de grid.
Para situações em que o uso conjunto de dados não é tecnicamente viável ou acrescenta pouco valor, um cenário de dados segmentados pode usar analytics e ferramentas de gerenciamento para determiner o dado correto a ser alimentado em modelos analíticos.
Conclusão
Energy Telecom - November 10th 2014 – pág. 4
Big data não é apenas sobre ajudar uma organização a ser mais bem sucedida – Mas para o mercado tornar suas operações de negócios mais eficazes.
Analytics de alta performance foi concebido para apoiar iniciativas de Big Data com bancos de dados in-memory, e opções de computação em grid.
As organizações podem se beneficiar da computação em nuvem, onde a análise de grandes volumes de dados são entregues como um serviço e recursos de TI podem ser ajustados rapidamente para atender às demandas de negócios.
O modelo On Demand prove aos clientes a opção de impulsionar as analyses de big data para eliminar ou reduzir o tempo, o capital investido e custos com manutençãoassociados a infraestruturas on-premises.