big data analise de dados. introduÇÃo examinha conjuntos massivos de dados para extrair...

11
BIG DATA ANALISE DE DADOS

Upload: heloisa-braga

Post on 07-Apr-2016

217 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: BIG DATA ANALISE DE DADOS. INTRODUÇÃO Examinha conjuntos massivos de dados para extrair informações e insights valiosos Objetivo principal é Auxilio à

BIG DATAANALISE DE DADOS

Page 2: BIG DATA ANALISE DE DADOS. INTRODUÇÃO Examinha conjuntos massivos de dados para extrair informações e insights valiosos Objetivo principal é Auxilio à

INTRODUÇÃO

• Examinha conjuntos massivos de dados para extrair informações e insights valiosos• Objetivo principal é Auxilio à decisão• Fontes de dados:• Logs, dados de web clickstream, atividade em midia social, email de

consumidores, IoT

• Dados estruturados tambem?

Page 3: BIG DATA ANALISE DE DADOS. INTRODUÇÃO Examinha conjuntos massivos de dados para extrair informações e insights valiosos Objetivo principal é Auxilio à

TECNOLOGIAS CHAVE

• Uso de softwares comuns à área analitica• Uso de softwares de BI e de vizualizacão• Problema: Big Data x Data warehouses• Incompatibilidade com BDs relacionais• Alta demanda de processamento

• Solução: nova classe de tecnologias• Hadoop, MapReduce, NoSQL...

Page 4: BIG DATA ANALISE DE DADOS. INTRODUÇÃO Examinha conjuntos massivos de dados para extrair informações e insights valiosos Objetivo principal é Auxilio à

O QUE É HADOOP?

• Projeto de software de código aberto • permite processamento distribuído de grandes conjuntos de dados em

clusters de servidores.• Alta escalabilidade• Software lida com as falhas• 2 Pilares:

• YARN - Yet Another Resource Negotiator • HDFS - Hadoop Distributed File System

Page 5: BIG DATA ANALISE DE DADOS. INTRODUÇÃO Examinha conjuntos massivos de dados para extrair informações e insights valiosos Objetivo principal é Auxilio à

E O QUE É MAPREDUCE

• Paradigma de programaçãoque permite a escalabilidade massiva através de centenas ou milhares de servidores em um cluster Hadoop.

• Duas tarefas :• Map• Reduce

Page 6: BIG DATA ANALISE DE DADOS. INTRODUÇÃO Examinha conjuntos massivos de dados para extrair informações e insights valiosos Objetivo principal é Auxilio à

METODOS ANALITICOS TRADICIONAIS• Analise de agrupamentos

• Também denominado  classificação  não supervisionada, é a classificação de objetos em diferentes grupos, cada um dos quais deve conter os objetos semelhantes segundo alguma função de distância estatística.

• Esta classificação deve ser realizada de maneira automática, sem intervenção do usuário

• Análise Fatorial• Descreve relação entre muitos elementos com apenas alguns fatores• Agrupa variaveis intimamente relacionadas em um fator• Esses fatores podem revelar a maioria das informacoes dos dados originais

• Analise Estatística• Baseada na teoria estatistica• A análise estatística descritiva pode resumir e descrever conjuntos de dados, enquanto a análise estatística inferencial

pode tirar conclusões a partir dos dados sujeitos a variacoes aleatórias.• Amplamente aplicada nos dominios de economia e assistência médica

• Algoritmos de Mineração de Dados• Processo para extrair informação útil e escondida de dados ruidosos, aleatorios, incompletos, etc...• Top 5(IEEE, 2006): C4.5, K-medias,SVM, Apriori, EM• Cobrem classificação, clustering, regressão, aprendizado estatistico, analise associativa.

os quais são os mais problemas importantes na pesquisa de mineração de dados.

Page 7: BIG DATA ANALISE DE DADOS. INTRODUÇÃO Examinha conjuntos massivos de dados para extrair informações e insights valiosos Objetivo principal é Auxilio à

MÉTODOS ANALÍTICOS PARA BIG DATA• Bloom Filter

• Serie de funções hash• Armazena valores hash dos dados ao invés dos dados em si utilizando um array de bit

que é em essência, um índice bitmap que usa funcoes Hash para realizar armazenamento de dados com compressão lossy

• (+) Alta eficiência de espaço e de velocidade de consulta• ( - ) Falha de reconhecimento e exclusão

• Hashing• Dados -> Valores numericos de comprimento fixo e pequeno• (+) Leitura e escrita rapida. • (–) Dificil encontrar função eficaz

• Indices• índice é sempre um método eficaz para reduzir o custo da leitura e da escrita em disco e melhorar inserção,

eliminação, alteração, velocidades de consulta em ambos bancos de dados relacionais tradicionais que gerenciam dados estruturados e outras tecnologias que gerenciam dados semi-estruturados e não estruturados..

• ( - ) Custo adicional para armazenar e manter de forma dinâmica

• Computação Paralela• A idéia básica é a de se decompor um problema e atribuí-los a vários processos separados a serem completado de forma independente. • Atualmente, alguns modelos clássicos de computação paralela incluem MPI (Message Passing Interface), MapReduce, e Dryad.• MPI, MapReduce, Dryad

Page 8: BIG DATA ANALISE DE DADOS. INTRODUÇÃO Examinha conjuntos massivos de dados para extrair informações e insights valiosos Objetivo principal é Auxilio à

ARQUITETURAS

• Criterio de Prontidão• Análise em tempo real

• Mudança constante de dados• Análise e resultados rápidos• Principais:

• Clusters paralelos usando BD’s relacionais tradicionais• Plataformas de computação baseadas em memória.

• Greenplum da EMC, HANA da SAP.• Análise offline

• Quando não há alta exigência para tempo de resposta• Aprendizadem de Maquina, análise estatística, recomendação de algoritmos..• Importação de logs para uma plataforma especial• Geralmente baseada em Hadoop.• Scribe do Facebook, Kafka do LinkedIn, TimeTunnel do Taobao...

Page 9: BIG DATA ANALISE DE DADOS. INTRODUÇÃO Examinha conjuntos massivos de dados para extrair informações e insights valiosos Objetivo principal é Auxilio à

ARQUITETURAS

• Algum contexto:• “Here at Facebook, we're constantly facing scaling challanges because of our

enormous growth. One particular problem we encountered a couple of years ago was collection of data from our servers. We were collecting a few billion messages a day (which seemed like a lot at the time) for everything from access logs to performance statistics to actions that went to News Feed. We used a variety of different technologies for the different use cases, and all of them were bursting at the seams. We decided to build a unified system (called Scribe) to handle all of these cases, and do it in a way that would scale with Facebook's growth. The system we built turned out to be enormously useful, handling over 100 use cases and tens of billions of messages a day[...]

Page 10: BIG DATA ANALISE DE DADOS. INTRODUÇÃO Examinha conjuntos massivos de dados para extrair informações e insights valiosos Objetivo principal é Auxilio à

FERRAMENTAS• R

• Linguagem estatistica e ambiente de software• Go-to para cientistas e desenvolvedores de Big Data• Combinada com ferramentas de Big Data, a linguagem R

fornece funcoes estatisticas poderosas para lidar com grandes conjuntos de dados • Popular na área de finanças, farmacia, mídia e marketing

• Excel• Processamento de dados poderoso• Capacidades de análise estatística• Plugins: Analysis ToolPak, Solver Add-In

• RapidMiner• Software open source• Mineração de dados, aprendizado de maquina e analise preditiva• Fluxo de mineracao em xml e exibido através da uma GUI• Escrito em java• Funcoes -> conexao de processos

Page 11: BIG DATA ANALISE DE DADOS. INTRODUÇÃO Examinha conjuntos massivos de dados para extrair informações e insights valiosos Objetivo principal é Auxilio à

DÚVIDAS?

• Bibliografia:• Big Data: A Survey - Min Chen·Shiwen Mao·Yunhao Liu

Published online: 22 January 2014• http://www-01.ibm.com/software/data/infosphere/hadoop/• en.wikipedia.org/wiki/Big_data