bigdata - leandro wanderley

39
IFAL 2013.1 Tópicos Especiais em Sistemas de Informação Prof. Marcilio Ferreira Leandro Wanderley Couto da Silva

Upload: leandro-couto

Post on 06-Dec-2014

421 views

Category:

Technology


0 download

DESCRIPTION

Trabalho sobre Big Data apresentado na disciplina Tópicos Especiais de TI no curso de Sistemas de Informação do IFAL. Fala sobre algumas definições que auxiliaram no surgimento do que hoje chamamos de Big Data, além de falar sobre a ferramenta SPLUNK

TRANSCRIPT

Page 1: Bigdata - Leandro Wanderley

IFAL 2013.1

Tópicos Especiais em Sistemas de Informação

Prof. Marcilio Ferreira

Leandro Wanderley Couto da Silva

Page 2: Bigdata - Leandro Wanderley

SUMÁRIO

• História dos dados;

• Pensamento Computacional;

• Data Warehouse e Data Mining;

• Dados Estruturados e Dados Não-Estruturados;

• Big Data;

• NoSQL;

• MapReduce;

• SPLUNK;

BIGDATA 2

Page 3: Bigdata - Leandro Wanderley

HISTÓRIA DOS DADOS

• Dados são essenciais;

• Empresas armazenavam dados em fichas de papel (arquivos físicos);

• Extrair informações e manter esses arquivos organizado era uma tarefa muito

custosa;

• O acesso à informação dependia da localização geográfica dos arquivos;

BIGDATA 3

Page 4: Bigdata - Leandro Wanderley

HISTÓRIA DOS DADOS

• Esses arquivos físicos evoluíram para arquivos digitais;

• Porém os arquivos digitais eram ainda uma versão melhorada dos arquivos

físicos;

BIGDATA 4

Page 5: Bigdata - Leandro Wanderley

HISTÓRIA DOS DADOS

• Porém apenas armazenar não resolvia o problema, era necessário que os

dados se relacionassem;

BIGDATA 5

Page 6: Bigdata - Leandro Wanderley

PENSAMENTO COMPUTACIONAL

BIGDATA 6

• Jeannete M. Wing em 2006, “o pensamento computacional é habilidade

fundamental para qualquer pessoa, não somente para cientistas da

computação.”

• É escolher uma representação apropriada para um problema ou modelagem de

aspectos relevantes de um problema para fazê-lo tratável;

• Pensar computacionalmente é pensar recursivamente.

Page 7: Bigdata - Leandro Wanderley

DATA WAREHOUSE E DATA MINING

BIGDATA 7

• Hoje em dia, as grandes empresas detêm um volume enorme de dados e esses

estão em diversos sistemas diferentes espalhados por ela.

• Com isso surgiram dois grandes pilares da análise e armazenamento de dados.

Page 8: Bigdata - Leandro Wanderley

DATA WAREHOUSE E DATA MINING

BIGDATA 8

• Um Data Warehouse (ou armazém de dados, ou depósito de dados no Brasil) é

um sistema de computação utilizado para armazenar informações relativas às

atividades de uma organização em bancos de dados, de forma consolidada. O

Data Warehouse é:

• Orientado a Assunto; Integrado; Não Volátil;

• O data warehouse possibilita a análise de grandes volumes de dados

coletados dos sistemas transacionais (OLTP).

• O Data Warehouse não é:

• Produto; Linguagem; Cópia do sistema OLTP;

Page 9: Bigdata - Leandro Wanderley

DATA WAREHOUSE E DATA MINING

BIGDATA 9

• A Mineração de Dados é uma das tecnologias mais promissoras da atualidade.

• O KDD (Knowledge Discovery in Databases ou Descoberta de Conhecimento

nas Bases de Dados) é uma tentativa de solucionar o problema causado pela

chamada "era da informação": a sobrecarga de dados.

• O KDD refere-se a todo o processo de descoberta de conhecimento, e a

Mineração de Dados a uma das atividades do processo.

Page 10: Bigdata - Leandro Wanderley

DADOS ESTRUTURADOS E NÃO

ESTRUTURADOS

BIGDATA 10

• Segundo a IBM 90% de todos os dados do mundo foram gerados nos últimos 2

anos.

Page 11: Bigdata - Leandro Wanderley

DADOS ESTRUTURADOS E NÃO

ESTRUTURADOS

BIGDATA 11

DADOS ESTRUTURADOS

• Dados organizados em blocos semânticos (relações);

• Dados de um mesmo grupo possuem as mesmas descrições (atributos);

• Descrições para todas as classes de um grupo possuem o mesmo formato

(esquema);

• Dados mantidos em um SGBD são chamados de Dados Estruturados por

manterem a mesma estrutura de representação (rígida), previamente projetada

(esquema).

Page 12: Bigdata - Leandro Wanderley

DADOS ESTRUTURADOS E NÃO

ESTRUTURADOS

BIGDATA 12

DADOS NÃO ESTRUTURADOS

• São os dados que não possuem uma estrutura definida.;

• Normalmente caracterizados por documentos textos, imagens, vídeos, etc;

• Nem as estruturas são descritas implicitamente;

• Grande maioria dos dados atuais na Web e nas empresas seguem este

formato.

Page 13: Bigdata - Leandro Wanderley

DADOS ESTRUTURADOS E NÃO

ESTRUTURADOS

BIGDATA 13

DADOS SEMIESTRUTURADOS

• Atualmente, muitos dados não são mantidos no SGBD;

• Dados Web, por exemplo, apresentam uma organização bastante heterogênea;

• A alta heterogeneidade dificulta as consultas a estes dados;

• Assim, estes dados são classificados como semiestruturados:

• Não são estritamente tipados;

• Não são complementarmente não-estruturados.

• Exemplos:

• XML – eXtensible Markup Language

• RDF – Resource Description Framework

• OWL – Web Ontology Language

Page 14: Bigdata - Leandro Wanderley

DADOS ESTRUTURADOS E DADOS NÃO

ESTRUTURADOS

BIGDATA 14

Dados Estruturados Dados Semiestruturados Dados Não Estruturados

Esquema pré-definido Nem sempre há um esquema Não há esquema

Estrutura regular Estrutura irregular Estrutura irregular

Estrutura independente dos

dados

Estrutura embutida nos dados Pode não ter estrutura alguma

Estrutura reduzida Estrutura extensa

(particularidades de cada dado,

visto que cada um pode ter uma

organização própria)

Estrutura extensa

(particularidades de cada dado,

visto que cada um pode ter uma

organização própria)

Fracamente evolutiva Fortemente evolutiva (estrutura

modifica-se com frequência)

Fortemente evolutiva (estrutura

modifica-se com frequência)

Prescritiva (esquemas fechados

e restrições de integridade)

Estrutura descritiva Estrutura descritiva

Distinção entre estrutura e dados

é clara

Distinção entre estrutura e dados

não é clara

Distinção entre estrutura e dados

não é clara

Page 15: Bigdata - Leandro Wanderley

BIGDATA

BIGDATA 15

0

10

20

30

40

50

60

70

80

19962012

Filmes, Figuras,Documentos

Textos simples, HTML

Page 16: Bigdata - Leandro Wanderley

BIGDATA

BIGDATA 16

0

20

40

60

80

Dados disponíveis

Processamento de dados

Page 17: Bigdata - Leandro Wanderley

BIGDATA

BIGDATA 17

VOLUME DE DADOS

• No ano 2000, eram armazenados no mundo

• 800.000 Petabytes (PB)

• IBM: Expectativa para 2020

• 35 Zetabytes (ZB)

Page 18: Bigdata - Leandro Wanderley

BIGDATA

BIGDATA 18

• Segundo os especialistas esse fenômeno se iniciou baseado em 3 V’s.

Page 19: Bigdata - Leandro Wanderley

BIGDATA

BIGDATA 19

• Porém agora surgem mais 2 V’s.

• Veracidade dos dados;

• Valor dos dados.

Page 20: Bigdata - Leandro Wanderley

BIGDATA

BIGDATA 20

• O termo Big Data é bem amplo e ainda não existe um consenso comum em sua

definição.

• Porém, Big Data pode ser resumidamente definido como o processamento

(eficiente e escalável) analítico de grande volumes de dados complexos

produzidos por (várias) aplicações.

Page 21: Bigdata - Leandro Wanderley

• Exemplos de aplicações no contexto Big Data varia bastante, como aplicações

científicas e de engenharias, redes sociais, redes de sensores, dados de Web

Click, dados médicos e biológicos, transações de comércio eletrônico e

financeiros, entre inúmeras outras.

BIGDATA

BIGDATA 21

Page 22: Bigdata - Leandro Wanderley

BIGDATA

BIGDATA 22

• Estima-se que diariamente são gerados 15 petabytes de informações (redes

sociais, dispositivos móveis, financeiras) em todo o mundo, provenientes de

diversas plataformas e sistemas.

• Como prova disso temos os exemplos de Facebook e Twitter que sozinhos geram

diariamente 10 e 7 terabytes de dados, respectivamente.

• Em uma outra vertente temos os dados gerados nas pesquisas astronômicas que

armazenaram cerca de 140 terabytes de informações só em 2010, e que com o

desenvolvimento de novos telescópios até 2016 essa quantidade de informações

poderá ser gerada a cada cinco dias.

Page 23: Bigdata - Leandro Wanderley

BIGDATA

BIGDATA 23

• É ideal:

• Analisar dados semiestruturados e não estruturados de uma variedade de

fontes;

• Quando todos os dados ou quase todos devem ser analisados;

• Para analises interativas e exploratórias;

• Big Data releva as formalidades e restrições do Data Warehouse;

• Preserva a fidelidade dos dados.

Page 24: Bigdata - Leandro Wanderley

BIGDATA

BIGDATA 24

• Basicamente, podemos resumir as características do contexto Big Data em

quatro propriedades:

• (1) dados na ordem de dezenas ou centenas de Terabytes (podendo chegar a

ordem de Petabytes);

• (2) poder de crescimento elástico;

• (3) distribuição do processamento dos dados;

• (4) tipos de dados variados, complexos e/ou semiestruturados.

• Recentemente, ambientes de computação em nuvem (cloud computing) têm sido

utilizados para o gerenciamento de dados em forma de Big Data, enfocando

principalmente em duas tecnologias: Bases de Dados Como Serviço (Database as

a Service (DaaS)) e Infraestrutura Como Serviço (Infrastructure as a service

(IaaS)).

Page 25: Bigdata - Leandro Wanderley

BIGDATA

BIGDATA 25

NoSQL

• Uma das tendências para solucionar os diversos problemas e desafios gerados pelo

contexto Big Data é o movimento denominado NoSQL (Not only SQL). NoSQL

promove diversas soluções inovadoras de armazenamento e processamento de

grande volume de dados.

Page 26: Bigdata - Leandro Wanderley

BIGDATA

BIGDATA 26

NoSQL

• SGBD tradicionais:

• Fortemente baseado no controle transacional ACID (Atomicity, Consistency, Isolation e Durability).

• NoSQL utilizam:

• O paradigma BASE (Basically Available, Soft-state, Eventually consistency).

• O teorema CAP (Consistency, Availability e Partition tolerance) mostra que somente duas dessas 3 propriedades podem ser garantidas simultaneamente em um ambiente de processamento distribuído de grande porte.

• Dentro do aspecto do processamento dos dados, o principal paradigma adotado pelos produtos NoSQL é o MapReduce.

Page 27: Bigdata - Leandro Wanderley

BIGDATA

BIGDATA 27

MapReduce

• Divide o processamento em duas etapas:

• (1) Map, que mapeia e distribui os dados em diversos nós de processamento e

armazenamento;

• (2) Reduce, que agrega e processa os resultados parciais para gerar um

resultado final (ou intermediário para outro processo MapReduce).

• Provavelmente uma das maiores vantagens deste paradigma é a sua simplicidade,

onde a manipulação dos dados é feita pelo uso de duas funções básicas: Map

(função de mapeamento) e Reduce (função de redução).

• Foi introduzido pela Google em 2004.

Page 28: Bigdata - Leandro Wanderley

BIGDATA

BIGDATA 28

MapReduce

• A Figura ilustra o paradigma MapReduce para contar palavras em um arquivo

grande de texto, onde os dados são distribuídos e armazenados utilizando como

pares < key, value >.

Page 29: Bigdata - Leandro Wanderley

BIGDATA

BIGDATA 29

NoSQL

• Os produtos NoSQL possuem várias características comuns entre si, porém se diferenciam quanto ao modelo de dados utilizados (i.e., os produtos são classificados pela representação dos dados). Atualmente, os principais produtos NoSQL disponíveis, são organizados segundo seu modelo de dados a seguir:

• Baseado em Coluna (Column Stores): Hbase, Cassandra, Hypertable, Accumulo, Amazon SimpleDB, Cloudata, Cloudera, SciDB, HPCC, Stratosphere;

• Baseado emDocumentos (Document Stores): MongoDB, CouchDB, BigCouch, RavenDB, Clusterpoint Server, ThruDB, TerraStore, RaptorDB, JasDB, SisoDB, SDB, SchemaFreeDB, djondb;

• Baseado em Grafos (Graph-Based Stores): Neo4J, Infinite Graph, Sones, InfoGrid, HyperGraphDB, DEX, Trinity, AllegroGraph, BrightStarDB, BigData, Meronymy, OpenLink Virtuoso, VertexDB, FlockDB;

• Baseado em Chave-Valor (Key-Value Stores): Dynamo, Azure Table Storage, Couchbase Server, Riak, Redis, LevelDB, Chordless, GenieDB, Scalaris, Tokyo Cabinet/Tyrant, GT.M, Scalien, Berkeley DB, Voldemort, Dynomite, KAI, MemcacheDB, Faircom C-Tree, HamsterDB, STSdb, Tarantool/Box, Maxtable, Pincaster, RaptorDB, TIBCO Active Spaces, allegro-C, nessDB, HyperDex, Mnesia, LightCloud, Hibari, BangDB.

Page 30: Bigdata - Leandro Wanderley

BIGDATA

BIGDATA 30

Page 31: Bigdata - Leandro Wanderley

SPLUNK

BIGDATA 31

• O que é o SPLUNK?

• O SPLUNK é o mecanismo para os dados gerados por máquina

• Sua infraestrutura de TI gera enormes quantidades de dados. Dados gerados

por máquina - gerados por sites, aplicativos, servidores, redes, dispositivos

móveis e afins. Ao monitorar e analisar tudo, de clickstreams e transações de

clientes à atividade de rede para registrar chamadas.

Page 32: Bigdata - Leandro Wanderley

SPLUNK

BIGDATA 32

• Projetado para BigData

• O dimensionamento de sua arquitetura se baseia no MapReduce; portanto,

conforme os volumes diários e as fontes de dados crescem, você pode dimensionar

o desempenho, simplesmente adicionando mais servidores comuns.

Page 33: Bigdata - Leandro Wanderley

SPLUNK

BIGDATA 33

Page 34: Bigdata - Leandro Wanderley

SPLUNK

BIGDATA 34

Page 35: Bigdata - Leandro Wanderley

SPLUNK

BIGDATA 35

Page 36: Bigdata - Leandro Wanderley

SPLUNK

BIGDATA 36

Page 37: Bigdata - Leandro Wanderley

SPLUNK

BIGDATA 37

Page 38: Bigdata - Leandro Wanderley

BIGDATA

BIGDATA 38

Page 39: Bigdata - Leandro Wanderley

REFERÊNCIAS BIBLIOGRÁFICAS

BIGDATA 39

• A história dos bancos de dados. Disponível em: http://www.dicasdeprogramacao.com.br/a-historia-dos-bancos-

de-dados/ Acesso em: 18/06/2013.

• LIMA JUNIOR, W. T. Jornalismo Computacional em função da Era do Big Data. 9º. Encontro Nacional de

Pesquisadores em Jornalismo, Rio de Janeiro, ECO- Universidade Federal do Rio de Janeiro. Novembro de 2011.

• OLIVEIRA, M. Data Warehouse. Disponível em:

http://www.datawarehouse.inf.br/Academicos/A%20PUBLICAR_DATA_WAREHOUSE_MARCELL_OLIVEIRA.pdf

Acesso em: 19/06/2013.

• CAMILO, C. O. SILVA, J. C. Mineração de Dados: Conceitos, Tarefas, Métodos e Ferramentas. Instituto de

Informática, Universidade Federal de Goiás. 2009.

• CLARO, D. B. Dados Estruturados x Dados Semiestruturados x Dados Não Estruturados. Disponível em:

http://homes.dcc.ufba.br/~dclaro/download/mate04/DadosEstruturadosxSemiEstruturadosxNaoEstruturados.pdf

Acesso em: 19/06/2013.

• VIEIRA, M. R. FIGUEIREDO, J. M. LIBERATTI, G. VIEBRANTZ, A. F. M. Bancos de Dados NoSQL: Conceitos,

Ferramentas, Linguagens e Estudos de Casos no Contexto de Big Data. Simpósio Brasileiro de Bancos de

Dados - SBBD 2012.

• SOUZA, M. Introdução Splunk Brasil. Disponível em: http://www.slideshare.net/mtelless/introduo-splunk-brasil

Acesso em: 24/06/2013.