escola de verão lncc 2015 the data extreme lab (dexl...

19
2/5/15 1 Escola de Verão LNCC 2015 Jornada em Ciência de Dados Fabio Porto ([email protected] ) LNCC – CCC - DEXL Lab http://dexl.lncc.br Gerência de Grandes Volumes de Dados The Data EXtreme Lab (DEXL) Missão Apoiar o desenvolvimento da e-ciência com técnicas de modelagem, gerenciamento e processamento eficiente de grandes volumes de dados Atualmente 3 pesquisadores 7 alunos Doutardo/Mestrado 4 desenvolvedores Projetos Astronomia Medicina Ciência do Esporte Biologia, Ecologia, Biodiversidade Petróleo Jornada Ciência de Dados DEXL – Projetos Atuais DEXL Data Management Oil Pattern Queries Dark Energy Survey (Astronomy) Hypothesis Database Gene Regulatory Networks (System Biology) R. Lopes V. Freire, D Ericson Y. Souto H. Lustosa B. Gonçalves Olympic Laboratory (Sport Science) SIBBR, PELD (Biodiversity) Noel Lamus Amir Khatibi Dr. L. Gadelha Jornada Ciência de Dados Resalva Este curso oferece uma discussão sobre os principais desafios encontrados na gerência de grandes volumes de dados a partir de nossas experiências Este curso não é sobre o ensino de ferramentas e sistemas; Jornada Ciência de Dados

Upload: others

Post on 15-Jan-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Escola de Verão LNCC 2015 The Data EXtreme Lab (DEXL ...dexl.lncc.br/seminarios/JornadaBigData-Parte-I-2015.pdf · y5553 White Dwarf P 4,1=0.1 y5553 Binary Star P 4,2=0.9 . 2/5/15

2/5/15

1

Escola de Verão LNCC 2015 Jornada em Ciência de

Dados

Fabio Porto ([email protected]) LNCC – CCC - DEXL Lab http://dexl.lncc.br

Gerência de Grandes Volumes de Dados

The Data EXtreme Lab (DEXL) Missão

l  Apoiar o desenvolvimento da e-ciência com técnicas de modelagem, gerenciamento e processamento eficiente de grandes volumes de dados

l  Atualmente –  3 pesquisadores –  7 alunos Doutardo/Mestrado –  4 desenvolvedores

l  Projetos –  Astronomia –  Medicina –  Ciência do Esporte –  Biologia, Ecologia, Biodiversidade –  Petróleo

Jornada Ciência de Dados

DEXL – Projetos Atuais

DEXL Data Management

Oil Pattern Queries

Dark Energy Survey (Astronomy)

Hypothesis Database

Gene Regulatory Networks (System Biology)

R. Lopes

V. Freire, D Ericson

Y. Souto H. Lustosa

B. Gonçalves

Olympic Laboratory (Sport Science)

SIBBR, PELD (Biodiversity)

Noel Lamus Amir Khatibi

Dr. L. Gadelha

Jornada Ciência de Dados

Resalva

l  Este curso oferece uma discussão sobre os principais desafios encontrados na gerência de grandes volumes de dados a partir de nossas experiências

l  Este curso não é sobre o ensino de ferramentas e sistemas;

Jornada Ciência de Dados

Page 2: Escola de Verão LNCC 2015 The Data EXtreme Lab (DEXL ...dexl.lncc.br/seminarios/JornadaBigData-Parte-I-2015.pdf · y5553 White Dwarf P 4,1=0.1 y5553 Binary Star P 4,2=0.9 . 2/5/15

2/5/15

2

Jornada Ciência de Dados

Sumário

l  Parte I Big Data? l  Parte II Como manter ! l  Parte III Como usar ! l  Considerações Finais

Parte I: Big Data?

Big Data

l  Uma expressão atual para traduzir o grande dilúvio de dados sendo produzido na ciência, redes sociais, dispositivos de comunicação etc…

l  Alguns sugerem o termo “Extremo” ao invés de “Big”, na medida em que o segundo seria associado a elementos do dia-a-dia de tamanho concretamente superior, mas ainda razoável...

Jornada Ciência de Dados

Big Data

l  Dados estruturados e não estruturados –  Imagens, textos, videos

l  Dados imprecisos, incompletos, inconsistentes l  Desafios na gerência e análise

–  SGBD inadequados quanto ao modelo de representação e capacidade de processamento

–  Descoberta vs extração de conhecimento –  Descoberta de correlações –  Interesse individual ou (mais comumente) padrões

Jornada Ciência de Dados

Page 3: Escola de Verão LNCC 2015 The Data EXtreme Lab (DEXL ...dexl.lncc.br/seminarios/JornadaBigData-Parte-I-2015.pdf · y5553 White Dwarf P 4,1=0.1 y5553 Binary Star P 4,2=0.9 . 2/5/15

2/5/15

3

Um Mundo de Dados

Jornada Ciência de Dados

Extrair, descobrir, reconstruir

l  “To see what is in front of one’s nose needs a constant struggle”

George Orwell

Jornada Ciência de Dados

Jornada Ciência de Dados

l  Tratamento de grandes volumes de dados é a onda do momento

l  Envolve áreas da ciência, sociedade, governo e indivíduos;

l  Impõe grandes desafios –  Políticos –  Tecnológicos –  Sociais

l  Está no caminho crítico para a sociedade do conhecimento

Big Data - Dimensões

Volume

Velocidade

Variedade

MB GB TB PB Arq(raw) database

Img,video, audio Redes sociais, instrumentos

batch

online sensores

Tempo real

Jornada Ciência de Dados

valor

Veracidade

Page 4: Escola de Verão LNCC 2015 The Data EXtreme Lab (DEXL ...dexl.lncc.br/seminarios/JornadaBigData-Parte-I-2015.pdf · y5553 White Dwarf P 4,1=0.1 y5553 Binary Star P 4,2=0.9 . 2/5/15

2/5/15

4

Jornada Ciência de Dados

Nas Ciências e além

l  “Scientists are spending most of their time manipulating, organizing, finding and moving data, instead of researching. And it’s going to get worse” –  Office Science of Data

Management challenge - DoE

Tópico da Década

Evolução de Dados na ciência

Arq. Texto, raw data

Metadados Dados de simulação, Astronomia Biologia (Omics)

E-Ciência Redes sociais Web 2.0

GB

TB

PB

EB

Volu

me

Jornada Ciência de Dados

O Que é “Big”?

Jornada Ciência de Dados

Unidade Qtd Bytes B 100

KiloByte 103 MegaByte 106 GigaByte 109 TeraByte 1012 PetaByte 1015 ExaByte 1018

PB=1000 discos de 1 TB ~ 20m FB DW ~ 300 PB

Na Astronomia

Jornada Ciência de Dados

LSST – Large Synoptic Survey Telescope

•  800 imagens p/ noite durante 10 anos !! •  Mapa 3D do Universo •  30 TeraBytes por noite •  30 PetaBytes em 10 anos

Page 5: Escola de Verão LNCC 2015 The Data EXtreme Lab (DEXL ...dexl.lncc.br/seminarios/JornadaBigData-Parte-I-2015.pdf · y5553 White Dwarf P 4,1=0.1 y5553 Binary Star P 4,2=0.9 . 2/5/15

2/5/15

5

Sequências de DNA Publicadas no GenBank (UK NCBI)

Jornada Ciência de Dados

GenBank 15/04/2014 – 171,7 MS Whole Gene Shotguns – 15/12/2014 – 200MS

Tweets por dia:

Jornada Ciência de Dados

Comunidades

Jornada Ciência de Dados

Segundo o IDC, a quantidade de dados digitais disponível em nosso cyberambiente ultrapassará número de Avogrado em 2023 (> 1023) Yottabyte

Nas Empresas

Jornada Ciência de Dados

Page 6: Escola de Verão LNCC 2015 The Data EXtreme Lab (DEXL ...dexl.lncc.br/seminarios/JornadaBigData-Parte-I-2015.pdf · y5553 White Dwarf P 4,1=0.1 y5553 Binary Star P 4,2=0.9 . 2/5/15

2/5/15

6

Dados Governamentais

l  Investimentos l  Programas de Governo l  Impostos l  Contratos, prestações de contas l  Índices: econômicos, sociais, educação,

saúde, … l  Segurança e Defesa

Jornada Ciência de Dados

Dados Históricos

Jornada Ciência de Dados

Em números: l  12 Terabytes de Tweets a cada dia (IBM, 2012) l  10 TeraBytes em Facebook a cada dia l  24 PB processados pela Google l  43 PB trocados por smartphones e tablets l  15 min Global ó 3x Biblioteca da Congresso

dos EUA l  Algumas empresas produzem terabytes por

hora, todos os dias do ano –  Eventos:

l  Abertura da porta do metrô l  Fazer um check-in no aeroporto l  Comprar uma música no iTunes Jornada Ciência de Dados Jornada Ciência de Dados

Por meio de:

l  Melhores instrumentos geram maior e mais precisa quantidade de dados

–  sensores, sequenciados, espectrômetros de massa, ... l  Processadores mais potentes e baratos podem fazer parte de

seus smartphones, sensores no carro, no meio-ambiente l  Redes de computadores permitindo compartilhar cada vez

mais informação e mais rapidamente l  Sistemas de computadores de alto desempenho processam

grandes volumes de dados em paralelo l  Novas aplicações com acesso ubíquo: telefone, computadores,

tablets,...

Page 7: Escola de Verão LNCC 2015 The Data EXtreme Lab (DEXL ...dexl.lncc.br/seminarios/JornadaBigData-Parte-I-2015.pdf · y5553 White Dwarf P 4,1=0.1 y5553 Binary Star P 4,2=0.9 . 2/5/15

2/5/15

7

Valor dos Dados

Jornada Ciência de Dados

Valor Social

Valor Comunitário

Valor Individual Coleções de dados pessoais

Coleções de dados de comunidades sociais e científicas

Ref. Nacional e Internacional, Insubstituível

Repositórios privados

Biobliotecas digitais regionais, Centros de dados

Repositórios Nacionais e Internacionais

Questões

l  Como Manter? –  Infraestrutura –  Sistemas computacionais –  Integridade, privacidade, segurança, perenidade –  Custo

l  Como Usar ? –  Técnicas eficientes de distribuição de dados –  paralelismo –  Tratamento de qualidade –  Integração, padronização

Jornada Ciência de Dados

Parte II Como Manter ? “ Se infraestrutura é um requisito para a economia industrial então pode-se afirmar que uma cyberinfraestrutura é um requisito para a sociedade do conhecimento”

Relatório Atkins, EUA 2003

Jornada Ciência de Dados

Page 8: Escola de Verão LNCC 2015 The Data EXtreme Lab (DEXL ...dexl.lncc.br/seminarios/JornadaBigData-Parte-I-2015.pdf · y5553 White Dwarf P 4,1=0.1 y5553 Binary Star P 4,2=0.9 . 2/5/15

2/5/15

8

Do ponto de vista institucional ao armazenamento

l  Estrutura em níveis –  Tier 0 – dados extraídos das fontes –  Tier 1 – dados pré-processados e disponíveis

online para a instituição –  Tier 2 – dados para sub-regiões –  Tier 3 – dados offline

l  Métodos de armazenamento –  Na nuvem –  Em sistemas de arquivos distribuídos –  Em sistemas de gerência de bancos de dados

Jornada Ciência de Dados Jornada Ciência de Dados

Integração e Representação Semântica

Heterogeneidade e Interpretação

Jornada Ciência de Dados

Page 9: Escola de Verão LNCC 2015 The Data EXtreme Lab (DEXL ...dexl.lncc.br/seminarios/JornadaBigData-Parte-I-2015.pdf · y5553 White Dwarf P 4,1=0.1 y5553 Binary Star P 4,2=0.9 . 2/5/15

2/5/15

9

Integração de dados

l  Interpretação do conhecimento extraído de diversas fontes exige: –  acordo semântico –  estabelecimento de padrões sintáticos e

terminológicos –  Unificação da visão dos dados

l  Ontologias têm sido utilizadas como técnica para se alcançar homogeneização semântica

Jornada Ciência de Dados

Ontologia

l  Uma conceitualização formal e compartilhada da especificação de um domínio (Gruber)

–  Conceitualização: identificação dos conceitos e relacionamentos; –  Formal: descrições precisas com garantias matemáticas –  Domínio: área de aplicação (Biologia molecular; Impostos Federais,

etc...) l  Expressa uma teoria formal do domínio l  Envolve:

–  o acordo semântico sobre os conceitos envolvidos em um domínio –  A expressão em linguagem computacional do acordo semântico –  Capacidade de raciocínio automático que permita inferência e

manutenção da consistência l  Exemplos:

–  GeneOntology, ....

Jornada Ciência de Dados

Arquitetura de Integração basead em Ontologias (Moura et al 2014)

Jornada Ciência de Dados

Arquitetura com fontes de dados integradas

Jornada Ciência de Dados

Page 10: Escola de Verão LNCC 2015 The Data EXtreme Lab (DEXL ...dexl.lncc.br/seminarios/JornadaBigData-Parte-I-2015.pdf · y5553 White Dwarf P 4,1=0.1 y5553 Binary Star P 4,2=0.9 . 2/5/15

2/5/15

10

Ontologia de Aplicação

Jornada Ciência de Dados

Ontologias exportadas PELD

Jornada Ciência de Dados

Consultando a visão integrada

Jornada Ciência de Dados

Q1:“List the names, rank, region, and DBPedia library kingdom and phylum properties, considering all samples at their lowest level in the taxonomy hierarchy”.

Consultando as fontes (RDF-SPARQL)

Jornada Ciência de Dados

Page 11: Escola de Verão LNCC 2015 The Data EXtreme Lab (DEXL ...dexl.lncc.br/seminarios/JornadaBigData-Parte-I-2015.pdf · y5553 White Dwarf P 4,1=0.1 y5553 Binary Star P 4,2=0.9 . 2/5/15

2/5/15

11

Incerteza

Dados imprecisos

l  Ao integrar bases de dados –  Indivíduos distintos (idênticos) ? –  Qual dos endereços considerar ?

l  Prontuários médicos e exames –  Com identificação variada –  Unidades de medidas diferentes –  Exames codificados segundo diferentes padrões

l  Simulação computacional –  aproximações do fenômeno de estudo

Jornada Ciência de Dados

Dados imprecisos (cont.) Cadeia Filogenética

Jornada Ciência de Dados Jornada Ciência de Dados

Bancos de Dados Astrofísicos

ID Type Prob

x2234 Quasar P1,1=0.1 x2234 MainSequence

Star P1,2=0.6

X2234 White Dwarf P1,3=0.3 x5542 Quasar P2,1=1 xg413 MainSequence

Star P3,1=0.7

xg413 Quasar P3,2=0.3 y5553 White Dwarf P4,1=0.1 y5553 Binary Star P4,2=0.9

Page 12: Escola de Verão LNCC 2015 The Data EXtreme Lab (DEXL ...dexl.lncc.br/seminarios/JornadaBigData-Parte-I-2015.pdf · y5553 White Dwarf P 4,1=0.1 y5553 Binary Star P 4,2=0.9 . 2/5/15

2/5/15

12

Jornada Ciência de Dados

Caso 1

l  O Banco de dados é determinístico mas as consultas são aproximadas

–  R(v1,…, vm) –  Q= SELECT R.*, x FROM R ORDER BY score (abs(A1 - v1), …, abs(Am - vm))

as x stop after n; –  funções de similaridade calculam os valores aproximados

entre objetos do banco e uma base de comparação;

Jornada Ciência de Dados

Caso 1

l  Tipos de funções de similaridade –  Distância Levenshtein

l  Distância de edição entre duas sequencias de texto –  Frequência de Termo/ frequência inversa de

documento –  Distância ontológica / semântica –  Similaridade fonética –  Dynamic Time Warping

Jornada Ciência de Dados

Caso 1 Pessoa Afiliação Prob

Fabio Porto LNCC

Ana Maria Moura LNCC

Fabio Porto IME-RJ

Ana Maria Moura IME-RJ

Paulo Rosa IME-RJ

•  Determine pessoas com filiação= IME-RJ •  Resposta determinística -> Paulo Rosa •  Alta precisão, baixo número de respostas

Jornada Ciência de Dados

Pessoa Afiliação Prob

Fabio Porto LNCC 0.7

Ana Maria Moura LNCC 0.6

Fabio Porto IME-RJ 0.3

Ana Maria Moura IME-RJ 0.4

Paulo Rosa IME-RJ 1.0

•  Determine pessoas com filiação = IME-RJ •  Resposta probabilística -> Paulo Rosa, Fabio Porto, Ana Maria Moura •  Baixa Precisão, grande número de respostas

Page 13: Escola de Verão LNCC 2015 The Data EXtreme Lab (DEXL ...dexl.lncc.br/seminarios/JornadaBigData-Parte-I-2015.pdf · y5553 White Dwarf P 4,1=0.1 y5553 Binary Star P 4,2=0.9 . 2/5/15

2/5/15

13

Jornada Ciência de Dados

Caso 2

l  Dados são incertos l  Operações sobre os dados devem considerar o

cálculo da incerteza envolvida para projetar o grau de confiança sobre as respostas.

Jornada Ciência de Dados

Resistência a Drogas Que cocktail de drogas administrar ao paciente com HV1? (atggaaaagg …)

Genbank sequence gene attgcc.. attggcc.. pol

pol gene

pol pol

Blast

ccgttgcc.. Attgggcc.. pol

pol pol pol

attgccc 0.99 12AI,345GI,..

Attggg… 0.95 123AD,222GI

attgag 0.9 444TI,555TI

Resistencia Drogas

drug1 0.88 12AI,345GI,..

drug2 0.8 123AD,233GI

drug3 0.9 444TI,556TD

query atggaaaagg …

Sistema disponível

l  MayBMS –  http://sourceforge.net/projects/maybms/ –  desenvolvido sobre o postgreSQL –  O banco de dados probabilístico é um banco de

dados relacional com representação de múltiplos mundos; l  Cada mundo tem uma probabilidade de ocorrência entre

0 e 1, e a soma das probabilidades é igual a 1; l  Linguagem de consulta à la SQL com cálculo de

probabilidade em função da frequência de valores l  Resolução do conflito de chave

Jornada Ciência de Dados

Exemplo:

Jornada Ciência de Dados

Dados de Censo nos EUA: -  o primeiro registro pode ter SSN 185 ou 785 -  o estado civil pode se (1) ou (2) -  o segundo registro pode ter SSN 185 ou 186

Duas pessoas não podem ter o mesmo SSN !!!

Page 14: Escola de Verão LNCC 2015 The Data EXtreme Lab (DEXL ...dexl.lncc.br/seminarios/JornadaBigData-Parte-I-2015.pdf · y5553 White Dwarf P 4,1=0.1 y5553 Binary Star P 4,2=0.9 . 2/5/15

2/5/15

14

Mundos possíveis

Jornada Ciência de Dados

Representando Mundos Possíveis no modelo U-relational

Jornada Ciência de Dados

Nome de pessoas possivelmente casadas: select name from Censo where status=2 Name cond

Smith 0.2 Brown 0.25

Considerações

l  Modelos de bancos de dados incertos tratam a imprecisão dos dados no modelo;

l  É uma extensão do SQL l  Requer a reparação das chaves, segundo

interpretação da aplicação

Jornada Ciência de Dados

Representação

Page 15: Escola de Verão LNCC 2015 The Data EXtreme Lab (DEXL ...dexl.lncc.br/seminarios/JornadaBigData-Parte-I-2015.pdf · y5553 White Dwarf P 4,1=0.1 y5553 Binary Star P 4,2=0.9 . 2/5/15

2/5/15

15

À Cesar o que é de Cesar

l  O uso dos dados é facilitado quando sua modelagem corresponde à interpretação que se deseja fazer deles;

l  Assim: –  Sequências de DNA; –  Dados de simulação espaço-temporal; –  Séries temporais; –  Trajetórias etc...

Jornada Ciência de Dados Jornada Ciência de Dados

Modelos Multidimensionais (SciDB)

Jornada Ciência de Dados

Estrutura e DDL

l  Modelo é definido por S=(D,A) –  onde D é um conjunto de dimensões –  A é um conjunto de atributos

Jornada Ciência de Dados

Page 16: Escola de Verão LNCC 2015 The Data EXtreme Lab (DEXL ...dexl.lncc.br/seminarios/JornadaBigData-Parte-I-2015.pdf · y5553 White Dwarf P 4,1=0.1 y5553 Binary Star P 4,2=0.9 . 2/5/15

2/5/15

16

Modelando ER x Multidimensional

Jornada Ciência de Dados

Entidades anotadas com [D] -> são dimensões da matriz Entidades anotadas com [M] ou [Q] -> são atributos

Projeto de BD Multidimensional

Jornada Ciência de Dados

Jornada Ciência de Dados Jornada Ciência de Dados

Page 17: Escola de Verão LNCC 2015 The Data EXtreme Lab (DEXL ...dexl.lncc.br/seminarios/JornadaBigData-Parte-I-2015.pdf · y5553 White Dwarf P 4,1=0.1 y5553 Binary Star P 4,2=0.9 . 2/5/15

2/5/15

17

Jornada Ciência de Dados

SciDB  l  Vetores  mul+dimensionais   como   unidade   básica   de  

armazenamento  l  Dimensões  com  nome  e  tamanho  l  Combinações   de   valores   de   dimensões   iden+ficam  

uma  célula  l  As  células  podem  possuir  diversos  valores,  chamados  

de  atributos  

Modelo em Redes (Neo4J, DEX)

Jornada Ciência de Dados

NCI – redes de sinalização mediada por Tyrosine-specific phosphatase, curada por Kira Anthony

–  Redes  sociais  –  Interações  entre  produtos  gênicos  –  Transporte  e  tráfego    

Page 18: Escola de Verão LNCC 2015 The Data EXtreme Lab (DEXL ...dexl.lncc.br/seminarios/JornadaBigData-Parte-I-2015.pdf · y5553 White Dwarf P 4,1=0.1 y5553 Binary Star P 4,2=0.9 . 2/5/15

2/5/15

18

¨  Teoria  e  modelos  com  grafos  são  bem  estabelecidos    

¨  G(V,E)  

¨  V  conjunto  das  vértice  

¨  E  conjunto  dos  arestas  

¨  Armazena  nós  e  arestas  com  propriedades  (componentes  básicos)  

¨  Informações  sobre  conectividade  e  topologia    

¨  Banco  de  dados  visto  como  um  multigrafo  rotulado  e  direcionado  

¨  Neo4J  

¨  Open  source  

¨  Java  -­‐  JVM  

¨  Suporte  nativo  de  grafos  

¨  Livre  de  esquema  -­‐  NoSQL    

Representação  do  Neo4j  

¨  Linguagem  de  consulta:  Cypher  ou  Gremilin  ¨  Exporta  os  resultados  no  formato  JSON  

RETURN    ORDER  BY  SKIP  WITH  UNION    

LIMIT  CREATE  UPDATE  DELETE  READ  

GenNetVirus.DB (Raquel Lopes PhD)

Jornada Ciência de Dados

Consultas

Jornada Ciência de Dados

Page 19: Escola de Verão LNCC 2015 The Data EXtreme Lab (DEXL ...dexl.lncc.br/seminarios/JornadaBigData-Parte-I-2015.pdf · y5553 White Dwarf P 4,1=0.1 y5553 Binary Star P 4,2=0.9 . 2/5/15

2/5/15

19

Considerações

l  Dados volumoso e complexos requerem novos modelos ou extensões do modelo Relacional

l  O aumento de expressividade do modelo simplifica o desenvolvimento de aplicações e favorece o desempenho de consultas

Jornada Ciência de Dados Jornada Ciência de Dados