1 data integration in a bandwidth-rich world ian foster and robert l. grossman universidade federal...

16
1 Data Integration in a Bandwidth-Rich World Ian Foster and Robert L. Grossman Universidade Federal Fluminense Doutorado em Computação – Engenharia de Redes Daniela Quitete de Campos Vianna

Upload: internet

Post on 17-Apr-2015

102 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 1 Data Integration in a Bandwidth-Rich World Ian Foster and Robert L. Grossman Universidade Federal Fluminense Doutorado em Computação – Engenharia de

1

Data Integration in a

Bandwidth-Rich World

Ian Foster and Robert L. Grossman

Universidade Federal FluminenseDoutorado em Computação – Engenharia de RedesDaniela Quitete de Campos Vianna

Page 2: 1 Data Integration in a Bandwidth-Rich World Ian Foster and Robert L. Grossman Universidade Federal Fluminense Doutorado em Computação – Engenharia de

2

Introdução

Avanços nas tecnologias de redes

Sistemas computacionais cada vez mais velozes

Crescimento do conhecimento

Obtenção de grandes quantidades de dados

Computação em Grid?

E-Science?

Page 3: 1 Data Integration in a Bandwidth-Rich World Ian Foster and Robert L. Grossman Universidade Federal Fluminense Doutorado em Computação – Engenharia de

3

Computação em Grid

• Objetivo: tornar a computação de alto desempenho acessível a usuários que não possuem recursos disponíveis localmente.

• Desafios:– Heterogeneidade;– Múltiplos domínios administrativos;– Escalabilidade;– Natureza dinâmica do ambiente;– Compartilhamento de dados e de recursos;– Transparência.

Page 4: 1 Data Integration in a Bandwidth-Rich World Ian Foster and Robert L. Grossman Universidade Federal Fluminense Doutorado em Computação – Engenharia de

4

e-Science

• Diversos tipos de pesquisa que envolvem aplicações científicas de grande escala .

• Classes de Problemas:– modelagens e simulações sociais, climáticas e de

oceanos;– bio-informática;– bio-medicina;– física de alta energia;– entre outros.

Page 5: 1 Data Integration in a Bandwidth-Rich World Ian Foster and Robert L. Grossman Universidade Federal Fluminense Doutorado em Computação – Engenharia de

5

Integração de Dados

• Paradigma Tradicional x Paradigma Atual

• Foco– middlewares para permitir que organizações

distribuídas acessem e compartilhem dados, redes e outros recursos de uma maneira controlada e segura.

Page 6: 1 Data Integration in a Bandwidth-Rich World Ian Foster and Robert L. Grossman Universidade Federal Fluminense Doutorado em Computação – Engenharia de

6

Integração de Dados

• Dados distribuídos possuem diferentes:– formatos;– qualidade;– mecanismos e políticas de acesso...

• É preciso definir soluções e padrões para:– acesso e descoberta de dados;– exploração e análise de dados;– gerenciamento de recursos e segurança.

Page 7: 1 Data Integration in a Bandwidth-Rich World Ian Foster and Robert L. Grossman Universidade Federal Fluminense Doutorado em Computação – Engenharia de

7

Acesso e Descoberta de Dados

• Descoberta de dados: middlewares que examinem metadados;– web services;– XML e bancos de dados relacionais;– Serviços de acesso a dados e integração em Grids;– LDAP (Lightweight Directory Access Protocol).

• Mecanismos de acesso– OPeNDAP (Open source project for a Network Data Access

Protocol);– SRB (Storage Resource Broker);– DSTP (DataSpace Transfer Protocol);– GridFTP;– OGSA-DAI (OGSA-based Data Access and Integration).

Page 8: 1 Data Integration in a Bandwidth-Rich World Ian Foster and Robert L. Grossman Universidade Federal Fluminense Doutorado em Computação – Engenharia de

8

Exploração e Análise de Dados

• Necessidade de serviços que identifiquem a relevância dos dados obtidos;– estatística;– exploração visual dos dados...

• Existência de ferramentas que gravam, organizam e obtêm novos dados a partir de dados já explorados.

Page 9: 1 Data Integration in a Bandwidth-Rich World Ian Foster and Robert L. Grossman Universidade Federal Fluminense Doutorado em Computação – Engenharia de

9

Gerenciamento de Recursos e Segurança

• Acesso seguro a dados distribuídos;

• Controle no acesso aos recursos envolvidos na integração dos dados;

• Técnicas de replicação e distribuição de dados através da rede;

• Identificação da localização de dados mais próxima ao ponto de solicitação.

Page 10: 1 Data Integration in a Bandwidth-Rich World Ian Foster and Robert L. Grossman Universidade Federal Fluminense Doutorado em Computação – Engenharia de

10

Exemplo 1 (iGrid 2002)• Integração (on the fly) de dados;

• Taxas de transferência maiores que 2.4Gbps.

• DataSpace Data Web: movimentação de dados através do Atânctico;

• Versão paralela do SABUL: transporte de Dados;

• DSTP: gerenciamento de chaves, metadados e dados.

Page 11: 1 Data Integration in a Bandwidth-Rich World Ian Foster and Robert L. Grossman Universidade Federal Fluminense Doutorado em Computação – Engenharia de

11

Sloan Digital Sky Survey (SDSS)

• Estudo de imagens digitais - até 2007 terá mapeado ¼ do espaço;

• 250 milhões de objetos detectados

• 10 TB de imagens

• 2 TB catálogos

Page 12: 1 Data Integration in a Bandwidth-Rich World Ian Foster and Robert L. Grossman Universidade Federal Fluminense Doutorado em Computação – Engenharia de

12

Sloan Digital Sky Survey (SDSS)

Page 13: 1 Data Integration in a Bandwidth-Rich World Ian Foster and Robert L. Grossman Universidade Federal Fluminense Doutorado em Computação – Engenharia de

13

Gerenciamento de Dados no Globus

• Componente que fornecem interfaces de acesso uniformes para vários tipos de dados– GridFTP;– OGSA-DAI;– Metadata Catalog Service (MCS).

Page 14: 1 Data Integration in a Bandwidth-Rich World Ian Foster and Robert L. Grossman Universidade Federal Fluminense Doutorado em Computação – Engenharia de

14

Gerenciamento de Dados no Globus

• Componentes para movimentação e transferência de dados– Globus-url-copy;– Reliable File Transfer (RFT) Service;– UberFTP: cliente GridFTP;– GSI-SCP/SFTP: ferramenta OpenSSH que

suporta autenticação no Grid.

Page 15: 1 Data Integration in a Bandwidth-Rich World Ian Foster and Robert L. Grossman Universidade Federal Fluminense Doutorado em Computação – Engenharia de

15

Gerenciamento de Dados no Globus

• Componentes para otimização do acesso aos dados– Replica Location Service (RLS);– NeST;– DataCutter.

Page 16: 1 Data Integration in a Bandwidth-Rich World Ian Foster and Robert L. Grossman Universidade Federal Fluminense Doutorado em Computação – Engenharia de

16

Conclusão

• Avanços nas tecnologias de redes proporcionando o compartilhamento de recursos e dados;

• Necessidade de middlewares para integração de dados.