processamento paralelo de grandes quantidades de dados sobre um sistema de arquivos posix

Post on 27-Jul-2015

942 Views

Category:

Technology

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Processamento Paralelo de Grandes Quantidades de Dados sobre um Sistema de Arquivos Distribuído

POSIXJonhnny Weslley

Orientador: Francisco BrasileiroLaboratório de Sistemas Distribuídos

Programa de Pós-Graduação em Ciência da Computação

Universidade Federal de Campina Grande

Maio / 2010

Agenda

● Introdução● Estado da Arte● Beehive File System● Heurísticas para alocação de arquivos● Avaliação● Conclusão

Dados

Processamento de dados

Por que?

Insights

Barateamento e o aumento da capacidade de armazenamento dos discos

Processamento de grandes quantidades de dados

Processamento paralelode grandes quantidades de dados

Clusters

Image by rogersmith on flickr.com

Clusters

● Custos associados ● aquisição● manutenção

Image by rogersmith on flickr.com

Computação na nuvem

Image by jillclardy on Flickr.com

● Transferência dos dados● Confidencialidade e privacidade dos dados

Por que pagar por recursos externos, se é possível realizar o processamento dos

dados, ou pelo menos parte dele, nas estações de trabalho da rede local?

Beehive File System

● Agrega espaço ocioso nas estações de trabalho de uma rede local

● Sistema de arquivos distribuído de uso geral● POSIX compliant

Beehive File System

● Agrega espaço ocioso nas estações de trabalho de uma rede local

● Sistema de arquivos distribuído de uso geral● POSIX compliant● Distribuição dos dados

Problema

Recursos não dedicados

Objetivos

● Aplicações de uso intensivo de dados usando sistema de arquivos distribuído POSIX

● Sistema de arquivos POSIX multi-funcional● Controlar a intrusividade

Image by denial_land on Flickr.com

Status quo

● Sistemas de arquivos em clusters● Google File System● Lustre● Ceph

● Sistemas de arquivos oportunistas● Freeloader● BitDew

Beehive File System

Arquitetura

Tolerância a falhas

● Replicação de arquivos● Replicação de metadados

Replicação de arquivos

Replicação de metadados

● Falhas no servidor de metadados● Transientes● Permanentes

● Integridade do sistema

Metadados

● Nós-i● Estruturas de dados do sistema● Atributos estendidos

Solução

Heurísticas para alocação de arquivos

Heurísticas para alocação de arquivos baseadas em dados históricos sobre a

disponibilidade da máquinas.

Heurísticas para alocação de arquivos

● Replication All● Equalizer● MaxAvail● EqMaxAvail● MeanAvail ● EqMeanAvail

Avaliação

Modelo do sistema

● Sistema de arquivos● A aplicação e os dados de entrada● Disponibilidade● Alocação de arquivos● Métricas de desempenho

● tempo de execução das aplicações● quantidade de armazenamento

Modelo simulado

● Trace SDSC*● Estações de trabalho conectadas por uma LAN● 244 máquinas● Período de 14 dias

● Imagem do sistema de arquivos● 1000 arquivos● Distribuição uniforme entre 500MiB e 2GiB● Fator de impacto de leituras remotas é 4.87.

*Characterizing and evaluating desktop grids: An empirical study.

Modelo simulado

● Workload das aplicações● 300 aplicações Bag-of-Tasks● Cada aplicação possui tarefas seguindo uma

distribuição uniforme entre 3 e 10

Resultados

Image by kevinzhengli on Flickr.com

Tempo de execução das aplicações

Resultados

● Tempo de execução das aplicações● Quantidade de armazenamento

Conclusão

● Aplicações de uso intensivo de dados usando sistema de arquivos distribuído POSIX

● Sistema de arquivos POSIX multi-funcional● Controle da intrusividade● Heurísticas para alocação de arquivos

Trabalhos Futuros

● Técnicas de virtualização● Explorar multi-core

Questões ?

Jonhnny Weslleyjw@jonhnnyweslley.net

@jweslley

EOF

top related