[status report] uma estratégia para representação e gerenciamento de metadados em sistemas de...
DESCRIPTION
Slides do status report apresentado em 24/03/12 do projeto "Uma Estratégia para Representação e Gerenciamento de Metadados em Sistemas de Armazenamento nas Nuvens"TRANSCRIPT
Uma Estratégia para Representação e Gerenciamento de Metadados em Sistemas de Armazenamento nas Nuvens
Centro de Informática
Universidade Federal de Pernambuco
Marco André Santos Machado
© 2012 – Marco André Machado
Agenda
• Computação nas Nuvens
• Armazenamento nas Nuvens
• Metadados
• Projeto Usto.re
• Estado da Arte
• Proposta
• Cronograma
Status Report © 2012 - Marco André Machado 2
Universo Digital
Status Report © 2012 - Marco André Machado 3
Universo Digital
• Problemas
– Processar
– Armazenar
– Gerenciar
– Segurança
– Disponibilidade
Status Report © 2012 - Marco André Machado 4
Computação nas Nuvens
• Definição (Vaquero, 2009)
“Um grande conjunto de recursos virtualizados (como hardware, plataformas de desenvolvimento e/ou serviços) facilmente usáveis e acessíveis”
Status Report © 2012 - Marco André Machado 5
Arquitetura
Status Report © 2012 - Marco André Machado 6
Armazenamento nas Nuvens
• Armazenamento em discos remotos
• Acesso a partir de qualquer lugar
• Benefícios:
– Facilidade de gerenciamento
– Custo X Benefício
– Interrupções e manutenções
– Catástrofes
– Planejamento simplificado
Status Report © 2012 - Marco André Machado 7
Armazenamento nas Nuvens
• Desafios
– Segurança
– Integridade de dados
– Replicação de dados
– Custos
– Confiabilidade
– Desempenho
Status Report © 2012 - Marco André Machado 8
Armazenamento nas Nuvens
• Arquitetura Genérica (Jones, 2012)
– Alta escalabilidade
– Multi-tenant
Status Report © 2012 - Marco André Machado 9
Armazenamento nas Nuvens
• Sistemas de Arquivos Distribuídos
– Compartilhar arquivos e recursos de armazenamento (Levy e Silberschatz, 1990)
– Replicação
– Disponibilidade
– Escalabilidade
– Segurança
– Metadados
(Bzoch e Safarik, 2011)
Status Report © 2012 - Marco André Machado 10
Metadados
• Informações estruturadas sobre dados (Duval, 2002)
• Atributos
– Nome, tamanho, último acesso/modificação, estrutura
• Gerenciamento
– Mais de 50% dos acessos ao sistema de arquivos (Roselli e Lorch, 2000)
Status Report © 2012 - Marco André Machado 11
Usto.re
• Evolução de um algoritmo estatístico (Duarte, 2010)
– Escolher peers com “perfil compatível” -> federações
– Disponibilidade
• Objetivo: Prover armazenamento na nuvem de forma barata
Status Report © 2012 - Marco André Machado 12
Arquitetura do Usto.re
• P2P híbrida (Schollmeier, 2001)
• JXTA (Gong, 2001)
– Descobrimento de serviços
– Mensagens
– Organização de grupos
Status Report © 2012 - Marco André Machado 13
Arquitetura do Usto.re
• 3 tipos de peers:
– Super peer
– Peer local
– Peer servidor e proxy
Status Report © 2012 - Marco André Machado 14
Usto.re
• Desafios do projeto
– Gargalos na transferência de arquivos
– Imprevisibilidade de desempenho
– Armazenamento escalável
– Escalar para diferentes cargas
– Gerenciamento de metadados
Status Report © 2012 - Marco André Machado 15
Estado da Arte
• Network File System
– Funciona de modo stateless (Sandberg et. Al, 1985)
• Andrew File System
– Unidade básica de tráfego é o arquivo completo
Status Report © 2012 - Marco André Machado 16
Estado da Arte
• Lustre – Metadados armazenados em servidores de
metadados (MDSs) e os dados são armazenados em objetos (OSDs)
• ZFS – Utilizado no Solaris e OpenSolaris
– Gerenciador de volumes lógicos
Gerenciamento de metadados ineficiente e esquema hierárquico baseado em Hash (Yu et. Al, 2007)
Status Report © 2012 - Marco André Machado 17
Estado da Arte
• MSFSS
– Eficiente para Arquivos pequenos
– Guarda arquivos inteiros
• HDFS e GFS
– Grandes aplicações distribuídas
– Alto grau de tolerância a falhas
– Chunks de 64 Mb
Status Report © 2012 - Marco André Machado 18
Proposta
• Especificar os metadados (atributos)
– Nome, tamanho, estrutura...
• Gerenciar
• Indexação
Status Report © 2012 - Marco André Machado 19
Proposta
• Atender aos requisitos:
– Consistência
– Sincronização de arquivos e diretórios
– Compartilhamento
– Segurança
– Descoberta de arquivos
Status Report © 2012 - Marco André Machado 20
Cronograma
1. Estudo de sistemas de arquivos distribuídos e sistemas de armazenamento
– NFS, AFS, HDFS, GFS, Lustre, MSFSS, Ceph
2. Atributos e Técnicas de Gerenciamento para Metadados
3. Especificar e gerenciar os metadados para o Usto.re
4. Implementação no Usto.re da solução proposta
Status Report © 2012 - Marco André Machado 21
Cronograma
5. Definição e execução de um estudo experimental.
6. Melhoria na solução proposta de acordo com os resultados do experimento.
7. Escrita e elaboração da dissertação.
8. Escrita de artigos com os resultados obtidos.
9. Defesa da Dissertação.
Status Report © 2012 - Marco André Machado 22
Cronograma
Status Report © 2012 - Marco André Machado 23
Referências • BZOCH, P., AND SAFARIK, J. State of the Art in Distributed File Systems: Increasing
Performance. 2011 Second Eastern European Regional Conference on the Engineering of Computer Based Systems (Sept. 2011), 153–154.
• Duval, E., Hodgins, W., Sutton, S., and Weibel, S. 2002. Metadata Principles and Practicalities. D-Lib Magazine http://www.dlib.org/dlib/april02/weibel/04weibel. html.
• DUARTE, M. Um algoritmo de disponibilidade em sistemas de backup distribuído seguro usando a plataforma peer-to-peer. Master’s thesis, Centro de Informática/ UFPE, 2010.
• GANTZ, J., AND REINSEL, D. Extracting Value from Chaos State of the Universe : An Executive Summary. 1–12.
• GONG, L., AND OTHERS. Project JXTA: A technology overview. Tech.rep., Technical report, SUN Microsystems, April 2001. http://www.jxta.org/project/www/docs/TechOverview. pdf, 2001
• JONES, T. Anatomy of a cloud storage infrastructure. Tech. rep., IBM, 2010. "Disponível em http://www.ibm.com/developerworks/cloud/library/cl-cloudstorage/. Acessado em: Fevereivo/2012".
Status Report © 2012 - Marco André Machado 24
Referências • Levy , E. e Silberschatz, A., "Distributed File Systems: Concepts and Examples",
ACM Computing Surveys, Vol. 22, No. 4, December 1990
• ROSELLI, D., AND LORCH, J. A comparison of file system workloads. Proceedings of the annual (2000).
• SCHOLLMEIER, R. A definition of peer-to-peer networking for the classification of peer-to-peer architectures and applications. In Peer-to-Peer Computing, 2001. Proceedings. First International Conference on (2001), IEEE, pp. 101–102.
• VAQUERO, L. M., RODERO-MERINO, L., CACERES, J., AND LINDNER, M. A Break in the Clouds : Towards a Cloud Definition. Computer Communication Review 39, 1 (2009), 50–55.
• YU, L., CHEN, G., AND WANG, W. MSFSS: A Storage System for Mass Small Files. International Conference on Computer Supported Cooperative Work in Design (2007), 1087–1092.
• ZENG, W., ZHAO, Y., AND OU, K. Research on cloud storage architecture and key technologies. Technology, Culture and Human (2009), 4–8.
Status Report © 2012 - Marco André Machado 25