indexadores distribuidos utilizando hadoop
Post on 28-May-2015
1.225 Views
Preview:
TRANSCRIPT
Indexadores distribuídos utilizando Apache Hadoop
Luís A. Bastião SilvaRecuperação de informação
Agenda
Enquadramento
Lucene
Hadoop HDFS MapReduce
Implementações do Lucene distribuídas
Conclusões
Enquadramento
Aumento do volume de informação têm vindo a crescer
Criação de motores de pesquisa Indexação Pesquisa
Indexador versus Base de Dados relacional
Necessidades de distribuir a indexação e pesquisa por vários sistemas computacionais
Enquadramento Lucene Hadoop Lucene
DistribuidoConclusões
Apache Lucene
Projecto da ASF (Apache Software Fundation)
Plataforma Open Source
Interfaces de indexação e pesquisa bem definidos
Pesquisa “full-text”, capacidade de filtragem, expressões booleanas, intervalos, etc.
Capacidade de fazer “merge” de vários índices Útil para indexadores distribuídos
Enquadramento Lucene Hadoop Lucene
DistribuidoConclusões
Projecto Hadoop
Hadoop: ASF + Open Source
Motivação: criação de um sistema de ficheiros distribuído efectuar processamento nos vários nós do cluster
Enquadramento Lucene Hadoop Lucene
DistribuidoConclusões
Projecto Hadoop
Subprojectos do Hadoop: Common HDSF MapReduce ZooKeeper
Enquadramento Lucene Hadoop Lucene
DistribuidoConclusões
HDFS: Hadoop Distributed File System
Sistema de ficheiros distribuídos
Construído para grandes volumes de informação
Blocos divididos em blocos de 64MB
Redundância
Orientado a “batch processing” e streaming
Arquitectura Master/Slave
Enquadramento Lucene Hadoop Lucene
DistribuidoConclusões
HDFS - Arquitectura
Enquadramento Lucene Hadoop Lucene
DistribuidoConclusões
MapReduce
Enquadramento Lucene Hadoop Lucene
DistribuidoConclusões
Modelo de programação
Map
“Shuffle”
Reduce
Lucene DistribuidoDiscussão de diferentes abordagens
Enquadramento Lucene Hadoop Lucene
DistribuidoConclusões
Doug Cutting Approach
Indices distribuidos pelos sistemas computacionais
Arquitectura Master/Slaves
Master: contém a localização dos vários indices
Cada indice têm uma versão
Enquadramento Lucene Hadoop Lucene
DistribuidoConclusões
Distributed Lucene
Não utiliza o HDFS
Utiliza mecanismos de IPC do Hadoop
Segue os conceitos propostos por Doug Cutting
Introduz o conceito do estado do indice: “uncommited”, “replicating” e “live”
Actualização baseada em “leasing”
Enquadramento Lucene Hadoop Lucene
DistribuidoConclusões
Distributed Index for Semantic Search
Utilização do MapReduce
Map: Parser dos documentos armazenados no sistema de ficheiros distribuído
Redução: obter documentos que contém o mesmo termo
Enquadramento Lucene Hadoop Lucene
DistribuidoConclusões
Conclusões
Mover processamento é preferível a mover dados
Algumas implementações de Lucene distribuídos, contudo: Limitativas para o utilizador Ainda em fase beta de desenvolvimento
Não existe standarização ao nível de indexação distribuída, não permitindo a criação de sinergias entre projectos.
Hadoop revelou-se uma plataforma bastante estável
Enquadramento Lucene Hadoop Lucene
DistribuidoConclusões
Questões?
top related