indexadores distribuidos utilizando hadoop

Post on 28-May-2015

1.225 Views

Category:

Technology

3 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Indexadores distribuídos utilizando Apache Hadoop

Luís A. Bastião SilvaRecuperação de informação

Agenda

Enquadramento

Lucene

Hadoop HDFS MapReduce

Implementações do Lucene distribuídas

Conclusões

Enquadramento

Aumento do volume de informação têm vindo a crescer

Criação de motores de pesquisa Indexação Pesquisa

Indexador versus Base de Dados relacional

Necessidades de distribuir a indexação e pesquisa por vários sistemas computacionais

Enquadramento Lucene Hadoop Lucene

DistribuidoConclusões

Apache Lucene

Projecto da ASF (Apache Software Fundation)

Plataforma Open Source

Interfaces de indexação e pesquisa bem definidos

Pesquisa “full-text”, capacidade de filtragem, expressões booleanas, intervalos, etc.

Capacidade de fazer “merge” de vários índices Útil para indexadores distribuídos

Enquadramento Lucene Hadoop Lucene

DistribuidoConclusões

Projecto Hadoop

Hadoop: ASF + Open Source

Motivação: criação de um sistema de ficheiros distribuído efectuar processamento nos vários nós do cluster

Enquadramento Lucene Hadoop Lucene

DistribuidoConclusões

Projecto Hadoop

Subprojectos do Hadoop: Common HDSF MapReduce ZooKeeper

Enquadramento Lucene Hadoop Lucene

DistribuidoConclusões

HDFS: Hadoop Distributed File System

Sistema de ficheiros distribuídos

Construído para grandes volumes de informação

Blocos divididos em blocos de 64MB

Redundância

Orientado a “batch processing” e streaming

Arquitectura Master/Slave

Enquadramento Lucene Hadoop Lucene

DistribuidoConclusões

HDFS - Arquitectura

Enquadramento Lucene Hadoop Lucene

DistribuidoConclusões

MapReduce

Enquadramento Lucene Hadoop Lucene

DistribuidoConclusões

Modelo de programação

Map

“Shuffle”

Reduce

Lucene DistribuidoDiscussão de diferentes abordagens

Enquadramento Lucene Hadoop Lucene

DistribuidoConclusões

Doug Cutting Approach

Indices distribuidos pelos sistemas computacionais

Arquitectura Master/Slaves

Master: contém a localização dos vários indices

Cada indice têm uma versão

Enquadramento Lucene Hadoop Lucene

DistribuidoConclusões

Distributed Lucene

Não utiliza o HDFS

Utiliza mecanismos de IPC do Hadoop

Segue os conceitos propostos por Doug Cutting

Introduz o conceito do estado do indice: “uncommited”, “replicating” e “live”

Actualização baseada em “leasing”

Enquadramento Lucene Hadoop Lucene

DistribuidoConclusões

Distributed Index for Semantic Search

Utilização do MapReduce

Map: Parser dos documentos armazenados no sistema de ficheiros distribuído

Redução: obter documentos que contém o mesmo termo

Enquadramento Lucene Hadoop Lucene

DistribuidoConclusões

Conclusões

Mover processamento é preferível a mover dados

Algumas implementações de Lucene distribuídos, contudo: Limitativas para o utilizador Ainda em fase beta de desenvolvimento

Não existe standarização ao nível de indexação distribuída, não permitindo a criação de sinergias entre projectos.

Hadoop revelou-se uma plataforma bastante estável

Enquadramento Lucene Hadoop Lucene

DistribuidoConclusões

Questões?

top related