recuperação de dados por conteúdo

14
Recuperação de dados por Conteúdo Slim-Trees

Upload: vachel

Post on 12-Jan-2016

30 views

Category:

Documents


6 download

DESCRIPTION

Recuperação de dados por Conteúdo. Slim-Trees. Slim - Motivações. Método eficiente de armazenamento e recuperação de informação por meio de similaridade Informações não possuem relações de ordem total. Métodos de acesso métrico. Função de dissimilaridade: d(Oi, Oj) - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Recuperação de dados por Conteúdo

Recuperação de dados por Conteúdo

Slim-Trees

Page 2: Recuperação de dados por Conteúdo

Slim - Motivações

Método eficiente de armazenamento e recuperação de informação por meio de similaridade

Informações não possuem relações de ordem total

Page 3: Recuperação de dados por Conteúdo

Métodos de acesso métrico

Função de dissimilaridade:d(Oi, Oj)

fixed query tree; mvp-tree; vp-tree; GNAT : estáticas;

M-Tree, Slim-tree: Dinâmicas

Page 4: Recuperação de dados por Conteúdo

Consulta por abrangência

O = {O1, O2, ..., On} pertence a Dd() Q? r(Q)

range(Q, r(Q)) => Seleciona Oi dentro da distancia r(Q) de Q

Encontre as estrelas que estão até 10 anos-luz do Sol

Page 5: Recuperação de dados por Conteúdo

Consulta k-NN

O = {O1, O2, ..., On} pertence a Dd() Q? K

K-NN(Q) => Seleciona os K objetos mais próximos de Q

Selecione as 5 estrelas mais próximas do Sol : 5-NN(Sol)

Page 6: Recuperação de dados por Conteúdo

Slim-tree - Definição

Caetano Traina Jr. – ICMC/SC (2000) Estrutura dinâmica (permite inserções

após sua criação); Balanceada; Performance superior à M-trees Páginas (nós) de tamanho fixo, que

armazenam no máximo C objetos;

Page 7: Recuperação de dados por Conteúdo

Slim-tree – Nós internos

• Sc: Objeto Centro da subárvore apontada por Ptrc•d(Sc, Srep): Distância entre Sc e oobjeto representado;•Ptrc: Nó raiz da subárvore que contémcentro Sc;•Rc: Raio de cobertura da região;•#Ent: Número de nós contido em Ptrc

Page 8: Recuperação de dados por Conteúdo

Slim-tree – Nós folha

•Sc: Objeto que o nó armazena

•Oid: Identificador do nó

•d(): Distancia entre Sc e o objeto central

Page 9: Recuperação de dados por Conteúdo

Slim-tree - Exemplo

Page 10: Recuperação de dados por Conteúdo

Slim-tree - Distâncias

Page 11: Recuperação de dados por Conteúdo

Slim-tree - Inserção

A partir da raiz, busca nó que possa receber objeto

Se não encontra este nóselecionar nó com centro mais próximo do

objeto Se quantidade de nós > 1

Random | MidDist | Minoccup

Page 12: Recuperação de dados por Conteúdo

Slim-tree - Splitting Nó escolhido com taxa de ocupação máxima Random: seleção aleatória de um par de objetos e

redistribuição dos outros objetos em função destes; minMax: par de objetos que minimiza o raio de cobertura

da sub-árvore => O(C3) MST: Remove o arco mais longo da arvore do caminho

mínimo => O(C2 log C)

Page 13: Recuperação de dados por Conteúdo

Slim-trees - Sobreposição

Nós diferentes recaem sobre uma mesma região => reduz performance nas buscas

Absolute-fat-factor: Calcula quantidade de objetos cobertos por múltiplas regiões Não permite o cálculo para arvores diferentes que

representam um mesmo domínio

Relative-fat-factor: Conta nós acessados para responder a uma consulta

Page 14: Recuperação de dados por Conteúdo

Slim-trees – Slim down

Análise dos fatores de sobreposição permite aplicar algoritmo

Reorganizar uma árvore já construída de forma a otimizar as buscas e reduzir o consumo de espaço em disco