tópicos avançados de base de dados

17
Tópicos Avançados de Base de Dados Carlos Rodrigues 070316102 Nuno Loureiro 070316088 Improved Histograms for Selectivity Estimation of Range Predicates Viswanath Poosala Peter J. Has Yannis E. Ioannidis Eugene J.Shekita Autores FCUP / DCC 2012 1

Upload: hugh

Post on 25-Feb-2016

53 views

Category:

Documents


0 download

DESCRIPTION

Tópicos Avançados de Base de Dados. Carlos Rodrigues 070316102 Nuno Loureiro 070316088. Improved Histograms for. Selectivity Estimation of Range Predicates. Autores . Viswanath Poosala. Yannis E. Ioannidis. Peter J. Has. Eugene J.Shekita. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Tópicos Avançados de Base de Dados

1

Tópicos Avançados de Base de Dados

Carlos Rodrigues 070316102Nuno Loureiro 070316088

Improved Histograms forSelectivity Estimation of Range Predicates

Viswanath Poosala

Peter J. Has

Yannis E. Ioannidis

Eugene J.Shekita

Autores

FCUP / DCC 2012

Page 2: Tópicos Avançados de Base de Dados

2

Índice

IntroduçãoDefinição de Histogramas

Regra de Partição Regras de Histogramas

Abordagens Anteriores a HistogramasHistogramas AnterioresNovas abordagens a HistogramasNovos HistogramasTécnicas ComputacionaisConclusões

Page 3: Tópicos Avançados de Base de Dados

3

Introdução

Vários Histogramas propostos no passado

Vários módulos de um sistema de BD, necessitam de estimativas para o tamanho do resultado da consulta

Estudos anteriores estimam que erros numa consulta podem aumentar exponencialmente com o número de conjuntos

Page 4: Tópicos Avançados de Base de Dados

4

Definição de Histogramas

Os Histogramas aproximam a frequência da distribuição de um atributo agrupando os seus valores em “baldes” (subconjuntos) aproximando os verdadeiros valores do atributo e a

sua frequência na BD

Praticamente não ocorre nenhum gasto em tempo de execução.

Nem sempre são eficientes ou práticos

Page 5: Tópicos Avançados de Base de Dados

5

Definição de Histogramas

Um Histograma sobre um atributo X é construído através de: Partição da distribuição dos dados T em β, subconjuntos

disjuntos chamados Baldes. Aproximação das frequências e valores em cada Balde com

algo em comum entre si.

Baldes são calculados de acordo com a regra da Partição que procura uma aproximação a T

Page 6: Tópicos Avançados de Base de Dados

6

Regra de Partição

Juntar a T uma terceira coluna que é derivada das duas primeiras, com T como objecto de ordenação

Especificar uma subclasse restrita de todos os Histogramas possíveis numa distribuição T

Juntar uma quarta coluna derivada das duas primeiras

Determinar a única partição de T em β baldes, tal que o Histograma pertença à subclasse restrita e satisfaça uma restrição especificada na quarta coluna

Page 7: Tópicos Avançados de Base de Dados

7

Regras de Histogramas

Classe de partição: É a classe restrita de histogramas, considerada pela regra

da partição.

Restrição de partição: É a Restrição matemática, sendo aquela que identifica

unicamente o histograma dentro da sua classe de partição

Parâmetro de Ordenação e Parâmetro de Origem: Os parâmetros derivados de T e colocados na terceira e

quarta coluna.

Page 8: Tópicos Avançados de Base de Dados

8

Regras de Histogramas

Aproximação de valores dentro de um subconjunto: A hipótese que determina os valores próximos dentro de um

subconjunto do histograma.

Aproximação das frequências dentro de um subconjunto: A hipótese que determina a frequência aproximada de cada

valor dentro de um subconjunto do histograma.

Estas duas regras determinam a informação que necessita estar armazenada em cada balde.

Page 9: Tópicos Avançados de Base de Dados

9

Abordagens anteriores a Histogramas

Classe de partição: Os Histogramas clássicos não têm restrição no número de

elementos de T que podem ser atribuídos ao Balde. Histogramas “End-Biased” obrigam que todos os baldes

contenham apenas um elemento de TRestrição de partição:

Para a classe em série são considerados 3 tipos de histogramas, definidos para várias fontes de parâmetros: Equi-sum: Usa β Baldes, a soma da fonte de valores em cada

subconjunto é igual a 1/β vezes a soma de todas as fontes de valores no histograma

V-Optimal: É um histograma com variância ponderada, a fonte de valores é minimizada.

Spline-based: O máximo absoluto que difere entre a fonte de valor e a média da fonte de valores no seu Balde é minimizado.

Page 10: Tópicos Avançados de Base de Dados

10

Abordagens anteriores a Histogramas

Aproximação de valores atribuídos e frequências: Todos os histogramas fazem a frequência uniforme supondo

e aproximando todas as frequências num Balde pelas suas médias.

Todos os histogramas necessitam de armazenar a frequência média para cada Balde

Page 11: Tópicos Avançados de Base de Dados

11

Histogramas anteriores

Trivial Histogram: Tem apenas um único Balde. Equivalentes à popular hipótese de distribuição

uniformeEqui-Sum(V,S) alias Equi-width:

Histograma contíguo aos intervalos dos atributos nos Baldes.

Soma das propagações em cada baldeEqui-sum(V,F) alias Equi-depth:

Como o histograma acima porém tem a soma das frequências em cada Balde em vez da soma da propagação.

Page 12: Tópicos Avançados de Base de Dados

12

Histogramas anteriores

Spline-Based(V,C): Inspiram outros histogramas para melhoramentos em

análise numérica para aproximar curvas.V-Optimal(F,F):

Histogramas contíguos ao conjunto de frequências em Baldes de forma a minimizar a variância sobre a frequência aproximada.

V-Optimal-End-Biased(F,F): Algumas das maiores frequências e algumas das mais

pequenas são colocadas em Baldes individuais enquanto as frequências médias são agrupados num único Balde.

Page 13: Tópicos Avançados de Base de Dados

13

Novas abordagens a Histogramas

Classe de Partição: Histogramas tendenciosos têm pelo menos um

Balde singleton e possivelmente vários “não-singleton”.

Restrições de Partição: Duas novas restrições

Maxdiff: Balde limitado entre duas fontes de parâmetros de valores adjacentes.

Compressed: Os n maiores valores de origem são guardados separadamente em n Baldes singleton, o resto é particionado em histogramas equi-sum.

Page 14: Tópicos Avançados de Base de Dados

14

Novas abordagens a Histogramas

Parâmetros de Ordenação e Parâmetros de origem: Introduziu-se a área como uma possível escolha na

classificação e fonte de parâmetros.

Aproximação de valores atribuídos dentro de um Balde: Introduziu-se a hipótese de propagação uniforme

em que para cada atributo dentro de um Balde, assume-se que a propagação é igual à média do Balde.

Page 15: Tópicos Avançados de Base de Dados

15

Novos Histogramas

V-Optimal(V,F), V-Optimal(V,A), V-Optimal(A,A) e V-Optimal(V,C):

V-Optimal(V,F) e V-Optimal(V,A) minimizam a variância em frequências e nas áreas respectivamente.

O V-Optimal(A,A) minimiza a variância da aproximação global da área. V-Optimal-End-Biased(A,A) :

Idêntico ao (F,F) excepto que este usa a área como parâmetros de ordenação e origem.

Maxdiff(V,F), Maxdiff(V,A): Tentam alcançar o seu objectivo inserindo limite nos Baldes entre os

valores de origem adjacentes.Compressed(V,F) e Compressed(V,A):

Os atributos com a maior frequência são colocados num Balde singleton e depois os valores restantes são distribuídos por múltiplos Baldes.

Page 16: Tópicos Avançados de Base de Dados

16

Técnicas Computacionais

A construção de Histogramas necessita de: Cálculo dos quantis para Histogramas equi-depth

Necessário calcular o limite de Baldes

Cálculo das frequências e das frequências acumuladas de cada atributo Necessário um contador para cada atributo distinto

Cálculo do número de atributos distintos que se encontram num dado intervalo

Cálculo da propagação de cada atributo

Page 17: Tópicos Avançados de Base de Dados

17

Conclusões

Inovações: Restrições de Partição são mais precisas que as tradicionais.

Uso do número de valores distintos num Balde para aproximar de forma mais precisa a distribuição dos valores e frequências no Balde.

Adaptação a algoritmos aleatórios para uma construção eficiente de Histogramas em série.

Uso de um reservatório de amostras e técnicas de estimações estatísticas para construir eficientemente Histogramas usando uma única verificação dos dados.