consulta a fluxo continuo de dados (data streaming) celso brennand saulo de tarso 2006 banco de...

33
Consulta a fluxo continuo de dados (“data streaming”) Celso Brennand Saulo de Tarso 2006 Banco de Dados

Upload: internet

Post on 17-Apr-2015

106 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

Consulta a fluxo continuo de dados (“data streaming”)

Celso Brennand

Saulo de Tarso

2006

Banco de Dados

Page 2: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

Roteiro

Introdução

Redes de Sensores Sem Fio

Sensor Stream In-network Storage In-network Aggregation

Alternativas para o processamento de consultas em RSSF

Acesso Cougar Acesso Fjord Acesso TAG Acesso TinyDB

Conclusão

Page 3: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

Introdução

Consultar fluxos contínuos de dados O que é? Dificuldades Como consultar?

Page 4: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

Introdução

Caracteristicas Data Streams Dados chegando rapidamente, em

intervalos variáveis e com fluxo ilimitado. Dados são melhores modelados como

stream’s de dados transientes e não como relações persistentes.

SGBD´s tradicionais não foram desenvolvidos para armazenar dados de forma contínua e rápida e não suportam consultas contínuas.

Exemplos: Monitoração de redes, redes de sensores, aplicações web, etc.

Page 5: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

Introdução

Dificuldades Fluxo contínuo de dados. Não existe controle da ordem de

chegada de cada elemento a ser processado.

Stream de dados tem tamanho ilimitado. Uma vez processado, um elemento é

geralmente descartado. Consultas sobre essas stream`s

precisam ser processadas quase que em tempo real.

Page 6: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

Introdução

Trabalhos atuais Focam em: redes de sensores

Necessidades futuras Mineração de dados on-line Pesquisa e eliminação de ruídos em dados

com ruídos Manipulação de dados incompletos

Page 7: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

Redes de Sensores Sem Fio

RSSFs consistem, tipicamente, em vários sensores (Sensor Stream) que coletam e comunicam, continuamente, seus dados para uma ou mais estações-base. Exemplos: trânsito segurança clima e tempo

Page 8: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

Limitações das RSSFs

Energia.Largura de banda.Capacidade de processamento.Capacidade de armazenamento.Perda de pacotes .Topologia pode mudar continuamente.

Page 9: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

Sensor Stream

Sistemas que extraem dados dos sensores permitem que usuários observem, analisem e consultem estes dados. Eficientes em energia Escaláveis Auto-organizáveis e robustos contra falha

de nós e mudanças de topologia.

Page 10: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

Sensor Stream

Prover armazenamento persistente e consultas como um sistema centralizado provê é difícil para uma RSSF. In-network Storage In-network Aggregation

Page 11: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

In-network Storage

Três formas básicas de armazenamento: Externo: Dados enviados continuamente ao

ponto de acesso - custo com transmissão. Local: Dados são armazenados no nó de

origem –custo com consulta. Data Centric Storage (DCS): Um nó

armazena os dados semelhantes de um conjunto de nós – custo com transmissão e com consulta amenizados.

Page 12: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

In-network Aggregation

É um mecanismo para reduzir a quantidade total de energia e banda necessárias para processar uma consulta, permitindo que os nós façam agregação intermediária dos dados. Uma consulta é enviada a rede ou a uma área específica, e a resposta pode ser roteada por uma árvore onde é possível realizar a agregação de dados.

Page 13: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

In-network Aggregation - Vantagens

Redução do número de pacotes enviados pela rede.Redução da probabilidade de colisão de pacotes.Redução de dados redundantes recebidos no ponto de acesso.

Page 14: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

Roteamento

Abordagem centrada no endereço: Encontrar rotas curtas entre pares de nós

endereçáveis.

Abordagem centrada em dados Encontrar rotas de múltiplos nós para um

único destino que permita a agregação de dados redundantes dentro da rede.

Page 15: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

Roteamento

Page 16: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

Métrica de Custos

Métrica tradicionais não se aplicam a streams como acesso a disco.

Métricas mais apropriadas são: exatidão e atraso do uso da memória Taxa de banda consumo de energia

Page 17: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

Alternativas para o processamento de consultas em RSSF

Acesso Cougar

Acesso Fjord

Acesso TAG

Acesso TinyDB

Page 18: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

Acesso Cougar

As consultas envolvem dois tipos de dados: dados armazenados e os dados do sensor.As consultas possuem um tempo de validação: timestamp (tempo discreto ou tempo compartilhado).Dados são constantemente alterados (em tempo de execução das consultas). Persistência = as atualizações são feitas na

ordem crescente e a álgebra usada não for modificada (seqüência das operações relacionais).

Page 19: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

Acesso Cougar

Utilização de tipos de dados abstratos (ADT). Um sensor ADT é definido para todos os

sensores de um mesmo tipo.

As consultas são processadas em uma base de dados centralizada.

Mecanismo de interação com os nós do sensor, emitindo o resultado ao front-end.

Page 20: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

Acesso Cougar

Utilização de uma Relação Virtual. Uma relação virtual é uma representação

tabular de um método. Sempre que existe um resultado um novo

registro é adicionado à relação. Um relacional virtual é dividido através de

todos os sensores do mesmo sensor ADT.

Page 21: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

Acesso Fjord

Permitem consultas que combine streaming de dados e dados da fonte padrão.Possuem operadores proxies do sensor (mediadores entre o processador de consultas e os sensores físicos).Proxy evita desperdício de energia e tempo. (Consultas são aceitas pelos sensores pertinentes).O proxy controla continuamente o sensor, mesmo não existindo consultas.

Page 22: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

Acesso Fjord

Outras funções do proxy: Ajusta a taxa de amostra dependendo da necessidade

(podendo desligar o sensor caso necessário). Refinamento da consulta (Intervalos setado ao sensor).

Os fjord são os outros componentes desse tipo de acesso.

Suporta combinação de streaming de dados e dados conservado no disco.

Utiliza filas de pull e push. Para cada nova consulta é alocado um novo fjord.

Page 23: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

Acesso TAG

Oferece serviços distribuídos de agregação para redes ad hoc com uma pequena parte do TinyOS (Pequeno sistema de chamadas).

Os usuários realizam suas consultas agregadas em uma basestation poderosa com recursos em abundancia.

Resultados de dados na árvore de distribuição.

Os nós agregam os dados produzidos localmente com os dados recebidos de outros nós.

Page 24: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

Acesso TAG

Árvore de Distribuição: Periodicamente se auto-organiza,

verificando se cada nó esta ajustado ao nível certo. (ajuste, ID da mensagem mais um).

A comunicação entre o nó e a raiz é feita periodicamente, a fim de localizar possíveis falhas (Comunicação feita através dos pais).

Page 25: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

Acesso TAG

O TAG implementa qualquer agregação através de três funções: f função de união. i inicializador. e avaliador.

< z >= f (< x >,< y >) Onde < x > e < y > são valores parciais

multivalorados do estado sobre um ou mais valores do sensor.

Page 26: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

Acesso TAG

A execução de uma consulta é um processo bifásico. Uma fase de distribuição para todos os nós. Uma fase de coleta de dados, onde os filhos

transmitem para seus pais.

O tempo é subdividido em épocas.

A vantagem principal do TAG comparada ao acesso centralizada é redução da comunicação necessária.

Page 27: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

Acesso TAG

O TAG também possui outros benefícios: O TAG tolera desconexões e perda. O fato que o tempo está dividido nas épocas

permite saber quando o processador é inativo.

Page 28: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

Acesso TinyDB

Representa o modelo mais atual de processador de consultas.

É um processador de consultas distribuído, de forma a agir em cada nó independente em uma rede de sensores.

Usar a habilidade de sensores espertos de controlar onde, quando e como os dados são adquiridos frequentemente a fim reduzir o consumo de potência.

Possui muitas características de processadores tradicionais de consultas (seleções, projeções, junções e agregação de dados).

Page 29: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

Acesso TinyDB

Possui uma tabela “sensors” com uma coluna diferente para cada sensor físico da rede. A tabela possui o ID do sensor, a posição do

nó (local físico), a época de amostrageme a leitura.

A arquitetura básica: As consultas são submetidas a basestation. A consulta é otimizada. Cada nó contem Metadados associado a seus

atributos, eventos e predicados definidos pelo usuário.

Page 30: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

Acesso TinyDB

TinyDB adota a execução das agregações através de três funções que inicializam, fundem e atualizam o valor final de registros parciais.

Cada nó emite periodicamente uma cópia de seu próprio catálogo ao basestation onde é usado pelo otimizador.

O TinyDB tem suporte a consultas baseadas em eventos.

Page 31: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

Acesso TinyDB

Os nós pais verificam se os nós filhos são capazes de realizar a consulta, a fim de evitar desperdício de energia.

O tempo também é subdividido em épocas.

Os nós dormem a maioria das épocas, acordando quando necessário.

TinyDB estende o acesso TAG. A cada nova consulta apenas os nós que

possuem dados úteis são alocados.

Page 32: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

Conclusões

Formas mais acessíveis aos fluxo contínuo de dados foram demonstrados.

Vários problemas e limitações das redes de sensores foram levantados e enfatizados, como também no seus processamentos de consultas.

Foi dado uma visão geral da pesquisa em armazenamento e consulta de dados em redes de sensores e em streams.

Page 33: Consulta a fluxo continuo de dados (data streaming) Celso Brennand Saulo de Tarso 2006 Banco de Dados

Referência

State of the Art and Future Directions in Wireless Sensor Network’s Data Management Project: Management of Data in Wireless Sensor Networks (MaD-WiSe) G. Amato, A. Caruso, S. Chessa, V. Masi and A. Urpi.

Fjording the Stream: An Architecture for Queries over Streaming Sensor Data Samuel Madden and Michael J. Franklin.

TAG: a Tiny AGgregation Service for Ad-Hoc Sensor Networks Samuel Madden, Michael J.Franklin, and Joseph M. Hellerstein Wei Hong, 5th Annual Symposium on Operating Systems Design and Implementation (OSDI). December, 2002.

Processamento de Consultas para Fluxo Contínios de Dados: Perkusich, M. L. et al, VII SBAI/ II IEEE LARS. São Luís. Setember, 2002.