uso de anotações semânticas para exploração de paralelismo...

26
Departamento de Ciência da Computação Instituto de Matemática e Estatística Universidade de São Paulo Elaine Watanabe [email protected] Kelly Braghetto [email protected] Uso de Anotações Semânticas para Exploração de Paralelismo em Workflows Intensivos em Dados

Upload: others

Post on 06-Nov-2019

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Uso de Anotações Semânticas para Exploração de Paralelismo ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST05_03.pdf · Workflow Sist. Gerenc. de Workflows Nó de Submissão Escalonador

Departamento de Ciência da ComputaçãoInstituto de Matemática e Estatística

Universidade de São Paulo

Elaine [email protected]

Kelly [email protected]

Uso de Anotações Semânticas para Exploração de Paralelismo em

Workflows Intensivos em Dados

Page 2: Uso de Anotações Semânticas para Exploração de Paralelismo ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST05_03.pdf · Workflow Sist. Gerenc. de Workflows Nó de Submissão Escalonador

Motivação

Dilúvio de Dados

Áreas científica e de negócios

Workflows Intensivos em

DadosAmbientes distribuídos

NoSQL

Sistemas de Gerenciamento de Workflows

Automação da execução

Atividades são caixas-pretas

Page 3: Uso de Anotações Semânticas para Exploração de Paralelismo ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST05_03.pdf · Workflow Sist. Gerenc. de Workflows Nó de Submissão Escalonador

Workflow Sist. Gerenc. de Workflows

Nó de Submissão

Escalonador

Nós de Execução

Repositório de Dados

Page 4: Uso de Anotações Semânticas para Exploração de Paralelismo ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST05_03.pdf · Workflow Sist. Gerenc. de Workflows Nó de Submissão Escalonador

Nem sempre é um especialista em computação paralela e distribuída

USUÁRIO

Define o paralelismo na descrição do workflow

NoSQL

Page 5: Uso de Anotações Semânticas para Exploração de Paralelismo ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST05_03.pdf · Workflow Sist. Gerenc. de Workflows Nó de Submissão Escalonador

Objetivos

Caracterizar semanticamente o tipo de processamento das

atividades do workflow

Criar estratégias que ampliem o paralelismo do workflow

Page 6: Uso de Anotações Semânticas para Exploração de Paralelismo ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST05_03.pdf · Workflow Sist. Gerenc. de Workflows Nó de Submissão Escalonador

Método Proposto

Page 7: Uso de Anotações Semânticas para Exploração de Paralelismo ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST05_03.pdf · Workflow Sist. Gerenc. de Workflows Nó de Submissão Escalonador

Adiciona anotações semânticas no modelo do workflow

USUÁRIO

Page 8: Uso de Anotações Semânticas para Exploração de Paralelismo ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST05_03.pdf · Workflow Sist. Gerenc. de Workflows Nó de Submissão Escalonador

A

B C D

E

G

F

PROCESSAMENTO POR OBJETO

Indica que a atividade processa cada objeto de dados individualmente

Page 9: Uso de Anotações Semânticas para Exploração de Paralelismo ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST05_03.pdf · Workflow Sist. Gerenc. de Workflows Nó de Submissão Escalonador

A

B C D

E

G

F

PROCESSAMENTO POR GRUPO DE OBJETOS

(L)

Indica que a atividade processa os objetos de entrada em grupos definidos pelo(s) atributo(s) agrupador(es) em L

Page 10: Uso de Anotações Semânticas para Exploração de Paralelismo ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST05_03.pdf · Workflow Sist. Gerenc. de Workflows Nó de Submissão Escalonador

A

B C D

E

G

F

Indica os atributos L dos objetos de entrada serão processados

SELEÇÃO DE ATRIBUTOS

(L)

Page 11: Uso de Anotações Semânticas para Exploração de Paralelismo ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST05_03.pdf · Workflow Sist. Gerenc. de Workflows Nó de Submissão Escalonador

A

B C D

E

G

F

Informa que os objetos devem ser ordenados por L

ORDENAÇÃO DE OBJETOS

(L)

Page 12: Uso de Anotações Semânticas para Exploração de Paralelismo ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST05_03.pdf · Workflow Sist. Gerenc. de Workflows Nó de Submissão Escalonador

Modifica o workflow e o banco de dados conforme as anotações e informações sobre o ambienteSciWonC-Dataflow

Toolkit

Page 13: Uso de Anotações Semânticas para Exploração de Paralelismo ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST05_03.pdf · Workflow Sist. Gerenc. de Workflows Nó de Submissão Escalonador

A

B C D

...

...

G

E2E1 En

F2 FmF1PROCESSAMENTO POR OBJETO

Criação de n réplicas da atividade, sendo n o total

de nós de execução

Page 14: Uso de Anotações Semânticas para Exploração de Paralelismo ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST05_03.pdf · Workflow Sist. Gerenc. de Workflows Nó de Submissão Escalonador

A

B C D

...

...

G

E2E1 En

F2 FmF1PROCESSAMENTO POR

GRUPO DE OBJETO (L)

Criação de m réplicas, sendo m o mínimo entre o total de grupos e o total de

nós de execução

Page 15: Uso de Anotações Semânticas para Exploração de Paralelismo ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST05_03.pdf · Workflow Sist. Gerenc. de Workflows Nó de Submissão Escalonador

ORDENAÇÃO DE OBJETOS

(L)

Criação de índices paraordenação de dados

Repositório de Dados

Page 16: Uso de Anotações Semânticas para Exploração de Paralelismo ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST05_03.pdf · Workflow Sist. Gerenc. de Workflows Nó de Submissão Escalonador

AVALIAÇÃO DO MÉTODO

Page 17: Uso de Anotações Semânticas para Exploração de Paralelismo ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST05_03.pdf · Workflow Sist. Gerenc. de Workflows Nó de Submissão Escalonador

Workflow avaliado

➔ 5,8 milhões de objetos de dados ➔ Identificação dos tipos de eventos em um

cluster do Google que consumiram mais memória e CPU

Dados disponíveis em: https://git.io/vPG6w

Page 18: Uso de Anotações Semânticas para Exploração de Paralelismo ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST05_03.pdf · Workflow Sist. Gerenc. de Workflows Nó de Submissão Escalonador

A

B C D

E

G

F

ORDENAÇÃO DE OBJETOS ("id")

SELEÇÃO DE ATRIBUTOS ("event type", "memory request", "cpu request")

ORDENAÇÃO DE OBJETOS ("id")

SELEÇÃO DE ATRIBUTOS("event type", "ratio cpu memory")

PROC. POR GRUPO DE OBJETO ("event type")

PROCESSAMENTO POR OBJETO

Page 19: Uso de Anotações Semânticas para Exploração de Paralelismo ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST05_03.pdf · Workflow Sist. Gerenc. de Workflows Nó de Submissão Escalonador

11 cenários avaliados, centralizados e distribuídos

Nível de confiança dos resultados: 95%

Page 20: Uso de Anotações Semânticas para Exploração de Paralelismo ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST05_03.pdf · Workflow Sist. Gerenc. de Workflows Nó de Submissão Escalonador

Workf. Nós SGWf SGBD Partições Réplicas

W-01 1

Postgres 1 1W-023

W-03*

W-04 1

MongoDB 1 1W-053

W-06*

W-073 MongoDB 1 3

W-08*

W-09

9 MongoDB 3 3W-10*

W-11*

* indica que o workflow foi modificado pelas anotações

Page 21: Uso de Anotações Semânticas para Exploração de Paralelismo ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST05_03.pdf · Workflow Sist. Gerenc. de Workflows Nó de Submissão Escalonador

POSTGRES (1P - 1Rp) MONGODB (1P - 1Rp)

MONGODB (3P - 3Rp)MONGODB (1P - 3Rp)

CONFIGSERVERS

MONGOSROUTER

CONFIGSERVERS

MONGOSROUTER

Page 22: Uso de Anotações Semânticas para Exploração de Paralelismo ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST05_03.pdf · Workflow Sist. Gerenc. de Workflows Nó de Submissão Escalonador

Tempo Total da Execução (em horas)

* indica que o workflow foi modificado pelo método proposto

MONGODB (3P - 3Rp)MONGODB (1P - 3Rp)

POSTGRES (1P - 1Rp)MONGODB (1P - 1Rp)

Page 23: Uso de Anotações Semânticas para Exploração de Paralelismo ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST05_03.pdf · Workflow Sist. Gerenc. de Workflows Nó de Submissão Escalonador

Custo Monetário da Execução (em dólares)

* indica que o workflow foi modificado pelo método proposto

MONGODB (3P - 3Rp)MONGODB (1P - 3Rp)

POSTGRES (1P - 1Rp)MONGODB (1P - 1Rp)

Page 24: Uso de Anotações Semânticas para Exploração de Paralelismo ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST05_03.pdf · Workflow Sist. Gerenc. de Workflows Nó de Submissão Escalonador

Redução de até 88,4% do tempo total de execução e, em cenários com a mesma infraestrutura, redução do custo

monetário de até 10,4%

Considerações Finais

Page 25: Uso de Anotações Semânticas para Exploração de Paralelismo ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST05_03.pdf · Workflow Sist. Gerenc. de Workflows Nó de Submissão Escalonador

Contribuições

● Método que combina anotações semânticas e informações do ambiente de execução para aumentar, de forma automática, o paralelismo no acesso aos dados na execução de workflows

● Anotações que não dependem de conhecimento de programação paralela e que melhoram o tempo e o custo monetário da execução dos workflows

Page 26: Uso de Anotações Semânticas para Exploração de Paralelismo ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST05_03.pdf · Workflow Sist. Gerenc. de Workflows Nó de Submissão Escalonador

Muito obrigada!Agradecimentos à CAPES e ao NAPSoL-PRP-USP pelo

financiamento a esta pesquisa e ao Google pelos créditos concedidos para uso de sua plataforma de nuvem

Disponível em: http://git.io/v6sTV