escrita de artigos científicos mirella m. moro [email protected]

119
Escrita de Artigos Científicos Mirella M. Moro [email protected]

Upload: internet

Post on 22-Apr-2015

119 views

Category:

Documents


5 download

TRANSCRIPT

Page 1: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

Escrita de Artigos CientíficosMirella M. Moro

[email protected]

Page 2: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

w w w. d c c . u f m g . b r / ~ m i r e l l a

[email protected] 2

Page 3: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

INTRODUÇÃOPARTE 1

Page 4: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 4

Fazer Pesquisa

Prepara para decorar o próximo slide

Page 5: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 5

Contexto

Problema

Solução

Avaliação

Enquanto estiver

• Pensando• Planejando• Escrevendo• Apresentando• Discutindo• Reunindo• Argumentando

CON-PROSA:

Page 6: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 6

• É bom? É melhor?• [Nem] Sempre: Quando? Por quê?

• Contribuição• Como resolver o problema

• O que *não* funciona?• O que pode melhorar?

• Contexto geral• Contexto específico [estado da arte]

Contexto

Problema

Solução

Avaliação

Page 7: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 7

Contribuições por TUDO!!!!

• Diferentes avaliações > X atual

• X atual > nova solução• Solução atual > melhorias

• X atual > novo problema

• X atual > novo contexto

Contexto

Problema

Solução

Avaliação

Page 9: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 9

Contribuições por TUDO!!!!

• Escolha qualquer um e avalie em: paralelo, distribuído, grandes volumes, map-reduce, novos hardwares, ...

• Mais comum

• Dados relacionais > semiestruturado• Dados relacionais > big data analysis

• Dados relacionais > streams• Dados relacionais > móveis

Contexto

Problema

Solução

Avaliação

Page 10: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 10

Exemplo [ ZHANG et al @ SIGMOD 1996 ]

Finding useful patterns in large datasets has attracted considerable interest recently, and one of the most widely studied problems in this area is the identification of clusters, or densely populated regions, in a multi-dimensional dataset. Prior work does not adequately address the problem of large datasets and minimization of I/O costs. This paper presents a data clustering method named BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies), and demonstrates that it is especially suitable for very large databases. BIRCH incrementally and dynamically clusters incoming multi-dimensional metric data points to try to produce the best quality clustering with the available resources (i.e., available memory and time constraints). BIRCH can typically find a good clustering with a single scan of the data, and improve the quality further with a few additional scans. BIRCH is also the first clustering algorithm proposed in the database area to handle “noise” (data points that are not part of the underlying pattern) effectively. We evaluate BIRCH’s time/space efficiency, data input order sensitivity, and clustering quality through several experiments. We also present a performance comparison of BIRCH versus CLARANS, a clustering method proposed recently for laerge datasets, and show that BIRCH is consistently superior.

Contexto

Problema

Solução

(Detalhes)

Avaliação

Page 11: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

Conectar as Ideias: *não* é fácilTítulo: Título: keyword1 keyword2

Resumo:Resumo:linha1 linha2 linha3

Intro:Intro: par1 par2 par3 par4

Contexto &Relacionados

Avaliação

Solução 1

Solução 2Conclusão:Conclusão: par1 par2 par3

Problema

[email protected] 11

Page 12: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

ERGOESTE CURSO

Page 13: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

2. PLANEJAMENTO3. INÍCIO4. CENTRO5. FIM6. DICAS DE ESTILO E REVISÃO

ROTEIRO

Page 14: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 14

PS: na dúvida, vá à nossa biblioteca

Page 15: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

PLANEJAMENTO

PARTE 2

Page 16: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

As complexidades da tarefa

• Como tornar um interesse vago em um problema merecedor de apresentação e solução

• Como construir um argumento que motiva leitores a aceitar o que você diz

• Como antecipar dúvidas de atentos mas críticos leitores e como respondê-las apropriadamente

• Como criar uma introdução e conclusão que respondam à pergunta mais difícil delas, E eu com isso?

• Como ler sua própria escrita como outros irão, e então aprender quando e como revisá-la

16FONTE: Booth, Colomb, Williams – The Craft of Research

Page 17: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

1. Defina o Objetivo

1. Tópico: Estou pesquisando ______2. Questão: a fim de descobrir o que/como/por que ______,

3. Relevância: para ajudar outros a entender ________.

17FONTE: Booth, Colomb, Williams – The Craft of Research

Page 18: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

Defina o Objetivo

18FONTE: Booth, Colomb, Williams – The Craft of Research

Page 19: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

Defina o Objetivo

19FONTE: Booth, Colomb, Williams – The Craft of Research

Page 20: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

2. Defina o Espectro

20FONTE: Booth, Colomb, Williams – The Craft of Research

• Risco = tópico tão abrangente como uma entrada de enciclopédia• Voo espacial, a sua história• Shakespeare, peças problemáticas

• Tópico é geralmente muito abrangente se escrito em 4 ou 5 palavras:

Page 21: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

De tópico abrangente a específico

21FONTE: Booth, Colomb, Williams – The Craft of Research

• Com um tópico muito abrangente, você pode ficar intimidado pela ideia de encontrar, muito menos ler, sequer uma fração das fontes disponíveis

• Então, deve-se reduzi-lo

Page 22: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

3. Planeje a Escrita

22FONTE: Booth, Colomb, Williams – The Craft of Research

Entenda seu público alvo• Pense em seu público alvo desde o início,

sabendo que você os entenderá melhor à medida que desenvolve seu projeto

• Responda as próximas perguntas cedo, então as revisite quando começar a escrever e de novo quando revisar o texto

Page 23: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

Checklist para entender seus leitores

23FONTE: Booth, Colomb, Williams – The Craft of Research

1. Quem lerá seu texto?• Profissionais? Alunos? Torcida do Atlético?• Leitores que estão bem informados?• Leitores que sabem pouco sobre o tópico?

Page 24: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

Checklist para entender seus leitores

24FONTE: Booth, Colomb, Williams – The Craft of Research

2. Eles esperam que faça o que pretende fazer? Deveria...

• Diverti-los? • Apresentar novo conhecimento baseado em

fatos?• Ajudá-los a entender alguma coisa melhor?• Ajudá-los a fazer algo para resolver um

problema prático no mundo?

Page 25: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

Checklist para entender seus leitores

25FONTE: Booth, Colomb, Williams – The Craft of Research

3. Quanto se espera que eles saibam?• O que eles sabem sobre seu tópico?• Qual interesse especial eles têm nele?• O que eles esperam que seja discutido?• O problema já é conhecido deles?• É um problema existente mas que eles ainda não

reconhecem?• É problema apenas seu, e não deles?• Eles irão levar o problema a sério automaticamente, ou

deve trabalhar para convencê-los de que é importante?

Page 26: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

Checklist para entender seus leitores

26FONTE: Booth, Colomb, Williams – The Craft of Research

4. Como os leitores responderão ao seu trabalho?• Irá contradizer o que eles já acreditam? Como?• Eles terão algum argumento padrão contra a solução?• Eles desejarão ver todos os passos que levaram à

solução?• Eles esperam que o texto siga um formato padrão? Se

sim, qual?

Page 27: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected]

Planejamento: Exemplo Real

27

+ESPECÍFICO+DETALHES

+GENÉRICO+BACKGROUND

ACM SAC/CSBC

SIGMOD/SBBD

WebDB

• XML Database• XML Query Processing• RoXSum

• XML Query Filtering• XML Routing• RoXSum

• XML Routing• RoXSum• Algorithms

Page 28: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected]

Planejamento em 1 slide

PRONTO• Título• Autor (es)• Resumo• Introdução• Corpo• Conclusão• Referências

A FAZER• Quem irá ler seu texto?

evento, periódico, orientador, alunos, banca

• Eles esperam que faça o que pretende fazer?

contexto, novidade, contribuição, surpresa (twist)

• Quanto se espera que eles saibam?profundidade/largura, background, público

• Como responderão aos problemas e soluções apresentados?

28

Page 29: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br
Page 30: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

COMPONENTES INICIAIS

PARTE 3

Page 31: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 31

ComponentesFluxo

Título: Título: keyword1 keyword2

Resumo:Resumo:line1 line2 line3

Intro:Intro: par1 par2 par3 par4

Contexto

Avaliação

Solução 1

Solução 2Conclusão:Conclusão:par1 par2 par3

TrabalhosRelacionados

Page 32: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

32

TÍTULO

• Referência principal ao trabalho

• Chave para ser referenciado

• Reflete o conteúdo do trabalho

• Claro, curto, correto– Nome, não uma frase,

original– Primeira coisa a se

escrever??

[email protected]

Page 33: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 33

Título: exemplos brasileiros• Unsupervised Information Extraction by Text

Segmentation E. CORTEZ @ SBC CTD 2013 – 1º lugar doutorado

• Data Mining in Large Sets of Complex Data R. CORDEIRO @ SBC CTD 2012 – 1º lugar doutorado

• Análise de Dados de expressão gênica: normalização de microarrays e modelagem de redes regulatórias A.FUJITA @ SBC CTD 2008 – 1º lugar doutorado

• Low Cost BIST Techniques for Linear and Non-Linear Analog Circuits M. NEGREIROS @ DATE 2006 – dissertation award

• Updating relations through XML Views V. BRAGANHOLO @ SBC CTD 2005 – 1º lugar doutorado

• Operadores de Seleção por Similaridade para Sistemas de Gerenciamento de Bases de Dados Relacionais A.S. ARANTES @ SBBD 2003 – best paper award

Page 34: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected]

Utilizar um nome ajuda...

34

Page 35: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 35

Título: exemplosClássicos e Novos Clássicos• The Entity-Relationship Model: Toward a Unified View of

Data PETER CHEN @ VLDB 1975

• Marching cubes: A high resolution 3D surface construction algorithm W.E. LORENSEN @ SIGGRAPH 1987

• BIRCH: An Efficient Data Clustering Method for Very Large Databases T. ZHANG et al @ SIGMOD 2006

• Bigtable: A distributed storage system for structured data F. CHANG et al @ ACM TOCS 2008

• MapReduce: simplified data processing on large clusters J. DEAN & S. GHEMAWAT @ CACM 2008

Page 36: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected]

Trabalhar em grupo é uma faca de dois gumes

36

Page 37: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 37

Aluno “dono” tese Bolsista Orientador

• André Silva, Bento Muniz, Carlos Costa • Carlos Costa, Bento Muniz, André Silva• Bento Muniz, Carlos Costa, André Silva

AUTOR (es)

• Nome completo (“artístico”) + filiação + email• Ordem dos autores??

– Não há regra padrão aceita globalmente

Page 38: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected]

www.phdcomics.com

38

Page 39: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 39

RESUMO

• Um parágrafo 150-250 palavras–Propaganda ou trailer do artigo–Atrai (ou não!) a atenção e o interesse

do leitor

Page 40: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 40

Resumo• Sempre menciona informações ou

conclusões que estão no texto• Sem referências bibliográficas (exceto em

ocasiões raras, como modificações a um método publicado previamente)

• Primeiro a ser escrito: planejamento• Último a ser escrito: ideia melhor

Page 41: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected]

Resumo = problema + uma boa solução.Contra exemplo:

41

Page 42: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 42

Resumo

• Sugestão 1 (uma ou duas linhas para cada item)– Escopo do trabalho– Principais objetivos– Principal resultado ou conclusão

Page 43: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 43

Resumo: exemploStructural summaries are data structures that preserve all structural features of XML documents in a compact form. We investigate the applicability of the most popular summaries as access methods within XML query processing. In this context, issues like space and false positives introduced by the summaries need to be examined. Our evaluation reveals that the additional space required by the more precise structures is usually small and justified by the considerable performance gains that they achieve.

MORO et al – WWW 2006

Contexto

Problema/ Solução

Avaliação

Page 44: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 44

Resumo

• Sugestão 2 (uma a três linhas para cada item) – Contexto geral e específico– Questão/problema sendo investigado

• Propósito do trabalho– Estado-da-arte

• Por que precisa de uma solução nova/melhor – Solução

• Nome da proposta• Metodologia básica sem detalhes• Quais características respondem as questões iniciais

– Interpretação dos resultados, conclusões

Page 45: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 45

Resumo: exemploA Web é abundante em páginas que armazenam dados de forma implícita. Em muitos casos, estes dados estão presentes em textos semiestruturados sem a presença de delimitadores explícitos e organizados em uma estrutura também implícita. Neste artigo apresentamos uma nova abordagem para extração em textos semi-estruturados baseada em Modelos de Markov Ocultos (Hidden Markov Models - HMM). Ao contrário de outros trabalhos baseados em HMM, nossa abordagem dá ênfase à extração de metadados além dos dados propriamente ditos. Esta abordagem consiste no uso de uma estrutura aninhada de HMMs, onde um HMM principal identifica os atributos no texto e HMMs internos, um para cada atributo, identificam os dados e metadados. Os HMMs são gerados a partir de um treinamento com uma fração de amostras da base a ser extraída. Nossos experimentos com anúncios de classificados retirados da Web mostram que o processo de extração alcançáveis de qualidade acima de 0,97 com a medida F, mesmo se esta fração de treinamento é pequena. SANTOS et al @ SBBD 2006

Contexto

Problema

Solução

e Estado-da-Arte

Avaliação

Page 46: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 46

Resumo: exemploPublish-subscribe applications are an important class of content-based dissemination systems where the message transmission is defined by the message content, rather than its destination IP address. With the increasing use of XML as the standard format on many Internet-based applications, XML aware pub-sub applications become necessary. In such systems, the messages (generated by publishers) are encoded as XML documents, and the profiles (defined by subscribers) as XML query statements. As the number of documents and query requests grow, the performance and scalability of the matching phase (i.e. matching of queries to incoming documents) become vital. Current solutions have limited or no flexibility to prune out queries in advance. In this paper, we overcome such limitation by proposing a novel early pruning approach called Bounding-based XML Filtering or BoXFilter. The BoXFilter is based on a new tree-like indexing structure that organizes the queries based on their similarity and provides lower and upper bound estimations needed to prune queries not related to the incoming documents. Our experimental evaluation shows that the early profile pruning approach offers drastic performance improvements over the current state-of-the-art in XML filtering. MORO et al @ VLDB 2007

Contexto Geral

Contexto Específico

Problema

Estado-da-arte

Solução

Método proposto

Avaliação

Page 47: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 47

Resumo: exemploFinding useful patterns in large datasets has attracted considerable interest recently, and one of the most widely studied problems in this area is the identification of clusters, or densely populated regions, in a multi-dimensional dataset.Prior work does not adequately address the problem of large datasets and minimization of I/O costs. This paper presents a data clustering method named BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies), and demonstrates that it is especially suitable for very large databases. BIRCH incrementally and dynamically clusters incoming multi-dimensional metric data points to try to produce the best quality clustering with the available resources (i.e., available memory and time constraints). BIRCH can typically find a good clustering with a single scan of the data, and improve the quality further with a few additional scans. BIRCH is also the first clustering algorithm proposed in the database area to handle “noise” (data points that are not part of the underlying pattern) effectively. We evaluate BIRCH’s time/space efficiency, data input order sensitivity, and clustering quality through several experiments. We also present a performance comparisons of BIRCH versus CLARANS, a clustering method proposed recently for laerge datasets, and show that BIRCH is consistently

superior. ZHANG et al – SIGMOD 1996

Contexto e Problema

Estado-da-arte

Solução

Método

Vantagens

Avaliação

Page 48: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 48

Resumo: exemploToday’s cloud-based services integrate globally distributed resources into seamless computing platforms. Provisioning and accounting for the resource usage of these Internet-scale applications presents a challenging technical problem. This paper presents the design and implementation of distributed rate limiters, which work together to enforce a global rate limit across traffic aggregates at multiple sites, enabling the coordinated policing of a cloud-based service’s network traffic. Our abstraction not only enforces a global limit, but also ensures that congestion-responsive transport-layer flows behave as if they traversed a single, shared limiter. We present two designs—one general purpose, and one optimized for TCP—that allow service operators to explicitly trade off between communication costs and system accuracy, efficiency, and scalability. Both designs are capable of rate limiting thousands of flows with negligible overhead (less than 3% in the tested configuration). We demonstrate that our TCP-centric design is scalable to hundreds of nodes while robust to both loss and communication delay, making it practical for deployment in nationwide service providers. RAGHAVAN et al – SIGCOMM 2007

Contexto

Problema

Solução

Método

Avaliação

Page 49: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 49

INTRODUÇÃO

ARTIGO =

APESAR de serem ambos bem escritos

Page 50: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected]

Introdução introduz

50

Page 51: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

51

Um artigo científico não é um livro de suspense no qual o leitor só descobre o que está realmente acontecendo no capítulo final

Um artigo científico não é um livro de suspense no qual o leitor só descobre o que está realmente acontecendo no capítulo final

Introdução

• Uma introdução bem escrita é fundamental!!• O leitor deve estar ciente do que acontece desde

o início, desde a introdução

[email protected]

Page 52: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 52

Introdução• A introdução é uma reafirmação extentida do

conteúdo do Resumo

ERRO MAIS COMUM

Não colocar as contribuiçõesDeixar tudo “implícito”

Achar que é óbvio

Óbvio não é ciência, é senso comum

Page 53: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 53

Introdução

• Em algum lugar (na introdução), adicionar exemplos (1 ou mais):– Como o seu trabalho pode ser empregado– Onde o seu trabalho pode ser empregado,

quais os contextos, quais aplicações podem tirar vantagem

– Quais problemas práticos o seu trabalho resolve

Page 54: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 54

Introdução

• Sugestão 1 (um ou dois parágrafos por item)– Identifica a área de interesse (palavras do título)– Contexto: revisão básica do estado-da-arte– Propósito: e/ou hipótese sendo investigada

• O propósito desse trabalho é definir...• Esse trabalho propõe três métodos para...

– Solução a ser detalhada• Característica fundamental, técnica/metodologia, vantagens

– Organização

Page 55: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 55

Introdução

• Sugestão 2 (um ou dois parágrafos por item)– Contexto, motivação– O problema em questão– Trabalhos anteriores relacionados (limitações)– Lista de contribuições, resultados principais– Organização

Page 56: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 56

Contexto• Problema• Relacionados• Solução (Organização)

Contexto• Problema• Relacionados• Solução (Organização)

Introdução

• Contexto, motivação• Evolução de um contexto

“Yesterday’s version of distributed computing was a selfcontained, colocated server farm. Today, applications are increasingly deployed on third-party resources hosted across the Internet. Indeed, the rapid spread of open protocols and standards like Web 2.0 has fueled an explosion of compound services that script together third-party components to deliver a sophisticated service [27, 29]. These specialized services are just the beginning: flagship consumer and enterprise applications are increasingly being delivered in the software-as-a-service model [9]. For example, Google Documents, Groove Office, and Windows Live are early examples of desktop applications provided in a hosted environment, and represent the beginning of a much larger trend.”

RAGHAVAN et al – SIGCOMM 2007

Page 57: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 57

Introdução

• O problema em questão– Definição do problema– Sua importância, relevância, aplicações práticas

“One of the key barriers to moving traditional applications to the cloud, however, is the loss of cost control [17]. In the cloud-based services model, cost recovery is typically accomplished through metered pricing. Indeed, Amazon’s EC2 charges incrementally per gigabyte of traffic consumed [3] […] Limiting global resource consumption in a distributed environment, however, presents a significant technical challenge. Ideally, resource providers would not require services to specify the resource demands of each distributed component a priori; such fine-grained measurement and modeling can be challenging for rapidly evolving services. Instead, they should provide a fixed price for an aggregate, global usage, and allow services to consume resources dynamically across various locations, subject to the specified aggregate limit.” RAGHAVAN et al – SIGCOMM 2007

• Contexto Problema• Relacionados• Solução (Organização)

• Contexto Problema• Relacionados• Solução (Organização)

Page 58: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 58

Introdução

• Trabalhos anteriores relacionados – No mesmo contexto, não resolvem o problema ou

apresentam apenas soluções parciais – Extensão ou continuação de um trabalho anterior:

deve ser mencionado na introdução – Uma frase sobre cada trabalho ou– Agrupar trabalhos similares e detalhar um ou dois:

“... Como resposta a tal requisito, alguns trabalhos têm enfocado a questão do suporte a versões [2,4,9,13,23,27]. Entre esses, Golendziner propõe o Modelo de Versões: uma extensão aplicável a modelos de dados orientado a objetos ... ... [9]”

• Contexto• ProblemaRelacionados• Solução (Organização)

• Contexto• ProblemaRelacionados• Solução (Organização)

Page 59: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 59

Introdução

• Solução: Contribuições principais do artigo– Por extenso em um parágrafo

• “Considerando o contexto atual, esse trabalho propõe ...”

– Delimitado por itens

“This paper makes three primary contributions:• Rate Limiting Cloud-based Services. We identify a key challenge...• Distributed Rate Limiter Design. We present the design and …• Evaluation and Methodology. We develop a methodology…”

RAGHAVAN et al – SIGCOMM 2007

• Contexto• Problema• Relacionados Solução (Organização)

• Contexto• Problema• Relacionados Solução (Organização)

Page 60: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 60

Introdução

• Organização

“O restante do artigo está organizado da seguinte maneira. A seção 2 apresenta alguns conceitos básicos e discute trabalhos relacionados. A seção 3 detalha o modelo proposto. A seção 4 apresenta um estudo comparativo através de experimentos, enquanto a seção 5 conclui o trabalho.”

• Contexto• Problema• Relacionados• Solução Organização

• Contexto• Problema• Relacionados• Solução Organização

Page 61: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 61

ATÉ AQUI

Título: Título: keyword1 keyword2

Resumo:Resumo:line1 line2 line3

Intro:Intro: par1 par2 par3 par4

Contexto

Avaliação

Solução 1

Solução 2Conclusão:Conclusão:par1 par2 par3

TrabalhosRelacionados

Page 62: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

COMPONENTE CENTRAL

PARTE 4

Page 63: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 63

Corpo

• Muitas maneiras de apresentar o corpo do trabalho

• Faça rascunhos com ordens diferentes• Revise com seu orientador, escolha um• Pode ser mudado enquanto o trabalho é

escrito

Page 64: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 64

Escrever Artigos como Arte

Page 65: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 65

CorpoExemplos de Organização

ARANTES @ SBBD 20031. Introdução2. Trabalhos Relacionados3. Motivação e Conceitos

Fundamentais4. Composição de Operadores

por Similaridade: os Novos Algoritmos

5. Experimentos Realizados6. Conclusões e Trabalhos

Futuros

BRAGANHOLO @ CTD 20051. Introduction2. Related Work3. Query Trees4. Update Language5. Mapping6. Summary and Concluding

Remarks

Page 66: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 66

CorpoExemplos de Organização

LORENSEN @ SIGGRAPH 871. Introduction2. Information flow for 3D

medical algorithms3. Related work4. Marching cube algorithm5. Enhancements of the basic

algorithm6. Implementation7. Results8. Conclusions

WEYUKER @ TSE 881. Introduction2. Definitions3. Complexity Measures4. Desired Properties of

Complexisty Measures5. Conclusions, Summary, and

Future Directions

Page 67: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 67

CorpoExemplos de Organização

ZHANG @ SIGMOD 19961. Introduction2. Summary of Relevant Research3. Background4. Clustering Feature and CF Tree5. The BIRCH Clustering Algorithm6. Performance Studies7. Summary and Future Research

RAGHAVAN @ SIGCOMM07

1. Introduction2. Classes of Clouds3. Limiter Design4. Evaluation Methodology5. Evaluation6. Related Work7. Conclusion

Page 68: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 68

CorpoExemplos de Organização

CHANG et al@ ACM TOCS 081. Introduction2. Data Model3. API4. Building Blocks5. Implementation6. Refinements7. Performance Evaluation8. Real Applications9. Lessons10. Related Work11. Conclusions12. Acknowledgements13. References

DEAN,GHEMAWAT @ CACM 081. Introduction2. Programming Model3. Implementation4. Refinements5. Performance6. Experience7. Related Work8. Conclusions9. Acknowledgements10. References

Page 69: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 69

1. Introdução

2. O que já existe

Estado-da-arte

3. NOVIDADE

4. VALIDAÇÃO

5. Conclusão

A. Conceitos Básicos

B. MODELO

C. LINGUAGEM; IMPLEMENTAÇÃO

D. ESTUDO DE CASO

E. Trabalhos Relacionados

A. Conceitos Básicos

B. Trabalhos Relacionados

C. ARQUITETURA; ALGORITMOS

D. ANÁLISE COMPARATIVA

E. EXPERIMENTOS

F. Discussão

CorpoExemplos de Organização

Page 70: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected]

Verificar o que já existeevita reinventar o passado

70

Page 71: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

71

O que já Existe

• Conceitos Básicos e Trabalhos Relacionados

• Apresentados juntos/não• Conceitos Básicos antes

da contribuição principal• Trabalhos Relacionados

no início ou fim

Já existe• Novidade• Validação• Discussão

Já existe• Novidade• Validação• Discussão

[email protected]

Page 72: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 72

O que já Existe: Conceitos Básicos

• Referências para trabalhos onde os conceitos são introduzidos ou melhor detalhados

necessários para entender o trabalho

DefiniçõesNotaçõesModelosArquiteturasLinguagensCenáriosPadrões

Page 73: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 73

• Como o artigo avança o estado-da-arte• O que antes não tinha, e agora tem

• Foco: trabalhos RELACIONADOS a pesquisa apresentada no artigo

O que já Existe: Trabalhos Relacionados

Page 74: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 74

O que já Existe: Trabalhos Relacionados

• Trabalhos anteriores com temas relacionados ao seu

• Mencionar todos os trabalhos relacionados (pessoal do comitê de programa, depto)

• Detalhes desses trabalhos ajudam mostrar onde o seu trabalho é melhor ou

• Desvantagens ou pontos fracos de trabalhos anteriores que são aprimorados

• Condições, requisitos e limitações do seu trabalho

Page 75: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 75

O que já Existe: Trabalhos Relacionados

• Seção de Trabalhos Relacionados é praticamente obrigatória• Por exemplo, o título é:

“Resumos Estruturais em Processamento de Consulta XML”

Exemplos de temas relacionados:– Resumos estruturais em outros contextos (outros processamentos)– Resumos estruturais para processar outros tipos de dados– Outras formas de processar consultas XML– ...

Page 76: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 76

O que já Existe: Trabalhos Relacionados

• Mas o artigo é um survey, precisa de trabalhos relacionados???– SIM– É impossível que um artigo referencie todos os outros– Que outros trabalhos ficaram fora do survey e por quê?

• Precisa ter uma seção para Trabs. Rels? Não pode ir simplesmente mencionando os artigos aqui e ali no meio do artigo?– Melhor não– Melhor ter todos os artigos em uma seção– COMPARANDO com o trabalho em questão

Page 77: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected]

Cuidado!!!!!!!!!!

77

Page 78: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

78

Novidade: Contribuições

• Parte principal do artigo!!!!

• A que veio• Adiciona o que• Tem de estar

claríssimo

• Já existe Novidade• Validação• Discussão

• Já existe Novidade• Validação• Discussão

[email protected]

Page 79: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 79

Novidade: Contribuições

• Um parágrafo com ideia geral da proposta• Esclareça novas definições (escreva claramente que são novas

definições propostas no artigo)• Adicione quantos parágrafos necessários para apresentar:

– o que é o trabalho– como funciona a proposta– o que é novidade, por que– detalhes e explicações sobre partes principais do funcionamento da

proposta

Page 80: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 80

EXPLICITAMENTE

O queComo

Por queOnde

Quanto

Page 81: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

COMPONENTES FINAIS

PARTE 5

Page 82: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

Validação / Avaliação

82

• Já existe• Novidade Validação• Discussão

• Já existe• Novidade Validação• Discussão

• Mostrar que a solução proposta funciona e seus benefícios

• Análise• Estudo de caso• Experimentos

[email protected]

Page 83: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 83

Validação: Análise

• Proposta é correta (demonstração e provas)• Inclua (conforme necessário):

– Um parágrafo com o resumo do que é provado nessa seção

– Um parágrafo com definições específicas usadas na análise (ex. estruturas usadas nas provas)

– Provas e análises– Comentários finais sobre o significado das provas de um

modo intuitivo ou num nível mais prático

Page 84: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 84

Validação: Estudo de Caso

• Proposta é aplicável, implementável• Inclua (conforme necessário):

– Contexto geral– Regras ou condições específicas necessárias nesse estudo

de caso caso– Modelagem / Implementação– Funcionamento– Vantagens e desvantagens de usar o modelo proposto

nesse estudo de caso

Page 85: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 85

Validação: Experimentos

• Proposta funciona, desempenho bom/superior• Inclua (conforme necessário):

– Contexto: o que é medido, o que não é, por que– Modelo de simulação ou infraestrutura das medições:

configuração do sistema, tipo de máquinas usadas, linguagens, ...

– Resultados dos experimentos [próximo slide]– Comentários finais, discussões, explicações adicionais

Page 86: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 86

Validação: Experimentos

• Descrição de resultados– Subtítulo (em negrito): para diferenciar experimentos (ex: avaliando

tamanho da entrada, variando a quantidade de consultas, usando dados sintéticos, usando dados reais, ...)

– Razão clara: por que cada gráfico aparece no seu artigo (ex: conforme o tamanho dos arquivos de entrada aumenta, o throughput diminui, ...)

– Explicar: os axis, o que o gráfico mostra, qual é a tendência, por que a tendência aparece, por que um algoritmo apresenta melhores resultados que outro, ...

– Auto-contido: legendas devem ser legíveis e compreensíveis e suficientes para entender o gráfico

Page 87: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 87

Experimentos: Exemplo

• Performance studies– 6.1 Analysis– 6.2 Synthetic Dataset Generator– 6.3 Parameters and Default Setting– 6.4 Base Workload Performance– 6.5 Sensitivity to Parameters– 6.6 Time Scalability– 6.7 Comparison of BIRCH and CLARANS– 6.8 Application to Real Datasets

ZHANG @ SIGMOD 1996

Page 88: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected]

Experimentos: Moral da História

88

Page 89: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected]

Discussão

89

• Já existe• Novidade• Validação Discussão

• Já existe• Novidade• Validação Discussão

• Discussão– Pode ser incluída como subseção final de Experimentos ou na

Conclusão– Relacionamentos entre os fatos e resultados observados– Princícios, relações, generalizações mostrados nos Experimentos– Exceção ou falta de relação, pontos incertos – Mostrar que resultados e interpretações concordam (ou

contrastam) com trabalhos previamente publicados – Implicações teóricas e possíveis aplicações práticas

• Conclusão– Principal contribuição– Evidências para cada conclusão (não assuma que o leitor é super

capaz de juntar todos os pontos sozinho)

Page 90: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

Você = maior fã do seu trabalho

[email protected]

Page 91: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 91

CONCLUSÃO

• Sugestão: ser mais específico que na introdução e informar (um parágrafo/linha por item)– resumo do que o artigo apresentou – principais resultados e contribuições – comentários sobre a importância, relevância ou – dicas para o uso prático do seu trabalho (como os resultados dos

experimentos podem ajudar na prática...) – trabalhos futuros (evite entregar suas ideias de trabalhos mais

inovadores de graça!!)

Page 92: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 92

Conclusão: exemplo

“As cloud-based services transition from marketing vaporware to real, deployed systems, the demands on traditional Web-hosting and Internet service providers are likely to shift dramatically. In particular, current models of resource provisioning and accounting lack the flexibility to effectively support the dynamic composition and rapidly shifting load enabled by the software as a service paradigm. We have identified one key aspect of this problem, namely the need to rate limit network traffic in a distributed fashion, and provided two novel algorithms to address this pressing need.Our experiments show that naive implementations based on packet arrival information are unable to deliver adequate levels […]Our results demonstrate that it is possible to recreate, at distributed points in the network, the flow behavior that end users and network operators expect from a single centralized rate limiter. Moreover, it is possible […]”RAGHAVAN et al - SIGCOMM 2007

Page 93: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 93

Referências são importantes, sempre

Page 94: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 94

REFERÊNCIAS

• Corretas, completas, específicas• Informações obrigatórias: autores, título, nome do evento ou

periódico (editora), volume e número se necessário, ano • Referências relevantes

– Do mesmo ano (ou ano anterior) para ilustrar que o tópico é atual e de interesse da comunidade

– Artigos de conferências, periódicos, livros (não apenas sites da Internet!)

– Todas as obras listadas no conjunto de referências devem ser mencionadas no texto, e vice-versa

Page 95: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected]

SBC Horizontes: Agosto’2009

• [HOW TO] Como fazer pesquisa bibliográfica Agma Juci Machado Traina, Caetano Traina Jr., ICMC-USP São Carlos Por onde devo começar quando quero iniciar uma pesquisa bibliográfica? Este artigo visa responder a essa questão, apresentando ao jovem pesquisador os passos principais para realizar uma pesquisa bibliográfica que contemple seu objetivo, bem como as ferramentas básicas amplamente disponíveis para ser bem sucedido.

95

Page 96: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

DICAS DE ESTILO E REVISÃO

PARTE 6

Page 97: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

97

DICAS DE ESTILOSETE pecados capitais

1. Frases longas (repletas de vírgulas ou não!)

2. Erros ortográficos3. Tradução literal e

imbromation4. Imagens/tabelas ilegíveis5. Erros gramaticais (paralelismo,

concordância, conjugação, crase)

6. Cópia literal7. Blablabla (encher linguiça)

[email protected]

Page 98: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 98

Dicas de Estilo

• Siga o formato– Confira cuidadosamente a seção de "Instruções a Autores"/"Instruções

para Submissão" – Artigos podem ser recusados apenas por não seguir o formato

requisitado (independente da qualidade de seu conteúdo)

• Cópia literal não!!! – Quando referenciar outros trabalhos, resuma suas idéias principais– Resista à tentação de copiar literalmente colocando o texto entre “..”

Page 99: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 99

Dicas de Estilo

• Palavras estrangeiras em itálico• Siglas esclarecidas

– Colocar seu significado entre parênteses– “... conforme definido pela W3C (World Wide Web Consortium)...”– Lembre-se que pode existir sobreposição

Page 100: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 100

Dicas de Estilo

• Uma imagem vale mil palavras – Trabalho apresenta um processo complicado, cheio de fases, entradas

e saídas para lá e para cá, tente resumir tudo em uma imagem – Uma nova arquitetura

• Escreva enquanto trabalha– É uma boa idéia começar a escrever o artigo enquanto o trabalho está

em desenvolvimento (enquanto idéias, problemas, soluções e detalhes estão mais frescos na memória)

• REVISAR! REVISAR! REVISAR!• Backup! Backup! Backup!

Page 101: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 101

REVISÃO FINALVerificar antes da Submissão

• Ortografia de título, nomes dos autores e filiação• Imprima o artigo (no formato final de submissão): tudo legível• Tenha certeza absoluta da data e do horário limites para

submissão de trabalhos • MS Word:

– Numeração das seções e subseções – Numeração no texto concorda com a numeração usada em figuras e

tabelas – Referências cruzadas não foram perdidas dentro do editor

Page 102: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

102

Revisão FinalExemplo de Formulário de Avaliação

• Relevância (enquadramento no evento)

• Originalidade• Mérito técnico-científico• Apresentação• Organização• Legibilidade (readability)• Referências

MAIS NA AULA “Como revisar artigos”

[email protected]

Page 103: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected] 103

EM RESUMO

Título

Autores

Resumo / Abstract

1. Introdução

2. O que já existe

3. NOVIDADE

4. Validação

5. Conclusão

6. Referências

Título inicial do trabalho

Aluno + Orientador(es)

Contexto + problema + objetivos

Contexto + motivação + problema + estado-da-arte + contribuições + organização

Estado-da-arte: comparação

Contribuições + trabalho desenvolvido

Validação: análise, estudo, experimentos

Estado atual + próximos passos

Local (DCC) + nacional + internacional

Page 104: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected]/~mirella

Perguntas???

Page 105: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected]

Estudo de Caso

VLDB 2007 Best Paper Awards Scalable Semantic Web Data Management Using

Vertical PartitioningDaniel J. Abadi, Adam Marcus, Samuel Madden,

Katherine J. Hollenbach

Tem um formato particular

105

Page 106: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected]

Estudo: Abstract• Efficient management of RDF data is an important factor in realizing the semantic Web

vision. • Performance and scalability issues are becoming increasingly pressing as Semantic Web

technology is applied to real-world applications. • In this paper, we examine the reasons why current data management solutions for RDF

data scale poorly, and explore the fundamental scalability limitations of these approaches. We review the state of the art for improving performance for RDF databases and consider a recent suggestion, “property tables.” We then discuss practically and empirically why this solution has undesirable features.

• As an improvement, we propose an alternative solution: vertically partitioning the RDF data. We compare the performance of vertical partitioning with prior art on queries generated by a Web-based RDF browser over a large-scale (more than 50 million triples) catalog of library data.

• Our results show that a vertical partitioned schema achieves similar performance to the property table technique while being much simpler to design. Further, if a column-oriented DBMS (a database architected specially for the vertically partitioned case) is used instead of a row-oriented DBMS, another order of magnitude performance improvement is observed, with query times dropping from minutes to several seconds.

106

Page 107: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected]

Estudo: Introduction• The Semantic Web is an effort by the W3C [8] to enable integration and sharing of data

across different applications and organizations. Though called the Semantic Web, the W3C envisions something closer to a global database than to the existing World Wide Web. In the W3C vision, […] . Database researchers will immediately recognize that building the Semantic Web requires surmounting many of the semantic heterogeneity problems faced by the database community over the years. In fact – as in many database research efforts – the W3C has proposed schema matching, ontologies, and schema repositories for managing semantic heterogeneity.

• One area in which the Semantic Web community differs from the relational database community is in its choice of data model. The Semantic Web data model, called the “Resource Description Framework,” [9] or RDF, represents data as statements about resources using a graph connecting resource nodes and their property values with labeled arcs representing properties. Syntactically, […]. For example, to represent the fact that Serge Abiteboul, Rick Hull, and Victor Vianu wrote a book called “Foundations of Databases” we would use seven triples: […]

107

O artigo tem de explicar esses conceitos:Trata da área de Web Semântica em um eventode Banco de Dados

Page 108: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected]

Estudo: Introduction

• The commonly stated advantage of this approach is that it is very general […] These tools won’t be useful if different users describe objects differently, so the Semantic Web community has developed a set of standards for expressing schemas (RDFS and OWL); these make it possible, for example, to say that every book should have an author, or that the property “isAuthor” is the same as the property “authored.”

• This data representation, though flexible, has the potential for serious performance issues, since there […]. For example, […] Figure 1.

108

This query is potentially very slow to execute, since as the number of triples in the library collection scales, the RDF table may well exceed the size of memory, and each of these filters and joins will require a scan or index lookup. Real world queries involve many more joins, which complicates selectivity estimation and query optimization, and limits the benefit of indices.

Page 109: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected]

Estudo: Introduction

• As a database researcher, it is tempting to dismiss RDF, as the data model seems to offer inherently limited performance for little – or no – improvement in expressiveness or utility. Regardless of one’s opinion of RDF, however, it appears to have a great deal of momentum in the web community, with several international conferences (ISWC, ESWC) each drawing more than 250 full paper submissions and several hundred attendees, as well as enthusiastic support from the W3C (and its founder, Tim Berners-Lee.) Further, an increasing amount of data is becoming available on the Web in RDF format, including the UniProt comprehensive catalog of protein sequence, function, and annotation data (created by joining the information contained in Swiss-Prot, TrEMBL, and PIR) [6] and Princeton University’s WordNet (a lexical database for the English language) [7]. The online Semantic Web search engine Swoogle [5] reports that it indexes 2,171,408 Semantic Web documents at the time of the publication of this paper.

109

Vende o peixe para a comunidade de BD

Page 110: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected]

Estudo: Introduction

• Hence, it is our goal in this paper to explore ways to improve RDF query performance, since […]. We focus on […] The gist of our technique is based on a simple and familiar observation to proponents of relational technology: […]

• We look at two different physical organization techniques for RDF data. The first, called the property table technique, denormalizes […]. For example, “title,” “author,” and “isbn” might all be properties that tend to be defined for subjects that represent book entities. […] This flattened property table representation will require many fewer joins to access, since self-joins on the subject column can be eliminated. One can use standard query rewriting techniques to translate queries over the RDF triple-store to queries over the flattened representation.

• There are several issues with this property table technique, including:– NULLs. Because […]– Multi-valued Attributes. […]– Proliferation of union clauses and joins. In the above example, […]

110

Fornece uma primeira solução que requer menos joins.Explica os problemas desta solução.

Page 111: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected]

Estudo: Introduction

• To address these limitations, we propose a different physical organization technique for RDF data. We create a two-column table […] For the library example, […] Although many joins are still required to answer queries over multiple properties, each table is sorted by subject, so fast (linear) merge joins can be used. Further, only those properties that are accessed by the query need to be read off disk (or from memory), saving I/O time.

• The above technique can be thought of as a fully vertically partitioned database on property value. Although vertically partitioning a database can be done in a normal DBMS, these databases are not optimized for these narrow schemas (for example, the tuple header dominates the size of the actual data resulting in table scans taking 4-5 times as long as they need to), and there has been a large amount of recent work on column-oriented databases [19, 20, 29, 31], which are DBMSs optimized for vertically partitioned schemas.

111

Fornece uma segunda solução

Explica a diferença da nova técnica para asanteriores (da própria comunidade de BD)

Page 112: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected]

Estudo: Introduction

• In this paper, we compare the performance of different RDF storage schemes on a real world RDF dataset. We use the Postgres open source DBMS to show that both the property table and the vertically partitioned approaches outperform the standard triple-store approach by more than a factor of 2 (average query times go from around 100 seconds to around 40 seconds) and have superior scaling properties. We then show that one can get another order of magnitude in performance improvement by using a column-oriented DBMS since they are designed to perform well on vertically partitioned schemas (queries now run in an average of 3 seconds).

• The main contributions of this paper are: an overview of the state of the art for storing RDF data in databases, a proposal to vertically partition RDF data as a simple way to improve RDF query performance relative to the state of the art, a description of how we extended a column-oriented database to implement the vertical partitioning approach, and a performance evaluation of these different proposals. Ultimately, the column-oriented DBMS is able to obtain near-interactive performance (on non-trivial queries) over real-world RDF datasets of many millions of records, something that (to the best of our knowledge) no other RDF store has been able to achieve.

• The remainder of this paper is organized as follows. […]

112

Page 113: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected]

Estudo: Corpo2. Current State of the Art

In this section, we discuss the state of the art of storing RDF data in relational databases, with an extended look at the property table approach.

2.1 RDF in RDBMSs2.2 Property Tables

3. A Simpler AlternativeWe now look at an alternative to the property table solution to speed up queries over a triple-store. In Section 3.1 we discuss the vertically partitioned approach to storing RDF triples.We then look at how we extended a column-oriented DBMS to implement this approach in Section 3.2

3.1 Vertically Partitioned Approach3.2 Extending a Column-Oriented DBMS

113

Page 114: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected]

Estudo: Corpo

114

4. Materialized Path Expressions5. Benchmark

In this section, we describe the RDF benchmark we have developed for evaluating the performance of our three RDF databases. Our benchmark is based on publicly available library data and a collection of queries generated from a web-based user interface for browsing RDF content.

5.1 Barton Data5.2 Longwell Overview5.3 Longwell Queries

Page 115: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected]

Estudo: Validação6. Evaluation

Now that we have described our benchmark dataset and the queries that we run over it, we compare their performance in three different schemas – a triples schema, a property tables schema, and a vertically partitioned schema. We study the performance of each of these three schemas in a row-store (Postgres) and, for the vertically partitioned schema, also in a column-store (our extension of C-Store).Our goal is to study the performance tradeoffs between these representations to understand when a vertically partitioned approach performs better (or worse) than the property tables solution. Ultimately, the goal is to improve performance as much as possible over the triple-store schema, since this is the schema most RDF store systems use.

115

Page 116: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected]

Estudo: Validação

116

6.1 System6.1.1 PostgreSQL Database (por que? configurações)

6.2 Store Implementation DetailsWe now describe the details of our store implementations. Note that all implementations feature a dictionary encoding table that maps strings to integer identifiers (as was described in Section 2.1); these integers are used instead of strings to represent properties, subjects, and objects. The encoding table has a clustered B+tree index on the identifiers, and an unclustered B+tree index on the strings. We found that all experiments, including those on the triplestore, went an order of magnitude faster with dictionary encoding.6.2.1 Triple Store6.2.2 Property Table Store6.2.3 Vertically Partitioned Store in Postgres6.2.4 Column-Oriented Store

6.3 Query Implementation DetailsIn this section, we discuss the implementation of all seven benchmark queries in the four designs described above.

Page 117: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected]

Estudo: Validação

117

6.4 Results6.4.1 Postgres as a Choice of RDBM

6.5 Scalabililty

6.6 Materialized Path Expressions

6.7 The Effect of Further Widening

Page 118: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected]

Estudo: ConclusãoThe emergence of the Semantic Web necessitates high performance data management tools to manage the tremendous collections of RDF data being produced. Current state of the art RDF databases – triple-stores – scale extremely poorly since most queries require multiple self-joins on the triples table. The previously proposed “property table” optimization has not been adopted in most RDF databases, perhaps due to its complexity and inability to handle multi-valued attributes. We showed that a poorly-selected property table can result in a factor of 3.8 slowdown over an optimal property table, thus making the solution difficult to use in practice. As an alternative to property tables, we proposed vertically partitioning tables and demonstrated that they achieve similar performance as property tables in a row-oriented database, while being simpler to implement. Further, we showed that on a version of the C-Store column-oriented database, it is possible to achieve a factor of 32 performance improvement over the current state of the art triple store design. Queries that used to take hundreds of seconds can now be run in less than ten seconds, a significant step toward interactive time semantic web content storage and querying.

118

Page 119: Escrita de Artigos Científicos Mirella M. Moro mirella@dcc.ufmg.br

[email protected]

Estudo: Acknowledgments• We thank George Huo and the Postgres development team for their

advice on our Postgres implementation, and Michael Stonebraker for his feedback on this paper. This work was supported by the National Science Foundation under grants IIS-048124, CNS- 0520032, IIS-0325703 and two NSF Graduate Research Fellowships.

119