qualidade de dados na web filipe fernando cabral de melo souza

30
Qualidade de dados na web Filipe Fernando Cabral de Melo Souza

Upload: internet

Post on 22-Apr-2015

103 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Qualidade de dados na web Filipe Fernando Cabral de Melo Souza

Qualidade de dados na web

Filipe Fernando Cabral de Melo Souza

Page 2: Qualidade de dados na web Filipe Fernando Cabral de Melo Souza

Roteiro

Qualidade

Qualidade de dados

Critérios da qualidade de dados

Qualidade de dados na web

Aspectos específicos

Proveniência de dados

Importância da proveniência na qualidade de dados

Modelos de proveniência de dados

Page 3: Qualidade de dados na web Filipe Fernando Cabral de Melo Souza

Qualidade

Segundo Burgess et al. (2004) quase todo mundo sabe o que é, mas poucos conseguem definir

Conceito abstrato

Diferentes interpretações em diferentes ocasiões

Page 4: Qualidade de dados na web Filipe Fernando Cabral de Melo Souza

Principais definições de qualidade na literatura

JURAN (1990) define qualidade como satisfação do cliente e ausência de defeitos.

Ou seja, qualidade não se resume a falta de defeitos, qualidade depende também das necessidades do cliente e da adequação do produto ao uso.

Page 5: Qualidade de dados na web Filipe Fernando Cabral de Melo Souza

Principais definições de qualidade na literatura

“Qualidade é tudo aquilo que melhora o produto do ponto de vista do cliente”

(DEMING, 1993).

Então, a percepção que o cliente tem do produto também interfere na qualidade.

Page 6: Qualidade de dados na web Filipe Fernando Cabral de Melo Souza

Principais definições de qualidade na literatura

“Qualidade é a conformidade do produto com as especificações” (CROSBY, 1979).

Isso significa que as necessidades devem ser especificadas, e a qualidade é possível quando essas especificações são obedecidas.

Page 7: Qualidade de dados na web Filipe Fernando Cabral de Melo Souza

Principais definições de qualidade na literatura

“Qualidade é uma característica intrínseca e multifacetada de um produto. A relevância de cada faceta pode variar com o contexto e ao

longo do tempo, pois as pessoas podem mudar seus posicionamentos e atualizar seus

referenciais, com relação a um objeto ou a uma questão. Portanto, a qualidade não é absoluta e

depende da perspectiva do avaliador” (BELCHIOR, 1992).

Page 8: Qualidade de dados na web Filipe Fernando Cabral de Melo Souza

Qualidade de dados

O conceito de qualidade de dados indica o quanto as fontes de dados atendem às demandas de informação

das áreas de negócio. Isso envolve conhecer a qualidade atual de dados, determinar a qualidade desejada de dados e ajustar a qualidade atual em

função da desejada (FILHO, 2003).

Page 9: Qualidade de dados na web Filipe Fernando Cabral de Melo Souza

Qualidade de dados

Área de estudo recente que vem crescendo consideravelmente

Conceito multidimensional

Muito importante atualmente

Grande volume de dados

Frequência de atualização da informação

Diversas fontes

Page 10: Qualidade de dados na web Filipe Fernando Cabral de Melo Souza

Qualidade de dados

É um conceito complexo

Varias definições para expressar este conceito

Não se chegou a um consenso sobre um conjunto de critérios

Os critérios usadas para avaliar qualidade variam com o contexto

Fontes de dados

Necessidade e percepção do usuário

Formato dos dados

Aplicação dos dados

Isso dificulta a definição de um conjunto de características gerais para definir qualidade de dados e faz com que seja necessário analisar cada caso

Mas ainda é importante conhecer as características gerais

Page 11: Qualidade de dados na web Filipe Fernando Cabral de Melo Souza

Critérios de qualidade de dados

Primeira etapa na avaliação da qualidade é a seleção dos critérios

Os critérios mais citados na literatura são:

Acurácia

Completude

Consistência

Confiabilidade

Corretude

Relevância

Atualidade

Page 12: Qualidade de dados na web Filipe Fernando Cabral de Melo Souza

Critérios da qualidade de dados sob a visão dos principais autores

WAND & WANG (1996) dividem o conjunto de critérios de qualidade em dois grupos:

Visão interna: confiabilidade, temporalidade, completude, atualidade, consistência e precisão

Visão externa: relevância, conteúdo, importância, temporalidade, suficiência, facilidade de uso, utilidade, concisão, clareza, nível de detalhe

Page 13: Qualidade de dados na web Filipe Fernando Cabral de Melo Souza

Critérios da qualidade de dados sob a visão dos principais autores

Para ECKERSON (2002), os dados não precisam estar completamente livres de erros, ele precisa apenas atender aos requisitos do usuário.

Os principais critérios para ele são:

Acurácia

Integridade

Consistência

Completude

Disponibilidade

Acessibilidade

Relevância

Page 14: Qualidade de dados na web Filipe Fernando Cabral de Melo Souza

Critérios da qualidade de dados sob a visão dos principais autores

Wang e Strong (1996) definiu uma tabela contendo os critérios de qualidade de dados segundo os consumidores:

Categoria Critérios

Intrínseca Acurácia, objetividade, confiabilidade e reputação

Acessibilidade Acessibilidade e segurança

ContextualRelevância, valor agregado, temporalidade, completude e quantidade apropriada

RepresentacionalFacilidade de interpretação, facilidade de entendimento, consistência e concisão

Page 15: Qualidade de dados na web Filipe Fernando Cabral de Melo Souza

Qualidade de dados na web

Por causa da natureza diferente da web, é importante analisar com mais cuidado algumas características, pois elas podem tornar necessário modificações no conjunto geral de critérios

Page 16: Qualidade de dados na web Filipe Fernando Cabral de Melo Souza

Aspectos específicos

Grande volume de dados

Facilidade de prove dados

Diversas fontes

Falta de revisão nos dados publicados

Dinâmica de atualização

Disponibilidade dos dados

Page 17: Qualidade de dados na web Filipe Fernando Cabral de Melo Souza

Proveniência

Termo usado em diversas áreas

Diz respeito a origem ou procedência

Agrega valor e autenticidade ao objeto

Permite compreensão e avaliação com maior precisão a importância do objeto

Tem como principal fundamento recolher e armazenar informações sobre o objeto

Page 18: Qualidade de dados na web Filipe Fernando Cabral de Melo Souza

Proveniência de dados

Proveniência de dados é documentação complementar de um determinado dado que contem a

descrição de como, quando, onde e porque ele foi obtido e quem o obteve.

(BUNEMAN et al, 2000)

Page 19: Qualidade de dados na web Filipe Fernando Cabral de Melo Souza

Proveniência de dados

Vai muito além da origem do dado

Documentação histórica do dado

Criador do dado

Origem do dado

Objetivo do dado

Processo de criação

Histórico de modificações

Dados de origem

Histórico de movimentação entre bancos de dados

Page 20: Qualidade de dados na web Filipe Fernando Cabral de Melo Souza

Importância e aplicação da proveniência de dados

A proveniência é uma métrica de qualidade importante, pois além de se garantir maior confiança por saber onde e quem produziu o dado, ainda informa como foi o processo de produção, manutenção e por onde o dado passou.

Fica mais fácil de verificar

Erros nos dados

Contexto da criação do dado

Processo para obter o dado

É uma ferramenta importante

Qualidade de dados

Replicação de dados

Investigação de origem

Page 21: Qualidade de dados na web Filipe Fernando Cabral de Melo Souza

Modelos de Proveniência de dados

Existem vários modelos

Cada um com objetivos e focos diferentes

Tem como objetivo

Nem sempre dados tem informações históricas vinculadas

Fornecer estrutura pra armazenar e recuperar metadados

Page 22: Qualidade de dados na web Filipe Fernando Cabral de Melo Souza

Modelos de Proveniência de dados

Exemplos de Modelos de proveniência

Provenance Vocabulary

Provenir Ontology

Open Provenance Model (OPM)

Page 23: Qualidade de dados na web Filipe Fernando Cabral de Melo Souza

Provenance Vocabulary

Descrito por Hartig e Zhao (2010)

Tem como foco proveniência de dados publicados na web

Leva em consideração o caráter aberto da web

Fornece propriedades armazenar e acessar metadados de dados publicados

Flexível

Núcleo central expansível

Possibilidade de se adaptar a diferentes áreas

Possui os elementos básicos de proveniência

Ator

Processo

Dado

Expresso em forma de grafos

Voltado para rastreamento de dados e na web e avaliação de qualidade desses dados

Page 24: Qualidade de dados na web Filipe Fernando Cabral de Melo Souza

Provenir Ontology

Proposto por Sahoo e Sheth (2009)

Modelo de proveniência de dados genérico

Tem como objetivos principais

Interoperabilidade entre diferentes sistemas

Adaptação para qualquer aplicação

Flexível

Expresso em forma de grafos

Page 25: Qualidade de dados na web Filipe Fernando Cabral de Melo Souza

Open Provenance Model (OPM)

Open Source

Resultado de uma série de encontros chamados Provenance Challenge

Voltado para proveniência de qualquer objeto

Tem como objetivo principal

Interoperabilidade entre diferentes sistemas

Definir de forma precisa proveniência

Fornecer representação digital de proveniência

Permitir o acesso a essa representação

Expresso através de grafos

Base para outros modelos

PROV-DM

Page 26: Qualidade de dados na web Filipe Fernando Cabral de Melo Souza

Considerações finais

Qualidade de dados é um tema recente

Cada vez mais surge a necessidade de obter dados de qualidades para embasar decisões

Empresa

Academia

Usuários

Não se tem uma definição padronizada ainda

Dificuldade devido a variação de qualidade de acordo com o contexto

Características como a da web devem ser levada em conta na hora de definir critérios de qualidade

Page 27: Qualidade de dados na web Filipe Fernando Cabral de Melo Souza

Considerações finais

Proveniência de dados é toda uma documentação histórica sobre o dado

Tem como objetivo

Agregar valor e autenticidade ao dado

Garantir replicabilidade

Rastrear origem

Analise de qualidade de dados

Modelos de proveniência fornecem uma estrutura pra a analise de qualidade de dados

Page 28: Qualidade de dados na web Filipe Fernando Cabral de Melo Souza

Referências

Almeida, F. Descrição da Proveniência de Dados para Extração de Conhecimentos em Sistemas de Informação de Hemoterapia. Tese apresentada ao Programa Interunidades em Bioinformática. USP, São Paulo, 2012.

Amaral, G. AQUAWARE: Um Ambiente de Suporte à Qualidade de Dados em Data Warehouse. Dissertação de Mestrado. UFRJ, Rio de Janeiro, 2003.

Batini, C.,Scannapieco, M. Data Quality Concepts, Methodologies and Techniques. New York, Springer, 2006.

Barros, R. Qualidade de Informação na Web: Um Prognóstico Fuzzy Baseado em Metadados. Dissertação de Mestrado. UFRJ, Rio de Janeiro, 2009.

Belchior, A. Controle da Qualidade de Software Financeiro. Dissertação de Mestrado. UFRJ, Rio de Janeiro, 1992.

Buneman, P., Khanna, S., Tan, W. Data Provenance: Some Basic Issues. In FST TCS 2000: Proceedings of the 20th Conference on Foundations of Software Technology and Theoretical Computer Science, 2000.

Page 29: Qualidade de dados na web Filipe Fernando Cabral de Melo Souza

Referências

Burgess, M., Gray, W., Fiddian, N. Quality measures and the information consumer. International Conference on Information Quality, 2004, MIT. Proceedings. Cambridge: MIT, 2004.

Crosby, P. Quality is free. New York: Mcgraw-Hill, 1979.

Filho, J. Transformando Dados Corporativos em Inteligência Competitiva, 1999. Disponível em: http://www.crdshop.com.br/files/artigo131.pdf. Ultimo acesso: 23/11/2014.

Hartig, O., Zhao, J. Publishing and consuming provenance metadata on the web of linked data. Provenance and Annotation of Data and Processes, Springer Berlin Heidelberg, 2010.

Juran, J. Planejando para a qualidade. São Paulo: Pioneira, 1990.

Moreau, L., Groth, P., Miles, S., Vazquez-Salceda, J., Ibbotson, J., Jiang, S., Munroe, S., Rana, O., Schereiber, A., Tan, V., Varga, L. The Provenance of eletronic data. Communications of the ACM 2007, 2007.

NBR ISO 8402: Gestão da qualidade e garantia da qualidade, 1994.

Paula, R. Proveniência de Dados em Workflows de Bioinformática. Dissertação de Mestrado. UnB, Brasília, 2012.

Page 30: Qualidade de dados na web Filipe Fernando Cabral de Melo Souza

Referências

Sahoo, S., Sheth, A. Provenir ontology: Towards a framework for escience provenance management. Microsoft eScience Workshop, Microsoft Research, v. 1, 2009.

Santos, I. Uma proposta de governança de dados baseada em um método de desenvolvimento de arquitetura empresarial. Dissertação de Mestrado. UFRJ, Rio de Janeiro, 2010.

Simmhan, YL., Plate, B., Gannon, D. A Survey of Data Provenance Techniques. Em Technical Reports TR-618: Computer Science Department; Indiana University, 2005.

Tillman, H. Evaluating Quality on the Net, 2003. Disponível em: http://www.hopetillman.com/findqual.php. Ultimo acesso: 23/11/2014.

Veregin, H., Lanter, D. Data Quality Enhancement Techniques in Layer-Based Geographic Information Systems. Computers, Environment and Urban Systems, 1995.

Wand, Y., Wang, R. Data Quality Dimensions in Ontological Foundations. Communications of the ACM. v. 39, n. 11. November, 1996.

Wang, R., Strong, D. Beyond accuracy: what data quality means to data consumers, Journal of Management Information Systems, 1996.