uma anÁlise das dimensÕes da qualidade de dados...

22
Centro de Convenções Ulysses Guimarães Brasília/DF 4, 5 e 6 de junho de 2012 UMA ANÁLISE DAS DIMENSÕES DA QUALIDADE DE DADOS EM PROJETOS DE DADOS GOVERNAMENTAIS ABERTOS Edson Carlos Germano Hiroo Takaoka

Upload: ledan

Post on 08-Nov-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: UMA ANÁLISE DAS DIMENSÕES DA QUALIDADE DE DADOS …consadnacional.org.br/wp-content/uploads/2013/05/138-UMA-ANÁLISE... · as dimensões da QI que devem receber uma maior atenção

Centro de Convenções Ulysses Guimarães

Brasília/DF – 4, 5 e 6 de junho de 2012

UMA ANÁLISE DAS DIMENSÕES DA QUALIDADE DE DADOS EM PROJETOS

DE DADOS GOVERNAMENTAIS ABERTOS

Edson Carlos Germano Hiroo Takaoka

Page 2: UMA ANÁLISE DAS DIMENSÕES DA QUALIDADE DE DADOS …consadnacional.org.br/wp-content/uploads/2013/05/138-UMA-ANÁLISE... · as dimensões da QI que devem receber uma maior atenção

Painel 38/138 Novas tecnologias e aplicações de governo eletrônico

UMA ANÁLISE DAS DIMENSÕES DA QUALIDADE DE DADOS

EM PROJETOS DE DADOS GOVERNAMENTAIS ABERTOS

Edson Carlos Germano Hiroo Takaoka

RESUMO Este artigo apresenta o resultado parcial de um trabalho de pesquisa que tem como objetivo analisar quais aspectos da Qualidade de Informação (QI) são contemplados na literatura que discute os princípios dos dados governamentais abertos e destacar as dimensões da QI que devem receber uma maior atenção em projetos de Dados Governamentais Abertos (DGA). Para construção desta análise adotou-se uma abordagem metodológica bibliográfica, realizando uma revisão da literatura de QI e da literatura de DGA e em seguida realizou-se uma análise para o cruzamento de cada dimensão da QI com cada principio dos DGA, a fim de fundamentar a avaliação das dimensões de Qualidade de Informação empreendida neste estudo e ainda a teoria de Dados Governamentais Abertos. Os resultados preliminares desta investigação científica produziram uma matriz que mostra a interação dos princípios dos DGA com as dimensões de QI. A analise mostrou que o princípio de DGA Completos possui o maior numero de dimensões da QI inter-relacionada, e ainda que o princípio de DGA Atuais possui a menor quantidade de dimensão da QI inter-relacionada. Palavras-chave: Dados Governamentais Abertos. Qualidade da Informação. Governo Eletrônico.

Page 3: UMA ANÁLISE DAS DIMENSÕES DA QUALIDADE DE DADOS …consadnacional.org.br/wp-content/uploads/2013/05/138-UMA-ANÁLISE... · as dimensões da QI que devem receber uma maior atenção

2

1 INTRODUÇÃO

Hoje, a Sociedade da Informação tem pressionado não apenas o setor

empresarial, mas também os governos de todo o mundo para melhorarem seu

funcionamento, a fim de tornarem-se mais eficientes e eficazes. Modernas

Tecnologias de Informação e Comunicação (TICs) ampliam os impactos e moldam

as atividades de Governo a fim de permitir que os governos cooperem com a

sociedade, cidadãos, empresas e com outras agências governamentais dentro dos

países e através das fronteiras de uma forma mais eficiente e eficaz.

No mundo moderno as mudanças são absolutamente necessárias e os

problemas se tornam cada vez mais complexos e imunes a modelos ultrapassados

de governabilidade. Exigem soluções inovadoras e quando tratados de forma

burocrática, afastam o governo da cidadania e agravaram os problemas. O governo,

como qualquer organização, só se torna efetivo quando reinventado para a era do

conhecimento e da colaboração acessível (AGUNE et al., 2009).

A inovação em governo deve integrar os serviços, a gestão, os poderes

em todas as esferas de governo através de um modelo participativo, com

comunicação em múltiplas vias e participação da população nas decisões de

governo e na webcidadania. A web 2.0, as redes sociais e o crowdsourcing são

partes fundamentais de uma estrutura de governo aberto.

As TICs promoveram uma revolução nos meios de informação, construindo

uma nova relação entre governo e cidadãos. Esta nova relação deu origem ao

chamado e-Government, ou Governo Eletrônico, que possibilita uma administração

pública mais acessível, eficiente, democrática e transparente. Dentro deste contexto, o

conceito de Dados Governamentais Abertos surge para ampliar esta relação,

promovendo a disponibilização das informações governamentais em formatos abertos

e acessíveis a fim de possibilitar a reutilização e a interligação com informações de

outras fontes, gerando novos significados. (W3C Escritório Brasil, 2010).

Diversos documentos estratégicos e iniciativas vêm sendo divulgadas e

incentivadas no cenário mundial, principalmente na comunidade Europeia e na

América do Norte, com objetivo de construir um governo mais eficiente e

participativo. Além disso, existe hoje uma grande quantidade de pesquisas

Page 4: UMA ANÁLISE DAS DIMENSÕES DA QUALIDADE DE DADOS …consadnacional.org.br/wp-content/uploads/2013/05/138-UMA-ANÁLISE... · as dimensões da QI que devem receber uma maior atenção

3

relacionadas a e-Government em andamento. Nesse contexto se fortalece o

conceito de Governo Aberto ou Open Data Gov, que é a disponibilização, por meio

da Internet, de bases de dados governamentais de domínio público para livre

utilização da sociedade, de forma a garantir acesso a dados primários, em formato

aberto, de forma que o interessado possa combiná-los, cruzá-los e produzir novas

informações e aplicativos.

Atualmente no Brasil muitos dados governamentais estão disponíveis na

Web, mas estas informações, na maioria das vezes, são oferecidas sem a utilização

de padrões, em formatos proprietários ou apenas para a visualização, dificultando a

reutilização. Para bem aproveitar o potencial representado pelo acervo de

informações do governo, essas informações precisam ser disponibilizadas em

formato padronizado, aberto e acessível (AGUNE et al., 2009).

Porém entendemos que a qualidade do retorno que os dados abertos

propiciarão estão diretamente ligadas a Qualidade da Informação que é transmitida

por eles. Uma pobre qualidade da informação tem um forte impacto na efetividade

geral de uma organização (WAND; WANG, 1996); o conhecimento e os critérios de

decisão utilizados nesses sistemas devem ser altamente estruturados, e aliados a

informações de alta qualidade para proporcionar a tomada de decisão

(DAVENPORT; HARRIS, 2005).

O tema Qualidade da Informação (QI) tem sido abordado com maior

atenção desde a década passada, especialmente com os trabalhos de Strong, Lee e

Wang (1997a, 1997b) e Wang (1998). Desde então, esforços têm sido realizados

para solucionar os problemas da QI pelos pesquisadores nas universidades e por

profissionais nas organizações, pois há a necessidade crítica de uma metodologia

que meça o quanto as organizações desenvolvem produtos e serviços de

informação com qualidade aos seus usuários (KAHN; STRONG; WANG, 2002).

Problemas de Qualidade da Informação vão muito além de valores

incorretos. Podem também incluir problemas e erros de produção, problemas

técnicos com armazenamento e acesso a dados, e aqueles causados pelas

mudanças das necessidades informacionais dos consumidores (STRONG; LEE;

WANG, 1997b).

Page 5: UMA ANÁLISE DAS DIMENSÕES DA QUALIDADE DE DADOS …consadnacional.org.br/wp-content/uploads/2013/05/138-UMA-ANÁLISE... · as dimensões da QI que devem receber uma maior atenção

4

Em sistemas de informação em rede, os processos de negócio estão

envolvidos na troca de informações complexas e que frequentemente operam a

partir da entrada de dados obtidos de fontes externas, que podem ser

desconhecidas a priori. Como consequência, a qualidade geral dos dados que flui

através de sistemas de informação podem rapidamente degradar ao longo do tempo

se a qualidade de ambos os processos e insumos de informação não é controlado.

Por outro lado, os sistemas de informação em rede, oferecem novas oportunidades

para os dados de gestão da qualidade, incluindo a disponibilidade de uma ampla

gama de fontes de dados e a capacidade de selecionar e comparar dados de

diferentes fontes para detectar e corrigir erros, e, assim, melhorar a eficiência global

qualidade dos dados (BATINI et al, 2009).

No contexto de Dados Governamentais Abertos a definição das

qualidades, dimensões e métricas para avaliação dos dados é uma atividade crítica.

Em geral, diversas métricas podem ser associados a cada dimensão de qualidade.

Em alguns casos, a métrica é única e a definição teórica de uma dimensão coincide

com a definição operacional da métrica correspondente. Dimensões da qualidade

podem dizer a respeito tanto para a extensão de dados, como os valores de dados,

quanto para a sua intensão, como seu esquema. Embora a qualidade dos esquemas

conceitual e lógico de dados é reconhecida como uma área de pesquisa relevante

(IWCMQ 2003)(14), a maioria das definições de dimensões de qualidade de dados e

métricas são referentes a valores de dados ao invés de esquemas. Este artigo

concentra-se principalmente sobre as dimensões e métricas de qualidade que se

refere a valores de dados.

Este trabalho pretende identificar os desafios e oportunidades

relacionados à qualidade dos dados na implantação de iniciativas de governo aberto

e inovação na gestão pública. Esperamos também identificar as dimensões comuns

da qualidade de dados e dos dados governamentais abertos. A partir da

identificação das dimensões que se interligam novos desafios poderão ser

vislumbrados e algumas recomendações poderão ser sugeridas para facilitar o

desenvolvimento técnico de programas de governo eletrônico no Brasil, podendo ser

aplicadas no planejamento estratégico de médio e longo prazo e na concepção de

aplicações automatizadas de governo eletrônico, possibilitando uma maior

efetividade na aplicação dos recursos públicos nessa área.

Page 6: UMA ANÁLISE DAS DIMENSÕES DA QUALIDADE DE DADOS …consadnacional.org.br/wp-content/uploads/2013/05/138-UMA-ANÁLISE... · as dimensões da QI que devem receber uma maior atenção

5

Este trabalho está organizado como se segue, no primeiro capitulo

apresentamos uma introdução dos assuntos principais do trabalho, a definição do

problema de pesquisa e a importância do tema estudado. No segundo capitulo é

apresentado uma revisão da teoria conhecida de qualidade de informação, seguido

de uma definição de governo eletrônico e dos dados governamentais abertos. No

capitulo seguinte apresentamos a metodologia utilizada no estudo e no ultimo

capitulo apresentamos as conclusões e análise desenvolvida até o momento pelos

autores sobre quais dimensões da qualidade de dados influenciam diretamente nos

projetos de dados governamentais abertos.

REVISÃO TEÓRICA

A presente seção visa discutir os fundamentos teóricos que serão

utilizados pelo estudo, iniciando com uma revisão da teoria de dimensões da QI,

seguido por uma revisão da teoria de Princípios de DGA.

2.1 Qualidade da Informação

As organizações têm investido cada vez mais em tecnologia para coletar,

armazenar e processar grandes quantidades de dados. Mesmo assim, muitas vezes

elas se vêem frustradas em seus esforços para traduzir esses dados em idéias

significativas que podem ser usadas para melhorar os processos de negócios, tomar

decisões mais inteligentes e criar vantagens estratégicas. Questões envolvendo a

qualidade de dados e informações podem variar desde dificuldades de natureza

técnica (por exemplo, integração de dados de fontes diferentes) até dificuldades

não-técnicas (por exemplo, a falta de uma estratégia integrada em toda a

organização para assegurar o direito das partes interessadas de acessar a

informação certa no formato certo na hora e lugar certo) (Madnick et al, 2009).

Para Madnick et al. (2009) embora não se tenha havido um consenso

sobre a distinção entre a qualidade dos dados e a qualidade da informação, há uma

tendência de usar a qualidade dos dados para se referir a questões técnicas e

qualidade da informação para se referir a problemas não técnicos. Segundo este

Page 7: UMA ANÁLISE DAS DIMENSÕES DA QUALIDADE DE DADOS …consadnacional.org.br/wp-content/uploads/2013/05/138-UMA-ANÁLISE... · as dimensões da QI que devem receber uma maior atenção

6

autor a Qualidade da Informação (QI) trata da semântica, ou seja, do sentido destes

dados no tempo, espaço e contexto, isto é, transformar dados em informação.

Preocupa-se com qualquer componente que afete a interpretação e a transformação

do dado em informação, desde a forma e contexto em que é apresentada até a

própria capacidade de análise e discernimento do usuário.

Segundo os pesquisadores Kahn e Strong (1998) informação de

qualidade é aquela que atende às suas especificações ou requisitos e qualidade da

informação é a característica da informação de atender ou exceder às expectativas

dos usuários. Huang et al (1999) definem a qualidade da informação como sendo a

informação que é adequada para o uso pelos usuários da informação. Ainda

segundo English (1999) a qualidade da informação pode ser definida como a

informação que é adequada para o uso por todos os usuários da informação.

Para Madnick et al. (2009) a Qualidade de Dados (QD) trata da sintaxe

dos dados, isto é, da estrutura e da forma, preocupando-se com dados em si. Para

Raghunathan (1999) a QD deve ser tratada como parte integrante da QI devido à

intersecção entre elas e à relação de causa e efeito entre primeira e a segunda.

Segundo o autor uma baixa QD certamente traz conseqüências para a QI das

informações que fundamentam a decisão das pessoas e das organizações. Por

outro lado, uma alta QD não necessariamente significa uma melhor QI, uma vez que

outros fatores igualmente importantes devem ser considerados, principalmente a

qualidade do responsável pela decisão.

Para responder às preocupações de QD, pesquisadores do MIT em 1992

lançaram oficialmente o programa MIT Total Data Quality Management (TDQM) para

ressaltar a qualidade dos dados como uma área de pesquisa (Madnick e Wang 1992).

O primeiro trabalho no programa TDQM estabeleceu uma base de dados de pesquisa

de qualidade de dados e atraiu um número crescente de pesquisadores para conduzir

a investigação de ponta nesta área emergente dando origem a criação de um

importante periódico da área, o ACM Journal of Data and Information Quality (JDIQ).

Os pesquisadores do MIT desenvolveram o framework TDQM, que

defende a melhoria contínua da qualidade dos dados, seguindo os ciclos de Definir,

Medir, Analisar e Melhorar (Madnick e Wang 1992). O framework estende o

framework Total Quality Management (TQM) para melhoria da qualidade no domínio

Page 8: UMA ANÁLISE DAS DIMENSÕES DA QUALIDADE DE DADOS …consadnacional.org.br/wp-content/uploads/2013/05/138-UMA-ANÁLISE... · as dimensões da QI que devem receber uma maior atenção

7

de produção (Deming 1982; Juran e Goferey 1999) para o domínio de dados. A

percepção fundamental consiste em, embora os dados são, de fato, um produto (ou

subproduto) fabricados pela maioria das organizações, os mesmos não são tratados

nem estudados como tal. Pesquisas posteriores desenvolveram teorias, métodos e

técnicas para os quatro ciclos do quadro TDQM.

2.2 Dimensões da QI

A percepção da QI depende da real utilização desta. O que pode ser

considerado uma boa informação em um caso pode não ser suficiente em outro

caso. Esta relatividade da qualidade apresenta um problema. A QI gerada por um

sistema de informação depende de seu projeto. Ainda, o uso real da informação está

fora do controle do projetista. Portanto, é importante prover uma definição de

orientação de projeto de um SI com QI (WAND e WANG, 1996).

Segundo Wang et al. (2000), um problema que a má qualidade dos

dados que geram informação provoca, muito pior que o custo direto, é o descrédito

interno e externo e suas conseqüências sobre os processos de tomada de decisão,

e sobre a percepção que os clientes e fornecedores formam acerca dos sistemas

da empresa. Por outro lado, uma boa qualidade da informação da organização

pode ser considerada uma vantagem competitiva. Ainda são poucas as

organizações que adotam práticas estruturadas de gestão da informação e, sem

esta prática, é certa a exposição a riscos e falhas nas iniciativas de Tecnologia da

Informação e de negócio.

O valor de um sistema é determinado pela qualidade dos dados que o

mesmo usa e processa e as informações produzidas. A informação pode ser vista

como um bem, com dimensões (atributos) de qualidade que podem ser medidas.

Uma vez identificados os atributos, a qualidade da informação pode ser gerenciada

(MILLER et al., 2001). Conforme Wand e Wang (1996)(9), a qualidade da

informação é um conceito multidimensional, e assim como um produto físico tem

dimensões de qualidade associadas, um produto de informação também tem

dimensões de qualidade da informação.

Page 9: UMA ANÁLISE DAS DIMENSÕES DA QUALIDADE DE DADOS …consadnacional.org.br/wp-content/uploads/2013/05/138-UMA-ANÁLISE... · as dimensões da QI que devem receber uma maior atenção

8

A literatura de QI fornece uma classificação completa das dimensões da

qualidade de dados, no entanto, há uma série de discrepâncias na definição de

dimensões devido à natureza contextual de qualidade. As seis classificações mais

importante das dimensões de qualidade são fornecidos pelos autores Wand e Wang

(1996); Wang e Strong (1996); Redman (1996); Jarke et al. (1995); Bovee et al.

(2001), e Naumann (2002). Ao analisar estas classificações, é possível definir um

conjunto básico de dimensões de QI, incluindo acuracidade (acuracy), integridade

(completeness), consistência (consistency) e temporalidade (timeliness), que

constituem o foco da maioria dos autores (Catarci e Scannapieco, 2002).

Entretanto não existe qualquer consenso geral sobre qual conjunto de

dimensões definem a QI, ou sobre o significado exato de cada dimensão. As

diferentes definições dadas na literatura foram discutidas por BATINI et al (2009).

As dimensões são referências para a QI. Em algumas situações,

determinado grupo de dimensões podem ser importantes, e este grupo varia

conforme a situação. Neste trabalho serão adotadas as dimensões apresentadas por

Wang et al. (2000) com o significado para cada dimensão apresentado na Tabela 1.

Page 10: UMA ANÁLISE DAS DIMENSÕES DA QUALIDADE DE DADOS …consadnacional.org.br/wp-content/uploads/2013/05/138-UMA-ANÁLISE... · as dimensões da QI que devem receber uma maior atenção

9

Tabela 1: Categorias, dimensões e definições da QI.

CATEGORIA DIMENSÃO DEFINIÇÃO

Intrínseca Acuracidade (acuracy ou free-of-error) Quanto a informação é correta e confiável

Objetividade (objectivity) Quanto a informação é imparcial

Credibilidade (believability) Quanto a informação é considerada como verdadeira e verossímil

Reputação (reputation) Quanto a informação considerada em termos de sua fonte ou conteúdo

Acessibilidade Acessibilidade (accessibility) Quanto a informação está disponível, ou fácil e rapidamente recuperável

Segurança no acesso (access security) Quanto o acesso a informação, é restrito apropriadamente para manter sua segurança

Contextual Relevância (relevancy) Quanto a informação é aplicável e útil para a tarefa a ser realizada

Valor agregado (value-added) Quanto a informação é benéfica e proporciona vantagens por seu uso

Temporalidade/oportunidade (timeliness)

Quanto a informação está suficientemente atualizada para a tarefa a ser realizada

Integridade/perfeição (completeness) Quanto a informação não está extraviada e é suficiente para a tarefa em amplitude e profundidade

Quantidade de informação apropriada (appropriate amount)

Quanto o volume da informação é apropriado para a tarefa ser executada

Representação Interpretabilidade (interpretability) Quanto a informação está em linguagem apropriada, símbolos e unidades, e as definições são claras

Facilidade de entendimento (ease of understanding )

Quanto a informação é facilmente compreendida

Representação concisa (concise representation)

Quanto a informação está compactamente representada

Representação consistente (consistent representation)

Quanto a informação é apresentada em um mesmo formato

Facilidade de manipulação /operação (ease of manipulation /operacion)

Quanto a informação é fácil de ser manipulada e aplicada em diferentes tarefas

Fonte: Adaptado de WANG et al., 2000 e Pipino, Lee e Wang (2002).

Page 11: UMA ANÁLISE DAS DIMENSÕES DA QUALIDADE DE DADOS …consadnacional.org.br/wp-content/uploads/2013/05/138-UMA-ANÁLISE... · as dimensões da QI que devem receber uma maior atenção

10

Segundo WANG et al. (2000), o significado de cada categoria é a

seguinte:

Intrínseca: características intrínsecas dos dados, independentes da sua

aplicação;

Acessibilidade: aspectos relativos ao acesso e à segurança dos dados.

Contextual: características dependentes do contexto de utilização dos

dados;

Representacional: características derivadas da forma como a

informação é apresentada;

2.3 Dados Governamentais Abertos

Segundo o Grupo de Interesse e-Gov do W3C (GI PARA E-GOV, 2009),

criar um Governo Eletrônico exige abertura, transparência, colaboração e

conhecimento. Um governo transparente é mais do que a interação e a participação

aberta; os dados do governo precisam ser partilhados, descobertos, acessíveis e

manipuláveis por aqueles que os desejam para bem aproveitar as vantagens da

Web e o acervo de informações das organizações.

A disponibilização de Dados Governamentais Abertos (DGA) permite que

os usuários possam facilmente encontrar, acessar, entender e utilizar os dados

públicos segundo foco e interesses próprios, trazendo diversos benefícios como a

reutilização, inclusão, transparência, responsabilidade, melhoria nas buscas,

integração, participação, colaboração, crescimento econômico, inovação e eficiência

(DINIZ, 2009).

O Open Government Working Group (OPENGOVDATA.ORG, 2007),

elaborou os 8 Princípios dos DGA. Eles devem ser:

1) Completos. Todos os dados públicos estão disponíveis. Dado público é

o dado que não está sujeito a limitações válidas de privacidade,

segurança ou controle de acesso.

2) Primários. Os dados são apresentados tais como os coletados na

fonte, com o maior nível possível de granularidade e sem agregação ou

modificação.

Page 12: UMA ANÁLISE DAS DIMENSÕES DA QUALIDADE DE DADOS …consadnacional.org.br/wp-content/uploads/2013/05/138-UMA-ANÁLISE... · as dimensões da QI que devem receber uma maior atenção

11

3) Atuais. Os dados são disponibilizados tão rapidamente quanto

necessário à preservação do seu valor.

4) Acessíveis. Os dados são disponibilizados para o maior alcance

possível de usuários e para o maior conjunto possível de finalidades.

5) Processáveis por máquinas. Os dados são razoavelmente estruturados

de modo a possibilitar processamento automatizado.

6) Não discriminatórios. Os dados são disponíveis para todos, sem

exigência de requerimento ou cadastro.

7) Não proprietários. Os dados são disponíveis em formato sobre o qual

nenhuma entidade detenha controle exclusivo.

8) Livres de licenças. Os dados não estão sujeitos a nenhuma restrição

de direito autoral, patente, propriedade intelectual ou segredo industrial.

Restrições sensatas relacionadas à privacidade, segurança e

privilégios de acesso são permitidas.

Eaves (2009) apresentou as três leis dos dados governamentais abertos:

1) Se o dado não for encontrado e indexado na web, ele não existe;

2) Se não estiver aberto e disponível em formato compreensível por

máquina, ele não pode ser aproveitado;

3) Se algum dispositivo legal não permitir sua replicação, ele é inútil.

Os benefícios da adoção dos DGA no campo da transparência e do

controle social são, ao menos em tese, evidentes. A oferta de DGA tende a

contribuir para o aumento da transparência do governo, criando melhores

possibilidades de controle social das ações governamentais. Outros benefícios

também pode ser apontados, como a possibilidade de criação de novas informações

e aplicativos a partir dos dados governamentais abertos. Nesse caso, não somente a

transparência é fomentada, mas também novos serviços podem se originar da

interação entre o governo e sociedade através da utilização dos DGA.

Esses serviços podem ser gerados através de novas formas de atuação

participativa e colaborativa entre governo e instituições privadas, uma vez que o

conceito de DGA permite superar a visão do cidadão como simples receptor da

informação pública. Permite que qualquer interessado possa, ao processar livremente

os dados governamentais, criar conteúdo a partir da reutilização dos dados.

Page 13: UMA ANÁLISE DAS DIMENSÕES DA QUALIDADE DE DADOS …consadnacional.org.br/wp-content/uploads/2013/05/138-UMA-ANÁLISE... · as dimensões da QI que devem receber uma maior atenção

12

Segundo Diniz (2010):

A disponibilização de dados governamentais abertos permite que as informações sejam utilizadas da maneira e conveniência do interessado de tal forma que elas possam ser misturadas e combinadas para agregar mais valor aos dados.

Ainda segundo o autor, o objetivo de que as informações públicas sejam

disponibilizadas segundo as regras dos dados abertos é

superar as limitações existentes para que usuários de informações do serviço público possam facilmente encontrar, acessar, entender e utilizar os dados públicos segundo os seus interesses e conveniências”.

O World Wide Web Consortium (W3C) define dados governamentais

abertos como: “a publicação e disseminação das informações do setor público na

web, compartilhados em formato bruto e aberto, compreensíveis logicamente, de

modo a permitir sua reutilização em aplicações digitais desenvolvidas pela

sociedade”. Além disso, a W3C entende que os governos devem incentivar os

cidadãos a usarem os dados abertos disponíveis pelos governos, ou seja, eles

devem ser estimulados a reutilizarem os dados conforme as suas necessidades e

vontades. Diniz (2010) resume o objetivo desse incentivo: “Não há valor na

disponibilização de dados governamentais abertos se a sociedade não tem interesse

em reutilizá-los”.

As principais tecnologias e formatos utilizados para a publicação de dados

governamentais abertos são: (1) arquivos CSV (Comma Separated-Values), que

armazenam dados tabulares; (2) informações Atom e RSS (Really Simple

Syndication), que agregam conteúdo baseado em XML, usadas para compartilhar

novidades ou textos completos através dos denominados feeds; (3) interfaces

REST, que associam um recurso a um URI usando HTTP, permitindo que um site

possa ser enriquecido com aplicativos que expandam o valor de um recurso

disponível; (4) tecnologias da web semântica, que oferecem um arcabouço comum

onde os dados podem ser compartilhados e reutilizados além dos limites de

aplicativos, empreendimentos e comunidades (GI para E-GOV, 2009).

Há um movimento global de governos e autoridades locais

disponibilizando seus dados na web. Projetos de dados governamentais abertos

surgiram em vários países do mundo, como Estados Unidos, Reino Unido, Austrália,

Nova Zelândia, Noruega, Holanda, Suécia, Espanha, Estônia, Áustria, Grécia,

Page 14: UMA ANÁLISE DAS DIMENSÕES DA QUALIDADE DE DADOS …consadnacional.org.br/wp-content/uploads/2013/05/138-UMA-ANÁLISE... · as dimensões da QI que devem receber uma maior atenção

13

Canadá e Dinamarca, existindo também um número crescente de iniciativas locais

de estados e cidades (SHERIDAN e TENNISON, 2010; AGUNE, GREGORIO

FILHO, BOLLIGER, 2010). Alguns governos criaram catálogos ou portais para tornar

a localização e a utilização desses dados mais fácil para o público (BENNETT e

HARVEY, 2009), como o portal data.gov e data.gov.uk.

Além disso, pessoas e organizações vêm publicando dados

governamentais por conta própria em vários formatos (BERNERS-LEE, 2009). O

Brasil tem uma boa oferta de dados em todas as esferas e poderes oferecidos

pública e gratuitamente, mas existem poucas iniciativas do governo que se propõem

a dar acesso à base integral estruturada e em linguagem aberta. O exemplo mais

recente de iniciativa brasileira neste sentido é o projeto Governo Aberto SP, em fase

de implantação (GOVERNO ABERTO, 2010). Enquanto o governo não libera mais

dados em formato aberto, estão surgindo no Brasil iniciativas no sentido de extrair os

dados de sites e portais governamentais, reorganizá-los, torná-los abertos e/ou

conferir novo valor a eles através de diferentes aplicações, como o Congresso

Aberto, o Parlamento Aberto, o Legisdados, entre outros (THACKER, 2011). Dado o

crescente interesse civil após exemplos bem sucedidos em outros países, espera-se

que novas iniciativas sejam realizadas em esferas políticas brasileiras.

A reutilização de dados governamentais, inclusive através da integração

com dados de outras fontes de dados, requer que a semântica destas informações

seja estabelecida, de modo preciso e explícito, e associada aos dados publicados

(Harris et. al. 2008). Caso contrário, dados referentes a conceitos que não são

semanticamente equivalentes e nem mesmo relacionados podem ser integrados,

gerando resultados errôneos.

A fim de evitar este tipo de problema, além dos dados em si, devem ser

publicados os seus metadados e os conceitos e definições do vocabulário específico

do domínio, em formato partilhável e referenciável, de modo a contextualizar e

transformar os dados em informações. Através das tecnologias desenvolvidas pelo

avanço da Web Semântica, os dados governamentais podem ser disponibilizados

anotados em relação a este vocabulário e as interfaces de busca podem permitir que

os aplicativos recuperem e acessem estas informações de uma forma não pré-

definida (W3C Brasil 2011 b).

Page 15: UMA ANÁLISE DAS DIMENSÕES DA QUALIDADE DE DADOS …consadnacional.org.br/wp-content/uploads/2013/05/138-UMA-ANÁLISE... · as dimensões da QI que devem receber uma maior atenção

14

3 ANÁLISE E DISCUSSÃO DOS RESULTADOS

Ao analisar os princípios dos DGA com base nas dimensões da QI será

possível identificar quais dimensões da QD influenciam no atendimento de cada

principio. Dessa forma os projetos de DGA podem ser construídos com atenção a

parâmetros que garantam a QI fornecida aos usuários assegurando-se que a

estrutura de aplicativo de divulgação de DGA foi construída com atenção aos

requisitos de QI.

Foi construída uma matriz para o cruzamento das dimensões de QI com

os princípios dos DGA. A partir dessa matriz foi possível identificar quais dimensões

da QI interferem diretamente com o cumprimento de cada principio dos DGA. Abaixo

apresentamos a matriz de interação dos princípios dos DGA com as dimensões de

QI. As dimensões da QI foram dispostas nas linhas da matriz e os princípios dos

DGA foram colocados nas colunas. As dimensões que influenciam em cada um dos

princípios são indicadas no cruzamento entre a linha e coluna.

Tabela 2 – Matriz de interação dos princípios dos DGA com as dimensões de QD

Fonte: adaptado pelo autor de WANG et al.(2000), Pipino, Lee e Wang(2002) e Opendata.gov(2007)

Categoria Dimensões da QD completos primários atuais acessíveis

processáveis

por máquinas

não-

discriminatórios

não-

proprietários licenças livres

Acuracidade

Objetividade X XCredibilidade XReputação X XAcessibilidade X X XSegurança no acesso X X XRelevância

Valor agregado

Temporalidade/oportunidade XIntegridade/perfeição XQuantidade de informação apropriada X X XInterpretabilidade X XFacilidade de entendimento

Representação concisa

Representação consistente X X XFacilidade de manipulação /operação X X

Principios dos dados governamentais abertos

Intrínseca

Acess ibi l ida

de

Contextual

Representaç

ão

Page 16: UMA ANÁLISE DAS DIMENSÕES DA QUALIDADE DE DADOS …consadnacional.org.br/wp-content/uploads/2013/05/138-UMA-ANÁLISE... · as dimensões da QI que devem receber uma maior atenção

15

A análise de cada dimensão da QI influenciando cada um dos 8 Princípios

dos DGA elaborada pelos autores desta pesquisa esta apresentada abaixo:

Completos. Como já visto na secção anterior, todos os dados públicos

não devem estar sujeito a limitações válidas de privacidade, segurança

ou controle de acesso, dessa forma as dimensões da QI que devem

ser principais neste princípio são a Objetividade, pois para ser

completa a informação precisa ser imparcial, a Acessibilidade, pois

todas as informações precisam estar disponíveis e serem de fácil

acesso, a Integridade, pois não se deveria permitir que dados fossem

extraviados da base de dados, a Quantidade de Informação

Apropriada. Pois o volume de dados divulgados sobre cada tema

proposto deverá ser o maior possível, e por fim a Representação

Consistente, pois os dados devem ser divulgados seguindo se um

mesmo formato ou padrão.

Primários. Os dados devem ser apresentados tais como os coletados

na fonte, com o maior nível possível de granularidade e sem

agregação ou modificação, dessa forma a três dimensões da QI

interagem diretamente para o atendimento deste principio, a

Credibilidade, pois os dados divulgados devem ser verdadeiros e

verossímeis, a Reputação, pois deve-se levar em conta a

confiabilidade de sua fonte e a Quantidade de Informação Apropriada,

pois entende-se que com uma maior granularidade dos dados maior

será o volume das informações divulgadas.

Atuais. Os dados devem ser disponibilizados tão rapidamente, dessa

forma a dimensão Temporalidade é a principal dimensão considerada

neste principio. Os dados divulgados precisam ser constantemente

atualizados de forma que se diminua o tempo entre a criação do dado e

sua divulgação.

Page 17: UMA ANÁLISE DAS DIMENSÕES DA QUALIDADE DE DADOS …consadnacional.org.br/wp-content/uploads/2013/05/138-UMA-ANÁLISE... · as dimensões da QI que devem receber uma maior atenção

16

Acessíveis. Os dados devem ser disponibilizados para o maior número

possível de usuários e para todas as possíveis de finalidades, as

dimensões consideradas neste principio são a Acessibilidade, pois

deve se garantir o rápido e fácil acesso aos dados, a Quantidade de

Informação Apropriada, pois o maior volume de dados deve ser

divulgado e a Segurança no Acesso. Nesta última dimensão,

verificamos uma influencia inversa a dimensão da QI, pois enquanto

em muitos projetos os dados devem possuir políticas de segurança e

restrição dos dados, em projetos de DGA os dados não devem fazer

distinção entre seus usuários, pois todos deveriam ter acesso a todas

as informações.

Processáveis por máquinas. Os dados devem estar organizados de

forma estruturada de modo a possibilitar processamento automatizado,

dessa forma as dimensões da QI que influenciam diretamente neste

principio são a Interpretabilidade,.pois os dados devem estar em

linguagem apropriada e os símbolos e unidades devem estar

claramente entendidos e divulgado. A dimensão Representação

Consistente, pois os dados devem sempre ser apresentados em um

mesmo formato e a Facilidade de Operação, pois os dados devem ser

facilmente manipulados e aplicados em qualquer tipo de tarefa na

analise dos mesmos.

Não discriminatórios. Os dados devem estar disponíveis para todos,

sem exigência de requerimento ou cadastro, assim as dimensões

Acessibilidade e Segurança no Acesso influenciam neste principio. A

acessibilidade visa garantir o acesso rápido e fácil ao dado a qualquer

momento e a Segurança no Acesso mais uma vez influenciando

inversamente pois todos os dados devem estar acessíveis a todos os

usuários, sem políticas ou regras de acesso aos dados.

Page 18: UMA ANÁLISE DAS DIMENSÕES DA QUALIDADE DE DADOS …consadnacional.org.br/wp-content/uploads/2013/05/138-UMA-ANÁLISE... · as dimensões da QI que devem receber uma maior atenção

17

Não proprietários. Os dados devem estar disponíveis em formato

sobre o qual nenhuma entidade detenha controle exclusivo. Dessa

forma não deve-se usar nenhum padrão proprietário de divulgação dos

dados, as dimensões Interpretabilidade, Representação Consistente e

Facilidade de Manipulação influenciam diretamente o atendimento a

este principio.

Livres de licenças. Os dados não devem estar sujeitos a nenhuma

restrição de direito autoral, patente, propriedade intelectual ou segredo

industrial. Restrições sensatas relacionadas à privacidade, segurança e

privilégios de acesso são permitidas. As dimensões Objetividade,

Reputação e Segurança de Acesso influenciam diretamente no

atendimento a este principio.

Notou-se que algumas dimensões não aparecem como principais

influenciadoras nos princípios, isso não significa que elas não causem influencia nos

projetos de DGA, o autor acredita que elas exerçam uma menor influencia se

comparada as dimensões principais.

Identificou-se também que as dimensões Acuracidade, Relevãncia, Valor

Agregado, Facilidade de Entendimento e Representação Concisa não aparecem

como influenciadoras nos princípios de DGA. Ressalta-se que estas dimensões são

do ponto de vista do usuário e não do DGA.

Page 19: UMA ANÁLISE DAS DIMENSÕES DA QUALIDADE DE DADOS …consadnacional.org.br/wp-content/uploads/2013/05/138-UMA-ANÁLISE... · as dimensões da QI que devem receber uma maior atenção

18

REFERÊNCIAS

AGUNE, R. M.; GREGORIO FILHO, A. S.; BOLLIGER, S. P. Governo aberto SP: disponibilização de bases de dados e informações em formato aberto. In: CONGRESSO CONSAD DE GESTÃO PÚBLICA, III, Brasília, 2010. Batini, C., Cappiello, C., Francalanci, C., and Maurino, A. 2009. Methodologies for data quality assessment and improvement. ACM Comput. Surv. 41, 3, Article 16 (July 2009), 52 pages. DOI = 10.1145/1541880.1541883 http://doi.acm.org/10.1145/1541880.1541883 BOVEE, M., SRIVASTAVA, R., AND MAK, B. September 2001. A conceptual framework and belief-function approach to assessing overall information quality. In Proceedings of the 6th International Conference on Information Quality. BROWNSWORD, L. et. al. Current Perspectives on Interoperability (CMU/SEI-2004-TR-009). Pittsburgh, PA: Software Engineering Institute, Carnegie Mellon University, 2004. [http://www.sei.cmu.edu/publications/documents/04.reports /04tr009.html] CATARCI, T., AND SCANNAPIECO, M. 2002. Data quality under the computer science perspective. Archivi Computer 2. COMMISSION OF EUROPEAN COMMUNITIES 2004. European Interoperability Framework for Pan-European e-Government Services – version 1.0. Luxembourg: European Communities. DEMING, W. E. 1982. Out of the Crisis. MIT Press, Cambridge, MA. DINIZ, V. Como conseguir dados governamentais abertos. In: CONGRESSO CONSAD DE GESTÃO PÚBLICA, III, Brasília, 2010. EAVES, D. The three laws of open government. Disponível em: http://eaves.ca/2009/09/30/three-law-of-open-government-data/. Acesso em: 15 dez. 2011, 2009. ENGLISH, L. P. 1999. Improving Data Warehouse and Business Information Quality, John Wiley & Sons, Inc. FERREIRA, Cláudio Luís Pereira. 2001. Maestro: um middleware para suporte a aplicações distribuídas baseadas em componentes de software. 2001. 143 p. (Mestrado) – ESCOLA POLITÉCNICA, Universidade de São Paulo, São Paulo. GOMES, R. L. ; HOYOS-RIVERA, G. J. H. ; COURTIAT, J. P. 2006. . Um Ambiente para Integração de Aplicações Colaborativas. In: Simpósio Brasileiro em Sistemas Colaborativos, 2006, Natal. Anais do Simpósio Brasileiro em Sistemas Colaborativos

Page 20: UMA ANÁLISE DAS DIMENSÕES DA QUALIDADE DE DADOS …consadnacional.org.br/wp-content/uploads/2013/05/138-UMA-ANÁLISE... · as dimensões da QI que devem receber uma maior atenção

19

HASSELBRING, W. 2000. Information Integration System. Communications of the ACM, v. 43, n. 6, p. 32 - 38. HUANG, K., LEE, Y. and WANG, R. 1999, Quality Information and Knowledge. Prentice Hall, Upper Saddle River: N.J.. IEEE 2000 Standards Information Network. IEEE 100. The authoritative dictionary of IEEE standards terms, Seventh Edition. New York, NY: IEEE. JARKE, M., LENZERINI, M., VASSILIOU, Y., AND VASSILIADIS, P., Eds. 1995. Fundamentals of Data Warehouses. Springer Verlag. JURAN, J. AND GOFEREY, A. B. 1999. Juran’s Quality Handbook. 5th ed. McGraw-Hill, New York. KAHN, B. K., STRONG, D. M. 1998. Product and Service Performance Model for Information Quality: An Update. in Proceedings of the 1998 Conference on Information Quality. Cambridge, MA: pp. 102-115. LANDSBERGEN JR, D.; WOLKEN JR, G.2001. Realizing the promise: government information systems and the fourth generation of information technology. Public Administration Review. Vol. 61 (2), p. 205-218, march/april. LEWIS, G., Wrage, L. 2004. “Approaches to Constructive Interoperability” Technical Report CMU/SEI-2004-TR-020 Software Engineering Institute, Carnegie Mellon University 59pp., Pittsburgh (USA), Dec. http://www.sei.cmu.edu/pub/documents/04.reports/pdf/04tr020.pdf LUNARDI, G. L., DOLCI, P.C. e GASTAUD, A. C. 2010. Adoção de tecnologia de informação e seu impacto no desempenho organizacional: um estudo realizado com micro e pequenas empresas. Revista de Administração da USP, v.45, n.1, p. 5-17. MADNICK, S. AND WANG, R. Y. 1992. Introduction to total data quality management (TDQM) research program. TDQM-92-01, Total Data Quality Management Program, MIT Sloan School of Management. MADNICK, S. E., LEE, Y. W., WANG, R. Y., and ZHU H. 2009. Overview and framework for data and information quality research. ACM J. Data Inform. Quality 1, 1, Article 2 (June 2009) 22 pages. DOI = 10.1145/1515693.1516680. http://doi.acm.org/10.1145.1515693.1516680. MILLER, B., et al.2001. Towards a framework for managing the information environment. Information and Knowledge Systems Management, v. 2. NAUMANN, F. 2002. Quality-driven query answering for integrated information systems. Lecture Notes in Computer Science, vol. 2261.

Page 21: UMA ANÁLISE DAS DIMENSÕES DA QUALIDADE DE DADOS …consadnacional.org.br/wp-content/uploads/2013/05/138-UMA-ANÁLISE... · as dimensões da QI que devem receber uma maior atenção

20

NCS.National Communications System. Telecommunications: Glossary of Telecommunication Terms (Federal Standard 1037C). Arlington, VA: National Communications System, 1996.[http://www.its.bldrdoc.gov/fs-1037/] NELSON, J., POELS, G., GENERO, M., AND PIATTINI, EDS. 2003. Proceedings of the 2nd International Workshop on Conceptual Modeling Quality (IWCMQ). Lecture Notes in Computer Science, vol. 2814, Springer. PIPINO, L. L.; LEE, Y. W.; WANG, R. Y. 2002. Data quality assessment. Communications of the ACM, New York, v. 45, n. 4, p. 68-73, Apr. RAGHUNATHAN, S. 1999. Impact of information quality and decision-making quality on decision quality: A theoretical model. Decision Support Syst. 25, 4, 275–287. REDMAN, T. 1996. Data Quality for the Information Age. Artech House. W3C Brasil. Dados Abertos Governamentais. Disponível em http://www.w3c.br/divulgacao/pdf/dados-abertos-governamentais.pdf. Último acesso em 12/dezembro/2011. W3C Brasil. Melhorando o acesso ao governo com o melhor uso da web. Disponível em http://www.w3c.br/divulgacao/pdf/gov-web.pdf. Último acesso em 12/dez/2011. WAND, Y.; WANG, R. 1996. Anchoring data quality dimensions in ontological foundations. Communications of the ACM, v. 39, n. 11, WANG, R. AND STRONG, D. 1996. Beyond accuracy: What data quality means to data consumers. J. Manage. Inform. Syst. 12, 4. WANG, R.; ZIAD, M.; LEE, Y. W. 2000. Data Quality. Kluwer Academic Publishers.

Page 22: UMA ANÁLISE DAS DIMENSÕES DA QUALIDADE DE DADOS …consadnacional.org.br/wp-content/uploads/2013/05/138-UMA-ANÁLISE... · as dimensões da QI que devem receber uma maior atenção

21

___________________________________________________________________

AUTORIA

Edson Carlos Germano – Consultor na FUNDAP – Fundação do Desenvolvimento Administrativo. Aluno de Mestrado da Universidade de São Paulo – Programa de Pós-Graduação em Administração (PPGA)/FEA – SP.

Endereço eletrônico: [email protected] / [email protected] Hiroo Takaoka – Professor Doutor da Universidade de São Paulo – Programa de Pós-Graduação em Administração (PPGA)/FEA – SP.

Endereço eletrônico: [email protected]