uma anÁlise das dimensÕes da qualidade de dados...
TRANSCRIPT
Centro de Convenções Ulysses Guimarães
Brasília/DF – 4, 5 e 6 de junho de 2012
UMA ANÁLISE DAS DIMENSÕES DA QUALIDADE DE DADOS EM PROJETOS
DE DADOS GOVERNAMENTAIS ABERTOS
Edson Carlos Germano Hiroo Takaoka
Painel 38/138 Novas tecnologias e aplicações de governo eletrônico
UMA ANÁLISE DAS DIMENSÕES DA QUALIDADE DE DADOS
EM PROJETOS DE DADOS GOVERNAMENTAIS ABERTOS
Edson Carlos Germano Hiroo Takaoka
RESUMO Este artigo apresenta o resultado parcial de um trabalho de pesquisa que tem como objetivo analisar quais aspectos da Qualidade de Informação (QI) são contemplados na literatura que discute os princípios dos dados governamentais abertos e destacar as dimensões da QI que devem receber uma maior atenção em projetos de Dados Governamentais Abertos (DGA). Para construção desta análise adotou-se uma abordagem metodológica bibliográfica, realizando uma revisão da literatura de QI e da literatura de DGA e em seguida realizou-se uma análise para o cruzamento de cada dimensão da QI com cada principio dos DGA, a fim de fundamentar a avaliação das dimensões de Qualidade de Informação empreendida neste estudo e ainda a teoria de Dados Governamentais Abertos. Os resultados preliminares desta investigação científica produziram uma matriz que mostra a interação dos princípios dos DGA com as dimensões de QI. A analise mostrou que o princípio de DGA Completos possui o maior numero de dimensões da QI inter-relacionada, e ainda que o princípio de DGA Atuais possui a menor quantidade de dimensão da QI inter-relacionada. Palavras-chave: Dados Governamentais Abertos. Qualidade da Informação. Governo Eletrônico.
2
1 INTRODUÇÃO
Hoje, a Sociedade da Informação tem pressionado não apenas o setor
empresarial, mas também os governos de todo o mundo para melhorarem seu
funcionamento, a fim de tornarem-se mais eficientes e eficazes. Modernas
Tecnologias de Informação e Comunicação (TICs) ampliam os impactos e moldam
as atividades de Governo a fim de permitir que os governos cooperem com a
sociedade, cidadãos, empresas e com outras agências governamentais dentro dos
países e através das fronteiras de uma forma mais eficiente e eficaz.
No mundo moderno as mudanças são absolutamente necessárias e os
problemas se tornam cada vez mais complexos e imunes a modelos ultrapassados
de governabilidade. Exigem soluções inovadoras e quando tratados de forma
burocrática, afastam o governo da cidadania e agravaram os problemas. O governo,
como qualquer organização, só se torna efetivo quando reinventado para a era do
conhecimento e da colaboração acessível (AGUNE et al., 2009).
A inovação em governo deve integrar os serviços, a gestão, os poderes
em todas as esferas de governo através de um modelo participativo, com
comunicação em múltiplas vias e participação da população nas decisões de
governo e na webcidadania. A web 2.0, as redes sociais e o crowdsourcing são
partes fundamentais de uma estrutura de governo aberto.
As TICs promoveram uma revolução nos meios de informação, construindo
uma nova relação entre governo e cidadãos. Esta nova relação deu origem ao
chamado e-Government, ou Governo Eletrônico, que possibilita uma administração
pública mais acessível, eficiente, democrática e transparente. Dentro deste contexto, o
conceito de Dados Governamentais Abertos surge para ampliar esta relação,
promovendo a disponibilização das informações governamentais em formatos abertos
e acessíveis a fim de possibilitar a reutilização e a interligação com informações de
outras fontes, gerando novos significados. (W3C Escritório Brasil, 2010).
Diversos documentos estratégicos e iniciativas vêm sendo divulgadas e
incentivadas no cenário mundial, principalmente na comunidade Europeia e na
América do Norte, com objetivo de construir um governo mais eficiente e
participativo. Além disso, existe hoje uma grande quantidade de pesquisas
3
relacionadas a e-Government em andamento. Nesse contexto se fortalece o
conceito de Governo Aberto ou Open Data Gov, que é a disponibilização, por meio
da Internet, de bases de dados governamentais de domínio público para livre
utilização da sociedade, de forma a garantir acesso a dados primários, em formato
aberto, de forma que o interessado possa combiná-los, cruzá-los e produzir novas
informações e aplicativos.
Atualmente no Brasil muitos dados governamentais estão disponíveis na
Web, mas estas informações, na maioria das vezes, são oferecidas sem a utilização
de padrões, em formatos proprietários ou apenas para a visualização, dificultando a
reutilização. Para bem aproveitar o potencial representado pelo acervo de
informações do governo, essas informações precisam ser disponibilizadas em
formato padronizado, aberto e acessível (AGUNE et al., 2009).
Porém entendemos que a qualidade do retorno que os dados abertos
propiciarão estão diretamente ligadas a Qualidade da Informação que é transmitida
por eles. Uma pobre qualidade da informação tem um forte impacto na efetividade
geral de uma organização (WAND; WANG, 1996); o conhecimento e os critérios de
decisão utilizados nesses sistemas devem ser altamente estruturados, e aliados a
informações de alta qualidade para proporcionar a tomada de decisão
(DAVENPORT; HARRIS, 2005).
O tema Qualidade da Informação (QI) tem sido abordado com maior
atenção desde a década passada, especialmente com os trabalhos de Strong, Lee e
Wang (1997a, 1997b) e Wang (1998). Desde então, esforços têm sido realizados
para solucionar os problemas da QI pelos pesquisadores nas universidades e por
profissionais nas organizações, pois há a necessidade crítica de uma metodologia
que meça o quanto as organizações desenvolvem produtos e serviços de
informação com qualidade aos seus usuários (KAHN; STRONG; WANG, 2002).
Problemas de Qualidade da Informação vão muito além de valores
incorretos. Podem também incluir problemas e erros de produção, problemas
técnicos com armazenamento e acesso a dados, e aqueles causados pelas
mudanças das necessidades informacionais dos consumidores (STRONG; LEE;
WANG, 1997b).
4
Em sistemas de informação em rede, os processos de negócio estão
envolvidos na troca de informações complexas e que frequentemente operam a
partir da entrada de dados obtidos de fontes externas, que podem ser
desconhecidas a priori. Como consequência, a qualidade geral dos dados que flui
através de sistemas de informação podem rapidamente degradar ao longo do tempo
se a qualidade de ambos os processos e insumos de informação não é controlado.
Por outro lado, os sistemas de informação em rede, oferecem novas oportunidades
para os dados de gestão da qualidade, incluindo a disponibilidade de uma ampla
gama de fontes de dados e a capacidade de selecionar e comparar dados de
diferentes fontes para detectar e corrigir erros, e, assim, melhorar a eficiência global
qualidade dos dados (BATINI et al, 2009).
No contexto de Dados Governamentais Abertos a definição das
qualidades, dimensões e métricas para avaliação dos dados é uma atividade crítica.
Em geral, diversas métricas podem ser associados a cada dimensão de qualidade.
Em alguns casos, a métrica é única e a definição teórica de uma dimensão coincide
com a definição operacional da métrica correspondente. Dimensões da qualidade
podem dizer a respeito tanto para a extensão de dados, como os valores de dados,
quanto para a sua intensão, como seu esquema. Embora a qualidade dos esquemas
conceitual e lógico de dados é reconhecida como uma área de pesquisa relevante
(IWCMQ 2003)(14), a maioria das definições de dimensões de qualidade de dados e
métricas são referentes a valores de dados ao invés de esquemas. Este artigo
concentra-se principalmente sobre as dimensões e métricas de qualidade que se
refere a valores de dados.
Este trabalho pretende identificar os desafios e oportunidades
relacionados à qualidade dos dados na implantação de iniciativas de governo aberto
e inovação na gestão pública. Esperamos também identificar as dimensões comuns
da qualidade de dados e dos dados governamentais abertos. A partir da
identificação das dimensões que se interligam novos desafios poderão ser
vislumbrados e algumas recomendações poderão ser sugeridas para facilitar o
desenvolvimento técnico de programas de governo eletrônico no Brasil, podendo ser
aplicadas no planejamento estratégico de médio e longo prazo e na concepção de
aplicações automatizadas de governo eletrônico, possibilitando uma maior
efetividade na aplicação dos recursos públicos nessa área.
5
Este trabalho está organizado como se segue, no primeiro capitulo
apresentamos uma introdução dos assuntos principais do trabalho, a definição do
problema de pesquisa e a importância do tema estudado. No segundo capitulo é
apresentado uma revisão da teoria conhecida de qualidade de informação, seguido
de uma definição de governo eletrônico e dos dados governamentais abertos. No
capitulo seguinte apresentamos a metodologia utilizada no estudo e no ultimo
capitulo apresentamos as conclusões e análise desenvolvida até o momento pelos
autores sobre quais dimensões da qualidade de dados influenciam diretamente nos
projetos de dados governamentais abertos.
REVISÃO TEÓRICA
A presente seção visa discutir os fundamentos teóricos que serão
utilizados pelo estudo, iniciando com uma revisão da teoria de dimensões da QI,
seguido por uma revisão da teoria de Princípios de DGA.
2.1 Qualidade da Informação
As organizações têm investido cada vez mais em tecnologia para coletar,
armazenar e processar grandes quantidades de dados. Mesmo assim, muitas vezes
elas se vêem frustradas em seus esforços para traduzir esses dados em idéias
significativas que podem ser usadas para melhorar os processos de negócios, tomar
decisões mais inteligentes e criar vantagens estratégicas. Questões envolvendo a
qualidade de dados e informações podem variar desde dificuldades de natureza
técnica (por exemplo, integração de dados de fontes diferentes) até dificuldades
não-técnicas (por exemplo, a falta de uma estratégia integrada em toda a
organização para assegurar o direito das partes interessadas de acessar a
informação certa no formato certo na hora e lugar certo) (Madnick et al, 2009).
Para Madnick et al. (2009) embora não se tenha havido um consenso
sobre a distinção entre a qualidade dos dados e a qualidade da informação, há uma
tendência de usar a qualidade dos dados para se referir a questões técnicas e
qualidade da informação para se referir a problemas não técnicos. Segundo este
6
autor a Qualidade da Informação (QI) trata da semântica, ou seja, do sentido destes
dados no tempo, espaço e contexto, isto é, transformar dados em informação.
Preocupa-se com qualquer componente que afete a interpretação e a transformação
do dado em informação, desde a forma e contexto em que é apresentada até a
própria capacidade de análise e discernimento do usuário.
Segundo os pesquisadores Kahn e Strong (1998) informação de
qualidade é aquela que atende às suas especificações ou requisitos e qualidade da
informação é a característica da informação de atender ou exceder às expectativas
dos usuários. Huang et al (1999) definem a qualidade da informação como sendo a
informação que é adequada para o uso pelos usuários da informação. Ainda
segundo English (1999) a qualidade da informação pode ser definida como a
informação que é adequada para o uso por todos os usuários da informação.
Para Madnick et al. (2009) a Qualidade de Dados (QD) trata da sintaxe
dos dados, isto é, da estrutura e da forma, preocupando-se com dados em si. Para
Raghunathan (1999) a QD deve ser tratada como parte integrante da QI devido à
intersecção entre elas e à relação de causa e efeito entre primeira e a segunda.
Segundo o autor uma baixa QD certamente traz conseqüências para a QI das
informações que fundamentam a decisão das pessoas e das organizações. Por
outro lado, uma alta QD não necessariamente significa uma melhor QI, uma vez que
outros fatores igualmente importantes devem ser considerados, principalmente a
qualidade do responsável pela decisão.
Para responder às preocupações de QD, pesquisadores do MIT em 1992
lançaram oficialmente o programa MIT Total Data Quality Management (TDQM) para
ressaltar a qualidade dos dados como uma área de pesquisa (Madnick e Wang 1992).
O primeiro trabalho no programa TDQM estabeleceu uma base de dados de pesquisa
de qualidade de dados e atraiu um número crescente de pesquisadores para conduzir
a investigação de ponta nesta área emergente dando origem a criação de um
importante periódico da área, o ACM Journal of Data and Information Quality (JDIQ).
Os pesquisadores do MIT desenvolveram o framework TDQM, que
defende a melhoria contínua da qualidade dos dados, seguindo os ciclos de Definir,
Medir, Analisar e Melhorar (Madnick e Wang 1992). O framework estende o
framework Total Quality Management (TQM) para melhoria da qualidade no domínio
7
de produção (Deming 1982; Juran e Goferey 1999) para o domínio de dados. A
percepção fundamental consiste em, embora os dados são, de fato, um produto (ou
subproduto) fabricados pela maioria das organizações, os mesmos não são tratados
nem estudados como tal. Pesquisas posteriores desenvolveram teorias, métodos e
técnicas para os quatro ciclos do quadro TDQM.
2.2 Dimensões da QI
A percepção da QI depende da real utilização desta. O que pode ser
considerado uma boa informação em um caso pode não ser suficiente em outro
caso. Esta relatividade da qualidade apresenta um problema. A QI gerada por um
sistema de informação depende de seu projeto. Ainda, o uso real da informação está
fora do controle do projetista. Portanto, é importante prover uma definição de
orientação de projeto de um SI com QI (WAND e WANG, 1996).
Segundo Wang et al. (2000), um problema que a má qualidade dos
dados que geram informação provoca, muito pior que o custo direto, é o descrédito
interno e externo e suas conseqüências sobre os processos de tomada de decisão,
e sobre a percepção que os clientes e fornecedores formam acerca dos sistemas
da empresa. Por outro lado, uma boa qualidade da informação da organização
pode ser considerada uma vantagem competitiva. Ainda são poucas as
organizações que adotam práticas estruturadas de gestão da informação e, sem
esta prática, é certa a exposição a riscos e falhas nas iniciativas de Tecnologia da
Informação e de negócio.
O valor de um sistema é determinado pela qualidade dos dados que o
mesmo usa e processa e as informações produzidas. A informação pode ser vista
como um bem, com dimensões (atributos) de qualidade que podem ser medidas.
Uma vez identificados os atributos, a qualidade da informação pode ser gerenciada
(MILLER et al., 2001). Conforme Wand e Wang (1996)(9), a qualidade da
informação é um conceito multidimensional, e assim como um produto físico tem
dimensões de qualidade associadas, um produto de informação também tem
dimensões de qualidade da informação.
8
A literatura de QI fornece uma classificação completa das dimensões da
qualidade de dados, no entanto, há uma série de discrepâncias na definição de
dimensões devido à natureza contextual de qualidade. As seis classificações mais
importante das dimensões de qualidade são fornecidos pelos autores Wand e Wang
(1996); Wang e Strong (1996); Redman (1996); Jarke et al. (1995); Bovee et al.
(2001), e Naumann (2002). Ao analisar estas classificações, é possível definir um
conjunto básico de dimensões de QI, incluindo acuracidade (acuracy), integridade
(completeness), consistência (consistency) e temporalidade (timeliness), que
constituem o foco da maioria dos autores (Catarci e Scannapieco, 2002).
Entretanto não existe qualquer consenso geral sobre qual conjunto de
dimensões definem a QI, ou sobre o significado exato de cada dimensão. As
diferentes definições dadas na literatura foram discutidas por BATINI et al (2009).
As dimensões são referências para a QI. Em algumas situações,
determinado grupo de dimensões podem ser importantes, e este grupo varia
conforme a situação. Neste trabalho serão adotadas as dimensões apresentadas por
Wang et al. (2000) com o significado para cada dimensão apresentado na Tabela 1.
9
Tabela 1: Categorias, dimensões e definições da QI.
CATEGORIA DIMENSÃO DEFINIÇÃO
Intrínseca Acuracidade (acuracy ou free-of-error) Quanto a informação é correta e confiável
Objetividade (objectivity) Quanto a informação é imparcial
Credibilidade (believability) Quanto a informação é considerada como verdadeira e verossímil
Reputação (reputation) Quanto a informação considerada em termos de sua fonte ou conteúdo
Acessibilidade Acessibilidade (accessibility) Quanto a informação está disponível, ou fácil e rapidamente recuperável
Segurança no acesso (access security) Quanto o acesso a informação, é restrito apropriadamente para manter sua segurança
Contextual Relevância (relevancy) Quanto a informação é aplicável e útil para a tarefa a ser realizada
Valor agregado (value-added) Quanto a informação é benéfica e proporciona vantagens por seu uso
Temporalidade/oportunidade (timeliness)
Quanto a informação está suficientemente atualizada para a tarefa a ser realizada
Integridade/perfeição (completeness) Quanto a informação não está extraviada e é suficiente para a tarefa em amplitude e profundidade
Quantidade de informação apropriada (appropriate amount)
Quanto o volume da informação é apropriado para a tarefa ser executada
Representação Interpretabilidade (interpretability) Quanto a informação está em linguagem apropriada, símbolos e unidades, e as definições são claras
Facilidade de entendimento (ease of understanding )
Quanto a informação é facilmente compreendida
Representação concisa (concise representation)
Quanto a informação está compactamente representada
Representação consistente (consistent representation)
Quanto a informação é apresentada em um mesmo formato
Facilidade de manipulação /operação (ease of manipulation /operacion)
Quanto a informação é fácil de ser manipulada e aplicada em diferentes tarefas
Fonte: Adaptado de WANG et al., 2000 e Pipino, Lee e Wang (2002).
10
Segundo WANG et al. (2000), o significado de cada categoria é a
seguinte:
Intrínseca: características intrínsecas dos dados, independentes da sua
aplicação;
Acessibilidade: aspectos relativos ao acesso e à segurança dos dados.
Contextual: características dependentes do contexto de utilização dos
dados;
Representacional: características derivadas da forma como a
informação é apresentada;
2.3 Dados Governamentais Abertos
Segundo o Grupo de Interesse e-Gov do W3C (GI PARA E-GOV, 2009),
criar um Governo Eletrônico exige abertura, transparência, colaboração e
conhecimento. Um governo transparente é mais do que a interação e a participação
aberta; os dados do governo precisam ser partilhados, descobertos, acessíveis e
manipuláveis por aqueles que os desejam para bem aproveitar as vantagens da
Web e o acervo de informações das organizações.
A disponibilização de Dados Governamentais Abertos (DGA) permite que
os usuários possam facilmente encontrar, acessar, entender e utilizar os dados
públicos segundo foco e interesses próprios, trazendo diversos benefícios como a
reutilização, inclusão, transparência, responsabilidade, melhoria nas buscas,
integração, participação, colaboração, crescimento econômico, inovação e eficiência
(DINIZ, 2009).
O Open Government Working Group (OPENGOVDATA.ORG, 2007),
elaborou os 8 Princípios dos DGA. Eles devem ser:
1) Completos. Todos os dados públicos estão disponíveis. Dado público é
o dado que não está sujeito a limitações válidas de privacidade,
segurança ou controle de acesso.
2) Primários. Os dados são apresentados tais como os coletados na
fonte, com o maior nível possível de granularidade e sem agregação ou
modificação.
11
3) Atuais. Os dados são disponibilizados tão rapidamente quanto
necessário à preservação do seu valor.
4) Acessíveis. Os dados são disponibilizados para o maior alcance
possível de usuários e para o maior conjunto possível de finalidades.
5) Processáveis por máquinas. Os dados são razoavelmente estruturados
de modo a possibilitar processamento automatizado.
6) Não discriminatórios. Os dados são disponíveis para todos, sem
exigência de requerimento ou cadastro.
7) Não proprietários. Os dados são disponíveis em formato sobre o qual
nenhuma entidade detenha controle exclusivo.
8) Livres de licenças. Os dados não estão sujeitos a nenhuma restrição
de direito autoral, patente, propriedade intelectual ou segredo industrial.
Restrições sensatas relacionadas à privacidade, segurança e
privilégios de acesso são permitidas.
Eaves (2009) apresentou as três leis dos dados governamentais abertos:
1) Se o dado não for encontrado e indexado na web, ele não existe;
2) Se não estiver aberto e disponível em formato compreensível por
máquina, ele não pode ser aproveitado;
3) Se algum dispositivo legal não permitir sua replicação, ele é inútil.
Os benefícios da adoção dos DGA no campo da transparência e do
controle social são, ao menos em tese, evidentes. A oferta de DGA tende a
contribuir para o aumento da transparência do governo, criando melhores
possibilidades de controle social das ações governamentais. Outros benefícios
também pode ser apontados, como a possibilidade de criação de novas informações
e aplicativos a partir dos dados governamentais abertos. Nesse caso, não somente a
transparência é fomentada, mas também novos serviços podem se originar da
interação entre o governo e sociedade através da utilização dos DGA.
Esses serviços podem ser gerados através de novas formas de atuação
participativa e colaborativa entre governo e instituições privadas, uma vez que o
conceito de DGA permite superar a visão do cidadão como simples receptor da
informação pública. Permite que qualquer interessado possa, ao processar livremente
os dados governamentais, criar conteúdo a partir da reutilização dos dados.
12
Segundo Diniz (2010):
A disponibilização de dados governamentais abertos permite que as informações sejam utilizadas da maneira e conveniência do interessado de tal forma que elas possam ser misturadas e combinadas para agregar mais valor aos dados.
Ainda segundo o autor, o objetivo de que as informações públicas sejam
disponibilizadas segundo as regras dos dados abertos é
superar as limitações existentes para que usuários de informações do serviço público possam facilmente encontrar, acessar, entender e utilizar os dados públicos segundo os seus interesses e conveniências”.
O World Wide Web Consortium (W3C) define dados governamentais
abertos como: “a publicação e disseminação das informações do setor público na
web, compartilhados em formato bruto e aberto, compreensíveis logicamente, de
modo a permitir sua reutilização em aplicações digitais desenvolvidas pela
sociedade”. Além disso, a W3C entende que os governos devem incentivar os
cidadãos a usarem os dados abertos disponíveis pelos governos, ou seja, eles
devem ser estimulados a reutilizarem os dados conforme as suas necessidades e
vontades. Diniz (2010) resume o objetivo desse incentivo: “Não há valor na
disponibilização de dados governamentais abertos se a sociedade não tem interesse
em reutilizá-los”.
As principais tecnologias e formatos utilizados para a publicação de dados
governamentais abertos são: (1) arquivos CSV (Comma Separated-Values), que
armazenam dados tabulares; (2) informações Atom e RSS (Really Simple
Syndication), que agregam conteúdo baseado em XML, usadas para compartilhar
novidades ou textos completos através dos denominados feeds; (3) interfaces
REST, que associam um recurso a um URI usando HTTP, permitindo que um site
possa ser enriquecido com aplicativos que expandam o valor de um recurso
disponível; (4) tecnologias da web semântica, que oferecem um arcabouço comum
onde os dados podem ser compartilhados e reutilizados além dos limites de
aplicativos, empreendimentos e comunidades (GI para E-GOV, 2009).
Há um movimento global de governos e autoridades locais
disponibilizando seus dados na web. Projetos de dados governamentais abertos
surgiram em vários países do mundo, como Estados Unidos, Reino Unido, Austrália,
Nova Zelândia, Noruega, Holanda, Suécia, Espanha, Estônia, Áustria, Grécia,
13
Canadá e Dinamarca, existindo também um número crescente de iniciativas locais
de estados e cidades (SHERIDAN e TENNISON, 2010; AGUNE, GREGORIO
FILHO, BOLLIGER, 2010). Alguns governos criaram catálogos ou portais para tornar
a localização e a utilização desses dados mais fácil para o público (BENNETT e
HARVEY, 2009), como o portal data.gov e data.gov.uk.
Além disso, pessoas e organizações vêm publicando dados
governamentais por conta própria em vários formatos (BERNERS-LEE, 2009). O
Brasil tem uma boa oferta de dados em todas as esferas e poderes oferecidos
pública e gratuitamente, mas existem poucas iniciativas do governo que se propõem
a dar acesso à base integral estruturada e em linguagem aberta. O exemplo mais
recente de iniciativa brasileira neste sentido é o projeto Governo Aberto SP, em fase
de implantação (GOVERNO ABERTO, 2010). Enquanto o governo não libera mais
dados em formato aberto, estão surgindo no Brasil iniciativas no sentido de extrair os
dados de sites e portais governamentais, reorganizá-los, torná-los abertos e/ou
conferir novo valor a eles através de diferentes aplicações, como o Congresso
Aberto, o Parlamento Aberto, o Legisdados, entre outros (THACKER, 2011). Dado o
crescente interesse civil após exemplos bem sucedidos em outros países, espera-se
que novas iniciativas sejam realizadas em esferas políticas brasileiras.
A reutilização de dados governamentais, inclusive através da integração
com dados de outras fontes de dados, requer que a semântica destas informações
seja estabelecida, de modo preciso e explícito, e associada aos dados publicados
(Harris et. al. 2008). Caso contrário, dados referentes a conceitos que não são
semanticamente equivalentes e nem mesmo relacionados podem ser integrados,
gerando resultados errôneos.
A fim de evitar este tipo de problema, além dos dados em si, devem ser
publicados os seus metadados e os conceitos e definições do vocabulário específico
do domínio, em formato partilhável e referenciável, de modo a contextualizar e
transformar os dados em informações. Através das tecnologias desenvolvidas pelo
avanço da Web Semântica, os dados governamentais podem ser disponibilizados
anotados em relação a este vocabulário e as interfaces de busca podem permitir que
os aplicativos recuperem e acessem estas informações de uma forma não pré-
definida (W3C Brasil 2011 b).
14
3 ANÁLISE E DISCUSSÃO DOS RESULTADOS
Ao analisar os princípios dos DGA com base nas dimensões da QI será
possível identificar quais dimensões da QD influenciam no atendimento de cada
principio. Dessa forma os projetos de DGA podem ser construídos com atenção a
parâmetros que garantam a QI fornecida aos usuários assegurando-se que a
estrutura de aplicativo de divulgação de DGA foi construída com atenção aos
requisitos de QI.
Foi construída uma matriz para o cruzamento das dimensões de QI com
os princípios dos DGA. A partir dessa matriz foi possível identificar quais dimensões
da QI interferem diretamente com o cumprimento de cada principio dos DGA. Abaixo
apresentamos a matriz de interação dos princípios dos DGA com as dimensões de
QI. As dimensões da QI foram dispostas nas linhas da matriz e os princípios dos
DGA foram colocados nas colunas. As dimensões que influenciam em cada um dos
princípios são indicadas no cruzamento entre a linha e coluna.
Tabela 2 – Matriz de interação dos princípios dos DGA com as dimensões de QD
Fonte: adaptado pelo autor de WANG et al.(2000), Pipino, Lee e Wang(2002) e Opendata.gov(2007)
Categoria Dimensões da QD completos primários atuais acessíveis
processáveis
por máquinas
não-
discriminatórios
não-
proprietários licenças livres
Acuracidade
Objetividade X XCredibilidade XReputação X XAcessibilidade X X XSegurança no acesso X X XRelevância
Valor agregado
Temporalidade/oportunidade XIntegridade/perfeição XQuantidade de informação apropriada X X XInterpretabilidade X XFacilidade de entendimento
Representação concisa
Representação consistente X X XFacilidade de manipulação /operação X X
Principios dos dados governamentais abertos
Intrínseca
Acess ibi l ida
de
Contextual
Representaç
ão
15
A análise de cada dimensão da QI influenciando cada um dos 8 Princípios
dos DGA elaborada pelos autores desta pesquisa esta apresentada abaixo:
Completos. Como já visto na secção anterior, todos os dados públicos
não devem estar sujeito a limitações válidas de privacidade, segurança
ou controle de acesso, dessa forma as dimensões da QI que devem
ser principais neste princípio são a Objetividade, pois para ser
completa a informação precisa ser imparcial, a Acessibilidade, pois
todas as informações precisam estar disponíveis e serem de fácil
acesso, a Integridade, pois não se deveria permitir que dados fossem
extraviados da base de dados, a Quantidade de Informação
Apropriada. Pois o volume de dados divulgados sobre cada tema
proposto deverá ser o maior possível, e por fim a Representação
Consistente, pois os dados devem ser divulgados seguindo se um
mesmo formato ou padrão.
Primários. Os dados devem ser apresentados tais como os coletados
na fonte, com o maior nível possível de granularidade e sem
agregação ou modificação, dessa forma a três dimensões da QI
interagem diretamente para o atendimento deste principio, a
Credibilidade, pois os dados divulgados devem ser verdadeiros e
verossímeis, a Reputação, pois deve-se levar em conta a
confiabilidade de sua fonte e a Quantidade de Informação Apropriada,
pois entende-se que com uma maior granularidade dos dados maior
será o volume das informações divulgadas.
Atuais. Os dados devem ser disponibilizados tão rapidamente, dessa
forma a dimensão Temporalidade é a principal dimensão considerada
neste principio. Os dados divulgados precisam ser constantemente
atualizados de forma que se diminua o tempo entre a criação do dado e
sua divulgação.
16
Acessíveis. Os dados devem ser disponibilizados para o maior número
possível de usuários e para todas as possíveis de finalidades, as
dimensões consideradas neste principio são a Acessibilidade, pois
deve se garantir o rápido e fácil acesso aos dados, a Quantidade de
Informação Apropriada, pois o maior volume de dados deve ser
divulgado e a Segurança no Acesso. Nesta última dimensão,
verificamos uma influencia inversa a dimensão da QI, pois enquanto
em muitos projetos os dados devem possuir políticas de segurança e
restrição dos dados, em projetos de DGA os dados não devem fazer
distinção entre seus usuários, pois todos deveriam ter acesso a todas
as informações.
Processáveis por máquinas. Os dados devem estar organizados de
forma estruturada de modo a possibilitar processamento automatizado,
dessa forma as dimensões da QI que influenciam diretamente neste
principio são a Interpretabilidade,.pois os dados devem estar em
linguagem apropriada e os símbolos e unidades devem estar
claramente entendidos e divulgado. A dimensão Representação
Consistente, pois os dados devem sempre ser apresentados em um
mesmo formato e a Facilidade de Operação, pois os dados devem ser
facilmente manipulados e aplicados em qualquer tipo de tarefa na
analise dos mesmos.
Não discriminatórios. Os dados devem estar disponíveis para todos,
sem exigência de requerimento ou cadastro, assim as dimensões
Acessibilidade e Segurança no Acesso influenciam neste principio. A
acessibilidade visa garantir o acesso rápido e fácil ao dado a qualquer
momento e a Segurança no Acesso mais uma vez influenciando
inversamente pois todos os dados devem estar acessíveis a todos os
usuários, sem políticas ou regras de acesso aos dados.
17
Não proprietários. Os dados devem estar disponíveis em formato
sobre o qual nenhuma entidade detenha controle exclusivo. Dessa
forma não deve-se usar nenhum padrão proprietário de divulgação dos
dados, as dimensões Interpretabilidade, Representação Consistente e
Facilidade de Manipulação influenciam diretamente o atendimento a
este principio.
Livres de licenças. Os dados não devem estar sujeitos a nenhuma
restrição de direito autoral, patente, propriedade intelectual ou segredo
industrial. Restrições sensatas relacionadas à privacidade, segurança e
privilégios de acesso são permitidas. As dimensões Objetividade,
Reputação e Segurança de Acesso influenciam diretamente no
atendimento a este principio.
Notou-se que algumas dimensões não aparecem como principais
influenciadoras nos princípios, isso não significa que elas não causem influencia nos
projetos de DGA, o autor acredita que elas exerçam uma menor influencia se
comparada as dimensões principais.
Identificou-se também que as dimensões Acuracidade, Relevãncia, Valor
Agregado, Facilidade de Entendimento e Representação Concisa não aparecem
como influenciadoras nos princípios de DGA. Ressalta-se que estas dimensões são
do ponto de vista do usuário e não do DGA.
18
REFERÊNCIAS
AGUNE, R. M.; GREGORIO FILHO, A. S.; BOLLIGER, S. P. Governo aberto SP: disponibilização de bases de dados e informações em formato aberto. In: CONGRESSO CONSAD DE GESTÃO PÚBLICA, III, Brasília, 2010. Batini, C., Cappiello, C., Francalanci, C., and Maurino, A. 2009. Methodologies for data quality assessment and improvement. ACM Comput. Surv. 41, 3, Article 16 (July 2009), 52 pages. DOI = 10.1145/1541880.1541883 http://doi.acm.org/10.1145/1541880.1541883 BOVEE, M., SRIVASTAVA, R., AND MAK, B. September 2001. A conceptual framework and belief-function approach to assessing overall information quality. In Proceedings of the 6th International Conference on Information Quality. BROWNSWORD, L. et. al. Current Perspectives on Interoperability (CMU/SEI-2004-TR-009). Pittsburgh, PA: Software Engineering Institute, Carnegie Mellon University, 2004. [http://www.sei.cmu.edu/publications/documents/04.reports /04tr009.html] CATARCI, T., AND SCANNAPIECO, M. 2002. Data quality under the computer science perspective. Archivi Computer 2. COMMISSION OF EUROPEAN COMMUNITIES 2004. European Interoperability Framework for Pan-European e-Government Services – version 1.0. Luxembourg: European Communities. DEMING, W. E. 1982. Out of the Crisis. MIT Press, Cambridge, MA. DINIZ, V. Como conseguir dados governamentais abertos. In: CONGRESSO CONSAD DE GESTÃO PÚBLICA, III, Brasília, 2010. EAVES, D. The three laws of open government. Disponível em: http://eaves.ca/2009/09/30/three-law-of-open-government-data/. Acesso em: 15 dez. 2011, 2009. ENGLISH, L. P. 1999. Improving Data Warehouse and Business Information Quality, John Wiley & Sons, Inc. FERREIRA, Cláudio Luís Pereira. 2001. Maestro: um middleware para suporte a aplicações distribuídas baseadas em componentes de software. 2001. 143 p. (Mestrado) – ESCOLA POLITÉCNICA, Universidade de São Paulo, São Paulo. GOMES, R. L. ; HOYOS-RIVERA, G. J. H. ; COURTIAT, J. P. 2006. . Um Ambiente para Integração de Aplicações Colaborativas. In: Simpósio Brasileiro em Sistemas Colaborativos, 2006, Natal. Anais do Simpósio Brasileiro em Sistemas Colaborativos
19
HASSELBRING, W. 2000. Information Integration System. Communications of the ACM, v. 43, n. 6, p. 32 - 38. HUANG, K., LEE, Y. and WANG, R. 1999, Quality Information and Knowledge. Prentice Hall, Upper Saddle River: N.J.. IEEE 2000 Standards Information Network. IEEE 100. The authoritative dictionary of IEEE standards terms, Seventh Edition. New York, NY: IEEE. JARKE, M., LENZERINI, M., VASSILIOU, Y., AND VASSILIADIS, P., Eds. 1995. Fundamentals of Data Warehouses. Springer Verlag. JURAN, J. AND GOFEREY, A. B. 1999. Juran’s Quality Handbook. 5th ed. McGraw-Hill, New York. KAHN, B. K., STRONG, D. M. 1998. Product and Service Performance Model for Information Quality: An Update. in Proceedings of the 1998 Conference on Information Quality. Cambridge, MA: pp. 102-115. LANDSBERGEN JR, D.; WOLKEN JR, G.2001. Realizing the promise: government information systems and the fourth generation of information technology. Public Administration Review. Vol. 61 (2), p. 205-218, march/april. LEWIS, G., Wrage, L. 2004. “Approaches to Constructive Interoperability” Technical Report CMU/SEI-2004-TR-020 Software Engineering Institute, Carnegie Mellon University 59pp., Pittsburgh (USA), Dec. http://www.sei.cmu.edu/pub/documents/04.reports/pdf/04tr020.pdf LUNARDI, G. L., DOLCI, P.C. e GASTAUD, A. C. 2010. Adoção de tecnologia de informação e seu impacto no desempenho organizacional: um estudo realizado com micro e pequenas empresas. Revista de Administração da USP, v.45, n.1, p. 5-17. MADNICK, S. AND WANG, R. Y. 1992. Introduction to total data quality management (TDQM) research program. TDQM-92-01, Total Data Quality Management Program, MIT Sloan School of Management. MADNICK, S. E., LEE, Y. W., WANG, R. Y., and ZHU H. 2009. Overview and framework for data and information quality research. ACM J. Data Inform. Quality 1, 1, Article 2 (June 2009) 22 pages. DOI = 10.1145/1515693.1516680. http://doi.acm.org/10.1145.1515693.1516680. MILLER, B., et al.2001. Towards a framework for managing the information environment. Information and Knowledge Systems Management, v. 2. NAUMANN, F. 2002. Quality-driven query answering for integrated information systems. Lecture Notes in Computer Science, vol. 2261.
20
NCS.National Communications System. Telecommunications: Glossary of Telecommunication Terms (Federal Standard 1037C). Arlington, VA: National Communications System, 1996.[http://www.its.bldrdoc.gov/fs-1037/] NELSON, J., POELS, G., GENERO, M., AND PIATTINI, EDS. 2003. Proceedings of the 2nd International Workshop on Conceptual Modeling Quality (IWCMQ). Lecture Notes in Computer Science, vol. 2814, Springer. PIPINO, L. L.; LEE, Y. W.; WANG, R. Y. 2002. Data quality assessment. Communications of the ACM, New York, v. 45, n. 4, p. 68-73, Apr. RAGHUNATHAN, S. 1999. Impact of information quality and decision-making quality on decision quality: A theoretical model. Decision Support Syst. 25, 4, 275–287. REDMAN, T. 1996. Data Quality for the Information Age. Artech House. W3C Brasil. Dados Abertos Governamentais. Disponível em http://www.w3c.br/divulgacao/pdf/dados-abertos-governamentais.pdf. Último acesso em 12/dezembro/2011. W3C Brasil. Melhorando o acesso ao governo com o melhor uso da web. Disponível em http://www.w3c.br/divulgacao/pdf/gov-web.pdf. Último acesso em 12/dez/2011. WAND, Y.; WANG, R. 1996. Anchoring data quality dimensions in ontological foundations. Communications of the ACM, v. 39, n. 11, WANG, R. AND STRONG, D. 1996. Beyond accuracy: What data quality means to data consumers. J. Manage. Inform. Syst. 12, 4. WANG, R.; ZIAD, M.; LEE, Y. W. 2000. Data Quality. Kluwer Academic Publishers.
21
___________________________________________________________________
AUTORIA
Edson Carlos Germano – Consultor na FUNDAP – Fundação do Desenvolvimento Administrativo. Aluno de Mestrado da Universidade de São Paulo – Programa de Pós-Graduação em Administração (PPGA)/FEA – SP.
Endereço eletrônico: [email protected] / [email protected] Hiroo Takaoka – Professor Doutor da Universidade de São Paulo – Programa de Pós-Graduação em Administração (PPGA)/FEA – SP.
Endereço eletrônico: [email protected]