padrões para bibliotecas digitais abertas e interoperáveis

Upload: castrogeorge

Post on 14-Jul-2015

53 views

Category:

Documents


0 download

TRANSCRIPT

PADRES PARA BIBLIOTECAS DIGITAIS ABERTAS E INTEROPERVEIS STANDARDS TO OPEN AND INTEROPERABLE DIGITAL LIBRARIESLus Fernando Sayo Comisso Nacional de Energia Nuclear, Centro de Informaes Nucleares [email protected] este artigo no blog Ebibli = http://encontros-bibli-blog.blogspot.com/

RESUMO A interoperabilidade uma das principais preocupaes no desenvolvimento de sistemas de bibliotecas digitais abertas e que operam em rede. Entretanto, a interoperabilidade como forma de viabilizao de intercmbio de informaes e de servios cooperativos, exige a aplicao de um elenco de padres abertos que cubram todos os processos de um repositrio digital. A idia deste documento revisar os principais padres, normas e protocolos que formam a infra-estrutura de uma biblioteca digital aberta e plenamente interopervel. Palavras-chave: Bibliotecas digitais. Interoperabilidade. Normas. Padres. Protocolos

1 INTRODUO No momento em que as bibliotecas digitais se tornam, em escala mundial, um foco de intensa atividade de pesquisa e desenvolvimento, e se tornam tambm uma rea de amplo interesse econmico e comercial, a todo instante se agregam novas questes e novas solues, que lado a lado com os conceitos tradicionais da Cincia da Informao e da Biblioteconomia - revisitados e ampliados -, do margem ao surgimento de um instigante e diversificado campo de estudo, envolvendo pessoas, recursos informacionais e tecnologia. As bibliotecas digitais surgiram na dcada de 1990 e experimentam nos ltimos anos um rpido crescimento que se irradia por todas as facetas que a rea circunscreve: projeto, implementao, desenvolvimento e avaliao. As agendas de trs importantes congressos realizados em 2002 Joint Conference on Digital Libraries, 6 th European Conference on Research and Advanced Technology for Digital Library e 5th International Conference on Asian Digital Libraries -, pela viso integrada e coerente das tendncias da pesquisa e desenvolvimento na rea de bibliotecas digitais que apresentaram, podem sintetizar com clareza o amplo espectro das vertentes de pesquisa nessa rea (Shiri, 2003): a) arquiteturas, sistemas, ferramentas, e tecnologias b) contedos e colees digitais; c) metadados; d) interoperabilidade; e) normas e padres; f) organizao do conhecimento; g) usurios e usabilidade; h) aspecto legal, organizacional, econmico e social. No se pode esperar absolutamente que esses itens possam ser estudados de forma estanque; ao contrrio, eles se mesclam conferindo aos objetos de pesquisa em biblioteca digital um alto grau de complexidade. Por exemplo, normas e padres no contexto da pesquisa em bibliotecas digitais inclui todos os protocolos, regras e convenes que devem ser utilizados na arquitetura das bibliotecasEnc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n. esp., 1 sem. 2007.

18

digitais, na formao das colees, nos formatos, nas questes de interoperabilidade, na preservao digital, na atribuio de nomes permanentes, s para citar alguns itens. O objetivo deste documento fazer um levantamento sobre as principais regras que permitem o funcionamento das atividades que so pertinentes s bibliotecas digitais abertas, e que tambm criem a infra-estrutura necessria para viabilizar tecnicamente a interoperabilidade entre elas. 2 DEFINIES PRELIMINARES: PADRES, NORMAS, PROTOCOLOS E FORMATOS NO CONTEXTO DAS BIBLIOTECAS DIGITAIS Uma biblioteca digital no seu sentido pleno - no meramente um repositrio ou uma coleo de informaes em formato digital; tambm no somente uma tecnologia ou um conjunto de tecnologias que se pode avaliar isoladamente. Antes disso, um sistema aberto, de mltiplas interligaes e mltiplos subsistemas, envolvendo um ambiente organizacional, profissionais especializados provenientes de diversas reas, recursos informacionais, usurios claramente definidos, tecnologia de informao, procedimentos, padres e protocolos e, no menos importante, compromissos de longo prazo. A DLF - Digital Library Federation - torna patente essas inter-relaes quando define bibliotecas digitais como:... organizaes que proporcionam os recursos, incluindo pessoal especializado, para selecionar, estruturar, oferecer acesso intelectual, interpretar, distribuir, preservar a integridade e assegurar persistncia atravs do tempo de colees de objetos digitais, de forma que eles estejam prontamente disponveis para uma comunidade alvo definida ou um conjunto de comunidades. (DLF, 2002)

Neste contexto, as normas, padres, formatos e protocolos cumprem um papel de fundamental importncia, j que estabelecem as regras pelas quais os objetos so descritos, identificados e preservados, seus dados so armazenados, e os sistemas aos quais esto inseridos se comunicam. Considerando que o foco deste artigo est sobre as regras que viabilizam os processos das bibliotecas digitais abertas e interoperveis, melhor comear esclarecendo as diferenas entre elas, no contexto que mais nos interessa no momento. a) Padres: de acordo com a ISO International Organization for Standardization um padro um "documento aprovado por um organismo reconhecido que prov, pelo uso comum e repetitivo, regras, diretrizes ou caractersticas de produtos, processos ou servios cuja obedincia no obrigatria" (ISO, 2006). b) Normas: por outro lado, normas so as regras ou princpios estabelecidos sobre um determinado aspecto, que so definidas por quem de direito e no esto sujeitas discusso. So os documentos tcnicos que estabelecem padres reguladores visando garantir a qualidade dos produtos, a racionalizao da produo, o transporte e o consumo de bens, a segurana das pessoas e a uniformidade dos meios de expresso e comunicao. c) Protocolos: so conjuntos de padres contendo regras que governam as funes de comunicao num ambiente de rede. realizado por meio da descrio do formato que a mensagem deve tomar e da maneira pela qual as mensagens so trocadas entre computadores (Haigh, 1998); d) Formato: so as vrias conformaes na qual uma informao digital pode ser armazenada. O formato de um arquivo um algoritmo expresso por um software para codificao de dados, bem como informaes sobre o dado estrutura, layout,

Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n. esp., 1 sem. 2007.

19

compresso. Existem centenas de formatos de arquivos, mas somente uns poucos so essenciais para as atividades de uma biblioteca digital (Haigh, 1998). Existem os padres proprietrios, que so aqueles desenvolvidos ou promulgados por empresas privadas com o objetivo de assegurar ou ampliar as suas participaes no mercado; e os padres abertos, que so publicados e esto disponveis para uso de quem quer que seja. Ambos os tipos podem se transformar em um padro de fato, isto , um conjunto de regras ou especificaes que so adotados largamente e voluntariamente - pelo mercado e que se tornam normativos. Por outro lado, existem os padres de direito, que so aqueles endossados por organizaes oficiais de normalizao, em mbito internacional, como a ISO (http://www.iso.org/ ) e a IETF (Internet Engineering Task Force - www.ietf.org/ ), ou em mbito nacional como a NISO (National Information Standard Organization - www.niso.org/) nos Estados Unidos e ABNT (Associao Brasileira de Normas Tcnicas - http://www.abnt.org.br/ ) no Brasil. Entretanto, em todos os casos, o objetivo tentar unificar a representao, manipulao ou a transmisso de algum item de informao de forma que dois ou mais diferentes sistemas possam compreender igualmente este item. Isto a base do que se conhece por interoperabilidade entre sistemas de informao (Noerr, 2003). 3 OBJETOS DIGITAIS ADEQUADOS A publicao da NISO A Framework of Guidance for Building Good Digital Collections (NISO, 2004a) nos oferece uma orientao acerca do que podemos considerar um objeto digital adequado (good digital object) inserido numa coleo digital. A arquitetura estabelecida pelo documento considera dois tipos de objetos digitais: objetos produzidos como representao ou substitutos de materiais em alguma forma analgica livros impressos, manuscritos, peas de museus, etc. -, e objetos originalmente nascidos digitais fotografias digitais, e-books, bases de dados cientficas, imagens de exames mdicos (tomografia, por exemplo), websistes, etc. Um objeto pode estar completo em um nico arquivo - por exemplo, um relatrio em PDF -; ou pode consistir de mltiplos arquivos vinculados por hiperlinks, por exemplo, uma pgina HTML e as imagens vinculadas a ela; ou ainda consistir de mltiplos arquivos unificados por metadados estruturais, por exemplo, um livro digitalizado na forma de imagens de pginas separadas. Nesse sentido, objetos digitais so conceitualmente equivalentes a itens que podem ser encontrados no acervo de bibliotecas, na coleo de museus, e em fundos arquivsticos (NISO, 2004a, p.12). Os seguintes princpios se aplicam aos objetos digitais adequados: Princpio 1 Prioridades da coleo, interoperabilidade e reusabilidade Um objeto digital adequado deve ser produzido de forma que assegure a manuteno das prioridades da coleo ou colees onde ser inserido, enquanto mantm as qualidades que contribuam para a interoperabilidade e reusabilidade. Princpio 2 Persistncia Um objeto digital adequado deve ser persistente. Isto , o objeto digital deve permanecer acessvel atravs do tempo a despeito das mudanas tecnolgicas. Principio 3 Padres e melhores prticas no processo de digitalizao Um objeto digital deve ser digitalizado num formato que tenha como perspectiva o suporte aos usos atuais e os provveis usos futuros, ou que possibilite a derivao de cpias de acesso que suportem esses usos. Como conseqncia, um objeto digital adequado deve ser permutvel atravs de plataformas computacionais, deve serEnc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n. esp., 1 sem. 2007.

20

amplamente acessvel e ser digitalizado de acordo com padres reconhecidos e/ou melhores prticas. Quando no for possvel a adoo de padres e prticas, as razes para tal procedimento devem estar bem documentadas. Princpio 4 Identificadores nicos e persistentes Um objeto digital adequado dever ser designado por um identificador persistente e nico que dever estar em conformidade com esquemas de nomes bem documentados. Ele no dever ser identificado tomando-se como referncia nome de arquivos ou endereos de servidores como o URL e outros endereos da Internet cuja caracterstica a volatibilidade -, ao invs disso, identificadores estveis devem ser capazes de ser resolvidos (mapeados) em endereos correntes. Princpio 5 Autenticidade, integridade, provenincia e contexto Um objeto digital adequado pode ser autenticado no mnimo em trs dimenses: primeira, um usurio deve ser capaz de determinar a origem, a estrutura e a histria do desenvolvimento (provenincia e contexto); segunda, um usurio deve ser capaz de determinar se um objeto o que diz ser (autenticidade); terceira, um usurio deve ser capaz de determinar se o objeto foi corrompido ou alterado de forma no autorizada e no documentada (integridade). Princpio 6 Metadados descritivos, administrativos e estruturais Um objeto digital adequado dever ter associado a ele um conjunto de metadados. Todo o objeto digital dever ter metadados descritivos e administrativos. Os objetos digitais complexos formados por vrios arquivos devero estar associados a metadados estruturais. A efetiva aplicao desses princpios uma etapa importante na viabilizao de repositrios digitais abertos e interoperveis, mas para tal, as orientaes estabelecidas devem ser traduzidas em melhores prticas e o uso de padres abertos e de ampla aceitao. precisamente sobre isso que ser tratado a seguir. 4 PADRES DE FORMATOS PARA OBJETOS DIGITAIS Via de regra existe uma correlao direta entre a qualidade de produo de um objeto digitalizado e a presteza e flexibilidade com as quais este objeto pode ser migrado atravs de plataformas computacionais. Dessa forma, a digitalizao de objetos digitais, utilizando-se o mais alto grau de qualidade disponvel, compensada pela sua utilidade, versatilidade e maior acessibilidade a longo prazo. Entretanto, nem todos os objetos exigem este investimento, cada projeto de digitalizao necessita determinar o valor dos objetos digitalizados e tomar as decises apropriadas em relao persistncia e ao nvel de interoperabilidade desejados (NISO, 2004a). 4.1 Imagens No contexto dos repositrios digitais, a gerao de imagens digitais tem dois propsitos primordiais: o primeiro deles o armazenamento e a preservao; o outro, no menos importante, o acesso. Esta dualidade de propsitos se expressa em exigncias distintas - em termos de qualidade e de procedimentos de gerao de imagens. A funo bsica de um arquivo de preservao servir como um registro arquivstico de longo prazo e como fonte para a derivao de outros formatos de arquivos, atravs de edio ou converso, mais apropriada para o acesso, a apresentao ou a transmisso via rede de computadores. Desta forma, objetos nicos, raros ou frgeis podem ser dependendo do nvel de acesso - compartilhados por um grande nmero de interessados, seja para a pesquisa, ensino ou qualquer outra finalidadeEnc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n. esp., 1 sem. 2007.

21

permitida pelo custodiante. (Princeton University Library). O arquivo de preservao tambm uma descrio e/ou representao digital do objeto analgico original, na medida em que pode substitu-lo funcionalmente em termos de recuperao, apresentao e acesso. Limitando o acesso direto a documentos valiosos, ele pode ser usado tambm como um dispositivo de segurana prevenindo possveis perdas ou danos que possa sofrer o objeto original causado por acidente, furto ou manuseio indevido. Para o caso de bibliotecas digitais, cujo foco principal o contedo informacional textual e iconogrfico - dos objetos, e o objetivo primrio do usurio a recuperao e acesso, a representao digital , na maioria das vezes, suficiente para os seus propsitos. Arquivos digitais de preservao so criados como resultado direto da captura de uma imagem via processos de digitalizao. Estes processos devem capturar o mximo de informao possvel, posto que devem representar o mais precisamente possvel a informao visual presente no objeto original. Devem ser gerados por meio de escanerizao direta. Entretanto, se o objeto original no puder ser digitalizado diretamente devido s suas dimenses ou por outro motivo -, pode ser necessrio usar tcnicas de fotografia como um passo intermedirio. As fotografias intermedirias devem estar bem documentadas e representar o objeto original o mais precisamente possvel. H um consenso absoluto de que o processo de captura de imagem deve ser realizado de maneira correta e uma nica vez. Isto determinado para evitar manipulaes desnecessrias e estresse fsico sobre o material original, reduzindo dessa forma os riscos de deteriorao e/ou a ocorrncia de danos. As imagens de uma coleo digital recaem nas seguintes categorias (Fleischhauer, 1998): a) Imagem de preservao. Imagem de altssima fidelidade usada para preservao, reproduo e derivao de outras imagens em formatos apropriados, tais como miniaturas e imagens de servio. Quanto compresso, a recomendao que a imagem de preservao esteja livre de compresso; entretanto quando for imperativo o seu uso, ela deve ser sem perdas de informao e gerada por mtodos no proprietrios. necessrio enfatizar que a compresso adiciona um grau a mais de complexidade aos processos de migrao voltados para a preservao de longo prazo (California Digital Library, 2001). Formato recomendado: TIFF ITUT6(Tagged Image File Format) formato de 24 bits, compresso interna, sem perda de dados (LZW), acionada opcionalmente. Profundidade de cor: escala de cinza de 8 bits, cor de 24 bits. b) Imagem de acesso ou de servio. Imagens de alta qualidade, comprimidas tendo em vista a otimizao da recuperao, do acesso, da transmisso e da apresentao. Para cada registro a biblioteca pode oferecer um conjunto de imagens de acesso com graus variados de resoluo. Formato recomendado: JPEG (Joint Photographic Expert Group) formato de 24 bits, com o atributo de compresso com perda de dados, porm com alta taxa de compactao, apropriado para transmisso e apresentao, mas no para preservao. Profundidade de cor: escala de cinza de 8 bits, cor de 24 bits por pixel. Compresso de 10:1 para escala de cinza e 20:1 para cores c) Imagem prvia ou miniatura. (thumbnail image). Uma imagem pequena apresentada para permitir ao usurio julgar se de interesse recuperar a imagem de alta qualidade correspondente. Formato recomendado: GIF (Graphic Interchange

Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n. esp., 1 sem. 2007.

22

Format) formato de 8 bits, compresso sem perdas de dados (LZW), apropriada para apresentaes de baixa resoluo. Profundidade de cor: cor de 8 bits por pixel. 4.2 udio O fato dos arquivos de udio serem relativamente volumosos tem implicado num empenho contnuo da indstria de multimdia na busca de novas e melhores solues de compresso e tambm de esquemas de reproduo. Por esta razo, os formatos digitais de udio apropriados para a distribuio via Web so menos estveis do que os formatos digitais de texto e de imagem, e tendem a se tornar obsoletos muito rapidamente (Fleischhauer, 1998). Outra diferenciao importante dos arquivos de udio diz respeito impropriedade de se gerar arquivos de preservao. No caso de arquivos de imagem, quando uma nova verso de distribuio necessria, o arquivo de preservao pode ser usado como fonte para a sua gerao, j para o caso dos arquivos de udio essa gerao deve ser realizada a partir do item original ou de uma verso intermediria (Fleischhauer, 1998). Os formatos de udio digital, em termos de distribuio, so de dois tipos: downloadable e streaming. O primeiro tipo precisa ser baixado completamente para o computador do usurio antes de ser executado. Dado que esses arquivos so mais volumosos eles requerem tempo de transferncia e espao de armazenamento. O segundo tipo, tambm conhecido como udio de fluxo contnuo, executado medida que est sendo transmitido atravs da rede e no pode ser gravado localmente. Esta tecnologia que sustenta a transmisso de servios de rdio via Internet, viabilizando a transmisso ao vivo ou servios sob demanda que se tornaro importantes para as bibliotecas digitais, especialmente as voltadas para o ensino. Os formatos para udio digital mais comuns no domnio dos repositrios digitais so os seguintes (Noerr, 2003): a) WAVE (extenso wav) formado por seqncia de valores numricos que so interpretados pelo computador, possui alta qualidade e facilidade de edio, porm resulta em arquivos volumosos imprprios para transmisso via Internet. b) MPEG-1 Layer III (extenso mp3) so arquivos semelhantes aos arquivos WAV, de elevada qualidade e extremamente compactados, e, portanto, adequados para transmisso por rede. O MP3 deu margem ao surgimento de uma forma inovadora de consumir msica no mundo inteiro (HP do MPEG). c) MIDI - sigla para Musical Instruments Digital Intarface no exatamente um formato de udio, mas uma interface digital para instrumentos digitais, constituindo-se numa especificao padronizada (protocolo) permitindo que instrumentos eletrnicos de qualquer fabricante se comuniquem uns com os outros e com o computador. d) RealAudio (extenso .ra/rm) formato proprietrio da RealNetworks (http://www.realnetworks.com/) que inclui um avanado sistema de compresso e transmisso de udio e video. Alm dos formatos, a qualidade do udio digital depende ainda de outras especificaes. De grande importncia a freqncia de amostragem (sampling rate), que indica a preciso com que um arquivo digital descreve o som analgico que ele representa; corresponde freqncia que a medida de amplitude de um sinal analgico tomada em um intervalo fixo de tempo no processo de converso digital. Quanto maiorEnc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n. esp., 1 sem. 2007.

23

a freqncia de amostragem, melhor a performance do arquivo de udio. Por exemplo: um CD comercial tem a freqncia de amostragem de 44,1 kHz, significando que o sinal medido 44.100 vezes por segundo. Devemos ainda considerar dados como o nmero de canais de gravao; se a gravao mono, estreo ou ainda quadrifnica, e dados sobre processamento de rudo. A deciso sobre a maioria dos parmetros vai depender dos usos que se espera do registro. 4.3 Vdeo Vdeo na realidade uma seqncia de imagens acompanhadas, geralmente, de uma trilha sonora. Para o caso de vdeos digitais, a qualidade est associada quantidade de quadros capturados por segundo (fps frame por segundo) e da qualidade de cada quadro, que expresso pela quantidade de pixels utilizado que tem efeito no tamanho da tela - e pela profundidade de cor. necessrio tambm considerar a qualidade do vdeo original, para o caso de captura de fonte analgica, por exemplo, uma fita de videocassete, e a qualidade do udio com ou sem som, mono, estreo, etc. A peculiaridade mais importante de um vdeo que as imagens so ligeiramente diferentes das anteriores e das posteriores, indicando que uma forma especial de compresso pode ser usada tirando proveito dessa equivalncia aproximada. Sem a compresso os arquivos sero extremamente volumosos. Por exemplo, um segundo de vdeo gravado taxa de 30 fps, com dimenses de imagem de 640 x 480 pixels, com profundidade de cor de 24 bits requer aproximadamente 30 Mb para armazenamento (Noerr, 2003). Isto sinaliza a importncia das tcnicas de compresso para que se viabilize servios de distribuio on-line de vdeos digitais. Os formatos digitais para imagens em movimento adequados para a Web, como os de udio, so tambm menos estveis do que os formatos para texto e imagens, portanto esto mais suscetveis obsolescncia tecnolgica (Fleischhauer, 1998). Assim como para som digital, no ambiente Web, alguns provedores de contedo disponibilizam servio de vdeo streaming, ou vdeo de fluxo contnuo. Essa tecnologia permite que o usurio possa assistir ao vdeo medida que este carregado no seu computador, sem a necessidade de baixar todo o arquivo para depois assisti-lo. Por este motivo, essa tecnologia bastante usada na transmisso de eventos ao vivo e para a transmisso continua de radio e televiso via Internet. Esta modalidade apresenta algumas vantagens imediatas: permite uma melhor qualidade de reproduo; no necessita de muita largura de banda; e no permite que o arquivo seja copiado, como se pode fazer quando se utiliza o downloading. Os softwares necessrios para o usurio executar esses tipos de arquivos so geralmente livres e esto disponveis para a maioria dos sistemas operacionais. importante assinalar que recentes avanos nos processos de extrao de imagem tm permitido que os vdeos digitais possam ser indexados por imagens selecionadas, e estas possam ser analisadas por suas caractersticas (Noerr, 2003). Na seo 7, que trata de metadados, isto analisado com um grau a mais de detalhes. A seguir so apresentados os padres e formatos mais utilizados nos contexto das bibliotecas digitais. a) AVI (extenso: avi) sigla para Audio Video Interleaved -, significando entrelaamento de udio e vdeo. um formato de arquivo audiovisual desenvolvido

Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n. esp., 1 sem. 2007.

24

pela Microsoft para a plataforma Windows, tambm utilizado para streaming. Roda no Windows Media Player. b) MOV (extenso: mov) formato de vdeo desenvolvido pela Apple para o seu programa multimdia, o Quick Time. Pode tambm ser usado para transmisso de fluxo contnuo (streaming). c) Real Player (extenso: ra/rm) formato proprietrio da Real Network bastante utilizado para transmisses em streaming para udio e vdeo. d) MPEG (extenso: mpg/mpeg) padro para compactao de vdeo e udio digitais. O MPEG (Motion Pictures Expert Group) um grupo de trabalho ligado ISO/IEC, instalado em 1988, que tem como responsabilidade o desenvolvimento de padres internacionais para compactao, descompactao, processamento e representao codificada de vdeo e udio digitais e suas combinaes, orientados para uma ampla faixa de aplicaes. Como resultado de seu trabalho, o Grupo desenvolveu um conjunto de padres voltados para compactao de vdeos/udio identificados como o MPEG-1, o MPEG-2 e o MPEG-4. Esses padres tornaram possvel o vdeo interativo em CDROM, o DVD e a Televiso Digital. O MPEG-1 (ISO/IEC 11172), lanado em 1992, prev a criao de vdeos com qualidade de videocassetes padro VHS. Produtos tais como Vdeo CD e MP3 (MPEG-1 Audio Layer III) so baseados neste padro. Por sua vez, o MPEG-2 (ISO/IEC 13818) Generic Coding of Moving Picture and Asociated udio - o padro sobre o qual produtos como a televiso digital e o DVD esto baseados. O MPEG-4 (ISO/IEC 14496) Coding of audio-visual objects o resultado de um esforo internacional envolvendo centenas de pesquisadores e engenheiros de todo o mundo na busca de um padro para multimdia voltado para a Web fixa e a mvel. Ele foi desenhado para entregar vdeos com qualidade de DVD (MPEG-2) a baixas taxas de transmisso e arquivos menores. O MPEG-4 estabelece elementos tecnolgicos padronizados que permitem a integrao da produo, da distribuio e do acesso a contedos nas reas da televiso digital, de aplicaes grficas interativas e de multimdia interativa. O padro segue o paradigma de orientao a objetos e permite a codificao de objetos individuais. Um objeto pode ser um vdeo ou uma imagem (que podem ser sintticos ou naturais), por exemplo, um pssaro em movimento ou uma fotografia de uma pessoa; pode ser ainda um objeto de udio como o som de um instrumento de uma orquestra. A associao de um udio e um vdeo chamado de objeto udio-visual. O padro prov suporte para a representao de informao em 3D varivel no tempo. Uma infra-estrutura para a gerencia e proteo de direitos relativos a objetos individuais tambm foi prevista pelo padro (MPEG). 4.4 Textos Digitais So arquivos textuais legveis por mquina, produzidos com o apoio de editores de texto ou de outros programas similares, ou so resultados de processos de reconhecimento tico de caracteres (OCR Optical Caractere Recognition) a partir de imagens digitalizadas de textos impressos. No contexto de um repositrio digital duas coisas devem acontecer a um arquivo textual: ele tem que ser armazenado de forma que possa ser exibido para o usurio quando requisitado; e precisa tambm ser processado e indexado permitindo que seu contedo esteja disponvel para pesquisa (Noerr, 2003). Um problema importante vinculado aos arquivos textuais que deve ser superado a codificao de caracteres.Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n. esp., 1 sem. 2007.

25

A codificao de caracteres a atribuio de um cdigo computacional para cada letra do documento. Isto feito durante a criao do documento, seja via processador de texto, ou por converso por OCR da imagem escanerizada. Se os documentos provm de fontes distintas e se, particularmente, so escritos em idiomas diferentes, provvel que eles estejam usando esquemas de codificao diferentes, e como conseqncia aparea algo sem sentido para os usurios e para os programas de indexao. Entretanto, existe um esquema nico de codificao universal padronizado internacionalmente pela ISO, o Unicode - ou norma ISO 10646. Esse esquema foi desenvolvido pela Unicode Consortium (http://unicode.org/) e tem como compromisso fornecer um nico nmero para cada caracter, no importa a plataforma, no importa o programa, no importa a lngua (Unicode, 2005). Isto permite que quase todos as escritas atualmente em uso no mundo possam ser codificadas sem ambigidades, alm das escritas histricas j extintas e os smbolos, em especial os matemticos e os musicais. 4.5 Reproduo Textual de Imagens e Textos Pesquisveis Em muitas situaes, principalmente no mundo acadmico, somente uma imagem no o suficiente para o desenvolvimento de algumas atividades de pesquisa. Transcries pesquisveis de textos literrios, livros raros ou manuscritos, por exemplo, podem ser de dramtica importncia para quem est procurando por padres lingsticos - palavras ou expresses particulares - dentro de um texto. Textos transcritos, especialmente quando codificados por intermdio de linguagem de marcao, podem facilitar imensamente o trabalho de navegao de pesquisadores (Fleischhauer, 1998) A TEI, Iniciativa de Codificao Textual Text Encoding Initiative (http://www.tei-c.org/) - uma norma internacional e interdisciplinar, baseada em SGML, e mais recentemente tambm em XML (conhecida como TEI Lite), que capacita as bibliotecas, museus, editores e acadmicos a representar todo o tipo de texto literrio e lingstico destinado pesquisa on-line, ao ensino e preservao, segundo uma DTD (Document Type Definition). O TEI Guidelines for Electronic Text Encoding and Interchange (http://www.tei-c.org/Guidelines2/) alm de especificar como codificar os textos, dedica uma parte especificao de um cabealho, que deve ser inserido no recurso, consistindo de metadados sobre a obra. 4.6 Aparncia do Documento A SGML, e de forma similar a XML, enquanto linguagens de marcao, tm como foco a descrio do contedo e da estrutura do documento; porm, em muitos casos, necessrio tambm descrever a aparncia e o layout do documento e apresentlo em forma impressa e na tela de um equipamento. Para estes casos existe um consenso em torno do PDF Portable Document Interface. O PDF um formato proprietrio da empresa Adobe (http://www.adobe.com/ ), e faz parte de uma sute de produtos de software o Acrobat - destinada criao, edio, exibio, etc. de documentos eletrnicos. Apesar de ser um formato proprietrio, sua especificao encontra-se aberta e disponvel. Entretanto, o PDF no considera aspectos de preservao de longo prazo. Para contornar este problema, estabeleceu-se em 2002 uma iniciativa conjunta, envolvendo instituies de diferentes origens para criar um formato padro, baseado no PDF, para documentos arquivados eletronicamente. Como resultado desta iniciativa, em setembro de 2005 a ISO aprovou uma nova norma, a ISO1905-1 Document Management Electronic file format for long-term preservation Part 1: use of PDFEnc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n. esp., 1 sem. 2007.

26

1.4 (PDF/A-1) que define um formato de arquivo baseado em PDF, conhecido como PDF/A, que prov um mecanismo para representar documentos eletrnicos de forma que seja preservada a aparncia visual destes ao longo do tempo, independente de ferramentas e sistemas usados para criao, armazenamento ou apresentao do arquivo (PDF Tools AG, 2006, p.5). O PDF/A guarda as seguintes caractersticas: independente de plataforma de hardware e software; autocontido, significando que contm todos os recursos necessrios inclusive fontes para exibio/impresso; autodocumentado, contm as suas prprias descries embutidas nos arquivos PDF via Adobe Extensible Metadata Platform (XMP); sem criptografia, ausncia de mecanismos de proteo de arquivos; e baseado numa especificao oficial disponvel publicamente (AIIM, 2006). 4.7 Textos formatados, apresentaes, planilhas, etc. Observa-se uma tendncia acentuada, principalmente por parte das agncias governamentais, de se estabelecer polticas de interoperabilidade que adotem padres abertos para os aplicativos voltados para escritrio editor de texto, planilhas eletrnicas, apresentaes de slides, banco de dados, manipulao de imagens, etc. , hoje dominado fortemente pelo pacote de programas MS Office, de propriedade da Microsoft. A escolha tem recado sobre o Open Document Format (ODF), um conjunto de formatos de arquivos para aplicao de escritrio desenvolvido para estabelecer um padro de mercado, cuja homologao pela ISO aconteceu em maio de 2006 (ISO 26300). Por se tratar de um padro aberto, qualquer software pode implement-lo, tornando mais fcil a manipulao, distribuio e preservao de documentos criados sob este padro. O ODF partiu de uma iniciativa da OASIS Organization for the Advancement of Structured Information Standard um consrcio internacional criado com o objetivo de desenvolver e promover padres para formatos digitais, especialmente para utilizao na Web. A base do ODF um esquema XML inicialmente criado pelos desenvolvedores do Open Office.org (Alecrim, 2006) 5 IDENTIFICADORES PERMANENTES O sucesso de um sistema de informaes distribudas tal como caracterizada a prpria Web depende fortemente da vinculao consistente entre os recursos que esto disponibilizados on-line. Isto se concretiza por intermdio da estabilidade dos links que esto presentes nos catlogos, nos ndices e nas listas que constituem os diversos servios de descoberta de recursos. Contudo, para que isso se efetive necessrio que para cada recurso seja atribudo um nome que o identifique permanentemente, sem ambigidades e independente de localizao. A vinculao entre recursos pode variar de uma simples insero de um link com o sentido de enriquecer uma informao - por exemplo, um hiperlink no nome de uma organizao que mencionada num documento -, at a citao formal a um outro recurso, expresso por uma referncia bibliogrfica. No domnio das bibliotecas digitais, a categoria de links que representa uma citao formal, isto , a que formaliza uma vinculao de um recurso a outro, a mais significativa para a sustentao da integridade do contedo intelectual, constituindo o que a literatura chama de link referencial (Caplan; Arms,1999). Para o desenvolvimento pleno de bibliotecas e arquivos digitais de arquitetura aberta e plenamente interoperveis, h um interesse contnuo por parte dos vrios atores envolvidos, que incluem principalmente as organizaes responsveis peloEnc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n. esp., 1 sem. 2007.

27

ordenamento da Internet, as organizaes internacionais de normalizao e as organizaes voltadas para o desenvolvimento de arquivos e bibliotecas digitais, de superarem a fragilidade dos esquemas atuais de identificao de recursos na Web, atravs do estabelecimento de mecanismos persistentes de identificao que sejam mais robustos e independentes de fatores volteis, como os vinculados ao endereo do recurso na Web e/ou nas tecnologias e protocolos de uso corrente (Payette, 1998). 5.1 O problema de Identificao de Recursos na Internet Nome versus LocalizaoNomes so blocos de estrutura vitais para as bibliotecas digitais. Eles so necessrios para identificar objetos digitais, para registrar propriedade intelectual vinculada a esses objetos e para registrar mudanas na propriedade dos objetos digitais. Eles so necessrios para citao, para recuperao de informao, e so usados como links entre objetos (Arms, 1995).

Para desempenhar este papel, os nomes tm que ser nicos e persistentes. Um nome persistente no contexto dos repositrios digitais compreendido como um identificador nico que perdure por um perodo to longo quanto seja necessrio; que perdure mesmo que a organizao que atribuiu o nome ao objeto no mais exista quando o objeto for usado. Para isto funcionar necessrio estabelecer uma infraestrutura administrativa para decidir quem pode assinalar nomes que identifiquem univocamente os recursos digitais de forma persistente. imprescindvel tambm criar sistemas automatizados - sistemas de resoluo - capacitados a resolver nomes rapidamente, ou seja, sistemas que dem como resposta o endereo onde est armazenado um objeto digital detentor de um dado nome (Arms, 1995). Nos dias de hoje, o URL - Uniform Resource Locator - a porta de entrada para os contedos que esto disponveis na Web. Ele define, como o seu prprio nome diz, a localizao do recurso. De maneira diferente do nmero de chamada de um livro, que raramente reclassificado, o maior problema com os URLs que eles mudam com muita freqncia, esta precisamente a maior fragilidade desse esquema. A crtica mais contundente que se faz ao URL que ele mistura numa mesma cadeia de caracteres elementos que desejavelmente deveriam estar separados, como o mtodo pelo qual o recurso acessado, o nome da mquina servidora e o caminho (path) do documento, isto , sua localizao, e o nome do arquivo, que nem sempre nico (Cleveland, 1998). Apesar dessa fragilidade, freqentemente tratamos o URL como se ele fosse um identificador formal para representar um objeto digital. Na realidade, o URL simplesmente um endereo mascarado como um identificador. Confiar nele como um identificador nico para os recursos digitais, como usar o endereo residencial de uma pessoa no lugar do seu CPF (Payette, 1998). O efeito da instabilidade do URL est continuamente presente para quem busca profissionalmente informao ou simplesmente navega na Web. Repetidamente estamos diante de links quebrados, e a cada dia cresce a proporo de links que produzem como resposta ao seu acionamento a mensagem recorrente: Erro HTTP - 404 Arquivo no encontrado. Estima-se que esse erro ocorre em cerca de 7% dos links (Bigwood, 1999). Numa medida ao longo do tempo, tendo como objeto de estudo uma amostra aleatoriamente selecionada de URLs, foi demonstrado que somente cerca de 34% dos URLs permaneciam ativos depois de um perodo de quatro anos (Koehler, 2002).

Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n. esp., 1 sem. 2007.

28

5.2 Esquemas de Identificao Permanente 5.2.1 URN Uniform Resource Name O esquema de identificadores usados atualmente na Internet o URI - Uniform Resource Identifiers -, cuja especificao est descrita no documento publicado em 1988 RFC 2396 Uniform Resouce Identifiers (URI): Generic Syntax (Berners-Lee et al, 1988). Nesse documento se distinguem duas grandes categorias de URIs: URL (Uniform Resource Locator) e o URN (Uniform Resource Name). O URL se refere ao subconjunto do URI que identifica o recurso atravs da representao do seu mecanismo primrio de acesso (por exemplo, sua localizao na rede); enquanto o URN se refere ao subconjunto do URI que preciso permanecer globalmente nico e persistente mesmo quando o recurso deixa de existir ou se torna indisponvel (BernersLee et al, 1988). Dessas duas categorias, a nica que est plenamente desenvolvida e disseminada o URL (Dack, 2001). A RFC 1737- Functional Requirements for Uniform Resources Names, fixou a concordncia geral em relao aos requisitos bsicos para URNs e, por definio, para qualquer outro esquema til de identificadores persistentes. Esses requisitos so os seguintes (Dack, 2001; Sollins; Masinter, 1994): a) Escopo global: o URN um nome com validade em escala global, o que no implica em dependncia relativa localizao. Ele tem o mesmo significado em qualquer lugar. b) Unicidade global: o mesmo URN no dever nunca ser assinalado para dois recursos diferentes; c) Persistncia: o tempo de existncia de um URN deve ser permanente. Isto , o URN ser globalmente nico para sempre, e pode ser usado como referncia para um recurso digital alm da existncia do recurso e da organizao que lhe atribui o nome; d) Escalabilidade: URN pode ser assinalado para qualquer recurso que venha a ser concebido para disponibilizao na rede por centenas de anos; e) Suporte aos sistemas legados: o esquema deve permitir a incorporao dos sistemas de identificao j existentes sistemas legados - que satisfaam as demais exigncias aqui descritas. Por exemplo, cdigos ISBN e ISSN, identificadores ISO e outros de igual importncia; f) Extensibilidade: qualquer esquema de URNs deve permitir extenses futuras para o esquema; g) Independncia: as condies sob as quais um nome pode ser atribudo so de responsabilidade nica e exclusiva da autoridade que atribui nomes; h) Resoluo: o URN no impede a resoluo (traduo para um URL). Mais especificamente, para URNs que tm URLs correspondentes, deve existir algum mecanismo vivel para traduzir um URN em um URL. Para o pleno funcionamento do esquema URN seria necessrio, entre outras coisas, que fosse incorporado aos navegadores Web padres Internet Explorer, Netscape, etc. a capacidade de reconhecer e direcionar os URNs. A IETF continua a trabalhar em conjunto com toda a comunidade Internet, includos os desenvolvedores de navegadores Web, no intuito de alcanar consenso sobre os padres necessrios para tal. Enquanto isso no acontece, todos os esquemas de URN j implementados, e os que oEnc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n. esp., 1 sem. 2007.

29

sero a curto e mdio prazo tero que utilizar uma intermediao, ou seja, tero que lanar mo de servidores proxy que direcionam a requisio para o computador servidor onde est localizado o recurso que se deseja. Isto significa que os identificadores para funcionarem tm que estar encapsulados em URLs que os direcionem ao endereo do servidor proxy. Isto ser visto em alguns exemplos de implementaes de identificadores persistentes que analisaremos a seguir: Persistent URL(PURL), Handle System e Digital Object Identifier (DOI). 5.2.2 PURL Persistent URL O PURL (http://purl.oclc.org/) um esquema desenvolvido pela OCLC Online Computer Library Center (http://www.oclc.org/) - na tentativa de separar o nome de um recurso Internet de sua localizao, e dessa forma, aumentar a probabilidade de que ele esteja disponvel quando o seu link for acionado. Um dos objetivos subjacentes ao esquema PURL contornar a atual falta de consenso e de progresso nas questes de nomes na Internet e, ao mesmo tempo, estabelecer prticas concernentes ao uso de identificadores persistentes em sistemas bibliogrficos. Nessa direo, o sistema PURL preenche algumas das especificaes do URN, e pode ser considerado uma soluo intermediria aguardando o momento em que o URN se torne uma parte efetiva da arquitetura de informao da Web. A OCLC tem como perspectiva, para um futuro oportuno, poder traduzir mecanicamente o sistema PURL para a forma URN (Weibel; Jul; Shafer, 1995). O PURL funcionalmente um URL cujo endereo do servidor o nome do servio de resoluo PURL. Ou seja, ao invs de apontar diretamente para a localizao do recurso, o PURL aponta para um servio de resoluo intermedirio, que por sua vez consulta uma base de dados que armazena a localizao atualizada do recurso. Em termos de tecnologia web, trata-se simplesmente de um redirecionamento padro HTTP Hypertext Transfer Protocol - no qual no se exige uso de outros protocolos e no h exigncia de modificaes no software cliente (Shafer et al, 1996). Dessa forma, o PURL minimiza o problema da transitoriedade da localizao do URL na medida em que ele sempre traduzido pelo URL corrente do recurso. Uma vez que o PURL de um recurso registrado na base de dados, ele pode ser usado para substituir o URL atual do objeto em diversas instncias onde desejvel maior estabilidade, tais como registros bibliogrficos em catlogos, ou em outros tipos de metadados que estabelecem link com o recurso. Nesta situao, se o URL do recurso mudar por algum motivo, a nica ao de manuteno necessria a atualizao na base de dados do servio de resoluo. O Projeto InterCat demonstrou como o PURL pode ser usado em catlogos on-line, incluindo os PURLs no campo 856 do MARC (Weibel; Jul; Shafer, 1995; Payette, 1998). 5.2.3 Handle System O Handle System (http://www.handle.net) um sistema distribudo de computadores concebido para assinalar, armazenar, administrar e resolver identificadores ou nomes persistentes de objetos digitais conhecidos como handles. Esses nomes podem ser rapidamente resolvidos em informao necessria para localizar e acessar os objetos a que se referem num ambiente de rede, tal como a Internet. O Handle System caracterizado como um sistema de informao de grande amplitude, projetado para alcanar interoperabilidade global atravs de uma rede hierarquicamente distribuda de servidores. O objetivo inicial do Sistema era estabelecer uma infraEnc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n. esp., 1 sem. 2007.

30

estrutura bsica no domnio das bibliotecas digitais e das publicaes eletrnicas; entretanto, o Handle System criou uma arquitetura de tal forma abrangente que aplicaes de propsitos diversos podem ser hoje desenvolvidas tomando-a como base (Dack, 2001; Payette, 1998). O Sistema constitui-se tambm numa implementao do URN Uniform Resource Names -, posto que seu esquema de nomes, resoluo e estrutura de registros esto em conformidade com as especificaes RFC 1737, Functional Requeriments for Uniform Resource Names (Sollins; Mainter ,1994). O Handle System foi desenvolvido pelo CNRI - Corporate for National Research Initiatives (http://www.cnri.reston.va.us/) - e teve sua origem no projeto NCSTRL -Networked Computer Science Technical Report Library (http://www.ncstrl.org/). Parte desse projeto estava voltada para o estabelecimento de uma arquitetura para apoiar o desenvolvimento de uma biblioteca digital aberta e distribuda (Dack, 2001). Uma aplicao do Handle System relativamente conhecida no Brasil a adotada pelo software Dspace (http://www.dspace.org/). Entretanto, o exemplo mais conhecido em escala global o DOI System, que uma aplicao do Handle System voltada para gesto de copyright de objetos digitais. Este sistema ser visto a seguir. 5.2.4 DOI Digital Object Identifier O Digital Object Identifier (http://www.doi.org) uma aplicao especfica do Handle System voltada para a identificao persistente de recursos digitais sobre os quais possam ser atribudos direitos de propriedade intelectual, bem como para o intercmbio de informaes sobre essas propriedades em um ambiente de rede. Alm de identificar, o DOI associa aos objetos digitais dados estruturados, ou seja metadados informaes bibliogrficas e comerciais passveis de atualizao. Nessa direo, o DOI estabelece uma infra-estrutura ampla, que tem como perspectiva ligar os usurios aos fornecedores de contedo, dentro de um escopo que considera sempre a facilitao das prticas de comrcio eletrnico de contedos e a viabilidade da gesto automtica de copyright. Dessa forma, o escopo do DOI se estende alm da inteno de ser um simples identificador, abrangendo tambm os desafios de gerenciar o comrcio eletrnico, as questes ligadas gerncia de direitos para objetos digitais publicados na Internet, o controle de transaes e ainda a comunicao entre os editores e seus clientes (Payette, 1998). O DOI, enquanto uma aplicao do Handle System, se constitui tambm numa implementao dos conceitos circunscritos pelo Uniform Resource Name (URN) e pelo Uniform Resouce Identifier (URI), no entanto a metodologia DOI apresenta um diferencial importante: ela agrega uma infra-estrutura tcnica e social a estes conceitos tericos, que viabilizada pela adoo de um Modelo de Dados. O DOI foi oficialmente lanado na Frankfurt Book Fair em 1997. O seu desenvolvimento de responsabilidade da International DOI Foundation (IDF), uma instituio sem fins lucrativos fundada por iniciativa da Association of American Publisher (AAP), cujo corpo de membros composto por representantes de grandes editores, publicadores e empresas de software, bem como organizaes que representam os interesses dos detentores de direitos autorais, como por exemplo, a International Publishers Association (Dack, 2001). 6 PRESERVAO DIGITAL As bibliotecas digitais hoje so geradoras, custodiantes e distribuidoras de materiais informacionais digitais de toda natureza, e como tal tm a responsabilidade inicial de assegurar a preservao de longo prazo e, conseqentemente, a plenaEnc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n. esp., 1 sem. 2007.

31

acessibilidade a esses materiais. H um consenso claro de que, na medida em que os criadores, disseminadores e proprietrios de informao digital aceitam a responsabilidade inicial de arquivarem seus objetos digitais, tero tambm que incorporar preservao digital nos seus processos. Dessa forma, as bibliotecas digitais se tornam cada vez mais um elo importante na perenizao dos estoques de informao digital, os quais constituem testemunhos das atividades da organizao ou sistema de organizaes no qual essas bibliotecas esto inseridas. Um exemplo concreto disso so as redes de bibliotecas de teses e dissertaes, cujos acervos digitais distribudos em rede so o testemunho das atividades acadmicas e de pesquisa de uma universidade, de um pas ou de uma regio (Marcondes; Sayo, 2003a). A preservao digital envolve no somente a reteno do objeto informacional em si, mas tambm do seu significado. necessrio, portanto, que as tcnicas de preservao sejam capazes de compreender e recriar a forma original ou a funo do objeto de forma que sejam asseguradas sua autenticidade e acessibilidade. Conclui-se, portanto, que para manter os objetos digitais perenemente acessveis para uso, se requer algo mais do que preservar simplesmente o artefato fsico; necessrio considerar tambm vrias outras dimenses que o problema apresenta: 1) a preservao fsica, cujo foco est na preservao das mdias e na sua renovao quando se fizer necessrio; 2) a preservao lgica, que tem como foco os formatos e a dependncia de hardware e software que mantenha legveis e interpretveis a cadeia de bits; 3) preservao intelectual, que tem como foco o contedo intelectual e sua autenticidade e integridade; 4) importante ainda considerar a preservao do aparato na forma de metadados necessria para localizar, recuperar e representar a informao digital; 5) assim como proceder ao monitoramento e instrumentalizao da comunidade alvo, audincia para o qual a informao de forma privilegiada se dirige, no sentido de garantir que ele possa compreender plenamente a informao no momento do seu acesso (Sayo, 2006). Dois documentos tm importncia fundamental na formalizao e na conceitualizao do problema da preservao dos objetos digitais e tambm no estabelecimento de um elenco de informaes necessrias para instruir os processos de preservao. So eles: o relatrio Preserving Digital Information (Task Force on Archiving Digital Information, 1996) e o modelo de referncia OAIS/ISO - Open Archival Information System (CCSDS, 2002) . O Preserving Digital Information, foi produzido pelo Task Force on Archiving of Digital Information em 1966, no mbito da Commission on Preservation and Access (CPA) e do Research Libraries Group (RLG); enquanto o modelo de referncia OAIS foi publicado em 2003 pela ISO e teve o desenvolvimento coordenado pelo Consultative Committe for Space Data System, de sigla CCSDS (http://public.ccsds.org/default.aspx), ligado NASA National Aeronautics and Space Administration. O OAIS tinha como objetivo estabelecer padres para dar apoio preservao de longo prazo de informaes digitais decorrentes de observaes espaciais. Embora o desenvolvimento do modelo tenha se originado no mbito da comunidade espacial, ele se dirige tambm a outras audincias. O documento define um modelo de referncia de alto nvel para um sistema aberto voltado para arquivamento de informaes. No Modelo o sistema de arquivamento definido como uma organizao de pessoas e sistemas que assume a responsabilidade de preservar informao e torn-la disponvel em termos de acesso para uma classe privilegiada de usurios, designada como Comunidade Alvo. Entre outras coisas, o Modelo OAIS tem o objetivo de proporcionar uma arquitetura comum, que pode ser usada para ajudar a compreender o desafio das organizaes que tm a responsabilidade de arquivo,Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n. esp., 1 sem. 2007.

32

especialmente aquelas envolvidas com a informao digital e a sua preservao (Day, 1999; Lavoie, 2000). 6.1 As Estratgias de Preservao Digital At o presente momento - e provavelmente at um futuro indefinido - no teremos disponvel uma estratgia nica capaz de dar conta de todo o espectro de problemas relacionados preservao digital. O que se apresenta so solues especficas para casos especficos. Dentre as solues potencialmente completas, algumas so de uso corrente, mesmo que em pequena escala, outras so experimentais e esto ainda nas bancadas dos laboratrios ou ainda em patamares bastante tericos (Lee et al, 2002). De forma geral, a comunidade envolvida no problema de preservao digital foi capaz de desenvolver mtodos efetivos para a preservao do contedo informacional de materiais digitais, cujos formatos e estruturas so bem conhecidos e mais simples, mas falha ou obtm resultados pfios para materiais mais complexos e dinmicos, ou para os que constituem formas novas ou emergentes de documentos e que expressam a inovao no uso da tecnologia digital. Um fator fundamental de sucesso para o aumento da longevidade dos objetos digitais, no importando a estratgia de preservao digital adotada, est relacionado com a adoo de padres, especialmente os padres abertos. Numa viso otimista, os padres abertos permitem que os documentos digitais sejam representados em formatos mais duradouros e estveis, dessa forma reduzindo a velocidade do ciclo de obsolescncia. A aplicao de padres na preservao digital na codificao, nos formatos e nos esquemas de representao - torna os processos de preservao digital mais fceis, menos freqentes e mais baratos, na medida em que reduzem a grande variedade de processos de preservao customizados, que so decorrentes da multiplicidade de formatos em que se traduzem os objetos digitais no padronizados. Idealmente, a padronizao deve preceder a prpria criao do objeto da preservao (Hedstrom, 1997/1998). Existe um consenso claro entre os especialistas da rea de que a preservao digital pode ser realmente facilitada atravs da adoo de alguns procedimentos que incluem: 1) a definio de um conjunto limitado e gerencivel de padres, preferencialmente abertos e/ou de ampla aceitao e de uso corrente; 2) a aplicao desses padres na criao de novos objetos digitais, ou na converso de documentos analgicos para formatos digitais; 3) o acompanhamento da obsolescncia dos padres desse conjunto e o monitoramento do surgimento de novos padres; 4) a migrao para os novos padres to logo eles estejam consolidados (Bullock, 1999). Outro fator de fundamental importncia para a gesto da preservao digital a adoo de esquemas de metadados que registrem informaes necessrias para a preservao. O OAIS estabelece como essenciais as seguintes informaes: 1) a referncia registra identificao do objeto informacional no contexto local e global e ainda a sua descrio; 2) o contexto - documenta a relao do objeto digital com seu ambiente, incluindo a razo de sua criao e como ele est vinculado com outros objetos do universo digital e as dependncias tecnolgicas de hardware e software; 3) a provenincia - refere-se informao que documenta a cronologia do contedo informacional, incluindo sua origem ou fonte, as mudanas do seu contedo sofridas ao longo do tempo, a cadeia de custdia, propriedade intelectual, permisses de acesso, etc.; 4) a permanncia - documenta os mecanismos de autenticao usados para assegurar que o contedo informacional de um objeto digital no sofreu alteraes no documentadasEnc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n. esp., 1 sem. 2007.

33

, como assinatura digital, certificao digital, criptografia, etc. (Sayo, 2006) 7 METADADOS 7.1 Definies A NISO entende metadados como informao estruturada que descreve, explica, localiza, ou ainda possibilita que um recurso informacional seja fcil de recuperar, usar ou gerenciar. O termo metadados freqentemente designa dados sobre dados, ou informao sobre informao (NISO, 2004b, p.1). As funes dos metadados compreendem a descoberta de recursos - que permitem que recursos sejam identificados, localizados, selecionados por critrios de relevncia e distinguidos por diferenas e similaridades; a organizao de recursos; a facilitao da interoperabilidade; a identificao digital; e a preservao digital. Existem basicamente trs tipos de metadados (NISO, 2004b): a) Metadados descritivos: so os metadados que descrevem um recurso com o propsito de descoberta e identificao. Eles podem incluir elementos tais como ttulo, autor, resumo e palavras-chave; b) Metadados estruturais: so os metadados que indicam como objetos compostos por vrios elementos so recompostos. Por exemplo, como as pginas de um livro, digitalizadas separadamente, so ordenadas para formar um captulo; c) Metadados administrativos: fornecem informaes que ajudam no gerenciamento de um recurso informacional. Por exemplo: informaes sobre como e quando o recurso foi criado, informaes tcnicas sobre o arquivo e sobre quem possui direito de acesso a ele. Existem vrios subconjuntos de dados administrativos, mas dois deles tm sempre um destaque especial e so listados muitas vezes como tipos especficos de metadados, so eles: metadados para gerenciamento de direitos: fornecem informaes sobre os direitos de propriedade intelectual relacionados a um determinado recurso; e metadados para preservao: guardam informaes necessrias a gesto da preservao digital de um determinado recurso (ver item 6.1). Metadados podem descrever recursos informacionais em qualquer nvel de agregao uma coleo, um recurso simples, ou um elemento que faz parte de um outro recurso, como, por exemplo, uma fotografia inserida num artigo; pode ainda ser usado para descrever um trabalho, bem como uma manifestao ou uma expresso desse trabalho, por exemplo, um relatrio, uma edio particular desse relatrio, ou uma cpia especfica da edio. Os metadados podem estar embutidos num objeto digital inscritos na sua codificao, como comum nos documentos HTML; ou podem estar armazenados separadamente, estruturados em base de dados e vinculados ao objeto que eles descrevem, facilitando a busca e a recuperao. 7.2 Esquemas de Metadados Esquemas de metadados so conjuntos elementos de metadados projetados para um propsito especifico como, por exemplo, descrever um recurso informacional. A definio ou significado dos elementos conhecido como a semntica do esquema, e os valores de um dado elemento so os contedos. Os esquemas de metadados, geralmente, especificam os nomes dos elementos e as semnticas correspondentes. A American Library Association (ALA) estabelece que um esquema de metadados fornece uma estrutura formal desenhada para identificar a estrutura do conhecimento de umaEnc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n. esp., 1 sem. 2007.

34

determinada disciplina, e vincular essa estrutura informao da disciplina por meio da criao de um sistema de informao, que auxiliar na identificao, descoberta e uso da informao no mbito dessa mesma disciplina (ALA, 2000). A seguir so revisados os esquemas e estruturas de metadados mais significativos para a rea de bibliotecas digitais. 7.2.1 Descrio bibliogrfica MARC Machine-Readable Cataloguing (http://lcweb.loc.gov/marc/) - um formato desenvolvido por iniciativa da Biblioteca do Congresso Americano iniciado h trinta anos. Os elementos de dados do MARC formam a base da maioria dos catlogos usados hoje em bibliotecas de todo mundo. O MARC passou a ser USMARC nos anos 80 e MARC 21 no final dos anos 90. A Library of Congress Network e o MARC Standards Office esto desenvolvendo uma infra-estrutura para trabalhar com dados MARC em ambiente XML, que disponibiliza um conjunto de componentes - tais como esquemas, folhas de estilo, ferramentas de softwares desenvolvidos e mantidos pela LC - que permite que os usurios trabalhem com dados MARC de acordo com as suas necessidades especficas (Library of Congress, 2004). MODS Metadata Object Description Schema (http://www.loc.gov/standards/mods/) - um esquema de metadados descritivos, derivados do MARC 21, desenvolvido tambm pela Library of Congress. Ele expresso na linguagem de esquema XML e , em parte, uma reposta para a necessidade de se ter um formato bibliogrfico de metadados que no seja especfico para a comunidade de bibliotecas, mas que faa uma ponte entre aplicaes bibliogrficas tradicionais e aplicaes bibliogrficas que tenham outros propsitos. O esquema MODS caracterizase por poder incluir dados selecionados de registros MARC 21 j existentes ou seja, traduzir registro MARC em XML -, bem como de ser capaz de gerar registros originais de descrio de recursos. Uma descrio rica de recursos digitais um foco particular do MODS, que apresenta algumas vantagens sobre outros esquemas. Por exemplo: os elementos do MODS so mais completos do que o Dublin Core; so mais compatveis com dados de bibliotecas do que o ONIX e o Dublin Core; e so mais simples de aplicar do que o MARC 21. Alm disso, atravs do uso da linguagem de esquema XML, o MODS oferece uma srie de aprimoramentos em relao ao MARC (NISO, 2004b). DUBLIN CORE METADATA ELEMENT SET (http://dublincore.org/) a lngua franca para a representao de informaes na Web.. Seu objetivo original era definir um conjunto de elementos que pudesse ser usado pelos prprios autores para descrever seus trabalhos publicados na Web, tendo em vista a proliferao de recursos eletrnicos e a impossibilidade dos profissionais de informao em catalog-los. A idia era definir uns poucos elementos e algumas regras simples. Originalmente o esquema contava com 13 elementos, hoje so 15. Esses elementos so ncleos de representao que viabilizam interoperabilidade entre vrios sistemas Controvrsias e discusses levaram a alguns refinamentos semnticos e a ampliao para atender a interesses de comunidades especficas. Todos os elementos do DC so opcionais e repetitiveis e podem ser apresentados em qualquer ordem (NISO, 2004b). 7.2.2 Arquivos EAD Encoded Archival Description (http://www.loc.gov/ead/ ) - um conjunto de regras, formando uma estrutura, desenvolvido como um meio para marcao de partes intelectuais e fsicas de instrumentos de localizao de informaesEnc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n. esp., 1 sem. 2007.

35

contidas em arquivos tais como inventrios, guias ou catlogos -, de forma que estas possam ser buscadas, recuperadas, exibidas e intercambiadas entre computadores e pessoas independente de plataforma (EAD, 2006). As regras do EAD so escritas na forma de uma DTD/SGML - Document Type Definition/Standard Generalized Markup Language-, que usa representaes codificadas de elementos voltadas para o processamento eficiente por mquina (NISO, 2004b; Gmez; Pitti, 1999). 7.2.3 Objetos Educacionais LOM Learning Object Metadata (http://ltsc.ieee.org/wg12/) - um modelo de dados, geralmente codificado em XML, usado para descrever adequadamente objetos de aprendizagem. Estabelecido pela norma IEEE 1484.12.2-2002, o LOM foi desenvolvido pelo IEEE Learning Technology Standards Commiteee (LTSC) tendo como foco a definio de um conjunto mnimo de atributos necessrios ao gerenciamento, localizao e avaliao de objetos de aprendizagem, que so definidos neste contexto como qualquer entidade, digital ou no, que pode ser usada, reusada durante o aprendizado apoiado por tecnologia - educao distncia e treinamento baseado em computador, ambiente interativo de aprendizagem, etc. Exemplos de objetos de aprendizagem incluem itens tais como contedo multimdia, ferramentas de software, softwares educacionais, bem como pessoas, organizaes e eventos. Os atributos so agrupados em nove categorias (NISO, 2004b; Ogbuji, 2003): 1) Geral contm informao sobre o objeto como um todo; 2) Ciclo de vida contm metadados sobre a evoluo do objeto; 3) Meta-metadados informa sobre os metadados que descrevem o objeto; 4) Tcnico apresenta descrio de caractersticas e requisitos tcnicos; 5) Educacional contm atributos educacionais e pedaggicos; 6) Direitos descreve direitos relacionados propriedade intelectual e condies de uso; 7) Relao identifica objetos relacionados; 8) Notao contm comentrios e a data, alm do autor do comentrio; 9) Classificao descreve o objeto em relao a um sistema de classificao particular (IEEE). 7.2.4 Comrcio Eletrnico Os esquemas de metadados esto crescentemente sendo desenvolvidos para dar apoio ao comrcio eletrnico e gesto de direitos relacionados propriedade intelectual. Nesta categoria se enquadram o e o ONIX. Framework Interoperability of Data in Commerce System - fundamentalmente um modelo de dados para a propriedade intelectual e sua transferncia. Ele resultado de um esforo colaborativo internacional apoiado pelo European Commisions Info 2000 Programme, cujos participantes so detentores de direitos e/ou produtores de contedo, e que por esse motivo necessitavam desenvolver uma infra-estrutura que apoiassem o comrcio via rede envolvendo propriedade intelectual. Ao invs de propor um novo esquema de metadados, o caracteriza-se por disponibilizar uma infra-estrutura comum que permite que transaes entre esquemas relacionados a gneros diferentes - como msica, artigos de peridicos e livros - possam trocar informaes, especialmente as concernentes propriedade intelectual. Para tal, o desenvolveu um ncleo comum de metadados obrigatrios (NISO, 2004b; Rust: Bide, 2000). Vrias organizaes desenvolveram esquemas de metadados especficos sobre a infra-estrutura do . Este o caso do ONIX (Online Information Exchange) International Standard. Ele um esquema de metadados baseado em XML,Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n. esp., 1 sem. 2007.

36

desenvolvido por iniciativa da American Association of Publishers (AAP) em colaborao com a indstria livreira dos Estados Unidos e da Europa. Atualmente o ONIX mantido e publicado pelo EDItEUR (http://www.editeur.org/). O ONIX for books o padro internacional para representar e comunicar informaes sobre produtos da indstria livreira no formato eletrnico. Ele oferece elementos para registrar uma ampla gama de informaes promocionais e de avaliao, bem como dados bibliogrficos bsicos e dados comerciais. ONIX for serials uma famlia de formatos XML desenvolvido pela EDItEUR e a NISO para comunicar informaes sobre peridicos e subscries tendo como base muitos dos elementos definidos no ONIX for books (NISO, 2004b). 7.2.5 Objetos Visuais Metadados usados para descrever objetos visuais, tais como pinturas ou esculturas, devem possuir requisitos especficos. Nessa direo a Art Information Task Force (AITF) desenvolveu uma infra-estrutura conceitual para descrever e acessar informaes sobre obras de arte, arquitetura, materiais culturais, grupos e colees de obras de arte e suas representaes visuais denominado CDWA Categories for Description of Works of Art (http://www.getty.edu/research/conducting_research/standards/cdwa/). O CDWA inclui 512 categorias e subcategorias, sendo que um subconjunto de categorias considerada o ncleo - representa a informao mnima necessria para identificar sem ambigidades e descrever um trabalho. Orientao, dimenses, condies, dedicatrias, tratamento de conservao e exposio so alguns dos elementos descritivos especficos e relevantes para o domnio das obras de arte (NISO, 2004b; Getty Foundation, 2006). CDWA Lite um esquema XML para descrever registros do ncleo de categorias baseados no CDWA e no Cataloging Cutural Objects (CCO). Os registros do CDWA Lite so vocacionados para contribuio a catlogos coletivos e a outros repositrios por intermdio do Open Achives Initiatives (OAI) Harvesting Protocol (Getty Foundation, 2006). Por outro lado, o VRA Core Categories Visual Resources Association Data Standards Committee (http://www.vraweb.org/vracore3.htm) - est relacionado s colees de registros visuais usados no ensino de histria da arte e assuntos similares que no contm obras originais, mas sim fotografias e slides dos originais. Isto significa que metadados para esses materiais tm que acomodar a descrio de nveis mltiplos de recursos relacionados, tais como a pintura original, um slide da pintura e uma imagem digitalizada do slide. Em resumo: o VRA Core Categories define um conjunto simples de metadados que pode ser usado para descrever uma obra, bem como as representaes visuais dela. 7.2.6 Multimedia Nos dias de hoje esto disponveis em escala mundial uma grande quantidade de informao udio-visual em formato digital que necessita de representao especfica para serem adequadamente buscadas, identificadas e recuperadas. O ISO/IEC Moving Picture Expert Group (MPEG) vem desenvolvendo um conjunto de padres para representao codificada de udio e vdeo digital. Neste conjunto, dois padres tratam de metadados, o MPEG-7 e o MPEG-21. MPEG-7 Interface de Descrio de Contedo Multimdia - define os elementos de metadados, a estrutura e os relacionamentos que so utilizados para descrever objetosEnc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n. esp., 1 sem. 2007.

37

audiovisuais, incluindo figuras, grficos, modelos em 3D, msica, udio, fala, vdeo e colees multimdia. O MPEG-7 pode ser definido como uma interface para descrio de contedos multimdia que serve tanto para sistemas que atuam com usurios humanos, como para processamento automtico. O padro disponibiliza um conjunto de ferramentas de descrio (Description Tools), que incluem descritores (Descriptors) que definem a sintaxe e a semntica de cada elemento de metadados; e esquemas de descrio (Description Schema) que especificam a estrutura e a semntica dos relacionamentos entre os elementos. Com um olhar no futuro, espera-se que mquinas de busca possam utilizar os metadados de descrio MPEG-7 para identificar objetos udio-visuais de maneira inteiramente nova, como por exemplo, tocar umas notas no teclado e recuperar uma lista de peas musicais que contm a seqncia de notas .(NISO, 2004b; Chella). MPEG-21 foi desenvolvido para solucionar a necessidade de uma infra-estrutura que assegure a interoperabilidade de objetos digitais multimdias. Nesta direo, o padro estabelece uma infra-estrutura normativa aberta para a disseminao e consumo desses objetos por todo os atores envolvidos. MPEG-21 baseado em dois conceitos essenciais: a definio de uma unidade fundamental de distribuio e transao Item Digital -, e o conceito de Usurios que interagem com os Itens Digitais. Dentro desse contexto, o MPEG-21 define a tecnologia necessria para dar apoio aos Usurios que desejam acessar, consumir, comercializar ou manipular Itens Digitais de forma eficiente, transparente e interopervel, e ainda considerando as permisses, direitos e propriedade intelectual (NISO, 2004b). 7.2.7 Estruturas de Metadados O METS Metadata Encoding and Transmission Standard (http://www.loc.gov/standards/mets/) - foi desenvolvido para preencher a necessidade de uma estrutura de dados padronizada para descrever objetos digitais complexos no contexto de uma biblioteca digital (NISO, 2004b). O METS um esquema XML para a criao de instncias de documento XML que expressa a estrutura de objetos digitais no mbito de uma coleo, prov a codificao e o encapsulamento de metadados descritivos, administrativos e estruturais necessrios para a recuperao, apresentao, gesto e preservao de objetos digitais, e ainda para o intercmbio de informaes entre repositrios. Adicionalmente, o METS oferece a possibilidade de associar um objeto digital com comportamentos ou servios. Um documento METS consiste em sete principais sees: 1) Cabealho METS contm metadados descrevendo o prprio documento METS; 2) Metadados descritivos pode apontar para metadados descritivos externos ao documento METS (por exemplo: um registro MARC num OPAC ou um registro EAD num servidor web), ou conter metadados embutidos internamente ou ambos; 3) Metadados administrativos oferece informaes sobre como os arquivos foram criados e armazenados, direitos sobre propriedade intelectual, informaes sobre o objeto original a partir do qual o objeto foi derivado, informaes sobre a provenincia dos arquivos que compe o objeto. Podem ser externos ou codificados internamente; 4) Seo de arquivos relaciona todos os arquivos que compem as verses eletrnicas do objeto digital; 5) Mapa estrutural delineia uma estrutura hierrquica para o objeto da biblioteca digital que permite usurios navegar nele, vinculando os elementos dessa estrutura a arquivos de contedo e metadados referentes a cada elemento; 6) Links estruturais permite aos criadores METS registrar a existncia de links entre ns na hierarquia delineada no mapa estrutural. de particularEnc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n. esp., 1 sem. 2007.

38

valor quando o METS utilizado para arquivar sites; 7) Comportamento associa comportamentos executveis com o contedo no objeto METS. O METS mantido pela Library of Congress e desenvolvido como uma iniciativa da Digital Library Federation (Library of Congress, 2006; NISO, 2004b). A RDF Resource Description Framework (http://www.w3.org/RDF/) , desenvolvida sob os auspcios da W3C - World Wide Web Consortium (http://www.w3.org/), estabelece uma infra-estrutura tcnica que permite a codificao, intercmbio e reuso de metadados estruturados. Trata-se de um modelo de dados para a descrio de recursos na Web que oferece mecanismos para integrar mltiplos esquemas de metadados. O modelo permite interoperabilidade de metadados entre aplicaes que fazem intercmbio de informaes de forma automatizada na Web. Isto realizado por meio da definio de mecanismos que suportem convenes consensuais de semntica, sintaxe e estrutura. Os metadados RDF podem ser usados em vrias reas de aplicao, por exemplo: na descoberta de recursos, possibilitando um melhor desempenho das mquinas de busca; na catalogao, descrevendo contedos; por agentes inteligentes na facilitao do compartilhamento e troca de conhecimento; alm disso, constitui uma das bases da Web Semntica. A RDF usa XML como uma sintaxe comum para intercmbio e processamento de metadados (Miller, 1998; NISO, 2004b). 8 PADRES DE INTEROPERABILIDADE Interoperabilidade pode ser considerada como o processo contnuo de assegurar que sistemas, procedimentos e cultura de uma organizao sejam gerenciados de modo a maximizar as oportunidades para intercmbio e o reuso de informaes. Considerando esta definio estabelecida por Paul Miller (Miller, 2000) e ratificada pela UKOLN (http://www.ukoln.ac.uk/), fica claro que a interoperabilidade est longe de depender somente de requisitos tcnicos como por exemplo, o uso de software e hardware compatveis -, embora isso seja muito importante. Assegurar a plena interoperabilidade exige freqentemente uma mudana radical na forma pela qual uma organizao trabalha, se relaciona com as organizaes parceiras, usurios e fornecedores e, especialmente, sua atitude diante dos problemas relacionados informao. A interoperabilidade tem muitas faces, sendo que a mais visvel a interoperabilidade tcnica , que tem como objeto o desenvolvimento contnuo de padres e protocolos de comunicao, transporte, armazenamento e codificao de informaes, tais como Z39.50, OAI-PMH, ISO-ILL, XML entre muitos outros, no entanto outros aspectos relevantes devem ser considerados, tais como: a) Interoperabilidade semntica est relacionado com a adoo de ferramentas comuns ou/e mapeveis de representao da informao, como esquemas de metadados e tesauros; b) Interoperabilidade poltica/humana considera as implicaes para a organizao, equipe e usurios de tornar as informaes mais amplamente disponveis; c) Interoperabilidade intercomunitria enfoca a necessidade crescente de acesso a informaes provenientes de um espectro amplo de fontes distribudas por organizaes e comunidades de natureza distintas. Geralmente exige o estabelecimento de fruns para discusso e consenso em torno de prticas padronizadas; d) Interoperabilidade legal considera as exigncias e as implicaes legais de tornar livremente disponveis itens de informao;Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n. esp., 1 sem. 2007.

39

e) Interoperabilidade internacional quando se atua em escala internacional necessrio contornar a diversidade de padres e normas, os problemas de comunicao, as barreiras lingsticas, as diferenas no estilo de comunicao e na falta de uma fundamentao comum. 8.1 Nveis de Interoperabilidade Arms e seus colaboradores (Arms et al, 2002), no contexto do desenvolvimento da NSDL - National SMETE Digital Library -, identificam trs nveis de interoperabilidade aplicveis ao domnio das bibliotecas digitais: federao, harvesting (colheita automtica de metadados) e gathering (agregao automtica de informao). O nvel mais alto, a federao, corresponde a mais potente forma de interoperabilidade, em contrapartida a que exige maior nus dos participantes Para se efetivar ela exige que um grupo de organizaes concorde que seus servios estejam em conformidade com um conjunto de especificaes, geralmente selecionadas a partir de padres formalizados. O principal desafio que se coloca na formao de federaes o esforo despendido por cada organizao em implementar e manter atualizado todos os nveis dos acordos. As bibliotecas que compartilham registros de catlogos on-line usando o protocolo Z39.50, trabalham segundo o nvel de federao. O ANSI/NISO39.50 (ISO 23950) um protocolo de comunicao entre computadores que pode ser implementado sobre qualquer plataforma. Ele tem como propsito a pesquisa e a recuperao de informaes. A implementao do protocolo permite que atravs de uma nica interface seja possvel o acesso uniforme a uma diversidade de fontes de informaes heterogneas de modo sncrono e quase transparente para o usurio-final (Healy, 2002). Porm, as dificuldades de se criar grandes federaes foi a principal motivao para busca de solues menos onerosas para o estabelecimento de interoperabilidade entre bibliotecas digitais. Idia subjacente que os participantes concordem em despender um pequeno esforo que possibilite o compartilhamento de alguns servios bsico, sem que seja necessrio o enquadramento a um conjunto completo de acordos. Nesta situao se enquadra o conceito de colheita automtica de metadados (metadata harvesting), estabelecido pelo protocolo OAI-PMH Open Archive Intiative Protocol of Metadata Harvesting. Enquanto os servios baseados em havesting so assncronos e menos sofisticados do que os providos pelas federaes, a sobrecarga sobre os participantes consideravelmente menor. Como resultado, muito mais organizaes esto optando por este tipo de interao, o que provado pela rpida aceitao do OAIPMH (Marcondes; Sayo, 2003b). Mesmo que um determinado grupo de organizaes no estabelea nenhum grau formal de cooperao, um nvel bsico de interoperabilidade ainda possvel por meio de agregao automtica de informaes disponveis publicamente, utilizando-se metabuscadores, robs, mquinas de busca e ainda atravs dos protocolos que suportam web services. A agregao no requer essencialmente pouco ou nenhum esforo por parte dos participantes, entretanto oferece um grau baixo de interoperabilidade (Arms, 2002). 8.2 Interoperabilidade via links referenciais Conforme foi analisado na seo 5, os links tm uma importncia vital na interoperabilidade entre servios oferecidos por bibliotecas digitais. Duas idias inovadoras uma expressa por um sistema e a outra por uma norma NISO implementam o conceito de links referenciais e tm contribudo para surgimento deEnc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n. esp., 1 sem. 2007.

40

servios novos e surpreendentes. So eles o CrossRef (http://www.crossref.org). e o OpenURL Framework for Context-Sensitive Services (http://www.niso.org/standards/standard_detail.cfm?std_id=783) . Todos reconhecem que as referncias constituem um ncleo de vital importncia nos peridicos cientficos. consenso que a citao num texto acadmico, expresso por meio de referncias bibliogrficas, um dos fundamentos bsicos do sistema corrente de comunicao cientfica.. Com o surgimento dos peridicos eletrnicos, tornou-se possvel o desenvolvimento de mecanismos que permitem o acesso imediato, via links, a trabalhos referenciados num artigo. Esta facilidade hoje algo to importante para os usurios que se transformou em um imperativo econmico para os editores cientficos: ter hoje disponvel nas publicaes eletrnicas links referenciais tornou-se uma caracterstica essencial. Reconhecendo a importncia dos links referencias para os seus usurios e para os seus negcios, os editores cientficos, numa iniciativa incomum de cooperao, estabeleceram as bases para um servio colaborativo de links referenciais. Neste contexto que surgiu no ano 2000 o CrossRef. (Pentz, 2001; Brand, 2001). O CrossRef oferece uma infra-estrutura que sustenta um sistema de referncias cruzadas via links referencias. Isto permite que um usurio clique numa referncia citada em um peridico publicado pelo editor A, e assim seja conduzido diretamente ao contedo referenciado publicado num peridico do editor B. O Sistema se constitui essencialmente em uma base de dados CrossRef Metadata Database (MDDB) - onde os editores associados depositam DOIs e os URLs correspondentes, alm de um conjunto mnimo de metadados - ttulo do peridico, volume, nmero, ISSN, paginao e autor principal - de artigos cientficos publicados por eles. Esta submisso feita em formato XML, segundo a Document Type Definition (DTD) disponvel no website do CrossRef . Como parte do processo, os DOIs e os URLs dos artigos so registrados no Diretrio Central DOI, operado pela DOI Foundation (http://www.doi.org) (Atkins, 2000). Por outro lado, a norma OpenURL trata da resoluo de links considerando o contexto do usurio. Quando um usurio clica sobre um link presente num recurso informacional, como por exemplo, uma citao num peridico eletrnico, ele redirecionado sempre para a mesma verso do contedo a verso default geralmente publicada no website do editor. Isto acontece porque os links convencionais no levam em considerao a identidade do usurio, seu contexto institucional, suas preferncias e direitos em termos de acesso e de servios disponveis para ele, conduzindo-os todos, indistintamente, para a mesma fonte. Se o servidor de links est informado sobre o contexto do usurio, ele ser capaz de considerar a identidade do usurio quando da resoluo dos metadados, direcionando-o para um servio cujo acesso lhe seja o mais conveniente a chamada cpia apropriada - e/ou apresentando um menu de opes de servios. Isto configura uma soluo aberta, sensvel ao contexto. Dessa forma, a norma OpenURL define um protocolo para interoperabilidade entre um recurso de informao e um componente de servio, denominado servidor de links, que oferece servios de localizao sensveis ao contexto, atravs da interpretao de metadados bibliogrficos, codificados segundo uma sintaxe prpria, que descrevem uma publicao. Em resumo: A norma OpenURL especifica um formato padronizado para transportar metadados bibliogrficos de objetos informacionais entre servios de informao (Van de Sompel; Beit-Arie, 2001).

Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n. esp., 1 sem. 2007.

41

9 GUISA DE CONCLUSO O conceito de interoperabilidade est longe de ser uma novidade no domnio das bibliotecas. Desde sempre se soube que as bibliotecas no so ilhas e sempre precisaram, para cumprir bem o seu papel, trocar informaes, estabelecer servios cooperativos, intercambiar documentos. Toda uma estrutura global foi montada em torno da idia do compartilhamento e da cooperao entre bibliotecas. Entretanto, com a consolidao e a concretizao do conceito de bibliotecas digitais - que se localiza na interseo entre biblioteconomia, cincia da computao e tecnologias de rede -, aliados ao crescente interesse da indstria de contedos nas formas de disseminao dos repositrios digitais como meio de distribuio de seus produtos no ambiente de uma nova economia da informao, a interoperabilidade se torna um foco de grande interesse para muitos atores. Vimos que a interoperabilidade depende fortemente de processos baseados em padres abertos e bem documentados. Os projetos importantes de sistemas de bibliotecas digitais em todo o mundo regionais, nacionais e internacionais -, aliados ao governo, empresrios e profissionais da informao, tm se congregado em fruns especiais para decidir sobre conjunto de padres, protocolos, formatos e melhores prticas que possam ser adotadas em comum em seus projetos. Em nosso pas, tambm e em nosso continente, essas aes tm sido pfias e de pouco alcance. Com a tecnologia disponvel e barata, os repositrios digitais esto rapidamente se proliferando sem a perspectiva da integrao e da interoperabilidade. portanto urgente que se traduza a interoperabilidade humana e poltica em aes estruturantes e de regulamentao, para que finalmente possam ser criados novos repositrios digitais plenamente abertos e interoperveis, e, no menos importante, para que se possam criar mecanismos para integrar tambm os j existentes. REFERNCIAS BIBLIOGRFICAS AIIM. Frequently Asked Questions (FAQs): ISO 19005-1: 2005 PDF/A-1. AIIM, July 2006. Disponvel em . Acessado em 05 maio 2007. ALA COMITEE ON CATALOGUING: DESCRIPTION AND ACCESS. Task Force on Metadata. American Library Association, June 2000. Disponvel em . Acessado em 04 maio 2007. ALECRIM, Emerson. OpenDocument Format (ODF). Infowester, 2006. Disponvel em . Acessado em 04 maio 2007. ATKINS, Helen et al. Reference Linking with DOIs. D-Lib Magazine, v.6, n.2, February 2000. Disponvel em . Acessado em 04 maio 2007. ARMS, William Y. et al. A Spectrum of Interoperability: the site for Science for Prototype for the NSDL. D-Lib Magazine, v.8, n.1, January 2002. Disponvel em . Acessado em 04 maio 2007.

Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n. esp., 1 sem. 2007.

42

ARMS, William Y. Key Concepts in the Architecture of the Digital Library. D-Lib Magazine, July 1995. Disponvel em . Acessado em 05 maio 2007. BERNERS-LEE, T., FIELDING, R., IRVINE, U.C., MASINTER, L. RFC2396 Uniform Resource Identifier (URI): Generic Syntax. Network Working Group, August 1988. Disponvel em . Acessado em 05 maio 2007. BIGWOOD, David. Persistent links, one solution to a common problem. HAL-PC Magazine, June 1999. Disponvel em . Acessado em 04 maio 2007. BRAND, Amy. CrossRef Turns One. D-Lib Magazine, v.7, n.5, May 2001. Disponvel em . Acessado em 04 maio 2007. BULLOCK, Alison. Preservation of digital information: issues and current status. Ottawa : National Library of Canada, April 22, 1999. Disponvel em: . Acesso em 04 maio 2007. CALIFORNIA DIGITAL LIBRARY. Digital Image Format Standards. California Digital Library, July 2001. Disponvel em . Acessado em 04 maio 2007. CAPLAN, Priscilla, ARMS, William Y. Reference Linking for Journal Articles. D-Lib Magazine, v.5, n.4, April 1999. disponvel em . Acessado em 04 maio 2007. CCSDS - CONSULTATIVE COMMITEE FOR SPACE DATA SYSTEM. Reference model for Open Archival Information System (OAIS): recommendation. Washington : CCSDS, 2002. 139p. Disponvel em . Acesso em 04 maio 2007. CHELLA, Marco Tlio. Sistema para Classificao e Recuperao de Contedo Multimdia Baseado no Padro MPEG-7. Disponvel em . Acessado em 04 maio 2007. CLEVELAND, Gary. Digital libraries: definitions, issues and challenges. IFLANET UDT Occasional Papers, March 1998. Disponvel em . Acessado em 04 maio 2007. DACK, Diana. Persistent Identification Systems, part 1: background. National Library of Australia, May 2001. Disponvel em . Acessado em 04 maio 2007. DAY, Michael. Metadata for digital preservation: an update. Ariadne, v.22, Dec. 1999. Disponvel em: . Acesso em 04 maio 2007.Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n. esp., 1 sem. 2007.

43

DIGITAL LIBRARY FEDERATION (2002). A Working Definition of Digital Library [1998]. Disponvel em . Acessado em 04 maio 2007. . Development of the Encoded Archival description DTD. Library of Congress, 2006. Disponvel em http://www.loc.gov/ead/eaddev.html>. Acessado em 04 maio 2007. FLEISCHHAUER, Carl. Digital Formats for Content Reproduction. Washington, DC: Library of Congress, 1998. Disponvel em . Acesso em 04 maio 2007. GETTY FOUNDATION. Categories for the Description of Works of Art. Getty Foundation, 2006. Disponvel em . Acessado em 04 maio 2007. GMEZ, Alejandro Delgado. Introduccin a Encoded Archival Description (EAD): Mitos y oportunidades. Disponvel em . Acessado em 12 dez. 2006. HAIGH, Susan. A glossary of digital library: standards, protocols and format. Libraries and Archives Canada, 1998. Disponvel em . Acessado em 04 maio 2007. HEALY, Leigh Watson. Z39.50 A primer on the protocol. Bathesda, MD : NISO Press, May 2002. Disponvel em . Acessado em 04 maio 2007. HEDSTROM, Margaret. Digital preservation: a time bomb for digital libraries. Computer and the Humanities, v.31, n.3, p.189-202, 1997/1998. Disponvel em: . Acesso em 04 maio 2007. IEEE. WG12: Learning Object Metadata. Disponvel em http://ltsc.ieee.org/wg12/. Acessado em 04 maio 2007. ISO - INTERNATIONAL ORGANIZATION FOR STANDARDIZATION. Overview of the ISO System. ISO, 2006. Disponvel em . Acessado em 04 maio 2007. KOEHLER, W. Web page change and persistence: a four-year longitudinal study. Journal of the American Society for Information Science and Technology, v.53, n.2, p.162-171, 2002. (DOI:10.1002/asi.10018).

Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n. esp., 1 sem. 2007.

44

LAVOIE, Brian. Meeting the challenges of digital preservation: the OAIS reference model. OCLC Newsletter, n.243, p.26-30, Jan./Feb. 2000. Disponvel em: . Acesso em 04 maio 2007. LEE, Kyong-Ho et al. The State of the Art and Practice in Digital Preservation. Journal of Research of the National Institute of Standards and Technology, v.107, n.1, p. 93106, January-February 2002. Disponvel em: . Acesso em 04 maio 2007. LIBRARY OF CONGRESS. MARC XML Design Considerations. Library of Congress, 2004. Disponvel em . Acessado em 04 maio 2007. LIBRARY OF CONGRESS. METS: Introduo & Tutorial. Library of Congress, 2006. Disponvel em < http://www.loc.gov/standards/mets/METSOverview.v2_port.html>. Acessado em 04 maio 2007. MARCONDES, Carlos Henrique, SAYO, Luis Fernando. The SciELO Brazilian Scientific Journal Gateway and Open Archives: A Report on the Development of the SciELO-Open Archives Data Provider Server. D-Lib Magazine, v.9, n.3, March 2003a. Disponvel em: . Acesso em: 04 maio 2007. MARCONDES, Carlos Henrique, SAYO, Luis Fernando. Brazilian Digital Library of Theses and Dissertations. The International Information & Library Review, n.35, v.2-4, June-December 2003b, p.265-279. MILLER, Paul. Interoperability: what is it and why should I want it. Ariadne, n.24, June 2000. Disp