vocabulÁrio controlado do governo eletrÔnico … · abandono do tesauro como forma de...

Download VOCABULÁRIO CONTROLADO DO GOVERNO ELETRÔNICO … · abandono do tesauro como forma de apresentação. A partir dessa constatação, a pesquisa avalia a versão 1 e a versão 2.0.3

If you can't read please download the document

Upload: vuongngoc

Post on 10-Nov-2018

221 views

Category:

Documents


0 download

TRANSCRIPT

  • JOO PRIMO RAMIREZ RIGHI

    VOCABULRIO CONTROLADO DO GOVERNO ELETRNICO (VCGE):

    UMA ANLISE COM BASE EM CRITRIOS APLICVEIS A TAXONOMIAS E TESAUROS

    Dissertao de mestrado apresentada Banca Examinadora do Programa de Ps-Graduao em Cincia da Informao do Centro de Cincias da Educao da Universidade Federal de Santa Catarina, como requisito parcial para a obteno do ttulo de Mestre em Cincia da Informao, rea de concentrao Gesto da Informao, linha de pesquisa Organizao, Repre-sentao e Mediao da Informao e do Conhecimento, sob a orientao da Professora Doutora Marisa Brscher Baslio Medeiros.

    Florianpolis, 2015

  • Ficha de identificao da obra elaborada pelo autor, Atravs do Programa de Gerao Automtica da Biblioteca

    Universitria da UFSC.

  • AGRADECIMENTOS A Deus, bondade, sabedoria e justia suprema por ter me

    concedido o maior dom de todos a Vida e pelas bnos e graas recebidas.

    Aos meus pais Carlos (in memoriam) e Elza (in memoriam) que nas suas simplicidades de vida me ensinaram valores fundamentais como a honra, a honestidade, a modstia, a simplicidade e o respeito ao semelhante.

    minha esposa Marisa que sempre me incentivou nos meus estudos, abdicou da minha presena se sacrificando para que eu passasse este tempo distante, realizando meu sonho.

    Aos meus filhos Cassia, Ernani, Flvia, Juliana, Joo Paulo e Mauricio que tambm abdicaram da minha presena fsica, pelo carinho, pelo estmulo e pelo sacrifcio em assumir a minha ausncia por tanto tempo. Ao Ernani, pelo presente do notebook que me acompanha desde o incio do curso.

    Aos meus netos Laura, Gabriel, Lucas e Maria Tereza pelo carinho e tambm por ter cuidado da av na minha ausncia. Aos pequenos, Joo Augusto e Helena, pelo carinho e pelo sorriso toda vez que regressava a Belo Horizonte.

    Ao meu querido irmo Carlos Antnio, minha cunhada Mrcia e aos meus sobrinhos Lucas e Joo pelo carinho e apoio que me deram ao longo do curso, pela hospedagem e pelas orientaes.

    A minha querida orientadora Dra. Marisa Brscher, pessoa por quem tenho o maior carinho e admirao, que esteve sempre ao meu lado, compartilhando comigo de forma to generosa toda sua experincia e grande sabedoria. Foi por suas mos generosas, me guiando sempre, que consegui percorrer o caminho at aqui.

    Ao meu grande amigo Peter e aos seus filhos Rafael, Patrcia e Lucas que sempre me trataram com carinho e estimularam. Ao Peter, em especial, por me apoiar, orientar, ajudar sempre com total disponibilidade.

    Aos meus queridos amigos Osmari e Vera que tive o prazer de conhec-los ao longo do curso e que se tornaram verdadeiros irmos adotivos. Meus eternos agradecimentos pelo carinho, pela generosa hospitalidade, pelo companheirismo e pela doao. Aos filhos Rafael e Rodrigo, pelo carinho e ateno que sempre me deram.

    Aos meus professores do PGCIN que souberam compreender as minhas dificuldades e me deram o apoio que necessitava para chegar at o final.

    Aos colegas de mestrado, em especial aos que nos tornamos

  • amigos, Renata, Igor, Priscila Sena, Priscila Menezes, Alexandre, Aline, Orestes, Francisca, Marta, Michele e Josiane por me apoiarem tratando-me com todo carinho. A Djuli, em especial, pelo carinho e por ter me dado a oportunidade de compartilhar com ela o meu primeiro texto publicado.

    Aos meus amigos Walter, Adriana, Castanha, Telma, Danbio, Lu, Camila, Renato e Balbina que me trataram com carinho e me estimularam nesta minha jornada.

    Sabrina, nossa secretria, que sempre me tratou com carinho e ateno.

    A todos, o meu mais sincero obrigado.

  • Mantenha seus pensamentos positivos, porque seus pensamentos tornam-se suas palavras. Mantenha suas palavras positivas, porque suas palavras tornam-se suas atitudes. Mantenha suas atitudes positivas, porque suas atitudes tornam-se seus hbitos. Mantenha seus hbitos positivos, porque seus hbitos tornam-se seus valores. Mantenha seus valores positivos, porque seus valores... tornam-se seu destino.

    Mahatma Gandhi

  • RESUMO

    Analisa a evoluo do Vocabulrio Controlado do Governo Eletrnico (VCGE) segundo seus objetivos e critrios aplicveis a taxonomias e tesauros. Investiga metodologias de elaborao e avaliao de tesauros e taxonomias propostas na literatura da rea de Cincia da Informao. Prope um conjunto de critrios para avaliao do VCGE quanto a objetivos, funes e estrutura. Trata-se de uma pesquisa exploratria que utiliza o levantamento bibliogrfico para a definio dos critrios para avaliao, e a anlise documental para obter os dados necessrios para anlise e caracterizao do VCGE. A anlise da evoluo do vocabulrio desde sua proposta inicial permitiu verificar que o VCGE sofreu transformaes ao longo do tempo, com reduo significativa no nmero de termos e mudana em sua estrutura, com alterao nas categorias e abandono do tesauro como forma de apresentao. A partir dessa constatao, a pesquisa avalia a verso 1 e a verso 2.0.3 desse vocabulrio, por meio de uma amostra de termos extrada da categoria Agropecuria. Utiliza dez critrios de avaliao: avaliao estrutural: ndice ou introduo; garantia literria; garantia de uso, comunicabilidade; motivao/estimulao; compatibilidade; categorizao; controle terminolgico; e atualizao. A verso 1 atende totalmente a 5 e parcialmente a 4 critrios e no atende a 1 critrio; a verso 2.0.3 atende totalmente a 5 e parcialmente a 3 critrios e no atende a 2 critrios. Os resultados demonstram que ainda so necessrios ajustes para que o vocabulrio atenda plenamente aos critrios empregados na literatura da rea de Cincia da Informao. Do ponto de vista da anlise do vocabulrio em relao aos seus objetivos e contexto de uso, conclumos que a verso mais recente est voltada para a funo de auxiliar a gesto das informaes e interoperabilidade, deixando de ser a taxonomia navegacional inicialmente proposta, bem como o objetivo de ser interface entre o cidado e o e-Gov. O problema de integrao de vocabulrios permeia iniciativas como a do Governo Brasileiro e, diante da sua complexidade, diversas reas podem contribuir em busca de soluo, dentre elas a Cincia da Informao.

    Palavras-chave: Cincia da Informao. Sistemas de Organizao do Conhecimento. Taxonomia. Tesauro. Critrios de Avaliao. Vocabulrio Controlado do Governo eletrnico Brasileiro (VCGE)

  • ABSTRACT

    This research analyzes the evolution of the Electronic Government Controlled Vocabulary VCGE, according to their objectives and criteria for taxonomies and thesauri. It investigates methods for preparing and evaluating thesauri and taxonomies proposed in the literature of Information Science. It proposes a set of criteria to evaluate the VCGE as the objectives, functions and structure. It is an exploratory research using the literature to define the criteria for evaluation, and document analysis to obtain the necessary data for analysis and characterization of VCGE. The analysis of the vocabulary from its initial proposal has shown that the VCGE has been transformed over time, with a significant reduction in the number of terms and change in structure, with changes in the categories and abandonment of the thesaurus as the presenting symptom. Based on this finding, the survey evaluates the version 1 and version 2.0.3 of this vocabulary through a sample of extracted under the Agriculture category. Uses ten criteria of evaluation: structural reviewed index or introduction; Literary guarantee; use of collateral, communicability; motivation / stimulation; compatibility; categorization; terminological control; and updating. Version 1 fully meets 5 and partially the 4 criteria and does not meet the first criterion; version 2.0.3 fully and partially meets 5 to 3 criteria and does not meet the two criteria. The results show that they are still necessary adjustments so that the vocabulary fully meets the criteria employed in the literature of Information Science. From the point of view of vocabulary assessment in relation to its objectives and context of use, we conclude that the latest version is focused on the function of assisting, management of information and interoperability, no longer navigational initially proposed taxonomy, and the goal of being the interface between the citizen and the e- Gov. The vocabularies of integration problem permeates initiatives such as the Brazilian government and in the face of complexity, different areas can contribute in search of solution, among them the Information Science.

    Keywords: Information Science. Systems of Knowledge Organization. Taxonomy. Thesaurus. Evaluation Criteria. Controlled Vocabulary of Electronic Government of Brazil (VCGE)

  • LISTA DE FIGURAS

    Figura 01 - Tipos de Sistemas de Organizao do Conhecimento 38

    Figura 02 - Tipos de Sistemas de Organizao do Conhecimento 39

    Figura 03 - Relaes hierrquicas modelo rvore 59

    Figura 04 - Relaes hierrquicas modelo conjunto 60

    Figura 05 - Relaes hierrquicas natureza do atributo 60

    Figura 06 - Relao partitiva todo/parte 61

    Figura 07 - Mapeamento dos relacionamentos pelo e-GOV 96

    Figura 08 - Administrao do e-PING 99

    Figura 09 - Distribuio das categorias na LAG 108

    Figura 10 - Relacionamento do VCGE verso 2.0 com outros vocabulrios 112

  • LISTA DE QUADROS

    Quadro 01 - Aplicaes das Taxonomias .............................................. 47

    Quadro 02 - Sntese da anlise das prticas de elaborao de

    taxonomia ........................................................................... 66

    Quadro 03 - Sntese das boas prticas para elaborao de taxonomia .. 71

    Quadro 04 - Critrios para avaliao das taxonomias ........................... 76

    Quadro 05 - Critrios para avaliao de tesauros .................................. 84

    Quadro 06 - Sites consultados para anlise do VCGE .......................... 89

    Quadro 07 - Fatos relevantes nas reunies do VCGE ........................... 89

    Quadro 08 - Critrios para avaliao do VCGE .................................... 93

    Quadro 08a - Componentes para Organizao e Intercmbio de

    Informaes ...................................................................... 102

    Quadro 09 - Categorias da LAG no primeiro nvel ............................. 106

    Quadro 10 - Exemplo de hierarquia na LAG ...................................... 107

    Quadro 11 - Comparao das categorias nas verses do VCGE ......... 114

    Quadro 12 - Categoria agricultura, extrativismo e pesca .................... 116

    Quadro 13 - Categoria agropecuria ................................................... 120

    Quadro 14 - Indicadores atribudos por critrios ................................. 133

    LISTA DE TABELAS

    Tabela 01 - Totais de termos gerados com percentual de participao na

    LAG .................................................................................. 107

  • LISTA DE ABREVIATURAS E SIGLAS

    ABEP Associao Entidades Estaduais de Tecnologia da Informao e Comunicao

    ABNT Associao Brasileira de Normas Tcnicas

    ANA Agencia Nacional de guas

    ANEEL Agencia Nacional de Energia Eltrica

    ANSI-NISO American National Standards institute / National Information Standards Organization

    BDP@ Bases de Dados da Pesquisa Agropecuria da Embrapa

    BDTD Biblioteca Digital Brasileira de Teses e Dissertaes

    BRAPCI Base de Dados Referenciais de Artigos de Peridicos em Cincia da Informao

    BRASED Thesaurus Brasileiro da Educao

    BSI British Standards Institution

    CAPES Coordenao de Aperfeioamento de Pessoal de Nvel Superior

    CEGE Comit Executivo do Governo Eletrnico

    CGU Controladoria-Geral da Unio

    CNE Conselho nacional de educao

    CNPq Conselho Nacional de Desenvolvimento Cientfico e Tecnolgico

    COFOG Classification of the Functions of Government

    DEPARA Arquivo para migrao de verso

    DEPLA Departamento de Planejamento do Ministrio de Planejamento, Oramento e Gesto

    DOU Dirio Oficial da Unio

    eGOV Governo Eletrnico

  • EMBRAPA Empresa Brasileira de Pesquisa Agropecuria

    ENAP Fundao Escola Nacional de Administrao Pblica

    e-PING Padres de Interoperabilidade no Governo Eletrnico

    e-PMG Padro de Metadados do Governo Eletronico

    e-PMG Padro de Metadados do Governo Eletrnico

    e-SIC Sistema Eletrnico do Servio de Informaes ao Cidado

    e-VOG Vocabulrios e Ontologias do Governo Eletrnico

    G2G Governo para Governo

    GCL Government Category List

    GT Grupo de Trabalho Gestor do VCGE

    GT4 Grupo de trabalho do e-PING encarregado da Organizao e Intercmbio de informaes

    GTI Grupo de Trabalho Interministerial

    GTTI Grupo de Trabalho em Tecnologia da Informao

    IBGE Instituto Brasileiro de Geografia e Estatstica

    IBICT Instituto Brasileiro de Informao em Cincia e Tecnologia

    IEEE Institute of Electrical and Electronics Engineers

    IETF Internet Engineering Task Force

    INEP Instituto Nacional de Estudos e Pesquisas Educacionais Ansio Teixeira

    INMETRO Instituto Nacional de Metrologia, Qualidade e Tecnologia

    ISKO International Society for Knowledge Organization

  • ISO International Organization for Standardization

    JSON JavaScript Object Notation

    KOS Knowledge Organization System

    LAG Lista de Assuntos do Governo

    LCG Lista de Categorias do Governo

    MAPA Ministrio da Agricultura, Pecuria e Abastecimento

    MBA Master Business Administration

    MEC Ministrio da Educao

    MinC Ministrio da Cultura

    MOG Ministro de Estado do Oramento e Gesto

    MPOG Ministrio do Planejamento, Oramento e Gesto

    MPS Ministrio da Previdncia Social

    MRE Ministrio das relaes Exteriores

    n.e.c not elsewhere classified

    NASA National Aeronautics and Space Administration

    NIST National Institute of Standards and Technology

    NKOS Networked Knowledge Organization Systems and Services

    OASIS Organization for the Advancement of Structured Information Standards

    OASIS Advancing Open Standards for the Information Society

    OECD Organization for Economic Co-operation and Development

    OED Oxford English Dictionary

  • OGC Open Geospatial Consortium

    OMG, Object Management Group

    OWL Web Ontology Language

    PNE Plano nacional de educao

    R&D Research and Development

    RDF Resource Description Framework

    SKOS Simple Knowledge Organization System

    SLTI Secretaria de Logstica e Tecnologia da Informao

    SOC Sistemas de organizao do conhecimento

    SPARQL Sparql Protocol and RDF Query Language

    SPU Secretaria do Patrimnio da Unio

    SRI Sistemas de Recuperao de Informaes

    THES Thesaurus do Senado Federal

    THESAGRO Thesaurus Agrcola Nacional

    TI Tecnologia da Informao

    TSE Tribunal Superior Eleitoral

    UNESCO Organizao das Naes Unidas para a Educao, a Cincia e a Cultura

    URI Uniform Resource Identifier

    VCGE Vocabulrio Controlado do Governo Eletrnico

    W3C World Wide Web Consortium

    WEB World Wide Web

    XML Extensible Markup Language

    XSL Extensible Stylesheet Language

  • SUMRIO 1 INTRODUO ...................................................................... 27 1.1 PROBLEMA E JUSTIFICATIVA .......................................... 28 1.2 OBJETIVOS ............................................................................ 30 1.2.1 Objetivo Geral.......................................................................... 30 1.2.2 Objetivos Especficos .............................................................. 30 2 REFERENCIAL TERICO................................................. 31 2.1 SISTEMAS DE ORGANIZAO DO CONHECIMENTO .. 31 2.1.1 Elementos dos Sistemas de Organizao do Conhecimento .... 40 2.1.2 Taxonomia ............................................................................... 43 2.1.3 Tesauros ................................................................................... 49 2.1.3.1 Caractersticas e Elementos dos Tesauros ............................... 54 2.1.3.2 Relacionamentos entre Conceitos ............................................ 57 2.2 CRITRIOS DE AVALIAO DE TAXONOMIAS E

    TESAUROS ............................................................................. 63 2.2.1 Construo e Avaliao de Taxonomias .................................. 64 2.2.2 Construo e Avaliao de Tesauros ....................................... 77 3 METODOLOGIA .................................................................. 87 3.1 CARACTERSTICAS DA PESQUISA .................................. 87 3.2 DEFINIO DA AMOSTRA DE TERMOS ......................... 91

    4 RESULTADOS DA PESQUISA ........................................... 93 4.1 DEFINIO DOS CRITRIOS DE AVALIAO DO VCGE

    ...................................................................................................93 4.2 ANLISES DA EVOLUO DO VCGE COMO PADRO E-

    PING.........................................................................................95 4.2.1 Padro de Interoperabilidade do Governo Eletrnico (E-

    PING)........................................................................................99 4.2.2 Evoluo da Taxonomia para Navegao .............................. 104 4.3 AVALIAO DO VCGE: APLICAO DOS

    CRITRIOS ........................................................................... 116 4.3.1 Anlise do VCGE com base nos critrios definidos .............. 120 5 CONSIDERAES FINAIS .............................................. 137 REFERNCIAS ................................................................................ 141

  • ANEXO 01...........................................................................................154 ANEXO 02...........................................................................................176 ANEXO 03...........................................................................................179 ANEXO 04...........................................................................................181 ANEXO 05...........................................................................................184 ANEXO 06...........................................................................................190 ANEXO 07...........................................................................................191 ANEXO 08...........................................................................................192

  • 27

    1 INTRODUO A evoluo cientfica e tecnolgica afeta as formas de produzir,

    armazenar, disponibilizar e acessar a informao. O volume de dados e informaes armazenados passou a ter novas medidas de tamanho como os bilhes (gigabytes), os trilhes (terabytes) e at os petabytes A interligao dos computadores por meios fsicos e por satlites permite que os dados armazenados sejam compartilhados, ampliando as informaes disponveis. A criao e disseminao da rede mundial de acesso e de interligao de computadores, denominada World Wide Web ou simplesmente Web, disseminou as informaes disponveis com o uso de pginas estruturadas em sites e inter-relacionadas com hyperlinks.

    As tecnologias da informao contribuem para que a informao seja disseminada rapidamente, incessantemente, ocasionando sobrecarga de contedo. Podemos dizer que vivemos a era do excesso de informao, no importando qual seja o mbito da rea de conhecimento. Esse cenrio traz desafios para a organizao da informao, pois dela depende a sociedade de um modo geral, e tambm o usurio da informao, para fazer uso efetivo da informao que necessita. Precisamos, portanto, encontrar meios eficazes de representar a informao e o conhecimento.

    Moreiro Gonzlez (2011, p.34) afirma que a Web tem melhorado as estruturas de organizao do conhecimento, entretanto, tem trazido muitas deficincias na recuperao das informaes. Para ele, um dos obstculos mais comuns para explorar as potencialidades do digital o fato de que os sistemas baseiam suas investigaes em correntes de signos e no em conceitos.

    Diante dessa realidade os sistemas de organizao do conhecimento (SOC) so ferramentas que podem contribuir para a organizao e recuperao da informao. Dentre os diferentes tipos de SOC, abordamos neste trabalho as taxonomias, que so estruturas hierrquicas de conceitos, representados por termos, que auxiliam a organizao e recuperao da informao em diferentes ambientes informacionais, tais como stios de comrcio eletrnico e stios corporativos; e os tesauros, que so vocabulrios controlados tradicionalmente utilizados em bases de dados bibliogrficas para indexar e recuperar informaes.

    Optamos por estudar os tesauros e as taxonomias diante das caractersticas de nosso objeto de estudo, o Vocabulrio Controlado do Governo Eletrnico (VCGE) que, em uma anlise preliminar nas suas duas primeiras verses, aproximava-se tanto de uma taxonomia quanto de um tesauro.

  • 28

    O VCGE uma base terminolgica que est sendo desenvolvida e que faz parte da iniciativa Governo Eletrnico (e-GOV), que o Governo Brasileiro est desenvolvendo fundamentado na participao dos cidados para melhoria no gerenciamento interno do Estado, na integrao com os parceiros e fornecedores, na interatividade com os cidados, com as empresas e os rgos governamentais. O estudo da evoluo e caractersticas desse vocabulrio pode contribuir para sua disseminao no meio acadmico, assim como para o seu futuro desenvolvimento.

    1.1 PROBLEMA E JUSTIFICATIVA

    Trs situaes a serem consideradas reforam a necessidade da

    utilizao de uma taxonomia para navegao quando se trata de disponibilizao de informaes governamentais:

    a) o atendimento sociedade, em especial aos cidados, que muitas vezes desconhecem a terminologia utilizada nos meios governamentais e fazem suas buscas com termos utilizados no seu cotidiano;

    b) o cidado por vezes desconhece qual rgo responsvel pela informao que ele procura;

    c) o volume de informaes que so gerados no ambiente de governo, tal como acontece em todos os ambientes informatizados, como corrobora a afirmao de que Segundo a Organization for the Advancement of Structured Information Standards (OASIS) os governos de todas as esferas no mundo so os maiores produtores e consumidores de dados e informaes. (LAG, 2007, p.1).

    Nesse ambiente complexo, alm do VCGE se propor a dar suporte aos cidados na melhoria da recuperao de informaes, tem ainda a funo de fornecer termos para serem utilizados no elemento subject.category (assunto.categoria) do Padro de Metadados do Governo Eletronico (e-PMG). (BRASIL, 2011).

    H um nmero significativo de sites hoje na Web, cada um atendendo ao seu setor, da sua maneira, com seu prprio vocabulrio, o que pode acarretar dificuldades para os usurios que buscam informaes. Essa situao deve ser enfrentada por iniciativas de e-GOV, que pretendem facilitar o acesso s informaes no mbito governamental.

    Na rea do Governo Federal do Brasil j existem alguns vocabulrios controlados desenvolvidos para reas especificas. Em geral so tesauros como o Thesaurus Brasileiro da Educao (Brased), o

  • 29

    Tesauro Brasileiro de Cincia da Informao (IBICT), o Tesauro da Justia Eleitoral, o Vocabulrio Controlado Bsico da Biblioteca do Senado Federal (VCB), o Thesaurus Agrcola Nacional (THESAGRO), entre outros. Esses SOC utilizam de conceitos e terminologia prpria da rea, geralmente inacessvel para a grande maioria dos cidados brasileiros. Nesse contexto, no basta saber em que site buscar a informao, mas como busc-la, e que termos utilizar. Os vocabulrios utilizados podem ser influenciados pelo jargo prprio de cada domnio, distante dos termos utilizados pelos cidados.

    Diante dessa realidade, no so poucas as atribuies que so dadas ao VCGE, o que nos leva a formular as questes que norteiam este trabalho buscando responder:

    a) dentre os objetivos que norteiam o e-GOV relacionados aos vocabulrios e organizao do conhecimento, ser que o VCGE atende a todos eles?

    b) tomando como base a literatura existente sobre a Representao e Organizao do Conhecimento, possvel propor um conjunto validado de critrios para serem aplicados na avaliao do VCGE?

    A iniciativa do Governo Brasileiro em criar o projeto e-GOV

    com a finalidade de padronizar e integrar todas as aes de informatizao desenvolvidas no mbito da administrao pblica, bem como facilitar o relacionamento com outros setores s trar benefcios para toda a sociedade.

    A insero no e-GOV da necessidade da criao de um vocabulrio controlado nico, onde o cidado o foco principal e que poder contribuir na criao e manuteno, demonstra a importncia do VCGE como elemento de destaque na integrao governo e cidado e nos sucessos das buscas por informaes.

    Nesse sentido, em nosso estudo, pretendemos analisar a evoluo desse vocabulrio e dissemin-lo para a comunidade acadmica, bem como para o pblico em geral, a partir da contribuio que a rea de Cincia da Informao pode oferecer. Os estudos sobre vocabulrios controlados integram as reas de atuao dessa Cincia e podem orientar o desenvolvimento do VCGE.

    Por outro lado, na literatura da Cincia da Informao, como pudemos observar no levantamento que realizamos, encontram-se critrios de avaliao nas publicaes cientficas de forma difusa, exigindo um trabalho de coleta, organizao, consolidao e sistematizao. Este trabalho foi realizado para as taxonomias e os

  • 30

    tesauros, e os critrios apurados para cada um dos SOC foram analisados e sistematizados, permitindo que seja feita a avaliao do VCGE a partir deles. Ao elaborarmos essa sistematizao estamos contribuindo tambm para que outras avaliaes de tesauros e de taxonomias sejam realizadas.

    Ao fazermos a anlise do VCGE apoiados nos critrios estabelecidos na Cincia da Informao estaremos contribuindo para a melhoria do vocabulrio e consequentemente para facilitar o acesso do cidado s informaes que necessita no mbito do Governo Brasileiro. 1.2 OBJETIVOS 1.2.1 Objetivo Geral

    Analisar a evoluo do vocabulrio controlado do governo

    eletrnico brasileiro segundo seus objetivos e critrios aplicveis a taxonomias e tesauros.

    1.2.2 Objetivos Especficos

    a) Selecionar metodologias de elaborao e avaliao de tesauros e

    taxonomias propostas na literatura da rea de Cincia da Informao.

    b) Elaborar um conjunto de critrios que sejam aplicveis avaliao do VCGE, a partir daqueles identificados na literatura.

    c) Aplicar os critrios propostos para avaliao considerando os objetivos, funes e estrutura do VCGE.

  • 31

    2 REFERENCIAL TERICO O referencial terico desta dissertao aborda os Sistemas de Organizao do Conhecimento, situando-os no contexto da Organizao do Conhecimento, conceituando-os e identificando a sua tipologia e seus elementos. Em seguida apresenta as taxonomias e os tesauros, suas definies, funes, caractersticas e tipologias. Ao final so discutidos os critrios para avaliao de tesauros e taxonomias, com base na literatura da rea da Cincia da Informao.

    2.1 SISTEMAS DE ORGANIZAO DO CONHECIMENTO

    A Organizao do Conhecimento abrange, dentre outras

    temticas, o estudo dos Sistemas de Organizao do Conhecimento (SOC). Portanto, necessrio discorrer sobre o que entendemos sobre essa rea.

    Brscher e Caf (2008), apoiadas na definio de Fogl (1979) sobre informao e conhecimento, fazem a distino entre organizao do conhecimento e organizao da informao ao afirmarem que

    [...] um que se aplica s ocorrncias individuais de objetos informacionais o processo de organizao da informao e o outro que se aplica s unidades de pensamento (conceitos) o processo de organizao do conhecimento. A Organizao da Informao compreende tambm, a organizao de um conjunto de objetos informacionais para arranja-los sistematicamente em colees, neste caso, temos a organizao da informao em bibliotecas, museus, arquivos, tantos tradicionais quanto eletrnicos. A organizao do conhecimento, por sua vez, visa a construo de modelos do mundo que se constituem em abstraes da realidade (BRSCHER; CAF, 2008, p. 6)

    Na organizao da informao importante a individualizao de um pacote informacional, o mundo dos objetos fsicos. Na organizao do conhecimento importam as caractersticas, o conceito e o relacionamento. o mundo da cognio ou o mundo das ideias. (BRSCHER; CAF, 2008)

    Com base em definio da linguagem natural, como a do dicionrio

  • 32

    Aurlio1, a palavra organizao significa dar ordem s coisas; significa que se utilizou de alguma regra pr-estabelecida para arranjar, ordenar determinados objetos. Em geral, podemos afirmar que organizar implica um processo classificatrio.

    Para Dahlberg (1993) a organizao do conhecimento a cincia que trata da estruturao e organizao sistemtica dos conceitos e a aplicao dos conceitos a objetos ou assuntos.

    Brscher e Caf (2008) enfatizam no uma cincia, mas um processo de modelagem do conhecimento quando afirmam que

    a organizao do conhecimento o processo de modelagem do conhecimento que visa a construo de representaes do conhecimento. Esse processo tem por base a anlise do conceito e de suas caractersticas para o estabelecimento da posio que cada conceito ocupa num determinado domnio, bem como das suas relaes com os demais conceitos que compem esse sistema nocional (BRSCHER; CAF, 2008, p. 8).

    As autoras supracitadas entendem que o conceito ser sempre a

    base da organizao do conhecimento e que necessria uma anlise conceitual para definir as suas caractersticas e relaes em determinado domnio e permitir a sua ordenao.

    As representaes do conhecimento, conforme proposio de Brscher e Caf (2008), so feitas por diferentes tipos de sistemas. Esses sistemas, conforme Carlan (2010) foram denominados pelo Networked Knowledge Organization Systems Working Group na primeira Conferencia da ACM Digital Libraries em 1998, Pittsburgh, Pennsylvania pelo termo Knowledge Organization System (KOS). A traduo para o portugus Sistema de Organizao do Conhecimento (SOC).

    Segundo Hodge (2000) os SOC so o corao de toda biblioteca, museu e arquivo porque so mecanismos de organizao da informao. J para Vickery (2008) os SOC so instrumentos complementares que ajudam o usurio a encontrar seu caminho no texto. Nota-se a complementariedade nas duas afirmaes, de um lado a adoo de mecanismos que permitem a organizao da informao, de outro a funo decorrente da organizao que a facilidade da busca permitindo ao usurio encontrar o seu caminho no texto.

    1 http://dicionariodoaurelio.com/organizar

  • 33

    Conforme Zeng (2008), a busca por assunto a tarefa mais importante do usurio na recuperao da informao utilizando ferramentas de busca, diretrios, bases de dados e sites para acessar os contedos.

    Vickery (1986 apud BRSCHER; CARLAN, 2010, p.150), justifica que

    a representao do conhecimento uma questo que preocupa a documentao desde a sua origem. O problema agora relevante em muitas outras situaes alm dos documentos e ndices. A estrutura dos registros e arquivos de bases de dados; a estrutura de dados nos programas de computador; a estrutura sinttica e semntica da linguagem natural; a representao do conhecimento em inteligncia artificial; os modelos de memria humana: em todos esses campos necessrio decidir como o conhecimento pode ser representado de forma que estas representaes possam ser manipuladas.

    Nota-se que, alm da recuperao da informao, Vickery elenca

    uma srie de outros problemas relevantes que devem ser levados em considerao pela Organizao do Conhecimento e tratados pelos Sistemas de Organizao do Conhecimento. A evoluo tecnolgica trouxe a organizao e recuperao em arquivos e em bases de dados e, mais recentemente, para o contexto da Web.

    Para Brscher e Carlan (2010, p.153), na Cincia da Informao,

    os SOCs so representaes de domnios do conhecimento que delimitam o significado de termos no contexto desses domnios, estabelecem relaes conceituais que auxiliam a posicionar um conceito no sistema conceitual e so utilizadas como instrumentos de organizao e recuperao da informao.

    Barit (2011, p.127), com base no que foi definido por Lafuente,

    (1993) e Esteban Navarro (1997) afirma que: Os sistemas de organizao do conhecimento so ferramentas com o objetivo principal de servir a representao temtica dos contedos de

  • 34

    documentos, dados e qualquer outro recurso de informao, em qualquer meio ou estrutura que se encontram, atravs de smbolos codificados ou expresses lingusticas, a fim de promover a busca e recuperao temtica, de uma forma eficaz, oportuna e relevante (traduo nossa)

    Hodge (2000) define que os Sistemas de Organizao do

    Conhecimento englobam todos os tipos de instrumentos usados para organizar a informao e promover o gerenciamento do conhecimento. Incluem os esquemas de classificao que organizam materiais em nvel geral (como livros em estantes), cabealhos de assunto que provm acesso mais detalhado e listas de autoridade que controlam verses variantes de chaves de acesso informao (nomes geogrficos e nomes de pessoas). Incluem, ainda, esquemas menos tradicionais, tais como redes semnticas e ontologias.

    Ao analisar as definies de Hodge (2000) e Barit (2011), verifica-se que ambos concordam que os SOC so ferramentas ou instrumentos para organizar a informao. O primeiro se preocupa em explicitar as diversas maneiras que estas ferramentas organizam as informaes, enquanto o segundo, de forma mais geral, enfatiza que as ferramentas devem representar os documentos, independente do suporte ou da estrutura com a finalidade de facilitar as buscas e recuperao de maneira eficaz.

    O Simple Knowledge Organization System (SKOS, 2004) define:

    Sistema de Organizao do Conhecimento um conjunto de elementos, geralmente estruturado e controlado, que pode ser usado para descrever (indexar) objetos, navegar em colees, etc. Exemplos tpicos de SOCs so tesauros, classificaes, listas de cabealhos de assunto e taxonomias.

    De acordo com Brscher e Carlan (2010, p.151) esses sistemas

    [SOC] tornaram-se mais complexos e assumiram funes mais amplas, havendo, em consequncia, o surgimento de novas denominaes, como taxonomias, categorizaes, tesauros ou ontologias.

    Barit (2011, p. 127) define que, so caractersticas essenciais de um SOC:

  • 35

    a) a sua referncia ao conhecimento especializado, que estabelecida de vrias formas (recurso para classificaes cientficas, garantia literria, opinio de especialistas, etc.);

    b) sua estrutura lgica que se constri de acordo com um mtodo e uma teoria de organizao do conhecimento;

    c) o controle de vocabulrio, o que contribui para a identificao, seleo, formalizao e padronizao da terminologia, que inclui, o estabelecimento das relaes recprocas entre os termos, levando em considerao os critrios semnticos, lingusticos e disciplinares. (BARIT, 2011, p. 127, traduo nossa).

    Em 2008 Vickery elaborou uma classificao dos SOC sobre a

    evoluo destes sistemas conforme descrito a seguir:

    a) Era da pr-coordenao: eram estruturas estticas para atender aos sistemas manuais de organizao e recuperao da informao, como ndices e catlogos. Pertencem a essa era as listas de cabealhos de assunto e as classificaes;

    b) Era da ps-coordenao: deixam de ser estruturas estticas, manipulam os elementos (termos) de forma independente na representao dos assuntos de cada documento. Fazem parte desta classificao os vocabulrios controlados e os tesauros;

    c) Era da internet: a classificao hierrquica predomina. Os usurios utilizam as classificaes na escolha do termo que melhor identifique a sua necessidade. As URL fazem o relacionamento entre itens da Web e os ndices utilizados pela ferramenta de busca adotada. O SOC mais representativo a taxonomia.

    d) Era da Web semntica: so sistemas projetados para uso por computadores e agentes inteligentes. O SOC representativo a ontologia. (BRSCHER; CARLAN, 2011, p.151).

    Observa-se que Vickery (2008) faz uma evoluo histrica dos

    SOC de acordo com a evoluo da cincia da informao e tambm do suporte tecnolgico voltado para a recuperao da informao. Antes de

  • 36

    Vickery desenvolver a sua classificao Hodge em 2000 agrupa os SOC em trs categorias. A classificao de Hodge aceita e utilizada por diversos autores da Cincia da Informao e tambm a adotada pelo Networked Knowledge Organization Systems and Services NKOS2. As definies que apresentamos a seguir foram tradues nossas de definies do NKOS.

    I. Listas de termos: so listas de termos muitas vezes acompanhados das definies. Fazem parte desta lista:

    a) listas de autoridades so listas de termos que so usados para controlar as variaes de nomes para uma entidade ou para um domnio particular. No incluem organizao nem estrutura complexa. Pode apresentar um sistema de organizao superficial e uma hierarquizao limitada para atender a arquivos extremamente grandes.

    b) Glossrios geralmente so listas de termos com as definies de um campo especfico ou para atender a uma particularidade. Os termos raramente apresentam variantes de significado.

    c) Dicionrios so listas alfabticas dos termos e suas definies que podem fornecer um sentido diferente para cada termo. So mais gerais do que os glossrios. Podem fornecer informaes sobre a origem do termo e mltiplos significados. Podem fornecer sinnimos e termos relacionados, sem uma estrutura hierrquica explicita.

    d) Gazetteers so dicionrios geogrficos onde os termos so lugares como rio, cidade, escola, etc. Aparecem como ndices de atlas geogrficos. Podem apresentar referncia geoespacial com as coordenadas para identificao do lugar na superfcie terrestre.

    II. Classificaes e categorias: so listas que tem como destaque especial a criao de conjuntos de assuntos. Fazem parte desta categoria:

    a) Cabealhos de assunto um conjunto de termos controlados que representam os assuntos de uma coleo. Apresentam uma estrutura hierrquica limitada e superficial.

    b) Esquemas de classificao, categorizao e 2 http://nkos.slis.kent.edu/KOS_taxonomy.htm

  • 37

    taxonomia - estes termos so frequentemente usados como sinnimos, podendo haver diferenas sutis entre eles. Fornecem maneiras de separar entidades em compartimentos ou nveis de tpicos relativamente amplos. Alguns exemplos fornecem um arranjo hierrquico numrico ou de notaes alfabticas para representar temas gerais.

    III. Listas de relacionamentos: so os SOC que enfatizam as ligaes entre termos e conceitos. So assim classificados:

    a) Tesauros - so baseados em conceitos e mostram as relaes entre os termos. Os relacionamentos expressos nos tesauros incluem relaes de hierarquia, equivalncia e de associao ou relacionado. H padres para o desenvolvimento dos tesauros monolngues e multilngues. Relaes padres so assumidas bem como a identificao de termos preferenciais com regras especificas para a criao das relaes entre os termos. A maioria dos tesauros desenvolvida para atender a uma disciplina especfica.

    b) Redes semnticas - o processamento da linguagem natural trouxe avanos significativos para a rea de redes semnticas. A estrutura dos conceitos e termos deixa de ser hierrquica e passa a ser uma rede. Os conceitos so considerados como ns com vrias relaes ramificando-se para fora deles. Podem incluir relacionamentos todo-parte, causa-efeito, entre pais e filhos, etc. As redes semnticas so utilizadas em motores de busca.

    c) Ontologias so os mais novos sistemas de organizao de conhecimento. Esto sendo desenvolvidas como modelos conceituais especficos da comunidade de gesto do conhecimento. Podem representar relaes complexas entre objetos e incluem regras e axiomas que faltam nas redes semnticas. Descrevem o conhecimento em reas especficas.

    Zeng e Salaba (2005) apresentaram, de maneira grfica, a classificao de Hodge, conforme figura 1. Na forma de um grfico, as trs categorias propostas so dispostas e relacionadas aos seus nveis de complexidade, qualificadas como estruturas semnticas fracas e fortes, e a proximidades de cada SOC com a linguagem natural.

  • 38

    Figura 01 Tipos de Sistemas de Organizao do Conhecimento

    Fonte: Zeng & Salaba: FRBR Workshop, OCLC 2005

    Zeng (2008) apresenta uma variao do grfico da classificao de

    Hodge em que desmembra a lista de termos e cria um nvel que foi denominado modelos tipo metadados e nele esto includos os gazetteers e a lista de autoridades. Alm disso, a autora associa a cada um dos SOC um grau para as seguintes funes: eliminao de ambiguidades; controle de sinonmia; estabelecimento de relaes hierrquicas; estabelecimento de relaes associativas; e apresentao de propriedades. A figura 2 apresenta a nova classificao proposta por Zeng.

  • 39

    Figura 02 - Tipos de Sistemas de Organizao do Conhecimento

    Fonte: Zeng, Marcia Lei. "Knowledge Organization Systems (KOS)". Knowledge Organization, 35(2008) No.2/No.3

    Ao analisar as classificaes propostas por Hodge (2000)

    Vickery (2008) nota-se que o enfoque de Hodge foi o de demonstrar a evoluo dos SOC ao longo do tempo, mas tomando como base os elementos que se encontram no SOC para agrup-los. Vickery (2008) prope uma classificao estritamente cronolgica, demonstrando que os SOC ao longo do tempo evoluram. Muitos deles talvez no sejam mais utilizados hoje, dado o suporte tecnolgico disponibilizado e o nvel de exigncia dos sistemas de recuperao de informaes (SRI). Contudo, acreditamos que caber a cada SRI definir a melhor escolha para a seleo do SOC a utilizar. Para tal importante fazer uma anlise das necessidades dos usurios, definir o hardware e o software mais adequado, a arquitetura de rede, a integrao e manuteno.

    A partir dos autores supracitados, observamos que, inicialmente, os sistemas de organizao do conhecimento eram utilizados para indexao por catalogadores, bibliotecrios e pesquisadores. A evoluo das formas de armazenamento, em especial os dados eletrnicos, que passam a permitir a existncia de publicaes eletrnicas e o crescimento do volume de informaes demandou novos tipos de SOC para que houvesse tambm uma evoluo na representao do conhecimento. Para

  • 40

    Saracevic (1996), a cincia da informao evoluiu devido aos problemas identificados por Vanevar Bush com a exploso3 da informao e a necessidade de usar a tecnologia da informao para permitir o acesso a elas. Junto a este crescimento vem a necessidade de buscar solues para organizar volumes maiores e realizar recuperaes nesse novo ambiente. Esse desafio leva ao desenvolvimento e evoluo dos SOC, tais como as taxonomias, que passam a ser amplamente utilizadas no ambiente web, assim como as ontologias.

    2.1.1 Elementos dos Sistemas de Organizao do Conhecimento

    Brscher e Carlan (2010) consideram que so trs os elementos

    dos SOC: os conceitos, os termos e as relaes semnticas. Nessa mesma direo, na viso de Broughton et al (2004, apud CARLAN, 2010, p.30), os SOC so ferramentas semnticas que consistem em palavras, conceitos e relaes semnticas, definidas e selecionadas.

    Ao formular a Teoria do Conceito, Dahlberg define que conceitos so compilao de enunciados verdadeiros sobre determinado objeto fixada por um smbolo lingustico (DAHLBERG, 1978, p. 102)

    No mbito do SKOS4, o conceito pode ser visto como uma ideia ou noo; uma unidade de pensamento e essa unidade de pensamento subjetiva.

    Barit et al (2013), no Diccionario de Organizacin y Representacin del Conocimiento na verso online, define o conceito como

    Abstrao ou percepo que se refere a uma unidade do conhecimento, independentemente da sua expresso lingustica... pois o elemento indivisvel que pode representar o conhecimento contido nos documentos e organizar as enunciados correspondentes ideia que temos de qualquer coisa.

    Conforme esse autor, o nvel de abstrao maior levando a

    expressar o conceito como uma noo de uma unidade de conhecimento, sendo um elemento indivisvel (cujas caractersticas so inseparveis) e que correspondem a uma ideia de qualquer coisa. A ideia de qualquer coisa nos leva a entender que o conceito no tem limitaes e capaz de

    3 Aqui com o significado de aumento muito grande de volume 4 http://www.w3.org/TR/skos-reference/#concepts

  • 41

    servir para dar sentido a tudo aquilo que percebido. O conceito se materializa atravs do termo, que um signo

    lingustico. Alm dos termos outras expresses como cdigos, frmulas, imagens e expresses servem de referencia para o conceito. O conceito o elemento bsico na elaborao de um SOC e as expresses vinculadas a ele so elementos utilizados para referenci-los.

    O termo est diretamente vinculado ao conceito, mas no o prprio conceito, como afirmam Brscher e Carlan (2010). Para ANSI-NISO (2005) o termo a representao do conceito feita atravs de uma ou mais unidades lexicais. Conceitos diferentes podem estar vinculados a um mesmo termo no importando se so ou no de uma mesma rea configurando a ambiguidade.

    As relaes semnticas ou conceituais desempenham um papel crucial para a definio dos conceitos e, segundo Brscher e Carlan (2010), so associaes entre conceitos, estabelecidas segundo suas caractersticas semelhantes ou diferentes.

    Para o SKOS5, um conceito definido no apenas pelos termos de linguagem natural, mas tambm por suas ligaes com outros conceitos numa mesma rea de conhecimento. Essas relaes podem ser apresentadas nas categorias:

    a) Mais ampla e mais estreita permitem a apresentao das ligaes hierrquicas como a relao entre um gnero e espcies mais especficas ou, dependendo de interpretao, a relao em o todo e as suas partes;

    b) Relacionadas permitem a representao de ligaes associativas (no hierrquicas) como uma relao entre um evento e uma categoria de entidades que nele participam. Nesta relao permite-se tambm que podem ser utilizadas para representar ligaes todo-parte que no so entendidas como relaes hierrquicas.

    Broughton et al (2004, apud CARLAN, 2010, p.30) enumeram alguns tipos de relaes semnticas: relao de oposio, relao associativa, relao causal, homonmia, hiponmia, meronimia, sinonmia e relao temporal. A tipologia de relacionamentos contempladas num SOC depende de seus objetivos..

    Alm dos trs elementos - conceito, termo e relaes semnticas, outro aspecto que se deve levar em considerao ao elaborar um sistema de organizao do conhecimento o que se denomina de garantia. Barit

    5 http://www.w3.org/TR/2009/NOTE-skos-primer-20090818/#secrel

  • 42

    et al (2010) identificam Hulme como o criador da garantia em 1911, quando formulou o princpio de garantia literria para os sistemas de classificao.

    Tennis (2005) retoma a concepo restritiva da garantia quando diz que a razo para a introduo de um termo ou conceito num vocabulrio controlado, estabelece os limites da terminologia e ser utilizada em funo dos critrios pr-estabelecidos de incluso ou excluso de conceitos e termos. Beghtol sugere que

    a garantia de um sistema de classificao a autoridade com que o encarregado pela classificao invoca, inicialmente para justificar, e depois para verificar as decises sobre que classes e conceitos a incluir no sistema e em que ordem elas devem aparecer nas listas, em que classes unidade e conceitos esto divididos.( BEGHTOL, 1986, p. 110-111)

    Zeng (2008) afirma que os princpios da garantia so fatores importantes no desenvolvimento de qualquer SOC na medida em que validam a seleo dos termos a serem utilizados. Esses princpios esto contemplados na norma ANSI/NISO Z39-19-2005 (p.16, traduo nossa) e subdivididos em trs princpios:

    Garantia literria define que ela ser efetivada se a linguagem utilizada para descrever o contedo dos objetos, as palavras ou frases se aproximam ao mximo das usadas na literatura da rea de domnio.

    Garantia de usurio justificativa para que a representao de um conceito em uma linguagem de indexao ou para a seleo de um termo preferido, devido a frequentes pedidos de informaes sobre o conceito ou buscas em texto livre com o termo usado pelo usurio;

    Garantia organizacional justificativa para a representao de um conceito em uma linguagem de indexao ou para a seleo de um termo preferido devido s caractersticas e contexto da organizao.

    Para Barit (2013, p.6 traduo nossa), a garantia literria apresenta trs aspectos a serem considerados:

    Princpio terico e metodolgico o princpio expressa que a terminologia e as relaes conceituais presentes em um SOC devem ter origem na documentao, e no nas classificaes cientficas, filosficas ou de outra ordem.

    Corpo de literatura que aborda especi-

  • 43

    ficamente um tpico ao qual se pode atribuir uma avaliao quantitativa;

    Justificativa para a incluso ou aprovao de um termo ou relao conceitual a justificativa pode ser determinada por critrios tais como a ocorrncia frequente do termo e/ou a relao na literatura, ou pela existncia de uma documentao suficiente sobre o tema ou a relao de referncia.

    Barit (2013, p.18, traduo nossa) contribui com a evoluo das

    garantias ao incluir tambm a garantia acadmica, assim definida por ele: com base nos acordos alcanados pelos cientistas ou especialistas em todos os campos do conhecimento, a respeito da denominao de seus objetos de estudo e o alcance conceitual que dado a cada um.".

    O uso das garantias faz com que os SOC sejam desenvolvidos a partir de parmetros de validao, permitindo que se possa aferir a qualidade deles.

    Estabelecer as bases para a construo de um sistema de organizao de conhecimento no fcil, pois temos que lidar com diferentes teorias, conceitos e relacionamentos. Diferentes vises podem levar a uma parcialidade ou tendenciosidade na elaborao do SOC. Embora seja natural esta parcialidade por refletir os interesses dos usurios, de uma coleo ou de suas prioridades. Os que constroem os SOC devem ser capazes de perceber essas tendncias. A percepo delas mais fcil quando o elaborador de SOC j tem um conhecimento do domnio. A construo do SOC fica facilitada quando o especialista da rea de domnio a ser representado compartilha seus conhecimentos com o especialista em organizao do conhecimento.

    2.1.2 Taxonomia

    Caf e Vital (2011), afirmam que o conceito de taxonomia se

    relaciona cincia que classifica os seres vivos, fruto do trabalho do mdico e botnico sueco Carolus Linnaeus (ou Karl von Linn), que estabeleceu os critrios para a classificao de todos os animais e plantas sobre a terra baseando-se esta classificao em caractersticas fisiolgicas, evolutivas, anatmicas, ecolgicas.

    As autoras supracitadas acrescentam que: Apesar das taxonomias terem sido primeiramente empregadas na rea da Biologia, nos ambientes digitais, seu uso, segundo autores como Edols

  • 44

    (2001), Adams (2000) e Plosker (2005), est relacionado com as formas automatizadas de organizao da informao, tornando-se alvo de estudos da Cincia da Informao. (CAF, VITAL, 2011, p.122)

    Terra et al (2005 p. 1) definem uma taxonomia como um

    vocabulrio controlado de uma determinada rea do conhecimento, e, acima de tudo, um instrumento ou elemento de estrutura que permite alocar, recuperar e comunicar informaes dentro de um sistema sob uma premissa lgica. No contexto da Cincia da Informao, esses autores conceituam taxonomia como um sistema para classificar e facilitar o acesso informao.

    De acordo com Aquino, Carlan e Brscher (2009, p. 206), as taxonomias cumprem papel importante na organizao do conhecimento. Nesse contexto,

    as taxonomias so estruturas classificatrias para organizar as informaes de uma determinada instituio, num dado contexto. Nesse sentido, so diferentes, tendo em vista que refletem o tipo de organizao e de informao da instituio que representam. As taxonomias devem refletir a ideologia e a estrutura organizacional da empresa. Assim, pode-se afirmar que no existe uma taxonomia certa ou errada, o que existe uma taxonomia organizada a partir de um determinado ponto de vista, uma forma classificatria de entendimento de uma dada realidade, atendendo a diferentes propsitos; ou seja, as taxonomias no so neutras, so construdas a partir das caractersticas que melhor servirem a um determinado propsito.

    Gilchrist (2003) atribui aos seguintes fatores a motivao e o interesse pela taxonomia:

    a) sobrecarga de informaes: motores de busca convencionais so considerados inadequados para lidar eficazmente com grandes bases de dados evidenciando a necessidade de ferramentas complementares e de filtros que possam melhorar a qualidade destas buscas;

    b) aprendizado informacional: pesquisas evidenciaram que a maioria dos utilizadores das buscas tem problemas graves

  • 45

    em saber como oper-las levando a perda de tempo e a falta de recuperao de informaes teis;

    c) terminologia organizacional: para as organizaes que criam internamente cerca de 80% das informaes que utilizam, as classificaes e os tesauros no atendem as suas necessidades;

    d) desestruturao das organizaes: nas fuses e aquisies de organizaes, nas parcerias atravs de extranets bem como na criao em funcionamento de comunidades virtuais, diferentes grupos de usurios comeam a compartilhar informaes e conhecimento criando problemas culturais.

    Alan Gilchrist e Peter Kibby citados por Edols (2001) destacam

    que a taxonomia: a) uma correlao das diferentes linguagens funcionais

    utilizadas pela empresa; b) um mecanismo de navegao e acesso ao capital intelectual

    da empresa; c) uma ferramenta de auxlio navegao em um portal; d) uma lista de autoridade para marcao de documentos e

    objetos; e e) uma base de conhecimento. Considerando esse contexto, Edols (2001) afirma que as

    taxonomias se compem de duas partes: a estrutura, ou seja, as categorias ou termos e suas relaes e uma aplicao a ferramenta de navegao para auxiliar a busca.

    Conway e Silgar (2002) esclarecem que no ambiente Web, as taxonomias so utilizadas para simplificar as buscas e a navegao e designar responsabilidades em termos de avaliao, organizao, eliminao e arquivamento de informaes. As taxonomias podem ser descritivas ou navegacionais. Para eles o objetivo fazer com que a taxonomia tenha significado no ambiente em que foi construda, buscando a padronizao da linguagem a fim de que uma comunicao efetiva acontea. A taxonomia descritiva busca dar suporte recuperao da informao por meio de buscas, designando termos preferidos ou autorizados, permitindo que o usurio utilize esse termo para uma recuperao mais precisa.

    As taxonomias descritivas, conforme descrevem Aquino, Carlan e Brscher (2009), so encontradas no ambiente organizacional para dar suporte recuperao de informaes por meio de busca. Por meio do

  • 46

    desenvolvimento e manuteno de um vocabulrio controlado central, uma organizao pode classificar com consistncia seus contedos a partir de metadados descritivos selecionados desses vocabulrios, organiza os termos incluindo suas variantes e produz um termo-chave para facilitar a busca.

    A taxonomia navegacional, na viso de Conway e Silgar (2002), objetiva a localizao da informao por meio da navegao. tambm construda com base em vocabulrio controlado, mas a taxonomia exposta de forma a facilitar ao usurio localizar a informao de que necessita. As categorias dos contedos so baseadas em modelos mentais de trabalhadores do conhecimento de como a informao organizada. No h padronizao dos rtulos, podendo ser frases inteiras. Baseia-se no comportamento do usurio e no no contedo e restrita ao ambiente para o qual criada (um portal, site, intranet).

    A taxonomia navegacional busca organizar a informao de forma flexvel, para que esta possa ser visualizada pelo usurio ao acessar o stio, por meio da navegao. A estruturao das informaes fica visvel ao usurio final, pois o objetivo que a descoberta das informaes acontea no momento da navegao.

    De maneira geral, segundo Aquino; Carlan e Brscher (2009), as taxonomias tm como objetivos: estabelecer categorias gerais; coletar e representar os conceitos por meio de termos; agilizar a comunicao entre especialistas e outros pblicos; encontrar o consenso; controlar a diversidade de significao; construir relacionamento semntico entre os termos, por meio de relaes hierrquicas, de equivalncia, e de associao; e oferecer um mapa da rea que servir como guia em processos de conhecimento.

    Conforme Campos e Gomes (2008), as taxonomias se caracterizam por: conter uma lista estruturada de conceitos/ termos de um domnio; incluir termos sem definio, somente com relaes hierrquicas; possibilitar a organizao e recuperao de informao por meio de navegao; permitir agregao de dados, diferentemente das taxonomias seminais, alm de evidenciar um modelo conceitual do domnio; ser um instrumento de organizao intelectual, atuando como um mapa conceitual dos tpicos explorados em um Sistema de Recuperao de Informao; ser um novo mecanismo de consulta em Portais Institucionais, por meio de navegao.

    Pelas definies e pelos usos destacados pelos autores citados, observa-se que as taxonomias podem ter diversas aplicaes. O quadro 1 apresenta os tipos de aplicaes de taxonomia segundo a viso de Gilchrist (2003).

  • 47

    Quadro 01 Aplicaes das taxonomias

    APLICAO DESCRIO

    Diretrio web

    uma forma de classificao composta de um menu de termos de mais alto nvel que oferecido aos usurios de internet e de intranets. Ao selecionar um dos termos de alto nvel fornecido sero exibidos os termos de segundo nvel associados a ele. O mecanismo se repete aos demais nveis oferecidos podendo chegar a uma informao ou a uma referncia ou a um termo a ser utilizado numa busca. A hierarquizao dos nveis no exigida e a repetio dos termos para melhor compreenso permitida. O Open Directory Project (www.dmoz.org) um exemplo de uma taxonomia tipo diretrio web com cerca de 350.000 termos.

    Apoio indexao automtica

    Softwares esto disponveis para analisar textos e criar automaticamente categorias e, aps anlise, realizar a classificao dos textos de acordo com as categorias. As categorias podem ser exibidas em formato semelhante aos diretrios web ou como mapas bidimensionais. Quando o usurio seleciona um termo relacionado este termo movido para o centro e um novo conjunto de termos relacionados so exibidos.

    Filtros de front-end

    Neste caso uma taxonomia criada ou importada e usada na formulao da consulta. Os homgrafos so distinguidos e os sinnimos so agrupados. O usurio pode navegar vontade na hierarquia. O termo selecionado submetido internet ou intranet. Estruturalmente ela um tesauro formatado permitindo uma fcil navegao.

    Corporativa

    As empresas modernas fazem uso de todos os tipos de taxonomias quer no processamento quer na exibio de termos de pesquisas e resultados. O problema maior facilitar e tornar acessveis as informaes aos seus colaboradores, utilizando seus portais ou outro tipo de canal de acesso. Dependendo do tamanho da empresa e do volume e tamanho dos repositrios faz necessrio fornecer mapas e orientaes aos

  • 48

    usurios para chegar s informaes em menor tempo e com menor esforo. Gilchrist (2003) cita o exemplo da GlaxoSmithKline que fundiu uma srie de tesauros em um megatesauro no qual cada termo est associado aos repositrios de informao que utiliza este termo. Desenvolveu um hibrido tesauro-ontologia considerado um novo tipo de taxonomia que pode ser identificado como uma taxonomia corporativa. Ela pode abranger informaes sobre a prpria organizao: os seus processos de negcios, mtodos, diretrizes e normas; sobre as pessoas dentro da organizao e associadas com ela, e sobre o contedo nos vrios repositrios. Ela tambm pode ser projetada para suportar os motores de busca e fornecer modelos de indexadores, e pode ser adaptada para fornecer perspectivas globais, nacionais e at mesmo do site.

    Categorizao automtica

    Estas taxonomias fazem uso intensivo dos computadores atravs de softwares que pretendem ser capazes de fazer uma anlise dos textos criando categorias e classificar os documentos de acordo com as categorias criadas. Em geral fazem uso da anlise estatstica da ocorrncia e co-ocorrncia de termos no domnio analisado. O trabalho enriquecido atravs da interveno humana. As formas de apresentao adotadas so do formato semelhante ao dos diretrios web e/ou dos mapas bidimensionais.

    Fonte: Gilchrist (2003, p. 11). Atualmente as taxonomias so parte importante nos sites de

    compras na internet, em que elas auxiliam os usurios a escolher o produto dentre aqueles disponibilizados para a venda pela empresa. O exemplo abaixo demonstra a categoria informtica e tablets com a estrutura hierrquica das subcategorias.

  • 49

    Informtica e tablets Informtica

    Notebook Ultrabook All in one Computadores

    Tablets

    IPAD Tablete Samsung Informtica e acessrios

    HD externo Impressora Multifuncionais Roteadores Projetor Cartuchos e toners

    Fonte: produo do autor com base em http://www.americanas.com.br/ O conceito de hierarquia inerente ao ser humano desde que ele

    nasce. A famlia espelha este conceito de hierarquizao quando partimos dos avs e chegamos at o neto ou bisneto. A taxonomia, como um sistema de organizao do conhecimento, explora esse conceito universalizado na estruturao e divulgao do conhecimento. Extrapolando este conceito de hierarquizao, as organizaes adotaram a taxonomia como forma de preservao e divulgao do seu conhecimento.

    2.1.3 Tesauros

    A palavra thesaurus provm do latim e significa tesouro,

    armazm de algo valioso. Desse termo em latim, segundo o Dicionrio Priberam6, derivaram-se os termos tesauro para o espanhol e portugus, thesaurus para as lnguas saxnicas e thsaurus para o francs.

    Moreira e Moura (2006) citando Motta (2005) afirmam que Brunetto Latini entre 1220 e 1294 utilizou o termo thesaurus para designar uma enciclopdia sistematizada que foi denominada como Os Livros do Tesouro. No incio do sculo XVI elaborado o Dicionrio ou Tesouro do Idioma Latino, um dicionrio para a lngua latina em arranjo

    6 http://www.priberam.pt/dlpo/thesaurus

  • 50

    alfabtico. Neste mesmo sculo A. Etienne publicou outro dicionrio cuja denominao em latim era Thesaurus Linguage Graecae. Dois sculos depois, em 1736, o Shorter Oxford Dictionary define a expresso thesaury or storehouse of knowledge como tesouro ou armazm de conhecimento similar a um dicionrio ou uma enciclopdia.

    Gomes (1990) e Currs (2010) defendem que o termo Thesaurus foi utilizado pela primeira vez no dicionrio analgico de Peter Mark Roget, intitulado Thesaurus of English Words and Phrases, publicado em Londres no ano de 1852. Conforme defende Jesus (2002), talvez esta afirmativa do pioneirismo de Roget esteja no modelo do Thesaurus que ele elaborou, fugindo de uma ordenao alfabtica para os termos como vinha acontecendo at ento com os tesauros publicados.

    A inteno de Roget era facilitar sua atividade literria, agrupando as palavras segundo as ideias que elas exprimem ou poderiam expressar e no na ordem alfabtica como so hoje. Com este objetivo, as palavras foram arranjadas estritamente de acordo com seu significado.

    Roget define o seu tesauro como:

    [...] uma coleo de palavras e frases ordenadas, no em ordem alfabtica, como esto em um dicionrio, mas de acordo com as ideias que representam. Isto quer dizer que se tem a ideia, e tem que se buscar a palavra, ou palavras, que se ajustem mais exatamente a esta ideia

    Currs (2010), no Thesaurus Roget ordenou as palavras em seis

    categorias: a) relaes abstratas; b) espao; c) matria; d) intelecto; e) volio (vontade); f) afeies. Estas eram divididas em classes, que se dividiam em sees, depois, subsees, e ento, conceitos isolados.

    O termo tesauro designa vocabulrio, dicionrio, lxico e estabeleceu a denominao para os vocabulrios que relacionam os seus termos por meio de algum tipo de relao de significado. Currs (2010, p. 95) explica que:

    vrios autores como Brian Vickery e Alan Gilchrist afirmam que foi Helen Brown em 1957 a primeira a utilizar o termo Thesaurus para definir o que se entende hoje como um tesauro ao afirmar que para se recuperar uma informao importante transformar os conceitos e suas relaes numa linguagem mais regulamentada, controlando os sinnimos e a simplificao das suas estruturas sintticas.

  • 51

    Diante da diversidade de conceitos sobre o que tesauro e levados por uma curiosidade, buscamos as definies para tesauro existentes em diversos idiomas. Verificamos que h nfase ao dicionrio que em alguns casos definido como coleo de palavras ou lista de termos. Outro aspecto comum diz respeito sinonmia ou aos termos de significado semelhantes.

    Seguem as definies de tesauro em francs, portugus, espanhol, ingls britnico e norte-americano:

    Francs: thsaurus 1. liste de termes utiliss pour une nomenclature, 2. parfois utilis pour dcrire un dictionnaire de synonymes 7

    Portugus: tesauro sm (lat thesauru) 1 Coleo de palavras agrupadas por conceitos e ttulos, e no em ordem alfabtica como num dicionrio. Exs: tesauro de sociologia, tesauro de economia poltica. 2 Inform Arquivo contendo sinnimos que so exibidos como alternativas para uma palavra escrita de forma incorreta, durante uma verificao de ortografia. Sin: thesaurus.8

    Espanhol: tesauro. 1. m. desus. Tesoro (diccionario, catlogo). 2. m. ant. tesoro9.

    Ingls britncio: Thesaurus - a type of dictionary in which words with similar meanings are arranged in groups10. O Oxford English Dictionary (OED) define o tesauro como: Treasury or storehouse of knowledge, as a dictionary, encyclopdia, or the like. A collection of concepts or words arranged according to sense; also (U.S.) a dictionary of synonyms and antonyms. A classified list of terms, esp. key-words, in a particular field, for use in indexing and information retrieval.11

    Ingls Americano: Thesaurus a book or electronic text that helps you find words with similar meanings esp. by listing them together12.

    7 http://dicionario.reverso.net/frances-definicao/ thesaurus 8 http://michaelis.uol.com.br/moderno/portugues/index.php?lingua=portugues-

    portugues&palavra=tesauro 9 http://lema.rae.es/drae/?val=tesauro 10 http://dictionary.cambridge.org/pt/dicionario/britanico/thesaurus 11 http://www.oed.com/view/Entry/200648?redirectedFrom=thesaurus#eid 12 http://dictionary.cambridge.org/pt/dicionario/ingles-americano/thesaurus

  • 52

    Das definies obtidas nos dicionrios, a maioria explicita tesauro como um dicionrio especializado que contempla as sinonmias. As definies contidas nos dicionrios Michaelis (portugus) e de Cambridge (ingls britnico) j possuem definies que se assemelham aos tesauros definidos pela Cincia da Informao.

    Foi em 1971, mais de 20 anos aps o incio do desenvolvimento e da utilizao dos sistemas de indexao e classificao baseados em palavra-chave, que surgiram as obras de Alan Gilchrist e Gernot Wersig sobre a construo dos tesauros. (Currs, 2010, p.95)

    De acordo com Currs (2010, p.96), Gilchrist inicialmente definiu um tesauro como: uma lista autorizada de lxicos, sem notao, que difere de uma lista de cabealhos de assunto, na qual as unidades lxicas, sendo menores, so mais fceis de manipular e se utilizarem na indexao coordenada.

    Em 2000 ele define um tesauro de forma mais especfica, demonstrando evoluo ao afirmar que um tesauro :

    [...] o vocabulrio de uma linguagem de indexao controlada, de forma que, a priori, as relaes entre conceitos se tornam explicitas, para ser usadas nos sistemas de recuperao da informao, pulando do catlogo de fichas at a internet (CURRS, 2010, p.96)

    Currs (2010, p. 96) apresenta uma definio simples, como a de Gilchrist, com nfase nas relaes, ou seja: vocabulrio especializado, em que as palavras que o compem esto relacionadas entre si semntica e sintaticamente.

    No mesmo trabalho, Currs (2010, p. 99) apresenta uma definio mais atual, acompanhando a linha de evoluo dos tesauros. Assim, um tesauro passa a ser:

    [...] uma linguagem especializada, normalizada, ps-coordenada, usada com fins documentrios, onde os elementos lingusticos que a compem termos simples ou compostos se relacionam entre si sinttica e semanticamente.

    Dodebei (2002) cita que a UNESCO (1973, p.13) definia o

    tesauro como Vocabulrio controlado e dinmico de termos relacionados semntica e genericamente, que cobre de forma extensiva um campo especfico do conhecimento.

  • 53

    Observa-se que naquela poca (1973) a UNESCO j considerava o tesauro uma ferramenta dinmica, passvel de atualizao constante e que deveria se restringir a uma rea especfica de conhecimento. Essas caractersticas permanecem na definio mais atual da Unesco, em seu Thesaurus13, conforme o que segue: uma linguagem documentria controlada e dinmica contendo termos relacionados semanticamente e genericamente, que cobrem exaustivamente um domnio especfico de conhecimento.

    Os tesauros so ferramentas consolidadas utilizadas por indexadores para realizar a organizao da informao. So linguagens documentrias em que a relao entre os termos considerada complexa. Geralmente so especficos para determinada rea do conhecimento. Cavalcanti (1978, p. 27) resume essas caractersticas assim o tesauro uma lista estruturada de termos associados empregada por indexadores para descrever um documento com a desejada especificidade e para permitir aos usurios a recuperao da informao que procuram.

    Currs (2010) e Gomes (1990) enfatizam as relaes entre os termos. Para Gomes (1990) o tesauro, como uma linguagem documentria dinmica, deve cobrir um domnio do conhecimento utilizando de termos relacionados semntica e logicamente.

    O tesauro geralmente elaborado para atender uma determinada rea de conhecimento, o que exige que seja constitudo por termos cuidadosamente escolhidos e que tenham significado para a rea. Como os tesauros visam facilitar a recuperao da informao o uso de termos que possuem maior frequncia de uso na rea contribui para que os usurios utilizem os tesauros.

    Dada importncia e abrangncia da elaborao e uso dos tesauros, em 1974 os princpios e as orientaes prticas para a construo dessas linguagens formaram as normas internacional ISO 2788 e a ISO 5964 em 1985. Mudanas ao longo do tempo, em especial influenciadas pela Tecnologia da Informao, fizeram com que essas normas fossem substitudas em 2011 pela ISO 25964-1. (CLARKE e ZENG, 2012, p. 22).

    Outra norma em vigor, a ANSI / NISO Z39.19-2003 - Diretrizes para a Construo, Formato e Gesto de Tesauro Monolngue, postula que:

    13 http://databases.unesco.org/thesaurus/wwwi32.exe/[in=affiche.in]/

  • 54

    Um tesauro um vocabulrio controlado organizado em uma ordem conhecida e estruturada de modo que As relaes de equivalncia, homografia, hierrquicas e associativas entre os termos so exibidas de forma clara por indicadores padronizados de relacionamento que so empregados de forma recproca. (ANSI / NISO Z39.19, 2003, p.1, traduo nossa)

    Ainda segundo a norma ANSI / NISO Z39.19, 2003 so objetivos

    fundamentais dos tesauros facilitar a recuperao de documentos e alcanar coerncia na indexao de documentos em especial para sistemas ps-coordenados de armazenamento e recuperao de informaes.

    Gilchrist (2003, p. 3) afirma a despeito da evoluo tecnolgica os tesauros ainda so usados em muitas partes do mundo em suas formas originais, mas bastante variadas. Essa afirmao nos leva a crer que os tesauros so um tipo de SOC ainda em uso em sistemas que surgiram aps o advento da Web.

    2.1.3.1 Caractersticas e Elementos dos Tesauros

    Com base em Gomes (1990), ANSI / NISO Z39.19-2003 e

    Gilchrist (2003), podemos dizer que, a partir dos objetivos a serem atingidos e buscando um modelo de linguagem documentria mais robusto e verstil, surgiram os tesauros. Com eles, os indexadores e usurios tem a possibilidade de escolher os termos a partir de uma estrutura conceitual previamente estabelecida, alm de se apoiarem nas relaes de equivalncia, hierrquicas e associativas entre os termos. Esses termos e relaes so exibidos na estrutura do tesauro e representam uma rea do conhecimento. Com os tesauros a recuperao dos documentos se torna mais rpida e com maior assertividade.

    Dodebei (2002, p.67) citando Foskett (1972) e Lancaster (1972) afirma que o principal objetivo do tesauro o controle terminolgico e, nesse aspecto, ele tem como principais funes controlar os sinnimos e quase sinnimos; distinguir homgrafos; facilitar a conduo da busca por meio dos termos relacionados e das referncias cruzadas; melhorar a consistncia da indexao; espelhar a linguagem de busca para a indexao; reduzir o tempo e aumentar a eficincia nas tarefas de indexao e recuperao da informao.

    Tomando por base um caso concreto, em que podemos observar

  • 55

    a aplicao dos aspectos conceituais que apresentamos, citamos o Thesaurus Brasileiro da Educao - Brased no qual se destacam as seguintes caractersticas:

    a) no thesaurus cada termo corresponde a um

    conceito. Uma vez aceito, esse termo torna-se um "descritor" ou um "indexador". Caso o termo no seja aceito como "descritor", ele pode ser aceito como "remissivo", isto , remete para um termo autorizado (descritor).

    b) todos os termos esto relacionados entre si. Nenhum termo pode figurar no thesaurus sem estar relacionado a algum outro, sendo essa relao determinada pelo seu significado.

    c) a conceituao dos termos e as relaes entre eles so definidas pelo sistema ontolgico da rea e pelo estudo de cada termo.

    Levando-se em considerao o que foi exposto, podemos inferir

    que todo tesauro tem como diferenciadores das demais linguagens documentrias os seguintes aspectos:

    a) um vocabulrio controlado; b) formado por termos que formam um conjunto estruturado

    sob a base de um sistema de conceitos; c) os termos utilizados so semanticamente relacionados; d) todos os termos utilizados esto relacionados entre si; e) utiliza os conceitos especficos de uma rea de

    conhecimento; f) auxilia a inter-relao entre a linguagem natural e artificial; g) atua como instrumento de controle terminolgico; h) estruturado hierarquicamente ou semanticamente; i) faz a padronizao e normalizao terminolgica nas

    atividades de indexao; j) padroniza e normaliza as atividades de recuperao de

    informaes; k) organiza contedos; l) evita as ambiguidades lingusticas.

    Para que se possa entender como se estrutura um tesauro preciso compreender o que termo e o que se entende por conceito, conforme j explanado na seo 2.1.1. Nos tesauros, a unicidade entre termo e conceito um controle necessrio e efetivo, no entanto, um

  • 56

    tesauro, por ser dinmico, deve observar as mudanas terminolgicas, o que exige peridicas manutenes.

    Para Lapuente (2013 p. 2) a estrutura dos tesauros compe-se dos seguintes elementos:

    I. unidades lxicas: so os termos que compem

    a linguagem documentria. So formadas pelas seguintes categorias: as que agrupam os termos de indexao por temas e as que agrupam por classes de termos ou facetas.

    a) Descritores: um descritor uma palavra ou um conjunto de palavras da linguagem comum que corresponde a um conceito. Os descritores so termos ou unidades lingusticas que representam os conceitos e que sero utilizados na indexao e na recuperao de determinado assunto. So os termos preferidos ou termos autorizados e tambm conhecidos como palavra-chave. Sero considerados termos simples ou unitermos quando o conceito correspondente suficientemente claro, sem necessidade de acrescentar outro termo para melhor definio do conceito ou quando o termo utilizado de forma genrica de um termo mais especfico. So considerados termos compostos quando o conceito representado pela juno de mais de um termo.

    b) No-descritores: so termos assim considerados porque no so utilizados na indexao e na recuperao embora represente o mesmo conceito de um descritor. A excluso deles da indexao tem a finalidade de evitar a proliferao de sinnimos evitando-se assim a baixa revocao. Eles formam o conjunto das remissivas.

    c) Modificadores: so termos que so usados junto aos descritores e restringem a extenso do foco, ou seja, esclarecem ou delimitam o significado dos descritores.

    d) Qualificadores: so termos utilizados para diferenciar homgrafos. Em geral aparecem entre parntesis junto do descritor.

  • 57

    e) Identificadores: so termos que representam conceitos pessoas, instituies, pases, etc. Em geral so os nomes prprios.

    f) Facetas: so conceitos formados de termos compostos que apresentam aspectos ou caractersticas comuns.

    II. Relaes semnticas: So todas as relaes que se estabelecem entre os termos de um tesauro. As relaes mais importantes so as de equivalncia, as hierrquicas e as associativas.

    Maculan et al (2014) citando Svenonius (2000) afirmam que os

    tesauros possuem quatro elementos bsicos que so: a) Um lxico; b) Uma estrutura gramatical que representa o padro de

    relaes existentes entre os termos (sintaxe); c) uma rede paradigmtica14, para indicar relaes

    essenciais e estveis entre descritores tais como as relaes gnero/espcie, todo/parte e de oposio;

    d) uma rede sintagmtica15, para determinar as relaes entre descritores, vlidas apenas em determinado contexto de uso, atravs das regras de sintaxe. formada pelas relaes entre termos-descritores numa relao funcional.

    Esses elementos so os responsveis pela integridade dos termos

    do tesauro fazendo com que no exista termo sem ligao com outro termo, diretamente relacionado com seu significado. Os tipos de relacionamentos estabelecidos em tesauros so discutidos a seguir.

    2.1.3.2 Relacionamentos entre Conceitos

    O principal diferencial do tesauro, comparando-o com outras linguagens documentrias so as relaes disponibilizadas. Os relacionamentos exprimem uma associao entre duas ou mais entidades ou uma variedade de conexes entre coisas ou objetos.

    Para estabelecermos comparaes por semelhanas ou diferenas entre conceitos temos que abordar as relaes conceituais. Dodebei (2002, p.90-91) explicita que um conceito pode ser analisado segundo

    14 Redes paradigmticas so relaes definidas a priori entre os descritores 15 Redes sintagmticas so relaes entre os termos realizadas no momento da busca.

  • 58

    aes mentais, ou seja, a habilidade da mente em comparar algo novo com conhecimento adquirido. Em funo do contedo ou significado, as relaes entre os conceitos se do mediante comparaes: lgicas, formais, abstratas ou semnticas.

    Green (2001 apud MACULAN, 2010, p. 189) destaca que para especificar um relacionamento, temos de ser capazes, em primeiro lugar, de designar todas as partes vinculadas pelo relacionamento e, em segundo lugar, de especificar a natureza dessa relao.

    Gomes (1990) e Campos (2001) classificaram os tipos de relacionamentos em um tesauro em trs categorias:

    a) lgicas: que tm origem na comparao entre dois conceitos, podendo ser relaes do tipo

    1. genrico, de gnero-espcie, 2. analtico 3. de oposio;

    b) ontolgicas: que englobam os relacionamentos 1. partitivos, 2. de sucesso (ou contiguidade) 3. de material-produto;

    c) de efeito: que so os relacionamentos de 1. causalidade (ou causa/efeito) 2. instrumentalidade 3. descendncia (relaes genealgicas

    entre os termos). Observa-se uma convergncia dos autores Austin (1993),

    Lafuente (2013), Currs (1995) e a norma ISO 25964-1 (2011) quando definem trs tipos bsicos de relacionamentos para os tesauros que so a equivalncia, as hierarquias e as relaes associativas. Faremos a seguir uma explorao dessas relaes mais usuais e de outros que demonstram importncia para este trabalho.

    Dodebei (2002, p.91) define que a equivalncia entre dois smbolos dada pela anlise das caractersticas de cada um onde a soma dos atributos verdadeiros possa conduzir a um nico conceito.

    Conforme Moreira e Moura (2006) as relaes de equivalncia semntica so usadas nos casos em que o conceito pode ser representado por vrios termos considerados sinnimos ou quase sinnimos. Estas relaes controlam trs tipos de disperses semnticas que so a lxica, a simblica e a sinttica. Na disperso lxica controlam-se os sinnimos e os quase sinnimos. Na disperso simblica controlam-se as grafias diferentes, as abreviaturas e siglas, as razes sociais e nomes fantasia, as tradues ou emprstimos lingusticos e as grias ou jarges. Na disperso

  • 59

    sinttica faz-se o controle da coordenao e do gnero e nmero. Brscher (2015) argumenta que nas relaes de equivalncia,

    todos os termos que representam o conceito so includos no tesauro, mas somente um deles ser o descritor. Os demais sero considerados como no-descritor. A relao de equivalncia representada no tesauro pelos cdigos remissivos USE e UP - Usado para. Considerando que A e B so termos que representam o mesmo conceito, ao usarmos a relao A USE B estamos dizendo que B o termo escolhido como descritor e A o no descritor. Na relao B UP A temos que o termo B dever ser usado em substituio ao termo A.

    Se ao compararmos dois conceitos que apresentam caractersticas idnticas observamos que um deles possui uma caracterstica a mais do que o outro, ento h uma relao hierrquica entre eles, que tambm conhecida como relao de gnero-espcie. Tambm pode ser denominada uma relao de abstrao porque a cada patamar hierrquico reduz-se uma caracterstica a mais do conceito. (DODEBEI, 2002, p.92)

    As relaes hierrquicas exprimem os graus de superordenao e subordinao entre conceitos. Existem diversas formas de demonstrar graficamente o relacionamento hierrquico. Dodebei (2002) exibe as formas de relao hierrquica nos modelos de estrutura em rvore, modelo de conjunto e por natureza do atributo (acidental ou natural). As figuras 3, 4 e 5 exibem esses modelos.

    Figura 03 Relaes hierrquicas modelo rvore

    Fonte: Dodebei (2002, p.92)

  • 60

    Figura 04 Relaes hierrquicas modelo conjunto

    Fonte: Dodebei (2002, p.92). Figura 05 Relaes hierrquicas modelos natureza do atributo

    Fonte: Dodebei (2002, p.93).

    Nas relaes hierrquicas o conceito que s tem as caractersticas

    comuns aos demais conceitos relacionados o conceito mais abrangente e compe uma classe geral. conhecido como superordenado ou termo genrico e representado no tesauro pelo cdigo remissivo TG - Termo Genrico (BT Broader Term). Os demais conceitos relacionados hierarquicamente so considerados como subordinados porque herdam as

  • 61

    caractersticas do conceito superordenado e possuem uma caracterstica a mais que ele. So conhecidos como termos especficos e representados pelo cdigo remissivo TE - termo especfico. (Austin, 1993)

    Exemplificando, com os conceitos linhas areas e servios de transporte temos:

    LINHAS AREAS TG servios de transporte

    SERVIOS DE TRANSPORTE TE linhas areas

    Ainda como tipo de relao hierrquica, temos as que so

    denominadas relaes hierrquicas partitivas. A relao partitiva existe entre um todo e suas partes. A norma ANSI/NISO Z3919 define a relao partitiva como:

    [...] abrange as situaes em que um conceito inerentemente includo no outro, independentemente do contexto, de modo a que os descritores podem ser organizados em hierarquias lgicas, com o todo sendo tratado como um termo mais amplo. (ANSI/NISO Z3919, 2003, p.17) (traduo nossa)

    Na figura 6 o conceito rvore representa o todo que composta de raiz, caule, frutos, folhas e flores.

    Figura 06 Relao partitiva todo/parte

    Fonte Dodebei (2002, p.93)

  • 62

    As relaes partitivas ou relaes todo-parte podem servir, conforme descreve Dodebei (2002), para identificar as partes de um objeto natural, os elementos de construo de um produto, a constituio de uma unidade organizacional que, nesse caso, pode ser um pas, ou uma organizao corporativa, poltica, social ou militar, uma rea de estudo, entre outros.

    Na relao partitiva o termo genrico partitivo que representa o todo indicado pelo cdigo remissivo TGP - Termo Genrico Partitivo (BTP = Broader term - partitive) e os termos que representam as partes pelo cdigo TEP - Termo Especifico Partitivo (NTP = Narrower term - partitive) (Brscher, 2015).

    Exemplificando a relao partitiva: Motor a combusto

    TEP1 motor combusto diesel TEP2 pistons TEP2 bomba injetora

    Motor combusto diesel

    TGP1 motor combusto TEP1 pistons TEP1 bomba injetora

    Pode acontecer que um determinado descritor possua uma

    relao direta com mais de um termo genrico. Nesse caso estamos tratando de uma poli-hierarquia conforme ensina Brscher (2015).

    A autora supracitada fornece o exemplo a seguir, que nos permite visualizar melhor essa condio:

    Doena infecto-contagiosa TE aids

    Doena sexualmente transmissvel TE aids

    Aids TG doena infecto-contagiosa TG doena sexualmente transmissvel

    A relao associativa uma das relaes bsicas mais difceis de

    definir no que diz respeito s suas caractersticas. Para entend-la, seguimos a viso de Austin (1993), quando afirma que encontramos termos que no so equivalentes e nem formam uma hierarquia, mas nos

  • 63

    levam a considerar que eles so semanticamente ou conceitualmente associados. uma associao mental em que pelo menos um dos conceitos pode estar envolvido num processo ou numa operao. O cdigo remissivo utilizado TR Termo Relacionado e deve ser utilizado nos dois termos relacionados. O exemplo abaixo explicita o a relao associativa:

    PSSARO TR Ornitologia

    ORNITOLOGIA TR Pssaro

    Outros tipos de relacionamentos encontram-se contemplados em

    normas de elaborao de tesauros. A utilizao do cdigo que precede e define o relacionamento de um termo com outro na estrutura do tesauro, facilita a leitura e a compreenso das relaes, assim como a navegao. Tesauros bem elaborados, em que o domnio esteja bem representado pelos termos selecionados permitem que as buscas sejam eficientes, com alto grau de assertividade.

    2.2 CRITRIOS DE AVALIAO DE TAXONOMIAS E TESAUROS

    Os SOC buscam a organizao da informao e,

    consequentemente, a melhoria da recuperao da informao, o que permite ao usurio reduzir o esforo e o tempo para obt-la. Como j foi visto na seo 2.1, esses sistemas tm como caracterstica comum serem vocabulrios controlados.

    Brscher e Carlan (2010, p. 161) referenciam Uschold (2010) para definir outras caractersticas comuns dos SOC, mais precisamente das classificaes, taxonomias, tesauros e ontologias:

    a) so diferentes abordagens para ajudar a

    estruturar, classificar, modelar e/ou representar conceitos e relaes de uma rea de interesse de uma comunidade;

    b) estabelecem um conjunto de termos que a comunidade concorda em usar para referir-se a estes conceitos e relaes;

    c) especificam o significado dos termos em algum nvel;

    d) so noes no muito bem definidas e usadas de diferentes maneiras por diferentes indivduos e comunidades.

  • 64

    Os sistemas de organizao do conhecimento so muito semelhantes, o que pode, por vezes, dificultar a escolha sobre o mais adequado para determinado contexto informacional. Para este trabalho de pesquisa, levamos em conta o contexto do Governo Eletrnico, que tem nfase no ambiente Web. Por esse motivo, delimitaremos o nosso estudo na avaliao das taxonomias e dos tesauros, pois consideramos que estes j so aplicados na web para organizao de contedos em stios institucionais.

    Na literatura que trata sobre a elaborao de taxonomias e tesauros, encontramos orientaes que pod