aprenda tudo sobre semantica

92
 Pontif ícia Universid ade Católi ca de Sã o Paulo PUC-SP Luciano Gonzaga Leme Site com Cont eúdo Aprop riado à Web Semântica e Mecanismos de Busca Mestr ado em T ecnolog ias d a Inteligência e Design  Digital o Paulo 2009

Upload: vandovm

Post on 01-Nov-2015

10 views

Category:

Documents


0 download

DESCRIPTION

Semantica é um saber que todos deveriam possuir

TRANSCRIPT

  • Pontifcia Universidade Catlica de So Paulo

    PUC-SP

    Luciano Gonzaga Leme

    Site com Contedo Apropriado Web Semntica e Mecanismos de Busca

    Mestrado em

    Tecnologias da Inteligncia e Design Digital

    So Paulo

    2009

  • Pontifcia Universidade Catlica de So Paulo

    PUC-SP

    Luciano Gonzaga Leme

    Site com Contedo Apropriado Web Semntica e Mecanismos de Busca

    Mestrado em

    Tecnologias da Inteligncia e Design Digital

    Dissertao apresentada Banca Examinadora

    da Pontifcia Universidade Catlica de So Paulo,

    como exigncia parcial para obteno do ttulo de

    Mestre em Tecnologias da Inteligncia e Design

    Digital - Inteligncia Coletiva e Ambientes Interativos,

    sob a orientao do Professor Doutor Demi

    Getschko.

    So Paulo

    2009

  • Banca Examinadora

    ________________________________

    ________________________________

    ________________________________

  • Ao meu orientador: Professor Doutor Demi Getschko

    pelo apoio e auxlio para a realizao deste trabalho.

  • Resumo

    Leme, Luciano Gonzaga Site com Contedo Apropriado Web

    Semntica e Mecanismos de Busca So Paulo, 2009.

    Esta dissertao apresenta uma abordagem que tem como objetivo principal

    questionar e apresentar possveis caminhos para que o contedo de um web site seja

    apropriadamente oferecido em termos de Web Semntica e Mecanismos de Busca.

    Para alcanar esse objetivo foram efetuadas pesquisas e utilizada a experincia do

    autor. Desse modo foram combinados os conceitos e as tecnologias envolvidas em

    relao a metadados, ontologias, servios web semnticos e otimizao de

    mecanismos de busca.

    Os metadados permitem qualificar informaes apropriadamente, as

    ontologias so empregadas para aprimorar a anlise do domnio do problema e para

    obter componentes de software com descries semnticas, os quais podem ser

    reutilizados numa grande variedade de aplicaes. Os servios web semnticos so

    utilizados como componentes de software distribudos pela Internet e podem realizar

    tarefas complexas de aplicaes.

    Partindo do questionamento do que publicar em um web site, ou melhor,

    como deve ser o contedo de um web site - foram expostos conhecimentos e

    tecnologias que delineiam a questo: como oferecer contedo apropriado?

    Aps a exposio dos conceitos associados e da apresentao de possveis

    solues conclumos com questionamentos e indicativos de possveis pesquisas que

    muito contribuiro ao desenvolvimento de sites com contedo apropriado com a

    Web Semntica e seus possveis efeitos colaterais positivos, propiciando a melhor

    utilizao do conhecimento e das informaes disponibilizadas na web.

    Palavras-chave: contedo apropriado na web, Web Semntica, Metadados,

    Ontologias, Agentes Semnticos, Servios Web Semnticos, SEO.

  • Abstract

    Leme, Luciano Gonzaga Site with Appropriated Content to Semantic

    Web and Search Engines Sao Paulo, 2009.

    This work introduces an approach which main purpose is to ask and present

    possible ways so that the web sites content will be appropriately offered related to

    Semantic Web and Search Engines. To achieve this purpose many researches were

    made and used the authors experience in this area. Therefore many concepts and

    technologies were combined and used, such as: metadata, ontologies, semantic web

    services and search engine optimization.

    Metadata allow qualifying informations appropriately, ontologies are used to

    improve domains analysis problem and to obtain software components with

    semantic descriptions, which may be reused in a great variety of applications.

    Semantic web services may be used as software components spread through the

    Internet to perform applications complex tasks.

    Starting asking what should be published in a web site, or even better, how

    should be a web sites content the work exposes knowledges and technologies to

    answer the question: how to offer appropriated content?

    After exposing the associated concepts and showing possible solutions a

    conclusion is achieved with questions and possible researches which will allow

    appropriated content sites development with Semantic Web and its possible positive

    collateral effects, granting improvement in both: knowledge utilization and available

    informations in the web.

    Keywords: appropriated content in the web, Semantic Web, Metadata,

    Ontologies, Semantic Agents, Semantic Web Services, SEO.

  • Sumrio

    I Introduo ........................................................................................................... 9

    II Contedo de um site ........................................................................................ 11

    II.01 - Definindo o contedo de um site ......................................................... 11

    II.02 Interao com o usurio ....................................................................... 23

    II.03 A utilizao da Web Semntica ........................................................... 25

    II.03.01 Web Semntica versus Inteligncia Artificial .......................... 27

    II.03.02 Metadados ..................................................................................... 31

    II.03.02.01 Padro Dublin Core .......................................................... 34

    II.03.02.02 Resource Description Framework - RDF ...................... 36

    II.03.02.03 Crticas aos Metadados ..................................................... 40

    II.03.03 Ontologias .................................................................................... 44

    II.03.03.01 Linguagens para Representao de Ontologias ............. 47

    II.03.03.02 Principais Ontologias ........................................................ 54

    II.03.03.03 Criao de Ontologias ....................................................... 59

    II.03.03.03.01 Seleo dos Termos referentes ao domnio da

    ontologia: ............................................................................................................. 59

    II.03.03.03.02 Definir as classes e a hierarquia de classes da

    ontologia: ............................................................................................................. 59

    II.03.03.03.03 Definir as propriedades: .......................................... 59

    II.03.03.03.04 Definir as restries: ................................................ 60

    II.03.03.03.05 Definir instncias: .................................................... 60

    II.03.04 Ferramentas .................................................................................. 61

    II.03.04.01 Principais Ferramentas ...................................................... 62

    II.03.04.01.01 - OilEd: ......................................................................... 62

    II.03.04.01.02 - OilViz: ........................................................................ 62

  • II.03.04.01.03 - Protg: ...................................................................... 62

    II.03.04.01.04 - DC.dot: ....................................................................... 63

    II.03.04.01.05 - API JENA: ................................................................. 64

    II.03.04.01.06 - Chimaera: ................................................................... 65

    II.03.04.01.07 - SNOBASE: ................................................................ 65

    II.03.04.01.08 - FaCT: .......................................................................... 66

    II.03.04.01.09 - Pellet: .......................................................................... 67

    II.03.05 Agentes .......................................................................................... 68

    II.03.05.01 Principais Agentes ............................................................. 69

    II.03.05.01.01 - CATO (Componente para Alinhamento

    Taxnomico de Ontologias): ............................................................................ 69

    II.03.05.01.02 - API Jena: .................................................................... 69

    II.03.05.01.03 - Servios Web Semnticos ........................................ 69

    II.04 Como organizar o contedo para que os mecanismos de busca

    sejam mais eficientes ....................................................................................................... 74

    III Concluso ....................................................................................................... 77

    Notas ........................................................................................................................ 80

    Glossrio .................................................................................................................. 81

    Referncias Bibliogrficas ...................................................................................... 82

    Impressas: ............................................................................................................ 82

    Sites da Internet: .................................................................................................. 86

    Anexos .................................................................. Erro! Indicador no definido.

    Anexo 01 - Exemplo de Arquivo utilizando SHOE:Erro! Indicador no

    definido.

    Anexo 02 Tabela Comparativa entre as linguagens OIL e DAML: ... Erro!

    Indicador no definido.

  • 9

    I Introduo

    tualmente existe uma grande quantidade de dados que demandam o

    nosso tempo. Dentro dessa enxurrada de dados, quais so os que tm

    relevncia aos nossos interesses? As empresas de contedo (Abril, BBC, CNN,

    Globo, iG, Reuters, UOL dentre muitas) demandam o nosso tempo e nem sempre

    atendem nossas intenes. Ao mesmo tempo em que estar bem informado passou a

    ser uma condio sine qua non para nossa integrao social e ampliarmos nossas

    perspectivas de negcios, como escolher o contedo que mais nos agrada e que pode

    nos trazer melhores perspectivas numa sociedade que nos bombardeia a todo o

    tempo com dados que no so importantes e que nos tomam o pouco tempo que

    poderamos despender com atividades mais agradveis? Outro problema o lado do

    comunicador (que ser o foco deste trabalho), qual a melhor forma de atingir um

    pblico que lhe trar bons retornos, venda de espao propagandstico, venda de

    assinaturas etc. a mdia quer atingir o pblico em geral, de preferncia com

    eficincia (fazer certo as coisas) e eficcia (fazer as coisas certas). Como a mdia pode

    oferecer contedo relevante com interao inteligente para atender demandas

    variveis? Esse o desafio: site ou ambiente Web com contedo apropriado.

    Segundo Guevara: As interfaces dos atuais sistemas necessitam no somente

    responder s solicitaes dos usurios, mas tambm antecipar, adaptar e buscar

    ativamente maneiras de lhes dar suporte.

    Pretende-se, com o trabalho, descrever ou caracterizar as principais opes

    que atendam ao objetivo geral da pesquisa que o de criar mecanismos cognitivos,

    simblicos, interativos e inteligentes para atender s demandas de informao

    relevante. Hoje em dia, um usurio faz uma busca a respeito de um livro de um

    determinado gnero e pode aparecer no resultado da pesquisa um link para um site de

    e-commerce que oferece ao usurio sugestes do gnero daquele livro que no

    condizem com o que o usurio necessita ou deseja (talvez ele no queira pagar frete

    ou gostaria de obter alguma promoo etc.). Dessa forma, o trabalho visa estudar

    como oferecer, atravs de mecanismos inteligentes, contedo adequado, com Web

    A

  • 10

    Semntica apropriada, de acordo com o que houver sido identificado ou solicitado

    pelo usurio.

    Um trabalho que apresente opes aos desafios de divulgao de informao

    e comunicao apresenta-se como fonte inesgotvel de solues que podero ser

    adotadas para que as empresas faam dinheiro que o fator mais atrativo no mundo

    empresarial.

    Iniciaremos nosso trabalho definindo o que seria um site de contedo e as

    dificuldades de alcanar diferentes idiomas, assim como diferentes culturas.

    Apresentaremos quais as possveis solues para que o problema possa ser

    contornado e quais as tcnicas que podem ser aplicadas at apresentarmos uma

    concluso do que pode ser feito para atingir o pblico de forma adequada atravs de

    sites de contedo.

  • 11

    II Contedo de um site

    II.01 - Definindo o contedo de um site

    um site de contedo, uma das grandes questes como disponibilizar

    e permitir a atualizao de contedo a ser visto pelo usurio. Haveria

    um modo de disponibilizar informao relevante e que atinja aos mais variados

    pblicos de forma que o que for enviado ao internauta seja relevante e que atinja a

    culturas, crenas e condies sociais diversas? Ou seja, teramos como fornecer a

    informao relevante e que interessa a cada usurio em especfico?

    Inicialmente vamos definir o que venha a ser um site de contedo: todo e

    qualquer site que no tem como objetivo fim apresentar uma ferramenta ou utilitrio

    para o usurio. Webmails, internet banking ou sites de busca so exatamente o oposto

    dos sites de contedo, j que tm como objetivo fim arrolar e-mails, facilitar o acesso

    do cliente a sua conta corrente ou fazer uma pesquisa na Internet, respectivamente.

    Os sites de contedo podem ser categorizados em um grande nmero, dada a

    natureza do que se prope a publicar. Como exemplos h sites de contedo infantil,

    esportivo, econmico, noticirio, opinies e muito mais. Sites puramente

    institucionais tambm so considerados como de contedo.

    Mas para abordar dificuldade acima: fornecer informao adequada ao perfil

    especfico de cada usurio em um site de contedo, vrios aspectos precisam ser

    analisados, tais como: qual o pblico que se deseja atingir? Se a resposta for a todos,

    j comeamos com o problema da lngua e para abordarmos exatamente esse ponto:

    o lingustico - consideraremos inicialmente o trabalho realizado por Raimundo Llio

    retratado por Umberto Eco no livro A busca da lngua perfeita, que tentou obter

    uma lngua que atendesse s culturas crist, hebraica e muulmana, ou seja, escritos

    que fossem adequados as trs culturas. Ramn Lull, em portugus Raimundo Llio,

    foi um catalo nascido em Maiorca1 entre aproximadamente 1232 e 1316 seu local

    1 Maiorca (em catalo e castelhano Mallorca) a maior ilha do arquiplago das Ilhas Baleares localizado a leste da Espanha e sua maior cidade e capital Palma de Maiorca.

    N

  • 12

    de nascimento era encruzilhada das culturas crist, islmica e hebraica. Aps uma

    juventude mundana, Llio teve uma experincia ou crise mstica (Umberto Eco no

    entra em maiores detalhes) e entrou para a Ordem Franciscana.

    Raimundo Llio foi o primeiro filsofo a escrever obras doutrinais em lngua

    verncula2 e em sua obra Ars magna desenvolveu uma lngua filosfica que seria,

    segundo Llio, perfeita mediante a qual seria possvel converter os infiis. Para

    Llio, os infiis seriam todos os que no fossem cristos. Havia em sua Ars magna

    uma forte tendncia crena e doutrina catlica, que em plena Idade Mdia possua

    fortssima influncia no mundo ocidental. A lngua defendida por Llio ambicionava

    ser universal, porque universal a combinao matemtica que articula o seu plano

    de expresso. Llio elabora no nvel de contedo o seu sistema de ideias que deve ser

    universal e comum a todos os povos. Faz uso de letras alfabticas e de figuras para

    alcanar seus objetivos de universalizao de uma lngua que poderia ser considerada

    perfeita para a finalidade a qual Llio se propunha: converter muulmanos e judeus

    ao catolicismo.

    Aqui cabem parnteses: no estamos ambicionando inventar uma nova lngua

    a ser colocada em sites de contedo e que possa ser considerada universal, mas a ideia

    que Llio tinha era a de uma lngua universal, perfeita e que permitiria atingir culturas

    diversas, ento a referncia ao trabalho de Llio nesta dissertao para que

    possamos indagar se podemos abordar a questo atravs de um mecanismo de lngua

    que permita a comunicao nica, mas que seja adequada a crenas e culturas

    diversas, de modo a permitir um contedo universal adequado a perfis diversos.

    Contemporneo a Llio tivemos um franciscano, Roger Vacona, que no

    queria inventar uma lngua nova, nem divulgar o conhecimento das lnguas dos

    outros, queria era a supremacia da cultura crist ocidental em detrimento s demais

    culturas ou tradies. Pensamentos franciscanos predominantes na poca eram:

    carter missionrio e utopia universalista defendidos por So Francisco, Vacona, e,

    em partes, pelo prprio Llio.

    2 Em contraste com a lngua litrgica.

  • 13

    Tambm no intuito deste trabalho, impor pesos ou valores a contedos

    especficos, para que os mesmos sejam considerados os verdadeiros. Partimos do

    pressuposto de que o contedo pode ser bastante diversificado e que no existe

    contedo melhor do que outro, apenas temos contedo que pode atender aos

    interesses de um usurio e que no atenderia aos interesses de outro usurio.

    Utilizando-se de elementos de arte combinatria, se queremos dispor n

    elementos t a t em que a ordem tenha valor diferencial, temos a seguinte frmula:

    n!/(n-t)! (fatorial de n dividido por fatorial de (n-t)) 3 como sendo a possvel

    quantidade de resultados. Exemplo disso : dadas quatro pessoas, como podemos

    disp-las em duplas nos assentos de um teatro. No entanto, se quisermos combinar n

    elementos t a t em que a ordem no altere o resultado, temos: n!/t(n-t)! (fatorial de n

    dividido pelo produto de t e fatorial de (n-t)). Exemplo deste ltimo : dados quatro

    soldados (A, B, C e D) como podemos combin-los 2 a 2 (dois a dois) para

    realizarem uma patrulha, enviar A e B ou B e A a mesma dupla para efetuar a

    patrulha, ou seja, a ordem no alteraria o resultado.

    Numa abordagem semitica, sistema de expresso (smbolos) e de regras

    sintticas (n elementos podem combinar-se t a t, onde t pode coincidir com n) que

    sejam capazes de revelar automaticamente possveis sistemas de contedo teremos,

    segundo Umberto Eco, 21 (vinte e uma) letras do alfabeto quantidade de letras

    condizente ao alfabeto utilizado poca de Raimundo Llio, sculo XIII que

    podem resultar em mais de 51 (cinquenta e um) bilhes de bilhes de sequncias de

    21 (vinte e uma) letras nmero astronomicamente alto que traduz as diversas

    disposies de 21 (vinte e uma) letras em todas as possveis quantidades de

    disposies. O nmero alcanado no contempla critrios ou restries que no

    dizem respeito combinatria, pois critrios ou restries vm do exterior para

    limitar as possibilidades matemticas - exemplo uma palavra formada apenas por

    3 Na matemtica, o fatorial de um nmero natural n o produto de todos os inteiros positivos menores ou iguais a n. Isso escrito como n! e lido como "fatorial de n". A notao n! foi introduzida por Christian Kramp em 1808.

  • 14

    vogais ou consoantes que nada possa representar ou foneticamente invivel e que

    teria que ser descartada.

    Llio, em sua Ars magna, montou um dispositivo com um alfabeto de 9

    (nove) letras de B a K e 4 (quatro) figuras e uma Tabula generalis - veja Figura 01 - que

    uma lista de 6 (seis) conjuntos de 9 (nove) entidades cada um, onde temos: 9 (nove)

    de cada um dos seguintes itens: Princpios Absolutos, Princpios Relativos, Tipos de

    Questes, Sujeitos, Virtudes e Vcios, que formariam uma espcie de quadro das

    dignidades, segundo Llio.

    Figura 01 Tabula Generalis

    Com relao Figura 02, observamos que ela permite combinaes possveis

    que podem unir os princpios da Tabula Generalis a predicados, construindo

    afirmaes do tipo A Bondade grande. E teremos 36 (trinta e seis) linhas com 72

    (setenta e duas) combinaes. As combinaes devem permitir silogismos regulares e

    sendo assim estaro descartadas afirmaes do tipo: A Bondade boa.

  • 15

    Figura 02 Combinaes de Princpios da Tabula Generalis versus Predicados

    A Figura 03 no visa nenhuma combinao, trata-se de um artifcio

    mnemnico-visual que permite lembrar as relaes fixas entre os vrios tipos de

    relao e vrios tipos de entidades.

    Figura 03 Relaes versus Entidades

    Na Figura 04 so consideradas todas as combinaes possveis entre as letras,

    aparentemente excluindo as inverses de ordem. As regras das combinaes como

    todas as outras dependem das definies dos termos (que so de natureza teolgica)

  • 16

    assim como de algumas modalidades de argumentao que as regras estabelecem,

    alheias s leis da combinatria.

    Figura 04 Combinaes entre as letras

    Na Figura 05, h tripletas geradas por 9 (nove) elementos. utilizada a roda,

    provavelmente devido a tradies cabalsticas, sendo que Llio transforma as tripletas

    em qudruplas, inserindo a letra T. Desse modo, utilizado um artifcio mnemnico

    em que as letras que precedem a letra T devem ser lidas como princpios ou

    dignidades, ao passo que aquelas que seguem a T devem ser lidas como princpios

    relativos. No caso, podemos questionar se todas as milhares de qudruplas levam a

    uma argumentao vlida. Sendo que para Llio, devem ser deduzidas somente

    aquelas frmulas cujas premissas e concluses correspondem disposio real do

    cosmos. Ele aceita algumas converses das proposies, mas no outras, que

    tambm seriam formalmente corretas.

    Figura 05 - Tripletas

    No fcil de entender primeira vista como era a formao dessa lngua

    universal luliana. Mas j podemos afirmar que a Ars magna no um instrumento

  • 17

    lgico, mas um instrumento dialtico, isto , uma maneira de identificar e relembrar

    todas as formas vlidas para argumentar a favor de uma tese pr-construda. E isso

    de tal maneira que no h qudrupla, segundo Llio, que, devidamente interpretada,

    no possa resolver a questo qual aplicada.

    A Ars, segundo Llio, levaria a concluses mais seguras do que as da lgica,

    e, portanto, o artista desta arte pode aprender mais em um ms do que possa

    aprender um lgico em um ano (Ars magna, Decima pars, cap. 101).

    Leibniz4, em 1666, questiona por que Llio teria limitado o nmero de

    elementos, por que o nmero de princpios no teria ficado aberto? O motivo que

    Llio no pensava, de modo algum, em uma combinatria livre de elementos de

    expresso no vinculados a um contedo especfico, pois se assim fosse, no

    consideraria a sua arte como uma lngua perfeita, capaz de assumir uma realidade

    divina que ele assume, desde o incio, como absoluta, auto-evidente e revelada por

    Deus. Ele a concebia como um instrumento para converter os infiis, e para tanto

    estudara durante longo tempo as doutrinas tanto dos judeus quanto dos

    muulmanos.

    Llio realizou outros trabalhos, alm da Ars magna um deles, A arbor

    scientiarum (A rvore das cincias) apresenta noes elementares que seriam comuns

    tambm aos infiis. Tais princpios elementares se inserem em um sistema fechado e

    pr-definido, ou seja, um sistema j rigidamente hierarquizado, o sistema das rvores

    das Cincias.

    Se no silogismo aristotlico afirmamos: todas as flores so vegetais, X uma

    flor, logo X um vegetal - do ponto de vista lgico, o que X irrelevante. Mas

    Llio quer saber se X uma margarida ou um barco. E em sua arbor scientiarum, Llio

    pretende construir um instrumento capaz de enfrentar toda a enciclopdia do saber.

    Na arbor scientiarum, a combinatria luliana um instrumento retrico

    mediante o qual se quer demonstrar o que j conhecido, isto , aquilo que a

    4 Gottfried Wilhelm von Leibniz (Leipzig, 1646 Hanover, 1716) foi um filsofo, cientista, matemtico, diplomata e bibliotecrio alemo.

  • 18

    estrutura de uma floresta de vrias rvores j fixou, de uma vez para sempre, e que

    nenhuma combinatria jamais poder subverter, segundo Llio.

    De qualquer forma, a Ars poderia aspirar a ser lngua perfeita se o j-

    conhecido que visava comunicar tivesse pertencido realmente a um universo de

    contedo igual a todos os povos. Ela foi traduzida para o rabe e o hebraico, mas ela

    fala do produto de uma organizao do mundo realizado pela tradio crist

    ocidental.

    Umberto Eco relata:

    Llio houvera feito da prpria reflexo teolgica, e da prpria

    investigao de uma lngua universal, um meio para lanar uma ponte

    intelectual e religiosa entre Ocidente europeu e Oriente, e que julgava

    que a verdadeira autoridade no se devia basear em uma unidade

    inflexvel, mas em uma tenso entre vrios centros de forma que

    Moiss, Cristo e Maom pudessem levar a um resultado unitrio. O

    lulismo acolhido como estmulo mstico e filosfico, e como alternativa

    imaginria e potica para a enciclopdia do aristotelismo escolstico, mas

    tambm como inspirao poltica.

    Esse apelo concordatrio de Llio retomado dois sculos mais tarde por

    Nicolau Cusano5 que em seu tratado De pace fidei causa uma polmica e tenta um

    dilogo com os muulmanos e judeus e se coloca o problema (luliano) de como

    demonstrar aos representantes de outras duas religies monotestas que eles devem

    concordar com a verdade crist.

    No sculo XVI, outro que tentou a empreitada de Llio foi Giordano Bruno.

    Ele entendia que a lngua perfeita deveria oferecer a chave para exprimir no s este

    mundo, mas todos os infinitos na sua concordncia mtua. Essa ambio parece

    imperfeita no que concerne estrutura semitica: tratava-se de um lxico imenso,

    com significados vagos, e cuja sintaxe, quando muito, era de uma combinatria sem

    limites.

    5 Nicolau Cusano (1401-1464), matemtico e astrnomo.

  • 19

    A retrica de Giordano Bruno pretendia reforma, renovao e revoluo dos

    costumes, dos conhecimentos e da prpria ordem poltica da Europa.

    Desenvolvendo os conceitos lulistas, Bruno criou uma estrutura de rodas

    concntricas, limitao de letras, com 23 (vinte e trs) letras do alfabeto mais

    caracteres gregos e hebraicos. A sua combinatria era vida pelo ilimitado,

    diferenciando-se da combinatria restrita de Raimundo Llio.

    E questionamos: podemos ter uma mquina para gerar todas as lnguas

    possveis ou algum contedo automtico? Dentre outros, deparamo-nos com o

    problema das combinaes vlidas. Exemplo: quente, frio, seco e mido essa

    combinao pode formar uma sentena sem o devido significado.

    O nmero de palavras (de comprimentos variveis de duas letras at 23)

    mais de setenta mil bilhes de bilhes6. O problema de uma lngua universal, na

    medida em que poderia conter potencialmente todas as lnguas possveis o de

    apresentar nmeros astronmicos. E desse modo no de se surpreender que

    existam tantas lnguas diferentes.

    Para Descartes7, Llio um autor que tentou sem xito a criao de um

    mtodo que pode ser considerado um pseudomtodo, pois suas regras no so claras

    e a determinao das coisas a conhecer insuficiente, e menciona a promessa errnea

    de oferecer conhecimentos gerais em pouco tempo.

    Com o advento da informtica, programas de computador8 que mostram o

    funcionamento da Ars magna, assim como inmeras comunidades na Internet que

    estudam e comentam a respeito dos trabalhos de Llio so uma realidade.

    6 No calculado mais a respeito de conceitos (como fazia Llio), e sim sobre sequncias alfabticas, meros elementos da expresso, no controlados por nenhuma ortodoxia que no seja a do nmero.

    7 Ren Descartes (1596, Frana 1650, Sucia), filsofo, fsico e matemtico. Notabilizou-se, sobretudo, pelo seu trabalho revolucionrio da Filosofia, tendo tambm inventado o sistema de coordenadas cartesiano, que influenciou o desenvolvimento do Clculo contemporneo.

    8 http://lullianarts.net/downloads.htm; http://www.ramonllull.net.

  • 20

    Abordando a questo voltando-se Inteligncia Artificial (IA) temos que,

    segundo George F. Luger, a maioria das pessoas - quando so questionadas sobre

    quais habilidades so essencialmente mais humanas e mais difceis de serem

    computadorizadas, alm da criao artstica, da tomada de deciso tica e da

    responsabilidade social menciona linguagem e aprendizado. Ao longo dos anos,

    estas duas reas tm funcionado como objetivo, desafio e meio de teste para o

    progresso da IA.

    George F. Luger relata:

    Uma das razes do porqu linguagem e aprendizado so reas

    de pesquisa difceis, embora importantes, que elas englobam muitas

    outras habilidades inteligentes humanas. Comunicar-se atravs de

    linguagem natural, quer seja como texto ou como um ato de fala,

    depende enormemente do nosso conhecimento e expectativas dentro do

    domnio do discurso. A compreenso de linguagem no meramente a

    transmisso de palavras: ela tambm requer inferncias sobre o objetivo,

    conhecimento e suposies do locutor, bem como sobre o contexto da

    interao. A implementao de um programa para compreender

    linguagem natural requer que representemos conhecimento e

    expectativas do domnio e raciocinemos efetivamente sobre eles.

    Precisamos considerar questes como no-monotonia, reviso de crena,

    metfora, planejamento, aprendizado e as complexidades prticas da

    interao humana.

    E a voltamos questo principal sobre como disponibilizar informao

    relevante e que atinja aos mais variados pblicos de forma que o que for enviado ao

    internauta seja relevante e que atinja a culturas, crenas e condies sociais diversas.

    Vemos que se a abordagem for ao mbito luliano, ou seja, restringirmos o

    que deve ser dito a uma verdade absoluta e imutvel, estaremos divulgando dogmas e

    crenas e a probabilidade de atingir corretamente pessoas com valores culturais

    diversificados ser extremamente pequena. A retrica revolucionria de Giordano

    Bruno, no entanto, com suas infinitas possibilidades, pode at atingir o contedo

    certo a um pblico com interesses distintos ao que estiver sendo apresentado, ou

    seja, poderia no atender a qualquer valor cultural.

    Sendo assim, uma possvel abordagem a de que a informao que possa

    atingir pblicos variados deve seguir um caminho em que ao verificar o que tiver sido

  • 21

    pesquisado ou desejado pelo usurio possamos indicar contedo adequado, ou seja,

    personalizado, e, sendo assim, no ser o mesmo contedo a todos, pessoas

    diferentes sero tratadas diferentemente.

    Se em algum momento reivindicarmos a criao de uma inteligncia artificial

    para dirimir o assunto, devemos abordar questes sobre linguagem natural, raciocnio

    automtico e aprendizado de mquina. Mas, quando falamos de HTML (HyperText

    Markup Language) pensamos em camada de apresentao e no em troca de dados ou

    indexao de dados de forma adequada. A entra a Web Semntica para tentar sanar

    todo esse problema, ou seja, teremos que atravs de metadados e ontologias

    (conceito explanado no pargrafo seguinte) classificar o contedo de forma

    adequada. Com a devida classificao podemos atravs de mecanismos de buscas

    adequados fornecer o contedo certo ao que o usurio anseia. O mesmo critrio

    valeria para quando estivermos efetuando uma pesquisa num Google, Yahoo, MSN,

    AltaVista etc. se buscamos informao sobre redes de computadores e digitamos

    apenas a palavra rede, obteremos informaes diversas sobre redes para pescadores,

    redes de televiso, redes para descanso e tambm, claro, sobre redes de

    computadores. A pesquisa precisaria ser mais especfica, mas ao mesmo tempo se

    nos metadados de todas as pginas que trazem informaes sobre redes diversas no

    houver a devida classificao e os mecanismos de busca no forem suficientemente

    bons para efetuar a devida triagem, encontraremos o mesmo problema de

    recebermos informaes que tero que ser humanamente analisadas. Com a Web

    Semntica conseguimos uma classificao adequada em que a mquina poder filtrar

    tudo que no nos interessaria nos resultados de busca ou com base no

    comportamento do usurio. Atravs da Web Semntica tambm, pode-se fornecer

    contedo com maior probabilidade de atender aos anseios do mesmo. Uma

    abordagem luliana, em que o que informado fixo, dogmtico, no corresponde

    realidade e ao dinamismo do mundo Web, ou seja, no podemos determinar

    possveis respostas pr-estipuladas a qualquer mecanismo de pesquisa o caminho

    a classificao adequada, a utilizao da Web Semntica e claro, podemos utilizar

    inteligncia artificial no sentido de permitir a aprendizagem e o raciocnio automtico

    para aperfeioar esses processos, mas no que tange linguagem natural o fato de

    utilizarmos Web Semntica e termos documentos compreensveis por mquinas no

    implica em uma inteligncia artificial que passar a entender o que os humanos falam.

  • 22

    O conceito aqui que com a Web Semntica os computadores podero resolver

    problemas bem definidos atravs da utilizao de dados catalogados de forma

    adequada.

    Precisamos classificar os dados de forma adequada e a sim, conceituamos

    ontologia que, na filosofia, o estudo da existncia ou do ser (verbo). basicamente

    uma maneira de compreender identidades e grupos de identidades, chamados de

    classes. Em TI chamamos de ontologias as classificaes de identidades, sejam elas

    informao ou matria (objetos no mundo real). Podemos criar uma ontologia que

    descreva livros no Amazon (www.amazon.com) e as relaes entre os mesmos, assim

    como podemos criar uma ontologia sobre os diferentes tipos de barcos de pesca.

    Importante saber que ontologias podem descrever qualquer coisa. Importante,

    tambm, diferenciar taxonomia de ontologia. A taxonomia tambm permite

    classificaes, mas elas tero uma estrutura hierrquica e sem relacionamentos. Por

    exemplo, o homem um ser vivo, vertebrado, mamfero etc. Essa classificao da

    taxonomia rgida e no permite relacionamentos de causa-efeito ou de dependncia

    entre as partes que a ontologia permite.

    Definindo o contedo de um site com mecanismos inteligentes vimos,

    preliminarmente, que o caminho a Web Semntica e aqui cabe uma ressalva de

    Karin Breitman sobre o atual estgio no qual a Web se encontra:

    No estgio atual temos, predominantemente, a Web Sinttica:

    onde nos preocupamos apenas em apresentar as informaes. Com a

    Web Semntica teremos condies de oferecer significado adequado s

    pginas e com isso passaremos a enfatizar os mecanismos de troca e

    busca de informaes.

    A grande verdade que a Internet se desenvolveu mais

    rapidamente como um meio para a troca de documentos entre pessoas,

    em vez um meio que fomentasse a troca de dados e informaes que

    pudessem ser processadas automaticamente. Como consequncia, o

    contedo semntico das pginas, ou seja, seu significado, codificado de

    uma maneira acessvel para seres humanos apenas.

    Ou seja, com a evoluo da Web Semntica vislumbra-se um caminho

    oferta de contedo adequado, ou at mesmo: inteligente, na interao do usurio.

  • 23

    II.02 Interao com o usurio

    uando pensamos em interagir com um usurio muitas questes

    podem surgir: o que deve ser identificado, armazenado, filtrado e

    atualizado? Devemos rastrear e deixar fixo esse rastreamento? Quantas vezes

    devemos rastrear um usurio para obter um comportamento definido? O assunto

    seria inesgotvel ou de abrangncia para outra dissertao. Esta se limita a abordar a

    oferta de contedo adequado a partir de um interesse manifestado pelo usurio e por

    isso s mencionamos o fato de que o usurio pode ter seu comportamento rastreado

    e suas implicaes, sem esgotar esse assunto.

    Aqui cabe, uma explicao a respeito de perfil de usurio. Os responsveis

    por um site tm ferramentas de anlise de trfego (WebTrends, Google Analytics,

    Urchin etc.), navegao, chegadas e sadas, sites referenciadores etc. Com essas

    ferramentas podemos caracterizar alguns perfis de usurios, tais como classificao

    esta, informal - utilizada na Web por empresas como Abril9 ou iG10: usurios fiis

    (aqueles que visitam o site com muita frequncia, comentam, do sugestes, enviam

    excees encontradas e acessam o site com dois ou mais navegadores principais para

    verificar possveis inconsistncias so quase co-autores do site); leitores cativos (so

    assinantes de feeds, comentam e participam do site mas sem o fanatismo dos usurios

    fiis); usurios ocasionais (acessam o site de vez em quando, provenientes de algum

    mecanismo de busca, como o Google por exemplo) e usurios espordicos ou pra-

    quedistas (acessam o site por uma navegao aleatria, vindo de um mecanismo de

    busca ou no, muitas vezes nem sabem por qu esto visitando o site alis, esse tipo

    de navegao aleatria tem a ver com o termo: serendipismo, que a descoberta

    por acidente).

    9 Editora Abril S.A. a maior editora de revistas da Amrica Latina www.abril.com.br, publica revistas como Veja e Exame.

    10 iG Internet Group Brasil um dos maiores provedores de acesso do Brasil www.ig.com.br.

    Q

  • 24

    A definio do perfil do usurio, no deixa de ser um tipo de rastreamento do

    usurio em si. Mas quando pensamos em disponibilizar um contedo adequado no

    necessitamos, necessariamente, saber qual o perfil do usurio, conforme descrito

    sumariamente acima. E ressaltamos que para esta dissertao o que desejamos

    oferecer contedo adequado a partir de uma interao de um usurio, um mecanismo

    de busca, por exemplo, e a sim oferecer o que ele deseja atravs de algum

    mecanismo semntico ou inteligente. Mas se desejarmos registrar o perfil do usurio,

    para que em visitas futuras j haja um prvio direcionamento ao mesmo, precisamos

    saber de coisas, tais como: esse usurio em meu site supostamente um site com

    contedo diversificado, d preferncias a quais tipos de canais de contedo (esportes,

    economia, sade, finanas etc.). Dentro de cada canal, por exemplo: esportes, quais

    as categorias que ele d preferncia: futebol, automobilismo, boxe, dentre outros.

    Dentro da categoria futebol, por exemplo, esse usurio prefere Campeonato

    Brasileiro, Italiano ou Espanhol? So inmeras as possibilidades, o que precisamos

    definir o que deve ser registrado e a armazenar em um banco de dados associado

    autenticao do usurio, seu e-mail, por exemplo, para que em suas prximas visitas

    ele j possa ser direcionado as suas preferncias principais com o uso da Web

    Semntica, mas esse tipo de abordagem, prvio redirecionamento, foge aos objetivos

    desta dissertao.

  • 25

    II.03 A utilizao da Web Semntica

    egundo Tim Berners-Lee11, a Web Semntica uma extenso da Web

    tradicional, onde, a partir do uso intensivo de metadados, espera-se obter

    o acesso automatizado s informaes, com base no processamento semntico de

    dados e heursticas feitos por mquinas.

    Para tal, desde 1998, a equipe do W3C (World Wide Web Consortium) vem

    trabalhando arduamente no desenvolvimento de tecnologias avanadas, que visam

    representao estrutural e semntica dos recursos na Web. Essas tecnologias, aliadas

    teoria de domnios ou ontologias, permitem oferecer um servio Web com um

    nvel maior de qualidade.

    Dentro destas perspectivas, a Web ser capaz de tecer uma rede extensa de

    conhecimento humano, podendo ainda, por meio do processamento via mquina,

    inferir novos conhecimentos.

    As tecnologias acima mencionadas englobam desde linguagens de transporte

    de dados, como o XML (Extensible Markup Language), linguagens para

    representao da estrutura desses dados, tais como o RDF (Resource Description

    Framework) e linguagens para representao da semntica desses dados explicitando

    restries sobre a semntica do mundo real. Aliadas a essa gama de linguagens, h

    tambm as ferramentas para manipulao das ontologias.

    O filsofo francs Pierre Lvy12 define a Web Semntica como "ferramenta"

    necessria para o desenvolvimento da inteligncia coletiva. Segundo ele, a semntica

    da Web a elaborao de um sistema de cdigos. No necessrio que as pessoas

    utilizem uma nova lngua - cada um utilizar sua prpria, mas haver um software

    que traduzir o que est sendo escrito ou dito para uma lngua universal.

    11 Tim Berners-Lee considerado o criador da Internet. Seu perfil encontra-se em: http://www.w3.org/People/Berners-Lee/.

    12 Pierre Lvy professor da cadeira de Pesquisas sobre Inteligncia Coletiva da Universidade de Ottawa (Canad).

    S

  • 26

    Segundo Breitman, o HTML uma linguagem que se tornou muito

    interessante para os usurios, mas os links s tm sentido em seu contexto. Para as

    "mquinas", no possvel traduzir a informao, pois a orientao do HTML para

    apresentao. Por isso, a importncia dos metadados, relacionando os recursos

    semanticamente e tendo os contedos descritos de forma clara (enquanto o HTML

    trabalha com palavras-chave, o XML trabalha com metadados).

    Para alguns, a Web Semntica a Web do futuro. As pesquisas atuais esto

    buscando tecnologias para tornar mais eficazes as localizaes das informaes na

    Web. As ontologias, com suas subsequentes classificaes, surgem para atender a

    essa necessidade.

  • 27

    II.03.01 Web Semntica versus Inteligncia Artificial

    Segundo Karin Breitman, a Web Semntica no Inteligncia Artificial (IA).

    E segundo Antoniou e Harmelen:

    Se o objetivo da Inteligncia Artificial construir um agente de

    software que mostre inteligncia no nvel humano (e superior), o

    objetivo da Web Semntica auxiliar humanos a realizarem suas tarefas

    dirias na rede.

    A inteno de termos documentos compreensveis por mquinas no implica

    numa inteligncia artificial que far com que os computadores passem a entender o

    que os seres humanos falam. Com a Web Semntica os computadores podero

    resolver problemas muito bem definidos atravs do processamento de operaes ou

    instrues que utilizaro dados. No solicitaremos aos computadores que passem a

    compreender a linguagem das pessoas, mas sero as pessoas que passaro a ter um

    trabalho a mais de classificar as informaes em representaes que possibilitaro

    processamento automtico tais representaes poderiam ser os metadados e as

    ontologias, por exemplo.

    Segundo Karin Breitman, a maioria das tcnicas necessrias para a construo

    da Web Semntica vem da rea da Inteligncia Artificial. Dada a histria de

    insucessos da IA, uma preocupao seria se a Web Semntica no estaria no mesmo

    caminho. Segundo Antoniou e Harmelen, essa preocupao totalmente infundada.

    A realizao da Web Semntica no depende de inteligncia superior ou algo no nvel

    da inteligncia humana, que era a promessa dos pesquisadores de Inteligncia

    Artificial h vinte anos.

    No caso da Web Semntica, solues parciais sero satisfatrias. Pode ser que

    um agente de software no chegue nem perto das concluses a que um ser humano

    chegaria, mas ainda assim este agente pode auxiliar para uma Internet muito superior

    que temos hoje em dia. Aqui cabe uma explicao sobre agentes. Eles so

    definidos, segundo Breitman, como programas de software autnomos que agem em

    benefcio de seus usurios. Um agente pessoal na Web Semntica, segundo Grigoris

    Antoniou e Frank Harmelen, vai receber algumas tarefas e preferncias de um

    usurio, procurar informao nos recursos disponibilizados pela Internet, se

  • 28

    comunicar com outros agentes e comparar informaes relativas s tarefas que deve

    desempenhar, de modo a fornecer respostas adequadas ao usurio.

    A Web Semntica no exigir uma Web separada, ela uma extenso (termo,

    inclusive, utilizado por Tim Berners-Lee) da Web atual (denominada de Web

    Sinttica). Na Web Semntica a informao vai ter significado bem definido atravs

    de linguagens de marcao semntica. Essas linguagens e ontologias sero

    acrescentadas s pginas atuais, atravs de marcaes especficas ou atravs de

    arquivos separados em que as respectivas pginas faro links para acrescentar o

    devido contedo semntico.

    Segundo Breitman, a Web Semntica no exigir a utilizao de expresses

    complexas, pois apesar de a linguagem-padro recomendada para a Web Semntica

    (aqui Breitman, refere-se OWL Ontology Web Language, que ser explanado mais

    adiante) permitir a expresso de sentenas muito complexas, isto , sentenas que

    utilizam conectivos lgicos, disjuno, inverso e axiomas, entre outros, no ser

    exigido que todas as aplicaes utilizem a marcao semntica em todo o seu

    potencial.

    E por fim, a Web Semntica no uma reprise de um experimento falido.

    Pois outra questo que poderia ser feita : no havia sido tentado tudo isso,

    anteriormente, com sistemas de representao de conhecimento, nos projetos do

    KIF (Knowledge Interchange Format) e Cyc (reduo de EnCYClopaedia, ou

    enciclopdia)? Segundo Hendler, a resposta de certa forma, sim, mas havia outros

    objetivos. A viso da comunidade de Representao do Conhecimento est mais

    ligada criao de modelos cannicos que poderiam ser globalmente utilizados,

    enquanto a Web Semntica tem um foco em ontologias menores, tambm chamadas

    de ontologias de domnio13 e no processo de integrao dessas ontologias.

    13 Ontologias de domnio descrevem o vocabulrio relativo a um domnio especfico atravs da especializao de conceitos presentes na ontologia de alto nvel que descreve conceitos muito genricos, tais como: espao, tempo e eventos.

  • 29

    No entanto e segundo Breitman, a experincia adquirida pelo projeto Cyc na

    rea de representao de conhecimento, que forneceria uma ontologia de referncia

    inestimvel, no pode ser ignorada na construo da Web Semntica.

    O gerenciamento de conhecimento engloba as tarefas de aquisio,

    disponibilizao e manuteno de bases de dados. Na medida em que os sistemas de

    informao adquirem maturidade surge uma nova atividade, gerncia de

    conhecimento, necessria para dar suporte utilizao da grande massa de dados

    gerada com a informatizao das empresas. Atualmente muitos dos processos e

    regras de negcios de uma empresa podem estar em cdigo, muitas vezes legado.

    Grande parte dessa informao est disponvel de maneira fraca ou indevidamente

    estruturada. Do ponto de vista de gerncia de conhecimento, as maiores limitaes,

    segundo Breitman, so:

    Busca de informao a maior parte das empresas utiliza indexao por palavras-chave para conduzir buscas a suas bases de dados.

    Extrao de dados muito tempo perdido em tarefas ligadas extrao, filtragem e converso de informao para diferentes

    formatos.

    Manuteno problemas relativos a inconsistncias de modelos conceituais e vocabulrio fazem com que seja difcil identificar e

    eliminar dados obsoletos.

    Minerao de dados muitas empresas tm recorrido a tcnicas ligadas minerao (data mining) de grandes bases de dados como

    forma de descobrir novas informaes. No entanto, essas tcnicas so

    difceis de serem aplicadas quando as informaes esto espalhadas

    em vrios aplicativos distribudos e pouco ou indevidamente

    estruturados.

    A Web Semntica visa permitir sistemas de gerncia de conhecimento muito

    mais avanados. Com a utilizao de tecnologias, tais como: RDF, OIL, OWL e

    lgicas de descrio, espera-se poder chegar a um nvel de integrao e troca de

    dados muito superior ao que se tem atualmente.

    Ou seja:

  • 30

    Conhecimento poder ser organizado em espaos conceituais, de acordo com o seu significado. Essa organizao ser assistida por

    mquinas que sero capazes de fazer a seleo e a filtragem da

    informao. Ontologias sero cruciais para essa tarefa.

    Ferramentas automatizadas sero responsveis pela verificao de consistncia e minerao de novas informaes.

    Mecanismos de busca baseados em palavras-chave sero substitudos por queries14 sofisticadas. A informao requisitada poder ser

    recuperada, extrada e apresentada de maneira amigvel.

    Atualmente, h uma quantidade gigantesca de informaes na Internet e os

    nmeros no param de crescer. Quando fazemos uma pesquisa sobre um

    determinado assunto atravs de um buscador, como o Google por exemplo, muita

    informao intil ou que no de interesse ao usurio poder ser listada. Para

    melhorar essa situao, faz-se necessrio indexar de forma adequada os recursos na

    Internet, ou seja, precisamos acrescentar elementos que nos indiquem, por exemplo,

    que tipo de informao fornecido em um site, necessitamos de metadados - que o

    assunto do nosso prximo tpico.

    14 Query o termo em ingls para consulta, seu plural queries. Uma query pode usar uma tcnica especfica ou conjunto de instrues para obter o que se deseja.

  • 31

    II.03.02 Metadados

    A International Federation of Library Associations (IFLA) define metadados

    da seguinte forma: Metadados so dados sobre dados. O termo se refere a qualquer

    informao utilizada para a identificao, descrio e localizao de recursos.

    O consrcio W3 (W3C World Web Consortium www.w3.org) tem uma

    viso mais voltada para a Web Semntica. Metadados so definidos como

    informaes para a Web que podem ser compreendidas por mquinas.

    Quando se trata do mundo digital, chama-se de recurso o objeto descrito por

    metadados, pois este pode ser tanto um simples dado, quanto um documento, uma

    pgina da Web, ou at mesmo uma pessoa, uma coleo, um sistema, um

    equipamento ou uma organizao. Na Web, o conceito recurso significa qualquer

    objeto que pode ser alcanado atravs de uma URI (Uniform Resource Identifier -

    www.w3.org/Addressing), como qualquer recurso que acessado via seu endereo

    eletrnico. Isso inclui documentos, pginas pessoais, sites ou sistemas. A descrio de

    uma pessoa ou organizao feita atravs da descrio da pgina dessa pessoa ou

    organizao.

    Metadados descrevem os recursos da Web com a finalidade de facilitar a sua

    descoberta, localizao e utilizao. Motores ou mecanismos de busca (em ingls:

    Search engines), ao utilizarem esses metadados, proporcionam consultas bem mais

    precisas, envolvendo no somente palavras, mas propriedades descritas, como o

    autor do recurso, o formato do recurso, a data do recurso etc.

    No mundo digital, metadados no se restringem queles usados para

    descrever recursos para permitir sua descoberta e localizao. Por exemplo,

    metadados tambm descrevem os formatos dos recursos, a fim de permitir que

    computadores identifiquem quais aplicativos podem ser usados para manipular esses

    recursos. Aplicativos, ao analisarem metadados, verificam se o formato do recurso

    compatvel, as condies de uso do recurso, restries de acesso etc.

    Em computadores, metadados servem de representantes de um recurso e

    para caracterizar o trabalho original, para que usurios entendam seu significado,

    propsito, origem e condies de uso. Metadados so vistos como dados que

    descrevem propriedades de um recurso para diversos propsitos, como o contexto

  • 32

    em que o recurso se insere, sua qualidade, suas condies de uso, sua identificao,

    suas estratgias de preservao etc. Essa diversidade de tipos de metadados d

    suporte realizao de inmeras funes, como funes de descoberta do recurso,

    de localizao do recurso, de avaliao do recurso, de uso do recurso etc.

    Embora o conceito seja aparentemente novo, bibliotecrios esto h sculos

    produzindo e padronizando metadados, medida que extraem de documentos (que

    seriam os dados) informaes de indexao e catalogao (que seriam os metadados),

    para oferecer aos usurios caminhos, para que estes possam buscar os documentos

    de que necessitarem. Na Biblioteconomia, o padro MARC (MAchine-Readable

    Cataloging com mais detalhes no site da Biblioteca do Congresso Americano em:

    www.loc.gov/marc) um exemplo de esquema de metadados. Estes metadados

    indicam propriedades do documento, como seu autor, sua data de publicao, seu

    ttulo, seu assunto etc. e tm como finalidade permitir a descoberta e a localizao

    desses documentos.

    Os metadados podem estar inseridos nos prprios documentos que

    descrevem. Em pginas HTML possvel inserir metadados atravs de marcaes

    (chamadas de meta tags), que no so visveis quando a pgina exibida pelo

    navegador. Esses metadados podem ser lidos por motores de busca ou por

    aplicativos que os utilizem.

    Os metadados tambm podem ser armazenados em repositrios. Nesses

    repositrios, os metadados so produzidos atravs de anotadores, que so sistemas

    que guiam usurios na descrio dos recursos. Esse tipo de soluo tem sido utilizada

    em organizaes para permitir que estas descrevam seus recursos.

    Essas organizaes consideram como recursos, pginas da Web que

    identificam seus departamentos, seus especialistas, seus sistemas informatizados

    disponibilizados, bibliotecas digitais, repositrios de documentos digitais etc.

    Atravs desses metadados, essas organizaes possuem um maior

    entendimento de suas prprias potencialidades.

    Um exemplo de metadado popularmente muito utilizado a tag ID3 (tambm

    chamada de ID3 Tag) que um conjunto de informaes muito utilizado no formato

    de udio MP3. Esse conjunto de informaes que compe a ID3 permite armazenar

  • 33

    informaes como o ttulo, artista, lbum, nmero da faixa ou outra informao

    sobre o arquivo no prprio arquivo.

    A primeira verso da ID3 foi criada em 1996 para atender a necessidade de

    armazenar mais informaes no arquivo e no apenas deix-las no nome do prprio

    arquivo com extenso mp3. Desse modo, teve-se a ideia de adicionar alguns dados

    no fim do arquivo e logo tornou-se o padro de metadados dos arquivos com

    extenso mp3.

    Para atender a determinados objetivos, a uma comunidade ou a um assunto

    em especfico diversos padres de metadados foram criados. A seguir, veremos os

    principais padres voltados Web Semntica.

  • 34

    II.03.02.01 Padro Dublin Core

    Os usurios desse padro se organizaram em uma iniciativa, o Dublin Core

    Metadata Initiative (DCMI www.dublincore.org). Essa organizao dedica-se

    adoo de padres de metadados e ao desenvolvimento de vocabulrios

    especializados para a descrio de recursos, de modo a viabilizar sistemas mais

    inteligentes de recuperao de informaes.

    Os elementos que compem o padro Dublin Core esto listados a seguir

    (http://www.dublincore.org/documents/dcmi-terms/):

    -Assunto (subject) O tpico abordado pelo recurso.

    -Ttulo (title) Nome dado ao recurso.

    -Criador (creator) Pessoa responsvel, podendo ser mais do que uma,

    pelo contedo intelectual do recurso.

    -Descrio (description) Descrio do contedo do recurso.

    -Editor (publisher) Entidade responsvel por tornar o contedo

    disponvel.

    -Outro agente (contributor) Entidade responsvel por contribuies ao recurso.

    -Data (date) Data da publicao. O padro sugerido o W3CDTF

    (http://www.w3.org/TR/NOTE-datetime).

    -Tipo (type) Natureza do recurso. Padro sugerido: DCMITYPE

    (http://dublincore.org/documents/dcmi-type-

    vocabulary).

    -Formato (format) O formato do arquivo. Exemplo: PDF, TXT etc.

    -Identificador (identifier) Identificao nica do recurso. Exemplo: nmero.

    -Relacionamento (relation) Relacionamento com outros recursos.

    -Fonte (source) O recurso do qual este derivado, se aplicvel.

    -Linguagem (language) Linguagem do recurso.

    -Cobertura (coverage) Abrangncia espacial ou temporal do recurso.

  • 35

    -Direitos (rights) Informao sobre os direitos pertinentes ao recurso.

    Segundo Breitman, o padro Dublin Core um padro bastante simples,

    como pode ser observado a partir do grupo bsico de elementos que o compem.

    Sua simplicidade um ponto forte, pois permite a disseminao e a utilizao em

    larga escala, e , ao mesmo tempo, sua maior fraqueza, pois no acomoda uma

    semntica mais expressiva. um padro que fez opo pela facilidade sobre o poder

    de expresso.

    Atualmente o Dublin Core um padro ANSI para metadados (ANSI/NISO

    Z39.85) e norma ISO (ISO Standard I5836-2003).

    Veremos no tpico a seguir um padro aberto, o RDF, com grande

    capacidade de expresso e que o padro mais compatvel com o dinamismo da Web

    atual.

  • 36

    II.03.02.02 Resource Description Framework - RDF

    Em 1995, um ano aps a realizao da conferncia que deu origem ao padro

    Dublin Core, realizou-se um outro evento onde foi proposto um novo padro para

    metadados, o Framework de Warwick - que utiliza os descritores bsicos do Dublin

    Core, sendo adicionados novos elementos. Ele composto por vrios pacotes, onde

    cada um deles pode utilizar uma sintaxe diferente. Apesar de aumentar a flexibilidade

    do modelo Dublin Core, no garante que dois pacotes podero trocar dados entre si

    e nada no Framework de Warwick garante que dois conjuntos de metadados possam

    estar utilizando um conceito com significados diferentes ou dois conceitos com um

    mesmo significado. De modo a tratar essas dificuldades, um novo padro surgiu, o

    RDF Resource Description Framework.

    O RDF uma linguagem declarativa que fornece uma maneira padronizada

    de utilizar o XML para representar metadados no formato de sentenas sobre

    propriedades e relacionamentos entre itens na Web. Esses itens, denominados de

    recursos, podem ser virtualmente quaisquer objetos (texto, imagem, vdeo e outros),

    basta que possuam um endereo na Web.

    O RDF recebeu grande influncia da comunidade de bibliotecas digitais. O

    RDF pode ser entendido como uma implementao do Framework de Warwick sem

    um dos problemas identificados no Framework de Warwick: atravs da utilizao da

    marcao de namespace propiciada pelo XML, a questo da superposio semntica

    resolvida.

    Um dos objetivos do RDF tornar a semntica de recursos da Web acessvel

    a mquinas. Apesar de a informao na Web poder ser lida automaticamente, sua

    semntica no definida. O RDF vai acrescentar metainformao a esses recursos,

    de modo, a possibilitar s mquinas lidarem com eles de modo inteligente.

    Descries RDF foram projetadas para fornecer informaes aos computadores e

    no aparecerem na tela.

    O modelo RDF bsico destaca-se pela simplicidade com que busca estruturar

    o contedo de uma pgina Web. Eles so construdos com a utilizao de recursos e

    propriedades, descritos a seguir:

  • 37

    Recursos: representam o universo de objetos que podem ser descritos pelo modelo RDF. Uma pgina inteira da Web ou uma parte dela; uma coleo de

    pginas; ou um objeto que no diretamente acessvel via Web, por exemplo, um

    livro impresso. Para cada recurso associado um identificador nico (URI) de forma

    a poder identific-lo posteriormente.

    Propriedades: representam os aspectos do recurso a serem descritos. Propriedades podem ser visualizadas como atributos (caractersticas) de

    recursos. Tambm so utilizadas para descrever relacionamentos entre recursos.

    Neste sentido, o modelo de dados RDF assemelha-se ao modelo Entidade-

    Relacionamento. Cada propriedade tem um significado especfico, definem seus

    valores permitidos, os tipos de recursos que podem descrever, e seus

    relacionamentos com outras propriedades.

    Vejamos como ficaria, a partir de um exemplo de um site de contedo, o

    RDF correspondente. A tabela a seguir ilustra uma parte de um contedo HTML de

    um site de contedo, por exemplo: www.ig.com.br, dentro do canal de Esportes e da

    categoria Futebol, os campees brasileiros dos anos de 2005 e 2006:

    Categoria Campeonato Ano Campeo

    Futebol Brasileiro 2005 Corinthians

    Futebol Brasileiro 2006 So Paulo

    Um possvel arquivo RDF correspondente o seguinte:

  • 38

    Futebol

    Brasileiro

    Corinthians

    Futebol

    Brasileiro

    So Paulo

    Explicando o arquivo RDF acima, temos:

  • 39

    A primeira linha do arquivo declarativa, ela diz qual a verso do XML est

    sendo utilizada, no caso trata-se da verso 1.0.

    O elemento rdf:RDF o elemento raiz (e no caso tem o terminador

    /rdf:RDF). Neste caso, ele indica que o contedo RDF.

    O elemento xmlns:rdf indica o namespace do prprio RDF, ou seja, ele indica

    que todos os elementos ou atributos que comearem com o prefixo rdf: estaro

    localizados dentro de um nico arquivo, que contm a especificao do vocabulrio

    de RDF.

    Tambm podemos ter vocabulrios criados pelos autores do arquivo RDF

    em questo. No exemplo acima, foi apontado para

    http://www.pucsp.br/~demi/vocabulario/esporte/#. Neste local estaro descritos

    os termos utilizados: ano, campeao, campeonato e categoria. O namespace deste local

    o xmlns:esp e que identificar as etiquetas do tipo esp:.

    O elemento rdf:Description (e seu terminador /rdf:Description) contm a

    descrio do recurso identificado atravs do atributo rdf:about.

    O elemento esp:ano descreve uma propriedade do recurso. O mesmo

    acontece para os elementos esp:categoria, esp:campeonato e esp:campeao.

    recomendvel que o nome do arquivo RDF seja o mesmo do recurso que

    est sendo descrito com o sufixo .rdf. Por exemplo: se a pgina for: br_camp.aspx, o

    arquivo RDF correspondente ser: br_camp.aspx.rdf.

    Para ligar ou efetuar o link entre o recurso HTML (que expe o contedo ao

    usurio, sendo que no caso trata-se de um arquivo asp.net com extenso aspx) e sua

    respectiva descrio RDF, devemos adicionar a tag dentro da seo da tag

    da pgina. Por exemplo: .

    Como vemos, o RDF simples, intuitivo, prtico e extensvel.

  • 40

    II.03.02.03 Crticas aos Metadados

    Vimos a criao de uma estrutura projetada para que sejam fornecidas

    informaes s mquinas e que no necessariamente aparecero na tela do

    computador de um usurio ou internauta. Mas essa a soluo mais adequada?

    Segundo Cory Doctorow15 no site: http://www.well.com/~doctorow/metacrap.htm

    temos muitos problemas a serem enfrentados:

    -As pessoas mentem. Estamos num mundo competitivo e as pessoas querem

    aparecer ou vender, por isso, no h garantias de que as classificaes sero honestas,

    politicamente corretas ou algo que valha.

    -As pessoas so preguiosas. O modelo baseado em metadados supe que os

    usurios ou responsveis pelas pginas iro classificar, indexar ou fornecer as

    informaes necessrias. Como podemos supor isso se muitos e-mails no tm o

    assunto a que se referem discriminado e muitas pginas Web no possuem sequer um

    ttulo descritivo adequado.

    -As pessoas so disciplicentes. A falta de cuidado e interesse das pessoas em

    fazer de forma correta a criao e manuteno de metadados. Doctorow cita como

    exemplo o site de leilo e-Bay (www.ebay.com), um site em que seus utilizadores

    teriam interesse em classificar corretamente os produtos que colocam venda mas,

    que apresenta um grande nmero de produtos cadastrados erroneamente. Ele sugere

    15 Cory Doctorow um jornalista canadense, atua como professor visitante na Universidade de Southern na Califrnia. Mais informaes em: http://en.wikipedia.org/wiki/Cory_Doctorow#Biography.

  • 41

    uma busca por plam pilot em vez de palm pilot onde se verificar que podem

    aparecer resultados cadastrados de forma incorreta.

    -Misso impossvel: conhea a si mesmo. Como diz Doctorow, seria uma

    metautopia supor que as pessoas se conhecem adequadamente e que sabero

    descrever seus metadados e domnios de forma adequada. A experincia prtica diz

    que as pessoas no conseguem observar seus prprios comportamentos de forma

    adequada. Isso pode ser comprovado com experincias, tais como: pergunte a um

    programador quanto tempo ele levar para codificar uma determinada rotina ou

    pergunte a um empreiteiro quanto tempo ser necessrio para construir alguma coisa.

    -Falta de neutralidade nos modelos. A forma de organizar as categorias dos

    metadados j demonstra uma tendncia dos usurios. Nenhum modelo realmente

    isento de influncias. O processo de descrio de metadados no exceo. Espera-

    se que a decomposio do domnio e sua categorizao sejam influenciadas pelos

    interesses de quem est fazendo a modelagem. Doctorow cita o exemplo de um

    fabricante de mquinas de lavar. Se ele for consciente de questes relativas ao meio

    ambiente ou se a vantagem competitiva oferecida por seu produto for o baixo

    consumo de energia de se esperar uma decomposio do seguinte tipo:

    Consumo de energia:

    Consumo de gua limpa:

    Tamanho:

    Capacidade:

    Confiabilidade:

    Enquanto que se o fabricante tiver o design como diferencial, poderamos

    esperar uma decomposio assim:

    Cor:

    Tamanho:

  • 42

    Programabilidade:

    Confiabilidade:

    Ou seja, cada um procuraria enfatizar o que tem de destaque ou o item que

    apresentaria melhores resultados.

    -Mtricas influenciam resultados. Evidentemente que a escolha das mtricas a

    serem utilizadas na caracterizao da informao fornecida vai sofrer a influncia de

    quem est escolhendo o conjunto de mtricas que ser utilizado. Da mesma forma

    que no item anterior, pode-se dar preferncia a aspectos que sabidamente vo ter

    uma pontuao maior do que a de seus concorrentes, em detrimento de itens que

    podem no ser to interessantes sob o ponto de vista da concorrncia. Exemplo

    disso, so softwares que apresentam boas caractersticas em termos de segurana,

    mas so ruins em termos de convenincia

    -Existe mais de uma maneira de descrever alguma coisa. No, eu no estou

    assistindo desenhos animados! antropologia cultural. Pessoas razoveis podem

    discordar para sempre em como descrever uma determinada coisa. Solicitar para que

    todos usem o mesmo vocabulrio para descrever seus recursos, foraria a uma

    homogeneidade de ideias.

    E qual a soluo? Jogar tudo fora? Os americanos tm uma expresso

    idiomtica que adverte os usurios, quando no esto satisfeitos com algo, para no

    jogar fora o beb junto com a gua do banho. Na essncia, o que esse ditado quer

    dizer que mesmo com uma srie de restries que podemos fazer ao assunto, no

    caso os metadados, ainda existem muitas coisas vlidas (o beb), que no devem ser

    jogadas fora.

    Enfim, os metadados podem no ser a soluo de todos os problemas, mas

    so muito teis e auxiliam na identificao, classificao ou indexao de pginas da

  • 43

    Web, melhorando o resultado de buscas e permitindo que uma parte do

    processamento possa ser efetuado por computadores, em vez de seres humanos.

    Devemos ressaltar que para obter resultados satisfatrios em uma pesquisa

    precisamos, tambm, classificar as informaes de uma forma adequada e para isso,

    apresentaremos no prximo captulo o conceito e a utilizao de ontologias para esse

    fim.

  • 44

    II.03.03 Ontologias

    Neste captulo sero expostas as caractersticas das ontologias.

    Segundo Karin Breitman, temos a seguinte definio para ontologias:

    Ontologias so especificaes formais e explcitas de

    conceitualizaes compartilhadas. Ontologias so modelos conceituais

    que capturam e explicitam o vocabulrio utilizado nas aplicaes

    semnticas. Servem como base para garantir uma comunicao livre de

    ambiguidades. Ontologias sero a lngua franca da Web Semntica.

    O termo conceitualizao utilizado por Karin Breitman, acima exposto

    aponta para um modelo abstrato de algum acontecimento que identifique conceitos

    de importncia desse acontecimento. J a expresso explcita quer dizer que os

    tipos de conceitos usados e as limitaes do uso desses conceitos devem ser de

    forma explcita. Atravs dessa descrio possvel visualizar algumas caractersticas

    importantes. Uma delas o fato de que uma ontologia deva ser explcita, as outras se

    atribuem ao fato de que uma ontologia deva ser formal e descrever um

    conhecimento comum a um grupo.

    Uma segunda definio para o termo dada por Gmez e Corcho, eles

    definem uma ontologia da seguinte forma: Uma ontologia um conjunto de termos

    ordenados hierarquicamente para descrever um domnio que pode ser usado como

    um esqueleto para uma base de conhecimentos. Diferentemente da primeira, essa

    definio apresenta algumas informaes sobre a estruturao de uma ontologia.

    Pois, segundo ela, uma ontologia deve possuir termos organizados com uma

    hierarquia associada, o que chamado de taxonomia. Ainda nessa descrio

    apresentada outra caracterstica importante, a qual consiste numa das principais

    utilidades de uma ontologia que servir como um schema, ou seja, um marcador, para

    um banco de conhecimentos, viso essa muito comum dentro da rea da gesto de

    conhecimentos. Ainda nessa ltima definio de ontologia vale pena ressaltar que

    essa definio mostra uma diferena importante sobre o que uma ontologia e o que

    uma base de conhecimento. Como Guimares descreve, uma ontologia

    disponibiliza um esqueleto bsico no qual se pode edificar uma base de

    conhecimentos. Ela tambm prov um conjunto de conceitos e termos para

    descrever certo domnio, enquanto a base de conhecimento usa essas expresses para

    detalhar uma determinada realidade. Caso acontea de que essa realidade seja alterada

  • 45

    a base de conhecimento ser modificada, porm a ontologia ficar a mesma, desde

    que o domnio fique inalterado.

    Segundo o trabalho de Guimares, as principais vantagens para o uso de

    ontologias so: primeiramente, o fato de que ontologias fornecem um vocabulrio

    para a representao do conhecimento. Esse vocabulrio tem uma conceitualizao

    que o sustenta, de forma a prevenir interpretaes diferentes dele. As ontologias

    ainda permitem o compartilhamento de conhecimento, dessa forma caso haja uma

    ontologia que molde adequadamente certo domnio de conhecimento, essa pode ser

    compartilhada e usada por pessoas que criem aplicaes dentro desse domnio. Um

    exemplo dessa caracterstica pode ser dado na seguinte situao: imaginemos a

    existncia de uma ontologia para o domnio de barcos. Uma vez que essa esteja

    disponvel, qualquer outro barco pode construir seus catlogos usando o vocabulrio

    fornecido por essa ontologia sem que precisem refazer uma avaliao do domnio de

    barcos. Diferentemente da linguagem natural, onde as palavras podem ter

    significados diferentes conforme o seu contexto, as ontologias por serem escritas em

    linguagem formal fornecem uma descrio exata do conhecimento. Um exemplo

    disso quando algum fala a palavra globo, dependendo do estado mental da

    pessoal que ouviu o termo, poder associ-lo com o significado da rede de televiso

    Globo, como tambm possvel que para essa mesma pessoa a palavra tenha a

    semntica de um corpo esfrico. Isso no aconteceria, ou pelo menos teria pequenas

    chances de acontecer, se existisse uma conceitualizao comum entre as duas pessoas

    que esto se comunicando. Por exemplo, imagine que as duas pessoas concordem em

    usar uma ontologia sobre o domnio de formas geomtricas, provavelmente no

    existiria mal entendido entre elas.

    Vimos o que uma ontologia e quais so as suas principais vantagens. Com

    esses tpicos j possvel ter-se uma ideia bsica das partes que compem uma

    ontologia, porm vale a pela formalizar essa questo. Segundo Guimares, entre as

    vrias definies sobre o que compe uma ontologia, a que mais se destaca dada

    por Maedche devido ao seu alto grau de formalismo. Porm, a descrio feita por

    Gmez tambm bastante completa. Isso fez com que Guimares mesclasse as

    definies dos dois autores, e essa mistura que ser apresentada aqui.

    Um conjunto de conceitos e uma hierarquia entre esses conceitos, ou seja,

    uma taxonomia definida como um dos componentes principais que compem uma

  • 46

    ontologia. Aqui, os conceitos possuem a capacidade de ser abstratos, um exemplo

    disso a fora; concretos, como por exemplo, um navio; elementares que

    exemplificado por um eltron; ou compostos, como por exemplo, um tomo. Para

    melhor se entender taxonomia pode-se pensar no conceito prton ser um

    subconceito do conceito tomo.

    Outra pea que tambm compe uma ontologia um conjunto de

    relacionamento entre esses conceitos. Como exemplifica o fato de que entre o

    conceito pessoa e o conceito carro a relao que h a de ser dono. Ainda h um

    conjunto de funes, onde uma funo um caso especial de relacionamento em que

    um conjunto de elementos tem uma relao nica com outro elemento. Um exemplo

    de funo o fato de certo conceito ser pai biolgico de outro.

    Por fim, contrrio ao conjunto de funes um conjunto de axiomas, onde

    h regras que sempre so verdade. Exemplificar axioma fazer-se pensar que toda

    pessoa tem uma me.

    Ressaltamos a principal diferena entre taxonomia e ontologia que o fato de

    que a taxonomia permite classificaes, mas elas tero uma estrutura hierrquica e

    sua classificao rgida e no permite relacionamentos de causa-efeito ou de

    dependncia entre as partes que a ontologia permite.

    E para obtermos as especificaes formais, relacionadas definio de Karin

    Breitman acima, ou, simplesmente, ontologias que desejarmos, precisamos de

    linguagens apropriadas para isso o que ser apresentado no prximo captulo e

    tambm precisamos conhecer quais so as principais ontologias e qual o processo de

    criao de uma ontologia, caso desejemos obter uma especificao inexistente tudo

    isso ser apresentado nos captulos subsequentes.

  • 47

    II.03.03.01 Linguagens para Representao de Ontologias

    Neste captulo sero expostas as caractersticas das principais linguagens para

    representao de ontologias.

    Listando as principais linguagens para representao de ontologias, temos:

    RDF (Resource Description Framework): esta linguagem tambm pode ser utilizada para metadados e foi explanada detalhadamente

    em item anterior (II.03.02.02).

    SHOE (Single HTML Ontology Extension): uma linguagem que se apresenta como uma extenso do HTML. Ela fornece tags particulares

    que podem ser utilizadas para representar ontologias e que no fazem

    parte das tags que so utilizadas no HTML e por isso no so

    mostradas a partir dos browsers. Sua inteno armazenar

    informaes a respeito do contedo das pginas, permitindo maior

    eficincia aos mecanismos de busca. Podemos ter agentes que

    utilizariam o SHOE para realizar buscas semnticas na rede.

    Segundo Heflin, Hendler e Luke, a linguagem SHOE faz uma

    distino entre o contedo das pginas asseres ou instncias e a

    terminologia, informao acerca dos metadados. SHOE permite a

    definio de conceitos, relacionamentos e atributos. Veja no Anexo

    01 Exemplo de Arquivo utilizando SHOE um arquivo da

    Universidade de Princeton que o utiliza. Nesse exemplo, observe a

    utilizao de novos tags: INSTANCE KEY (instncia), CATEGORY

    NAME (conceito) e RELATION NAME (funo que relaciona dois

    conceitos propriedade). Essas tags so adicionadas ao contedo

    HTML como se fosse um novo cabealho. Esse conjunto de tags com

    o contedo HTML forma a pgina SHOE.

    SHOE menos expressivo que o RDF e, principalmente, dificulta a

    manuteno das pginas que a utilizem. Ela foi descontinuada, mas

    mantida pela Universidade de Maryland, que a havia criado. Porm,

    devido a sua praticidade e simplicidade uma boa opo para criar-se

    uma ontologia e por isso foi exemplificada no Anexo 01.

  • 48

    Mais informaes e exemplos da utilizao de SHOE esto em:

    http://www.cs.umd.edu/projects/plus/SHOE/.

    OIL (Ontology Inference Layer) segundo Gmez-Prez OIL pode ser definida assim:

    Uma linguagem baseada em frames (quadros) que utilizam

    lgica de descrio para fornecer uma semntica clara, ao mesmo tempo

    em que permitem implementaes eficientes de mecanismos de

    inferncia que garantam a consistncia da linguagem.

    Muito do trabalho relacionado linguagem OIL foi incorporado

    OWL, que veremos adiante.

    Mais informaes no quadro comparativo entre as linguagens DAML

    e OIL, no Anexo 02 Tabela Comparativa entre as linguagens OIL

    e DAML. Informaes detalhadas e exemplos relacionados OIL

    podero ser encontrados no seguinte endereo:

    http://www.ontoknowledge.org/oil/.

    DAML + OIL. (DAML o acrnimo de: DARPA (Defense Advanced Research Projects Agency) Agent Markup Language):

    Segundo Karin Breitman, temos:

    DAML + OIL dividida em duas partes, domnio dos objetos,

    que consiste nos objetos que so membros de classes definidas na

    ontologia DAML, e domnio dos tipos de dados, que consiste nos

    valores importados do modelo XML. A ideia por trs da separao

    permitir a implementao de mecanismos de inferncia, j que realizar

    inferncias sobre tipos concretos de dados no seria possvel. DAML

    composta por elementos de classe, expresses de classe e propriedades.

    Uma comparao entre as linguagens OIL e DAML encontra-se em:

    Anexo 02 Tabela Comparativa entre as linguagens OIL e DAML.

    Informaes detalhadas e exemplos podem ser encontrados em:

    http://www.daml.org/.

  • 49

    OWL (Ontology Web Language) Lanada como uma reviso da DAML + OIL pelo W3C, foi

    projetada para atender s necessidades das aplicaes para a Web

    Semntica, tais como:

    - Construo de ontologias

    - Fornecer claramente fatos sobre um determinado domnio

    - Racionalizar sobre ontologias e fatos

    Os elementos bsicos da OWL so: namespaces, cabealhos, classes,

    indivduos, propriedades e restries.

    - Namespaces: so declaraes que se localizam entre etiquetas do

    tipo rdf:RDF e permitem que os identificadores que estaro presentes na ontologia sejam interpretados sem ambiguidades.

    - Cabealhos: sob a etiqueta owl:Ontology comum incluir uma

    coleo de etiquetas sobre a prpria OWL. Elas so responsveis por

    registrar comentrios, pelo controle de verso e pela incluso de

    conceitos e propriedades de outras ontologias.

    - Classes: so utilizadas para descrever os conceitos mais bsicos de

    um domnio, que serviro como bases ou razes de vrias taxonomias.

    O construtor fundamental de uma taxonomia rdfs:subClassOf, que

    define a hierarquia de classes, atravs de relacionamentos de

    generalizao (tipo-de). Por exemplo, temos a sentena: Um exame

    de sangue um exame mdico. Em OWL classificamos os conceitos

    Exame_Medico e Exame_De_Sangue como classes e estabelecemos

    um relacionamento de generalizao entre eles utilizando a tag

    rdfs:subClassOf, conforme exemplo a seguir:

    Ressalte-se que esse comportamento transitivo. Isto , se existe uma

    classe Hemograma que subclasse da classe Exame_De_Sangue e

  • 50

    esta, por sua vez, subclasse de Exame_Medico, temos que a classe

    Hemograma subclasse de Exame_Medico.

    - Indivduos: so objetos do mundo. Eles pertencem a classes e so

    relacionados a outros indivduos e classes atravs de propriedades.

    Eles so os membros das classes. Exemplo:

    Propriedades: descrevem caractersticas em geral. Exemplo:

    1000

    Restries: so utilizadas para definir limites para indivduos que

    pertencem a uma classe.

    A linguagem OWL oferece trs sublinguagens projetadas para uso de

    comunidades especficas de implementadores e usurios:

    A OWL Lite d suporte aos usurios que necessitam, principalmente,

    de uma hierarquia de classificao e simples caractersticas de

    restrio. Por exemplo, enquanto a OWL Lite suporta restries de

    cardinalidade, ela somente permite 0 (zero) ou 1 (um) como valores

    de cardinalidade. Dessa forma, mais simples criar ferramentas que

    suportam a OWL Lite do que seus custosos parentes, alm de

  • 51

    fornecer um rpido caminho de migrao para o tesauro16 e outras

    taxonomias.

    A OWL DL d suporte aqueles usurios que desejam o mximo de expressividade sem perder a completude computacional (todas as

    concluses so garantidas de serem computadas) e a capacidade de

    deciso (todas as computaes sero finalizadas em um tempo finito)

    dos sistemas de raciocnio. A OWL DL inclui todos os construtores

    da linguagem OWL com restries como separao entre tipos (uma

    classe no pode ser ao mesmo tempo um indivduo ou tipo e uma

    propriedade no pode ser ao mesmo tempo um indivduo ou uma

    classe). OWL DL tem esse nome devido a sua correspondncia a

    Lgica de Descrio, ou Description Logic, um campo de pesquisa que

    tem estudado um fragmento de deciso particular de primeira ordem

    lgica. OWL DL foi desenhada para suportar o que j existe no

    segmento de descrio de lgica de negcios e tem propriedades

    computacionais desejveis para sistemas de raciocnio.

    A sublinguagem OWL Full feita aos usurios que desejam o

    mximo de expressividade e a liberdade sinttica do RDF, sem

    nenhuma garantia computacional. Por exemplo, na OWL Full uma

    classe pode ser tratada simultaneamente como uma coleo de

    indivduos ou, simplesmente, como um indivduo. Uma outra

    diferena significante em relao OWL DL que um elemento

    owl:DataTypeProperty pode ser marcado como um elemento

    owl:InverseFunctionalProperty. A OWL Full permite uma ontologia

    aumentar o significado de um vocabulrio pr-definido (RDF ou

    16 Tesauro, tambm conhecido como dicionrio de ideias afins, uma lista de palavras com significados semelhantes, dentro de um domnio especfico de conhecimento.

  • 52

    OWL). improvvel que todo software de raciocnio venha a ser

    capaz de suportar todas as caractersticas da OWL Full.

    Cada uma dessas sublinguagens uma extenso de sua predecessora

    mais simples, tanto no que pode ser legalmente expresso, quanto no

    que pode ser concludo validamente.

    A OWL pode ser entendida como um componente da atividade Web

    Semntica. Esse esforo tenta fazer com que os recursos Web sejam

    mais acessveis a processos automatizados, adicionando informaes

    sobre os recursos que descrevem ou disponibilizam contedo Web.

    Como a Web Semntica naturalmente distribuda, a OWL deve

    permitir que as informaes sejam reunidas de diferentes fontes. Isto

    feito, em parte, permitindo que ontologias sejam relacionadas,

    incluindo informaes explcitas de importaes de outras ontologias.

    Em adio, a OWL assume uma abordagem open world, ou seja,

    descries de recursos no so confinadas a um nico escopo de

    arquivo. Enquanto uma classe C1 pode ser definida dentro de uma

    ontologia O1, ela pode se extendida em outras ontologias. As

    consequncias dessas proposies adicionais sobre C1 so

    monotnicas. Novas informaes no podem retratar informaes

    anteriores. Novas informaes podem ser contraditrias, mas fatos e

    concluses somente podem ser adicionados, nunca excludos. Trata-

    se de um comportamento tpico de heranas de classes.

    A possibilidade desse tipo de contradio uma coisa que o projetista

    de uma ontologia deve considerar. esperado que o suporte dado

    por ferramentas venha a ajudar a detectar esses casos.

    Para se escrever uma ontologia que possa ser interpretada sem

    ambiguidade e que possa ser devidamente utilizada por agentes de

    software, precisamos de um sintaxe e uma semntica formal para a

  • 53

    OWL, sendo que a OWL uma extenso das Semnticas do RDF --

    http://www.w3.org/TR/rdf-mt/ e a semntica da OWL definida

    em OWL Web Ontology Language Semantics and Abstract Syntax:

    http://www.w3.org/TR/2004/REC-owl-guide-

    20040210/#FormalModel.

    De qualquer forma, antes de usarmos um conjunto de termos,

    necessitamos de uma indicao precisa sobre quais vocabulrios

    especficos sero utilizados. Mais detalhes no tpico II.03.03 03

    Criao de Ontologias.

    Informaes detalhadas e exemplos sobre a linguagem OWL podem

    ser encontrados em: http://www.w3.org/TR/owl-ref/.

    Aps vermos as principais linguagens para representao de ontologias,

    veremos a seguir as caractersticas das principais ontologias.

  • 54

    II.03.03.02 Principais Ontologias

    Neste captulo sero expostas as caractersticas de algumas das principais

    ontologias.

    Segundo Karin Breitman temos diversas ontologias, dentre as principais

    temos a SUMO (Suggested Upper Merged Ontology): o que traduzido, seria a

    ontologia de topo incorporada sugerida, ou seja, trata-se de uma ontologia de topo

    (base para outras ontologias) e uma iniciativa da comunidade de software livre

    tendo como objetivo a construo de padro pblico, a ser disponibilizado

    livremente com o uso da Internet. Como ontologia de topo, sua ideia conter um

    nmero total de termos genricos, algo estimado entre 1.000 (um mil) e 3.000 (trs

    mil). A partir desses termos genricos, podemos especializar para a criao de

    ontologias de domnios especficos.

    Citando outras ontologias de domnio, temos: GUM (Generalized Upper

    Model), EDR (Eletronic Dictionary Research), WordNet (banco de dados lxico que

    fornece os possveis significados de mais de 120.000 (cento e vinte mil) palavras em

    lngua inglesa, organizados em conjuntos de sinnimos), ODP (Open Directory

    Project), NAICS (North American Industry Classification System), GALEN

    (desenvolvida pela organizao OpenGALEN, ela representa uma terminologia

    clnica e foi desenvolvida para especificar restries utilizadas em domnios mdicos),

    FOAF (Friend Of A Friend), Gartner (ndice de tpicos das pesquisas realizadas pelo

    grupo Ga