Download - Aprenda tudo sobre semantica
-
Pontifcia Universidade Catlica de So Paulo
PUC-SP
Luciano Gonzaga Leme
Site com Contedo Apropriado Web Semntica e Mecanismos de Busca
Mestrado em
Tecnologias da Inteligncia e Design Digital
So Paulo
2009
-
Pontifcia Universidade Catlica de So Paulo
PUC-SP
Luciano Gonzaga Leme
Site com Contedo Apropriado Web Semntica e Mecanismos de Busca
Mestrado em
Tecnologias da Inteligncia e Design Digital
Dissertao apresentada Banca Examinadora
da Pontifcia Universidade Catlica de So Paulo,
como exigncia parcial para obteno do ttulo de
Mestre em Tecnologias da Inteligncia e Design
Digital - Inteligncia Coletiva e Ambientes Interativos,
sob a orientao do Professor Doutor Demi
Getschko.
So Paulo
2009
-
Banca Examinadora
________________________________
________________________________
________________________________
-
Ao meu orientador: Professor Doutor Demi Getschko
pelo apoio e auxlio para a realizao deste trabalho.
-
Resumo
Leme, Luciano Gonzaga Site com Contedo Apropriado Web
Semntica e Mecanismos de Busca So Paulo, 2009.
Esta dissertao apresenta uma abordagem que tem como objetivo principal
questionar e apresentar possveis caminhos para que o contedo de um web site seja
apropriadamente oferecido em termos de Web Semntica e Mecanismos de Busca.
Para alcanar esse objetivo foram efetuadas pesquisas e utilizada a experincia do
autor. Desse modo foram combinados os conceitos e as tecnologias envolvidas em
relao a metadados, ontologias, servios web semnticos e otimizao de
mecanismos de busca.
Os metadados permitem qualificar informaes apropriadamente, as
ontologias so empregadas para aprimorar a anlise do domnio do problema e para
obter componentes de software com descries semnticas, os quais podem ser
reutilizados numa grande variedade de aplicaes. Os servios web semnticos so
utilizados como componentes de software distribudos pela Internet e podem realizar
tarefas complexas de aplicaes.
Partindo do questionamento do que publicar em um web site, ou melhor,
como deve ser o contedo de um web site - foram expostos conhecimentos e
tecnologias que delineiam a questo: como oferecer contedo apropriado?
Aps a exposio dos conceitos associados e da apresentao de possveis
solues conclumos com questionamentos e indicativos de possveis pesquisas que
muito contribuiro ao desenvolvimento de sites com contedo apropriado com a
Web Semntica e seus possveis efeitos colaterais positivos, propiciando a melhor
utilizao do conhecimento e das informaes disponibilizadas na web.
Palavras-chave: contedo apropriado na web, Web Semntica, Metadados,
Ontologias, Agentes Semnticos, Servios Web Semnticos, SEO.
-
Abstract
Leme, Luciano Gonzaga Site with Appropriated Content to Semantic
Web and Search Engines Sao Paulo, 2009.
This work introduces an approach which main purpose is to ask and present
possible ways so that the web sites content will be appropriately offered related to
Semantic Web and Search Engines. To achieve this purpose many researches were
made and used the authors experience in this area. Therefore many concepts and
technologies were combined and used, such as: metadata, ontologies, semantic web
services and search engine optimization.
Metadata allow qualifying informations appropriately, ontologies are used to
improve domains analysis problem and to obtain software components with
semantic descriptions, which may be reused in a great variety of applications.
Semantic web services may be used as software components spread through the
Internet to perform applications complex tasks.
Starting asking what should be published in a web site, or even better, how
should be a web sites content the work exposes knowledges and technologies to
answer the question: how to offer appropriated content?
After exposing the associated concepts and showing possible solutions a
conclusion is achieved with questions and possible researches which will allow
appropriated content sites development with Semantic Web and its possible positive
collateral effects, granting improvement in both: knowledge utilization and available
informations in the web.
Keywords: appropriated content in the web, Semantic Web, Metadata,
Ontologies, Semantic Agents, Semantic Web Services, SEO.
-
Sumrio
I Introduo ........................................................................................................... 9
II Contedo de um site ........................................................................................ 11
II.01 - Definindo o contedo de um site ......................................................... 11
II.02 Interao com o usurio ....................................................................... 23
II.03 A utilizao da Web Semntica ........................................................... 25
II.03.01 Web Semntica versus Inteligncia Artificial .......................... 27
II.03.02 Metadados ..................................................................................... 31
II.03.02.01 Padro Dublin Core .......................................................... 34
II.03.02.02 Resource Description Framework - RDF ...................... 36
II.03.02.03 Crticas aos Metadados ..................................................... 40
II.03.03 Ontologias .................................................................................... 44
II.03.03.01 Linguagens para Representao de Ontologias ............. 47
II.03.03.02 Principais Ontologias ........................................................ 54
II.03.03.03 Criao de Ontologias ....................................................... 59
II.03.03.03.01 Seleo dos Termos referentes ao domnio da
ontologia: ............................................................................................................. 59
II.03.03.03.02 Definir as classes e a hierarquia de classes da
ontologia: ............................................................................................................. 59
II.03.03.03.03 Definir as propriedades: .......................................... 59
II.03.03.03.04 Definir as restries: ................................................ 60
II.03.03.03.05 Definir instncias: .................................................... 60
II.03.04 Ferramentas .................................................................................. 61
II.03.04.01 Principais Ferramentas ...................................................... 62
II.03.04.01.01 - OilEd: ......................................................................... 62
II.03.04.01.02 - OilViz: ........................................................................ 62
-
II.03.04.01.03 - Protg: ...................................................................... 62
II.03.04.01.04 - DC.dot: ....................................................................... 63
II.03.04.01.05 - API JENA: ................................................................. 64
II.03.04.01.06 - Chimaera: ................................................................... 65
II.03.04.01.07 - SNOBASE: ................................................................ 65
II.03.04.01.08 - FaCT: .......................................................................... 66
II.03.04.01.09 - Pellet: .......................................................................... 67
II.03.05 Agentes .......................................................................................... 68
II.03.05.01 Principais Agentes ............................................................. 69
II.03.05.01.01 - CATO (Componente para Alinhamento
Taxnomico de Ontologias): ............................................................................ 69
II.03.05.01.02 - API Jena: .................................................................... 69
II.03.05.01.03 - Servios Web Semnticos ........................................ 69
II.04 Como organizar o contedo para que os mecanismos de busca
sejam mais eficientes ....................................................................................................... 74
III Concluso ....................................................................................................... 77
Notas ........................................................................................................................ 80
Glossrio .................................................................................................................. 81
Referncias Bibliogrficas ...................................................................................... 82
Impressas: ............................................................................................................ 82
Sites da Internet: .................................................................................................. 86
Anexos .................................................................. Erro! Indicador no definido.
Anexo 01 - Exemplo de Arquivo utilizando SHOE:Erro! Indicador no
definido.
Anexo 02 Tabela Comparativa entre as linguagens OIL e DAML: ... Erro!
Indicador no definido.
-
9
I Introduo
tualmente existe uma grande quantidade de dados que demandam o
nosso tempo. Dentro dessa enxurrada de dados, quais so os que tm
relevncia aos nossos interesses? As empresas de contedo (Abril, BBC, CNN,
Globo, iG, Reuters, UOL dentre muitas) demandam o nosso tempo e nem sempre
atendem nossas intenes. Ao mesmo tempo em que estar bem informado passou a
ser uma condio sine qua non para nossa integrao social e ampliarmos nossas
perspectivas de negcios, como escolher o contedo que mais nos agrada e que pode
nos trazer melhores perspectivas numa sociedade que nos bombardeia a todo o
tempo com dados que no so importantes e que nos tomam o pouco tempo que
poderamos despender com atividades mais agradveis? Outro problema o lado do
comunicador (que ser o foco deste trabalho), qual a melhor forma de atingir um
pblico que lhe trar bons retornos, venda de espao propagandstico, venda de
assinaturas etc. a mdia quer atingir o pblico em geral, de preferncia com
eficincia (fazer certo as coisas) e eficcia (fazer as coisas certas). Como a mdia pode
oferecer contedo relevante com interao inteligente para atender demandas
variveis? Esse o desafio: site ou ambiente Web com contedo apropriado.
Segundo Guevara: As interfaces dos atuais sistemas necessitam no somente
responder s solicitaes dos usurios, mas tambm antecipar, adaptar e buscar
ativamente maneiras de lhes dar suporte.
Pretende-se, com o trabalho, descrever ou caracterizar as principais opes
que atendam ao objetivo geral da pesquisa que o de criar mecanismos cognitivos,
simblicos, interativos e inteligentes para atender s demandas de informao
relevante. Hoje em dia, um usurio faz uma busca a respeito de um livro de um
determinado gnero e pode aparecer no resultado da pesquisa um link para um site de
e-commerce que oferece ao usurio sugestes do gnero daquele livro que no
condizem com o que o usurio necessita ou deseja (talvez ele no queira pagar frete
ou gostaria de obter alguma promoo etc.). Dessa forma, o trabalho visa estudar
como oferecer, atravs de mecanismos inteligentes, contedo adequado, com Web
A
-
10
Semntica apropriada, de acordo com o que houver sido identificado ou solicitado
pelo usurio.
Um trabalho que apresente opes aos desafios de divulgao de informao
e comunicao apresenta-se como fonte inesgotvel de solues que podero ser
adotadas para que as empresas faam dinheiro que o fator mais atrativo no mundo
empresarial.
Iniciaremos nosso trabalho definindo o que seria um site de contedo e as
dificuldades de alcanar diferentes idiomas, assim como diferentes culturas.
Apresentaremos quais as possveis solues para que o problema possa ser
contornado e quais as tcnicas que podem ser aplicadas at apresentarmos uma
concluso do que pode ser feito para atingir o pblico de forma adequada atravs de
sites de contedo.
-
11
II Contedo de um site
II.01 - Definindo o contedo de um site
um site de contedo, uma das grandes questes como disponibilizar
e permitir a atualizao de contedo a ser visto pelo usurio. Haveria
um modo de disponibilizar informao relevante e que atinja aos mais variados
pblicos de forma que o que for enviado ao internauta seja relevante e que atinja a
culturas, crenas e condies sociais diversas? Ou seja, teramos como fornecer a
informao relevante e que interessa a cada usurio em especfico?
Inicialmente vamos definir o que venha a ser um site de contedo: todo e
qualquer site que no tem como objetivo fim apresentar uma ferramenta ou utilitrio
para o usurio. Webmails, internet banking ou sites de busca so exatamente o oposto
dos sites de contedo, j que tm como objetivo fim arrolar e-mails, facilitar o acesso
do cliente a sua conta corrente ou fazer uma pesquisa na Internet, respectivamente.
Os sites de contedo podem ser categorizados em um grande nmero, dada a
natureza do que se prope a publicar. Como exemplos h sites de contedo infantil,
esportivo, econmico, noticirio, opinies e muito mais. Sites puramente
institucionais tambm so considerados como de contedo.
Mas para abordar dificuldade acima: fornecer informao adequada ao perfil
especfico de cada usurio em um site de contedo, vrios aspectos precisam ser
analisados, tais como: qual o pblico que se deseja atingir? Se a resposta for a todos,
j comeamos com o problema da lngua e para abordarmos exatamente esse ponto:
o lingustico - consideraremos inicialmente o trabalho realizado por Raimundo Llio
retratado por Umberto Eco no livro A busca da lngua perfeita, que tentou obter
uma lngua que atendesse s culturas crist, hebraica e muulmana, ou seja, escritos
que fossem adequados as trs culturas. Ramn Lull, em portugus Raimundo Llio,
foi um catalo nascido em Maiorca1 entre aproximadamente 1232 e 1316 seu local
1 Maiorca (em catalo e castelhano Mallorca) a maior ilha do arquiplago das Ilhas Baleares localizado a leste da Espanha e sua maior cidade e capital Palma de Maiorca.
N
-
12
de nascimento era encruzilhada das culturas crist, islmica e hebraica. Aps uma
juventude mundana, Llio teve uma experincia ou crise mstica (Umberto Eco no
entra em maiores detalhes) e entrou para a Ordem Franciscana.
Raimundo Llio foi o primeiro filsofo a escrever obras doutrinais em lngua
verncula2 e em sua obra Ars magna desenvolveu uma lngua filosfica que seria,
segundo Llio, perfeita mediante a qual seria possvel converter os infiis. Para
Llio, os infiis seriam todos os que no fossem cristos. Havia em sua Ars magna
uma forte tendncia crena e doutrina catlica, que em plena Idade Mdia possua
fortssima influncia no mundo ocidental. A lngua defendida por Llio ambicionava
ser universal, porque universal a combinao matemtica que articula o seu plano
de expresso. Llio elabora no nvel de contedo o seu sistema de ideias que deve ser
universal e comum a todos os povos. Faz uso de letras alfabticas e de figuras para
alcanar seus objetivos de universalizao de uma lngua que poderia ser considerada
perfeita para a finalidade a qual Llio se propunha: converter muulmanos e judeus
ao catolicismo.
Aqui cabem parnteses: no estamos ambicionando inventar uma nova lngua
a ser colocada em sites de contedo e que possa ser considerada universal, mas a ideia
que Llio tinha era a de uma lngua universal, perfeita e que permitiria atingir culturas
diversas, ento a referncia ao trabalho de Llio nesta dissertao para que
possamos indagar se podemos abordar a questo atravs de um mecanismo de lngua
que permita a comunicao nica, mas que seja adequada a crenas e culturas
diversas, de modo a permitir um contedo universal adequado a perfis diversos.
Contemporneo a Llio tivemos um franciscano, Roger Vacona, que no
queria inventar uma lngua nova, nem divulgar o conhecimento das lnguas dos
outros, queria era a supremacia da cultura crist ocidental em detrimento s demais
culturas ou tradies. Pensamentos franciscanos predominantes na poca eram:
carter missionrio e utopia universalista defendidos por So Francisco, Vacona, e,
em partes, pelo prprio Llio.
2 Em contraste com a lngua litrgica.
-
13
Tambm no intuito deste trabalho, impor pesos ou valores a contedos
especficos, para que os mesmos sejam considerados os verdadeiros. Partimos do
pressuposto de que o contedo pode ser bastante diversificado e que no existe
contedo melhor do que outro, apenas temos contedo que pode atender aos
interesses de um usurio e que no atenderia aos interesses de outro usurio.
Utilizando-se de elementos de arte combinatria, se queremos dispor n
elementos t a t em que a ordem tenha valor diferencial, temos a seguinte frmula:
n!/(n-t)! (fatorial de n dividido por fatorial de (n-t)) 3 como sendo a possvel
quantidade de resultados. Exemplo disso : dadas quatro pessoas, como podemos
disp-las em duplas nos assentos de um teatro. No entanto, se quisermos combinar n
elementos t a t em que a ordem no altere o resultado, temos: n!/t(n-t)! (fatorial de n
dividido pelo produto de t e fatorial de (n-t)). Exemplo deste ltimo : dados quatro
soldados (A, B, C e D) como podemos combin-los 2 a 2 (dois a dois) para
realizarem uma patrulha, enviar A e B ou B e A a mesma dupla para efetuar a
patrulha, ou seja, a ordem no alteraria o resultado.
Numa abordagem semitica, sistema de expresso (smbolos) e de regras
sintticas (n elementos podem combinar-se t a t, onde t pode coincidir com n) que
sejam capazes de revelar automaticamente possveis sistemas de contedo teremos,
segundo Umberto Eco, 21 (vinte e uma) letras do alfabeto quantidade de letras
condizente ao alfabeto utilizado poca de Raimundo Llio, sculo XIII que
podem resultar em mais de 51 (cinquenta e um) bilhes de bilhes de sequncias de
21 (vinte e uma) letras nmero astronomicamente alto que traduz as diversas
disposies de 21 (vinte e uma) letras em todas as possveis quantidades de
disposies. O nmero alcanado no contempla critrios ou restries que no
dizem respeito combinatria, pois critrios ou restries vm do exterior para
limitar as possibilidades matemticas - exemplo uma palavra formada apenas por
3 Na matemtica, o fatorial de um nmero natural n o produto de todos os inteiros positivos menores ou iguais a n. Isso escrito como n! e lido como "fatorial de n". A notao n! foi introduzida por Christian Kramp em 1808.
-
14
vogais ou consoantes que nada possa representar ou foneticamente invivel e que
teria que ser descartada.
Llio, em sua Ars magna, montou um dispositivo com um alfabeto de 9
(nove) letras de B a K e 4 (quatro) figuras e uma Tabula generalis - veja Figura 01 - que
uma lista de 6 (seis) conjuntos de 9 (nove) entidades cada um, onde temos: 9 (nove)
de cada um dos seguintes itens: Princpios Absolutos, Princpios Relativos, Tipos de
Questes, Sujeitos, Virtudes e Vcios, que formariam uma espcie de quadro das
dignidades, segundo Llio.
Figura 01 Tabula Generalis
Com relao Figura 02, observamos que ela permite combinaes possveis
que podem unir os princpios da Tabula Generalis a predicados, construindo
afirmaes do tipo A Bondade grande. E teremos 36 (trinta e seis) linhas com 72
(setenta e duas) combinaes. As combinaes devem permitir silogismos regulares e
sendo assim estaro descartadas afirmaes do tipo: A Bondade boa.
-
15
Figura 02 Combinaes de Princpios da Tabula Generalis versus Predicados
A Figura 03 no visa nenhuma combinao, trata-se de um artifcio
mnemnico-visual que permite lembrar as relaes fixas entre os vrios tipos de
relao e vrios tipos de entidades.
Figura 03 Relaes versus Entidades
Na Figura 04 so consideradas todas as combinaes possveis entre as letras,
aparentemente excluindo as inverses de ordem. As regras das combinaes como
todas as outras dependem das definies dos termos (que so de natureza teolgica)
-
16
assim como de algumas modalidades de argumentao que as regras estabelecem,
alheias s leis da combinatria.
Figura 04 Combinaes entre as letras
Na Figura 05, h tripletas geradas por 9 (nove) elementos. utilizada a roda,
provavelmente devido a tradies cabalsticas, sendo que Llio transforma as tripletas
em qudruplas, inserindo a letra T. Desse modo, utilizado um artifcio mnemnico
em que as letras que precedem a letra T devem ser lidas como princpios ou
dignidades, ao passo que aquelas que seguem a T devem ser lidas como princpios
relativos. No caso, podemos questionar se todas as milhares de qudruplas levam a
uma argumentao vlida. Sendo que para Llio, devem ser deduzidas somente
aquelas frmulas cujas premissas e concluses correspondem disposio real do
cosmos. Ele aceita algumas converses das proposies, mas no outras, que
tambm seriam formalmente corretas.
Figura 05 - Tripletas
No fcil de entender primeira vista como era a formao dessa lngua
universal luliana. Mas j podemos afirmar que a Ars magna no um instrumento
-
17
lgico, mas um instrumento dialtico, isto , uma maneira de identificar e relembrar
todas as formas vlidas para argumentar a favor de uma tese pr-construda. E isso
de tal maneira que no h qudrupla, segundo Llio, que, devidamente interpretada,
no possa resolver a questo qual aplicada.
A Ars, segundo Llio, levaria a concluses mais seguras do que as da lgica,
e, portanto, o artista desta arte pode aprender mais em um ms do que possa
aprender um lgico em um ano (Ars magna, Decima pars, cap. 101).
Leibniz4, em 1666, questiona por que Llio teria limitado o nmero de
elementos, por que o nmero de princpios no teria ficado aberto? O motivo que
Llio no pensava, de modo algum, em uma combinatria livre de elementos de
expresso no vinculados a um contedo especfico, pois se assim fosse, no
consideraria a sua arte como uma lngua perfeita, capaz de assumir uma realidade
divina que ele assume, desde o incio, como absoluta, auto-evidente e revelada por
Deus. Ele a concebia como um instrumento para converter os infiis, e para tanto
estudara durante longo tempo as doutrinas tanto dos judeus quanto dos
muulmanos.
Llio realizou outros trabalhos, alm da Ars magna um deles, A arbor
scientiarum (A rvore das cincias) apresenta noes elementares que seriam comuns
tambm aos infiis. Tais princpios elementares se inserem em um sistema fechado e
pr-definido, ou seja, um sistema j rigidamente hierarquizado, o sistema das rvores
das Cincias.
Se no silogismo aristotlico afirmamos: todas as flores so vegetais, X uma
flor, logo X um vegetal - do ponto de vista lgico, o que X irrelevante. Mas
Llio quer saber se X uma margarida ou um barco. E em sua arbor scientiarum, Llio
pretende construir um instrumento capaz de enfrentar toda a enciclopdia do saber.
Na arbor scientiarum, a combinatria luliana um instrumento retrico
mediante o qual se quer demonstrar o que j conhecido, isto , aquilo que a
4 Gottfried Wilhelm von Leibniz (Leipzig, 1646 Hanover, 1716) foi um filsofo, cientista, matemtico, diplomata e bibliotecrio alemo.
-
18
estrutura de uma floresta de vrias rvores j fixou, de uma vez para sempre, e que
nenhuma combinatria jamais poder subverter, segundo Llio.
De qualquer forma, a Ars poderia aspirar a ser lngua perfeita se o j-
conhecido que visava comunicar tivesse pertencido realmente a um universo de
contedo igual a todos os povos. Ela foi traduzida para o rabe e o hebraico, mas ela
fala do produto de uma organizao do mundo realizado pela tradio crist
ocidental.
Umberto Eco relata:
Llio houvera feito da prpria reflexo teolgica, e da prpria
investigao de uma lngua universal, um meio para lanar uma ponte
intelectual e religiosa entre Ocidente europeu e Oriente, e que julgava
que a verdadeira autoridade no se devia basear em uma unidade
inflexvel, mas em uma tenso entre vrios centros de forma que
Moiss, Cristo e Maom pudessem levar a um resultado unitrio. O
lulismo acolhido como estmulo mstico e filosfico, e como alternativa
imaginria e potica para a enciclopdia do aristotelismo escolstico, mas
tambm como inspirao poltica.
Esse apelo concordatrio de Llio retomado dois sculos mais tarde por
Nicolau Cusano5 que em seu tratado De pace fidei causa uma polmica e tenta um
dilogo com os muulmanos e judeus e se coloca o problema (luliano) de como
demonstrar aos representantes de outras duas religies monotestas que eles devem
concordar com a verdade crist.
No sculo XVI, outro que tentou a empreitada de Llio foi Giordano Bruno.
Ele entendia que a lngua perfeita deveria oferecer a chave para exprimir no s este
mundo, mas todos os infinitos na sua concordncia mtua. Essa ambio parece
imperfeita no que concerne estrutura semitica: tratava-se de um lxico imenso,
com significados vagos, e cuja sintaxe, quando muito, era de uma combinatria sem
limites.
5 Nicolau Cusano (1401-1464), matemtico e astrnomo.
-
19
A retrica de Giordano Bruno pretendia reforma, renovao e revoluo dos
costumes, dos conhecimentos e da prpria ordem poltica da Europa.
Desenvolvendo os conceitos lulistas, Bruno criou uma estrutura de rodas
concntricas, limitao de letras, com 23 (vinte e trs) letras do alfabeto mais
caracteres gregos e hebraicos. A sua combinatria era vida pelo ilimitado,
diferenciando-se da combinatria restrita de Raimundo Llio.
E questionamos: podemos ter uma mquina para gerar todas as lnguas
possveis ou algum contedo automtico? Dentre outros, deparamo-nos com o
problema das combinaes vlidas. Exemplo: quente, frio, seco e mido essa
combinao pode formar uma sentena sem o devido significado.
O nmero de palavras (de comprimentos variveis de duas letras at 23)
mais de setenta mil bilhes de bilhes6. O problema de uma lngua universal, na
medida em que poderia conter potencialmente todas as lnguas possveis o de
apresentar nmeros astronmicos. E desse modo no de se surpreender que
existam tantas lnguas diferentes.
Para Descartes7, Llio um autor que tentou sem xito a criao de um
mtodo que pode ser considerado um pseudomtodo, pois suas regras no so claras
e a determinao das coisas a conhecer insuficiente, e menciona a promessa errnea
de oferecer conhecimentos gerais em pouco tempo.
Com o advento da informtica, programas de computador8 que mostram o
funcionamento da Ars magna, assim como inmeras comunidades na Internet que
estudam e comentam a respeito dos trabalhos de Llio so uma realidade.
6 No calculado mais a respeito de conceitos (como fazia Llio), e sim sobre sequncias alfabticas, meros elementos da expresso, no controlados por nenhuma ortodoxia que no seja a do nmero.
7 Ren Descartes (1596, Frana 1650, Sucia), filsofo, fsico e matemtico. Notabilizou-se, sobretudo, pelo seu trabalho revolucionrio da Filosofia, tendo tambm inventado o sistema de coordenadas cartesiano, que influenciou o desenvolvimento do Clculo contemporneo.
8 http://lullianarts.net/downloads.htm; http://www.ramonllull.net.
-
20
Abordando a questo voltando-se Inteligncia Artificial (IA) temos que,
segundo George F. Luger, a maioria das pessoas - quando so questionadas sobre
quais habilidades so essencialmente mais humanas e mais difceis de serem
computadorizadas, alm da criao artstica, da tomada de deciso tica e da
responsabilidade social menciona linguagem e aprendizado. Ao longo dos anos,
estas duas reas tm funcionado como objetivo, desafio e meio de teste para o
progresso da IA.
George F. Luger relata:
Uma das razes do porqu linguagem e aprendizado so reas
de pesquisa difceis, embora importantes, que elas englobam muitas
outras habilidades inteligentes humanas. Comunicar-se atravs de
linguagem natural, quer seja como texto ou como um ato de fala,
depende enormemente do nosso conhecimento e expectativas dentro do
domnio do discurso. A compreenso de linguagem no meramente a
transmisso de palavras: ela tambm requer inferncias sobre o objetivo,
conhecimento e suposies do locutor, bem como sobre o contexto da
interao. A implementao de um programa para compreender
linguagem natural requer que representemos conhecimento e
expectativas do domnio e raciocinemos efetivamente sobre eles.
Precisamos considerar questes como no-monotonia, reviso de crena,
metfora, planejamento, aprendizado e as complexidades prticas da
interao humana.
E a voltamos questo principal sobre como disponibilizar informao
relevante e que atinja aos mais variados pblicos de forma que o que for enviado ao
internauta seja relevante e que atinja a culturas, crenas e condies sociais diversas.
Vemos que se a abordagem for ao mbito luliano, ou seja, restringirmos o
que deve ser dito a uma verdade absoluta e imutvel, estaremos divulgando dogmas e
crenas e a probabilidade de atingir corretamente pessoas com valores culturais
diversificados ser extremamente pequena. A retrica revolucionria de Giordano
Bruno, no entanto, com suas infinitas possibilidades, pode at atingir o contedo
certo a um pblico com interesses distintos ao que estiver sendo apresentado, ou
seja, poderia no atender a qualquer valor cultural.
Sendo assim, uma possvel abordagem a de que a informao que possa
atingir pblicos variados deve seguir um caminho em que ao verificar o que tiver sido
-
21
pesquisado ou desejado pelo usurio possamos indicar contedo adequado, ou seja,
personalizado, e, sendo assim, no ser o mesmo contedo a todos, pessoas
diferentes sero tratadas diferentemente.
Se em algum momento reivindicarmos a criao de uma inteligncia artificial
para dirimir o assunto, devemos abordar questes sobre linguagem natural, raciocnio
automtico e aprendizado de mquina. Mas, quando falamos de HTML (HyperText
Markup Language) pensamos em camada de apresentao e no em troca de dados ou
indexao de dados de forma adequada. A entra a Web Semntica para tentar sanar
todo esse problema, ou seja, teremos que atravs de metadados e ontologias
(conceito explanado no pargrafo seguinte) classificar o contedo de forma
adequada. Com a devida classificao podemos atravs de mecanismos de buscas
adequados fornecer o contedo certo ao que o usurio anseia. O mesmo critrio
valeria para quando estivermos efetuando uma pesquisa num Google, Yahoo, MSN,
AltaVista etc. se buscamos informao sobre redes de computadores e digitamos
apenas a palavra rede, obteremos informaes diversas sobre redes para pescadores,
redes de televiso, redes para descanso e tambm, claro, sobre redes de
computadores. A pesquisa precisaria ser mais especfica, mas ao mesmo tempo se
nos metadados de todas as pginas que trazem informaes sobre redes diversas no
houver a devida classificao e os mecanismos de busca no forem suficientemente
bons para efetuar a devida triagem, encontraremos o mesmo problema de
recebermos informaes que tero que ser humanamente analisadas. Com a Web
Semntica conseguimos uma classificao adequada em que a mquina poder filtrar
tudo que no nos interessaria nos resultados de busca ou com base no
comportamento do usurio. Atravs da Web Semntica tambm, pode-se fornecer
contedo com maior probabilidade de atender aos anseios do mesmo. Uma
abordagem luliana, em que o que informado fixo, dogmtico, no corresponde
realidade e ao dinamismo do mundo Web, ou seja, no podemos determinar
possveis respostas pr-estipuladas a qualquer mecanismo de pesquisa o caminho
a classificao adequada, a utilizao da Web Semntica e claro, podemos utilizar
inteligncia artificial no sentido de permitir a aprendizagem e o raciocnio automtico
para aperfeioar esses processos, mas no que tange linguagem natural o fato de
utilizarmos Web Semntica e termos documentos compreensveis por mquinas no
implica em uma inteligncia artificial que passar a entender o que os humanos falam.
-
22
O conceito aqui que com a Web Semntica os computadores podero resolver
problemas bem definidos atravs da utilizao de dados catalogados de forma
adequada.
Precisamos classificar os dados de forma adequada e a sim, conceituamos
ontologia que, na filosofia, o estudo da existncia ou do ser (verbo). basicamente
uma maneira de compreender identidades e grupos de identidades, chamados de
classes. Em TI chamamos de ontologias as classificaes de identidades, sejam elas
informao ou matria (objetos no mundo real). Podemos criar uma ontologia que
descreva livros no Amazon (www.amazon.com) e as relaes entre os mesmos, assim
como podemos criar uma ontologia sobre os diferentes tipos de barcos de pesca.
Importante saber que ontologias podem descrever qualquer coisa. Importante,
tambm, diferenciar taxonomia de ontologia. A taxonomia tambm permite
classificaes, mas elas tero uma estrutura hierrquica e sem relacionamentos. Por
exemplo, o homem um ser vivo, vertebrado, mamfero etc. Essa classificao da
taxonomia rgida e no permite relacionamentos de causa-efeito ou de dependncia
entre as partes que a ontologia permite.
Definindo o contedo de um site com mecanismos inteligentes vimos,
preliminarmente, que o caminho a Web Semntica e aqui cabe uma ressalva de
Karin Breitman sobre o atual estgio no qual a Web se encontra:
No estgio atual temos, predominantemente, a Web Sinttica:
onde nos preocupamos apenas em apresentar as informaes. Com a
Web Semntica teremos condies de oferecer significado adequado s
pginas e com isso passaremos a enfatizar os mecanismos de troca e
busca de informaes.
A grande verdade que a Internet se desenvolveu mais
rapidamente como um meio para a troca de documentos entre pessoas,
em vez um meio que fomentasse a troca de dados e informaes que
pudessem ser processadas automaticamente. Como consequncia, o
contedo semntico das pginas, ou seja, seu significado, codificado de
uma maneira acessvel para seres humanos apenas.
Ou seja, com a evoluo da Web Semntica vislumbra-se um caminho
oferta de contedo adequado, ou at mesmo: inteligente, na interao do usurio.
-
23
II.02 Interao com o usurio
uando pensamos em interagir com um usurio muitas questes
podem surgir: o que deve ser identificado, armazenado, filtrado e
atualizado? Devemos rastrear e deixar fixo esse rastreamento? Quantas vezes
devemos rastrear um usurio para obter um comportamento definido? O assunto
seria inesgotvel ou de abrangncia para outra dissertao. Esta se limita a abordar a
oferta de contedo adequado a partir de um interesse manifestado pelo usurio e por
isso s mencionamos o fato de que o usurio pode ter seu comportamento rastreado
e suas implicaes, sem esgotar esse assunto.
Aqui cabe, uma explicao a respeito de perfil de usurio. Os responsveis
por um site tm ferramentas de anlise de trfego (WebTrends, Google Analytics,
Urchin etc.), navegao, chegadas e sadas, sites referenciadores etc. Com essas
ferramentas podemos caracterizar alguns perfis de usurios, tais como classificao
esta, informal - utilizada na Web por empresas como Abril9 ou iG10: usurios fiis
(aqueles que visitam o site com muita frequncia, comentam, do sugestes, enviam
excees encontradas e acessam o site com dois ou mais navegadores principais para
verificar possveis inconsistncias so quase co-autores do site); leitores cativos (so
assinantes de feeds, comentam e participam do site mas sem o fanatismo dos usurios
fiis); usurios ocasionais (acessam o site de vez em quando, provenientes de algum
mecanismo de busca, como o Google por exemplo) e usurios espordicos ou pra-
quedistas (acessam o site por uma navegao aleatria, vindo de um mecanismo de
busca ou no, muitas vezes nem sabem por qu esto visitando o site alis, esse tipo
de navegao aleatria tem a ver com o termo: serendipismo, que a descoberta
por acidente).
9 Editora Abril S.A. a maior editora de revistas da Amrica Latina www.abril.com.br, publica revistas como Veja e Exame.
10 iG Internet Group Brasil um dos maiores provedores de acesso do Brasil www.ig.com.br.
Q
-
24
A definio do perfil do usurio, no deixa de ser um tipo de rastreamento do
usurio em si. Mas quando pensamos em disponibilizar um contedo adequado no
necessitamos, necessariamente, saber qual o perfil do usurio, conforme descrito
sumariamente acima. E ressaltamos que para esta dissertao o que desejamos
oferecer contedo adequado a partir de uma interao de um usurio, um mecanismo
de busca, por exemplo, e a sim oferecer o que ele deseja atravs de algum
mecanismo semntico ou inteligente. Mas se desejarmos registrar o perfil do usurio,
para que em visitas futuras j haja um prvio direcionamento ao mesmo, precisamos
saber de coisas, tais como: esse usurio em meu site supostamente um site com
contedo diversificado, d preferncias a quais tipos de canais de contedo (esportes,
economia, sade, finanas etc.). Dentro de cada canal, por exemplo: esportes, quais
as categorias que ele d preferncia: futebol, automobilismo, boxe, dentre outros.
Dentro da categoria futebol, por exemplo, esse usurio prefere Campeonato
Brasileiro, Italiano ou Espanhol? So inmeras as possibilidades, o que precisamos
definir o que deve ser registrado e a armazenar em um banco de dados associado
autenticao do usurio, seu e-mail, por exemplo, para que em suas prximas visitas
ele j possa ser direcionado as suas preferncias principais com o uso da Web
Semntica, mas esse tipo de abordagem, prvio redirecionamento, foge aos objetivos
desta dissertao.
-
25
II.03 A utilizao da Web Semntica
egundo Tim Berners-Lee11, a Web Semntica uma extenso da Web
tradicional, onde, a partir do uso intensivo de metadados, espera-se obter
o acesso automatizado s informaes, com base no processamento semntico de
dados e heursticas feitos por mquinas.
Para tal, desde 1998, a equipe do W3C (World Wide Web Consortium) vem
trabalhando arduamente no desenvolvimento de tecnologias avanadas, que visam
representao estrutural e semntica dos recursos na Web. Essas tecnologias, aliadas
teoria de domnios ou ontologias, permitem oferecer um servio Web com um
nvel maior de qualidade.
Dentro destas perspectivas, a Web ser capaz de tecer uma rede extensa de
conhecimento humano, podendo ainda, por meio do processamento via mquina,
inferir novos conhecimentos.
As tecnologias acima mencionadas englobam desde linguagens de transporte
de dados, como o XML (Extensible Markup Language), linguagens para
representao da estrutura desses dados, tais como o RDF (Resource Description
Framework) e linguagens para representao da semntica desses dados explicitando
restries sobre a semntica do mundo real. Aliadas a essa gama de linguagens, h
tambm as ferramentas para manipulao das ontologias.
O filsofo francs Pierre Lvy12 define a Web Semntica como "ferramenta"
necessria para o desenvolvimento da inteligncia coletiva. Segundo ele, a semntica
da Web a elaborao de um sistema de cdigos. No necessrio que as pessoas
utilizem uma nova lngua - cada um utilizar sua prpria, mas haver um software
que traduzir o que est sendo escrito ou dito para uma lngua universal.
11 Tim Berners-Lee considerado o criador da Internet. Seu perfil encontra-se em: http://www.w3.org/People/Berners-Lee/.
12 Pierre Lvy professor da cadeira de Pesquisas sobre Inteligncia Coletiva da Universidade de Ottawa (Canad).
S
-
26
Segundo Breitman, o HTML uma linguagem que se tornou muito
interessante para os usurios, mas os links s tm sentido em seu contexto. Para as
"mquinas", no possvel traduzir a informao, pois a orientao do HTML para
apresentao. Por isso, a importncia dos metadados, relacionando os recursos
semanticamente e tendo os contedos descritos de forma clara (enquanto o HTML
trabalha com palavras-chave, o XML trabalha com metadados).
Para alguns, a Web Semntica a Web do futuro. As pesquisas atuais esto
buscando tecnologias para tornar mais eficazes as localizaes das informaes na
Web. As ontologias, com suas subsequentes classificaes, surgem para atender a
essa necessidade.
-
27
II.03.01 Web Semntica versus Inteligncia Artificial
Segundo Karin Breitman, a Web Semntica no Inteligncia Artificial (IA).
E segundo Antoniou e Harmelen:
Se o objetivo da Inteligncia Artificial construir um agente de
software que mostre inteligncia no nvel humano (e superior), o
objetivo da Web Semntica auxiliar humanos a realizarem suas tarefas
dirias na rede.
A inteno de termos documentos compreensveis por mquinas no implica
numa inteligncia artificial que far com que os computadores passem a entender o
que os seres humanos falam. Com a Web Semntica os computadores podero
resolver problemas muito bem definidos atravs do processamento de operaes ou
instrues que utilizaro dados. No solicitaremos aos computadores que passem a
compreender a linguagem das pessoas, mas sero as pessoas que passaro a ter um
trabalho a mais de classificar as informaes em representaes que possibilitaro
processamento automtico tais representaes poderiam ser os metadados e as
ontologias, por exemplo.
Segundo Karin Breitman, a maioria das tcnicas necessrias para a construo
da Web Semntica vem da rea da Inteligncia Artificial. Dada a histria de
insucessos da IA, uma preocupao seria se a Web Semntica no estaria no mesmo
caminho. Segundo Antoniou e Harmelen, essa preocupao totalmente infundada.
A realizao da Web Semntica no depende de inteligncia superior ou algo no nvel
da inteligncia humana, que era a promessa dos pesquisadores de Inteligncia
Artificial h vinte anos.
No caso da Web Semntica, solues parciais sero satisfatrias. Pode ser que
um agente de software no chegue nem perto das concluses a que um ser humano
chegaria, mas ainda assim este agente pode auxiliar para uma Internet muito superior
que temos hoje em dia. Aqui cabe uma explicao sobre agentes. Eles so
definidos, segundo Breitman, como programas de software autnomos que agem em
benefcio de seus usurios. Um agente pessoal na Web Semntica, segundo Grigoris
Antoniou e Frank Harmelen, vai receber algumas tarefas e preferncias de um
usurio, procurar informao nos recursos disponibilizados pela Internet, se
-
28
comunicar com outros agentes e comparar informaes relativas s tarefas que deve
desempenhar, de modo a fornecer respostas adequadas ao usurio.
A Web Semntica no exigir uma Web separada, ela uma extenso (termo,
inclusive, utilizado por Tim Berners-Lee) da Web atual (denominada de Web
Sinttica). Na Web Semntica a informao vai ter significado bem definido atravs
de linguagens de marcao semntica. Essas linguagens e ontologias sero
acrescentadas s pginas atuais, atravs de marcaes especficas ou atravs de
arquivos separados em que as respectivas pginas faro links para acrescentar o
devido contedo semntico.
Segundo Breitman, a Web Semntica no exigir a utilizao de expresses
complexas, pois apesar de a linguagem-padro recomendada para a Web Semntica
(aqui Breitman, refere-se OWL Ontology Web Language, que ser explanado mais
adiante) permitir a expresso de sentenas muito complexas, isto , sentenas que
utilizam conectivos lgicos, disjuno, inverso e axiomas, entre outros, no ser
exigido que todas as aplicaes utilizem a marcao semntica em todo o seu
potencial.
E por fim, a Web Semntica no uma reprise de um experimento falido.
Pois outra questo que poderia ser feita : no havia sido tentado tudo isso,
anteriormente, com sistemas de representao de conhecimento, nos projetos do
KIF (Knowledge Interchange Format) e Cyc (reduo de EnCYClopaedia, ou
enciclopdia)? Segundo Hendler, a resposta de certa forma, sim, mas havia outros
objetivos. A viso da comunidade de Representao do Conhecimento est mais
ligada criao de modelos cannicos que poderiam ser globalmente utilizados,
enquanto a Web Semntica tem um foco em ontologias menores, tambm chamadas
de ontologias de domnio13 e no processo de integrao dessas ontologias.
13 Ontologias de domnio descrevem o vocabulrio relativo a um domnio especfico atravs da especializao de conceitos presentes na ontologia de alto nvel que descreve conceitos muito genricos, tais como: espao, tempo e eventos.
-
29
No entanto e segundo Breitman, a experincia adquirida pelo projeto Cyc na
rea de representao de conhecimento, que forneceria uma ontologia de referncia
inestimvel, no pode ser ignorada na construo da Web Semntica.
O gerenciamento de conhecimento engloba as tarefas de aquisio,
disponibilizao e manuteno de bases de dados. Na medida em que os sistemas de
informao adquirem maturidade surge uma nova atividade, gerncia de
conhecimento, necessria para dar suporte utilizao da grande massa de dados
gerada com a informatizao das empresas. Atualmente muitos dos processos e
regras de negcios de uma empresa podem estar em cdigo, muitas vezes legado.
Grande parte dessa informao est disponvel de maneira fraca ou indevidamente
estruturada. Do ponto de vista de gerncia de conhecimento, as maiores limitaes,
segundo Breitman, so:
Busca de informao a maior parte das empresas utiliza indexao por palavras-chave para conduzir buscas a suas bases de dados.
Extrao de dados muito tempo perdido em tarefas ligadas extrao, filtragem e converso de informao para diferentes
formatos.
Manuteno problemas relativos a inconsistncias de modelos conceituais e vocabulrio fazem com que seja difcil identificar e
eliminar dados obsoletos.
Minerao de dados muitas empresas tm recorrido a tcnicas ligadas minerao (data mining) de grandes bases de dados como
forma de descobrir novas informaes. No entanto, essas tcnicas so
difceis de serem aplicadas quando as informaes esto espalhadas
em vrios aplicativos distribudos e pouco ou indevidamente
estruturados.
A Web Semntica visa permitir sistemas de gerncia de conhecimento muito
mais avanados. Com a utilizao de tecnologias, tais como: RDF, OIL, OWL e
lgicas de descrio, espera-se poder chegar a um nvel de integrao e troca de
dados muito superior ao que se tem atualmente.
Ou seja:
-
30
Conhecimento poder ser organizado em espaos conceituais, de acordo com o seu significado. Essa organizao ser assistida por
mquinas que sero capazes de fazer a seleo e a filtragem da
informao. Ontologias sero cruciais para essa tarefa.
Ferramentas automatizadas sero responsveis pela verificao de consistncia e minerao de novas informaes.
Mecanismos de busca baseados em palavras-chave sero substitudos por queries14 sofisticadas. A informao requisitada poder ser
recuperada, extrada e apresentada de maneira amigvel.
Atualmente, h uma quantidade gigantesca de informaes na Internet e os
nmeros no param de crescer. Quando fazemos uma pesquisa sobre um
determinado assunto atravs de um buscador, como o Google por exemplo, muita
informao intil ou que no de interesse ao usurio poder ser listada. Para
melhorar essa situao, faz-se necessrio indexar de forma adequada os recursos na
Internet, ou seja, precisamos acrescentar elementos que nos indiquem, por exemplo,
que tipo de informao fornecido em um site, necessitamos de metadados - que o
assunto do nosso prximo tpico.
14 Query o termo em ingls para consulta, seu plural queries. Uma query pode usar uma tcnica especfica ou conjunto de instrues para obter o que se deseja.
-
31
II.03.02 Metadados
A International Federation of Library Associations (IFLA) define metadados
da seguinte forma: Metadados so dados sobre dados. O termo se refere a qualquer
informao utilizada para a identificao, descrio e localizao de recursos.
O consrcio W3 (W3C World Web Consortium www.w3.org) tem uma
viso mais voltada para a Web Semntica. Metadados so definidos como
informaes para a Web que podem ser compreendidas por mquinas.
Quando se trata do mundo digital, chama-se de recurso o objeto descrito por
metadados, pois este pode ser tanto um simples dado, quanto um documento, uma
pgina da Web, ou at mesmo uma pessoa, uma coleo, um sistema, um
equipamento ou uma organizao. Na Web, o conceito recurso significa qualquer
objeto que pode ser alcanado atravs de uma URI (Uniform Resource Identifier -
www.w3.org/Addressing), como qualquer recurso que acessado via seu endereo
eletrnico. Isso inclui documentos, pginas pessoais, sites ou sistemas. A descrio de
uma pessoa ou organizao feita atravs da descrio da pgina dessa pessoa ou
organizao.
Metadados descrevem os recursos da Web com a finalidade de facilitar a sua
descoberta, localizao e utilizao. Motores ou mecanismos de busca (em ingls:
Search engines), ao utilizarem esses metadados, proporcionam consultas bem mais
precisas, envolvendo no somente palavras, mas propriedades descritas, como o
autor do recurso, o formato do recurso, a data do recurso etc.
No mundo digital, metadados no se restringem queles usados para
descrever recursos para permitir sua descoberta e localizao. Por exemplo,
metadados tambm descrevem os formatos dos recursos, a fim de permitir que
computadores identifiquem quais aplicativos podem ser usados para manipular esses
recursos. Aplicativos, ao analisarem metadados, verificam se o formato do recurso
compatvel, as condies de uso do recurso, restries de acesso etc.
Em computadores, metadados servem de representantes de um recurso e
para caracterizar o trabalho original, para que usurios entendam seu significado,
propsito, origem e condies de uso. Metadados so vistos como dados que
descrevem propriedades de um recurso para diversos propsitos, como o contexto
-
32
em que o recurso se insere, sua qualidade, suas condies de uso, sua identificao,
suas estratgias de preservao etc. Essa diversidade de tipos de metadados d
suporte realizao de inmeras funes, como funes de descoberta do recurso,
de localizao do recurso, de avaliao do recurso, de uso do recurso etc.
Embora o conceito seja aparentemente novo, bibliotecrios esto h sculos
produzindo e padronizando metadados, medida que extraem de documentos (que
seriam os dados) informaes de indexao e catalogao (que seriam os metadados),
para oferecer aos usurios caminhos, para que estes possam buscar os documentos
de que necessitarem. Na Biblioteconomia, o padro MARC (MAchine-Readable
Cataloging com mais detalhes no site da Biblioteca do Congresso Americano em:
www.loc.gov/marc) um exemplo de esquema de metadados. Estes metadados
indicam propriedades do documento, como seu autor, sua data de publicao, seu
ttulo, seu assunto etc. e tm como finalidade permitir a descoberta e a localizao
desses documentos.
Os metadados podem estar inseridos nos prprios documentos que
descrevem. Em pginas HTML possvel inserir metadados atravs de marcaes
(chamadas de meta tags), que no so visveis quando a pgina exibida pelo
navegador. Esses metadados podem ser lidos por motores de busca ou por
aplicativos que os utilizem.
Os metadados tambm podem ser armazenados em repositrios. Nesses
repositrios, os metadados so produzidos atravs de anotadores, que so sistemas
que guiam usurios na descrio dos recursos. Esse tipo de soluo tem sido utilizada
em organizaes para permitir que estas descrevam seus recursos.
Essas organizaes consideram como recursos, pginas da Web que
identificam seus departamentos, seus especialistas, seus sistemas informatizados
disponibilizados, bibliotecas digitais, repositrios de documentos digitais etc.
Atravs desses metadados, essas organizaes possuem um maior
entendimento de suas prprias potencialidades.
Um exemplo de metadado popularmente muito utilizado a tag ID3 (tambm
chamada de ID3 Tag) que um conjunto de informaes muito utilizado no formato
de udio MP3. Esse conjunto de informaes que compe a ID3 permite armazenar
-
33
informaes como o ttulo, artista, lbum, nmero da faixa ou outra informao
sobre o arquivo no prprio arquivo.
A primeira verso da ID3 foi criada em 1996 para atender a necessidade de
armazenar mais informaes no arquivo e no apenas deix-las no nome do prprio
arquivo com extenso mp3. Desse modo, teve-se a ideia de adicionar alguns dados
no fim do arquivo e logo tornou-se o padro de metadados dos arquivos com
extenso mp3.
Para atender a determinados objetivos, a uma comunidade ou a um assunto
em especfico diversos padres de metadados foram criados. A seguir, veremos os
principais padres voltados Web Semntica.
-
34
II.03.02.01 Padro Dublin Core
Os usurios desse padro se organizaram em uma iniciativa, o Dublin Core
Metadata Initiative (DCMI www.dublincore.org). Essa organizao dedica-se
adoo de padres de metadados e ao desenvolvimento de vocabulrios
especializados para a descrio de recursos, de modo a viabilizar sistemas mais
inteligentes de recuperao de informaes.
Os elementos que compem o padro Dublin Core esto listados a seguir
(http://www.dublincore.org/documents/dcmi-terms/):
-Assunto (subject) O tpico abordado pelo recurso.
-Ttulo (title) Nome dado ao recurso.
-Criador (creator) Pessoa responsvel, podendo ser mais do que uma,
pelo contedo intelectual do recurso.
-Descrio (description) Descrio do contedo do recurso.
-Editor (publisher) Entidade responsvel por tornar o contedo
disponvel.
-Outro agente (contributor) Entidade responsvel por contribuies ao recurso.
-Data (date) Data da publicao. O padro sugerido o W3CDTF
(http://www.w3.org/TR/NOTE-datetime).
-Tipo (type) Natureza do recurso. Padro sugerido: DCMITYPE
(http://dublincore.org/documents/dcmi-type-
vocabulary).
-Formato (format) O formato do arquivo. Exemplo: PDF, TXT etc.
-Identificador (identifier) Identificao nica do recurso. Exemplo: nmero.
-Relacionamento (relation) Relacionamento com outros recursos.
-Fonte (source) O recurso do qual este derivado, se aplicvel.
-Linguagem (language) Linguagem do recurso.
-Cobertura (coverage) Abrangncia espacial ou temporal do recurso.
-
35
-Direitos (rights) Informao sobre os direitos pertinentes ao recurso.
Segundo Breitman, o padro Dublin Core um padro bastante simples,
como pode ser observado a partir do grupo bsico de elementos que o compem.
Sua simplicidade um ponto forte, pois permite a disseminao e a utilizao em
larga escala, e , ao mesmo tempo, sua maior fraqueza, pois no acomoda uma
semntica mais expressiva. um padro que fez opo pela facilidade sobre o poder
de expresso.
Atualmente o Dublin Core um padro ANSI para metadados (ANSI/NISO
Z39.85) e norma ISO (ISO Standard I5836-2003).
Veremos no tpico a seguir um padro aberto, o RDF, com grande
capacidade de expresso e que o padro mais compatvel com o dinamismo da Web
atual.
-
36
II.03.02.02 Resource Description Framework - RDF
Em 1995, um ano aps a realizao da conferncia que deu origem ao padro
Dublin Core, realizou-se um outro evento onde foi proposto um novo padro para
metadados, o Framework de Warwick - que utiliza os descritores bsicos do Dublin
Core, sendo adicionados novos elementos. Ele composto por vrios pacotes, onde
cada um deles pode utilizar uma sintaxe diferente. Apesar de aumentar a flexibilidade
do modelo Dublin Core, no garante que dois pacotes podero trocar dados entre si
e nada no Framework de Warwick garante que dois conjuntos de metadados possam
estar utilizando um conceito com significados diferentes ou dois conceitos com um
mesmo significado. De modo a tratar essas dificuldades, um novo padro surgiu, o
RDF Resource Description Framework.
O RDF uma linguagem declarativa que fornece uma maneira padronizada
de utilizar o XML para representar metadados no formato de sentenas sobre
propriedades e relacionamentos entre itens na Web. Esses itens, denominados de
recursos, podem ser virtualmente quaisquer objetos (texto, imagem, vdeo e outros),
basta que possuam um endereo na Web.
O RDF recebeu grande influncia da comunidade de bibliotecas digitais. O
RDF pode ser entendido como uma implementao do Framework de Warwick sem
um dos problemas identificados no Framework de Warwick: atravs da utilizao da
marcao de namespace propiciada pelo XML, a questo da superposio semntica
resolvida.
Um dos objetivos do RDF tornar a semntica de recursos da Web acessvel
a mquinas. Apesar de a informao na Web poder ser lida automaticamente, sua
semntica no definida. O RDF vai acrescentar metainformao a esses recursos,
de modo, a possibilitar s mquinas lidarem com eles de modo inteligente.
Descries RDF foram projetadas para fornecer informaes aos computadores e
no aparecerem na tela.
O modelo RDF bsico destaca-se pela simplicidade com que busca estruturar
o contedo de uma pgina Web. Eles so construdos com a utilizao de recursos e
propriedades, descritos a seguir:
-
37
Recursos: representam o universo de objetos que podem ser descritos pelo modelo RDF. Uma pgina inteira da Web ou uma parte dela; uma coleo de
pginas; ou um objeto que no diretamente acessvel via Web, por exemplo, um
livro impresso. Para cada recurso associado um identificador nico (URI) de forma
a poder identific-lo posteriormente.
Propriedades: representam os aspectos do recurso a serem descritos. Propriedades podem ser visualizadas como atributos (caractersticas) de
recursos. Tambm so utilizadas para descrever relacionamentos entre recursos.
Neste sentido, o modelo de dados RDF assemelha-se ao modelo Entidade-
Relacionamento. Cada propriedade tem um significado especfico, definem seus
valores permitidos, os tipos de recursos que podem descrever, e seus
relacionamentos com outras propriedades.
Vejamos como ficaria, a partir de um exemplo de um site de contedo, o
RDF correspondente. A tabela a seguir ilustra uma parte de um contedo HTML de
um site de contedo, por exemplo: www.ig.com.br, dentro do canal de Esportes e da
categoria Futebol, os campees brasileiros dos anos de 2005 e 2006:
Categoria Campeonato Ano Campeo
Futebol Brasileiro 2005 Corinthians
Futebol Brasileiro 2006 So Paulo
Um possvel arquivo RDF correspondente o seguinte:
-
38
Futebol
Brasileiro
Corinthians
Futebol
Brasileiro
So Paulo
Explicando o arquivo RDF acima, temos:
-
39
A primeira linha do arquivo declarativa, ela diz qual a verso do XML est
sendo utilizada, no caso trata-se da verso 1.0.
O elemento rdf:RDF o elemento raiz (e no caso tem o terminador
/rdf:RDF). Neste caso, ele indica que o contedo RDF.
O elemento xmlns:rdf indica o namespace do prprio RDF, ou seja, ele indica
que todos os elementos ou atributos que comearem com o prefixo rdf: estaro
localizados dentro de um nico arquivo, que contm a especificao do vocabulrio
de RDF.
Tambm podemos ter vocabulrios criados pelos autores do arquivo RDF
em questo. No exemplo acima, foi apontado para
http://www.pucsp.br/~demi/vocabulario/esporte/#. Neste local estaro descritos
os termos utilizados: ano, campeao, campeonato e categoria. O namespace deste local
o xmlns:esp e que identificar as etiquetas do tipo esp:.
O elemento rdf:Description (e seu terminador /rdf:Description) contm a
descrio do recurso identificado atravs do atributo rdf:about.
O elemento esp:ano descreve uma propriedade do recurso. O mesmo
acontece para os elementos esp:categoria, esp:campeonato e esp:campeao.
recomendvel que o nome do arquivo RDF seja o mesmo do recurso que
est sendo descrito com o sufixo .rdf. Por exemplo: se a pgina for: br_camp.aspx, o
arquivo RDF correspondente ser: br_camp.aspx.rdf.
Para ligar ou efetuar o link entre o recurso HTML (que expe o contedo ao
usurio, sendo que no caso trata-se de um arquivo asp.net com extenso aspx) e sua
respectiva descrio RDF, devemos adicionar a tag dentro da seo da tag
da pgina. Por exemplo: .
Como vemos, o RDF simples, intuitivo, prtico e extensvel.
-
40
II.03.02.03 Crticas aos Metadados
Vimos a criao de uma estrutura projetada para que sejam fornecidas
informaes s mquinas e que no necessariamente aparecero na tela do
computador de um usurio ou internauta. Mas essa a soluo mais adequada?
Segundo Cory Doctorow15 no site: http://www.well.com/~doctorow/metacrap.htm
temos muitos problemas a serem enfrentados:
-As pessoas mentem. Estamos num mundo competitivo e as pessoas querem
aparecer ou vender, por isso, no h garantias de que as classificaes sero honestas,
politicamente corretas ou algo que valha.
-As pessoas so preguiosas. O modelo baseado em metadados supe que os
usurios ou responsveis pelas pginas iro classificar, indexar ou fornecer as
informaes necessrias. Como podemos supor isso se muitos e-mails no tm o
assunto a que se referem discriminado e muitas pginas Web no possuem sequer um
ttulo descritivo adequado.
-As pessoas so disciplicentes. A falta de cuidado e interesse das pessoas em
fazer de forma correta a criao e manuteno de metadados. Doctorow cita como
exemplo o site de leilo e-Bay (www.ebay.com), um site em que seus utilizadores
teriam interesse em classificar corretamente os produtos que colocam venda mas,
que apresenta um grande nmero de produtos cadastrados erroneamente. Ele sugere
15 Cory Doctorow um jornalista canadense, atua como professor visitante na Universidade de Southern na Califrnia. Mais informaes em: http://en.wikipedia.org/wiki/Cory_Doctorow#Biography.
-
41
uma busca por plam pilot em vez de palm pilot onde se verificar que podem
aparecer resultados cadastrados de forma incorreta.
-Misso impossvel: conhea a si mesmo. Como diz Doctorow, seria uma
metautopia supor que as pessoas se conhecem adequadamente e que sabero
descrever seus metadados e domnios de forma adequada. A experincia prtica diz
que as pessoas no conseguem observar seus prprios comportamentos de forma
adequada. Isso pode ser comprovado com experincias, tais como: pergunte a um
programador quanto tempo ele levar para codificar uma determinada rotina ou
pergunte a um empreiteiro quanto tempo ser necessrio para construir alguma coisa.
-Falta de neutralidade nos modelos. A forma de organizar as categorias dos
metadados j demonstra uma tendncia dos usurios. Nenhum modelo realmente
isento de influncias. O processo de descrio de metadados no exceo. Espera-
se que a decomposio do domnio e sua categorizao sejam influenciadas pelos
interesses de quem est fazendo a modelagem. Doctorow cita o exemplo de um
fabricante de mquinas de lavar. Se ele for consciente de questes relativas ao meio
ambiente ou se a vantagem competitiva oferecida por seu produto for o baixo
consumo de energia de se esperar uma decomposio do seguinte tipo:
Consumo de energia:
Consumo de gua limpa:
Tamanho:
Capacidade:
Confiabilidade:
Enquanto que se o fabricante tiver o design como diferencial, poderamos
esperar uma decomposio assim:
Cor:
Tamanho:
-
42
Programabilidade:
Confiabilidade:
Ou seja, cada um procuraria enfatizar o que tem de destaque ou o item que
apresentaria melhores resultados.
-Mtricas influenciam resultados. Evidentemente que a escolha das mtricas a
serem utilizadas na caracterizao da informao fornecida vai sofrer a influncia de
quem est escolhendo o conjunto de mtricas que ser utilizado. Da mesma forma
que no item anterior, pode-se dar preferncia a aspectos que sabidamente vo ter
uma pontuao maior do que a de seus concorrentes, em detrimento de itens que
podem no ser to interessantes sob o ponto de vista da concorrncia. Exemplo
disso, so softwares que apresentam boas caractersticas em termos de segurana,
mas so ruins em termos de convenincia
-Existe mais de uma maneira de descrever alguma coisa. No, eu no estou
assistindo desenhos animados! antropologia cultural. Pessoas razoveis podem
discordar para sempre em como descrever uma determinada coisa. Solicitar para que
todos usem o mesmo vocabulrio para descrever seus recursos, foraria a uma
homogeneidade de ideias.
E qual a soluo? Jogar tudo fora? Os americanos tm uma expresso
idiomtica que adverte os usurios, quando no esto satisfeitos com algo, para no
jogar fora o beb junto com a gua do banho. Na essncia, o que esse ditado quer
dizer que mesmo com uma srie de restries que podemos fazer ao assunto, no
caso os metadados, ainda existem muitas coisas vlidas (o beb), que no devem ser
jogadas fora.
Enfim, os metadados podem no ser a soluo de todos os problemas, mas
so muito teis e auxiliam na identificao, classificao ou indexao de pginas da
-
43
Web, melhorando o resultado de buscas e permitindo que uma parte do
processamento possa ser efetuado por computadores, em vez de seres humanos.
Devemos ressaltar que para obter resultados satisfatrios em uma pesquisa
precisamos, tambm, classificar as informaes de uma forma adequada e para isso,
apresentaremos no prximo captulo o conceito e a utilizao de ontologias para esse
fim.
-
44
II.03.03 Ontologias
Neste captulo sero expostas as caractersticas das ontologias.
Segundo Karin Breitman, temos a seguinte definio para ontologias:
Ontologias so especificaes formais e explcitas de
conceitualizaes compartilhadas. Ontologias so modelos conceituais
que capturam e explicitam o vocabulrio utilizado nas aplicaes
semnticas. Servem como base para garantir uma comunicao livre de
ambiguidades. Ontologias sero a lngua franca da Web Semntica.
O termo conceitualizao utilizado por Karin Breitman, acima exposto
aponta para um modelo abstrato de algum acontecimento que identifique conceitos
de importncia desse acontecimento. J a expresso explcita quer dizer que os
tipos de conceitos usados e as limitaes do uso desses conceitos devem ser de
forma explcita. Atravs dessa descrio possvel visualizar algumas caractersticas
importantes. Uma delas o fato de que uma ontologia deva ser explcita, as outras se
atribuem ao fato de que uma ontologia deva ser formal e descrever um
conhecimento comum a um grupo.
Uma segunda definio para o termo dada por Gmez e Corcho, eles
definem uma ontologia da seguinte forma: Uma ontologia um conjunto de termos
ordenados hierarquicamente para descrever um domnio que pode ser usado como
um esqueleto para uma base de conhecimentos. Diferentemente da primeira, essa
definio apresenta algumas informaes sobre a estruturao de uma ontologia.
Pois, segundo ela, uma ontologia deve possuir termos organizados com uma
hierarquia associada, o que chamado de taxonomia. Ainda nessa descrio
apresentada outra caracterstica importante, a qual consiste numa das principais
utilidades de uma ontologia que servir como um schema, ou seja, um marcador, para
um banco de conhecimentos, viso essa muito comum dentro da rea da gesto de
conhecimentos. Ainda nessa ltima definio de ontologia vale pena ressaltar que
essa definio mostra uma diferena importante sobre o que uma ontologia e o que
uma base de conhecimento. Como Guimares descreve, uma ontologia
disponibiliza um esqueleto bsico no qual se pode edificar uma base de
conhecimentos. Ela tambm prov um conjunto de conceitos e termos para
descrever certo domnio, enquanto a base de conhecimento usa essas expresses para
detalhar uma determinada realidade. Caso acontea de que essa realidade seja alterada
-
45
a base de conhecimento ser modificada, porm a ontologia ficar a mesma, desde
que o domnio fique inalterado.
Segundo o trabalho de Guimares, as principais vantagens para o uso de
ontologias so: primeiramente, o fato de que ontologias fornecem um vocabulrio
para a representao do conhecimento. Esse vocabulrio tem uma conceitualizao
que o sustenta, de forma a prevenir interpretaes diferentes dele. As ontologias
ainda permitem o compartilhamento de conhecimento, dessa forma caso haja uma
ontologia que molde adequadamente certo domnio de conhecimento, essa pode ser
compartilhada e usada por pessoas que criem aplicaes dentro desse domnio. Um
exemplo dessa caracterstica pode ser dado na seguinte situao: imaginemos a
existncia de uma ontologia para o domnio de barcos. Uma vez que essa esteja
disponvel, qualquer outro barco pode construir seus catlogos usando o vocabulrio
fornecido por essa ontologia sem que precisem refazer uma avaliao do domnio de
barcos. Diferentemente da linguagem natural, onde as palavras podem ter
significados diferentes conforme o seu contexto, as ontologias por serem escritas em
linguagem formal fornecem uma descrio exata do conhecimento. Um exemplo
disso quando algum fala a palavra globo, dependendo do estado mental da
pessoal que ouviu o termo, poder associ-lo com o significado da rede de televiso
Globo, como tambm possvel que para essa mesma pessoa a palavra tenha a
semntica de um corpo esfrico. Isso no aconteceria, ou pelo menos teria pequenas
chances de acontecer, se existisse uma conceitualizao comum entre as duas pessoas
que esto se comunicando. Por exemplo, imagine que as duas pessoas concordem em
usar uma ontologia sobre o domnio de formas geomtricas, provavelmente no
existiria mal entendido entre elas.
Vimos o que uma ontologia e quais so as suas principais vantagens. Com
esses tpicos j possvel ter-se uma ideia bsica das partes que compem uma
ontologia, porm vale a pela formalizar essa questo. Segundo Guimares, entre as
vrias definies sobre o que compe uma ontologia, a que mais se destaca dada
por Maedche devido ao seu alto grau de formalismo. Porm, a descrio feita por
Gmez tambm bastante completa. Isso fez com que Guimares mesclasse as
definies dos dois autores, e essa mistura que ser apresentada aqui.
Um conjunto de conceitos e uma hierarquia entre esses conceitos, ou seja,
uma taxonomia definida como um dos componentes principais que compem uma
-
46
ontologia. Aqui, os conceitos possuem a capacidade de ser abstratos, um exemplo
disso a fora; concretos, como por exemplo, um navio; elementares que
exemplificado por um eltron; ou compostos, como por exemplo, um tomo. Para
melhor se entender taxonomia pode-se pensar no conceito prton ser um
subconceito do conceito tomo.
Outra pea que tambm compe uma ontologia um conjunto de
relacionamento entre esses conceitos. Como exemplifica o fato de que entre o
conceito pessoa e o conceito carro a relao que h a de ser dono. Ainda h um
conjunto de funes, onde uma funo um caso especial de relacionamento em que
um conjunto de elementos tem uma relao nica com outro elemento. Um exemplo
de funo o fato de certo conceito ser pai biolgico de outro.
Por fim, contrrio ao conjunto de funes um conjunto de axiomas, onde
h regras que sempre so verdade. Exemplificar axioma fazer-se pensar que toda
pessoa tem uma me.
Ressaltamos a principal diferena entre taxonomia e ontologia que o fato de
que a taxonomia permite classificaes, mas elas tero uma estrutura hierrquica e
sua classificao rgida e no permite relacionamentos de causa-efeito ou de
dependncia entre as partes que a ontologia permite.
E para obtermos as especificaes formais, relacionadas definio de Karin
Breitman acima, ou, simplesmente, ontologias que desejarmos, precisamos de
linguagens apropriadas para isso o que ser apresentado no prximo captulo e
tambm precisamos conhecer quais so as principais ontologias e qual o processo de
criao de uma ontologia, caso desejemos obter uma especificao inexistente tudo
isso ser apresentado nos captulos subsequentes.
-
47
II.03.03.01 Linguagens para Representao de Ontologias
Neste captulo sero expostas as caractersticas das principais linguagens para
representao de ontologias.
Listando as principais linguagens para representao de ontologias, temos:
RDF (Resource Description Framework): esta linguagem tambm pode ser utilizada para metadados e foi explanada detalhadamente
em item anterior (II.03.02.02).
SHOE (Single HTML Ontology Extension): uma linguagem que se apresenta como uma extenso do HTML. Ela fornece tags particulares
que podem ser utilizadas para representar ontologias e que no fazem
parte das tags que so utilizadas no HTML e por isso no so
mostradas a partir dos browsers. Sua inteno armazenar
informaes a respeito do contedo das pginas, permitindo maior
eficincia aos mecanismos de busca. Podemos ter agentes que
utilizariam o SHOE para realizar buscas semnticas na rede.
Segundo Heflin, Hendler e Luke, a linguagem SHOE faz uma
distino entre o contedo das pginas asseres ou instncias e a
terminologia, informao acerca dos metadados. SHOE permite a
definio de conceitos, relacionamentos e atributos. Veja no Anexo
01 Exemplo de Arquivo utilizando SHOE um arquivo da
Universidade de Princeton que o utiliza. Nesse exemplo, observe a
utilizao de novos tags: INSTANCE KEY (instncia), CATEGORY
NAME (conceito) e RELATION NAME (funo que relaciona dois
conceitos propriedade). Essas tags so adicionadas ao contedo
HTML como se fosse um novo cabealho. Esse conjunto de tags com
o contedo HTML forma a pgina SHOE.
SHOE menos expressivo que o RDF e, principalmente, dificulta a
manuteno das pginas que a utilizem. Ela foi descontinuada, mas
mantida pela Universidade de Maryland, que a havia criado. Porm,
devido a sua praticidade e simplicidade uma boa opo para criar-se
uma ontologia e por isso foi exemplificada no Anexo 01.
-
48
Mais informaes e exemplos da utilizao de SHOE esto em:
http://www.cs.umd.edu/projects/plus/SHOE/.
OIL (Ontology Inference Layer) segundo Gmez-Prez OIL pode ser definida assim:
Uma linguagem baseada em frames (quadros) que utilizam
lgica de descrio para fornecer uma semntica clara, ao mesmo tempo
em que permitem implementaes eficientes de mecanismos de
inferncia que garantam a consistncia da linguagem.
Muito do trabalho relacionado linguagem OIL foi incorporado
OWL, que veremos adiante.
Mais informaes no quadro comparativo entre as linguagens DAML
e OIL, no Anexo 02 Tabela Comparativa entre as linguagens OIL
e DAML. Informaes detalhadas e exemplos relacionados OIL
podero ser encontrados no seguinte endereo:
http://www.ontoknowledge.org/oil/.
DAML + OIL. (DAML o acrnimo de: DARPA (Defense Advanced Research Projects Agency) Agent Markup Language):
Segundo Karin Breitman, temos:
DAML + OIL dividida em duas partes, domnio dos objetos,
que consiste nos objetos que so membros de classes definidas na
ontologia DAML, e domnio dos tipos de dados, que consiste nos
valores importados do modelo XML. A ideia por trs da separao
permitir a implementao de mecanismos de inferncia, j que realizar
inferncias sobre tipos concretos de dados no seria possvel. DAML
composta por elementos de classe, expresses de classe e propriedades.
Uma comparao entre as linguagens OIL e DAML encontra-se em:
Anexo 02 Tabela Comparativa entre as linguagens OIL e DAML.
Informaes detalhadas e exemplos podem ser encontrados em:
http://www.daml.org/.
-
49
OWL (Ontology Web Language) Lanada como uma reviso da DAML + OIL pelo W3C, foi
projetada para atender s necessidades das aplicaes para a Web
Semntica, tais como:
- Construo de ontologias
- Fornecer claramente fatos sobre um determinado domnio
- Racionalizar sobre ontologias e fatos
Os elementos bsicos da OWL so: namespaces, cabealhos, classes,
indivduos, propriedades e restries.
- Namespaces: so declaraes que se localizam entre etiquetas do
tipo rdf:RDF e permitem que os identificadores que estaro presentes na ontologia sejam interpretados sem ambiguidades.
- Cabealhos: sob a etiqueta owl:Ontology comum incluir uma
coleo de etiquetas sobre a prpria OWL. Elas so responsveis por
registrar comentrios, pelo controle de verso e pela incluso de
conceitos e propriedades de outras ontologias.
- Classes: so utilizadas para descrever os conceitos mais bsicos de
um domnio, que serviro como bases ou razes de vrias taxonomias.
O construtor fundamental de uma taxonomia rdfs:subClassOf, que
define a hierarquia de classes, atravs de relacionamentos de
generalizao (tipo-de). Por exemplo, temos a sentena: Um exame
de sangue um exame mdico. Em OWL classificamos os conceitos
Exame_Medico e Exame_De_Sangue como classes e estabelecemos
um relacionamento de generalizao entre eles utilizando a tag
rdfs:subClassOf, conforme exemplo a seguir:
Ressalte-se que esse comportamento transitivo. Isto , se existe uma
classe Hemograma que subclasse da classe Exame_De_Sangue e
-
50
esta, por sua vez, subclasse de Exame_Medico, temos que a classe
Hemograma subclasse de Exame_Medico.
- Indivduos: so objetos do mundo. Eles pertencem a classes e so
relacionados a outros indivduos e classes atravs de propriedades.
Eles so os membros das classes. Exemplo:
Propriedades: descrevem caractersticas em geral. Exemplo:
1000
Restries: so utilizadas para definir limites para indivduos que
pertencem a uma classe.
A linguagem OWL oferece trs sublinguagens projetadas para uso de
comunidades especficas de implementadores e usurios:
A OWL Lite d suporte aos usurios que necessitam, principalmente,
de uma hierarquia de classificao e simples caractersticas de
restrio. Por exemplo, enquanto a OWL Lite suporta restries de
cardinalidade, ela somente permite 0 (zero) ou 1 (um) como valores
de cardinalidade. Dessa forma, mais simples criar ferramentas que
suportam a OWL Lite do que seus custosos parentes, alm de
-
51
fornecer um rpido caminho de migrao para o tesauro16 e outras
taxonomias.
A OWL DL d suporte aqueles usurios que desejam o mximo de expressividade sem perder a completude computacional (todas as
concluses so garantidas de serem computadas) e a capacidade de
deciso (todas as computaes sero finalizadas em um tempo finito)
dos sistemas de raciocnio. A OWL DL inclui todos os construtores
da linguagem OWL com restries como separao entre tipos (uma
classe no pode ser ao mesmo tempo um indivduo ou tipo e uma
propriedade no pode ser ao mesmo tempo um indivduo ou uma
classe). OWL DL tem esse nome devido a sua correspondncia a
Lgica de Descrio, ou Description Logic, um campo de pesquisa que
tem estudado um fragmento de deciso particular de primeira ordem
lgica. OWL DL foi desenhada para suportar o que j existe no
segmento de descrio de lgica de negcios e tem propriedades
computacionais desejveis para sistemas de raciocnio.
A sublinguagem OWL Full feita aos usurios que desejam o
mximo de expressividade e a liberdade sinttica do RDF, sem
nenhuma garantia computacional. Por exemplo, na OWL Full uma
classe pode ser tratada simultaneamente como uma coleo de
indivduos ou, simplesmente, como um indivduo. Uma outra
diferena significante em relao OWL DL que um elemento
owl:DataTypeProperty pode ser marcado como um elemento
owl:InverseFunctionalProperty. A OWL Full permite uma ontologia
aumentar o significado de um vocabulrio pr-definido (RDF ou
16 Tesauro, tambm conhecido como dicionrio de ideias afins, uma lista de palavras com significados semelhantes, dentro de um domnio especfico de conhecimento.
-
52
OWL). improvvel que todo software de raciocnio venha a ser
capaz de suportar todas as caractersticas da OWL Full.
Cada uma dessas sublinguagens uma extenso de sua predecessora
mais simples, tanto no que pode ser legalmente expresso, quanto no
que pode ser concludo validamente.
A OWL pode ser entendida como um componente da atividade Web
Semntica. Esse esforo tenta fazer com que os recursos Web sejam
mais acessveis a processos automatizados, adicionando informaes
sobre os recursos que descrevem ou disponibilizam contedo Web.
Como a Web Semntica naturalmente distribuda, a OWL deve
permitir que as informaes sejam reunidas de diferentes fontes. Isto
feito, em parte, permitindo que ontologias sejam relacionadas,
incluindo informaes explcitas de importaes de outras ontologias.
Em adio, a OWL assume uma abordagem open world, ou seja,
descries de recursos no so confinadas a um nico escopo de
arquivo. Enquanto uma classe C1 pode ser definida dentro de uma
ontologia O1, ela pode se extendida em outras ontologias. As
consequncias dessas proposies adicionais sobre C1 so
monotnicas. Novas informaes no podem retratar informaes
anteriores. Novas informaes podem ser contraditrias, mas fatos e
concluses somente podem ser adicionados, nunca excludos. Trata-
se de um comportamento tpico de heranas de classes.
A possibilidade desse tipo de contradio uma coisa que o projetista
de uma ontologia deve considerar. esperado que o suporte dado
por ferramentas venha a ajudar a detectar esses casos.
Para se escrever uma ontologia que possa ser interpretada sem
ambiguidade e que possa ser devidamente utilizada por agentes de
software, precisamos de um sintaxe e uma semntica formal para a
-
53
OWL, sendo que a OWL uma extenso das Semnticas do RDF --
http://www.w3.org/TR/rdf-mt/ e a semntica da OWL definida
em OWL Web Ontology Language Semantics and Abstract Syntax:
http://www.w3.org/TR/2004/REC-owl-guide-
20040210/#FormalModel.
De qualquer forma, antes de usarmos um conjunto de termos,
necessitamos de uma indicao precisa sobre quais vocabulrios
especficos sero utilizados. Mais detalhes no tpico II.03.03 03
Criao de Ontologias.
Informaes detalhadas e exemplos sobre a linguagem OWL podem
ser encontrados em: http://www.w3.org/TR/owl-ref/.
Aps vermos as principais linguagens para representao de ontologias,
veremos a seguir as caractersticas das principais ontologias.
-
54
II.03.03.02 Principais Ontologias
Neste captulo sero expostas as caractersticas de algumas das principais
ontologias.
Segundo Karin Breitman temos diversas ontologias, dentre as principais
temos a SUMO (Suggested Upper Merged Ontology): o que traduzido, seria a
ontologia de topo incorporada sugerida, ou seja, trata-se de uma ontologia de topo
(base para outras ontologias) e uma iniciativa da comunidade de software livre
tendo como objetivo a construo de padro pblico, a ser disponibilizado
livremente com o uso da Internet. Como ontologia de topo, sua ideia conter um
nmero total de termos genricos, algo estimado entre 1.000 (um mil) e 3.000 (trs
mil). A partir desses termos genricos, podemos especializar para a criao de
ontologias de domnios especficos.
Citando outras ontologias de domnio, temos: GUM (Generalized Upper
Model), EDR (Eletronic Dictionary Research), WordNet (banco de dados lxico que
fornece os possveis significados de mais de 120.000 (cento e vinte mil) palavras em
lngua inglesa, organizados em conjuntos de sinnimos), ODP (Open Directory
Project), NAICS (North American Industry Classification System), GALEN
(desenvolvida pela organizao OpenGALEN, ela representa uma terminologia
clnica e foi desenvolvida para especificar restries utilizadas em domnios mdicos),
FOAF (Friend Of A Friend), Gartner (ndice de tpicos das pesquisas realizadas pelo
grupo Ga