anotacao semântica em documentos não estruturados

38
Anotação semântica em documentos não estruturados Celso Araujo Fontes Professoras: Maria Claudia R. Cavalcanti, D.Sc. e Ana Maria de Carvalho Moura, Dr. Ing 214202 – maio de 2010 temas de Banco de Dados, Profa. Maria Claudia Instituto Militar de Engenharia Curso de Mestrado em Sistemas e Computação

Upload: celso-fontes

Post on 18-Dec-2014

4.776 views

Category:

Education


6 download

DESCRIPTION

Trabalho apresentado na disciplina de Sistemas de Banco de Dados, Profa. Maria Claudia.

TRANSCRIPT

Page 1: Anotacao Semântica em Documentos Não Estruturados

Anotação semântica em documentos não estruturados

Celso Araujo FontesProfessoras: Maria Claudia R. Cavalcanti, D.Sc. e

Ana Maria de Carvalho Moura, Dr. Ing

SC 214202 – maio de 2010 Sistemas de Banco de Dados, Profa. Maria Claudia

Instituto Militar de EngenhariaCurso de Mestrado em Sistemas e Computação

Page 2: Anotacao Semântica em Documentos Não Estruturados

Introdução

Existem hoje bilhões de documentos na Web e ainda milhões de páginas em intranets, sendo acessados por 1,5 bilhões de usuários no mundo [1].

A maior parte destas informações é construída apenas para o consumo humano.

Vem à tona a necessidade do gerenciamento desse conteúdo, no que diz respeito à dificuldade na busca, organização, acesso e manutenção das informações.

Page 3: Anotacao Semântica em Documentos Não Estruturados

Problemas da Web Atual

Busca da Informação

Problema de “precisão” das atuais ferramentas de pesquisa

– Navegação através de links e uso de palavras chaves p/ busca

– Problemas p/ identificar, descrever e localizar recursos de forma mais eficiente [2]

Page 4: Anotacao Semântica em Documentos Não Estruturados

Problemas da Web Atual

A falta de meta dados na web inibe um processamento por máquina mais inteligente.

Page 5: Anotacao Semântica em Documentos Não Estruturados

Metadados

Metadados permitem descrever informações, auxiliando na identificação, localização e gerenciamento dos dados (BONIFACIO, 2002).

Page 6: Anotacao Semântica em Documentos Não Estruturados

Ontologias

Segundo Grubber (GRUBBER, 1992), uma ontologia é uma especificação explícita de uma conceituação. A conceituação é uma abstração simplificada do domínio em que desejamos representar para algum propósito.

No campo da Filosofia, as ontologias têm sido utilizadas para tentar descrever domínios naturais (as coisas naturais do mundo) e a existência dos seres e coisas em si, desvendando, desta forma, o significado das coisas no mundo (LIMA e SCHWABE, 2004).

Page 7: Anotacao Semântica em Documentos Não Estruturados

Web Semântica

A web semântica é “uma extensão da web atual, em que a informação é dada com um significado bem definido, permitindo que computadores e pessoas trabalhem em cooperação”. [Bernes-Lee, 2001]

Page 8: Anotacao Semântica em Documentos Não Estruturados

Web Semântica e Ontologias

Evolução natural de esforços anteriores– Metadados na Web– Padrões de Metadados– Arquiteturas de Metadados– RDF e RDFS foram os precursores das ontologias na Web– Rápida evolução das demais iniciativas

DAML OIL DAML+OIL OWL OWL2

Page 9: Anotacao Semântica em Documentos Não Estruturados

Web Semântica – Representação do Conhecimento

RDF RDFS OWL OWL2

Page 10: Anotacao Semântica em Documentos Não Estruturados

O que significa chamar uma tecnologia de “semântica” ?

Pretende:– Representar conhecimento– Compartilhar um entendimento comum em relação ao

significado– Ser apropriada para a ligação de recursos sob diferentes

esquemas de representação– Estabelecer associações entre os itens que não estão

explicitas– Apoiar inferência sobre o conhecimento para gerar mais

conhecimento

Page 11: Anotacao Semântica em Documentos Não Estruturados

Problema

Dados estruturados para interpretação por máquina normalmente são distribuídos num formato distinto e separado do conteúdo original e a correspondência entre eles é bastante limitada (ADIDA et al., 2008).

RDF, OWL e outros formatos XML são complexos para interpretação da maioria das pessoas

Page 12: Anotacao Semântica em Documentos Não Estruturados

Solução

Visando incorporar metadados ricos a um documento e manter o seu conteúdo visual legível ao ser humano, foram propostos padrões de anotação semântica.– Objetivo: utilizar um conjunto de descritores,

relacionados a um vocabulário, para “anotar” informações de um documento da internet, expressando o significado do conteúdo neles descritos.

Page 13: Anotacao Semântica em Documentos Não Estruturados

Anotação Semântica

“Esquema específico para geração e uso de metadados, possibilitando novos métodos de acesso a informação” [Popov et al., 2003].

“A anotação semântica de um documento descreve o seu conteúdo pela associação a conceitos e instâncias descritos na ontologia” [Eller, 2008].

Page 14: Anotacao Semântica em Documentos Não Estruturados

Na figura abaixo, podem ser observadas as anotações semânticas referentes a um texto simples. As entidades presentes no texto são associadas à sua definição semântica:

Exemplo de marcação semântica. Fonte: [7] com adaptações

Anotação Semântica

Page 15: Anotacao Semântica em Documentos Não Estruturados

Características Relacionadas para Análise dos Padrões de Anotação Semântica

Uso de vocabulários customizados DRY Compatibilidade com HTML Compatibilidade com XHTML Utilização somente de atributos nativos do HTML e XHTML Suporte ao Blank Node Utilização de namespaces Suporte a Literal simples Suporte a Literal XML Suporte à Literal tipada Suporte a CURIE Referência a nodos não descendentes

Page 16: Anotacao Semântica em Documentos Não Estruturados

Microformat

É um conjunto limitado de especificações utilizado para descrever informações em documentos web. [PEREIRA, 2009]

Suas especificações ou vocabulários se dividem em duas categorias:

– Padrões aceitos: validados pela comunidade e utilizados conforme descrito nas especificações;

– Propostas emergentes: projetos que se encontram em processo de desenvolvimento, estando suas especificações sujeitam a alterações até sua aceitação final (RAMOS et al., 2009).

Page 17: Anotacao Semântica em Documentos Não Estruturados

Microformat (Exemplo)

<div class="vcard">

<span class="given-name">Celso Fontes</span>trabalha no

<span class="org">Detran RJ</span>

</div>

_vcard

“Celso Fontes”

“Detran RJ”

given-name

org

Page 18: Anotacao Semântica em Documentos Não Estruturados

Microformat

Vantagens– Simplicidade– Popularidade (Twitter, Facebook, Flickr...) – Utiliza atributos nativos do HTML

Desvantagens– Restrito a um pequeno número de vocabulários– Não suporta o HTML5 100%

Page 19: Anotacao Semântica em Documentos Não Estruturados

eRDF (Embedded RDF)

Baseado em alguns princípios do Microformat, porém permite a anotação a utilização vocabulários arbitrários em suas anotações semânticas [Nowack, 2005]

Page 20: Anotacao Semântica em Documentos Não Estruturados

eRDF (Exemplo)

<link rel="schema.foaf" href="http://xmlns.com/foaf/0.1/" />

<p id="celso" class="-foaf-Person">

<span class="foaf-name">Celso Araujo</span> estuda

anotações

</p>

#celso

“Celso Araujo”

foaf-name

foaf:Personrdf:type

Page 21: Anotacao Semântica em Documentos Não Estruturados

eRDF

Vantagens– Permite a utilização de vocabulários arbitrários

Desvantagens– Não possui suporte explícito a recursos anônimos

(Blank Nodes)– Não possui suporte a literal XML e Tipada

Page 22: Anotacao Semântica em Documentos Não Estruturados

RDFa (Resource Description Framework – in – attributes)

Recomendação da W3C para anotação semântica em documentos XHMTL 1.1 [W3C, 2008].

Definido como “A collection of attributes and processing rules for extending XHTML to support RDF”

Page 23: Anotacao Semântica em Documentos Não Estruturados

RDFa

<div typeof="foaf:Person" xmlns:foaf="http://xmlns.com/foaf/0.1/">

Informações sobre

<span property="foaf:name">Celso</span>

<div />

_blanknode1

“Celso Araujo”

foaf:Personrdf:typeOf

foaf:name

Page 24: Anotacao Semântica em Documentos Não Estruturados

RDFa

Vantagens– Blank Nodes– CURIEs– Suporte a literal XML e Tipada

Desvantagens– Adição de novos elementos ao XHMTL (about,

property, resource, datatype, typeof)– Suporte apenas ao XHTML 1.1 (suporte ao HTML

encontra-se em fase de rascunho)

Page 25: Anotacao Semântica em Documentos Não Estruturados

Microdata

Padrão da W3C para anotação semântica em documentos HTML5 [W3C, 2008].

Esta especificação é resultado das investigações de Ian Hickson sobre os problemas que o RDFa consegue resolver em contrapartida a sua complexidade (STUDHOLME, 2010).

Page 26: Anotacao Semântica em Documentos Não Estruturados

Microdata (Exemplo)

<div itemscope itemref="a b"></div> <p id="a"> Meu nome é: <span itemprop="name">Celso</span></p>. Sou aluno da professora<div id=“MariaClaudia" itemprop=“alunoDe" itemscope>

<span itemprop="name">Maria</span>,Também conhecida como: <span itemprop=“nickname">Yoko</span>

</div>

_blanknode1

“Celso Araujo”“Yoko”

“Maria”

name

#MariaClaudia

nickname

namealunoDe

Page 27: Anotacao Semântica em Documentos Não Estruturados

Microdata

Vantagens– Mais simples que o RDFa– Flexibilidade para referência entre nodos

Desvantagens– Imaturo (poucas ferramentas, exemplos etc…)

Page 28: Anotacao Semântica em Documentos Não Estruturados

Comparativo

Microformatos eRDF RDFa Microdata

Uso de vocabulários customizados NÃO* SIM SIM SIM

DRY SIM SIM SIM SIM

Compatibilidade com HTML SIM SIM SIM** SIM***

Compatibilidade com XHTML SIM SIM SIM**** SIM

Utilização somente de atributos nativos do HTML e XHTML

SIM SIM NÃO NÃO***

Suporte ao Blank Node NÃO NÃO SIM SIM

Utilização de namespaces NÃO SIM SIM SIM

Suporte a Literal simples SIM SIM SIM SIM

Suporte a Literal XML NÃO NÃO SIM NÃO

Suporte à Literal tipada SIM NÃO SIM SIM

Suporte a CURIE NÃO NÃO SIM NÃO

Referência a nodos não filho NÃO NÃO NÃO SIM

Page 29: Anotacao Semântica em Documentos Não Estruturados

Ferramentas de Anotação Semântica

São sistemas que provêem anotação semântica sobre um conteúdo qualquer com o auxílio de um vocabulário através de extração automática, sugestões de anotações ou interfaces gráficas para a anotação manual (SEMANTICWEB, 2008).

Page 30: Anotacao Semântica em Documentos Não Estruturados

Ferramentas de Anotação Semântica

Annotea GATE KIM OpenCalais Zemanta SMORE Ontos TextWise

Page 31: Anotacao Semântica em Documentos Não Estruturados

Comparativo

Tipo Representação da Anotação

Armazenamento da Anotação

Referência com o Vocabulário

Referência entre termo e Anotação

Entrada de Vocabulários Arbitrários

Plataforma

Annotea Manual Não intrusiva

RDF/XML Xpointer SIM SIM Desktop

GATE Híbrida Híbrida Banco de dados e XML URIS SIM SIM Desktop

KIM Automática Não intrusiva

SIM* SIM Híbrida

OpenCalais Automática Não intrusiva

RDF/XML, JSON, Microformat e SimpleFormat

URIS SIM NÃO Web

Zemanta Automática Não intrusiva

XML, JSON, WNJSON, RDF/XML

URL NÃO NÃO Web

SMORE Manual Não intrusiva

RDF/XML URIS NÃO SIM Desktop

Ontos Automática Não intrusiva

JSON URIS NÃO SIM*** Web

TextWise Automática Não intrusiva

JSON e XML URIS NÃO NÃO Web

Page 32: Anotacao Semântica em Documentos Não Estruturados

Ferramentas de Extração Semântica

Ferramentas capazes de indexar metadados contidos em ontologias ou documentos com anotações semânticas.

Também conhecidas como ferramentas de “busca semântica”

Page 33: Anotacao Semântica em Documentos Não Estruturados

Sindice

Sindice (Semantic Web Index) é uma ferramenta de busca semântica que coleta dados de documentos RDF e de páginas web com anotações no padrão microformatos ou RDFa.

Page 34: Anotacao Semântica em Documentos Não Estruturados

Yahoo Search Monkey

SearchMonkey é um serviço do Yahoo! que permite desenvolvedores e proprietários de sites utilizarem dados estruturados de forma a tornar as buscas pelo Yahoo! mais úteis e visualmente atraentes, direcionando o tráfego mais relevante para os seus sites (YAHOO, 2010).

Page 35: Anotacao Semântica em Documentos Não Estruturados

Google Rich Snippets

O Google Rich Snippets é uma nova abordagem de apresentação dos resultados de pesquisa do Google (Figura 10) visando destacar alguns dados estruturados incorporados em páginas da web (GOEL et al., 2009).

Page 36: Anotacao Semântica em Documentos Não Estruturados

Características Relacionadas para Análise dos Ferramentas de Extração Semântica

Padrões de Anotação Vocabulários suportados Uso de vocabulários arbitrários

Page 37: Anotacao Semântica em Documentos Não Estruturados

Comparativo

Google Rich Snippets

Sindice Yahoo! SearchMonkey

Padrões de Anotações

RDFa SIM SIM SIM

Microformatos SIM SIM SIM

eRDF NÃO NÃO SIM

Microdata SIM NÃO NÃO

Vocabulários Suportados

hCalendar, hReview, hProduct,

hCard, Facebook Share e YahooSearch Monkey Media

XFN, hCard, hCalendar,

hReview, Rel-License,

hListing e hResume

Dublin Core, Foaf, hCard, hCalendar, hReview, SIOC, GoodRelations,

Dbpedia, Freebase, hFeed e XFN

Uso de Vocabulários Arbitrários NÃO ??? SIM

Page 38: Anotacao Semântica em Documentos Não Estruturados

Bibliografia

1. IWS – Internet World Stats. 2009. Disponível em: http://www.internetworldstats. com/pr/edi038.htm.

2. MOURA, ANA. 2004. Introdução a Web Semântica. http://www.mar.mil.br/sdms/Tutorial-SDMS-0051.htm

3. LUIZA, Maria. O Papel de Ontologias em Sistemas de Informação.

4. Bernes-Lee T. The Semantic Web. http://www.scientificamerican.com/article.cfm?id=the-semantic-web&page=2

5. Perreira H. Microformatshttp://revolucao.etc.br/archives/microformats

6. Nowack B. Embedded RDF (eRDF) Parser for PHPhttp://bnode.org/blog/2006/05/29/arc-embedded-rdf-erdf-parser-for-php

7. POPOV, B., KIRYAKOV, A., KIRILOV, A., MANOV, D., OGNYANOFF, D., GORANOV, M. KIM – Semantic Annotation Platform. Disponível em: <http://www.ontotext.com/kim/>. Acesso em 25 ago 2009