explorando inferÊncia em um sistema de anotaÇÃo semÂntica
DESCRIPTION
Dissertação completa em: http://www2.comp.ime.eb.br/dissertacoes/2011-Celso_Fontes.pdf Ferramenta disponível em: http://code.google.com/p/autometa/TRANSCRIPT
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Explorando Inferência em um Sistema de Anotação Semântica
Orientadoras:
Maria Claudia R. Cavalcanti, D.Sc.Ana Maria de Carvalho Moura, Dr. Ing
Aluno: Celso Araujo Fontes
Instituto Militar de Engenharia
Rio de Janeiro, 26 de maio de 2011
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Sumário
1. Introdução2. Fundamentação Teórica3. Anotação Semântica4. Arquitetura para o desenvolvimento de um sistema
de anotação automática em documentos5. Desenvolvimento da ferramenta AutôMeta6. Avaliação e Testes7. Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Introdução
• Pesquisas ainda são baseadas em textos, dificultando a precisão na recuperação da informação
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Introdução
• Metadados• Web Semântica
• RDF, OWL ...• Web Tradicional = usa-se somente HTML
• Onde está a semântica?
• Anotação Semânticanome: <b>celso</b>, cidade: <i>rio de janeiro</i>
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Motivação
• Anotar não é uma tarefa trivial• Grande volume de documentos• Necessidade de mecanismos automáticos de
anotação• Ferramentas atuais de anotação semântica
• Vocabulários Arbitrários• Ferramentas nem sempre exploram as informações
implícitas• Utilização de formatos próprios dificulta a
recuperação por ferramenta de busca semântica.
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Hipótese
É possível gerar documentos melhor anotados a partir da exploração mais profunda da ontologia, contemplando inferência?
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Avaliação e TestesConclusão
Referências Bibliográficas
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Objetivos da dissertação
• Desenvolver um sistema para anotação semântica em documentos com base em conceitos de uma ontologia
• Utilizar-se de um raciocinador para inferir novas anotações
• Uso de meta anotações para justificar as anotações inferidas.
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Avaliação e TestesConclusão
Referências Bibliográficas
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Fundamentação Teórica
• Ontologia:• “Uma especificação explícita de uma conceituação.
A conceituação é uma abstração simplificada do domínio em que se deseja representar para algum propósito” (GRUBBER, 1992)
• Características:• Classes• Relações• Instâncias
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Linguagens para Representação de Ontologias
• RDF (Resource Description Framework)• Exemplo:
• Maria Claudia orienta Celso
#MariaClaudia
orienta#Celso
Sujeito Predicado Objeto
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Avaliação e TestesConclusão
Referências Bibliográficas
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Linguagens para Representação de Ontologias
OWL (Web Ontology Language):Um exemplo com inferência com sinonímia
Maria Claudia
Yoko
owl:sameAs
Celso
orienta
orienta (inferido)
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Anotação Semântica
“A anotação semântica de um documento descreve o seu conteúdo pela associação de trechos relevantes do texto e conceitos descritos em uma ontologia” (ELLER, 2008).
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Anotação Semântica
Adaptado de (OREN, 2006)
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Anotação Semântica
Para OREN et al. (2006), o resultado de uma anotação A é uma tupla <as, ap, ao, ac>, onde:
• as é o dado (ou sujeito) sendo anotado • ao é a anotação em si • ap é o predicado que define o tipo de
relacionamento entre o as e ao • ac é o contexto em que a anotação é feita.
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Avaliação e TestesConclusão
Referências Bibliográficas
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Especificações para Anotação Semântica
• Microformat• eRDF • RDFa • HTML5 Microdata
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
HTML
<div><b>Celso Araujo</b>, nascido em <i>25/11/1985</i>.
</div>
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
HTML+RDFa
<div id="#Celso">
<b property="foaf:name">Celso Araujo</b>, nascido em
<i property="foaf:birthday">25/11/1985</i>
</div>
#Celso
“Celso Araujo”
“25/11/1985”
foaf:name
foaf:birthday
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Avaliação e TestesConclusão
Referências Bibliográficas
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Ferramentas de Anotação Semântica
• GATE• SMORE• Annotea• Amaya• OpenCalais• Zemanta• Ontos• Textwize
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Ferramentas de Anotação Semântica
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
I Ii iii Iv v Vi Vii
Representação da Anotação Armazenamento da Anotação
Referência com a Ontologia
Referência entre termo e Anotação
Entrada de Ontologias Customizadas Tipo Plataforma
Annotea Não intrusiva RDF/XML Xpointer SIM SIM Manual Desktop
GATE Híbrida Banco de dados e XML URIS SIM SIM Híbrida Desktop
KIM Não intrusiva ??? ??? SIM SIM Automática Desktop
OpenCalais Não intrusivaRDF/XML, JSON, Microformat e SimpleFormat
URIS SIM NÃO Automática Web
Zemanta Não intrusiva XML, JSON, WNJSON, RDF/XML URL NÃO NÃO Automática Web
SMORE Não intrusiva RDF/XML URIS NÃO SIM Manual Desktop
Ontos Não intrusiva JSON ??? ??? SIM Automática Web
TextWise Não intrusiva JSON, XML e RDF URI SIM NÃO Automática Web
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Ferramentas de Análise e Busca Semântica
• Sindice• Google Rich Snippets• Yahoo Search Monkey
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Avaliação e TestesConclusão
Referências Bibliográficas
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Uso de Anotação Semântica
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Uso de Anotação Semântica
<h1 ... property="dc:title">Programming the Semantic Web</h1> <h1 ... property="dc:title">Programming the Semantic Web</h1>
fonte: http://oreilly.com/catalog/9780596153823/
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Avaliação e TestesConclusão
Referências Bibliográficas
ap
as
ao
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Ferramentas de Análise e Busca Semântica
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Avaliação e TestesConclusão
Referências Bibliográficas
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Arquitetura para anotação Semântica Automática em Documentos
Ontologia
RaciocinadorAnalisador
DocumentoAnotadoAnotador
Análise e Comparação MetaAnotação
DocumentoNão Estruturado
MetaAnotador
Usuário
Agente
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Avaliação e TestesConclusão
Referências Bibliográficas
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
#Celso
#Maria_Claudia #Yoko
#Ana_Maria
owl:sameAs
conhece
conheceOntologia
Documento
Processo de Anotação (Entrada)
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Processo de Anotação (Identificação dos Termos)
Celso é aluno das Professoras Yoko e Ana Maria.
#Celso
#Maria_Claudia #Yoko
#Ana_Maria
owl:sameAs
conhece
conhece
Analise e Comparação
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Processo de Anotação (Identificação das Triplas)
Celso é aluno das Professoras Yoko e Ana Maria.1. Celso conhece Maria_Claudia2. Celso conhece Ana_Maria3. Celso conhece Yoko
#Celso
#Maria_Claudia #Yoko
#Ana_Maria
owl:sameAs
conhece
conhece
Analisador Raciocinador
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Avaliação e TestesConclusão
Referências Bibliográficas
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Processo de Anotação (Meta anotação sob a inferência)
3. Celso conhece Yoko Anotação referenciaId ‘3’ _ resultadoDe:
Celso conhece Maria_ClaudiaMaria_Claudia mesmaPessoaQue Yoko
#Celso
#Maria_Claudia #Yoko
#Ana_Maria
owl:sameAs
conhece
conheceRaciocinador
Explainer
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Avaliação e TestesConclusão
Referências Bibliográficas
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Meta-Anotação
Baseado em OWL (MCGUINNESS e HARMELEN, 2004) e OWL2 (MOTIK, et al., 2009)
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Avaliação e TestesConclusão
Referências Bibliográficas
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Meta-Anotação
Declarações(metaanotaçao)
<2,"Annotation Inequality DifferentIndividuals" ><”#Pessoa”,rdf:subclass>
<”owl:cardinality, “2”><onProperty, “temProgenitor”><”#Neymar”,temProgenitor,”#Nadine”><”#Neymar”,temProgenitor,”#NeymarPai”>
<”#Neymar”,temProgenitor,”#NeymarDaSilvaSantos”><”#Nadine”,differentFrom,”#NeymarPai”><”#Nadine”,differentFrom,”#NeymarDaSilvaSantos”>
Anotação Inferida <2,”#NeymarPai”,sameAs,”#NeymarDaSilvaSantos”>
• Toda Pessoa tem 2 progenitores• Neymar é filho de Nadine e Neymar Santos• Sua mãe e seu pai não são as mesmas pessoas• Seu pai também é conhecido como Neymar Pai
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Desenvolvimento da ferramenta AutôMeta (AutoMatic MetaData)
Tecnologias adotadas para prototipação:
• JAVA• NetBeans• OWLAPI• Pellet• Java-rdfa• Jakarta-Commons
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Formalismo de Anotação do AutôMeta
<ai, asi, T[ao1..aom] ><ai, apm+1, aom+1 />..<ai, apn ..aon /> Termo </><span id="ai" about="asi" typeof="ao1 .. aon ">
<span id="ai+1" rel="pi+1" resource="aon+1"></span> … <span id="ai+m" property="pi+m" content="aon+m"></span> Termo
</span>
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Exemplo de Anotação gerada pelo Autômeta<span id="am-1" about="#Celso" typeof="auto:Aluno auto:Pessoa">
<span id="am-2" rel="orientadoPor" resource="Ana"></span>
<span id="am-3" rel="orientadoPor" resource="Maria"></span>
<span id="am-4" property="nomeCompleto" content="Celso Fontes“></span>
Celso
</span>
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
AutôMeta (Interface GUI)
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Prototipação – AutôMeta
Documento+Anotação
MetadadosExtraídos
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Prototipação – AutôMeta
Usuário
Agente
Potencial para buscas semânticas:
• Sindice • Google Rich Snippets• Yahoo Search Monkey
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Avaliação e Testes
OBJETIVO: • Avaliar o potencial de recuperação de
informações sobre documentos anotados semanticamente pela ferramenta AutôMeta
• Volume extensivo de documentos• Ontologia de domínio
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
TREC Genômica 2006
• Text Retrieval Conference• Textos completos em HTML = 162.259 • 11.638 documentos distintos avaliados• 28 perguntas
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
TREC (Pergunta e Avaliação)
NEW ID GENE(S) DISEASE QUESTION160 PRNP Mad Cow
DiseaseWhat is the role of PrnP in mad cow
disease?
TOPIC PMID OFFSET LENGTH SPANID RELEVANCE
160 8995353 1983 1766 899.535.319.831.766 NOT
160 8995353 3962 1369 899.535.339.621.369 DEFINITELY
160 9045652 4268 2400 904.565.242.682.400 DEFINITELY
160 9535949 50363 1856 9.535.949.503.631.850 NOT
160 15722549 8230 2514 1.572.254.982.302.510 POSSIBLY
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
TREC (Exemplo de Documento)
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Ontologia de Entrada
• Testes com Gene e Mesh sem sucesso• Através do SINDICE verificou-se que a
Dbpedia comtempla a maior parte dos termos utilizados nas perguntas
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Dbpedia
• Versão “semântica” da DBpedia• Base de 3.5 milhões de conceitos (BIZER,
2011)• Triplas são extraídas da Wikipedia
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Dbpedia ….
<resource:Obama> <ontology:spouse> <resource:Michelle_Obama>.
<resource:Obama> <ontology:vicePresident> <resource:Joe_Biden>
....
Wikipedia EN
Dbpedia (n3)
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
DBpedia (Recorte)
• Zemanta Web Service• RDFCAT• Esquema OWL Dbpedia 3.6 • Sinonímia (redirect):
• Bovine_Spongiform_Encephelopathy redirect Mad Cow• Bovine_Spongiform_Encephelopathy sameAs Mad Cow
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Dbpedia (Recorte)
Recurso OWL/RDF Total/Valor
Classes 323
Object Properties 629
Data Properties 706
Indivíduos 2665
Expressividade DL ALOF(D)
Relações de “is-a” 272
Object Properties Domain 505
Object Properties Range 488
Data Properties Domain 589
Data Properties Range 407
Sinonímia entre indivíduos 549
Functional Data Properties 18
[1] Description logic (lógica descritiva)[2] A L= Attributive language; O = Object Restrictions (nominais) (ex: hasValue); F= Functional Properties; D = Data values (ex: data properties)
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Ambiente de Testes
Intel Xeon 5520 2,26GHz (com 4 núcleos reais e 4 virtuais - hyper-threading)
12 GB Memória e 1TB de disco rígidoSistema operacional Linux Debian Lenny.
Powered By
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Massas de Dados
baseTXT baseREASONER baseNOREASONER
Artigos da TREC convertidos em (TXT) sem nenhuma anotação semântica;
Artigos da TREC anotações do recorte Dbpedia e com Inferência
Artigos da TREC anotações do recorte Dbpedia apenas com informações explícitas
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Recuperação de Informação (métricas)
Cobertura e Precisão (BARROS, 2011)
Em (BECHARA, 2010):
• Precisão é a interseção entre os documentos relevantes e os documentos recuperados, divididos pelo número de documentos recuperados; e
• Cobertura é a interseção entre os documentos relevantes e os documentos recuperados, divididos pelo número de documentos relevantes.
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Recuperação da Informação (métricas)
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Primeiro Ambiente
Simulação de um ambiente Tradicional de buscaConsultas em Texto Plano (Indexação e Busca)Lucene 3.0.2
Remoção de STOP WORDS Stemming
baseTXT baseREASONER
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Precisão (TXT X REASONER)
160 161 162 163 164 165 166 167 168 169 170 171 172 174 176 177 178 179 181 182 184 185 186 187
000
001
001
txt (precision) reasoner (precision)
baseTXT baseREASONER
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Precisão
• TXT precisao melhor• Sinonímia aumentou o numero de
documentos retornados declinando a precisao na maioria dos casos
• Valores para o predicado “ontology:abstract” foram responsáveis por maior diferença entre documentos anotados e não anotados
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Precisão (Sinonimia)
<span property="ontology:abstract" content="PRNP (PRioN Protein) is a gene that codes for a protein called the prion protein (PrP) …" datatype="rdf:PlainLiteral" xml:lang="en"> prion protein </span>
baseTXTbaseREASONER
What is the role of PrnP im mad cow disease?
Trecho de documento RELEVANTE
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Precisão (Sinonimia)
<span property="ontology:abstract" content="Cathepsin D is a protein that in humans is
encoded by the CTSD gene. It has been used as a breast cancer tumor marker." datatype="rdf:PlainLiteral" xml:lang="en"> Cathepsin D </span>
baseTXT
baseREASONER
Trecho de documento NAO RELEVANTE
How do Cathepsin D (CTSD) and apolipoprotein E (ApoE) interactions contribute to Alzheimer’s disease?
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Cobertura (TXT X REASONER)
160 161 162 163 164 165 166 167 168 169 170 171 172 174 176 177 178 179 181 182 184 185 186 187
000
001
001
txt (recall) reasoner (recall)
baseTXT baseREASONER
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Medida F (TXT x REASONER)
160 161 162 163 164 165 166 167 168 169 170 171 172 174 176 177 178 179 181 182 184 185 186 187
000
001
001
txt (medida f) reasoner (medida f)
baseTXT baseREASONER
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Segundo Ambiente
Simulação de uma ferramenta de busca semântica
Base com inferência X Base sem inferênciaConsultas em SPARQL
JenaJavaRDFa
baseREASONER baseNOREASONER
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
SPARQL
Anotação das perguntas pelo AutôMeta para recuperação dos termos da ontologia
Tripla Chave:Sujeito anônimo (?asn)Predicado (ap) e objeto (ao) únicos
SELECT ?g WHERE
GRAPH ?g{ ?as1 foaf:page <wiki:Bovine_spongiform_encephalopathy> . ?as2 foaf:page <wiki:PRNP> }
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Precisão (REASONER x NOREASONER)
160 161 162 163 164 165 166 167 168 169 170 171 172 174 176 177 178 179 181 182 184 185 186 187
000
001
001
no reasoner (precision) reasoner (precision)
baseREASONER baseNOREASONER
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Precisão (REASONER x NOREASONER)
• Resultados baixos em sua maioria para ambas as bases
• Maior sucesso na média final para baseReasoner (0,22 x 0,09)
• Casos de Derrotas de Reasoner por:– Maior número de documentos retornados– Maior número de triplas retornados pelas
consultas SPARQLs
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Cobertura (REASONER X NOREASONER)
160 161 162 163 164 165 166 167 168 169 170 171 172 174 176 177 178 179 181 182 184 185 186 187
000
001
001
no reasoner (recall) reasoner (recall)
baseREASONER baseNOREASONER
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Cobertura
• Melhores resultados da baseReasoner (0,89 x 0,29)
• Maior número de documentos retornados graças a sinonímia e ao SPARQL
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Medida F (REASONER x NOREASONER)
baseREASONER baseNOREASONER
160 161 162 163 164 165 166 167 168 169 170 171 172 174 176 177 178 179 181 182 184 185 186 187
000
001
001
no reasoner (medida f) reasoner (medida f)
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Medida F
baseTXT baseREASONERbaseNOREASONER
baseREASONER
0,22 0,21 0,08 0,29
Ambiente Tradicional Ambiente Semântico
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Conclusão
• Este trabalho teve como objetivo desenvolver um sistema que permitisse o enriquecimento de documentos através de anotações semânticas explorando o potencial implícito de uma ontologia.
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Contribuições
• Estudo comparativo de Ferramentas e Padrões de anotação semântica;
• Proposta de uma arquitetura para anotação semântica;
• Taxonomia para especificação de Meta Anotações;• Recorte ontológico da base de dados Dbpedia; • Metodologia para a tradução de perguntas para
SPARQL;
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Contribuições
• Utilização de uma abordagem de anotação semântica em formato aberto e visível pelos principais mecanismos de busca semântica do mercado (ex.: Sindice e Google);
• Dois ambientes de recuperação (tradicional e semântico);
• Artigo exposto no ONTOBRAS 2010 (FONTES, et al., 2010c)
• Artigo apresentado no WTDBD 2010 (FONTES, et al., 2010b)
• Artigo submetido para o SBBD 2011
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Trabalhos Futuros
• Uso de técnicas avançadas de linguística computacional• Anotações feitas pela ferramenta de modo a auxiliar na
seleção dos melhores termos, onde a ferramenta poderia fazer “sugestões” ao especialista;
• Múltiplas ontologias• Otimização no recurso de auto completar • Formatos ricos de documento de entrada
IntroduçãoFundamentação Teórica
Anotação SemânticaArquitetura
Desenvolvimento da FerramentaAvaliação e Testes
Conclusão
Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica
Referências Bibliográficas
• OREN, E. What are Semantic Annotations?. 2006. Disponível em: <http:// www.siegfried-handschuh.net/pub/2006/whatissemannot2006.pdf>.
• BECHARA, A. Expansão semântica de consultas baseada em esquemas terminológicos: uma experimentação no domínio biomédico. 2010. Disponível em: <http://teses2.ufrj.br/15/teses/751890.pdf>. Dissertação de Mestrado, UFRJ.
• GRUBER, T. A Translation Approach to Portable Ontology Specifications. 1992. Disponível em: <http://www-ksl.stanford.edu/KSL_Abstracts/KSL-92-71.html>.
• BARROS, F. Avaliação de Desempenho de Sistemas de RI. 2011. Disponível em: <http://www.cin.ufpe.br/~if796/aulas/cap3.ppt>
• MCGUINESS D. e F. HARMELEN. OWL Web Ontology Language Overview. Disponível em: <http://www.w3.org/TR/owl-features/>.
• MOTIK, B., P. PATEL-SCHNEIDER e B. PARSIA. 2009. OWL 2 Web Ontology Language Structural Specification and Functional-Style Syntax. Disponível em: <http://www.w3.org/TR/2009/REC-owl2-syntax-20091027/>.