ontologias biológicas filipe santana recife 2009.2 universidade federal de pernambuco - ufpe centro...

42
Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência Artificial Simbólica Ontologias e a Web Semântica

Upload: internet

Post on 22-Apr-2015

103 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

Ontologias Biológicas

Filipe Santana

RECIFE2009.2

UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE

CENTRO DE INFORMÁTICA - CIN

Tópicos Avançados em Inteligência Artificial Simbólica

Ontologias e a Web Semântica

Page 2: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

Introdução Organização do conhecimento Biológico

• Conhecimento Biológico:– Páginas da Web;– Sites FTP ou bases de dados relacionadas;– Publicações Textuais;

• Limitação da Pesquisa:– Os sites de pesquisa não tem como responder

questões sobre esse campo do conhecimento, ou identificar recursos que contenha alguma especificação do atributo relacionado.

Page 3: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

Introdução Organização do conhecimento Biológico

• Limitação da Pesquisa:– Informação Biológica não distinguível

pelas máquinas;– Computadores não podem interpretar

palavras, sentenças ou diagramas, além de suas relações;

Page 4: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência
Page 5: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência
Page 6: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência
Page 7: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

• Terminologias:– Tudo aquilo que contém duas ou mais palavras

individuais em uma construção de palavras e essas palavras são adjacentes a outra na sequência;

– É o conceito mais preciso de um domínio específico;

– Para a matemática:• Distribuição normal é uma terminologia do domínio

Matemático

Introdução Ontologias e Web Semântica

Page 8: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

• Métodos para extração de terminologias:– Linguístico: propriedades estruturais das frases e

das sentenças gramaticais;– Estatístico: processo pobabilístico que verifica a

utilização de uma sequência num determinado texto

• Utilização das ontologias para montar uma conceitualização entre os termos de forma que denote relações semânticas.

Introdução Ontologias e Web Semântica

Page 9: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

Introdução Ontologias e Web Semântica• Terminologias Médicas:

– Descobertas e execuções recentes de redes e serviços de web semântica

• Open Biomedical Ontologies (OBO):– Portal Compartilhado de ontologias

biológicas/biomédicas;• Inclui o Gene Ontology (GO)

Page 10: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

Open Biomedical Ontologies (OBO)

• Portal Compartilhado de ontologias biológicas/biomédicas;– Inclui o Gene Ontology (GO)

• Vocabulário Padrão;• Hierarquia Taxonômica;• Informação Acessibilidade no acesso e potencial de

interpretação;• BFO (Basic Formal Ontology):

– Ontologia de Domínio que apresenta distinções entre objetos e processos e podem ser unidos utilizando relações básicas.

Page 11: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

BFO (Basic Formal Ontology)

• Descreve e anota conhecimentos específicos de domínio;

• Possibilidade de produzir questionamentos em vários níveis de granularidade ontológica e potencialmente de diversos domínios;

• Disponibilizará a aquisição do conhecimento extraída de conhecimento especializado

Page 12: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

OBO + BFO

• OBO – 1ª Geração:– Não contem DL explicita para definir membros de

classes em termos de suas propriedades;

• OBO – 2ª Geração (BFO):– Ontologias formais e representação do

conhecimento baseado em lógica Funcionalidade

– http://www.ifomis.org/bfo/users

Page 13: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência
Page 14: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

BioTop

• Definir a fundamentação dos fenômenos das Ciências da Vida;

• Top-Level Base Ontology• Possui definições para as entidades fundamentais

da biomedicina, com vocabulário básico, sem ambiguidades, para definir fatos do domínio;

• Serve de base para a criação de ontologias para domínios mais específicos.

Page 15: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

• Possui os mesmos principios formais da OBO – OWL-DL;

• Criada a partir do aperfeiçoamento de outra ontologia –GENIA (Biologia Molecular);

BioTop

Page 16: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

• As fronteiras de todos os módulos coincidem com um subdomínio particular;

• Todos os módulos tem que respeitar a hierarquia da ontologia em nível superior;

• O tamanho de cada módulo deve ser tal que possa ser facilmente manipulados por (humano) editores e ferramentas, por exemplo, raciocinadores;

BioTop

Page 17: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

• Subdomínios que cobrem módulos vizinhos podem apresentar um limitado (e documentado) grau de sobreposição;

• Arquivos de ligação podem ligar módulos consigo, similarmente a ontologia top.

BioTop

Page 18: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

FMA – Foundational Model of Anatomy

• Ontologia de domínio que representa um corpo coerente de conhecimento sobre a anatomia humana

• Objetivo:– Representar classes ou tipos e relações necessárias

para a representação simbólica da estrutura fenotípica do corpo humano de uma forma “intendível”; além de navegável, analisável e interpretável por sistemas computacionais.

Page 19: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

• É parte integrante da Anatomy Information System desenvolvido e mantido pelo Structural Informatics Group da University of Washington.

• 75.000 classes para 120.000 termos

• 2,1milhões de relações de instâncias;

• 168 tipos de relações;

• Frames

• Exemplo

FMA – Foundational Model of Anatomy

Page 20: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

• Componentes:– Taxonomia Anatomica:

• Classifica os termos por características compartilhadas e diferenças;

– Abstração Anatômica Estrutural:• Relações de parte-todo;

– Abstração de Transformação Anatômica:• Transformações anatomicas (embrionárias adulto)

– Metaconhecimento• Princípios, regras e definições

FMA – Foundational Model of Anatomy

Page 21: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

Gene Ontology

• Padronizar as representações dos genes e os atributos dos produtos gênicos entre espécies e informações de banco de dados;

• Vocabulário controlado de termos;

• Descreve produtos gênicos e processos biológicos relacionados, funções moleculares e componentes celulares;

Page 22: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência
Page 23: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

MeSH Ontology

• Medical Subject Headlines – Mantido pela U.S. National Library of Medicine (NLM)

• Vocabulário controlado para indexação de conteúdo de documentos da área de saúde;

• Dividido superiormente em 16 ramificações – “cabeçalhos” – significado padronizado de um grupo de termos;

Page 24: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

• Hierarquia – todos os documentos indexados por determinado cabeçalho são também relevantes para qualquer descritor matriz – Hierarquias múltiplas;

• Exemplo

MeSH Ontology

Page 25: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

SNOMED-CT

• Systematized Nomenclature of Medicine-Clinical Terms;

• Criada para cobrir o registro do paciente por inteiro;

• Aborda estruturas corporais, procedimentos, contexto social, entre outras;

• É o resultado da união da versão 3 do UK Clinical Terms (Read Codes) e do SNOMED RT (Reference terminology);

Page 26: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

• Mantido pelo International Health Terminology Standard Development Organization (IHTSDO);

• Produtos e serviços são abertos;• Utilização para codificação clínica restrito – licença;• 310.000 classes (nodes, ou conceitos – hiérarquia é-um);

– Identificação por chaves numéricas;• 50 tipos de relações (conceitos de relações);• Modelo baseado em OWL-DL

SNOMED-CT

Page 27: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

SNOMED-CT

Page 28: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

openGALEN

• Generalized Architecture for Languages, Encyclopedias and Nomenclatures;

• Ontologia clínica de fonte aberta;• 25.000 conceitos em hierarquias é-um;• Semelhante ao SNOMED CT, mas com sintaxe mais rica;• Divisão

– Ontologia de alto nível (estrurura geral);– Modelo de referência comum - core (definições reutilizáveis);– Extensões detalhadas de sub-domínios.

Page 29: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

• Mesmo objetivo da SNOMED;

• Pioneiro na utilização de lógica formal (Logica Descritiva – GRAIL);

openGALEN

Page 30: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

UMLS

• Unified Medical Language System;

• Fonte de terminologias, tesauros, sistemas de classificação e ontologias biomédicas;

• Criado em 1986 pela NLM;

• Integra informações de diversas fontes terminológicas incompatíveis;

Page 31: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

• 2 milhões de nomes para, aproximadamente, 1 milhão de conceitos para 120 ontologias e terminologias biomédicas;

• 12 milhões de relações;• Bases:

– Une classes segundo conceitos únicos de identificação, cada uma com seu identificador;

– Cada conceito é categorizado por no mínimo um tipo semântico, um conceito global.

UMLS

Page 32: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência
Page 33: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

As ontologias biológicas existentes são boas ontolgias?

• Conhecimento Biológico:– Forma e semântica complexa;

• Ontologias Biológicas não seguem padrões internacionais de construção e descrição:– Restrição na aplicabilidade para compartilhar, reutilizar e

fazer inferências;

• Ontologias de domínio que seguem um mesmo padrão podem ser compartilhadas prototipo de ontologia de domínio e um guia para contrução de ontologias.

Page 34: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

• IEEE – Institute of Electronics and Electrical Engineering:– Poucas bio-ontos seguem o padrão;

• Bio-Ontos isoladas, principalmente as de descobertas de conhecimento biológico e de inferência computacional;

• Ontos que não seguem padrões são mais difíceis de serem estudadas possuem termos mais complexos

As ontologias biológicas existentes são boas ontolgias?

Page 35: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

• Classes nomeadas de maneira errada e indeterminadas;

• Uso dos mesmos nomes em diferentes classes de abstração;

• Erros de definições de classes;– Definições pouco claras;

• Confusão entre conceitos e procedimentos;

As ontologias biológicas existentes são boas ontolgias?

Page 36: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

• Não-distinção entre classe e indivíduo;

• Mistura de entidades físicas como entidades teoricas;

• Relações pouco definidas;

• Não há distinção clara entre relações do tipo parte-de e é-um;

As ontologias biológicas existentes são boas ontolgias?

Page 37: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

• Conclusões:– Bio-ontos precisam ser construídas de forma padronizada

para auxiliar na comunicação entre os profissionais;– Construções de bio-ontos como simples taxonomia

restringe a sua vida útil;– Formação de ontos integradas em diferentes níveis de

representação poderá aumentar siginificativamente a interoperabilidade entre os dados do domínio e o conhecimento;

– Abre portas para novas aplicações em bioinformática;

As ontologias biológicas existentes são boas ontolgias?

Page 38: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

• Regras para contrução:– Lista explicita dos princípios de construção, incluindo as

restrições, de definições e axiomas;– Seguir o padrão da SUO (Standard Upper Ontology) –

IEEE;– Tratar separadamente o conhecimento dependente do

domínio do independente do domínio compartilhamento e reuso;

– Construir ontologias com propósito independente para utilização futura.

As ontologias biológicas existentes são boas ontolgias?

Page 39: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

Referências Bibliográficas• ROBU I, ROBU V, THIRION B. An introduction to the

Semantic Web for health sciences librarians. J Med Libr Assoc 94(2):198–205, 2006;

• BERNERS-LEE T, HALL W, HENDLER J, SHADBOLT N, WEITZNER DJ. Computer science. Creating a science of the Web. Science;313(5788):769–71, 2006;

• BERNERS-LEE , HENDLER J. Publishing on the Semantic Web. Nature;410(6832):1023–4, 2001;

• OBO Foudry - http://www.obofoundry.org/;

Page 40: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

• BioTop: A Top domain for Life Sciences . http://www.imbi.uni-freiburg.de/ontology/biotop/;

• FMA - http://sig.biostr.washington.edu/projects/fm/;• SNOMED-CT: http://www.ihtsdo.org/snomed-ct/;• OpenGalen: http://www.opengalen.org/;• UMLS: http://www.nlm.nih.gov/research/umls/;• KING R D, SOLDATOVA L N. Are the current

ontologies in biology good ontologies? Nature Biotechnology 23(9): 1095-98, 2005

Referências Bibliográficas

Page 41: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

Referências Bibliográficas

• FREITAS F, SCHULZ S, MORAES E. Pesquisa de terminologias e ontologias atuais em biologia e medicina. RECIIS – R. Eletr. de Com. Inf. Inov. Saúde. Rio de Janeiro, v.3, n.1, p.8-20, mar., 2009

Page 42: Ontologias Biológicas Filipe Santana RECIFE 2009.2 UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE CENTRO DE INFORMÁTICA - CIN Tópicos Avançados em Inteligência

OBRIGADO!!!