ontologias biológicas filipe santana recife 2009.2 universidade federal de pernambuco - ufpe centro...

Post on 22-Apr-2015

103 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Ontologias Biológicas

Filipe Santana

RECIFE2009.2

UNIVERSIDADE FEDERAL DE PERNAMBUCO - UFPE

CENTRO DE INFORMÁTICA - CIN

Tópicos Avançados em Inteligência Artificial Simbólica

Ontologias e a Web Semântica

Introdução Organização do conhecimento Biológico

• Conhecimento Biológico:– Páginas da Web;– Sites FTP ou bases de dados relacionadas;– Publicações Textuais;

• Limitação da Pesquisa:– Os sites de pesquisa não tem como responder

questões sobre esse campo do conhecimento, ou identificar recursos que contenha alguma especificação do atributo relacionado.

Introdução Organização do conhecimento Biológico

• Limitação da Pesquisa:– Informação Biológica não distinguível

pelas máquinas;– Computadores não podem interpretar

palavras, sentenças ou diagramas, além de suas relações;

• Terminologias:– Tudo aquilo que contém duas ou mais palavras

individuais em uma construção de palavras e essas palavras são adjacentes a outra na sequência;

– É o conceito mais preciso de um domínio específico;

– Para a matemática:• Distribuição normal é uma terminologia do domínio

Matemático

Introdução Ontologias e Web Semântica

• Métodos para extração de terminologias:– Linguístico: propriedades estruturais das frases e

das sentenças gramaticais;– Estatístico: processo pobabilístico que verifica a

utilização de uma sequência num determinado texto

• Utilização das ontologias para montar uma conceitualização entre os termos de forma que denote relações semânticas.

Introdução Ontologias e Web Semântica

Introdução Ontologias e Web Semântica• Terminologias Médicas:

– Descobertas e execuções recentes de redes e serviços de web semântica

• Open Biomedical Ontologies (OBO):– Portal Compartilhado de ontologias

biológicas/biomédicas;• Inclui o Gene Ontology (GO)

Open Biomedical Ontologies (OBO)

• Portal Compartilhado de ontologias biológicas/biomédicas;– Inclui o Gene Ontology (GO)

• Vocabulário Padrão;• Hierarquia Taxonômica;• Informação Acessibilidade no acesso e potencial de

interpretação;• BFO (Basic Formal Ontology):

– Ontologia de Domínio que apresenta distinções entre objetos e processos e podem ser unidos utilizando relações básicas.

BFO (Basic Formal Ontology)

• Descreve e anota conhecimentos específicos de domínio;

• Possibilidade de produzir questionamentos em vários níveis de granularidade ontológica e potencialmente de diversos domínios;

• Disponibilizará a aquisição do conhecimento extraída de conhecimento especializado

OBO + BFO

• OBO – 1ª Geração:– Não contem DL explicita para definir membros de

classes em termos de suas propriedades;

• OBO – 2ª Geração (BFO):– Ontologias formais e representação do

conhecimento baseado em lógica Funcionalidade

– http://www.ifomis.org/bfo/users

BioTop

• Definir a fundamentação dos fenômenos das Ciências da Vida;

• Top-Level Base Ontology• Possui definições para as entidades fundamentais

da biomedicina, com vocabulário básico, sem ambiguidades, para definir fatos do domínio;

• Serve de base para a criação de ontologias para domínios mais específicos.

• Possui os mesmos principios formais da OBO – OWL-DL;

• Criada a partir do aperfeiçoamento de outra ontologia –GENIA (Biologia Molecular);

BioTop

• As fronteiras de todos os módulos coincidem com um subdomínio particular;

• Todos os módulos tem que respeitar a hierarquia da ontologia em nível superior;

• O tamanho de cada módulo deve ser tal que possa ser facilmente manipulados por (humano) editores e ferramentas, por exemplo, raciocinadores;

BioTop

• Subdomínios que cobrem módulos vizinhos podem apresentar um limitado (e documentado) grau de sobreposição;

• Arquivos de ligação podem ligar módulos consigo, similarmente a ontologia top.

BioTop

FMA – Foundational Model of Anatomy

• Ontologia de domínio que representa um corpo coerente de conhecimento sobre a anatomia humana

• Objetivo:– Representar classes ou tipos e relações necessárias

para a representação simbólica da estrutura fenotípica do corpo humano de uma forma “intendível”; além de navegável, analisável e interpretável por sistemas computacionais.

• É parte integrante da Anatomy Information System desenvolvido e mantido pelo Structural Informatics Group da University of Washington.

• 75.000 classes para 120.000 termos

• 2,1milhões de relações de instâncias;

• 168 tipos de relações;

• Frames

• Exemplo

FMA – Foundational Model of Anatomy

• Componentes:– Taxonomia Anatomica:

• Classifica os termos por características compartilhadas e diferenças;

– Abstração Anatômica Estrutural:• Relações de parte-todo;

– Abstração de Transformação Anatômica:• Transformações anatomicas (embrionárias adulto)

– Metaconhecimento• Princípios, regras e definições

FMA – Foundational Model of Anatomy

Gene Ontology

• Padronizar as representações dos genes e os atributos dos produtos gênicos entre espécies e informações de banco de dados;

• Vocabulário controlado de termos;

• Descreve produtos gênicos e processos biológicos relacionados, funções moleculares e componentes celulares;

MeSH Ontology

• Medical Subject Headlines – Mantido pela U.S. National Library of Medicine (NLM)

• Vocabulário controlado para indexação de conteúdo de documentos da área de saúde;

• Dividido superiormente em 16 ramificações – “cabeçalhos” – significado padronizado de um grupo de termos;

• Hierarquia – todos os documentos indexados por determinado cabeçalho são também relevantes para qualquer descritor matriz – Hierarquias múltiplas;

• Exemplo

MeSH Ontology

SNOMED-CT

• Systematized Nomenclature of Medicine-Clinical Terms;

• Criada para cobrir o registro do paciente por inteiro;

• Aborda estruturas corporais, procedimentos, contexto social, entre outras;

• É o resultado da união da versão 3 do UK Clinical Terms (Read Codes) e do SNOMED RT (Reference terminology);

• Mantido pelo International Health Terminology Standard Development Organization (IHTSDO);

• Produtos e serviços são abertos;• Utilização para codificação clínica restrito – licença;• 310.000 classes (nodes, ou conceitos – hiérarquia é-um);

– Identificação por chaves numéricas;• 50 tipos de relações (conceitos de relações);• Modelo baseado em OWL-DL

SNOMED-CT

SNOMED-CT

openGALEN

• Generalized Architecture for Languages, Encyclopedias and Nomenclatures;

• Ontologia clínica de fonte aberta;• 25.000 conceitos em hierarquias é-um;• Semelhante ao SNOMED CT, mas com sintaxe mais rica;• Divisão

– Ontologia de alto nível (estrurura geral);– Modelo de referência comum - core (definições reutilizáveis);– Extensões detalhadas de sub-domínios.

• Mesmo objetivo da SNOMED;

• Pioneiro na utilização de lógica formal (Logica Descritiva – GRAIL);

openGALEN

UMLS

• Unified Medical Language System;

• Fonte de terminologias, tesauros, sistemas de classificação e ontologias biomédicas;

• Criado em 1986 pela NLM;

• Integra informações de diversas fontes terminológicas incompatíveis;

• 2 milhões de nomes para, aproximadamente, 1 milhão de conceitos para 120 ontologias e terminologias biomédicas;

• 12 milhões de relações;• Bases:

– Une classes segundo conceitos únicos de identificação, cada uma com seu identificador;

– Cada conceito é categorizado por no mínimo um tipo semântico, um conceito global.

UMLS

As ontologias biológicas existentes são boas ontolgias?

• Conhecimento Biológico:– Forma e semântica complexa;

• Ontologias Biológicas não seguem padrões internacionais de construção e descrição:– Restrição na aplicabilidade para compartilhar, reutilizar e

fazer inferências;

• Ontologias de domínio que seguem um mesmo padrão podem ser compartilhadas prototipo de ontologia de domínio e um guia para contrução de ontologias.

• IEEE – Institute of Electronics and Electrical Engineering:– Poucas bio-ontos seguem o padrão;

• Bio-Ontos isoladas, principalmente as de descobertas de conhecimento biológico e de inferência computacional;

• Ontos que não seguem padrões são mais difíceis de serem estudadas possuem termos mais complexos

As ontologias biológicas existentes são boas ontolgias?

• Classes nomeadas de maneira errada e indeterminadas;

• Uso dos mesmos nomes em diferentes classes de abstração;

• Erros de definições de classes;– Definições pouco claras;

• Confusão entre conceitos e procedimentos;

As ontologias biológicas existentes são boas ontolgias?

• Não-distinção entre classe e indivíduo;

• Mistura de entidades físicas como entidades teoricas;

• Relações pouco definidas;

• Não há distinção clara entre relações do tipo parte-de e é-um;

As ontologias biológicas existentes são boas ontolgias?

• Conclusões:– Bio-ontos precisam ser construídas de forma padronizada

para auxiliar na comunicação entre os profissionais;– Construções de bio-ontos como simples taxonomia

restringe a sua vida útil;– Formação de ontos integradas em diferentes níveis de

representação poderá aumentar siginificativamente a interoperabilidade entre os dados do domínio e o conhecimento;

– Abre portas para novas aplicações em bioinformática;

As ontologias biológicas existentes são boas ontolgias?

• Regras para contrução:– Lista explicita dos princípios de construção, incluindo as

restrições, de definições e axiomas;– Seguir o padrão da SUO (Standard Upper Ontology) –

IEEE;– Tratar separadamente o conhecimento dependente do

domínio do independente do domínio compartilhamento e reuso;

– Construir ontologias com propósito independente para utilização futura.

As ontologias biológicas existentes são boas ontolgias?

Referências Bibliográficas• ROBU I, ROBU V, THIRION B. An introduction to the

Semantic Web for health sciences librarians. J Med Libr Assoc 94(2):198–205, 2006;

• BERNERS-LEE T, HALL W, HENDLER J, SHADBOLT N, WEITZNER DJ. Computer science. Creating a science of the Web. Science;313(5788):769–71, 2006;

• BERNERS-LEE , HENDLER J. Publishing on the Semantic Web. Nature;410(6832):1023–4, 2001;

• OBO Foudry - http://www.obofoundry.org/;

• BioTop: A Top domain for Life Sciences . http://www.imbi.uni-freiburg.de/ontology/biotop/;

• FMA - http://sig.biostr.washington.edu/projects/fm/;• SNOMED-CT: http://www.ihtsdo.org/snomed-ct/;• OpenGalen: http://www.opengalen.org/;• UMLS: http://www.nlm.nih.gov/research/umls/;• KING R D, SOLDATOVA L N. Are the current

ontologies in biology good ontologies? Nature Biotechnology 23(9): 1095-98, 2005

Referências Bibliográficas

Referências Bibliográficas

• FREITAS F, SCHULZ S, MORAES E. Pesquisa de terminologias e ontologias atuais em biologia e medicina. RECIIS – R. Eletr. de Com. Inf. Inov. Saúde. Rio de Janeiro, v.3, n.1, p.8-20, mar., 2009

OBRIGADO!!!

top related