profa. dra. cecília dias flores - universidade de santa ... · 2415 pcts de 500 folhas ... outra...

43
Profa. Dra. Cecília Dias Flores Regente pela Disciplina de Bioinformática - Curso de Biomedicina Depto. Ciências Exatas e Sociais Aplicadas Coordenadora do curso Informática Biomédica PPG em Ciências da Saúde e PPG em Ensino na Saúde

Upload: doandang

Post on 09-Nov-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

Profa. Dra. Cecília Dias Flores

Regente pela Disciplina de Bioinformática - Curso de Biomedicina

Depto. Ciências Exatas e Sociais Aplicadas

Coordenadora do curso Informática Biomédica

PPG em Ciências da Saúde e PPG em Ensino na Saúde

"Bioinformática é uma disciplina informática destinada ao armazenamento, recuperação, organização e análise de

dados biológicos".

2

3

Dad

os

Co

mp

lexo

s Tamanho

Quantidade

Significado

4

Tamanho

O DNA é uma enorme cadeia de caracteres

Composta somente por caracteres A, C,G e T Bactéria Escherichia coli

E o ser humano?

5

Tamanho

Exemplos de tamanho de genomas

pb = par de bases —um bp corresponde a aproximadamente 3.4 Å (1 Å = 10-10 m) Kb = kilo (quilo) pares de bases = 1.000 bp Mb = mega pares de bases = 1.000.000 bp Gb = giga pares de bases = 1.000.000.000 bp

6

Tamanho

Impressão do genoma humano Times New Roman

12 pt

2622 pb / página

Impressão em 1 lado

2415 pcts de 500 folhas

129 m

char[] humanDNA = char[3 200 000 000]; As linguagens de programação não permitem

7

Tamanho

Como armazenar um genoma em um arquivo?

Formato FASTA amplamente usados

Aceita comentários (>)

Armazena também sequências incompletas ou pequenas

8

Tamanho

Como armazenar um genoma em um arquivo?

Formato de 2 bits

A = 00

C = 01

G = 10

T = 11

Não pode ser lido por um ser humano

9

Tamanho

Genomas não são seqüenciados de uma vez só

Lê de 30-1000bp por vez

10

Quantidade

11 http://www.ncbi.nlm.nih.gov/genbank/statistics/

Quantidade

http://www.ncbi.nlm.nih.gov/

Quantidade

13

14

15

Significado

O que isso significa...

... para mim, como um indivíduo? ( Medicina personalizada )

... para minha população? (genômica e saúde pública )

... para a espécie humana ? (Ciência)

16

Significado

O DNA... É a menor estrutura presente em todos os organismos

vivos

Grande expectativa para a medicina

DNA não pode dizer tudo sobre o seu futuro

O DNA não é a única variável que causa doenças

O comportamento e o meio ambiente interferem na sua saúde

O DNA ainda desempenha um papel importante

17

Significado

Significado

18

Eu acabei de obter uma sequência. O que é sabido a respeito desta sequência? Ela é única?

Eu tenho uma sequência única. Ela tem similaridade com alguma outra sequência de função conhecida?

Eu encontrei uma nova proteína em um determinado organismo. Existe um ortólogo conhecido?

Eu decidi trabalhar com um gene novo. Eu não tenho como obter um clone contendo a sequência deste gene. Eu preciso da sequência do cDNA para fazer uma PCR.

Significado

19

20

O que se pode descobrir sobre um gene por meio de uma busca a um BD? Informação evolutiva: genes homólogos, frequências dos alelos, ...

Informação genômica: localização no cromossomo, intros, UTRs, regiões reguladoras, ...

Informação estrutural: estruturas da proteína correspondente, tipos de folds, domínios estruturais, ...

Informação de expressão: expressão específica a um dado tecido, fenótipos, doenças, ...

Informação funcional: função molecular/enzimática, papel em diferentes rotas, papel em doenças, ...

Significado

21

Busca de informação sobre genes e produtos gênicos

Geralmente organizados por sequência

Sequências genômicas codificam todas características de um organismo

Produtos gênicos são descritos unicamente por sua sequência

Sequências similares entre biomoléculas indica tanto uma função similar quanto um relacionamento evolutivo

Sequências de macromoléculas proporcionam chaves biologicamente significativas para busca em BD

Significado

22

Comece com uma sequência, encontre informação sobre ela

Muitos tipos de sequências de entrada

Pode ser uma sequência de aminoácidos ou de nucleotídeos

Genômica, cDNA/mRNA, proteína

Completa ou fragmentada

Matches exatos são raros

Em geral, o objetivo é recuperar um conjunto de sequências similares

Significado

Ênfase está se deslocando progressivamente do acúmulo de dados para a sua interpretação

Com os sequenciamentos realizados, um grande volume de dados tem sido gerado

Esses dados precisam agora ser analisados

Análise laboratorial é difícil e cara Ferramentas computacionais sofisticadas são

necessárias para a análise dos dados obtidos

23

24

Para muitas dessas análises, as ferramentas computacionais precisam lidar com dados imprecisos e ruidosos Técnicas de laboratório de Biologia Molecular quase

sempre geram dados com erros ou imprecisões

Erros na coleta de dados

Erros na construção de bases de dados

25

Aprendizagem de Máquina

Fornece técnicas para lidar com os problemas acima

Principal preocupação Como construir programas de computador que

automaticamente melhoram seu desempenho com a experiência?

Técnicas orientadas a dados Aprendem automaticamente a partir de grandes

volumes de dados

Geração de hipóteses a partir dos dados

26

Algumas Técnicas

Redes Neurais Artificiais (RNs) Máquinas de Vetores Suporte (SVMs) Algoritmos de Agrupamento (AA) Algoritmos Genéticos (AGs) Árvores de Decisão (ADs) Raciocínio Baseado em Casos (RBC) K-vizinhos mais próximos (kNN) Redes Probabilísticas (Cadeias de Markov, BN) ...

27

Por muitos anos, sub-áreas da Biologia têm inspirado técnicas de AM Redes Neurais

Algoritmos Genéticos

Programação Genética

Vida Artificial

Agora, diversas pesquisas na Biologia vêm utilizando técnicas de AM

28

29

BIOLOGIA

Redes Neurais, Algoritmos Genéticos

COMPUTAÇÃO

Bioinformática

Problemas da Biologia Molecular que podem ser tratados por AM

Reconhecimento de genes

Reconstrução de árvores filogenéticas

Análise de dados de expressão gênica

Previsão de estruturas de proteínas

Análise de interação entre genes

Montagem de fragmentos

Alinhamento de seqüências

30

Alinhamento de sequências Identificação de elementos que provavelmente surgiram de um

ancestral comum

Reconhecimento de genes Identificação de genes em sequências de DNA não caracterizadas

Análise de dados de expressão gênica Identificar:

Um agrupamento dos genes que seja funcionalmente significativo Novas subclasses de doenças Funções de genes desconhecidos

Predição de estrutura de proteínas Identificação de estruturas secundárias de proteínas

Reconstrução de árvores filogenéticas Encontrar estratégias eficientes para a obtenção da melhor árvore

ou mesmo de uma árvore sub-ótima 31

Qual é a estrutura de uma sequência na vida real?

32

Primária Secundária Terciária

Docagem Molecular É o procedimento que permite distinguir, do ponto de vista

energético, os complexos e/ou forma de coordenação que duas moléculas podem adotar

Métodos de Docking Algoritmo evolucionário; Método de Monte Carlo; Métodos de dinâmica molecular; Algoritmo de construção incremental e busca sistemática;

33

Design, desenvolvimento e gerenciamento de Bancos de Dados Biológicos

Processamento de Linguagem Natural (PLN)

Desenvolvimento de interfaces gráficas

Sistemas Distribuídos

Segurança

Bioquímica

Biofísica

Biologia molecular

Química orgânica e físico-química

34

A obtenção de significados a partir do DNA Difícil Complexa Consome tempo Trabalhosa

O conceito de similaridade é importante

Comparação com o que já é conhecido

35

Bioinformática : área muito interessante muitas oportunidades para adquirir e aplicar

conhecimentos Muitos problemas em aberto Oportunidades para novos projetos Oportunidades possiveis para estudantes de

computação de todos os semestres

Informática : melhorar a área da biologia trabalhando com dados biológicos

36

Revisão da disciplina de Biologia Molecular

Princípios da Bioinformática

Programação em linguagem Phython

Seminário

37

Questões éticas

Implicações legais

Discriminação Genética

Os ataques direcionados

Perda de reputação

Vazamento de informações

Problemas de privacidade

38

39

LABIOINFO: Implantação de Laboratório de Bioinformática e Biologia Computacional da UFCSPA

Emprego de ferramentas de Bioinformática para o estudo de vírus patogênicos humanos Análise filogenética e relação entre carga viral e evolução do quadro clínico. Descrição: O projeto tem por objetivo identificar e caracterizar vírus

pouco conhecidos - como o metapneumovírus humano (hMPV) e o bocavírus humano (HBoV) – em pacientes com infecção respiratória aguda (IRA) - principalmente crianças - no Rio Grande do Sul. O projeto inclui a construção de redes filogenéticas e moleculares para melhor compreensão do papel desses vírus na IRA, bem como a relação com os dados epidemiológicos.

O vírus influenza A (H1N1) em pacientes no Rio Grande do Sul: análise filogenética e relação entre carga viral e evolução do quadro clínico

Desenvolvimento de ferramenta computacional para integrar o BioPython para uso de modelos probabilísticos de biomoléculas. Projeto submetido ao Google Summer of Code, o qual foi aprovado.

40

Desenvolvimento de Objetos de Aprendizagem sobre Introdução à Biologia Molecular.

41

Baldi, P. e Brunak, S. (2001). Bioinformatics: the Machine Learning Approach. MIT Press.

de Souto, M. C. P., Lorena, A. C., Delbem, A. C. B. e de Carvalho, A. C. P. L. F. (2003). III Jornada de Mini-Curso de Inteligência Artificial – Livro Texto, capítulo Técnicas de Aprendizado de Máquina para Problemas de Biologia Molecular, pp. 103-152. Editora SBC.

Lesk, Arthur M. Introdução à Bioinformática (2008), Artmed.

Mitchell, T. (1997). Machine Learning. McGraw Hill, New York.

Setúbal, J. C (2003). A origem e o sentido da palavra bioinformática. Com Ciência – Revista Científica da SBPC. http://www.comciencia.br/reportagens/bioinformatica/bio10.shtml

Xiong, J. Essential Bioinformatics (2006), Cambridge University Press.

42

OBRIGADO!

Profa. Dra. Cecília Dias Flores

df [email protected]