snp mining porcine ests with maviant, a novel tool for snp evaluation and annotation

SNP mining porcine ESTs with MAVIANT, a novel tool for SNP evaluation and

annotation

Flávia Araújo

2

Single Nucleotide Polymorphisms

SNPs– Ocorre em uma seqüência de

DNA em apenas um único nucleotídeo.

Ex: A A G C C T A A A G C T T A– 90% dos polimorfismo no DNA

humano é causado por SNP.– Em regiões codificantes ocorrem

pelo menos 4 SNPs por gene, cerca de 1%, podendo ou não ocorrer a mudança no aminoácido.

3

Single Nucleotide Polymorphisms

SNPs– Sinônimo: a mudança de base não afeta na

composição da proteína. (mutação silenciosa)– Não Sinônimo: a mudança de base altera a

proteína.– Podendo afetar a função da proteína ou contribuir

para uma doença genética.– A importância de se estudar os SNP é a

possibilidade de poder mapear características de interesse entendendo a diversidade dos fenótipos.

4

MAVIANT

Multipurpose Alignment Viewing and Annotation Tool (MAVIANT)

Ferramenta web que permite a visualização do DNA cromatograma e alinhamento, assim como a visualização e anotação de novos SNP em seu banco de dados on-line.

5

Objetivos

1. Desenvolvimento de uma ferramenta para inspeção e validação da predição dos SNP através de um cálculo prévio dos alinhamentos contig e do cromatograma.

2. Construção de um banco de dados de polimorfismo da região codificadora com a identificação de cSNPs através de 800.000 EST.

6

Objetivos

3. Caracterização e anotação de SNPs não sinônimos devido seu efeito deletério na estrutura da proteína através das ferramentas: PolyPhen (Ramensky et al 2002) e SIFT (Ng and Henikoff, 2001).

4. E validar experimentalmente os candidatos a SNPs por genotipagem e cálculo da frequência alélica.

7

Metodologia

Foram 98 bibliotecas de cDNA utilizando vários tecidos e orgãos em diferentes estágios de desenvolvimento de animais de espécies diferentes.

EST (expressed sequence tags) obtidas foram clusterizadas utilizando accelerated BLAST (Altschul et al., 1997) baseado no algoritmo TeraClu seguido pela montagem do cluster utilizando Phrap (Green, P, unpublished data).

8

Metodologia

As sequências EST contig consensus foram comparadas com um banco de dados humano de referência (human genome build 35 version 1) e ao banco Sus scrofa Unigene v.36 e TIGR Pig Gene Index v.11 usando TeraBlastN para obter uma anotação primária.

Em seguida foi feita uma detecção dos SNPs nas contigs montadas utilizando PolyBayes v3.0 (Marth et al., 1999).

9

Metodologia

Os SNPs preditos foram filtrados usando uma qualidade base mínima de 30 e um limiar de probabilidade de pelo menos 0.8, 0.95 e 0.99.

E baseando-se nas regiões CDS anotadas no banco de dados de referência humana a seqüência codificante de cada alinhamento é traduzida assim como a variação dos aminoácidos em cada SNP (verifica o tipo do SNP sinônimo ou não sinônimo).

Os nsSNPs são preditos através das ferramentas PolyPhen v.11 e SIFT v2.0

10

Metodologia

Para a predição do potencial efeito dos nsSNPs, assume-se que o alto grau de conservação entre os mamíferos permite uma análise das seqüências das proteínas humanas tendo como interesse os alelos polimorficos encontrados nas seqüências de porco.

Então as seqüências contendo os possíveis SNPs são avaliadas através do MAVIANT e validados pelo usuário. Em seguida esse subgrupo de SNPs validados pelo usuário são resequenciados e análisados genotipicamente.

11

Resultados

O sequenciamento gerou 810.124 sequências EST, dessas 24.921 clusters foram montados usando Phrap gerando 44.266 contigs.

A ferramenta PolyBayes encontrou nas EST de porcos mais de 7979 candidatos a SNPc em regiões codificantes baseado no genoma humano. (SNP limiar de probabilidade ≥ 0.8).

Quanto maior o limiar de probabilidade menor o número de SNPs falso-positivos e inversamente ignora o número de SNPs verdadeiros.

12

Resultados

Dos SNPs preditos: 7979, – 3272 (41%) são nsSNPs e foram analisados

através das ferramentas PolyPhen e SIFT possíveis efeitos deletérios na estrutura ou função da proteína ou mutações sem sentido que tem sido associadas a doenças genéticas.

– Foram preditas que 1650 de 3272 ESTs de nsSNP serem relevantes para a função da proteína.

13

Conclusão

Este estudo promoveu a coleção de SNPs que podem ser potencialmente utilizados como marcadores em estudos genômicos.

Permitindo a utilização da ferramenta MAVIANT para análise e anotação de novos SNPs baseado em cromatogramas on-line.

Deleterious SNP prediction: be mindful of your trainig data!

Flávia

Raniere

15

Objetivos

Estudar os três conjuntos de dados mais comumente utilizados para classificar os SNPs como deletérios ou neutros.

Analisando as vantagens e desvantagens de cada conjunto de dados e também recomendando a melhor abordagem para estudos futuros.

16

Métodos

Árvores de decisão– São modelos preditivos utilizado para

classificação dos SNPs. Foi utilizado validação cruzada 10-fold para

remover qualquer viés que a divisão dos conjuntos de dados em treinamento e teste pudesse apresentar.

Os resultados da árvore de decisão são exibidos em uma matriz de confusão.

17

Conjuntos de dados para a predição de SNP deletérios:

Conjunto de dados Mutagêneses– Consiste em um conjunto sistemático de mutação imparcial

do T4 lisozima (1990 mutações / 40% mutações deletérios) e proteína lac repressor (3303 mutações / 38% mutações deletérios).

Conjunto de dados Swiss-Prot– Conjunto com single polimorfismos de aminoácidos (SAP),

onde são classificados como: Disease: Quando o polimorfismo é associado a uma doença,

tendo 12911 disease SAP em 1055 proteínas. Polimorfismo: Quando não tem uma doença conhecida

associada, tendo 8302 polimorfismo SAP em 3388 proteínas.

18

Conjuntos de dados para a predição de SNP deletérios:

Conjunto de dados divergentes– Os SAPs neutros são encontrados pela divergência entre

proteínas humanas relacionados com seus mamíferos ortólogos. Assumindo que a variação entre espécies próximas não é deletéria.

– Foram utilizadas proteínas contendo SAPs disease, cada proteína foi procurada no banco NCBI usando BLASTP.

– Todos os resultados de não mamíferos foram descartados e os dados restantes foram processados em dois métodos. Ambos os métodos fizeram o alinhamento das sequências encontradas com as proteínas disease e os aminoácidos diferentes foram anotados, verificando a sequence identity (SI).

– Um dos métodos utilizou todas as seqüências de mamíferos encontrados (neutralAH) e a outra apenas ou melhores matchs (neutralBH).

19

Atributos

Para permitir as predições de todos os SNPs foram selecionados alguns atributos:1. Identidade original e mutado do resíduo de aminoácido 2. Classe fisico-química do aminoácido original e mutado (Hydrophobic, Polar,

Encarregado, Glycine) 3. Diferença da hidrofobicidade entre o resíduo original e mutado4. Massa mudança na mutação5. Predição do sítio de mutação na estrutura secundária: (Loop, Helix, Strand) 6. Predição do sítio de mutação na solvente acessibility: (0 9; enterrado

Expostos) 7. Scorecons valor: seqüência conservação score mutação no site: (0 1; não

Plenamente conservada) 8. Sítio de mutação Buried charge: (Resíduo é um dos K, R, D, E, H e tem uma

acessibilidade de 0 ou 1) 9. Posição específica pontuação matriz (PSSM) valor de aminoácido substituição 10. Log-odds score substituição do aminoácido.

20

Validação Cruzada e Aleatorização dos dados

Para uma melhor acurácia com as decision trees os dados são balanceados.

Homogeneous cross validation:– Utiliza os mesmos dados para treinamento e teste.– 4000 SAPs amostras são escolhidas aleatoriamente de cada

conjunto de dados 10 vezes (ex.: 4000 deletérios e 4000 neutros). Estes dados são utilizados para realizar a validação cruzada 10-fold.

Heterogeneous cross validation:– Parte dos dados do conjunto de treinamento são do mesmo tipo

de parte dos dados do conjunto de teste.– 4000 SAPs amostras aleatórias escolhidas 10 vezes de cada

conjunto de dados dividido em dois conjuntos: treinamento e teste (ex: 2000 deletérios e 2000 neutros).

21

Validação cruzada e Aleatorização dos dados

Os dados de mutageneses é uma exceção nesse treinamento devido a baixa quantidade de dados disponíveis:

– Inicialmente os dados foram divididos em duas classes (lac: 1325 deleterious e 1978 neutral; lysozyme: 762 deleterious e 1228 neutral).

– Dessas 762 mutações foram escolhidas aleatoriamente 10 vezes de cada classe. Essas amostras foram então utilizadas para fazer uma validação cruzada homogenea 10-fold.

– Os conjuntos de dados de lac e lysozyme foram unidos para formar um conjunto de dados mutagenese contendo 3048 mutações por amostra.

22

Construção da matriz HEAT

Human Expected Amino acids Transitions– Foi construída consistindo das taxas esperadas de

substituições de aminoácidos em códigos de proteínas de genes humanos, na ausência de seleção.

– Ela foi construída utilizando a matriz de taxa de substituição de vizinhos-dependentes. Essas taxas foram geradas por alinhamento resultando em 20200 pseudo mutações, dessa taxa de substituição relativa (X -> y) foram calculadas 4 bases de nucleotideos (X, Y) iniciando em todos as 3 vizinhanças de nucleotideos (*X*), gerando uma matriz de 96 taxa de substituição dependente de vizinhança ([12x16]/2; 12 possíveis substituições em 16 possíveis 3 contextos de base com dados agregados para substituições complementares) com variação de taxas relativas 65-fold.

23

Construção da matriz HEAT

Essa matriz foi utilizada para calcular as taxas esperadas de todas as substituições de aminoácidos resultantes de mutações de um único nucleotídeo (SNM).

24

Resultados

Os dados Mutagenes apresenta alta porcentagem de MNMs (multiple nucleotide mutations) Lac: 57% e Lyso: 59%.

Swiss-Prot tem cerca de 0,2% de MNMs para disease e 0,1% para polymorphysm.

Enquanto que os dados divergentes apresenta uma variação de 5 a 40% de acordo com o limiar da seqüência identidade (SI).

25

Discussão

Os resultados sugeriram que o uso de dados de mutagenese com conteúdo significativamente alto de MNMs (mutação de múltiplos nucleotídeo) do que poderia ser esperado para nsSNPs pode levar a regras altamente irrelevantes para a predição de SNP. No entanto são bons para a predição dos efeitos gerais das mutações de proteínas.

26

Discussão

Uma contribuição significante para a predição dos SNPs da acurária aparente da validação cruzada homogenea resulta da separação dos dados de treinamento com base no conteúdo da substituição dos aminoácidos causada pela diferença na distância evolucionária nas partes deletérias e neutras dos dados de treinamento.

27

Discussão

Foi sugerido que os melhores dados de treinamento para predição de nsSNP em humanos são as variantes das proteínas humanas conhecidas: disease e polymorphysm anotados no Swiss-Prot.

Outras bases de dados podem ser utilizadas se os atributos apropriados forem escolhidos.

28

Conclusão

O artigo levantou alguns pontos importantes com respeito aos dados de treinamento para os métodos de predição de nsSNPs e recomendou o melhor conjunto de dados (Swiss-Prot disease/polymorphysm).

Os autores acreditam que os efeitos descritos no artigo tem afetado diversos estudos.

Portanto é importante que os estudiosos deste campo estejam cientes destes efeitos.

snp mining porcine ests with maviant, a novel tool for snp evaluation and annotation

Documents