cap3 (contig assembly program) george darmiton da cunha cavalcanti ([email protected]) ufpe – cin...

34
CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti ([email protected]) UFPE – CIn Junho de 2001

Upload: internet

Post on 22-Apr-2015

104 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

CAP3(Contig Assembly Program)

George Darmiton da Cunha Cavalcanti

([email protected])

UFPE – CIn

Junho de 2001

Page 2: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

Roteiro

Introdução

Arquitetura

O Programa CAP3 – Entrada e Saída

Pontos Fortes e Fracos do CAP3

Resultados do CAP3– CAP3 versus PHRAP

Bibliografia

Page 3: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

Introdução

É um programa utilizado para montar cadeias de DNA

Desenvolvido por Xiaoqiu Huang, – Department of Computer Science, Michigan

Technological University Versão 3 foi desenvolvida em 1999 Atualmente encontra-se na versão 4, sendo

esta comercial

Page 4: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

Arquitetura

1º Fase

Remoção de regiões pobres

Calcular sobreposição

Remoção de falsas sobreposições

Construção de Contigs

Construção de Contigs

Construção do Consenso

Construção do Consenso

2º Fase

3º Fase

Page 5: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

Primeira Fase

Composta de três etapas– Remoção de regiões pobres– Cálculo da sobreposição– Remoção de falsas sobreposições

Antes dessas etapas é necessário identificar sobreposições entre fragmentos.

Page 6: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

Primeira Fase Identificação de sobreposição

Criar a seqüência combinada– Os fragmentos f1, f2, ..., fn são concatenados– Caracter especial separa dois fragmentos– f1 # f2 # ... # fn

Para cada fragmentos fx e o seu complemento reverso rx, encontrar o par (fx, fy) e (rx, fy)– tal que x<y e que os fragmentos tenham uma sobreposição

relevante Para cada par com sobreposição uma faixa diagonal da

matriz da programação dinâmica e calculado. (Smith e Waterman 1981)– Essa matriz será usada mais adiante por motivo de eficiência

Page 7: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

Primeira Fase Remoção de Regiões Pobres

1º Fase

Remoção de regiões pobres

Remoção de regiões pobres

Calcular sobreposição

Remoção de falsas sobreposições

Construção de Contigs

Construção de Contigs

Construção do Consenso

Construção do Consenso

2º Fase

3º Fase

Page 8: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

Primeira Fase Remoção de Regiões Pobres (cont.)

Fragmento h

Fragmento f

Fragmento g

Posição de remoção 5’

Posição de remoção 3’

Page 9: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

Primeira Fase Remoção de Regiões Pobres (cont.)

O algoritmo de alinhamento local de Smith e Waterman foi generalizado para usar valores de qualidade de base

pq 10log10

Sendo p a probabilidade do erro estimado para a base

m * min(q1, q2)

n * min(q1, q2)

-g * min(q1, q2)

Page 10: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

Primeira Fase Remoção de Regiões Pobres (cont.)

Os valores que indicam a qualidade da base são usados para permitir que:– Matches em bases que possuem altos valores de

qualidade recebem alta pontuação positiva;– Mismatches em bases que possuem altos valores

de qualidade recebem alta pontuação negativa;– Matches e mismatches em bases que possuem

baixos valores de qualidade recebem pontuações baixas positivas e negativas, respectivamente

Page 11: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

Primeira Fase Remoção de Regiões Pobres (cont.)

Se os valores de qualidade de base foram informados

Maioria dos valores de qualidade são maiores que qualcut (-c)

qualpos5 qualpos3Fragmento f

crange (-y) crange

Caso os valores de qualidade da base não sejam informados– qualpos5 = 1 e qualpos3 = tamanho de f

A cobertura mínima é determinada por gdepth (-z)

Page 12: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

Primeira Fase Cálculo das Sobreposições

1º Fase

Remoção de regiões pobres

Calcular sobreposição

Calcular sobreposição

Remoção de falsas sobreposições

Construção de Contigs

Construção de Contigs

Construção do Consenso

Construção do Consenso

2º Fase

3º Fase

Page 13: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

Primeira Fase Cálculo das Sobreposições (cont.) O alinhamento global é utilizado para calcular

a sobreposição entre fragmentos

Alinhamento global versus Alinhamento local – Utilizando o método global é possível identificar

falsas sobreposições. • mostrar que algumas regiões dos fragmentos não são

similares, indicando que esta sobreposição é falsa.

– O alinhamento local está restrito a regiões similares.

Page 14: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

Primeira Fase Remoção de Sobreposições Falsas

1º Fase

Remoção de regiões pobres

Calcular sobreposição

Remoção de falsas sobreposições

Remoção de falsas sobreposições

Construção de Contigs

Construção de Contigs

Construção do Consenso

Construção do Consenso

2º Fase

3º Fase

Page 15: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

Primeira Fase – Remoção de Sobreposições Falsas (cont.)

Cada sobreposição é avaliada por 5 (cinco) medidas– 1ª Medida

• Informa o comprimento mínimo para a sobreposição (-o)

– 2ª Medida• Determina que o percentual de identidade não deve ser menor

que o valor estabelecido pela opção –p

– 3ª Medida• Determina o valor de similaridade da sobreposição (-s)

• m * min(q1, q2)

• n * min(q1, q2)

• -g * min(q1, q2)

Page 16: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

Primeira Fase – Remoção de Sobreposições Falsas (cont.)

– 4ª Medida• Se a sobreposição contiver um número grande de diferenças

entre bases de altos valores de qualidade, essa sobreposição é provavelmente falsa. (-b e -d)

– 5ª Medida• Se o número de diferenças em uma sobreposição for maior

que o esperado, então é provável que essa sobreposição seja falsa. (-e)

Caso uma dessas medidas falhe, a sobreposição é considerada falsa.

Page 17: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

Segunda FaseConstrução dos Contigs

1º Fase

Remoção de regiões pobres

Calcular sobreposição

Remoção de falsas sobreposições

Construção de Contigs

Construção de Contigs

Construção do Consenso

Construção do Consenso

2º Fase

3º Fase

Page 18: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

Segunda FaseConstrução dos Contigs (cont.)

1ª Etapa– Um layout inicial é gerado

• Método guloso

2ª Etapa– A qualidade do layout corrente é avaliada

– O número de restrições satisfeitas e não satisfeitas é calculado para cada sobreposição

– Restrições não satisfeitas são particionadas em grupos• cada grupo possui restrições associadas com uma

sobreposição não usada ou com um par de contigs

Page 19: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

Segunda FaseConstrução dos Contigs (cont.)

3ª Etapa– O grupo com o maior número de restrições não

satisfeitas é selecionado

– Caso 1• grupo associado a uma sobreposição não usada

– Caso 2 • grupo associado a um par de contigs

– Se nenhuma correção for feita • o processo é repetido com os grupos restantes

– Caso contrário• a 2ª etapa é repetida para o novo layout

Page 20: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

Terceira FaseConstrução do Consenso

1º Fase

Remoção de regiões pobres

Calcular sobreposição

Remoção de falsas sobreposições

Construção de Contigs

Construção de Contigs

Construção do Consenso

Construção do Consenso

2º Fase

3º Fase

Page 21: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

Terceira FaseConstrução do Consenso (cont.)

A soma ponderada dos valores de qualidade é calculada para cada base– Os valores de qualidade são divididos em dois

grupos, um para cada sentido (5’ 3’ - 3’ 5’)– cada grupo é ordenado em ordem decrescente

– pesos: w1=1, wi = 0.5, para i>1

– Ex: 20+, 40-, 30+ e 10-• grupo1: 30+ e 20+ grupo2: 40- e 10-• soma ponderada = 30(1) + 40(1) + 20(0.5) + 10(0.5) = 85

Page 22: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

Terceira FaseConstrução do Consenso (cont.)

Cálculo da média do valor de qualidade

kqqdqdekii

dekiis

ii c 1c 1

kqqeki

id

ic 1

kqqki

in

1

Page 23: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

Terceira FaseConstrução do Consenso (cont.)

mscore

q

Match

s

13

13A

25 A

40

15

30

10

20

A

-

A

C

A

nscore

q

Mismatch

s

10

14T

10 T

30

10

25

20

15

C

-

C

C

T

gscore

q

Deletion

d

5

5

15 -

15

40

25

30

10

C

-

-

-

G

gscore

q

Insertion

n

15

20

15 C

25

30

15

10

20

-

-

-

-

-

Page 24: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

Parâmetros de Entrada do CAP3

CAP3 recebe um arquivo com as seqüências de fragmentos no formato FASTA– Uso: cap3 arquivo_de_fragmentos [opções]

Arquivos opcionais– arquivo contendo os quality values no formato

FASTA, usando extensão .qual– arquivo contendo restrições forward-reverse,

usando extensão .con. • Pode ser gerado usando o programa FORMCON• Formato: ReadA ReadB MinDistance MaxDistance

Page 25: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

Opções

Valor das penalidadesParâmetro descrição

-g N gap N>0 (6)

-m N match N>0 (2)

-n N mismatch N<0 (-5)

Faixa Diagonal

N>10 (20)-a N

descriçãoParâmetro

Page 26: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

Resposta do Programa

Consenso no formato ace– arquivo com extensão .ace

Consenso– arquivo com extensão .contigs

Quality values do consenso– arquivo com extensão .contigs.qual

Fragmentos não são usados na montagem – arquivo com extensão .singlets

Page 27: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

Resposta do Programa (cont.)

Informações adicionais sobre a montagem– arquivo com extensão .info

Satisfação das restrições – arquivo com extensão .results

Page 28: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

Pontos Fortes do CAP3

Uso de forward-reverse constraints para corrigir erros de montagem– Objetivo: localizar e corrigir erros no layout da

seqüência e ligar contigs separados por gaps– Dois fragmentos devem estar em direções

opostas na molécula de DNA e a uma determinada distância.

– O algoritmo usado no CAP3 é tolerante a restrições erradas

Page 29: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

Pontos Fortes do CAP3 (cont.)

Geração do resultado da montagem no formato ace para Consed– Consed – ferramenta gráfica para editar

seqüências CAP3 pode ser usado no GAP4 do pacote

Staden.– GAP4(Genome Assembly Program) é uma

ferramenta gráfica do pacote de ferramentas Staden

Page 30: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

Pontos Fortes do CAP3 (cont.)

Uso de base quality values– Usados no alinhamento de fragmentos e na

construção do consenso.– Melhora a qualidade na geração do consenso

Remoção de regiões pobres, 5’ e 3’– Objetivo

• Utilizar apenas regiões ‘boas’ do fragmento na montagem.

Page 31: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

Pontos Fracos do CAP3

A remoção de regiões ditas pobres, pode excluir áreas importantes no processo de alinhamento

Tempo de processamento

A ferramenta não possui interface gráfica (entretanto pode ser usada no pacote GAP4)

Page 32: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

Resultados do CAP3 Conjunto de dados BAC (Bacterial Artificial Chromossome)

Dados GenBank Nº Nº de frag Tam médio frag Tam seq

203 AC004669 1812 598 89.779

216 AC004638 2353 614 124.645

322F16 AF111103 4297 1011 159.179

526N18 AF123462 3221 965 180.182

Dados Tempo (min) Nº de contigs Tam seq CAP Nº de <>

203 37 1 90.292 0

216 154 1 132.057 17

322F16 127 1 157.982 11

526N18 73 2 180.128 10

Page 33: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

CAP3 versus PHRAP

Conjunto de dados BAC– PHRAP, normalmente, produz cadeias mais

longas de contigs– CAP3 produz menos erros no consenso

Caso os valores de qualidade da base não estejam disponíveis– CAP3 é uma boa escolha já que trata redundância

Page 34: CAP3 (Contig Assembly Program) George Darmiton da Cunha Cavalcanti (gdcc@cin.ufpe.br) UFPE – CIn Junho de 2001

Bibliografia

Xiaoqiu Huang, Anup Madan. CAP3: A DNA Sequence Assembly Program. Genome Research 9:869-877, 1999.

Xiaoqiu Huang. Na Improved Sequence Assembly Program. Genomics 33, 21-31, 1996.

Site oficial na Internet. http://genome.cs.mtu.edu/cap3/cap3.html

Staden Package WWW site. – http://www.mrc-lmb.cam.ac.uk/pubseq/staden_home.html

– http://www.mrc-lmb.cam.ac.uk/pubseq/contig.html