mu ltiplas a rvores de realizacao no problema de geometria de … · 2009. 9. 20. · mu ltiplas a...

12
ultiplas ´ Arvores de Realiza¸c˜ao no Problema de Geometria de Distˆ ancias Aplicado a Mol´ eculas Pedro Costa Nucci Universidade Federal Fluminense Niter´ oi, RJ - Brasil [email protected]ff.br Loana Tito Nogueira Universidade Federal Fluminense Niter´ oi, RJ - Brasil [email protected]ff.br Carlile Lavor Universidade Estadual de Campinas Campinas, SP - Brasil [email protected] Resumo O Problema Molecular de Geometria de Distˆ ancias (PMGD) consiste em determinar as coordenadas cartesianas de cada ´ atomo de uma mol´ ecula, a partir de algumas distˆ ancias co- nhecidas entre seus ´ atomos. Para a formula¸c˜ ao discreta desse problema, um algoritmo Branch- And-Prune (BP) ´ e proposto na literatura. Neste trabalho, apresentamos uma forma alternativa de se utilizar esse algoritmo, atrav´ es de m´ ultiplasexecu¸c˜ oes parciais na mol´ ecula, a fim de se obter melhor desempenho de acordo com cada instˆ ancia do problema. Fornecemos um algo- ritmo que nos permite combinar os resultados de tais execu¸ oes parciais e apresentamos uma primeira heur´ ıstica que faz uso dessa nova estrat´ egia. Palavras-Chave: Geometria de Distˆ ancias. Branch-and-Prune. Otimiza¸ ao Combinat´ o- ria. Abstract The Molecular Distance Geometry Problem (MDGP) consists in determining cartesian coordinates of each atom in one molecule, from some distances between its atoms. For the discrete formulation of this problem, a Branch-And-Prune (BP) algorithm is proposed in the literature. In this paper, we present an alternative way to use this algorithm through multiple partial executions on the molecule, in order to obtain a better performance according to each instance of the problem. We provide an algorithm which enables us to combine the results of each partial executions and we present a first heuristic which makes use of this new strategy. Keywords: Distance Geometry. Branch-and-Prune. Combinatorial Optimization. XLI SBPO 2009 - Pesquisa Operacional na Gestão do Conhecimento Pág. 2634

Upload: others

Post on 18-Jan-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Mu ltiplas A rvores de Realizacao no Problema de Geometria de … · 2009. 9. 20. · Mu ltiplas A rvores de Realizacao no Problema de Geometria de Dista^ncias Aplicado a Mol eculas

Multiplas Arvores de Realizacao no Problema de Geometria deDistancias Aplicado a Moleculas

Pedro Costa NucciUniversidade Federal Fluminense

Niteroi, RJ - [email protected]

Loana Tito NogueiraUniversidade Federal Fluminense

Niteroi, RJ - [email protected]

Carlile LavorUniversidade Estadual de Campinas

Campinas, SP - [email protected]

Resumo

O Problema Molecular de Geometria de Distancias (PMGD) consiste em determinar ascoordenadas cartesianas de cada atomo de uma molecula, a partir de algumas distancias co-nhecidas entre seus atomos. Para a formulacao discreta desse problema, um algoritmo Branch-And-Prune (BP) e proposto na literatura. Neste trabalho, apresentamos uma forma alternativade se utilizar esse algoritmo, atraves de multiplas execucoes parciais na molecula, a fim de seobter melhor desempenho de acordo com cada instancia do problema. Fornecemos um algo-ritmo que nos permite combinar os resultados de tais execucoes parciais e apresentamos umaprimeira heurıstica que faz uso dessa nova estrategia.

Palavras-Chave: Geometria de Distancias. Branch-and-Prune. Otimizacao Combinato-ria.

Abstract

The Molecular Distance Geometry Problem (MDGP) consists in determining cartesiancoordinates of each atom in one molecule, from some distances between its atoms. For thediscrete formulation of this problem, a Branch-And-Prune (BP) algorithm is proposed in theliterature. In this paper, we present an alternative way to use this algorithm through multiplepartial executions on the molecule, in order to obtain a better performance according to eachinstance of the problem. We provide an algorithm which enables us to combine the results ofeach partial executions and we present a first heuristic which makes use of this new strategy.

Keywords: Distance Geometry. Branch-and-Prune. Combinatorial Optimization.

XLI SBPO 2009 - Pesquisa Operacional na Gestão do Conhecimento Pág. 2634

Page 2: Mu ltiplas A rvores de Realizacao no Problema de Geometria de … · 2009. 9. 20. · Mu ltiplas A rvores de Realizacao no Problema de Geometria de Dista^ncias Aplicado a Mol eculas

1 Introducao

A elucidacao da estrutura tridimensional de proteınas e necessaria para compreendermos anatureza de suas funcoes fisiologicas, bem como propriedades importantes. Uma tecnica quevem sendo utilizada e aperfeicoada para isso e a espectroscopia por Ressonancia MagneticaNuclear (RMN) (Gordon e Hitchens (2006)), que nos permite conhecer faixas de valores paradistancias inter-atomicas da molecula analisada, sendo necessario um processamento compu-tacional posterior, para se calcular as possıveis estruturas adotadas pela molecula durante oexperimento.

No Problema Molecular de Geometria de Distancias (PMGD), desejamos encontrar todasas estruturas tridimensionais possıveis para uma molecula, quando conhecemos algumas desuas distancias inter-atomicas. Para os casos em que nao sao conhecidas todas as distanciasinter-atomicas, o PMGD e classificado como um problema NP-Completo (Liberti et al. (2008))e requer uso de tecnicas de otimizacao. Ao assumirmos algumas propriedades para o con-junto de distancias inter-atomicas (condizentes com muitas proteınas), o problema passa a terespaco de busca discreto, e e chamado de Problema Molecular de Geometria de Distancias Dis-creto (PMGDD). Ainda em Liberti et al. (2008), e proposto o algoritmo Branch-And-Prune,que resolve o PMGDD. Neste trabalho, apresentamos uma forma alternativa de se utilizaresse algoritmo, atraves de multiplas execucoes parciais na molecula, a fim de se obter melhordesempenho de acordo com cada instancia do problema.

2 Problema Molecular de Geometria de Distancias

2.1 Conceitos Basicos e Definicoes

2.1.1 Formulacao Contınua

O Problema Molecular de Geometria de Distancias (PMGD) consiste em determinar a estruturatridimensional de uma sequencia linear de atomos, tendo como entrada algumas distancias entreesses atomos. Na pratica, tal sequencia pode ser a cadeia principal de uma proteına, mas oPMGD pode ter outras aplicacoes, como no desenho de grafos tridimensionais (Cruz e Twarog(1996)) e no projeto de redes (Eren et al. (2004)).

Formalmente, o PMGD e definido como um problema de otimizacao contınua, cujo objetivoe encontrar as coordenadas cartesianas x1,x2, ...,xn ∈ R3 para os n atomos de uma moleculaque minimizem a funcao

f(x1,x2, ...,xn) =∑

(i,j)∈S

(‖xi − xj‖2 − d2

ij

)2, (1)

onde S e o conjunto de pares de atomos (i, j) cuja distancia dij e conhecida. Na pratica, emexperimentos de RMN, os pares de atomos que tem distancia inferior a 5A sao conhecidos, in-dependentemente dos atomos serem elementos da sequencia proximos (o Angstrom e a unidadepadrao para distancias de ordem atomica, equivalendo a 10−10m).

2.1.2 Formulacao Discreta

Como proposto em Lavor et al. (2006), o PMGD ganha uma formulacao discreta, ProblemaMolecular de Geometria de Distancias Discreto (PMGDD), se assumirmos as seguintes hipote-

XLI SBPO 2009 - Pesquisa Operacional na Gestão do Conhecimento Pág. 2635

Page 3: Mu ltiplas A rvores de Realizacao no Problema de Geometria de … · 2009. 9. 20. · Mu ltiplas A rvores de Realizacao no Problema de Geometria de Dista^ncias Aplicado a Mol eculas

5A

d 3,15

d 4,15

1 19

15

°

Figura 1: Conjuntos de Distancias E e FA circunferencia delimita o raio de corte de 5A para o atomo 15. Os atomos separados do atomo 15 por ate 3 liga-

coes tem suas distancias conhecidas, estando dentro do raio de corte. Logo os pares (12, 15), (13, 15), ..., (15, 18)

pertencerao ao conjunto E. Nesse exemplo, as distancias para os atomos 3 e 4 tambem sao menores que 5A, e

portanto os pares (3, 15) e (4, 15) pertencerao ao conjunto F.

ses:

1. Todos os pares de atomos (i, j), onde 1 ≤ j − i ≤ 3, tem suas distancias dij conhecidas.

2. Os angulos entre as ligacoes de atomos consecutivos, ou seja, os angulos formados pelosvetores xi+2 − xi+1 e xi+1 − xi, onde 1 ≤ i ≤ n− 3, nunca serao multiplos de π.

Ambas as hipoteses sao aplicaveis a proteınas, uma vez que os angulos entre ligacoes, bemcomo as distancias entre atomos consecutivos da cadeia principal das proteınas ocorrem fre-quentemente com valores ja conhecidos, e esses valores validam as duas hipoteses.

O conjunto S de pares de atomos com distancias conhecidas pode entao ser particionadoem dois subconjuntos (ver figura 1):

• Conjunto E, que compreende todos os pares de atomos (i, j), onde 1 ≤ j − i ≤ 3,decorrencia da hipotese 1.

• Conjunto F dos pares de atomos (i, j), onde j − i > 3, cujas distancias sao conhecidas.

A figura 1 ilustra os dois tipos de pares de atomos atraves de um exemplo.Chamaremos as distancias di,j que estiverem relacionadas aos pares (i, j) ∈ E de distancias

tipo E, e as que estiverem relacionadas aos pares (i, j) ∈ F de distancias tipo F .Apenas pelo conhecimento das distancias tipo E, podemos determinar os cossenos dos

angulos de ligacao θi para os atomos i = 3, ..., n, e os cossenos dos angulos de torcao ωi paraos atomos i = 4, ..., n, atraves da lei dos cossenos e de sua adaptacao para angulos de torcao,apresentada em Pogorelov (1987). Com esses dados, podemos determinar matrizes de torcaopara cada atomo i, e com estas, as coordenadas cartesianas xi (Phillips et al. (1996)). Contudo,para cada atomo i ≥ 4, existem duas matrizes de torcao possıveis, Bi e B′i (uma para cada raizde sinωi = ±

√1− cos2 ωi). Com isso, uma molecula de n atomos tera 2n−3 solucoes possıveis,

XLI SBPO 2009 - Pesquisa Operacional na Gestão do Conhecimento Pág. 2636

Page 4: Mu ltiplas A rvores de Realizacao no Problema de Geometria de … · 2009. 9. 20. · Mu ltiplas A rvores de Realizacao no Problema de Geometria de Dista^ncias Aplicado a Mol eculas

resultado das combinacoes de duas matrizes de torcao de cada atomo i = 4, 5, ..., n. Portanto,o espaco de busca do problema e finito e pode ser explorado atraves das diferentes combinacoesde matrizes de torcao de cada atomo na obtencao de posicoes.

2.2 Algoritmo Branch-And-Prune

Para resolver o PMGDD, foi proposto em Liberti et al. (2008) o algoritmo Branch-And-Prune(BP), cuja ideia principal consiste em explorar o espaco de busca da seguinte forma: a cadapasso i, cada matriz de torcao para o atomo i (Bi e B′i) e conjugada as matrizes de torcaodos atomos anteriores, fornecendo dois posicionamentos xi para o atomo i (branching). Osposicionamentos que nao atenderem as distancias dos pares do conjunto F sao descartados(prunning, ou poda). Com essa abordagem, a exploracao do espaco de busca se da em formade arvore, onde cada nıvel da arvore corresponde a um atomo da molecula.

Inicialmente, como podemos fixar arbitrariamente os tres primeiros atomos da molecula emposicoes que respeitam as distancias tipo E, inicializamos uma arvore com tres nos ligados emserie. Em seguida, o algoritmo explora as combinacoes de matrizes de torcao por uma buscaem profundidade ou em largura, obtendo em cada no de nıvel i as posicoes xi que obedecemas distancias tipo F.

3 Propostas e Resultados

3.1 Conceitos Basicos e Definicoes

Definimos o intervalo [i, j] de uma molecula de n atomos como a subsequencia de seus atomos{i, ..., j}, onde 1 ≤ i ≤ j ≤ n. As relacoes de pertinencia entre atomos e intervalos, bem comoas relacoes de igualdade e inclusao entre intervalos sao analogas aquelas conhecidas em Teoriados Conjuntos. O tamanho de um intervalo [i, j] e j − i.

Uma realizacao Ra,b para o intervalo [a, b] e uma funcao Ra,b : [a, b] 7→ R3 que associaos atomos k ∈ [a, b] a coordenadas cartesianas de um mesmo sistema de coordenadas, dadaspelo vetor Ra,b(k) ∈ R3. Se [a, b] = [1, n], a realizacao e total. Caso contrario, a realizacaoe parcial. Alem disso, se para uma dada instancia todas as distancias tipo E e tipo F rela-tivas a atomos do intervalo sao respeitadas, ou seja, ∀(i, j) ∈ E ∪ F, (i ∈ [a, b] ∧ j ∈ [a, b]) →(d2

i,j = ‖Ra,b(j)−Ra,b(i)‖2)

, a realizacao e satisfatıvel para aquela instancia. Consequente-mente, uma realizacao total e satisfatıvel e uma solucao para a instancia do PMGDD.

Uma arvore de realizacoes Ta,b para o intervalo [a, b] e uma arvore com as seguintespropriedades:

• Cada nıvel k de Ta,b corresponde a um atomo de [a, b], denotado por atomo(k);

• Cada vertice de Ta,b contem uma posicao relativa ao atomo do nıvel da raiz para o atomocorrespondente ao seu nıvel.

Para cada folha de uma arvore de realizacoes Ta,b, percorrer seus nos ancestrais ate chegar araiz nos da uma realizacao Ra,b, ou seja, o numero de realizacoes distintas que uma arvore derealizacoes fornece e igual a seu numero de folhas.

Podemos classificar essas arvores de acordo com o sentido de crescimento de seus nıveis emrelacao aos atomos da molecula. Seja Ta,b uma arvore de realizacoes. Ta,b e positiva (podendo

XLI SBPO 2009 - Pesquisa Operacional na Gestão do Conhecimento Pág. 2637

Page 5: Mu ltiplas A rvores de Realizacao no Problema de Geometria de … · 2009. 9. 20. · Mu ltiplas A rvores de Realizacao no Problema de Geometria de Dista^ncias Aplicado a Mol eculas

i

[i,n]

1 n

[1,k]

j k

R :i,n

i

j

k

n

T :i,n

i

j

k

n

n

n

nnn

Figura 2: Conceitos Basicos e DefinicoesNo exemplo acima, dois intervalos ([1, k] e [i, n]) estao indicados. Para o intervalo [i, n], esta exemplificada

uma realizacao Ri,n e uma arvore de realizacoes Ti,n, a qual contem muitas realizacoes possıveis, dentre elas

justamente Ri,n (em preto).

ser denotada como T+a,b), se para cada nıvel k, atomo(k) = a + k. Ta,b e negativa (podendo

ser denotada como T−a,b), se para cada nıvel k, atomo(k) = b− k.

3.2 Utilizando Multiplas Arvores de Realizacao

O desempenho do algoritmo BP pode ser diferente se o executarmos em sentido contrario(gerando uma arvore negativa partindo do atomo n). O mesmo se aplica a intervalos damolecula (pois nao passam de subproblemas). Portanto, pode ser mais eficiente executar o BPseparadamente em determinados intervalos, o que nos fornecera multiplas arvores de realizacoesparciais a serem combinadas.

3.2.1 Juncao de duas realizacoes parciais

Sejam Ra,x e Rb,y duas realizacoes parciais que possuem 3 atomos nao-colineares em comum,onde a < b < x < y (a existencia desses 3 atomos implica que x−b ≥ 3). Podemos combina-las,formando uma unica nova realizacao Ra,y. Arbitrariamente escolhemos a realizacao Ra,x comobase para a construcao de Ra,y. Para completar a sequencia de coordenadas de Ra,y, ainda epreciso cobrir o intervalo [x + 1, y], e fazemos isso utilizando as coordenadas de Rb,y. Sejami, j e k os 3 atomos comuns as realizacoes originais Ra,x e Rb,y. Para que as coordenadas dointervalo [x+ 1, y] estejam de acordo com todas as distancias E da instancia, devemos alinharRb,y a Ra,x, ou seja, encontrar R′b,y, de modo que

XLI SBPO 2009 - Pesquisa Operacional na Gestão do Conhecimento Pág. 2638

Page 6: Mu ltiplas A rvores de Realizacao no Problema de Geometria de … · 2009. 9. 20. · Mu ltiplas A rvores de Realizacao no Problema de Geometria de Dista^ncias Aplicado a Mol eculas

R′b,y(i) = Ra,x(i),R′b,y(j) = Ra,x(j),R′b,y(k) = Ra,x(k).

(2)

Inicialmente, R′b,y sera igual a Rb,y. A primeira igualdade de (2) pode ser obtida atraves deuma simples translacao de R′b,y. O vetor de translacao v e dado por v = Ra,x(i)−Rb,y(i).

Para atingirmos a segunda igualdade de (2), apos a translacao, precisamos aplicar umarotacao em torno do eixo perpendicular aos dois vetores (um de Ra,x e outro de R′b,y) que ligamo atomo i ao atomo j. Esses vetores sao Lj = Ra,x(j)−Ra,x(i) e L′j = R′b,y(j)−R′b,y(i). Oeixo de rotacao pode ser encontrado atraves do produto vetorial Lj ×L′j. O angulo de rotacaoe o angulo formado por esses vetores, que pode ser calculado pela lei dos cossenos.

Para alinharmos o atomo k, atingindo a terceira e ultima igualdade de (2), precisamos deoutra rotacao. Os atomos i e j, ja alinhados, determinam o unico eixo de rotacao possıvelpara que Rby continue respeitando as duas primeiras igualdades. O angulo de rotacao emtorno desse eixo e calculado com a ajuda dos dois vetores (um para cada realizacao) que ligamo atomo j ao atomo k, Lk = Ra,x(k) − Ra,x(j) e L′k = R′b,y(k) − R′b,y(j). Entretanto,agora o que interessa e o angulo formado por suas projecoes no plano perpendicular ao eixode rotacao. Para o calculo dessas projecoes, usamos a matriz de projecao M (orientada pelovetor Lj), dada por M = Lj · LT

j . Os vetores de projecao no plano sao calculados atraves dePk = M·Lk e P′k = M·L′k. O angulo entre eles pode ser calculado pela lei dos cossenosnovamente.

3.2.2 Juncao de duas arvores de realizacao

Agora que temos uma maneira de combinar duas realizacoes com 3 atomos em comum (3 ato-mos consecutivos sempre serao nao-colineares pela definicao do PMGDD), podemos combinararvores de realizacoes com 3 atomos em comum, pois, obviamente, suas realizacoes tambem oterao. De acordo com o sentido de crescimento das arvores, diferentes tipos de juncao podemocorrer, descritos a seguir.

1 n(a) (b) (c)

Figura 3: Juncoes de arvores de realizacoes.

XLI SBPO 2009 - Pesquisa Operacional na Gestão do Conhecimento Pág. 2639

Page 7: Mu ltiplas A rvores de Realizacao no Problema de Geometria de … · 2009. 9. 20. · Mu ltiplas A rvores de Realizacao no Problema de Geometria de Dista^ncias Aplicado a Mol eculas

Algoritmo 1 Juncao de duas arvoresJuncaoArvores(Ta,x, Tb,y)

sejam La,x e Lb,y as listas com as realizacoes de cada arvore//combinar as listas mantendo apenas as realizacoes validasNovas← {}para cada realizacao Ra,x ∈ La,x

para cada realizacao Rb,y ∈ Lb,y

alinhar Rb,y com Ra,x

valido← truepara cada par (i, j) ∈ F tal que a ≤ i ≤ x e b ≤ j ≤ y

se(‖Rb,y(j)−Ra,x(i)‖2 − d2

ij

)2> ε entao

valido← falsesair do loop

se valido entaocriar uma realizacao R′, tal que R′(i) = Ra,x(i) para a ≤ i ≤ x, e

R′(x) = Rb,y(x) para b ≤ i ≤ yNovas← Novas ∪ {R′}

Retorna NovasFim

Uma Juncao Raiz-Raiz acontece quando duas arvores de sentidos opostos T−a,x e T+b,y crescem

a partir de atomos proximos, mais especificamente com x− b ≥ 3. Elas ja possuem, desde suainicializacao, a capacidade de serem combinadas (figura 3-c).

Uma Juncao Folha-Raiz acontece entre duas arvores de mesmo sentido T1 e T2, quando T1

alcanca o atomo relacionado com a raiz de T2 (figura 3-a). Para que haja 3 atomos comuns asduas arvores, e preciso que T1 cresca mais dois nıveis. Com isso, passaremos a ter duas arvoresT1 = Ta,x e T2 = Tb,y, onde x− b ≥ 3.

Uma Juncao Folha-Folha acontece quando ambas as arvores crescem uma em direcao aoutra (figura 3-b). Digamos que, em um dado momento, duas arvores (uma positiva e umanegativa) alcancam um mesmo atomo i. Para que haja 3 atomos comuns as duas arvores, epreciso que elas crescam mais dois nıveis. Com isso, teremos entao duas arvores T+

a,x e T−b,y,onde x− b ≥ 3.

O algoritmo 1 fornece uma maneira de fazer a juncao das duas arvores Ta,x e Tb,y, produzindorealizacoes do intervalo [a, y], e e aplicavel aos tres tipos de juncoes.

3.2.3 Controle de Crescimento

Somente nos casos de juncao Folha-Folha o atomo em que ocorrera a juncao nao e predefinido edepende do crescimento das duas arvores. Com o objetivo de minimizar o tempo de execucao ea quantidade total de nos expandidos (referente as duas arvores), podemos usar a heurıstica dedar prioridade de crescimento a arvore que possua menos folhas num dado momento. Contudo,essa e uma heurıstica gulosa, que nao leva em consideracao a possibilidade de ser mais vantajosodeixar a arvore que tem mais folhas crescer, quando, por exemplo, ela esta a poucos nıveis deuma grande poda. O algoritmo 2 sintetiza essa estrategia.

XLI SBPO 2009 - Pesquisa Operacional na Gestão do Conhecimento Pág. 2640

Page 8: Mu ltiplas A rvores de Realizacao no Problema de Geometria de … · 2009. 9. 20. · Mu ltiplas A rvores de Realizacao no Problema de Geometria de Dista^ncias Aplicado a Mol eculas

Algoritmo 2 Controle de crescimentoControleDeCrescimento(a, y)

//inicializar as duas arvoresT+

a,x ← inicializaArvore(a,+)T−b,y ← inicializaArvore(y,−)//verificar se as folhas de cada arvore atingiram o mesmo atomoenquanto atomo(x) 6= atomo(b)

seja f+ a quantidade de folhas de T+a,x e f− a quantidade de folhas de T−b,y

se f+ > f−entaoBranchAndPrune(T+

a,x)senao

BranchAndPrune(T−b,y)//crescer mais 2 niveis e fazer a juncaoBranchAndPrune(T+

a,x)BranchAndPrune(T−b,y)retorna JuncaoArvores(T+

a,x, T−b,y)

Fim

4 Experimentos com duas arvores

A seguir, vamos analisar experimentos com algumas instancias artificiais, geradas de acordocom Lavor (2006), e reais, produzidas a partir de estruturas de proteınas obtidas no ProteinData Bank (PDB). Todos os algoritmos foram implementados utilizando linguagem C++ e abiblioteca padrao STL (Standard Template Library) e compilados com Microsoft Visual C++2005. Os testes foram executados em um computador com processador Intel Core2Duo 2.2GHz,com 2GB de memoria RAM.

Utilizaremos uma representacao grafica que nos permita enxergar como estao distribuıdosao longo da molecula os pares do conjunto F . Faremos isso com um grafico de x× P (x), ondex e um atomo da molecula e P (x) e a funcao que expressa a soma dos tamanhos de intervalorelacionados aos pares do conjunto F cujo ultimo atomo a ser alcancado pelo BP, num dadosentido, e x. Sejam F+

x = {(i, x) ∈ F} e F−x = {(x, j) ∈ F}, P (x) e definido, para cada sentido,pelas expressoes abaixo:

P+(x) =∑

(i,x)∈F+x

(x− i) e P−(x) =∑

(x,j)∈F−x

(j − x).

A figura 4 mostra o conjunto F de instancias artificiais testadas, descritas atraves de umarepresentacao de arcos (na qual cada par (i, j) ∈ F e representado por um arco que liga oatomo i ao atomo j), seus respectivos graficos de P+(x) e P−(x), e o tempo de execucao dosseguintes metodos (tambem relacionados na tabela 1):1. Uma arvore positiva T+

1,n (BP original), implementada com busca em largura;2. Uma arvore positiva T+

1,n (BP original), implementada com busca em profundidade;3. Uma arvore negativa T−1,n, implementada com busca em largura;4. Uma arvore negativa T−1,n, implementada com busca em profundidade;5. Duas arvores crescendo dos extremos em direcao ao centro, com controle de crescimento

XLI SBPO 2009 - Pesquisa Operacional na Gestão do Conhecimento Pág. 2641

Page 9: Mu ltiplas A rvores de Realizacao no Problema de Geometria de … · 2009. 9. 20. · Mu ltiplas A rvores de Realizacao no Problema de Geometria de Dista^ncias Aplicado a Mol eculas

Instancia n Tempo de execucao de cada metodo (ms)1 2 3 4 5 6

a 16 94 94 281 266 93 140b 16 94 94 109 94 438 312c 35 1141 1171 1125 1172 8485 13391d 35 7203 6672 8079 8203 16 3719e 35 922 844 1031 1609 1906 15f 35 594 953 156 172 93 718

Tabela 1: Testes com Instancias Artificiais

Instancia n Tempo de execucao por cada metodo (ms)1 2 3 4 5 6

1T1K-a (Insulina) 63 1250 1391 2688 3437 1281 16412UUF-a (Trombina) 84 141 156 109 141 391 109

1DFN-a (Defensina Humana) 90 45500 52031 78 94 328 9221DFN-b (Defensina Humana) 90 * * 969 1172 8453 141672

1HPY (Hormonio PTH) 102 172 219 78 94 234 1101SFV (Fosfolipase A2) 372 343 453 20985 25328 2109 6234

Tabela 2: Testes com Instancias Reais* testes nao concluıdos, cuja execucao foi interrompida devido a grande quantidade de memoria alocada

(juncao Folha-Folha);6. Duas arvores crescendo do centro para os extremos (juncao Raiz-Raiz).

A variabilidade das instancias mostrou que diferentes casos exigem diferentes abordagens,importando o sentido e a quantidade das arvores (ver figura 4). Podemos perceber que quantomais cedo uma arvore e podada, melhor o desempenho do algoritmo que a utiliza. Isso podeser verificado nas instancias (d) e (e), para as quais os metodos 5 e 6, respectivamente, saoos melhores. Como consequencia, instancias cuja representacao em arcos apresenta simetria(como as instancias (b), (c), (d) e (e)) foram solucionadas pelos metodos 1 e 2 em temposmuito proximos aos metodos 3 e 4.

O mau desempenho dos metodos de duas arvores para as instancias (b) e (c) se deve naoao crescimento das arvores, mas sim a juncao delas, por terem muitas folhas no ponto em quesofrem juncao. O metodo 5 se comporta de maneira versatil, deixando a arvore de menos folhaspercorrer a maior parte da molecula, e nao e tao sensıvel a distribuicoes menos uniformes dedistancias tipo F quanto o BP, mantendo bom desempenho em instancias como (f) e (a).

Os mesmos metodos foram testados em instancias produzidas a partir da cadeia principalde proteınas reais (ver figura 5 e tabela 2). Como a juncao de arvores de realizacao e umprocedimento custoso, para ser justificado o uso de mais de uma arvore, e necessario que asarvores estejam bem posicionadas na molecula (como ocorreu com o metodo 5 na instancia(1SFV)), para que aproveitem as distancias tipo F o mais cedo possıvel, efetuando podas, etendo poucas folhas no momento da juncao. Assim como foi visto nas instancias artificiais, oscasos em que as arvores tem um certo intervalo escasso em distancias tipo F a ser percorrido(como as instancias (1DFN-a) e (1DFN-b)) acabam priorizando um sentido para as arvores, oque nao pode ser previsto pelo BP original. O metodo 5 mostrou que pode lidar melhor comesse tipo de topologia do conjunto F.

XLI SBPO 2009 - Pesquisa Operacional na Gestão do Conhecimento Pág. 2642

Page 10: Mu ltiplas A rvores de Realizacao no Problema de Geometria de … · 2009. 9. 20. · Mu ltiplas A rvores de Realizacao no Problema de Geometria de Dista^ncias Aplicado a Mol eculas

P (x)+

Tempo/Método

P (x)-

Arcos

(d) (e) (f)

0

2

4

6

8

1 3 5 7 9 11 13 15

0

2

4

6

8

1 3 5 7 9 11 13 15

P (x)+

Tempo/Método

P (x)-

0

2

4

6

8

1 3 5 7 9 11 13 15

0

2

4

6

8

1 3 5 7 9 11 13 15

Arcos

(a) (b)

0 200 400 600

1

2

3

4

5

6

0 100 200 300

1

2

3

4

5

6

0 5000 10000 15000

1

2

3

4

5

6

0

50

100

150

200

250

300

1 4 7 10 13 16 19 22 25 28 31 34

0

50

100

150

200

250

300

1 4 7 10 13 16 19 22 25 28 31 34

(c)

0

50

100

150

200

1 4 7 10 13 16 19 22 25 28 31 34

0

50

100

150

200

1 4 7 10 13 16 19 22 25 28 31 34

0 5000 10000

1

2

3

4

5

6

0

50

100

150

200

1 4 7 10 13 16 19 22 25 28 31 34

0

50

100

150

200

1 4 7 10 13 16 19 22 25 28 31 34

0 1000 2000 3000

1

2

3

4

5

6

0

50

100

150

200

250

1 4 7 10 13 16 19 22 25 28 31 34

0

50

100

150

200

250

1 4 7 10 13 16 19 22 25 28 31 34

0 500 1000 1500

1

2

3

4

5

6

Figura 4: Testes com Instancias ArtificiaisXLI SBPO 2009 - Pesquisa Operacional na Gestão do Conhecimento Pág. 2643

Page 11: Mu ltiplas A rvores de Realizacao no Problema de Geometria de … · 2009. 9. 20. · Mu ltiplas A rvores de Realizacao no Problema de Geometria de Dista^ncias Aplicado a Mol eculas

P (x)+

Tempo/Método

P (x)-

(1DFN-b) (1HPY) (1SFV)

P (x)+

Tempo/Método

P (x)-

(1T1K-a) (2UUF-a) (1DFN-a)

0

50

100

1501

35

69

103

137

171

205

239

273

307

341

0

50

100

150

200

1

35

69

103

137

171

205

239

273

307

341

0 10000 20000 30000

1

2

3

4

5

6

0

20

40

60

80

1 6 11 16 21 26 31 36 41 46 51 56 61

0

20

40

60

80

100

1 6 1116212631364146515661

0 2000 4000

1

2

3

4

5

6

0

20

40

60

80

100

120

1 7 131925313743495561677379

0

20

40

60

80

100

120

1 7 131925313743495561677379

0 200 400 600

1

2

3

4

5

6

0

50

100

150

1 8 1522293643505764717885

0

50

100

150

200

1 8 1522293643505764717885

0 20000 40000 60000

1

2

3

4

5

6

0

50

100

150

1 8 1522293643505764717885

0

50

100

150

200

1 8 1522293643505764717885

0 200000 400000 600000

1

2

3

4

5

6

0

20

40

60

80

1

10

19

28

37

46

55

64

73

82

91

100

0

20

40

60

80

1

10

19

28

37

46

55

64

73

82

91

100

0 100 200 300

1

2

3

4

5

6

Figura 5: Testes com Instancias Reais

XLI SBPO 2009 - Pesquisa Operacional na Gestão do Conhecimento Pág. 2644

Page 12: Mu ltiplas A rvores de Realizacao no Problema de Geometria de … · 2009. 9. 20. · Mu ltiplas A rvores de Realizacao no Problema de Geometria de Dista^ncias Aplicado a Mol eculas

5 Conclusoes

Neste trabalho, foram apresentadas ideias iniciais que viabilizam o uso de multiplas arvores naresolucao do PMGDD. Atraves de transformacoes euclidianas, foi mostrada uma forma de secombinar realizacoes de intervalos distintos. Foram estudados os tres casos possıveis de juncoesentre arvores de realizacoes, sendo apresentado um algoritmo aplicavel a esses tres casos. Alemdisso, foi mostrada uma primeira heurıstica para a estrategia de uso de multiplas arvores, queconsiste em regular o crescimento de duas arvores que sofrerao juncao Folha-Folha. Com aestrategia de multiplas arvores, fica aberto um espaco para a investigacao de novas heurısticaspara o PMGDD.

Referencias

Cruz, I. F., e J. P. Twarog (1996), 3d graph drawing with simulated annealing, Graph Drawing,Symposium on Graph Drawing, GD 95, Passau, Germany.

Eren, T., D. Goldenberg, W. Whiteley, Y. Yang, A. Morse, B. Anderson, e P. Belhumeur(2004), Rigidity, computation and randomization in network localization, IEEE InfoCom2004 Proceedings, pp. 2673–2684.

Gordon, S., e T. Hitchens (2006), Fundamentals of Protein NMR Spectroscopy, Springer.

Lavor, C. (2006), On generating instances for the molecular distance geometry problem, inGlobal Optimization: from Theory to Implementation, vol. 84, pp. 405–414, Springer.

Lavor, C., L. Liberti, e N. Maculan (2006), The discretizable molecular distance geometryproblem, arXiv:q-bio/0608012v1.

Liberti, L., C. Lavor, e N. Maculan (2008), A branch-and-prune algorithm for the moleculardistance geometry problem., International Transactions in Operational Research, 15, 1–17.

Phillips, A. T., J. B. Rosen, e V. H. Walke (1996), Molecular structure determination byconvex underestimation of local energy minima, DIMACS Series in Discrete Mathematicsand Theoretical Computer Science, 23, 181–198.

Pogorelov, A. (1987), Geometry, Mir Publishers.

XLI SBPO 2009 - Pesquisa Operacional na Gestão do Conhecimento Pág. 2645