relatório de trabalho final de curso · relatório de trabalho final de curso do curso de...

101
Nuno Dias Mendes, David Varela Nunes i N.º da Proposta: 16 Título: Geração de código IUPAC Professor Orientador: Ana Teresa Freitas ________(assinatura)___________ Co-Orientador: Arlindo Limede Oliveira ________(assinatura)___________ Alunos: 44060, Nuno Dias Mendes ________(assinatura)___________ 48245, David Varela Nunes ________(assinatura)___________ Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004 Departamento de Engenharia Informática

Upload: others

Post on 19-Nov-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004

Nuno Dias Mendes David Varela Nunes i

Nordm da Proposta 16

Tiacutetulo Geraccedilatildeo de coacutedigo IUPAC

Professor Orientador

Ana Teresa Freitas ________(assinatura)___________

Co-Orientador

Arlindo Limede Oliveira ________(assinatura)___________

Alunos

44060 Nuno Dias Mendes ________(assinatura)___________

48245 David Varela Nunes ________(assinatura)___________

Relatoacuterio de

TRABALHO FINAL DE CURSO do Curso de

LICENCIATURA EM ENGENHARIA INFORMAacuteTICA E DE COMPUTADORES (LEIC)

Ano Lectivo 2003 2004 Departamento de Engenharia Informaacutetica

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes ii

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes iii

1 Introduccedilatildeo 1

2 Descriccedilatildeo do Problema 3

3 Extracccedilatildeo de Motivos 7

31 Algoritmo SMILE 7

32 Gerador de Dados Sinteacuteticos 11

4 Anaacutelise Estatiacutestica 13

41 Teste do 2 13

42 Meacutetodo de Shuffling 15

43 Meacutetodo Analiacutetico 19

5 Geraccedilatildeo de Coacutedigo IUPAC 23

6 Resultados e Conclusotildees 31

61 Resultados Obtidos com Dados Sinteacuteticos 31

62 Resultados Obtidos com Dados Reais 38

63 Conclusotildees 46

7 Referecircncias 47

Anexo A - Resultados do Caacutelculo da Significacircncia Estatiacutestica referente ao Quoacuterum para Conjuntos de Dados de Saccharomyces cerevisiae 49

Anexo B - Comparaccedilatildeo da Significacircncia Estatiacutestica referente agrave Abundacircncia obtida pelo Meacutetodo de Shuffling e pelo Meacutetodo Analiacutetico 69

Anexo C - Resultados do Caacutelculo da Significacircncia Estatiacutestica referente agrave Abundacircncia pelo Meacutetodo Analiacutetico para Conjuntos de Dados de Saccharomyces cerevisiae 79

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes iv

Lista de Siglas

DNA (ou ADN) - aacutecido desoxirribonucleico

IUPAC - International Union for Pure and Applied Chemistry designa neste trabalho o

coacutedigo de sequecircncias degeneradas de bases nucleicas estabelecido por esta organizaccedilatildeo

RNA (ou ARN) - aacutecido ribonucleico

SMILE - Structured Motif Inference and Evaluation

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes v

Lista de Figuras

Figura 21 Representaccedilatildeo de cadeias de DNA em forma de dupla heacutelice 3

Figura 22 Expressatildeo geacutenica em eucariotas (A) e procariotas (B) 4

Figura 23 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em procariotas 5

Figura 24 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em eucariotas 5

Figura 31 Exemplo de uma especificaccedilatildeo de um modelo estruturado 8

Figura 32

(a) Exemplo de especificaccedilatildeo (b) Modelo retirado de uma sequecircncia que cumpre a especificaccedilatildeo 8

Figura 33

Aacutervore de sufixos generalizada para as sequecircncias TACTA$ (sequecircncia 1) e CACTCA$ (sequecircncia 2) 9

Figura 34 Esquema da procura de motivos estruturados usando uma aacutervore de sufixos 10

Figura 35 Exemplo de um ficheiro de especificaccedilatildeo para a geraccedilatildeo de dados sinteacuteticos 11

Figura 41

Multi-grafo gerado pela sequecircncia ATTATTTATT para k=4 com 2 passeios aleatoacuterios 16

Figura 42

Histograma das ocorrecircncias observadas do motivo TTTTAA em 100 simulaccedilotildees de shuffling do conjunto de dados da H pylori 17

Figura 43

Graacutefico da evoluccedilatildeo da significacircncia estatiacutestica com o aumento do valor de k para um motivo de tamanho 8 extraiacutedo do conjunto de dados da H pylori 18

Figura 44 Conjunto de dados exemplo 19

Figura 45 Exemplo de uma cadeia de Markov para k=3 20

Figura 51 Representaccedilatildeo das sequecircncias ATA (1) e TTA (2) 26

Figura 52 Representaccedilatildeo da cobertura WTA (1) 27

Figura 53 Interface para geraccedilatildeo de coacutedigo IUPAC integrada na Dbyeast 29

Figura 61 Significacircncia estatiacutestica para motivos simples de tamanho 6 32

Figura 62 Significacircncia estatiacutestica para motivos simples de tamanho 7 32

Figura 63 Significacircncia estatiacutestica para modelos estruturados em dados sinteacuteticos 34

Figura 64

Significacircncia estatiacutestica de motivos simples de tamanho 6 usando o meacutetodo analiacutetico 36

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes vi

Figura 65

Significacircncia estatiacutestica de motivos simples de tamanho 7 usando o meacutetodo

analiacutetico 36

Figura 66

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o

conjunto de dados MSN4 com 0 erro 39

Figura 67

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados MSN4 com 1 erro 40

Figura 68

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados STE12 com 0 erros 41

Figura 69

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados STE12 com 1 erro 41

Figura 610

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados MSN4 com 0 erros 43

Figura 611

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados MSN4 com 1 erro 43

Figura 612

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados STE12 com 0 erros 44

Figura 613

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados STE12 com 1 erro 45

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes vii

Lista de Tabelas

Tabela 41 Tabela de contingecircncia para o caacutelculo do 2

13

Tabela 51 Coacutedigo IUPAC 23

Tabela 52 Codificaccedilatildeo binaacuteria dos siacutembolos IUPAC 24

Tabela 61 Posiccedilotildees dos motivos especificados 33

Tabela 62 Posiccedilotildees do motivo estruturado especificado 34

Tabela 63 Posiccedilotildees dos modelos especificados 37

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes viii

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes ix

Agradecimentos

Gostariacuteamos de agradecer agrave nossa orientadora Professora Ana Teresa Freitas pela forma

como sempre orientou o nosso trabalho pela inestimaacutevel disponibilidade pelo interesse

demonstrado e pela iacutempar capacidade de motivaccedilatildeo

Agradecemos tambeacutem ao nosso co-orientador Professor Arlindo Oliveira pela sua

disponibilidade e opiniatildeo criacutetica que sempre contribuiu para o enriquecimento do nosso

trabalho

Agrave Susana Vinga pelo importante contributo na anaacutelise estatiacutestica e pela sua diligente

disponibilidade

Agrave Joana Fradinho Luiacutes Figueiredo e Petra Jelinkova pela disponibilizaccedilatildeo de conjuntos de

dados essenciais para a prossecuccedilatildeo deste trabalho

Agrave Alexandra Carvalho por ter tido a disponibilidade de ler a primeira versatildeo deste relatoacuterio e

contribuiacutedo com pertinentes sugestotildees

Aos nossos colegas da sala 138 pela camaradagem e companhia nas longas horas passadas no

INESC

Aos colegas da sala 128 pela motivaccedilatildeo e constante disponibilidade

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes x

Resumo

A grande quantidade de dados disponiacuteveis na aacuterea da Biologia requer meacutetodos de extracccedilatildeo de

conhecimento poderosos sistemaacuteticos e eficientes Em particular a identificaccedilatildeo de

sequecircncias de nucleoacutetidos designadas de consensos onde se ligam factores de transcriccedilatildeo

responsaacuteveis em parte pelo mecanismo de regulaccedilatildeo geacutenica eacute essencial para uma

compreensatildeo do papel de cada gene

Actualmente existem vaacuterios algoritmos cujo objectivo eacute encontrar sequecircncias candidatas a

sequecircncias de consenso Estes algoritmos podem ser divididos em duas classes meacutetodos

restritivos e meacutetodos proliacuteficos Os meacutetodos restritivos obtecircm poucas respostas com elevada

precisatildeo enquanto que os meacutetodos proliacuteficos obtecircm muitas respostas com baixa precisatildeo

exigindo um esforccedilo de poacutes-processamento

Neste trabalho utilizamos o SMILE [1] que eacute um meacutetodo proliacutefico para a extracccedilatildeo de

sequecircncias de consenso na regiatildeo promotora dos genes Face ao nuacutemero significativo das

respostas obtidas pretende-se com este trabalho avaliar possiacuteveis soluccedilotildees de poacutes-

processamento de modo a garantir a utilidade da informaccedilatildeo extraiacuteda para os utilizadores do

algoritmo Assim definiram-se dois grandes objectivos

A avaliaccedilatildeo de meacutetodos estatiacutesticos que permitam aferir a significacircncia bioloacutegica das

respostas obtidas

A obtenccedilatildeo de uma descriccedilatildeo compacta da informaccedilatildeo extraiacuteda

Palavras-chave Gene regulaccedilatildeo geacutenica regiatildeo promotora sequecircncias degeneradas IUPAC

avaliaccedilatildeo estatiacutestica de biosequecircncias SMILE extracccedilatildeo de motivos

Relatoacuterio Intercalar de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 1

1 Introduccedilatildeo

A crescente disponibilidade de dados sobre o genoma de vaacuterios organismos tem possibilitado

o aparecimento de novos projectos na aacuterea da biologia No entanto a quantidade massiva de

dados disponiacuteveis torna impossiacutevel uma anaacutelise manual da informaccedilatildeo sendo cada vez mais

premente a necessidade de um processamento automaacutetico dos dados obtidos

Neste contexto a identificaccedilatildeo e modelaccedilatildeo da regiatildeo promotora dos genes assume um papel

fundamental pois as condiccedilotildees de activaccedilatildeo e transcriccedilatildeo de um gene dependem das

sequecircncias de nucleoacutetidos aiacute presentes

As sequecircncias de nucleoacutetidos da regiatildeo promotora que determinam a transcriccedilatildeo do gene satildeo

denominadas de promotores e satildeo representadas por sequecircncias de consenso ou

simplesmente consensos A literatura refere vaacuterias formas de descriccedilatildeo destes consensos

desde a utilizaccedilatildeo de uma matriz de pesos a uma sequecircncia de bases mais frequentes Neste

trabalho utilizamos uma codificaccedilatildeo IUPAC destas sequecircncias que corresponde a um

conjunto de sequecircncias degeneradas em que cada siacutembolo representa um conjunto de

nucleoacutetidos possiacuteveis para uma dada posiccedilatildeo

Actualmente existem vaacuterios algoritmos cujo objectivo eacute encontrar sequecircncias candidatas a

sequecircncias de consenso nas regiotildees promotoras As sequecircncias que satildeo reportadas como

possiacuteveis consensos satildeo designadas de motivos Os algoritmos de pesquisa de motivos podem

ser agrupados de uma forma geral em dois tipos algoritmos restritivos e algoritmos

proliacuteficos

Os algoritmos restritivos concentram-se em encontrar poucos motivos mas de relevacircncia

assinalaacutevel enquanto que os algoritmos proliacuteficos preocupam-se em determinar todos os

motivos que possam ser encontrados de acordo com determinados paracircmetros de pesquisa

Os algoritmos designados de proliacuteficos tecircm a vantagem de natildeo fazerem suposiccedilotildees a priori

No entanto a grande quantidade de motivos encontrados requer um esforccedilo de poacutes-

processamento significativo

Este trabalho tem por objectivo o desenvolvimento de uma metodologia que permita o

processamento automaacutetico dos motivos encontrados por um algoritmo que pode ser

classificado de proliacutefico o algoritmo SMILE [1]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 2

No Capiacutetulo 2 apresentamos uma descriccedilatildeo do problema em anaacutelise evidenciando a

motivaccedilatildeo bioloacutegica e fazendo o seu enquadramento com os objectivos do trabalho

No Capiacutetulo 3 descrevemos o algoritmo SMILE no contexto do problema da extracccedilatildeo de

motivos e apresentamos um gerador de dados sinteacuteticos que seraacute usado como ponto de partida

do estudo da eficaacutecia do algoritmo

No Capiacutetulo 4 discutimos a utilizaccedilatildeo de meacutetodos estatiacutesticos para aferir a significacircncia

bioloacutegica dos motivos extraiacutedos pelo SMILE

No Capiacutetulo 5 apresentamos um meacutetodo para geraccedilatildeo de uma representaccedilatildeo compacta de

motivos extraiacutedos usando a codificaccedilatildeo IUPAC

Finalmente no Capiacutetulo 6 apresentamos vaacuterios resultados obtidos tanto com dados sinteacuteticos

como com dados reais discutindo a aplicabilidade dos meacutetodos estatiacutesticos apresentados no

Capiacutetulo 4

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 3

2 Descriccedilatildeo do Problema

A moleacutecula de DNA eacute responsaacutevel pela manutenccedilatildeo da informaccedilatildeo geneacutetica de cada indiviacuteduo

e eacute constituiacuteda por duas cadeias de nucleoacutetidos dispostas de modo a formar uma dupla

heacutelice [2] que se encontra representada na Figura 21 Cada nucleoacutetido eacute formado por trecircs

elementos um accediluacutecar um grupo fosfato e uma de quatro bases azotadas As quatro bases satildeo

a Adenina (A) a Timina (T) a Guanina (G) e a Citosina (C) e podem ser vistas como os

quatro elementos de um alfabeto

Figura 21

Representaccedilatildeo de cadeias de DNA em forma de dupla heacutelice

As duas cadeias de DNA satildeo complementares no sentido em que as bases das duas cadeias

estatildeo emparelhadas Assim uma Adenina de uma cadeia emparelha com uma Timina da

cadeia complementar e do mesmo modo uma Citosina emparelha com uma Guanina

Os genes satildeo segmentos de uma cadeia de DNA que controlam a siacutentese proteica e

consequentemente toda a actividade celular O genoma eacute o conjunto de genes de um

indiviacuteduo

A expressatildeo geacutenica eacute o processo atraveacutes do qual a informaccedilatildeo contida nos genes dirige a

siacutentese de proteiacutenas Este processo envolve dois passos transcriccedilatildeo e traduccedilatildeo

A transcriccedilatildeo consiste na transferecircncia da informaccedilatildeo contida no DNA para uma moleacutecula

intermediaacuteria de RNA designada de RNA-mensageiro ou mRNA De seguida o molde de

mRNA eacute usado no passo de traduccedilatildeo onde iraacute dirigir a siacutentese proteica

Este processo eacute semelhante em todos os organismos vivos embora existam diferenccedilas

assinalaacuteveis entre organismos eucariotas e procariotas isto eacute entre organismos com e sem

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 4

nuacutecleo individualizado respectivamente Em particular o mecanismo eacute consideravelmente

mais complexo em organismos eucariotas A Figura 22 ilustra o processo de expressatildeo geacutenica

em eucariotas (Figura 22-A) e procariotas (Figura 22-B)

Figura 22 Expressatildeo geacutenica em eucariotas (A) e procariotas (B)

Actualmente o problema da identificaccedilatildeo e modelaccedilatildeo dos mecanismos que regulam a

interacccedilatildeo entre grupos de genes eacute um dos problemas mais em foco na investigaccedilatildeo em

biologia computacional Como jaacute foi referido a regiatildeo promotora eacute parte essencial do

mecanismo de regulaccedilatildeo da transcriccedilatildeo geacutenica

A biologia oferece-nos alguns modelos da regiatildeo promotora evidenciando as diferenccedilas entre

organismos procariotas (Figura 23) e eucariotas (Figura 24)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 5

Figura 23 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em procariotas

Figura 24 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em eucariotas

No mecanismo de transcriccedilatildeo geacutenica interveacutem uma enzima denominada RNA-polimerase

Esta enzima tem como funccedilatildeo a transcriccedilatildeo da informaccedilatildeo contida no DNA para uma cadeia

de RNA que iraacute posteriormente intervir no processo de siacutentese proteica

Para que a RNA-polimerase inicie a transcriccedilatildeo de uma cadeia de DNA geralmente um gene

eacute necessaacuterio que se cumpram algumas condiccedilotildees Assim entre outras eacute necessaacuterio que

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 6

estejam presentes na regiatildeo promotora motivos que a RNA-polimerase reconheccedila e aos quais

se possa ligar para iniciar a transcriccedilatildeo da regiatildeo a jusante (na literatura inglesa estas regiotildees

satildeo denominadas de binding sites) As condiccedilotildees de activaccedilatildeo desta enzima satildeo mais

complexas nos organismos eucariotas [3] uma vez que neste caso para aleacutem dos motivos

referidos existem ainda vaacuterios outros que satildeo reconhecidos por factores de transcriccedilatildeo isto eacute

proteiacutenas que se ligam sucessivamente agrave RNA-polimerase estabelecendo um complexo

mecanismo de regulaccedilatildeo Estes motivos podem estar a montante a jusante ou mesmo no

interior do gene a ser transcrito e podem ainda exercer um efeito estimulador ou repressor da

transcriccedilatildeo Os locais onde existem motivos aos quais se ligam os diversos factores de

transcriccedilatildeo satildeo designados genericamente por regiotildees reguladoras

Eacute possiacutevel compreender agora a importacircncia da necessidade de ser definido um modelo ou

modelos para a regiatildeo promotora no acircmbito do estudo do genoma

Neste trabalho utilizamos o algoritmo SMILE para procurar motivos interessantes isto eacute

biologicamente significativos em cadeias de DNA pertencentes agrave regiatildeo promotora dos genes

Como jaacute foi referido trata-se de um algoritmo proliacutefico no sentido em que se preocupa em

encontrar todas as sequecircncias que cumpram os paracircmetros especificados Sendo assim torna-

se necessaacuterio um esforccedilo significativo de poacutes-processamento para que possa ser obtida

informaccedilatildeo uacutetil a partir dos dados gerados

O poacutes-processamento dos motivos extraiacutedos inclui uma anaacutelise estatiacutestica que culmina com a

atribuiccedilatildeo de um niacutevel de significacircncia a cada motivo Deste modo eacute possiacutevel definir um

crivo que separa motivos considerados relevantes de motivos agrave partida menos interessantes

Finalmente e depois de ter sido encontrado um conjunto de motivos relevantes seraacute efectuada

uma traduccedilatildeo para uma representaccedilatildeo IUPAC Esta representaccedilatildeo permite compactar os

dados agrupando motivos muito semelhantes Este passo eacute de importacircncia essencial para uma

utilizaccedilatildeo eficiente dos dados obtidos uma vez que uma representaccedilatildeo compacta facilita a sua

utilizaccedilatildeo em pesquisas em bases de dados bioloacutegicas que contecircm informaccedilatildeo sobre

consensos anteriormente identificados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 7

3 Extracccedilatildeo de motivos

31 Algoritmo SMILE

O SMILE eacute um meacutetodo algoriacutetmico de extracccedilatildeo de motivos de sequecircncias bioloacutegicas O

algoritmo comeccedila por processar um conjunto de dados de entrada composto por vaacuterias

sequecircncias natildeo alinhadas de nucleoacutetidos que se sabe conterem um ou mais binding sites Estes

dados satildeo utilizados para calcular ocorrecircncias de motivos usando como estrutura de dados

base uma aacutervore de sufixos

Um modelo eacute uma representaccedilatildeo de subsequecircncias que ocorrem nos dados de entrada

satisfazendo potencialmente certas propriedades

O algoritmo iraacute assim pesquisar modelos (simples ou estruturados) nos dados que lhe satildeo

fornecidos segundo alguns paracircmetros

Um modelo simples diz respeito a uma subsequecircncia contiacutegua de nucleoacutetidos enquanto que

um modelo estruturado eacute uma composiccedilatildeo de modelos simples

Um modelo estruturado pode ser constituiacutedo por vaacuterias partes posicionadas ao longo da

sequecircncia Cada parte eacute um modelo simples que pode ter um tamanho variaacutevel (entre kmin e

kmax) O espaccedilo entre cada parte consecutiva pode tambeacutem ser parametrizado (dmin e dmax)

Do mesmo modo tambeacutem eacute possiacutevel parametrizar o nuacutemero de erros que se permite ocorrer

no modelo e em cada uma das suas partes

A Figura 31 apresenta um exemplo de uma especificaccedilatildeo de um modelo estruturado em que

se consideram duas partes A primeira parte pode ter um tamanho entre 6 e 8 nucleoacutetidos e satildeo

admitidos 2 erros A segunda parte pode ocorrer entre 16 e 18 nucleoacutetidos apoacutes a primeira

parte e teraacute um tamanho igualmente entre 6 e 8 embora seja admitido apenas 1 erro

A Figura 32 apresenta o esquema de outro modelo estruturado e respectiva concretizaccedilatildeo

numa sequecircncia Neste exemplo consideram-se igualmente duas partes A primeira com

tamanho entre 6 e 10 nucleoacutetidos e a segunda entre 6 e 8 As partes podem estar a uma

distacircncia que varia entre 10 e 15 nucleoacutetidos e natildeo satildeo admitidos erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 8

Figura 31 Exemplo de uma especificaccedilatildeo de um modelo estruturado

Figura 32 (a) Exemplo de especificaccedilatildeo (b) Modelo retirado de uma sequecircncia

que cumpre a especificaccedilatildeo

Um modelo eacute considerado vaacutelido caso o nuacutemero de sequecircncias de entrada em que ocorre seja

natildeo inferior a um miacutenimo estabelecido designado por quoacuterum Os modelos vaacutelidos satildeo

designados de motivos

Para verificar o nuacutemero de ocorrecircncias eacute utilizada uma aacutervore de sufixos Uma aacutervore de

sufixos eacute uma estrutura de dados que representa todos os sufixos de uma cadeia de caracteres

As suas caracteriacutesticas satildeo de grande utilidade para os algoritmos de emparelhamento de

caracteres

6-10 6-8

10-15

(a)

ATTATTA_CTATCT

ATTATTAGTACTCATACCTATCT

(b)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 9

O SMILE processa conjuntos de dados isto eacute conjuntos de sequecircncias de nucleoacutetidos

utilizando para esse efeito uma aacutervores de sufixos generalizada Esta estrutura de dados

difere da aacutervore de sufixos simples no sentido em que agrupa vaacuterias cadeias de caracteres

correspondentes agraves vaacuterias sequecircncias de nucleoacutetidos Esta multiplicidade de sequecircncias exige

que a estrutura registe as sequecircncias a que cada sufixo pertence As aacutervores de sufixos fazem

uso de um siacutembolo terminador ($) para assinalar o fim de cada sufixo

A Figura 33 eacute um exemplo de uma aacutervore de sufixos generalizada

Figura 33 - Aacutervore de sufixos generalizada para as sequecircncias

TACTA$ (sequecircncia 1) e CACTCA$ (sequecircncia 2)

A extracccedilatildeo de motivos eacute feita atraveacutes da travessia em profundidade-primeiro de uma aacutervore

lexicograacutefica virtual de modo a garantir que se explora o espaccedilo de todos os modelos

possiacuteveis Esta travessia da aacutervore lexicograacutefica eacute acompanhada da exploraccedilatildeo da aacutervore de

sufixos generalizada de forma a obter todos os sufixos a distacircncia de Hamming natildeo superior a

e1 do modelo em consideraccedilatildeo Assim para cada noacute da aacutervore virtual eacute verificado o quoacuterum

do modelo correspondente contabilizando para tanto o nuacutemero de sequecircncias diferentes que

participam com sufixos a distacircncia de Hamming natildeo superior a e do modelo

1 O valor desta distacircncia depende do nuacutemero de erros admitidos na extracccedilatildeo de motivos e corresponde a um dos

paracircmetros do algoritmo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 10

A extracccedilatildeo de motivos estruturados eacute feita de forma semelhante correspondendo a muacuteltiplas

procuras de modelos simples que constituem cada parte do modelo estruturado A transiccedilatildeo

entre partes ilustrada pela Figura 34 corresponde a um salto na aacutervore de sufixos com tantos

niacuteveis de profundidade adicionais quanto a distacircncia especificada entre cada parte

Uma descriccedilatildeo pormenorizada do algoritmo encontra-se em [4] e [5]

Figura 34 Esquema da procura de motivos estruturados usando uma aacutervore de

sufixos

Este algoritmo exacto gera todos os possiacuteveis motivos dentro dos paracircmetros especificados

Daqui resulta geralmente um nuacutemero demasiado grande de motivos sendo necessaacuterio

discriminar quais os verdadeiros binding sites Como meacutetodo de avaliaccedilatildeo o SMILE utiliza

um teste estatiacutestico que eacute descrito na Secccedilatildeo 41

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 11

32 Gerador de dados sinteacuteticos

A anaacutelise da eficaacutecia e eficiecircncia do algoritmo de extracccedilatildeo de motivos exige a utilizaccedilatildeo de

dados sobre os quais tenhamos agrave partida algum conhecimento Para tal foi desenvolvido um

gerador de dados sinteacuteticos

O gerador de dados sinteacuteticos permite por um lado evitar a necessidade de dispor de

conjuntos de dados reais e por outro ter um maior controlo sobre os motivos que estatildeo

realmente presentes nos dados

O gerador permite especificar o nuacutemero e o tamanho das sequecircncias do conjunto de dados

bem como os motivos a inserir Os motivos satildeo especificados pela sua sequecircncia de

nucleoacutetidos posiccedilatildeo na sequecircncia e frequecircncia de ocorrecircncia Os motivos podem ser simples

ou estruturados A Figura 35 representa um exemplo de um ficheiro de especificaccedilatildeo

Frequecircncia

Posiccedilatildeo

Sequecircncia Posiccedilatildeo

Sequecircncia

02 09 TGCTTTTTAAT

28 TCGA

03 02 AGTACATCGA

02 12 TGCGCA

Figura 35 Exemplo de um ficheiro de especificaccedilatildeo para a geraccedilatildeo de dados

sinteacuteticos

No exemplo apresentado satildeo especificados trecircs motivos (um motivo estruturado e dois

motivos simples) A primeira coluna (Frequecircncia) indica a percentagem de sequecircncias em que

o motivo deveraacute ocorrer Em particular para esta especificaccedilatildeo o primeiro motivo deveraacute

ocorrer em 20 das sequecircncias As restantes colunas especificam a posiccedilatildeo e a sequecircncia de

nucleoacutetidos de cada parte do motivo O nuacutemero e o tamanho das sequecircncias a gerar satildeo

especificados na linha de comandos do gerador

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 12

O gerador verifica a especificaccedilatildeo de modo a testar se eacute possiacutevel gerar um conjunto de dados

com as caracteriacutesticas indicadas Em particular eacute necessaacuterio que no caso das frequecircncias

especificadas somarem mais do que 1 alguns dos motivos sejam sobreponiacuteveis uma vez que o

gerador garante o cumprimento exacto da frequecircncia de ocorrecircncia especificada para cada

motivo

O processo de geraccedilatildeo do conjunto de dados envolve duas fases Numa primeira fase eacute gerado

um conjunto de dados aleatoacuterios em que a ocorrecircncia de cada nucleoacutetido eacute equiprovaacutevel Para

gerar aleatoriamente nucleoacutetidos eacute usada uma variaccedilatildeo do algoritmo ran2 [6]

Numa segunda fase satildeo inseridos os motivos especificados em tantas sequecircncias quanto as

necessaacuterias para perfazer a frequecircncia indicada As sequecircncias seleccionadas para a inserccedilatildeo

de motivos satildeo igualmente escolhidas de forma aleatoacuteria

O recurso a dados sinteacuteticos permite afastar a possibilidade de motivos bem classificados

corresponderem a consensos ainda natildeo identificados por via experimental como pode

acontecer quando se analisam conjuntos de dados reais No entanto eacute necessaacuterio termos

presentes as limitaccedilotildees da actual abordagem Em particular sabemos que a geraccedilatildeo

equiprovaacutevel de nucleoacutetidos estaacute em desacordo com a estatiacutestica tiacutepica da regiatildeo promotora

onde satildeo mais comuns A s e T s do que G s e C s Do mesmo modo podem existir outras

correlaccedilotildees de ordem superior designadamente uma preferecircncia por certos diacutemeros ou

triacutemeros em detrimento de outros Esta limitaccedilatildeo eacute ilustrada pelo facto de os resultados

obtidos com dados sinteacuteticos serem geralmente melhores do que os obtidos com dados reais

As causas e consequecircncias desta observaccedilatildeo seratildeo discutidas nas secccedilotildees seguintes

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 13

4 Anaacutelise Estatiacutestica

41 Teste do 2

Como jaacute foi referido o SMILE em geral extrai um elevado nuacutemero de modelos Para isolar

motivos relevantes eacute usado um teste estatiacutestico de modo a atribuir uma significacircncia estatiacutestica

a cada modelo extraiacutedo

O meacutetodo de avaliaccedilatildeo utilizado consiste em aplicar o teste do 2 com um grau de liberdade

O objectivo eacute determinar a probabilidade de obtermos motivos observados em sequecircncias

aleatoacuterias que preservam os k-mers2 das sequecircncias originais Assim pretende-se perceber se

a ocorrecircncia do motivo se deve agrave frequecircncia de k-mers presentes na sequecircncia aleatoacuteria tendo

portanto uma baixa significacircncia estatiacutestica ou se eacute verificada a situaccedilatildeo oposta ou seja

elevada significacircncia estatiacutestica Estes uacuteltimos satildeo considerados pelo algoritmo como os que

apresentam maior potencial de serem verdadeiros binding sites Para tal o SMILE permite a

realizaccedilatildeo de dois tipos alternativos de teste um quanto ao nuacutemero de sequecircncias em que o

motivo ocorre (quoacuterum) e outro em relaccedilatildeo agrave abundacircncia do motivo no conjunto de dados

Para aplicar o teste do 2 procedemos agrave construccedilatildeo de uma tabela de contingecircncia com 4

entradas (Tabela 41)

Dados Originais Dados Aleatoacuterios

Presenccedila Porig Prandom

Ausecircncia Aorig Arandom

Tabela 41 Tabela de contingecircncia para o caacutelculo do 2

2 Sequecircncias de nucleoacutetidos de tamanho k

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 14

As colunas da tabela referem-se agraves duas amostras em anaacutelise ou seja o conjunto de dados

original e as sequecircncias aleatoacuterias geradas As linhas da tabela referem-se agraves duas classes de

contagens Caso consideremos o teste quanto ao quoacuterum a classe Presenccedila diz respeito ao

nuacutemero de sequecircncias em que o motivo ocorre e a classe Ausecircncia refere-se ao nuacutemero de

sequecircncias em que o motivo natildeo ocorre Caso se trate do teste relativo agrave abundacircncia a

primeira classe refere-se ao nuacutemero de ocorrecircncias do motivo no conjunto de dados e a

segunda ao nuacutemero de natildeo ocorrecircncias do motivo em relaccedilatildeo ao nuacutemero de oportunidades de

ocorrecircncia Considera-se como nuacutemero de oportunidades de ocorrecircncia o tamanho do

conjunto de dados Esta tabela seraacute usada agora para fazer um teste de homogeneidade de

proporccedilotildees

Para calcular a significacircncia estatiacutestica basta usar a expressatildeo do 2 correspondente agrave equaccedilatildeo

(41) onde ijO diz respeito ao valor observado para a entrada (ij) da tabela e ijE se refere ao

correspondente valor esperado

21

22 )(

ji ij

ijij

E

OE

(41)

O valor esperado para cada entrada da tabela eacute dado pela expressatildeo (42) ou seja o valor

esperado para a entrada (ij) da tabela eacute igual ao produto do total da linha i pelo total da linha

j divido pela soma de todos os elementos da tabela

21

2121

lkkl

kkj

kik

ij O

OO

E (42)

Nas condiccedilotildees desta tabela de contingecircncia eacute possiacutevel utilizar uma forma expedita de caacutelculo

que consiste na aplicaccedilatildeo da expressatildeo (43)

))()()((

)()( 22

origorigrandomrandomrandomorigrandomorig

randomorigrandomorigorigrandomrandomorig

APAPAAPP

AAPPAPAP

(43)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 15

A hipoacutetese nula que consideramos neste teste estatiacutestico refere-se agrave possibilidade de os

motivos terem sido gerados por sequecircncias aleatoacuterias sob certas restriccedilotildees Isto eacute assumimos

que as contagens obtidas para os motivos nas sequecircncias originais satildeo semelhantes agraves que

obteriacuteamos em sequecircncias aleatoacuterias com as mesmas frequecircncias de k-mers Valores altos de

significacircncia estatiacutestica implicam a rejeiccedilatildeo da hipoacutetese nula

Um importante problema prende-se com a validade da aplicaccedilatildeo do teste do 2 O SMILE em

particular apresenta para cada motivo uma medida da sua significacircncia estatiacutestica No

entanto o verdadeiro interesse reside na determinaccedilatildeo da significacircncia bioloacutegica dos motivos

encontrados O que estaacute em causa eacute perceber se um motivo eacute um potencial binding site Eacute

necessaacuterio testar este meacutetodo em dados reais com consensos conhecidos para se perceber se a

significacircncia estatiacutestica apresenta uma elevada correlaccedilatildeo com a significacircncia bioloacutegica

No Capiacutetulo 6 apresentamos uma discussatildeo acerca da adequaccedilatildeo do teste do 2 para a afericcedilatildeo

da significacircncia bioloacutegica dos motivos extraiacutedos pelo SMILE

42 Meacutetodo de Shuffling

Como jaacute foi referido para efectuar o caacutelculo da significacircncia estatiacutestica o SMILE recorre agrave

geraccedilatildeo de sequecircncias aleatoacuterias com certas restriccedilotildees baseadas na estatiacutestica dos dados

originais Para o efeito eacute usado um algoritmo de data shuffling [78]

O meacutetodo de shuffling permite obter um conjunto de dados aleatoacuterio com base num conjunto

de dados original garantindo a preservaccedilatildeo exacta das frequecircncias de k-mers para um dado k

O meacutetodo de geraccedilatildeo pode ser visto como um passeio aleatoacuterio sobre um multi-grafo onde os

noacutes satildeo todas as subsequecircncias de tamanho k-1 presentes na sequecircncia original e cada aresta

corresponde a uma transiccedilatildeo entre (k-1)-mers verificada nos dados No caso de k igual a 1 natildeo

eacute gerado um multi-grafo sendo feita apenas uma reordenaccedilatildeo aleatoacuteria dos nucleoacutetidos de

cada sequecircncia

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 16

A Figura 41 ilustra um exemplo de um multi-grafo gerado a partir da sequecircncia

ATTATTTATT bem como um caminho no grafo que gera a sequecircncia alternativa

TATTATTTAT

Figura 41 Multi-grafo gerado pela sequecircncia ATTATTTATT para k=4 com 2

passeios aleatoacuterios

Para que cada sequecircncia gerada seja vaacutelida eacute necessaacuterio que tenha o mesmo tamanho que a

sequecircncia original Sendo assim eacute faacutecil perceber que apenas os caminhos eulerianos garantem

a geraccedilatildeo de uma sequecircncia com estas caracteriacutesticas No SMILE este processo eacute repetido

para cada sequecircncia isoladamente

Para garantir a fiabilidade dos resultados obtidos eacute efectuado um nuacutemero elevado de

simulaccedilotildees donde satildeo extraiacutedos os valores meacutedios do quoacuterum ou da abundacircncia de cada

motivo a partir dos quais eacute calculada a significacircncia estatiacutestica no sentido do teste do 2

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 17

A Figura 42 mostra um histograma com os resultados obtidos em 100 simulaccedilotildees para um

motivo extraiacutedo do conjunto de dados da Helicobater pylori3 onde foram preservadas as

frequecircncias relativas de nucleoacutetidos (k=1) Este conjunto de dados eacute constituiacutedo por 308

sequecircncias com comprimentos que variam entre 40 e 300 nucleoacutetidos Foi efectuada uma

procura de motivos simples com tamanhos natildeo inferiores a 6 Foi admitido 1 erro e foi

exigido um quoacuterum de 6

O histograma indica a percentagem de simulaccedilotildees em que o motivo em consideraccedilatildeo ocorre

num determinado nuacutemero de sequecircncias Em particular no exemplo da Figura 42 o motivo

TTTTAA ocorre num nuacutemero de sequecircncias entre 282 e 284 em 13 das simulaccedilotildees

A seta a negro refere-se ao nuacutemero de ocorrecircncias do motivo observadas no conjunto de dados

original Quanto mais afastada estiver a seta do maacuteximo da curva maior seraacute a significacircncia

estatiacutestica Neste caso foi atribuiacuteda uma significacircncia de 593 ao motivo TTTTAA

Figura 42 Histograma das ocorrecircncias observadas do motivo TTTTAA em 100

simulaccedilotildees de shuffling do conjunto de dados da H pylori

3 Organismo procariota

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 18

O meacutetodo de data shuffling pode ser pesado do ponto de vista computacional e representa

uma grande restriccedilatildeo no desempenho da avaliaccedilatildeo de motivos Em particular a necessidade

de pesquisar todos os motivos extraiacutedos em cada conjunto de dados aleatoacuterio gerado constitui

uma seacuterio entrave ao bom desempenho deste meacutetodo

Devido aos referidos problemas de desempenho opta-se geralmente por fazer um nuacutemero de

simulaccedilotildees com geraccedilatildeo de sequecircncias aleatoacuterias inferior ao estatisticamente aconselhado o

que pode ter impacto nos resultados

Outra questatildeo pertinente coloca-se ainda quanto agrave preservaccedilatildeo dos k-mers Uma vez que o

shuffling eacute feito sobre cada sequecircncia do conjunto de dados valores elevados de k impotildeem

restriccedilotildees severas agrave variabilidade dos conjuntos de dados aleatoacuterios gerados Assim para estes

valores o teste estatiacutestico eacute inuacutetil uma vez que os conjuntos de dados gerados satildeo

praticamente iguais ao conjunto de dados original Em particular quando o tamanho dos

k-mers a preservar eacute igual ou superior ao tamanho de um motivo as suas ocorrecircncias satildeo

estritamente conservadas no conjunto de dados aleatoacuterio levando a que o valor da

significacircncia seja 0 A Figura 43 ilustra o facto de a significacircncia estatiacutestica tender

inevitavelmente para zero agrave medida que o valor de k aumenta Os valores do graacutefico foram

igualmente obtidos a partir do conjunto de dados da H pylori descrito anteriormente

Figura 43 Graacutefico da evoluccedilatildeo da significacircncia estatiacutestica com o aumento do valor

de k para um motivo de tamanho 8 extraiacutedo do conjunto de dados da H pylori

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 19

43 Meacutetodo Analiacutetico

Nesta Secccedilatildeo propotildee-se um meacutetodo analiacutetico que tem por objectivo resolver alguns dos

problemas do meacutetodo de shuffling descrito na Secccedilatildeo anterior designadamente o fraco

desempenho computacional e as excessivas restriccedilotildees devidas agrave conservaccedilatildeo estrita das

frequecircncias dos k-mers Assim pretende-se obter um meacutetodo computacionalmente eficiente

para avaliar a relevacircncia de motivos extraiacutedos pelo SMILE

Com este meacutetodo comeccedila-se por abstrair um modelo de Markov a partir do conjunto de dados

em estudo Os estados do modelo de Markov correspondem a todos os (k-1)-mers presentes no

conjunto de dados sendo a probabilidade inicial de cada estado a frequecircncia relativa

observada do (k-1)-mer correspondente

A probabilidade de transiccedilatildeo entre estados corresponde agrave razatildeo entre o nuacutemero de vezes que o

(k-1)-mer referente ao estado de destino sucede ao (k-1)-mer referente ao estado de origem

nos dados e o nuacutemero de vezes que o (k-1)-mer correspondente ao estado de origem precede

qualquer outro (k-1)-mer nas sequecircncias em anaacutelise A Figura 45 apresenta um modelo de

Markov abstraiacutedo a partir do conjunto de dados referido na Figura 44

Figura 44 Conjunto de dados exemplo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 20

CA

TC

AT

TA

TT

101

51

52

101

51

Figura 45

Exemplo de uma cadeia de Markov para k=3

Cada motivo em anaacutelise eacute processado de forma a calcular a probabilidade do motivo ser

gerado pelo modelo de Markov abstraiacutedo

Esta probabilidade eacute calculada como o produto da probabilidade do estado inicial pela

probabilidade de todas as transiccedilotildees necessaacuterias para compor o motivo Em (44) (45) e (46)

apresenta-se o calculo desta probabilidade para o motivo ATTATT segundo a cadeia de

Markov da Figura 45

)()()()()()( TTATpATTApTATTpTTATpATpATTATTp

(44)

2

111

2

1

5

2)(ATTATTp (45)

10

1)(ATTATTp (46)

No caso em que k eacute igual 1 natildeo eacute construiacuteda uma cadeia de Markov sendo a probabilidade de

ocorrecircncia do motivo o produto das frequecircncias relativas no conjunto de dados dos

nucleoacutetidos que o compotildeem

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 21

Caso sejam admitidos e erros basta considerar a soma das probabilidades de todos motivos a

uma distacircncia de Hamming natildeo superior a e ao inveacutes de se considerar apenas a probabilidade

do motivo em anaacutelise

A probabilidade assim calculada seraacute usada para determinar as entradas referentes a dados

aleatoacuterios na tabela de contingecircncia descrita na Secccedilatildeo 41 para o teste relativo agrave abundacircncia

A determinaccedilatildeo das entradas na tabela quando consideramos o teste relativo ao quoacuterum de um

motivo eacute consideravelmente mais complexa pelo que natildeo a abordaremos neste texto

Assim as entradas randomP e randomA satildeo calculadas da forma indicada em (47) e (48)

respectivamente

))1)((()( nseqsmlenmotiflenseqsnseqskmpP Markovrandom

(47)

randomrandom PlenseqsnseqsA

(48)

Nas expressotildees (47) e (48)

)( kmpMarkov refere-se agrave probabilidade calculada para o motivo m a partir de uma cadeia

de Markov extraiacuteda do conjunto de dados para um dado k

nseqs designa o nuacutemero de sequecircncias do conjunto de dados

lseqs designa o comprimento meacutedio das sequecircncias do conjunto de dados

lenmotif(m) designa o tamanho do motivo m

Agrave semelhanccedila do SMILE no caacutelculo de randomA consideramos como nuacutemero de

oportunidades de ocorrecircncia o tamanho do conjunto de dados

Este meacutetodo apresenta um desempenho computacional significativamente melhor que o

meacutetodo baseado em shuffling uma vez que natildeo necessita de efectuar vaacuterias simulaccedilotildees tendo

apenas de processar o conjunto de dados por uma uacutenica vez O caacutelculo da significacircncia

estatiacutestica de cada motivo eacute linear em relaccedilatildeo ao seu comprimento

Por outro lado o meacutetodo analiacutetico natildeo enferma das mesmas limitaccedilotildees do que o teste

estatiacutestico baseado em simulaccedilotildees permitindo o caacutelculo de significacircncia estatiacutestica para

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 22

valores elevados de k Ao considerar a estatiacutestica de todo o conjunto de dados ao inveacutes de

cada sequecircncia isoladamente este meacutetodo pode tambeacutem agrave partida modelar melhor os dados

Resta acrescentar que o meacutetodo descrito nesta Secccedilatildeo soacute permite obter significacircncias

estatiacutesticas para motivos simples A realizaccedilatildeo de caacutelculos para motivos estruturados eacute

consideravelmente mais complexa e natildeo foi abordada neste trabalho

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 23

5 Geraccedilatildeo de coacutedigo IUPAC

A realizaccedilatildeo eficiente de pesquisas de consensos em bases de dados bioloacutegicas requer uma

representaccedilatildeo compacta dos dados armazenados Neste contexto a possibilidade de

representar consensos em coacutedigo IUPAC assume uma importacircncia fundamental

O coacutedigo IUPAC eacute uma extensatildeo sobre a representaccedilatildeo de sequecircncias de DNA Uma

sequecircncia de DNA eacute constituiacuteda por nucleoacutetidos A codificaccedilatildeo IUPAC introduz siacutembolos que

representam um conjunto de possiacuteveis nucleoacutetidos para uma dada posiccedilatildeo permitindo uma

representaccedilatildeo de sequecircncias degeneradas Por exemplo uma purina (A ou G) eacute representada

pela letra R A descriccedilatildeo completa dos coacutedigos IUPAC encontra-se na Tabela 51

Coacutedigo Descriccedilatildeo A Adenina

C Citosina

G Guanina

T Timina

U Uracilo

R Purina (A ou G)

Y Pirimidina (C T ou U)

M C ou A

K T U ou G

W T U ou A

S C ou G

B C T U ou G (natildeo A)

D A T U ou G (natildeo C)

H A T U ou C (natildeo G)

V A C ou G (natildeo T natildeo U)

N Qualquer base (A C G T ou U)

Tabela 51 Coacutedigo IUPAC

A conversatildeo de um conjunto de sequecircncias de DNA para um conjunto de sequecircncias IUPAC

natildeo eacute uma tarefa trivial Para um dado conjunto de sequecircncias existem diversas codificaccedilotildees

IUPAC possiacuteveis

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 24

O problema da geraccedilatildeo de coacutedigo IUPAC consiste em encontrar o conjunto miacutenimo de

sequecircncias IUPAC que representem um dado conjunto de sequecircncias DNA

Como o objectivo proposto eacute a compressatildeo da representaccedilatildeo das sequecircncias de nucleoacutetidos eacute

desejaacutevel que a codificaccedilatildeo IUPAC seja a mais compacta possiacutevel

A abordagem utilizada foi a de reduzir o problema da compressatildeo IUPAC a um problema

conhecido a minimizaccedilatildeo de expressotildees loacutegicas multi-valor

Uma expressatildeo loacutegica multi-valor eacute uma expressatildeo loacutegica onde figuram variaacuteveis multi-valor

ou seja variaacuteveis que necessitam de mais do que um bit para serem representadas

Para representar um siacutembolo IUPAC eacute utilizada uma variaacutevel multi-valor de 4 bits Os

siacutembolos e as respectivas representaccedilotildees estatildeo na Tabela 52

Siacutembolo

IUPAC

Codificaccedilatildeo

binaacuteria

A 1000

T 0100

C 0010

G 0001

R 1001

Y 0110

S 0011

W 1100

K 0101

M 1010

B 0111

D 1101

H 1110

V 1011

N 1111

Espaccedilo 0000

Tabela 52

Codificaccedilatildeo binaacuteria dos siacutembolos IUPAC

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 25

Uma sequecircncia de nucleoacutetidos ou IUPAC eacute construiacuteda atraveacutes de um produto de termos

sendo cada termo uma variaacutevel multi-valor que representa um siacutembolo da sequecircncia Por

exemplo a sequecircncia WTA eacute representada pela expressatildeo loacutegica (1100) (0100) (1000)

Agora que foi estabelecida uma representaccedilatildeo para sequecircncias IUPAC atraveacutes de expressotildees

loacutegicas multi-valor resta perceber como da minimizaccedilatildeo destas expressotildees pode resultar o

desejado coacutedigo IUPAC

Em (51) temos um exemplo simples de minimizaccedilatildeo loacutegica

ZXZYXZYX

(51)

Eacute faacutecil verificar que X Z eacute uma expressatildeo equivalente O que se pretende para a compressatildeo

IUPAC eacute algo semelhante

Por exemplo a partir das sequecircncias ATA e TTA pretende-se a expressatildeo IUPAC WTA A

simplificaccedilatildeo das expressotildees loacutegicas eacute exemplificada sucessivamente em (52) (53) e (54)

A T A + T T A (52)

(1000) (0100) (1000) + (0100) (0100) (1000)

(A ou T) T A (53)

((1000)+(0100)) (0100) (1000)

W T A (54)

(1100) (0100) (1000)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 26

Eacute faacutecil perceber atendendo agrave escolha criteriosa da codificaccedilatildeo que da minimizaccedilatildeo de

expressotildees loacutegicas que representam sequecircncias de nucleoacutetidos resultam expressotildees loacutegicas

que representam uma codificaccedilatildeo IUPAC das sequecircncias originais

O problema inicial encontra-se agora reduzido a um problema de minimizaccedilatildeo de expressotildees

loacutegicas Este problema jaacute estaacute resolvido na aacuterea da siacutentese loacutegica Um dos programas mais

conhecidos desenvolvido para a resoluccedilatildeo deste problema eacute o programa Espresso [9] Apesar

de ser utilizado neste contexto como uma caixa preta eacute importante perceber o seu

funcionamento

No Espresso as expressotildees loacutegicas satildeo representadas num espaccedilo booleano multi-

dimensional Um exemplo eacute um espaccedilo tridimensional onde podem ser representadas

sequecircncias de tamanho 3 tal como estaacute ilustrado na Figura 51

Figura 51

Representaccedilatildeo das sequecircncias ATA (1) e TTA (2)

Neste contexto um cubo define-se como a representaccedilatildeo espacial de um produto de termos

Ou seja para o problema em questatildeo cada sequecircncia de entrada eacute um cubo e uma cobertura

corresponde a um conjunto de cubos que engloba todos os veacutertices representados no espaccedilo

Pode observar-se que a dimensatildeo do espaccedilo encontra-se directamente relacionada com o

tamanho da sequecircncia que se pretende representar Para efectuar a minimizaccedilatildeo o Espresso

procura uma cobertura miacutenima que daraacute origem ao conjunto de sequecircncias IUPAC de saiacuteda

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 27

No caso do espaccedilo da Figura 51 existe uma cobertura miacutenima constituiacuteda por um uacutenico cubo

A Figura 52 ilustra a referida cobertura

Figura 52 Representaccedilatildeo da cobertura WTA (1)

Da cobertura resulta a codificaccedilatildeo IUPAC das sequecircncias iniciais

O processo para descobrir a cobertura miacutenima eacute complexo sendo composto por um conjunto

intrincado de passos Inicialmente o conjunto de cubos originais eacute expandido de forma a

englobar o maior nuacutemero de veacutertices adjacentes De seguida os cubos redundantes satildeo

removidos e os restantes satildeo reduzidos para que cubram apenas os cubos iniciais Um cubo eacute

considerado redundante se natildeo cobrir nenhum veacutertice que natildeo esteja jaacute coberto por outro

cubo Deste processo resulta uma reduccedilatildeo contiacutenua do nuacutemero de cubos necessaacuterios para a

cobertura O processo eacute reiterado ateacute natildeo se verificarem melhorias substanciais na dimensatildeo

da cobertura obtida

Este processo eacute guiado por heuriacutesticas e eacute possiacutevel demonstrar que produz resultados

proacuteximos da soluccedilatildeo oacuteptima O processo estaacute detalhadamente descrito em [910]

De modo a automatizar o processo de codificaccedilatildeo das sequecircncias de nucleoacutetidos e

descodificaccedilatildeo das sequecircncias IUPAC foi desenvolvida uma interface para o Espresso

Assim as sequecircncias de entrada satildeo transformadas em expressotildees loacutegicas (formato binaacuterio)

seguindo a correspondecircncia referida na Tabela 52 Do mesmo modo a representaccedilatildeo da

cobertura miacutenima obtida pelo Espresso eacute descodificada e traduzida para sequecircncias IUPAC

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 28

O funcionamento da interface foi testado com recurso a um gerador aleatoacuterio de sequecircncias de

nucleoacutetidos e a um verificador O gerador produz um conjunto de sequecircncias obtidas a partir

de uma sequecircncia inicial de nucleoacutetidos O conjunto de sequecircncias gerado corresponde a

vaacuterias substituiccedilotildees aleatoacuterias na sequecircncia inicial e constitui o conjunto de entrada que vai

ser lido pela ferramenta Espresso O verificador recebe o conjunto de sequecircncias de entrada e

o resultado da operaccedilatildeo de minimizaccedilatildeo do Espresso sob a forma de sequecircncias de coacutedigos

IUPAC Deste modo ao expandir as sequecircncias IUPAC obtidas pelo Espresso atraveacutes de

uma operaccedilatildeo trivial de substituiccedilotildees sucessivas eacute possiacutevel testar a completude e adequaccedilatildeo

da representaccedilatildeo Assim diz-se que a representaccedilatildeo eacute completa se a expansatildeo incluir todas as

sequecircncias de entrada por outro lado diz-se que a representaccedilatildeo eacute adequada se natildeo incluir

nenhuma sequecircncia que natildeo esteja no conjunto inicial

Depois de verificada a completude e adequaccedilatildeo das representaccedilotildees obtidas foram feitos testes

com dados reais de modo a poder aferir o grau de compressatildeo das sequecircncias introduzidas

Assim o Espresso foi executado tendo como conjunto de entrada sequecircncias devidamente

codificadas obtidas atraveacutes de uma execuccedilatildeo do SMILE

As taxas de compressatildeo obtidas variam entre 278 e 715

O gerador de coacutedigo IUPAC encontra-se neste momento integrado na base de dados Dbyeast

[11] disponibilizando publicamente o serviccedilo de codificaccedilatildeo A Figura 53 eacute uma imagem da

interface que permite que os utilizadores da Dbyeast obtenham coacutedigo IUPAC a partir de

sequecircncias de DNA

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 29

Figura 53 Interface para geraccedilatildeo de coacutedigo IUPAC integrada na Dbyeast

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 30

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 31

6 Resultados e Conclusotildees

Neste Capiacutetulo iremos analisar os resultados obtidos tanto para dados sinteacuteticos como para

dados reais Para tal iremos comparar os valores de significacircncia estatiacutestica obtidos para os

dois tipos de dados usando tanto o meacutetodo de shuffling como o meacutetodo analiacutetico Para efectuar

esta comparaccedilatildeo eacute uacutetil referirmo-nos agrave posiccedilatildeo obtida pelos motivos em anaacutelise numa lista

ordenada por valores decrescentes de significacircncia estatiacutestica Assim sempre que

mencionarmos o valor da posiccedilatildeo de um motivo estaremos a referir-nos agrave posiccedilatildeo numa lista

assim definida

61 Resultados Obtidos com Dados Sinteacuteticos

Como jaacute foi referido a utilizaccedilatildeo de dados sinteacuteticos permite um maior controlo sobre os

motivos que estatildeo efectivamente presentes no conjunto de dados Assim iremos referir-nos

aos motivos que foram introduzidos no conjunto de dados gerado por motivos especificados

em oposiccedilatildeo aos outros motivos igualmente extraiacutedos pelo SMILE que designaremos por

motivos natildeo-especificados Nesta Secccedilatildeo iremos considerar o teste de significacircncia estatiacutestica

relativo agrave abundacircncia de forma a podermos comparar os resultados obtidos com o meacutetodo

shuffling e com o meacutetodo analiacutetico

611 Resultados do teste do 2 com o meacutetodo shuffling

Ao especificar um conjunto de dados com os mesmos motivos que estatildeo presentemente

descritos para a H pylori obtivemos para motivos simples os resultados apresentados nas

Figuras 61 e 62 O conjunto de dados sinteacutetico conteacutem 308 sequecircncias de comprimento 167

Foi efectuada uma procura de motivos simples com tamanhos compreendidos entre 6 e 8

nucleoacutetidos Natildeo foram admitidos erros e foi exigido um quoacuterum de 6 Os motivos

especificados encontram-se representados a ponteado Os restantes motivos correspondem a

motivos natildeo-especificados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 32

Figura 61 Significacircncia estatiacutestica para motivos simples de tamanho 6

Figura 62 Significacircncia estatiacutestica para motivos simples de tamanho 7

Os graacuteficos natildeo satildeo no entanto suficientes para nos dar a percepccedilatildeo da correcta classificaccedilatildeo

dos motivos uma vez que natildeo eacute possiacutevel fazer representar no graacutefico os 172 motivos

extraiacutedos A Tabela 61 indica as posiccedilotildees ocupadas pelos motivos especificados em relaccedilatildeo agrave

totalidade dos modelos para vaacuterios valores de k

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 33

TTTAAG TTTTAA TATAAT TATAATA

k=1 5 4 1 2

k=2 6 4 1 2

k=3 6 4 2 1

k=4 6 5 2 1

k=5 78 7 5 1

Tabela 61 Posiccedilotildees dos motivos especificados

Em geral os motivos especificados aparecem melhor classificados para um baixo valor de k

Agrave medida que se consideram valores de k crescentes a significacircncia estatiacutestica de todos os

motivos aproxima-se de zero pelas razotildees jaacute apontadas na Secccedilatildeo 42

Eacute comum observar-se a presenccedila de motivos natildeo-especificados com niacuteveis de significacircncia

elevados especialmente se atendermos agraves posiccedilotildees da Tabela 61

Contudo estes bons resultados natildeo se mantecircm se forem admitidos erros na procura Neste

caso embora os motivos mantenham em geral elevadas significacircncias entram em

competiccedilatildeo com os motivos a distacircncia de Hamming natildeo superior ao nuacutemero de erros

admitido Assim eacute comum observar-se uma descida significativa na tabela de posiccedilotildees

Para motivos estruturados os resultados satildeo favoraacuteveis mesmo admitindo erros como eacute

ilustrado pelo graacutefico da Figura 63 em conjugaccedilatildeo com os valores de posiccedilatildeo apresentados na

Tabela 62

Neste exemplo efectuou-se uma procura por motivos estruturados compostos por duas partes

com tamanhos entre 6 e 7 com uma distacircncia entre si variando entre 21 e 23 nucleoacutetidos

Admitiu-se 1 erro em cada parte do motivo mas apenas 1 erro na totalidade do motivo

estruturado e exigiu-se um quoacuterum de 6 Foram extraiacutedos 53 motivos O motivo

especificado encontra-se a ponteado

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 34

Figura 63 Significacircncia estatiacutestica para modelos estruturados em dados sinteacuteticos

TTTAAG_TATAAT

k=1 4

k=2 4

k=3 17

k=4 63

k=5 162

Tabela 62 Posiccedilotildees do motivo estruturado especificado

Neste exemplo foi necessaacuterio admitir a existecircncia de erros para que o motivo fosse encontrado

pelo SMILE Natildeo existem motivos sem erros que cumpram as condiccedilotildees de procura

Esta boa prestaccedilatildeo dos motivos estruturados estaacute relacionada com o facto de o shuffling

raramente preservar as distacircncias relativas de cada uma das partes que constituem o motivo

fazendo com que estes ocorram poucas vezes nas simulaccedilotildees Assim neste exemplo o motivo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 35

estruturado especificado aparece claramente destacado Estes resultados parecem sugerir que a

utilizaccedilatildeo deste teste estatiacutestico se adequa agrave avaliaccedilatildeo de modelos estruturados No entanto

nem todos os promotores exibem esta estrutura sendo necessaacuterio um meacutetodo mais geral para

fazer esta avaliaccedilatildeo

Como veremos em seguida os resultados aparentemente animadores mesmo para motivos

simples natildeo se verificam quando analisamos dados reais Esta evidecircncia estaacute relacionada com

o facto de o gerador de dados sinteacuteticos gerar dados aleatoacuterios com equiprobabilidade de

nucleoacutetidos Nos dados reais isto natildeo se verifica existindo normalmente uma clara

abundacircncia de A s e T s na regiatildeo promotora Do mesmo modo cada conjunto de dados exibe

preferecircncia por certos diacutemeros ou triacutemeros que ocorrem com muito mais frequecircncia que

outros

Esta limitaccedilatildeo podia ser mitigada pela incorporaccedilatildeo destas correlaccedilotildees na geraccedilatildeo de dados

sinteacuteticos Mas embora seja relativamente simples estabelecer uma preferecircncia por certos

nucleoacutetidos a geraccedilatildeo natildeo-equiprovaacutevel de k-mers geneacutericos constitui soacute por si um problema

complexo pelo que natildeo foi abordado neste trabalho

612 Resultados do teste do 2 com o meacutetodo analiacutetico

Os dados sinteacuteticos foram igualmente analisados recorrendo ao meacutetodo analiacutetico que como jaacute

foi referido tem a vantagem de ser mais eficiente do ponto de vista computacional e de poder

explorar valores mais elevados de k As Figura 64 e 65 apresentam a evoluccedilatildeo da

significacircncia estatiacutestica dos mesmos motivos considerados nas Figuras 62 e 63 mas

recorrendo ao meacutetodo analiacutetico

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 36

Figura 64 Significacircncia estatiacutestica de motivos simples de tamanho 6 usando o

meacutetodo analiacutetico

Figura 65 Significacircncia estatiacutestica de motivos simples de tamanho 7 usando o

meacutetodo analiacutetico

A Tabela 63 indica as posiccedilotildees dos motivos especificados para a significacircncia estatiacutestica

calculada por via do meacutetodo analiacutetico

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 37

TTTAAG TTTTAA TATAAT TATAATA

k=1 6 4 1 2

k=2 6 4 1 2

k=3 6 3 2 1

k=4 6 3 2 1

k=5 55 3 2 1

Tabela 63 Posiccedilotildees dos modelos especificados

Satildeo oacutebvias as semelhanccedilas entre os resultados apresentados na Tabela 63 e os presentes na

Tabela 61 Isto confirma a possibilidade de usar o meacutetodo analiacutetico como alternativa ao

meacutetodo de shuffling

Sabemos igualmente que no acircmbito do meacutetodo analiacutetico quando k atinge um valor igual ao

comprimento do motivo em anaacutelise a significacircncia estatiacutestica anula-se Isto tem a ver com o

facto de a probabilidade de ocorrecircncia de um k-mer ser muito proacutexima da sua frequecircncia

relativa no conjunto de dados Assim sendo os valores das entradas da tabela de contingecircncia

relativas aos dados aleatoacuterios seratildeo inevitavelmente iguais agraves dos dados reais resultando deste

facto uma significacircncia estatiacutestica nula

Por outro lado agrave medida que o k aumenta os k-mers introduzidos pelos motivos especificados

no conjunto de dados que de resto eacute aleatoacuterio vatildeo fazer com que a cadeia de Markov gerada

faccedila convergir as probabilidades de ocorrecircncia de cada motivo com a sua frequecircncia relativa

efectiva no conjunto de dados Assim assiste-se ao mesmo fenoacutemeno de convergecircncia para

zero da significacircncia estatiacutestica que assinalaacutemos para o meacutetodo shuffling

Pela anaacutelise dos resultados podemos ainda concluir que em geral um valor de k demasiado

pequeno natildeo modela suficientemente bem os dados daqui resulta que alguns motivos natildeo

especificados obtenham melhores classificaccedilotildees que motivos especificados Em suma

deveremos preferir valores de k intermeacutedios

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 38

62 Resultados Obtidos com Dados Reais

Com este teste pretendemos verificar se uma sequecircncia classificada como estatisticamente

relevante tambeacutem pode ser considerada biologicamente relevante

Para fazer o estudo da anaacutelise estatiacutestica em dados reais foram recolhidos 16 conjuntos de

dados com regiotildees promotoras correspondentes a genes da levedura Saccharomyces

cerevisiae que eacute um organismo eucariota Cada conjunto conteacutem aproximadamente 10

sequecircncias As sequecircncias contecircm consensos obtidos por via experimental e descritos na

literatura A descriccedilatildeo completa de cada conjunto de dados pode ser vista no Anexo A

Para cada conjunto de dados foi feita uma procura de motivos de tamanhos variando entre 4 e

11 nucleoacutetidos para valores de quoacuterum de 60 75 80 e 100 Foram permitidos 0 e 1

erros em ensaios sucessivos e fez-se ainda variar o valor de k entre 1 e 4

Foi posteriormente analisada a significacircncia estatiacutestica calculada pelo SMILE no que diz

respeito ao quoacuterum

Os consensos descritos obtiveram boas classificaccedilotildees para algumas das condiccedilotildees testadas

Em particular quando o quoacuterum exigido se encontra proacuteximo da frequecircncia efectiva dos

motivos nos dados e quando natildeo satildeo admitidos erros Os resultados satildeo tambeacutem melhores

para motivos de tamanho superior a 7 Em suma obtecircm-se bons resultados quando as

condiccedilotildees favorecem os motivos com as caracteriacutesticas dos consensos descritos

Estes resultados natildeo satildeo muito animadores porque para os atingir eacute necessaacuterio um

conhecimento preacutevio da frequecircncia e tamanho dos motivos Ao considerar a generalidade dos

ensaios efectuados verifica-se que as classificaccedilotildees satildeo muito baixas com baixas

significacircncias estatiacutesticas e com valores de posiccedilatildeo frequentemente abaixo dos primeiros

1 000 motivos No Anexo A apresentamos os resultados obtidos com estes ensaios

A par desta anaacutelise foi considerada a significacircncia estatiacutestica obtida a respeito da abundacircncia

Deste modo eacute possiacutevel estabelecer uma comparaccedilatildeo directa entre o meacutetodo de shuffling e o

meacutetodo analiacutetico para o caacutelculo desta meacutetrica

De seguida apresentamos os resultados desta anaacutelise

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 39

621 Resultados do teste do 2 com o meacutetodo shuffling

De modo geral os resultados para o teste estatiacutestico referente agrave abundacircncia representam uma

melhoria em relaccedilatildeo ao teste referente ao quoacuterum

Comeccedilamos por apresentar os graacuteficos referentes a um conjunto de dados cujos motivos

permanecem mal classificados isto eacute o motivo eacute biologicamente relevante mas natildeo eacute

considerado estatisticamente relevante O conjunto de dados em causa o MSN4 tem um

motivo muito abundante (CCCCT) condicionando a estatiacutestica dos dados Isto conjugado

com o seu pequeno tamanho (5 nucleoacutetidos) resulta na inevitaacutevel baixa significacircncia

estatiacutestica uma vez que aparece sistematicamente na geraccedilatildeo aleatoacuteria de sequecircncias feita em

cada simulaccedilatildeo As Figuras 66 e 67 ilustram a evoluccedilatildeo da significacircncia estatiacutestica e da

posiccedilatildeo do referido motivo considerando erro 0 e 1 respectivamente para um quoacuterum de

60

Figura 66 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 0 erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 40

Figura 67 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 1 erro

Os resultados da classificaccedilatildeo satildeo claramente maus para um consenso descrito A estranha

subida para k igual a 4 estaacute relacionada com uma pequena flutuaccedilatildeo sem significado uma vez

que estamos a considerar valores de significacircncia estatiacutestica muito baixos A aparente melhor

classificaccedilatildeo quando consideramos erro 0 estaacute relacionada com o facto de que quando natildeo se

admitem erros satildeo consequentemente extraiacutedos menos motivos Em particular com erro 0 satildeo

extraiacutedos 1 316 motivos enquanto que com erro 1 satildeo extraiacutedos 35 258 motivos

De seguida apresentamos os resultados relativos a um outro conjunto de dados (STE12) que

evidencia resultados mais favoraacuteveis para erro 0 As Figuras 68 e 69 apresentam a evoluccedilatildeo

da significacircncia estatiacutestica do motivo descrito (TGAAACA) para 0 e 1 erros

respectivamente com um quoacuterum de 100

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 41

Figura 68 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 0 erros

Figura 69 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 1 erro

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 42

Resta referir que para este conjunto de dados foram extraiacutedos 267 motivos com erro 0 e

7 705 motivos para erro 1

O facto de os motivos serem abundantes em relaccedilatildeo ao nuacutemero de sequecircncias consideradas

faz com que o teste relativo agrave abundacircncia tenha um poder de resoluccedilatildeo consideravelmente

maior do que o teste relativo ao quoacuterum Por esta razatildeo deveremos sempre preferir o primeiro

em casos semelhantes

Por outro lado os resultados obtidos continuam a pocircr em causa a generalidade do meacutetodo uma

vez que eacute difiacutecil identificar as situaccedilotildees em que este produz bons resultados sobretudo quando

somos confrontados com um desconhecimento a priori do conjunto de dados

622 Resultados do teste do 2 com o meacutetodo analiacutetico

Resta-nos comparar os resultados obtidos na subsecccedilatildeo anterior com os obtidos pela via

analiacutetica Nos graacuteficos apresentados nesta subsecccedilatildeo que representam a evoluccedilatildeo da

significacircncia estatiacutestica com o crescimento do tamanho dos k-mers considerados estatildeo

tambeacutem assinaladas as posiccedilotildees ocupadas pelos motivos

As Figuras 610 e 611 apresentam os resultados referentes ao MSN4

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 43

Figura 610 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 0 erros

Figura 611 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 1 erro

Os resultados para o MSN4 natildeo sofrem alteraccedilotildees assinalaacuteveis em relaccedilatildeo ao meacutetodo anterior

Novamente as caracteriacutesticas do conjunto de dados limitam a possibilidade de evidenciar este

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 44

motivo por via deste teste estatiacutestico o que eacute tanto mais grave quanto o facto de este ser um

dos motivos cuja significacircncia bioloacutegica se encontra melhor estabelecida

As Figuras 612 e 613 apresentam os resultados referentes ao conjunto de dados STE12

Figura 612 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 0 erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 45

Figura 613 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 1 erro

Os dados apresentados natildeo evidenciam melhorias assinalaacuteveis em relaccedilatildeo aos resultados

obtidos por via de shuffling excepto a ocorrecircncia de melhorias ocasionais da classificaccedilatildeo

quando natildeo se admitem erros Estas diferenccedilas podem ser atribuiacutedas ao facto de o meacutetodo

analiacutetico natildeo conservar estritamente os k-mers e de analisar o conjunto de dados na sua

totalidade por oposiccedilatildeo ao shuffling que considera cada sequecircncia isoladamente

No Anexo B apresentamos a totalidade dos resultados desta anaacutelise comparativa No Anexo C

eacute apresentada uma listagem dos resultados do caacutelculo do valor de significacircncia para valores de

k ateacute ao tamanho dos consensos descritos

A grande vantagem deste meacutetodo eacute sem duacutevida o incomparaacutevel ganho a niacutevel de

desempenho computacional Para ilustrar esta afirmaccedilatildeo basta dizer que o caacutelculo da

significacircncia estatiacutestica para todos os conjuntos de dados considerados demorou com o

meacutetodo de shuffling mais de 30 horas de processamento O meacutetodo analiacutetico realizou todos os

caacutelculos em menos de 30 minutos

No entanto os resultados voltam a pocircr em causa a adequaccedilatildeo do teste estatiacutestico do 2 para

aferir a significacircncia bioloacutegica pela dificuldade de sintetizar um meacutetodo geneacuterico para

destacar motivos relevantes de entre os extraiacutedos pelo SMILE

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 46

63 Conclusotildees

Ao considerar os resultados apresentados eacute inevitaacutevel concluir que a significacircncia atribuiacuteda

pelo teste estatiacutestico do 2 aos motivos extraiacutedos pelo SMILE natildeo reflecte a sua significacircncia

bioloacutegica

A dificuldade em distinguir motivos relevantes da grande quantidade de motivos extraiacutedos

potildee em causa a utilidade praacutetica do algoritmo na generalidade dos casos

Para aleacutem desta questatildeo outras limitaccedilotildees tecircm sido apontadas por bioacutelogos designadamente

o facto de o algoritmo natildeo conseguir pesquisar motivos na cadeia de DNA inversa onde os

factores de transcriccedilatildeo podem igualmente ligar-se e o facto de a forma como o SMILE

modela a ocorrecircncia de erros nos motivos natildeo ser compatiacutevel com a necessidade de poder

indicar posiccedilotildees especiacuteficas onde erros satildeo admitidos

No entanto o SMILE continua a exibir resultados interessantes para motivos estruturados o

que constitui sem duacutevida a mais-valia fundamental do algoritmo Tudo indica que o meacutetodo

analiacutetico pode ser igualmente adaptado para calcular a significacircncia de motivos estruturados

Parece-nos claro que uma eficaz extracccedilatildeo de motivos relevantes passaraacute necessariamente

pela conjugaccedilatildeo com outros dados para aleacutem da simples sequecircncia de nucleoacutetidos Em

particular a disponibilidade de informaccedilatildeo acerca de co-regulaccedilatildeo de genes poderaacute guiar a

extracccedilatildeo de motivos permitindo exigir um quoacuterum mais alto dada a confianccedila na existecircncia

de factores de transcriccedilatildeo comuns

Por outro lado a utilizaccedilatildeo de modelos probabiliacutesticos em vez de meras colecccedilotildees de motivos

poderaacute ser uma abordagem mais natural para o problema permitindo simultaneamente uma

melhor modelaccedilatildeo da realidade bioloacutegica ao indicar uma probabilidade de ocorrecircncia de cada

nucleoacutetido para uma dada posiccedilatildeo no modelo O nuacutemero de modelos extraiacutedos seria tambeacutem

francamente reduzido uma vez que um uacutenico modelo probabiliacutestico pode representar com

expressividade acrescida um grande nuacutemero de motivos

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 47

7 Referecircncias

[1] A Vanet L Marsan e M F Sagot Promoter sequence and algorithmical methods for

identifying them Research in Microbiology 150 pp 779-799 1999

[2] JD Watson FH Crick Molecular structure of nucleic acids a structure for deoxyribose

nucleic acid Nature Number 4356 1953

[3] T Werner Models for Prediction and Recognition of Eukaryotic Promoters Mammalian

Genome Vol 10 pp 168-175 1999

[4] L Marsan e M F Sagot Algorithms for extracting structured motifs using a suffix tree

with an application to promoter and regulatory site consensus identication Journal of

Computational Biology 7 pp 345-362 2000

[5] L Marsan Infeacuterence de motifs structureacutes algorithmes et outils appliqueacutes agrave la deacutetection de

sites de fixation dans des seacutequences geacutenomiques PhD Thesis Universiteacute de Marne-la-Valleacutee

2002

[6] B Flannery S Teukolsky W Press e W Vetterling Numerical Recipes in C++

Cambridge University Press 2002

[7] S Altschul e B Erickson Significance of Nucleotide Sequence Alignments A method of

Random Sequence Permutation That Preserves Dinucleotide and Codon Usage Molecular

Biology Evolution 2 pp 526-538 1985

[8] D Kandel Y Matias R Unger e P Winkler Shuffling Biological Sequences Discrete

Appl Math 71 pp 171-185 1996

[9] R Rudell e A Sangiovanni-Vincentelli Multiple-Valued Minimization for PLA

Optimization IEEE Transactions on Computer-Aided Design of Integrated Circuits and

Systems Vol CAD-6 Nordm 5 pp 727-751 September 1987

[10] R Brayton G Hachtel C McMullen e A Sangiovanni-Vincentelli Logic Minimization

Algorithms for VLSI Synthesis Kluwer Academic Publishers 1985

[11] P Monteiro Dbyeast [httpdescartesinesc-idpt~ptgmdb] 2004

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 48

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 49

Anexo A

Resultados do Caacutelculo da Significacircncia Estatiacutestica referente ao Quoacuterum

para Conjuntos de Dados de Saccharomyces cerevisiae

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados

A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos os resultados para os motivos procurados em relaccedilatildeo a cada valor dos paracircmetros

Nota o campo posicao refere-se agrave posiccedilatildeo ocupada pelo motivo na tabela com a estatiacutestica das sequecircncias com pelo menos uma ocorrecircncia do motivo ordenada por chi2

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

314 motivos encontrados Quorum = 80

670 motivos encontrados Quorum = 75

670 motivos encontrados Quorum = 60

1306 motivos encontrados Erro = 1

Quorum = 100 8636 motivos encontrados k = 1 posicao = 2 chi2 = 98 (ACCTTAAAGGT) k = 2 posicao = 2 chi2 = 976 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 965 (ACCTTAAAGGT) k = 4 posicao = 2 chi2 = 984 (ACCTTAAAGGT)

Quorum = 80 17722 motivos encontrados k = 1 posicao = 2 chi2 = 651 (ACCCTAAAGGT) k = 1 posicao = 4 chi2 = 965 (ACCTTAAAGGT) k = 2 posicao = 2 chi2 = 659 (ACCCTAAAGGT) k = 2 posicao = 8 chi2 = 965 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 667 (ACCCTAAAGGT) k = 3 posicao = 4 chi2 = 969 (ACCTTAAAGGT) k = 4 posicao = 2 chi2 = 659 (ACCCTAAAGGT) k = 4 posicao = 3 chi2 = 984 (ACCTTAAAGGT)

Quorum = 75 17722 motivos encontrados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 50

k = 1 posicao = 4 chi2 = 651 (ACCCTAAAGGT) k = 1 posicao = 2 chi2 = 988 (ACCTTAAAGGT) k = 2 posicao = 3 chi2 = 659 (ACCCTAAAGGT) k = 2 posicao = 2 chi2 = 992 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 655 (ACCCTAAAGGT) k = 3 posicao = 3 chi2 = 976 (ACCTTAAAGGT) k = 4 posicao = 3 chi2 = 655 (ACCCTAAAGGT) k = 4 posicao = 5 chi2 = 984 (ACCTTAAAGGT)

Quorum = 60 34907 motivos encontrados k = 1 posicao = 11 chi2 = 655 (ACCCTAAAGGT) k = 1 posicao = 5 chi2 = 996 (ACCTTAAAGGT) k = 1 posicao = 13 chi2 = 421 (ACCTTGAAGGT) k = 2 posicao = 15 chi2 = 647 (ACCCTAAAGGT) k = 2 posicao = 12 chi2 = 969 (ACCTTAAAGGT) k = 2 posicao = 7 chi2 = 421 (ACCTTGAAGGT) k = 3 posicao = 9 chi2 = 655 (ACCCTAAAGGT) k = 3 posicao = 8 chi2 = 984 (ACCTTAAAGGT) k = 3 posicao = 27 chi2 = 414 (ACCTTGAAGGT) k = 4 posicao = 10 chi2 = 651 (ACCCTAAAGGT) k = 4 posicao = 5 chi2 = 984 (ACCTTAAAGGT) k = 4 posicao = 40 chi2 = 407 (ACCTTGAAGGT)

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

161 motivos encontrados Quorum = 80

381 motivos encontrados Quorum = 75

502 motivos encontrados Quorum = 60

826 motivos encontrados k = 1 posicao = 43 chi2 = 33 (CCCCT) k = 2 posicao = 42 chi2 = 202 (CCCCT) k = 3 posicao = 48 chi2 = 142 (CCCCT) k = 4 posicao = 122 chi2 = 028 (CCCCT)

Erro = 1 Quorum = 100

4877 motivos encontrados k = 1 posicao = 3089 chi2 = 002 (CCCCT) k = 2 posicao = 2781 chi2 = 005 (CCCCT) k = 3 posicao = 3148 chi2 = 002 (CCCCT) k = 4 posicao = 2516 chi2 = 007 (CCCCT)

Quorum = 80 10050 motivos encontrados k = 1 posicao = 8449 chi2 = 0 (CCCCT) k = 2 posicao = 5470 chi2 = 009 (CCCCT) k = 3 posicao = 5867 chi2 = 004 (CCCCT) k = 4 posicao = 5131 chi2 = 009 (CCCCT)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 51

Quorum = 75

13080 motivos encontrados k = 1 posicao = 7539 chi2 = 004 (CCCCT) k = 2 posicao = 8129 chi2 = 002 (CCCCT) k = 3 posicao = 7900 chi2 = 003 (CCCCT) k = 4 posicao = 7385 chi2 = 005 (CCCCT)

Quorum = 60 21544 motivos encontrados k = 1 posicao = 12673 chi2 = 004 (CCCCT) k = 2 posicao = 11871 chi2 = 008 (CCCCT) k = 3 posicao = 12731 chi2 = 004 (CCCCT) k = 4 posicao = 11754 chi2 = 007 (CCCCT)

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

326 motivos encontrados Quorum = 80

682 motivos encontrados k = 1 posicao = 169 chi2 = 109 (CCCCT) k = 2 posicao = 238 chi2 = 073 (CCCCT) k = 3 posicao = 223 chi2 = 057 (CCCCT) k = 4 posicao = 331 chi2 = 01 (CCCCT)

Quorum = 75 682 motivos encontrados k = 1 posicao = 136 chi2 = 131 (CCCCT) k = 2 posicao = 178 chi2 = 085 (CCCCT) k = 3 posicao = 245 chi2 = 042 (CCCCT) k = 4 posicao = 331 chi2 = 01 (CCCCT)

Quorum = 60 1316 motivos encontrados k = 1 posicao = 303 chi2 = 17 (CCCCT) k = 2 posicao = 505 chi2 = 075 (CCCCT) k = 3 posicao = 457 chi2 = 059 (CCCCT) k = 4 posicao = 613 chi2 = 014 (CCCCT)

Erro = 1 Quorum = 100

9022 motivos encontrados k = 1 posicao = 7955 chi2 = 0 (CCCCT) k = 2 posicao = 7901 chi2 = 0 (CCCCT) k = 3 posicao = 7846 chi2 = 0 (CCCCT) k = 4 posicao = 7711 chi2 = 0 (CCCCT)

Quorum = 80 17951 motivos encontrados k = 1 posicao = 16310 chi2 = 0 (CCCCT) k = 2 posicao = 16251 chi2 = 0 (CCCCT) k = 3 posicao = 16207 chi2 = 0 (CCCCT) k = 4 posicao = 16091 chi2 = 0 (CCCCT)

Quorum = 75 17951 motivos encontrados k = 1 posicao = 16308 chi2 = 0 (CCCCT)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 52

k = 2 posicao = 16242 chi2 = 0 (CCCCT) k = 3 posicao = 16212 chi2 = 0 (CCCCT) k = 4 posicao = 16063 chi2 = 0 (CCCCT)

Quorum = 60 35258 motivos encontrados k = 1 posicao = 32818 chi2 = 0 (CCCCT) k = 2 posicao = 32757 chi2 = 0 (CCCCT) k = 3 posicao = 32822 chi2 = 0 (CCCCT) k = 4 posicao = 32656 chi2 = 0 (CCCCT)

5_1_gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

220 motivos encontrados Quorum = 80

517 motivos encontrados k = 1 posicao = 52 chi2 = 254 (CTTCC) k = 2 posicao = 87 chi2 = 146 (CTTCC) k = 3 posicao = 164 chi2 = 067 (CTTCC) k = 4 posicao = 236 chi2 = 004 (CTTCC)

Quorum = 75 517 motivos encontrados k = 1 posicao = 77 chi2 = 246 (CTTCC) k = 2 posicao = 83 chi2 = 152 (CTTCC) k = 3 posicao = 99 chi2 = 098 (CTTCC) k = 4 posicao = 241 chi2 = 003 (CTTCC)

Quorum = 60 963 motivos encontrados k = 1 posicao = 625 chi2 = 003 (CATCC) k = 1 posicao = 128 chi2 = 284 (CTTCC) k = 2 posicao = 644 chi2 = 003 (CATCC) k = 2 posicao = 170 chi2 = 177 (CTTCC) k = 3 posicao = 490 chi2 = 015 (CATCC) k = 3 posicao = 256 chi2 = 107 (CTTCC) k = 4 posicao = 522 chi2 = 0 (CATCC) k = 4 posicao = 497 chi2 = 004 (CTTCC)

Erro = 1 Quorum = 100

6121 motivos encontrados k = 1 posicao = 5072 chi2 = 0 (CATCC) k = 1 posicao = 5313 chi2 = 0 (CTTCC) k = 2 posicao = 5049 chi2 = 0 (CATCC) k = 2 posicao = 5287 chi2 = 0 (CTTCC) k = 3 posicao = 4984 chi2 = 0 (CATCC) k = 3 posicao = 5236 chi2 = 0 (CTTCC) k = 4 posicao = 4894 chi2 = 0 (CATCC) k = 4 posicao = 5167 chi2 = 0 (CTTCC)

Quorum = 80 13644 motivos encontrados k = 1 posicao = 11732 chi2 = 0 (CATCC) k = 1 posicao = 11981 chi2 = 0 (CTTCC)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 53

k = 2 posicao = 11792 chi2 = 0 (CATCC) k = 2 posicao = 12044 chi2 = 0 (CTTCC) k = 3 posicao = 11736 chi2 = 0 (CATCC) k = 3 posicao = 11985 chi2 = 0 (CTTCC) k = 4 posicao = 11644 chi2 = 0 (CATCC) k = 4 posicao = 11917 chi2 = 0 (CTTCC)

Quorum = 75 13644 motivos encontrados k = 1 posicao = 11712 chi2 = 0 (CATCC) k = 1 posicao = 11966 chi2 = 0 (CTTCC) k = 2 posicao = 11791 chi2 = 0 (CATCC) k = 2 posicao = 12027 chi2 = 0 (CTTCC) k = 3 posicao = 11729 chi2 = 0 (CATCC) k = 3 posicao = 11981 chi2 = 0 (CTTCC) k = 4 posicao = 11649 chi2 = 0 (CATCC) k = 4 posicao = 11920 chi2 = 0 (CTTCC)

Quorum = 60 25804 motivos encontrados k = 1 posicao = 22732 chi2 = 0 (CATCC) k = 1 posicao = 22973 chi2 = 0 (CTTCC) k = 2 posicao = 22881 chi2 = 0 (CATCC) k = 2 posicao = 23121 chi2 = 0 (CTTCC) k = 3 posicao = 22916 chi2 = 0 (CATCC) k = 3 posicao = 23164 chi2 = 0 (CTTCC) k = 4 posicao = 22864 chi2 = 0 (CATCC) k = 4 posicao = 23141 chi2 = 0 (CTTCC)

6_0_MIG1

Motivo GCGGGG Frequecircncia 16 ~167 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

290 motivos encontrados Quorum = 80

556 motivos encontrados Quorum = 75

556 motivos encontrados Quorum = 60

927 motivos encontrados Erro = 1

Quorum = 100 7881 motivos encontrados k = 1 posicao = 650 chi2 = 252 (GCGGGG) k = 2 posicao = 773 chi2 = 173 (GCGGGG) k = 3 posicao = 1341 chi2 = 101 (GCGGGG) k = 4 posicao = 4437 chi2 = 052 (GCGGGG)

Quorum = 80 14601 motivos encontrados k = 1 posicao = 1895 chi2 = 249 (GCGGGG) k = 2 posicao = 2045 chi2 = 161 (GCGGGG) k = 3 posicao = 3284 chi2 = 11 (GCGGGG) k = 4 posicao = 7272 chi2 = 05 (GCGGGG)

Quorum = 75

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 54

14601 motivos encontrados k = 1 posicao = 2121 chi2 = 234 (GCGGGG) k = 2 posicao = 2604 chi2 = 153 (GCGGGG) k = 3 posicao = 3778 chi2 = 089 (GCGGGG) k = 4 posicao = 8057 chi2 = 047 (GCGGGG)

Quorum = 60 25117 motivos encontrados k = 1 posicao = 4371 chi2 = 234 (GCGGGG) k = 2 posicao = 5452 chi2 = 153 (GCGGGG) k = 3 posicao = 7361 chi2 = 116 (GCGGGG) k = 4 posicao = 12643 chi2 = 051 (GCGGGG)

6_0_UME6

Motivo GCCGCC Frequecircncia 37 ~4286 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

257 motivos encontrados Quorum = 80

454 motivos encontrados Quorum = 75

454 motivos encontrados Quorum = 60

748 motivos encontrados Erro = 1

Quorum = 100 7186 motivos encontrados

Quorum = 80 12323 motivos encontrados

Quorum = 75 12323 motivos encontrados

Quorum = 60 19726 motivos encontrados k = 1 posicao = 13214 chi2 = 002 (GCCGCC) k = 2 posicao = 14628 chi2 = 0 (GCCGCC) k = 3 posicao = 14684 chi2 = 0 (GCCGCC) k = 4 posicao = 15398 chi2 = 002 (GCCGCC)

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

173 motivos encontrados Quorum = 80

403 motivos encontrados Quorum = 75

530 motivos encontrados k = 1 posicao = 6 chi2 = 755 (GATAAG)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 55

k = 2 posicao = 3 chi2 = 892 (GATAAG) k = 3 posicao = 3 chi2 = 725 (GATAAG) k = 4 posicao = 12 chi2 = 457 (GATAAG)

Quorum = 60 836 motivos encontrados k = 1 posicao = 24 chi2 = 771 (GATAAG) k = 2 posicao = 7 chi2 = 94 (GATAAG) k = 3 posicao = 12 chi2 = 719 (GATAAG) k = 4 posicao = 25 chi2 = 48 (GATAAG)

Erro = 1 Quorum = 100

5360 motivos encontrados k = 1 posicao = 2690 chi2 = 012 (GATAAG) k = 1 posicao = 3118 chi2 = 008 (GATTAG) k = 2 posicao = 2917 chi2 = 01 (GATAAG) k = 2 posicao = 2424 chi2 = 02 (GATTAG) k = 3 posicao = 3096 chi2 = 007 (GATAAG) k = 3 posicao = 1982 chi2 = 033 (GATTAG) k = 4 posicao = 3004 chi2 = 007 (GATAAG) k = 4 posicao = 2767 chi2 = 01 (GATTAG)

Quorum = 80 10819 motivos encontrados k = 1 posicao = 6729 chi2 = 011 (GATAAG) k = 1 posicao = 6816 chi2 = 009 (GATTAG) k = 2 posicao = 6240 chi2 = 013 (GATAAG) k = 2 posicao = 6446 chi2 = 011 (GATTAG) k = 3 posicao = 7301 chi2 = 004 (GATAAG) k = 3 posicao = 4235 chi2 = 053 (GATTAG) k = 4 posicao = 7045 chi2 = 004 (GATAAG) k = 4 posicao = 6317 chi2 = 012 (GATTAG)

Quorum = 75 13889 motivos encontrados k = 1 posicao = 9061 chi2 = 007 (GATAAG) k = 1 posicao = 8672 chi2 = 01 (GATTAG) k = 2 posicao = 8095 chi2 = 016 (GATAAG) k = 2 posicao = 8763 chi2 = 01 (GATTAG) k = 3 posicao = 8965 chi2 = 008 (GATAAG) k = 3 posicao = 6907 chi2 = 036 (GATTAG) k = 4 posicao = 8966 chi2 = 006 (GATAAG) k = 4 posicao = 8323 chi2 = 011 (GATTAG)

Quorum = 60 22209 motivos encontrados k = 1 posicao = 14904 chi2 = 008 (GATAAG) k = 1 posicao = 14384 chi2 = 013 (GATTAG) k = 2 posicao = 13923 chi2 = 015 (GATAAG) k = 2 posicao = 13902 chi2 = 015 (GATTAG) k = 3 posicao = 14932 chi2 = 008 (GATAAG) k = 3 posicao = 11534 chi2 = 046 (GATTAG) k = 4 posicao = 14680 chi2 = 007 (GATAAG) k = 4 posicao = 13878 chi2 = 017 (GATTAG)

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 56

Erro = 0 Quorum = 100

128 motivos encontrados Quorum = 80

372 motivos encontrados Quorum = 75

454 motivos encontrados Quorum = 60

785 motivos encontrados Erro = 1

Quorum = 100 4212 motivos encontrados k = 1 posicao = 326 chi2 = 14 (CACCCA) k = 2 posicao = 594 chi2 = 108 (CACCCA) k = 3 posicao = 244 chi2 = 107 (CACCCA) k = 4 posicao = 1210 chi2 = 038 (CACCCA)

Quorum = 80 9800 motivos encontrados k = 1 posicao = 1302 chi2 = 157 (CACCCA) k = 1 posicao = 2061 chi2 = 087 (CACCCG) k = 2 posicao = 2058 chi2 = 117 (CACCCA) k = 2 posicao = 2522 chi2 = 059 (CACCCG) k = 3 posicao = 1624 chi2 = 106 (CACCCA) k = 3 posicao = 2994 chi2 = 045 (CACCCG) k = 4 posicao = 2703 chi2 = 05 (CACCCA) k = 4 posicao = 3926 chi2 = 011 (CACCCG)

Quorum = 75 11933 motivos encontrados k = 1 posicao = 1951 chi2 = 145 (CACCCA) k = 1 posicao = 2903 chi2 = 081 (CACCCG) k = 2 posicao = 2227 chi2 = 116 (CACCCA) k = 2 posicao = 3417 chi2 = 062 (CACCCG) k = 3 posicao = 2137 chi2 = 108 (CACCCA) k = 3 posicao = 3426 chi2 = 041 (CACCCG) k = 4 posicao = 4518 chi2 = 031 (CACCCA) k = 4 posicao = 4805 chi2 = 012 (CACCCG)

Quorum = 60 20531 motivos encontrados k = 1 posicao = 5137 chi2 = 144 (CACCCA) k = 1 posicao = 5556 chi2 = 073 (CACCCG) k = 2 posicao = 4865 chi2 = 113 (CACCCA) k = 2 posicao = 5737 chi2 = 062 (CACCCG) k = 3 posicao = 4491 chi2 = 097 (CACCCA) k = 3 posicao = 5797 chi2 = 052 (CACCCG) k = 4 posicao = 7825 chi2 = 041 (CACCCA) k = 4 posicao = 7275 chi2 = 018 (CACCCG)

7_0_REB1

Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

211 motivos encontrados k = 1 posicao = 4 chi2 = 965 (TTACCC)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 57

k = 2 posicao = 4 chi2 = 105 (TTACCC) k = 3 posicao = 4 chi2 = 1075 (TTACCC) k = 4 posicao = 4 chi2 = 755 (TTACCC)

Quorum = 80 405 motivos encontrados k = 1 posicao = 4 chi2 = 932 (TTACCC) k = 2 posicao = 4 chi2 = 1083 (TTACCC) k = 3 posicao = 4 chi2 = 1106 (TTACCC) k = 4 posicao = 4 chi2 = 723 (TTACCC)

Quorum = 75 605 motivos encontrados k = 1 posicao = 6 chi2 = 947 (TTACCC) k = 2 posicao = 5 chi2 = 999 (TTACCC) k = 3 posicao = 5 chi2 = 1098 (TTACCC) k = 4 posicao = 5 chi2 = 808 (TTACCC)

Quorum = 60 907 motivos encontrados k = 1 posicao = 9 chi2 = 1007 (TTACCC) k = 2 posicao = 6 chi2 = 1089 (TTACCC) k = 3 posicao = 6 chi2 = 1081 (TTACCC) k = 4 posicao = 6 chi2 = 788 (TTACCC)

Erro = 1 Quorum = 100

6121 motivos encontrados k = 1 posicao = 4617 chi2 = 013 (TTACCC) k = 2 posicao = 4454 chi2 = 016 (TTACCC) k = 3 posicao = 4730 chi2 = 012 (TTACCC) k = 4 posicao = 5483 chi2 = 004 (TTACCC)

Quorum = 80 10337 motivos encontrados k = 1 posicao = 7525 chi2 = 008 (TTACCC) k = 2 posicao = 7267 chi2 = 01 (TTACCC) k = 3 posicao = 7129 chi2 = 012 (TTACCC) k = 4 posicao = 7469 chi2 = 009 (TTACCC)

Quorum = 75 15777 motivos encontrados k = 1 posicao = 10287 chi2 = 012 (TTACCC) k = 2 posicao = 10740 chi2 = 01 (TTACCC) k = 3 posicao = 9696 chi2 = 016 (TTACCC) k = 4 posicao = 10789 chi2 = 008 (TTACCC)

Quorum = 60 23856 motivos encontrados k = 1 posicao = 15646 chi2 = 01 (TTACCC) k = 2 posicao = 15437 chi2 = 012 (TTACCC) k = 3 posicao = 13932 chi2 = 022 (TTACCC) k = 4 posicao = 15597 chi2 = 009 (TTACCC)

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

235 motivos encontrados Quorum = 80

475 motivos encontrados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 58

k = 1 posicao = 3 chi2 = 945 (TGCCAAG) k = 2 posicao = 2 chi2 = 92 (TGCCAAG) k = 3 posicao = 2 chi2 = 892 (TGCCAAG) k = 4 posicao = 3 chi2 = 7 (TGCCAAG)

Quorum = 75 475 motivos encontrados k = 1 posicao = 2 chi2 = 924 (TGCCAAG) k = 2 posicao = 3 chi2 = 886 (TGCCAAG) k = 3 posicao = 3 chi2 = 869 (TGCCAAG) k = 4 posicao = 2 chi2 = 678 (TGCCAAG)

Quorum = 60 785 motivos encontrados k = 1 posicao = 5 chi2 = 952 (TGCCAAG) k = 2 posicao = 4 chi2 = 934 (TGCCAAG) k = 3 posicao = 4 chi2 = 869 (TGCCAAG) k = 4 posicao = 6 chi2 = 67 (TGCCAAG)

Erro = 1 Quorum = 100

7028 motivos encontrados k = 1 posicao = 436 chi2 = 321 (TGCCAAG) k = 2 posicao = 551 chi2 = 217 (TGCCAAG) k = 3 posicao = 940 chi2 = 223 (TGCCAAG) k = 4 posicao = 1492 chi2 = 095 (TGCCAAG)

Quorum = 80 12574 motivos encontrados k = 1 posicao = 1703 chi2 = 325 (TGCCAAG) k = 2 posicao = 2035 chi2 = 244 (TGCCAAG) k = 3 posicao = 1678 chi2 = 217 (TGCCAAG) k = 4 posicao = 3298 chi2 = 093 (TGCCAAG)

Quorum = 75 12574 motivos encontrados k = 1 posicao = 1739 chi2 = 333 (TGCCAAG) k = 2 posicao = 1717 chi2 = 216 (TGCCAAG) k = 3 posicao = 1609 chi2 = 212 (TGCCAAG) k = 4 posicao = 3574 chi2 = 075 (TGCCAAG)

Quorum = 60 20257 motivos encontrados k = 1 posicao = 3598 chi2 = 304 (TGCCAAG) k = 2 posicao = 3664 chi2 = 211 (TGCCAAG) k = 3 posicao = 3206 chi2 = 213 (TGCCAAG) k = 4 posicao = 4753 chi2 = 115 (TGCCAAG)

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

267 motivos encontrados k = 1 posicao = 4 chi2 = 998 (TGAAACA) k = 2 posicao = 5 chi2 = 908 (TGAAACA) k = 3 posicao = 5 chi2 = 875 (TGAAACA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 59

k = 4 posicao = 4 chi2 = 743 (TGAAACA)

Quorum = 80 529 motivos encontrados k = 1 posicao = 4 chi2 = 969 (TGAAACA) k = 2 posicao = 6 chi2 = 84 (TGAAACA) k = 3 posicao = 5 chi2 = 845 (TGAAACA) k = 4 posicao = 5 chi2 = 702 (TGAAACA)

Quorum = 75 529 motivos encontrados k = 1 posicao = 6 chi2 = 933 (TGAAACA) k = 2 posicao = 5 chi2 = 866 (TGAAACA) k = 3 posicao = 5 chi2 = 86 (TGAAACA) k = 4 posicao = 5 chi2 = 717 (TGAAACA)

Quorum = 60 916 motivos encontrados k = 1 posicao = 12 chi2 = 956 (TGAAACA) k = 2 posicao = 13 chi2 = 893 (TGAAACA) k = 3 posicao = 16 chi2 = 84 (TGAAACA) k = 4 posicao = 18 chi2 = 715 (TGAAACA)

Erro = 1 Quorum = 100

7705 motivos encontrados k = 1 posicao = 4203 chi2 = 055 (TGAAACA) k = 2 posicao = 5562 chi2 = 02 (TGAAACA) k = 3 posicao = 5481 chi2 = 021 (TGAAACA) k = 4 posicao = 6219 chi2 = 012 (TGAAACA)

Quorum = 80 14161 motivos encontrados k = 1 posicao = 8113 chi2 = 052 (TGAAACA) k = 2 posicao = 9261 chi2 = 022 (TGAAACA) k = 3 posicao = 8536 chi2 = 029 (TGAAACA) k = 4 posicao = 10343 chi2 = 01 (TGAAACA)

Quorum = 75 14161 motivos encontrados k = 1 posicao = 7156 chi2 = 066 (TGAAACA) k = 2 posicao = 8778 chi2 = 028 (TGAAACA) k = 3 posicao = 8848 chi2 = 034 (TGAAACA) k = 4 posicao = 9747 chi2 = 015 (TGAAACA)

Quorum = 60 24421 motivos encontrados k = 1 posicao = 12918 chi2 = 049 (TGAAACA) k = 2 posicao = 15781 chi2 = 024 (TGAAACA) k = 3 posicao = 13941 chi2 = 03 (TGAAACA) k = 4 posicao = 16147 chi2 = 017 (TGAAACA)

7_1_SWI4

Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

330 motivos encontrados Quorum = 80

675 motivos encontrados k = 1 posicao = 3 chi2 = 575 (CGCGAAA) k = 2 posicao = 3 chi2 = 483 (CGCGAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 60

k = 3 posicao = 11 chi2 = 395 (CGCGAAA) k = 4 posicao = 5 chi2 = 367 (CGCGAAA)

Quorum = 75 675 motivos encontrados k = 1 posicao = 2 chi2 = 6 (CGCGAAA) k = 2 posicao = 4 chi2 = 504 (CGCGAAA) k = 3 posicao = 14 chi2 = 372 (CGCGAAA) k = 4 posicao = 14 chi2 = 343 (CGCGAAA)

Quorum = 60 1349 motivos encontrados k = 1 posicao = 50 chi2 = 31 (CACGAAA) k = 1 posicao = 8 chi2 = 569 (CGCGAAA) k = 2 posicao = 81 chi2 = 26 (CACGAAA) k = 2 posicao = 20 chi2 = 48 (CGCGAAA) k = 3 posicao = 117 chi2 = 21 (CACGAAA) k = 3 posicao = 47 chi2 = 37 (CGCGAAA) k = 4 posicao = 309 chi2 = 056 (CACGAAA) k = 4 posicao = 33 chi2 = 367 (CGCGAAA)

Erro = 1 Quorum = 100

8974 motivos encontrados k = 1 posicao = 2630 chi2 = 093 (CACGAAA) k = 1 posicao = 1189 chi2 = 212 (CGCGAAA) k = 2 posicao = 3046 chi2 = 07 (CACGAAA) k = 2 posicao = 2138 chi2 = 101 (CGCGAAA) k = 3 posicao = 4224 chi2 = 03 (CACGAAA) k = 3 posicao = 4064 chi2 = 04 (CGCGAAA) k = 4 posicao = 5230 chi2 = 012 (CACGAAA) k = 4 posicao = 4771 chi2 = 018 (CGCGAAA)

Quorum = 80 17937 motivos encontrados k = 1 posicao = 6152 chi2 = 107 (CACGAAA) k = 1 posicao = 3575 chi2 = 211 (CGCGAAA) k = 2 posicao = 7073 chi2 = 071 (CACGAAA) k = 2 posicao = 6979 chi2 = 078 (CGCGAAA) k = 3 posicao = 9212 chi2 = 035 (CACGAAA) k = 3 posicao = 8502 chi2 = 038 (CGCGAAA) k = 4 posicao = 10421 chi2 = 017 (CACGAAA) k = 4 posicao = 9629 chi2 = 026 (CGCGAAA)

Quorum = 75 17937 motivos encontrados k = 1 posicao = 6271 chi2 = 104 (CACGAAA) k = 1 posicao = 4092 chi2 = 171 (CGCGAAA) k = 2 posicao = 8574 chi2 = 052 (CACGAAA) k = 2 posicao = 5741 chi2 = 107 (CGCGAAA) k = 3 posicao = 10092 chi2 = 026 (CACGAAA) k = 3 posicao = 8743 chi2 = 044 (CGCGAAA) k = 4 posicao = 11741 chi2 = 009 (CACGAAA) k = 4 posicao = 9601 chi2 = 022 (CGCGAAA)

Quorum = 60 35352 motivos encontrados k = 1 posicao = 15854 chi2 = 094 (CACGAAA) k = 1 posicao = 9842 chi2 = 196 (CGCGAAA) k = 2 posicao = 18655 chi2 = 063 (CACGAAA) k = 2 posicao = 16854 chi2 = 093 (CGCGAAA) k = 3 posicao = 21349 chi2 = 025 (CACGAAA) k = 3 posicao = 19789 chi2 = 036 (CGCGAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 61

k = 4 posicao = 22509 chi2 = 016 (CACGAAA) k = 4 posicao = 21049 chi2 = 027 (CGCGAAA)

7_2_GCN4

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

229 motivos encontrados Quorum = 80

372 motivos encontrados Quorum = 75

586 motivos encontrados Quorum = 60

839 motivos encontrados Erro = 1

Quorum = 100 6343 motivos encontrados

Quorum = 80 10422 motivos encontrados

Quorum = 75 15227 motivos encontrados

Quorum = 60 21609 motivos encontrados

7_2_RGT1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

205 motivos encontrados Quorum = 80

496 motivos encontrados k = 1 posicao = 4 chi2 = 1052 (CGGAAAA) k = 2 posicao = 2 chi2 = 883 (CGGAAAA) k = 3 posicao = 2 chi2 = 692 (CGGAAAA) k = 4 posicao = 10 chi2 = 308 (CGGAAAA)

Quorum = 75 496 motivos encontrados k = 1 posicao = 4 chi2 = 1101 (CGGAAAA) k = 2 posicao = 3 chi2 = 855 (CGGAAAA) k = 3 posicao = 4 chi2 = 685 (CGGAAAA) k = 4 posicao = 9 chi2 = 338 (CGGAAAA)

Quorum = 60 987 motivos encontrados k = 1 posicao = 10 chi2 = 1087 (CGGAAAA) k = 2 posicao = 11 chi2 = 792 (CGGAAAA) k = 3 posicao = 10 chi2 = 637 (CGGAAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 62

k = 4 posicao = 27 chi2 = 333 (CGGAAAA)

Erro = 1 Quorum = 100

6085 motivos encontrados k = 1 posicao = 740 chi2 = 226 (CGGAAAA) k = 1 posicao = 244 chi2 = 442 (CGGAAGA) k = 1 posicao = 375 chi2 = 415 (CGGAGAA) k = 1 posicao = 795 chi2 = 205 (CGGATAA) k = 2 posicao = 1431 chi2 = 069 (CGGAAAA) k = 2 posicao = 350 chi2 = 257 (CGGAAGA) k = 2 posicao = 313 chi2 = 281 (CGGAGAA) k = 2 posicao = 403 chi2 = 257 (CGGATAA) k = 3 posicao = 2933 chi2 = 015 (CGGAAAA) k = 3 posicao = 543 chi2 = 161 (CGGAAGA) k = 3 posicao = 758 chi2 = 162 (CGGAGAA) k = 3 posicao = 334 chi2 = 242 (CGGATAA) k = 4 posicao = 3388 chi2 = 006 (CGGAAAA) k = 4 posicao = 944 chi2 = 088 (CGGAAGA) k = 4 posicao = 682 chi2 = 096 (CGGAGAA) k = 4 posicao = 448 chi2 = 157 (CGGATAA)

Quorum = 80 13578 motivos encontrados k = 1 posicao = 2782 chi2 = 211 (CGGAAAA) k = 1 posicao = 1309 chi2 = 443 (CGGAAGA) k = 1 posicao = 9793 chi2 = 0 (CGGAATA) k = 1 posicao = 1525 chi2 = 436 (CGGAGAA) k = 1 posicao = 1267 chi2 = 351 (CGGAGGA) k = 1 posicao = 2001 chi2 = 282 (CGGATAA) k = 1 posicao = 4454 chi2 = 055 (CGGATTA) k = 2 posicao = 4354 chi2 = 063 (CGGAAAA) k = 2 posicao = 1547 chi2 = 273 (CGGAAGA) k = 2 posicao = 7920 chi2 = 004 (CGGAATA) k = 2 posicao = 2260 chi2 = 262 (CGGAGAA) k = 2 posicao = 1049 chi2 = 271 (CGGAGGA) k = 2 posicao = 1502 chi2 = 271 (CGGATAA) k = 2 posicao = 3568 chi2 = 083 (CGGATTA) k = 3 posicao = 6889 chi2 = 02 (CGGAAAA) k = 3 posicao = 2122 chi2 = 16 (CGGAAGA) k = 3 posicao = 10332 chi2 = 01 (CGGAATA) k = 3 posicao = 2408 chi2 = 144 (CGGAGAA) k = 3 posicao = 1273 chi2 = 214 (CGGAGGA) k = 3 posicao = 1406 chi2 = 211 (CGGATAA) k = 3 posicao = 1203 chi2 = 189 (CGGATTA) k = 4 posicao = 8380 chi2 = 003 (CGGAAAA) k = 4 posicao = 4250 chi2 = 074 (CGGAAGA) k = 4 posicao = 12881 chi2 = 037 (CGGAATA) k = 4 posicao = 3392 chi2 = 088 (CGGAGAA) k = 4 posicao = 1278 chi2 = 162 (CGGAGGA) k = 4 posicao = 1930 chi2 = 148 (CGGATAA) k = 4 posicao = 1157 chi2 = 136 (CGGATTA)

Quorum = 75 13578 motivos encontrados k = 1 posicao = 2620 chi2 = 264 (CGGAAAA) k = 1 posicao = 1452 chi2 = 443 (CGGAAGA) k = 1 posicao = 8943 chi2 = 001 (CGGAATA) k = 1 posicao = 1121 chi2 = 446 (CGGAGAA) k = 1 posicao = 965 chi2 = 424 (CGGAGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 63

k = 1 posicao = 2453 chi2 = 246 (CGGATAA) k = 1 posicao = 3571 chi2 = 086 (CGGATTA) k = 2 posicao = 4690 chi2 = 069 (CGGAAAA) k = 2 posicao = 1475 chi2 = 255 (CGGAAGA) k = 2 posicao = 7150 chi2 = 01 (CGGAATA) k = 2 posicao = 1209 chi2 = 259 (CGGAGAA) k = 2 posicao = 837 chi2 = 274 (CGGAGGA) k = 2 posicao = 1900 chi2 = 268 (CGGATAA) k = 2 posicao = 3981 chi2 = 066 (CGGATTA) k = 3 posicao = 6549 chi2 = 022 (CGGAAAA) k = 3 posicao = 1447 chi2 = 191 (CGGAAGA) k = 3 posicao = 10656 chi2 = 018 (CGGAATA) k = 3 posicao = 2435 chi2 = 155 (CGGAGAA) k = 3 posicao = 1026 chi2 = 21 (CGGAGGA) k = 3 posicao = 1469 chi2 = 233 (CGGATAA) k = 3 posicao = 1202 chi2 = 189 (CGGATTA) k = 4 posicao = 11692 chi2 = 0 (CGGAAAA) k = 4 posicao = 3717 chi2 = 077 (CGGAAGA) k = 4 posicao = 10890 chi2 = 035 (CGGAATA) k = 4 posicao = 3482 chi2 = 087 (CGGAGAA) k = 4 posicao = 1187 chi2 = 168 (CGGAGGA) k = 4 posicao = 1746 chi2 = 148 (CGGATAA) k = 4 posicao = 1204 chi2 = 149 (CGGATTA)

Quorum = 60 25839 motivos encontrados k = 1 posicao = 5870 chi2 = 247 (CGGAAAA) k = 1 posicao = 4726 chi2 = 405 (CGGAAGA) k = 1 posicao = 18076 chi2 = 0 (CGGAATA) k = 1 posicao = 3940 chi2 = 388 (CGGAGAA) k = 1 posicao = 3424 chi2 = 384 (CGGAGGA) k = 1 posicao = 15679 chi2 = 005 (CGGAGTA) k = 1 posicao = 6177 chi2 = 245 (CGGATAA) k = 1 posicao = 15167 chi2 = 008 (CGGATGA) k = 1 posicao = 11165 chi2 = 059 (CGGATTA) k = 2 posicao = 11428 chi2 = 046 (CGGAAAA) k = 2 posicao = 4811 chi2 = 242 (CGGAAGA) k = 2 posicao = 16216 chi2 = 003 (CGGAATA) k = 2 posicao = 4128 chi2 = 226 (CGGAGAA) k = 2 posicao = 3005 chi2 = 278 (CGGAGGA) k = 2 posicao = 10245 chi2 = 04 (CGGAGTA) k = 2 posicao = 3437 chi2 = 3 (CGGATAA) k = 2 posicao = 10379 chi2 = 033 (CGGATGA) k = 2 posicao = 8888 chi2 = 072 (CGGATTA) k = 3 posicao = 13836 chi2 = 017 (CGGAAAA) k = 3 posicao = 4943 chi2 = 191 (CGGAAGA) k = 3 posicao = 20550 chi2 = 01 (CGGAATA) k = 3 posicao = 6774 chi2 = 155 (CGGAGAA) k = 3 posicao = 2524 chi2 = 222 (CGGAGGA) k = 3 posicao = 13828 chi2 = 01 (CGGAGTA) k = 3 posicao = 4859 chi2 = 197 (CGGATAA) k = 3 posicao = 9284 chi2 = 029 (CGGATGA) k = 3 posicao = 3146 chi2 = 179 (CGGATTA) k = 4 posicao = 17095 chi2 = 001 (CGGAAAA) k = 4 posicao = 7930 chi2 = 083 (CGGAAGA) k = 4 posicao = 24667 chi2 = 051 (CGGAATA) k = 4 posicao = 9042 chi2 = 083 (CGGAGAA) k = 4 posicao = 3884 chi2 = 147 (CGGAGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 64

k = 4 posicao = 13905 chi2 = 007 (CGGAGTA) k = 4 posicao = 4859 chi2 = 156 (CGGATAA) k = 4 posicao = 14606 chi2 = 005 (CGGATGA) k = 4 posicao = 3783 chi2 = 127 (CGGATTA)

8_1_PDR1

Motivo TCCGYGGA Frequecircncia 68 ~75 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

229 motivos encontrados Quorum = 80

416 motivos encontrados Quorum = 75

639 motivos encontrados k = 1 posicao = 2 chi2 = 96 (TCCGCGGA) k = 2 posicao = 2 chi2 = 941 (TCCGCGGA) k = 3 posicao = 2 chi2 = 915 (TCCGCGGA) k = 4 posicao = 2 chi2 = 674 (TCCGCGGA)

Quorum = 60 950 motivos encontrados k = 1 posicao = 4 chi2 = 937 (TCCGCGGA) k = 2 posicao = 3 chi2 = 933 (TCCGCGGA) k = 3 posicao = 3 chi2 = 926 (TCCGCGGA) k = 4 posicao = 3 chi2 = 686 (TCCGCGGA)

Erro = 1 Quorum = 100

6610 motivos encontrados k = 1 posicao = 8 chi2 = 1095 (TCCGCGGA) k = 1 posicao = 15 chi2 = 1007 (TCCGTGGA) k = 2 posicao = 8 chi2 = 1092 (TCCGCGGA) k = 2 posicao = 18 chi2 = 1039 (TCCGTGGA) k = 3 posicao = 11 chi2 = 907 (TCCGCGGA) k = 3 posicao = 9 chi2 = 881 (TCCGTGGA) k = 4 posicao = 18 chi2 = 517 (TCCGCGGA) k = 4 posicao = 8 chi2 = 759 (TCCGTGGA)

Quorum = 80 11058 motivos encontrados k = 1 posicao = 32 chi2 = 1126 (TCCGCGGA) k = 1 posicao = 48 chi2 = 1053 (TCCGTGGA) k = 2 posicao = 21 chi2 = 1053 (TCCGCGGA) k = 2 posicao = 19 chi2 = 1098 (TCCGTGGA) k = 3 posicao = 29 chi2 = 881 (TCCGCGGA) k = 3 posicao = 60 chi2 = 808 (TCCGTGGA) k = 4 posicao = 97 chi2 = 509 (TCCGCGGA) k = 4 posicao = 42 chi2 = 698 (TCCGTGGA)

Quorum = 75 16695 motivos encontrados k = 1 posicao = 92 chi2 = 1126 (TCCGCGGA) k = 1 posicao = 178 chi2 = 1026 (TCCGTGGA) k = 2 posicao = 70 chi2 = 1092 (TCCGCGGA) k = 2 posicao = 73 chi2 = 1069 (TCCGTGGA) k = 3 posicao = 64 chi2 = 983 (TCCGCGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 65

k = 3 posicao = 83 chi2 = 898 (TCCGTGGA) k = 4 posicao = 336 chi2 = 48 (TCCGCGGA) k = 4 posicao = 130 chi2 = 657 (TCCGTGGA)

Quorum = 60 25049 motivos encontrados k = 1 posicao = 220 chi2 = 1135 (TCCGCGGA) k = 1 posicao = 369 chi2 = 1004 (TCCGTGGA) k = 2 posicao = 83 chi2 = 1159 (TCCGCGGA) k = 2 posicao = 263 chi2 = 1045 (TCCGTGGA) k = 3 posicao = 134 chi2 = 883 (TCCGCGGA) k = 3 posicao = 206 chi2 = 857 (TCCGTGGA) k = 4 posicao = 580 chi2 = 488 (TCCGCGGA) k = 4 posicao = 213 chi2 = 67 (TCCGTGGA)

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

241 motivos encontrados Quorum = 80

423 motivos encontrados k = 1 posicao = 2 chi2 = 1237 (TCCGCGGA) k = 2 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 3 posicao = 2 chi2 = 1229 (TCCGCGGA) k = 4 posicao = 2 chi2 = 915 (TCCGCGGA)

Quorum = 75 667 motivos encontrados k = 1 posicao = 2 chi2 = 1237 (TCCGCGGA) k = 2 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 3 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 4 posicao = 2 chi2 = 909 (TCCGCGGA)

Quorum = 60 1024 motivos encontrados k = 1 posicao = 3 chi2 = 1233 (TCCGCGGA) k = 2 posicao = 4 chi2 = 124 (TCCGCGGA) k = 3 posicao = 3 chi2 = 1221 (TCCGCGGA) k = 4 posicao = 5 chi2 = 918 (TCCGCGGA)

Erro = 1 Quorum = 100

6897 motivos encontrados k = 1 posicao = 17 chi2 = 1115 (TCCGCGGA) k = 1 posicao = 24 chi2 = 1026 (TCCGTGGA) k = 2 posicao = 12 chi2 = 1174 (TCCGCGGA) k = 2 posicao = 10 chi2 = 1138 (TCCGTGGA) k = 3 posicao = 17 chi2 = 945 (TCCGCGGA) k = 3 posicao = 29 chi2 = 827 (TCCGTGGA) k = 4 posicao = 65 chi2 = 481 (TCCGCGGA) k = 4 posicao = 39 chi2 = 616 (TCCGTGGA)

Quorum = 80 11592 motivos encontrados k = 1 posicao = 69 chi2 = 1156 (TCCGCGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 66

k = 1 posicao = 117 chi2 = 1012 (TCCGTGGA) k = 2 posicao = 38 chi2 = 1177 (TCCGCGGA) k = 2 posicao = 69 chi2 = 1061 (TCCGTGGA) k = 3 posicao = 76 chi2 = 893 (TCCGCGGA) k = 3 posicao = 53 chi2 = 817 (TCCGTGGA) k = 4 posicao = 131 chi2 = 526 (TCCGCGGA) k = 4 posicao = 61 chi2 = 638 (TCCGTGGA)

Quorum = 75 17555 motivos encontrados k = 1 posicao = 210 chi2 = 1109 (TCCGCGGA) k = 1 posicao = 265 chi2 = 1061 (TCCGTGGA) k = 2 posicao = 78 chi2 = 115 (TCCGCGGA) k = 2 posicao = 102 chi2 = 1109 (TCCGTGGA) k = 3 posicao = 184 chi2 = 905 (TCCGCGGA) k = 3 posicao = 105 chi2 = 85 (TCCGTGGA) k = 4 posicao = 424 chi2 = 451 (TCCGCGGA) k = 4 posicao = 476 chi2 = 582 (TCCGTGGA)

Quorum = 60 26303 motivos encontrados k = 1 posicao = 433 chi2 = 1118 (TCCGCGGA) k = 1 posicao = 521 chi2 = 991 (TCCGTGGA) k = 2 posicao = 237 chi2 = 1064 (TCCGCGGA) k = 2 posicao = 322 chi2 = 1045 (TCCGTGGA) k = 3 posicao = 316 chi2 = 95 (TCCGCGGA) k = 3 posicao = 415 chi2 = 827 (TCCGTGGA) k = 4 posicao = 978 chi2 = 49 (TCCGCGGA) k = 4 posicao = 1277 chi2 = 616 (TCCGTGGA)

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

328 motivos encontrados Quorum = 80

685 motivos encontrados Quorum = 75

685 motivos encontrados Quorum = 60

1319 motivos encontrados k = 1 posicao = 4 chi2 = 411 (TCCGTGGA) k = 2 posicao = 2 chi2 = 421 (TCCGTGGA) k = 3 posicao = 2 chi2 = 407 (TCCGTGGA) k = 4 posicao = 3 chi2 = 354 (TCCGTGGA)

Erro = 1 Quorum = 100

9298 motivos encontrados k = 1 posicao = 95 chi2 = 631 (TCCGAGGA) k = 1 posicao = 63 chi2 = 675 (TCCGCGGA) k = 1 posicao = 75 chi2 = 678 (TCCGTGGA) k = 2 posicao = 51 chi2 = 61 (TCCGAGGA) k = 2 posicao = 25 chi2 = 745 (TCCGCGGA) k = 2 posicao = 22 chi2 = 718 (TCCGTGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 67

k = 3 posicao = 38 chi2 = 538 (TCCGAGGA) k = 3 posicao = 68 chi2 = 543 (TCCGCGGA) k = 3 posicao = 64 chi2 = 57 (TCCGTGGA) k = 4 posicao = 48 chi2 = 529 (TCCGAGGA) k = 4 posicao = 161 chi2 = 389 (TCCGCGGA) k = 4 posicao = 78 chi2 = 477 (TCCGTGGA)

Quorum = 80 18263 motivos encontrados k = 1 posicao = 551 chi2 = 592 (TCCGAGGA) k = 1 posicao = 147 chi2 = 754 (TCCGCGGA) k = 1 posicao = 282 chi2 = 647 (TCCGTGGA) k = 2 posicao = 296 chi2 = 605 (TCCGAGGA) k = 2 posicao = 143 chi2 = 715 (TCCGCGGA) k = 2 posicao = 182 chi2 = 681 (TCCGTGGA) k = 3 posicao = 589 chi2 = 511 (TCCGAGGA) k = 3 posicao = 347 chi2 = 553 (TCCGCGGA) k = 3 posicao = 245 chi2 = 59 (TCCGTGGA) k = 4 posicao = 429 chi2 = 462 (TCCGAGGA) k = 4 posicao = 944 chi2 = 401 (TCCGCGGA) k = 4 posicao = 577 chi2 = 41 (TCCGTGGA)

Quorum = 75 18263 motivos encontrados k = 1 posicao = 790 chi2 = 6 (TCCGAGGA) k = 1 posicao = 168 chi2 = 706 (TCCGCGGA) k = 1 posicao = 451 chi2 = 631 (TCCGTGGA) k = 2 posicao = 195 chi2 = 623 (TCCGAGGA) k = 2 posicao = 152 chi2 = 695 (TCCGCGGA) k = 2 posicao = 155 chi2 = 686 (TCCGTGGA) k = 3 posicao = 159 chi2 = 546 (TCCGAGGA) k = 3 posicao = 286 chi2 = 546 (TCCGCGGA) k = 3 posicao = 281 chi2 = 585 (TCCGTGGA) k = 4 posicao = 342 chi2 = 46 (TCCGAGGA) k = 4 posicao = 562 chi2 = 381 (TCCGCGGA) k = 4 posicao = 632 chi2 = 401 (TCCGTGGA)

Quorum = 60 35494 motivos encontrados k = 1 posicao = 1806 chi2 = 548 (TCCGAGGA) k = 1 posicao = 1580 chi2 = 65 (TCCGCGGA) k = 1 posicao = 1668 chi2 = 595 (TCCGTGGA) k = 2 posicao = 1224 chi2 = 592 (TCCGAGGA) k = 2 posicao = 794 chi2 = 701 (TCCGCGGA) k = 2 posicao = 991 chi2 = 658 (TCCGTGGA) k = 3 posicao = 1647 chi2 = 536 (TCCGAGGA) k = 3 posicao = 2029 chi2 = 546 (TCCGCGGA) k = 3 posicao = 1118 chi2 = 57 (TCCGTGGA) k = 4 posicao = 1549 chi2 = 502 (TCCGAGGA) k = 4 posicao = 2429 chi2 = 385 (TCCGCGGA) k = 4 posicao = 2813 chi2 = 429 (TCCGTGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 68

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 69

Anexo B Comparaccedilatildeo da Significacircncia Estatiacutestica referente agrave Abundacircncia obtida pelo

Meacutetodo de Shuffling e pelo Meacutetodo Analiacutetico

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos a comparaccedilatildeo entre o valor do chi2 obtido pelo meacutetodo de shuffling e o valor obtido pelo meacutetodo analiacutetico

Cada linha diz respeito a dados em que se conserva um determinado k-mer (k) Em cada uma eacute apresentado o valor do chi2 obtido pelo meacutetodo de shuffling (chi2) e a sua posiccedilatildeo relativa na lista de motivos ordenada por valores decrescentes de chi2 face ao nuacutemero de motivos extraiacutedos Os valores acima referidos tambeacutem satildeo apresentados para o meacutetodo analiacutetico (achi2)

10_2_YRR1 Motivo TTCCGTGGAA TTCCGCGGAT TTCCGCGGAA Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=488 (633 in 8908) achi2=476 (745 in 8908) [TTCCGCGGAA]

K=2 chi2=465 (468 in 8908) achi2=464 (509 in 8908) [TTCCGCGGAA]

K=3 chi2=412 (201 in 8908) achi2=413 (230 in 8908) [TTCCGCGGAA]

K=4 chi2=253 (223 in 8908) achi2=278 (205 in 8908) [TTCCGCGGAA]

K=5 chi2=126 (277 in 8912) achi2=143 (291 in 8912) [TTCCGCGGAA]

K=6 chi2=039 (323 in 8912) achi2=041 (1035 in 8912) [TTCCGCGGAA]

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 70

Error = 1

Quorum = 80

K=1 chi2=388 (428 in 17722) achi2=387 (504 in 17722) [ACCCTAAAGGT]

K=1 chi2=474 (246 in 17722) achi2=483 (265 in 17722) [ACCTTAAAGGT]

K=2 chi2=394 (222 in 17722) achi2=389 (248 in 17722) [ACCCTAAAGGT]

K=2 chi2=474 (111 in 17722) achi2=484 (119 in 17722) [ACCTTAAAGGT]

K=3 chi2=400 (51 in 17722) achi2=391 (61 in 17722) [ACCCTAAAGGT]

K=3 chi2=477 (12 in 17722) achi2=485 (14 in 17722) [ACCTTAAAGGT]

K=4 chi2=394 (28 in 17722) achi2=387 (31 in 17722) [ACCCTAAAGGT]

K=4 chi2=488 (4 in 17722) achi2=485 (4 in 17722) [ACCTTAAAGGT]

K=5 chi2=326 (24 in 17722) achi2=343 (29 in 17722) [ACCCTAAAGGT]

K=5 chi2=435 (7 in 17722) achi2=462 (3 in 17722) [ACCTTAAAGGT]

K=6 chi2=071 (387 in 17722) achi2=282 (276 in 17722) [ACCCTAAAGGT]

K=6 chi2=310 (2 in 17722) achi2=431 (259 in 17722) [ACCTTAAAGGT]

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=344 (91 in 1316) achi2=314 (116 in 1316) [CCCCT]

K=2 chi2=187 (183 in 1316) achi2=194 (178 in 1316) [CCCCT]

K=3 chi2=164 (138 in 1316) achi2=140 (190 in 1316) [CCCCT]

K=4 chi2=088 (186 in 1316) achi2=104 (150 in 1316) [CCCCT]

Error = 1

Quorum = 60

K=1 chi2=056 (18487 in 35258) achi2=082 (15627 in 35258) [CCCCT]

K=2 chi2=000 (34670 in 35258) achi2=000 (34292 in 35258) [CCCCT]

K=3 chi2=007 (27587 in 35258) achi2=011 (25832 in 35258) [CCCCT]

K=4 chi2=044 (14195 in 35258) achi2=044 (14486 in 35258) [CCCCT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 71

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=534 (66 in 826) achi2=523 (72 in 826) [CCCCT]

K=2 chi2=290 (76 in 826) achi2=297 (75 in 826) [CCCCT]

K=3 chi2=159 (97 in 826) achi2=152 (105 in 826) [CCCCT]

K=4 chi2=022 (242 in 826) achi2=007 (382 in 826) [CCCCT]

K=5 chi2=000 (360 in 826) achi2=000 (339 in 826) [CCCCT]

K=6 chi2=000 (331 in 826) achi2=000 (604 in 826) [CCCCT]

Error = 1

Quorum = 60

K=1 chi2=372 (2640 in 21544) achi2=462 (2153 in 21544) [CCCCT]

K=2 chi2=041 (10937 in 21544) achi2=070 (8620 in 21544) [CCCCT]

K=3 chi2=000 (20651 in 21544) achi2=000 (20723 in 21544) [CCCCT]

K=4 chi2=080 (4245 in 21544) achi2=083 (4322 in 21544) [CCCCT]

K=5 chi2=000 (19590 in 21562) achi2=000 (20653 in 21562) [CCCCT]

K=6 chi2=000 (16728 in 21562) achi2=000 (21282 in 21562) [CCCCT]

5_1_Gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=080 (3213 in 6121) achi2=079 (3260 in 6121) [CATCC]

K=1 chi2=1188 (320 in 6121) achi2=1158 (344 in 6121) [CTTCC]

K=2 chi2=180 (1552 in 6121) achi2=161 (1763 in 6121) [CATCC]

K=2 chi2=504 (498 in 6121) achi2=470 (566 in 6121) [CTTCC]

K=3 chi2=205 (809 in 6121) achi2=192 (906 in 6121) [CATCC]

K=3 chi2=102 (1713 in 6121) achi2=109 (1663 in 6121) [CTTCC]

K=4 chi2=097 (929 in 6121) achi2=091 (1091 in 6121) [CATCC]

K=4 chi2=001 (5090 in 6121) achi2=001 (5126 in 6121) [CTTCC]

K=5 chi2=000 (5948 in 6121) achi2=000 (5152 in 6121) [CATCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 72

K=5 chi2=000 (4578 in 6121) achi2=000 (5000 in 6121) [CTTCC]

K=6 chi2=000 (5634 in 6121) achi2=000 (5438 in 6121) [CATCC]

K=6 chi2=000 (2279 in 6121) achi2=000 (5149 in 6121) [CTTCC]

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 chi2=292 (2311 in 10819) achi2=273 (2534 in 10819) [GATAAG]

K=1 chi2=131 (4204 in 10819) achi2=102 (4875 in 10819) [GATTAG]

K=2 chi2=499 (766 in 10819) achi2=493 (849 in 10819) [GATAAG]

K=2 chi2=280 (1760 in 10819) achi2=268 (1952 in 10819) [GATTAG]

K=3 chi2=168 (2077 in 10819) achi2=174 (2107 in 10819) [GATAAG]

K=3 chi2=953 (62 in 10819) achi2=925 (81 in 10819) [GATTAG]

K=4 chi2=014 (6803 in 10819) achi2=009 (7567 in 10819) [GATAAG]

K=4 chi2=309 (394 in 10819) achi2=352 (328 in 10819) [GATTAG]

K=5 chi2=001 (8734 in 10819) achi2=003 (7728 in 10819) [GATAAG]

K=5 chi2=176 (429 in 10819) achi2=159 (773 in 10819) [GATTAG]

K=6 chi2=000 (9825 in 10819) achi2=000 (6602 in 10819) [GATAAG]

K=6 chi2=000 (7459 in 10819) achi2=000 (6760 in 10819) [GATTAG]

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

Error = 1

Quorum = 60

K=1 chi2=382 (3218 in 20531) achi2=555 (2348 in 20531) [CACCCA]

k=1 chi2=083 (9754 in 20531) achi2=102 (9117 in 20531) [CACCCG]

K=2 chi2=330 (2327 in 20531) achi2=368 (2233 in 20531) [CACCCA]

K=2 chi2=143 (5707 in 20531) achi2=117 (6956 in 20531) [CACCCG]

K=3 chi2=209 (2208 in 20531) achi2=223 (2249 in 20531) [CACCCA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 73

K=3 chi2=040 (9516 in 20531) achi2=023 (12243 in 20531) [CACCCG]

K=4 chi2=071 (4649 in 20531) achi2=105 (3457 in 20531) [CACCCA]

K=4 chi2=000 (19099 in 20531) achi2=002 (17523 in 20531) [CACCCG]

7_0_REB1 Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 chi2=549 (29 in 405) achi2=586 (33 in 405) [TTACCC]

K=2 chi2=688 (6 in 405) achi2=635 (12 in 405) [TTACCC]

K=3 chi2=706 (2 in 405) achi2=679 (2 in 405) [TTACCC]

K=4 chi2=373 (3 in 405) achi2=402 (3 in 405) [TTACCC]

K=5 chi2=034 (7 in 405) achi2=020 (8 in 405) [TTACCC]

K=6 chi2=000 (383 in 405) achi2=000 (232 in 405) [TTACCC]

Error = 1

Quorum = 80

K=1 chi2=133 (3134 in 10337) achi2=169 (2743 in 10337) [TTACCC]

K=2 chi2=302 (657 in 10337) achi2=267 (945 in 10337) [TTACCC]

K=3 chi2=409 (106 in 10337) achi2=394 (170 in 10337) [TTACCC]

K=4 chi2=082 (1439 in 10337) achi2=109 (1091 in 10337) [TTACCC]

K=5 chi2=002 (7204 in 10337) achi2=003 (6765 in 10337) [TTACCC]

K=6 chi2=000 (10150 in 10337) achi2=000 (6299 in 10337) [TTACCC]

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=626 (58 in 785) achi2=615 (64 in 785) [TGCCAAG]

K=2 chi2=610 (11 in 785) achi2=585 (14 in 785) [TGCCAAG]

K=3 chi2=561 (8 in 785) achi2=575 (6 in 785) [TGCCAAG]

K=4 chi2=399 (4 in 785) achi2=377 (6 in 785) [TGCCAAG]

K=5 chi2=184 (8 in 785) achi2=157 (10 in 785) [TGCCAAG]

K=6 chi2=054 (5 in 785) achi2=055 (255 in 785) [TGCCAAG]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 74

Error = 1

Quorum = 60

K=1 chi2=463 (1914 in 20257) achi2=458 (2166 in 20257) [TGCCAAG]

K=2 chi2=292 (1694 in 20257) achi2=287 (1959 in 20257) [TGCCAAG]

K=3 chi2=252 (1158 in 20257) achi2=270 (1060 in 20257) [TGCCAAG]

K=4 chi2=038 (8072 in 20257) achi2=030 (9306 in 20257) [TGCCAAG]

K=5 chi2=002 (15272 in 20366) achi2=004 (14013 in 20366) [TGCCAAG]

K=6 chi2=009 (5877 in 20366) achi2=029 (4589 in 20366) [TGCCAAG]

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

K=1 chi2=1035 (5 in 267) achi2=996 (6 in 267) [TGAAACA]

K=2 chi2=961 (1 in 267) achi2=905 (1 in 267) [TGAAACA]

K=3 chi2=934 (1 in 267) achi2=884 (1 in 267) [TGAAACA]

K=4 chi2=794 (1 in 267) achi2=731 (1 in 267) [TGAAACA]

K=5 chi2=264 (2 in 267) achi2=320 (1 in 267) [TGAAACA]

K=6 chi2=044 (3 in 267) achi2=052 (168 in 267) [TGAAACA]

Error = 1

Quorum = 100

K=1 chi2=448 (515 in 7705) achi2=400 (675 in 7705) [TGAAACA]

K=2 chi2=168 (1047 in 7705) achi2=157 (1246 in 7705) [TGAAACA]

K=3 chi2=159 (637 in 7705) achi2=128 (992 in 7705) [TGAAACA]

K=4 chi2=057 (1734 in 7705) achi2=026 (3100 in 7705) [TGAAACA]

K=5 chi2=015 (2574 in 7705) achi2=021 (2435 in 7705) [TGAAACA]

K=6 chi2=007 (1386 in 7705) achi2=006 (2114 in 7705) [TGAAACA]

7_1_SWI4

Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 75

Quorum = 100

K=1 chi2=927 (53 in 8974) achi2=950 (59 in 8974) [CACGAAA]

K=1 chi2=1447 (8 in 8974) achi2=1516 (9 in 8974) [CGCGAAA]

K=2 chi2=686 (17 in 8974) achi2=638 (22 in 8974) [CACGAAA]

K=2 chi2=940 (4 in 8974) achi2=924 (3 in 8974) [CGCGAAA]

K=3 chi2=456 (46 in 8974) achi2=436 (53 in 8974) [CACGAAA]

K=3 chi2=514 (20 in 8974) achi2=502 (25 in 8974) [CGCGAAA]

K=4 chi2=087 (1329 in 8974) achi2=106 (1095 in 8974) [CACGAAA]

K=4 chi2=343 (41 in 8974) achi2=390 (27 in 8974) [CGCGAAA]

K=5 chi2=012 (3730 in 8974) achi2=000 (7343 in 8974) [CACGAAA]

K=5 chi2=033 (1966 in 8974) achi2=121 (397 in 8974) [CGCGAAA]

K=6 chi2=007 (1861 in 8974) achi2=001 (3810 in 8974) [CACGAAA]

K=6 chi2=002 (3146 in 8974) achi2=044 (873 in 8974) [CGCGAAA]

7_2_RGT1

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=2092 (246 in 6085) achi2=2140 (236 in 6085) [CGGAAAA]

K=1 chi2=810 (799 in 6085) achi2=803 (815 in 6085) [CGGAAGA]

K=1 chi2=1437 (409 in 6085) achi2=1409 (416 in 6085) [CGGAGAA]

K=1 chi2=337 (1833 in 6085) achi2=350 (1782 in 6085) [CGGATAA]

K=2 chi2=837 (251 in 6085) achi2=840 (245 in 6085) [CGGAAAA]

K=2 chi2=451 (648 in 6085) achi2=442 (666 in 6085) [CGGAAGA]

K=2 chi2=989 (186 in 6085) achi2=937 (208 in 6085) [CGGAGAA]

K=2 chi2=432 (698 in 6085) achi2=428 (695 in 6085) [CGGATAA]

K=3 chi2=281 (367 in 6085) achi2=272 (385 in 6085) [CGGAAAA]

K=3 chi2=242 (473 in 6085) achi2=225 (546 in 6085) [CGGAAGA]

K=3 chi2=580 (76 in 6085) achi2=544 (89 in 6085) [CGGAGAA]

K=3 chi2=366 (216 in 6085) achi2=309 (299 in 6085) [CGGATAA]

K=4 chi2=013 (3127 in 6085) achi2=022 (2503 in 6085) [CGGAAAA]

K=4 chi2=039 (1619 in 6085) achi2=040 (1722 in 6085) [CGGAAGA]

K=4 chi2=320 (35 in 6085) achi2=304 (56 in 6085) [CGGAGAA]

K=4 chi2=193 (166 in 6085) achi2=202 (188 in 6085) [CGGATAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 76

8_1_PDR1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 75

K=1 chi2=901 (25 in 639) achi2=884 (27 in 639) [TCCGCGGA]

K=2 chi2=886 (13 in 639) achi2=883 (14 in 639) [TCCGCGGA]

K=3 chi2=862 (4 in 639) achi2=864 (5 in 639) [TCCGCGGA]

K=4 chi2=659 (2 in 639) achi2=741 (2 in 639) [TCCGCGGA]

K=5 chi2=252 (1 in 639) achi2=306 (1 in 639) [TCCGCGGA]

K=6 chi2=012 (5 in 639) achi2=030 (253 in 639) [TCCGCGGA]

Error = 1

Quorum = 75

K=1 chi2=1388 (184 in 16695) achi2=1370 (211 in 16695) [TCCGCGGA]

K=1 chi2=913 (373 in 16695) achi2=895 (419 in 16695) [TCCGTGGA]

K=2 chi2=1355 (68 in 16695) achi2=1355 (91 in 16695) [TCCGCGGA]

K=2 chi2=952 (199 in 16695) achi2=944 (230 in 16695) [TCCGTGGA]

K=3 chi2=1237 (5 in 16695) achi2=1138 (22 in 16695) [TCCGCGGA]

K=3 chi2=782 (88 in 16695) achi2=771 (119 in 16695) [TCCGTGGA]

K=4 chi2=570 (45 in 16695) achi2=688 (33 in 16695) [TCCGCGGA]

K=4 chi2=544 (53 in 16695) achi2=610 (56 in 16695) [TCCGTGGA]

K=5 chi2=061 (2230 in 16699) achi2=113 (1175 in 16699) [TCCGCGGA]

K=5 chi2=101 (981 in 16699) achi2=207 (328 in 16699) [TCCGTGGA]

K=6 chi2=001 (8600 in 16699) achi2=000 (10541 in 16699) [TCCGCGGA]

K=6 chi2=002 (7065 in 16699) achi2=003 (8326 in 16699) [TCCGTGGA]

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 chi2=995 (22 in 423) achi2=985 (24 in 423) [TCCGCGGA]

K=2 chi2=980 (13 in 423) achi2=985 (13 in 423) [TCCGCGGA]

K=3 chi2=989 (4 in 423) achi2=967 (4 in 423) [TCCGCGGA]

K=4 chi2=741 (1 in 423) achi2=802 (1 in 423) [TCCGCGGA]

K=5 chi2=220 (1 in 423) achi2=303 (1 in 423) [TCCGCGGA]

K=6 chi2=010 (1 in 423) achi2=027 (229 in 423) [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 77

Error = 1

Quorum = 80

K=1 chi2=1609 (169 in 11592) achi2=1592 (187 in 11592) [TCCGCGGA]

K=1 chi2=1090 (327 in 11592) achi2=1109 (353 in 11592) [TCCGTGGA]

K=2 chi2=1634 (63 in 11592) achi2=1584 (97 in 11592) [TCCGCGGA]

K=2 chi2=1148 (174 in 11592) achi2=1142 (197 in 11592) [TCCGTGGA]

K=3 chi2=1333 (20 in 11592) achi2=1364 (24 in 11592) [TCCGCGGA]

K=3 chi2=878 (91 in 11592) achi2=894 (109 in 11592) [TCCGTGGA]

K=4 chi2=784 (26 in 11592) achi2=785 (35 in 11592) [TCCGCGGA]

K=4 chi2=632 (50 in 11592) achi2=689 (52 in 11592) [TCCGTGGA]

K=5 chi2=072 (1370 in 11601) achi2=127 (778 in 11601) [TCCGCGGA]

K=5 chi2=100 (878 in 11601) achi2=146 (618 in 11601) [TCCGTGGA]

K=6 chi2=000 (7969 in 11601) achi2=001 (5475 in 11601) [TCCGCGGA]

K=6 chi2=001 (4626 in 11601) achi2=004 (4674 in 11601) [TCCGTGGA]

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=285 (128 in 1319) achi2=287 (133 in 1319) [TCCGTGGA]

K=2 chi2=294 (89 in 1319) achi2=289 (95 in 1319) [TCCGTGGA]

K=3 chi2=283 (10 in 1319) achi2=278 (15 in 1319) [TCCGTGGA]

K=4 chi2=240 (7 in 1319) achi2=255 (6 in 1319) [TCCGTGGA]

K=5 chi2=122 (16 in 1319) achi2=206 (5 in 1319) [TCCGTGGA]

K=6 chi2=015 (42 in 1319) achi2=084 (269 in 1319) [TCCGTGGA]

Error = 1

Quorum = 60

K=1 chi2=336 (1859 in 35494) achi2=391 (1312 in 35494) [TCCGAGGA]

K=1 chi2=612 (489 in 35494) achi2=660 (442 in 35494) [TCCGCGGA]

K=1 chi2=368 (1518 in 35494) achi2=402 (1240 in 35494) [TCCGTGGA]

K=2 chi2=363 (946 in 35494) achi2=379 (816 in 35494) [TCCGAGGA]

K=2 chi2=636 (218 in 35494) achi2=640 (206 in 35494) [TCCGCGGA]

K=2 chi2=416 (670 in 35494) achi2=428 (599 in 35494) [TCCGTGGA]

K=3 chi2=301 (498 in 35494) achi2=304 (471 in 35494) [TCCGAGGA]

K=3 chi2=515 (41 in 35494) achi2=480 (63 in 35494) [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 78

K=3 chi2=341 (278 in 35494) achi2=329 (327 in 35494) [TCCGTGGA]

K=4 chi2=285 (274 in 35494) achi2=295 (205 in 35494) [TCCGAGGA]

K=4 chi2=300 (198 in 35494) achi2=337 (85 in 35494) [TCCGCGGA]

K=4 chi2=217 (1082 in 35494) achi2=219 (1060 in 35494) [TCCGTGGA]

K=5 chi2=075 (6352 in 35725) achi2=087 (6044 in 35725) [TCCGAGGA]

K=5 chi2=079 (5926 in 35725) achi2=153 (2215 in 35725) [TCCGCGGA]

K=5 chi2=081 (5763 in 35725) achi2=080 (6754 in 35725) [TCCGTGGA]

K=6 chi2=003 (19985 in 35725) achi2=010 (17420 in 35725) [TCCGAGGA]

K=6 chi2=026 (6383 in 35725) achi2=053 (6615 in 35725) [TCCGCGGA]

K=6 chi2=011 (11922 in 35725) achi2=000 (30343 in 35725) [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 79

Anexo C Resultados do Caacutelculo da Significacircncia Estatiacutestica referente agrave Abundacircncia

pelo Meacutetodo Analiacutetico para Conjuntos de Dados de Saccharomyces cerevisiae

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados

A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos os resultados para os motivos procurados em relaccedilatildeo a cada valor dos paracircmetros

Descriccedilatildeo do formato dos resultados

K=ltk-mer conservadogt achi2 = ltchi2 analiacuteticogt (ltposiccedilatildeogt in ltnuacutemero de motivos extraiacutedosgt ltposiccedilatildeo entre motivos do mesmo tamanhogt [motivo]

Nota A posiccedilatildeo do motivo refere-se agrave ordem em que se encontra numa lista ordenada por ordem decrescente de chi2 analiacutetico dos motivos extraiacutedos

10_2_YRR1 Motivo TTCCGTGGAA TTCCGCGGAT TTCCGCGGAA Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=476 (745 in 8908) 13 [TTCCGCGGAA]

K=2 achi2=464 (509 in 8908) 12 [TTCCGCGGAA]

K=3 achi2=413 (230 in 8908) 11 [TTCCGCGGAA]

K=4 achi2=278 (205 in 8908) 10 [TTCCGCGGAA]

K=5 achi2=143 (287 in 8908) 12 [TTCCGCGGAA]

K=6 achi2=041 (1031 in 8908) 15 [TTCCGCGGAA]

K=7 achi2=000 (2230 in 8908) 16 [TTCCGCGGAA]

K=8 achi2=001 (4728 in 8908) 16 [TTCCGCGGAA]

K=9 achi2=001 (7926 in 8908) 16 [TTCCGCGGAA]

K=10 achi2=000 (8782 in 8908) 16 [TTCCGCGGAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 80

K=11 achi2=000 (8903 in 8908) 12 [TTCCGCGGAA]

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 achi2=387 (504 in 17722) 3 [ACCCTAAAGGT]

K=1 achi2=483 (265 in 17722) 2 [ACCTTAAAGGT]

K=2 achi2=389 (248 in 17722) 3 [ACCCTAAAGGT]

K=2 achi2=484 (119 in 17722) 2 [ACCTTAAAGGT]

K=3 achi2=391 (61 in 17722) 3 [ACCCTAAAGGT]

K=3 achi2=485 (14 in 17722) 2 [ACCTTAAAGGT]

K=4 achi2=387 (31 in 17722) 4 [ACCCTAAAGGT]

K=4 achi2=485 (4 in 17722) 2 [ACCTTAAAGGT]

K=5 achi2=343 (29 in 17722) 4 [ACCCTAAAGGT]

K=5 achi2=462 (3 in 17722) 2 [ACCTTAAAGGT]

K=6 achi2=282 (276 in 17722) 4 [ACCCTAAAGGT]

K=6 achi2=431 (259 in 17722) 2 [ACCTTAAAGGT]

K=7 achi2=063 (1455 in 17722) 4 [ACCCTAAAGGT]

K=7 achi2=197 (1286 in 17722) 3 [ACCTTAAAGGT]

K=8 achi2=004 (5422 in 17722) 3 [ACCCTAAAGGT]

K=8 achi2=005 (5392 in 17722) 1 [ACCTTAAAGGT]

K=9 achi2=000 (13376 in 17722) 3 [ACCCTAAAGGT]

K=9 achi2=005 (13364 in 17722) 1 [ACCTTAAAGGT]

K=10 achi2=000 (17186 in 17722) 3 [ACCCTAAAGGT]

K=10 achi2=000 (17184 in 17722) 1 [ACCTTAAAGGT]

K=11 achi2=000 (17688 in 17722) 3 [ACCCTAAAGGT]

K=11 achi2=000 (17686 in 17722) 1 [ACCTTAAAGGT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 81

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=523 (72 in 826) 21 [CCCCT]

K=2 achi2=297 (75 in 826) 23 [CCCCT]

K=3 achi2=152 (105 in 826) 55 [CCCCT]

K=4 achi2=007 (382 in 826) 310 [CCCCT]

K=5 achi2=000 (339 in 826) 245 [CCCCT]

K=6 achi2=000 (604 in 826) 255 [CCCCT]

Error = 1

Quorum = 60

K=1 achi2=462 (2153 in 21544) 223 [CCCCT]

K=2 achi2=070 (8620 in 21544) 476 [CCCCT]

K=3 achi2=000 (20723 in 21544) 986 [CCCCT]

K=4 achi2=083 (4322 in 21544) 81 [CCCCT]

K=5 achi2=000 (20635 in 21544) 618 [CCCCT]

K=6 achi2=000 (21264 in 21544) 744 [CCCCT]

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=314 (116 in 1316) 27 [CCCCT]

K=2 achi2=194 (178 in 1316) 39 [CCCCT]

K=3 achi2=140 (190 in 1316) 42 [CCCCT]

K=4 achi2=104 (150 in 1316) 19 [CCCCT]

K=5 achi2=000 (576 in 1316) 111 [CCCCT]

K=6 achi2=000 (1113 in 1316) 392 [CCCCT]

K=7 achi2=901 (324 in 1316) 94 [CCCCT]

K=8 achi2=901 (340 in 1316) 94 [CCCCT]

K=9 achi2=901 (341 in 1316) 94 [CCCCT]

K=10 achi2=901 (342 in 1316) 94 [CCCCT]

K=11 achi2=901 (343 in 1316) 94 [CCCCT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 82

Error = 1

Quorum = 60

K=1 achi2=082 (15627 in 35258) 568 [CCCCT]

K=2 achi2=000 (34292 in 35258) 986 [CCCCT]

K=3 achi2=011 (25832 in 35258) 671 [CCCCT]

K=4 achi2=044 (14486 in 35258) 144 [CCCCT]

K=5 achi2=000 (34387 in 35258) 626 [CCCCT]

K=6 achi2=000 (34560 in 35258) 326 [CCCCT]

5_1_Gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=079 (3260 in 6121) 599 [CATCC]

K=1 achi2=1158 (344 in 6121) 50 [CTTCC]

K=2 achi2=161 (1763 in 6121) 312 [CATCC]

K=2 achi2=470 (566 in 6121) 105 [CTTCC]

K=3 achi2=192 (906 in 6121) 128 [CATCC]

K=3 achi2=109 (1663 in 6121) 248 [CTTCC]

K=4 achi2=091 (1091 in 6121) 97 [CATCC]

K=4 achi2=001 (5126 in 6121) 870 [CTTCC]

K=5 achi2=000 (5152 in 6121) 372 [CATCC]

K=5 achi2=000 (5000 in 6121) 230 [CTTCC]

K=6 achi2=000 (5438 in 6121) 341 [CATCC]

K=6 achi2=000 (5149 in 6121) 52 [CTTCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 83

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 achi2=273 (2534 in 10819) 831 [GATAAG]

K=1 achi2=102 (4875 in 10819) 1698 [GATTAG]

K=2 achi2=493 (849 in 10819) 251 [GATAAG]

K=2 achi2=268 (1952 in 10819) 593 [GATTAG]

K=3 achi2=174 (2107 in 10819) 675 [GATAAG]

K=3 achi2=925 (81 in 10819) 12 [GATTAG]

K=4 achi2=009 (7567 in 10819) 2712 [GATAAG]

K=4 achi2=352 (328 in 10819) 59 [GATTAG]

K=5 achi2=003 (7728 in 10819) 3046 [GATAAG]

K=5 achi2=159 (773 in 10819) 110 [GATTAG]

K=6 achi2=000 (6602 in 10819) 761 [GATAAG]

K=6 achi2=000 (6760 in 10819) 917 [GATTAG]

K=7 achi2=000 (10606 in 10819) 3684 [GATAAG]

K=7 achi2=000 (8570 in 10819) 1648 [GATTAG]

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

Error = 1

Quorum = 60

K=1 achi2=555 (2348 in 20531) 456 [CACCCA]

K=1 achi2=102 (9117 in 20531) 2005 [CACCCG]

K=2 achi2=368 (2233 in 20531) 460 [CACCCA]

K=2 achi2=117 (6956 in 20531) 1498 [CACCCG]

K=3 achi2=223 (2249 in 20531) 392 [CACCCA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 84

K=3 achi2=023 (12243 in 20531) 2397 [CACCCG]

K=4 achi2=105 (3457 in 20531) 482 [CACCCA]

K=4 achi2=002 (17523 in 20531) 3457 [CACCCG]

K=5 achi2=006 (13001 in 20531) 2409 [CACCCA]

K=5 achi2=048 (5016 in 20531) 610 [CACCCG]

K=6 achi2=000 (17016 in 20531) 1751 [CACCCA]

K=6 achi2=000 (18636 in 20531) 3343 [CACCCG]

K=7 achi2=000 (17654 in 20531) 1218 [CACCCA]

K=7 achi2=000 (18327 in 20531) 1891 [CACCCG]

7_0_REB1 Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 achi2=586 (33 in 405) 5 [TTACCC]

K=2 achi2=635 (12 in 405) 1 [TTACCC]

K=3 achi2=679 (2 in 405) 1 [TTACCC]

K=4 achi2=402 (3 in 405) 2 [TTACCC]

K=5 achi2=020 (8 in 405) 7 [TTACCC]

K=6 achi2=000 (232 in 405) 8 [TTACCC]

K=7 achi2=000 (402 in 405) 8 [TTACCC]

Error = 1

Quorum = 80

K=1 achi2=169 (2742 in 10337) 933 [TTACCC]

K=2 achi2=267 (945 in 10337) 284 [TTACCC]

K=3 achi2=394 (170 in 10337) 25 [TTACCC]

K=4 achi2=109 (1091 in 10337) 246 [TTACCC]

K=5 achi2=003 (6765 in 10337) 2619 [TTACCC]

K=6 achi2=000 (6295 in 10337) 852 [TTACCC]

K=7 achi2=000 (9863 in 10337) 3333 [TTACCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 85

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=615 (64 in 785) 12 [TGCCAAG]

K=2 achi2=585 (14 in 785) 3 [TGCCAAG]

K=3 achi2=575 (6 in 785) 2 [TGCCAAG]

K=4 achi2=377 (6 in 785) 2 [TGCCAAG]

K=5 achi2=157 (10 in 785) 5 [TGCCAAG]

K=6 achi2=055 (255 in 785) 4 [TGCCAAG]

K=7 achi2=000 (652 in 785) 18 [TGCCAAG]

K=8 achi2=000 (771 in 785) 15 [TGCCAAG]

Error = 1

Quorum = 60

K=1 achi2=458 (2166 in 20257) 407 [TGCCAAG]

K=2 achi2=287 (1959 in 20257) 462 [TGCCAAG]

K=3 achi2=270 (1060 in 20257) 241 [TGCCAAG]

K=4 achi2=030 (9306 in 20257) 3695 [TGCCAAG]

K=5 achi2=004 (13915 in 20257) 6353 [TGCCAAG]

K=6 achi2=029 (4512 in 20257) 1713 [TGCCAAG]

K=7 achi2=003 (5275 in 20257) 36 [TGCCAAG]

K=8 achi2=000 (12401 in 20257) 1099 [TGCCAAG]

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

K=1 achi2=996 (6 in 267) 1 [TGAAACA]

K=2 achi2=905 (1 in 267) 1 [TGAAACA]

K=3 achi2=884 (1 in 267) 1 [TGAAACA]

K=4 achi2=731 (1 in 267) 1 [TGAAACA]

K=5 achi2=320 (1 in 267) 1 [TGAAACA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 86

K=6 achi2=052 (168 in 267) 2 [TGAAACA]

K=7 achi2=000 (254 in 267) 1 [TGAAACA]

K=8 achi2=000 (266 in 267) 2 [TGAAACA]

Error = 1

Quorum = 100

K=1 achi2=400 (675 in 7705) 162 [TGAAACA]

K=2 achi2=157 (1246 in 7705) 402 [TGAAACA]

K=3 achi2=128 (992 in 7705) 375 [TGAAACA]

K=4 achi2=026 (3100 in 7705) 1267 [TGAAACA]

K=5 achi2=021 (2435 in 7705) 1154 [TGAAACA]

K=6 achi2=006 (2114 in 7705) 1435 [TGAAACA]

K=7 achi2=000 (2095 in 7705) 260 [TGAAACA]

K=8 achi2=000 (6802 in 7705) 1861 [TGAAACA]

7_1_SWI4 Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=950 (59 in 8974) 15 [CACGAAA]

K=1 achi2=1516 (9 in 8974) 2 [CGCGAAA]

K=2 achi2=638 (22 in 8974) 7 [CACGAAA]

K=2 achi2=924 (3 in 8974) 1 [CGCGAAA]

K=3 achi2=436 (53 in 8974) 25 [CACGAAA]

K=3 achi2=502 (25 in 8974) 10 [CGCGAAA]

K=4 achi2=106 (1095 in 8974) 476 [CACGAAA]

K=4 achi2=390 (27 in 8974) 9 [CGCGAAA]

K=5 achi2=000 (7343 in 8974) 3297 [CACGAAA]

K=5 achi2=121 (397 in 8974) 176 [CGCGAAA]

K=6 achi2=001 (3810 in 8974) 2702 [CACGAAA]

K=6 achi2=044 (873 in 8974) 314 [CGCGAAA]

K=7 achi2=000 (2384 in 8974) 205 [CACGAAA]

K=7 achi2=000 (2371 in 8974) 194 [CGCGAAA]

K=8 achi2=000 (8531 in 8974) 3025 [CACGAAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 87

K=8 achi2=000 (5630 in 8974) 124 [CGCGAAA]

7_2_RGT1

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=2140 (236 in 6085) 74 [CGGAAAA]

K=1 achi2=803 (815 in 6085) 253 [CGGAAGA]

K=1 achi2=1409 (416 in 6085) 129 [CGGAGAA]

K=1 achi2=350 (1782 in 6085) 511 [CGGATAA]

K=2 achi2=840 (245 in 6085) 67 [CGGAAAA]

K=2 achi2=442 (666 in 6085) 169 [CGGAAGA]

K=2 achi2=937 (208 in 6085) 55 [CGGAGAA]

K=2 achi2=428 (695 in 6085) 175 [CGGATAA]

K=3 achi2=272 (385 in 6085) 126 [CGGAAAA]

K=3 achi2=225 (546 in 6085) 173 [CGGAAGA]

K=3 achi2=544 (89 in 6085) 28 [CGGAGAA]

K=3 achi2=309 (299 in 6085) 100 [CGGATAA]

K=4 achi2=022 (2503 in 6085) 821 [CGGAAAA]

K=4 achi2=040 (1722 in 6085) 598 [CGGAAGA]

K=4 achi2=304 (56 in 6085) 23 [CGGAGAA]

K=4 achi2=202 (188 in 6085) 81 [CGGATAA]

K=5 achi2=003 (3495 in 6085) 1206 [CGGAAAA]

K=5 achi2=019 (1882 in 6085) 749 [CGGAAGA]

K=5 achi2=238 (34 in 6085) 12 [CGGAGAA]

K=5 achi2=138 (154 in 6085) 74 [CGGATAA]

K=6 achi2=009 (1192 in 6085) 744 [CGGAAAA]

K=6 achi2=031 (682 in 6085) 300 [CGGAAGA]

K=6 achi2=057 (459 in 6085) 122 [CGGAGAA]

K=6 achi2=042 (550 in 6085) 191 [CGGATAA]

K=7 achi2=000 (1608 in 6085) 53 [CGGAAAA]

K=7 achi2=000 (2439 in 6085) 861 [CGGAAGA]

K=7 achi2=000 (2150 in 6085) 572 [CGGAGAA]

K=7 achi2=000 (2472 in 6085) 894 [CGGATAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 88

K=8 achi2=000 (6056 in 6085) 1512 [CGGAAAA]

K=8 achi2=000 (5728 in 6085) 1184 [CGGAAGA]

K=8 achi2=000 (5127 in 6085) 583 [CGGAGAA]

K=8 achi2=000 (5961 in 6085) 1417 [CGGATAA]

8_1_PDR1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 75

K=1 achi2=884 (27 in 639) 1 [TCCGCGGA]

K=2 achi2=883 (14 in 639) 1 [TCCGCGGA]

K=3 achi2=864 (5 in 639) 1 [TCCGCGGA]

K=4 achi2=741 (2 in 639) 1 [TCCGCGGA]

K=5 achi2=306 (1 in 639) 1 [TCCGCGGA]

K=6 achi2=030 (253 in 639) 1 [TCCGCGGA]

K=7 achi2=012 (587 in 639) 1 [TCCGCGGA]

K=8 achi2=000 (633 in 639) 1 [TCCGCGGA]

K=9 achi2=000 (639 in 639) 1 [TCCGCGGA]

Error = 1

Quorum = 75

K=1 achi2=1370 (211 in 16695) 48 [TCCGCGGA]

K=1 achi2=895 (419 in 16695) 111 [TCCGTGGA]

K=2 achi2=1355 (91 in 16695) 26 [TCCGCGGA]

K=2 achi2=944 (230 in 16695) 59 [TCCGTGGA]

K=3 achi2=1138 (22 in 16695) 13 [TCCGCGGA]

K=3 achi2=771 (119 in 16695) 39 [TCCGTGGA]

K=4 achi2=688 (33 in 16695) 9 [TCCGCGGA]

K=4 achi2=610 (56 in 16695) 18 [TCCGTGGA]

K=5 achi2=113 (1171 in 16695) 496 [TCCGCGGA]

K=5 achi2=207 (324 in 16695) 135 [TCCGTGGA]

K=6 achi2=000 (10537 in 16695) 2237 [TCCGCGGA]

K=6 achi2=003 (8322 in 16695) 1955 [TCCGTGGA]

K=7 achi2=000 (4060 in 16695) 2312 [TCCGCGGA]

K=7 achi2=000 (4066 in 16695) 2318 [TCCGTGGA]

K=8 achi2=000 (5835 in 16695) 174 [TCCGCGGA]

K=8 achi2=000 (6050 in 16695) 389 [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 89

K=9 achi2=000 (15679 in 16695) 1375 [TCCGCGGA]

K=9 achi2=000 (14892 in 16695) 588 [TCCGTGGA]

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 achi2=985 (24 in 423) 1 [TCCGCGGA]

K=2 achi2=985 (13 in 423) 1 [TCCGCGGA]

K=3 achi2=967 (4 in 423) 1 [TCCGCGGA]

K=4 achi2=802 (1 in 423) 1 [TCCGCGGA]

K=5 achi2=303 (1 in 423) 1 [TCCGCGGA]

K=6 achi2=027 (229 in 423) 1 [TCCGCGGA]

K=7 achi2=013 (401 in 423) 1 [TCCGCGGA]

K=8 achi2=000 (420 in 423) 1 [TCCGCGGA]

K=9 achi2=000 (423 in 423) 1 [TCCGCGGA]

Error = 1

Quorum = 80

K=1 achi2=1592 (187 in 11592) 35 [TCCGCGGA]

K=1 achi2=1109 (353 in 11592) 83 [TCCGTGGA]

K=2 achi2=1584 (97 in 11592) 25 [TCCGCGGA]

K=2 achi2=1142 (197 in 11592) 44 [TCCGTGGA]

K=3 achi2=1364 (24 in 11592) 9 [TCCGCGGA]

K=3 achi2=894 (109 in 11592) 35 [TCCGTGGA]

K=4 achi2=785 (35 in 11592) 11 [TCCGCGGA]

K=4 achi2=689 (52 in 11592) 16 [TCCGTGGA]

K=5 achi2=127 (769 in 11592) 243 [TCCGCGGA]

K=5 achi2=146 (609 in 11592) 204 [TCCGTGGA]

K=6 achi2=001 (5466 in 11592) 879 [TCCGCGGA]

K=6 achi2=004 (4665 in 11592) 789 [TCCGTGGA]

K=7 achi2=000 (2570 in 11592) 968 [TCCGCGGA]

K=7 achi2=000 (2517 in 11592) 941 [TCCGTGGA]

K=8 achi2=000 (5547 in 11592) 157 [TCCGCGGA]

K=8 achi2=000 (5666 in 11592) 276 [TCCGTGGA]

K=9 achi2=000 (10744 in 11592) 135 [TCCGCGGA]

K=9 achi2=000 (11041 in 11592) 432 [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 90

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=287 (133 in 1319) 8 [TCCGTGGA]

K=2 achi2=289 (95 in 1319) 5 [TCCGTGGA]

K=3 achi2=278 (15 in 1319) 2 [TCCGTGGA]

K=4 achi2=255 (6 in 1319) 1 [TCCGTGGA]

K=5 achi2=206 (5 in 1319) 2 [TCCGTGGA]

K=6 achi2=084 (269 in 1319) 7 [TCCGTGGA]

K=7 achi2=000 (897 in 1319) 17 [TCCGTGGA]

K=8 achi2=000 (1232 in 1319) 8 [TCCGTGGA]

K=9 achi2=000 (1303 in 1319) 1 [TCCGTGGA]

Error = 1

Quorum = 60

K=1 achi2=391 (1312 in 35494) 312 [TCCGAGGA]

K=1 achi2=660 (442 in 35494) 89 [TCCGCGGA]

K=1 achi2=402 (1240 in 35494) 301 [TCCGTGGA]

K=2 achi2=379 (816 in 35494) 174 [TCCGAGGA]

K=2 achi2=640 (206 in 35494) 48 [TCCGCGGA]

K=2 achi2=428 (599 in 35494) 123 [TCCGTGGA]

K=3 achi2=304 (471 in 35494) 120 [TCCGAGGA]

K=3 achi2=480 (63 in 35494) 10 [TCCGCGGA]

K=3 achi2=329 (327 in 35494) 87 [TCCGTGGA]

K=4 achi2=295 (205 in 35494) 61 [TCCGAGGA]

K=4 achi2=337 (85 in 35494) 28 [TCCGCGGA]

K=4 achi2=219 (1060 in 35494) 257 [TCCGTGGA]

K=5 achi2=087 (5828 in 35494) 2082 [TCCGAGGA]

K=5 achi2=153 (2062 in 35494) 521 [TCCGCGGA]

K=5 achi2=080 (6534 in 35494) 2399 [TCCGTGGA]

K=6 achi2=010 (17189 in 35494) 7240 [TCCGAGGA]

K=6 achi2=053 (6392 in 35494) 2378 [TCCGCGGA]

K=6 achi2=000 (30112 in 35494) 12027 [TCCGTGGA]

K=7 achi2=006 (9736 in 35494) 4698 [TCCGAGGA]

K=7 achi2=006 (10113 in 35494) 5025 [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 91

K=7 achi2=000 (17876 in 35494) 11124 [TCCGTGGA]

K=8 achi2=000 (12067 in 35494) 1424 [TCCGAGGA]

K=8 achi2=000 (11172 in 35494) 529 [TCCGCGGA]

K=8 achi2=000 (11688 in 35494) 1045 [TCCGTGGA]

K=9 achi2=000 (31497 in 35494) 8200 [TCCGAGGA]

K=9 achi2=000 (25674 in 35494) 2377 [TCCGCGGA]

K=9 achi2=000 (29818 in 35494) 6521 [TCCGTGGA]

Page 2: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes ii

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes iii

1 Introduccedilatildeo 1

2 Descriccedilatildeo do Problema 3

3 Extracccedilatildeo de Motivos 7

31 Algoritmo SMILE 7

32 Gerador de Dados Sinteacuteticos 11

4 Anaacutelise Estatiacutestica 13

41 Teste do 2 13

42 Meacutetodo de Shuffling 15

43 Meacutetodo Analiacutetico 19

5 Geraccedilatildeo de Coacutedigo IUPAC 23

6 Resultados e Conclusotildees 31

61 Resultados Obtidos com Dados Sinteacuteticos 31

62 Resultados Obtidos com Dados Reais 38

63 Conclusotildees 46

7 Referecircncias 47

Anexo A - Resultados do Caacutelculo da Significacircncia Estatiacutestica referente ao Quoacuterum para Conjuntos de Dados de Saccharomyces cerevisiae 49

Anexo B - Comparaccedilatildeo da Significacircncia Estatiacutestica referente agrave Abundacircncia obtida pelo Meacutetodo de Shuffling e pelo Meacutetodo Analiacutetico 69

Anexo C - Resultados do Caacutelculo da Significacircncia Estatiacutestica referente agrave Abundacircncia pelo Meacutetodo Analiacutetico para Conjuntos de Dados de Saccharomyces cerevisiae 79

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes iv

Lista de Siglas

DNA (ou ADN) - aacutecido desoxirribonucleico

IUPAC - International Union for Pure and Applied Chemistry designa neste trabalho o

coacutedigo de sequecircncias degeneradas de bases nucleicas estabelecido por esta organizaccedilatildeo

RNA (ou ARN) - aacutecido ribonucleico

SMILE - Structured Motif Inference and Evaluation

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes v

Lista de Figuras

Figura 21 Representaccedilatildeo de cadeias de DNA em forma de dupla heacutelice 3

Figura 22 Expressatildeo geacutenica em eucariotas (A) e procariotas (B) 4

Figura 23 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em procariotas 5

Figura 24 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em eucariotas 5

Figura 31 Exemplo de uma especificaccedilatildeo de um modelo estruturado 8

Figura 32

(a) Exemplo de especificaccedilatildeo (b) Modelo retirado de uma sequecircncia que cumpre a especificaccedilatildeo 8

Figura 33

Aacutervore de sufixos generalizada para as sequecircncias TACTA$ (sequecircncia 1) e CACTCA$ (sequecircncia 2) 9

Figura 34 Esquema da procura de motivos estruturados usando uma aacutervore de sufixos 10

Figura 35 Exemplo de um ficheiro de especificaccedilatildeo para a geraccedilatildeo de dados sinteacuteticos 11

Figura 41

Multi-grafo gerado pela sequecircncia ATTATTTATT para k=4 com 2 passeios aleatoacuterios 16

Figura 42

Histograma das ocorrecircncias observadas do motivo TTTTAA em 100 simulaccedilotildees de shuffling do conjunto de dados da H pylori 17

Figura 43

Graacutefico da evoluccedilatildeo da significacircncia estatiacutestica com o aumento do valor de k para um motivo de tamanho 8 extraiacutedo do conjunto de dados da H pylori 18

Figura 44 Conjunto de dados exemplo 19

Figura 45 Exemplo de uma cadeia de Markov para k=3 20

Figura 51 Representaccedilatildeo das sequecircncias ATA (1) e TTA (2) 26

Figura 52 Representaccedilatildeo da cobertura WTA (1) 27

Figura 53 Interface para geraccedilatildeo de coacutedigo IUPAC integrada na Dbyeast 29

Figura 61 Significacircncia estatiacutestica para motivos simples de tamanho 6 32

Figura 62 Significacircncia estatiacutestica para motivos simples de tamanho 7 32

Figura 63 Significacircncia estatiacutestica para modelos estruturados em dados sinteacuteticos 34

Figura 64

Significacircncia estatiacutestica de motivos simples de tamanho 6 usando o meacutetodo analiacutetico 36

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes vi

Figura 65

Significacircncia estatiacutestica de motivos simples de tamanho 7 usando o meacutetodo

analiacutetico 36

Figura 66

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o

conjunto de dados MSN4 com 0 erro 39

Figura 67

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados MSN4 com 1 erro 40

Figura 68

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados STE12 com 0 erros 41

Figura 69

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados STE12 com 1 erro 41

Figura 610

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados MSN4 com 0 erros 43

Figura 611

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados MSN4 com 1 erro 43

Figura 612

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados STE12 com 0 erros 44

Figura 613

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados STE12 com 1 erro 45

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes vii

Lista de Tabelas

Tabela 41 Tabela de contingecircncia para o caacutelculo do 2

13

Tabela 51 Coacutedigo IUPAC 23

Tabela 52 Codificaccedilatildeo binaacuteria dos siacutembolos IUPAC 24

Tabela 61 Posiccedilotildees dos motivos especificados 33

Tabela 62 Posiccedilotildees do motivo estruturado especificado 34

Tabela 63 Posiccedilotildees dos modelos especificados 37

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes viii

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes ix

Agradecimentos

Gostariacuteamos de agradecer agrave nossa orientadora Professora Ana Teresa Freitas pela forma

como sempre orientou o nosso trabalho pela inestimaacutevel disponibilidade pelo interesse

demonstrado e pela iacutempar capacidade de motivaccedilatildeo

Agradecemos tambeacutem ao nosso co-orientador Professor Arlindo Oliveira pela sua

disponibilidade e opiniatildeo criacutetica que sempre contribuiu para o enriquecimento do nosso

trabalho

Agrave Susana Vinga pelo importante contributo na anaacutelise estatiacutestica e pela sua diligente

disponibilidade

Agrave Joana Fradinho Luiacutes Figueiredo e Petra Jelinkova pela disponibilizaccedilatildeo de conjuntos de

dados essenciais para a prossecuccedilatildeo deste trabalho

Agrave Alexandra Carvalho por ter tido a disponibilidade de ler a primeira versatildeo deste relatoacuterio e

contribuiacutedo com pertinentes sugestotildees

Aos nossos colegas da sala 138 pela camaradagem e companhia nas longas horas passadas no

INESC

Aos colegas da sala 128 pela motivaccedilatildeo e constante disponibilidade

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes x

Resumo

A grande quantidade de dados disponiacuteveis na aacuterea da Biologia requer meacutetodos de extracccedilatildeo de

conhecimento poderosos sistemaacuteticos e eficientes Em particular a identificaccedilatildeo de

sequecircncias de nucleoacutetidos designadas de consensos onde se ligam factores de transcriccedilatildeo

responsaacuteveis em parte pelo mecanismo de regulaccedilatildeo geacutenica eacute essencial para uma

compreensatildeo do papel de cada gene

Actualmente existem vaacuterios algoritmos cujo objectivo eacute encontrar sequecircncias candidatas a

sequecircncias de consenso Estes algoritmos podem ser divididos em duas classes meacutetodos

restritivos e meacutetodos proliacuteficos Os meacutetodos restritivos obtecircm poucas respostas com elevada

precisatildeo enquanto que os meacutetodos proliacuteficos obtecircm muitas respostas com baixa precisatildeo

exigindo um esforccedilo de poacutes-processamento

Neste trabalho utilizamos o SMILE [1] que eacute um meacutetodo proliacutefico para a extracccedilatildeo de

sequecircncias de consenso na regiatildeo promotora dos genes Face ao nuacutemero significativo das

respostas obtidas pretende-se com este trabalho avaliar possiacuteveis soluccedilotildees de poacutes-

processamento de modo a garantir a utilidade da informaccedilatildeo extraiacuteda para os utilizadores do

algoritmo Assim definiram-se dois grandes objectivos

A avaliaccedilatildeo de meacutetodos estatiacutesticos que permitam aferir a significacircncia bioloacutegica das

respostas obtidas

A obtenccedilatildeo de uma descriccedilatildeo compacta da informaccedilatildeo extraiacuteda

Palavras-chave Gene regulaccedilatildeo geacutenica regiatildeo promotora sequecircncias degeneradas IUPAC

avaliaccedilatildeo estatiacutestica de biosequecircncias SMILE extracccedilatildeo de motivos

Relatoacuterio Intercalar de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 1

1 Introduccedilatildeo

A crescente disponibilidade de dados sobre o genoma de vaacuterios organismos tem possibilitado

o aparecimento de novos projectos na aacuterea da biologia No entanto a quantidade massiva de

dados disponiacuteveis torna impossiacutevel uma anaacutelise manual da informaccedilatildeo sendo cada vez mais

premente a necessidade de um processamento automaacutetico dos dados obtidos

Neste contexto a identificaccedilatildeo e modelaccedilatildeo da regiatildeo promotora dos genes assume um papel

fundamental pois as condiccedilotildees de activaccedilatildeo e transcriccedilatildeo de um gene dependem das

sequecircncias de nucleoacutetidos aiacute presentes

As sequecircncias de nucleoacutetidos da regiatildeo promotora que determinam a transcriccedilatildeo do gene satildeo

denominadas de promotores e satildeo representadas por sequecircncias de consenso ou

simplesmente consensos A literatura refere vaacuterias formas de descriccedilatildeo destes consensos

desde a utilizaccedilatildeo de uma matriz de pesos a uma sequecircncia de bases mais frequentes Neste

trabalho utilizamos uma codificaccedilatildeo IUPAC destas sequecircncias que corresponde a um

conjunto de sequecircncias degeneradas em que cada siacutembolo representa um conjunto de

nucleoacutetidos possiacuteveis para uma dada posiccedilatildeo

Actualmente existem vaacuterios algoritmos cujo objectivo eacute encontrar sequecircncias candidatas a

sequecircncias de consenso nas regiotildees promotoras As sequecircncias que satildeo reportadas como

possiacuteveis consensos satildeo designadas de motivos Os algoritmos de pesquisa de motivos podem

ser agrupados de uma forma geral em dois tipos algoritmos restritivos e algoritmos

proliacuteficos

Os algoritmos restritivos concentram-se em encontrar poucos motivos mas de relevacircncia

assinalaacutevel enquanto que os algoritmos proliacuteficos preocupam-se em determinar todos os

motivos que possam ser encontrados de acordo com determinados paracircmetros de pesquisa

Os algoritmos designados de proliacuteficos tecircm a vantagem de natildeo fazerem suposiccedilotildees a priori

No entanto a grande quantidade de motivos encontrados requer um esforccedilo de poacutes-

processamento significativo

Este trabalho tem por objectivo o desenvolvimento de uma metodologia que permita o

processamento automaacutetico dos motivos encontrados por um algoritmo que pode ser

classificado de proliacutefico o algoritmo SMILE [1]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 2

No Capiacutetulo 2 apresentamos uma descriccedilatildeo do problema em anaacutelise evidenciando a

motivaccedilatildeo bioloacutegica e fazendo o seu enquadramento com os objectivos do trabalho

No Capiacutetulo 3 descrevemos o algoritmo SMILE no contexto do problema da extracccedilatildeo de

motivos e apresentamos um gerador de dados sinteacuteticos que seraacute usado como ponto de partida

do estudo da eficaacutecia do algoritmo

No Capiacutetulo 4 discutimos a utilizaccedilatildeo de meacutetodos estatiacutesticos para aferir a significacircncia

bioloacutegica dos motivos extraiacutedos pelo SMILE

No Capiacutetulo 5 apresentamos um meacutetodo para geraccedilatildeo de uma representaccedilatildeo compacta de

motivos extraiacutedos usando a codificaccedilatildeo IUPAC

Finalmente no Capiacutetulo 6 apresentamos vaacuterios resultados obtidos tanto com dados sinteacuteticos

como com dados reais discutindo a aplicabilidade dos meacutetodos estatiacutesticos apresentados no

Capiacutetulo 4

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 3

2 Descriccedilatildeo do Problema

A moleacutecula de DNA eacute responsaacutevel pela manutenccedilatildeo da informaccedilatildeo geneacutetica de cada indiviacuteduo

e eacute constituiacuteda por duas cadeias de nucleoacutetidos dispostas de modo a formar uma dupla

heacutelice [2] que se encontra representada na Figura 21 Cada nucleoacutetido eacute formado por trecircs

elementos um accediluacutecar um grupo fosfato e uma de quatro bases azotadas As quatro bases satildeo

a Adenina (A) a Timina (T) a Guanina (G) e a Citosina (C) e podem ser vistas como os

quatro elementos de um alfabeto

Figura 21

Representaccedilatildeo de cadeias de DNA em forma de dupla heacutelice

As duas cadeias de DNA satildeo complementares no sentido em que as bases das duas cadeias

estatildeo emparelhadas Assim uma Adenina de uma cadeia emparelha com uma Timina da

cadeia complementar e do mesmo modo uma Citosina emparelha com uma Guanina

Os genes satildeo segmentos de uma cadeia de DNA que controlam a siacutentese proteica e

consequentemente toda a actividade celular O genoma eacute o conjunto de genes de um

indiviacuteduo

A expressatildeo geacutenica eacute o processo atraveacutes do qual a informaccedilatildeo contida nos genes dirige a

siacutentese de proteiacutenas Este processo envolve dois passos transcriccedilatildeo e traduccedilatildeo

A transcriccedilatildeo consiste na transferecircncia da informaccedilatildeo contida no DNA para uma moleacutecula

intermediaacuteria de RNA designada de RNA-mensageiro ou mRNA De seguida o molde de

mRNA eacute usado no passo de traduccedilatildeo onde iraacute dirigir a siacutentese proteica

Este processo eacute semelhante em todos os organismos vivos embora existam diferenccedilas

assinalaacuteveis entre organismos eucariotas e procariotas isto eacute entre organismos com e sem

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 4

nuacutecleo individualizado respectivamente Em particular o mecanismo eacute consideravelmente

mais complexo em organismos eucariotas A Figura 22 ilustra o processo de expressatildeo geacutenica

em eucariotas (Figura 22-A) e procariotas (Figura 22-B)

Figura 22 Expressatildeo geacutenica em eucariotas (A) e procariotas (B)

Actualmente o problema da identificaccedilatildeo e modelaccedilatildeo dos mecanismos que regulam a

interacccedilatildeo entre grupos de genes eacute um dos problemas mais em foco na investigaccedilatildeo em

biologia computacional Como jaacute foi referido a regiatildeo promotora eacute parte essencial do

mecanismo de regulaccedilatildeo da transcriccedilatildeo geacutenica

A biologia oferece-nos alguns modelos da regiatildeo promotora evidenciando as diferenccedilas entre

organismos procariotas (Figura 23) e eucariotas (Figura 24)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 5

Figura 23 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em procariotas

Figura 24 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em eucariotas

No mecanismo de transcriccedilatildeo geacutenica interveacutem uma enzima denominada RNA-polimerase

Esta enzima tem como funccedilatildeo a transcriccedilatildeo da informaccedilatildeo contida no DNA para uma cadeia

de RNA que iraacute posteriormente intervir no processo de siacutentese proteica

Para que a RNA-polimerase inicie a transcriccedilatildeo de uma cadeia de DNA geralmente um gene

eacute necessaacuterio que se cumpram algumas condiccedilotildees Assim entre outras eacute necessaacuterio que

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 6

estejam presentes na regiatildeo promotora motivos que a RNA-polimerase reconheccedila e aos quais

se possa ligar para iniciar a transcriccedilatildeo da regiatildeo a jusante (na literatura inglesa estas regiotildees

satildeo denominadas de binding sites) As condiccedilotildees de activaccedilatildeo desta enzima satildeo mais

complexas nos organismos eucariotas [3] uma vez que neste caso para aleacutem dos motivos

referidos existem ainda vaacuterios outros que satildeo reconhecidos por factores de transcriccedilatildeo isto eacute

proteiacutenas que se ligam sucessivamente agrave RNA-polimerase estabelecendo um complexo

mecanismo de regulaccedilatildeo Estes motivos podem estar a montante a jusante ou mesmo no

interior do gene a ser transcrito e podem ainda exercer um efeito estimulador ou repressor da

transcriccedilatildeo Os locais onde existem motivos aos quais se ligam os diversos factores de

transcriccedilatildeo satildeo designados genericamente por regiotildees reguladoras

Eacute possiacutevel compreender agora a importacircncia da necessidade de ser definido um modelo ou

modelos para a regiatildeo promotora no acircmbito do estudo do genoma

Neste trabalho utilizamos o algoritmo SMILE para procurar motivos interessantes isto eacute

biologicamente significativos em cadeias de DNA pertencentes agrave regiatildeo promotora dos genes

Como jaacute foi referido trata-se de um algoritmo proliacutefico no sentido em que se preocupa em

encontrar todas as sequecircncias que cumpram os paracircmetros especificados Sendo assim torna-

se necessaacuterio um esforccedilo significativo de poacutes-processamento para que possa ser obtida

informaccedilatildeo uacutetil a partir dos dados gerados

O poacutes-processamento dos motivos extraiacutedos inclui uma anaacutelise estatiacutestica que culmina com a

atribuiccedilatildeo de um niacutevel de significacircncia a cada motivo Deste modo eacute possiacutevel definir um

crivo que separa motivos considerados relevantes de motivos agrave partida menos interessantes

Finalmente e depois de ter sido encontrado um conjunto de motivos relevantes seraacute efectuada

uma traduccedilatildeo para uma representaccedilatildeo IUPAC Esta representaccedilatildeo permite compactar os

dados agrupando motivos muito semelhantes Este passo eacute de importacircncia essencial para uma

utilizaccedilatildeo eficiente dos dados obtidos uma vez que uma representaccedilatildeo compacta facilita a sua

utilizaccedilatildeo em pesquisas em bases de dados bioloacutegicas que contecircm informaccedilatildeo sobre

consensos anteriormente identificados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 7

3 Extracccedilatildeo de motivos

31 Algoritmo SMILE

O SMILE eacute um meacutetodo algoriacutetmico de extracccedilatildeo de motivos de sequecircncias bioloacutegicas O

algoritmo comeccedila por processar um conjunto de dados de entrada composto por vaacuterias

sequecircncias natildeo alinhadas de nucleoacutetidos que se sabe conterem um ou mais binding sites Estes

dados satildeo utilizados para calcular ocorrecircncias de motivos usando como estrutura de dados

base uma aacutervore de sufixos

Um modelo eacute uma representaccedilatildeo de subsequecircncias que ocorrem nos dados de entrada

satisfazendo potencialmente certas propriedades

O algoritmo iraacute assim pesquisar modelos (simples ou estruturados) nos dados que lhe satildeo

fornecidos segundo alguns paracircmetros

Um modelo simples diz respeito a uma subsequecircncia contiacutegua de nucleoacutetidos enquanto que

um modelo estruturado eacute uma composiccedilatildeo de modelos simples

Um modelo estruturado pode ser constituiacutedo por vaacuterias partes posicionadas ao longo da

sequecircncia Cada parte eacute um modelo simples que pode ter um tamanho variaacutevel (entre kmin e

kmax) O espaccedilo entre cada parte consecutiva pode tambeacutem ser parametrizado (dmin e dmax)

Do mesmo modo tambeacutem eacute possiacutevel parametrizar o nuacutemero de erros que se permite ocorrer

no modelo e em cada uma das suas partes

A Figura 31 apresenta um exemplo de uma especificaccedilatildeo de um modelo estruturado em que

se consideram duas partes A primeira parte pode ter um tamanho entre 6 e 8 nucleoacutetidos e satildeo

admitidos 2 erros A segunda parte pode ocorrer entre 16 e 18 nucleoacutetidos apoacutes a primeira

parte e teraacute um tamanho igualmente entre 6 e 8 embora seja admitido apenas 1 erro

A Figura 32 apresenta o esquema de outro modelo estruturado e respectiva concretizaccedilatildeo

numa sequecircncia Neste exemplo consideram-se igualmente duas partes A primeira com

tamanho entre 6 e 10 nucleoacutetidos e a segunda entre 6 e 8 As partes podem estar a uma

distacircncia que varia entre 10 e 15 nucleoacutetidos e natildeo satildeo admitidos erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 8

Figura 31 Exemplo de uma especificaccedilatildeo de um modelo estruturado

Figura 32 (a) Exemplo de especificaccedilatildeo (b) Modelo retirado de uma sequecircncia

que cumpre a especificaccedilatildeo

Um modelo eacute considerado vaacutelido caso o nuacutemero de sequecircncias de entrada em que ocorre seja

natildeo inferior a um miacutenimo estabelecido designado por quoacuterum Os modelos vaacutelidos satildeo

designados de motivos

Para verificar o nuacutemero de ocorrecircncias eacute utilizada uma aacutervore de sufixos Uma aacutervore de

sufixos eacute uma estrutura de dados que representa todos os sufixos de uma cadeia de caracteres

As suas caracteriacutesticas satildeo de grande utilidade para os algoritmos de emparelhamento de

caracteres

6-10 6-8

10-15

(a)

ATTATTA_CTATCT

ATTATTAGTACTCATACCTATCT

(b)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 9

O SMILE processa conjuntos de dados isto eacute conjuntos de sequecircncias de nucleoacutetidos

utilizando para esse efeito uma aacutervores de sufixos generalizada Esta estrutura de dados

difere da aacutervore de sufixos simples no sentido em que agrupa vaacuterias cadeias de caracteres

correspondentes agraves vaacuterias sequecircncias de nucleoacutetidos Esta multiplicidade de sequecircncias exige

que a estrutura registe as sequecircncias a que cada sufixo pertence As aacutervores de sufixos fazem

uso de um siacutembolo terminador ($) para assinalar o fim de cada sufixo

A Figura 33 eacute um exemplo de uma aacutervore de sufixos generalizada

Figura 33 - Aacutervore de sufixos generalizada para as sequecircncias

TACTA$ (sequecircncia 1) e CACTCA$ (sequecircncia 2)

A extracccedilatildeo de motivos eacute feita atraveacutes da travessia em profundidade-primeiro de uma aacutervore

lexicograacutefica virtual de modo a garantir que se explora o espaccedilo de todos os modelos

possiacuteveis Esta travessia da aacutervore lexicograacutefica eacute acompanhada da exploraccedilatildeo da aacutervore de

sufixos generalizada de forma a obter todos os sufixos a distacircncia de Hamming natildeo superior a

e1 do modelo em consideraccedilatildeo Assim para cada noacute da aacutervore virtual eacute verificado o quoacuterum

do modelo correspondente contabilizando para tanto o nuacutemero de sequecircncias diferentes que

participam com sufixos a distacircncia de Hamming natildeo superior a e do modelo

1 O valor desta distacircncia depende do nuacutemero de erros admitidos na extracccedilatildeo de motivos e corresponde a um dos

paracircmetros do algoritmo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 10

A extracccedilatildeo de motivos estruturados eacute feita de forma semelhante correspondendo a muacuteltiplas

procuras de modelos simples que constituem cada parte do modelo estruturado A transiccedilatildeo

entre partes ilustrada pela Figura 34 corresponde a um salto na aacutervore de sufixos com tantos

niacuteveis de profundidade adicionais quanto a distacircncia especificada entre cada parte

Uma descriccedilatildeo pormenorizada do algoritmo encontra-se em [4] e [5]

Figura 34 Esquema da procura de motivos estruturados usando uma aacutervore de

sufixos

Este algoritmo exacto gera todos os possiacuteveis motivos dentro dos paracircmetros especificados

Daqui resulta geralmente um nuacutemero demasiado grande de motivos sendo necessaacuterio

discriminar quais os verdadeiros binding sites Como meacutetodo de avaliaccedilatildeo o SMILE utiliza

um teste estatiacutestico que eacute descrito na Secccedilatildeo 41

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 11

32 Gerador de dados sinteacuteticos

A anaacutelise da eficaacutecia e eficiecircncia do algoritmo de extracccedilatildeo de motivos exige a utilizaccedilatildeo de

dados sobre os quais tenhamos agrave partida algum conhecimento Para tal foi desenvolvido um

gerador de dados sinteacuteticos

O gerador de dados sinteacuteticos permite por um lado evitar a necessidade de dispor de

conjuntos de dados reais e por outro ter um maior controlo sobre os motivos que estatildeo

realmente presentes nos dados

O gerador permite especificar o nuacutemero e o tamanho das sequecircncias do conjunto de dados

bem como os motivos a inserir Os motivos satildeo especificados pela sua sequecircncia de

nucleoacutetidos posiccedilatildeo na sequecircncia e frequecircncia de ocorrecircncia Os motivos podem ser simples

ou estruturados A Figura 35 representa um exemplo de um ficheiro de especificaccedilatildeo

Frequecircncia

Posiccedilatildeo

Sequecircncia Posiccedilatildeo

Sequecircncia

02 09 TGCTTTTTAAT

28 TCGA

03 02 AGTACATCGA

02 12 TGCGCA

Figura 35 Exemplo de um ficheiro de especificaccedilatildeo para a geraccedilatildeo de dados

sinteacuteticos

No exemplo apresentado satildeo especificados trecircs motivos (um motivo estruturado e dois

motivos simples) A primeira coluna (Frequecircncia) indica a percentagem de sequecircncias em que

o motivo deveraacute ocorrer Em particular para esta especificaccedilatildeo o primeiro motivo deveraacute

ocorrer em 20 das sequecircncias As restantes colunas especificam a posiccedilatildeo e a sequecircncia de

nucleoacutetidos de cada parte do motivo O nuacutemero e o tamanho das sequecircncias a gerar satildeo

especificados na linha de comandos do gerador

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 12

O gerador verifica a especificaccedilatildeo de modo a testar se eacute possiacutevel gerar um conjunto de dados

com as caracteriacutesticas indicadas Em particular eacute necessaacuterio que no caso das frequecircncias

especificadas somarem mais do que 1 alguns dos motivos sejam sobreponiacuteveis uma vez que o

gerador garante o cumprimento exacto da frequecircncia de ocorrecircncia especificada para cada

motivo

O processo de geraccedilatildeo do conjunto de dados envolve duas fases Numa primeira fase eacute gerado

um conjunto de dados aleatoacuterios em que a ocorrecircncia de cada nucleoacutetido eacute equiprovaacutevel Para

gerar aleatoriamente nucleoacutetidos eacute usada uma variaccedilatildeo do algoritmo ran2 [6]

Numa segunda fase satildeo inseridos os motivos especificados em tantas sequecircncias quanto as

necessaacuterias para perfazer a frequecircncia indicada As sequecircncias seleccionadas para a inserccedilatildeo

de motivos satildeo igualmente escolhidas de forma aleatoacuteria

O recurso a dados sinteacuteticos permite afastar a possibilidade de motivos bem classificados

corresponderem a consensos ainda natildeo identificados por via experimental como pode

acontecer quando se analisam conjuntos de dados reais No entanto eacute necessaacuterio termos

presentes as limitaccedilotildees da actual abordagem Em particular sabemos que a geraccedilatildeo

equiprovaacutevel de nucleoacutetidos estaacute em desacordo com a estatiacutestica tiacutepica da regiatildeo promotora

onde satildeo mais comuns A s e T s do que G s e C s Do mesmo modo podem existir outras

correlaccedilotildees de ordem superior designadamente uma preferecircncia por certos diacutemeros ou

triacutemeros em detrimento de outros Esta limitaccedilatildeo eacute ilustrada pelo facto de os resultados

obtidos com dados sinteacuteticos serem geralmente melhores do que os obtidos com dados reais

As causas e consequecircncias desta observaccedilatildeo seratildeo discutidas nas secccedilotildees seguintes

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 13

4 Anaacutelise Estatiacutestica

41 Teste do 2

Como jaacute foi referido o SMILE em geral extrai um elevado nuacutemero de modelos Para isolar

motivos relevantes eacute usado um teste estatiacutestico de modo a atribuir uma significacircncia estatiacutestica

a cada modelo extraiacutedo

O meacutetodo de avaliaccedilatildeo utilizado consiste em aplicar o teste do 2 com um grau de liberdade

O objectivo eacute determinar a probabilidade de obtermos motivos observados em sequecircncias

aleatoacuterias que preservam os k-mers2 das sequecircncias originais Assim pretende-se perceber se

a ocorrecircncia do motivo se deve agrave frequecircncia de k-mers presentes na sequecircncia aleatoacuteria tendo

portanto uma baixa significacircncia estatiacutestica ou se eacute verificada a situaccedilatildeo oposta ou seja

elevada significacircncia estatiacutestica Estes uacuteltimos satildeo considerados pelo algoritmo como os que

apresentam maior potencial de serem verdadeiros binding sites Para tal o SMILE permite a

realizaccedilatildeo de dois tipos alternativos de teste um quanto ao nuacutemero de sequecircncias em que o

motivo ocorre (quoacuterum) e outro em relaccedilatildeo agrave abundacircncia do motivo no conjunto de dados

Para aplicar o teste do 2 procedemos agrave construccedilatildeo de uma tabela de contingecircncia com 4

entradas (Tabela 41)

Dados Originais Dados Aleatoacuterios

Presenccedila Porig Prandom

Ausecircncia Aorig Arandom

Tabela 41 Tabela de contingecircncia para o caacutelculo do 2

2 Sequecircncias de nucleoacutetidos de tamanho k

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 14

As colunas da tabela referem-se agraves duas amostras em anaacutelise ou seja o conjunto de dados

original e as sequecircncias aleatoacuterias geradas As linhas da tabela referem-se agraves duas classes de

contagens Caso consideremos o teste quanto ao quoacuterum a classe Presenccedila diz respeito ao

nuacutemero de sequecircncias em que o motivo ocorre e a classe Ausecircncia refere-se ao nuacutemero de

sequecircncias em que o motivo natildeo ocorre Caso se trate do teste relativo agrave abundacircncia a

primeira classe refere-se ao nuacutemero de ocorrecircncias do motivo no conjunto de dados e a

segunda ao nuacutemero de natildeo ocorrecircncias do motivo em relaccedilatildeo ao nuacutemero de oportunidades de

ocorrecircncia Considera-se como nuacutemero de oportunidades de ocorrecircncia o tamanho do

conjunto de dados Esta tabela seraacute usada agora para fazer um teste de homogeneidade de

proporccedilotildees

Para calcular a significacircncia estatiacutestica basta usar a expressatildeo do 2 correspondente agrave equaccedilatildeo

(41) onde ijO diz respeito ao valor observado para a entrada (ij) da tabela e ijE se refere ao

correspondente valor esperado

21

22 )(

ji ij

ijij

E

OE

(41)

O valor esperado para cada entrada da tabela eacute dado pela expressatildeo (42) ou seja o valor

esperado para a entrada (ij) da tabela eacute igual ao produto do total da linha i pelo total da linha

j divido pela soma de todos os elementos da tabela

21

2121

lkkl

kkj

kik

ij O

OO

E (42)

Nas condiccedilotildees desta tabela de contingecircncia eacute possiacutevel utilizar uma forma expedita de caacutelculo

que consiste na aplicaccedilatildeo da expressatildeo (43)

))()()((

)()( 22

origorigrandomrandomrandomorigrandomorig

randomorigrandomorigorigrandomrandomorig

APAPAAPP

AAPPAPAP

(43)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 15

A hipoacutetese nula que consideramos neste teste estatiacutestico refere-se agrave possibilidade de os

motivos terem sido gerados por sequecircncias aleatoacuterias sob certas restriccedilotildees Isto eacute assumimos

que as contagens obtidas para os motivos nas sequecircncias originais satildeo semelhantes agraves que

obteriacuteamos em sequecircncias aleatoacuterias com as mesmas frequecircncias de k-mers Valores altos de

significacircncia estatiacutestica implicam a rejeiccedilatildeo da hipoacutetese nula

Um importante problema prende-se com a validade da aplicaccedilatildeo do teste do 2 O SMILE em

particular apresenta para cada motivo uma medida da sua significacircncia estatiacutestica No

entanto o verdadeiro interesse reside na determinaccedilatildeo da significacircncia bioloacutegica dos motivos

encontrados O que estaacute em causa eacute perceber se um motivo eacute um potencial binding site Eacute

necessaacuterio testar este meacutetodo em dados reais com consensos conhecidos para se perceber se a

significacircncia estatiacutestica apresenta uma elevada correlaccedilatildeo com a significacircncia bioloacutegica

No Capiacutetulo 6 apresentamos uma discussatildeo acerca da adequaccedilatildeo do teste do 2 para a afericcedilatildeo

da significacircncia bioloacutegica dos motivos extraiacutedos pelo SMILE

42 Meacutetodo de Shuffling

Como jaacute foi referido para efectuar o caacutelculo da significacircncia estatiacutestica o SMILE recorre agrave

geraccedilatildeo de sequecircncias aleatoacuterias com certas restriccedilotildees baseadas na estatiacutestica dos dados

originais Para o efeito eacute usado um algoritmo de data shuffling [78]

O meacutetodo de shuffling permite obter um conjunto de dados aleatoacuterio com base num conjunto

de dados original garantindo a preservaccedilatildeo exacta das frequecircncias de k-mers para um dado k

O meacutetodo de geraccedilatildeo pode ser visto como um passeio aleatoacuterio sobre um multi-grafo onde os

noacutes satildeo todas as subsequecircncias de tamanho k-1 presentes na sequecircncia original e cada aresta

corresponde a uma transiccedilatildeo entre (k-1)-mers verificada nos dados No caso de k igual a 1 natildeo

eacute gerado um multi-grafo sendo feita apenas uma reordenaccedilatildeo aleatoacuteria dos nucleoacutetidos de

cada sequecircncia

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 16

A Figura 41 ilustra um exemplo de um multi-grafo gerado a partir da sequecircncia

ATTATTTATT bem como um caminho no grafo que gera a sequecircncia alternativa

TATTATTTAT

Figura 41 Multi-grafo gerado pela sequecircncia ATTATTTATT para k=4 com 2

passeios aleatoacuterios

Para que cada sequecircncia gerada seja vaacutelida eacute necessaacuterio que tenha o mesmo tamanho que a

sequecircncia original Sendo assim eacute faacutecil perceber que apenas os caminhos eulerianos garantem

a geraccedilatildeo de uma sequecircncia com estas caracteriacutesticas No SMILE este processo eacute repetido

para cada sequecircncia isoladamente

Para garantir a fiabilidade dos resultados obtidos eacute efectuado um nuacutemero elevado de

simulaccedilotildees donde satildeo extraiacutedos os valores meacutedios do quoacuterum ou da abundacircncia de cada

motivo a partir dos quais eacute calculada a significacircncia estatiacutestica no sentido do teste do 2

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 17

A Figura 42 mostra um histograma com os resultados obtidos em 100 simulaccedilotildees para um

motivo extraiacutedo do conjunto de dados da Helicobater pylori3 onde foram preservadas as

frequecircncias relativas de nucleoacutetidos (k=1) Este conjunto de dados eacute constituiacutedo por 308

sequecircncias com comprimentos que variam entre 40 e 300 nucleoacutetidos Foi efectuada uma

procura de motivos simples com tamanhos natildeo inferiores a 6 Foi admitido 1 erro e foi

exigido um quoacuterum de 6

O histograma indica a percentagem de simulaccedilotildees em que o motivo em consideraccedilatildeo ocorre

num determinado nuacutemero de sequecircncias Em particular no exemplo da Figura 42 o motivo

TTTTAA ocorre num nuacutemero de sequecircncias entre 282 e 284 em 13 das simulaccedilotildees

A seta a negro refere-se ao nuacutemero de ocorrecircncias do motivo observadas no conjunto de dados

original Quanto mais afastada estiver a seta do maacuteximo da curva maior seraacute a significacircncia

estatiacutestica Neste caso foi atribuiacuteda uma significacircncia de 593 ao motivo TTTTAA

Figura 42 Histograma das ocorrecircncias observadas do motivo TTTTAA em 100

simulaccedilotildees de shuffling do conjunto de dados da H pylori

3 Organismo procariota

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 18

O meacutetodo de data shuffling pode ser pesado do ponto de vista computacional e representa

uma grande restriccedilatildeo no desempenho da avaliaccedilatildeo de motivos Em particular a necessidade

de pesquisar todos os motivos extraiacutedos em cada conjunto de dados aleatoacuterio gerado constitui

uma seacuterio entrave ao bom desempenho deste meacutetodo

Devido aos referidos problemas de desempenho opta-se geralmente por fazer um nuacutemero de

simulaccedilotildees com geraccedilatildeo de sequecircncias aleatoacuterias inferior ao estatisticamente aconselhado o

que pode ter impacto nos resultados

Outra questatildeo pertinente coloca-se ainda quanto agrave preservaccedilatildeo dos k-mers Uma vez que o

shuffling eacute feito sobre cada sequecircncia do conjunto de dados valores elevados de k impotildeem

restriccedilotildees severas agrave variabilidade dos conjuntos de dados aleatoacuterios gerados Assim para estes

valores o teste estatiacutestico eacute inuacutetil uma vez que os conjuntos de dados gerados satildeo

praticamente iguais ao conjunto de dados original Em particular quando o tamanho dos

k-mers a preservar eacute igual ou superior ao tamanho de um motivo as suas ocorrecircncias satildeo

estritamente conservadas no conjunto de dados aleatoacuterio levando a que o valor da

significacircncia seja 0 A Figura 43 ilustra o facto de a significacircncia estatiacutestica tender

inevitavelmente para zero agrave medida que o valor de k aumenta Os valores do graacutefico foram

igualmente obtidos a partir do conjunto de dados da H pylori descrito anteriormente

Figura 43 Graacutefico da evoluccedilatildeo da significacircncia estatiacutestica com o aumento do valor

de k para um motivo de tamanho 8 extraiacutedo do conjunto de dados da H pylori

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 19

43 Meacutetodo Analiacutetico

Nesta Secccedilatildeo propotildee-se um meacutetodo analiacutetico que tem por objectivo resolver alguns dos

problemas do meacutetodo de shuffling descrito na Secccedilatildeo anterior designadamente o fraco

desempenho computacional e as excessivas restriccedilotildees devidas agrave conservaccedilatildeo estrita das

frequecircncias dos k-mers Assim pretende-se obter um meacutetodo computacionalmente eficiente

para avaliar a relevacircncia de motivos extraiacutedos pelo SMILE

Com este meacutetodo comeccedila-se por abstrair um modelo de Markov a partir do conjunto de dados

em estudo Os estados do modelo de Markov correspondem a todos os (k-1)-mers presentes no

conjunto de dados sendo a probabilidade inicial de cada estado a frequecircncia relativa

observada do (k-1)-mer correspondente

A probabilidade de transiccedilatildeo entre estados corresponde agrave razatildeo entre o nuacutemero de vezes que o

(k-1)-mer referente ao estado de destino sucede ao (k-1)-mer referente ao estado de origem

nos dados e o nuacutemero de vezes que o (k-1)-mer correspondente ao estado de origem precede

qualquer outro (k-1)-mer nas sequecircncias em anaacutelise A Figura 45 apresenta um modelo de

Markov abstraiacutedo a partir do conjunto de dados referido na Figura 44

Figura 44 Conjunto de dados exemplo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 20

CA

TC

AT

TA

TT

101

51

52

101

51

Figura 45

Exemplo de uma cadeia de Markov para k=3

Cada motivo em anaacutelise eacute processado de forma a calcular a probabilidade do motivo ser

gerado pelo modelo de Markov abstraiacutedo

Esta probabilidade eacute calculada como o produto da probabilidade do estado inicial pela

probabilidade de todas as transiccedilotildees necessaacuterias para compor o motivo Em (44) (45) e (46)

apresenta-se o calculo desta probabilidade para o motivo ATTATT segundo a cadeia de

Markov da Figura 45

)()()()()()( TTATpATTApTATTpTTATpATpATTATTp

(44)

2

111

2

1

5

2)(ATTATTp (45)

10

1)(ATTATTp (46)

No caso em que k eacute igual 1 natildeo eacute construiacuteda uma cadeia de Markov sendo a probabilidade de

ocorrecircncia do motivo o produto das frequecircncias relativas no conjunto de dados dos

nucleoacutetidos que o compotildeem

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 21

Caso sejam admitidos e erros basta considerar a soma das probabilidades de todos motivos a

uma distacircncia de Hamming natildeo superior a e ao inveacutes de se considerar apenas a probabilidade

do motivo em anaacutelise

A probabilidade assim calculada seraacute usada para determinar as entradas referentes a dados

aleatoacuterios na tabela de contingecircncia descrita na Secccedilatildeo 41 para o teste relativo agrave abundacircncia

A determinaccedilatildeo das entradas na tabela quando consideramos o teste relativo ao quoacuterum de um

motivo eacute consideravelmente mais complexa pelo que natildeo a abordaremos neste texto

Assim as entradas randomP e randomA satildeo calculadas da forma indicada em (47) e (48)

respectivamente

))1)((()( nseqsmlenmotiflenseqsnseqskmpP Markovrandom

(47)

randomrandom PlenseqsnseqsA

(48)

Nas expressotildees (47) e (48)

)( kmpMarkov refere-se agrave probabilidade calculada para o motivo m a partir de uma cadeia

de Markov extraiacuteda do conjunto de dados para um dado k

nseqs designa o nuacutemero de sequecircncias do conjunto de dados

lseqs designa o comprimento meacutedio das sequecircncias do conjunto de dados

lenmotif(m) designa o tamanho do motivo m

Agrave semelhanccedila do SMILE no caacutelculo de randomA consideramos como nuacutemero de

oportunidades de ocorrecircncia o tamanho do conjunto de dados

Este meacutetodo apresenta um desempenho computacional significativamente melhor que o

meacutetodo baseado em shuffling uma vez que natildeo necessita de efectuar vaacuterias simulaccedilotildees tendo

apenas de processar o conjunto de dados por uma uacutenica vez O caacutelculo da significacircncia

estatiacutestica de cada motivo eacute linear em relaccedilatildeo ao seu comprimento

Por outro lado o meacutetodo analiacutetico natildeo enferma das mesmas limitaccedilotildees do que o teste

estatiacutestico baseado em simulaccedilotildees permitindo o caacutelculo de significacircncia estatiacutestica para

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 22

valores elevados de k Ao considerar a estatiacutestica de todo o conjunto de dados ao inveacutes de

cada sequecircncia isoladamente este meacutetodo pode tambeacutem agrave partida modelar melhor os dados

Resta acrescentar que o meacutetodo descrito nesta Secccedilatildeo soacute permite obter significacircncias

estatiacutesticas para motivos simples A realizaccedilatildeo de caacutelculos para motivos estruturados eacute

consideravelmente mais complexa e natildeo foi abordada neste trabalho

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 23

5 Geraccedilatildeo de coacutedigo IUPAC

A realizaccedilatildeo eficiente de pesquisas de consensos em bases de dados bioloacutegicas requer uma

representaccedilatildeo compacta dos dados armazenados Neste contexto a possibilidade de

representar consensos em coacutedigo IUPAC assume uma importacircncia fundamental

O coacutedigo IUPAC eacute uma extensatildeo sobre a representaccedilatildeo de sequecircncias de DNA Uma

sequecircncia de DNA eacute constituiacuteda por nucleoacutetidos A codificaccedilatildeo IUPAC introduz siacutembolos que

representam um conjunto de possiacuteveis nucleoacutetidos para uma dada posiccedilatildeo permitindo uma

representaccedilatildeo de sequecircncias degeneradas Por exemplo uma purina (A ou G) eacute representada

pela letra R A descriccedilatildeo completa dos coacutedigos IUPAC encontra-se na Tabela 51

Coacutedigo Descriccedilatildeo A Adenina

C Citosina

G Guanina

T Timina

U Uracilo

R Purina (A ou G)

Y Pirimidina (C T ou U)

M C ou A

K T U ou G

W T U ou A

S C ou G

B C T U ou G (natildeo A)

D A T U ou G (natildeo C)

H A T U ou C (natildeo G)

V A C ou G (natildeo T natildeo U)

N Qualquer base (A C G T ou U)

Tabela 51 Coacutedigo IUPAC

A conversatildeo de um conjunto de sequecircncias de DNA para um conjunto de sequecircncias IUPAC

natildeo eacute uma tarefa trivial Para um dado conjunto de sequecircncias existem diversas codificaccedilotildees

IUPAC possiacuteveis

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 24

O problema da geraccedilatildeo de coacutedigo IUPAC consiste em encontrar o conjunto miacutenimo de

sequecircncias IUPAC que representem um dado conjunto de sequecircncias DNA

Como o objectivo proposto eacute a compressatildeo da representaccedilatildeo das sequecircncias de nucleoacutetidos eacute

desejaacutevel que a codificaccedilatildeo IUPAC seja a mais compacta possiacutevel

A abordagem utilizada foi a de reduzir o problema da compressatildeo IUPAC a um problema

conhecido a minimizaccedilatildeo de expressotildees loacutegicas multi-valor

Uma expressatildeo loacutegica multi-valor eacute uma expressatildeo loacutegica onde figuram variaacuteveis multi-valor

ou seja variaacuteveis que necessitam de mais do que um bit para serem representadas

Para representar um siacutembolo IUPAC eacute utilizada uma variaacutevel multi-valor de 4 bits Os

siacutembolos e as respectivas representaccedilotildees estatildeo na Tabela 52

Siacutembolo

IUPAC

Codificaccedilatildeo

binaacuteria

A 1000

T 0100

C 0010

G 0001

R 1001

Y 0110

S 0011

W 1100

K 0101

M 1010

B 0111

D 1101

H 1110

V 1011

N 1111

Espaccedilo 0000

Tabela 52

Codificaccedilatildeo binaacuteria dos siacutembolos IUPAC

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 25

Uma sequecircncia de nucleoacutetidos ou IUPAC eacute construiacuteda atraveacutes de um produto de termos

sendo cada termo uma variaacutevel multi-valor que representa um siacutembolo da sequecircncia Por

exemplo a sequecircncia WTA eacute representada pela expressatildeo loacutegica (1100) (0100) (1000)

Agora que foi estabelecida uma representaccedilatildeo para sequecircncias IUPAC atraveacutes de expressotildees

loacutegicas multi-valor resta perceber como da minimizaccedilatildeo destas expressotildees pode resultar o

desejado coacutedigo IUPAC

Em (51) temos um exemplo simples de minimizaccedilatildeo loacutegica

ZXZYXZYX

(51)

Eacute faacutecil verificar que X Z eacute uma expressatildeo equivalente O que se pretende para a compressatildeo

IUPAC eacute algo semelhante

Por exemplo a partir das sequecircncias ATA e TTA pretende-se a expressatildeo IUPAC WTA A

simplificaccedilatildeo das expressotildees loacutegicas eacute exemplificada sucessivamente em (52) (53) e (54)

A T A + T T A (52)

(1000) (0100) (1000) + (0100) (0100) (1000)

(A ou T) T A (53)

((1000)+(0100)) (0100) (1000)

W T A (54)

(1100) (0100) (1000)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 26

Eacute faacutecil perceber atendendo agrave escolha criteriosa da codificaccedilatildeo que da minimizaccedilatildeo de

expressotildees loacutegicas que representam sequecircncias de nucleoacutetidos resultam expressotildees loacutegicas

que representam uma codificaccedilatildeo IUPAC das sequecircncias originais

O problema inicial encontra-se agora reduzido a um problema de minimizaccedilatildeo de expressotildees

loacutegicas Este problema jaacute estaacute resolvido na aacuterea da siacutentese loacutegica Um dos programas mais

conhecidos desenvolvido para a resoluccedilatildeo deste problema eacute o programa Espresso [9] Apesar

de ser utilizado neste contexto como uma caixa preta eacute importante perceber o seu

funcionamento

No Espresso as expressotildees loacutegicas satildeo representadas num espaccedilo booleano multi-

dimensional Um exemplo eacute um espaccedilo tridimensional onde podem ser representadas

sequecircncias de tamanho 3 tal como estaacute ilustrado na Figura 51

Figura 51

Representaccedilatildeo das sequecircncias ATA (1) e TTA (2)

Neste contexto um cubo define-se como a representaccedilatildeo espacial de um produto de termos

Ou seja para o problema em questatildeo cada sequecircncia de entrada eacute um cubo e uma cobertura

corresponde a um conjunto de cubos que engloba todos os veacutertices representados no espaccedilo

Pode observar-se que a dimensatildeo do espaccedilo encontra-se directamente relacionada com o

tamanho da sequecircncia que se pretende representar Para efectuar a minimizaccedilatildeo o Espresso

procura uma cobertura miacutenima que daraacute origem ao conjunto de sequecircncias IUPAC de saiacuteda

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 27

No caso do espaccedilo da Figura 51 existe uma cobertura miacutenima constituiacuteda por um uacutenico cubo

A Figura 52 ilustra a referida cobertura

Figura 52 Representaccedilatildeo da cobertura WTA (1)

Da cobertura resulta a codificaccedilatildeo IUPAC das sequecircncias iniciais

O processo para descobrir a cobertura miacutenima eacute complexo sendo composto por um conjunto

intrincado de passos Inicialmente o conjunto de cubos originais eacute expandido de forma a

englobar o maior nuacutemero de veacutertices adjacentes De seguida os cubos redundantes satildeo

removidos e os restantes satildeo reduzidos para que cubram apenas os cubos iniciais Um cubo eacute

considerado redundante se natildeo cobrir nenhum veacutertice que natildeo esteja jaacute coberto por outro

cubo Deste processo resulta uma reduccedilatildeo contiacutenua do nuacutemero de cubos necessaacuterios para a

cobertura O processo eacute reiterado ateacute natildeo se verificarem melhorias substanciais na dimensatildeo

da cobertura obtida

Este processo eacute guiado por heuriacutesticas e eacute possiacutevel demonstrar que produz resultados

proacuteximos da soluccedilatildeo oacuteptima O processo estaacute detalhadamente descrito em [910]

De modo a automatizar o processo de codificaccedilatildeo das sequecircncias de nucleoacutetidos e

descodificaccedilatildeo das sequecircncias IUPAC foi desenvolvida uma interface para o Espresso

Assim as sequecircncias de entrada satildeo transformadas em expressotildees loacutegicas (formato binaacuterio)

seguindo a correspondecircncia referida na Tabela 52 Do mesmo modo a representaccedilatildeo da

cobertura miacutenima obtida pelo Espresso eacute descodificada e traduzida para sequecircncias IUPAC

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 28

O funcionamento da interface foi testado com recurso a um gerador aleatoacuterio de sequecircncias de

nucleoacutetidos e a um verificador O gerador produz um conjunto de sequecircncias obtidas a partir

de uma sequecircncia inicial de nucleoacutetidos O conjunto de sequecircncias gerado corresponde a

vaacuterias substituiccedilotildees aleatoacuterias na sequecircncia inicial e constitui o conjunto de entrada que vai

ser lido pela ferramenta Espresso O verificador recebe o conjunto de sequecircncias de entrada e

o resultado da operaccedilatildeo de minimizaccedilatildeo do Espresso sob a forma de sequecircncias de coacutedigos

IUPAC Deste modo ao expandir as sequecircncias IUPAC obtidas pelo Espresso atraveacutes de

uma operaccedilatildeo trivial de substituiccedilotildees sucessivas eacute possiacutevel testar a completude e adequaccedilatildeo

da representaccedilatildeo Assim diz-se que a representaccedilatildeo eacute completa se a expansatildeo incluir todas as

sequecircncias de entrada por outro lado diz-se que a representaccedilatildeo eacute adequada se natildeo incluir

nenhuma sequecircncia que natildeo esteja no conjunto inicial

Depois de verificada a completude e adequaccedilatildeo das representaccedilotildees obtidas foram feitos testes

com dados reais de modo a poder aferir o grau de compressatildeo das sequecircncias introduzidas

Assim o Espresso foi executado tendo como conjunto de entrada sequecircncias devidamente

codificadas obtidas atraveacutes de uma execuccedilatildeo do SMILE

As taxas de compressatildeo obtidas variam entre 278 e 715

O gerador de coacutedigo IUPAC encontra-se neste momento integrado na base de dados Dbyeast

[11] disponibilizando publicamente o serviccedilo de codificaccedilatildeo A Figura 53 eacute uma imagem da

interface que permite que os utilizadores da Dbyeast obtenham coacutedigo IUPAC a partir de

sequecircncias de DNA

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 29

Figura 53 Interface para geraccedilatildeo de coacutedigo IUPAC integrada na Dbyeast

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 30

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 31

6 Resultados e Conclusotildees

Neste Capiacutetulo iremos analisar os resultados obtidos tanto para dados sinteacuteticos como para

dados reais Para tal iremos comparar os valores de significacircncia estatiacutestica obtidos para os

dois tipos de dados usando tanto o meacutetodo de shuffling como o meacutetodo analiacutetico Para efectuar

esta comparaccedilatildeo eacute uacutetil referirmo-nos agrave posiccedilatildeo obtida pelos motivos em anaacutelise numa lista

ordenada por valores decrescentes de significacircncia estatiacutestica Assim sempre que

mencionarmos o valor da posiccedilatildeo de um motivo estaremos a referir-nos agrave posiccedilatildeo numa lista

assim definida

61 Resultados Obtidos com Dados Sinteacuteticos

Como jaacute foi referido a utilizaccedilatildeo de dados sinteacuteticos permite um maior controlo sobre os

motivos que estatildeo efectivamente presentes no conjunto de dados Assim iremos referir-nos

aos motivos que foram introduzidos no conjunto de dados gerado por motivos especificados

em oposiccedilatildeo aos outros motivos igualmente extraiacutedos pelo SMILE que designaremos por

motivos natildeo-especificados Nesta Secccedilatildeo iremos considerar o teste de significacircncia estatiacutestica

relativo agrave abundacircncia de forma a podermos comparar os resultados obtidos com o meacutetodo

shuffling e com o meacutetodo analiacutetico

611 Resultados do teste do 2 com o meacutetodo shuffling

Ao especificar um conjunto de dados com os mesmos motivos que estatildeo presentemente

descritos para a H pylori obtivemos para motivos simples os resultados apresentados nas

Figuras 61 e 62 O conjunto de dados sinteacutetico conteacutem 308 sequecircncias de comprimento 167

Foi efectuada uma procura de motivos simples com tamanhos compreendidos entre 6 e 8

nucleoacutetidos Natildeo foram admitidos erros e foi exigido um quoacuterum de 6 Os motivos

especificados encontram-se representados a ponteado Os restantes motivos correspondem a

motivos natildeo-especificados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 32

Figura 61 Significacircncia estatiacutestica para motivos simples de tamanho 6

Figura 62 Significacircncia estatiacutestica para motivos simples de tamanho 7

Os graacuteficos natildeo satildeo no entanto suficientes para nos dar a percepccedilatildeo da correcta classificaccedilatildeo

dos motivos uma vez que natildeo eacute possiacutevel fazer representar no graacutefico os 172 motivos

extraiacutedos A Tabela 61 indica as posiccedilotildees ocupadas pelos motivos especificados em relaccedilatildeo agrave

totalidade dos modelos para vaacuterios valores de k

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 33

TTTAAG TTTTAA TATAAT TATAATA

k=1 5 4 1 2

k=2 6 4 1 2

k=3 6 4 2 1

k=4 6 5 2 1

k=5 78 7 5 1

Tabela 61 Posiccedilotildees dos motivos especificados

Em geral os motivos especificados aparecem melhor classificados para um baixo valor de k

Agrave medida que se consideram valores de k crescentes a significacircncia estatiacutestica de todos os

motivos aproxima-se de zero pelas razotildees jaacute apontadas na Secccedilatildeo 42

Eacute comum observar-se a presenccedila de motivos natildeo-especificados com niacuteveis de significacircncia

elevados especialmente se atendermos agraves posiccedilotildees da Tabela 61

Contudo estes bons resultados natildeo se mantecircm se forem admitidos erros na procura Neste

caso embora os motivos mantenham em geral elevadas significacircncias entram em

competiccedilatildeo com os motivos a distacircncia de Hamming natildeo superior ao nuacutemero de erros

admitido Assim eacute comum observar-se uma descida significativa na tabela de posiccedilotildees

Para motivos estruturados os resultados satildeo favoraacuteveis mesmo admitindo erros como eacute

ilustrado pelo graacutefico da Figura 63 em conjugaccedilatildeo com os valores de posiccedilatildeo apresentados na

Tabela 62

Neste exemplo efectuou-se uma procura por motivos estruturados compostos por duas partes

com tamanhos entre 6 e 7 com uma distacircncia entre si variando entre 21 e 23 nucleoacutetidos

Admitiu-se 1 erro em cada parte do motivo mas apenas 1 erro na totalidade do motivo

estruturado e exigiu-se um quoacuterum de 6 Foram extraiacutedos 53 motivos O motivo

especificado encontra-se a ponteado

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 34

Figura 63 Significacircncia estatiacutestica para modelos estruturados em dados sinteacuteticos

TTTAAG_TATAAT

k=1 4

k=2 4

k=3 17

k=4 63

k=5 162

Tabela 62 Posiccedilotildees do motivo estruturado especificado

Neste exemplo foi necessaacuterio admitir a existecircncia de erros para que o motivo fosse encontrado

pelo SMILE Natildeo existem motivos sem erros que cumpram as condiccedilotildees de procura

Esta boa prestaccedilatildeo dos motivos estruturados estaacute relacionada com o facto de o shuffling

raramente preservar as distacircncias relativas de cada uma das partes que constituem o motivo

fazendo com que estes ocorram poucas vezes nas simulaccedilotildees Assim neste exemplo o motivo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 35

estruturado especificado aparece claramente destacado Estes resultados parecem sugerir que a

utilizaccedilatildeo deste teste estatiacutestico se adequa agrave avaliaccedilatildeo de modelos estruturados No entanto

nem todos os promotores exibem esta estrutura sendo necessaacuterio um meacutetodo mais geral para

fazer esta avaliaccedilatildeo

Como veremos em seguida os resultados aparentemente animadores mesmo para motivos

simples natildeo se verificam quando analisamos dados reais Esta evidecircncia estaacute relacionada com

o facto de o gerador de dados sinteacuteticos gerar dados aleatoacuterios com equiprobabilidade de

nucleoacutetidos Nos dados reais isto natildeo se verifica existindo normalmente uma clara

abundacircncia de A s e T s na regiatildeo promotora Do mesmo modo cada conjunto de dados exibe

preferecircncia por certos diacutemeros ou triacutemeros que ocorrem com muito mais frequecircncia que

outros

Esta limitaccedilatildeo podia ser mitigada pela incorporaccedilatildeo destas correlaccedilotildees na geraccedilatildeo de dados

sinteacuteticos Mas embora seja relativamente simples estabelecer uma preferecircncia por certos

nucleoacutetidos a geraccedilatildeo natildeo-equiprovaacutevel de k-mers geneacutericos constitui soacute por si um problema

complexo pelo que natildeo foi abordado neste trabalho

612 Resultados do teste do 2 com o meacutetodo analiacutetico

Os dados sinteacuteticos foram igualmente analisados recorrendo ao meacutetodo analiacutetico que como jaacute

foi referido tem a vantagem de ser mais eficiente do ponto de vista computacional e de poder

explorar valores mais elevados de k As Figura 64 e 65 apresentam a evoluccedilatildeo da

significacircncia estatiacutestica dos mesmos motivos considerados nas Figuras 62 e 63 mas

recorrendo ao meacutetodo analiacutetico

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 36

Figura 64 Significacircncia estatiacutestica de motivos simples de tamanho 6 usando o

meacutetodo analiacutetico

Figura 65 Significacircncia estatiacutestica de motivos simples de tamanho 7 usando o

meacutetodo analiacutetico

A Tabela 63 indica as posiccedilotildees dos motivos especificados para a significacircncia estatiacutestica

calculada por via do meacutetodo analiacutetico

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 37

TTTAAG TTTTAA TATAAT TATAATA

k=1 6 4 1 2

k=2 6 4 1 2

k=3 6 3 2 1

k=4 6 3 2 1

k=5 55 3 2 1

Tabela 63 Posiccedilotildees dos modelos especificados

Satildeo oacutebvias as semelhanccedilas entre os resultados apresentados na Tabela 63 e os presentes na

Tabela 61 Isto confirma a possibilidade de usar o meacutetodo analiacutetico como alternativa ao

meacutetodo de shuffling

Sabemos igualmente que no acircmbito do meacutetodo analiacutetico quando k atinge um valor igual ao

comprimento do motivo em anaacutelise a significacircncia estatiacutestica anula-se Isto tem a ver com o

facto de a probabilidade de ocorrecircncia de um k-mer ser muito proacutexima da sua frequecircncia

relativa no conjunto de dados Assim sendo os valores das entradas da tabela de contingecircncia

relativas aos dados aleatoacuterios seratildeo inevitavelmente iguais agraves dos dados reais resultando deste

facto uma significacircncia estatiacutestica nula

Por outro lado agrave medida que o k aumenta os k-mers introduzidos pelos motivos especificados

no conjunto de dados que de resto eacute aleatoacuterio vatildeo fazer com que a cadeia de Markov gerada

faccedila convergir as probabilidades de ocorrecircncia de cada motivo com a sua frequecircncia relativa

efectiva no conjunto de dados Assim assiste-se ao mesmo fenoacutemeno de convergecircncia para

zero da significacircncia estatiacutestica que assinalaacutemos para o meacutetodo shuffling

Pela anaacutelise dos resultados podemos ainda concluir que em geral um valor de k demasiado

pequeno natildeo modela suficientemente bem os dados daqui resulta que alguns motivos natildeo

especificados obtenham melhores classificaccedilotildees que motivos especificados Em suma

deveremos preferir valores de k intermeacutedios

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 38

62 Resultados Obtidos com Dados Reais

Com este teste pretendemos verificar se uma sequecircncia classificada como estatisticamente

relevante tambeacutem pode ser considerada biologicamente relevante

Para fazer o estudo da anaacutelise estatiacutestica em dados reais foram recolhidos 16 conjuntos de

dados com regiotildees promotoras correspondentes a genes da levedura Saccharomyces

cerevisiae que eacute um organismo eucariota Cada conjunto conteacutem aproximadamente 10

sequecircncias As sequecircncias contecircm consensos obtidos por via experimental e descritos na

literatura A descriccedilatildeo completa de cada conjunto de dados pode ser vista no Anexo A

Para cada conjunto de dados foi feita uma procura de motivos de tamanhos variando entre 4 e

11 nucleoacutetidos para valores de quoacuterum de 60 75 80 e 100 Foram permitidos 0 e 1

erros em ensaios sucessivos e fez-se ainda variar o valor de k entre 1 e 4

Foi posteriormente analisada a significacircncia estatiacutestica calculada pelo SMILE no que diz

respeito ao quoacuterum

Os consensos descritos obtiveram boas classificaccedilotildees para algumas das condiccedilotildees testadas

Em particular quando o quoacuterum exigido se encontra proacuteximo da frequecircncia efectiva dos

motivos nos dados e quando natildeo satildeo admitidos erros Os resultados satildeo tambeacutem melhores

para motivos de tamanho superior a 7 Em suma obtecircm-se bons resultados quando as

condiccedilotildees favorecem os motivos com as caracteriacutesticas dos consensos descritos

Estes resultados natildeo satildeo muito animadores porque para os atingir eacute necessaacuterio um

conhecimento preacutevio da frequecircncia e tamanho dos motivos Ao considerar a generalidade dos

ensaios efectuados verifica-se que as classificaccedilotildees satildeo muito baixas com baixas

significacircncias estatiacutesticas e com valores de posiccedilatildeo frequentemente abaixo dos primeiros

1 000 motivos No Anexo A apresentamos os resultados obtidos com estes ensaios

A par desta anaacutelise foi considerada a significacircncia estatiacutestica obtida a respeito da abundacircncia

Deste modo eacute possiacutevel estabelecer uma comparaccedilatildeo directa entre o meacutetodo de shuffling e o

meacutetodo analiacutetico para o caacutelculo desta meacutetrica

De seguida apresentamos os resultados desta anaacutelise

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 39

621 Resultados do teste do 2 com o meacutetodo shuffling

De modo geral os resultados para o teste estatiacutestico referente agrave abundacircncia representam uma

melhoria em relaccedilatildeo ao teste referente ao quoacuterum

Comeccedilamos por apresentar os graacuteficos referentes a um conjunto de dados cujos motivos

permanecem mal classificados isto eacute o motivo eacute biologicamente relevante mas natildeo eacute

considerado estatisticamente relevante O conjunto de dados em causa o MSN4 tem um

motivo muito abundante (CCCCT) condicionando a estatiacutestica dos dados Isto conjugado

com o seu pequeno tamanho (5 nucleoacutetidos) resulta na inevitaacutevel baixa significacircncia

estatiacutestica uma vez que aparece sistematicamente na geraccedilatildeo aleatoacuteria de sequecircncias feita em

cada simulaccedilatildeo As Figuras 66 e 67 ilustram a evoluccedilatildeo da significacircncia estatiacutestica e da

posiccedilatildeo do referido motivo considerando erro 0 e 1 respectivamente para um quoacuterum de

60

Figura 66 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 0 erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 40

Figura 67 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 1 erro

Os resultados da classificaccedilatildeo satildeo claramente maus para um consenso descrito A estranha

subida para k igual a 4 estaacute relacionada com uma pequena flutuaccedilatildeo sem significado uma vez

que estamos a considerar valores de significacircncia estatiacutestica muito baixos A aparente melhor

classificaccedilatildeo quando consideramos erro 0 estaacute relacionada com o facto de que quando natildeo se

admitem erros satildeo consequentemente extraiacutedos menos motivos Em particular com erro 0 satildeo

extraiacutedos 1 316 motivos enquanto que com erro 1 satildeo extraiacutedos 35 258 motivos

De seguida apresentamos os resultados relativos a um outro conjunto de dados (STE12) que

evidencia resultados mais favoraacuteveis para erro 0 As Figuras 68 e 69 apresentam a evoluccedilatildeo

da significacircncia estatiacutestica do motivo descrito (TGAAACA) para 0 e 1 erros

respectivamente com um quoacuterum de 100

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 41

Figura 68 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 0 erros

Figura 69 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 1 erro

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 42

Resta referir que para este conjunto de dados foram extraiacutedos 267 motivos com erro 0 e

7 705 motivos para erro 1

O facto de os motivos serem abundantes em relaccedilatildeo ao nuacutemero de sequecircncias consideradas

faz com que o teste relativo agrave abundacircncia tenha um poder de resoluccedilatildeo consideravelmente

maior do que o teste relativo ao quoacuterum Por esta razatildeo deveremos sempre preferir o primeiro

em casos semelhantes

Por outro lado os resultados obtidos continuam a pocircr em causa a generalidade do meacutetodo uma

vez que eacute difiacutecil identificar as situaccedilotildees em que este produz bons resultados sobretudo quando

somos confrontados com um desconhecimento a priori do conjunto de dados

622 Resultados do teste do 2 com o meacutetodo analiacutetico

Resta-nos comparar os resultados obtidos na subsecccedilatildeo anterior com os obtidos pela via

analiacutetica Nos graacuteficos apresentados nesta subsecccedilatildeo que representam a evoluccedilatildeo da

significacircncia estatiacutestica com o crescimento do tamanho dos k-mers considerados estatildeo

tambeacutem assinaladas as posiccedilotildees ocupadas pelos motivos

As Figuras 610 e 611 apresentam os resultados referentes ao MSN4

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 43

Figura 610 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 0 erros

Figura 611 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 1 erro

Os resultados para o MSN4 natildeo sofrem alteraccedilotildees assinalaacuteveis em relaccedilatildeo ao meacutetodo anterior

Novamente as caracteriacutesticas do conjunto de dados limitam a possibilidade de evidenciar este

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 44

motivo por via deste teste estatiacutestico o que eacute tanto mais grave quanto o facto de este ser um

dos motivos cuja significacircncia bioloacutegica se encontra melhor estabelecida

As Figuras 612 e 613 apresentam os resultados referentes ao conjunto de dados STE12

Figura 612 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 0 erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 45

Figura 613 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 1 erro

Os dados apresentados natildeo evidenciam melhorias assinalaacuteveis em relaccedilatildeo aos resultados

obtidos por via de shuffling excepto a ocorrecircncia de melhorias ocasionais da classificaccedilatildeo

quando natildeo se admitem erros Estas diferenccedilas podem ser atribuiacutedas ao facto de o meacutetodo

analiacutetico natildeo conservar estritamente os k-mers e de analisar o conjunto de dados na sua

totalidade por oposiccedilatildeo ao shuffling que considera cada sequecircncia isoladamente

No Anexo B apresentamos a totalidade dos resultados desta anaacutelise comparativa No Anexo C

eacute apresentada uma listagem dos resultados do caacutelculo do valor de significacircncia para valores de

k ateacute ao tamanho dos consensos descritos

A grande vantagem deste meacutetodo eacute sem duacutevida o incomparaacutevel ganho a niacutevel de

desempenho computacional Para ilustrar esta afirmaccedilatildeo basta dizer que o caacutelculo da

significacircncia estatiacutestica para todos os conjuntos de dados considerados demorou com o

meacutetodo de shuffling mais de 30 horas de processamento O meacutetodo analiacutetico realizou todos os

caacutelculos em menos de 30 minutos

No entanto os resultados voltam a pocircr em causa a adequaccedilatildeo do teste estatiacutestico do 2 para

aferir a significacircncia bioloacutegica pela dificuldade de sintetizar um meacutetodo geneacuterico para

destacar motivos relevantes de entre os extraiacutedos pelo SMILE

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 46

63 Conclusotildees

Ao considerar os resultados apresentados eacute inevitaacutevel concluir que a significacircncia atribuiacuteda

pelo teste estatiacutestico do 2 aos motivos extraiacutedos pelo SMILE natildeo reflecte a sua significacircncia

bioloacutegica

A dificuldade em distinguir motivos relevantes da grande quantidade de motivos extraiacutedos

potildee em causa a utilidade praacutetica do algoritmo na generalidade dos casos

Para aleacutem desta questatildeo outras limitaccedilotildees tecircm sido apontadas por bioacutelogos designadamente

o facto de o algoritmo natildeo conseguir pesquisar motivos na cadeia de DNA inversa onde os

factores de transcriccedilatildeo podem igualmente ligar-se e o facto de a forma como o SMILE

modela a ocorrecircncia de erros nos motivos natildeo ser compatiacutevel com a necessidade de poder

indicar posiccedilotildees especiacuteficas onde erros satildeo admitidos

No entanto o SMILE continua a exibir resultados interessantes para motivos estruturados o

que constitui sem duacutevida a mais-valia fundamental do algoritmo Tudo indica que o meacutetodo

analiacutetico pode ser igualmente adaptado para calcular a significacircncia de motivos estruturados

Parece-nos claro que uma eficaz extracccedilatildeo de motivos relevantes passaraacute necessariamente

pela conjugaccedilatildeo com outros dados para aleacutem da simples sequecircncia de nucleoacutetidos Em

particular a disponibilidade de informaccedilatildeo acerca de co-regulaccedilatildeo de genes poderaacute guiar a

extracccedilatildeo de motivos permitindo exigir um quoacuterum mais alto dada a confianccedila na existecircncia

de factores de transcriccedilatildeo comuns

Por outro lado a utilizaccedilatildeo de modelos probabiliacutesticos em vez de meras colecccedilotildees de motivos

poderaacute ser uma abordagem mais natural para o problema permitindo simultaneamente uma

melhor modelaccedilatildeo da realidade bioloacutegica ao indicar uma probabilidade de ocorrecircncia de cada

nucleoacutetido para uma dada posiccedilatildeo no modelo O nuacutemero de modelos extraiacutedos seria tambeacutem

francamente reduzido uma vez que um uacutenico modelo probabiliacutestico pode representar com

expressividade acrescida um grande nuacutemero de motivos

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 47

7 Referecircncias

[1] A Vanet L Marsan e M F Sagot Promoter sequence and algorithmical methods for

identifying them Research in Microbiology 150 pp 779-799 1999

[2] JD Watson FH Crick Molecular structure of nucleic acids a structure for deoxyribose

nucleic acid Nature Number 4356 1953

[3] T Werner Models for Prediction and Recognition of Eukaryotic Promoters Mammalian

Genome Vol 10 pp 168-175 1999

[4] L Marsan e M F Sagot Algorithms for extracting structured motifs using a suffix tree

with an application to promoter and regulatory site consensus identication Journal of

Computational Biology 7 pp 345-362 2000

[5] L Marsan Infeacuterence de motifs structureacutes algorithmes et outils appliqueacutes agrave la deacutetection de

sites de fixation dans des seacutequences geacutenomiques PhD Thesis Universiteacute de Marne-la-Valleacutee

2002

[6] B Flannery S Teukolsky W Press e W Vetterling Numerical Recipes in C++

Cambridge University Press 2002

[7] S Altschul e B Erickson Significance of Nucleotide Sequence Alignments A method of

Random Sequence Permutation That Preserves Dinucleotide and Codon Usage Molecular

Biology Evolution 2 pp 526-538 1985

[8] D Kandel Y Matias R Unger e P Winkler Shuffling Biological Sequences Discrete

Appl Math 71 pp 171-185 1996

[9] R Rudell e A Sangiovanni-Vincentelli Multiple-Valued Minimization for PLA

Optimization IEEE Transactions on Computer-Aided Design of Integrated Circuits and

Systems Vol CAD-6 Nordm 5 pp 727-751 September 1987

[10] R Brayton G Hachtel C McMullen e A Sangiovanni-Vincentelli Logic Minimization

Algorithms for VLSI Synthesis Kluwer Academic Publishers 1985

[11] P Monteiro Dbyeast [httpdescartesinesc-idpt~ptgmdb] 2004

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 48

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 49

Anexo A

Resultados do Caacutelculo da Significacircncia Estatiacutestica referente ao Quoacuterum

para Conjuntos de Dados de Saccharomyces cerevisiae

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados

A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos os resultados para os motivos procurados em relaccedilatildeo a cada valor dos paracircmetros

Nota o campo posicao refere-se agrave posiccedilatildeo ocupada pelo motivo na tabela com a estatiacutestica das sequecircncias com pelo menos uma ocorrecircncia do motivo ordenada por chi2

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

314 motivos encontrados Quorum = 80

670 motivos encontrados Quorum = 75

670 motivos encontrados Quorum = 60

1306 motivos encontrados Erro = 1

Quorum = 100 8636 motivos encontrados k = 1 posicao = 2 chi2 = 98 (ACCTTAAAGGT) k = 2 posicao = 2 chi2 = 976 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 965 (ACCTTAAAGGT) k = 4 posicao = 2 chi2 = 984 (ACCTTAAAGGT)

Quorum = 80 17722 motivos encontrados k = 1 posicao = 2 chi2 = 651 (ACCCTAAAGGT) k = 1 posicao = 4 chi2 = 965 (ACCTTAAAGGT) k = 2 posicao = 2 chi2 = 659 (ACCCTAAAGGT) k = 2 posicao = 8 chi2 = 965 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 667 (ACCCTAAAGGT) k = 3 posicao = 4 chi2 = 969 (ACCTTAAAGGT) k = 4 posicao = 2 chi2 = 659 (ACCCTAAAGGT) k = 4 posicao = 3 chi2 = 984 (ACCTTAAAGGT)

Quorum = 75 17722 motivos encontrados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 50

k = 1 posicao = 4 chi2 = 651 (ACCCTAAAGGT) k = 1 posicao = 2 chi2 = 988 (ACCTTAAAGGT) k = 2 posicao = 3 chi2 = 659 (ACCCTAAAGGT) k = 2 posicao = 2 chi2 = 992 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 655 (ACCCTAAAGGT) k = 3 posicao = 3 chi2 = 976 (ACCTTAAAGGT) k = 4 posicao = 3 chi2 = 655 (ACCCTAAAGGT) k = 4 posicao = 5 chi2 = 984 (ACCTTAAAGGT)

Quorum = 60 34907 motivos encontrados k = 1 posicao = 11 chi2 = 655 (ACCCTAAAGGT) k = 1 posicao = 5 chi2 = 996 (ACCTTAAAGGT) k = 1 posicao = 13 chi2 = 421 (ACCTTGAAGGT) k = 2 posicao = 15 chi2 = 647 (ACCCTAAAGGT) k = 2 posicao = 12 chi2 = 969 (ACCTTAAAGGT) k = 2 posicao = 7 chi2 = 421 (ACCTTGAAGGT) k = 3 posicao = 9 chi2 = 655 (ACCCTAAAGGT) k = 3 posicao = 8 chi2 = 984 (ACCTTAAAGGT) k = 3 posicao = 27 chi2 = 414 (ACCTTGAAGGT) k = 4 posicao = 10 chi2 = 651 (ACCCTAAAGGT) k = 4 posicao = 5 chi2 = 984 (ACCTTAAAGGT) k = 4 posicao = 40 chi2 = 407 (ACCTTGAAGGT)

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

161 motivos encontrados Quorum = 80

381 motivos encontrados Quorum = 75

502 motivos encontrados Quorum = 60

826 motivos encontrados k = 1 posicao = 43 chi2 = 33 (CCCCT) k = 2 posicao = 42 chi2 = 202 (CCCCT) k = 3 posicao = 48 chi2 = 142 (CCCCT) k = 4 posicao = 122 chi2 = 028 (CCCCT)

Erro = 1 Quorum = 100

4877 motivos encontrados k = 1 posicao = 3089 chi2 = 002 (CCCCT) k = 2 posicao = 2781 chi2 = 005 (CCCCT) k = 3 posicao = 3148 chi2 = 002 (CCCCT) k = 4 posicao = 2516 chi2 = 007 (CCCCT)

Quorum = 80 10050 motivos encontrados k = 1 posicao = 8449 chi2 = 0 (CCCCT) k = 2 posicao = 5470 chi2 = 009 (CCCCT) k = 3 posicao = 5867 chi2 = 004 (CCCCT) k = 4 posicao = 5131 chi2 = 009 (CCCCT)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 51

Quorum = 75

13080 motivos encontrados k = 1 posicao = 7539 chi2 = 004 (CCCCT) k = 2 posicao = 8129 chi2 = 002 (CCCCT) k = 3 posicao = 7900 chi2 = 003 (CCCCT) k = 4 posicao = 7385 chi2 = 005 (CCCCT)

Quorum = 60 21544 motivos encontrados k = 1 posicao = 12673 chi2 = 004 (CCCCT) k = 2 posicao = 11871 chi2 = 008 (CCCCT) k = 3 posicao = 12731 chi2 = 004 (CCCCT) k = 4 posicao = 11754 chi2 = 007 (CCCCT)

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

326 motivos encontrados Quorum = 80

682 motivos encontrados k = 1 posicao = 169 chi2 = 109 (CCCCT) k = 2 posicao = 238 chi2 = 073 (CCCCT) k = 3 posicao = 223 chi2 = 057 (CCCCT) k = 4 posicao = 331 chi2 = 01 (CCCCT)

Quorum = 75 682 motivos encontrados k = 1 posicao = 136 chi2 = 131 (CCCCT) k = 2 posicao = 178 chi2 = 085 (CCCCT) k = 3 posicao = 245 chi2 = 042 (CCCCT) k = 4 posicao = 331 chi2 = 01 (CCCCT)

Quorum = 60 1316 motivos encontrados k = 1 posicao = 303 chi2 = 17 (CCCCT) k = 2 posicao = 505 chi2 = 075 (CCCCT) k = 3 posicao = 457 chi2 = 059 (CCCCT) k = 4 posicao = 613 chi2 = 014 (CCCCT)

Erro = 1 Quorum = 100

9022 motivos encontrados k = 1 posicao = 7955 chi2 = 0 (CCCCT) k = 2 posicao = 7901 chi2 = 0 (CCCCT) k = 3 posicao = 7846 chi2 = 0 (CCCCT) k = 4 posicao = 7711 chi2 = 0 (CCCCT)

Quorum = 80 17951 motivos encontrados k = 1 posicao = 16310 chi2 = 0 (CCCCT) k = 2 posicao = 16251 chi2 = 0 (CCCCT) k = 3 posicao = 16207 chi2 = 0 (CCCCT) k = 4 posicao = 16091 chi2 = 0 (CCCCT)

Quorum = 75 17951 motivos encontrados k = 1 posicao = 16308 chi2 = 0 (CCCCT)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 52

k = 2 posicao = 16242 chi2 = 0 (CCCCT) k = 3 posicao = 16212 chi2 = 0 (CCCCT) k = 4 posicao = 16063 chi2 = 0 (CCCCT)

Quorum = 60 35258 motivos encontrados k = 1 posicao = 32818 chi2 = 0 (CCCCT) k = 2 posicao = 32757 chi2 = 0 (CCCCT) k = 3 posicao = 32822 chi2 = 0 (CCCCT) k = 4 posicao = 32656 chi2 = 0 (CCCCT)

5_1_gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

220 motivos encontrados Quorum = 80

517 motivos encontrados k = 1 posicao = 52 chi2 = 254 (CTTCC) k = 2 posicao = 87 chi2 = 146 (CTTCC) k = 3 posicao = 164 chi2 = 067 (CTTCC) k = 4 posicao = 236 chi2 = 004 (CTTCC)

Quorum = 75 517 motivos encontrados k = 1 posicao = 77 chi2 = 246 (CTTCC) k = 2 posicao = 83 chi2 = 152 (CTTCC) k = 3 posicao = 99 chi2 = 098 (CTTCC) k = 4 posicao = 241 chi2 = 003 (CTTCC)

Quorum = 60 963 motivos encontrados k = 1 posicao = 625 chi2 = 003 (CATCC) k = 1 posicao = 128 chi2 = 284 (CTTCC) k = 2 posicao = 644 chi2 = 003 (CATCC) k = 2 posicao = 170 chi2 = 177 (CTTCC) k = 3 posicao = 490 chi2 = 015 (CATCC) k = 3 posicao = 256 chi2 = 107 (CTTCC) k = 4 posicao = 522 chi2 = 0 (CATCC) k = 4 posicao = 497 chi2 = 004 (CTTCC)

Erro = 1 Quorum = 100

6121 motivos encontrados k = 1 posicao = 5072 chi2 = 0 (CATCC) k = 1 posicao = 5313 chi2 = 0 (CTTCC) k = 2 posicao = 5049 chi2 = 0 (CATCC) k = 2 posicao = 5287 chi2 = 0 (CTTCC) k = 3 posicao = 4984 chi2 = 0 (CATCC) k = 3 posicao = 5236 chi2 = 0 (CTTCC) k = 4 posicao = 4894 chi2 = 0 (CATCC) k = 4 posicao = 5167 chi2 = 0 (CTTCC)

Quorum = 80 13644 motivos encontrados k = 1 posicao = 11732 chi2 = 0 (CATCC) k = 1 posicao = 11981 chi2 = 0 (CTTCC)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 53

k = 2 posicao = 11792 chi2 = 0 (CATCC) k = 2 posicao = 12044 chi2 = 0 (CTTCC) k = 3 posicao = 11736 chi2 = 0 (CATCC) k = 3 posicao = 11985 chi2 = 0 (CTTCC) k = 4 posicao = 11644 chi2 = 0 (CATCC) k = 4 posicao = 11917 chi2 = 0 (CTTCC)

Quorum = 75 13644 motivos encontrados k = 1 posicao = 11712 chi2 = 0 (CATCC) k = 1 posicao = 11966 chi2 = 0 (CTTCC) k = 2 posicao = 11791 chi2 = 0 (CATCC) k = 2 posicao = 12027 chi2 = 0 (CTTCC) k = 3 posicao = 11729 chi2 = 0 (CATCC) k = 3 posicao = 11981 chi2 = 0 (CTTCC) k = 4 posicao = 11649 chi2 = 0 (CATCC) k = 4 posicao = 11920 chi2 = 0 (CTTCC)

Quorum = 60 25804 motivos encontrados k = 1 posicao = 22732 chi2 = 0 (CATCC) k = 1 posicao = 22973 chi2 = 0 (CTTCC) k = 2 posicao = 22881 chi2 = 0 (CATCC) k = 2 posicao = 23121 chi2 = 0 (CTTCC) k = 3 posicao = 22916 chi2 = 0 (CATCC) k = 3 posicao = 23164 chi2 = 0 (CTTCC) k = 4 posicao = 22864 chi2 = 0 (CATCC) k = 4 posicao = 23141 chi2 = 0 (CTTCC)

6_0_MIG1

Motivo GCGGGG Frequecircncia 16 ~167 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

290 motivos encontrados Quorum = 80

556 motivos encontrados Quorum = 75

556 motivos encontrados Quorum = 60

927 motivos encontrados Erro = 1

Quorum = 100 7881 motivos encontrados k = 1 posicao = 650 chi2 = 252 (GCGGGG) k = 2 posicao = 773 chi2 = 173 (GCGGGG) k = 3 posicao = 1341 chi2 = 101 (GCGGGG) k = 4 posicao = 4437 chi2 = 052 (GCGGGG)

Quorum = 80 14601 motivos encontrados k = 1 posicao = 1895 chi2 = 249 (GCGGGG) k = 2 posicao = 2045 chi2 = 161 (GCGGGG) k = 3 posicao = 3284 chi2 = 11 (GCGGGG) k = 4 posicao = 7272 chi2 = 05 (GCGGGG)

Quorum = 75

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 54

14601 motivos encontrados k = 1 posicao = 2121 chi2 = 234 (GCGGGG) k = 2 posicao = 2604 chi2 = 153 (GCGGGG) k = 3 posicao = 3778 chi2 = 089 (GCGGGG) k = 4 posicao = 8057 chi2 = 047 (GCGGGG)

Quorum = 60 25117 motivos encontrados k = 1 posicao = 4371 chi2 = 234 (GCGGGG) k = 2 posicao = 5452 chi2 = 153 (GCGGGG) k = 3 posicao = 7361 chi2 = 116 (GCGGGG) k = 4 posicao = 12643 chi2 = 051 (GCGGGG)

6_0_UME6

Motivo GCCGCC Frequecircncia 37 ~4286 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

257 motivos encontrados Quorum = 80

454 motivos encontrados Quorum = 75

454 motivos encontrados Quorum = 60

748 motivos encontrados Erro = 1

Quorum = 100 7186 motivos encontrados

Quorum = 80 12323 motivos encontrados

Quorum = 75 12323 motivos encontrados

Quorum = 60 19726 motivos encontrados k = 1 posicao = 13214 chi2 = 002 (GCCGCC) k = 2 posicao = 14628 chi2 = 0 (GCCGCC) k = 3 posicao = 14684 chi2 = 0 (GCCGCC) k = 4 posicao = 15398 chi2 = 002 (GCCGCC)

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

173 motivos encontrados Quorum = 80

403 motivos encontrados Quorum = 75

530 motivos encontrados k = 1 posicao = 6 chi2 = 755 (GATAAG)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 55

k = 2 posicao = 3 chi2 = 892 (GATAAG) k = 3 posicao = 3 chi2 = 725 (GATAAG) k = 4 posicao = 12 chi2 = 457 (GATAAG)

Quorum = 60 836 motivos encontrados k = 1 posicao = 24 chi2 = 771 (GATAAG) k = 2 posicao = 7 chi2 = 94 (GATAAG) k = 3 posicao = 12 chi2 = 719 (GATAAG) k = 4 posicao = 25 chi2 = 48 (GATAAG)

Erro = 1 Quorum = 100

5360 motivos encontrados k = 1 posicao = 2690 chi2 = 012 (GATAAG) k = 1 posicao = 3118 chi2 = 008 (GATTAG) k = 2 posicao = 2917 chi2 = 01 (GATAAG) k = 2 posicao = 2424 chi2 = 02 (GATTAG) k = 3 posicao = 3096 chi2 = 007 (GATAAG) k = 3 posicao = 1982 chi2 = 033 (GATTAG) k = 4 posicao = 3004 chi2 = 007 (GATAAG) k = 4 posicao = 2767 chi2 = 01 (GATTAG)

Quorum = 80 10819 motivos encontrados k = 1 posicao = 6729 chi2 = 011 (GATAAG) k = 1 posicao = 6816 chi2 = 009 (GATTAG) k = 2 posicao = 6240 chi2 = 013 (GATAAG) k = 2 posicao = 6446 chi2 = 011 (GATTAG) k = 3 posicao = 7301 chi2 = 004 (GATAAG) k = 3 posicao = 4235 chi2 = 053 (GATTAG) k = 4 posicao = 7045 chi2 = 004 (GATAAG) k = 4 posicao = 6317 chi2 = 012 (GATTAG)

Quorum = 75 13889 motivos encontrados k = 1 posicao = 9061 chi2 = 007 (GATAAG) k = 1 posicao = 8672 chi2 = 01 (GATTAG) k = 2 posicao = 8095 chi2 = 016 (GATAAG) k = 2 posicao = 8763 chi2 = 01 (GATTAG) k = 3 posicao = 8965 chi2 = 008 (GATAAG) k = 3 posicao = 6907 chi2 = 036 (GATTAG) k = 4 posicao = 8966 chi2 = 006 (GATAAG) k = 4 posicao = 8323 chi2 = 011 (GATTAG)

Quorum = 60 22209 motivos encontrados k = 1 posicao = 14904 chi2 = 008 (GATAAG) k = 1 posicao = 14384 chi2 = 013 (GATTAG) k = 2 posicao = 13923 chi2 = 015 (GATAAG) k = 2 posicao = 13902 chi2 = 015 (GATTAG) k = 3 posicao = 14932 chi2 = 008 (GATAAG) k = 3 posicao = 11534 chi2 = 046 (GATTAG) k = 4 posicao = 14680 chi2 = 007 (GATAAG) k = 4 posicao = 13878 chi2 = 017 (GATTAG)

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 56

Erro = 0 Quorum = 100

128 motivos encontrados Quorum = 80

372 motivos encontrados Quorum = 75

454 motivos encontrados Quorum = 60

785 motivos encontrados Erro = 1

Quorum = 100 4212 motivos encontrados k = 1 posicao = 326 chi2 = 14 (CACCCA) k = 2 posicao = 594 chi2 = 108 (CACCCA) k = 3 posicao = 244 chi2 = 107 (CACCCA) k = 4 posicao = 1210 chi2 = 038 (CACCCA)

Quorum = 80 9800 motivos encontrados k = 1 posicao = 1302 chi2 = 157 (CACCCA) k = 1 posicao = 2061 chi2 = 087 (CACCCG) k = 2 posicao = 2058 chi2 = 117 (CACCCA) k = 2 posicao = 2522 chi2 = 059 (CACCCG) k = 3 posicao = 1624 chi2 = 106 (CACCCA) k = 3 posicao = 2994 chi2 = 045 (CACCCG) k = 4 posicao = 2703 chi2 = 05 (CACCCA) k = 4 posicao = 3926 chi2 = 011 (CACCCG)

Quorum = 75 11933 motivos encontrados k = 1 posicao = 1951 chi2 = 145 (CACCCA) k = 1 posicao = 2903 chi2 = 081 (CACCCG) k = 2 posicao = 2227 chi2 = 116 (CACCCA) k = 2 posicao = 3417 chi2 = 062 (CACCCG) k = 3 posicao = 2137 chi2 = 108 (CACCCA) k = 3 posicao = 3426 chi2 = 041 (CACCCG) k = 4 posicao = 4518 chi2 = 031 (CACCCA) k = 4 posicao = 4805 chi2 = 012 (CACCCG)

Quorum = 60 20531 motivos encontrados k = 1 posicao = 5137 chi2 = 144 (CACCCA) k = 1 posicao = 5556 chi2 = 073 (CACCCG) k = 2 posicao = 4865 chi2 = 113 (CACCCA) k = 2 posicao = 5737 chi2 = 062 (CACCCG) k = 3 posicao = 4491 chi2 = 097 (CACCCA) k = 3 posicao = 5797 chi2 = 052 (CACCCG) k = 4 posicao = 7825 chi2 = 041 (CACCCA) k = 4 posicao = 7275 chi2 = 018 (CACCCG)

7_0_REB1

Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

211 motivos encontrados k = 1 posicao = 4 chi2 = 965 (TTACCC)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 57

k = 2 posicao = 4 chi2 = 105 (TTACCC) k = 3 posicao = 4 chi2 = 1075 (TTACCC) k = 4 posicao = 4 chi2 = 755 (TTACCC)

Quorum = 80 405 motivos encontrados k = 1 posicao = 4 chi2 = 932 (TTACCC) k = 2 posicao = 4 chi2 = 1083 (TTACCC) k = 3 posicao = 4 chi2 = 1106 (TTACCC) k = 4 posicao = 4 chi2 = 723 (TTACCC)

Quorum = 75 605 motivos encontrados k = 1 posicao = 6 chi2 = 947 (TTACCC) k = 2 posicao = 5 chi2 = 999 (TTACCC) k = 3 posicao = 5 chi2 = 1098 (TTACCC) k = 4 posicao = 5 chi2 = 808 (TTACCC)

Quorum = 60 907 motivos encontrados k = 1 posicao = 9 chi2 = 1007 (TTACCC) k = 2 posicao = 6 chi2 = 1089 (TTACCC) k = 3 posicao = 6 chi2 = 1081 (TTACCC) k = 4 posicao = 6 chi2 = 788 (TTACCC)

Erro = 1 Quorum = 100

6121 motivos encontrados k = 1 posicao = 4617 chi2 = 013 (TTACCC) k = 2 posicao = 4454 chi2 = 016 (TTACCC) k = 3 posicao = 4730 chi2 = 012 (TTACCC) k = 4 posicao = 5483 chi2 = 004 (TTACCC)

Quorum = 80 10337 motivos encontrados k = 1 posicao = 7525 chi2 = 008 (TTACCC) k = 2 posicao = 7267 chi2 = 01 (TTACCC) k = 3 posicao = 7129 chi2 = 012 (TTACCC) k = 4 posicao = 7469 chi2 = 009 (TTACCC)

Quorum = 75 15777 motivos encontrados k = 1 posicao = 10287 chi2 = 012 (TTACCC) k = 2 posicao = 10740 chi2 = 01 (TTACCC) k = 3 posicao = 9696 chi2 = 016 (TTACCC) k = 4 posicao = 10789 chi2 = 008 (TTACCC)

Quorum = 60 23856 motivos encontrados k = 1 posicao = 15646 chi2 = 01 (TTACCC) k = 2 posicao = 15437 chi2 = 012 (TTACCC) k = 3 posicao = 13932 chi2 = 022 (TTACCC) k = 4 posicao = 15597 chi2 = 009 (TTACCC)

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

235 motivos encontrados Quorum = 80

475 motivos encontrados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 58

k = 1 posicao = 3 chi2 = 945 (TGCCAAG) k = 2 posicao = 2 chi2 = 92 (TGCCAAG) k = 3 posicao = 2 chi2 = 892 (TGCCAAG) k = 4 posicao = 3 chi2 = 7 (TGCCAAG)

Quorum = 75 475 motivos encontrados k = 1 posicao = 2 chi2 = 924 (TGCCAAG) k = 2 posicao = 3 chi2 = 886 (TGCCAAG) k = 3 posicao = 3 chi2 = 869 (TGCCAAG) k = 4 posicao = 2 chi2 = 678 (TGCCAAG)

Quorum = 60 785 motivos encontrados k = 1 posicao = 5 chi2 = 952 (TGCCAAG) k = 2 posicao = 4 chi2 = 934 (TGCCAAG) k = 3 posicao = 4 chi2 = 869 (TGCCAAG) k = 4 posicao = 6 chi2 = 67 (TGCCAAG)

Erro = 1 Quorum = 100

7028 motivos encontrados k = 1 posicao = 436 chi2 = 321 (TGCCAAG) k = 2 posicao = 551 chi2 = 217 (TGCCAAG) k = 3 posicao = 940 chi2 = 223 (TGCCAAG) k = 4 posicao = 1492 chi2 = 095 (TGCCAAG)

Quorum = 80 12574 motivos encontrados k = 1 posicao = 1703 chi2 = 325 (TGCCAAG) k = 2 posicao = 2035 chi2 = 244 (TGCCAAG) k = 3 posicao = 1678 chi2 = 217 (TGCCAAG) k = 4 posicao = 3298 chi2 = 093 (TGCCAAG)

Quorum = 75 12574 motivos encontrados k = 1 posicao = 1739 chi2 = 333 (TGCCAAG) k = 2 posicao = 1717 chi2 = 216 (TGCCAAG) k = 3 posicao = 1609 chi2 = 212 (TGCCAAG) k = 4 posicao = 3574 chi2 = 075 (TGCCAAG)

Quorum = 60 20257 motivos encontrados k = 1 posicao = 3598 chi2 = 304 (TGCCAAG) k = 2 posicao = 3664 chi2 = 211 (TGCCAAG) k = 3 posicao = 3206 chi2 = 213 (TGCCAAG) k = 4 posicao = 4753 chi2 = 115 (TGCCAAG)

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

267 motivos encontrados k = 1 posicao = 4 chi2 = 998 (TGAAACA) k = 2 posicao = 5 chi2 = 908 (TGAAACA) k = 3 posicao = 5 chi2 = 875 (TGAAACA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 59

k = 4 posicao = 4 chi2 = 743 (TGAAACA)

Quorum = 80 529 motivos encontrados k = 1 posicao = 4 chi2 = 969 (TGAAACA) k = 2 posicao = 6 chi2 = 84 (TGAAACA) k = 3 posicao = 5 chi2 = 845 (TGAAACA) k = 4 posicao = 5 chi2 = 702 (TGAAACA)

Quorum = 75 529 motivos encontrados k = 1 posicao = 6 chi2 = 933 (TGAAACA) k = 2 posicao = 5 chi2 = 866 (TGAAACA) k = 3 posicao = 5 chi2 = 86 (TGAAACA) k = 4 posicao = 5 chi2 = 717 (TGAAACA)

Quorum = 60 916 motivos encontrados k = 1 posicao = 12 chi2 = 956 (TGAAACA) k = 2 posicao = 13 chi2 = 893 (TGAAACA) k = 3 posicao = 16 chi2 = 84 (TGAAACA) k = 4 posicao = 18 chi2 = 715 (TGAAACA)

Erro = 1 Quorum = 100

7705 motivos encontrados k = 1 posicao = 4203 chi2 = 055 (TGAAACA) k = 2 posicao = 5562 chi2 = 02 (TGAAACA) k = 3 posicao = 5481 chi2 = 021 (TGAAACA) k = 4 posicao = 6219 chi2 = 012 (TGAAACA)

Quorum = 80 14161 motivos encontrados k = 1 posicao = 8113 chi2 = 052 (TGAAACA) k = 2 posicao = 9261 chi2 = 022 (TGAAACA) k = 3 posicao = 8536 chi2 = 029 (TGAAACA) k = 4 posicao = 10343 chi2 = 01 (TGAAACA)

Quorum = 75 14161 motivos encontrados k = 1 posicao = 7156 chi2 = 066 (TGAAACA) k = 2 posicao = 8778 chi2 = 028 (TGAAACA) k = 3 posicao = 8848 chi2 = 034 (TGAAACA) k = 4 posicao = 9747 chi2 = 015 (TGAAACA)

Quorum = 60 24421 motivos encontrados k = 1 posicao = 12918 chi2 = 049 (TGAAACA) k = 2 posicao = 15781 chi2 = 024 (TGAAACA) k = 3 posicao = 13941 chi2 = 03 (TGAAACA) k = 4 posicao = 16147 chi2 = 017 (TGAAACA)

7_1_SWI4

Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

330 motivos encontrados Quorum = 80

675 motivos encontrados k = 1 posicao = 3 chi2 = 575 (CGCGAAA) k = 2 posicao = 3 chi2 = 483 (CGCGAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 60

k = 3 posicao = 11 chi2 = 395 (CGCGAAA) k = 4 posicao = 5 chi2 = 367 (CGCGAAA)

Quorum = 75 675 motivos encontrados k = 1 posicao = 2 chi2 = 6 (CGCGAAA) k = 2 posicao = 4 chi2 = 504 (CGCGAAA) k = 3 posicao = 14 chi2 = 372 (CGCGAAA) k = 4 posicao = 14 chi2 = 343 (CGCGAAA)

Quorum = 60 1349 motivos encontrados k = 1 posicao = 50 chi2 = 31 (CACGAAA) k = 1 posicao = 8 chi2 = 569 (CGCGAAA) k = 2 posicao = 81 chi2 = 26 (CACGAAA) k = 2 posicao = 20 chi2 = 48 (CGCGAAA) k = 3 posicao = 117 chi2 = 21 (CACGAAA) k = 3 posicao = 47 chi2 = 37 (CGCGAAA) k = 4 posicao = 309 chi2 = 056 (CACGAAA) k = 4 posicao = 33 chi2 = 367 (CGCGAAA)

Erro = 1 Quorum = 100

8974 motivos encontrados k = 1 posicao = 2630 chi2 = 093 (CACGAAA) k = 1 posicao = 1189 chi2 = 212 (CGCGAAA) k = 2 posicao = 3046 chi2 = 07 (CACGAAA) k = 2 posicao = 2138 chi2 = 101 (CGCGAAA) k = 3 posicao = 4224 chi2 = 03 (CACGAAA) k = 3 posicao = 4064 chi2 = 04 (CGCGAAA) k = 4 posicao = 5230 chi2 = 012 (CACGAAA) k = 4 posicao = 4771 chi2 = 018 (CGCGAAA)

Quorum = 80 17937 motivos encontrados k = 1 posicao = 6152 chi2 = 107 (CACGAAA) k = 1 posicao = 3575 chi2 = 211 (CGCGAAA) k = 2 posicao = 7073 chi2 = 071 (CACGAAA) k = 2 posicao = 6979 chi2 = 078 (CGCGAAA) k = 3 posicao = 9212 chi2 = 035 (CACGAAA) k = 3 posicao = 8502 chi2 = 038 (CGCGAAA) k = 4 posicao = 10421 chi2 = 017 (CACGAAA) k = 4 posicao = 9629 chi2 = 026 (CGCGAAA)

Quorum = 75 17937 motivos encontrados k = 1 posicao = 6271 chi2 = 104 (CACGAAA) k = 1 posicao = 4092 chi2 = 171 (CGCGAAA) k = 2 posicao = 8574 chi2 = 052 (CACGAAA) k = 2 posicao = 5741 chi2 = 107 (CGCGAAA) k = 3 posicao = 10092 chi2 = 026 (CACGAAA) k = 3 posicao = 8743 chi2 = 044 (CGCGAAA) k = 4 posicao = 11741 chi2 = 009 (CACGAAA) k = 4 posicao = 9601 chi2 = 022 (CGCGAAA)

Quorum = 60 35352 motivos encontrados k = 1 posicao = 15854 chi2 = 094 (CACGAAA) k = 1 posicao = 9842 chi2 = 196 (CGCGAAA) k = 2 posicao = 18655 chi2 = 063 (CACGAAA) k = 2 posicao = 16854 chi2 = 093 (CGCGAAA) k = 3 posicao = 21349 chi2 = 025 (CACGAAA) k = 3 posicao = 19789 chi2 = 036 (CGCGAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 61

k = 4 posicao = 22509 chi2 = 016 (CACGAAA) k = 4 posicao = 21049 chi2 = 027 (CGCGAAA)

7_2_GCN4

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

229 motivos encontrados Quorum = 80

372 motivos encontrados Quorum = 75

586 motivos encontrados Quorum = 60

839 motivos encontrados Erro = 1

Quorum = 100 6343 motivos encontrados

Quorum = 80 10422 motivos encontrados

Quorum = 75 15227 motivos encontrados

Quorum = 60 21609 motivos encontrados

7_2_RGT1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

205 motivos encontrados Quorum = 80

496 motivos encontrados k = 1 posicao = 4 chi2 = 1052 (CGGAAAA) k = 2 posicao = 2 chi2 = 883 (CGGAAAA) k = 3 posicao = 2 chi2 = 692 (CGGAAAA) k = 4 posicao = 10 chi2 = 308 (CGGAAAA)

Quorum = 75 496 motivos encontrados k = 1 posicao = 4 chi2 = 1101 (CGGAAAA) k = 2 posicao = 3 chi2 = 855 (CGGAAAA) k = 3 posicao = 4 chi2 = 685 (CGGAAAA) k = 4 posicao = 9 chi2 = 338 (CGGAAAA)

Quorum = 60 987 motivos encontrados k = 1 posicao = 10 chi2 = 1087 (CGGAAAA) k = 2 posicao = 11 chi2 = 792 (CGGAAAA) k = 3 posicao = 10 chi2 = 637 (CGGAAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 62

k = 4 posicao = 27 chi2 = 333 (CGGAAAA)

Erro = 1 Quorum = 100

6085 motivos encontrados k = 1 posicao = 740 chi2 = 226 (CGGAAAA) k = 1 posicao = 244 chi2 = 442 (CGGAAGA) k = 1 posicao = 375 chi2 = 415 (CGGAGAA) k = 1 posicao = 795 chi2 = 205 (CGGATAA) k = 2 posicao = 1431 chi2 = 069 (CGGAAAA) k = 2 posicao = 350 chi2 = 257 (CGGAAGA) k = 2 posicao = 313 chi2 = 281 (CGGAGAA) k = 2 posicao = 403 chi2 = 257 (CGGATAA) k = 3 posicao = 2933 chi2 = 015 (CGGAAAA) k = 3 posicao = 543 chi2 = 161 (CGGAAGA) k = 3 posicao = 758 chi2 = 162 (CGGAGAA) k = 3 posicao = 334 chi2 = 242 (CGGATAA) k = 4 posicao = 3388 chi2 = 006 (CGGAAAA) k = 4 posicao = 944 chi2 = 088 (CGGAAGA) k = 4 posicao = 682 chi2 = 096 (CGGAGAA) k = 4 posicao = 448 chi2 = 157 (CGGATAA)

Quorum = 80 13578 motivos encontrados k = 1 posicao = 2782 chi2 = 211 (CGGAAAA) k = 1 posicao = 1309 chi2 = 443 (CGGAAGA) k = 1 posicao = 9793 chi2 = 0 (CGGAATA) k = 1 posicao = 1525 chi2 = 436 (CGGAGAA) k = 1 posicao = 1267 chi2 = 351 (CGGAGGA) k = 1 posicao = 2001 chi2 = 282 (CGGATAA) k = 1 posicao = 4454 chi2 = 055 (CGGATTA) k = 2 posicao = 4354 chi2 = 063 (CGGAAAA) k = 2 posicao = 1547 chi2 = 273 (CGGAAGA) k = 2 posicao = 7920 chi2 = 004 (CGGAATA) k = 2 posicao = 2260 chi2 = 262 (CGGAGAA) k = 2 posicao = 1049 chi2 = 271 (CGGAGGA) k = 2 posicao = 1502 chi2 = 271 (CGGATAA) k = 2 posicao = 3568 chi2 = 083 (CGGATTA) k = 3 posicao = 6889 chi2 = 02 (CGGAAAA) k = 3 posicao = 2122 chi2 = 16 (CGGAAGA) k = 3 posicao = 10332 chi2 = 01 (CGGAATA) k = 3 posicao = 2408 chi2 = 144 (CGGAGAA) k = 3 posicao = 1273 chi2 = 214 (CGGAGGA) k = 3 posicao = 1406 chi2 = 211 (CGGATAA) k = 3 posicao = 1203 chi2 = 189 (CGGATTA) k = 4 posicao = 8380 chi2 = 003 (CGGAAAA) k = 4 posicao = 4250 chi2 = 074 (CGGAAGA) k = 4 posicao = 12881 chi2 = 037 (CGGAATA) k = 4 posicao = 3392 chi2 = 088 (CGGAGAA) k = 4 posicao = 1278 chi2 = 162 (CGGAGGA) k = 4 posicao = 1930 chi2 = 148 (CGGATAA) k = 4 posicao = 1157 chi2 = 136 (CGGATTA)

Quorum = 75 13578 motivos encontrados k = 1 posicao = 2620 chi2 = 264 (CGGAAAA) k = 1 posicao = 1452 chi2 = 443 (CGGAAGA) k = 1 posicao = 8943 chi2 = 001 (CGGAATA) k = 1 posicao = 1121 chi2 = 446 (CGGAGAA) k = 1 posicao = 965 chi2 = 424 (CGGAGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 63

k = 1 posicao = 2453 chi2 = 246 (CGGATAA) k = 1 posicao = 3571 chi2 = 086 (CGGATTA) k = 2 posicao = 4690 chi2 = 069 (CGGAAAA) k = 2 posicao = 1475 chi2 = 255 (CGGAAGA) k = 2 posicao = 7150 chi2 = 01 (CGGAATA) k = 2 posicao = 1209 chi2 = 259 (CGGAGAA) k = 2 posicao = 837 chi2 = 274 (CGGAGGA) k = 2 posicao = 1900 chi2 = 268 (CGGATAA) k = 2 posicao = 3981 chi2 = 066 (CGGATTA) k = 3 posicao = 6549 chi2 = 022 (CGGAAAA) k = 3 posicao = 1447 chi2 = 191 (CGGAAGA) k = 3 posicao = 10656 chi2 = 018 (CGGAATA) k = 3 posicao = 2435 chi2 = 155 (CGGAGAA) k = 3 posicao = 1026 chi2 = 21 (CGGAGGA) k = 3 posicao = 1469 chi2 = 233 (CGGATAA) k = 3 posicao = 1202 chi2 = 189 (CGGATTA) k = 4 posicao = 11692 chi2 = 0 (CGGAAAA) k = 4 posicao = 3717 chi2 = 077 (CGGAAGA) k = 4 posicao = 10890 chi2 = 035 (CGGAATA) k = 4 posicao = 3482 chi2 = 087 (CGGAGAA) k = 4 posicao = 1187 chi2 = 168 (CGGAGGA) k = 4 posicao = 1746 chi2 = 148 (CGGATAA) k = 4 posicao = 1204 chi2 = 149 (CGGATTA)

Quorum = 60 25839 motivos encontrados k = 1 posicao = 5870 chi2 = 247 (CGGAAAA) k = 1 posicao = 4726 chi2 = 405 (CGGAAGA) k = 1 posicao = 18076 chi2 = 0 (CGGAATA) k = 1 posicao = 3940 chi2 = 388 (CGGAGAA) k = 1 posicao = 3424 chi2 = 384 (CGGAGGA) k = 1 posicao = 15679 chi2 = 005 (CGGAGTA) k = 1 posicao = 6177 chi2 = 245 (CGGATAA) k = 1 posicao = 15167 chi2 = 008 (CGGATGA) k = 1 posicao = 11165 chi2 = 059 (CGGATTA) k = 2 posicao = 11428 chi2 = 046 (CGGAAAA) k = 2 posicao = 4811 chi2 = 242 (CGGAAGA) k = 2 posicao = 16216 chi2 = 003 (CGGAATA) k = 2 posicao = 4128 chi2 = 226 (CGGAGAA) k = 2 posicao = 3005 chi2 = 278 (CGGAGGA) k = 2 posicao = 10245 chi2 = 04 (CGGAGTA) k = 2 posicao = 3437 chi2 = 3 (CGGATAA) k = 2 posicao = 10379 chi2 = 033 (CGGATGA) k = 2 posicao = 8888 chi2 = 072 (CGGATTA) k = 3 posicao = 13836 chi2 = 017 (CGGAAAA) k = 3 posicao = 4943 chi2 = 191 (CGGAAGA) k = 3 posicao = 20550 chi2 = 01 (CGGAATA) k = 3 posicao = 6774 chi2 = 155 (CGGAGAA) k = 3 posicao = 2524 chi2 = 222 (CGGAGGA) k = 3 posicao = 13828 chi2 = 01 (CGGAGTA) k = 3 posicao = 4859 chi2 = 197 (CGGATAA) k = 3 posicao = 9284 chi2 = 029 (CGGATGA) k = 3 posicao = 3146 chi2 = 179 (CGGATTA) k = 4 posicao = 17095 chi2 = 001 (CGGAAAA) k = 4 posicao = 7930 chi2 = 083 (CGGAAGA) k = 4 posicao = 24667 chi2 = 051 (CGGAATA) k = 4 posicao = 9042 chi2 = 083 (CGGAGAA) k = 4 posicao = 3884 chi2 = 147 (CGGAGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 64

k = 4 posicao = 13905 chi2 = 007 (CGGAGTA) k = 4 posicao = 4859 chi2 = 156 (CGGATAA) k = 4 posicao = 14606 chi2 = 005 (CGGATGA) k = 4 posicao = 3783 chi2 = 127 (CGGATTA)

8_1_PDR1

Motivo TCCGYGGA Frequecircncia 68 ~75 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

229 motivos encontrados Quorum = 80

416 motivos encontrados Quorum = 75

639 motivos encontrados k = 1 posicao = 2 chi2 = 96 (TCCGCGGA) k = 2 posicao = 2 chi2 = 941 (TCCGCGGA) k = 3 posicao = 2 chi2 = 915 (TCCGCGGA) k = 4 posicao = 2 chi2 = 674 (TCCGCGGA)

Quorum = 60 950 motivos encontrados k = 1 posicao = 4 chi2 = 937 (TCCGCGGA) k = 2 posicao = 3 chi2 = 933 (TCCGCGGA) k = 3 posicao = 3 chi2 = 926 (TCCGCGGA) k = 4 posicao = 3 chi2 = 686 (TCCGCGGA)

Erro = 1 Quorum = 100

6610 motivos encontrados k = 1 posicao = 8 chi2 = 1095 (TCCGCGGA) k = 1 posicao = 15 chi2 = 1007 (TCCGTGGA) k = 2 posicao = 8 chi2 = 1092 (TCCGCGGA) k = 2 posicao = 18 chi2 = 1039 (TCCGTGGA) k = 3 posicao = 11 chi2 = 907 (TCCGCGGA) k = 3 posicao = 9 chi2 = 881 (TCCGTGGA) k = 4 posicao = 18 chi2 = 517 (TCCGCGGA) k = 4 posicao = 8 chi2 = 759 (TCCGTGGA)

Quorum = 80 11058 motivos encontrados k = 1 posicao = 32 chi2 = 1126 (TCCGCGGA) k = 1 posicao = 48 chi2 = 1053 (TCCGTGGA) k = 2 posicao = 21 chi2 = 1053 (TCCGCGGA) k = 2 posicao = 19 chi2 = 1098 (TCCGTGGA) k = 3 posicao = 29 chi2 = 881 (TCCGCGGA) k = 3 posicao = 60 chi2 = 808 (TCCGTGGA) k = 4 posicao = 97 chi2 = 509 (TCCGCGGA) k = 4 posicao = 42 chi2 = 698 (TCCGTGGA)

Quorum = 75 16695 motivos encontrados k = 1 posicao = 92 chi2 = 1126 (TCCGCGGA) k = 1 posicao = 178 chi2 = 1026 (TCCGTGGA) k = 2 posicao = 70 chi2 = 1092 (TCCGCGGA) k = 2 posicao = 73 chi2 = 1069 (TCCGTGGA) k = 3 posicao = 64 chi2 = 983 (TCCGCGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 65

k = 3 posicao = 83 chi2 = 898 (TCCGTGGA) k = 4 posicao = 336 chi2 = 48 (TCCGCGGA) k = 4 posicao = 130 chi2 = 657 (TCCGTGGA)

Quorum = 60 25049 motivos encontrados k = 1 posicao = 220 chi2 = 1135 (TCCGCGGA) k = 1 posicao = 369 chi2 = 1004 (TCCGTGGA) k = 2 posicao = 83 chi2 = 1159 (TCCGCGGA) k = 2 posicao = 263 chi2 = 1045 (TCCGTGGA) k = 3 posicao = 134 chi2 = 883 (TCCGCGGA) k = 3 posicao = 206 chi2 = 857 (TCCGTGGA) k = 4 posicao = 580 chi2 = 488 (TCCGCGGA) k = 4 posicao = 213 chi2 = 67 (TCCGTGGA)

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

241 motivos encontrados Quorum = 80

423 motivos encontrados k = 1 posicao = 2 chi2 = 1237 (TCCGCGGA) k = 2 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 3 posicao = 2 chi2 = 1229 (TCCGCGGA) k = 4 posicao = 2 chi2 = 915 (TCCGCGGA)

Quorum = 75 667 motivos encontrados k = 1 posicao = 2 chi2 = 1237 (TCCGCGGA) k = 2 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 3 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 4 posicao = 2 chi2 = 909 (TCCGCGGA)

Quorum = 60 1024 motivos encontrados k = 1 posicao = 3 chi2 = 1233 (TCCGCGGA) k = 2 posicao = 4 chi2 = 124 (TCCGCGGA) k = 3 posicao = 3 chi2 = 1221 (TCCGCGGA) k = 4 posicao = 5 chi2 = 918 (TCCGCGGA)

Erro = 1 Quorum = 100

6897 motivos encontrados k = 1 posicao = 17 chi2 = 1115 (TCCGCGGA) k = 1 posicao = 24 chi2 = 1026 (TCCGTGGA) k = 2 posicao = 12 chi2 = 1174 (TCCGCGGA) k = 2 posicao = 10 chi2 = 1138 (TCCGTGGA) k = 3 posicao = 17 chi2 = 945 (TCCGCGGA) k = 3 posicao = 29 chi2 = 827 (TCCGTGGA) k = 4 posicao = 65 chi2 = 481 (TCCGCGGA) k = 4 posicao = 39 chi2 = 616 (TCCGTGGA)

Quorum = 80 11592 motivos encontrados k = 1 posicao = 69 chi2 = 1156 (TCCGCGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 66

k = 1 posicao = 117 chi2 = 1012 (TCCGTGGA) k = 2 posicao = 38 chi2 = 1177 (TCCGCGGA) k = 2 posicao = 69 chi2 = 1061 (TCCGTGGA) k = 3 posicao = 76 chi2 = 893 (TCCGCGGA) k = 3 posicao = 53 chi2 = 817 (TCCGTGGA) k = 4 posicao = 131 chi2 = 526 (TCCGCGGA) k = 4 posicao = 61 chi2 = 638 (TCCGTGGA)

Quorum = 75 17555 motivos encontrados k = 1 posicao = 210 chi2 = 1109 (TCCGCGGA) k = 1 posicao = 265 chi2 = 1061 (TCCGTGGA) k = 2 posicao = 78 chi2 = 115 (TCCGCGGA) k = 2 posicao = 102 chi2 = 1109 (TCCGTGGA) k = 3 posicao = 184 chi2 = 905 (TCCGCGGA) k = 3 posicao = 105 chi2 = 85 (TCCGTGGA) k = 4 posicao = 424 chi2 = 451 (TCCGCGGA) k = 4 posicao = 476 chi2 = 582 (TCCGTGGA)

Quorum = 60 26303 motivos encontrados k = 1 posicao = 433 chi2 = 1118 (TCCGCGGA) k = 1 posicao = 521 chi2 = 991 (TCCGTGGA) k = 2 posicao = 237 chi2 = 1064 (TCCGCGGA) k = 2 posicao = 322 chi2 = 1045 (TCCGTGGA) k = 3 posicao = 316 chi2 = 95 (TCCGCGGA) k = 3 posicao = 415 chi2 = 827 (TCCGTGGA) k = 4 posicao = 978 chi2 = 49 (TCCGCGGA) k = 4 posicao = 1277 chi2 = 616 (TCCGTGGA)

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

328 motivos encontrados Quorum = 80

685 motivos encontrados Quorum = 75

685 motivos encontrados Quorum = 60

1319 motivos encontrados k = 1 posicao = 4 chi2 = 411 (TCCGTGGA) k = 2 posicao = 2 chi2 = 421 (TCCGTGGA) k = 3 posicao = 2 chi2 = 407 (TCCGTGGA) k = 4 posicao = 3 chi2 = 354 (TCCGTGGA)

Erro = 1 Quorum = 100

9298 motivos encontrados k = 1 posicao = 95 chi2 = 631 (TCCGAGGA) k = 1 posicao = 63 chi2 = 675 (TCCGCGGA) k = 1 posicao = 75 chi2 = 678 (TCCGTGGA) k = 2 posicao = 51 chi2 = 61 (TCCGAGGA) k = 2 posicao = 25 chi2 = 745 (TCCGCGGA) k = 2 posicao = 22 chi2 = 718 (TCCGTGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 67

k = 3 posicao = 38 chi2 = 538 (TCCGAGGA) k = 3 posicao = 68 chi2 = 543 (TCCGCGGA) k = 3 posicao = 64 chi2 = 57 (TCCGTGGA) k = 4 posicao = 48 chi2 = 529 (TCCGAGGA) k = 4 posicao = 161 chi2 = 389 (TCCGCGGA) k = 4 posicao = 78 chi2 = 477 (TCCGTGGA)

Quorum = 80 18263 motivos encontrados k = 1 posicao = 551 chi2 = 592 (TCCGAGGA) k = 1 posicao = 147 chi2 = 754 (TCCGCGGA) k = 1 posicao = 282 chi2 = 647 (TCCGTGGA) k = 2 posicao = 296 chi2 = 605 (TCCGAGGA) k = 2 posicao = 143 chi2 = 715 (TCCGCGGA) k = 2 posicao = 182 chi2 = 681 (TCCGTGGA) k = 3 posicao = 589 chi2 = 511 (TCCGAGGA) k = 3 posicao = 347 chi2 = 553 (TCCGCGGA) k = 3 posicao = 245 chi2 = 59 (TCCGTGGA) k = 4 posicao = 429 chi2 = 462 (TCCGAGGA) k = 4 posicao = 944 chi2 = 401 (TCCGCGGA) k = 4 posicao = 577 chi2 = 41 (TCCGTGGA)

Quorum = 75 18263 motivos encontrados k = 1 posicao = 790 chi2 = 6 (TCCGAGGA) k = 1 posicao = 168 chi2 = 706 (TCCGCGGA) k = 1 posicao = 451 chi2 = 631 (TCCGTGGA) k = 2 posicao = 195 chi2 = 623 (TCCGAGGA) k = 2 posicao = 152 chi2 = 695 (TCCGCGGA) k = 2 posicao = 155 chi2 = 686 (TCCGTGGA) k = 3 posicao = 159 chi2 = 546 (TCCGAGGA) k = 3 posicao = 286 chi2 = 546 (TCCGCGGA) k = 3 posicao = 281 chi2 = 585 (TCCGTGGA) k = 4 posicao = 342 chi2 = 46 (TCCGAGGA) k = 4 posicao = 562 chi2 = 381 (TCCGCGGA) k = 4 posicao = 632 chi2 = 401 (TCCGTGGA)

Quorum = 60 35494 motivos encontrados k = 1 posicao = 1806 chi2 = 548 (TCCGAGGA) k = 1 posicao = 1580 chi2 = 65 (TCCGCGGA) k = 1 posicao = 1668 chi2 = 595 (TCCGTGGA) k = 2 posicao = 1224 chi2 = 592 (TCCGAGGA) k = 2 posicao = 794 chi2 = 701 (TCCGCGGA) k = 2 posicao = 991 chi2 = 658 (TCCGTGGA) k = 3 posicao = 1647 chi2 = 536 (TCCGAGGA) k = 3 posicao = 2029 chi2 = 546 (TCCGCGGA) k = 3 posicao = 1118 chi2 = 57 (TCCGTGGA) k = 4 posicao = 1549 chi2 = 502 (TCCGAGGA) k = 4 posicao = 2429 chi2 = 385 (TCCGCGGA) k = 4 posicao = 2813 chi2 = 429 (TCCGTGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 68

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 69

Anexo B Comparaccedilatildeo da Significacircncia Estatiacutestica referente agrave Abundacircncia obtida pelo

Meacutetodo de Shuffling e pelo Meacutetodo Analiacutetico

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos a comparaccedilatildeo entre o valor do chi2 obtido pelo meacutetodo de shuffling e o valor obtido pelo meacutetodo analiacutetico

Cada linha diz respeito a dados em que se conserva um determinado k-mer (k) Em cada uma eacute apresentado o valor do chi2 obtido pelo meacutetodo de shuffling (chi2) e a sua posiccedilatildeo relativa na lista de motivos ordenada por valores decrescentes de chi2 face ao nuacutemero de motivos extraiacutedos Os valores acima referidos tambeacutem satildeo apresentados para o meacutetodo analiacutetico (achi2)

10_2_YRR1 Motivo TTCCGTGGAA TTCCGCGGAT TTCCGCGGAA Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=488 (633 in 8908) achi2=476 (745 in 8908) [TTCCGCGGAA]

K=2 chi2=465 (468 in 8908) achi2=464 (509 in 8908) [TTCCGCGGAA]

K=3 chi2=412 (201 in 8908) achi2=413 (230 in 8908) [TTCCGCGGAA]

K=4 chi2=253 (223 in 8908) achi2=278 (205 in 8908) [TTCCGCGGAA]

K=5 chi2=126 (277 in 8912) achi2=143 (291 in 8912) [TTCCGCGGAA]

K=6 chi2=039 (323 in 8912) achi2=041 (1035 in 8912) [TTCCGCGGAA]

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 70

Error = 1

Quorum = 80

K=1 chi2=388 (428 in 17722) achi2=387 (504 in 17722) [ACCCTAAAGGT]

K=1 chi2=474 (246 in 17722) achi2=483 (265 in 17722) [ACCTTAAAGGT]

K=2 chi2=394 (222 in 17722) achi2=389 (248 in 17722) [ACCCTAAAGGT]

K=2 chi2=474 (111 in 17722) achi2=484 (119 in 17722) [ACCTTAAAGGT]

K=3 chi2=400 (51 in 17722) achi2=391 (61 in 17722) [ACCCTAAAGGT]

K=3 chi2=477 (12 in 17722) achi2=485 (14 in 17722) [ACCTTAAAGGT]

K=4 chi2=394 (28 in 17722) achi2=387 (31 in 17722) [ACCCTAAAGGT]

K=4 chi2=488 (4 in 17722) achi2=485 (4 in 17722) [ACCTTAAAGGT]

K=5 chi2=326 (24 in 17722) achi2=343 (29 in 17722) [ACCCTAAAGGT]

K=5 chi2=435 (7 in 17722) achi2=462 (3 in 17722) [ACCTTAAAGGT]

K=6 chi2=071 (387 in 17722) achi2=282 (276 in 17722) [ACCCTAAAGGT]

K=6 chi2=310 (2 in 17722) achi2=431 (259 in 17722) [ACCTTAAAGGT]

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=344 (91 in 1316) achi2=314 (116 in 1316) [CCCCT]

K=2 chi2=187 (183 in 1316) achi2=194 (178 in 1316) [CCCCT]

K=3 chi2=164 (138 in 1316) achi2=140 (190 in 1316) [CCCCT]

K=4 chi2=088 (186 in 1316) achi2=104 (150 in 1316) [CCCCT]

Error = 1

Quorum = 60

K=1 chi2=056 (18487 in 35258) achi2=082 (15627 in 35258) [CCCCT]

K=2 chi2=000 (34670 in 35258) achi2=000 (34292 in 35258) [CCCCT]

K=3 chi2=007 (27587 in 35258) achi2=011 (25832 in 35258) [CCCCT]

K=4 chi2=044 (14195 in 35258) achi2=044 (14486 in 35258) [CCCCT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 71

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=534 (66 in 826) achi2=523 (72 in 826) [CCCCT]

K=2 chi2=290 (76 in 826) achi2=297 (75 in 826) [CCCCT]

K=3 chi2=159 (97 in 826) achi2=152 (105 in 826) [CCCCT]

K=4 chi2=022 (242 in 826) achi2=007 (382 in 826) [CCCCT]

K=5 chi2=000 (360 in 826) achi2=000 (339 in 826) [CCCCT]

K=6 chi2=000 (331 in 826) achi2=000 (604 in 826) [CCCCT]

Error = 1

Quorum = 60

K=1 chi2=372 (2640 in 21544) achi2=462 (2153 in 21544) [CCCCT]

K=2 chi2=041 (10937 in 21544) achi2=070 (8620 in 21544) [CCCCT]

K=3 chi2=000 (20651 in 21544) achi2=000 (20723 in 21544) [CCCCT]

K=4 chi2=080 (4245 in 21544) achi2=083 (4322 in 21544) [CCCCT]

K=5 chi2=000 (19590 in 21562) achi2=000 (20653 in 21562) [CCCCT]

K=6 chi2=000 (16728 in 21562) achi2=000 (21282 in 21562) [CCCCT]

5_1_Gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=080 (3213 in 6121) achi2=079 (3260 in 6121) [CATCC]

K=1 chi2=1188 (320 in 6121) achi2=1158 (344 in 6121) [CTTCC]

K=2 chi2=180 (1552 in 6121) achi2=161 (1763 in 6121) [CATCC]

K=2 chi2=504 (498 in 6121) achi2=470 (566 in 6121) [CTTCC]

K=3 chi2=205 (809 in 6121) achi2=192 (906 in 6121) [CATCC]

K=3 chi2=102 (1713 in 6121) achi2=109 (1663 in 6121) [CTTCC]

K=4 chi2=097 (929 in 6121) achi2=091 (1091 in 6121) [CATCC]

K=4 chi2=001 (5090 in 6121) achi2=001 (5126 in 6121) [CTTCC]

K=5 chi2=000 (5948 in 6121) achi2=000 (5152 in 6121) [CATCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 72

K=5 chi2=000 (4578 in 6121) achi2=000 (5000 in 6121) [CTTCC]

K=6 chi2=000 (5634 in 6121) achi2=000 (5438 in 6121) [CATCC]

K=6 chi2=000 (2279 in 6121) achi2=000 (5149 in 6121) [CTTCC]

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 chi2=292 (2311 in 10819) achi2=273 (2534 in 10819) [GATAAG]

K=1 chi2=131 (4204 in 10819) achi2=102 (4875 in 10819) [GATTAG]

K=2 chi2=499 (766 in 10819) achi2=493 (849 in 10819) [GATAAG]

K=2 chi2=280 (1760 in 10819) achi2=268 (1952 in 10819) [GATTAG]

K=3 chi2=168 (2077 in 10819) achi2=174 (2107 in 10819) [GATAAG]

K=3 chi2=953 (62 in 10819) achi2=925 (81 in 10819) [GATTAG]

K=4 chi2=014 (6803 in 10819) achi2=009 (7567 in 10819) [GATAAG]

K=4 chi2=309 (394 in 10819) achi2=352 (328 in 10819) [GATTAG]

K=5 chi2=001 (8734 in 10819) achi2=003 (7728 in 10819) [GATAAG]

K=5 chi2=176 (429 in 10819) achi2=159 (773 in 10819) [GATTAG]

K=6 chi2=000 (9825 in 10819) achi2=000 (6602 in 10819) [GATAAG]

K=6 chi2=000 (7459 in 10819) achi2=000 (6760 in 10819) [GATTAG]

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

Error = 1

Quorum = 60

K=1 chi2=382 (3218 in 20531) achi2=555 (2348 in 20531) [CACCCA]

k=1 chi2=083 (9754 in 20531) achi2=102 (9117 in 20531) [CACCCG]

K=2 chi2=330 (2327 in 20531) achi2=368 (2233 in 20531) [CACCCA]

K=2 chi2=143 (5707 in 20531) achi2=117 (6956 in 20531) [CACCCG]

K=3 chi2=209 (2208 in 20531) achi2=223 (2249 in 20531) [CACCCA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 73

K=3 chi2=040 (9516 in 20531) achi2=023 (12243 in 20531) [CACCCG]

K=4 chi2=071 (4649 in 20531) achi2=105 (3457 in 20531) [CACCCA]

K=4 chi2=000 (19099 in 20531) achi2=002 (17523 in 20531) [CACCCG]

7_0_REB1 Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 chi2=549 (29 in 405) achi2=586 (33 in 405) [TTACCC]

K=2 chi2=688 (6 in 405) achi2=635 (12 in 405) [TTACCC]

K=3 chi2=706 (2 in 405) achi2=679 (2 in 405) [TTACCC]

K=4 chi2=373 (3 in 405) achi2=402 (3 in 405) [TTACCC]

K=5 chi2=034 (7 in 405) achi2=020 (8 in 405) [TTACCC]

K=6 chi2=000 (383 in 405) achi2=000 (232 in 405) [TTACCC]

Error = 1

Quorum = 80

K=1 chi2=133 (3134 in 10337) achi2=169 (2743 in 10337) [TTACCC]

K=2 chi2=302 (657 in 10337) achi2=267 (945 in 10337) [TTACCC]

K=3 chi2=409 (106 in 10337) achi2=394 (170 in 10337) [TTACCC]

K=4 chi2=082 (1439 in 10337) achi2=109 (1091 in 10337) [TTACCC]

K=5 chi2=002 (7204 in 10337) achi2=003 (6765 in 10337) [TTACCC]

K=6 chi2=000 (10150 in 10337) achi2=000 (6299 in 10337) [TTACCC]

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=626 (58 in 785) achi2=615 (64 in 785) [TGCCAAG]

K=2 chi2=610 (11 in 785) achi2=585 (14 in 785) [TGCCAAG]

K=3 chi2=561 (8 in 785) achi2=575 (6 in 785) [TGCCAAG]

K=4 chi2=399 (4 in 785) achi2=377 (6 in 785) [TGCCAAG]

K=5 chi2=184 (8 in 785) achi2=157 (10 in 785) [TGCCAAG]

K=6 chi2=054 (5 in 785) achi2=055 (255 in 785) [TGCCAAG]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 74

Error = 1

Quorum = 60

K=1 chi2=463 (1914 in 20257) achi2=458 (2166 in 20257) [TGCCAAG]

K=2 chi2=292 (1694 in 20257) achi2=287 (1959 in 20257) [TGCCAAG]

K=3 chi2=252 (1158 in 20257) achi2=270 (1060 in 20257) [TGCCAAG]

K=4 chi2=038 (8072 in 20257) achi2=030 (9306 in 20257) [TGCCAAG]

K=5 chi2=002 (15272 in 20366) achi2=004 (14013 in 20366) [TGCCAAG]

K=6 chi2=009 (5877 in 20366) achi2=029 (4589 in 20366) [TGCCAAG]

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

K=1 chi2=1035 (5 in 267) achi2=996 (6 in 267) [TGAAACA]

K=2 chi2=961 (1 in 267) achi2=905 (1 in 267) [TGAAACA]

K=3 chi2=934 (1 in 267) achi2=884 (1 in 267) [TGAAACA]

K=4 chi2=794 (1 in 267) achi2=731 (1 in 267) [TGAAACA]

K=5 chi2=264 (2 in 267) achi2=320 (1 in 267) [TGAAACA]

K=6 chi2=044 (3 in 267) achi2=052 (168 in 267) [TGAAACA]

Error = 1

Quorum = 100

K=1 chi2=448 (515 in 7705) achi2=400 (675 in 7705) [TGAAACA]

K=2 chi2=168 (1047 in 7705) achi2=157 (1246 in 7705) [TGAAACA]

K=3 chi2=159 (637 in 7705) achi2=128 (992 in 7705) [TGAAACA]

K=4 chi2=057 (1734 in 7705) achi2=026 (3100 in 7705) [TGAAACA]

K=5 chi2=015 (2574 in 7705) achi2=021 (2435 in 7705) [TGAAACA]

K=6 chi2=007 (1386 in 7705) achi2=006 (2114 in 7705) [TGAAACA]

7_1_SWI4

Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 75

Quorum = 100

K=1 chi2=927 (53 in 8974) achi2=950 (59 in 8974) [CACGAAA]

K=1 chi2=1447 (8 in 8974) achi2=1516 (9 in 8974) [CGCGAAA]

K=2 chi2=686 (17 in 8974) achi2=638 (22 in 8974) [CACGAAA]

K=2 chi2=940 (4 in 8974) achi2=924 (3 in 8974) [CGCGAAA]

K=3 chi2=456 (46 in 8974) achi2=436 (53 in 8974) [CACGAAA]

K=3 chi2=514 (20 in 8974) achi2=502 (25 in 8974) [CGCGAAA]

K=4 chi2=087 (1329 in 8974) achi2=106 (1095 in 8974) [CACGAAA]

K=4 chi2=343 (41 in 8974) achi2=390 (27 in 8974) [CGCGAAA]

K=5 chi2=012 (3730 in 8974) achi2=000 (7343 in 8974) [CACGAAA]

K=5 chi2=033 (1966 in 8974) achi2=121 (397 in 8974) [CGCGAAA]

K=6 chi2=007 (1861 in 8974) achi2=001 (3810 in 8974) [CACGAAA]

K=6 chi2=002 (3146 in 8974) achi2=044 (873 in 8974) [CGCGAAA]

7_2_RGT1

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=2092 (246 in 6085) achi2=2140 (236 in 6085) [CGGAAAA]

K=1 chi2=810 (799 in 6085) achi2=803 (815 in 6085) [CGGAAGA]

K=1 chi2=1437 (409 in 6085) achi2=1409 (416 in 6085) [CGGAGAA]

K=1 chi2=337 (1833 in 6085) achi2=350 (1782 in 6085) [CGGATAA]

K=2 chi2=837 (251 in 6085) achi2=840 (245 in 6085) [CGGAAAA]

K=2 chi2=451 (648 in 6085) achi2=442 (666 in 6085) [CGGAAGA]

K=2 chi2=989 (186 in 6085) achi2=937 (208 in 6085) [CGGAGAA]

K=2 chi2=432 (698 in 6085) achi2=428 (695 in 6085) [CGGATAA]

K=3 chi2=281 (367 in 6085) achi2=272 (385 in 6085) [CGGAAAA]

K=3 chi2=242 (473 in 6085) achi2=225 (546 in 6085) [CGGAAGA]

K=3 chi2=580 (76 in 6085) achi2=544 (89 in 6085) [CGGAGAA]

K=3 chi2=366 (216 in 6085) achi2=309 (299 in 6085) [CGGATAA]

K=4 chi2=013 (3127 in 6085) achi2=022 (2503 in 6085) [CGGAAAA]

K=4 chi2=039 (1619 in 6085) achi2=040 (1722 in 6085) [CGGAAGA]

K=4 chi2=320 (35 in 6085) achi2=304 (56 in 6085) [CGGAGAA]

K=4 chi2=193 (166 in 6085) achi2=202 (188 in 6085) [CGGATAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 76

8_1_PDR1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 75

K=1 chi2=901 (25 in 639) achi2=884 (27 in 639) [TCCGCGGA]

K=2 chi2=886 (13 in 639) achi2=883 (14 in 639) [TCCGCGGA]

K=3 chi2=862 (4 in 639) achi2=864 (5 in 639) [TCCGCGGA]

K=4 chi2=659 (2 in 639) achi2=741 (2 in 639) [TCCGCGGA]

K=5 chi2=252 (1 in 639) achi2=306 (1 in 639) [TCCGCGGA]

K=6 chi2=012 (5 in 639) achi2=030 (253 in 639) [TCCGCGGA]

Error = 1

Quorum = 75

K=1 chi2=1388 (184 in 16695) achi2=1370 (211 in 16695) [TCCGCGGA]

K=1 chi2=913 (373 in 16695) achi2=895 (419 in 16695) [TCCGTGGA]

K=2 chi2=1355 (68 in 16695) achi2=1355 (91 in 16695) [TCCGCGGA]

K=2 chi2=952 (199 in 16695) achi2=944 (230 in 16695) [TCCGTGGA]

K=3 chi2=1237 (5 in 16695) achi2=1138 (22 in 16695) [TCCGCGGA]

K=3 chi2=782 (88 in 16695) achi2=771 (119 in 16695) [TCCGTGGA]

K=4 chi2=570 (45 in 16695) achi2=688 (33 in 16695) [TCCGCGGA]

K=4 chi2=544 (53 in 16695) achi2=610 (56 in 16695) [TCCGTGGA]

K=5 chi2=061 (2230 in 16699) achi2=113 (1175 in 16699) [TCCGCGGA]

K=5 chi2=101 (981 in 16699) achi2=207 (328 in 16699) [TCCGTGGA]

K=6 chi2=001 (8600 in 16699) achi2=000 (10541 in 16699) [TCCGCGGA]

K=6 chi2=002 (7065 in 16699) achi2=003 (8326 in 16699) [TCCGTGGA]

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 chi2=995 (22 in 423) achi2=985 (24 in 423) [TCCGCGGA]

K=2 chi2=980 (13 in 423) achi2=985 (13 in 423) [TCCGCGGA]

K=3 chi2=989 (4 in 423) achi2=967 (4 in 423) [TCCGCGGA]

K=4 chi2=741 (1 in 423) achi2=802 (1 in 423) [TCCGCGGA]

K=5 chi2=220 (1 in 423) achi2=303 (1 in 423) [TCCGCGGA]

K=6 chi2=010 (1 in 423) achi2=027 (229 in 423) [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 77

Error = 1

Quorum = 80

K=1 chi2=1609 (169 in 11592) achi2=1592 (187 in 11592) [TCCGCGGA]

K=1 chi2=1090 (327 in 11592) achi2=1109 (353 in 11592) [TCCGTGGA]

K=2 chi2=1634 (63 in 11592) achi2=1584 (97 in 11592) [TCCGCGGA]

K=2 chi2=1148 (174 in 11592) achi2=1142 (197 in 11592) [TCCGTGGA]

K=3 chi2=1333 (20 in 11592) achi2=1364 (24 in 11592) [TCCGCGGA]

K=3 chi2=878 (91 in 11592) achi2=894 (109 in 11592) [TCCGTGGA]

K=4 chi2=784 (26 in 11592) achi2=785 (35 in 11592) [TCCGCGGA]

K=4 chi2=632 (50 in 11592) achi2=689 (52 in 11592) [TCCGTGGA]

K=5 chi2=072 (1370 in 11601) achi2=127 (778 in 11601) [TCCGCGGA]

K=5 chi2=100 (878 in 11601) achi2=146 (618 in 11601) [TCCGTGGA]

K=6 chi2=000 (7969 in 11601) achi2=001 (5475 in 11601) [TCCGCGGA]

K=6 chi2=001 (4626 in 11601) achi2=004 (4674 in 11601) [TCCGTGGA]

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=285 (128 in 1319) achi2=287 (133 in 1319) [TCCGTGGA]

K=2 chi2=294 (89 in 1319) achi2=289 (95 in 1319) [TCCGTGGA]

K=3 chi2=283 (10 in 1319) achi2=278 (15 in 1319) [TCCGTGGA]

K=4 chi2=240 (7 in 1319) achi2=255 (6 in 1319) [TCCGTGGA]

K=5 chi2=122 (16 in 1319) achi2=206 (5 in 1319) [TCCGTGGA]

K=6 chi2=015 (42 in 1319) achi2=084 (269 in 1319) [TCCGTGGA]

Error = 1

Quorum = 60

K=1 chi2=336 (1859 in 35494) achi2=391 (1312 in 35494) [TCCGAGGA]

K=1 chi2=612 (489 in 35494) achi2=660 (442 in 35494) [TCCGCGGA]

K=1 chi2=368 (1518 in 35494) achi2=402 (1240 in 35494) [TCCGTGGA]

K=2 chi2=363 (946 in 35494) achi2=379 (816 in 35494) [TCCGAGGA]

K=2 chi2=636 (218 in 35494) achi2=640 (206 in 35494) [TCCGCGGA]

K=2 chi2=416 (670 in 35494) achi2=428 (599 in 35494) [TCCGTGGA]

K=3 chi2=301 (498 in 35494) achi2=304 (471 in 35494) [TCCGAGGA]

K=3 chi2=515 (41 in 35494) achi2=480 (63 in 35494) [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 78

K=3 chi2=341 (278 in 35494) achi2=329 (327 in 35494) [TCCGTGGA]

K=4 chi2=285 (274 in 35494) achi2=295 (205 in 35494) [TCCGAGGA]

K=4 chi2=300 (198 in 35494) achi2=337 (85 in 35494) [TCCGCGGA]

K=4 chi2=217 (1082 in 35494) achi2=219 (1060 in 35494) [TCCGTGGA]

K=5 chi2=075 (6352 in 35725) achi2=087 (6044 in 35725) [TCCGAGGA]

K=5 chi2=079 (5926 in 35725) achi2=153 (2215 in 35725) [TCCGCGGA]

K=5 chi2=081 (5763 in 35725) achi2=080 (6754 in 35725) [TCCGTGGA]

K=6 chi2=003 (19985 in 35725) achi2=010 (17420 in 35725) [TCCGAGGA]

K=6 chi2=026 (6383 in 35725) achi2=053 (6615 in 35725) [TCCGCGGA]

K=6 chi2=011 (11922 in 35725) achi2=000 (30343 in 35725) [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 79

Anexo C Resultados do Caacutelculo da Significacircncia Estatiacutestica referente agrave Abundacircncia

pelo Meacutetodo Analiacutetico para Conjuntos de Dados de Saccharomyces cerevisiae

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados

A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos os resultados para os motivos procurados em relaccedilatildeo a cada valor dos paracircmetros

Descriccedilatildeo do formato dos resultados

K=ltk-mer conservadogt achi2 = ltchi2 analiacuteticogt (ltposiccedilatildeogt in ltnuacutemero de motivos extraiacutedosgt ltposiccedilatildeo entre motivos do mesmo tamanhogt [motivo]

Nota A posiccedilatildeo do motivo refere-se agrave ordem em que se encontra numa lista ordenada por ordem decrescente de chi2 analiacutetico dos motivos extraiacutedos

10_2_YRR1 Motivo TTCCGTGGAA TTCCGCGGAT TTCCGCGGAA Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=476 (745 in 8908) 13 [TTCCGCGGAA]

K=2 achi2=464 (509 in 8908) 12 [TTCCGCGGAA]

K=3 achi2=413 (230 in 8908) 11 [TTCCGCGGAA]

K=4 achi2=278 (205 in 8908) 10 [TTCCGCGGAA]

K=5 achi2=143 (287 in 8908) 12 [TTCCGCGGAA]

K=6 achi2=041 (1031 in 8908) 15 [TTCCGCGGAA]

K=7 achi2=000 (2230 in 8908) 16 [TTCCGCGGAA]

K=8 achi2=001 (4728 in 8908) 16 [TTCCGCGGAA]

K=9 achi2=001 (7926 in 8908) 16 [TTCCGCGGAA]

K=10 achi2=000 (8782 in 8908) 16 [TTCCGCGGAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 80

K=11 achi2=000 (8903 in 8908) 12 [TTCCGCGGAA]

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 achi2=387 (504 in 17722) 3 [ACCCTAAAGGT]

K=1 achi2=483 (265 in 17722) 2 [ACCTTAAAGGT]

K=2 achi2=389 (248 in 17722) 3 [ACCCTAAAGGT]

K=2 achi2=484 (119 in 17722) 2 [ACCTTAAAGGT]

K=3 achi2=391 (61 in 17722) 3 [ACCCTAAAGGT]

K=3 achi2=485 (14 in 17722) 2 [ACCTTAAAGGT]

K=4 achi2=387 (31 in 17722) 4 [ACCCTAAAGGT]

K=4 achi2=485 (4 in 17722) 2 [ACCTTAAAGGT]

K=5 achi2=343 (29 in 17722) 4 [ACCCTAAAGGT]

K=5 achi2=462 (3 in 17722) 2 [ACCTTAAAGGT]

K=6 achi2=282 (276 in 17722) 4 [ACCCTAAAGGT]

K=6 achi2=431 (259 in 17722) 2 [ACCTTAAAGGT]

K=7 achi2=063 (1455 in 17722) 4 [ACCCTAAAGGT]

K=7 achi2=197 (1286 in 17722) 3 [ACCTTAAAGGT]

K=8 achi2=004 (5422 in 17722) 3 [ACCCTAAAGGT]

K=8 achi2=005 (5392 in 17722) 1 [ACCTTAAAGGT]

K=9 achi2=000 (13376 in 17722) 3 [ACCCTAAAGGT]

K=9 achi2=005 (13364 in 17722) 1 [ACCTTAAAGGT]

K=10 achi2=000 (17186 in 17722) 3 [ACCCTAAAGGT]

K=10 achi2=000 (17184 in 17722) 1 [ACCTTAAAGGT]

K=11 achi2=000 (17688 in 17722) 3 [ACCCTAAAGGT]

K=11 achi2=000 (17686 in 17722) 1 [ACCTTAAAGGT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 81

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=523 (72 in 826) 21 [CCCCT]

K=2 achi2=297 (75 in 826) 23 [CCCCT]

K=3 achi2=152 (105 in 826) 55 [CCCCT]

K=4 achi2=007 (382 in 826) 310 [CCCCT]

K=5 achi2=000 (339 in 826) 245 [CCCCT]

K=6 achi2=000 (604 in 826) 255 [CCCCT]

Error = 1

Quorum = 60

K=1 achi2=462 (2153 in 21544) 223 [CCCCT]

K=2 achi2=070 (8620 in 21544) 476 [CCCCT]

K=3 achi2=000 (20723 in 21544) 986 [CCCCT]

K=4 achi2=083 (4322 in 21544) 81 [CCCCT]

K=5 achi2=000 (20635 in 21544) 618 [CCCCT]

K=6 achi2=000 (21264 in 21544) 744 [CCCCT]

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=314 (116 in 1316) 27 [CCCCT]

K=2 achi2=194 (178 in 1316) 39 [CCCCT]

K=3 achi2=140 (190 in 1316) 42 [CCCCT]

K=4 achi2=104 (150 in 1316) 19 [CCCCT]

K=5 achi2=000 (576 in 1316) 111 [CCCCT]

K=6 achi2=000 (1113 in 1316) 392 [CCCCT]

K=7 achi2=901 (324 in 1316) 94 [CCCCT]

K=8 achi2=901 (340 in 1316) 94 [CCCCT]

K=9 achi2=901 (341 in 1316) 94 [CCCCT]

K=10 achi2=901 (342 in 1316) 94 [CCCCT]

K=11 achi2=901 (343 in 1316) 94 [CCCCT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 82

Error = 1

Quorum = 60

K=1 achi2=082 (15627 in 35258) 568 [CCCCT]

K=2 achi2=000 (34292 in 35258) 986 [CCCCT]

K=3 achi2=011 (25832 in 35258) 671 [CCCCT]

K=4 achi2=044 (14486 in 35258) 144 [CCCCT]

K=5 achi2=000 (34387 in 35258) 626 [CCCCT]

K=6 achi2=000 (34560 in 35258) 326 [CCCCT]

5_1_Gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=079 (3260 in 6121) 599 [CATCC]

K=1 achi2=1158 (344 in 6121) 50 [CTTCC]

K=2 achi2=161 (1763 in 6121) 312 [CATCC]

K=2 achi2=470 (566 in 6121) 105 [CTTCC]

K=3 achi2=192 (906 in 6121) 128 [CATCC]

K=3 achi2=109 (1663 in 6121) 248 [CTTCC]

K=4 achi2=091 (1091 in 6121) 97 [CATCC]

K=4 achi2=001 (5126 in 6121) 870 [CTTCC]

K=5 achi2=000 (5152 in 6121) 372 [CATCC]

K=5 achi2=000 (5000 in 6121) 230 [CTTCC]

K=6 achi2=000 (5438 in 6121) 341 [CATCC]

K=6 achi2=000 (5149 in 6121) 52 [CTTCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 83

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 achi2=273 (2534 in 10819) 831 [GATAAG]

K=1 achi2=102 (4875 in 10819) 1698 [GATTAG]

K=2 achi2=493 (849 in 10819) 251 [GATAAG]

K=2 achi2=268 (1952 in 10819) 593 [GATTAG]

K=3 achi2=174 (2107 in 10819) 675 [GATAAG]

K=3 achi2=925 (81 in 10819) 12 [GATTAG]

K=4 achi2=009 (7567 in 10819) 2712 [GATAAG]

K=4 achi2=352 (328 in 10819) 59 [GATTAG]

K=5 achi2=003 (7728 in 10819) 3046 [GATAAG]

K=5 achi2=159 (773 in 10819) 110 [GATTAG]

K=6 achi2=000 (6602 in 10819) 761 [GATAAG]

K=6 achi2=000 (6760 in 10819) 917 [GATTAG]

K=7 achi2=000 (10606 in 10819) 3684 [GATAAG]

K=7 achi2=000 (8570 in 10819) 1648 [GATTAG]

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

Error = 1

Quorum = 60

K=1 achi2=555 (2348 in 20531) 456 [CACCCA]

K=1 achi2=102 (9117 in 20531) 2005 [CACCCG]

K=2 achi2=368 (2233 in 20531) 460 [CACCCA]

K=2 achi2=117 (6956 in 20531) 1498 [CACCCG]

K=3 achi2=223 (2249 in 20531) 392 [CACCCA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 84

K=3 achi2=023 (12243 in 20531) 2397 [CACCCG]

K=4 achi2=105 (3457 in 20531) 482 [CACCCA]

K=4 achi2=002 (17523 in 20531) 3457 [CACCCG]

K=5 achi2=006 (13001 in 20531) 2409 [CACCCA]

K=5 achi2=048 (5016 in 20531) 610 [CACCCG]

K=6 achi2=000 (17016 in 20531) 1751 [CACCCA]

K=6 achi2=000 (18636 in 20531) 3343 [CACCCG]

K=7 achi2=000 (17654 in 20531) 1218 [CACCCA]

K=7 achi2=000 (18327 in 20531) 1891 [CACCCG]

7_0_REB1 Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 achi2=586 (33 in 405) 5 [TTACCC]

K=2 achi2=635 (12 in 405) 1 [TTACCC]

K=3 achi2=679 (2 in 405) 1 [TTACCC]

K=4 achi2=402 (3 in 405) 2 [TTACCC]

K=5 achi2=020 (8 in 405) 7 [TTACCC]

K=6 achi2=000 (232 in 405) 8 [TTACCC]

K=7 achi2=000 (402 in 405) 8 [TTACCC]

Error = 1

Quorum = 80

K=1 achi2=169 (2742 in 10337) 933 [TTACCC]

K=2 achi2=267 (945 in 10337) 284 [TTACCC]

K=3 achi2=394 (170 in 10337) 25 [TTACCC]

K=4 achi2=109 (1091 in 10337) 246 [TTACCC]

K=5 achi2=003 (6765 in 10337) 2619 [TTACCC]

K=6 achi2=000 (6295 in 10337) 852 [TTACCC]

K=7 achi2=000 (9863 in 10337) 3333 [TTACCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 85

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=615 (64 in 785) 12 [TGCCAAG]

K=2 achi2=585 (14 in 785) 3 [TGCCAAG]

K=3 achi2=575 (6 in 785) 2 [TGCCAAG]

K=4 achi2=377 (6 in 785) 2 [TGCCAAG]

K=5 achi2=157 (10 in 785) 5 [TGCCAAG]

K=6 achi2=055 (255 in 785) 4 [TGCCAAG]

K=7 achi2=000 (652 in 785) 18 [TGCCAAG]

K=8 achi2=000 (771 in 785) 15 [TGCCAAG]

Error = 1

Quorum = 60

K=1 achi2=458 (2166 in 20257) 407 [TGCCAAG]

K=2 achi2=287 (1959 in 20257) 462 [TGCCAAG]

K=3 achi2=270 (1060 in 20257) 241 [TGCCAAG]

K=4 achi2=030 (9306 in 20257) 3695 [TGCCAAG]

K=5 achi2=004 (13915 in 20257) 6353 [TGCCAAG]

K=6 achi2=029 (4512 in 20257) 1713 [TGCCAAG]

K=7 achi2=003 (5275 in 20257) 36 [TGCCAAG]

K=8 achi2=000 (12401 in 20257) 1099 [TGCCAAG]

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

K=1 achi2=996 (6 in 267) 1 [TGAAACA]

K=2 achi2=905 (1 in 267) 1 [TGAAACA]

K=3 achi2=884 (1 in 267) 1 [TGAAACA]

K=4 achi2=731 (1 in 267) 1 [TGAAACA]

K=5 achi2=320 (1 in 267) 1 [TGAAACA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 86

K=6 achi2=052 (168 in 267) 2 [TGAAACA]

K=7 achi2=000 (254 in 267) 1 [TGAAACA]

K=8 achi2=000 (266 in 267) 2 [TGAAACA]

Error = 1

Quorum = 100

K=1 achi2=400 (675 in 7705) 162 [TGAAACA]

K=2 achi2=157 (1246 in 7705) 402 [TGAAACA]

K=3 achi2=128 (992 in 7705) 375 [TGAAACA]

K=4 achi2=026 (3100 in 7705) 1267 [TGAAACA]

K=5 achi2=021 (2435 in 7705) 1154 [TGAAACA]

K=6 achi2=006 (2114 in 7705) 1435 [TGAAACA]

K=7 achi2=000 (2095 in 7705) 260 [TGAAACA]

K=8 achi2=000 (6802 in 7705) 1861 [TGAAACA]

7_1_SWI4 Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=950 (59 in 8974) 15 [CACGAAA]

K=1 achi2=1516 (9 in 8974) 2 [CGCGAAA]

K=2 achi2=638 (22 in 8974) 7 [CACGAAA]

K=2 achi2=924 (3 in 8974) 1 [CGCGAAA]

K=3 achi2=436 (53 in 8974) 25 [CACGAAA]

K=3 achi2=502 (25 in 8974) 10 [CGCGAAA]

K=4 achi2=106 (1095 in 8974) 476 [CACGAAA]

K=4 achi2=390 (27 in 8974) 9 [CGCGAAA]

K=5 achi2=000 (7343 in 8974) 3297 [CACGAAA]

K=5 achi2=121 (397 in 8974) 176 [CGCGAAA]

K=6 achi2=001 (3810 in 8974) 2702 [CACGAAA]

K=6 achi2=044 (873 in 8974) 314 [CGCGAAA]

K=7 achi2=000 (2384 in 8974) 205 [CACGAAA]

K=7 achi2=000 (2371 in 8974) 194 [CGCGAAA]

K=8 achi2=000 (8531 in 8974) 3025 [CACGAAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 87

K=8 achi2=000 (5630 in 8974) 124 [CGCGAAA]

7_2_RGT1

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=2140 (236 in 6085) 74 [CGGAAAA]

K=1 achi2=803 (815 in 6085) 253 [CGGAAGA]

K=1 achi2=1409 (416 in 6085) 129 [CGGAGAA]

K=1 achi2=350 (1782 in 6085) 511 [CGGATAA]

K=2 achi2=840 (245 in 6085) 67 [CGGAAAA]

K=2 achi2=442 (666 in 6085) 169 [CGGAAGA]

K=2 achi2=937 (208 in 6085) 55 [CGGAGAA]

K=2 achi2=428 (695 in 6085) 175 [CGGATAA]

K=3 achi2=272 (385 in 6085) 126 [CGGAAAA]

K=3 achi2=225 (546 in 6085) 173 [CGGAAGA]

K=3 achi2=544 (89 in 6085) 28 [CGGAGAA]

K=3 achi2=309 (299 in 6085) 100 [CGGATAA]

K=4 achi2=022 (2503 in 6085) 821 [CGGAAAA]

K=4 achi2=040 (1722 in 6085) 598 [CGGAAGA]

K=4 achi2=304 (56 in 6085) 23 [CGGAGAA]

K=4 achi2=202 (188 in 6085) 81 [CGGATAA]

K=5 achi2=003 (3495 in 6085) 1206 [CGGAAAA]

K=5 achi2=019 (1882 in 6085) 749 [CGGAAGA]

K=5 achi2=238 (34 in 6085) 12 [CGGAGAA]

K=5 achi2=138 (154 in 6085) 74 [CGGATAA]

K=6 achi2=009 (1192 in 6085) 744 [CGGAAAA]

K=6 achi2=031 (682 in 6085) 300 [CGGAAGA]

K=6 achi2=057 (459 in 6085) 122 [CGGAGAA]

K=6 achi2=042 (550 in 6085) 191 [CGGATAA]

K=7 achi2=000 (1608 in 6085) 53 [CGGAAAA]

K=7 achi2=000 (2439 in 6085) 861 [CGGAAGA]

K=7 achi2=000 (2150 in 6085) 572 [CGGAGAA]

K=7 achi2=000 (2472 in 6085) 894 [CGGATAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 88

K=8 achi2=000 (6056 in 6085) 1512 [CGGAAAA]

K=8 achi2=000 (5728 in 6085) 1184 [CGGAAGA]

K=8 achi2=000 (5127 in 6085) 583 [CGGAGAA]

K=8 achi2=000 (5961 in 6085) 1417 [CGGATAA]

8_1_PDR1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 75

K=1 achi2=884 (27 in 639) 1 [TCCGCGGA]

K=2 achi2=883 (14 in 639) 1 [TCCGCGGA]

K=3 achi2=864 (5 in 639) 1 [TCCGCGGA]

K=4 achi2=741 (2 in 639) 1 [TCCGCGGA]

K=5 achi2=306 (1 in 639) 1 [TCCGCGGA]

K=6 achi2=030 (253 in 639) 1 [TCCGCGGA]

K=7 achi2=012 (587 in 639) 1 [TCCGCGGA]

K=8 achi2=000 (633 in 639) 1 [TCCGCGGA]

K=9 achi2=000 (639 in 639) 1 [TCCGCGGA]

Error = 1

Quorum = 75

K=1 achi2=1370 (211 in 16695) 48 [TCCGCGGA]

K=1 achi2=895 (419 in 16695) 111 [TCCGTGGA]

K=2 achi2=1355 (91 in 16695) 26 [TCCGCGGA]

K=2 achi2=944 (230 in 16695) 59 [TCCGTGGA]

K=3 achi2=1138 (22 in 16695) 13 [TCCGCGGA]

K=3 achi2=771 (119 in 16695) 39 [TCCGTGGA]

K=4 achi2=688 (33 in 16695) 9 [TCCGCGGA]

K=4 achi2=610 (56 in 16695) 18 [TCCGTGGA]

K=5 achi2=113 (1171 in 16695) 496 [TCCGCGGA]

K=5 achi2=207 (324 in 16695) 135 [TCCGTGGA]

K=6 achi2=000 (10537 in 16695) 2237 [TCCGCGGA]

K=6 achi2=003 (8322 in 16695) 1955 [TCCGTGGA]

K=7 achi2=000 (4060 in 16695) 2312 [TCCGCGGA]

K=7 achi2=000 (4066 in 16695) 2318 [TCCGTGGA]

K=8 achi2=000 (5835 in 16695) 174 [TCCGCGGA]

K=8 achi2=000 (6050 in 16695) 389 [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 89

K=9 achi2=000 (15679 in 16695) 1375 [TCCGCGGA]

K=9 achi2=000 (14892 in 16695) 588 [TCCGTGGA]

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 achi2=985 (24 in 423) 1 [TCCGCGGA]

K=2 achi2=985 (13 in 423) 1 [TCCGCGGA]

K=3 achi2=967 (4 in 423) 1 [TCCGCGGA]

K=4 achi2=802 (1 in 423) 1 [TCCGCGGA]

K=5 achi2=303 (1 in 423) 1 [TCCGCGGA]

K=6 achi2=027 (229 in 423) 1 [TCCGCGGA]

K=7 achi2=013 (401 in 423) 1 [TCCGCGGA]

K=8 achi2=000 (420 in 423) 1 [TCCGCGGA]

K=9 achi2=000 (423 in 423) 1 [TCCGCGGA]

Error = 1

Quorum = 80

K=1 achi2=1592 (187 in 11592) 35 [TCCGCGGA]

K=1 achi2=1109 (353 in 11592) 83 [TCCGTGGA]

K=2 achi2=1584 (97 in 11592) 25 [TCCGCGGA]

K=2 achi2=1142 (197 in 11592) 44 [TCCGTGGA]

K=3 achi2=1364 (24 in 11592) 9 [TCCGCGGA]

K=3 achi2=894 (109 in 11592) 35 [TCCGTGGA]

K=4 achi2=785 (35 in 11592) 11 [TCCGCGGA]

K=4 achi2=689 (52 in 11592) 16 [TCCGTGGA]

K=5 achi2=127 (769 in 11592) 243 [TCCGCGGA]

K=5 achi2=146 (609 in 11592) 204 [TCCGTGGA]

K=6 achi2=001 (5466 in 11592) 879 [TCCGCGGA]

K=6 achi2=004 (4665 in 11592) 789 [TCCGTGGA]

K=7 achi2=000 (2570 in 11592) 968 [TCCGCGGA]

K=7 achi2=000 (2517 in 11592) 941 [TCCGTGGA]

K=8 achi2=000 (5547 in 11592) 157 [TCCGCGGA]

K=8 achi2=000 (5666 in 11592) 276 [TCCGTGGA]

K=9 achi2=000 (10744 in 11592) 135 [TCCGCGGA]

K=9 achi2=000 (11041 in 11592) 432 [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 90

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=287 (133 in 1319) 8 [TCCGTGGA]

K=2 achi2=289 (95 in 1319) 5 [TCCGTGGA]

K=3 achi2=278 (15 in 1319) 2 [TCCGTGGA]

K=4 achi2=255 (6 in 1319) 1 [TCCGTGGA]

K=5 achi2=206 (5 in 1319) 2 [TCCGTGGA]

K=6 achi2=084 (269 in 1319) 7 [TCCGTGGA]

K=7 achi2=000 (897 in 1319) 17 [TCCGTGGA]

K=8 achi2=000 (1232 in 1319) 8 [TCCGTGGA]

K=9 achi2=000 (1303 in 1319) 1 [TCCGTGGA]

Error = 1

Quorum = 60

K=1 achi2=391 (1312 in 35494) 312 [TCCGAGGA]

K=1 achi2=660 (442 in 35494) 89 [TCCGCGGA]

K=1 achi2=402 (1240 in 35494) 301 [TCCGTGGA]

K=2 achi2=379 (816 in 35494) 174 [TCCGAGGA]

K=2 achi2=640 (206 in 35494) 48 [TCCGCGGA]

K=2 achi2=428 (599 in 35494) 123 [TCCGTGGA]

K=3 achi2=304 (471 in 35494) 120 [TCCGAGGA]

K=3 achi2=480 (63 in 35494) 10 [TCCGCGGA]

K=3 achi2=329 (327 in 35494) 87 [TCCGTGGA]

K=4 achi2=295 (205 in 35494) 61 [TCCGAGGA]

K=4 achi2=337 (85 in 35494) 28 [TCCGCGGA]

K=4 achi2=219 (1060 in 35494) 257 [TCCGTGGA]

K=5 achi2=087 (5828 in 35494) 2082 [TCCGAGGA]

K=5 achi2=153 (2062 in 35494) 521 [TCCGCGGA]

K=5 achi2=080 (6534 in 35494) 2399 [TCCGTGGA]

K=6 achi2=010 (17189 in 35494) 7240 [TCCGAGGA]

K=6 achi2=053 (6392 in 35494) 2378 [TCCGCGGA]

K=6 achi2=000 (30112 in 35494) 12027 [TCCGTGGA]

K=7 achi2=006 (9736 in 35494) 4698 [TCCGAGGA]

K=7 achi2=006 (10113 in 35494) 5025 [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 91

K=7 achi2=000 (17876 in 35494) 11124 [TCCGTGGA]

K=8 achi2=000 (12067 in 35494) 1424 [TCCGAGGA]

K=8 achi2=000 (11172 in 35494) 529 [TCCGCGGA]

K=8 achi2=000 (11688 in 35494) 1045 [TCCGTGGA]

K=9 achi2=000 (31497 in 35494) 8200 [TCCGAGGA]

K=9 achi2=000 (25674 in 35494) 2377 [TCCGCGGA]

K=9 achi2=000 (29818 in 35494) 6521 [TCCGTGGA]

Page 3: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes iii

1 Introduccedilatildeo 1

2 Descriccedilatildeo do Problema 3

3 Extracccedilatildeo de Motivos 7

31 Algoritmo SMILE 7

32 Gerador de Dados Sinteacuteticos 11

4 Anaacutelise Estatiacutestica 13

41 Teste do 2 13

42 Meacutetodo de Shuffling 15

43 Meacutetodo Analiacutetico 19

5 Geraccedilatildeo de Coacutedigo IUPAC 23

6 Resultados e Conclusotildees 31

61 Resultados Obtidos com Dados Sinteacuteticos 31

62 Resultados Obtidos com Dados Reais 38

63 Conclusotildees 46

7 Referecircncias 47

Anexo A - Resultados do Caacutelculo da Significacircncia Estatiacutestica referente ao Quoacuterum para Conjuntos de Dados de Saccharomyces cerevisiae 49

Anexo B - Comparaccedilatildeo da Significacircncia Estatiacutestica referente agrave Abundacircncia obtida pelo Meacutetodo de Shuffling e pelo Meacutetodo Analiacutetico 69

Anexo C - Resultados do Caacutelculo da Significacircncia Estatiacutestica referente agrave Abundacircncia pelo Meacutetodo Analiacutetico para Conjuntos de Dados de Saccharomyces cerevisiae 79

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes iv

Lista de Siglas

DNA (ou ADN) - aacutecido desoxirribonucleico

IUPAC - International Union for Pure and Applied Chemistry designa neste trabalho o

coacutedigo de sequecircncias degeneradas de bases nucleicas estabelecido por esta organizaccedilatildeo

RNA (ou ARN) - aacutecido ribonucleico

SMILE - Structured Motif Inference and Evaluation

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes v

Lista de Figuras

Figura 21 Representaccedilatildeo de cadeias de DNA em forma de dupla heacutelice 3

Figura 22 Expressatildeo geacutenica em eucariotas (A) e procariotas (B) 4

Figura 23 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em procariotas 5

Figura 24 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em eucariotas 5

Figura 31 Exemplo de uma especificaccedilatildeo de um modelo estruturado 8

Figura 32

(a) Exemplo de especificaccedilatildeo (b) Modelo retirado de uma sequecircncia que cumpre a especificaccedilatildeo 8

Figura 33

Aacutervore de sufixos generalizada para as sequecircncias TACTA$ (sequecircncia 1) e CACTCA$ (sequecircncia 2) 9

Figura 34 Esquema da procura de motivos estruturados usando uma aacutervore de sufixos 10

Figura 35 Exemplo de um ficheiro de especificaccedilatildeo para a geraccedilatildeo de dados sinteacuteticos 11

Figura 41

Multi-grafo gerado pela sequecircncia ATTATTTATT para k=4 com 2 passeios aleatoacuterios 16

Figura 42

Histograma das ocorrecircncias observadas do motivo TTTTAA em 100 simulaccedilotildees de shuffling do conjunto de dados da H pylori 17

Figura 43

Graacutefico da evoluccedilatildeo da significacircncia estatiacutestica com o aumento do valor de k para um motivo de tamanho 8 extraiacutedo do conjunto de dados da H pylori 18

Figura 44 Conjunto de dados exemplo 19

Figura 45 Exemplo de uma cadeia de Markov para k=3 20

Figura 51 Representaccedilatildeo das sequecircncias ATA (1) e TTA (2) 26

Figura 52 Representaccedilatildeo da cobertura WTA (1) 27

Figura 53 Interface para geraccedilatildeo de coacutedigo IUPAC integrada na Dbyeast 29

Figura 61 Significacircncia estatiacutestica para motivos simples de tamanho 6 32

Figura 62 Significacircncia estatiacutestica para motivos simples de tamanho 7 32

Figura 63 Significacircncia estatiacutestica para modelos estruturados em dados sinteacuteticos 34

Figura 64

Significacircncia estatiacutestica de motivos simples de tamanho 6 usando o meacutetodo analiacutetico 36

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes vi

Figura 65

Significacircncia estatiacutestica de motivos simples de tamanho 7 usando o meacutetodo

analiacutetico 36

Figura 66

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o

conjunto de dados MSN4 com 0 erro 39

Figura 67

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados MSN4 com 1 erro 40

Figura 68

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados STE12 com 0 erros 41

Figura 69

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados STE12 com 1 erro 41

Figura 610

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados MSN4 com 0 erros 43

Figura 611

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados MSN4 com 1 erro 43

Figura 612

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados STE12 com 0 erros 44

Figura 613

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados STE12 com 1 erro 45

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes vii

Lista de Tabelas

Tabela 41 Tabela de contingecircncia para o caacutelculo do 2

13

Tabela 51 Coacutedigo IUPAC 23

Tabela 52 Codificaccedilatildeo binaacuteria dos siacutembolos IUPAC 24

Tabela 61 Posiccedilotildees dos motivos especificados 33

Tabela 62 Posiccedilotildees do motivo estruturado especificado 34

Tabela 63 Posiccedilotildees dos modelos especificados 37

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes viii

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes ix

Agradecimentos

Gostariacuteamos de agradecer agrave nossa orientadora Professora Ana Teresa Freitas pela forma

como sempre orientou o nosso trabalho pela inestimaacutevel disponibilidade pelo interesse

demonstrado e pela iacutempar capacidade de motivaccedilatildeo

Agradecemos tambeacutem ao nosso co-orientador Professor Arlindo Oliveira pela sua

disponibilidade e opiniatildeo criacutetica que sempre contribuiu para o enriquecimento do nosso

trabalho

Agrave Susana Vinga pelo importante contributo na anaacutelise estatiacutestica e pela sua diligente

disponibilidade

Agrave Joana Fradinho Luiacutes Figueiredo e Petra Jelinkova pela disponibilizaccedilatildeo de conjuntos de

dados essenciais para a prossecuccedilatildeo deste trabalho

Agrave Alexandra Carvalho por ter tido a disponibilidade de ler a primeira versatildeo deste relatoacuterio e

contribuiacutedo com pertinentes sugestotildees

Aos nossos colegas da sala 138 pela camaradagem e companhia nas longas horas passadas no

INESC

Aos colegas da sala 128 pela motivaccedilatildeo e constante disponibilidade

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes x

Resumo

A grande quantidade de dados disponiacuteveis na aacuterea da Biologia requer meacutetodos de extracccedilatildeo de

conhecimento poderosos sistemaacuteticos e eficientes Em particular a identificaccedilatildeo de

sequecircncias de nucleoacutetidos designadas de consensos onde se ligam factores de transcriccedilatildeo

responsaacuteveis em parte pelo mecanismo de regulaccedilatildeo geacutenica eacute essencial para uma

compreensatildeo do papel de cada gene

Actualmente existem vaacuterios algoritmos cujo objectivo eacute encontrar sequecircncias candidatas a

sequecircncias de consenso Estes algoritmos podem ser divididos em duas classes meacutetodos

restritivos e meacutetodos proliacuteficos Os meacutetodos restritivos obtecircm poucas respostas com elevada

precisatildeo enquanto que os meacutetodos proliacuteficos obtecircm muitas respostas com baixa precisatildeo

exigindo um esforccedilo de poacutes-processamento

Neste trabalho utilizamos o SMILE [1] que eacute um meacutetodo proliacutefico para a extracccedilatildeo de

sequecircncias de consenso na regiatildeo promotora dos genes Face ao nuacutemero significativo das

respostas obtidas pretende-se com este trabalho avaliar possiacuteveis soluccedilotildees de poacutes-

processamento de modo a garantir a utilidade da informaccedilatildeo extraiacuteda para os utilizadores do

algoritmo Assim definiram-se dois grandes objectivos

A avaliaccedilatildeo de meacutetodos estatiacutesticos que permitam aferir a significacircncia bioloacutegica das

respostas obtidas

A obtenccedilatildeo de uma descriccedilatildeo compacta da informaccedilatildeo extraiacuteda

Palavras-chave Gene regulaccedilatildeo geacutenica regiatildeo promotora sequecircncias degeneradas IUPAC

avaliaccedilatildeo estatiacutestica de biosequecircncias SMILE extracccedilatildeo de motivos

Relatoacuterio Intercalar de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 1

1 Introduccedilatildeo

A crescente disponibilidade de dados sobre o genoma de vaacuterios organismos tem possibilitado

o aparecimento de novos projectos na aacuterea da biologia No entanto a quantidade massiva de

dados disponiacuteveis torna impossiacutevel uma anaacutelise manual da informaccedilatildeo sendo cada vez mais

premente a necessidade de um processamento automaacutetico dos dados obtidos

Neste contexto a identificaccedilatildeo e modelaccedilatildeo da regiatildeo promotora dos genes assume um papel

fundamental pois as condiccedilotildees de activaccedilatildeo e transcriccedilatildeo de um gene dependem das

sequecircncias de nucleoacutetidos aiacute presentes

As sequecircncias de nucleoacutetidos da regiatildeo promotora que determinam a transcriccedilatildeo do gene satildeo

denominadas de promotores e satildeo representadas por sequecircncias de consenso ou

simplesmente consensos A literatura refere vaacuterias formas de descriccedilatildeo destes consensos

desde a utilizaccedilatildeo de uma matriz de pesos a uma sequecircncia de bases mais frequentes Neste

trabalho utilizamos uma codificaccedilatildeo IUPAC destas sequecircncias que corresponde a um

conjunto de sequecircncias degeneradas em que cada siacutembolo representa um conjunto de

nucleoacutetidos possiacuteveis para uma dada posiccedilatildeo

Actualmente existem vaacuterios algoritmos cujo objectivo eacute encontrar sequecircncias candidatas a

sequecircncias de consenso nas regiotildees promotoras As sequecircncias que satildeo reportadas como

possiacuteveis consensos satildeo designadas de motivos Os algoritmos de pesquisa de motivos podem

ser agrupados de uma forma geral em dois tipos algoritmos restritivos e algoritmos

proliacuteficos

Os algoritmos restritivos concentram-se em encontrar poucos motivos mas de relevacircncia

assinalaacutevel enquanto que os algoritmos proliacuteficos preocupam-se em determinar todos os

motivos que possam ser encontrados de acordo com determinados paracircmetros de pesquisa

Os algoritmos designados de proliacuteficos tecircm a vantagem de natildeo fazerem suposiccedilotildees a priori

No entanto a grande quantidade de motivos encontrados requer um esforccedilo de poacutes-

processamento significativo

Este trabalho tem por objectivo o desenvolvimento de uma metodologia que permita o

processamento automaacutetico dos motivos encontrados por um algoritmo que pode ser

classificado de proliacutefico o algoritmo SMILE [1]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 2

No Capiacutetulo 2 apresentamos uma descriccedilatildeo do problema em anaacutelise evidenciando a

motivaccedilatildeo bioloacutegica e fazendo o seu enquadramento com os objectivos do trabalho

No Capiacutetulo 3 descrevemos o algoritmo SMILE no contexto do problema da extracccedilatildeo de

motivos e apresentamos um gerador de dados sinteacuteticos que seraacute usado como ponto de partida

do estudo da eficaacutecia do algoritmo

No Capiacutetulo 4 discutimos a utilizaccedilatildeo de meacutetodos estatiacutesticos para aferir a significacircncia

bioloacutegica dos motivos extraiacutedos pelo SMILE

No Capiacutetulo 5 apresentamos um meacutetodo para geraccedilatildeo de uma representaccedilatildeo compacta de

motivos extraiacutedos usando a codificaccedilatildeo IUPAC

Finalmente no Capiacutetulo 6 apresentamos vaacuterios resultados obtidos tanto com dados sinteacuteticos

como com dados reais discutindo a aplicabilidade dos meacutetodos estatiacutesticos apresentados no

Capiacutetulo 4

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 3

2 Descriccedilatildeo do Problema

A moleacutecula de DNA eacute responsaacutevel pela manutenccedilatildeo da informaccedilatildeo geneacutetica de cada indiviacuteduo

e eacute constituiacuteda por duas cadeias de nucleoacutetidos dispostas de modo a formar uma dupla

heacutelice [2] que se encontra representada na Figura 21 Cada nucleoacutetido eacute formado por trecircs

elementos um accediluacutecar um grupo fosfato e uma de quatro bases azotadas As quatro bases satildeo

a Adenina (A) a Timina (T) a Guanina (G) e a Citosina (C) e podem ser vistas como os

quatro elementos de um alfabeto

Figura 21

Representaccedilatildeo de cadeias de DNA em forma de dupla heacutelice

As duas cadeias de DNA satildeo complementares no sentido em que as bases das duas cadeias

estatildeo emparelhadas Assim uma Adenina de uma cadeia emparelha com uma Timina da

cadeia complementar e do mesmo modo uma Citosina emparelha com uma Guanina

Os genes satildeo segmentos de uma cadeia de DNA que controlam a siacutentese proteica e

consequentemente toda a actividade celular O genoma eacute o conjunto de genes de um

indiviacuteduo

A expressatildeo geacutenica eacute o processo atraveacutes do qual a informaccedilatildeo contida nos genes dirige a

siacutentese de proteiacutenas Este processo envolve dois passos transcriccedilatildeo e traduccedilatildeo

A transcriccedilatildeo consiste na transferecircncia da informaccedilatildeo contida no DNA para uma moleacutecula

intermediaacuteria de RNA designada de RNA-mensageiro ou mRNA De seguida o molde de

mRNA eacute usado no passo de traduccedilatildeo onde iraacute dirigir a siacutentese proteica

Este processo eacute semelhante em todos os organismos vivos embora existam diferenccedilas

assinalaacuteveis entre organismos eucariotas e procariotas isto eacute entre organismos com e sem

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 4

nuacutecleo individualizado respectivamente Em particular o mecanismo eacute consideravelmente

mais complexo em organismos eucariotas A Figura 22 ilustra o processo de expressatildeo geacutenica

em eucariotas (Figura 22-A) e procariotas (Figura 22-B)

Figura 22 Expressatildeo geacutenica em eucariotas (A) e procariotas (B)

Actualmente o problema da identificaccedilatildeo e modelaccedilatildeo dos mecanismos que regulam a

interacccedilatildeo entre grupos de genes eacute um dos problemas mais em foco na investigaccedilatildeo em

biologia computacional Como jaacute foi referido a regiatildeo promotora eacute parte essencial do

mecanismo de regulaccedilatildeo da transcriccedilatildeo geacutenica

A biologia oferece-nos alguns modelos da regiatildeo promotora evidenciando as diferenccedilas entre

organismos procariotas (Figura 23) e eucariotas (Figura 24)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 5

Figura 23 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em procariotas

Figura 24 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em eucariotas

No mecanismo de transcriccedilatildeo geacutenica interveacutem uma enzima denominada RNA-polimerase

Esta enzima tem como funccedilatildeo a transcriccedilatildeo da informaccedilatildeo contida no DNA para uma cadeia

de RNA que iraacute posteriormente intervir no processo de siacutentese proteica

Para que a RNA-polimerase inicie a transcriccedilatildeo de uma cadeia de DNA geralmente um gene

eacute necessaacuterio que se cumpram algumas condiccedilotildees Assim entre outras eacute necessaacuterio que

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 6

estejam presentes na regiatildeo promotora motivos que a RNA-polimerase reconheccedila e aos quais

se possa ligar para iniciar a transcriccedilatildeo da regiatildeo a jusante (na literatura inglesa estas regiotildees

satildeo denominadas de binding sites) As condiccedilotildees de activaccedilatildeo desta enzima satildeo mais

complexas nos organismos eucariotas [3] uma vez que neste caso para aleacutem dos motivos

referidos existem ainda vaacuterios outros que satildeo reconhecidos por factores de transcriccedilatildeo isto eacute

proteiacutenas que se ligam sucessivamente agrave RNA-polimerase estabelecendo um complexo

mecanismo de regulaccedilatildeo Estes motivos podem estar a montante a jusante ou mesmo no

interior do gene a ser transcrito e podem ainda exercer um efeito estimulador ou repressor da

transcriccedilatildeo Os locais onde existem motivos aos quais se ligam os diversos factores de

transcriccedilatildeo satildeo designados genericamente por regiotildees reguladoras

Eacute possiacutevel compreender agora a importacircncia da necessidade de ser definido um modelo ou

modelos para a regiatildeo promotora no acircmbito do estudo do genoma

Neste trabalho utilizamos o algoritmo SMILE para procurar motivos interessantes isto eacute

biologicamente significativos em cadeias de DNA pertencentes agrave regiatildeo promotora dos genes

Como jaacute foi referido trata-se de um algoritmo proliacutefico no sentido em que se preocupa em

encontrar todas as sequecircncias que cumpram os paracircmetros especificados Sendo assim torna-

se necessaacuterio um esforccedilo significativo de poacutes-processamento para que possa ser obtida

informaccedilatildeo uacutetil a partir dos dados gerados

O poacutes-processamento dos motivos extraiacutedos inclui uma anaacutelise estatiacutestica que culmina com a

atribuiccedilatildeo de um niacutevel de significacircncia a cada motivo Deste modo eacute possiacutevel definir um

crivo que separa motivos considerados relevantes de motivos agrave partida menos interessantes

Finalmente e depois de ter sido encontrado um conjunto de motivos relevantes seraacute efectuada

uma traduccedilatildeo para uma representaccedilatildeo IUPAC Esta representaccedilatildeo permite compactar os

dados agrupando motivos muito semelhantes Este passo eacute de importacircncia essencial para uma

utilizaccedilatildeo eficiente dos dados obtidos uma vez que uma representaccedilatildeo compacta facilita a sua

utilizaccedilatildeo em pesquisas em bases de dados bioloacutegicas que contecircm informaccedilatildeo sobre

consensos anteriormente identificados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 7

3 Extracccedilatildeo de motivos

31 Algoritmo SMILE

O SMILE eacute um meacutetodo algoriacutetmico de extracccedilatildeo de motivos de sequecircncias bioloacutegicas O

algoritmo comeccedila por processar um conjunto de dados de entrada composto por vaacuterias

sequecircncias natildeo alinhadas de nucleoacutetidos que se sabe conterem um ou mais binding sites Estes

dados satildeo utilizados para calcular ocorrecircncias de motivos usando como estrutura de dados

base uma aacutervore de sufixos

Um modelo eacute uma representaccedilatildeo de subsequecircncias que ocorrem nos dados de entrada

satisfazendo potencialmente certas propriedades

O algoritmo iraacute assim pesquisar modelos (simples ou estruturados) nos dados que lhe satildeo

fornecidos segundo alguns paracircmetros

Um modelo simples diz respeito a uma subsequecircncia contiacutegua de nucleoacutetidos enquanto que

um modelo estruturado eacute uma composiccedilatildeo de modelos simples

Um modelo estruturado pode ser constituiacutedo por vaacuterias partes posicionadas ao longo da

sequecircncia Cada parte eacute um modelo simples que pode ter um tamanho variaacutevel (entre kmin e

kmax) O espaccedilo entre cada parte consecutiva pode tambeacutem ser parametrizado (dmin e dmax)

Do mesmo modo tambeacutem eacute possiacutevel parametrizar o nuacutemero de erros que se permite ocorrer

no modelo e em cada uma das suas partes

A Figura 31 apresenta um exemplo de uma especificaccedilatildeo de um modelo estruturado em que

se consideram duas partes A primeira parte pode ter um tamanho entre 6 e 8 nucleoacutetidos e satildeo

admitidos 2 erros A segunda parte pode ocorrer entre 16 e 18 nucleoacutetidos apoacutes a primeira

parte e teraacute um tamanho igualmente entre 6 e 8 embora seja admitido apenas 1 erro

A Figura 32 apresenta o esquema de outro modelo estruturado e respectiva concretizaccedilatildeo

numa sequecircncia Neste exemplo consideram-se igualmente duas partes A primeira com

tamanho entre 6 e 10 nucleoacutetidos e a segunda entre 6 e 8 As partes podem estar a uma

distacircncia que varia entre 10 e 15 nucleoacutetidos e natildeo satildeo admitidos erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 8

Figura 31 Exemplo de uma especificaccedilatildeo de um modelo estruturado

Figura 32 (a) Exemplo de especificaccedilatildeo (b) Modelo retirado de uma sequecircncia

que cumpre a especificaccedilatildeo

Um modelo eacute considerado vaacutelido caso o nuacutemero de sequecircncias de entrada em que ocorre seja

natildeo inferior a um miacutenimo estabelecido designado por quoacuterum Os modelos vaacutelidos satildeo

designados de motivos

Para verificar o nuacutemero de ocorrecircncias eacute utilizada uma aacutervore de sufixos Uma aacutervore de

sufixos eacute uma estrutura de dados que representa todos os sufixos de uma cadeia de caracteres

As suas caracteriacutesticas satildeo de grande utilidade para os algoritmos de emparelhamento de

caracteres

6-10 6-8

10-15

(a)

ATTATTA_CTATCT

ATTATTAGTACTCATACCTATCT

(b)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 9

O SMILE processa conjuntos de dados isto eacute conjuntos de sequecircncias de nucleoacutetidos

utilizando para esse efeito uma aacutervores de sufixos generalizada Esta estrutura de dados

difere da aacutervore de sufixos simples no sentido em que agrupa vaacuterias cadeias de caracteres

correspondentes agraves vaacuterias sequecircncias de nucleoacutetidos Esta multiplicidade de sequecircncias exige

que a estrutura registe as sequecircncias a que cada sufixo pertence As aacutervores de sufixos fazem

uso de um siacutembolo terminador ($) para assinalar o fim de cada sufixo

A Figura 33 eacute um exemplo de uma aacutervore de sufixos generalizada

Figura 33 - Aacutervore de sufixos generalizada para as sequecircncias

TACTA$ (sequecircncia 1) e CACTCA$ (sequecircncia 2)

A extracccedilatildeo de motivos eacute feita atraveacutes da travessia em profundidade-primeiro de uma aacutervore

lexicograacutefica virtual de modo a garantir que se explora o espaccedilo de todos os modelos

possiacuteveis Esta travessia da aacutervore lexicograacutefica eacute acompanhada da exploraccedilatildeo da aacutervore de

sufixos generalizada de forma a obter todos os sufixos a distacircncia de Hamming natildeo superior a

e1 do modelo em consideraccedilatildeo Assim para cada noacute da aacutervore virtual eacute verificado o quoacuterum

do modelo correspondente contabilizando para tanto o nuacutemero de sequecircncias diferentes que

participam com sufixos a distacircncia de Hamming natildeo superior a e do modelo

1 O valor desta distacircncia depende do nuacutemero de erros admitidos na extracccedilatildeo de motivos e corresponde a um dos

paracircmetros do algoritmo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 10

A extracccedilatildeo de motivos estruturados eacute feita de forma semelhante correspondendo a muacuteltiplas

procuras de modelos simples que constituem cada parte do modelo estruturado A transiccedilatildeo

entre partes ilustrada pela Figura 34 corresponde a um salto na aacutervore de sufixos com tantos

niacuteveis de profundidade adicionais quanto a distacircncia especificada entre cada parte

Uma descriccedilatildeo pormenorizada do algoritmo encontra-se em [4] e [5]

Figura 34 Esquema da procura de motivos estruturados usando uma aacutervore de

sufixos

Este algoritmo exacto gera todos os possiacuteveis motivos dentro dos paracircmetros especificados

Daqui resulta geralmente um nuacutemero demasiado grande de motivos sendo necessaacuterio

discriminar quais os verdadeiros binding sites Como meacutetodo de avaliaccedilatildeo o SMILE utiliza

um teste estatiacutestico que eacute descrito na Secccedilatildeo 41

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 11

32 Gerador de dados sinteacuteticos

A anaacutelise da eficaacutecia e eficiecircncia do algoritmo de extracccedilatildeo de motivos exige a utilizaccedilatildeo de

dados sobre os quais tenhamos agrave partida algum conhecimento Para tal foi desenvolvido um

gerador de dados sinteacuteticos

O gerador de dados sinteacuteticos permite por um lado evitar a necessidade de dispor de

conjuntos de dados reais e por outro ter um maior controlo sobre os motivos que estatildeo

realmente presentes nos dados

O gerador permite especificar o nuacutemero e o tamanho das sequecircncias do conjunto de dados

bem como os motivos a inserir Os motivos satildeo especificados pela sua sequecircncia de

nucleoacutetidos posiccedilatildeo na sequecircncia e frequecircncia de ocorrecircncia Os motivos podem ser simples

ou estruturados A Figura 35 representa um exemplo de um ficheiro de especificaccedilatildeo

Frequecircncia

Posiccedilatildeo

Sequecircncia Posiccedilatildeo

Sequecircncia

02 09 TGCTTTTTAAT

28 TCGA

03 02 AGTACATCGA

02 12 TGCGCA

Figura 35 Exemplo de um ficheiro de especificaccedilatildeo para a geraccedilatildeo de dados

sinteacuteticos

No exemplo apresentado satildeo especificados trecircs motivos (um motivo estruturado e dois

motivos simples) A primeira coluna (Frequecircncia) indica a percentagem de sequecircncias em que

o motivo deveraacute ocorrer Em particular para esta especificaccedilatildeo o primeiro motivo deveraacute

ocorrer em 20 das sequecircncias As restantes colunas especificam a posiccedilatildeo e a sequecircncia de

nucleoacutetidos de cada parte do motivo O nuacutemero e o tamanho das sequecircncias a gerar satildeo

especificados na linha de comandos do gerador

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 12

O gerador verifica a especificaccedilatildeo de modo a testar se eacute possiacutevel gerar um conjunto de dados

com as caracteriacutesticas indicadas Em particular eacute necessaacuterio que no caso das frequecircncias

especificadas somarem mais do que 1 alguns dos motivos sejam sobreponiacuteveis uma vez que o

gerador garante o cumprimento exacto da frequecircncia de ocorrecircncia especificada para cada

motivo

O processo de geraccedilatildeo do conjunto de dados envolve duas fases Numa primeira fase eacute gerado

um conjunto de dados aleatoacuterios em que a ocorrecircncia de cada nucleoacutetido eacute equiprovaacutevel Para

gerar aleatoriamente nucleoacutetidos eacute usada uma variaccedilatildeo do algoritmo ran2 [6]

Numa segunda fase satildeo inseridos os motivos especificados em tantas sequecircncias quanto as

necessaacuterias para perfazer a frequecircncia indicada As sequecircncias seleccionadas para a inserccedilatildeo

de motivos satildeo igualmente escolhidas de forma aleatoacuteria

O recurso a dados sinteacuteticos permite afastar a possibilidade de motivos bem classificados

corresponderem a consensos ainda natildeo identificados por via experimental como pode

acontecer quando se analisam conjuntos de dados reais No entanto eacute necessaacuterio termos

presentes as limitaccedilotildees da actual abordagem Em particular sabemos que a geraccedilatildeo

equiprovaacutevel de nucleoacutetidos estaacute em desacordo com a estatiacutestica tiacutepica da regiatildeo promotora

onde satildeo mais comuns A s e T s do que G s e C s Do mesmo modo podem existir outras

correlaccedilotildees de ordem superior designadamente uma preferecircncia por certos diacutemeros ou

triacutemeros em detrimento de outros Esta limitaccedilatildeo eacute ilustrada pelo facto de os resultados

obtidos com dados sinteacuteticos serem geralmente melhores do que os obtidos com dados reais

As causas e consequecircncias desta observaccedilatildeo seratildeo discutidas nas secccedilotildees seguintes

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 13

4 Anaacutelise Estatiacutestica

41 Teste do 2

Como jaacute foi referido o SMILE em geral extrai um elevado nuacutemero de modelos Para isolar

motivos relevantes eacute usado um teste estatiacutestico de modo a atribuir uma significacircncia estatiacutestica

a cada modelo extraiacutedo

O meacutetodo de avaliaccedilatildeo utilizado consiste em aplicar o teste do 2 com um grau de liberdade

O objectivo eacute determinar a probabilidade de obtermos motivos observados em sequecircncias

aleatoacuterias que preservam os k-mers2 das sequecircncias originais Assim pretende-se perceber se

a ocorrecircncia do motivo se deve agrave frequecircncia de k-mers presentes na sequecircncia aleatoacuteria tendo

portanto uma baixa significacircncia estatiacutestica ou se eacute verificada a situaccedilatildeo oposta ou seja

elevada significacircncia estatiacutestica Estes uacuteltimos satildeo considerados pelo algoritmo como os que

apresentam maior potencial de serem verdadeiros binding sites Para tal o SMILE permite a

realizaccedilatildeo de dois tipos alternativos de teste um quanto ao nuacutemero de sequecircncias em que o

motivo ocorre (quoacuterum) e outro em relaccedilatildeo agrave abundacircncia do motivo no conjunto de dados

Para aplicar o teste do 2 procedemos agrave construccedilatildeo de uma tabela de contingecircncia com 4

entradas (Tabela 41)

Dados Originais Dados Aleatoacuterios

Presenccedila Porig Prandom

Ausecircncia Aorig Arandom

Tabela 41 Tabela de contingecircncia para o caacutelculo do 2

2 Sequecircncias de nucleoacutetidos de tamanho k

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 14

As colunas da tabela referem-se agraves duas amostras em anaacutelise ou seja o conjunto de dados

original e as sequecircncias aleatoacuterias geradas As linhas da tabela referem-se agraves duas classes de

contagens Caso consideremos o teste quanto ao quoacuterum a classe Presenccedila diz respeito ao

nuacutemero de sequecircncias em que o motivo ocorre e a classe Ausecircncia refere-se ao nuacutemero de

sequecircncias em que o motivo natildeo ocorre Caso se trate do teste relativo agrave abundacircncia a

primeira classe refere-se ao nuacutemero de ocorrecircncias do motivo no conjunto de dados e a

segunda ao nuacutemero de natildeo ocorrecircncias do motivo em relaccedilatildeo ao nuacutemero de oportunidades de

ocorrecircncia Considera-se como nuacutemero de oportunidades de ocorrecircncia o tamanho do

conjunto de dados Esta tabela seraacute usada agora para fazer um teste de homogeneidade de

proporccedilotildees

Para calcular a significacircncia estatiacutestica basta usar a expressatildeo do 2 correspondente agrave equaccedilatildeo

(41) onde ijO diz respeito ao valor observado para a entrada (ij) da tabela e ijE se refere ao

correspondente valor esperado

21

22 )(

ji ij

ijij

E

OE

(41)

O valor esperado para cada entrada da tabela eacute dado pela expressatildeo (42) ou seja o valor

esperado para a entrada (ij) da tabela eacute igual ao produto do total da linha i pelo total da linha

j divido pela soma de todos os elementos da tabela

21

2121

lkkl

kkj

kik

ij O

OO

E (42)

Nas condiccedilotildees desta tabela de contingecircncia eacute possiacutevel utilizar uma forma expedita de caacutelculo

que consiste na aplicaccedilatildeo da expressatildeo (43)

))()()((

)()( 22

origorigrandomrandomrandomorigrandomorig

randomorigrandomorigorigrandomrandomorig

APAPAAPP

AAPPAPAP

(43)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 15

A hipoacutetese nula que consideramos neste teste estatiacutestico refere-se agrave possibilidade de os

motivos terem sido gerados por sequecircncias aleatoacuterias sob certas restriccedilotildees Isto eacute assumimos

que as contagens obtidas para os motivos nas sequecircncias originais satildeo semelhantes agraves que

obteriacuteamos em sequecircncias aleatoacuterias com as mesmas frequecircncias de k-mers Valores altos de

significacircncia estatiacutestica implicam a rejeiccedilatildeo da hipoacutetese nula

Um importante problema prende-se com a validade da aplicaccedilatildeo do teste do 2 O SMILE em

particular apresenta para cada motivo uma medida da sua significacircncia estatiacutestica No

entanto o verdadeiro interesse reside na determinaccedilatildeo da significacircncia bioloacutegica dos motivos

encontrados O que estaacute em causa eacute perceber se um motivo eacute um potencial binding site Eacute

necessaacuterio testar este meacutetodo em dados reais com consensos conhecidos para se perceber se a

significacircncia estatiacutestica apresenta uma elevada correlaccedilatildeo com a significacircncia bioloacutegica

No Capiacutetulo 6 apresentamos uma discussatildeo acerca da adequaccedilatildeo do teste do 2 para a afericcedilatildeo

da significacircncia bioloacutegica dos motivos extraiacutedos pelo SMILE

42 Meacutetodo de Shuffling

Como jaacute foi referido para efectuar o caacutelculo da significacircncia estatiacutestica o SMILE recorre agrave

geraccedilatildeo de sequecircncias aleatoacuterias com certas restriccedilotildees baseadas na estatiacutestica dos dados

originais Para o efeito eacute usado um algoritmo de data shuffling [78]

O meacutetodo de shuffling permite obter um conjunto de dados aleatoacuterio com base num conjunto

de dados original garantindo a preservaccedilatildeo exacta das frequecircncias de k-mers para um dado k

O meacutetodo de geraccedilatildeo pode ser visto como um passeio aleatoacuterio sobre um multi-grafo onde os

noacutes satildeo todas as subsequecircncias de tamanho k-1 presentes na sequecircncia original e cada aresta

corresponde a uma transiccedilatildeo entre (k-1)-mers verificada nos dados No caso de k igual a 1 natildeo

eacute gerado um multi-grafo sendo feita apenas uma reordenaccedilatildeo aleatoacuteria dos nucleoacutetidos de

cada sequecircncia

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 16

A Figura 41 ilustra um exemplo de um multi-grafo gerado a partir da sequecircncia

ATTATTTATT bem como um caminho no grafo que gera a sequecircncia alternativa

TATTATTTAT

Figura 41 Multi-grafo gerado pela sequecircncia ATTATTTATT para k=4 com 2

passeios aleatoacuterios

Para que cada sequecircncia gerada seja vaacutelida eacute necessaacuterio que tenha o mesmo tamanho que a

sequecircncia original Sendo assim eacute faacutecil perceber que apenas os caminhos eulerianos garantem

a geraccedilatildeo de uma sequecircncia com estas caracteriacutesticas No SMILE este processo eacute repetido

para cada sequecircncia isoladamente

Para garantir a fiabilidade dos resultados obtidos eacute efectuado um nuacutemero elevado de

simulaccedilotildees donde satildeo extraiacutedos os valores meacutedios do quoacuterum ou da abundacircncia de cada

motivo a partir dos quais eacute calculada a significacircncia estatiacutestica no sentido do teste do 2

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 17

A Figura 42 mostra um histograma com os resultados obtidos em 100 simulaccedilotildees para um

motivo extraiacutedo do conjunto de dados da Helicobater pylori3 onde foram preservadas as

frequecircncias relativas de nucleoacutetidos (k=1) Este conjunto de dados eacute constituiacutedo por 308

sequecircncias com comprimentos que variam entre 40 e 300 nucleoacutetidos Foi efectuada uma

procura de motivos simples com tamanhos natildeo inferiores a 6 Foi admitido 1 erro e foi

exigido um quoacuterum de 6

O histograma indica a percentagem de simulaccedilotildees em que o motivo em consideraccedilatildeo ocorre

num determinado nuacutemero de sequecircncias Em particular no exemplo da Figura 42 o motivo

TTTTAA ocorre num nuacutemero de sequecircncias entre 282 e 284 em 13 das simulaccedilotildees

A seta a negro refere-se ao nuacutemero de ocorrecircncias do motivo observadas no conjunto de dados

original Quanto mais afastada estiver a seta do maacuteximo da curva maior seraacute a significacircncia

estatiacutestica Neste caso foi atribuiacuteda uma significacircncia de 593 ao motivo TTTTAA

Figura 42 Histograma das ocorrecircncias observadas do motivo TTTTAA em 100

simulaccedilotildees de shuffling do conjunto de dados da H pylori

3 Organismo procariota

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 18

O meacutetodo de data shuffling pode ser pesado do ponto de vista computacional e representa

uma grande restriccedilatildeo no desempenho da avaliaccedilatildeo de motivos Em particular a necessidade

de pesquisar todos os motivos extraiacutedos em cada conjunto de dados aleatoacuterio gerado constitui

uma seacuterio entrave ao bom desempenho deste meacutetodo

Devido aos referidos problemas de desempenho opta-se geralmente por fazer um nuacutemero de

simulaccedilotildees com geraccedilatildeo de sequecircncias aleatoacuterias inferior ao estatisticamente aconselhado o

que pode ter impacto nos resultados

Outra questatildeo pertinente coloca-se ainda quanto agrave preservaccedilatildeo dos k-mers Uma vez que o

shuffling eacute feito sobre cada sequecircncia do conjunto de dados valores elevados de k impotildeem

restriccedilotildees severas agrave variabilidade dos conjuntos de dados aleatoacuterios gerados Assim para estes

valores o teste estatiacutestico eacute inuacutetil uma vez que os conjuntos de dados gerados satildeo

praticamente iguais ao conjunto de dados original Em particular quando o tamanho dos

k-mers a preservar eacute igual ou superior ao tamanho de um motivo as suas ocorrecircncias satildeo

estritamente conservadas no conjunto de dados aleatoacuterio levando a que o valor da

significacircncia seja 0 A Figura 43 ilustra o facto de a significacircncia estatiacutestica tender

inevitavelmente para zero agrave medida que o valor de k aumenta Os valores do graacutefico foram

igualmente obtidos a partir do conjunto de dados da H pylori descrito anteriormente

Figura 43 Graacutefico da evoluccedilatildeo da significacircncia estatiacutestica com o aumento do valor

de k para um motivo de tamanho 8 extraiacutedo do conjunto de dados da H pylori

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 19

43 Meacutetodo Analiacutetico

Nesta Secccedilatildeo propotildee-se um meacutetodo analiacutetico que tem por objectivo resolver alguns dos

problemas do meacutetodo de shuffling descrito na Secccedilatildeo anterior designadamente o fraco

desempenho computacional e as excessivas restriccedilotildees devidas agrave conservaccedilatildeo estrita das

frequecircncias dos k-mers Assim pretende-se obter um meacutetodo computacionalmente eficiente

para avaliar a relevacircncia de motivos extraiacutedos pelo SMILE

Com este meacutetodo comeccedila-se por abstrair um modelo de Markov a partir do conjunto de dados

em estudo Os estados do modelo de Markov correspondem a todos os (k-1)-mers presentes no

conjunto de dados sendo a probabilidade inicial de cada estado a frequecircncia relativa

observada do (k-1)-mer correspondente

A probabilidade de transiccedilatildeo entre estados corresponde agrave razatildeo entre o nuacutemero de vezes que o

(k-1)-mer referente ao estado de destino sucede ao (k-1)-mer referente ao estado de origem

nos dados e o nuacutemero de vezes que o (k-1)-mer correspondente ao estado de origem precede

qualquer outro (k-1)-mer nas sequecircncias em anaacutelise A Figura 45 apresenta um modelo de

Markov abstraiacutedo a partir do conjunto de dados referido na Figura 44

Figura 44 Conjunto de dados exemplo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 20

CA

TC

AT

TA

TT

101

51

52

101

51

Figura 45

Exemplo de uma cadeia de Markov para k=3

Cada motivo em anaacutelise eacute processado de forma a calcular a probabilidade do motivo ser

gerado pelo modelo de Markov abstraiacutedo

Esta probabilidade eacute calculada como o produto da probabilidade do estado inicial pela

probabilidade de todas as transiccedilotildees necessaacuterias para compor o motivo Em (44) (45) e (46)

apresenta-se o calculo desta probabilidade para o motivo ATTATT segundo a cadeia de

Markov da Figura 45

)()()()()()( TTATpATTApTATTpTTATpATpATTATTp

(44)

2

111

2

1

5

2)(ATTATTp (45)

10

1)(ATTATTp (46)

No caso em que k eacute igual 1 natildeo eacute construiacuteda uma cadeia de Markov sendo a probabilidade de

ocorrecircncia do motivo o produto das frequecircncias relativas no conjunto de dados dos

nucleoacutetidos que o compotildeem

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 21

Caso sejam admitidos e erros basta considerar a soma das probabilidades de todos motivos a

uma distacircncia de Hamming natildeo superior a e ao inveacutes de se considerar apenas a probabilidade

do motivo em anaacutelise

A probabilidade assim calculada seraacute usada para determinar as entradas referentes a dados

aleatoacuterios na tabela de contingecircncia descrita na Secccedilatildeo 41 para o teste relativo agrave abundacircncia

A determinaccedilatildeo das entradas na tabela quando consideramos o teste relativo ao quoacuterum de um

motivo eacute consideravelmente mais complexa pelo que natildeo a abordaremos neste texto

Assim as entradas randomP e randomA satildeo calculadas da forma indicada em (47) e (48)

respectivamente

))1)((()( nseqsmlenmotiflenseqsnseqskmpP Markovrandom

(47)

randomrandom PlenseqsnseqsA

(48)

Nas expressotildees (47) e (48)

)( kmpMarkov refere-se agrave probabilidade calculada para o motivo m a partir de uma cadeia

de Markov extraiacuteda do conjunto de dados para um dado k

nseqs designa o nuacutemero de sequecircncias do conjunto de dados

lseqs designa o comprimento meacutedio das sequecircncias do conjunto de dados

lenmotif(m) designa o tamanho do motivo m

Agrave semelhanccedila do SMILE no caacutelculo de randomA consideramos como nuacutemero de

oportunidades de ocorrecircncia o tamanho do conjunto de dados

Este meacutetodo apresenta um desempenho computacional significativamente melhor que o

meacutetodo baseado em shuffling uma vez que natildeo necessita de efectuar vaacuterias simulaccedilotildees tendo

apenas de processar o conjunto de dados por uma uacutenica vez O caacutelculo da significacircncia

estatiacutestica de cada motivo eacute linear em relaccedilatildeo ao seu comprimento

Por outro lado o meacutetodo analiacutetico natildeo enferma das mesmas limitaccedilotildees do que o teste

estatiacutestico baseado em simulaccedilotildees permitindo o caacutelculo de significacircncia estatiacutestica para

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 22

valores elevados de k Ao considerar a estatiacutestica de todo o conjunto de dados ao inveacutes de

cada sequecircncia isoladamente este meacutetodo pode tambeacutem agrave partida modelar melhor os dados

Resta acrescentar que o meacutetodo descrito nesta Secccedilatildeo soacute permite obter significacircncias

estatiacutesticas para motivos simples A realizaccedilatildeo de caacutelculos para motivos estruturados eacute

consideravelmente mais complexa e natildeo foi abordada neste trabalho

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 23

5 Geraccedilatildeo de coacutedigo IUPAC

A realizaccedilatildeo eficiente de pesquisas de consensos em bases de dados bioloacutegicas requer uma

representaccedilatildeo compacta dos dados armazenados Neste contexto a possibilidade de

representar consensos em coacutedigo IUPAC assume uma importacircncia fundamental

O coacutedigo IUPAC eacute uma extensatildeo sobre a representaccedilatildeo de sequecircncias de DNA Uma

sequecircncia de DNA eacute constituiacuteda por nucleoacutetidos A codificaccedilatildeo IUPAC introduz siacutembolos que

representam um conjunto de possiacuteveis nucleoacutetidos para uma dada posiccedilatildeo permitindo uma

representaccedilatildeo de sequecircncias degeneradas Por exemplo uma purina (A ou G) eacute representada

pela letra R A descriccedilatildeo completa dos coacutedigos IUPAC encontra-se na Tabela 51

Coacutedigo Descriccedilatildeo A Adenina

C Citosina

G Guanina

T Timina

U Uracilo

R Purina (A ou G)

Y Pirimidina (C T ou U)

M C ou A

K T U ou G

W T U ou A

S C ou G

B C T U ou G (natildeo A)

D A T U ou G (natildeo C)

H A T U ou C (natildeo G)

V A C ou G (natildeo T natildeo U)

N Qualquer base (A C G T ou U)

Tabela 51 Coacutedigo IUPAC

A conversatildeo de um conjunto de sequecircncias de DNA para um conjunto de sequecircncias IUPAC

natildeo eacute uma tarefa trivial Para um dado conjunto de sequecircncias existem diversas codificaccedilotildees

IUPAC possiacuteveis

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 24

O problema da geraccedilatildeo de coacutedigo IUPAC consiste em encontrar o conjunto miacutenimo de

sequecircncias IUPAC que representem um dado conjunto de sequecircncias DNA

Como o objectivo proposto eacute a compressatildeo da representaccedilatildeo das sequecircncias de nucleoacutetidos eacute

desejaacutevel que a codificaccedilatildeo IUPAC seja a mais compacta possiacutevel

A abordagem utilizada foi a de reduzir o problema da compressatildeo IUPAC a um problema

conhecido a minimizaccedilatildeo de expressotildees loacutegicas multi-valor

Uma expressatildeo loacutegica multi-valor eacute uma expressatildeo loacutegica onde figuram variaacuteveis multi-valor

ou seja variaacuteveis que necessitam de mais do que um bit para serem representadas

Para representar um siacutembolo IUPAC eacute utilizada uma variaacutevel multi-valor de 4 bits Os

siacutembolos e as respectivas representaccedilotildees estatildeo na Tabela 52

Siacutembolo

IUPAC

Codificaccedilatildeo

binaacuteria

A 1000

T 0100

C 0010

G 0001

R 1001

Y 0110

S 0011

W 1100

K 0101

M 1010

B 0111

D 1101

H 1110

V 1011

N 1111

Espaccedilo 0000

Tabela 52

Codificaccedilatildeo binaacuteria dos siacutembolos IUPAC

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 25

Uma sequecircncia de nucleoacutetidos ou IUPAC eacute construiacuteda atraveacutes de um produto de termos

sendo cada termo uma variaacutevel multi-valor que representa um siacutembolo da sequecircncia Por

exemplo a sequecircncia WTA eacute representada pela expressatildeo loacutegica (1100) (0100) (1000)

Agora que foi estabelecida uma representaccedilatildeo para sequecircncias IUPAC atraveacutes de expressotildees

loacutegicas multi-valor resta perceber como da minimizaccedilatildeo destas expressotildees pode resultar o

desejado coacutedigo IUPAC

Em (51) temos um exemplo simples de minimizaccedilatildeo loacutegica

ZXZYXZYX

(51)

Eacute faacutecil verificar que X Z eacute uma expressatildeo equivalente O que se pretende para a compressatildeo

IUPAC eacute algo semelhante

Por exemplo a partir das sequecircncias ATA e TTA pretende-se a expressatildeo IUPAC WTA A

simplificaccedilatildeo das expressotildees loacutegicas eacute exemplificada sucessivamente em (52) (53) e (54)

A T A + T T A (52)

(1000) (0100) (1000) + (0100) (0100) (1000)

(A ou T) T A (53)

((1000)+(0100)) (0100) (1000)

W T A (54)

(1100) (0100) (1000)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 26

Eacute faacutecil perceber atendendo agrave escolha criteriosa da codificaccedilatildeo que da minimizaccedilatildeo de

expressotildees loacutegicas que representam sequecircncias de nucleoacutetidos resultam expressotildees loacutegicas

que representam uma codificaccedilatildeo IUPAC das sequecircncias originais

O problema inicial encontra-se agora reduzido a um problema de minimizaccedilatildeo de expressotildees

loacutegicas Este problema jaacute estaacute resolvido na aacuterea da siacutentese loacutegica Um dos programas mais

conhecidos desenvolvido para a resoluccedilatildeo deste problema eacute o programa Espresso [9] Apesar

de ser utilizado neste contexto como uma caixa preta eacute importante perceber o seu

funcionamento

No Espresso as expressotildees loacutegicas satildeo representadas num espaccedilo booleano multi-

dimensional Um exemplo eacute um espaccedilo tridimensional onde podem ser representadas

sequecircncias de tamanho 3 tal como estaacute ilustrado na Figura 51

Figura 51

Representaccedilatildeo das sequecircncias ATA (1) e TTA (2)

Neste contexto um cubo define-se como a representaccedilatildeo espacial de um produto de termos

Ou seja para o problema em questatildeo cada sequecircncia de entrada eacute um cubo e uma cobertura

corresponde a um conjunto de cubos que engloba todos os veacutertices representados no espaccedilo

Pode observar-se que a dimensatildeo do espaccedilo encontra-se directamente relacionada com o

tamanho da sequecircncia que se pretende representar Para efectuar a minimizaccedilatildeo o Espresso

procura uma cobertura miacutenima que daraacute origem ao conjunto de sequecircncias IUPAC de saiacuteda

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 27

No caso do espaccedilo da Figura 51 existe uma cobertura miacutenima constituiacuteda por um uacutenico cubo

A Figura 52 ilustra a referida cobertura

Figura 52 Representaccedilatildeo da cobertura WTA (1)

Da cobertura resulta a codificaccedilatildeo IUPAC das sequecircncias iniciais

O processo para descobrir a cobertura miacutenima eacute complexo sendo composto por um conjunto

intrincado de passos Inicialmente o conjunto de cubos originais eacute expandido de forma a

englobar o maior nuacutemero de veacutertices adjacentes De seguida os cubos redundantes satildeo

removidos e os restantes satildeo reduzidos para que cubram apenas os cubos iniciais Um cubo eacute

considerado redundante se natildeo cobrir nenhum veacutertice que natildeo esteja jaacute coberto por outro

cubo Deste processo resulta uma reduccedilatildeo contiacutenua do nuacutemero de cubos necessaacuterios para a

cobertura O processo eacute reiterado ateacute natildeo se verificarem melhorias substanciais na dimensatildeo

da cobertura obtida

Este processo eacute guiado por heuriacutesticas e eacute possiacutevel demonstrar que produz resultados

proacuteximos da soluccedilatildeo oacuteptima O processo estaacute detalhadamente descrito em [910]

De modo a automatizar o processo de codificaccedilatildeo das sequecircncias de nucleoacutetidos e

descodificaccedilatildeo das sequecircncias IUPAC foi desenvolvida uma interface para o Espresso

Assim as sequecircncias de entrada satildeo transformadas em expressotildees loacutegicas (formato binaacuterio)

seguindo a correspondecircncia referida na Tabela 52 Do mesmo modo a representaccedilatildeo da

cobertura miacutenima obtida pelo Espresso eacute descodificada e traduzida para sequecircncias IUPAC

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 28

O funcionamento da interface foi testado com recurso a um gerador aleatoacuterio de sequecircncias de

nucleoacutetidos e a um verificador O gerador produz um conjunto de sequecircncias obtidas a partir

de uma sequecircncia inicial de nucleoacutetidos O conjunto de sequecircncias gerado corresponde a

vaacuterias substituiccedilotildees aleatoacuterias na sequecircncia inicial e constitui o conjunto de entrada que vai

ser lido pela ferramenta Espresso O verificador recebe o conjunto de sequecircncias de entrada e

o resultado da operaccedilatildeo de minimizaccedilatildeo do Espresso sob a forma de sequecircncias de coacutedigos

IUPAC Deste modo ao expandir as sequecircncias IUPAC obtidas pelo Espresso atraveacutes de

uma operaccedilatildeo trivial de substituiccedilotildees sucessivas eacute possiacutevel testar a completude e adequaccedilatildeo

da representaccedilatildeo Assim diz-se que a representaccedilatildeo eacute completa se a expansatildeo incluir todas as

sequecircncias de entrada por outro lado diz-se que a representaccedilatildeo eacute adequada se natildeo incluir

nenhuma sequecircncia que natildeo esteja no conjunto inicial

Depois de verificada a completude e adequaccedilatildeo das representaccedilotildees obtidas foram feitos testes

com dados reais de modo a poder aferir o grau de compressatildeo das sequecircncias introduzidas

Assim o Espresso foi executado tendo como conjunto de entrada sequecircncias devidamente

codificadas obtidas atraveacutes de uma execuccedilatildeo do SMILE

As taxas de compressatildeo obtidas variam entre 278 e 715

O gerador de coacutedigo IUPAC encontra-se neste momento integrado na base de dados Dbyeast

[11] disponibilizando publicamente o serviccedilo de codificaccedilatildeo A Figura 53 eacute uma imagem da

interface que permite que os utilizadores da Dbyeast obtenham coacutedigo IUPAC a partir de

sequecircncias de DNA

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 29

Figura 53 Interface para geraccedilatildeo de coacutedigo IUPAC integrada na Dbyeast

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 30

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 31

6 Resultados e Conclusotildees

Neste Capiacutetulo iremos analisar os resultados obtidos tanto para dados sinteacuteticos como para

dados reais Para tal iremos comparar os valores de significacircncia estatiacutestica obtidos para os

dois tipos de dados usando tanto o meacutetodo de shuffling como o meacutetodo analiacutetico Para efectuar

esta comparaccedilatildeo eacute uacutetil referirmo-nos agrave posiccedilatildeo obtida pelos motivos em anaacutelise numa lista

ordenada por valores decrescentes de significacircncia estatiacutestica Assim sempre que

mencionarmos o valor da posiccedilatildeo de um motivo estaremos a referir-nos agrave posiccedilatildeo numa lista

assim definida

61 Resultados Obtidos com Dados Sinteacuteticos

Como jaacute foi referido a utilizaccedilatildeo de dados sinteacuteticos permite um maior controlo sobre os

motivos que estatildeo efectivamente presentes no conjunto de dados Assim iremos referir-nos

aos motivos que foram introduzidos no conjunto de dados gerado por motivos especificados

em oposiccedilatildeo aos outros motivos igualmente extraiacutedos pelo SMILE que designaremos por

motivos natildeo-especificados Nesta Secccedilatildeo iremos considerar o teste de significacircncia estatiacutestica

relativo agrave abundacircncia de forma a podermos comparar os resultados obtidos com o meacutetodo

shuffling e com o meacutetodo analiacutetico

611 Resultados do teste do 2 com o meacutetodo shuffling

Ao especificar um conjunto de dados com os mesmos motivos que estatildeo presentemente

descritos para a H pylori obtivemos para motivos simples os resultados apresentados nas

Figuras 61 e 62 O conjunto de dados sinteacutetico conteacutem 308 sequecircncias de comprimento 167

Foi efectuada uma procura de motivos simples com tamanhos compreendidos entre 6 e 8

nucleoacutetidos Natildeo foram admitidos erros e foi exigido um quoacuterum de 6 Os motivos

especificados encontram-se representados a ponteado Os restantes motivos correspondem a

motivos natildeo-especificados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 32

Figura 61 Significacircncia estatiacutestica para motivos simples de tamanho 6

Figura 62 Significacircncia estatiacutestica para motivos simples de tamanho 7

Os graacuteficos natildeo satildeo no entanto suficientes para nos dar a percepccedilatildeo da correcta classificaccedilatildeo

dos motivos uma vez que natildeo eacute possiacutevel fazer representar no graacutefico os 172 motivos

extraiacutedos A Tabela 61 indica as posiccedilotildees ocupadas pelos motivos especificados em relaccedilatildeo agrave

totalidade dos modelos para vaacuterios valores de k

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 33

TTTAAG TTTTAA TATAAT TATAATA

k=1 5 4 1 2

k=2 6 4 1 2

k=3 6 4 2 1

k=4 6 5 2 1

k=5 78 7 5 1

Tabela 61 Posiccedilotildees dos motivos especificados

Em geral os motivos especificados aparecem melhor classificados para um baixo valor de k

Agrave medida que se consideram valores de k crescentes a significacircncia estatiacutestica de todos os

motivos aproxima-se de zero pelas razotildees jaacute apontadas na Secccedilatildeo 42

Eacute comum observar-se a presenccedila de motivos natildeo-especificados com niacuteveis de significacircncia

elevados especialmente se atendermos agraves posiccedilotildees da Tabela 61

Contudo estes bons resultados natildeo se mantecircm se forem admitidos erros na procura Neste

caso embora os motivos mantenham em geral elevadas significacircncias entram em

competiccedilatildeo com os motivos a distacircncia de Hamming natildeo superior ao nuacutemero de erros

admitido Assim eacute comum observar-se uma descida significativa na tabela de posiccedilotildees

Para motivos estruturados os resultados satildeo favoraacuteveis mesmo admitindo erros como eacute

ilustrado pelo graacutefico da Figura 63 em conjugaccedilatildeo com os valores de posiccedilatildeo apresentados na

Tabela 62

Neste exemplo efectuou-se uma procura por motivos estruturados compostos por duas partes

com tamanhos entre 6 e 7 com uma distacircncia entre si variando entre 21 e 23 nucleoacutetidos

Admitiu-se 1 erro em cada parte do motivo mas apenas 1 erro na totalidade do motivo

estruturado e exigiu-se um quoacuterum de 6 Foram extraiacutedos 53 motivos O motivo

especificado encontra-se a ponteado

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 34

Figura 63 Significacircncia estatiacutestica para modelos estruturados em dados sinteacuteticos

TTTAAG_TATAAT

k=1 4

k=2 4

k=3 17

k=4 63

k=5 162

Tabela 62 Posiccedilotildees do motivo estruturado especificado

Neste exemplo foi necessaacuterio admitir a existecircncia de erros para que o motivo fosse encontrado

pelo SMILE Natildeo existem motivos sem erros que cumpram as condiccedilotildees de procura

Esta boa prestaccedilatildeo dos motivos estruturados estaacute relacionada com o facto de o shuffling

raramente preservar as distacircncias relativas de cada uma das partes que constituem o motivo

fazendo com que estes ocorram poucas vezes nas simulaccedilotildees Assim neste exemplo o motivo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 35

estruturado especificado aparece claramente destacado Estes resultados parecem sugerir que a

utilizaccedilatildeo deste teste estatiacutestico se adequa agrave avaliaccedilatildeo de modelos estruturados No entanto

nem todos os promotores exibem esta estrutura sendo necessaacuterio um meacutetodo mais geral para

fazer esta avaliaccedilatildeo

Como veremos em seguida os resultados aparentemente animadores mesmo para motivos

simples natildeo se verificam quando analisamos dados reais Esta evidecircncia estaacute relacionada com

o facto de o gerador de dados sinteacuteticos gerar dados aleatoacuterios com equiprobabilidade de

nucleoacutetidos Nos dados reais isto natildeo se verifica existindo normalmente uma clara

abundacircncia de A s e T s na regiatildeo promotora Do mesmo modo cada conjunto de dados exibe

preferecircncia por certos diacutemeros ou triacutemeros que ocorrem com muito mais frequecircncia que

outros

Esta limitaccedilatildeo podia ser mitigada pela incorporaccedilatildeo destas correlaccedilotildees na geraccedilatildeo de dados

sinteacuteticos Mas embora seja relativamente simples estabelecer uma preferecircncia por certos

nucleoacutetidos a geraccedilatildeo natildeo-equiprovaacutevel de k-mers geneacutericos constitui soacute por si um problema

complexo pelo que natildeo foi abordado neste trabalho

612 Resultados do teste do 2 com o meacutetodo analiacutetico

Os dados sinteacuteticos foram igualmente analisados recorrendo ao meacutetodo analiacutetico que como jaacute

foi referido tem a vantagem de ser mais eficiente do ponto de vista computacional e de poder

explorar valores mais elevados de k As Figura 64 e 65 apresentam a evoluccedilatildeo da

significacircncia estatiacutestica dos mesmos motivos considerados nas Figuras 62 e 63 mas

recorrendo ao meacutetodo analiacutetico

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 36

Figura 64 Significacircncia estatiacutestica de motivos simples de tamanho 6 usando o

meacutetodo analiacutetico

Figura 65 Significacircncia estatiacutestica de motivos simples de tamanho 7 usando o

meacutetodo analiacutetico

A Tabela 63 indica as posiccedilotildees dos motivos especificados para a significacircncia estatiacutestica

calculada por via do meacutetodo analiacutetico

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 37

TTTAAG TTTTAA TATAAT TATAATA

k=1 6 4 1 2

k=2 6 4 1 2

k=3 6 3 2 1

k=4 6 3 2 1

k=5 55 3 2 1

Tabela 63 Posiccedilotildees dos modelos especificados

Satildeo oacutebvias as semelhanccedilas entre os resultados apresentados na Tabela 63 e os presentes na

Tabela 61 Isto confirma a possibilidade de usar o meacutetodo analiacutetico como alternativa ao

meacutetodo de shuffling

Sabemos igualmente que no acircmbito do meacutetodo analiacutetico quando k atinge um valor igual ao

comprimento do motivo em anaacutelise a significacircncia estatiacutestica anula-se Isto tem a ver com o

facto de a probabilidade de ocorrecircncia de um k-mer ser muito proacutexima da sua frequecircncia

relativa no conjunto de dados Assim sendo os valores das entradas da tabela de contingecircncia

relativas aos dados aleatoacuterios seratildeo inevitavelmente iguais agraves dos dados reais resultando deste

facto uma significacircncia estatiacutestica nula

Por outro lado agrave medida que o k aumenta os k-mers introduzidos pelos motivos especificados

no conjunto de dados que de resto eacute aleatoacuterio vatildeo fazer com que a cadeia de Markov gerada

faccedila convergir as probabilidades de ocorrecircncia de cada motivo com a sua frequecircncia relativa

efectiva no conjunto de dados Assim assiste-se ao mesmo fenoacutemeno de convergecircncia para

zero da significacircncia estatiacutestica que assinalaacutemos para o meacutetodo shuffling

Pela anaacutelise dos resultados podemos ainda concluir que em geral um valor de k demasiado

pequeno natildeo modela suficientemente bem os dados daqui resulta que alguns motivos natildeo

especificados obtenham melhores classificaccedilotildees que motivos especificados Em suma

deveremos preferir valores de k intermeacutedios

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 38

62 Resultados Obtidos com Dados Reais

Com este teste pretendemos verificar se uma sequecircncia classificada como estatisticamente

relevante tambeacutem pode ser considerada biologicamente relevante

Para fazer o estudo da anaacutelise estatiacutestica em dados reais foram recolhidos 16 conjuntos de

dados com regiotildees promotoras correspondentes a genes da levedura Saccharomyces

cerevisiae que eacute um organismo eucariota Cada conjunto conteacutem aproximadamente 10

sequecircncias As sequecircncias contecircm consensos obtidos por via experimental e descritos na

literatura A descriccedilatildeo completa de cada conjunto de dados pode ser vista no Anexo A

Para cada conjunto de dados foi feita uma procura de motivos de tamanhos variando entre 4 e

11 nucleoacutetidos para valores de quoacuterum de 60 75 80 e 100 Foram permitidos 0 e 1

erros em ensaios sucessivos e fez-se ainda variar o valor de k entre 1 e 4

Foi posteriormente analisada a significacircncia estatiacutestica calculada pelo SMILE no que diz

respeito ao quoacuterum

Os consensos descritos obtiveram boas classificaccedilotildees para algumas das condiccedilotildees testadas

Em particular quando o quoacuterum exigido se encontra proacuteximo da frequecircncia efectiva dos

motivos nos dados e quando natildeo satildeo admitidos erros Os resultados satildeo tambeacutem melhores

para motivos de tamanho superior a 7 Em suma obtecircm-se bons resultados quando as

condiccedilotildees favorecem os motivos com as caracteriacutesticas dos consensos descritos

Estes resultados natildeo satildeo muito animadores porque para os atingir eacute necessaacuterio um

conhecimento preacutevio da frequecircncia e tamanho dos motivos Ao considerar a generalidade dos

ensaios efectuados verifica-se que as classificaccedilotildees satildeo muito baixas com baixas

significacircncias estatiacutesticas e com valores de posiccedilatildeo frequentemente abaixo dos primeiros

1 000 motivos No Anexo A apresentamos os resultados obtidos com estes ensaios

A par desta anaacutelise foi considerada a significacircncia estatiacutestica obtida a respeito da abundacircncia

Deste modo eacute possiacutevel estabelecer uma comparaccedilatildeo directa entre o meacutetodo de shuffling e o

meacutetodo analiacutetico para o caacutelculo desta meacutetrica

De seguida apresentamos os resultados desta anaacutelise

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 39

621 Resultados do teste do 2 com o meacutetodo shuffling

De modo geral os resultados para o teste estatiacutestico referente agrave abundacircncia representam uma

melhoria em relaccedilatildeo ao teste referente ao quoacuterum

Comeccedilamos por apresentar os graacuteficos referentes a um conjunto de dados cujos motivos

permanecem mal classificados isto eacute o motivo eacute biologicamente relevante mas natildeo eacute

considerado estatisticamente relevante O conjunto de dados em causa o MSN4 tem um

motivo muito abundante (CCCCT) condicionando a estatiacutestica dos dados Isto conjugado

com o seu pequeno tamanho (5 nucleoacutetidos) resulta na inevitaacutevel baixa significacircncia

estatiacutestica uma vez que aparece sistematicamente na geraccedilatildeo aleatoacuteria de sequecircncias feita em

cada simulaccedilatildeo As Figuras 66 e 67 ilustram a evoluccedilatildeo da significacircncia estatiacutestica e da

posiccedilatildeo do referido motivo considerando erro 0 e 1 respectivamente para um quoacuterum de

60

Figura 66 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 0 erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 40

Figura 67 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 1 erro

Os resultados da classificaccedilatildeo satildeo claramente maus para um consenso descrito A estranha

subida para k igual a 4 estaacute relacionada com uma pequena flutuaccedilatildeo sem significado uma vez

que estamos a considerar valores de significacircncia estatiacutestica muito baixos A aparente melhor

classificaccedilatildeo quando consideramos erro 0 estaacute relacionada com o facto de que quando natildeo se

admitem erros satildeo consequentemente extraiacutedos menos motivos Em particular com erro 0 satildeo

extraiacutedos 1 316 motivos enquanto que com erro 1 satildeo extraiacutedos 35 258 motivos

De seguida apresentamos os resultados relativos a um outro conjunto de dados (STE12) que

evidencia resultados mais favoraacuteveis para erro 0 As Figuras 68 e 69 apresentam a evoluccedilatildeo

da significacircncia estatiacutestica do motivo descrito (TGAAACA) para 0 e 1 erros

respectivamente com um quoacuterum de 100

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 41

Figura 68 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 0 erros

Figura 69 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 1 erro

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 42

Resta referir que para este conjunto de dados foram extraiacutedos 267 motivos com erro 0 e

7 705 motivos para erro 1

O facto de os motivos serem abundantes em relaccedilatildeo ao nuacutemero de sequecircncias consideradas

faz com que o teste relativo agrave abundacircncia tenha um poder de resoluccedilatildeo consideravelmente

maior do que o teste relativo ao quoacuterum Por esta razatildeo deveremos sempre preferir o primeiro

em casos semelhantes

Por outro lado os resultados obtidos continuam a pocircr em causa a generalidade do meacutetodo uma

vez que eacute difiacutecil identificar as situaccedilotildees em que este produz bons resultados sobretudo quando

somos confrontados com um desconhecimento a priori do conjunto de dados

622 Resultados do teste do 2 com o meacutetodo analiacutetico

Resta-nos comparar os resultados obtidos na subsecccedilatildeo anterior com os obtidos pela via

analiacutetica Nos graacuteficos apresentados nesta subsecccedilatildeo que representam a evoluccedilatildeo da

significacircncia estatiacutestica com o crescimento do tamanho dos k-mers considerados estatildeo

tambeacutem assinaladas as posiccedilotildees ocupadas pelos motivos

As Figuras 610 e 611 apresentam os resultados referentes ao MSN4

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 43

Figura 610 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 0 erros

Figura 611 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 1 erro

Os resultados para o MSN4 natildeo sofrem alteraccedilotildees assinalaacuteveis em relaccedilatildeo ao meacutetodo anterior

Novamente as caracteriacutesticas do conjunto de dados limitam a possibilidade de evidenciar este

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 44

motivo por via deste teste estatiacutestico o que eacute tanto mais grave quanto o facto de este ser um

dos motivos cuja significacircncia bioloacutegica se encontra melhor estabelecida

As Figuras 612 e 613 apresentam os resultados referentes ao conjunto de dados STE12

Figura 612 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 0 erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 45

Figura 613 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 1 erro

Os dados apresentados natildeo evidenciam melhorias assinalaacuteveis em relaccedilatildeo aos resultados

obtidos por via de shuffling excepto a ocorrecircncia de melhorias ocasionais da classificaccedilatildeo

quando natildeo se admitem erros Estas diferenccedilas podem ser atribuiacutedas ao facto de o meacutetodo

analiacutetico natildeo conservar estritamente os k-mers e de analisar o conjunto de dados na sua

totalidade por oposiccedilatildeo ao shuffling que considera cada sequecircncia isoladamente

No Anexo B apresentamos a totalidade dos resultados desta anaacutelise comparativa No Anexo C

eacute apresentada uma listagem dos resultados do caacutelculo do valor de significacircncia para valores de

k ateacute ao tamanho dos consensos descritos

A grande vantagem deste meacutetodo eacute sem duacutevida o incomparaacutevel ganho a niacutevel de

desempenho computacional Para ilustrar esta afirmaccedilatildeo basta dizer que o caacutelculo da

significacircncia estatiacutestica para todos os conjuntos de dados considerados demorou com o

meacutetodo de shuffling mais de 30 horas de processamento O meacutetodo analiacutetico realizou todos os

caacutelculos em menos de 30 minutos

No entanto os resultados voltam a pocircr em causa a adequaccedilatildeo do teste estatiacutestico do 2 para

aferir a significacircncia bioloacutegica pela dificuldade de sintetizar um meacutetodo geneacuterico para

destacar motivos relevantes de entre os extraiacutedos pelo SMILE

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 46

63 Conclusotildees

Ao considerar os resultados apresentados eacute inevitaacutevel concluir que a significacircncia atribuiacuteda

pelo teste estatiacutestico do 2 aos motivos extraiacutedos pelo SMILE natildeo reflecte a sua significacircncia

bioloacutegica

A dificuldade em distinguir motivos relevantes da grande quantidade de motivos extraiacutedos

potildee em causa a utilidade praacutetica do algoritmo na generalidade dos casos

Para aleacutem desta questatildeo outras limitaccedilotildees tecircm sido apontadas por bioacutelogos designadamente

o facto de o algoritmo natildeo conseguir pesquisar motivos na cadeia de DNA inversa onde os

factores de transcriccedilatildeo podem igualmente ligar-se e o facto de a forma como o SMILE

modela a ocorrecircncia de erros nos motivos natildeo ser compatiacutevel com a necessidade de poder

indicar posiccedilotildees especiacuteficas onde erros satildeo admitidos

No entanto o SMILE continua a exibir resultados interessantes para motivos estruturados o

que constitui sem duacutevida a mais-valia fundamental do algoritmo Tudo indica que o meacutetodo

analiacutetico pode ser igualmente adaptado para calcular a significacircncia de motivos estruturados

Parece-nos claro que uma eficaz extracccedilatildeo de motivos relevantes passaraacute necessariamente

pela conjugaccedilatildeo com outros dados para aleacutem da simples sequecircncia de nucleoacutetidos Em

particular a disponibilidade de informaccedilatildeo acerca de co-regulaccedilatildeo de genes poderaacute guiar a

extracccedilatildeo de motivos permitindo exigir um quoacuterum mais alto dada a confianccedila na existecircncia

de factores de transcriccedilatildeo comuns

Por outro lado a utilizaccedilatildeo de modelos probabiliacutesticos em vez de meras colecccedilotildees de motivos

poderaacute ser uma abordagem mais natural para o problema permitindo simultaneamente uma

melhor modelaccedilatildeo da realidade bioloacutegica ao indicar uma probabilidade de ocorrecircncia de cada

nucleoacutetido para uma dada posiccedilatildeo no modelo O nuacutemero de modelos extraiacutedos seria tambeacutem

francamente reduzido uma vez que um uacutenico modelo probabiliacutestico pode representar com

expressividade acrescida um grande nuacutemero de motivos

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 47

7 Referecircncias

[1] A Vanet L Marsan e M F Sagot Promoter sequence and algorithmical methods for

identifying them Research in Microbiology 150 pp 779-799 1999

[2] JD Watson FH Crick Molecular structure of nucleic acids a structure for deoxyribose

nucleic acid Nature Number 4356 1953

[3] T Werner Models for Prediction and Recognition of Eukaryotic Promoters Mammalian

Genome Vol 10 pp 168-175 1999

[4] L Marsan e M F Sagot Algorithms for extracting structured motifs using a suffix tree

with an application to promoter and regulatory site consensus identication Journal of

Computational Biology 7 pp 345-362 2000

[5] L Marsan Infeacuterence de motifs structureacutes algorithmes et outils appliqueacutes agrave la deacutetection de

sites de fixation dans des seacutequences geacutenomiques PhD Thesis Universiteacute de Marne-la-Valleacutee

2002

[6] B Flannery S Teukolsky W Press e W Vetterling Numerical Recipes in C++

Cambridge University Press 2002

[7] S Altschul e B Erickson Significance of Nucleotide Sequence Alignments A method of

Random Sequence Permutation That Preserves Dinucleotide and Codon Usage Molecular

Biology Evolution 2 pp 526-538 1985

[8] D Kandel Y Matias R Unger e P Winkler Shuffling Biological Sequences Discrete

Appl Math 71 pp 171-185 1996

[9] R Rudell e A Sangiovanni-Vincentelli Multiple-Valued Minimization for PLA

Optimization IEEE Transactions on Computer-Aided Design of Integrated Circuits and

Systems Vol CAD-6 Nordm 5 pp 727-751 September 1987

[10] R Brayton G Hachtel C McMullen e A Sangiovanni-Vincentelli Logic Minimization

Algorithms for VLSI Synthesis Kluwer Academic Publishers 1985

[11] P Monteiro Dbyeast [httpdescartesinesc-idpt~ptgmdb] 2004

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 48

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 49

Anexo A

Resultados do Caacutelculo da Significacircncia Estatiacutestica referente ao Quoacuterum

para Conjuntos de Dados de Saccharomyces cerevisiae

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados

A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos os resultados para os motivos procurados em relaccedilatildeo a cada valor dos paracircmetros

Nota o campo posicao refere-se agrave posiccedilatildeo ocupada pelo motivo na tabela com a estatiacutestica das sequecircncias com pelo menos uma ocorrecircncia do motivo ordenada por chi2

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

314 motivos encontrados Quorum = 80

670 motivos encontrados Quorum = 75

670 motivos encontrados Quorum = 60

1306 motivos encontrados Erro = 1

Quorum = 100 8636 motivos encontrados k = 1 posicao = 2 chi2 = 98 (ACCTTAAAGGT) k = 2 posicao = 2 chi2 = 976 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 965 (ACCTTAAAGGT) k = 4 posicao = 2 chi2 = 984 (ACCTTAAAGGT)

Quorum = 80 17722 motivos encontrados k = 1 posicao = 2 chi2 = 651 (ACCCTAAAGGT) k = 1 posicao = 4 chi2 = 965 (ACCTTAAAGGT) k = 2 posicao = 2 chi2 = 659 (ACCCTAAAGGT) k = 2 posicao = 8 chi2 = 965 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 667 (ACCCTAAAGGT) k = 3 posicao = 4 chi2 = 969 (ACCTTAAAGGT) k = 4 posicao = 2 chi2 = 659 (ACCCTAAAGGT) k = 4 posicao = 3 chi2 = 984 (ACCTTAAAGGT)

Quorum = 75 17722 motivos encontrados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 50

k = 1 posicao = 4 chi2 = 651 (ACCCTAAAGGT) k = 1 posicao = 2 chi2 = 988 (ACCTTAAAGGT) k = 2 posicao = 3 chi2 = 659 (ACCCTAAAGGT) k = 2 posicao = 2 chi2 = 992 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 655 (ACCCTAAAGGT) k = 3 posicao = 3 chi2 = 976 (ACCTTAAAGGT) k = 4 posicao = 3 chi2 = 655 (ACCCTAAAGGT) k = 4 posicao = 5 chi2 = 984 (ACCTTAAAGGT)

Quorum = 60 34907 motivos encontrados k = 1 posicao = 11 chi2 = 655 (ACCCTAAAGGT) k = 1 posicao = 5 chi2 = 996 (ACCTTAAAGGT) k = 1 posicao = 13 chi2 = 421 (ACCTTGAAGGT) k = 2 posicao = 15 chi2 = 647 (ACCCTAAAGGT) k = 2 posicao = 12 chi2 = 969 (ACCTTAAAGGT) k = 2 posicao = 7 chi2 = 421 (ACCTTGAAGGT) k = 3 posicao = 9 chi2 = 655 (ACCCTAAAGGT) k = 3 posicao = 8 chi2 = 984 (ACCTTAAAGGT) k = 3 posicao = 27 chi2 = 414 (ACCTTGAAGGT) k = 4 posicao = 10 chi2 = 651 (ACCCTAAAGGT) k = 4 posicao = 5 chi2 = 984 (ACCTTAAAGGT) k = 4 posicao = 40 chi2 = 407 (ACCTTGAAGGT)

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

161 motivos encontrados Quorum = 80

381 motivos encontrados Quorum = 75

502 motivos encontrados Quorum = 60

826 motivos encontrados k = 1 posicao = 43 chi2 = 33 (CCCCT) k = 2 posicao = 42 chi2 = 202 (CCCCT) k = 3 posicao = 48 chi2 = 142 (CCCCT) k = 4 posicao = 122 chi2 = 028 (CCCCT)

Erro = 1 Quorum = 100

4877 motivos encontrados k = 1 posicao = 3089 chi2 = 002 (CCCCT) k = 2 posicao = 2781 chi2 = 005 (CCCCT) k = 3 posicao = 3148 chi2 = 002 (CCCCT) k = 4 posicao = 2516 chi2 = 007 (CCCCT)

Quorum = 80 10050 motivos encontrados k = 1 posicao = 8449 chi2 = 0 (CCCCT) k = 2 posicao = 5470 chi2 = 009 (CCCCT) k = 3 posicao = 5867 chi2 = 004 (CCCCT) k = 4 posicao = 5131 chi2 = 009 (CCCCT)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 51

Quorum = 75

13080 motivos encontrados k = 1 posicao = 7539 chi2 = 004 (CCCCT) k = 2 posicao = 8129 chi2 = 002 (CCCCT) k = 3 posicao = 7900 chi2 = 003 (CCCCT) k = 4 posicao = 7385 chi2 = 005 (CCCCT)

Quorum = 60 21544 motivos encontrados k = 1 posicao = 12673 chi2 = 004 (CCCCT) k = 2 posicao = 11871 chi2 = 008 (CCCCT) k = 3 posicao = 12731 chi2 = 004 (CCCCT) k = 4 posicao = 11754 chi2 = 007 (CCCCT)

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

326 motivos encontrados Quorum = 80

682 motivos encontrados k = 1 posicao = 169 chi2 = 109 (CCCCT) k = 2 posicao = 238 chi2 = 073 (CCCCT) k = 3 posicao = 223 chi2 = 057 (CCCCT) k = 4 posicao = 331 chi2 = 01 (CCCCT)

Quorum = 75 682 motivos encontrados k = 1 posicao = 136 chi2 = 131 (CCCCT) k = 2 posicao = 178 chi2 = 085 (CCCCT) k = 3 posicao = 245 chi2 = 042 (CCCCT) k = 4 posicao = 331 chi2 = 01 (CCCCT)

Quorum = 60 1316 motivos encontrados k = 1 posicao = 303 chi2 = 17 (CCCCT) k = 2 posicao = 505 chi2 = 075 (CCCCT) k = 3 posicao = 457 chi2 = 059 (CCCCT) k = 4 posicao = 613 chi2 = 014 (CCCCT)

Erro = 1 Quorum = 100

9022 motivos encontrados k = 1 posicao = 7955 chi2 = 0 (CCCCT) k = 2 posicao = 7901 chi2 = 0 (CCCCT) k = 3 posicao = 7846 chi2 = 0 (CCCCT) k = 4 posicao = 7711 chi2 = 0 (CCCCT)

Quorum = 80 17951 motivos encontrados k = 1 posicao = 16310 chi2 = 0 (CCCCT) k = 2 posicao = 16251 chi2 = 0 (CCCCT) k = 3 posicao = 16207 chi2 = 0 (CCCCT) k = 4 posicao = 16091 chi2 = 0 (CCCCT)

Quorum = 75 17951 motivos encontrados k = 1 posicao = 16308 chi2 = 0 (CCCCT)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 52

k = 2 posicao = 16242 chi2 = 0 (CCCCT) k = 3 posicao = 16212 chi2 = 0 (CCCCT) k = 4 posicao = 16063 chi2 = 0 (CCCCT)

Quorum = 60 35258 motivos encontrados k = 1 posicao = 32818 chi2 = 0 (CCCCT) k = 2 posicao = 32757 chi2 = 0 (CCCCT) k = 3 posicao = 32822 chi2 = 0 (CCCCT) k = 4 posicao = 32656 chi2 = 0 (CCCCT)

5_1_gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

220 motivos encontrados Quorum = 80

517 motivos encontrados k = 1 posicao = 52 chi2 = 254 (CTTCC) k = 2 posicao = 87 chi2 = 146 (CTTCC) k = 3 posicao = 164 chi2 = 067 (CTTCC) k = 4 posicao = 236 chi2 = 004 (CTTCC)

Quorum = 75 517 motivos encontrados k = 1 posicao = 77 chi2 = 246 (CTTCC) k = 2 posicao = 83 chi2 = 152 (CTTCC) k = 3 posicao = 99 chi2 = 098 (CTTCC) k = 4 posicao = 241 chi2 = 003 (CTTCC)

Quorum = 60 963 motivos encontrados k = 1 posicao = 625 chi2 = 003 (CATCC) k = 1 posicao = 128 chi2 = 284 (CTTCC) k = 2 posicao = 644 chi2 = 003 (CATCC) k = 2 posicao = 170 chi2 = 177 (CTTCC) k = 3 posicao = 490 chi2 = 015 (CATCC) k = 3 posicao = 256 chi2 = 107 (CTTCC) k = 4 posicao = 522 chi2 = 0 (CATCC) k = 4 posicao = 497 chi2 = 004 (CTTCC)

Erro = 1 Quorum = 100

6121 motivos encontrados k = 1 posicao = 5072 chi2 = 0 (CATCC) k = 1 posicao = 5313 chi2 = 0 (CTTCC) k = 2 posicao = 5049 chi2 = 0 (CATCC) k = 2 posicao = 5287 chi2 = 0 (CTTCC) k = 3 posicao = 4984 chi2 = 0 (CATCC) k = 3 posicao = 5236 chi2 = 0 (CTTCC) k = 4 posicao = 4894 chi2 = 0 (CATCC) k = 4 posicao = 5167 chi2 = 0 (CTTCC)

Quorum = 80 13644 motivos encontrados k = 1 posicao = 11732 chi2 = 0 (CATCC) k = 1 posicao = 11981 chi2 = 0 (CTTCC)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 53

k = 2 posicao = 11792 chi2 = 0 (CATCC) k = 2 posicao = 12044 chi2 = 0 (CTTCC) k = 3 posicao = 11736 chi2 = 0 (CATCC) k = 3 posicao = 11985 chi2 = 0 (CTTCC) k = 4 posicao = 11644 chi2 = 0 (CATCC) k = 4 posicao = 11917 chi2 = 0 (CTTCC)

Quorum = 75 13644 motivos encontrados k = 1 posicao = 11712 chi2 = 0 (CATCC) k = 1 posicao = 11966 chi2 = 0 (CTTCC) k = 2 posicao = 11791 chi2 = 0 (CATCC) k = 2 posicao = 12027 chi2 = 0 (CTTCC) k = 3 posicao = 11729 chi2 = 0 (CATCC) k = 3 posicao = 11981 chi2 = 0 (CTTCC) k = 4 posicao = 11649 chi2 = 0 (CATCC) k = 4 posicao = 11920 chi2 = 0 (CTTCC)

Quorum = 60 25804 motivos encontrados k = 1 posicao = 22732 chi2 = 0 (CATCC) k = 1 posicao = 22973 chi2 = 0 (CTTCC) k = 2 posicao = 22881 chi2 = 0 (CATCC) k = 2 posicao = 23121 chi2 = 0 (CTTCC) k = 3 posicao = 22916 chi2 = 0 (CATCC) k = 3 posicao = 23164 chi2 = 0 (CTTCC) k = 4 posicao = 22864 chi2 = 0 (CATCC) k = 4 posicao = 23141 chi2 = 0 (CTTCC)

6_0_MIG1

Motivo GCGGGG Frequecircncia 16 ~167 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

290 motivos encontrados Quorum = 80

556 motivos encontrados Quorum = 75

556 motivos encontrados Quorum = 60

927 motivos encontrados Erro = 1

Quorum = 100 7881 motivos encontrados k = 1 posicao = 650 chi2 = 252 (GCGGGG) k = 2 posicao = 773 chi2 = 173 (GCGGGG) k = 3 posicao = 1341 chi2 = 101 (GCGGGG) k = 4 posicao = 4437 chi2 = 052 (GCGGGG)

Quorum = 80 14601 motivos encontrados k = 1 posicao = 1895 chi2 = 249 (GCGGGG) k = 2 posicao = 2045 chi2 = 161 (GCGGGG) k = 3 posicao = 3284 chi2 = 11 (GCGGGG) k = 4 posicao = 7272 chi2 = 05 (GCGGGG)

Quorum = 75

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 54

14601 motivos encontrados k = 1 posicao = 2121 chi2 = 234 (GCGGGG) k = 2 posicao = 2604 chi2 = 153 (GCGGGG) k = 3 posicao = 3778 chi2 = 089 (GCGGGG) k = 4 posicao = 8057 chi2 = 047 (GCGGGG)

Quorum = 60 25117 motivos encontrados k = 1 posicao = 4371 chi2 = 234 (GCGGGG) k = 2 posicao = 5452 chi2 = 153 (GCGGGG) k = 3 posicao = 7361 chi2 = 116 (GCGGGG) k = 4 posicao = 12643 chi2 = 051 (GCGGGG)

6_0_UME6

Motivo GCCGCC Frequecircncia 37 ~4286 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

257 motivos encontrados Quorum = 80

454 motivos encontrados Quorum = 75

454 motivos encontrados Quorum = 60

748 motivos encontrados Erro = 1

Quorum = 100 7186 motivos encontrados

Quorum = 80 12323 motivos encontrados

Quorum = 75 12323 motivos encontrados

Quorum = 60 19726 motivos encontrados k = 1 posicao = 13214 chi2 = 002 (GCCGCC) k = 2 posicao = 14628 chi2 = 0 (GCCGCC) k = 3 posicao = 14684 chi2 = 0 (GCCGCC) k = 4 posicao = 15398 chi2 = 002 (GCCGCC)

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

173 motivos encontrados Quorum = 80

403 motivos encontrados Quorum = 75

530 motivos encontrados k = 1 posicao = 6 chi2 = 755 (GATAAG)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 55

k = 2 posicao = 3 chi2 = 892 (GATAAG) k = 3 posicao = 3 chi2 = 725 (GATAAG) k = 4 posicao = 12 chi2 = 457 (GATAAG)

Quorum = 60 836 motivos encontrados k = 1 posicao = 24 chi2 = 771 (GATAAG) k = 2 posicao = 7 chi2 = 94 (GATAAG) k = 3 posicao = 12 chi2 = 719 (GATAAG) k = 4 posicao = 25 chi2 = 48 (GATAAG)

Erro = 1 Quorum = 100

5360 motivos encontrados k = 1 posicao = 2690 chi2 = 012 (GATAAG) k = 1 posicao = 3118 chi2 = 008 (GATTAG) k = 2 posicao = 2917 chi2 = 01 (GATAAG) k = 2 posicao = 2424 chi2 = 02 (GATTAG) k = 3 posicao = 3096 chi2 = 007 (GATAAG) k = 3 posicao = 1982 chi2 = 033 (GATTAG) k = 4 posicao = 3004 chi2 = 007 (GATAAG) k = 4 posicao = 2767 chi2 = 01 (GATTAG)

Quorum = 80 10819 motivos encontrados k = 1 posicao = 6729 chi2 = 011 (GATAAG) k = 1 posicao = 6816 chi2 = 009 (GATTAG) k = 2 posicao = 6240 chi2 = 013 (GATAAG) k = 2 posicao = 6446 chi2 = 011 (GATTAG) k = 3 posicao = 7301 chi2 = 004 (GATAAG) k = 3 posicao = 4235 chi2 = 053 (GATTAG) k = 4 posicao = 7045 chi2 = 004 (GATAAG) k = 4 posicao = 6317 chi2 = 012 (GATTAG)

Quorum = 75 13889 motivos encontrados k = 1 posicao = 9061 chi2 = 007 (GATAAG) k = 1 posicao = 8672 chi2 = 01 (GATTAG) k = 2 posicao = 8095 chi2 = 016 (GATAAG) k = 2 posicao = 8763 chi2 = 01 (GATTAG) k = 3 posicao = 8965 chi2 = 008 (GATAAG) k = 3 posicao = 6907 chi2 = 036 (GATTAG) k = 4 posicao = 8966 chi2 = 006 (GATAAG) k = 4 posicao = 8323 chi2 = 011 (GATTAG)

Quorum = 60 22209 motivos encontrados k = 1 posicao = 14904 chi2 = 008 (GATAAG) k = 1 posicao = 14384 chi2 = 013 (GATTAG) k = 2 posicao = 13923 chi2 = 015 (GATAAG) k = 2 posicao = 13902 chi2 = 015 (GATTAG) k = 3 posicao = 14932 chi2 = 008 (GATAAG) k = 3 posicao = 11534 chi2 = 046 (GATTAG) k = 4 posicao = 14680 chi2 = 007 (GATAAG) k = 4 posicao = 13878 chi2 = 017 (GATTAG)

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 56

Erro = 0 Quorum = 100

128 motivos encontrados Quorum = 80

372 motivos encontrados Quorum = 75

454 motivos encontrados Quorum = 60

785 motivos encontrados Erro = 1

Quorum = 100 4212 motivos encontrados k = 1 posicao = 326 chi2 = 14 (CACCCA) k = 2 posicao = 594 chi2 = 108 (CACCCA) k = 3 posicao = 244 chi2 = 107 (CACCCA) k = 4 posicao = 1210 chi2 = 038 (CACCCA)

Quorum = 80 9800 motivos encontrados k = 1 posicao = 1302 chi2 = 157 (CACCCA) k = 1 posicao = 2061 chi2 = 087 (CACCCG) k = 2 posicao = 2058 chi2 = 117 (CACCCA) k = 2 posicao = 2522 chi2 = 059 (CACCCG) k = 3 posicao = 1624 chi2 = 106 (CACCCA) k = 3 posicao = 2994 chi2 = 045 (CACCCG) k = 4 posicao = 2703 chi2 = 05 (CACCCA) k = 4 posicao = 3926 chi2 = 011 (CACCCG)

Quorum = 75 11933 motivos encontrados k = 1 posicao = 1951 chi2 = 145 (CACCCA) k = 1 posicao = 2903 chi2 = 081 (CACCCG) k = 2 posicao = 2227 chi2 = 116 (CACCCA) k = 2 posicao = 3417 chi2 = 062 (CACCCG) k = 3 posicao = 2137 chi2 = 108 (CACCCA) k = 3 posicao = 3426 chi2 = 041 (CACCCG) k = 4 posicao = 4518 chi2 = 031 (CACCCA) k = 4 posicao = 4805 chi2 = 012 (CACCCG)

Quorum = 60 20531 motivos encontrados k = 1 posicao = 5137 chi2 = 144 (CACCCA) k = 1 posicao = 5556 chi2 = 073 (CACCCG) k = 2 posicao = 4865 chi2 = 113 (CACCCA) k = 2 posicao = 5737 chi2 = 062 (CACCCG) k = 3 posicao = 4491 chi2 = 097 (CACCCA) k = 3 posicao = 5797 chi2 = 052 (CACCCG) k = 4 posicao = 7825 chi2 = 041 (CACCCA) k = 4 posicao = 7275 chi2 = 018 (CACCCG)

7_0_REB1

Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

211 motivos encontrados k = 1 posicao = 4 chi2 = 965 (TTACCC)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 57

k = 2 posicao = 4 chi2 = 105 (TTACCC) k = 3 posicao = 4 chi2 = 1075 (TTACCC) k = 4 posicao = 4 chi2 = 755 (TTACCC)

Quorum = 80 405 motivos encontrados k = 1 posicao = 4 chi2 = 932 (TTACCC) k = 2 posicao = 4 chi2 = 1083 (TTACCC) k = 3 posicao = 4 chi2 = 1106 (TTACCC) k = 4 posicao = 4 chi2 = 723 (TTACCC)

Quorum = 75 605 motivos encontrados k = 1 posicao = 6 chi2 = 947 (TTACCC) k = 2 posicao = 5 chi2 = 999 (TTACCC) k = 3 posicao = 5 chi2 = 1098 (TTACCC) k = 4 posicao = 5 chi2 = 808 (TTACCC)

Quorum = 60 907 motivos encontrados k = 1 posicao = 9 chi2 = 1007 (TTACCC) k = 2 posicao = 6 chi2 = 1089 (TTACCC) k = 3 posicao = 6 chi2 = 1081 (TTACCC) k = 4 posicao = 6 chi2 = 788 (TTACCC)

Erro = 1 Quorum = 100

6121 motivos encontrados k = 1 posicao = 4617 chi2 = 013 (TTACCC) k = 2 posicao = 4454 chi2 = 016 (TTACCC) k = 3 posicao = 4730 chi2 = 012 (TTACCC) k = 4 posicao = 5483 chi2 = 004 (TTACCC)

Quorum = 80 10337 motivos encontrados k = 1 posicao = 7525 chi2 = 008 (TTACCC) k = 2 posicao = 7267 chi2 = 01 (TTACCC) k = 3 posicao = 7129 chi2 = 012 (TTACCC) k = 4 posicao = 7469 chi2 = 009 (TTACCC)

Quorum = 75 15777 motivos encontrados k = 1 posicao = 10287 chi2 = 012 (TTACCC) k = 2 posicao = 10740 chi2 = 01 (TTACCC) k = 3 posicao = 9696 chi2 = 016 (TTACCC) k = 4 posicao = 10789 chi2 = 008 (TTACCC)

Quorum = 60 23856 motivos encontrados k = 1 posicao = 15646 chi2 = 01 (TTACCC) k = 2 posicao = 15437 chi2 = 012 (TTACCC) k = 3 posicao = 13932 chi2 = 022 (TTACCC) k = 4 posicao = 15597 chi2 = 009 (TTACCC)

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

235 motivos encontrados Quorum = 80

475 motivos encontrados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 58

k = 1 posicao = 3 chi2 = 945 (TGCCAAG) k = 2 posicao = 2 chi2 = 92 (TGCCAAG) k = 3 posicao = 2 chi2 = 892 (TGCCAAG) k = 4 posicao = 3 chi2 = 7 (TGCCAAG)

Quorum = 75 475 motivos encontrados k = 1 posicao = 2 chi2 = 924 (TGCCAAG) k = 2 posicao = 3 chi2 = 886 (TGCCAAG) k = 3 posicao = 3 chi2 = 869 (TGCCAAG) k = 4 posicao = 2 chi2 = 678 (TGCCAAG)

Quorum = 60 785 motivos encontrados k = 1 posicao = 5 chi2 = 952 (TGCCAAG) k = 2 posicao = 4 chi2 = 934 (TGCCAAG) k = 3 posicao = 4 chi2 = 869 (TGCCAAG) k = 4 posicao = 6 chi2 = 67 (TGCCAAG)

Erro = 1 Quorum = 100

7028 motivos encontrados k = 1 posicao = 436 chi2 = 321 (TGCCAAG) k = 2 posicao = 551 chi2 = 217 (TGCCAAG) k = 3 posicao = 940 chi2 = 223 (TGCCAAG) k = 4 posicao = 1492 chi2 = 095 (TGCCAAG)

Quorum = 80 12574 motivos encontrados k = 1 posicao = 1703 chi2 = 325 (TGCCAAG) k = 2 posicao = 2035 chi2 = 244 (TGCCAAG) k = 3 posicao = 1678 chi2 = 217 (TGCCAAG) k = 4 posicao = 3298 chi2 = 093 (TGCCAAG)

Quorum = 75 12574 motivos encontrados k = 1 posicao = 1739 chi2 = 333 (TGCCAAG) k = 2 posicao = 1717 chi2 = 216 (TGCCAAG) k = 3 posicao = 1609 chi2 = 212 (TGCCAAG) k = 4 posicao = 3574 chi2 = 075 (TGCCAAG)

Quorum = 60 20257 motivos encontrados k = 1 posicao = 3598 chi2 = 304 (TGCCAAG) k = 2 posicao = 3664 chi2 = 211 (TGCCAAG) k = 3 posicao = 3206 chi2 = 213 (TGCCAAG) k = 4 posicao = 4753 chi2 = 115 (TGCCAAG)

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

267 motivos encontrados k = 1 posicao = 4 chi2 = 998 (TGAAACA) k = 2 posicao = 5 chi2 = 908 (TGAAACA) k = 3 posicao = 5 chi2 = 875 (TGAAACA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 59

k = 4 posicao = 4 chi2 = 743 (TGAAACA)

Quorum = 80 529 motivos encontrados k = 1 posicao = 4 chi2 = 969 (TGAAACA) k = 2 posicao = 6 chi2 = 84 (TGAAACA) k = 3 posicao = 5 chi2 = 845 (TGAAACA) k = 4 posicao = 5 chi2 = 702 (TGAAACA)

Quorum = 75 529 motivos encontrados k = 1 posicao = 6 chi2 = 933 (TGAAACA) k = 2 posicao = 5 chi2 = 866 (TGAAACA) k = 3 posicao = 5 chi2 = 86 (TGAAACA) k = 4 posicao = 5 chi2 = 717 (TGAAACA)

Quorum = 60 916 motivos encontrados k = 1 posicao = 12 chi2 = 956 (TGAAACA) k = 2 posicao = 13 chi2 = 893 (TGAAACA) k = 3 posicao = 16 chi2 = 84 (TGAAACA) k = 4 posicao = 18 chi2 = 715 (TGAAACA)

Erro = 1 Quorum = 100

7705 motivos encontrados k = 1 posicao = 4203 chi2 = 055 (TGAAACA) k = 2 posicao = 5562 chi2 = 02 (TGAAACA) k = 3 posicao = 5481 chi2 = 021 (TGAAACA) k = 4 posicao = 6219 chi2 = 012 (TGAAACA)

Quorum = 80 14161 motivos encontrados k = 1 posicao = 8113 chi2 = 052 (TGAAACA) k = 2 posicao = 9261 chi2 = 022 (TGAAACA) k = 3 posicao = 8536 chi2 = 029 (TGAAACA) k = 4 posicao = 10343 chi2 = 01 (TGAAACA)

Quorum = 75 14161 motivos encontrados k = 1 posicao = 7156 chi2 = 066 (TGAAACA) k = 2 posicao = 8778 chi2 = 028 (TGAAACA) k = 3 posicao = 8848 chi2 = 034 (TGAAACA) k = 4 posicao = 9747 chi2 = 015 (TGAAACA)

Quorum = 60 24421 motivos encontrados k = 1 posicao = 12918 chi2 = 049 (TGAAACA) k = 2 posicao = 15781 chi2 = 024 (TGAAACA) k = 3 posicao = 13941 chi2 = 03 (TGAAACA) k = 4 posicao = 16147 chi2 = 017 (TGAAACA)

7_1_SWI4

Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

330 motivos encontrados Quorum = 80

675 motivos encontrados k = 1 posicao = 3 chi2 = 575 (CGCGAAA) k = 2 posicao = 3 chi2 = 483 (CGCGAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 60

k = 3 posicao = 11 chi2 = 395 (CGCGAAA) k = 4 posicao = 5 chi2 = 367 (CGCGAAA)

Quorum = 75 675 motivos encontrados k = 1 posicao = 2 chi2 = 6 (CGCGAAA) k = 2 posicao = 4 chi2 = 504 (CGCGAAA) k = 3 posicao = 14 chi2 = 372 (CGCGAAA) k = 4 posicao = 14 chi2 = 343 (CGCGAAA)

Quorum = 60 1349 motivos encontrados k = 1 posicao = 50 chi2 = 31 (CACGAAA) k = 1 posicao = 8 chi2 = 569 (CGCGAAA) k = 2 posicao = 81 chi2 = 26 (CACGAAA) k = 2 posicao = 20 chi2 = 48 (CGCGAAA) k = 3 posicao = 117 chi2 = 21 (CACGAAA) k = 3 posicao = 47 chi2 = 37 (CGCGAAA) k = 4 posicao = 309 chi2 = 056 (CACGAAA) k = 4 posicao = 33 chi2 = 367 (CGCGAAA)

Erro = 1 Quorum = 100

8974 motivos encontrados k = 1 posicao = 2630 chi2 = 093 (CACGAAA) k = 1 posicao = 1189 chi2 = 212 (CGCGAAA) k = 2 posicao = 3046 chi2 = 07 (CACGAAA) k = 2 posicao = 2138 chi2 = 101 (CGCGAAA) k = 3 posicao = 4224 chi2 = 03 (CACGAAA) k = 3 posicao = 4064 chi2 = 04 (CGCGAAA) k = 4 posicao = 5230 chi2 = 012 (CACGAAA) k = 4 posicao = 4771 chi2 = 018 (CGCGAAA)

Quorum = 80 17937 motivos encontrados k = 1 posicao = 6152 chi2 = 107 (CACGAAA) k = 1 posicao = 3575 chi2 = 211 (CGCGAAA) k = 2 posicao = 7073 chi2 = 071 (CACGAAA) k = 2 posicao = 6979 chi2 = 078 (CGCGAAA) k = 3 posicao = 9212 chi2 = 035 (CACGAAA) k = 3 posicao = 8502 chi2 = 038 (CGCGAAA) k = 4 posicao = 10421 chi2 = 017 (CACGAAA) k = 4 posicao = 9629 chi2 = 026 (CGCGAAA)

Quorum = 75 17937 motivos encontrados k = 1 posicao = 6271 chi2 = 104 (CACGAAA) k = 1 posicao = 4092 chi2 = 171 (CGCGAAA) k = 2 posicao = 8574 chi2 = 052 (CACGAAA) k = 2 posicao = 5741 chi2 = 107 (CGCGAAA) k = 3 posicao = 10092 chi2 = 026 (CACGAAA) k = 3 posicao = 8743 chi2 = 044 (CGCGAAA) k = 4 posicao = 11741 chi2 = 009 (CACGAAA) k = 4 posicao = 9601 chi2 = 022 (CGCGAAA)

Quorum = 60 35352 motivos encontrados k = 1 posicao = 15854 chi2 = 094 (CACGAAA) k = 1 posicao = 9842 chi2 = 196 (CGCGAAA) k = 2 posicao = 18655 chi2 = 063 (CACGAAA) k = 2 posicao = 16854 chi2 = 093 (CGCGAAA) k = 3 posicao = 21349 chi2 = 025 (CACGAAA) k = 3 posicao = 19789 chi2 = 036 (CGCGAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 61

k = 4 posicao = 22509 chi2 = 016 (CACGAAA) k = 4 posicao = 21049 chi2 = 027 (CGCGAAA)

7_2_GCN4

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

229 motivos encontrados Quorum = 80

372 motivos encontrados Quorum = 75

586 motivos encontrados Quorum = 60

839 motivos encontrados Erro = 1

Quorum = 100 6343 motivos encontrados

Quorum = 80 10422 motivos encontrados

Quorum = 75 15227 motivos encontrados

Quorum = 60 21609 motivos encontrados

7_2_RGT1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

205 motivos encontrados Quorum = 80

496 motivos encontrados k = 1 posicao = 4 chi2 = 1052 (CGGAAAA) k = 2 posicao = 2 chi2 = 883 (CGGAAAA) k = 3 posicao = 2 chi2 = 692 (CGGAAAA) k = 4 posicao = 10 chi2 = 308 (CGGAAAA)

Quorum = 75 496 motivos encontrados k = 1 posicao = 4 chi2 = 1101 (CGGAAAA) k = 2 posicao = 3 chi2 = 855 (CGGAAAA) k = 3 posicao = 4 chi2 = 685 (CGGAAAA) k = 4 posicao = 9 chi2 = 338 (CGGAAAA)

Quorum = 60 987 motivos encontrados k = 1 posicao = 10 chi2 = 1087 (CGGAAAA) k = 2 posicao = 11 chi2 = 792 (CGGAAAA) k = 3 posicao = 10 chi2 = 637 (CGGAAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 62

k = 4 posicao = 27 chi2 = 333 (CGGAAAA)

Erro = 1 Quorum = 100

6085 motivos encontrados k = 1 posicao = 740 chi2 = 226 (CGGAAAA) k = 1 posicao = 244 chi2 = 442 (CGGAAGA) k = 1 posicao = 375 chi2 = 415 (CGGAGAA) k = 1 posicao = 795 chi2 = 205 (CGGATAA) k = 2 posicao = 1431 chi2 = 069 (CGGAAAA) k = 2 posicao = 350 chi2 = 257 (CGGAAGA) k = 2 posicao = 313 chi2 = 281 (CGGAGAA) k = 2 posicao = 403 chi2 = 257 (CGGATAA) k = 3 posicao = 2933 chi2 = 015 (CGGAAAA) k = 3 posicao = 543 chi2 = 161 (CGGAAGA) k = 3 posicao = 758 chi2 = 162 (CGGAGAA) k = 3 posicao = 334 chi2 = 242 (CGGATAA) k = 4 posicao = 3388 chi2 = 006 (CGGAAAA) k = 4 posicao = 944 chi2 = 088 (CGGAAGA) k = 4 posicao = 682 chi2 = 096 (CGGAGAA) k = 4 posicao = 448 chi2 = 157 (CGGATAA)

Quorum = 80 13578 motivos encontrados k = 1 posicao = 2782 chi2 = 211 (CGGAAAA) k = 1 posicao = 1309 chi2 = 443 (CGGAAGA) k = 1 posicao = 9793 chi2 = 0 (CGGAATA) k = 1 posicao = 1525 chi2 = 436 (CGGAGAA) k = 1 posicao = 1267 chi2 = 351 (CGGAGGA) k = 1 posicao = 2001 chi2 = 282 (CGGATAA) k = 1 posicao = 4454 chi2 = 055 (CGGATTA) k = 2 posicao = 4354 chi2 = 063 (CGGAAAA) k = 2 posicao = 1547 chi2 = 273 (CGGAAGA) k = 2 posicao = 7920 chi2 = 004 (CGGAATA) k = 2 posicao = 2260 chi2 = 262 (CGGAGAA) k = 2 posicao = 1049 chi2 = 271 (CGGAGGA) k = 2 posicao = 1502 chi2 = 271 (CGGATAA) k = 2 posicao = 3568 chi2 = 083 (CGGATTA) k = 3 posicao = 6889 chi2 = 02 (CGGAAAA) k = 3 posicao = 2122 chi2 = 16 (CGGAAGA) k = 3 posicao = 10332 chi2 = 01 (CGGAATA) k = 3 posicao = 2408 chi2 = 144 (CGGAGAA) k = 3 posicao = 1273 chi2 = 214 (CGGAGGA) k = 3 posicao = 1406 chi2 = 211 (CGGATAA) k = 3 posicao = 1203 chi2 = 189 (CGGATTA) k = 4 posicao = 8380 chi2 = 003 (CGGAAAA) k = 4 posicao = 4250 chi2 = 074 (CGGAAGA) k = 4 posicao = 12881 chi2 = 037 (CGGAATA) k = 4 posicao = 3392 chi2 = 088 (CGGAGAA) k = 4 posicao = 1278 chi2 = 162 (CGGAGGA) k = 4 posicao = 1930 chi2 = 148 (CGGATAA) k = 4 posicao = 1157 chi2 = 136 (CGGATTA)

Quorum = 75 13578 motivos encontrados k = 1 posicao = 2620 chi2 = 264 (CGGAAAA) k = 1 posicao = 1452 chi2 = 443 (CGGAAGA) k = 1 posicao = 8943 chi2 = 001 (CGGAATA) k = 1 posicao = 1121 chi2 = 446 (CGGAGAA) k = 1 posicao = 965 chi2 = 424 (CGGAGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 63

k = 1 posicao = 2453 chi2 = 246 (CGGATAA) k = 1 posicao = 3571 chi2 = 086 (CGGATTA) k = 2 posicao = 4690 chi2 = 069 (CGGAAAA) k = 2 posicao = 1475 chi2 = 255 (CGGAAGA) k = 2 posicao = 7150 chi2 = 01 (CGGAATA) k = 2 posicao = 1209 chi2 = 259 (CGGAGAA) k = 2 posicao = 837 chi2 = 274 (CGGAGGA) k = 2 posicao = 1900 chi2 = 268 (CGGATAA) k = 2 posicao = 3981 chi2 = 066 (CGGATTA) k = 3 posicao = 6549 chi2 = 022 (CGGAAAA) k = 3 posicao = 1447 chi2 = 191 (CGGAAGA) k = 3 posicao = 10656 chi2 = 018 (CGGAATA) k = 3 posicao = 2435 chi2 = 155 (CGGAGAA) k = 3 posicao = 1026 chi2 = 21 (CGGAGGA) k = 3 posicao = 1469 chi2 = 233 (CGGATAA) k = 3 posicao = 1202 chi2 = 189 (CGGATTA) k = 4 posicao = 11692 chi2 = 0 (CGGAAAA) k = 4 posicao = 3717 chi2 = 077 (CGGAAGA) k = 4 posicao = 10890 chi2 = 035 (CGGAATA) k = 4 posicao = 3482 chi2 = 087 (CGGAGAA) k = 4 posicao = 1187 chi2 = 168 (CGGAGGA) k = 4 posicao = 1746 chi2 = 148 (CGGATAA) k = 4 posicao = 1204 chi2 = 149 (CGGATTA)

Quorum = 60 25839 motivos encontrados k = 1 posicao = 5870 chi2 = 247 (CGGAAAA) k = 1 posicao = 4726 chi2 = 405 (CGGAAGA) k = 1 posicao = 18076 chi2 = 0 (CGGAATA) k = 1 posicao = 3940 chi2 = 388 (CGGAGAA) k = 1 posicao = 3424 chi2 = 384 (CGGAGGA) k = 1 posicao = 15679 chi2 = 005 (CGGAGTA) k = 1 posicao = 6177 chi2 = 245 (CGGATAA) k = 1 posicao = 15167 chi2 = 008 (CGGATGA) k = 1 posicao = 11165 chi2 = 059 (CGGATTA) k = 2 posicao = 11428 chi2 = 046 (CGGAAAA) k = 2 posicao = 4811 chi2 = 242 (CGGAAGA) k = 2 posicao = 16216 chi2 = 003 (CGGAATA) k = 2 posicao = 4128 chi2 = 226 (CGGAGAA) k = 2 posicao = 3005 chi2 = 278 (CGGAGGA) k = 2 posicao = 10245 chi2 = 04 (CGGAGTA) k = 2 posicao = 3437 chi2 = 3 (CGGATAA) k = 2 posicao = 10379 chi2 = 033 (CGGATGA) k = 2 posicao = 8888 chi2 = 072 (CGGATTA) k = 3 posicao = 13836 chi2 = 017 (CGGAAAA) k = 3 posicao = 4943 chi2 = 191 (CGGAAGA) k = 3 posicao = 20550 chi2 = 01 (CGGAATA) k = 3 posicao = 6774 chi2 = 155 (CGGAGAA) k = 3 posicao = 2524 chi2 = 222 (CGGAGGA) k = 3 posicao = 13828 chi2 = 01 (CGGAGTA) k = 3 posicao = 4859 chi2 = 197 (CGGATAA) k = 3 posicao = 9284 chi2 = 029 (CGGATGA) k = 3 posicao = 3146 chi2 = 179 (CGGATTA) k = 4 posicao = 17095 chi2 = 001 (CGGAAAA) k = 4 posicao = 7930 chi2 = 083 (CGGAAGA) k = 4 posicao = 24667 chi2 = 051 (CGGAATA) k = 4 posicao = 9042 chi2 = 083 (CGGAGAA) k = 4 posicao = 3884 chi2 = 147 (CGGAGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 64

k = 4 posicao = 13905 chi2 = 007 (CGGAGTA) k = 4 posicao = 4859 chi2 = 156 (CGGATAA) k = 4 posicao = 14606 chi2 = 005 (CGGATGA) k = 4 posicao = 3783 chi2 = 127 (CGGATTA)

8_1_PDR1

Motivo TCCGYGGA Frequecircncia 68 ~75 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

229 motivos encontrados Quorum = 80

416 motivos encontrados Quorum = 75

639 motivos encontrados k = 1 posicao = 2 chi2 = 96 (TCCGCGGA) k = 2 posicao = 2 chi2 = 941 (TCCGCGGA) k = 3 posicao = 2 chi2 = 915 (TCCGCGGA) k = 4 posicao = 2 chi2 = 674 (TCCGCGGA)

Quorum = 60 950 motivos encontrados k = 1 posicao = 4 chi2 = 937 (TCCGCGGA) k = 2 posicao = 3 chi2 = 933 (TCCGCGGA) k = 3 posicao = 3 chi2 = 926 (TCCGCGGA) k = 4 posicao = 3 chi2 = 686 (TCCGCGGA)

Erro = 1 Quorum = 100

6610 motivos encontrados k = 1 posicao = 8 chi2 = 1095 (TCCGCGGA) k = 1 posicao = 15 chi2 = 1007 (TCCGTGGA) k = 2 posicao = 8 chi2 = 1092 (TCCGCGGA) k = 2 posicao = 18 chi2 = 1039 (TCCGTGGA) k = 3 posicao = 11 chi2 = 907 (TCCGCGGA) k = 3 posicao = 9 chi2 = 881 (TCCGTGGA) k = 4 posicao = 18 chi2 = 517 (TCCGCGGA) k = 4 posicao = 8 chi2 = 759 (TCCGTGGA)

Quorum = 80 11058 motivos encontrados k = 1 posicao = 32 chi2 = 1126 (TCCGCGGA) k = 1 posicao = 48 chi2 = 1053 (TCCGTGGA) k = 2 posicao = 21 chi2 = 1053 (TCCGCGGA) k = 2 posicao = 19 chi2 = 1098 (TCCGTGGA) k = 3 posicao = 29 chi2 = 881 (TCCGCGGA) k = 3 posicao = 60 chi2 = 808 (TCCGTGGA) k = 4 posicao = 97 chi2 = 509 (TCCGCGGA) k = 4 posicao = 42 chi2 = 698 (TCCGTGGA)

Quorum = 75 16695 motivos encontrados k = 1 posicao = 92 chi2 = 1126 (TCCGCGGA) k = 1 posicao = 178 chi2 = 1026 (TCCGTGGA) k = 2 posicao = 70 chi2 = 1092 (TCCGCGGA) k = 2 posicao = 73 chi2 = 1069 (TCCGTGGA) k = 3 posicao = 64 chi2 = 983 (TCCGCGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 65

k = 3 posicao = 83 chi2 = 898 (TCCGTGGA) k = 4 posicao = 336 chi2 = 48 (TCCGCGGA) k = 4 posicao = 130 chi2 = 657 (TCCGTGGA)

Quorum = 60 25049 motivos encontrados k = 1 posicao = 220 chi2 = 1135 (TCCGCGGA) k = 1 posicao = 369 chi2 = 1004 (TCCGTGGA) k = 2 posicao = 83 chi2 = 1159 (TCCGCGGA) k = 2 posicao = 263 chi2 = 1045 (TCCGTGGA) k = 3 posicao = 134 chi2 = 883 (TCCGCGGA) k = 3 posicao = 206 chi2 = 857 (TCCGTGGA) k = 4 posicao = 580 chi2 = 488 (TCCGCGGA) k = 4 posicao = 213 chi2 = 67 (TCCGTGGA)

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

241 motivos encontrados Quorum = 80

423 motivos encontrados k = 1 posicao = 2 chi2 = 1237 (TCCGCGGA) k = 2 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 3 posicao = 2 chi2 = 1229 (TCCGCGGA) k = 4 posicao = 2 chi2 = 915 (TCCGCGGA)

Quorum = 75 667 motivos encontrados k = 1 posicao = 2 chi2 = 1237 (TCCGCGGA) k = 2 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 3 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 4 posicao = 2 chi2 = 909 (TCCGCGGA)

Quorum = 60 1024 motivos encontrados k = 1 posicao = 3 chi2 = 1233 (TCCGCGGA) k = 2 posicao = 4 chi2 = 124 (TCCGCGGA) k = 3 posicao = 3 chi2 = 1221 (TCCGCGGA) k = 4 posicao = 5 chi2 = 918 (TCCGCGGA)

Erro = 1 Quorum = 100

6897 motivos encontrados k = 1 posicao = 17 chi2 = 1115 (TCCGCGGA) k = 1 posicao = 24 chi2 = 1026 (TCCGTGGA) k = 2 posicao = 12 chi2 = 1174 (TCCGCGGA) k = 2 posicao = 10 chi2 = 1138 (TCCGTGGA) k = 3 posicao = 17 chi2 = 945 (TCCGCGGA) k = 3 posicao = 29 chi2 = 827 (TCCGTGGA) k = 4 posicao = 65 chi2 = 481 (TCCGCGGA) k = 4 posicao = 39 chi2 = 616 (TCCGTGGA)

Quorum = 80 11592 motivos encontrados k = 1 posicao = 69 chi2 = 1156 (TCCGCGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 66

k = 1 posicao = 117 chi2 = 1012 (TCCGTGGA) k = 2 posicao = 38 chi2 = 1177 (TCCGCGGA) k = 2 posicao = 69 chi2 = 1061 (TCCGTGGA) k = 3 posicao = 76 chi2 = 893 (TCCGCGGA) k = 3 posicao = 53 chi2 = 817 (TCCGTGGA) k = 4 posicao = 131 chi2 = 526 (TCCGCGGA) k = 4 posicao = 61 chi2 = 638 (TCCGTGGA)

Quorum = 75 17555 motivos encontrados k = 1 posicao = 210 chi2 = 1109 (TCCGCGGA) k = 1 posicao = 265 chi2 = 1061 (TCCGTGGA) k = 2 posicao = 78 chi2 = 115 (TCCGCGGA) k = 2 posicao = 102 chi2 = 1109 (TCCGTGGA) k = 3 posicao = 184 chi2 = 905 (TCCGCGGA) k = 3 posicao = 105 chi2 = 85 (TCCGTGGA) k = 4 posicao = 424 chi2 = 451 (TCCGCGGA) k = 4 posicao = 476 chi2 = 582 (TCCGTGGA)

Quorum = 60 26303 motivos encontrados k = 1 posicao = 433 chi2 = 1118 (TCCGCGGA) k = 1 posicao = 521 chi2 = 991 (TCCGTGGA) k = 2 posicao = 237 chi2 = 1064 (TCCGCGGA) k = 2 posicao = 322 chi2 = 1045 (TCCGTGGA) k = 3 posicao = 316 chi2 = 95 (TCCGCGGA) k = 3 posicao = 415 chi2 = 827 (TCCGTGGA) k = 4 posicao = 978 chi2 = 49 (TCCGCGGA) k = 4 posicao = 1277 chi2 = 616 (TCCGTGGA)

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

328 motivos encontrados Quorum = 80

685 motivos encontrados Quorum = 75

685 motivos encontrados Quorum = 60

1319 motivos encontrados k = 1 posicao = 4 chi2 = 411 (TCCGTGGA) k = 2 posicao = 2 chi2 = 421 (TCCGTGGA) k = 3 posicao = 2 chi2 = 407 (TCCGTGGA) k = 4 posicao = 3 chi2 = 354 (TCCGTGGA)

Erro = 1 Quorum = 100

9298 motivos encontrados k = 1 posicao = 95 chi2 = 631 (TCCGAGGA) k = 1 posicao = 63 chi2 = 675 (TCCGCGGA) k = 1 posicao = 75 chi2 = 678 (TCCGTGGA) k = 2 posicao = 51 chi2 = 61 (TCCGAGGA) k = 2 posicao = 25 chi2 = 745 (TCCGCGGA) k = 2 posicao = 22 chi2 = 718 (TCCGTGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 67

k = 3 posicao = 38 chi2 = 538 (TCCGAGGA) k = 3 posicao = 68 chi2 = 543 (TCCGCGGA) k = 3 posicao = 64 chi2 = 57 (TCCGTGGA) k = 4 posicao = 48 chi2 = 529 (TCCGAGGA) k = 4 posicao = 161 chi2 = 389 (TCCGCGGA) k = 4 posicao = 78 chi2 = 477 (TCCGTGGA)

Quorum = 80 18263 motivos encontrados k = 1 posicao = 551 chi2 = 592 (TCCGAGGA) k = 1 posicao = 147 chi2 = 754 (TCCGCGGA) k = 1 posicao = 282 chi2 = 647 (TCCGTGGA) k = 2 posicao = 296 chi2 = 605 (TCCGAGGA) k = 2 posicao = 143 chi2 = 715 (TCCGCGGA) k = 2 posicao = 182 chi2 = 681 (TCCGTGGA) k = 3 posicao = 589 chi2 = 511 (TCCGAGGA) k = 3 posicao = 347 chi2 = 553 (TCCGCGGA) k = 3 posicao = 245 chi2 = 59 (TCCGTGGA) k = 4 posicao = 429 chi2 = 462 (TCCGAGGA) k = 4 posicao = 944 chi2 = 401 (TCCGCGGA) k = 4 posicao = 577 chi2 = 41 (TCCGTGGA)

Quorum = 75 18263 motivos encontrados k = 1 posicao = 790 chi2 = 6 (TCCGAGGA) k = 1 posicao = 168 chi2 = 706 (TCCGCGGA) k = 1 posicao = 451 chi2 = 631 (TCCGTGGA) k = 2 posicao = 195 chi2 = 623 (TCCGAGGA) k = 2 posicao = 152 chi2 = 695 (TCCGCGGA) k = 2 posicao = 155 chi2 = 686 (TCCGTGGA) k = 3 posicao = 159 chi2 = 546 (TCCGAGGA) k = 3 posicao = 286 chi2 = 546 (TCCGCGGA) k = 3 posicao = 281 chi2 = 585 (TCCGTGGA) k = 4 posicao = 342 chi2 = 46 (TCCGAGGA) k = 4 posicao = 562 chi2 = 381 (TCCGCGGA) k = 4 posicao = 632 chi2 = 401 (TCCGTGGA)

Quorum = 60 35494 motivos encontrados k = 1 posicao = 1806 chi2 = 548 (TCCGAGGA) k = 1 posicao = 1580 chi2 = 65 (TCCGCGGA) k = 1 posicao = 1668 chi2 = 595 (TCCGTGGA) k = 2 posicao = 1224 chi2 = 592 (TCCGAGGA) k = 2 posicao = 794 chi2 = 701 (TCCGCGGA) k = 2 posicao = 991 chi2 = 658 (TCCGTGGA) k = 3 posicao = 1647 chi2 = 536 (TCCGAGGA) k = 3 posicao = 2029 chi2 = 546 (TCCGCGGA) k = 3 posicao = 1118 chi2 = 57 (TCCGTGGA) k = 4 posicao = 1549 chi2 = 502 (TCCGAGGA) k = 4 posicao = 2429 chi2 = 385 (TCCGCGGA) k = 4 posicao = 2813 chi2 = 429 (TCCGTGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 68

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 69

Anexo B Comparaccedilatildeo da Significacircncia Estatiacutestica referente agrave Abundacircncia obtida pelo

Meacutetodo de Shuffling e pelo Meacutetodo Analiacutetico

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos a comparaccedilatildeo entre o valor do chi2 obtido pelo meacutetodo de shuffling e o valor obtido pelo meacutetodo analiacutetico

Cada linha diz respeito a dados em que se conserva um determinado k-mer (k) Em cada uma eacute apresentado o valor do chi2 obtido pelo meacutetodo de shuffling (chi2) e a sua posiccedilatildeo relativa na lista de motivos ordenada por valores decrescentes de chi2 face ao nuacutemero de motivos extraiacutedos Os valores acima referidos tambeacutem satildeo apresentados para o meacutetodo analiacutetico (achi2)

10_2_YRR1 Motivo TTCCGTGGAA TTCCGCGGAT TTCCGCGGAA Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=488 (633 in 8908) achi2=476 (745 in 8908) [TTCCGCGGAA]

K=2 chi2=465 (468 in 8908) achi2=464 (509 in 8908) [TTCCGCGGAA]

K=3 chi2=412 (201 in 8908) achi2=413 (230 in 8908) [TTCCGCGGAA]

K=4 chi2=253 (223 in 8908) achi2=278 (205 in 8908) [TTCCGCGGAA]

K=5 chi2=126 (277 in 8912) achi2=143 (291 in 8912) [TTCCGCGGAA]

K=6 chi2=039 (323 in 8912) achi2=041 (1035 in 8912) [TTCCGCGGAA]

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 70

Error = 1

Quorum = 80

K=1 chi2=388 (428 in 17722) achi2=387 (504 in 17722) [ACCCTAAAGGT]

K=1 chi2=474 (246 in 17722) achi2=483 (265 in 17722) [ACCTTAAAGGT]

K=2 chi2=394 (222 in 17722) achi2=389 (248 in 17722) [ACCCTAAAGGT]

K=2 chi2=474 (111 in 17722) achi2=484 (119 in 17722) [ACCTTAAAGGT]

K=3 chi2=400 (51 in 17722) achi2=391 (61 in 17722) [ACCCTAAAGGT]

K=3 chi2=477 (12 in 17722) achi2=485 (14 in 17722) [ACCTTAAAGGT]

K=4 chi2=394 (28 in 17722) achi2=387 (31 in 17722) [ACCCTAAAGGT]

K=4 chi2=488 (4 in 17722) achi2=485 (4 in 17722) [ACCTTAAAGGT]

K=5 chi2=326 (24 in 17722) achi2=343 (29 in 17722) [ACCCTAAAGGT]

K=5 chi2=435 (7 in 17722) achi2=462 (3 in 17722) [ACCTTAAAGGT]

K=6 chi2=071 (387 in 17722) achi2=282 (276 in 17722) [ACCCTAAAGGT]

K=6 chi2=310 (2 in 17722) achi2=431 (259 in 17722) [ACCTTAAAGGT]

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=344 (91 in 1316) achi2=314 (116 in 1316) [CCCCT]

K=2 chi2=187 (183 in 1316) achi2=194 (178 in 1316) [CCCCT]

K=3 chi2=164 (138 in 1316) achi2=140 (190 in 1316) [CCCCT]

K=4 chi2=088 (186 in 1316) achi2=104 (150 in 1316) [CCCCT]

Error = 1

Quorum = 60

K=1 chi2=056 (18487 in 35258) achi2=082 (15627 in 35258) [CCCCT]

K=2 chi2=000 (34670 in 35258) achi2=000 (34292 in 35258) [CCCCT]

K=3 chi2=007 (27587 in 35258) achi2=011 (25832 in 35258) [CCCCT]

K=4 chi2=044 (14195 in 35258) achi2=044 (14486 in 35258) [CCCCT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 71

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=534 (66 in 826) achi2=523 (72 in 826) [CCCCT]

K=2 chi2=290 (76 in 826) achi2=297 (75 in 826) [CCCCT]

K=3 chi2=159 (97 in 826) achi2=152 (105 in 826) [CCCCT]

K=4 chi2=022 (242 in 826) achi2=007 (382 in 826) [CCCCT]

K=5 chi2=000 (360 in 826) achi2=000 (339 in 826) [CCCCT]

K=6 chi2=000 (331 in 826) achi2=000 (604 in 826) [CCCCT]

Error = 1

Quorum = 60

K=1 chi2=372 (2640 in 21544) achi2=462 (2153 in 21544) [CCCCT]

K=2 chi2=041 (10937 in 21544) achi2=070 (8620 in 21544) [CCCCT]

K=3 chi2=000 (20651 in 21544) achi2=000 (20723 in 21544) [CCCCT]

K=4 chi2=080 (4245 in 21544) achi2=083 (4322 in 21544) [CCCCT]

K=5 chi2=000 (19590 in 21562) achi2=000 (20653 in 21562) [CCCCT]

K=6 chi2=000 (16728 in 21562) achi2=000 (21282 in 21562) [CCCCT]

5_1_Gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=080 (3213 in 6121) achi2=079 (3260 in 6121) [CATCC]

K=1 chi2=1188 (320 in 6121) achi2=1158 (344 in 6121) [CTTCC]

K=2 chi2=180 (1552 in 6121) achi2=161 (1763 in 6121) [CATCC]

K=2 chi2=504 (498 in 6121) achi2=470 (566 in 6121) [CTTCC]

K=3 chi2=205 (809 in 6121) achi2=192 (906 in 6121) [CATCC]

K=3 chi2=102 (1713 in 6121) achi2=109 (1663 in 6121) [CTTCC]

K=4 chi2=097 (929 in 6121) achi2=091 (1091 in 6121) [CATCC]

K=4 chi2=001 (5090 in 6121) achi2=001 (5126 in 6121) [CTTCC]

K=5 chi2=000 (5948 in 6121) achi2=000 (5152 in 6121) [CATCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 72

K=5 chi2=000 (4578 in 6121) achi2=000 (5000 in 6121) [CTTCC]

K=6 chi2=000 (5634 in 6121) achi2=000 (5438 in 6121) [CATCC]

K=6 chi2=000 (2279 in 6121) achi2=000 (5149 in 6121) [CTTCC]

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 chi2=292 (2311 in 10819) achi2=273 (2534 in 10819) [GATAAG]

K=1 chi2=131 (4204 in 10819) achi2=102 (4875 in 10819) [GATTAG]

K=2 chi2=499 (766 in 10819) achi2=493 (849 in 10819) [GATAAG]

K=2 chi2=280 (1760 in 10819) achi2=268 (1952 in 10819) [GATTAG]

K=3 chi2=168 (2077 in 10819) achi2=174 (2107 in 10819) [GATAAG]

K=3 chi2=953 (62 in 10819) achi2=925 (81 in 10819) [GATTAG]

K=4 chi2=014 (6803 in 10819) achi2=009 (7567 in 10819) [GATAAG]

K=4 chi2=309 (394 in 10819) achi2=352 (328 in 10819) [GATTAG]

K=5 chi2=001 (8734 in 10819) achi2=003 (7728 in 10819) [GATAAG]

K=5 chi2=176 (429 in 10819) achi2=159 (773 in 10819) [GATTAG]

K=6 chi2=000 (9825 in 10819) achi2=000 (6602 in 10819) [GATAAG]

K=6 chi2=000 (7459 in 10819) achi2=000 (6760 in 10819) [GATTAG]

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

Error = 1

Quorum = 60

K=1 chi2=382 (3218 in 20531) achi2=555 (2348 in 20531) [CACCCA]

k=1 chi2=083 (9754 in 20531) achi2=102 (9117 in 20531) [CACCCG]

K=2 chi2=330 (2327 in 20531) achi2=368 (2233 in 20531) [CACCCA]

K=2 chi2=143 (5707 in 20531) achi2=117 (6956 in 20531) [CACCCG]

K=3 chi2=209 (2208 in 20531) achi2=223 (2249 in 20531) [CACCCA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 73

K=3 chi2=040 (9516 in 20531) achi2=023 (12243 in 20531) [CACCCG]

K=4 chi2=071 (4649 in 20531) achi2=105 (3457 in 20531) [CACCCA]

K=4 chi2=000 (19099 in 20531) achi2=002 (17523 in 20531) [CACCCG]

7_0_REB1 Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 chi2=549 (29 in 405) achi2=586 (33 in 405) [TTACCC]

K=2 chi2=688 (6 in 405) achi2=635 (12 in 405) [TTACCC]

K=3 chi2=706 (2 in 405) achi2=679 (2 in 405) [TTACCC]

K=4 chi2=373 (3 in 405) achi2=402 (3 in 405) [TTACCC]

K=5 chi2=034 (7 in 405) achi2=020 (8 in 405) [TTACCC]

K=6 chi2=000 (383 in 405) achi2=000 (232 in 405) [TTACCC]

Error = 1

Quorum = 80

K=1 chi2=133 (3134 in 10337) achi2=169 (2743 in 10337) [TTACCC]

K=2 chi2=302 (657 in 10337) achi2=267 (945 in 10337) [TTACCC]

K=3 chi2=409 (106 in 10337) achi2=394 (170 in 10337) [TTACCC]

K=4 chi2=082 (1439 in 10337) achi2=109 (1091 in 10337) [TTACCC]

K=5 chi2=002 (7204 in 10337) achi2=003 (6765 in 10337) [TTACCC]

K=6 chi2=000 (10150 in 10337) achi2=000 (6299 in 10337) [TTACCC]

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=626 (58 in 785) achi2=615 (64 in 785) [TGCCAAG]

K=2 chi2=610 (11 in 785) achi2=585 (14 in 785) [TGCCAAG]

K=3 chi2=561 (8 in 785) achi2=575 (6 in 785) [TGCCAAG]

K=4 chi2=399 (4 in 785) achi2=377 (6 in 785) [TGCCAAG]

K=5 chi2=184 (8 in 785) achi2=157 (10 in 785) [TGCCAAG]

K=6 chi2=054 (5 in 785) achi2=055 (255 in 785) [TGCCAAG]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 74

Error = 1

Quorum = 60

K=1 chi2=463 (1914 in 20257) achi2=458 (2166 in 20257) [TGCCAAG]

K=2 chi2=292 (1694 in 20257) achi2=287 (1959 in 20257) [TGCCAAG]

K=3 chi2=252 (1158 in 20257) achi2=270 (1060 in 20257) [TGCCAAG]

K=4 chi2=038 (8072 in 20257) achi2=030 (9306 in 20257) [TGCCAAG]

K=5 chi2=002 (15272 in 20366) achi2=004 (14013 in 20366) [TGCCAAG]

K=6 chi2=009 (5877 in 20366) achi2=029 (4589 in 20366) [TGCCAAG]

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

K=1 chi2=1035 (5 in 267) achi2=996 (6 in 267) [TGAAACA]

K=2 chi2=961 (1 in 267) achi2=905 (1 in 267) [TGAAACA]

K=3 chi2=934 (1 in 267) achi2=884 (1 in 267) [TGAAACA]

K=4 chi2=794 (1 in 267) achi2=731 (1 in 267) [TGAAACA]

K=5 chi2=264 (2 in 267) achi2=320 (1 in 267) [TGAAACA]

K=6 chi2=044 (3 in 267) achi2=052 (168 in 267) [TGAAACA]

Error = 1

Quorum = 100

K=1 chi2=448 (515 in 7705) achi2=400 (675 in 7705) [TGAAACA]

K=2 chi2=168 (1047 in 7705) achi2=157 (1246 in 7705) [TGAAACA]

K=3 chi2=159 (637 in 7705) achi2=128 (992 in 7705) [TGAAACA]

K=4 chi2=057 (1734 in 7705) achi2=026 (3100 in 7705) [TGAAACA]

K=5 chi2=015 (2574 in 7705) achi2=021 (2435 in 7705) [TGAAACA]

K=6 chi2=007 (1386 in 7705) achi2=006 (2114 in 7705) [TGAAACA]

7_1_SWI4

Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 75

Quorum = 100

K=1 chi2=927 (53 in 8974) achi2=950 (59 in 8974) [CACGAAA]

K=1 chi2=1447 (8 in 8974) achi2=1516 (9 in 8974) [CGCGAAA]

K=2 chi2=686 (17 in 8974) achi2=638 (22 in 8974) [CACGAAA]

K=2 chi2=940 (4 in 8974) achi2=924 (3 in 8974) [CGCGAAA]

K=3 chi2=456 (46 in 8974) achi2=436 (53 in 8974) [CACGAAA]

K=3 chi2=514 (20 in 8974) achi2=502 (25 in 8974) [CGCGAAA]

K=4 chi2=087 (1329 in 8974) achi2=106 (1095 in 8974) [CACGAAA]

K=4 chi2=343 (41 in 8974) achi2=390 (27 in 8974) [CGCGAAA]

K=5 chi2=012 (3730 in 8974) achi2=000 (7343 in 8974) [CACGAAA]

K=5 chi2=033 (1966 in 8974) achi2=121 (397 in 8974) [CGCGAAA]

K=6 chi2=007 (1861 in 8974) achi2=001 (3810 in 8974) [CACGAAA]

K=6 chi2=002 (3146 in 8974) achi2=044 (873 in 8974) [CGCGAAA]

7_2_RGT1

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=2092 (246 in 6085) achi2=2140 (236 in 6085) [CGGAAAA]

K=1 chi2=810 (799 in 6085) achi2=803 (815 in 6085) [CGGAAGA]

K=1 chi2=1437 (409 in 6085) achi2=1409 (416 in 6085) [CGGAGAA]

K=1 chi2=337 (1833 in 6085) achi2=350 (1782 in 6085) [CGGATAA]

K=2 chi2=837 (251 in 6085) achi2=840 (245 in 6085) [CGGAAAA]

K=2 chi2=451 (648 in 6085) achi2=442 (666 in 6085) [CGGAAGA]

K=2 chi2=989 (186 in 6085) achi2=937 (208 in 6085) [CGGAGAA]

K=2 chi2=432 (698 in 6085) achi2=428 (695 in 6085) [CGGATAA]

K=3 chi2=281 (367 in 6085) achi2=272 (385 in 6085) [CGGAAAA]

K=3 chi2=242 (473 in 6085) achi2=225 (546 in 6085) [CGGAAGA]

K=3 chi2=580 (76 in 6085) achi2=544 (89 in 6085) [CGGAGAA]

K=3 chi2=366 (216 in 6085) achi2=309 (299 in 6085) [CGGATAA]

K=4 chi2=013 (3127 in 6085) achi2=022 (2503 in 6085) [CGGAAAA]

K=4 chi2=039 (1619 in 6085) achi2=040 (1722 in 6085) [CGGAAGA]

K=4 chi2=320 (35 in 6085) achi2=304 (56 in 6085) [CGGAGAA]

K=4 chi2=193 (166 in 6085) achi2=202 (188 in 6085) [CGGATAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 76

8_1_PDR1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 75

K=1 chi2=901 (25 in 639) achi2=884 (27 in 639) [TCCGCGGA]

K=2 chi2=886 (13 in 639) achi2=883 (14 in 639) [TCCGCGGA]

K=3 chi2=862 (4 in 639) achi2=864 (5 in 639) [TCCGCGGA]

K=4 chi2=659 (2 in 639) achi2=741 (2 in 639) [TCCGCGGA]

K=5 chi2=252 (1 in 639) achi2=306 (1 in 639) [TCCGCGGA]

K=6 chi2=012 (5 in 639) achi2=030 (253 in 639) [TCCGCGGA]

Error = 1

Quorum = 75

K=1 chi2=1388 (184 in 16695) achi2=1370 (211 in 16695) [TCCGCGGA]

K=1 chi2=913 (373 in 16695) achi2=895 (419 in 16695) [TCCGTGGA]

K=2 chi2=1355 (68 in 16695) achi2=1355 (91 in 16695) [TCCGCGGA]

K=2 chi2=952 (199 in 16695) achi2=944 (230 in 16695) [TCCGTGGA]

K=3 chi2=1237 (5 in 16695) achi2=1138 (22 in 16695) [TCCGCGGA]

K=3 chi2=782 (88 in 16695) achi2=771 (119 in 16695) [TCCGTGGA]

K=4 chi2=570 (45 in 16695) achi2=688 (33 in 16695) [TCCGCGGA]

K=4 chi2=544 (53 in 16695) achi2=610 (56 in 16695) [TCCGTGGA]

K=5 chi2=061 (2230 in 16699) achi2=113 (1175 in 16699) [TCCGCGGA]

K=5 chi2=101 (981 in 16699) achi2=207 (328 in 16699) [TCCGTGGA]

K=6 chi2=001 (8600 in 16699) achi2=000 (10541 in 16699) [TCCGCGGA]

K=6 chi2=002 (7065 in 16699) achi2=003 (8326 in 16699) [TCCGTGGA]

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 chi2=995 (22 in 423) achi2=985 (24 in 423) [TCCGCGGA]

K=2 chi2=980 (13 in 423) achi2=985 (13 in 423) [TCCGCGGA]

K=3 chi2=989 (4 in 423) achi2=967 (4 in 423) [TCCGCGGA]

K=4 chi2=741 (1 in 423) achi2=802 (1 in 423) [TCCGCGGA]

K=5 chi2=220 (1 in 423) achi2=303 (1 in 423) [TCCGCGGA]

K=6 chi2=010 (1 in 423) achi2=027 (229 in 423) [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 77

Error = 1

Quorum = 80

K=1 chi2=1609 (169 in 11592) achi2=1592 (187 in 11592) [TCCGCGGA]

K=1 chi2=1090 (327 in 11592) achi2=1109 (353 in 11592) [TCCGTGGA]

K=2 chi2=1634 (63 in 11592) achi2=1584 (97 in 11592) [TCCGCGGA]

K=2 chi2=1148 (174 in 11592) achi2=1142 (197 in 11592) [TCCGTGGA]

K=3 chi2=1333 (20 in 11592) achi2=1364 (24 in 11592) [TCCGCGGA]

K=3 chi2=878 (91 in 11592) achi2=894 (109 in 11592) [TCCGTGGA]

K=4 chi2=784 (26 in 11592) achi2=785 (35 in 11592) [TCCGCGGA]

K=4 chi2=632 (50 in 11592) achi2=689 (52 in 11592) [TCCGTGGA]

K=5 chi2=072 (1370 in 11601) achi2=127 (778 in 11601) [TCCGCGGA]

K=5 chi2=100 (878 in 11601) achi2=146 (618 in 11601) [TCCGTGGA]

K=6 chi2=000 (7969 in 11601) achi2=001 (5475 in 11601) [TCCGCGGA]

K=6 chi2=001 (4626 in 11601) achi2=004 (4674 in 11601) [TCCGTGGA]

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=285 (128 in 1319) achi2=287 (133 in 1319) [TCCGTGGA]

K=2 chi2=294 (89 in 1319) achi2=289 (95 in 1319) [TCCGTGGA]

K=3 chi2=283 (10 in 1319) achi2=278 (15 in 1319) [TCCGTGGA]

K=4 chi2=240 (7 in 1319) achi2=255 (6 in 1319) [TCCGTGGA]

K=5 chi2=122 (16 in 1319) achi2=206 (5 in 1319) [TCCGTGGA]

K=6 chi2=015 (42 in 1319) achi2=084 (269 in 1319) [TCCGTGGA]

Error = 1

Quorum = 60

K=1 chi2=336 (1859 in 35494) achi2=391 (1312 in 35494) [TCCGAGGA]

K=1 chi2=612 (489 in 35494) achi2=660 (442 in 35494) [TCCGCGGA]

K=1 chi2=368 (1518 in 35494) achi2=402 (1240 in 35494) [TCCGTGGA]

K=2 chi2=363 (946 in 35494) achi2=379 (816 in 35494) [TCCGAGGA]

K=2 chi2=636 (218 in 35494) achi2=640 (206 in 35494) [TCCGCGGA]

K=2 chi2=416 (670 in 35494) achi2=428 (599 in 35494) [TCCGTGGA]

K=3 chi2=301 (498 in 35494) achi2=304 (471 in 35494) [TCCGAGGA]

K=3 chi2=515 (41 in 35494) achi2=480 (63 in 35494) [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 78

K=3 chi2=341 (278 in 35494) achi2=329 (327 in 35494) [TCCGTGGA]

K=4 chi2=285 (274 in 35494) achi2=295 (205 in 35494) [TCCGAGGA]

K=4 chi2=300 (198 in 35494) achi2=337 (85 in 35494) [TCCGCGGA]

K=4 chi2=217 (1082 in 35494) achi2=219 (1060 in 35494) [TCCGTGGA]

K=5 chi2=075 (6352 in 35725) achi2=087 (6044 in 35725) [TCCGAGGA]

K=5 chi2=079 (5926 in 35725) achi2=153 (2215 in 35725) [TCCGCGGA]

K=5 chi2=081 (5763 in 35725) achi2=080 (6754 in 35725) [TCCGTGGA]

K=6 chi2=003 (19985 in 35725) achi2=010 (17420 in 35725) [TCCGAGGA]

K=6 chi2=026 (6383 in 35725) achi2=053 (6615 in 35725) [TCCGCGGA]

K=6 chi2=011 (11922 in 35725) achi2=000 (30343 in 35725) [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 79

Anexo C Resultados do Caacutelculo da Significacircncia Estatiacutestica referente agrave Abundacircncia

pelo Meacutetodo Analiacutetico para Conjuntos de Dados de Saccharomyces cerevisiae

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados

A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos os resultados para os motivos procurados em relaccedilatildeo a cada valor dos paracircmetros

Descriccedilatildeo do formato dos resultados

K=ltk-mer conservadogt achi2 = ltchi2 analiacuteticogt (ltposiccedilatildeogt in ltnuacutemero de motivos extraiacutedosgt ltposiccedilatildeo entre motivos do mesmo tamanhogt [motivo]

Nota A posiccedilatildeo do motivo refere-se agrave ordem em que se encontra numa lista ordenada por ordem decrescente de chi2 analiacutetico dos motivos extraiacutedos

10_2_YRR1 Motivo TTCCGTGGAA TTCCGCGGAT TTCCGCGGAA Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=476 (745 in 8908) 13 [TTCCGCGGAA]

K=2 achi2=464 (509 in 8908) 12 [TTCCGCGGAA]

K=3 achi2=413 (230 in 8908) 11 [TTCCGCGGAA]

K=4 achi2=278 (205 in 8908) 10 [TTCCGCGGAA]

K=5 achi2=143 (287 in 8908) 12 [TTCCGCGGAA]

K=6 achi2=041 (1031 in 8908) 15 [TTCCGCGGAA]

K=7 achi2=000 (2230 in 8908) 16 [TTCCGCGGAA]

K=8 achi2=001 (4728 in 8908) 16 [TTCCGCGGAA]

K=9 achi2=001 (7926 in 8908) 16 [TTCCGCGGAA]

K=10 achi2=000 (8782 in 8908) 16 [TTCCGCGGAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 80

K=11 achi2=000 (8903 in 8908) 12 [TTCCGCGGAA]

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 achi2=387 (504 in 17722) 3 [ACCCTAAAGGT]

K=1 achi2=483 (265 in 17722) 2 [ACCTTAAAGGT]

K=2 achi2=389 (248 in 17722) 3 [ACCCTAAAGGT]

K=2 achi2=484 (119 in 17722) 2 [ACCTTAAAGGT]

K=3 achi2=391 (61 in 17722) 3 [ACCCTAAAGGT]

K=3 achi2=485 (14 in 17722) 2 [ACCTTAAAGGT]

K=4 achi2=387 (31 in 17722) 4 [ACCCTAAAGGT]

K=4 achi2=485 (4 in 17722) 2 [ACCTTAAAGGT]

K=5 achi2=343 (29 in 17722) 4 [ACCCTAAAGGT]

K=5 achi2=462 (3 in 17722) 2 [ACCTTAAAGGT]

K=6 achi2=282 (276 in 17722) 4 [ACCCTAAAGGT]

K=6 achi2=431 (259 in 17722) 2 [ACCTTAAAGGT]

K=7 achi2=063 (1455 in 17722) 4 [ACCCTAAAGGT]

K=7 achi2=197 (1286 in 17722) 3 [ACCTTAAAGGT]

K=8 achi2=004 (5422 in 17722) 3 [ACCCTAAAGGT]

K=8 achi2=005 (5392 in 17722) 1 [ACCTTAAAGGT]

K=9 achi2=000 (13376 in 17722) 3 [ACCCTAAAGGT]

K=9 achi2=005 (13364 in 17722) 1 [ACCTTAAAGGT]

K=10 achi2=000 (17186 in 17722) 3 [ACCCTAAAGGT]

K=10 achi2=000 (17184 in 17722) 1 [ACCTTAAAGGT]

K=11 achi2=000 (17688 in 17722) 3 [ACCCTAAAGGT]

K=11 achi2=000 (17686 in 17722) 1 [ACCTTAAAGGT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 81

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=523 (72 in 826) 21 [CCCCT]

K=2 achi2=297 (75 in 826) 23 [CCCCT]

K=3 achi2=152 (105 in 826) 55 [CCCCT]

K=4 achi2=007 (382 in 826) 310 [CCCCT]

K=5 achi2=000 (339 in 826) 245 [CCCCT]

K=6 achi2=000 (604 in 826) 255 [CCCCT]

Error = 1

Quorum = 60

K=1 achi2=462 (2153 in 21544) 223 [CCCCT]

K=2 achi2=070 (8620 in 21544) 476 [CCCCT]

K=3 achi2=000 (20723 in 21544) 986 [CCCCT]

K=4 achi2=083 (4322 in 21544) 81 [CCCCT]

K=5 achi2=000 (20635 in 21544) 618 [CCCCT]

K=6 achi2=000 (21264 in 21544) 744 [CCCCT]

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=314 (116 in 1316) 27 [CCCCT]

K=2 achi2=194 (178 in 1316) 39 [CCCCT]

K=3 achi2=140 (190 in 1316) 42 [CCCCT]

K=4 achi2=104 (150 in 1316) 19 [CCCCT]

K=5 achi2=000 (576 in 1316) 111 [CCCCT]

K=6 achi2=000 (1113 in 1316) 392 [CCCCT]

K=7 achi2=901 (324 in 1316) 94 [CCCCT]

K=8 achi2=901 (340 in 1316) 94 [CCCCT]

K=9 achi2=901 (341 in 1316) 94 [CCCCT]

K=10 achi2=901 (342 in 1316) 94 [CCCCT]

K=11 achi2=901 (343 in 1316) 94 [CCCCT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 82

Error = 1

Quorum = 60

K=1 achi2=082 (15627 in 35258) 568 [CCCCT]

K=2 achi2=000 (34292 in 35258) 986 [CCCCT]

K=3 achi2=011 (25832 in 35258) 671 [CCCCT]

K=4 achi2=044 (14486 in 35258) 144 [CCCCT]

K=5 achi2=000 (34387 in 35258) 626 [CCCCT]

K=6 achi2=000 (34560 in 35258) 326 [CCCCT]

5_1_Gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=079 (3260 in 6121) 599 [CATCC]

K=1 achi2=1158 (344 in 6121) 50 [CTTCC]

K=2 achi2=161 (1763 in 6121) 312 [CATCC]

K=2 achi2=470 (566 in 6121) 105 [CTTCC]

K=3 achi2=192 (906 in 6121) 128 [CATCC]

K=3 achi2=109 (1663 in 6121) 248 [CTTCC]

K=4 achi2=091 (1091 in 6121) 97 [CATCC]

K=4 achi2=001 (5126 in 6121) 870 [CTTCC]

K=5 achi2=000 (5152 in 6121) 372 [CATCC]

K=5 achi2=000 (5000 in 6121) 230 [CTTCC]

K=6 achi2=000 (5438 in 6121) 341 [CATCC]

K=6 achi2=000 (5149 in 6121) 52 [CTTCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 83

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 achi2=273 (2534 in 10819) 831 [GATAAG]

K=1 achi2=102 (4875 in 10819) 1698 [GATTAG]

K=2 achi2=493 (849 in 10819) 251 [GATAAG]

K=2 achi2=268 (1952 in 10819) 593 [GATTAG]

K=3 achi2=174 (2107 in 10819) 675 [GATAAG]

K=3 achi2=925 (81 in 10819) 12 [GATTAG]

K=4 achi2=009 (7567 in 10819) 2712 [GATAAG]

K=4 achi2=352 (328 in 10819) 59 [GATTAG]

K=5 achi2=003 (7728 in 10819) 3046 [GATAAG]

K=5 achi2=159 (773 in 10819) 110 [GATTAG]

K=6 achi2=000 (6602 in 10819) 761 [GATAAG]

K=6 achi2=000 (6760 in 10819) 917 [GATTAG]

K=7 achi2=000 (10606 in 10819) 3684 [GATAAG]

K=7 achi2=000 (8570 in 10819) 1648 [GATTAG]

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

Error = 1

Quorum = 60

K=1 achi2=555 (2348 in 20531) 456 [CACCCA]

K=1 achi2=102 (9117 in 20531) 2005 [CACCCG]

K=2 achi2=368 (2233 in 20531) 460 [CACCCA]

K=2 achi2=117 (6956 in 20531) 1498 [CACCCG]

K=3 achi2=223 (2249 in 20531) 392 [CACCCA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 84

K=3 achi2=023 (12243 in 20531) 2397 [CACCCG]

K=4 achi2=105 (3457 in 20531) 482 [CACCCA]

K=4 achi2=002 (17523 in 20531) 3457 [CACCCG]

K=5 achi2=006 (13001 in 20531) 2409 [CACCCA]

K=5 achi2=048 (5016 in 20531) 610 [CACCCG]

K=6 achi2=000 (17016 in 20531) 1751 [CACCCA]

K=6 achi2=000 (18636 in 20531) 3343 [CACCCG]

K=7 achi2=000 (17654 in 20531) 1218 [CACCCA]

K=7 achi2=000 (18327 in 20531) 1891 [CACCCG]

7_0_REB1 Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 achi2=586 (33 in 405) 5 [TTACCC]

K=2 achi2=635 (12 in 405) 1 [TTACCC]

K=3 achi2=679 (2 in 405) 1 [TTACCC]

K=4 achi2=402 (3 in 405) 2 [TTACCC]

K=5 achi2=020 (8 in 405) 7 [TTACCC]

K=6 achi2=000 (232 in 405) 8 [TTACCC]

K=7 achi2=000 (402 in 405) 8 [TTACCC]

Error = 1

Quorum = 80

K=1 achi2=169 (2742 in 10337) 933 [TTACCC]

K=2 achi2=267 (945 in 10337) 284 [TTACCC]

K=3 achi2=394 (170 in 10337) 25 [TTACCC]

K=4 achi2=109 (1091 in 10337) 246 [TTACCC]

K=5 achi2=003 (6765 in 10337) 2619 [TTACCC]

K=6 achi2=000 (6295 in 10337) 852 [TTACCC]

K=7 achi2=000 (9863 in 10337) 3333 [TTACCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 85

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=615 (64 in 785) 12 [TGCCAAG]

K=2 achi2=585 (14 in 785) 3 [TGCCAAG]

K=3 achi2=575 (6 in 785) 2 [TGCCAAG]

K=4 achi2=377 (6 in 785) 2 [TGCCAAG]

K=5 achi2=157 (10 in 785) 5 [TGCCAAG]

K=6 achi2=055 (255 in 785) 4 [TGCCAAG]

K=7 achi2=000 (652 in 785) 18 [TGCCAAG]

K=8 achi2=000 (771 in 785) 15 [TGCCAAG]

Error = 1

Quorum = 60

K=1 achi2=458 (2166 in 20257) 407 [TGCCAAG]

K=2 achi2=287 (1959 in 20257) 462 [TGCCAAG]

K=3 achi2=270 (1060 in 20257) 241 [TGCCAAG]

K=4 achi2=030 (9306 in 20257) 3695 [TGCCAAG]

K=5 achi2=004 (13915 in 20257) 6353 [TGCCAAG]

K=6 achi2=029 (4512 in 20257) 1713 [TGCCAAG]

K=7 achi2=003 (5275 in 20257) 36 [TGCCAAG]

K=8 achi2=000 (12401 in 20257) 1099 [TGCCAAG]

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

K=1 achi2=996 (6 in 267) 1 [TGAAACA]

K=2 achi2=905 (1 in 267) 1 [TGAAACA]

K=3 achi2=884 (1 in 267) 1 [TGAAACA]

K=4 achi2=731 (1 in 267) 1 [TGAAACA]

K=5 achi2=320 (1 in 267) 1 [TGAAACA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 86

K=6 achi2=052 (168 in 267) 2 [TGAAACA]

K=7 achi2=000 (254 in 267) 1 [TGAAACA]

K=8 achi2=000 (266 in 267) 2 [TGAAACA]

Error = 1

Quorum = 100

K=1 achi2=400 (675 in 7705) 162 [TGAAACA]

K=2 achi2=157 (1246 in 7705) 402 [TGAAACA]

K=3 achi2=128 (992 in 7705) 375 [TGAAACA]

K=4 achi2=026 (3100 in 7705) 1267 [TGAAACA]

K=5 achi2=021 (2435 in 7705) 1154 [TGAAACA]

K=6 achi2=006 (2114 in 7705) 1435 [TGAAACA]

K=7 achi2=000 (2095 in 7705) 260 [TGAAACA]

K=8 achi2=000 (6802 in 7705) 1861 [TGAAACA]

7_1_SWI4 Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=950 (59 in 8974) 15 [CACGAAA]

K=1 achi2=1516 (9 in 8974) 2 [CGCGAAA]

K=2 achi2=638 (22 in 8974) 7 [CACGAAA]

K=2 achi2=924 (3 in 8974) 1 [CGCGAAA]

K=3 achi2=436 (53 in 8974) 25 [CACGAAA]

K=3 achi2=502 (25 in 8974) 10 [CGCGAAA]

K=4 achi2=106 (1095 in 8974) 476 [CACGAAA]

K=4 achi2=390 (27 in 8974) 9 [CGCGAAA]

K=5 achi2=000 (7343 in 8974) 3297 [CACGAAA]

K=5 achi2=121 (397 in 8974) 176 [CGCGAAA]

K=6 achi2=001 (3810 in 8974) 2702 [CACGAAA]

K=6 achi2=044 (873 in 8974) 314 [CGCGAAA]

K=7 achi2=000 (2384 in 8974) 205 [CACGAAA]

K=7 achi2=000 (2371 in 8974) 194 [CGCGAAA]

K=8 achi2=000 (8531 in 8974) 3025 [CACGAAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 87

K=8 achi2=000 (5630 in 8974) 124 [CGCGAAA]

7_2_RGT1

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=2140 (236 in 6085) 74 [CGGAAAA]

K=1 achi2=803 (815 in 6085) 253 [CGGAAGA]

K=1 achi2=1409 (416 in 6085) 129 [CGGAGAA]

K=1 achi2=350 (1782 in 6085) 511 [CGGATAA]

K=2 achi2=840 (245 in 6085) 67 [CGGAAAA]

K=2 achi2=442 (666 in 6085) 169 [CGGAAGA]

K=2 achi2=937 (208 in 6085) 55 [CGGAGAA]

K=2 achi2=428 (695 in 6085) 175 [CGGATAA]

K=3 achi2=272 (385 in 6085) 126 [CGGAAAA]

K=3 achi2=225 (546 in 6085) 173 [CGGAAGA]

K=3 achi2=544 (89 in 6085) 28 [CGGAGAA]

K=3 achi2=309 (299 in 6085) 100 [CGGATAA]

K=4 achi2=022 (2503 in 6085) 821 [CGGAAAA]

K=4 achi2=040 (1722 in 6085) 598 [CGGAAGA]

K=4 achi2=304 (56 in 6085) 23 [CGGAGAA]

K=4 achi2=202 (188 in 6085) 81 [CGGATAA]

K=5 achi2=003 (3495 in 6085) 1206 [CGGAAAA]

K=5 achi2=019 (1882 in 6085) 749 [CGGAAGA]

K=5 achi2=238 (34 in 6085) 12 [CGGAGAA]

K=5 achi2=138 (154 in 6085) 74 [CGGATAA]

K=6 achi2=009 (1192 in 6085) 744 [CGGAAAA]

K=6 achi2=031 (682 in 6085) 300 [CGGAAGA]

K=6 achi2=057 (459 in 6085) 122 [CGGAGAA]

K=6 achi2=042 (550 in 6085) 191 [CGGATAA]

K=7 achi2=000 (1608 in 6085) 53 [CGGAAAA]

K=7 achi2=000 (2439 in 6085) 861 [CGGAAGA]

K=7 achi2=000 (2150 in 6085) 572 [CGGAGAA]

K=7 achi2=000 (2472 in 6085) 894 [CGGATAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 88

K=8 achi2=000 (6056 in 6085) 1512 [CGGAAAA]

K=8 achi2=000 (5728 in 6085) 1184 [CGGAAGA]

K=8 achi2=000 (5127 in 6085) 583 [CGGAGAA]

K=8 achi2=000 (5961 in 6085) 1417 [CGGATAA]

8_1_PDR1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 75

K=1 achi2=884 (27 in 639) 1 [TCCGCGGA]

K=2 achi2=883 (14 in 639) 1 [TCCGCGGA]

K=3 achi2=864 (5 in 639) 1 [TCCGCGGA]

K=4 achi2=741 (2 in 639) 1 [TCCGCGGA]

K=5 achi2=306 (1 in 639) 1 [TCCGCGGA]

K=6 achi2=030 (253 in 639) 1 [TCCGCGGA]

K=7 achi2=012 (587 in 639) 1 [TCCGCGGA]

K=8 achi2=000 (633 in 639) 1 [TCCGCGGA]

K=9 achi2=000 (639 in 639) 1 [TCCGCGGA]

Error = 1

Quorum = 75

K=1 achi2=1370 (211 in 16695) 48 [TCCGCGGA]

K=1 achi2=895 (419 in 16695) 111 [TCCGTGGA]

K=2 achi2=1355 (91 in 16695) 26 [TCCGCGGA]

K=2 achi2=944 (230 in 16695) 59 [TCCGTGGA]

K=3 achi2=1138 (22 in 16695) 13 [TCCGCGGA]

K=3 achi2=771 (119 in 16695) 39 [TCCGTGGA]

K=4 achi2=688 (33 in 16695) 9 [TCCGCGGA]

K=4 achi2=610 (56 in 16695) 18 [TCCGTGGA]

K=5 achi2=113 (1171 in 16695) 496 [TCCGCGGA]

K=5 achi2=207 (324 in 16695) 135 [TCCGTGGA]

K=6 achi2=000 (10537 in 16695) 2237 [TCCGCGGA]

K=6 achi2=003 (8322 in 16695) 1955 [TCCGTGGA]

K=7 achi2=000 (4060 in 16695) 2312 [TCCGCGGA]

K=7 achi2=000 (4066 in 16695) 2318 [TCCGTGGA]

K=8 achi2=000 (5835 in 16695) 174 [TCCGCGGA]

K=8 achi2=000 (6050 in 16695) 389 [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 89

K=9 achi2=000 (15679 in 16695) 1375 [TCCGCGGA]

K=9 achi2=000 (14892 in 16695) 588 [TCCGTGGA]

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 achi2=985 (24 in 423) 1 [TCCGCGGA]

K=2 achi2=985 (13 in 423) 1 [TCCGCGGA]

K=3 achi2=967 (4 in 423) 1 [TCCGCGGA]

K=4 achi2=802 (1 in 423) 1 [TCCGCGGA]

K=5 achi2=303 (1 in 423) 1 [TCCGCGGA]

K=6 achi2=027 (229 in 423) 1 [TCCGCGGA]

K=7 achi2=013 (401 in 423) 1 [TCCGCGGA]

K=8 achi2=000 (420 in 423) 1 [TCCGCGGA]

K=9 achi2=000 (423 in 423) 1 [TCCGCGGA]

Error = 1

Quorum = 80

K=1 achi2=1592 (187 in 11592) 35 [TCCGCGGA]

K=1 achi2=1109 (353 in 11592) 83 [TCCGTGGA]

K=2 achi2=1584 (97 in 11592) 25 [TCCGCGGA]

K=2 achi2=1142 (197 in 11592) 44 [TCCGTGGA]

K=3 achi2=1364 (24 in 11592) 9 [TCCGCGGA]

K=3 achi2=894 (109 in 11592) 35 [TCCGTGGA]

K=4 achi2=785 (35 in 11592) 11 [TCCGCGGA]

K=4 achi2=689 (52 in 11592) 16 [TCCGTGGA]

K=5 achi2=127 (769 in 11592) 243 [TCCGCGGA]

K=5 achi2=146 (609 in 11592) 204 [TCCGTGGA]

K=6 achi2=001 (5466 in 11592) 879 [TCCGCGGA]

K=6 achi2=004 (4665 in 11592) 789 [TCCGTGGA]

K=7 achi2=000 (2570 in 11592) 968 [TCCGCGGA]

K=7 achi2=000 (2517 in 11592) 941 [TCCGTGGA]

K=8 achi2=000 (5547 in 11592) 157 [TCCGCGGA]

K=8 achi2=000 (5666 in 11592) 276 [TCCGTGGA]

K=9 achi2=000 (10744 in 11592) 135 [TCCGCGGA]

K=9 achi2=000 (11041 in 11592) 432 [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 90

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=287 (133 in 1319) 8 [TCCGTGGA]

K=2 achi2=289 (95 in 1319) 5 [TCCGTGGA]

K=3 achi2=278 (15 in 1319) 2 [TCCGTGGA]

K=4 achi2=255 (6 in 1319) 1 [TCCGTGGA]

K=5 achi2=206 (5 in 1319) 2 [TCCGTGGA]

K=6 achi2=084 (269 in 1319) 7 [TCCGTGGA]

K=7 achi2=000 (897 in 1319) 17 [TCCGTGGA]

K=8 achi2=000 (1232 in 1319) 8 [TCCGTGGA]

K=9 achi2=000 (1303 in 1319) 1 [TCCGTGGA]

Error = 1

Quorum = 60

K=1 achi2=391 (1312 in 35494) 312 [TCCGAGGA]

K=1 achi2=660 (442 in 35494) 89 [TCCGCGGA]

K=1 achi2=402 (1240 in 35494) 301 [TCCGTGGA]

K=2 achi2=379 (816 in 35494) 174 [TCCGAGGA]

K=2 achi2=640 (206 in 35494) 48 [TCCGCGGA]

K=2 achi2=428 (599 in 35494) 123 [TCCGTGGA]

K=3 achi2=304 (471 in 35494) 120 [TCCGAGGA]

K=3 achi2=480 (63 in 35494) 10 [TCCGCGGA]

K=3 achi2=329 (327 in 35494) 87 [TCCGTGGA]

K=4 achi2=295 (205 in 35494) 61 [TCCGAGGA]

K=4 achi2=337 (85 in 35494) 28 [TCCGCGGA]

K=4 achi2=219 (1060 in 35494) 257 [TCCGTGGA]

K=5 achi2=087 (5828 in 35494) 2082 [TCCGAGGA]

K=5 achi2=153 (2062 in 35494) 521 [TCCGCGGA]

K=5 achi2=080 (6534 in 35494) 2399 [TCCGTGGA]

K=6 achi2=010 (17189 in 35494) 7240 [TCCGAGGA]

K=6 achi2=053 (6392 in 35494) 2378 [TCCGCGGA]

K=6 achi2=000 (30112 in 35494) 12027 [TCCGTGGA]

K=7 achi2=006 (9736 in 35494) 4698 [TCCGAGGA]

K=7 achi2=006 (10113 in 35494) 5025 [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 91

K=7 achi2=000 (17876 in 35494) 11124 [TCCGTGGA]

K=8 achi2=000 (12067 in 35494) 1424 [TCCGAGGA]

K=8 achi2=000 (11172 in 35494) 529 [TCCGCGGA]

K=8 achi2=000 (11688 in 35494) 1045 [TCCGTGGA]

K=9 achi2=000 (31497 in 35494) 8200 [TCCGAGGA]

K=9 achi2=000 (25674 in 35494) 2377 [TCCGCGGA]

K=9 achi2=000 (29818 in 35494) 6521 [TCCGTGGA]

Page 4: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes iv

Lista de Siglas

DNA (ou ADN) - aacutecido desoxirribonucleico

IUPAC - International Union for Pure and Applied Chemistry designa neste trabalho o

coacutedigo de sequecircncias degeneradas de bases nucleicas estabelecido por esta organizaccedilatildeo

RNA (ou ARN) - aacutecido ribonucleico

SMILE - Structured Motif Inference and Evaluation

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes v

Lista de Figuras

Figura 21 Representaccedilatildeo de cadeias de DNA em forma de dupla heacutelice 3

Figura 22 Expressatildeo geacutenica em eucariotas (A) e procariotas (B) 4

Figura 23 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em procariotas 5

Figura 24 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em eucariotas 5

Figura 31 Exemplo de uma especificaccedilatildeo de um modelo estruturado 8

Figura 32

(a) Exemplo de especificaccedilatildeo (b) Modelo retirado de uma sequecircncia que cumpre a especificaccedilatildeo 8

Figura 33

Aacutervore de sufixos generalizada para as sequecircncias TACTA$ (sequecircncia 1) e CACTCA$ (sequecircncia 2) 9

Figura 34 Esquema da procura de motivos estruturados usando uma aacutervore de sufixos 10

Figura 35 Exemplo de um ficheiro de especificaccedilatildeo para a geraccedilatildeo de dados sinteacuteticos 11

Figura 41

Multi-grafo gerado pela sequecircncia ATTATTTATT para k=4 com 2 passeios aleatoacuterios 16

Figura 42

Histograma das ocorrecircncias observadas do motivo TTTTAA em 100 simulaccedilotildees de shuffling do conjunto de dados da H pylori 17

Figura 43

Graacutefico da evoluccedilatildeo da significacircncia estatiacutestica com o aumento do valor de k para um motivo de tamanho 8 extraiacutedo do conjunto de dados da H pylori 18

Figura 44 Conjunto de dados exemplo 19

Figura 45 Exemplo de uma cadeia de Markov para k=3 20

Figura 51 Representaccedilatildeo das sequecircncias ATA (1) e TTA (2) 26

Figura 52 Representaccedilatildeo da cobertura WTA (1) 27

Figura 53 Interface para geraccedilatildeo de coacutedigo IUPAC integrada na Dbyeast 29

Figura 61 Significacircncia estatiacutestica para motivos simples de tamanho 6 32

Figura 62 Significacircncia estatiacutestica para motivos simples de tamanho 7 32

Figura 63 Significacircncia estatiacutestica para modelos estruturados em dados sinteacuteticos 34

Figura 64

Significacircncia estatiacutestica de motivos simples de tamanho 6 usando o meacutetodo analiacutetico 36

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes vi

Figura 65

Significacircncia estatiacutestica de motivos simples de tamanho 7 usando o meacutetodo

analiacutetico 36

Figura 66

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o

conjunto de dados MSN4 com 0 erro 39

Figura 67

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados MSN4 com 1 erro 40

Figura 68

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados STE12 com 0 erros 41

Figura 69

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados STE12 com 1 erro 41

Figura 610

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados MSN4 com 0 erros 43

Figura 611

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados MSN4 com 1 erro 43

Figura 612

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados STE12 com 0 erros 44

Figura 613

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados STE12 com 1 erro 45

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes vii

Lista de Tabelas

Tabela 41 Tabela de contingecircncia para o caacutelculo do 2

13

Tabela 51 Coacutedigo IUPAC 23

Tabela 52 Codificaccedilatildeo binaacuteria dos siacutembolos IUPAC 24

Tabela 61 Posiccedilotildees dos motivos especificados 33

Tabela 62 Posiccedilotildees do motivo estruturado especificado 34

Tabela 63 Posiccedilotildees dos modelos especificados 37

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes viii

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes ix

Agradecimentos

Gostariacuteamos de agradecer agrave nossa orientadora Professora Ana Teresa Freitas pela forma

como sempre orientou o nosso trabalho pela inestimaacutevel disponibilidade pelo interesse

demonstrado e pela iacutempar capacidade de motivaccedilatildeo

Agradecemos tambeacutem ao nosso co-orientador Professor Arlindo Oliveira pela sua

disponibilidade e opiniatildeo criacutetica que sempre contribuiu para o enriquecimento do nosso

trabalho

Agrave Susana Vinga pelo importante contributo na anaacutelise estatiacutestica e pela sua diligente

disponibilidade

Agrave Joana Fradinho Luiacutes Figueiredo e Petra Jelinkova pela disponibilizaccedilatildeo de conjuntos de

dados essenciais para a prossecuccedilatildeo deste trabalho

Agrave Alexandra Carvalho por ter tido a disponibilidade de ler a primeira versatildeo deste relatoacuterio e

contribuiacutedo com pertinentes sugestotildees

Aos nossos colegas da sala 138 pela camaradagem e companhia nas longas horas passadas no

INESC

Aos colegas da sala 128 pela motivaccedilatildeo e constante disponibilidade

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes x

Resumo

A grande quantidade de dados disponiacuteveis na aacuterea da Biologia requer meacutetodos de extracccedilatildeo de

conhecimento poderosos sistemaacuteticos e eficientes Em particular a identificaccedilatildeo de

sequecircncias de nucleoacutetidos designadas de consensos onde se ligam factores de transcriccedilatildeo

responsaacuteveis em parte pelo mecanismo de regulaccedilatildeo geacutenica eacute essencial para uma

compreensatildeo do papel de cada gene

Actualmente existem vaacuterios algoritmos cujo objectivo eacute encontrar sequecircncias candidatas a

sequecircncias de consenso Estes algoritmos podem ser divididos em duas classes meacutetodos

restritivos e meacutetodos proliacuteficos Os meacutetodos restritivos obtecircm poucas respostas com elevada

precisatildeo enquanto que os meacutetodos proliacuteficos obtecircm muitas respostas com baixa precisatildeo

exigindo um esforccedilo de poacutes-processamento

Neste trabalho utilizamos o SMILE [1] que eacute um meacutetodo proliacutefico para a extracccedilatildeo de

sequecircncias de consenso na regiatildeo promotora dos genes Face ao nuacutemero significativo das

respostas obtidas pretende-se com este trabalho avaliar possiacuteveis soluccedilotildees de poacutes-

processamento de modo a garantir a utilidade da informaccedilatildeo extraiacuteda para os utilizadores do

algoritmo Assim definiram-se dois grandes objectivos

A avaliaccedilatildeo de meacutetodos estatiacutesticos que permitam aferir a significacircncia bioloacutegica das

respostas obtidas

A obtenccedilatildeo de uma descriccedilatildeo compacta da informaccedilatildeo extraiacuteda

Palavras-chave Gene regulaccedilatildeo geacutenica regiatildeo promotora sequecircncias degeneradas IUPAC

avaliaccedilatildeo estatiacutestica de biosequecircncias SMILE extracccedilatildeo de motivos

Relatoacuterio Intercalar de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 1

1 Introduccedilatildeo

A crescente disponibilidade de dados sobre o genoma de vaacuterios organismos tem possibilitado

o aparecimento de novos projectos na aacuterea da biologia No entanto a quantidade massiva de

dados disponiacuteveis torna impossiacutevel uma anaacutelise manual da informaccedilatildeo sendo cada vez mais

premente a necessidade de um processamento automaacutetico dos dados obtidos

Neste contexto a identificaccedilatildeo e modelaccedilatildeo da regiatildeo promotora dos genes assume um papel

fundamental pois as condiccedilotildees de activaccedilatildeo e transcriccedilatildeo de um gene dependem das

sequecircncias de nucleoacutetidos aiacute presentes

As sequecircncias de nucleoacutetidos da regiatildeo promotora que determinam a transcriccedilatildeo do gene satildeo

denominadas de promotores e satildeo representadas por sequecircncias de consenso ou

simplesmente consensos A literatura refere vaacuterias formas de descriccedilatildeo destes consensos

desde a utilizaccedilatildeo de uma matriz de pesos a uma sequecircncia de bases mais frequentes Neste

trabalho utilizamos uma codificaccedilatildeo IUPAC destas sequecircncias que corresponde a um

conjunto de sequecircncias degeneradas em que cada siacutembolo representa um conjunto de

nucleoacutetidos possiacuteveis para uma dada posiccedilatildeo

Actualmente existem vaacuterios algoritmos cujo objectivo eacute encontrar sequecircncias candidatas a

sequecircncias de consenso nas regiotildees promotoras As sequecircncias que satildeo reportadas como

possiacuteveis consensos satildeo designadas de motivos Os algoritmos de pesquisa de motivos podem

ser agrupados de uma forma geral em dois tipos algoritmos restritivos e algoritmos

proliacuteficos

Os algoritmos restritivos concentram-se em encontrar poucos motivos mas de relevacircncia

assinalaacutevel enquanto que os algoritmos proliacuteficos preocupam-se em determinar todos os

motivos que possam ser encontrados de acordo com determinados paracircmetros de pesquisa

Os algoritmos designados de proliacuteficos tecircm a vantagem de natildeo fazerem suposiccedilotildees a priori

No entanto a grande quantidade de motivos encontrados requer um esforccedilo de poacutes-

processamento significativo

Este trabalho tem por objectivo o desenvolvimento de uma metodologia que permita o

processamento automaacutetico dos motivos encontrados por um algoritmo que pode ser

classificado de proliacutefico o algoritmo SMILE [1]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 2

No Capiacutetulo 2 apresentamos uma descriccedilatildeo do problema em anaacutelise evidenciando a

motivaccedilatildeo bioloacutegica e fazendo o seu enquadramento com os objectivos do trabalho

No Capiacutetulo 3 descrevemos o algoritmo SMILE no contexto do problema da extracccedilatildeo de

motivos e apresentamos um gerador de dados sinteacuteticos que seraacute usado como ponto de partida

do estudo da eficaacutecia do algoritmo

No Capiacutetulo 4 discutimos a utilizaccedilatildeo de meacutetodos estatiacutesticos para aferir a significacircncia

bioloacutegica dos motivos extraiacutedos pelo SMILE

No Capiacutetulo 5 apresentamos um meacutetodo para geraccedilatildeo de uma representaccedilatildeo compacta de

motivos extraiacutedos usando a codificaccedilatildeo IUPAC

Finalmente no Capiacutetulo 6 apresentamos vaacuterios resultados obtidos tanto com dados sinteacuteticos

como com dados reais discutindo a aplicabilidade dos meacutetodos estatiacutesticos apresentados no

Capiacutetulo 4

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 3

2 Descriccedilatildeo do Problema

A moleacutecula de DNA eacute responsaacutevel pela manutenccedilatildeo da informaccedilatildeo geneacutetica de cada indiviacuteduo

e eacute constituiacuteda por duas cadeias de nucleoacutetidos dispostas de modo a formar uma dupla

heacutelice [2] que se encontra representada na Figura 21 Cada nucleoacutetido eacute formado por trecircs

elementos um accediluacutecar um grupo fosfato e uma de quatro bases azotadas As quatro bases satildeo

a Adenina (A) a Timina (T) a Guanina (G) e a Citosina (C) e podem ser vistas como os

quatro elementos de um alfabeto

Figura 21

Representaccedilatildeo de cadeias de DNA em forma de dupla heacutelice

As duas cadeias de DNA satildeo complementares no sentido em que as bases das duas cadeias

estatildeo emparelhadas Assim uma Adenina de uma cadeia emparelha com uma Timina da

cadeia complementar e do mesmo modo uma Citosina emparelha com uma Guanina

Os genes satildeo segmentos de uma cadeia de DNA que controlam a siacutentese proteica e

consequentemente toda a actividade celular O genoma eacute o conjunto de genes de um

indiviacuteduo

A expressatildeo geacutenica eacute o processo atraveacutes do qual a informaccedilatildeo contida nos genes dirige a

siacutentese de proteiacutenas Este processo envolve dois passos transcriccedilatildeo e traduccedilatildeo

A transcriccedilatildeo consiste na transferecircncia da informaccedilatildeo contida no DNA para uma moleacutecula

intermediaacuteria de RNA designada de RNA-mensageiro ou mRNA De seguida o molde de

mRNA eacute usado no passo de traduccedilatildeo onde iraacute dirigir a siacutentese proteica

Este processo eacute semelhante em todos os organismos vivos embora existam diferenccedilas

assinalaacuteveis entre organismos eucariotas e procariotas isto eacute entre organismos com e sem

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 4

nuacutecleo individualizado respectivamente Em particular o mecanismo eacute consideravelmente

mais complexo em organismos eucariotas A Figura 22 ilustra o processo de expressatildeo geacutenica

em eucariotas (Figura 22-A) e procariotas (Figura 22-B)

Figura 22 Expressatildeo geacutenica em eucariotas (A) e procariotas (B)

Actualmente o problema da identificaccedilatildeo e modelaccedilatildeo dos mecanismos que regulam a

interacccedilatildeo entre grupos de genes eacute um dos problemas mais em foco na investigaccedilatildeo em

biologia computacional Como jaacute foi referido a regiatildeo promotora eacute parte essencial do

mecanismo de regulaccedilatildeo da transcriccedilatildeo geacutenica

A biologia oferece-nos alguns modelos da regiatildeo promotora evidenciando as diferenccedilas entre

organismos procariotas (Figura 23) e eucariotas (Figura 24)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 5

Figura 23 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em procariotas

Figura 24 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em eucariotas

No mecanismo de transcriccedilatildeo geacutenica interveacutem uma enzima denominada RNA-polimerase

Esta enzima tem como funccedilatildeo a transcriccedilatildeo da informaccedilatildeo contida no DNA para uma cadeia

de RNA que iraacute posteriormente intervir no processo de siacutentese proteica

Para que a RNA-polimerase inicie a transcriccedilatildeo de uma cadeia de DNA geralmente um gene

eacute necessaacuterio que se cumpram algumas condiccedilotildees Assim entre outras eacute necessaacuterio que

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 6

estejam presentes na regiatildeo promotora motivos que a RNA-polimerase reconheccedila e aos quais

se possa ligar para iniciar a transcriccedilatildeo da regiatildeo a jusante (na literatura inglesa estas regiotildees

satildeo denominadas de binding sites) As condiccedilotildees de activaccedilatildeo desta enzima satildeo mais

complexas nos organismos eucariotas [3] uma vez que neste caso para aleacutem dos motivos

referidos existem ainda vaacuterios outros que satildeo reconhecidos por factores de transcriccedilatildeo isto eacute

proteiacutenas que se ligam sucessivamente agrave RNA-polimerase estabelecendo um complexo

mecanismo de regulaccedilatildeo Estes motivos podem estar a montante a jusante ou mesmo no

interior do gene a ser transcrito e podem ainda exercer um efeito estimulador ou repressor da

transcriccedilatildeo Os locais onde existem motivos aos quais se ligam os diversos factores de

transcriccedilatildeo satildeo designados genericamente por regiotildees reguladoras

Eacute possiacutevel compreender agora a importacircncia da necessidade de ser definido um modelo ou

modelos para a regiatildeo promotora no acircmbito do estudo do genoma

Neste trabalho utilizamos o algoritmo SMILE para procurar motivos interessantes isto eacute

biologicamente significativos em cadeias de DNA pertencentes agrave regiatildeo promotora dos genes

Como jaacute foi referido trata-se de um algoritmo proliacutefico no sentido em que se preocupa em

encontrar todas as sequecircncias que cumpram os paracircmetros especificados Sendo assim torna-

se necessaacuterio um esforccedilo significativo de poacutes-processamento para que possa ser obtida

informaccedilatildeo uacutetil a partir dos dados gerados

O poacutes-processamento dos motivos extraiacutedos inclui uma anaacutelise estatiacutestica que culmina com a

atribuiccedilatildeo de um niacutevel de significacircncia a cada motivo Deste modo eacute possiacutevel definir um

crivo que separa motivos considerados relevantes de motivos agrave partida menos interessantes

Finalmente e depois de ter sido encontrado um conjunto de motivos relevantes seraacute efectuada

uma traduccedilatildeo para uma representaccedilatildeo IUPAC Esta representaccedilatildeo permite compactar os

dados agrupando motivos muito semelhantes Este passo eacute de importacircncia essencial para uma

utilizaccedilatildeo eficiente dos dados obtidos uma vez que uma representaccedilatildeo compacta facilita a sua

utilizaccedilatildeo em pesquisas em bases de dados bioloacutegicas que contecircm informaccedilatildeo sobre

consensos anteriormente identificados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 7

3 Extracccedilatildeo de motivos

31 Algoritmo SMILE

O SMILE eacute um meacutetodo algoriacutetmico de extracccedilatildeo de motivos de sequecircncias bioloacutegicas O

algoritmo comeccedila por processar um conjunto de dados de entrada composto por vaacuterias

sequecircncias natildeo alinhadas de nucleoacutetidos que se sabe conterem um ou mais binding sites Estes

dados satildeo utilizados para calcular ocorrecircncias de motivos usando como estrutura de dados

base uma aacutervore de sufixos

Um modelo eacute uma representaccedilatildeo de subsequecircncias que ocorrem nos dados de entrada

satisfazendo potencialmente certas propriedades

O algoritmo iraacute assim pesquisar modelos (simples ou estruturados) nos dados que lhe satildeo

fornecidos segundo alguns paracircmetros

Um modelo simples diz respeito a uma subsequecircncia contiacutegua de nucleoacutetidos enquanto que

um modelo estruturado eacute uma composiccedilatildeo de modelos simples

Um modelo estruturado pode ser constituiacutedo por vaacuterias partes posicionadas ao longo da

sequecircncia Cada parte eacute um modelo simples que pode ter um tamanho variaacutevel (entre kmin e

kmax) O espaccedilo entre cada parte consecutiva pode tambeacutem ser parametrizado (dmin e dmax)

Do mesmo modo tambeacutem eacute possiacutevel parametrizar o nuacutemero de erros que se permite ocorrer

no modelo e em cada uma das suas partes

A Figura 31 apresenta um exemplo de uma especificaccedilatildeo de um modelo estruturado em que

se consideram duas partes A primeira parte pode ter um tamanho entre 6 e 8 nucleoacutetidos e satildeo

admitidos 2 erros A segunda parte pode ocorrer entre 16 e 18 nucleoacutetidos apoacutes a primeira

parte e teraacute um tamanho igualmente entre 6 e 8 embora seja admitido apenas 1 erro

A Figura 32 apresenta o esquema de outro modelo estruturado e respectiva concretizaccedilatildeo

numa sequecircncia Neste exemplo consideram-se igualmente duas partes A primeira com

tamanho entre 6 e 10 nucleoacutetidos e a segunda entre 6 e 8 As partes podem estar a uma

distacircncia que varia entre 10 e 15 nucleoacutetidos e natildeo satildeo admitidos erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 8

Figura 31 Exemplo de uma especificaccedilatildeo de um modelo estruturado

Figura 32 (a) Exemplo de especificaccedilatildeo (b) Modelo retirado de uma sequecircncia

que cumpre a especificaccedilatildeo

Um modelo eacute considerado vaacutelido caso o nuacutemero de sequecircncias de entrada em que ocorre seja

natildeo inferior a um miacutenimo estabelecido designado por quoacuterum Os modelos vaacutelidos satildeo

designados de motivos

Para verificar o nuacutemero de ocorrecircncias eacute utilizada uma aacutervore de sufixos Uma aacutervore de

sufixos eacute uma estrutura de dados que representa todos os sufixos de uma cadeia de caracteres

As suas caracteriacutesticas satildeo de grande utilidade para os algoritmos de emparelhamento de

caracteres

6-10 6-8

10-15

(a)

ATTATTA_CTATCT

ATTATTAGTACTCATACCTATCT

(b)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 9

O SMILE processa conjuntos de dados isto eacute conjuntos de sequecircncias de nucleoacutetidos

utilizando para esse efeito uma aacutervores de sufixos generalizada Esta estrutura de dados

difere da aacutervore de sufixos simples no sentido em que agrupa vaacuterias cadeias de caracteres

correspondentes agraves vaacuterias sequecircncias de nucleoacutetidos Esta multiplicidade de sequecircncias exige

que a estrutura registe as sequecircncias a que cada sufixo pertence As aacutervores de sufixos fazem

uso de um siacutembolo terminador ($) para assinalar o fim de cada sufixo

A Figura 33 eacute um exemplo de uma aacutervore de sufixos generalizada

Figura 33 - Aacutervore de sufixos generalizada para as sequecircncias

TACTA$ (sequecircncia 1) e CACTCA$ (sequecircncia 2)

A extracccedilatildeo de motivos eacute feita atraveacutes da travessia em profundidade-primeiro de uma aacutervore

lexicograacutefica virtual de modo a garantir que se explora o espaccedilo de todos os modelos

possiacuteveis Esta travessia da aacutervore lexicograacutefica eacute acompanhada da exploraccedilatildeo da aacutervore de

sufixos generalizada de forma a obter todos os sufixos a distacircncia de Hamming natildeo superior a

e1 do modelo em consideraccedilatildeo Assim para cada noacute da aacutervore virtual eacute verificado o quoacuterum

do modelo correspondente contabilizando para tanto o nuacutemero de sequecircncias diferentes que

participam com sufixos a distacircncia de Hamming natildeo superior a e do modelo

1 O valor desta distacircncia depende do nuacutemero de erros admitidos na extracccedilatildeo de motivos e corresponde a um dos

paracircmetros do algoritmo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 10

A extracccedilatildeo de motivos estruturados eacute feita de forma semelhante correspondendo a muacuteltiplas

procuras de modelos simples que constituem cada parte do modelo estruturado A transiccedilatildeo

entre partes ilustrada pela Figura 34 corresponde a um salto na aacutervore de sufixos com tantos

niacuteveis de profundidade adicionais quanto a distacircncia especificada entre cada parte

Uma descriccedilatildeo pormenorizada do algoritmo encontra-se em [4] e [5]

Figura 34 Esquema da procura de motivos estruturados usando uma aacutervore de

sufixos

Este algoritmo exacto gera todos os possiacuteveis motivos dentro dos paracircmetros especificados

Daqui resulta geralmente um nuacutemero demasiado grande de motivos sendo necessaacuterio

discriminar quais os verdadeiros binding sites Como meacutetodo de avaliaccedilatildeo o SMILE utiliza

um teste estatiacutestico que eacute descrito na Secccedilatildeo 41

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 11

32 Gerador de dados sinteacuteticos

A anaacutelise da eficaacutecia e eficiecircncia do algoritmo de extracccedilatildeo de motivos exige a utilizaccedilatildeo de

dados sobre os quais tenhamos agrave partida algum conhecimento Para tal foi desenvolvido um

gerador de dados sinteacuteticos

O gerador de dados sinteacuteticos permite por um lado evitar a necessidade de dispor de

conjuntos de dados reais e por outro ter um maior controlo sobre os motivos que estatildeo

realmente presentes nos dados

O gerador permite especificar o nuacutemero e o tamanho das sequecircncias do conjunto de dados

bem como os motivos a inserir Os motivos satildeo especificados pela sua sequecircncia de

nucleoacutetidos posiccedilatildeo na sequecircncia e frequecircncia de ocorrecircncia Os motivos podem ser simples

ou estruturados A Figura 35 representa um exemplo de um ficheiro de especificaccedilatildeo

Frequecircncia

Posiccedilatildeo

Sequecircncia Posiccedilatildeo

Sequecircncia

02 09 TGCTTTTTAAT

28 TCGA

03 02 AGTACATCGA

02 12 TGCGCA

Figura 35 Exemplo de um ficheiro de especificaccedilatildeo para a geraccedilatildeo de dados

sinteacuteticos

No exemplo apresentado satildeo especificados trecircs motivos (um motivo estruturado e dois

motivos simples) A primeira coluna (Frequecircncia) indica a percentagem de sequecircncias em que

o motivo deveraacute ocorrer Em particular para esta especificaccedilatildeo o primeiro motivo deveraacute

ocorrer em 20 das sequecircncias As restantes colunas especificam a posiccedilatildeo e a sequecircncia de

nucleoacutetidos de cada parte do motivo O nuacutemero e o tamanho das sequecircncias a gerar satildeo

especificados na linha de comandos do gerador

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 12

O gerador verifica a especificaccedilatildeo de modo a testar se eacute possiacutevel gerar um conjunto de dados

com as caracteriacutesticas indicadas Em particular eacute necessaacuterio que no caso das frequecircncias

especificadas somarem mais do que 1 alguns dos motivos sejam sobreponiacuteveis uma vez que o

gerador garante o cumprimento exacto da frequecircncia de ocorrecircncia especificada para cada

motivo

O processo de geraccedilatildeo do conjunto de dados envolve duas fases Numa primeira fase eacute gerado

um conjunto de dados aleatoacuterios em que a ocorrecircncia de cada nucleoacutetido eacute equiprovaacutevel Para

gerar aleatoriamente nucleoacutetidos eacute usada uma variaccedilatildeo do algoritmo ran2 [6]

Numa segunda fase satildeo inseridos os motivos especificados em tantas sequecircncias quanto as

necessaacuterias para perfazer a frequecircncia indicada As sequecircncias seleccionadas para a inserccedilatildeo

de motivos satildeo igualmente escolhidas de forma aleatoacuteria

O recurso a dados sinteacuteticos permite afastar a possibilidade de motivos bem classificados

corresponderem a consensos ainda natildeo identificados por via experimental como pode

acontecer quando se analisam conjuntos de dados reais No entanto eacute necessaacuterio termos

presentes as limitaccedilotildees da actual abordagem Em particular sabemos que a geraccedilatildeo

equiprovaacutevel de nucleoacutetidos estaacute em desacordo com a estatiacutestica tiacutepica da regiatildeo promotora

onde satildeo mais comuns A s e T s do que G s e C s Do mesmo modo podem existir outras

correlaccedilotildees de ordem superior designadamente uma preferecircncia por certos diacutemeros ou

triacutemeros em detrimento de outros Esta limitaccedilatildeo eacute ilustrada pelo facto de os resultados

obtidos com dados sinteacuteticos serem geralmente melhores do que os obtidos com dados reais

As causas e consequecircncias desta observaccedilatildeo seratildeo discutidas nas secccedilotildees seguintes

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 13

4 Anaacutelise Estatiacutestica

41 Teste do 2

Como jaacute foi referido o SMILE em geral extrai um elevado nuacutemero de modelos Para isolar

motivos relevantes eacute usado um teste estatiacutestico de modo a atribuir uma significacircncia estatiacutestica

a cada modelo extraiacutedo

O meacutetodo de avaliaccedilatildeo utilizado consiste em aplicar o teste do 2 com um grau de liberdade

O objectivo eacute determinar a probabilidade de obtermos motivos observados em sequecircncias

aleatoacuterias que preservam os k-mers2 das sequecircncias originais Assim pretende-se perceber se

a ocorrecircncia do motivo se deve agrave frequecircncia de k-mers presentes na sequecircncia aleatoacuteria tendo

portanto uma baixa significacircncia estatiacutestica ou se eacute verificada a situaccedilatildeo oposta ou seja

elevada significacircncia estatiacutestica Estes uacuteltimos satildeo considerados pelo algoritmo como os que

apresentam maior potencial de serem verdadeiros binding sites Para tal o SMILE permite a

realizaccedilatildeo de dois tipos alternativos de teste um quanto ao nuacutemero de sequecircncias em que o

motivo ocorre (quoacuterum) e outro em relaccedilatildeo agrave abundacircncia do motivo no conjunto de dados

Para aplicar o teste do 2 procedemos agrave construccedilatildeo de uma tabela de contingecircncia com 4

entradas (Tabela 41)

Dados Originais Dados Aleatoacuterios

Presenccedila Porig Prandom

Ausecircncia Aorig Arandom

Tabela 41 Tabela de contingecircncia para o caacutelculo do 2

2 Sequecircncias de nucleoacutetidos de tamanho k

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 14

As colunas da tabela referem-se agraves duas amostras em anaacutelise ou seja o conjunto de dados

original e as sequecircncias aleatoacuterias geradas As linhas da tabela referem-se agraves duas classes de

contagens Caso consideremos o teste quanto ao quoacuterum a classe Presenccedila diz respeito ao

nuacutemero de sequecircncias em que o motivo ocorre e a classe Ausecircncia refere-se ao nuacutemero de

sequecircncias em que o motivo natildeo ocorre Caso se trate do teste relativo agrave abundacircncia a

primeira classe refere-se ao nuacutemero de ocorrecircncias do motivo no conjunto de dados e a

segunda ao nuacutemero de natildeo ocorrecircncias do motivo em relaccedilatildeo ao nuacutemero de oportunidades de

ocorrecircncia Considera-se como nuacutemero de oportunidades de ocorrecircncia o tamanho do

conjunto de dados Esta tabela seraacute usada agora para fazer um teste de homogeneidade de

proporccedilotildees

Para calcular a significacircncia estatiacutestica basta usar a expressatildeo do 2 correspondente agrave equaccedilatildeo

(41) onde ijO diz respeito ao valor observado para a entrada (ij) da tabela e ijE se refere ao

correspondente valor esperado

21

22 )(

ji ij

ijij

E

OE

(41)

O valor esperado para cada entrada da tabela eacute dado pela expressatildeo (42) ou seja o valor

esperado para a entrada (ij) da tabela eacute igual ao produto do total da linha i pelo total da linha

j divido pela soma de todos os elementos da tabela

21

2121

lkkl

kkj

kik

ij O

OO

E (42)

Nas condiccedilotildees desta tabela de contingecircncia eacute possiacutevel utilizar uma forma expedita de caacutelculo

que consiste na aplicaccedilatildeo da expressatildeo (43)

))()()((

)()( 22

origorigrandomrandomrandomorigrandomorig

randomorigrandomorigorigrandomrandomorig

APAPAAPP

AAPPAPAP

(43)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 15

A hipoacutetese nula que consideramos neste teste estatiacutestico refere-se agrave possibilidade de os

motivos terem sido gerados por sequecircncias aleatoacuterias sob certas restriccedilotildees Isto eacute assumimos

que as contagens obtidas para os motivos nas sequecircncias originais satildeo semelhantes agraves que

obteriacuteamos em sequecircncias aleatoacuterias com as mesmas frequecircncias de k-mers Valores altos de

significacircncia estatiacutestica implicam a rejeiccedilatildeo da hipoacutetese nula

Um importante problema prende-se com a validade da aplicaccedilatildeo do teste do 2 O SMILE em

particular apresenta para cada motivo uma medida da sua significacircncia estatiacutestica No

entanto o verdadeiro interesse reside na determinaccedilatildeo da significacircncia bioloacutegica dos motivos

encontrados O que estaacute em causa eacute perceber se um motivo eacute um potencial binding site Eacute

necessaacuterio testar este meacutetodo em dados reais com consensos conhecidos para se perceber se a

significacircncia estatiacutestica apresenta uma elevada correlaccedilatildeo com a significacircncia bioloacutegica

No Capiacutetulo 6 apresentamos uma discussatildeo acerca da adequaccedilatildeo do teste do 2 para a afericcedilatildeo

da significacircncia bioloacutegica dos motivos extraiacutedos pelo SMILE

42 Meacutetodo de Shuffling

Como jaacute foi referido para efectuar o caacutelculo da significacircncia estatiacutestica o SMILE recorre agrave

geraccedilatildeo de sequecircncias aleatoacuterias com certas restriccedilotildees baseadas na estatiacutestica dos dados

originais Para o efeito eacute usado um algoritmo de data shuffling [78]

O meacutetodo de shuffling permite obter um conjunto de dados aleatoacuterio com base num conjunto

de dados original garantindo a preservaccedilatildeo exacta das frequecircncias de k-mers para um dado k

O meacutetodo de geraccedilatildeo pode ser visto como um passeio aleatoacuterio sobre um multi-grafo onde os

noacutes satildeo todas as subsequecircncias de tamanho k-1 presentes na sequecircncia original e cada aresta

corresponde a uma transiccedilatildeo entre (k-1)-mers verificada nos dados No caso de k igual a 1 natildeo

eacute gerado um multi-grafo sendo feita apenas uma reordenaccedilatildeo aleatoacuteria dos nucleoacutetidos de

cada sequecircncia

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 16

A Figura 41 ilustra um exemplo de um multi-grafo gerado a partir da sequecircncia

ATTATTTATT bem como um caminho no grafo que gera a sequecircncia alternativa

TATTATTTAT

Figura 41 Multi-grafo gerado pela sequecircncia ATTATTTATT para k=4 com 2

passeios aleatoacuterios

Para que cada sequecircncia gerada seja vaacutelida eacute necessaacuterio que tenha o mesmo tamanho que a

sequecircncia original Sendo assim eacute faacutecil perceber que apenas os caminhos eulerianos garantem

a geraccedilatildeo de uma sequecircncia com estas caracteriacutesticas No SMILE este processo eacute repetido

para cada sequecircncia isoladamente

Para garantir a fiabilidade dos resultados obtidos eacute efectuado um nuacutemero elevado de

simulaccedilotildees donde satildeo extraiacutedos os valores meacutedios do quoacuterum ou da abundacircncia de cada

motivo a partir dos quais eacute calculada a significacircncia estatiacutestica no sentido do teste do 2

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 17

A Figura 42 mostra um histograma com os resultados obtidos em 100 simulaccedilotildees para um

motivo extraiacutedo do conjunto de dados da Helicobater pylori3 onde foram preservadas as

frequecircncias relativas de nucleoacutetidos (k=1) Este conjunto de dados eacute constituiacutedo por 308

sequecircncias com comprimentos que variam entre 40 e 300 nucleoacutetidos Foi efectuada uma

procura de motivos simples com tamanhos natildeo inferiores a 6 Foi admitido 1 erro e foi

exigido um quoacuterum de 6

O histograma indica a percentagem de simulaccedilotildees em que o motivo em consideraccedilatildeo ocorre

num determinado nuacutemero de sequecircncias Em particular no exemplo da Figura 42 o motivo

TTTTAA ocorre num nuacutemero de sequecircncias entre 282 e 284 em 13 das simulaccedilotildees

A seta a negro refere-se ao nuacutemero de ocorrecircncias do motivo observadas no conjunto de dados

original Quanto mais afastada estiver a seta do maacuteximo da curva maior seraacute a significacircncia

estatiacutestica Neste caso foi atribuiacuteda uma significacircncia de 593 ao motivo TTTTAA

Figura 42 Histograma das ocorrecircncias observadas do motivo TTTTAA em 100

simulaccedilotildees de shuffling do conjunto de dados da H pylori

3 Organismo procariota

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 18

O meacutetodo de data shuffling pode ser pesado do ponto de vista computacional e representa

uma grande restriccedilatildeo no desempenho da avaliaccedilatildeo de motivos Em particular a necessidade

de pesquisar todos os motivos extraiacutedos em cada conjunto de dados aleatoacuterio gerado constitui

uma seacuterio entrave ao bom desempenho deste meacutetodo

Devido aos referidos problemas de desempenho opta-se geralmente por fazer um nuacutemero de

simulaccedilotildees com geraccedilatildeo de sequecircncias aleatoacuterias inferior ao estatisticamente aconselhado o

que pode ter impacto nos resultados

Outra questatildeo pertinente coloca-se ainda quanto agrave preservaccedilatildeo dos k-mers Uma vez que o

shuffling eacute feito sobre cada sequecircncia do conjunto de dados valores elevados de k impotildeem

restriccedilotildees severas agrave variabilidade dos conjuntos de dados aleatoacuterios gerados Assim para estes

valores o teste estatiacutestico eacute inuacutetil uma vez que os conjuntos de dados gerados satildeo

praticamente iguais ao conjunto de dados original Em particular quando o tamanho dos

k-mers a preservar eacute igual ou superior ao tamanho de um motivo as suas ocorrecircncias satildeo

estritamente conservadas no conjunto de dados aleatoacuterio levando a que o valor da

significacircncia seja 0 A Figura 43 ilustra o facto de a significacircncia estatiacutestica tender

inevitavelmente para zero agrave medida que o valor de k aumenta Os valores do graacutefico foram

igualmente obtidos a partir do conjunto de dados da H pylori descrito anteriormente

Figura 43 Graacutefico da evoluccedilatildeo da significacircncia estatiacutestica com o aumento do valor

de k para um motivo de tamanho 8 extraiacutedo do conjunto de dados da H pylori

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 19

43 Meacutetodo Analiacutetico

Nesta Secccedilatildeo propotildee-se um meacutetodo analiacutetico que tem por objectivo resolver alguns dos

problemas do meacutetodo de shuffling descrito na Secccedilatildeo anterior designadamente o fraco

desempenho computacional e as excessivas restriccedilotildees devidas agrave conservaccedilatildeo estrita das

frequecircncias dos k-mers Assim pretende-se obter um meacutetodo computacionalmente eficiente

para avaliar a relevacircncia de motivos extraiacutedos pelo SMILE

Com este meacutetodo comeccedila-se por abstrair um modelo de Markov a partir do conjunto de dados

em estudo Os estados do modelo de Markov correspondem a todos os (k-1)-mers presentes no

conjunto de dados sendo a probabilidade inicial de cada estado a frequecircncia relativa

observada do (k-1)-mer correspondente

A probabilidade de transiccedilatildeo entre estados corresponde agrave razatildeo entre o nuacutemero de vezes que o

(k-1)-mer referente ao estado de destino sucede ao (k-1)-mer referente ao estado de origem

nos dados e o nuacutemero de vezes que o (k-1)-mer correspondente ao estado de origem precede

qualquer outro (k-1)-mer nas sequecircncias em anaacutelise A Figura 45 apresenta um modelo de

Markov abstraiacutedo a partir do conjunto de dados referido na Figura 44

Figura 44 Conjunto de dados exemplo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 20

CA

TC

AT

TA

TT

101

51

52

101

51

Figura 45

Exemplo de uma cadeia de Markov para k=3

Cada motivo em anaacutelise eacute processado de forma a calcular a probabilidade do motivo ser

gerado pelo modelo de Markov abstraiacutedo

Esta probabilidade eacute calculada como o produto da probabilidade do estado inicial pela

probabilidade de todas as transiccedilotildees necessaacuterias para compor o motivo Em (44) (45) e (46)

apresenta-se o calculo desta probabilidade para o motivo ATTATT segundo a cadeia de

Markov da Figura 45

)()()()()()( TTATpATTApTATTpTTATpATpATTATTp

(44)

2

111

2

1

5

2)(ATTATTp (45)

10

1)(ATTATTp (46)

No caso em que k eacute igual 1 natildeo eacute construiacuteda uma cadeia de Markov sendo a probabilidade de

ocorrecircncia do motivo o produto das frequecircncias relativas no conjunto de dados dos

nucleoacutetidos que o compotildeem

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 21

Caso sejam admitidos e erros basta considerar a soma das probabilidades de todos motivos a

uma distacircncia de Hamming natildeo superior a e ao inveacutes de se considerar apenas a probabilidade

do motivo em anaacutelise

A probabilidade assim calculada seraacute usada para determinar as entradas referentes a dados

aleatoacuterios na tabela de contingecircncia descrita na Secccedilatildeo 41 para o teste relativo agrave abundacircncia

A determinaccedilatildeo das entradas na tabela quando consideramos o teste relativo ao quoacuterum de um

motivo eacute consideravelmente mais complexa pelo que natildeo a abordaremos neste texto

Assim as entradas randomP e randomA satildeo calculadas da forma indicada em (47) e (48)

respectivamente

))1)((()( nseqsmlenmotiflenseqsnseqskmpP Markovrandom

(47)

randomrandom PlenseqsnseqsA

(48)

Nas expressotildees (47) e (48)

)( kmpMarkov refere-se agrave probabilidade calculada para o motivo m a partir de uma cadeia

de Markov extraiacuteda do conjunto de dados para um dado k

nseqs designa o nuacutemero de sequecircncias do conjunto de dados

lseqs designa o comprimento meacutedio das sequecircncias do conjunto de dados

lenmotif(m) designa o tamanho do motivo m

Agrave semelhanccedila do SMILE no caacutelculo de randomA consideramos como nuacutemero de

oportunidades de ocorrecircncia o tamanho do conjunto de dados

Este meacutetodo apresenta um desempenho computacional significativamente melhor que o

meacutetodo baseado em shuffling uma vez que natildeo necessita de efectuar vaacuterias simulaccedilotildees tendo

apenas de processar o conjunto de dados por uma uacutenica vez O caacutelculo da significacircncia

estatiacutestica de cada motivo eacute linear em relaccedilatildeo ao seu comprimento

Por outro lado o meacutetodo analiacutetico natildeo enferma das mesmas limitaccedilotildees do que o teste

estatiacutestico baseado em simulaccedilotildees permitindo o caacutelculo de significacircncia estatiacutestica para

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 22

valores elevados de k Ao considerar a estatiacutestica de todo o conjunto de dados ao inveacutes de

cada sequecircncia isoladamente este meacutetodo pode tambeacutem agrave partida modelar melhor os dados

Resta acrescentar que o meacutetodo descrito nesta Secccedilatildeo soacute permite obter significacircncias

estatiacutesticas para motivos simples A realizaccedilatildeo de caacutelculos para motivos estruturados eacute

consideravelmente mais complexa e natildeo foi abordada neste trabalho

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 23

5 Geraccedilatildeo de coacutedigo IUPAC

A realizaccedilatildeo eficiente de pesquisas de consensos em bases de dados bioloacutegicas requer uma

representaccedilatildeo compacta dos dados armazenados Neste contexto a possibilidade de

representar consensos em coacutedigo IUPAC assume uma importacircncia fundamental

O coacutedigo IUPAC eacute uma extensatildeo sobre a representaccedilatildeo de sequecircncias de DNA Uma

sequecircncia de DNA eacute constituiacuteda por nucleoacutetidos A codificaccedilatildeo IUPAC introduz siacutembolos que

representam um conjunto de possiacuteveis nucleoacutetidos para uma dada posiccedilatildeo permitindo uma

representaccedilatildeo de sequecircncias degeneradas Por exemplo uma purina (A ou G) eacute representada

pela letra R A descriccedilatildeo completa dos coacutedigos IUPAC encontra-se na Tabela 51

Coacutedigo Descriccedilatildeo A Adenina

C Citosina

G Guanina

T Timina

U Uracilo

R Purina (A ou G)

Y Pirimidina (C T ou U)

M C ou A

K T U ou G

W T U ou A

S C ou G

B C T U ou G (natildeo A)

D A T U ou G (natildeo C)

H A T U ou C (natildeo G)

V A C ou G (natildeo T natildeo U)

N Qualquer base (A C G T ou U)

Tabela 51 Coacutedigo IUPAC

A conversatildeo de um conjunto de sequecircncias de DNA para um conjunto de sequecircncias IUPAC

natildeo eacute uma tarefa trivial Para um dado conjunto de sequecircncias existem diversas codificaccedilotildees

IUPAC possiacuteveis

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 24

O problema da geraccedilatildeo de coacutedigo IUPAC consiste em encontrar o conjunto miacutenimo de

sequecircncias IUPAC que representem um dado conjunto de sequecircncias DNA

Como o objectivo proposto eacute a compressatildeo da representaccedilatildeo das sequecircncias de nucleoacutetidos eacute

desejaacutevel que a codificaccedilatildeo IUPAC seja a mais compacta possiacutevel

A abordagem utilizada foi a de reduzir o problema da compressatildeo IUPAC a um problema

conhecido a minimizaccedilatildeo de expressotildees loacutegicas multi-valor

Uma expressatildeo loacutegica multi-valor eacute uma expressatildeo loacutegica onde figuram variaacuteveis multi-valor

ou seja variaacuteveis que necessitam de mais do que um bit para serem representadas

Para representar um siacutembolo IUPAC eacute utilizada uma variaacutevel multi-valor de 4 bits Os

siacutembolos e as respectivas representaccedilotildees estatildeo na Tabela 52

Siacutembolo

IUPAC

Codificaccedilatildeo

binaacuteria

A 1000

T 0100

C 0010

G 0001

R 1001

Y 0110

S 0011

W 1100

K 0101

M 1010

B 0111

D 1101

H 1110

V 1011

N 1111

Espaccedilo 0000

Tabela 52

Codificaccedilatildeo binaacuteria dos siacutembolos IUPAC

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 25

Uma sequecircncia de nucleoacutetidos ou IUPAC eacute construiacuteda atraveacutes de um produto de termos

sendo cada termo uma variaacutevel multi-valor que representa um siacutembolo da sequecircncia Por

exemplo a sequecircncia WTA eacute representada pela expressatildeo loacutegica (1100) (0100) (1000)

Agora que foi estabelecida uma representaccedilatildeo para sequecircncias IUPAC atraveacutes de expressotildees

loacutegicas multi-valor resta perceber como da minimizaccedilatildeo destas expressotildees pode resultar o

desejado coacutedigo IUPAC

Em (51) temos um exemplo simples de minimizaccedilatildeo loacutegica

ZXZYXZYX

(51)

Eacute faacutecil verificar que X Z eacute uma expressatildeo equivalente O que se pretende para a compressatildeo

IUPAC eacute algo semelhante

Por exemplo a partir das sequecircncias ATA e TTA pretende-se a expressatildeo IUPAC WTA A

simplificaccedilatildeo das expressotildees loacutegicas eacute exemplificada sucessivamente em (52) (53) e (54)

A T A + T T A (52)

(1000) (0100) (1000) + (0100) (0100) (1000)

(A ou T) T A (53)

((1000)+(0100)) (0100) (1000)

W T A (54)

(1100) (0100) (1000)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 26

Eacute faacutecil perceber atendendo agrave escolha criteriosa da codificaccedilatildeo que da minimizaccedilatildeo de

expressotildees loacutegicas que representam sequecircncias de nucleoacutetidos resultam expressotildees loacutegicas

que representam uma codificaccedilatildeo IUPAC das sequecircncias originais

O problema inicial encontra-se agora reduzido a um problema de minimizaccedilatildeo de expressotildees

loacutegicas Este problema jaacute estaacute resolvido na aacuterea da siacutentese loacutegica Um dos programas mais

conhecidos desenvolvido para a resoluccedilatildeo deste problema eacute o programa Espresso [9] Apesar

de ser utilizado neste contexto como uma caixa preta eacute importante perceber o seu

funcionamento

No Espresso as expressotildees loacutegicas satildeo representadas num espaccedilo booleano multi-

dimensional Um exemplo eacute um espaccedilo tridimensional onde podem ser representadas

sequecircncias de tamanho 3 tal como estaacute ilustrado na Figura 51

Figura 51

Representaccedilatildeo das sequecircncias ATA (1) e TTA (2)

Neste contexto um cubo define-se como a representaccedilatildeo espacial de um produto de termos

Ou seja para o problema em questatildeo cada sequecircncia de entrada eacute um cubo e uma cobertura

corresponde a um conjunto de cubos que engloba todos os veacutertices representados no espaccedilo

Pode observar-se que a dimensatildeo do espaccedilo encontra-se directamente relacionada com o

tamanho da sequecircncia que se pretende representar Para efectuar a minimizaccedilatildeo o Espresso

procura uma cobertura miacutenima que daraacute origem ao conjunto de sequecircncias IUPAC de saiacuteda

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 27

No caso do espaccedilo da Figura 51 existe uma cobertura miacutenima constituiacuteda por um uacutenico cubo

A Figura 52 ilustra a referida cobertura

Figura 52 Representaccedilatildeo da cobertura WTA (1)

Da cobertura resulta a codificaccedilatildeo IUPAC das sequecircncias iniciais

O processo para descobrir a cobertura miacutenima eacute complexo sendo composto por um conjunto

intrincado de passos Inicialmente o conjunto de cubos originais eacute expandido de forma a

englobar o maior nuacutemero de veacutertices adjacentes De seguida os cubos redundantes satildeo

removidos e os restantes satildeo reduzidos para que cubram apenas os cubos iniciais Um cubo eacute

considerado redundante se natildeo cobrir nenhum veacutertice que natildeo esteja jaacute coberto por outro

cubo Deste processo resulta uma reduccedilatildeo contiacutenua do nuacutemero de cubos necessaacuterios para a

cobertura O processo eacute reiterado ateacute natildeo se verificarem melhorias substanciais na dimensatildeo

da cobertura obtida

Este processo eacute guiado por heuriacutesticas e eacute possiacutevel demonstrar que produz resultados

proacuteximos da soluccedilatildeo oacuteptima O processo estaacute detalhadamente descrito em [910]

De modo a automatizar o processo de codificaccedilatildeo das sequecircncias de nucleoacutetidos e

descodificaccedilatildeo das sequecircncias IUPAC foi desenvolvida uma interface para o Espresso

Assim as sequecircncias de entrada satildeo transformadas em expressotildees loacutegicas (formato binaacuterio)

seguindo a correspondecircncia referida na Tabela 52 Do mesmo modo a representaccedilatildeo da

cobertura miacutenima obtida pelo Espresso eacute descodificada e traduzida para sequecircncias IUPAC

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 28

O funcionamento da interface foi testado com recurso a um gerador aleatoacuterio de sequecircncias de

nucleoacutetidos e a um verificador O gerador produz um conjunto de sequecircncias obtidas a partir

de uma sequecircncia inicial de nucleoacutetidos O conjunto de sequecircncias gerado corresponde a

vaacuterias substituiccedilotildees aleatoacuterias na sequecircncia inicial e constitui o conjunto de entrada que vai

ser lido pela ferramenta Espresso O verificador recebe o conjunto de sequecircncias de entrada e

o resultado da operaccedilatildeo de minimizaccedilatildeo do Espresso sob a forma de sequecircncias de coacutedigos

IUPAC Deste modo ao expandir as sequecircncias IUPAC obtidas pelo Espresso atraveacutes de

uma operaccedilatildeo trivial de substituiccedilotildees sucessivas eacute possiacutevel testar a completude e adequaccedilatildeo

da representaccedilatildeo Assim diz-se que a representaccedilatildeo eacute completa se a expansatildeo incluir todas as

sequecircncias de entrada por outro lado diz-se que a representaccedilatildeo eacute adequada se natildeo incluir

nenhuma sequecircncia que natildeo esteja no conjunto inicial

Depois de verificada a completude e adequaccedilatildeo das representaccedilotildees obtidas foram feitos testes

com dados reais de modo a poder aferir o grau de compressatildeo das sequecircncias introduzidas

Assim o Espresso foi executado tendo como conjunto de entrada sequecircncias devidamente

codificadas obtidas atraveacutes de uma execuccedilatildeo do SMILE

As taxas de compressatildeo obtidas variam entre 278 e 715

O gerador de coacutedigo IUPAC encontra-se neste momento integrado na base de dados Dbyeast

[11] disponibilizando publicamente o serviccedilo de codificaccedilatildeo A Figura 53 eacute uma imagem da

interface que permite que os utilizadores da Dbyeast obtenham coacutedigo IUPAC a partir de

sequecircncias de DNA

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 29

Figura 53 Interface para geraccedilatildeo de coacutedigo IUPAC integrada na Dbyeast

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 30

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 31

6 Resultados e Conclusotildees

Neste Capiacutetulo iremos analisar os resultados obtidos tanto para dados sinteacuteticos como para

dados reais Para tal iremos comparar os valores de significacircncia estatiacutestica obtidos para os

dois tipos de dados usando tanto o meacutetodo de shuffling como o meacutetodo analiacutetico Para efectuar

esta comparaccedilatildeo eacute uacutetil referirmo-nos agrave posiccedilatildeo obtida pelos motivos em anaacutelise numa lista

ordenada por valores decrescentes de significacircncia estatiacutestica Assim sempre que

mencionarmos o valor da posiccedilatildeo de um motivo estaremos a referir-nos agrave posiccedilatildeo numa lista

assim definida

61 Resultados Obtidos com Dados Sinteacuteticos

Como jaacute foi referido a utilizaccedilatildeo de dados sinteacuteticos permite um maior controlo sobre os

motivos que estatildeo efectivamente presentes no conjunto de dados Assim iremos referir-nos

aos motivos que foram introduzidos no conjunto de dados gerado por motivos especificados

em oposiccedilatildeo aos outros motivos igualmente extraiacutedos pelo SMILE que designaremos por

motivos natildeo-especificados Nesta Secccedilatildeo iremos considerar o teste de significacircncia estatiacutestica

relativo agrave abundacircncia de forma a podermos comparar os resultados obtidos com o meacutetodo

shuffling e com o meacutetodo analiacutetico

611 Resultados do teste do 2 com o meacutetodo shuffling

Ao especificar um conjunto de dados com os mesmos motivos que estatildeo presentemente

descritos para a H pylori obtivemos para motivos simples os resultados apresentados nas

Figuras 61 e 62 O conjunto de dados sinteacutetico conteacutem 308 sequecircncias de comprimento 167

Foi efectuada uma procura de motivos simples com tamanhos compreendidos entre 6 e 8

nucleoacutetidos Natildeo foram admitidos erros e foi exigido um quoacuterum de 6 Os motivos

especificados encontram-se representados a ponteado Os restantes motivos correspondem a

motivos natildeo-especificados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 32

Figura 61 Significacircncia estatiacutestica para motivos simples de tamanho 6

Figura 62 Significacircncia estatiacutestica para motivos simples de tamanho 7

Os graacuteficos natildeo satildeo no entanto suficientes para nos dar a percepccedilatildeo da correcta classificaccedilatildeo

dos motivos uma vez que natildeo eacute possiacutevel fazer representar no graacutefico os 172 motivos

extraiacutedos A Tabela 61 indica as posiccedilotildees ocupadas pelos motivos especificados em relaccedilatildeo agrave

totalidade dos modelos para vaacuterios valores de k

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 33

TTTAAG TTTTAA TATAAT TATAATA

k=1 5 4 1 2

k=2 6 4 1 2

k=3 6 4 2 1

k=4 6 5 2 1

k=5 78 7 5 1

Tabela 61 Posiccedilotildees dos motivos especificados

Em geral os motivos especificados aparecem melhor classificados para um baixo valor de k

Agrave medida que se consideram valores de k crescentes a significacircncia estatiacutestica de todos os

motivos aproxima-se de zero pelas razotildees jaacute apontadas na Secccedilatildeo 42

Eacute comum observar-se a presenccedila de motivos natildeo-especificados com niacuteveis de significacircncia

elevados especialmente se atendermos agraves posiccedilotildees da Tabela 61

Contudo estes bons resultados natildeo se mantecircm se forem admitidos erros na procura Neste

caso embora os motivos mantenham em geral elevadas significacircncias entram em

competiccedilatildeo com os motivos a distacircncia de Hamming natildeo superior ao nuacutemero de erros

admitido Assim eacute comum observar-se uma descida significativa na tabela de posiccedilotildees

Para motivos estruturados os resultados satildeo favoraacuteveis mesmo admitindo erros como eacute

ilustrado pelo graacutefico da Figura 63 em conjugaccedilatildeo com os valores de posiccedilatildeo apresentados na

Tabela 62

Neste exemplo efectuou-se uma procura por motivos estruturados compostos por duas partes

com tamanhos entre 6 e 7 com uma distacircncia entre si variando entre 21 e 23 nucleoacutetidos

Admitiu-se 1 erro em cada parte do motivo mas apenas 1 erro na totalidade do motivo

estruturado e exigiu-se um quoacuterum de 6 Foram extraiacutedos 53 motivos O motivo

especificado encontra-se a ponteado

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 34

Figura 63 Significacircncia estatiacutestica para modelos estruturados em dados sinteacuteticos

TTTAAG_TATAAT

k=1 4

k=2 4

k=3 17

k=4 63

k=5 162

Tabela 62 Posiccedilotildees do motivo estruturado especificado

Neste exemplo foi necessaacuterio admitir a existecircncia de erros para que o motivo fosse encontrado

pelo SMILE Natildeo existem motivos sem erros que cumpram as condiccedilotildees de procura

Esta boa prestaccedilatildeo dos motivos estruturados estaacute relacionada com o facto de o shuffling

raramente preservar as distacircncias relativas de cada uma das partes que constituem o motivo

fazendo com que estes ocorram poucas vezes nas simulaccedilotildees Assim neste exemplo o motivo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 35

estruturado especificado aparece claramente destacado Estes resultados parecem sugerir que a

utilizaccedilatildeo deste teste estatiacutestico se adequa agrave avaliaccedilatildeo de modelos estruturados No entanto

nem todos os promotores exibem esta estrutura sendo necessaacuterio um meacutetodo mais geral para

fazer esta avaliaccedilatildeo

Como veremos em seguida os resultados aparentemente animadores mesmo para motivos

simples natildeo se verificam quando analisamos dados reais Esta evidecircncia estaacute relacionada com

o facto de o gerador de dados sinteacuteticos gerar dados aleatoacuterios com equiprobabilidade de

nucleoacutetidos Nos dados reais isto natildeo se verifica existindo normalmente uma clara

abundacircncia de A s e T s na regiatildeo promotora Do mesmo modo cada conjunto de dados exibe

preferecircncia por certos diacutemeros ou triacutemeros que ocorrem com muito mais frequecircncia que

outros

Esta limitaccedilatildeo podia ser mitigada pela incorporaccedilatildeo destas correlaccedilotildees na geraccedilatildeo de dados

sinteacuteticos Mas embora seja relativamente simples estabelecer uma preferecircncia por certos

nucleoacutetidos a geraccedilatildeo natildeo-equiprovaacutevel de k-mers geneacutericos constitui soacute por si um problema

complexo pelo que natildeo foi abordado neste trabalho

612 Resultados do teste do 2 com o meacutetodo analiacutetico

Os dados sinteacuteticos foram igualmente analisados recorrendo ao meacutetodo analiacutetico que como jaacute

foi referido tem a vantagem de ser mais eficiente do ponto de vista computacional e de poder

explorar valores mais elevados de k As Figura 64 e 65 apresentam a evoluccedilatildeo da

significacircncia estatiacutestica dos mesmos motivos considerados nas Figuras 62 e 63 mas

recorrendo ao meacutetodo analiacutetico

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 36

Figura 64 Significacircncia estatiacutestica de motivos simples de tamanho 6 usando o

meacutetodo analiacutetico

Figura 65 Significacircncia estatiacutestica de motivos simples de tamanho 7 usando o

meacutetodo analiacutetico

A Tabela 63 indica as posiccedilotildees dos motivos especificados para a significacircncia estatiacutestica

calculada por via do meacutetodo analiacutetico

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 37

TTTAAG TTTTAA TATAAT TATAATA

k=1 6 4 1 2

k=2 6 4 1 2

k=3 6 3 2 1

k=4 6 3 2 1

k=5 55 3 2 1

Tabela 63 Posiccedilotildees dos modelos especificados

Satildeo oacutebvias as semelhanccedilas entre os resultados apresentados na Tabela 63 e os presentes na

Tabela 61 Isto confirma a possibilidade de usar o meacutetodo analiacutetico como alternativa ao

meacutetodo de shuffling

Sabemos igualmente que no acircmbito do meacutetodo analiacutetico quando k atinge um valor igual ao

comprimento do motivo em anaacutelise a significacircncia estatiacutestica anula-se Isto tem a ver com o

facto de a probabilidade de ocorrecircncia de um k-mer ser muito proacutexima da sua frequecircncia

relativa no conjunto de dados Assim sendo os valores das entradas da tabela de contingecircncia

relativas aos dados aleatoacuterios seratildeo inevitavelmente iguais agraves dos dados reais resultando deste

facto uma significacircncia estatiacutestica nula

Por outro lado agrave medida que o k aumenta os k-mers introduzidos pelos motivos especificados

no conjunto de dados que de resto eacute aleatoacuterio vatildeo fazer com que a cadeia de Markov gerada

faccedila convergir as probabilidades de ocorrecircncia de cada motivo com a sua frequecircncia relativa

efectiva no conjunto de dados Assim assiste-se ao mesmo fenoacutemeno de convergecircncia para

zero da significacircncia estatiacutestica que assinalaacutemos para o meacutetodo shuffling

Pela anaacutelise dos resultados podemos ainda concluir que em geral um valor de k demasiado

pequeno natildeo modela suficientemente bem os dados daqui resulta que alguns motivos natildeo

especificados obtenham melhores classificaccedilotildees que motivos especificados Em suma

deveremos preferir valores de k intermeacutedios

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 38

62 Resultados Obtidos com Dados Reais

Com este teste pretendemos verificar se uma sequecircncia classificada como estatisticamente

relevante tambeacutem pode ser considerada biologicamente relevante

Para fazer o estudo da anaacutelise estatiacutestica em dados reais foram recolhidos 16 conjuntos de

dados com regiotildees promotoras correspondentes a genes da levedura Saccharomyces

cerevisiae que eacute um organismo eucariota Cada conjunto conteacutem aproximadamente 10

sequecircncias As sequecircncias contecircm consensos obtidos por via experimental e descritos na

literatura A descriccedilatildeo completa de cada conjunto de dados pode ser vista no Anexo A

Para cada conjunto de dados foi feita uma procura de motivos de tamanhos variando entre 4 e

11 nucleoacutetidos para valores de quoacuterum de 60 75 80 e 100 Foram permitidos 0 e 1

erros em ensaios sucessivos e fez-se ainda variar o valor de k entre 1 e 4

Foi posteriormente analisada a significacircncia estatiacutestica calculada pelo SMILE no que diz

respeito ao quoacuterum

Os consensos descritos obtiveram boas classificaccedilotildees para algumas das condiccedilotildees testadas

Em particular quando o quoacuterum exigido se encontra proacuteximo da frequecircncia efectiva dos

motivos nos dados e quando natildeo satildeo admitidos erros Os resultados satildeo tambeacutem melhores

para motivos de tamanho superior a 7 Em suma obtecircm-se bons resultados quando as

condiccedilotildees favorecem os motivos com as caracteriacutesticas dos consensos descritos

Estes resultados natildeo satildeo muito animadores porque para os atingir eacute necessaacuterio um

conhecimento preacutevio da frequecircncia e tamanho dos motivos Ao considerar a generalidade dos

ensaios efectuados verifica-se que as classificaccedilotildees satildeo muito baixas com baixas

significacircncias estatiacutesticas e com valores de posiccedilatildeo frequentemente abaixo dos primeiros

1 000 motivos No Anexo A apresentamos os resultados obtidos com estes ensaios

A par desta anaacutelise foi considerada a significacircncia estatiacutestica obtida a respeito da abundacircncia

Deste modo eacute possiacutevel estabelecer uma comparaccedilatildeo directa entre o meacutetodo de shuffling e o

meacutetodo analiacutetico para o caacutelculo desta meacutetrica

De seguida apresentamos os resultados desta anaacutelise

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 39

621 Resultados do teste do 2 com o meacutetodo shuffling

De modo geral os resultados para o teste estatiacutestico referente agrave abundacircncia representam uma

melhoria em relaccedilatildeo ao teste referente ao quoacuterum

Comeccedilamos por apresentar os graacuteficos referentes a um conjunto de dados cujos motivos

permanecem mal classificados isto eacute o motivo eacute biologicamente relevante mas natildeo eacute

considerado estatisticamente relevante O conjunto de dados em causa o MSN4 tem um

motivo muito abundante (CCCCT) condicionando a estatiacutestica dos dados Isto conjugado

com o seu pequeno tamanho (5 nucleoacutetidos) resulta na inevitaacutevel baixa significacircncia

estatiacutestica uma vez que aparece sistematicamente na geraccedilatildeo aleatoacuteria de sequecircncias feita em

cada simulaccedilatildeo As Figuras 66 e 67 ilustram a evoluccedilatildeo da significacircncia estatiacutestica e da

posiccedilatildeo do referido motivo considerando erro 0 e 1 respectivamente para um quoacuterum de

60

Figura 66 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 0 erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 40

Figura 67 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 1 erro

Os resultados da classificaccedilatildeo satildeo claramente maus para um consenso descrito A estranha

subida para k igual a 4 estaacute relacionada com uma pequena flutuaccedilatildeo sem significado uma vez

que estamos a considerar valores de significacircncia estatiacutestica muito baixos A aparente melhor

classificaccedilatildeo quando consideramos erro 0 estaacute relacionada com o facto de que quando natildeo se

admitem erros satildeo consequentemente extraiacutedos menos motivos Em particular com erro 0 satildeo

extraiacutedos 1 316 motivos enquanto que com erro 1 satildeo extraiacutedos 35 258 motivos

De seguida apresentamos os resultados relativos a um outro conjunto de dados (STE12) que

evidencia resultados mais favoraacuteveis para erro 0 As Figuras 68 e 69 apresentam a evoluccedilatildeo

da significacircncia estatiacutestica do motivo descrito (TGAAACA) para 0 e 1 erros

respectivamente com um quoacuterum de 100

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 41

Figura 68 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 0 erros

Figura 69 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 1 erro

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 42

Resta referir que para este conjunto de dados foram extraiacutedos 267 motivos com erro 0 e

7 705 motivos para erro 1

O facto de os motivos serem abundantes em relaccedilatildeo ao nuacutemero de sequecircncias consideradas

faz com que o teste relativo agrave abundacircncia tenha um poder de resoluccedilatildeo consideravelmente

maior do que o teste relativo ao quoacuterum Por esta razatildeo deveremos sempre preferir o primeiro

em casos semelhantes

Por outro lado os resultados obtidos continuam a pocircr em causa a generalidade do meacutetodo uma

vez que eacute difiacutecil identificar as situaccedilotildees em que este produz bons resultados sobretudo quando

somos confrontados com um desconhecimento a priori do conjunto de dados

622 Resultados do teste do 2 com o meacutetodo analiacutetico

Resta-nos comparar os resultados obtidos na subsecccedilatildeo anterior com os obtidos pela via

analiacutetica Nos graacuteficos apresentados nesta subsecccedilatildeo que representam a evoluccedilatildeo da

significacircncia estatiacutestica com o crescimento do tamanho dos k-mers considerados estatildeo

tambeacutem assinaladas as posiccedilotildees ocupadas pelos motivos

As Figuras 610 e 611 apresentam os resultados referentes ao MSN4

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 43

Figura 610 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 0 erros

Figura 611 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 1 erro

Os resultados para o MSN4 natildeo sofrem alteraccedilotildees assinalaacuteveis em relaccedilatildeo ao meacutetodo anterior

Novamente as caracteriacutesticas do conjunto de dados limitam a possibilidade de evidenciar este

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 44

motivo por via deste teste estatiacutestico o que eacute tanto mais grave quanto o facto de este ser um

dos motivos cuja significacircncia bioloacutegica se encontra melhor estabelecida

As Figuras 612 e 613 apresentam os resultados referentes ao conjunto de dados STE12

Figura 612 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 0 erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 45

Figura 613 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 1 erro

Os dados apresentados natildeo evidenciam melhorias assinalaacuteveis em relaccedilatildeo aos resultados

obtidos por via de shuffling excepto a ocorrecircncia de melhorias ocasionais da classificaccedilatildeo

quando natildeo se admitem erros Estas diferenccedilas podem ser atribuiacutedas ao facto de o meacutetodo

analiacutetico natildeo conservar estritamente os k-mers e de analisar o conjunto de dados na sua

totalidade por oposiccedilatildeo ao shuffling que considera cada sequecircncia isoladamente

No Anexo B apresentamos a totalidade dos resultados desta anaacutelise comparativa No Anexo C

eacute apresentada uma listagem dos resultados do caacutelculo do valor de significacircncia para valores de

k ateacute ao tamanho dos consensos descritos

A grande vantagem deste meacutetodo eacute sem duacutevida o incomparaacutevel ganho a niacutevel de

desempenho computacional Para ilustrar esta afirmaccedilatildeo basta dizer que o caacutelculo da

significacircncia estatiacutestica para todos os conjuntos de dados considerados demorou com o

meacutetodo de shuffling mais de 30 horas de processamento O meacutetodo analiacutetico realizou todos os

caacutelculos em menos de 30 minutos

No entanto os resultados voltam a pocircr em causa a adequaccedilatildeo do teste estatiacutestico do 2 para

aferir a significacircncia bioloacutegica pela dificuldade de sintetizar um meacutetodo geneacuterico para

destacar motivos relevantes de entre os extraiacutedos pelo SMILE

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 46

63 Conclusotildees

Ao considerar os resultados apresentados eacute inevitaacutevel concluir que a significacircncia atribuiacuteda

pelo teste estatiacutestico do 2 aos motivos extraiacutedos pelo SMILE natildeo reflecte a sua significacircncia

bioloacutegica

A dificuldade em distinguir motivos relevantes da grande quantidade de motivos extraiacutedos

potildee em causa a utilidade praacutetica do algoritmo na generalidade dos casos

Para aleacutem desta questatildeo outras limitaccedilotildees tecircm sido apontadas por bioacutelogos designadamente

o facto de o algoritmo natildeo conseguir pesquisar motivos na cadeia de DNA inversa onde os

factores de transcriccedilatildeo podem igualmente ligar-se e o facto de a forma como o SMILE

modela a ocorrecircncia de erros nos motivos natildeo ser compatiacutevel com a necessidade de poder

indicar posiccedilotildees especiacuteficas onde erros satildeo admitidos

No entanto o SMILE continua a exibir resultados interessantes para motivos estruturados o

que constitui sem duacutevida a mais-valia fundamental do algoritmo Tudo indica que o meacutetodo

analiacutetico pode ser igualmente adaptado para calcular a significacircncia de motivos estruturados

Parece-nos claro que uma eficaz extracccedilatildeo de motivos relevantes passaraacute necessariamente

pela conjugaccedilatildeo com outros dados para aleacutem da simples sequecircncia de nucleoacutetidos Em

particular a disponibilidade de informaccedilatildeo acerca de co-regulaccedilatildeo de genes poderaacute guiar a

extracccedilatildeo de motivos permitindo exigir um quoacuterum mais alto dada a confianccedila na existecircncia

de factores de transcriccedilatildeo comuns

Por outro lado a utilizaccedilatildeo de modelos probabiliacutesticos em vez de meras colecccedilotildees de motivos

poderaacute ser uma abordagem mais natural para o problema permitindo simultaneamente uma

melhor modelaccedilatildeo da realidade bioloacutegica ao indicar uma probabilidade de ocorrecircncia de cada

nucleoacutetido para uma dada posiccedilatildeo no modelo O nuacutemero de modelos extraiacutedos seria tambeacutem

francamente reduzido uma vez que um uacutenico modelo probabiliacutestico pode representar com

expressividade acrescida um grande nuacutemero de motivos

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 47

7 Referecircncias

[1] A Vanet L Marsan e M F Sagot Promoter sequence and algorithmical methods for

identifying them Research in Microbiology 150 pp 779-799 1999

[2] JD Watson FH Crick Molecular structure of nucleic acids a structure for deoxyribose

nucleic acid Nature Number 4356 1953

[3] T Werner Models for Prediction and Recognition of Eukaryotic Promoters Mammalian

Genome Vol 10 pp 168-175 1999

[4] L Marsan e M F Sagot Algorithms for extracting structured motifs using a suffix tree

with an application to promoter and regulatory site consensus identication Journal of

Computational Biology 7 pp 345-362 2000

[5] L Marsan Infeacuterence de motifs structureacutes algorithmes et outils appliqueacutes agrave la deacutetection de

sites de fixation dans des seacutequences geacutenomiques PhD Thesis Universiteacute de Marne-la-Valleacutee

2002

[6] B Flannery S Teukolsky W Press e W Vetterling Numerical Recipes in C++

Cambridge University Press 2002

[7] S Altschul e B Erickson Significance of Nucleotide Sequence Alignments A method of

Random Sequence Permutation That Preserves Dinucleotide and Codon Usage Molecular

Biology Evolution 2 pp 526-538 1985

[8] D Kandel Y Matias R Unger e P Winkler Shuffling Biological Sequences Discrete

Appl Math 71 pp 171-185 1996

[9] R Rudell e A Sangiovanni-Vincentelli Multiple-Valued Minimization for PLA

Optimization IEEE Transactions on Computer-Aided Design of Integrated Circuits and

Systems Vol CAD-6 Nordm 5 pp 727-751 September 1987

[10] R Brayton G Hachtel C McMullen e A Sangiovanni-Vincentelli Logic Minimization

Algorithms for VLSI Synthesis Kluwer Academic Publishers 1985

[11] P Monteiro Dbyeast [httpdescartesinesc-idpt~ptgmdb] 2004

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 48

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 49

Anexo A

Resultados do Caacutelculo da Significacircncia Estatiacutestica referente ao Quoacuterum

para Conjuntos de Dados de Saccharomyces cerevisiae

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados

A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos os resultados para os motivos procurados em relaccedilatildeo a cada valor dos paracircmetros

Nota o campo posicao refere-se agrave posiccedilatildeo ocupada pelo motivo na tabela com a estatiacutestica das sequecircncias com pelo menos uma ocorrecircncia do motivo ordenada por chi2

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

314 motivos encontrados Quorum = 80

670 motivos encontrados Quorum = 75

670 motivos encontrados Quorum = 60

1306 motivos encontrados Erro = 1

Quorum = 100 8636 motivos encontrados k = 1 posicao = 2 chi2 = 98 (ACCTTAAAGGT) k = 2 posicao = 2 chi2 = 976 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 965 (ACCTTAAAGGT) k = 4 posicao = 2 chi2 = 984 (ACCTTAAAGGT)

Quorum = 80 17722 motivos encontrados k = 1 posicao = 2 chi2 = 651 (ACCCTAAAGGT) k = 1 posicao = 4 chi2 = 965 (ACCTTAAAGGT) k = 2 posicao = 2 chi2 = 659 (ACCCTAAAGGT) k = 2 posicao = 8 chi2 = 965 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 667 (ACCCTAAAGGT) k = 3 posicao = 4 chi2 = 969 (ACCTTAAAGGT) k = 4 posicao = 2 chi2 = 659 (ACCCTAAAGGT) k = 4 posicao = 3 chi2 = 984 (ACCTTAAAGGT)

Quorum = 75 17722 motivos encontrados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 50

k = 1 posicao = 4 chi2 = 651 (ACCCTAAAGGT) k = 1 posicao = 2 chi2 = 988 (ACCTTAAAGGT) k = 2 posicao = 3 chi2 = 659 (ACCCTAAAGGT) k = 2 posicao = 2 chi2 = 992 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 655 (ACCCTAAAGGT) k = 3 posicao = 3 chi2 = 976 (ACCTTAAAGGT) k = 4 posicao = 3 chi2 = 655 (ACCCTAAAGGT) k = 4 posicao = 5 chi2 = 984 (ACCTTAAAGGT)

Quorum = 60 34907 motivos encontrados k = 1 posicao = 11 chi2 = 655 (ACCCTAAAGGT) k = 1 posicao = 5 chi2 = 996 (ACCTTAAAGGT) k = 1 posicao = 13 chi2 = 421 (ACCTTGAAGGT) k = 2 posicao = 15 chi2 = 647 (ACCCTAAAGGT) k = 2 posicao = 12 chi2 = 969 (ACCTTAAAGGT) k = 2 posicao = 7 chi2 = 421 (ACCTTGAAGGT) k = 3 posicao = 9 chi2 = 655 (ACCCTAAAGGT) k = 3 posicao = 8 chi2 = 984 (ACCTTAAAGGT) k = 3 posicao = 27 chi2 = 414 (ACCTTGAAGGT) k = 4 posicao = 10 chi2 = 651 (ACCCTAAAGGT) k = 4 posicao = 5 chi2 = 984 (ACCTTAAAGGT) k = 4 posicao = 40 chi2 = 407 (ACCTTGAAGGT)

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

161 motivos encontrados Quorum = 80

381 motivos encontrados Quorum = 75

502 motivos encontrados Quorum = 60

826 motivos encontrados k = 1 posicao = 43 chi2 = 33 (CCCCT) k = 2 posicao = 42 chi2 = 202 (CCCCT) k = 3 posicao = 48 chi2 = 142 (CCCCT) k = 4 posicao = 122 chi2 = 028 (CCCCT)

Erro = 1 Quorum = 100

4877 motivos encontrados k = 1 posicao = 3089 chi2 = 002 (CCCCT) k = 2 posicao = 2781 chi2 = 005 (CCCCT) k = 3 posicao = 3148 chi2 = 002 (CCCCT) k = 4 posicao = 2516 chi2 = 007 (CCCCT)

Quorum = 80 10050 motivos encontrados k = 1 posicao = 8449 chi2 = 0 (CCCCT) k = 2 posicao = 5470 chi2 = 009 (CCCCT) k = 3 posicao = 5867 chi2 = 004 (CCCCT) k = 4 posicao = 5131 chi2 = 009 (CCCCT)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 51

Quorum = 75

13080 motivos encontrados k = 1 posicao = 7539 chi2 = 004 (CCCCT) k = 2 posicao = 8129 chi2 = 002 (CCCCT) k = 3 posicao = 7900 chi2 = 003 (CCCCT) k = 4 posicao = 7385 chi2 = 005 (CCCCT)

Quorum = 60 21544 motivos encontrados k = 1 posicao = 12673 chi2 = 004 (CCCCT) k = 2 posicao = 11871 chi2 = 008 (CCCCT) k = 3 posicao = 12731 chi2 = 004 (CCCCT) k = 4 posicao = 11754 chi2 = 007 (CCCCT)

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

326 motivos encontrados Quorum = 80

682 motivos encontrados k = 1 posicao = 169 chi2 = 109 (CCCCT) k = 2 posicao = 238 chi2 = 073 (CCCCT) k = 3 posicao = 223 chi2 = 057 (CCCCT) k = 4 posicao = 331 chi2 = 01 (CCCCT)

Quorum = 75 682 motivos encontrados k = 1 posicao = 136 chi2 = 131 (CCCCT) k = 2 posicao = 178 chi2 = 085 (CCCCT) k = 3 posicao = 245 chi2 = 042 (CCCCT) k = 4 posicao = 331 chi2 = 01 (CCCCT)

Quorum = 60 1316 motivos encontrados k = 1 posicao = 303 chi2 = 17 (CCCCT) k = 2 posicao = 505 chi2 = 075 (CCCCT) k = 3 posicao = 457 chi2 = 059 (CCCCT) k = 4 posicao = 613 chi2 = 014 (CCCCT)

Erro = 1 Quorum = 100

9022 motivos encontrados k = 1 posicao = 7955 chi2 = 0 (CCCCT) k = 2 posicao = 7901 chi2 = 0 (CCCCT) k = 3 posicao = 7846 chi2 = 0 (CCCCT) k = 4 posicao = 7711 chi2 = 0 (CCCCT)

Quorum = 80 17951 motivos encontrados k = 1 posicao = 16310 chi2 = 0 (CCCCT) k = 2 posicao = 16251 chi2 = 0 (CCCCT) k = 3 posicao = 16207 chi2 = 0 (CCCCT) k = 4 posicao = 16091 chi2 = 0 (CCCCT)

Quorum = 75 17951 motivos encontrados k = 1 posicao = 16308 chi2 = 0 (CCCCT)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 52

k = 2 posicao = 16242 chi2 = 0 (CCCCT) k = 3 posicao = 16212 chi2 = 0 (CCCCT) k = 4 posicao = 16063 chi2 = 0 (CCCCT)

Quorum = 60 35258 motivos encontrados k = 1 posicao = 32818 chi2 = 0 (CCCCT) k = 2 posicao = 32757 chi2 = 0 (CCCCT) k = 3 posicao = 32822 chi2 = 0 (CCCCT) k = 4 posicao = 32656 chi2 = 0 (CCCCT)

5_1_gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

220 motivos encontrados Quorum = 80

517 motivos encontrados k = 1 posicao = 52 chi2 = 254 (CTTCC) k = 2 posicao = 87 chi2 = 146 (CTTCC) k = 3 posicao = 164 chi2 = 067 (CTTCC) k = 4 posicao = 236 chi2 = 004 (CTTCC)

Quorum = 75 517 motivos encontrados k = 1 posicao = 77 chi2 = 246 (CTTCC) k = 2 posicao = 83 chi2 = 152 (CTTCC) k = 3 posicao = 99 chi2 = 098 (CTTCC) k = 4 posicao = 241 chi2 = 003 (CTTCC)

Quorum = 60 963 motivos encontrados k = 1 posicao = 625 chi2 = 003 (CATCC) k = 1 posicao = 128 chi2 = 284 (CTTCC) k = 2 posicao = 644 chi2 = 003 (CATCC) k = 2 posicao = 170 chi2 = 177 (CTTCC) k = 3 posicao = 490 chi2 = 015 (CATCC) k = 3 posicao = 256 chi2 = 107 (CTTCC) k = 4 posicao = 522 chi2 = 0 (CATCC) k = 4 posicao = 497 chi2 = 004 (CTTCC)

Erro = 1 Quorum = 100

6121 motivos encontrados k = 1 posicao = 5072 chi2 = 0 (CATCC) k = 1 posicao = 5313 chi2 = 0 (CTTCC) k = 2 posicao = 5049 chi2 = 0 (CATCC) k = 2 posicao = 5287 chi2 = 0 (CTTCC) k = 3 posicao = 4984 chi2 = 0 (CATCC) k = 3 posicao = 5236 chi2 = 0 (CTTCC) k = 4 posicao = 4894 chi2 = 0 (CATCC) k = 4 posicao = 5167 chi2 = 0 (CTTCC)

Quorum = 80 13644 motivos encontrados k = 1 posicao = 11732 chi2 = 0 (CATCC) k = 1 posicao = 11981 chi2 = 0 (CTTCC)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 53

k = 2 posicao = 11792 chi2 = 0 (CATCC) k = 2 posicao = 12044 chi2 = 0 (CTTCC) k = 3 posicao = 11736 chi2 = 0 (CATCC) k = 3 posicao = 11985 chi2 = 0 (CTTCC) k = 4 posicao = 11644 chi2 = 0 (CATCC) k = 4 posicao = 11917 chi2 = 0 (CTTCC)

Quorum = 75 13644 motivos encontrados k = 1 posicao = 11712 chi2 = 0 (CATCC) k = 1 posicao = 11966 chi2 = 0 (CTTCC) k = 2 posicao = 11791 chi2 = 0 (CATCC) k = 2 posicao = 12027 chi2 = 0 (CTTCC) k = 3 posicao = 11729 chi2 = 0 (CATCC) k = 3 posicao = 11981 chi2 = 0 (CTTCC) k = 4 posicao = 11649 chi2 = 0 (CATCC) k = 4 posicao = 11920 chi2 = 0 (CTTCC)

Quorum = 60 25804 motivos encontrados k = 1 posicao = 22732 chi2 = 0 (CATCC) k = 1 posicao = 22973 chi2 = 0 (CTTCC) k = 2 posicao = 22881 chi2 = 0 (CATCC) k = 2 posicao = 23121 chi2 = 0 (CTTCC) k = 3 posicao = 22916 chi2 = 0 (CATCC) k = 3 posicao = 23164 chi2 = 0 (CTTCC) k = 4 posicao = 22864 chi2 = 0 (CATCC) k = 4 posicao = 23141 chi2 = 0 (CTTCC)

6_0_MIG1

Motivo GCGGGG Frequecircncia 16 ~167 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

290 motivos encontrados Quorum = 80

556 motivos encontrados Quorum = 75

556 motivos encontrados Quorum = 60

927 motivos encontrados Erro = 1

Quorum = 100 7881 motivos encontrados k = 1 posicao = 650 chi2 = 252 (GCGGGG) k = 2 posicao = 773 chi2 = 173 (GCGGGG) k = 3 posicao = 1341 chi2 = 101 (GCGGGG) k = 4 posicao = 4437 chi2 = 052 (GCGGGG)

Quorum = 80 14601 motivos encontrados k = 1 posicao = 1895 chi2 = 249 (GCGGGG) k = 2 posicao = 2045 chi2 = 161 (GCGGGG) k = 3 posicao = 3284 chi2 = 11 (GCGGGG) k = 4 posicao = 7272 chi2 = 05 (GCGGGG)

Quorum = 75

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 54

14601 motivos encontrados k = 1 posicao = 2121 chi2 = 234 (GCGGGG) k = 2 posicao = 2604 chi2 = 153 (GCGGGG) k = 3 posicao = 3778 chi2 = 089 (GCGGGG) k = 4 posicao = 8057 chi2 = 047 (GCGGGG)

Quorum = 60 25117 motivos encontrados k = 1 posicao = 4371 chi2 = 234 (GCGGGG) k = 2 posicao = 5452 chi2 = 153 (GCGGGG) k = 3 posicao = 7361 chi2 = 116 (GCGGGG) k = 4 posicao = 12643 chi2 = 051 (GCGGGG)

6_0_UME6

Motivo GCCGCC Frequecircncia 37 ~4286 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

257 motivos encontrados Quorum = 80

454 motivos encontrados Quorum = 75

454 motivos encontrados Quorum = 60

748 motivos encontrados Erro = 1

Quorum = 100 7186 motivos encontrados

Quorum = 80 12323 motivos encontrados

Quorum = 75 12323 motivos encontrados

Quorum = 60 19726 motivos encontrados k = 1 posicao = 13214 chi2 = 002 (GCCGCC) k = 2 posicao = 14628 chi2 = 0 (GCCGCC) k = 3 posicao = 14684 chi2 = 0 (GCCGCC) k = 4 posicao = 15398 chi2 = 002 (GCCGCC)

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

173 motivos encontrados Quorum = 80

403 motivos encontrados Quorum = 75

530 motivos encontrados k = 1 posicao = 6 chi2 = 755 (GATAAG)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 55

k = 2 posicao = 3 chi2 = 892 (GATAAG) k = 3 posicao = 3 chi2 = 725 (GATAAG) k = 4 posicao = 12 chi2 = 457 (GATAAG)

Quorum = 60 836 motivos encontrados k = 1 posicao = 24 chi2 = 771 (GATAAG) k = 2 posicao = 7 chi2 = 94 (GATAAG) k = 3 posicao = 12 chi2 = 719 (GATAAG) k = 4 posicao = 25 chi2 = 48 (GATAAG)

Erro = 1 Quorum = 100

5360 motivos encontrados k = 1 posicao = 2690 chi2 = 012 (GATAAG) k = 1 posicao = 3118 chi2 = 008 (GATTAG) k = 2 posicao = 2917 chi2 = 01 (GATAAG) k = 2 posicao = 2424 chi2 = 02 (GATTAG) k = 3 posicao = 3096 chi2 = 007 (GATAAG) k = 3 posicao = 1982 chi2 = 033 (GATTAG) k = 4 posicao = 3004 chi2 = 007 (GATAAG) k = 4 posicao = 2767 chi2 = 01 (GATTAG)

Quorum = 80 10819 motivos encontrados k = 1 posicao = 6729 chi2 = 011 (GATAAG) k = 1 posicao = 6816 chi2 = 009 (GATTAG) k = 2 posicao = 6240 chi2 = 013 (GATAAG) k = 2 posicao = 6446 chi2 = 011 (GATTAG) k = 3 posicao = 7301 chi2 = 004 (GATAAG) k = 3 posicao = 4235 chi2 = 053 (GATTAG) k = 4 posicao = 7045 chi2 = 004 (GATAAG) k = 4 posicao = 6317 chi2 = 012 (GATTAG)

Quorum = 75 13889 motivos encontrados k = 1 posicao = 9061 chi2 = 007 (GATAAG) k = 1 posicao = 8672 chi2 = 01 (GATTAG) k = 2 posicao = 8095 chi2 = 016 (GATAAG) k = 2 posicao = 8763 chi2 = 01 (GATTAG) k = 3 posicao = 8965 chi2 = 008 (GATAAG) k = 3 posicao = 6907 chi2 = 036 (GATTAG) k = 4 posicao = 8966 chi2 = 006 (GATAAG) k = 4 posicao = 8323 chi2 = 011 (GATTAG)

Quorum = 60 22209 motivos encontrados k = 1 posicao = 14904 chi2 = 008 (GATAAG) k = 1 posicao = 14384 chi2 = 013 (GATTAG) k = 2 posicao = 13923 chi2 = 015 (GATAAG) k = 2 posicao = 13902 chi2 = 015 (GATTAG) k = 3 posicao = 14932 chi2 = 008 (GATAAG) k = 3 posicao = 11534 chi2 = 046 (GATTAG) k = 4 posicao = 14680 chi2 = 007 (GATAAG) k = 4 posicao = 13878 chi2 = 017 (GATTAG)

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 56

Erro = 0 Quorum = 100

128 motivos encontrados Quorum = 80

372 motivos encontrados Quorum = 75

454 motivos encontrados Quorum = 60

785 motivos encontrados Erro = 1

Quorum = 100 4212 motivos encontrados k = 1 posicao = 326 chi2 = 14 (CACCCA) k = 2 posicao = 594 chi2 = 108 (CACCCA) k = 3 posicao = 244 chi2 = 107 (CACCCA) k = 4 posicao = 1210 chi2 = 038 (CACCCA)

Quorum = 80 9800 motivos encontrados k = 1 posicao = 1302 chi2 = 157 (CACCCA) k = 1 posicao = 2061 chi2 = 087 (CACCCG) k = 2 posicao = 2058 chi2 = 117 (CACCCA) k = 2 posicao = 2522 chi2 = 059 (CACCCG) k = 3 posicao = 1624 chi2 = 106 (CACCCA) k = 3 posicao = 2994 chi2 = 045 (CACCCG) k = 4 posicao = 2703 chi2 = 05 (CACCCA) k = 4 posicao = 3926 chi2 = 011 (CACCCG)

Quorum = 75 11933 motivos encontrados k = 1 posicao = 1951 chi2 = 145 (CACCCA) k = 1 posicao = 2903 chi2 = 081 (CACCCG) k = 2 posicao = 2227 chi2 = 116 (CACCCA) k = 2 posicao = 3417 chi2 = 062 (CACCCG) k = 3 posicao = 2137 chi2 = 108 (CACCCA) k = 3 posicao = 3426 chi2 = 041 (CACCCG) k = 4 posicao = 4518 chi2 = 031 (CACCCA) k = 4 posicao = 4805 chi2 = 012 (CACCCG)

Quorum = 60 20531 motivos encontrados k = 1 posicao = 5137 chi2 = 144 (CACCCA) k = 1 posicao = 5556 chi2 = 073 (CACCCG) k = 2 posicao = 4865 chi2 = 113 (CACCCA) k = 2 posicao = 5737 chi2 = 062 (CACCCG) k = 3 posicao = 4491 chi2 = 097 (CACCCA) k = 3 posicao = 5797 chi2 = 052 (CACCCG) k = 4 posicao = 7825 chi2 = 041 (CACCCA) k = 4 posicao = 7275 chi2 = 018 (CACCCG)

7_0_REB1

Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

211 motivos encontrados k = 1 posicao = 4 chi2 = 965 (TTACCC)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 57

k = 2 posicao = 4 chi2 = 105 (TTACCC) k = 3 posicao = 4 chi2 = 1075 (TTACCC) k = 4 posicao = 4 chi2 = 755 (TTACCC)

Quorum = 80 405 motivos encontrados k = 1 posicao = 4 chi2 = 932 (TTACCC) k = 2 posicao = 4 chi2 = 1083 (TTACCC) k = 3 posicao = 4 chi2 = 1106 (TTACCC) k = 4 posicao = 4 chi2 = 723 (TTACCC)

Quorum = 75 605 motivos encontrados k = 1 posicao = 6 chi2 = 947 (TTACCC) k = 2 posicao = 5 chi2 = 999 (TTACCC) k = 3 posicao = 5 chi2 = 1098 (TTACCC) k = 4 posicao = 5 chi2 = 808 (TTACCC)

Quorum = 60 907 motivos encontrados k = 1 posicao = 9 chi2 = 1007 (TTACCC) k = 2 posicao = 6 chi2 = 1089 (TTACCC) k = 3 posicao = 6 chi2 = 1081 (TTACCC) k = 4 posicao = 6 chi2 = 788 (TTACCC)

Erro = 1 Quorum = 100

6121 motivos encontrados k = 1 posicao = 4617 chi2 = 013 (TTACCC) k = 2 posicao = 4454 chi2 = 016 (TTACCC) k = 3 posicao = 4730 chi2 = 012 (TTACCC) k = 4 posicao = 5483 chi2 = 004 (TTACCC)

Quorum = 80 10337 motivos encontrados k = 1 posicao = 7525 chi2 = 008 (TTACCC) k = 2 posicao = 7267 chi2 = 01 (TTACCC) k = 3 posicao = 7129 chi2 = 012 (TTACCC) k = 4 posicao = 7469 chi2 = 009 (TTACCC)

Quorum = 75 15777 motivos encontrados k = 1 posicao = 10287 chi2 = 012 (TTACCC) k = 2 posicao = 10740 chi2 = 01 (TTACCC) k = 3 posicao = 9696 chi2 = 016 (TTACCC) k = 4 posicao = 10789 chi2 = 008 (TTACCC)

Quorum = 60 23856 motivos encontrados k = 1 posicao = 15646 chi2 = 01 (TTACCC) k = 2 posicao = 15437 chi2 = 012 (TTACCC) k = 3 posicao = 13932 chi2 = 022 (TTACCC) k = 4 posicao = 15597 chi2 = 009 (TTACCC)

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

235 motivos encontrados Quorum = 80

475 motivos encontrados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 58

k = 1 posicao = 3 chi2 = 945 (TGCCAAG) k = 2 posicao = 2 chi2 = 92 (TGCCAAG) k = 3 posicao = 2 chi2 = 892 (TGCCAAG) k = 4 posicao = 3 chi2 = 7 (TGCCAAG)

Quorum = 75 475 motivos encontrados k = 1 posicao = 2 chi2 = 924 (TGCCAAG) k = 2 posicao = 3 chi2 = 886 (TGCCAAG) k = 3 posicao = 3 chi2 = 869 (TGCCAAG) k = 4 posicao = 2 chi2 = 678 (TGCCAAG)

Quorum = 60 785 motivos encontrados k = 1 posicao = 5 chi2 = 952 (TGCCAAG) k = 2 posicao = 4 chi2 = 934 (TGCCAAG) k = 3 posicao = 4 chi2 = 869 (TGCCAAG) k = 4 posicao = 6 chi2 = 67 (TGCCAAG)

Erro = 1 Quorum = 100

7028 motivos encontrados k = 1 posicao = 436 chi2 = 321 (TGCCAAG) k = 2 posicao = 551 chi2 = 217 (TGCCAAG) k = 3 posicao = 940 chi2 = 223 (TGCCAAG) k = 4 posicao = 1492 chi2 = 095 (TGCCAAG)

Quorum = 80 12574 motivos encontrados k = 1 posicao = 1703 chi2 = 325 (TGCCAAG) k = 2 posicao = 2035 chi2 = 244 (TGCCAAG) k = 3 posicao = 1678 chi2 = 217 (TGCCAAG) k = 4 posicao = 3298 chi2 = 093 (TGCCAAG)

Quorum = 75 12574 motivos encontrados k = 1 posicao = 1739 chi2 = 333 (TGCCAAG) k = 2 posicao = 1717 chi2 = 216 (TGCCAAG) k = 3 posicao = 1609 chi2 = 212 (TGCCAAG) k = 4 posicao = 3574 chi2 = 075 (TGCCAAG)

Quorum = 60 20257 motivos encontrados k = 1 posicao = 3598 chi2 = 304 (TGCCAAG) k = 2 posicao = 3664 chi2 = 211 (TGCCAAG) k = 3 posicao = 3206 chi2 = 213 (TGCCAAG) k = 4 posicao = 4753 chi2 = 115 (TGCCAAG)

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

267 motivos encontrados k = 1 posicao = 4 chi2 = 998 (TGAAACA) k = 2 posicao = 5 chi2 = 908 (TGAAACA) k = 3 posicao = 5 chi2 = 875 (TGAAACA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 59

k = 4 posicao = 4 chi2 = 743 (TGAAACA)

Quorum = 80 529 motivos encontrados k = 1 posicao = 4 chi2 = 969 (TGAAACA) k = 2 posicao = 6 chi2 = 84 (TGAAACA) k = 3 posicao = 5 chi2 = 845 (TGAAACA) k = 4 posicao = 5 chi2 = 702 (TGAAACA)

Quorum = 75 529 motivos encontrados k = 1 posicao = 6 chi2 = 933 (TGAAACA) k = 2 posicao = 5 chi2 = 866 (TGAAACA) k = 3 posicao = 5 chi2 = 86 (TGAAACA) k = 4 posicao = 5 chi2 = 717 (TGAAACA)

Quorum = 60 916 motivos encontrados k = 1 posicao = 12 chi2 = 956 (TGAAACA) k = 2 posicao = 13 chi2 = 893 (TGAAACA) k = 3 posicao = 16 chi2 = 84 (TGAAACA) k = 4 posicao = 18 chi2 = 715 (TGAAACA)

Erro = 1 Quorum = 100

7705 motivos encontrados k = 1 posicao = 4203 chi2 = 055 (TGAAACA) k = 2 posicao = 5562 chi2 = 02 (TGAAACA) k = 3 posicao = 5481 chi2 = 021 (TGAAACA) k = 4 posicao = 6219 chi2 = 012 (TGAAACA)

Quorum = 80 14161 motivos encontrados k = 1 posicao = 8113 chi2 = 052 (TGAAACA) k = 2 posicao = 9261 chi2 = 022 (TGAAACA) k = 3 posicao = 8536 chi2 = 029 (TGAAACA) k = 4 posicao = 10343 chi2 = 01 (TGAAACA)

Quorum = 75 14161 motivos encontrados k = 1 posicao = 7156 chi2 = 066 (TGAAACA) k = 2 posicao = 8778 chi2 = 028 (TGAAACA) k = 3 posicao = 8848 chi2 = 034 (TGAAACA) k = 4 posicao = 9747 chi2 = 015 (TGAAACA)

Quorum = 60 24421 motivos encontrados k = 1 posicao = 12918 chi2 = 049 (TGAAACA) k = 2 posicao = 15781 chi2 = 024 (TGAAACA) k = 3 posicao = 13941 chi2 = 03 (TGAAACA) k = 4 posicao = 16147 chi2 = 017 (TGAAACA)

7_1_SWI4

Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

330 motivos encontrados Quorum = 80

675 motivos encontrados k = 1 posicao = 3 chi2 = 575 (CGCGAAA) k = 2 posicao = 3 chi2 = 483 (CGCGAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 60

k = 3 posicao = 11 chi2 = 395 (CGCGAAA) k = 4 posicao = 5 chi2 = 367 (CGCGAAA)

Quorum = 75 675 motivos encontrados k = 1 posicao = 2 chi2 = 6 (CGCGAAA) k = 2 posicao = 4 chi2 = 504 (CGCGAAA) k = 3 posicao = 14 chi2 = 372 (CGCGAAA) k = 4 posicao = 14 chi2 = 343 (CGCGAAA)

Quorum = 60 1349 motivos encontrados k = 1 posicao = 50 chi2 = 31 (CACGAAA) k = 1 posicao = 8 chi2 = 569 (CGCGAAA) k = 2 posicao = 81 chi2 = 26 (CACGAAA) k = 2 posicao = 20 chi2 = 48 (CGCGAAA) k = 3 posicao = 117 chi2 = 21 (CACGAAA) k = 3 posicao = 47 chi2 = 37 (CGCGAAA) k = 4 posicao = 309 chi2 = 056 (CACGAAA) k = 4 posicao = 33 chi2 = 367 (CGCGAAA)

Erro = 1 Quorum = 100

8974 motivos encontrados k = 1 posicao = 2630 chi2 = 093 (CACGAAA) k = 1 posicao = 1189 chi2 = 212 (CGCGAAA) k = 2 posicao = 3046 chi2 = 07 (CACGAAA) k = 2 posicao = 2138 chi2 = 101 (CGCGAAA) k = 3 posicao = 4224 chi2 = 03 (CACGAAA) k = 3 posicao = 4064 chi2 = 04 (CGCGAAA) k = 4 posicao = 5230 chi2 = 012 (CACGAAA) k = 4 posicao = 4771 chi2 = 018 (CGCGAAA)

Quorum = 80 17937 motivos encontrados k = 1 posicao = 6152 chi2 = 107 (CACGAAA) k = 1 posicao = 3575 chi2 = 211 (CGCGAAA) k = 2 posicao = 7073 chi2 = 071 (CACGAAA) k = 2 posicao = 6979 chi2 = 078 (CGCGAAA) k = 3 posicao = 9212 chi2 = 035 (CACGAAA) k = 3 posicao = 8502 chi2 = 038 (CGCGAAA) k = 4 posicao = 10421 chi2 = 017 (CACGAAA) k = 4 posicao = 9629 chi2 = 026 (CGCGAAA)

Quorum = 75 17937 motivos encontrados k = 1 posicao = 6271 chi2 = 104 (CACGAAA) k = 1 posicao = 4092 chi2 = 171 (CGCGAAA) k = 2 posicao = 8574 chi2 = 052 (CACGAAA) k = 2 posicao = 5741 chi2 = 107 (CGCGAAA) k = 3 posicao = 10092 chi2 = 026 (CACGAAA) k = 3 posicao = 8743 chi2 = 044 (CGCGAAA) k = 4 posicao = 11741 chi2 = 009 (CACGAAA) k = 4 posicao = 9601 chi2 = 022 (CGCGAAA)

Quorum = 60 35352 motivos encontrados k = 1 posicao = 15854 chi2 = 094 (CACGAAA) k = 1 posicao = 9842 chi2 = 196 (CGCGAAA) k = 2 posicao = 18655 chi2 = 063 (CACGAAA) k = 2 posicao = 16854 chi2 = 093 (CGCGAAA) k = 3 posicao = 21349 chi2 = 025 (CACGAAA) k = 3 posicao = 19789 chi2 = 036 (CGCGAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 61

k = 4 posicao = 22509 chi2 = 016 (CACGAAA) k = 4 posicao = 21049 chi2 = 027 (CGCGAAA)

7_2_GCN4

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

229 motivos encontrados Quorum = 80

372 motivos encontrados Quorum = 75

586 motivos encontrados Quorum = 60

839 motivos encontrados Erro = 1

Quorum = 100 6343 motivos encontrados

Quorum = 80 10422 motivos encontrados

Quorum = 75 15227 motivos encontrados

Quorum = 60 21609 motivos encontrados

7_2_RGT1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

205 motivos encontrados Quorum = 80

496 motivos encontrados k = 1 posicao = 4 chi2 = 1052 (CGGAAAA) k = 2 posicao = 2 chi2 = 883 (CGGAAAA) k = 3 posicao = 2 chi2 = 692 (CGGAAAA) k = 4 posicao = 10 chi2 = 308 (CGGAAAA)

Quorum = 75 496 motivos encontrados k = 1 posicao = 4 chi2 = 1101 (CGGAAAA) k = 2 posicao = 3 chi2 = 855 (CGGAAAA) k = 3 posicao = 4 chi2 = 685 (CGGAAAA) k = 4 posicao = 9 chi2 = 338 (CGGAAAA)

Quorum = 60 987 motivos encontrados k = 1 posicao = 10 chi2 = 1087 (CGGAAAA) k = 2 posicao = 11 chi2 = 792 (CGGAAAA) k = 3 posicao = 10 chi2 = 637 (CGGAAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 62

k = 4 posicao = 27 chi2 = 333 (CGGAAAA)

Erro = 1 Quorum = 100

6085 motivos encontrados k = 1 posicao = 740 chi2 = 226 (CGGAAAA) k = 1 posicao = 244 chi2 = 442 (CGGAAGA) k = 1 posicao = 375 chi2 = 415 (CGGAGAA) k = 1 posicao = 795 chi2 = 205 (CGGATAA) k = 2 posicao = 1431 chi2 = 069 (CGGAAAA) k = 2 posicao = 350 chi2 = 257 (CGGAAGA) k = 2 posicao = 313 chi2 = 281 (CGGAGAA) k = 2 posicao = 403 chi2 = 257 (CGGATAA) k = 3 posicao = 2933 chi2 = 015 (CGGAAAA) k = 3 posicao = 543 chi2 = 161 (CGGAAGA) k = 3 posicao = 758 chi2 = 162 (CGGAGAA) k = 3 posicao = 334 chi2 = 242 (CGGATAA) k = 4 posicao = 3388 chi2 = 006 (CGGAAAA) k = 4 posicao = 944 chi2 = 088 (CGGAAGA) k = 4 posicao = 682 chi2 = 096 (CGGAGAA) k = 4 posicao = 448 chi2 = 157 (CGGATAA)

Quorum = 80 13578 motivos encontrados k = 1 posicao = 2782 chi2 = 211 (CGGAAAA) k = 1 posicao = 1309 chi2 = 443 (CGGAAGA) k = 1 posicao = 9793 chi2 = 0 (CGGAATA) k = 1 posicao = 1525 chi2 = 436 (CGGAGAA) k = 1 posicao = 1267 chi2 = 351 (CGGAGGA) k = 1 posicao = 2001 chi2 = 282 (CGGATAA) k = 1 posicao = 4454 chi2 = 055 (CGGATTA) k = 2 posicao = 4354 chi2 = 063 (CGGAAAA) k = 2 posicao = 1547 chi2 = 273 (CGGAAGA) k = 2 posicao = 7920 chi2 = 004 (CGGAATA) k = 2 posicao = 2260 chi2 = 262 (CGGAGAA) k = 2 posicao = 1049 chi2 = 271 (CGGAGGA) k = 2 posicao = 1502 chi2 = 271 (CGGATAA) k = 2 posicao = 3568 chi2 = 083 (CGGATTA) k = 3 posicao = 6889 chi2 = 02 (CGGAAAA) k = 3 posicao = 2122 chi2 = 16 (CGGAAGA) k = 3 posicao = 10332 chi2 = 01 (CGGAATA) k = 3 posicao = 2408 chi2 = 144 (CGGAGAA) k = 3 posicao = 1273 chi2 = 214 (CGGAGGA) k = 3 posicao = 1406 chi2 = 211 (CGGATAA) k = 3 posicao = 1203 chi2 = 189 (CGGATTA) k = 4 posicao = 8380 chi2 = 003 (CGGAAAA) k = 4 posicao = 4250 chi2 = 074 (CGGAAGA) k = 4 posicao = 12881 chi2 = 037 (CGGAATA) k = 4 posicao = 3392 chi2 = 088 (CGGAGAA) k = 4 posicao = 1278 chi2 = 162 (CGGAGGA) k = 4 posicao = 1930 chi2 = 148 (CGGATAA) k = 4 posicao = 1157 chi2 = 136 (CGGATTA)

Quorum = 75 13578 motivos encontrados k = 1 posicao = 2620 chi2 = 264 (CGGAAAA) k = 1 posicao = 1452 chi2 = 443 (CGGAAGA) k = 1 posicao = 8943 chi2 = 001 (CGGAATA) k = 1 posicao = 1121 chi2 = 446 (CGGAGAA) k = 1 posicao = 965 chi2 = 424 (CGGAGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 63

k = 1 posicao = 2453 chi2 = 246 (CGGATAA) k = 1 posicao = 3571 chi2 = 086 (CGGATTA) k = 2 posicao = 4690 chi2 = 069 (CGGAAAA) k = 2 posicao = 1475 chi2 = 255 (CGGAAGA) k = 2 posicao = 7150 chi2 = 01 (CGGAATA) k = 2 posicao = 1209 chi2 = 259 (CGGAGAA) k = 2 posicao = 837 chi2 = 274 (CGGAGGA) k = 2 posicao = 1900 chi2 = 268 (CGGATAA) k = 2 posicao = 3981 chi2 = 066 (CGGATTA) k = 3 posicao = 6549 chi2 = 022 (CGGAAAA) k = 3 posicao = 1447 chi2 = 191 (CGGAAGA) k = 3 posicao = 10656 chi2 = 018 (CGGAATA) k = 3 posicao = 2435 chi2 = 155 (CGGAGAA) k = 3 posicao = 1026 chi2 = 21 (CGGAGGA) k = 3 posicao = 1469 chi2 = 233 (CGGATAA) k = 3 posicao = 1202 chi2 = 189 (CGGATTA) k = 4 posicao = 11692 chi2 = 0 (CGGAAAA) k = 4 posicao = 3717 chi2 = 077 (CGGAAGA) k = 4 posicao = 10890 chi2 = 035 (CGGAATA) k = 4 posicao = 3482 chi2 = 087 (CGGAGAA) k = 4 posicao = 1187 chi2 = 168 (CGGAGGA) k = 4 posicao = 1746 chi2 = 148 (CGGATAA) k = 4 posicao = 1204 chi2 = 149 (CGGATTA)

Quorum = 60 25839 motivos encontrados k = 1 posicao = 5870 chi2 = 247 (CGGAAAA) k = 1 posicao = 4726 chi2 = 405 (CGGAAGA) k = 1 posicao = 18076 chi2 = 0 (CGGAATA) k = 1 posicao = 3940 chi2 = 388 (CGGAGAA) k = 1 posicao = 3424 chi2 = 384 (CGGAGGA) k = 1 posicao = 15679 chi2 = 005 (CGGAGTA) k = 1 posicao = 6177 chi2 = 245 (CGGATAA) k = 1 posicao = 15167 chi2 = 008 (CGGATGA) k = 1 posicao = 11165 chi2 = 059 (CGGATTA) k = 2 posicao = 11428 chi2 = 046 (CGGAAAA) k = 2 posicao = 4811 chi2 = 242 (CGGAAGA) k = 2 posicao = 16216 chi2 = 003 (CGGAATA) k = 2 posicao = 4128 chi2 = 226 (CGGAGAA) k = 2 posicao = 3005 chi2 = 278 (CGGAGGA) k = 2 posicao = 10245 chi2 = 04 (CGGAGTA) k = 2 posicao = 3437 chi2 = 3 (CGGATAA) k = 2 posicao = 10379 chi2 = 033 (CGGATGA) k = 2 posicao = 8888 chi2 = 072 (CGGATTA) k = 3 posicao = 13836 chi2 = 017 (CGGAAAA) k = 3 posicao = 4943 chi2 = 191 (CGGAAGA) k = 3 posicao = 20550 chi2 = 01 (CGGAATA) k = 3 posicao = 6774 chi2 = 155 (CGGAGAA) k = 3 posicao = 2524 chi2 = 222 (CGGAGGA) k = 3 posicao = 13828 chi2 = 01 (CGGAGTA) k = 3 posicao = 4859 chi2 = 197 (CGGATAA) k = 3 posicao = 9284 chi2 = 029 (CGGATGA) k = 3 posicao = 3146 chi2 = 179 (CGGATTA) k = 4 posicao = 17095 chi2 = 001 (CGGAAAA) k = 4 posicao = 7930 chi2 = 083 (CGGAAGA) k = 4 posicao = 24667 chi2 = 051 (CGGAATA) k = 4 posicao = 9042 chi2 = 083 (CGGAGAA) k = 4 posicao = 3884 chi2 = 147 (CGGAGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 64

k = 4 posicao = 13905 chi2 = 007 (CGGAGTA) k = 4 posicao = 4859 chi2 = 156 (CGGATAA) k = 4 posicao = 14606 chi2 = 005 (CGGATGA) k = 4 posicao = 3783 chi2 = 127 (CGGATTA)

8_1_PDR1

Motivo TCCGYGGA Frequecircncia 68 ~75 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

229 motivos encontrados Quorum = 80

416 motivos encontrados Quorum = 75

639 motivos encontrados k = 1 posicao = 2 chi2 = 96 (TCCGCGGA) k = 2 posicao = 2 chi2 = 941 (TCCGCGGA) k = 3 posicao = 2 chi2 = 915 (TCCGCGGA) k = 4 posicao = 2 chi2 = 674 (TCCGCGGA)

Quorum = 60 950 motivos encontrados k = 1 posicao = 4 chi2 = 937 (TCCGCGGA) k = 2 posicao = 3 chi2 = 933 (TCCGCGGA) k = 3 posicao = 3 chi2 = 926 (TCCGCGGA) k = 4 posicao = 3 chi2 = 686 (TCCGCGGA)

Erro = 1 Quorum = 100

6610 motivos encontrados k = 1 posicao = 8 chi2 = 1095 (TCCGCGGA) k = 1 posicao = 15 chi2 = 1007 (TCCGTGGA) k = 2 posicao = 8 chi2 = 1092 (TCCGCGGA) k = 2 posicao = 18 chi2 = 1039 (TCCGTGGA) k = 3 posicao = 11 chi2 = 907 (TCCGCGGA) k = 3 posicao = 9 chi2 = 881 (TCCGTGGA) k = 4 posicao = 18 chi2 = 517 (TCCGCGGA) k = 4 posicao = 8 chi2 = 759 (TCCGTGGA)

Quorum = 80 11058 motivos encontrados k = 1 posicao = 32 chi2 = 1126 (TCCGCGGA) k = 1 posicao = 48 chi2 = 1053 (TCCGTGGA) k = 2 posicao = 21 chi2 = 1053 (TCCGCGGA) k = 2 posicao = 19 chi2 = 1098 (TCCGTGGA) k = 3 posicao = 29 chi2 = 881 (TCCGCGGA) k = 3 posicao = 60 chi2 = 808 (TCCGTGGA) k = 4 posicao = 97 chi2 = 509 (TCCGCGGA) k = 4 posicao = 42 chi2 = 698 (TCCGTGGA)

Quorum = 75 16695 motivos encontrados k = 1 posicao = 92 chi2 = 1126 (TCCGCGGA) k = 1 posicao = 178 chi2 = 1026 (TCCGTGGA) k = 2 posicao = 70 chi2 = 1092 (TCCGCGGA) k = 2 posicao = 73 chi2 = 1069 (TCCGTGGA) k = 3 posicao = 64 chi2 = 983 (TCCGCGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 65

k = 3 posicao = 83 chi2 = 898 (TCCGTGGA) k = 4 posicao = 336 chi2 = 48 (TCCGCGGA) k = 4 posicao = 130 chi2 = 657 (TCCGTGGA)

Quorum = 60 25049 motivos encontrados k = 1 posicao = 220 chi2 = 1135 (TCCGCGGA) k = 1 posicao = 369 chi2 = 1004 (TCCGTGGA) k = 2 posicao = 83 chi2 = 1159 (TCCGCGGA) k = 2 posicao = 263 chi2 = 1045 (TCCGTGGA) k = 3 posicao = 134 chi2 = 883 (TCCGCGGA) k = 3 posicao = 206 chi2 = 857 (TCCGTGGA) k = 4 posicao = 580 chi2 = 488 (TCCGCGGA) k = 4 posicao = 213 chi2 = 67 (TCCGTGGA)

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

241 motivos encontrados Quorum = 80

423 motivos encontrados k = 1 posicao = 2 chi2 = 1237 (TCCGCGGA) k = 2 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 3 posicao = 2 chi2 = 1229 (TCCGCGGA) k = 4 posicao = 2 chi2 = 915 (TCCGCGGA)

Quorum = 75 667 motivos encontrados k = 1 posicao = 2 chi2 = 1237 (TCCGCGGA) k = 2 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 3 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 4 posicao = 2 chi2 = 909 (TCCGCGGA)

Quorum = 60 1024 motivos encontrados k = 1 posicao = 3 chi2 = 1233 (TCCGCGGA) k = 2 posicao = 4 chi2 = 124 (TCCGCGGA) k = 3 posicao = 3 chi2 = 1221 (TCCGCGGA) k = 4 posicao = 5 chi2 = 918 (TCCGCGGA)

Erro = 1 Quorum = 100

6897 motivos encontrados k = 1 posicao = 17 chi2 = 1115 (TCCGCGGA) k = 1 posicao = 24 chi2 = 1026 (TCCGTGGA) k = 2 posicao = 12 chi2 = 1174 (TCCGCGGA) k = 2 posicao = 10 chi2 = 1138 (TCCGTGGA) k = 3 posicao = 17 chi2 = 945 (TCCGCGGA) k = 3 posicao = 29 chi2 = 827 (TCCGTGGA) k = 4 posicao = 65 chi2 = 481 (TCCGCGGA) k = 4 posicao = 39 chi2 = 616 (TCCGTGGA)

Quorum = 80 11592 motivos encontrados k = 1 posicao = 69 chi2 = 1156 (TCCGCGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 66

k = 1 posicao = 117 chi2 = 1012 (TCCGTGGA) k = 2 posicao = 38 chi2 = 1177 (TCCGCGGA) k = 2 posicao = 69 chi2 = 1061 (TCCGTGGA) k = 3 posicao = 76 chi2 = 893 (TCCGCGGA) k = 3 posicao = 53 chi2 = 817 (TCCGTGGA) k = 4 posicao = 131 chi2 = 526 (TCCGCGGA) k = 4 posicao = 61 chi2 = 638 (TCCGTGGA)

Quorum = 75 17555 motivos encontrados k = 1 posicao = 210 chi2 = 1109 (TCCGCGGA) k = 1 posicao = 265 chi2 = 1061 (TCCGTGGA) k = 2 posicao = 78 chi2 = 115 (TCCGCGGA) k = 2 posicao = 102 chi2 = 1109 (TCCGTGGA) k = 3 posicao = 184 chi2 = 905 (TCCGCGGA) k = 3 posicao = 105 chi2 = 85 (TCCGTGGA) k = 4 posicao = 424 chi2 = 451 (TCCGCGGA) k = 4 posicao = 476 chi2 = 582 (TCCGTGGA)

Quorum = 60 26303 motivos encontrados k = 1 posicao = 433 chi2 = 1118 (TCCGCGGA) k = 1 posicao = 521 chi2 = 991 (TCCGTGGA) k = 2 posicao = 237 chi2 = 1064 (TCCGCGGA) k = 2 posicao = 322 chi2 = 1045 (TCCGTGGA) k = 3 posicao = 316 chi2 = 95 (TCCGCGGA) k = 3 posicao = 415 chi2 = 827 (TCCGTGGA) k = 4 posicao = 978 chi2 = 49 (TCCGCGGA) k = 4 posicao = 1277 chi2 = 616 (TCCGTGGA)

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

328 motivos encontrados Quorum = 80

685 motivos encontrados Quorum = 75

685 motivos encontrados Quorum = 60

1319 motivos encontrados k = 1 posicao = 4 chi2 = 411 (TCCGTGGA) k = 2 posicao = 2 chi2 = 421 (TCCGTGGA) k = 3 posicao = 2 chi2 = 407 (TCCGTGGA) k = 4 posicao = 3 chi2 = 354 (TCCGTGGA)

Erro = 1 Quorum = 100

9298 motivos encontrados k = 1 posicao = 95 chi2 = 631 (TCCGAGGA) k = 1 posicao = 63 chi2 = 675 (TCCGCGGA) k = 1 posicao = 75 chi2 = 678 (TCCGTGGA) k = 2 posicao = 51 chi2 = 61 (TCCGAGGA) k = 2 posicao = 25 chi2 = 745 (TCCGCGGA) k = 2 posicao = 22 chi2 = 718 (TCCGTGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 67

k = 3 posicao = 38 chi2 = 538 (TCCGAGGA) k = 3 posicao = 68 chi2 = 543 (TCCGCGGA) k = 3 posicao = 64 chi2 = 57 (TCCGTGGA) k = 4 posicao = 48 chi2 = 529 (TCCGAGGA) k = 4 posicao = 161 chi2 = 389 (TCCGCGGA) k = 4 posicao = 78 chi2 = 477 (TCCGTGGA)

Quorum = 80 18263 motivos encontrados k = 1 posicao = 551 chi2 = 592 (TCCGAGGA) k = 1 posicao = 147 chi2 = 754 (TCCGCGGA) k = 1 posicao = 282 chi2 = 647 (TCCGTGGA) k = 2 posicao = 296 chi2 = 605 (TCCGAGGA) k = 2 posicao = 143 chi2 = 715 (TCCGCGGA) k = 2 posicao = 182 chi2 = 681 (TCCGTGGA) k = 3 posicao = 589 chi2 = 511 (TCCGAGGA) k = 3 posicao = 347 chi2 = 553 (TCCGCGGA) k = 3 posicao = 245 chi2 = 59 (TCCGTGGA) k = 4 posicao = 429 chi2 = 462 (TCCGAGGA) k = 4 posicao = 944 chi2 = 401 (TCCGCGGA) k = 4 posicao = 577 chi2 = 41 (TCCGTGGA)

Quorum = 75 18263 motivos encontrados k = 1 posicao = 790 chi2 = 6 (TCCGAGGA) k = 1 posicao = 168 chi2 = 706 (TCCGCGGA) k = 1 posicao = 451 chi2 = 631 (TCCGTGGA) k = 2 posicao = 195 chi2 = 623 (TCCGAGGA) k = 2 posicao = 152 chi2 = 695 (TCCGCGGA) k = 2 posicao = 155 chi2 = 686 (TCCGTGGA) k = 3 posicao = 159 chi2 = 546 (TCCGAGGA) k = 3 posicao = 286 chi2 = 546 (TCCGCGGA) k = 3 posicao = 281 chi2 = 585 (TCCGTGGA) k = 4 posicao = 342 chi2 = 46 (TCCGAGGA) k = 4 posicao = 562 chi2 = 381 (TCCGCGGA) k = 4 posicao = 632 chi2 = 401 (TCCGTGGA)

Quorum = 60 35494 motivos encontrados k = 1 posicao = 1806 chi2 = 548 (TCCGAGGA) k = 1 posicao = 1580 chi2 = 65 (TCCGCGGA) k = 1 posicao = 1668 chi2 = 595 (TCCGTGGA) k = 2 posicao = 1224 chi2 = 592 (TCCGAGGA) k = 2 posicao = 794 chi2 = 701 (TCCGCGGA) k = 2 posicao = 991 chi2 = 658 (TCCGTGGA) k = 3 posicao = 1647 chi2 = 536 (TCCGAGGA) k = 3 posicao = 2029 chi2 = 546 (TCCGCGGA) k = 3 posicao = 1118 chi2 = 57 (TCCGTGGA) k = 4 posicao = 1549 chi2 = 502 (TCCGAGGA) k = 4 posicao = 2429 chi2 = 385 (TCCGCGGA) k = 4 posicao = 2813 chi2 = 429 (TCCGTGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 68

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 69

Anexo B Comparaccedilatildeo da Significacircncia Estatiacutestica referente agrave Abundacircncia obtida pelo

Meacutetodo de Shuffling e pelo Meacutetodo Analiacutetico

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos a comparaccedilatildeo entre o valor do chi2 obtido pelo meacutetodo de shuffling e o valor obtido pelo meacutetodo analiacutetico

Cada linha diz respeito a dados em que se conserva um determinado k-mer (k) Em cada uma eacute apresentado o valor do chi2 obtido pelo meacutetodo de shuffling (chi2) e a sua posiccedilatildeo relativa na lista de motivos ordenada por valores decrescentes de chi2 face ao nuacutemero de motivos extraiacutedos Os valores acima referidos tambeacutem satildeo apresentados para o meacutetodo analiacutetico (achi2)

10_2_YRR1 Motivo TTCCGTGGAA TTCCGCGGAT TTCCGCGGAA Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=488 (633 in 8908) achi2=476 (745 in 8908) [TTCCGCGGAA]

K=2 chi2=465 (468 in 8908) achi2=464 (509 in 8908) [TTCCGCGGAA]

K=3 chi2=412 (201 in 8908) achi2=413 (230 in 8908) [TTCCGCGGAA]

K=4 chi2=253 (223 in 8908) achi2=278 (205 in 8908) [TTCCGCGGAA]

K=5 chi2=126 (277 in 8912) achi2=143 (291 in 8912) [TTCCGCGGAA]

K=6 chi2=039 (323 in 8912) achi2=041 (1035 in 8912) [TTCCGCGGAA]

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 70

Error = 1

Quorum = 80

K=1 chi2=388 (428 in 17722) achi2=387 (504 in 17722) [ACCCTAAAGGT]

K=1 chi2=474 (246 in 17722) achi2=483 (265 in 17722) [ACCTTAAAGGT]

K=2 chi2=394 (222 in 17722) achi2=389 (248 in 17722) [ACCCTAAAGGT]

K=2 chi2=474 (111 in 17722) achi2=484 (119 in 17722) [ACCTTAAAGGT]

K=3 chi2=400 (51 in 17722) achi2=391 (61 in 17722) [ACCCTAAAGGT]

K=3 chi2=477 (12 in 17722) achi2=485 (14 in 17722) [ACCTTAAAGGT]

K=4 chi2=394 (28 in 17722) achi2=387 (31 in 17722) [ACCCTAAAGGT]

K=4 chi2=488 (4 in 17722) achi2=485 (4 in 17722) [ACCTTAAAGGT]

K=5 chi2=326 (24 in 17722) achi2=343 (29 in 17722) [ACCCTAAAGGT]

K=5 chi2=435 (7 in 17722) achi2=462 (3 in 17722) [ACCTTAAAGGT]

K=6 chi2=071 (387 in 17722) achi2=282 (276 in 17722) [ACCCTAAAGGT]

K=6 chi2=310 (2 in 17722) achi2=431 (259 in 17722) [ACCTTAAAGGT]

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=344 (91 in 1316) achi2=314 (116 in 1316) [CCCCT]

K=2 chi2=187 (183 in 1316) achi2=194 (178 in 1316) [CCCCT]

K=3 chi2=164 (138 in 1316) achi2=140 (190 in 1316) [CCCCT]

K=4 chi2=088 (186 in 1316) achi2=104 (150 in 1316) [CCCCT]

Error = 1

Quorum = 60

K=1 chi2=056 (18487 in 35258) achi2=082 (15627 in 35258) [CCCCT]

K=2 chi2=000 (34670 in 35258) achi2=000 (34292 in 35258) [CCCCT]

K=3 chi2=007 (27587 in 35258) achi2=011 (25832 in 35258) [CCCCT]

K=4 chi2=044 (14195 in 35258) achi2=044 (14486 in 35258) [CCCCT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 71

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=534 (66 in 826) achi2=523 (72 in 826) [CCCCT]

K=2 chi2=290 (76 in 826) achi2=297 (75 in 826) [CCCCT]

K=3 chi2=159 (97 in 826) achi2=152 (105 in 826) [CCCCT]

K=4 chi2=022 (242 in 826) achi2=007 (382 in 826) [CCCCT]

K=5 chi2=000 (360 in 826) achi2=000 (339 in 826) [CCCCT]

K=6 chi2=000 (331 in 826) achi2=000 (604 in 826) [CCCCT]

Error = 1

Quorum = 60

K=1 chi2=372 (2640 in 21544) achi2=462 (2153 in 21544) [CCCCT]

K=2 chi2=041 (10937 in 21544) achi2=070 (8620 in 21544) [CCCCT]

K=3 chi2=000 (20651 in 21544) achi2=000 (20723 in 21544) [CCCCT]

K=4 chi2=080 (4245 in 21544) achi2=083 (4322 in 21544) [CCCCT]

K=5 chi2=000 (19590 in 21562) achi2=000 (20653 in 21562) [CCCCT]

K=6 chi2=000 (16728 in 21562) achi2=000 (21282 in 21562) [CCCCT]

5_1_Gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=080 (3213 in 6121) achi2=079 (3260 in 6121) [CATCC]

K=1 chi2=1188 (320 in 6121) achi2=1158 (344 in 6121) [CTTCC]

K=2 chi2=180 (1552 in 6121) achi2=161 (1763 in 6121) [CATCC]

K=2 chi2=504 (498 in 6121) achi2=470 (566 in 6121) [CTTCC]

K=3 chi2=205 (809 in 6121) achi2=192 (906 in 6121) [CATCC]

K=3 chi2=102 (1713 in 6121) achi2=109 (1663 in 6121) [CTTCC]

K=4 chi2=097 (929 in 6121) achi2=091 (1091 in 6121) [CATCC]

K=4 chi2=001 (5090 in 6121) achi2=001 (5126 in 6121) [CTTCC]

K=5 chi2=000 (5948 in 6121) achi2=000 (5152 in 6121) [CATCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 72

K=5 chi2=000 (4578 in 6121) achi2=000 (5000 in 6121) [CTTCC]

K=6 chi2=000 (5634 in 6121) achi2=000 (5438 in 6121) [CATCC]

K=6 chi2=000 (2279 in 6121) achi2=000 (5149 in 6121) [CTTCC]

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 chi2=292 (2311 in 10819) achi2=273 (2534 in 10819) [GATAAG]

K=1 chi2=131 (4204 in 10819) achi2=102 (4875 in 10819) [GATTAG]

K=2 chi2=499 (766 in 10819) achi2=493 (849 in 10819) [GATAAG]

K=2 chi2=280 (1760 in 10819) achi2=268 (1952 in 10819) [GATTAG]

K=3 chi2=168 (2077 in 10819) achi2=174 (2107 in 10819) [GATAAG]

K=3 chi2=953 (62 in 10819) achi2=925 (81 in 10819) [GATTAG]

K=4 chi2=014 (6803 in 10819) achi2=009 (7567 in 10819) [GATAAG]

K=4 chi2=309 (394 in 10819) achi2=352 (328 in 10819) [GATTAG]

K=5 chi2=001 (8734 in 10819) achi2=003 (7728 in 10819) [GATAAG]

K=5 chi2=176 (429 in 10819) achi2=159 (773 in 10819) [GATTAG]

K=6 chi2=000 (9825 in 10819) achi2=000 (6602 in 10819) [GATAAG]

K=6 chi2=000 (7459 in 10819) achi2=000 (6760 in 10819) [GATTAG]

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

Error = 1

Quorum = 60

K=1 chi2=382 (3218 in 20531) achi2=555 (2348 in 20531) [CACCCA]

k=1 chi2=083 (9754 in 20531) achi2=102 (9117 in 20531) [CACCCG]

K=2 chi2=330 (2327 in 20531) achi2=368 (2233 in 20531) [CACCCA]

K=2 chi2=143 (5707 in 20531) achi2=117 (6956 in 20531) [CACCCG]

K=3 chi2=209 (2208 in 20531) achi2=223 (2249 in 20531) [CACCCA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 73

K=3 chi2=040 (9516 in 20531) achi2=023 (12243 in 20531) [CACCCG]

K=4 chi2=071 (4649 in 20531) achi2=105 (3457 in 20531) [CACCCA]

K=4 chi2=000 (19099 in 20531) achi2=002 (17523 in 20531) [CACCCG]

7_0_REB1 Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 chi2=549 (29 in 405) achi2=586 (33 in 405) [TTACCC]

K=2 chi2=688 (6 in 405) achi2=635 (12 in 405) [TTACCC]

K=3 chi2=706 (2 in 405) achi2=679 (2 in 405) [TTACCC]

K=4 chi2=373 (3 in 405) achi2=402 (3 in 405) [TTACCC]

K=5 chi2=034 (7 in 405) achi2=020 (8 in 405) [TTACCC]

K=6 chi2=000 (383 in 405) achi2=000 (232 in 405) [TTACCC]

Error = 1

Quorum = 80

K=1 chi2=133 (3134 in 10337) achi2=169 (2743 in 10337) [TTACCC]

K=2 chi2=302 (657 in 10337) achi2=267 (945 in 10337) [TTACCC]

K=3 chi2=409 (106 in 10337) achi2=394 (170 in 10337) [TTACCC]

K=4 chi2=082 (1439 in 10337) achi2=109 (1091 in 10337) [TTACCC]

K=5 chi2=002 (7204 in 10337) achi2=003 (6765 in 10337) [TTACCC]

K=6 chi2=000 (10150 in 10337) achi2=000 (6299 in 10337) [TTACCC]

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=626 (58 in 785) achi2=615 (64 in 785) [TGCCAAG]

K=2 chi2=610 (11 in 785) achi2=585 (14 in 785) [TGCCAAG]

K=3 chi2=561 (8 in 785) achi2=575 (6 in 785) [TGCCAAG]

K=4 chi2=399 (4 in 785) achi2=377 (6 in 785) [TGCCAAG]

K=5 chi2=184 (8 in 785) achi2=157 (10 in 785) [TGCCAAG]

K=6 chi2=054 (5 in 785) achi2=055 (255 in 785) [TGCCAAG]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 74

Error = 1

Quorum = 60

K=1 chi2=463 (1914 in 20257) achi2=458 (2166 in 20257) [TGCCAAG]

K=2 chi2=292 (1694 in 20257) achi2=287 (1959 in 20257) [TGCCAAG]

K=3 chi2=252 (1158 in 20257) achi2=270 (1060 in 20257) [TGCCAAG]

K=4 chi2=038 (8072 in 20257) achi2=030 (9306 in 20257) [TGCCAAG]

K=5 chi2=002 (15272 in 20366) achi2=004 (14013 in 20366) [TGCCAAG]

K=6 chi2=009 (5877 in 20366) achi2=029 (4589 in 20366) [TGCCAAG]

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

K=1 chi2=1035 (5 in 267) achi2=996 (6 in 267) [TGAAACA]

K=2 chi2=961 (1 in 267) achi2=905 (1 in 267) [TGAAACA]

K=3 chi2=934 (1 in 267) achi2=884 (1 in 267) [TGAAACA]

K=4 chi2=794 (1 in 267) achi2=731 (1 in 267) [TGAAACA]

K=5 chi2=264 (2 in 267) achi2=320 (1 in 267) [TGAAACA]

K=6 chi2=044 (3 in 267) achi2=052 (168 in 267) [TGAAACA]

Error = 1

Quorum = 100

K=1 chi2=448 (515 in 7705) achi2=400 (675 in 7705) [TGAAACA]

K=2 chi2=168 (1047 in 7705) achi2=157 (1246 in 7705) [TGAAACA]

K=3 chi2=159 (637 in 7705) achi2=128 (992 in 7705) [TGAAACA]

K=4 chi2=057 (1734 in 7705) achi2=026 (3100 in 7705) [TGAAACA]

K=5 chi2=015 (2574 in 7705) achi2=021 (2435 in 7705) [TGAAACA]

K=6 chi2=007 (1386 in 7705) achi2=006 (2114 in 7705) [TGAAACA]

7_1_SWI4

Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 75

Quorum = 100

K=1 chi2=927 (53 in 8974) achi2=950 (59 in 8974) [CACGAAA]

K=1 chi2=1447 (8 in 8974) achi2=1516 (9 in 8974) [CGCGAAA]

K=2 chi2=686 (17 in 8974) achi2=638 (22 in 8974) [CACGAAA]

K=2 chi2=940 (4 in 8974) achi2=924 (3 in 8974) [CGCGAAA]

K=3 chi2=456 (46 in 8974) achi2=436 (53 in 8974) [CACGAAA]

K=3 chi2=514 (20 in 8974) achi2=502 (25 in 8974) [CGCGAAA]

K=4 chi2=087 (1329 in 8974) achi2=106 (1095 in 8974) [CACGAAA]

K=4 chi2=343 (41 in 8974) achi2=390 (27 in 8974) [CGCGAAA]

K=5 chi2=012 (3730 in 8974) achi2=000 (7343 in 8974) [CACGAAA]

K=5 chi2=033 (1966 in 8974) achi2=121 (397 in 8974) [CGCGAAA]

K=6 chi2=007 (1861 in 8974) achi2=001 (3810 in 8974) [CACGAAA]

K=6 chi2=002 (3146 in 8974) achi2=044 (873 in 8974) [CGCGAAA]

7_2_RGT1

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=2092 (246 in 6085) achi2=2140 (236 in 6085) [CGGAAAA]

K=1 chi2=810 (799 in 6085) achi2=803 (815 in 6085) [CGGAAGA]

K=1 chi2=1437 (409 in 6085) achi2=1409 (416 in 6085) [CGGAGAA]

K=1 chi2=337 (1833 in 6085) achi2=350 (1782 in 6085) [CGGATAA]

K=2 chi2=837 (251 in 6085) achi2=840 (245 in 6085) [CGGAAAA]

K=2 chi2=451 (648 in 6085) achi2=442 (666 in 6085) [CGGAAGA]

K=2 chi2=989 (186 in 6085) achi2=937 (208 in 6085) [CGGAGAA]

K=2 chi2=432 (698 in 6085) achi2=428 (695 in 6085) [CGGATAA]

K=3 chi2=281 (367 in 6085) achi2=272 (385 in 6085) [CGGAAAA]

K=3 chi2=242 (473 in 6085) achi2=225 (546 in 6085) [CGGAAGA]

K=3 chi2=580 (76 in 6085) achi2=544 (89 in 6085) [CGGAGAA]

K=3 chi2=366 (216 in 6085) achi2=309 (299 in 6085) [CGGATAA]

K=4 chi2=013 (3127 in 6085) achi2=022 (2503 in 6085) [CGGAAAA]

K=4 chi2=039 (1619 in 6085) achi2=040 (1722 in 6085) [CGGAAGA]

K=4 chi2=320 (35 in 6085) achi2=304 (56 in 6085) [CGGAGAA]

K=4 chi2=193 (166 in 6085) achi2=202 (188 in 6085) [CGGATAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 76

8_1_PDR1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 75

K=1 chi2=901 (25 in 639) achi2=884 (27 in 639) [TCCGCGGA]

K=2 chi2=886 (13 in 639) achi2=883 (14 in 639) [TCCGCGGA]

K=3 chi2=862 (4 in 639) achi2=864 (5 in 639) [TCCGCGGA]

K=4 chi2=659 (2 in 639) achi2=741 (2 in 639) [TCCGCGGA]

K=5 chi2=252 (1 in 639) achi2=306 (1 in 639) [TCCGCGGA]

K=6 chi2=012 (5 in 639) achi2=030 (253 in 639) [TCCGCGGA]

Error = 1

Quorum = 75

K=1 chi2=1388 (184 in 16695) achi2=1370 (211 in 16695) [TCCGCGGA]

K=1 chi2=913 (373 in 16695) achi2=895 (419 in 16695) [TCCGTGGA]

K=2 chi2=1355 (68 in 16695) achi2=1355 (91 in 16695) [TCCGCGGA]

K=2 chi2=952 (199 in 16695) achi2=944 (230 in 16695) [TCCGTGGA]

K=3 chi2=1237 (5 in 16695) achi2=1138 (22 in 16695) [TCCGCGGA]

K=3 chi2=782 (88 in 16695) achi2=771 (119 in 16695) [TCCGTGGA]

K=4 chi2=570 (45 in 16695) achi2=688 (33 in 16695) [TCCGCGGA]

K=4 chi2=544 (53 in 16695) achi2=610 (56 in 16695) [TCCGTGGA]

K=5 chi2=061 (2230 in 16699) achi2=113 (1175 in 16699) [TCCGCGGA]

K=5 chi2=101 (981 in 16699) achi2=207 (328 in 16699) [TCCGTGGA]

K=6 chi2=001 (8600 in 16699) achi2=000 (10541 in 16699) [TCCGCGGA]

K=6 chi2=002 (7065 in 16699) achi2=003 (8326 in 16699) [TCCGTGGA]

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 chi2=995 (22 in 423) achi2=985 (24 in 423) [TCCGCGGA]

K=2 chi2=980 (13 in 423) achi2=985 (13 in 423) [TCCGCGGA]

K=3 chi2=989 (4 in 423) achi2=967 (4 in 423) [TCCGCGGA]

K=4 chi2=741 (1 in 423) achi2=802 (1 in 423) [TCCGCGGA]

K=5 chi2=220 (1 in 423) achi2=303 (1 in 423) [TCCGCGGA]

K=6 chi2=010 (1 in 423) achi2=027 (229 in 423) [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 77

Error = 1

Quorum = 80

K=1 chi2=1609 (169 in 11592) achi2=1592 (187 in 11592) [TCCGCGGA]

K=1 chi2=1090 (327 in 11592) achi2=1109 (353 in 11592) [TCCGTGGA]

K=2 chi2=1634 (63 in 11592) achi2=1584 (97 in 11592) [TCCGCGGA]

K=2 chi2=1148 (174 in 11592) achi2=1142 (197 in 11592) [TCCGTGGA]

K=3 chi2=1333 (20 in 11592) achi2=1364 (24 in 11592) [TCCGCGGA]

K=3 chi2=878 (91 in 11592) achi2=894 (109 in 11592) [TCCGTGGA]

K=4 chi2=784 (26 in 11592) achi2=785 (35 in 11592) [TCCGCGGA]

K=4 chi2=632 (50 in 11592) achi2=689 (52 in 11592) [TCCGTGGA]

K=5 chi2=072 (1370 in 11601) achi2=127 (778 in 11601) [TCCGCGGA]

K=5 chi2=100 (878 in 11601) achi2=146 (618 in 11601) [TCCGTGGA]

K=6 chi2=000 (7969 in 11601) achi2=001 (5475 in 11601) [TCCGCGGA]

K=6 chi2=001 (4626 in 11601) achi2=004 (4674 in 11601) [TCCGTGGA]

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=285 (128 in 1319) achi2=287 (133 in 1319) [TCCGTGGA]

K=2 chi2=294 (89 in 1319) achi2=289 (95 in 1319) [TCCGTGGA]

K=3 chi2=283 (10 in 1319) achi2=278 (15 in 1319) [TCCGTGGA]

K=4 chi2=240 (7 in 1319) achi2=255 (6 in 1319) [TCCGTGGA]

K=5 chi2=122 (16 in 1319) achi2=206 (5 in 1319) [TCCGTGGA]

K=6 chi2=015 (42 in 1319) achi2=084 (269 in 1319) [TCCGTGGA]

Error = 1

Quorum = 60

K=1 chi2=336 (1859 in 35494) achi2=391 (1312 in 35494) [TCCGAGGA]

K=1 chi2=612 (489 in 35494) achi2=660 (442 in 35494) [TCCGCGGA]

K=1 chi2=368 (1518 in 35494) achi2=402 (1240 in 35494) [TCCGTGGA]

K=2 chi2=363 (946 in 35494) achi2=379 (816 in 35494) [TCCGAGGA]

K=2 chi2=636 (218 in 35494) achi2=640 (206 in 35494) [TCCGCGGA]

K=2 chi2=416 (670 in 35494) achi2=428 (599 in 35494) [TCCGTGGA]

K=3 chi2=301 (498 in 35494) achi2=304 (471 in 35494) [TCCGAGGA]

K=3 chi2=515 (41 in 35494) achi2=480 (63 in 35494) [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 78

K=3 chi2=341 (278 in 35494) achi2=329 (327 in 35494) [TCCGTGGA]

K=4 chi2=285 (274 in 35494) achi2=295 (205 in 35494) [TCCGAGGA]

K=4 chi2=300 (198 in 35494) achi2=337 (85 in 35494) [TCCGCGGA]

K=4 chi2=217 (1082 in 35494) achi2=219 (1060 in 35494) [TCCGTGGA]

K=5 chi2=075 (6352 in 35725) achi2=087 (6044 in 35725) [TCCGAGGA]

K=5 chi2=079 (5926 in 35725) achi2=153 (2215 in 35725) [TCCGCGGA]

K=5 chi2=081 (5763 in 35725) achi2=080 (6754 in 35725) [TCCGTGGA]

K=6 chi2=003 (19985 in 35725) achi2=010 (17420 in 35725) [TCCGAGGA]

K=6 chi2=026 (6383 in 35725) achi2=053 (6615 in 35725) [TCCGCGGA]

K=6 chi2=011 (11922 in 35725) achi2=000 (30343 in 35725) [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 79

Anexo C Resultados do Caacutelculo da Significacircncia Estatiacutestica referente agrave Abundacircncia

pelo Meacutetodo Analiacutetico para Conjuntos de Dados de Saccharomyces cerevisiae

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados

A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos os resultados para os motivos procurados em relaccedilatildeo a cada valor dos paracircmetros

Descriccedilatildeo do formato dos resultados

K=ltk-mer conservadogt achi2 = ltchi2 analiacuteticogt (ltposiccedilatildeogt in ltnuacutemero de motivos extraiacutedosgt ltposiccedilatildeo entre motivos do mesmo tamanhogt [motivo]

Nota A posiccedilatildeo do motivo refere-se agrave ordem em que se encontra numa lista ordenada por ordem decrescente de chi2 analiacutetico dos motivos extraiacutedos

10_2_YRR1 Motivo TTCCGTGGAA TTCCGCGGAT TTCCGCGGAA Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=476 (745 in 8908) 13 [TTCCGCGGAA]

K=2 achi2=464 (509 in 8908) 12 [TTCCGCGGAA]

K=3 achi2=413 (230 in 8908) 11 [TTCCGCGGAA]

K=4 achi2=278 (205 in 8908) 10 [TTCCGCGGAA]

K=5 achi2=143 (287 in 8908) 12 [TTCCGCGGAA]

K=6 achi2=041 (1031 in 8908) 15 [TTCCGCGGAA]

K=7 achi2=000 (2230 in 8908) 16 [TTCCGCGGAA]

K=8 achi2=001 (4728 in 8908) 16 [TTCCGCGGAA]

K=9 achi2=001 (7926 in 8908) 16 [TTCCGCGGAA]

K=10 achi2=000 (8782 in 8908) 16 [TTCCGCGGAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 80

K=11 achi2=000 (8903 in 8908) 12 [TTCCGCGGAA]

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 achi2=387 (504 in 17722) 3 [ACCCTAAAGGT]

K=1 achi2=483 (265 in 17722) 2 [ACCTTAAAGGT]

K=2 achi2=389 (248 in 17722) 3 [ACCCTAAAGGT]

K=2 achi2=484 (119 in 17722) 2 [ACCTTAAAGGT]

K=3 achi2=391 (61 in 17722) 3 [ACCCTAAAGGT]

K=3 achi2=485 (14 in 17722) 2 [ACCTTAAAGGT]

K=4 achi2=387 (31 in 17722) 4 [ACCCTAAAGGT]

K=4 achi2=485 (4 in 17722) 2 [ACCTTAAAGGT]

K=5 achi2=343 (29 in 17722) 4 [ACCCTAAAGGT]

K=5 achi2=462 (3 in 17722) 2 [ACCTTAAAGGT]

K=6 achi2=282 (276 in 17722) 4 [ACCCTAAAGGT]

K=6 achi2=431 (259 in 17722) 2 [ACCTTAAAGGT]

K=7 achi2=063 (1455 in 17722) 4 [ACCCTAAAGGT]

K=7 achi2=197 (1286 in 17722) 3 [ACCTTAAAGGT]

K=8 achi2=004 (5422 in 17722) 3 [ACCCTAAAGGT]

K=8 achi2=005 (5392 in 17722) 1 [ACCTTAAAGGT]

K=9 achi2=000 (13376 in 17722) 3 [ACCCTAAAGGT]

K=9 achi2=005 (13364 in 17722) 1 [ACCTTAAAGGT]

K=10 achi2=000 (17186 in 17722) 3 [ACCCTAAAGGT]

K=10 achi2=000 (17184 in 17722) 1 [ACCTTAAAGGT]

K=11 achi2=000 (17688 in 17722) 3 [ACCCTAAAGGT]

K=11 achi2=000 (17686 in 17722) 1 [ACCTTAAAGGT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 81

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=523 (72 in 826) 21 [CCCCT]

K=2 achi2=297 (75 in 826) 23 [CCCCT]

K=3 achi2=152 (105 in 826) 55 [CCCCT]

K=4 achi2=007 (382 in 826) 310 [CCCCT]

K=5 achi2=000 (339 in 826) 245 [CCCCT]

K=6 achi2=000 (604 in 826) 255 [CCCCT]

Error = 1

Quorum = 60

K=1 achi2=462 (2153 in 21544) 223 [CCCCT]

K=2 achi2=070 (8620 in 21544) 476 [CCCCT]

K=3 achi2=000 (20723 in 21544) 986 [CCCCT]

K=4 achi2=083 (4322 in 21544) 81 [CCCCT]

K=5 achi2=000 (20635 in 21544) 618 [CCCCT]

K=6 achi2=000 (21264 in 21544) 744 [CCCCT]

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=314 (116 in 1316) 27 [CCCCT]

K=2 achi2=194 (178 in 1316) 39 [CCCCT]

K=3 achi2=140 (190 in 1316) 42 [CCCCT]

K=4 achi2=104 (150 in 1316) 19 [CCCCT]

K=5 achi2=000 (576 in 1316) 111 [CCCCT]

K=6 achi2=000 (1113 in 1316) 392 [CCCCT]

K=7 achi2=901 (324 in 1316) 94 [CCCCT]

K=8 achi2=901 (340 in 1316) 94 [CCCCT]

K=9 achi2=901 (341 in 1316) 94 [CCCCT]

K=10 achi2=901 (342 in 1316) 94 [CCCCT]

K=11 achi2=901 (343 in 1316) 94 [CCCCT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 82

Error = 1

Quorum = 60

K=1 achi2=082 (15627 in 35258) 568 [CCCCT]

K=2 achi2=000 (34292 in 35258) 986 [CCCCT]

K=3 achi2=011 (25832 in 35258) 671 [CCCCT]

K=4 achi2=044 (14486 in 35258) 144 [CCCCT]

K=5 achi2=000 (34387 in 35258) 626 [CCCCT]

K=6 achi2=000 (34560 in 35258) 326 [CCCCT]

5_1_Gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=079 (3260 in 6121) 599 [CATCC]

K=1 achi2=1158 (344 in 6121) 50 [CTTCC]

K=2 achi2=161 (1763 in 6121) 312 [CATCC]

K=2 achi2=470 (566 in 6121) 105 [CTTCC]

K=3 achi2=192 (906 in 6121) 128 [CATCC]

K=3 achi2=109 (1663 in 6121) 248 [CTTCC]

K=4 achi2=091 (1091 in 6121) 97 [CATCC]

K=4 achi2=001 (5126 in 6121) 870 [CTTCC]

K=5 achi2=000 (5152 in 6121) 372 [CATCC]

K=5 achi2=000 (5000 in 6121) 230 [CTTCC]

K=6 achi2=000 (5438 in 6121) 341 [CATCC]

K=6 achi2=000 (5149 in 6121) 52 [CTTCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 83

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 achi2=273 (2534 in 10819) 831 [GATAAG]

K=1 achi2=102 (4875 in 10819) 1698 [GATTAG]

K=2 achi2=493 (849 in 10819) 251 [GATAAG]

K=2 achi2=268 (1952 in 10819) 593 [GATTAG]

K=3 achi2=174 (2107 in 10819) 675 [GATAAG]

K=3 achi2=925 (81 in 10819) 12 [GATTAG]

K=4 achi2=009 (7567 in 10819) 2712 [GATAAG]

K=4 achi2=352 (328 in 10819) 59 [GATTAG]

K=5 achi2=003 (7728 in 10819) 3046 [GATAAG]

K=5 achi2=159 (773 in 10819) 110 [GATTAG]

K=6 achi2=000 (6602 in 10819) 761 [GATAAG]

K=6 achi2=000 (6760 in 10819) 917 [GATTAG]

K=7 achi2=000 (10606 in 10819) 3684 [GATAAG]

K=7 achi2=000 (8570 in 10819) 1648 [GATTAG]

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

Error = 1

Quorum = 60

K=1 achi2=555 (2348 in 20531) 456 [CACCCA]

K=1 achi2=102 (9117 in 20531) 2005 [CACCCG]

K=2 achi2=368 (2233 in 20531) 460 [CACCCA]

K=2 achi2=117 (6956 in 20531) 1498 [CACCCG]

K=3 achi2=223 (2249 in 20531) 392 [CACCCA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 84

K=3 achi2=023 (12243 in 20531) 2397 [CACCCG]

K=4 achi2=105 (3457 in 20531) 482 [CACCCA]

K=4 achi2=002 (17523 in 20531) 3457 [CACCCG]

K=5 achi2=006 (13001 in 20531) 2409 [CACCCA]

K=5 achi2=048 (5016 in 20531) 610 [CACCCG]

K=6 achi2=000 (17016 in 20531) 1751 [CACCCA]

K=6 achi2=000 (18636 in 20531) 3343 [CACCCG]

K=7 achi2=000 (17654 in 20531) 1218 [CACCCA]

K=7 achi2=000 (18327 in 20531) 1891 [CACCCG]

7_0_REB1 Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 achi2=586 (33 in 405) 5 [TTACCC]

K=2 achi2=635 (12 in 405) 1 [TTACCC]

K=3 achi2=679 (2 in 405) 1 [TTACCC]

K=4 achi2=402 (3 in 405) 2 [TTACCC]

K=5 achi2=020 (8 in 405) 7 [TTACCC]

K=6 achi2=000 (232 in 405) 8 [TTACCC]

K=7 achi2=000 (402 in 405) 8 [TTACCC]

Error = 1

Quorum = 80

K=1 achi2=169 (2742 in 10337) 933 [TTACCC]

K=2 achi2=267 (945 in 10337) 284 [TTACCC]

K=3 achi2=394 (170 in 10337) 25 [TTACCC]

K=4 achi2=109 (1091 in 10337) 246 [TTACCC]

K=5 achi2=003 (6765 in 10337) 2619 [TTACCC]

K=6 achi2=000 (6295 in 10337) 852 [TTACCC]

K=7 achi2=000 (9863 in 10337) 3333 [TTACCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 85

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=615 (64 in 785) 12 [TGCCAAG]

K=2 achi2=585 (14 in 785) 3 [TGCCAAG]

K=3 achi2=575 (6 in 785) 2 [TGCCAAG]

K=4 achi2=377 (6 in 785) 2 [TGCCAAG]

K=5 achi2=157 (10 in 785) 5 [TGCCAAG]

K=6 achi2=055 (255 in 785) 4 [TGCCAAG]

K=7 achi2=000 (652 in 785) 18 [TGCCAAG]

K=8 achi2=000 (771 in 785) 15 [TGCCAAG]

Error = 1

Quorum = 60

K=1 achi2=458 (2166 in 20257) 407 [TGCCAAG]

K=2 achi2=287 (1959 in 20257) 462 [TGCCAAG]

K=3 achi2=270 (1060 in 20257) 241 [TGCCAAG]

K=4 achi2=030 (9306 in 20257) 3695 [TGCCAAG]

K=5 achi2=004 (13915 in 20257) 6353 [TGCCAAG]

K=6 achi2=029 (4512 in 20257) 1713 [TGCCAAG]

K=7 achi2=003 (5275 in 20257) 36 [TGCCAAG]

K=8 achi2=000 (12401 in 20257) 1099 [TGCCAAG]

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

K=1 achi2=996 (6 in 267) 1 [TGAAACA]

K=2 achi2=905 (1 in 267) 1 [TGAAACA]

K=3 achi2=884 (1 in 267) 1 [TGAAACA]

K=4 achi2=731 (1 in 267) 1 [TGAAACA]

K=5 achi2=320 (1 in 267) 1 [TGAAACA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 86

K=6 achi2=052 (168 in 267) 2 [TGAAACA]

K=7 achi2=000 (254 in 267) 1 [TGAAACA]

K=8 achi2=000 (266 in 267) 2 [TGAAACA]

Error = 1

Quorum = 100

K=1 achi2=400 (675 in 7705) 162 [TGAAACA]

K=2 achi2=157 (1246 in 7705) 402 [TGAAACA]

K=3 achi2=128 (992 in 7705) 375 [TGAAACA]

K=4 achi2=026 (3100 in 7705) 1267 [TGAAACA]

K=5 achi2=021 (2435 in 7705) 1154 [TGAAACA]

K=6 achi2=006 (2114 in 7705) 1435 [TGAAACA]

K=7 achi2=000 (2095 in 7705) 260 [TGAAACA]

K=8 achi2=000 (6802 in 7705) 1861 [TGAAACA]

7_1_SWI4 Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=950 (59 in 8974) 15 [CACGAAA]

K=1 achi2=1516 (9 in 8974) 2 [CGCGAAA]

K=2 achi2=638 (22 in 8974) 7 [CACGAAA]

K=2 achi2=924 (3 in 8974) 1 [CGCGAAA]

K=3 achi2=436 (53 in 8974) 25 [CACGAAA]

K=3 achi2=502 (25 in 8974) 10 [CGCGAAA]

K=4 achi2=106 (1095 in 8974) 476 [CACGAAA]

K=4 achi2=390 (27 in 8974) 9 [CGCGAAA]

K=5 achi2=000 (7343 in 8974) 3297 [CACGAAA]

K=5 achi2=121 (397 in 8974) 176 [CGCGAAA]

K=6 achi2=001 (3810 in 8974) 2702 [CACGAAA]

K=6 achi2=044 (873 in 8974) 314 [CGCGAAA]

K=7 achi2=000 (2384 in 8974) 205 [CACGAAA]

K=7 achi2=000 (2371 in 8974) 194 [CGCGAAA]

K=8 achi2=000 (8531 in 8974) 3025 [CACGAAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 87

K=8 achi2=000 (5630 in 8974) 124 [CGCGAAA]

7_2_RGT1

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=2140 (236 in 6085) 74 [CGGAAAA]

K=1 achi2=803 (815 in 6085) 253 [CGGAAGA]

K=1 achi2=1409 (416 in 6085) 129 [CGGAGAA]

K=1 achi2=350 (1782 in 6085) 511 [CGGATAA]

K=2 achi2=840 (245 in 6085) 67 [CGGAAAA]

K=2 achi2=442 (666 in 6085) 169 [CGGAAGA]

K=2 achi2=937 (208 in 6085) 55 [CGGAGAA]

K=2 achi2=428 (695 in 6085) 175 [CGGATAA]

K=3 achi2=272 (385 in 6085) 126 [CGGAAAA]

K=3 achi2=225 (546 in 6085) 173 [CGGAAGA]

K=3 achi2=544 (89 in 6085) 28 [CGGAGAA]

K=3 achi2=309 (299 in 6085) 100 [CGGATAA]

K=4 achi2=022 (2503 in 6085) 821 [CGGAAAA]

K=4 achi2=040 (1722 in 6085) 598 [CGGAAGA]

K=4 achi2=304 (56 in 6085) 23 [CGGAGAA]

K=4 achi2=202 (188 in 6085) 81 [CGGATAA]

K=5 achi2=003 (3495 in 6085) 1206 [CGGAAAA]

K=5 achi2=019 (1882 in 6085) 749 [CGGAAGA]

K=5 achi2=238 (34 in 6085) 12 [CGGAGAA]

K=5 achi2=138 (154 in 6085) 74 [CGGATAA]

K=6 achi2=009 (1192 in 6085) 744 [CGGAAAA]

K=6 achi2=031 (682 in 6085) 300 [CGGAAGA]

K=6 achi2=057 (459 in 6085) 122 [CGGAGAA]

K=6 achi2=042 (550 in 6085) 191 [CGGATAA]

K=7 achi2=000 (1608 in 6085) 53 [CGGAAAA]

K=7 achi2=000 (2439 in 6085) 861 [CGGAAGA]

K=7 achi2=000 (2150 in 6085) 572 [CGGAGAA]

K=7 achi2=000 (2472 in 6085) 894 [CGGATAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 88

K=8 achi2=000 (6056 in 6085) 1512 [CGGAAAA]

K=8 achi2=000 (5728 in 6085) 1184 [CGGAAGA]

K=8 achi2=000 (5127 in 6085) 583 [CGGAGAA]

K=8 achi2=000 (5961 in 6085) 1417 [CGGATAA]

8_1_PDR1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 75

K=1 achi2=884 (27 in 639) 1 [TCCGCGGA]

K=2 achi2=883 (14 in 639) 1 [TCCGCGGA]

K=3 achi2=864 (5 in 639) 1 [TCCGCGGA]

K=4 achi2=741 (2 in 639) 1 [TCCGCGGA]

K=5 achi2=306 (1 in 639) 1 [TCCGCGGA]

K=6 achi2=030 (253 in 639) 1 [TCCGCGGA]

K=7 achi2=012 (587 in 639) 1 [TCCGCGGA]

K=8 achi2=000 (633 in 639) 1 [TCCGCGGA]

K=9 achi2=000 (639 in 639) 1 [TCCGCGGA]

Error = 1

Quorum = 75

K=1 achi2=1370 (211 in 16695) 48 [TCCGCGGA]

K=1 achi2=895 (419 in 16695) 111 [TCCGTGGA]

K=2 achi2=1355 (91 in 16695) 26 [TCCGCGGA]

K=2 achi2=944 (230 in 16695) 59 [TCCGTGGA]

K=3 achi2=1138 (22 in 16695) 13 [TCCGCGGA]

K=3 achi2=771 (119 in 16695) 39 [TCCGTGGA]

K=4 achi2=688 (33 in 16695) 9 [TCCGCGGA]

K=4 achi2=610 (56 in 16695) 18 [TCCGTGGA]

K=5 achi2=113 (1171 in 16695) 496 [TCCGCGGA]

K=5 achi2=207 (324 in 16695) 135 [TCCGTGGA]

K=6 achi2=000 (10537 in 16695) 2237 [TCCGCGGA]

K=6 achi2=003 (8322 in 16695) 1955 [TCCGTGGA]

K=7 achi2=000 (4060 in 16695) 2312 [TCCGCGGA]

K=7 achi2=000 (4066 in 16695) 2318 [TCCGTGGA]

K=8 achi2=000 (5835 in 16695) 174 [TCCGCGGA]

K=8 achi2=000 (6050 in 16695) 389 [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 89

K=9 achi2=000 (15679 in 16695) 1375 [TCCGCGGA]

K=9 achi2=000 (14892 in 16695) 588 [TCCGTGGA]

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 achi2=985 (24 in 423) 1 [TCCGCGGA]

K=2 achi2=985 (13 in 423) 1 [TCCGCGGA]

K=3 achi2=967 (4 in 423) 1 [TCCGCGGA]

K=4 achi2=802 (1 in 423) 1 [TCCGCGGA]

K=5 achi2=303 (1 in 423) 1 [TCCGCGGA]

K=6 achi2=027 (229 in 423) 1 [TCCGCGGA]

K=7 achi2=013 (401 in 423) 1 [TCCGCGGA]

K=8 achi2=000 (420 in 423) 1 [TCCGCGGA]

K=9 achi2=000 (423 in 423) 1 [TCCGCGGA]

Error = 1

Quorum = 80

K=1 achi2=1592 (187 in 11592) 35 [TCCGCGGA]

K=1 achi2=1109 (353 in 11592) 83 [TCCGTGGA]

K=2 achi2=1584 (97 in 11592) 25 [TCCGCGGA]

K=2 achi2=1142 (197 in 11592) 44 [TCCGTGGA]

K=3 achi2=1364 (24 in 11592) 9 [TCCGCGGA]

K=3 achi2=894 (109 in 11592) 35 [TCCGTGGA]

K=4 achi2=785 (35 in 11592) 11 [TCCGCGGA]

K=4 achi2=689 (52 in 11592) 16 [TCCGTGGA]

K=5 achi2=127 (769 in 11592) 243 [TCCGCGGA]

K=5 achi2=146 (609 in 11592) 204 [TCCGTGGA]

K=6 achi2=001 (5466 in 11592) 879 [TCCGCGGA]

K=6 achi2=004 (4665 in 11592) 789 [TCCGTGGA]

K=7 achi2=000 (2570 in 11592) 968 [TCCGCGGA]

K=7 achi2=000 (2517 in 11592) 941 [TCCGTGGA]

K=8 achi2=000 (5547 in 11592) 157 [TCCGCGGA]

K=8 achi2=000 (5666 in 11592) 276 [TCCGTGGA]

K=9 achi2=000 (10744 in 11592) 135 [TCCGCGGA]

K=9 achi2=000 (11041 in 11592) 432 [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 90

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=287 (133 in 1319) 8 [TCCGTGGA]

K=2 achi2=289 (95 in 1319) 5 [TCCGTGGA]

K=3 achi2=278 (15 in 1319) 2 [TCCGTGGA]

K=4 achi2=255 (6 in 1319) 1 [TCCGTGGA]

K=5 achi2=206 (5 in 1319) 2 [TCCGTGGA]

K=6 achi2=084 (269 in 1319) 7 [TCCGTGGA]

K=7 achi2=000 (897 in 1319) 17 [TCCGTGGA]

K=8 achi2=000 (1232 in 1319) 8 [TCCGTGGA]

K=9 achi2=000 (1303 in 1319) 1 [TCCGTGGA]

Error = 1

Quorum = 60

K=1 achi2=391 (1312 in 35494) 312 [TCCGAGGA]

K=1 achi2=660 (442 in 35494) 89 [TCCGCGGA]

K=1 achi2=402 (1240 in 35494) 301 [TCCGTGGA]

K=2 achi2=379 (816 in 35494) 174 [TCCGAGGA]

K=2 achi2=640 (206 in 35494) 48 [TCCGCGGA]

K=2 achi2=428 (599 in 35494) 123 [TCCGTGGA]

K=3 achi2=304 (471 in 35494) 120 [TCCGAGGA]

K=3 achi2=480 (63 in 35494) 10 [TCCGCGGA]

K=3 achi2=329 (327 in 35494) 87 [TCCGTGGA]

K=4 achi2=295 (205 in 35494) 61 [TCCGAGGA]

K=4 achi2=337 (85 in 35494) 28 [TCCGCGGA]

K=4 achi2=219 (1060 in 35494) 257 [TCCGTGGA]

K=5 achi2=087 (5828 in 35494) 2082 [TCCGAGGA]

K=5 achi2=153 (2062 in 35494) 521 [TCCGCGGA]

K=5 achi2=080 (6534 in 35494) 2399 [TCCGTGGA]

K=6 achi2=010 (17189 in 35494) 7240 [TCCGAGGA]

K=6 achi2=053 (6392 in 35494) 2378 [TCCGCGGA]

K=6 achi2=000 (30112 in 35494) 12027 [TCCGTGGA]

K=7 achi2=006 (9736 in 35494) 4698 [TCCGAGGA]

K=7 achi2=006 (10113 in 35494) 5025 [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 91

K=7 achi2=000 (17876 in 35494) 11124 [TCCGTGGA]

K=8 achi2=000 (12067 in 35494) 1424 [TCCGAGGA]

K=8 achi2=000 (11172 in 35494) 529 [TCCGCGGA]

K=8 achi2=000 (11688 in 35494) 1045 [TCCGTGGA]

K=9 achi2=000 (31497 in 35494) 8200 [TCCGAGGA]

K=9 achi2=000 (25674 in 35494) 2377 [TCCGCGGA]

K=9 achi2=000 (29818 in 35494) 6521 [TCCGTGGA]

Page 5: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes v

Lista de Figuras

Figura 21 Representaccedilatildeo de cadeias de DNA em forma de dupla heacutelice 3

Figura 22 Expressatildeo geacutenica em eucariotas (A) e procariotas (B) 4

Figura 23 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em procariotas 5

Figura 24 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em eucariotas 5

Figura 31 Exemplo de uma especificaccedilatildeo de um modelo estruturado 8

Figura 32

(a) Exemplo de especificaccedilatildeo (b) Modelo retirado de uma sequecircncia que cumpre a especificaccedilatildeo 8

Figura 33

Aacutervore de sufixos generalizada para as sequecircncias TACTA$ (sequecircncia 1) e CACTCA$ (sequecircncia 2) 9

Figura 34 Esquema da procura de motivos estruturados usando uma aacutervore de sufixos 10

Figura 35 Exemplo de um ficheiro de especificaccedilatildeo para a geraccedilatildeo de dados sinteacuteticos 11

Figura 41

Multi-grafo gerado pela sequecircncia ATTATTTATT para k=4 com 2 passeios aleatoacuterios 16

Figura 42

Histograma das ocorrecircncias observadas do motivo TTTTAA em 100 simulaccedilotildees de shuffling do conjunto de dados da H pylori 17

Figura 43

Graacutefico da evoluccedilatildeo da significacircncia estatiacutestica com o aumento do valor de k para um motivo de tamanho 8 extraiacutedo do conjunto de dados da H pylori 18

Figura 44 Conjunto de dados exemplo 19

Figura 45 Exemplo de uma cadeia de Markov para k=3 20

Figura 51 Representaccedilatildeo das sequecircncias ATA (1) e TTA (2) 26

Figura 52 Representaccedilatildeo da cobertura WTA (1) 27

Figura 53 Interface para geraccedilatildeo de coacutedigo IUPAC integrada na Dbyeast 29

Figura 61 Significacircncia estatiacutestica para motivos simples de tamanho 6 32

Figura 62 Significacircncia estatiacutestica para motivos simples de tamanho 7 32

Figura 63 Significacircncia estatiacutestica para modelos estruturados em dados sinteacuteticos 34

Figura 64

Significacircncia estatiacutestica de motivos simples de tamanho 6 usando o meacutetodo analiacutetico 36

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes vi

Figura 65

Significacircncia estatiacutestica de motivos simples de tamanho 7 usando o meacutetodo

analiacutetico 36

Figura 66

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o

conjunto de dados MSN4 com 0 erro 39

Figura 67

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados MSN4 com 1 erro 40

Figura 68

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados STE12 com 0 erros 41

Figura 69

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados STE12 com 1 erro 41

Figura 610

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados MSN4 com 0 erros 43

Figura 611

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados MSN4 com 1 erro 43

Figura 612

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados STE12 com 0 erros 44

Figura 613

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados STE12 com 1 erro 45

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes vii

Lista de Tabelas

Tabela 41 Tabela de contingecircncia para o caacutelculo do 2

13

Tabela 51 Coacutedigo IUPAC 23

Tabela 52 Codificaccedilatildeo binaacuteria dos siacutembolos IUPAC 24

Tabela 61 Posiccedilotildees dos motivos especificados 33

Tabela 62 Posiccedilotildees do motivo estruturado especificado 34

Tabela 63 Posiccedilotildees dos modelos especificados 37

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes viii

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes ix

Agradecimentos

Gostariacuteamos de agradecer agrave nossa orientadora Professora Ana Teresa Freitas pela forma

como sempre orientou o nosso trabalho pela inestimaacutevel disponibilidade pelo interesse

demonstrado e pela iacutempar capacidade de motivaccedilatildeo

Agradecemos tambeacutem ao nosso co-orientador Professor Arlindo Oliveira pela sua

disponibilidade e opiniatildeo criacutetica que sempre contribuiu para o enriquecimento do nosso

trabalho

Agrave Susana Vinga pelo importante contributo na anaacutelise estatiacutestica e pela sua diligente

disponibilidade

Agrave Joana Fradinho Luiacutes Figueiredo e Petra Jelinkova pela disponibilizaccedilatildeo de conjuntos de

dados essenciais para a prossecuccedilatildeo deste trabalho

Agrave Alexandra Carvalho por ter tido a disponibilidade de ler a primeira versatildeo deste relatoacuterio e

contribuiacutedo com pertinentes sugestotildees

Aos nossos colegas da sala 138 pela camaradagem e companhia nas longas horas passadas no

INESC

Aos colegas da sala 128 pela motivaccedilatildeo e constante disponibilidade

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes x

Resumo

A grande quantidade de dados disponiacuteveis na aacuterea da Biologia requer meacutetodos de extracccedilatildeo de

conhecimento poderosos sistemaacuteticos e eficientes Em particular a identificaccedilatildeo de

sequecircncias de nucleoacutetidos designadas de consensos onde se ligam factores de transcriccedilatildeo

responsaacuteveis em parte pelo mecanismo de regulaccedilatildeo geacutenica eacute essencial para uma

compreensatildeo do papel de cada gene

Actualmente existem vaacuterios algoritmos cujo objectivo eacute encontrar sequecircncias candidatas a

sequecircncias de consenso Estes algoritmos podem ser divididos em duas classes meacutetodos

restritivos e meacutetodos proliacuteficos Os meacutetodos restritivos obtecircm poucas respostas com elevada

precisatildeo enquanto que os meacutetodos proliacuteficos obtecircm muitas respostas com baixa precisatildeo

exigindo um esforccedilo de poacutes-processamento

Neste trabalho utilizamos o SMILE [1] que eacute um meacutetodo proliacutefico para a extracccedilatildeo de

sequecircncias de consenso na regiatildeo promotora dos genes Face ao nuacutemero significativo das

respostas obtidas pretende-se com este trabalho avaliar possiacuteveis soluccedilotildees de poacutes-

processamento de modo a garantir a utilidade da informaccedilatildeo extraiacuteda para os utilizadores do

algoritmo Assim definiram-se dois grandes objectivos

A avaliaccedilatildeo de meacutetodos estatiacutesticos que permitam aferir a significacircncia bioloacutegica das

respostas obtidas

A obtenccedilatildeo de uma descriccedilatildeo compacta da informaccedilatildeo extraiacuteda

Palavras-chave Gene regulaccedilatildeo geacutenica regiatildeo promotora sequecircncias degeneradas IUPAC

avaliaccedilatildeo estatiacutestica de biosequecircncias SMILE extracccedilatildeo de motivos

Relatoacuterio Intercalar de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 1

1 Introduccedilatildeo

A crescente disponibilidade de dados sobre o genoma de vaacuterios organismos tem possibilitado

o aparecimento de novos projectos na aacuterea da biologia No entanto a quantidade massiva de

dados disponiacuteveis torna impossiacutevel uma anaacutelise manual da informaccedilatildeo sendo cada vez mais

premente a necessidade de um processamento automaacutetico dos dados obtidos

Neste contexto a identificaccedilatildeo e modelaccedilatildeo da regiatildeo promotora dos genes assume um papel

fundamental pois as condiccedilotildees de activaccedilatildeo e transcriccedilatildeo de um gene dependem das

sequecircncias de nucleoacutetidos aiacute presentes

As sequecircncias de nucleoacutetidos da regiatildeo promotora que determinam a transcriccedilatildeo do gene satildeo

denominadas de promotores e satildeo representadas por sequecircncias de consenso ou

simplesmente consensos A literatura refere vaacuterias formas de descriccedilatildeo destes consensos

desde a utilizaccedilatildeo de uma matriz de pesos a uma sequecircncia de bases mais frequentes Neste

trabalho utilizamos uma codificaccedilatildeo IUPAC destas sequecircncias que corresponde a um

conjunto de sequecircncias degeneradas em que cada siacutembolo representa um conjunto de

nucleoacutetidos possiacuteveis para uma dada posiccedilatildeo

Actualmente existem vaacuterios algoritmos cujo objectivo eacute encontrar sequecircncias candidatas a

sequecircncias de consenso nas regiotildees promotoras As sequecircncias que satildeo reportadas como

possiacuteveis consensos satildeo designadas de motivos Os algoritmos de pesquisa de motivos podem

ser agrupados de uma forma geral em dois tipos algoritmos restritivos e algoritmos

proliacuteficos

Os algoritmos restritivos concentram-se em encontrar poucos motivos mas de relevacircncia

assinalaacutevel enquanto que os algoritmos proliacuteficos preocupam-se em determinar todos os

motivos que possam ser encontrados de acordo com determinados paracircmetros de pesquisa

Os algoritmos designados de proliacuteficos tecircm a vantagem de natildeo fazerem suposiccedilotildees a priori

No entanto a grande quantidade de motivos encontrados requer um esforccedilo de poacutes-

processamento significativo

Este trabalho tem por objectivo o desenvolvimento de uma metodologia que permita o

processamento automaacutetico dos motivos encontrados por um algoritmo que pode ser

classificado de proliacutefico o algoritmo SMILE [1]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 2

No Capiacutetulo 2 apresentamos uma descriccedilatildeo do problema em anaacutelise evidenciando a

motivaccedilatildeo bioloacutegica e fazendo o seu enquadramento com os objectivos do trabalho

No Capiacutetulo 3 descrevemos o algoritmo SMILE no contexto do problema da extracccedilatildeo de

motivos e apresentamos um gerador de dados sinteacuteticos que seraacute usado como ponto de partida

do estudo da eficaacutecia do algoritmo

No Capiacutetulo 4 discutimos a utilizaccedilatildeo de meacutetodos estatiacutesticos para aferir a significacircncia

bioloacutegica dos motivos extraiacutedos pelo SMILE

No Capiacutetulo 5 apresentamos um meacutetodo para geraccedilatildeo de uma representaccedilatildeo compacta de

motivos extraiacutedos usando a codificaccedilatildeo IUPAC

Finalmente no Capiacutetulo 6 apresentamos vaacuterios resultados obtidos tanto com dados sinteacuteticos

como com dados reais discutindo a aplicabilidade dos meacutetodos estatiacutesticos apresentados no

Capiacutetulo 4

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 3

2 Descriccedilatildeo do Problema

A moleacutecula de DNA eacute responsaacutevel pela manutenccedilatildeo da informaccedilatildeo geneacutetica de cada indiviacuteduo

e eacute constituiacuteda por duas cadeias de nucleoacutetidos dispostas de modo a formar uma dupla

heacutelice [2] que se encontra representada na Figura 21 Cada nucleoacutetido eacute formado por trecircs

elementos um accediluacutecar um grupo fosfato e uma de quatro bases azotadas As quatro bases satildeo

a Adenina (A) a Timina (T) a Guanina (G) e a Citosina (C) e podem ser vistas como os

quatro elementos de um alfabeto

Figura 21

Representaccedilatildeo de cadeias de DNA em forma de dupla heacutelice

As duas cadeias de DNA satildeo complementares no sentido em que as bases das duas cadeias

estatildeo emparelhadas Assim uma Adenina de uma cadeia emparelha com uma Timina da

cadeia complementar e do mesmo modo uma Citosina emparelha com uma Guanina

Os genes satildeo segmentos de uma cadeia de DNA que controlam a siacutentese proteica e

consequentemente toda a actividade celular O genoma eacute o conjunto de genes de um

indiviacuteduo

A expressatildeo geacutenica eacute o processo atraveacutes do qual a informaccedilatildeo contida nos genes dirige a

siacutentese de proteiacutenas Este processo envolve dois passos transcriccedilatildeo e traduccedilatildeo

A transcriccedilatildeo consiste na transferecircncia da informaccedilatildeo contida no DNA para uma moleacutecula

intermediaacuteria de RNA designada de RNA-mensageiro ou mRNA De seguida o molde de

mRNA eacute usado no passo de traduccedilatildeo onde iraacute dirigir a siacutentese proteica

Este processo eacute semelhante em todos os organismos vivos embora existam diferenccedilas

assinalaacuteveis entre organismos eucariotas e procariotas isto eacute entre organismos com e sem

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 4

nuacutecleo individualizado respectivamente Em particular o mecanismo eacute consideravelmente

mais complexo em organismos eucariotas A Figura 22 ilustra o processo de expressatildeo geacutenica

em eucariotas (Figura 22-A) e procariotas (Figura 22-B)

Figura 22 Expressatildeo geacutenica em eucariotas (A) e procariotas (B)

Actualmente o problema da identificaccedilatildeo e modelaccedilatildeo dos mecanismos que regulam a

interacccedilatildeo entre grupos de genes eacute um dos problemas mais em foco na investigaccedilatildeo em

biologia computacional Como jaacute foi referido a regiatildeo promotora eacute parte essencial do

mecanismo de regulaccedilatildeo da transcriccedilatildeo geacutenica

A biologia oferece-nos alguns modelos da regiatildeo promotora evidenciando as diferenccedilas entre

organismos procariotas (Figura 23) e eucariotas (Figura 24)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 5

Figura 23 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em procariotas

Figura 24 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em eucariotas

No mecanismo de transcriccedilatildeo geacutenica interveacutem uma enzima denominada RNA-polimerase

Esta enzima tem como funccedilatildeo a transcriccedilatildeo da informaccedilatildeo contida no DNA para uma cadeia

de RNA que iraacute posteriormente intervir no processo de siacutentese proteica

Para que a RNA-polimerase inicie a transcriccedilatildeo de uma cadeia de DNA geralmente um gene

eacute necessaacuterio que se cumpram algumas condiccedilotildees Assim entre outras eacute necessaacuterio que

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 6

estejam presentes na regiatildeo promotora motivos que a RNA-polimerase reconheccedila e aos quais

se possa ligar para iniciar a transcriccedilatildeo da regiatildeo a jusante (na literatura inglesa estas regiotildees

satildeo denominadas de binding sites) As condiccedilotildees de activaccedilatildeo desta enzima satildeo mais

complexas nos organismos eucariotas [3] uma vez que neste caso para aleacutem dos motivos

referidos existem ainda vaacuterios outros que satildeo reconhecidos por factores de transcriccedilatildeo isto eacute

proteiacutenas que se ligam sucessivamente agrave RNA-polimerase estabelecendo um complexo

mecanismo de regulaccedilatildeo Estes motivos podem estar a montante a jusante ou mesmo no

interior do gene a ser transcrito e podem ainda exercer um efeito estimulador ou repressor da

transcriccedilatildeo Os locais onde existem motivos aos quais se ligam os diversos factores de

transcriccedilatildeo satildeo designados genericamente por regiotildees reguladoras

Eacute possiacutevel compreender agora a importacircncia da necessidade de ser definido um modelo ou

modelos para a regiatildeo promotora no acircmbito do estudo do genoma

Neste trabalho utilizamos o algoritmo SMILE para procurar motivos interessantes isto eacute

biologicamente significativos em cadeias de DNA pertencentes agrave regiatildeo promotora dos genes

Como jaacute foi referido trata-se de um algoritmo proliacutefico no sentido em que se preocupa em

encontrar todas as sequecircncias que cumpram os paracircmetros especificados Sendo assim torna-

se necessaacuterio um esforccedilo significativo de poacutes-processamento para que possa ser obtida

informaccedilatildeo uacutetil a partir dos dados gerados

O poacutes-processamento dos motivos extraiacutedos inclui uma anaacutelise estatiacutestica que culmina com a

atribuiccedilatildeo de um niacutevel de significacircncia a cada motivo Deste modo eacute possiacutevel definir um

crivo que separa motivos considerados relevantes de motivos agrave partida menos interessantes

Finalmente e depois de ter sido encontrado um conjunto de motivos relevantes seraacute efectuada

uma traduccedilatildeo para uma representaccedilatildeo IUPAC Esta representaccedilatildeo permite compactar os

dados agrupando motivos muito semelhantes Este passo eacute de importacircncia essencial para uma

utilizaccedilatildeo eficiente dos dados obtidos uma vez que uma representaccedilatildeo compacta facilita a sua

utilizaccedilatildeo em pesquisas em bases de dados bioloacutegicas que contecircm informaccedilatildeo sobre

consensos anteriormente identificados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 7

3 Extracccedilatildeo de motivos

31 Algoritmo SMILE

O SMILE eacute um meacutetodo algoriacutetmico de extracccedilatildeo de motivos de sequecircncias bioloacutegicas O

algoritmo comeccedila por processar um conjunto de dados de entrada composto por vaacuterias

sequecircncias natildeo alinhadas de nucleoacutetidos que se sabe conterem um ou mais binding sites Estes

dados satildeo utilizados para calcular ocorrecircncias de motivos usando como estrutura de dados

base uma aacutervore de sufixos

Um modelo eacute uma representaccedilatildeo de subsequecircncias que ocorrem nos dados de entrada

satisfazendo potencialmente certas propriedades

O algoritmo iraacute assim pesquisar modelos (simples ou estruturados) nos dados que lhe satildeo

fornecidos segundo alguns paracircmetros

Um modelo simples diz respeito a uma subsequecircncia contiacutegua de nucleoacutetidos enquanto que

um modelo estruturado eacute uma composiccedilatildeo de modelos simples

Um modelo estruturado pode ser constituiacutedo por vaacuterias partes posicionadas ao longo da

sequecircncia Cada parte eacute um modelo simples que pode ter um tamanho variaacutevel (entre kmin e

kmax) O espaccedilo entre cada parte consecutiva pode tambeacutem ser parametrizado (dmin e dmax)

Do mesmo modo tambeacutem eacute possiacutevel parametrizar o nuacutemero de erros que se permite ocorrer

no modelo e em cada uma das suas partes

A Figura 31 apresenta um exemplo de uma especificaccedilatildeo de um modelo estruturado em que

se consideram duas partes A primeira parte pode ter um tamanho entre 6 e 8 nucleoacutetidos e satildeo

admitidos 2 erros A segunda parte pode ocorrer entre 16 e 18 nucleoacutetidos apoacutes a primeira

parte e teraacute um tamanho igualmente entre 6 e 8 embora seja admitido apenas 1 erro

A Figura 32 apresenta o esquema de outro modelo estruturado e respectiva concretizaccedilatildeo

numa sequecircncia Neste exemplo consideram-se igualmente duas partes A primeira com

tamanho entre 6 e 10 nucleoacutetidos e a segunda entre 6 e 8 As partes podem estar a uma

distacircncia que varia entre 10 e 15 nucleoacutetidos e natildeo satildeo admitidos erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 8

Figura 31 Exemplo de uma especificaccedilatildeo de um modelo estruturado

Figura 32 (a) Exemplo de especificaccedilatildeo (b) Modelo retirado de uma sequecircncia

que cumpre a especificaccedilatildeo

Um modelo eacute considerado vaacutelido caso o nuacutemero de sequecircncias de entrada em que ocorre seja

natildeo inferior a um miacutenimo estabelecido designado por quoacuterum Os modelos vaacutelidos satildeo

designados de motivos

Para verificar o nuacutemero de ocorrecircncias eacute utilizada uma aacutervore de sufixos Uma aacutervore de

sufixos eacute uma estrutura de dados que representa todos os sufixos de uma cadeia de caracteres

As suas caracteriacutesticas satildeo de grande utilidade para os algoritmos de emparelhamento de

caracteres

6-10 6-8

10-15

(a)

ATTATTA_CTATCT

ATTATTAGTACTCATACCTATCT

(b)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 9

O SMILE processa conjuntos de dados isto eacute conjuntos de sequecircncias de nucleoacutetidos

utilizando para esse efeito uma aacutervores de sufixos generalizada Esta estrutura de dados

difere da aacutervore de sufixos simples no sentido em que agrupa vaacuterias cadeias de caracteres

correspondentes agraves vaacuterias sequecircncias de nucleoacutetidos Esta multiplicidade de sequecircncias exige

que a estrutura registe as sequecircncias a que cada sufixo pertence As aacutervores de sufixos fazem

uso de um siacutembolo terminador ($) para assinalar o fim de cada sufixo

A Figura 33 eacute um exemplo de uma aacutervore de sufixos generalizada

Figura 33 - Aacutervore de sufixos generalizada para as sequecircncias

TACTA$ (sequecircncia 1) e CACTCA$ (sequecircncia 2)

A extracccedilatildeo de motivos eacute feita atraveacutes da travessia em profundidade-primeiro de uma aacutervore

lexicograacutefica virtual de modo a garantir que se explora o espaccedilo de todos os modelos

possiacuteveis Esta travessia da aacutervore lexicograacutefica eacute acompanhada da exploraccedilatildeo da aacutervore de

sufixos generalizada de forma a obter todos os sufixos a distacircncia de Hamming natildeo superior a

e1 do modelo em consideraccedilatildeo Assim para cada noacute da aacutervore virtual eacute verificado o quoacuterum

do modelo correspondente contabilizando para tanto o nuacutemero de sequecircncias diferentes que

participam com sufixos a distacircncia de Hamming natildeo superior a e do modelo

1 O valor desta distacircncia depende do nuacutemero de erros admitidos na extracccedilatildeo de motivos e corresponde a um dos

paracircmetros do algoritmo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 10

A extracccedilatildeo de motivos estruturados eacute feita de forma semelhante correspondendo a muacuteltiplas

procuras de modelos simples que constituem cada parte do modelo estruturado A transiccedilatildeo

entre partes ilustrada pela Figura 34 corresponde a um salto na aacutervore de sufixos com tantos

niacuteveis de profundidade adicionais quanto a distacircncia especificada entre cada parte

Uma descriccedilatildeo pormenorizada do algoritmo encontra-se em [4] e [5]

Figura 34 Esquema da procura de motivos estruturados usando uma aacutervore de

sufixos

Este algoritmo exacto gera todos os possiacuteveis motivos dentro dos paracircmetros especificados

Daqui resulta geralmente um nuacutemero demasiado grande de motivos sendo necessaacuterio

discriminar quais os verdadeiros binding sites Como meacutetodo de avaliaccedilatildeo o SMILE utiliza

um teste estatiacutestico que eacute descrito na Secccedilatildeo 41

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 11

32 Gerador de dados sinteacuteticos

A anaacutelise da eficaacutecia e eficiecircncia do algoritmo de extracccedilatildeo de motivos exige a utilizaccedilatildeo de

dados sobre os quais tenhamos agrave partida algum conhecimento Para tal foi desenvolvido um

gerador de dados sinteacuteticos

O gerador de dados sinteacuteticos permite por um lado evitar a necessidade de dispor de

conjuntos de dados reais e por outro ter um maior controlo sobre os motivos que estatildeo

realmente presentes nos dados

O gerador permite especificar o nuacutemero e o tamanho das sequecircncias do conjunto de dados

bem como os motivos a inserir Os motivos satildeo especificados pela sua sequecircncia de

nucleoacutetidos posiccedilatildeo na sequecircncia e frequecircncia de ocorrecircncia Os motivos podem ser simples

ou estruturados A Figura 35 representa um exemplo de um ficheiro de especificaccedilatildeo

Frequecircncia

Posiccedilatildeo

Sequecircncia Posiccedilatildeo

Sequecircncia

02 09 TGCTTTTTAAT

28 TCGA

03 02 AGTACATCGA

02 12 TGCGCA

Figura 35 Exemplo de um ficheiro de especificaccedilatildeo para a geraccedilatildeo de dados

sinteacuteticos

No exemplo apresentado satildeo especificados trecircs motivos (um motivo estruturado e dois

motivos simples) A primeira coluna (Frequecircncia) indica a percentagem de sequecircncias em que

o motivo deveraacute ocorrer Em particular para esta especificaccedilatildeo o primeiro motivo deveraacute

ocorrer em 20 das sequecircncias As restantes colunas especificam a posiccedilatildeo e a sequecircncia de

nucleoacutetidos de cada parte do motivo O nuacutemero e o tamanho das sequecircncias a gerar satildeo

especificados na linha de comandos do gerador

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 12

O gerador verifica a especificaccedilatildeo de modo a testar se eacute possiacutevel gerar um conjunto de dados

com as caracteriacutesticas indicadas Em particular eacute necessaacuterio que no caso das frequecircncias

especificadas somarem mais do que 1 alguns dos motivos sejam sobreponiacuteveis uma vez que o

gerador garante o cumprimento exacto da frequecircncia de ocorrecircncia especificada para cada

motivo

O processo de geraccedilatildeo do conjunto de dados envolve duas fases Numa primeira fase eacute gerado

um conjunto de dados aleatoacuterios em que a ocorrecircncia de cada nucleoacutetido eacute equiprovaacutevel Para

gerar aleatoriamente nucleoacutetidos eacute usada uma variaccedilatildeo do algoritmo ran2 [6]

Numa segunda fase satildeo inseridos os motivos especificados em tantas sequecircncias quanto as

necessaacuterias para perfazer a frequecircncia indicada As sequecircncias seleccionadas para a inserccedilatildeo

de motivos satildeo igualmente escolhidas de forma aleatoacuteria

O recurso a dados sinteacuteticos permite afastar a possibilidade de motivos bem classificados

corresponderem a consensos ainda natildeo identificados por via experimental como pode

acontecer quando se analisam conjuntos de dados reais No entanto eacute necessaacuterio termos

presentes as limitaccedilotildees da actual abordagem Em particular sabemos que a geraccedilatildeo

equiprovaacutevel de nucleoacutetidos estaacute em desacordo com a estatiacutestica tiacutepica da regiatildeo promotora

onde satildeo mais comuns A s e T s do que G s e C s Do mesmo modo podem existir outras

correlaccedilotildees de ordem superior designadamente uma preferecircncia por certos diacutemeros ou

triacutemeros em detrimento de outros Esta limitaccedilatildeo eacute ilustrada pelo facto de os resultados

obtidos com dados sinteacuteticos serem geralmente melhores do que os obtidos com dados reais

As causas e consequecircncias desta observaccedilatildeo seratildeo discutidas nas secccedilotildees seguintes

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 13

4 Anaacutelise Estatiacutestica

41 Teste do 2

Como jaacute foi referido o SMILE em geral extrai um elevado nuacutemero de modelos Para isolar

motivos relevantes eacute usado um teste estatiacutestico de modo a atribuir uma significacircncia estatiacutestica

a cada modelo extraiacutedo

O meacutetodo de avaliaccedilatildeo utilizado consiste em aplicar o teste do 2 com um grau de liberdade

O objectivo eacute determinar a probabilidade de obtermos motivos observados em sequecircncias

aleatoacuterias que preservam os k-mers2 das sequecircncias originais Assim pretende-se perceber se

a ocorrecircncia do motivo se deve agrave frequecircncia de k-mers presentes na sequecircncia aleatoacuteria tendo

portanto uma baixa significacircncia estatiacutestica ou se eacute verificada a situaccedilatildeo oposta ou seja

elevada significacircncia estatiacutestica Estes uacuteltimos satildeo considerados pelo algoritmo como os que

apresentam maior potencial de serem verdadeiros binding sites Para tal o SMILE permite a

realizaccedilatildeo de dois tipos alternativos de teste um quanto ao nuacutemero de sequecircncias em que o

motivo ocorre (quoacuterum) e outro em relaccedilatildeo agrave abundacircncia do motivo no conjunto de dados

Para aplicar o teste do 2 procedemos agrave construccedilatildeo de uma tabela de contingecircncia com 4

entradas (Tabela 41)

Dados Originais Dados Aleatoacuterios

Presenccedila Porig Prandom

Ausecircncia Aorig Arandom

Tabela 41 Tabela de contingecircncia para o caacutelculo do 2

2 Sequecircncias de nucleoacutetidos de tamanho k

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 14

As colunas da tabela referem-se agraves duas amostras em anaacutelise ou seja o conjunto de dados

original e as sequecircncias aleatoacuterias geradas As linhas da tabela referem-se agraves duas classes de

contagens Caso consideremos o teste quanto ao quoacuterum a classe Presenccedila diz respeito ao

nuacutemero de sequecircncias em que o motivo ocorre e a classe Ausecircncia refere-se ao nuacutemero de

sequecircncias em que o motivo natildeo ocorre Caso se trate do teste relativo agrave abundacircncia a

primeira classe refere-se ao nuacutemero de ocorrecircncias do motivo no conjunto de dados e a

segunda ao nuacutemero de natildeo ocorrecircncias do motivo em relaccedilatildeo ao nuacutemero de oportunidades de

ocorrecircncia Considera-se como nuacutemero de oportunidades de ocorrecircncia o tamanho do

conjunto de dados Esta tabela seraacute usada agora para fazer um teste de homogeneidade de

proporccedilotildees

Para calcular a significacircncia estatiacutestica basta usar a expressatildeo do 2 correspondente agrave equaccedilatildeo

(41) onde ijO diz respeito ao valor observado para a entrada (ij) da tabela e ijE se refere ao

correspondente valor esperado

21

22 )(

ji ij

ijij

E

OE

(41)

O valor esperado para cada entrada da tabela eacute dado pela expressatildeo (42) ou seja o valor

esperado para a entrada (ij) da tabela eacute igual ao produto do total da linha i pelo total da linha

j divido pela soma de todos os elementos da tabela

21

2121

lkkl

kkj

kik

ij O

OO

E (42)

Nas condiccedilotildees desta tabela de contingecircncia eacute possiacutevel utilizar uma forma expedita de caacutelculo

que consiste na aplicaccedilatildeo da expressatildeo (43)

))()()((

)()( 22

origorigrandomrandomrandomorigrandomorig

randomorigrandomorigorigrandomrandomorig

APAPAAPP

AAPPAPAP

(43)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 15

A hipoacutetese nula que consideramos neste teste estatiacutestico refere-se agrave possibilidade de os

motivos terem sido gerados por sequecircncias aleatoacuterias sob certas restriccedilotildees Isto eacute assumimos

que as contagens obtidas para os motivos nas sequecircncias originais satildeo semelhantes agraves que

obteriacuteamos em sequecircncias aleatoacuterias com as mesmas frequecircncias de k-mers Valores altos de

significacircncia estatiacutestica implicam a rejeiccedilatildeo da hipoacutetese nula

Um importante problema prende-se com a validade da aplicaccedilatildeo do teste do 2 O SMILE em

particular apresenta para cada motivo uma medida da sua significacircncia estatiacutestica No

entanto o verdadeiro interesse reside na determinaccedilatildeo da significacircncia bioloacutegica dos motivos

encontrados O que estaacute em causa eacute perceber se um motivo eacute um potencial binding site Eacute

necessaacuterio testar este meacutetodo em dados reais com consensos conhecidos para se perceber se a

significacircncia estatiacutestica apresenta uma elevada correlaccedilatildeo com a significacircncia bioloacutegica

No Capiacutetulo 6 apresentamos uma discussatildeo acerca da adequaccedilatildeo do teste do 2 para a afericcedilatildeo

da significacircncia bioloacutegica dos motivos extraiacutedos pelo SMILE

42 Meacutetodo de Shuffling

Como jaacute foi referido para efectuar o caacutelculo da significacircncia estatiacutestica o SMILE recorre agrave

geraccedilatildeo de sequecircncias aleatoacuterias com certas restriccedilotildees baseadas na estatiacutestica dos dados

originais Para o efeito eacute usado um algoritmo de data shuffling [78]

O meacutetodo de shuffling permite obter um conjunto de dados aleatoacuterio com base num conjunto

de dados original garantindo a preservaccedilatildeo exacta das frequecircncias de k-mers para um dado k

O meacutetodo de geraccedilatildeo pode ser visto como um passeio aleatoacuterio sobre um multi-grafo onde os

noacutes satildeo todas as subsequecircncias de tamanho k-1 presentes na sequecircncia original e cada aresta

corresponde a uma transiccedilatildeo entre (k-1)-mers verificada nos dados No caso de k igual a 1 natildeo

eacute gerado um multi-grafo sendo feita apenas uma reordenaccedilatildeo aleatoacuteria dos nucleoacutetidos de

cada sequecircncia

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 16

A Figura 41 ilustra um exemplo de um multi-grafo gerado a partir da sequecircncia

ATTATTTATT bem como um caminho no grafo que gera a sequecircncia alternativa

TATTATTTAT

Figura 41 Multi-grafo gerado pela sequecircncia ATTATTTATT para k=4 com 2

passeios aleatoacuterios

Para que cada sequecircncia gerada seja vaacutelida eacute necessaacuterio que tenha o mesmo tamanho que a

sequecircncia original Sendo assim eacute faacutecil perceber que apenas os caminhos eulerianos garantem

a geraccedilatildeo de uma sequecircncia com estas caracteriacutesticas No SMILE este processo eacute repetido

para cada sequecircncia isoladamente

Para garantir a fiabilidade dos resultados obtidos eacute efectuado um nuacutemero elevado de

simulaccedilotildees donde satildeo extraiacutedos os valores meacutedios do quoacuterum ou da abundacircncia de cada

motivo a partir dos quais eacute calculada a significacircncia estatiacutestica no sentido do teste do 2

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 17

A Figura 42 mostra um histograma com os resultados obtidos em 100 simulaccedilotildees para um

motivo extraiacutedo do conjunto de dados da Helicobater pylori3 onde foram preservadas as

frequecircncias relativas de nucleoacutetidos (k=1) Este conjunto de dados eacute constituiacutedo por 308

sequecircncias com comprimentos que variam entre 40 e 300 nucleoacutetidos Foi efectuada uma

procura de motivos simples com tamanhos natildeo inferiores a 6 Foi admitido 1 erro e foi

exigido um quoacuterum de 6

O histograma indica a percentagem de simulaccedilotildees em que o motivo em consideraccedilatildeo ocorre

num determinado nuacutemero de sequecircncias Em particular no exemplo da Figura 42 o motivo

TTTTAA ocorre num nuacutemero de sequecircncias entre 282 e 284 em 13 das simulaccedilotildees

A seta a negro refere-se ao nuacutemero de ocorrecircncias do motivo observadas no conjunto de dados

original Quanto mais afastada estiver a seta do maacuteximo da curva maior seraacute a significacircncia

estatiacutestica Neste caso foi atribuiacuteda uma significacircncia de 593 ao motivo TTTTAA

Figura 42 Histograma das ocorrecircncias observadas do motivo TTTTAA em 100

simulaccedilotildees de shuffling do conjunto de dados da H pylori

3 Organismo procariota

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 18

O meacutetodo de data shuffling pode ser pesado do ponto de vista computacional e representa

uma grande restriccedilatildeo no desempenho da avaliaccedilatildeo de motivos Em particular a necessidade

de pesquisar todos os motivos extraiacutedos em cada conjunto de dados aleatoacuterio gerado constitui

uma seacuterio entrave ao bom desempenho deste meacutetodo

Devido aos referidos problemas de desempenho opta-se geralmente por fazer um nuacutemero de

simulaccedilotildees com geraccedilatildeo de sequecircncias aleatoacuterias inferior ao estatisticamente aconselhado o

que pode ter impacto nos resultados

Outra questatildeo pertinente coloca-se ainda quanto agrave preservaccedilatildeo dos k-mers Uma vez que o

shuffling eacute feito sobre cada sequecircncia do conjunto de dados valores elevados de k impotildeem

restriccedilotildees severas agrave variabilidade dos conjuntos de dados aleatoacuterios gerados Assim para estes

valores o teste estatiacutestico eacute inuacutetil uma vez que os conjuntos de dados gerados satildeo

praticamente iguais ao conjunto de dados original Em particular quando o tamanho dos

k-mers a preservar eacute igual ou superior ao tamanho de um motivo as suas ocorrecircncias satildeo

estritamente conservadas no conjunto de dados aleatoacuterio levando a que o valor da

significacircncia seja 0 A Figura 43 ilustra o facto de a significacircncia estatiacutestica tender

inevitavelmente para zero agrave medida que o valor de k aumenta Os valores do graacutefico foram

igualmente obtidos a partir do conjunto de dados da H pylori descrito anteriormente

Figura 43 Graacutefico da evoluccedilatildeo da significacircncia estatiacutestica com o aumento do valor

de k para um motivo de tamanho 8 extraiacutedo do conjunto de dados da H pylori

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 19

43 Meacutetodo Analiacutetico

Nesta Secccedilatildeo propotildee-se um meacutetodo analiacutetico que tem por objectivo resolver alguns dos

problemas do meacutetodo de shuffling descrito na Secccedilatildeo anterior designadamente o fraco

desempenho computacional e as excessivas restriccedilotildees devidas agrave conservaccedilatildeo estrita das

frequecircncias dos k-mers Assim pretende-se obter um meacutetodo computacionalmente eficiente

para avaliar a relevacircncia de motivos extraiacutedos pelo SMILE

Com este meacutetodo comeccedila-se por abstrair um modelo de Markov a partir do conjunto de dados

em estudo Os estados do modelo de Markov correspondem a todos os (k-1)-mers presentes no

conjunto de dados sendo a probabilidade inicial de cada estado a frequecircncia relativa

observada do (k-1)-mer correspondente

A probabilidade de transiccedilatildeo entre estados corresponde agrave razatildeo entre o nuacutemero de vezes que o

(k-1)-mer referente ao estado de destino sucede ao (k-1)-mer referente ao estado de origem

nos dados e o nuacutemero de vezes que o (k-1)-mer correspondente ao estado de origem precede

qualquer outro (k-1)-mer nas sequecircncias em anaacutelise A Figura 45 apresenta um modelo de

Markov abstraiacutedo a partir do conjunto de dados referido na Figura 44

Figura 44 Conjunto de dados exemplo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 20

CA

TC

AT

TA

TT

101

51

52

101

51

Figura 45

Exemplo de uma cadeia de Markov para k=3

Cada motivo em anaacutelise eacute processado de forma a calcular a probabilidade do motivo ser

gerado pelo modelo de Markov abstraiacutedo

Esta probabilidade eacute calculada como o produto da probabilidade do estado inicial pela

probabilidade de todas as transiccedilotildees necessaacuterias para compor o motivo Em (44) (45) e (46)

apresenta-se o calculo desta probabilidade para o motivo ATTATT segundo a cadeia de

Markov da Figura 45

)()()()()()( TTATpATTApTATTpTTATpATpATTATTp

(44)

2

111

2

1

5

2)(ATTATTp (45)

10

1)(ATTATTp (46)

No caso em que k eacute igual 1 natildeo eacute construiacuteda uma cadeia de Markov sendo a probabilidade de

ocorrecircncia do motivo o produto das frequecircncias relativas no conjunto de dados dos

nucleoacutetidos que o compotildeem

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 21

Caso sejam admitidos e erros basta considerar a soma das probabilidades de todos motivos a

uma distacircncia de Hamming natildeo superior a e ao inveacutes de se considerar apenas a probabilidade

do motivo em anaacutelise

A probabilidade assim calculada seraacute usada para determinar as entradas referentes a dados

aleatoacuterios na tabela de contingecircncia descrita na Secccedilatildeo 41 para o teste relativo agrave abundacircncia

A determinaccedilatildeo das entradas na tabela quando consideramos o teste relativo ao quoacuterum de um

motivo eacute consideravelmente mais complexa pelo que natildeo a abordaremos neste texto

Assim as entradas randomP e randomA satildeo calculadas da forma indicada em (47) e (48)

respectivamente

))1)((()( nseqsmlenmotiflenseqsnseqskmpP Markovrandom

(47)

randomrandom PlenseqsnseqsA

(48)

Nas expressotildees (47) e (48)

)( kmpMarkov refere-se agrave probabilidade calculada para o motivo m a partir de uma cadeia

de Markov extraiacuteda do conjunto de dados para um dado k

nseqs designa o nuacutemero de sequecircncias do conjunto de dados

lseqs designa o comprimento meacutedio das sequecircncias do conjunto de dados

lenmotif(m) designa o tamanho do motivo m

Agrave semelhanccedila do SMILE no caacutelculo de randomA consideramos como nuacutemero de

oportunidades de ocorrecircncia o tamanho do conjunto de dados

Este meacutetodo apresenta um desempenho computacional significativamente melhor que o

meacutetodo baseado em shuffling uma vez que natildeo necessita de efectuar vaacuterias simulaccedilotildees tendo

apenas de processar o conjunto de dados por uma uacutenica vez O caacutelculo da significacircncia

estatiacutestica de cada motivo eacute linear em relaccedilatildeo ao seu comprimento

Por outro lado o meacutetodo analiacutetico natildeo enferma das mesmas limitaccedilotildees do que o teste

estatiacutestico baseado em simulaccedilotildees permitindo o caacutelculo de significacircncia estatiacutestica para

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 22

valores elevados de k Ao considerar a estatiacutestica de todo o conjunto de dados ao inveacutes de

cada sequecircncia isoladamente este meacutetodo pode tambeacutem agrave partida modelar melhor os dados

Resta acrescentar que o meacutetodo descrito nesta Secccedilatildeo soacute permite obter significacircncias

estatiacutesticas para motivos simples A realizaccedilatildeo de caacutelculos para motivos estruturados eacute

consideravelmente mais complexa e natildeo foi abordada neste trabalho

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 23

5 Geraccedilatildeo de coacutedigo IUPAC

A realizaccedilatildeo eficiente de pesquisas de consensos em bases de dados bioloacutegicas requer uma

representaccedilatildeo compacta dos dados armazenados Neste contexto a possibilidade de

representar consensos em coacutedigo IUPAC assume uma importacircncia fundamental

O coacutedigo IUPAC eacute uma extensatildeo sobre a representaccedilatildeo de sequecircncias de DNA Uma

sequecircncia de DNA eacute constituiacuteda por nucleoacutetidos A codificaccedilatildeo IUPAC introduz siacutembolos que

representam um conjunto de possiacuteveis nucleoacutetidos para uma dada posiccedilatildeo permitindo uma

representaccedilatildeo de sequecircncias degeneradas Por exemplo uma purina (A ou G) eacute representada

pela letra R A descriccedilatildeo completa dos coacutedigos IUPAC encontra-se na Tabela 51

Coacutedigo Descriccedilatildeo A Adenina

C Citosina

G Guanina

T Timina

U Uracilo

R Purina (A ou G)

Y Pirimidina (C T ou U)

M C ou A

K T U ou G

W T U ou A

S C ou G

B C T U ou G (natildeo A)

D A T U ou G (natildeo C)

H A T U ou C (natildeo G)

V A C ou G (natildeo T natildeo U)

N Qualquer base (A C G T ou U)

Tabela 51 Coacutedigo IUPAC

A conversatildeo de um conjunto de sequecircncias de DNA para um conjunto de sequecircncias IUPAC

natildeo eacute uma tarefa trivial Para um dado conjunto de sequecircncias existem diversas codificaccedilotildees

IUPAC possiacuteveis

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 24

O problema da geraccedilatildeo de coacutedigo IUPAC consiste em encontrar o conjunto miacutenimo de

sequecircncias IUPAC que representem um dado conjunto de sequecircncias DNA

Como o objectivo proposto eacute a compressatildeo da representaccedilatildeo das sequecircncias de nucleoacutetidos eacute

desejaacutevel que a codificaccedilatildeo IUPAC seja a mais compacta possiacutevel

A abordagem utilizada foi a de reduzir o problema da compressatildeo IUPAC a um problema

conhecido a minimizaccedilatildeo de expressotildees loacutegicas multi-valor

Uma expressatildeo loacutegica multi-valor eacute uma expressatildeo loacutegica onde figuram variaacuteveis multi-valor

ou seja variaacuteveis que necessitam de mais do que um bit para serem representadas

Para representar um siacutembolo IUPAC eacute utilizada uma variaacutevel multi-valor de 4 bits Os

siacutembolos e as respectivas representaccedilotildees estatildeo na Tabela 52

Siacutembolo

IUPAC

Codificaccedilatildeo

binaacuteria

A 1000

T 0100

C 0010

G 0001

R 1001

Y 0110

S 0011

W 1100

K 0101

M 1010

B 0111

D 1101

H 1110

V 1011

N 1111

Espaccedilo 0000

Tabela 52

Codificaccedilatildeo binaacuteria dos siacutembolos IUPAC

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 25

Uma sequecircncia de nucleoacutetidos ou IUPAC eacute construiacuteda atraveacutes de um produto de termos

sendo cada termo uma variaacutevel multi-valor que representa um siacutembolo da sequecircncia Por

exemplo a sequecircncia WTA eacute representada pela expressatildeo loacutegica (1100) (0100) (1000)

Agora que foi estabelecida uma representaccedilatildeo para sequecircncias IUPAC atraveacutes de expressotildees

loacutegicas multi-valor resta perceber como da minimizaccedilatildeo destas expressotildees pode resultar o

desejado coacutedigo IUPAC

Em (51) temos um exemplo simples de minimizaccedilatildeo loacutegica

ZXZYXZYX

(51)

Eacute faacutecil verificar que X Z eacute uma expressatildeo equivalente O que se pretende para a compressatildeo

IUPAC eacute algo semelhante

Por exemplo a partir das sequecircncias ATA e TTA pretende-se a expressatildeo IUPAC WTA A

simplificaccedilatildeo das expressotildees loacutegicas eacute exemplificada sucessivamente em (52) (53) e (54)

A T A + T T A (52)

(1000) (0100) (1000) + (0100) (0100) (1000)

(A ou T) T A (53)

((1000)+(0100)) (0100) (1000)

W T A (54)

(1100) (0100) (1000)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 26

Eacute faacutecil perceber atendendo agrave escolha criteriosa da codificaccedilatildeo que da minimizaccedilatildeo de

expressotildees loacutegicas que representam sequecircncias de nucleoacutetidos resultam expressotildees loacutegicas

que representam uma codificaccedilatildeo IUPAC das sequecircncias originais

O problema inicial encontra-se agora reduzido a um problema de minimizaccedilatildeo de expressotildees

loacutegicas Este problema jaacute estaacute resolvido na aacuterea da siacutentese loacutegica Um dos programas mais

conhecidos desenvolvido para a resoluccedilatildeo deste problema eacute o programa Espresso [9] Apesar

de ser utilizado neste contexto como uma caixa preta eacute importante perceber o seu

funcionamento

No Espresso as expressotildees loacutegicas satildeo representadas num espaccedilo booleano multi-

dimensional Um exemplo eacute um espaccedilo tridimensional onde podem ser representadas

sequecircncias de tamanho 3 tal como estaacute ilustrado na Figura 51

Figura 51

Representaccedilatildeo das sequecircncias ATA (1) e TTA (2)

Neste contexto um cubo define-se como a representaccedilatildeo espacial de um produto de termos

Ou seja para o problema em questatildeo cada sequecircncia de entrada eacute um cubo e uma cobertura

corresponde a um conjunto de cubos que engloba todos os veacutertices representados no espaccedilo

Pode observar-se que a dimensatildeo do espaccedilo encontra-se directamente relacionada com o

tamanho da sequecircncia que se pretende representar Para efectuar a minimizaccedilatildeo o Espresso

procura uma cobertura miacutenima que daraacute origem ao conjunto de sequecircncias IUPAC de saiacuteda

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 27

No caso do espaccedilo da Figura 51 existe uma cobertura miacutenima constituiacuteda por um uacutenico cubo

A Figura 52 ilustra a referida cobertura

Figura 52 Representaccedilatildeo da cobertura WTA (1)

Da cobertura resulta a codificaccedilatildeo IUPAC das sequecircncias iniciais

O processo para descobrir a cobertura miacutenima eacute complexo sendo composto por um conjunto

intrincado de passos Inicialmente o conjunto de cubos originais eacute expandido de forma a

englobar o maior nuacutemero de veacutertices adjacentes De seguida os cubos redundantes satildeo

removidos e os restantes satildeo reduzidos para que cubram apenas os cubos iniciais Um cubo eacute

considerado redundante se natildeo cobrir nenhum veacutertice que natildeo esteja jaacute coberto por outro

cubo Deste processo resulta uma reduccedilatildeo contiacutenua do nuacutemero de cubos necessaacuterios para a

cobertura O processo eacute reiterado ateacute natildeo se verificarem melhorias substanciais na dimensatildeo

da cobertura obtida

Este processo eacute guiado por heuriacutesticas e eacute possiacutevel demonstrar que produz resultados

proacuteximos da soluccedilatildeo oacuteptima O processo estaacute detalhadamente descrito em [910]

De modo a automatizar o processo de codificaccedilatildeo das sequecircncias de nucleoacutetidos e

descodificaccedilatildeo das sequecircncias IUPAC foi desenvolvida uma interface para o Espresso

Assim as sequecircncias de entrada satildeo transformadas em expressotildees loacutegicas (formato binaacuterio)

seguindo a correspondecircncia referida na Tabela 52 Do mesmo modo a representaccedilatildeo da

cobertura miacutenima obtida pelo Espresso eacute descodificada e traduzida para sequecircncias IUPAC

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 28

O funcionamento da interface foi testado com recurso a um gerador aleatoacuterio de sequecircncias de

nucleoacutetidos e a um verificador O gerador produz um conjunto de sequecircncias obtidas a partir

de uma sequecircncia inicial de nucleoacutetidos O conjunto de sequecircncias gerado corresponde a

vaacuterias substituiccedilotildees aleatoacuterias na sequecircncia inicial e constitui o conjunto de entrada que vai

ser lido pela ferramenta Espresso O verificador recebe o conjunto de sequecircncias de entrada e

o resultado da operaccedilatildeo de minimizaccedilatildeo do Espresso sob a forma de sequecircncias de coacutedigos

IUPAC Deste modo ao expandir as sequecircncias IUPAC obtidas pelo Espresso atraveacutes de

uma operaccedilatildeo trivial de substituiccedilotildees sucessivas eacute possiacutevel testar a completude e adequaccedilatildeo

da representaccedilatildeo Assim diz-se que a representaccedilatildeo eacute completa se a expansatildeo incluir todas as

sequecircncias de entrada por outro lado diz-se que a representaccedilatildeo eacute adequada se natildeo incluir

nenhuma sequecircncia que natildeo esteja no conjunto inicial

Depois de verificada a completude e adequaccedilatildeo das representaccedilotildees obtidas foram feitos testes

com dados reais de modo a poder aferir o grau de compressatildeo das sequecircncias introduzidas

Assim o Espresso foi executado tendo como conjunto de entrada sequecircncias devidamente

codificadas obtidas atraveacutes de uma execuccedilatildeo do SMILE

As taxas de compressatildeo obtidas variam entre 278 e 715

O gerador de coacutedigo IUPAC encontra-se neste momento integrado na base de dados Dbyeast

[11] disponibilizando publicamente o serviccedilo de codificaccedilatildeo A Figura 53 eacute uma imagem da

interface que permite que os utilizadores da Dbyeast obtenham coacutedigo IUPAC a partir de

sequecircncias de DNA

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 29

Figura 53 Interface para geraccedilatildeo de coacutedigo IUPAC integrada na Dbyeast

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 30

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 31

6 Resultados e Conclusotildees

Neste Capiacutetulo iremos analisar os resultados obtidos tanto para dados sinteacuteticos como para

dados reais Para tal iremos comparar os valores de significacircncia estatiacutestica obtidos para os

dois tipos de dados usando tanto o meacutetodo de shuffling como o meacutetodo analiacutetico Para efectuar

esta comparaccedilatildeo eacute uacutetil referirmo-nos agrave posiccedilatildeo obtida pelos motivos em anaacutelise numa lista

ordenada por valores decrescentes de significacircncia estatiacutestica Assim sempre que

mencionarmos o valor da posiccedilatildeo de um motivo estaremos a referir-nos agrave posiccedilatildeo numa lista

assim definida

61 Resultados Obtidos com Dados Sinteacuteticos

Como jaacute foi referido a utilizaccedilatildeo de dados sinteacuteticos permite um maior controlo sobre os

motivos que estatildeo efectivamente presentes no conjunto de dados Assim iremos referir-nos

aos motivos que foram introduzidos no conjunto de dados gerado por motivos especificados

em oposiccedilatildeo aos outros motivos igualmente extraiacutedos pelo SMILE que designaremos por

motivos natildeo-especificados Nesta Secccedilatildeo iremos considerar o teste de significacircncia estatiacutestica

relativo agrave abundacircncia de forma a podermos comparar os resultados obtidos com o meacutetodo

shuffling e com o meacutetodo analiacutetico

611 Resultados do teste do 2 com o meacutetodo shuffling

Ao especificar um conjunto de dados com os mesmos motivos que estatildeo presentemente

descritos para a H pylori obtivemos para motivos simples os resultados apresentados nas

Figuras 61 e 62 O conjunto de dados sinteacutetico conteacutem 308 sequecircncias de comprimento 167

Foi efectuada uma procura de motivos simples com tamanhos compreendidos entre 6 e 8

nucleoacutetidos Natildeo foram admitidos erros e foi exigido um quoacuterum de 6 Os motivos

especificados encontram-se representados a ponteado Os restantes motivos correspondem a

motivos natildeo-especificados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 32

Figura 61 Significacircncia estatiacutestica para motivos simples de tamanho 6

Figura 62 Significacircncia estatiacutestica para motivos simples de tamanho 7

Os graacuteficos natildeo satildeo no entanto suficientes para nos dar a percepccedilatildeo da correcta classificaccedilatildeo

dos motivos uma vez que natildeo eacute possiacutevel fazer representar no graacutefico os 172 motivos

extraiacutedos A Tabela 61 indica as posiccedilotildees ocupadas pelos motivos especificados em relaccedilatildeo agrave

totalidade dos modelos para vaacuterios valores de k

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 33

TTTAAG TTTTAA TATAAT TATAATA

k=1 5 4 1 2

k=2 6 4 1 2

k=3 6 4 2 1

k=4 6 5 2 1

k=5 78 7 5 1

Tabela 61 Posiccedilotildees dos motivos especificados

Em geral os motivos especificados aparecem melhor classificados para um baixo valor de k

Agrave medida que se consideram valores de k crescentes a significacircncia estatiacutestica de todos os

motivos aproxima-se de zero pelas razotildees jaacute apontadas na Secccedilatildeo 42

Eacute comum observar-se a presenccedila de motivos natildeo-especificados com niacuteveis de significacircncia

elevados especialmente se atendermos agraves posiccedilotildees da Tabela 61

Contudo estes bons resultados natildeo se mantecircm se forem admitidos erros na procura Neste

caso embora os motivos mantenham em geral elevadas significacircncias entram em

competiccedilatildeo com os motivos a distacircncia de Hamming natildeo superior ao nuacutemero de erros

admitido Assim eacute comum observar-se uma descida significativa na tabela de posiccedilotildees

Para motivos estruturados os resultados satildeo favoraacuteveis mesmo admitindo erros como eacute

ilustrado pelo graacutefico da Figura 63 em conjugaccedilatildeo com os valores de posiccedilatildeo apresentados na

Tabela 62

Neste exemplo efectuou-se uma procura por motivos estruturados compostos por duas partes

com tamanhos entre 6 e 7 com uma distacircncia entre si variando entre 21 e 23 nucleoacutetidos

Admitiu-se 1 erro em cada parte do motivo mas apenas 1 erro na totalidade do motivo

estruturado e exigiu-se um quoacuterum de 6 Foram extraiacutedos 53 motivos O motivo

especificado encontra-se a ponteado

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 34

Figura 63 Significacircncia estatiacutestica para modelos estruturados em dados sinteacuteticos

TTTAAG_TATAAT

k=1 4

k=2 4

k=3 17

k=4 63

k=5 162

Tabela 62 Posiccedilotildees do motivo estruturado especificado

Neste exemplo foi necessaacuterio admitir a existecircncia de erros para que o motivo fosse encontrado

pelo SMILE Natildeo existem motivos sem erros que cumpram as condiccedilotildees de procura

Esta boa prestaccedilatildeo dos motivos estruturados estaacute relacionada com o facto de o shuffling

raramente preservar as distacircncias relativas de cada uma das partes que constituem o motivo

fazendo com que estes ocorram poucas vezes nas simulaccedilotildees Assim neste exemplo o motivo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 35

estruturado especificado aparece claramente destacado Estes resultados parecem sugerir que a

utilizaccedilatildeo deste teste estatiacutestico se adequa agrave avaliaccedilatildeo de modelos estruturados No entanto

nem todos os promotores exibem esta estrutura sendo necessaacuterio um meacutetodo mais geral para

fazer esta avaliaccedilatildeo

Como veremos em seguida os resultados aparentemente animadores mesmo para motivos

simples natildeo se verificam quando analisamos dados reais Esta evidecircncia estaacute relacionada com

o facto de o gerador de dados sinteacuteticos gerar dados aleatoacuterios com equiprobabilidade de

nucleoacutetidos Nos dados reais isto natildeo se verifica existindo normalmente uma clara

abundacircncia de A s e T s na regiatildeo promotora Do mesmo modo cada conjunto de dados exibe

preferecircncia por certos diacutemeros ou triacutemeros que ocorrem com muito mais frequecircncia que

outros

Esta limitaccedilatildeo podia ser mitigada pela incorporaccedilatildeo destas correlaccedilotildees na geraccedilatildeo de dados

sinteacuteticos Mas embora seja relativamente simples estabelecer uma preferecircncia por certos

nucleoacutetidos a geraccedilatildeo natildeo-equiprovaacutevel de k-mers geneacutericos constitui soacute por si um problema

complexo pelo que natildeo foi abordado neste trabalho

612 Resultados do teste do 2 com o meacutetodo analiacutetico

Os dados sinteacuteticos foram igualmente analisados recorrendo ao meacutetodo analiacutetico que como jaacute

foi referido tem a vantagem de ser mais eficiente do ponto de vista computacional e de poder

explorar valores mais elevados de k As Figura 64 e 65 apresentam a evoluccedilatildeo da

significacircncia estatiacutestica dos mesmos motivos considerados nas Figuras 62 e 63 mas

recorrendo ao meacutetodo analiacutetico

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 36

Figura 64 Significacircncia estatiacutestica de motivos simples de tamanho 6 usando o

meacutetodo analiacutetico

Figura 65 Significacircncia estatiacutestica de motivos simples de tamanho 7 usando o

meacutetodo analiacutetico

A Tabela 63 indica as posiccedilotildees dos motivos especificados para a significacircncia estatiacutestica

calculada por via do meacutetodo analiacutetico

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 37

TTTAAG TTTTAA TATAAT TATAATA

k=1 6 4 1 2

k=2 6 4 1 2

k=3 6 3 2 1

k=4 6 3 2 1

k=5 55 3 2 1

Tabela 63 Posiccedilotildees dos modelos especificados

Satildeo oacutebvias as semelhanccedilas entre os resultados apresentados na Tabela 63 e os presentes na

Tabela 61 Isto confirma a possibilidade de usar o meacutetodo analiacutetico como alternativa ao

meacutetodo de shuffling

Sabemos igualmente que no acircmbito do meacutetodo analiacutetico quando k atinge um valor igual ao

comprimento do motivo em anaacutelise a significacircncia estatiacutestica anula-se Isto tem a ver com o

facto de a probabilidade de ocorrecircncia de um k-mer ser muito proacutexima da sua frequecircncia

relativa no conjunto de dados Assim sendo os valores das entradas da tabela de contingecircncia

relativas aos dados aleatoacuterios seratildeo inevitavelmente iguais agraves dos dados reais resultando deste

facto uma significacircncia estatiacutestica nula

Por outro lado agrave medida que o k aumenta os k-mers introduzidos pelos motivos especificados

no conjunto de dados que de resto eacute aleatoacuterio vatildeo fazer com que a cadeia de Markov gerada

faccedila convergir as probabilidades de ocorrecircncia de cada motivo com a sua frequecircncia relativa

efectiva no conjunto de dados Assim assiste-se ao mesmo fenoacutemeno de convergecircncia para

zero da significacircncia estatiacutestica que assinalaacutemos para o meacutetodo shuffling

Pela anaacutelise dos resultados podemos ainda concluir que em geral um valor de k demasiado

pequeno natildeo modela suficientemente bem os dados daqui resulta que alguns motivos natildeo

especificados obtenham melhores classificaccedilotildees que motivos especificados Em suma

deveremos preferir valores de k intermeacutedios

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 38

62 Resultados Obtidos com Dados Reais

Com este teste pretendemos verificar se uma sequecircncia classificada como estatisticamente

relevante tambeacutem pode ser considerada biologicamente relevante

Para fazer o estudo da anaacutelise estatiacutestica em dados reais foram recolhidos 16 conjuntos de

dados com regiotildees promotoras correspondentes a genes da levedura Saccharomyces

cerevisiae que eacute um organismo eucariota Cada conjunto conteacutem aproximadamente 10

sequecircncias As sequecircncias contecircm consensos obtidos por via experimental e descritos na

literatura A descriccedilatildeo completa de cada conjunto de dados pode ser vista no Anexo A

Para cada conjunto de dados foi feita uma procura de motivos de tamanhos variando entre 4 e

11 nucleoacutetidos para valores de quoacuterum de 60 75 80 e 100 Foram permitidos 0 e 1

erros em ensaios sucessivos e fez-se ainda variar o valor de k entre 1 e 4

Foi posteriormente analisada a significacircncia estatiacutestica calculada pelo SMILE no que diz

respeito ao quoacuterum

Os consensos descritos obtiveram boas classificaccedilotildees para algumas das condiccedilotildees testadas

Em particular quando o quoacuterum exigido se encontra proacuteximo da frequecircncia efectiva dos

motivos nos dados e quando natildeo satildeo admitidos erros Os resultados satildeo tambeacutem melhores

para motivos de tamanho superior a 7 Em suma obtecircm-se bons resultados quando as

condiccedilotildees favorecem os motivos com as caracteriacutesticas dos consensos descritos

Estes resultados natildeo satildeo muito animadores porque para os atingir eacute necessaacuterio um

conhecimento preacutevio da frequecircncia e tamanho dos motivos Ao considerar a generalidade dos

ensaios efectuados verifica-se que as classificaccedilotildees satildeo muito baixas com baixas

significacircncias estatiacutesticas e com valores de posiccedilatildeo frequentemente abaixo dos primeiros

1 000 motivos No Anexo A apresentamos os resultados obtidos com estes ensaios

A par desta anaacutelise foi considerada a significacircncia estatiacutestica obtida a respeito da abundacircncia

Deste modo eacute possiacutevel estabelecer uma comparaccedilatildeo directa entre o meacutetodo de shuffling e o

meacutetodo analiacutetico para o caacutelculo desta meacutetrica

De seguida apresentamos os resultados desta anaacutelise

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 39

621 Resultados do teste do 2 com o meacutetodo shuffling

De modo geral os resultados para o teste estatiacutestico referente agrave abundacircncia representam uma

melhoria em relaccedilatildeo ao teste referente ao quoacuterum

Comeccedilamos por apresentar os graacuteficos referentes a um conjunto de dados cujos motivos

permanecem mal classificados isto eacute o motivo eacute biologicamente relevante mas natildeo eacute

considerado estatisticamente relevante O conjunto de dados em causa o MSN4 tem um

motivo muito abundante (CCCCT) condicionando a estatiacutestica dos dados Isto conjugado

com o seu pequeno tamanho (5 nucleoacutetidos) resulta na inevitaacutevel baixa significacircncia

estatiacutestica uma vez que aparece sistematicamente na geraccedilatildeo aleatoacuteria de sequecircncias feita em

cada simulaccedilatildeo As Figuras 66 e 67 ilustram a evoluccedilatildeo da significacircncia estatiacutestica e da

posiccedilatildeo do referido motivo considerando erro 0 e 1 respectivamente para um quoacuterum de

60

Figura 66 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 0 erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 40

Figura 67 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 1 erro

Os resultados da classificaccedilatildeo satildeo claramente maus para um consenso descrito A estranha

subida para k igual a 4 estaacute relacionada com uma pequena flutuaccedilatildeo sem significado uma vez

que estamos a considerar valores de significacircncia estatiacutestica muito baixos A aparente melhor

classificaccedilatildeo quando consideramos erro 0 estaacute relacionada com o facto de que quando natildeo se

admitem erros satildeo consequentemente extraiacutedos menos motivos Em particular com erro 0 satildeo

extraiacutedos 1 316 motivos enquanto que com erro 1 satildeo extraiacutedos 35 258 motivos

De seguida apresentamos os resultados relativos a um outro conjunto de dados (STE12) que

evidencia resultados mais favoraacuteveis para erro 0 As Figuras 68 e 69 apresentam a evoluccedilatildeo

da significacircncia estatiacutestica do motivo descrito (TGAAACA) para 0 e 1 erros

respectivamente com um quoacuterum de 100

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 41

Figura 68 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 0 erros

Figura 69 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 1 erro

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 42

Resta referir que para este conjunto de dados foram extraiacutedos 267 motivos com erro 0 e

7 705 motivos para erro 1

O facto de os motivos serem abundantes em relaccedilatildeo ao nuacutemero de sequecircncias consideradas

faz com que o teste relativo agrave abundacircncia tenha um poder de resoluccedilatildeo consideravelmente

maior do que o teste relativo ao quoacuterum Por esta razatildeo deveremos sempre preferir o primeiro

em casos semelhantes

Por outro lado os resultados obtidos continuam a pocircr em causa a generalidade do meacutetodo uma

vez que eacute difiacutecil identificar as situaccedilotildees em que este produz bons resultados sobretudo quando

somos confrontados com um desconhecimento a priori do conjunto de dados

622 Resultados do teste do 2 com o meacutetodo analiacutetico

Resta-nos comparar os resultados obtidos na subsecccedilatildeo anterior com os obtidos pela via

analiacutetica Nos graacuteficos apresentados nesta subsecccedilatildeo que representam a evoluccedilatildeo da

significacircncia estatiacutestica com o crescimento do tamanho dos k-mers considerados estatildeo

tambeacutem assinaladas as posiccedilotildees ocupadas pelos motivos

As Figuras 610 e 611 apresentam os resultados referentes ao MSN4

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 43

Figura 610 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 0 erros

Figura 611 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 1 erro

Os resultados para o MSN4 natildeo sofrem alteraccedilotildees assinalaacuteveis em relaccedilatildeo ao meacutetodo anterior

Novamente as caracteriacutesticas do conjunto de dados limitam a possibilidade de evidenciar este

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 44

motivo por via deste teste estatiacutestico o que eacute tanto mais grave quanto o facto de este ser um

dos motivos cuja significacircncia bioloacutegica se encontra melhor estabelecida

As Figuras 612 e 613 apresentam os resultados referentes ao conjunto de dados STE12

Figura 612 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 0 erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 45

Figura 613 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 1 erro

Os dados apresentados natildeo evidenciam melhorias assinalaacuteveis em relaccedilatildeo aos resultados

obtidos por via de shuffling excepto a ocorrecircncia de melhorias ocasionais da classificaccedilatildeo

quando natildeo se admitem erros Estas diferenccedilas podem ser atribuiacutedas ao facto de o meacutetodo

analiacutetico natildeo conservar estritamente os k-mers e de analisar o conjunto de dados na sua

totalidade por oposiccedilatildeo ao shuffling que considera cada sequecircncia isoladamente

No Anexo B apresentamos a totalidade dos resultados desta anaacutelise comparativa No Anexo C

eacute apresentada uma listagem dos resultados do caacutelculo do valor de significacircncia para valores de

k ateacute ao tamanho dos consensos descritos

A grande vantagem deste meacutetodo eacute sem duacutevida o incomparaacutevel ganho a niacutevel de

desempenho computacional Para ilustrar esta afirmaccedilatildeo basta dizer que o caacutelculo da

significacircncia estatiacutestica para todos os conjuntos de dados considerados demorou com o

meacutetodo de shuffling mais de 30 horas de processamento O meacutetodo analiacutetico realizou todos os

caacutelculos em menos de 30 minutos

No entanto os resultados voltam a pocircr em causa a adequaccedilatildeo do teste estatiacutestico do 2 para

aferir a significacircncia bioloacutegica pela dificuldade de sintetizar um meacutetodo geneacuterico para

destacar motivos relevantes de entre os extraiacutedos pelo SMILE

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 46

63 Conclusotildees

Ao considerar os resultados apresentados eacute inevitaacutevel concluir que a significacircncia atribuiacuteda

pelo teste estatiacutestico do 2 aos motivos extraiacutedos pelo SMILE natildeo reflecte a sua significacircncia

bioloacutegica

A dificuldade em distinguir motivos relevantes da grande quantidade de motivos extraiacutedos

potildee em causa a utilidade praacutetica do algoritmo na generalidade dos casos

Para aleacutem desta questatildeo outras limitaccedilotildees tecircm sido apontadas por bioacutelogos designadamente

o facto de o algoritmo natildeo conseguir pesquisar motivos na cadeia de DNA inversa onde os

factores de transcriccedilatildeo podem igualmente ligar-se e o facto de a forma como o SMILE

modela a ocorrecircncia de erros nos motivos natildeo ser compatiacutevel com a necessidade de poder

indicar posiccedilotildees especiacuteficas onde erros satildeo admitidos

No entanto o SMILE continua a exibir resultados interessantes para motivos estruturados o

que constitui sem duacutevida a mais-valia fundamental do algoritmo Tudo indica que o meacutetodo

analiacutetico pode ser igualmente adaptado para calcular a significacircncia de motivos estruturados

Parece-nos claro que uma eficaz extracccedilatildeo de motivos relevantes passaraacute necessariamente

pela conjugaccedilatildeo com outros dados para aleacutem da simples sequecircncia de nucleoacutetidos Em

particular a disponibilidade de informaccedilatildeo acerca de co-regulaccedilatildeo de genes poderaacute guiar a

extracccedilatildeo de motivos permitindo exigir um quoacuterum mais alto dada a confianccedila na existecircncia

de factores de transcriccedilatildeo comuns

Por outro lado a utilizaccedilatildeo de modelos probabiliacutesticos em vez de meras colecccedilotildees de motivos

poderaacute ser uma abordagem mais natural para o problema permitindo simultaneamente uma

melhor modelaccedilatildeo da realidade bioloacutegica ao indicar uma probabilidade de ocorrecircncia de cada

nucleoacutetido para uma dada posiccedilatildeo no modelo O nuacutemero de modelos extraiacutedos seria tambeacutem

francamente reduzido uma vez que um uacutenico modelo probabiliacutestico pode representar com

expressividade acrescida um grande nuacutemero de motivos

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 47

7 Referecircncias

[1] A Vanet L Marsan e M F Sagot Promoter sequence and algorithmical methods for

identifying them Research in Microbiology 150 pp 779-799 1999

[2] JD Watson FH Crick Molecular structure of nucleic acids a structure for deoxyribose

nucleic acid Nature Number 4356 1953

[3] T Werner Models for Prediction and Recognition of Eukaryotic Promoters Mammalian

Genome Vol 10 pp 168-175 1999

[4] L Marsan e M F Sagot Algorithms for extracting structured motifs using a suffix tree

with an application to promoter and regulatory site consensus identication Journal of

Computational Biology 7 pp 345-362 2000

[5] L Marsan Infeacuterence de motifs structureacutes algorithmes et outils appliqueacutes agrave la deacutetection de

sites de fixation dans des seacutequences geacutenomiques PhD Thesis Universiteacute de Marne-la-Valleacutee

2002

[6] B Flannery S Teukolsky W Press e W Vetterling Numerical Recipes in C++

Cambridge University Press 2002

[7] S Altschul e B Erickson Significance of Nucleotide Sequence Alignments A method of

Random Sequence Permutation That Preserves Dinucleotide and Codon Usage Molecular

Biology Evolution 2 pp 526-538 1985

[8] D Kandel Y Matias R Unger e P Winkler Shuffling Biological Sequences Discrete

Appl Math 71 pp 171-185 1996

[9] R Rudell e A Sangiovanni-Vincentelli Multiple-Valued Minimization for PLA

Optimization IEEE Transactions on Computer-Aided Design of Integrated Circuits and

Systems Vol CAD-6 Nordm 5 pp 727-751 September 1987

[10] R Brayton G Hachtel C McMullen e A Sangiovanni-Vincentelli Logic Minimization

Algorithms for VLSI Synthesis Kluwer Academic Publishers 1985

[11] P Monteiro Dbyeast [httpdescartesinesc-idpt~ptgmdb] 2004

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 48

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 49

Anexo A

Resultados do Caacutelculo da Significacircncia Estatiacutestica referente ao Quoacuterum

para Conjuntos de Dados de Saccharomyces cerevisiae

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados

A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos os resultados para os motivos procurados em relaccedilatildeo a cada valor dos paracircmetros

Nota o campo posicao refere-se agrave posiccedilatildeo ocupada pelo motivo na tabela com a estatiacutestica das sequecircncias com pelo menos uma ocorrecircncia do motivo ordenada por chi2

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

314 motivos encontrados Quorum = 80

670 motivos encontrados Quorum = 75

670 motivos encontrados Quorum = 60

1306 motivos encontrados Erro = 1

Quorum = 100 8636 motivos encontrados k = 1 posicao = 2 chi2 = 98 (ACCTTAAAGGT) k = 2 posicao = 2 chi2 = 976 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 965 (ACCTTAAAGGT) k = 4 posicao = 2 chi2 = 984 (ACCTTAAAGGT)

Quorum = 80 17722 motivos encontrados k = 1 posicao = 2 chi2 = 651 (ACCCTAAAGGT) k = 1 posicao = 4 chi2 = 965 (ACCTTAAAGGT) k = 2 posicao = 2 chi2 = 659 (ACCCTAAAGGT) k = 2 posicao = 8 chi2 = 965 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 667 (ACCCTAAAGGT) k = 3 posicao = 4 chi2 = 969 (ACCTTAAAGGT) k = 4 posicao = 2 chi2 = 659 (ACCCTAAAGGT) k = 4 posicao = 3 chi2 = 984 (ACCTTAAAGGT)

Quorum = 75 17722 motivos encontrados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 50

k = 1 posicao = 4 chi2 = 651 (ACCCTAAAGGT) k = 1 posicao = 2 chi2 = 988 (ACCTTAAAGGT) k = 2 posicao = 3 chi2 = 659 (ACCCTAAAGGT) k = 2 posicao = 2 chi2 = 992 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 655 (ACCCTAAAGGT) k = 3 posicao = 3 chi2 = 976 (ACCTTAAAGGT) k = 4 posicao = 3 chi2 = 655 (ACCCTAAAGGT) k = 4 posicao = 5 chi2 = 984 (ACCTTAAAGGT)

Quorum = 60 34907 motivos encontrados k = 1 posicao = 11 chi2 = 655 (ACCCTAAAGGT) k = 1 posicao = 5 chi2 = 996 (ACCTTAAAGGT) k = 1 posicao = 13 chi2 = 421 (ACCTTGAAGGT) k = 2 posicao = 15 chi2 = 647 (ACCCTAAAGGT) k = 2 posicao = 12 chi2 = 969 (ACCTTAAAGGT) k = 2 posicao = 7 chi2 = 421 (ACCTTGAAGGT) k = 3 posicao = 9 chi2 = 655 (ACCCTAAAGGT) k = 3 posicao = 8 chi2 = 984 (ACCTTAAAGGT) k = 3 posicao = 27 chi2 = 414 (ACCTTGAAGGT) k = 4 posicao = 10 chi2 = 651 (ACCCTAAAGGT) k = 4 posicao = 5 chi2 = 984 (ACCTTAAAGGT) k = 4 posicao = 40 chi2 = 407 (ACCTTGAAGGT)

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

161 motivos encontrados Quorum = 80

381 motivos encontrados Quorum = 75

502 motivos encontrados Quorum = 60

826 motivos encontrados k = 1 posicao = 43 chi2 = 33 (CCCCT) k = 2 posicao = 42 chi2 = 202 (CCCCT) k = 3 posicao = 48 chi2 = 142 (CCCCT) k = 4 posicao = 122 chi2 = 028 (CCCCT)

Erro = 1 Quorum = 100

4877 motivos encontrados k = 1 posicao = 3089 chi2 = 002 (CCCCT) k = 2 posicao = 2781 chi2 = 005 (CCCCT) k = 3 posicao = 3148 chi2 = 002 (CCCCT) k = 4 posicao = 2516 chi2 = 007 (CCCCT)

Quorum = 80 10050 motivos encontrados k = 1 posicao = 8449 chi2 = 0 (CCCCT) k = 2 posicao = 5470 chi2 = 009 (CCCCT) k = 3 posicao = 5867 chi2 = 004 (CCCCT) k = 4 posicao = 5131 chi2 = 009 (CCCCT)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 51

Quorum = 75

13080 motivos encontrados k = 1 posicao = 7539 chi2 = 004 (CCCCT) k = 2 posicao = 8129 chi2 = 002 (CCCCT) k = 3 posicao = 7900 chi2 = 003 (CCCCT) k = 4 posicao = 7385 chi2 = 005 (CCCCT)

Quorum = 60 21544 motivos encontrados k = 1 posicao = 12673 chi2 = 004 (CCCCT) k = 2 posicao = 11871 chi2 = 008 (CCCCT) k = 3 posicao = 12731 chi2 = 004 (CCCCT) k = 4 posicao = 11754 chi2 = 007 (CCCCT)

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

326 motivos encontrados Quorum = 80

682 motivos encontrados k = 1 posicao = 169 chi2 = 109 (CCCCT) k = 2 posicao = 238 chi2 = 073 (CCCCT) k = 3 posicao = 223 chi2 = 057 (CCCCT) k = 4 posicao = 331 chi2 = 01 (CCCCT)

Quorum = 75 682 motivos encontrados k = 1 posicao = 136 chi2 = 131 (CCCCT) k = 2 posicao = 178 chi2 = 085 (CCCCT) k = 3 posicao = 245 chi2 = 042 (CCCCT) k = 4 posicao = 331 chi2 = 01 (CCCCT)

Quorum = 60 1316 motivos encontrados k = 1 posicao = 303 chi2 = 17 (CCCCT) k = 2 posicao = 505 chi2 = 075 (CCCCT) k = 3 posicao = 457 chi2 = 059 (CCCCT) k = 4 posicao = 613 chi2 = 014 (CCCCT)

Erro = 1 Quorum = 100

9022 motivos encontrados k = 1 posicao = 7955 chi2 = 0 (CCCCT) k = 2 posicao = 7901 chi2 = 0 (CCCCT) k = 3 posicao = 7846 chi2 = 0 (CCCCT) k = 4 posicao = 7711 chi2 = 0 (CCCCT)

Quorum = 80 17951 motivos encontrados k = 1 posicao = 16310 chi2 = 0 (CCCCT) k = 2 posicao = 16251 chi2 = 0 (CCCCT) k = 3 posicao = 16207 chi2 = 0 (CCCCT) k = 4 posicao = 16091 chi2 = 0 (CCCCT)

Quorum = 75 17951 motivos encontrados k = 1 posicao = 16308 chi2 = 0 (CCCCT)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 52

k = 2 posicao = 16242 chi2 = 0 (CCCCT) k = 3 posicao = 16212 chi2 = 0 (CCCCT) k = 4 posicao = 16063 chi2 = 0 (CCCCT)

Quorum = 60 35258 motivos encontrados k = 1 posicao = 32818 chi2 = 0 (CCCCT) k = 2 posicao = 32757 chi2 = 0 (CCCCT) k = 3 posicao = 32822 chi2 = 0 (CCCCT) k = 4 posicao = 32656 chi2 = 0 (CCCCT)

5_1_gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

220 motivos encontrados Quorum = 80

517 motivos encontrados k = 1 posicao = 52 chi2 = 254 (CTTCC) k = 2 posicao = 87 chi2 = 146 (CTTCC) k = 3 posicao = 164 chi2 = 067 (CTTCC) k = 4 posicao = 236 chi2 = 004 (CTTCC)

Quorum = 75 517 motivos encontrados k = 1 posicao = 77 chi2 = 246 (CTTCC) k = 2 posicao = 83 chi2 = 152 (CTTCC) k = 3 posicao = 99 chi2 = 098 (CTTCC) k = 4 posicao = 241 chi2 = 003 (CTTCC)

Quorum = 60 963 motivos encontrados k = 1 posicao = 625 chi2 = 003 (CATCC) k = 1 posicao = 128 chi2 = 284 (CTTCC) k = 2 posicao = 644 chi2 = 003 (CATCC) k = 2 posicao = 170 chi2 = 177 (CTTCC) k = 3 posicao = 490 chi2 = 015 (CATCC) k = 3 posicao = 256 chi2 = 107 (CTTCC) k = 4 posicao = 522 chi2 = 0 (CATCC) k = 4 posicao = 497 chi2 = 004 (CTTCC)

Erro = 1 Quorum = 100

6121 motivos encontrados k = 1 posicao = 5072 chi2 = 0 (CATCC) k = 1 posicao = 5313 chi2 = 0 (CTTCC) k = 2 posicao = 5049 chi2 = 0 (CATCC) k = 2 posicao = 5287 chi2 = 0 (CTTCC) k = 3 posicao = 4984 chi2 = 0 (CATCC) k = 3 posicao = 5236 chi2 = 0 (CTTCC) k = 4 posicao = 4894 chi2 = 0 (CATCC) k = 4 posicao = 5167 chi2 = 0 (CTTCC)

Quorum = 80 13644 motivos encontrados k = 1 posicao = 11732 chi2 = 0 (CATCC) k = 1 posicao = 11981 chi2 = 0 (CTTCC)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 53

k = 2 posicao = 11792 chi2 = 0 (CATCC) k = 2 posicao = 12044 chi2 = 0 (CTTCC) k = 3 posicao = 11736 chi2 = 0 (CATCC) k = 3 posicao = 11985 chi2 = 0 (CTTCC) k = 4 posicao = 11644 chi2 = 0 (CATCC) k = 4 posicao = 11917 chi2 = 0 (CTTCC)

Quorum = 75 13644 motivos encontrados k = 1 posicao = 11712 chi2 = 0 (CATCC) k = 1 posicao = 11966 chi2 = 0 (CTTCC) k = 2 posicao = 11791 chi2 = 0 (CATCC) k = 2 posicao = 12027 chi2 = 0 (CTTCC) k = 3 posicao = 11729 chi2 = 0 (CATCC) k = 3 posicao = 11981 chi2 = 0 (CTTCC) k = 4 posicao = 11649 chi2 = 0 (CATCC) k = 4 posicao = 11920 chi2 = 0 (CTTCC)

Quorum = 60 25804 motivos encontrados k = 1 posicao = 22732 chi2 = 0 (CATCC) k = 1 posicao = 22973 chi2 = 0 (CTTCC) k = 2 posicao = 22881 chi2 = 0 (CATCC) k = 2 posicao = 23121 chi2 = 0 (CTTCC) k = 3 posicao = 22916 chi2 = 0 (CATCC) k = 3 posicao = 23164 chi2 = 0 (CTTCC) k = 4 posicao = 22864 chi2 = 0 (CATCC) k = 4 posicao = 23141 chi2 = 0 (CTTCC)

6_0_MIG1

Motivo GCGGGG Frequecircncia 16 ~167 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

290 motivos encontrados Quorum = 80

556 motivos encontrados Quorum = 75

556 motivos encontrados Quorum = 60

927 motivos encontrados Erro = 1

Quorum = 100 7881 motivos encontrados k = 1 posicao = 650 chi2 = 252 (GCGGGG) k = 2 posicao = 773 chi2 = 173 (GCGGGG) k = 3 posicao = 1341 chi2 = 101 (GCGGGG) k = 4 posicao = 4437 chi2 = 052 (GCGGGG)

Quorum = 80 14601 motivos encontrados k = 1 posicao = 1895 chi2 = 249 (GCGGGG) k = 2 posicao = 2045 chi2 = 161 (GCGGGG) k = 3 posicao = 3284 chi2 = 11 (GCGGGG) k = 4 posicao = 7272 chi2 = 05 (GCGGGG)

Quorum = 75

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 54

14601 motivos encontrados k = 1 posicao = 2121 chi2 = 234 (GCGGGG) k = 2 posicao = 2604 chi2 = 153 (GCGGGG) k = 3 posicao = 3778 chi2 = 089 (GCGGGG) k = 4 posicao = 8057 chi2 = 047 (GCGGGG)

Quorum = 60 25117 motivos encontrados k = 1 posicao = 4371 chi2 = 234 (GCGGGG) k = 2 posicao = 5452 chi2 = 153 (GCGGGG) k = 3 posicao = 7361 chi2 = 116 (GCGGGG) k = 4 posicao = 12643 chi2 = 051 (GCGGGG)

6_0_UME6

Motivo GCCGCC Frequecircncia 37 ~4286 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

257 motivos encontrados Quorum = 80

454 motivos encontrados Quorum = 75

454 motivos encontrados Quorum = 60

748 motivos encontrados Erro = 1

Quorum = 100 7186 motivos encontrados

Quorum = 80 12323 motivos encontrados

Quorum = 75 12323 motivos encontrados

Quorum = 60 19726 motivos encontrados k = 1 posicao = 13214 chi2 = 002 (GCCGCC) k = 2 posicao = 14628 chi2 = 0 (GCCGCC) k = 3 posicao = 14684 chi2 = 0 (GCCGCC) k = 4 posicao = 15398 chi2 = 002 (GCCGCC)

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

173 motivos encontrados Quorum = 80

403 motivos encontrados Quorum = 75

530 motivos encontrados k = 1 posicao = 6 chi2 = 755 (GATAAG)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 55

k = 2 posicao = 3 chi2 = 892 (GATAAG) k = 3 posicao = 3 chi2 = 725 (GATAAG) k = 4 posicao = 12 chi2 = 457 (GATAAG)

Quorum = 60 836 motivos encontrados k = 1 posicao = 24 chi2 = 771 (GATAAG) k = 2 posicao = 7 chi2 = 94 (GATAAG) k = 3 posicao = 12 chi2 = 719 (GATAAG) k = 4 posicao = 25 chi2 = 48 (GATAAG)

Erro = 1 Quorum = 100

5360 motivos encontrados k = 1 posicao = 2690 chi2 = 012 (GATAAG) k = 1 posicao = 3118 chi2 = 008 (GATTAG) k = 2 posicao = 2917 chi2 = 01 (GATAAG) k = 2 posicao = 2424 chi2 = 02 (GATTAG) k = 3 posicao = 3096 chi2 = 007 (GATAAG) k = 3 posicao = 1982 chi2 = 033 (GATTAG) k = 4 posicao = 3004 chi2 = 007 (GATAAG) k = 4 posicao = 2767 chi2 = 01 (GATTAG)

Quorum = 80 10819 motivos encontrados k = 1 posicao = 6729 chi2 = 011 (GATAAG) k = 1 posicao = 6816 chi2 = 009 (GATTAG) k = 2 posicao = 6240 chi2 = 013 (GATAAG) k = 2 posicao = 6446 chi2 = 011 (GATTAG) k = 3 posicao = 7301 chi2 = 004 (GATAAG) k = 3 posicao = 4235 chi2 = 053 (GATTAG) k = 4 posicao = 7045 chi2 = 004 (GATAAG) k = 4 posicao = 6317 chi2 = 012 (GATTAG)

Quorum = 75 13889 motivos encontrados k = 1 posicao = 9061 chi2 = 007 (GATAAG) k = 1 posicao = 8672 chi2 = 01 (GATTAG) k = 2 posicao = 8095 chi2 = 016 (GATAAG) k = 2 posicao = 8763 chi2 = 01 (GATTAG) k = 3 posicao = 8965 chi2 = 008 (GATAAG) k = 3 posicao = 6907 chi2 = 036 (GATTAG) k = 4 posicao = 8966 chi2 = 006 (GATAAG) k = 4 posicao = 8323 chi2 = 011 (GATTAG)

Quorum = 60 22209 motivos encontrados k = 1 posicao = 14904 chi2 = 008 (GATAAG) k = 1 posicao = 14384 chi2 = 013 (GATTAG) k = 2 posicao = 13923 chi2 = 015 (GATAAG) k = 2 posicao = 13902 chi2 = 015 (GATTAG) k = 3 posicao = 14932 chi2 = 008 (GATAAG) k = 3 posicao = 11534 chi2 = 046 (GATTAG) k = 4 posicao = 14680 chi2 = 007 (GATAAG) k = 4 posicao = 13878 chi2 = 017 (GATTAG)

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 56

Erro = 0 Quorum = 100

128 motivos encontrados Quorum = 80

372 motivos encontrados Quorum = 75

454 motivos encontrados Quorum = 60

785 motivos encontrados Erro = 1

Quorum = 100 4212 motivos encontrados k = 1 posicao = 326 chi2 = 14 (CACCCA) k = 2 posicao = 594 chi2 = 108 (CACCCA) k = 3 posicao = 244 chi2 = 107 (CACCCA) k = 4 posicao = 1210 chi2 = 038 (CACCCA)

Quorum = 80 9800 motivos encontrados k = 1 posicao = 1302 chi2 = 157 (CACCCA) k = 1 posicao = 2061 chi2 = 087 (CACCCG) k = 2 posicao = 2058 chi2 = 117 (CACCCA) k = 2 posicao = 2522 chi2 = 059 (CACCCG) k = 3 posicao = 1624 chi2 = 106 (CACCCA) k = 3 posicao = 2994 chi2 = 045 (CACCCG) k = 4 posicao = 2703 chi2 = 05 (CACCCA) k = 4 posicao = 3926 chi2 = 011 (CACCCG)

Quorum = 75 11933 motivos encontrados k = 1 posicao = 1951 chi2 = 145 (CACCCA) k = 1 posicao = 2903 chi2 = 081 (CACCCG) k = 2 posicao = 2227 chi2 = 116 (CACCCA) k = 2 posicao = 3417 chi2 = 062 (CACCCG) k = 3 posicao = 2137 chi2 = 108 (CACCCA) k = 3 posicao = 3426 chi2 = 041 (CACCCG) k = 4 posicao = 4518 chi2 = 031 (CACCCA) k = 4 posicao = 4805 chi2 = 012 (CACCCG)

Quorum = 60 20531 motivos encontrados k = 1 posicao = 5137 chi2 = 144 (CACCCA) k = 1 posicao = 5556 chi2 = 073 (CACCCG) k = 2 posicao = 4865 chi2 = 113 (CACCCA) k = 2 posicao = 5737 chi2 = 062 (CACCCG) k = 3 posicao = 4491 chi2 = 097 (CACCCA) k = 3 posicao = 5797 chi2 = 052 (CACCCG) k = 4 posicao = 7825 chi2 = 041 (CACCCA) k = 4 posicao = 7275 chi2 = 018 (CACCCG)

7_0_REB1

Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

211 motivos encontrados k = 1 posicao = 4 chi2 = 965 (TTACCC)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 57

k = 2 posicao = 4 chi2 = 105 (TTACCC) k = 3 posicao = 4 chi2 = 1075 (TTACCC) k = 4 posicao = 4 chi2 = 755 (TTACCC)

Quorum = 80 405 motivos encontrados k = 1 posicao = 4 chi2 = 932 (TTACCC) k = 2 posicao = 4 chi2 = 1083 (TTACCC) k = 3 posicao = 4 chi2 = 1106 (TTACCC) k = 4 posicao = 4 chi2 = 723 (TTACCC)

Quorum = 75 605 motivos encontrados k = 1 posicao = 6 chi2 = 947 (TTACCC) k = 2 posicao = 5 chi2 = 999 (TTACCC) k = 3 posicao = 5 chi2 = 1098 (TTACCC) k = 4 posicao = 5 chi2 = 808 (TTACCC)

Quorum = 60 907 motivos encontrados k = 1 posicao = 9 chi2 = 1007 (TTACCC) k = 2 posicao = 6 chi2 = 1089 (TTACCC) k = 3 posicao = 6 chi2 = 1081 (TTACCC) k = 4 posicao = 6 chi2 = 788 (TTACCC)

Erro = 1 Quorum = 100

6121 motivos encontrados k = 1 posicao = 4617 chi2 = 013 (TTACCC) k = 2 posicao = 4454 chi2 = 016 (TTACCC) k = 3 posicao = 4730 chi2 = 012 (TTACCC) k = 4 posicao = 5483 chi2 = 004 (TTACCC)

Quorum = 80 10337 motivos encontrados k = 1 posicao = 7525 chi2 = 008 (TTACCC) k = 2 posicao = 7267 chi2 = 01 (TTACCC) k = 3 posicao = 7129 chi2 = 012 (TTACCC) k = 4 posicao = 7469 chi2 = 009 (TTACCC)

Quorum = 75 15777 motivos encontrados k = 1 posicao = 10287 chi2 = 012 (TTACCC) k = 2 posicao = 10740 chi2 = 01 (TTACCC) k = 3 posicao = 9696 chi2 = 016 (TTACCC) k = 4 posicao = 10789 chi2 = 008 (TTACCC)

Quorum = 60 23856 motivos encontrados k = 1 posicao = 15646 chi2 = 01 (TTACCC) k = 2 posicao = 15437 chi2 = 012 (TTACCC) k = 3 posicao = 13932 chi2 = 022 (TTACCC) k = 4 posicao = 15597 chi2 = 009 (TTACCC)

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

235 motivos encontrados Quorum = 80

475 motivos encontrados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 58

k = 1 posicao = 3 chi2 = 945 (TGCCAAG) k = 2 posicao = 2 chi2 = 92 (TGCCAAG) k = 3 posicao = 2 chi2 = 892 (TGCCAAG) k = 4 posicao = 3 chi2 = 7 (TGCCAAG)

Quorum = 75 475 motivos encontrados k = 1 posicao = 2 chi2 = 924 (TGCCAAG) k = 2 posicao = 3 chi2 = 886 (TGCCAAG) k = 3 posicao = 3 chi2 = 869 (TGCCAAG) k = 4 posicao = 2 chi2 = 678 (TGCCAAG)

Quorum = 60 785 motivos encontrados k = 1 posicao = 5 chi2 = 952 (TGCCAAG) k = 2 posicao = 4 chi2 = 934 (TGCCAAG) k = 3 posicao = 4 chi2 = 869 (TGCCAAG) k = 4 posicao = 6 chi2 = 67 (TGCCAAG)

Erro = 1 Quorum = 100

7028 motivos encontrados k = 1 posicao = 436 chi2 = 321 (TGCCAAG) k = 2 posicao = 551 chi2 = 217 (TGCCAAG) k = 3 posicao = 940 chi2 = 223 (TGCCAAG) k = 4 posicao = 1492 chi2 = 095 (TGCCAAG)

Quorum = 80 12574 motivos encontrados k = 1 posicao = 1703 chi2 = 325 (TGCCAAG) k = 2 posicao = 2035 chi2 = 244 (TGCCAAG) k = 3 posicao = 1678 chi2 = 217 (TGCCAAG) k = 4 posicao = 3298 chi2 = 093 (TGCCAAG)

Quorum = 75 12574 motivos encontrados k = 1 posicao = 1739 chi2 = 333 (TGCCAAG) k = 2 posicao = 1717 chi2 = 216 (TGCCAAG) k = 3 posicao = 1609 chi2 = 212 (TGCCAAG) k = 4 posicao = 3574 chi2 = 075 (TGCCAAG)

Quorum = 60 20257 motivos encontrados k = 1 posicao = 3598 chi2 = 304 (TGCCAAG) k = 2 posicao = 3664 chi2 = 211 (TGCCAAG) k = 3 posicao = 3206 chi2 = 213 (TGCCAAG) k = 4 posicao = 4753 chi2 = 115 (TGCCAAG)

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

267 motivos encontrados k = 1 posicao = 4 chi2 = 998 (TGAAACA) k = 2 posicao = 5 chi2 = 908 (TGAAACA) k = 3 posicao = 5 chi2 = 875 (TGAAACA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 59

k = 4 posicao = 4 chi2 = 743 (TGAAACA)

Quorum = 80 529 motivos encontrados k = 1 posicao = 4 chi2 = 969 (TGAAACA) k = 2 posicao = 6 chi2 = 84 (TGAAACA) k = 3 posicao = 5 chi2 = 845 (TGAAACA) k = 4 posicao = 5 chi2 = 702 (TGAAACA)

Quorum = 75 529 motivos encontrados k = 1 posicao = 6 chi2 = 933 (TGAAACA) k = 2 posicao = 5 chi2 = 866 (TGAAACA) k = 3 posicao = 5 chi2 = 86 (TGAAACA) k = 4 posicao = 5 chi2 = 717 (TGAAACA)

Quorum = 60 916 motivos encontrados k = 1 posicao = 12 chi2 = 956 (TGAAACA) k = 2 posicao = 13 chi2 = 893 (TGAAACA) k = 3 posicao = 16 chi2 = 84 (TGAAACA) k = 4 posicao = 18 chi2 = 715 (TGAAACA)

Erro = 1 Quorum = 100

7705 motivos encontrados k = 1 posicao = 4203 chi2 = 055 (TGAAACA) k = 2 posicao = 5562 chi2 = 02 (TGAAACA) k = 3 posicao = 5481 chi2 = 021 (TGAAACA) k = 4 posicao = 6219 chi2 = 012 (TGAAACA)

Quorum = 80 14161 motivos encontrados k = 1 posicao = 8113 chi2 = 052 (TGAAACA) k = 2 posicao = 9261 chi2 = 022 (TGAAACA) k = 3 posicao = 8536 chi2 = 029 (TGAAACA) k = 4 posicao = 10343 chi2 = 01 (TGAAACA)

Quorum = 75 14161 motivos encontrados k = 1 posicao = 7156 chi2 = 066 (TGAAACA) k = 2 posicao = 8778 chi2 = 028 (TGAAACA) k = 3 posicao = 8848 chi2 = 034 (TGAAACA) k = 4 posicao = 9747 chi2 = 015 (TGAAACA)

Quorum = 60 24421 motivos encontrados k = 1 posicao = 12918 chi2 = 049 (TGAAACA) k = 2 posicao = 15781 chi2 = 024 (TGAAACA) k = 3 posicao = 13941 chi2 = 03 (TGAAACA) k = 4 posicao = 16147 chi2 = 017 (TGAAACA)

7_1_SWI4

Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

330 motivos encontrados Quorum = 80

675 motivos encontrados k = 1 posicao = 3 chi2 = 575 (CGCGAAA) k = 2 posicao = 3 chi2 = 483 (CGCGAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 60

k = 3 posicao = 11 chi2 = 395 (CGCGAAA) k = 4 posicao = 5 chi2 = 367 (CGCGAAA)

Quorum = 75 675 motivos encontrados k = 1 posicao = 2 chi2 = 6 (CGCGAAA) k = 2 posicao = 4 chi2 = 504 (CGCGAAA) k = 3 posicao = 14 chi2 = 372 (CGCGAAA) k = 4 posicao = 14 chi2 = 343 (CGCGAAA)

Quorum = 60 1349 motivos encontrados k = 1 posicao = 50 chi2 = 31 (CACGAAA) k = 1 posicao = 8 chi2 = 569 (CGCGAAA) k = 2 posicao = 81 chi2 = 26 (CACGAAA) k = 2 posicao = 20 chi2 = 48 (CGCGAAA) k = 3 posicao = 117 chi2 = 21 (CACGAAA) k = 3 posicao = 47 chi2 = 37 (CGCGAAA) k = 4 posicao = 309 chi2 = 056 (CACGAAA) k = 4 posicao = 33 chi2 = 367 (CGCGAAA)

Erro = 1 Quorum = 100

8974 motivos encontrados k = 1 posicao = 2630 chi2 = 093 (CACGAAA) k = 1 posicao = 1189 chi2 = 212 (CGCGAAA) k = 2 posicao = 3046 chi2 = 07 (CACGAAA) k = 2 posicao = 2138 chi2 = 101 (CGCGAAA) k = 3 posicao = 4224 chi2 = 03 (CACGAAA) k = 3 posicao = 4064 chi2 = 04 (CGCGAAA) k = 4 posicao = 5230 chi2 = 012 (CACGAAA) k = 4 posicao = 4771 chi2 = 018 (CGCGAAA)

Quorum = 80 17937 motivos encontrados k = 1 posicao = 6152 chi2 = 107 (CACGAAA) k = 1 posicao = 3575 chi2 = 211 (CGCGAAA) k = 2 posicao = 7073 chi2 = 071 (CACGAAA) k = 2 posicao = 6979 chi2 = 078 (CGCGAAA) k = 3 posicao = 9212 chi2 = 035 (CACGAAA) k = 3 posicao = 8502 chi2 = 038 (CGCGAAA) k = 4 posicao = 10421 chi2 = 017 (CACGAAA) k = 4 posicao = 9629 chi2 = 026 (CGCGAAA)

Quorum = 75 17937 motivos encontrados k = 1 posicao = 6271 chi2 = 104 (CACGAAA) k = 1 posicao = 4092 chi2 = 171 (CGCGAAA) k = 2 posicao = 8574 chi2 = 052 (CACGAAA) k = 2 posicao = 5741 chi2 = 107 (CGCGAAA) k = 3 posicao = 10092 chi2 = 026 (CACGAAA) k = 3 posicao = 8743 chi2 = 044 (CGCGAAA) k = 4 posicao = 11741 chi2 = 009 (CACGAAA) k = 4 posicao = 9601 chi2 = 022 (CGCGAAA)

Quorum = 60 35352 motivos encontrados k = 1 posicao = 15854 chi2 = 094 (CACGAAA) k = 1 posicao = 9842 chi2 = 196 (CGCGAAA) k = 2 posicao = 18655 chi2 = 063 (CACGAAA) k = 2 posicao = 16854 chi2 = 093 (CGCGAAA) k = 3 posicao = 21349 chi2 = 025 (CACGAAA) k = 3 posicao = 19789 chi2 = 036 (CGCGAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 61

k = 4 posicao = 22509 chi2 = 016 (CACGAAA) k = 4 posicao = 21049 chi2 = 027 (CGCGAAA)

7_2_GCN4

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

229 motivos encontrados Quorum = 80

372 motivos encontrados Quorum = 75

586 motivos encontrados Quorum = 60

839 motivos encontrados Erro = 1

Quorum = 100 6343 motivos encontrados

Quorum = 80 10422 motivos encontrados

Quorum = 75 15227 motivos encontrados

Quorum = 60 21609 motivos encontrados

7_2_RGT1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

205 motivos encontrados Quorum = 80

496 motivos encontrados k = 1 posicao = 4 chi2 = 1052 (CGGAAAA) k = 2 posicao = 2 chi2 = 883 (CGGAAAA) k = 3 posicao = 2 chi2 = 692 (CGGAAAA) k = 4 posicao = 10 chi2 = 308 (CGGAAAA)

Quorum = 75 496 motivos encontrados k = 1 posicao = 4 chi2 = 1101 (CGGAAAA) k = 2 posicao = 3 chi2 = 855 (CGGAAAA) k = 3 posicao = 4 chi2 = 685 (CGGAAAA) k = 4 posicao = 9 chi2 = 338 (CGGAAAA)

Quorum = 60 987 motivos encontrados k = 1 posicao = 10 chi2 = 1087 (CGGAAAA) k = 2 posicao = 11 chi2 = 792 (CGGAAAA) k = 3 posicao = 10 chi2 = 637 (CGGAAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 62

k = 4 posicao = 27 chi2 = 333 (CGGAAAA)

Erro = 1 Quorum = 100

6085 motivos encontrados k = 1 posicao = 740 chi2 = 226 (CGGAAAA) k = 1 posicao = 244 chi2 = 442 (CGGAAGA) k = 1 posicao = 375 chi2 = 415 (CGGAGAA) k = 1 posicao = 795 chi2 = 205 (CGGATAA) k = 2 posicao = 1431 chi2 = 069 (CGGAAAA) k = 2 posicao = 350 chi2 = 257 (CGGAAGA) k = 2 posicao = 313 chi2 = 281 (CGGAGAA) k = 2 posicao = 403 chi2 = 257 (CGGATAA) k = 3 posicao = 2933 chi2 = 015 (CGGAAAA) k = 3 posicao = 543 chi2 = 161 (CGGAAGA) k = 3 posicao = 758 chi2 = 162 (CGGAGAA) k = 3 posicao = 334 chi2 = 242 (CGGATAA) k = 4 posicao = 3388 chi2 = 006 (CGGAAAA) k = 4 posicao = 944 chi2 = 088 (CGGAAGA) k = 4 posicao = 682 chi2 = 096 (CGGAGAA) k = 4 posicao = 448 chi2 = 157 (CGGATAA)

Quorum = 80 13578 motivos encontrados k = 1 posicao = 2782 chi2 = 211 (CGGAAAA) k = 1 posicao = 1309 chi2 = 443 (CGGAAGA) k = 1 posicao = 9793 chi2 = 0 (CGGAATA) k = 1 posicao = 1525 chi2 = 436 (CGGAGAA) k = 1 posicao = 1267 chi2 = 351 (CGGAGGA) k = 1 posicao = 2001 chi2 = 282 (CGGATAA) k = 1 posicao = 4454 chi2 = 055 (CGGATTA) k = 2 posicao = 4354 chi2 = 063 (CGGAAAA) k = 2 posicao = 1547 chi2 = 273 (CGGAAGA) k = 2 posicao = 7920 chi2 = 004 (CGGAATA) k = 2 posicao = 2260 chi2 = 262 (CGGAGAA) k = 2 posicao = 1049 chi2 = 271 (CGGAGGA) k = 2 posicao = 1502 chi2 = 271 (CGGATAA) k = 2 posicao = 3568 chi2 = 083 (CGGATTA) k = 3 posicao = 6889 chi2 = 02 (CGGAAAA) k = 3 posicao = 2122 chi2 = 16 (CGGAAGA) k = 3 posicao = 10332 chi2 = 01 (CGGAATA) k = 3 posicao = 2408 chi2 = 144 (CGGAGAA) k = 3 posicao = 1273 chi2 = 214 (CGGAGGA) k = 3 posicao = 1406 chi2 = 211 (CGGATAA) k = 3 posicao = 1203 chi2 = 189 (CGGATTA) k = 4 posicao = 8380 chi2 = 003 (CGGAAAA) k = 4 posicao = 4250 chi2 = 074 (CGGAAGA) k = 4 posicao = 12881 chi2 = 037 (CGGAATA) k = 4 posicao = 3392 chi2 = 088 (CGGAGAA) k = 4 posicao = 1278 chi2 = 162 (CGGAGGA) k = 4 posicao = 1930 chi2 = 148 (CGGATAA) k = 4 posicao = 1157 chi2 = 136 (CGGATTA)

Quorum = 75 13578 motivos encontrados k = 1 posicao = 2620 chi2 = 264 (CGGAAAA) k = 1 posicao = 1452 chi2 = 443 (CGGAAGA) k = 1 posicao = 8943 chi2 = 001 (CGGAATA) k = 1 posicao = 1121 chi2 = 446 (CGGAGAA) k = 1 posicao = 965 chi2 = 424 (CGGAGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 63

k = 1 posicao = 2453 chi2 = 246 (CGGATAA) k = 1 posicao = 3571 chi2 = 086 (CGGATTA) k = 2 posicao = 4690 chi2 = 069 (CGGAAAA) k = 2 posicao = 1475 chi2 = 255 (CGGAAGA) k = 2 posicao = 7150 chi2 = 01 (CGGAATA) k = 2 posicao = 1209 chi2 = 259 (CGGAGAA) k = 2 posicao = 837 chi2 = 274 (CGGAGGA) k = 2 posicao = 1900 chi2 = 268 (CGGATAA) k = 2 posicao = 3981 chi2 = 066 (CGGATTA) k = 3 posicao = 6549 chi2 = 022 (CGGAAAA) k = 3 posicao = 1447 chi2 = 191 (CGGAAGA) k = 3 posicao = 10656 chi2 = 018 (CGGAATA) k = 3 posicao = 2435 chi2 = 155 (CGGAGAA) k = 3 posicao = 1026 chi2 = 21 (CGGAGGA) k = 3 posicao = 1469 chi2 = 233 (CGGATAA) k = 3 posicao = 1202 chi2 = 189 (CGGATTA) k = 4 posicao = 11692 chi2 = 0 (CGGAAAA) k = 4 posicao = 3717 chi2 = 077 (CGGAAGA) k = 4 posicao = 10890 chi2 = 035 (CGGAATA) k = 4 posicao = 3482 chi2 = 087 (CGGAGAA) k = 4 posicao = 1187 chi2 = 168 (CGGAGGA) k = 4 posicao = 1746 chi2 = 148 (CGGATAA) k = 4 posicao = 1204 chi2 = 149 (CGGATTA)

Quorum = 60 25839 motivos encontrados k = 1 posicao = 5870 chi2 = 247 (CGGAAAA) k = 1 posicao = 4726 chi2 = 405 (CGGAAGA) k = 1 posicao = 18076 chi2 = 0 (CGGAATA) k = 1 posicao = 3940 chi2 = 388 (CGGAGAA) k = 1 posicao = 3424 chi2 = 384 (CGGAGGA) k = 1 posicao = 15679 chi2 = 005 (CGGAGTA) k = 1 posicao = 6177 chi2 = 245 (CGGATAA) k = 1 posicao = 15167 chi2 = 008 (CGGATGA) k = 1 posicao = 11165 chi2 = 059 (CGGATTA) k = 2 posicao = 11428 chi2 = 046 (CGGAAAA) k = 2 posicao = 4811 chi2 = 242 (CGGAAGA) k = 2 posicao = 16216 chi2 = 003 (CGGAATA) k = 2 posicao = 4128 chi2 = 226 (CGGAGAA) k = 2 posicao = 3005 chi2 = 278 (CGGAGGA) k = 2 posicao = 10245 chi2 = 04 (CGGAGTA) k = 2 posicao = 3437 chi2 = 3 (CGGATAA) k = 2 posicao = 10379 chi2 = 033 (CGGATGA) k = 2 posicao = 8888 chi2 = 072 (CGGATTA) k = 3 posicao = 13836 chi2 = 017 (CGGAAAA) k = 3 posicao = 4943 chi2 = 191 (CGGAAGA) k = 3 posicao = 20550 chi2 = 01 (CGGAATA) k = 3 posicao = 6774 chi2 = 155 (CGGAGAA) k = 3 posicao = 2524 chi2 = 222 (CGGAGGA) k = 3 posicao = 13828 chi2 = 01 (CGGAGTA) k = 3 posicao = 4859 chi2 = 197 (CGGATAA) k = 3 posicao = 9284 chi2 = 029 (CGGATGA) k = 3 posicao = 3146 chi2 = 179 (CGGATTA) k = 4 posicao = 17095 chi2 = 001 (CGGAAAA) k = 4 posicao = 7930 chi2 = 083 (CGGAAGA) k = 4 posicao = 24667 chi2 = 051 (CGGAATA) k = 4 posicao = 9042 chi2 = 083 (CGGAGAA) k = 4 posicao = 3884 chi2 = 147 (CGGAGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 64

k = 4 posicao = 13905 chi2 = 007 (CGGAGTA) k = 4 posicao = 4859 chi2 = 156 (CGGATAA) k = 4 posicao = 14606 chi2 = 005 (CGGATGA) k = 4 posicao = 3783 chi2 = 127 (CGGATTA)

8_1_PDR1

Motivo TCCGYGGA Frequecircncia 68 ~75 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

229 motivos encontrados Quorum = 80

416 motivos encontrados Quorum = 75

639 motivos encontrados k = 1 posicao = 2 chi2 = 96 (TCCGCGGA) k = 2 posicao = 2 chi2 = 941 (TCCGCGGA) k = 3 posicao = 2 chi2 = 915 (TCCGCGGA) k = 4 posicao = 2 chi2 = 674 (TCCGCGGA)

Quorum = 60 950 motivos encontrados k = 1 posicao = 4 chi2 = 937 (TCCGCGGA) k = 2 posicao = 3 chi2 = 933 (TCCGCGGA) k = 3 posicao = 3 chi2 = 926 (TCCGCGGA) k = 4 posicao = 3 chi2 = 686 (TCCGCGGA)

Erro = 1 Quorum = 100

6610 motivos encontrados k = 1 posicao = 8 chi2 = 1095 (TCCGCGGA) k = 1 posicao = 15 chi2 = 1007 (TCCGTGGA) k = 2 posicao = 8 chi2 = 1092 (TCCGCGGA) k = 2 posicao = 18 chi2 = 1039 (TCCGTGGA) k = 3 posicao = 11 chi2 = 907 (TCCGCGGA) k = 3 posicao = 9 chi2 = 881 (TCCGTGGA) k = 4 posicao = 18 chi2 = 517 (TCCGCGGA) k = 4 posicao = 8 chi2 = 759 (TCCGTGGA)

Quorum = 80 11058 motivos encontrados k = 1 posicao = 32 chi2 = 1126 (TCCGCGGA) k = 1 posicao = 48 chi2 = 1053 (TCCGTGGA) k = 2 posicao = 21 chi2 = 1053 (TCCGCGGA) k = 2 posicao = 19 chi2 = 1098 (TCCGTGGA) k = 3 posicao = 29 chi2 = 881 (TCCGCGGA) k = 3 posicao = 60 chi2 = 808 (TCCGTGGA) k = 4 posicao = 97 chi2 = 509 (TCCGCGGA) k = 4 posicao = 42 chi2 = 698 (TCCGTGGA)

Quorum = 75 16695 motivos encontrados k = 1 posicao = 92 chi2 = 1126 (TCCGCGGA) k = 1 posicao = 178 chi2 = 1026 (TCCGTGGA) k = 2 posicao = 70 chi2 = 1092 (TCCGCGGA) k = 2 posicao = 73 chi2 = 1069 (TCCGTGGA) k = 3 posicao = 64 chi2 = 983 (TCCGCGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 65

k = 3 posicao = 83 chi2 = 898 (TCCGTGGA) k = 4 posicao = 336 chi2 = 48 (TCCGCGGA) k = 4 posicao = 130 chi2 = 657 (TCCGTGGA)

Quorum = 60 25049 motivos encontrados k = 1 posicao = 220 chi2 = 1135 (TCCGCGGA) k = 1 posicao = 369 chi2 = 1004 (TCCGTGGA) k = 2 posicao = 83 chi2 = 1159 (TCCGCGGA) k = 2 posicao = 263 chi2 = 1045 (TCCGTGGA) k = 3 posicao = 134 chi2 = 883 (TCCGCGGA) k = 3 posicao = 206 chi2 = 857 (TCCGTGGA) k = 4 posicao = 580 chi2 = 488 (TCCGCGGA) k = 4 posicao = 213 chi2 = 67 (TCCGTGGA)

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

241 motivos encontrados Quorum = 80

423 motivos encontrados k = 1 posicao = 2 chi2 = 1237 (TCCGCGGA) k = 2 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 3 posicao = 2 chi2 = 1229 (TCCGCGGA) k = 4 posicao = 2 chi2 = 915 (TCCGCGGA)

Quorum = 75 667 motivos encontrados k = 1 posicao = 2 chi2 = 1237 (TCCGCGGA) k = 2 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 3 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 4 posicao = 2 chi2 = 909 (TCCGCGGA)

Quorum = 60 1024 motivos encontrados k = 1 posicao = 3 chi2 = 1233 (TCCGCGGA) k = 2 posicao = 4 chi2 = 124 (TCCGCGGA) k = 3 posicao = 3 chi2 = 1221 (TCCGCGGA) k = 4 posicao = 5 chi2 = 918 (TCCGCGGA)

Erro = 1 Quorum = 100

6897 motivos encontrados k = 1 posicao = 17 chi2 = 1115 (TCCGCGGA) k = 1 posicao = 24 chi2 = 1026 (TCCGTGGA) k = 2 posicao = 12 chi2 = 1174 (TCCGCGGA) k = 2 posicao = 10 chi2 = 1138 (TCCGTGGA) k = 3 posicao = 17 chi2 = 945 (TCCGCGGA) k = 3 posicao = 29 chi2 = 827 (TCCGTGGA) k = 4 posicao = 65 chi2 = 481 (TCCGCGGA) k = 4 posicao = 39 chi2 = 616 (TCCGTGGA)

Quorum = 80 11592 motivos encontrados k = 1 posicao = 69 chi2 = 1156 (TCCGCGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 66

k = 1 posicao = 117 chi2 = 1012 (TCCGTGGA) k = 2 posicao = 38 chi2 = 1177 (TCCGCGGA) k = 2 posicao = 69 chi2 = 1061 (TCCGTGGA) k = 3 posicao = 76 chi2 = 893 (TCCGCGGA) k = 3 posicao = 53 chi2 = 817 (TCCGTGGA) k = 4 posicao = 131 chi2 = 526 (TCCGCGGA) k = 4 posicao = 61 chi2 = 638 (TCCGTGGA)

Quorum = 75 17555 motivos encontrados k = 1 posicao = 210 chi2 = 1109 (TCCGCGGA) k = 1 posicao = 265 chi2 = 1061 (TCCGTGGA) k = 2 posicao = 78 chi2 = 115 (TCCGCGGA) k = 2 posicao = 102 chi2 = 1109 (TCCGTGGA) k = 3 posicao = 184 chi2 = 905 (TCCGCGGA) k = 3 posicao = 105 chi2 = 85 (TCCGTGGA) k = 4 posicao = 424 chi2 = 451 (TCCGCGGA) k = 4 posicao = 476 chi2 = 582 (TCCGTGGA)

Quorum = 60 26303 motivos encontrados k = 1 posicao = 433 chi2 = 1118 (TCCGCGGA) k = 1 posicao = 521 chi2 = 991 (TCCGTGGA) k = 2 posicao = 237 chi2 = 1064 (TCCGCGGA) k = 2 posicao = 322 chi2 = 1045 (TCCGTGGA) k = 3 posicao = 316 chi2 = 95 (TCCGCGGA) k = 3 posicao = 415 chi2 = 827 (TCCGTGGA) k = 4 posicao = 978 chi2 = 49 (TCCGCGGA) k = 4 posicao = 1277 chi2 = 616 (TCCGTGGA)

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

328 motivos encontrados Quorum = 80

685 motivos encontrados Quorum = 75

685 motivos encontrados Quorum = 60

1319 motivos encontrados k = 1 posicao = 4 chi2 = 411 (TCCGTGGA) k = 2 posicao = 2 chi2 = 421 (TCCGTGGA) k = 3 posicao = 2 chi2 = 407 (TCCGTGGA) k = 4 posicao = 3 chi2 = 354 (TCCGTGGA)

Erro = 1 Quorum = 100

9298 motivos encontrados k = 1 posicao = 95 chi2 = 631 (TCCGAGGA) k = 1 posicao = 63 chi2 = 675 (TCCGCGGA) k = 1 posicao = 75 chi2 = 678 (TCCGTGGA) k = 2 posicao = 51 chi2 = 61 (TCCGAGGA) k = 2 posicao = 25 chi2 = 745 (TCCGCGGA) k = 2 posicao = 22 chi2 = 718 (TCCGTGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 67

k = 3 posicao = 38 chi2 = 538 (TCCGAGGA) k = 3 posicao = 68 chi2 = 543 (TCCGCGGA) k = 3 posicao = 64 chi2 = 57 (TCCGTGGA) k = 4 posicao = 48 chi2 = 529 (TCCGAGGA) k = 4 posicao = 161 chi2 = 389 (TCCGCGGA) k = 4 posicao = 78 chi2 = 477 (TCCGTGGA)

Quorum = 80 18263 motivos encontrados k = 1 posicao = 551 chi2 = 592 (TCCGAGGA) k = 1 posicao = 147 chi2 = 754 (TCCGCGGA) k = 1 posicao = 282 chi2 = 647 (TCCGTGGA) k = 2 posicao = 296 chi2 = 605 (TCCGAGGA) k = 2 posicao = 143 chi2 = 715 (TCCGCGGA) k = 2 posicao = 182 chi2 = 681 (TCCGTGGA) k = 3 posicao = 589 chi2 = 511 (TCCGAGGA) k = 3 posicao = 347 chi2 = 553 (TCCGCGGA) k = 3 posicao = 245 chi2 = 59 (TCCGTGGA) k = 4 posicao = 429 chi2 = 462 (TCCGAGGA) k = 4 posicao = 944 chi2 = 401 (TCCGCGGA) k = 4 posicao = 577 chi2 = 41 (TCCGTGGA)

Quorum = 75 18263 motivos encontrados k = 1 posicao = 790 chi2 = 6 (TCCGAGGA) k = 1 posicao = 168 chi2 = 706 (TCCGCGGA) k = 1 posicao = 451 chi2 = 631 (TCCGTGGA) k = 2 posicao = 195 chi2 = 623 (TCCGAGGA) k = 2 posicao = 152 chi2 = 695 (TCCGCGGA) k = 2 posicao = 155 chi2 = 686 (TCCGTGGA) k = 3 posicao = 159 chi2 = 546 (TCCGAGGA) k = 3 posicao = 286 chi2 = 546 (TCCGCGGA) k = 3 posicao = 281 chi2 = 585 (TCCGTGGA) k = 4 posicao = 342 chi2 = 46 (TCCGAGGA) k = 4 posicao = 562 chi2 = 381 (TCCGCGGA) k = 4 posicao = 632 chi2 = 401 (TCCGTGGA)

Quorum = 60 35494 motivos encontrados k = 1 posicao = 1806 chi2 = 548 (TCCGAGGA) k = 1 posicao = 1580 chi2 = 65 (TCCGCGGA) k = 1 posicao = 1668 chi2 = 595 (TCCGTGGA) k = 2 posicao = 1224 chi2 = 592 (TCCGAGGA) k = 2 posicao = 794 chi2 = 701 (TCCGCGGA) k = 2 posicao = 991 chi2 = 658 (TCCGTGGA) k = 3 posicao = 1647 chi2 = 536 (TCCGAGGA) k = 3 posicao = 2029 chi2 = 546 (TCCGCGGA) k = 3 posicao = 1118 chi2 = 57 (TCCGTGGA) k = 4 posicao = 1549 chi2 = 502 (TCCGAGGA) k = 4 posicao = 2429 chi2 = 385 (TCCGCGGA) k = 4 posicao = 2813 chi2 = 429 (TCCGTGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 68

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 69

Anexo B Comparaccedilatildeo da Significacircncia Estatiacutestica referente agrave Abundacircncia obtida pelo

Meacutetodo de Shuffling e pelo Meacutetodo Analiacutetico

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos a comparaccedilatildeo entre o valor do chi2 obtido pelo meacutetodo de shuffling e o valor obtido pelo meacutetodo analiacutetico

Cada linha diz respeito a dados em que se conserva um determinado k-mer (k) Em cada uma eacute apresentado o valor do chi2 obtido pelo meacutetodo de shuffling (chi2) e a sua posiccedilatildeo relativa na lista de motivos ordenada por valores decrescentes de chi2 face ao nuacutemero de motivos extraiacutedos Os valores acima referidos tambeacutem satildeo apresentados para o meacutetodo analiacutetico (achi2)

10_2_YRR1 Motivo TTCCGTGGAA TTCCGCGGAT TTCCGCGGAA Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=488 (633 in 8908) achi2=476 (745 in 8908) [TTCCGCGGAA]

K=2 chi2=465 (468 in 8908) achi2=464 (509 in 8908) [TTCCGCGGAA]

K=3 chi2=412 (201 in 8908) achi2=413 (230 in 8908) [TTCCGCGGAA]

K=4 chi2=253 (223 in 8908) achi2=278 (205 in 8908) [TTCCGCGGAA]

K=5 chi2=126 (277 in 8912) achi2=143 (291 in 8912) [TTCCGCGGAA]

K=6 chi2=039 (323 in 8912) achi2=041 (1035 in 8912) [TTCCGCGGAA]

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 70

Error = 1

Quorum = 80

K=1 chi2=388 (428 in 17722) achi2=387 (504 in 17722) [ACCCTAAAGGT]

K=1 chi2=474 (246 in 17722) achi2=483 (265 in 17722) [ACCTTAAAGGT]

K=2 chi2=394 (222 in 17722) achi2=389 (248 in 17722) [ACCCTAAAGGT]

K=2 chi2=474 (111 in 17722) achi2=484 (119 in 17722) [ACCTTAAAGGT]

K=3 chi2=400 (51 in 17722) achi2=391 (61 in 17722) [ACCCTAAAGGT]

K=3 chi2=477 (12 in 17722) achi2=485 (14 in 17722) [ACCTTAAAGGT]

K=4 chi2=394 (28 in 17722) achi2=387 (31 in 17722) [ACCCTAAAGGT]

K=4 chi2=488 (4 in 17722) achi2=485 (4 in 17722) [ACCTTAAAGGT]

K=5 chi2=326 (24 in 17722) achi2=343 (29 in 17722) [ACCCTAAAGGT]

K=5 chi2=435 (7 in 17722) achi2=462 (3 in 17722) [ACCTTAAAGGT]

K=6 chi2=071 (387 in 17722) achi2=282 (276 in 17722) [ACCCTAAAGGT]

K=6 chi2=310 (2 in 17722) achi2=431 (259 in 17722) [ACCTTAAAGGT]

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=344 (91 in 1316) achi2=314 (116 in 1316) [CCCCT]

K=2 chi2=187 (183 in 1316) achi2=194 (178 in 1316) [CCCCT]

K=3 chi2=164 (138 in 1316) achi2=140 (190 in 1316) [CCCCT]

K=4 chi2=088 (186 in 1316) achi2=104 (150 in 1316) [CCCCT]

Error = 1

Quorum = 60

K=1 chi2=056 (18487 in 35258) achi2=082 (15627 in 35258) [CCCCT]

K=2 chi2=000 (34670 in 35258) achi2=000 (34292 in 35258) [CCCCT]

K=3 chi2=007 (27587 in 35258) achi2=011 (25832 in 35258) [CCCCT]

K=4 chi2=044 (14195 in 35258) achi2=044 (14486 in 35258) [CCCCT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 71

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=534 (66 in 826) achi2=523 (72 in 826) [CCCCT]

K=2 chi2=290 (76 in 826) achi2=297 (75 in 826) [CCCCT]

K=3 chi2=159 (97 in 826) achi2=152 (105 in 826) [CCCCT]

K=4 chi2=022 (242 in 826) achi2=007 (382 in 826) [CCCCT]

K=5 chi2=000 (360 in 826) achi2=000 (339 in 826) [CCCCT]

K=6 chi2=000 (331 in 826) achi2=000 (604 in 826) [CCCCT]

Error = 1

Quorum = 60

K=1 chi2=372 (2640 in 21544) achi2=462 (2153 in 21544) [CCCCT]

K=2 chi2=041 (10937 in 21544) achi2=070 (8620 in 21544) [CCCCT]

K=3 chi2=000 (20651 in 21544) achi2=000 (20723 in 21544) [CCCCT]

K=4 chi2=080 (4245 in 21544) achi2=083 (4322 in 21544) [CCCCT]

K=5 chi2=000 (19590 in 21562) achi2=000 (20653 in 21562) [CCCCT]

K=6 chi2=000 (16728 in 21562) achi2=000 (21282 in 21562) [CCCCT]

5_1_Gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=080 (3213 in 6121) achi2=079 (3260 in 6121) [CATCC]

K=1 chi2=1188 (320 in 6121) achi2=1158 (344 in 6121) [CTTCC]

K=2 chi2=180 (1552 in 6121) achi2=161 (1763 in 6121) [CATCC]

K=2 chi2=504 (498 in 6121) achi2=470 (566 in 6121) [CTTCC]

K=3 chi2=205 (809 in 6121) achi2=192 (906 in 6121) [CATCC]

K=3 chi2=102 (1713 in 6121) achi2=109 (1663 in 6121) [CTTCC]

K=4 chi2=097 (929 in 6121) achi2=091 (1091 in 6121) [CATCC]

K=4 chi2=001 (5090 in 6121) achi2=001 (5126 in 6121) [CTTCC]

K=5 chi2=000 (5948 in 6121) achi2=000 (5152 in 6121) [CATCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 72

K=5 chi2=000 (4578 in 6121) achi2=000 (5000 in 6121) [CTTCC]

K=6 chi2=000 (5634 in 6121) achi2=000 (5438 in 6121) [CATCC]

K=6 chi2=000 (2279 in 6121) achi2=000 (5149 in 6121) [CTTCC]

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 chi2=292 (2311 in 10819) achi2=273 (2534 in 10819) [GATAAG]

K=1 chi2=131 (4204 in 10819) achi2=102 (4875 in 10819) [GATTAG]

K=2 chi2=499 (766 in 10819) achi2=493 (849 in 10819) [GATAAG]

K=2 chi2=280 (1760 in 10819) achi2=268 (1952 in 10819) [GATTAG]

K=3 chi2=168 (2077 in 10819) achi2=174 (2107 in 10819) [GATAAG]

K=3 chi2=953 (62 in 10819) achi2=925 (81 in 10819) [GATTAG]

K=4 chi2=014 (6803 in 10819) achi2=009 (7567 in 10819) [GATAAG]

K=4 chi2=309 (394 in 10819) achi2=352 (328 in 10819) [GATTAG]

K=5 chi2=001 (8734 in 10819) achi2=003 (7728 in 10819) [GATAAG]

K=5 chi2=176 (429 in 10819) achi2=159 (773 in 10819) [GATTAG]

K=6 chi2=000 (9825 in 10819) achi2=000 (6602 in 10819) [GATAAG]

K=6 chi2=000 (7459 in 10819) achi2=000 (6760 in 10819) [GATTAG]

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

Error = 1

Quorum = 60

K=1 chi2=382 (3218 in 20531) achi2=555 (2348 in 20531) [CACCCA]

k=1 chi2=083 (9754 in 20531) achi2=102 (9117 in 20531) [CACCCG]

K=2 chi2=330 (2327 in 20531) achi2=368 (2233 in 20531) [CACCCA]

K=2 chi2=143 (5707 in 20531) achi2=117 (6956 in 20531) [CACCCG]

K=3 chi2=209 (2208 in 20531) achi2=223 (2249 in 20531) [CACCCA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 73

K=3 chi2=040 (9516 in 20531) achi2=023 (12243 in 20531) [CACCCG]

K=4 chi2=071 (4649 in 20531) achi2=105 (3457 in 20531) [CACCCA]

K=4 chi2=000 (19099 in 20531) achi2=002 (17523 in 20531) [CACCCG]

7_0_REB1 Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 chi2=549 (29 in 405) achi2=586 (33 in 405) [TTACCC]

K=2 chi2=688 (6 in 405) achi2=635 (12 in 405) [TTACCC]

K=3 chi2=706 (2 in 405) achi2=679 (2 in 405) [TTACCC]

K=4 chi2=373 (3 in 405) achi2=402 (3 in 405) [TTACCC]

K=5 chi2=034 (7 in 405) achi2=020 (8 in 405) [TTACCC]

K=6 chi2=000 (383 in 405) achi2=000 (232 in 405) [TTACCC]

Error = 1

Quorum = 80

K=1 chi2=133 (3134 in 10337) achi2=169 (2743 in 10337) [TTACCC]

K=2 chi2=302 (657 in 10337) achi2=267 (945 in 10337) [TTACCC]

K=3 chi2=409 (106 in 10337) achi2=394 (170 in 10337) [TTACCC]

K=4 chi2=082 (1439 in 10337) achi2=109 (1091 in 10337) [TTACCC]

K=5 chi2=002 (7204 in 10337) achi2=003 (6765 in 10337) [TTACCC]

K=6 chi2=000 (10150 in 10337) achi2=000 (6299 in 10337) [TTACCC]

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=626 (58 in 785) achi2=615 (64 in 785) [TGCCAAG]

K=2 chi2=610 (11 in 785) achi2=585 (14 in 785) [TGCCAAG]

K=3 chi2=561 (8 in 785) achi2=575 (6 in 785) [TGCCAAG]

K=4 chi2=399 (4 in 785) achi2=377 (6 in 785) [TGCCAAG]

K=5 chi2=184 (8 in 785) achi2=157 (10 in 785) [TGCCAAG]

K=6 chi2=054 (5 in 785) achi2=055 (255 in 785) [TGCCAAG]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 74

Error = 1

Quorum = 60

K=1 chi2=463 (1914 in 20257) achi2=458 (2166 in 20257) [TGCCAAG]

K=2 chi2=292 (1694 in 20257) achi2=287 (1959 in 20257) [TGCCAAG]

K=3 chi2=252 (1158 in 20257) achi2=270 (1060 in 20257) [TGCCAAG]

K=4 chi2=038 (8072 in 20257) achi2=030 (9306 in 20257) [TGCCAAG]

K=5 chi2=002 (15272 in 20366) achi2=004 (14013 in 20366) [TGCCAAG]

K=6 chi2=009 (5877 in 20366) achi2=029 (4589 in 20366) [TGCCAAG]

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

K=1 chi2=1035 (5 in 267) achi2=996 (6 in 267) [TGAAACA]

K=2 chi2=961 (1 in 267) achi2=905 (1 in 267) [TGAAACA]

K=3 chi2=934 (1 in 267) achi2=884 (1 in 267) [TGAAACA]

K=4 chi2=794 (1 in 267) achi2=731 (1 in 267) [TGAAACA]

K=5 chi2=264 (2 in 267) achi2=320 (1 in 267) [TGAAACA]

K=6 chi2=044 (3 in 267) achi2=052 (168 in 267) [TGAAACA]

Error = 1

Quorum = 100

K=1 chi2=448 (515 in 7705) achi2=400 (675 in 7705) [TGAAACA]

K=2 chi2=168 (1047 in 7705) achi2=157 (1246 in 7705) [TGAAACA]

K=3 chi2=159 (637 in 7705) achi2=128 (992 in 7705) [TGAAACA]

K=4 chi2=057 (1734 in 7705) achi2=026 (3100 in 7705) [TGAAACA]

K=5 chi2=015 (2574 in 7705) achi2=021 (2435 in 7705) [TGAAACA]

K=6 chi2=007 (1386 in 7705) achi2=006 (2114 in 7705) [TGAAACA]

7_1_SWI4

Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 75

Quorum = 100

K=1 chi2=927 (53 in 8974) achi2=950 (59 in 8974) [CACGAAA]

K=1 chi2=1447 (8 in 8974) achi2=1516 (9 in 8974) [CGCGAAA]

K=2 chi2=686 (17 in 8974) achi2=638 (22 in 8974) [CACGAAA]

K=2 chi2=940 (4 in 8974) achi2=924 (3 in 8974) [CGCGAAA]

K=3 chi2=456 (46 in 8974) achi2=436 (53 in 8974) [CACGAAA]

K=3 chi2=514 (20 in 8974) achi2=502 (25 in 8974) [CGCGAAA]

K=4 chi2=087 (1329 in 8974) achi2=106 (1095 in 8974) [CACGAAA]

K=4 chi2=343 (41 in 8974) achi2=390 (27 in 8974) [CGCGAAA]

K=5 chi2=012 (3730 in 8974) achi2=000 (7343 in 8974) [CACGAAA]

K=5 chi2=033 (1966 in 8974) achi2=121 (397 in 8974) [CGCGAAA]

K=6 chi2=007 (1861 in 8974) achi2=001 (3810 in 8974) [CACGAAA]

K=6 chi2=002 (3146 in 8974) achi2=044 (873 in 8974) [CGCGAAA]

7_2_RGT1

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=2092 (246 in 6085) achi2=2140 (236 in 6085) [CGGAAAA]

K=1 chi2=810 (799 in 6085) achi2=803 (815 in 6085) [CGGAAGA]

K=1 chi2=1437 (409 in 6085) achi2=1409 (416 in 6085) [CGGAGAA]

K=1 chi2=337 (1833 in 6085) achi2=350 (1782 in 6085) [CGGATAA]

K=2 chi2=837 (251 in 6085) achi2=840 (245 in 6085) [CGGAAAA]

K=2 chi2=451 (648 in 6085) achi2=442 (666 in 6085) [CGGAAGA]

K=2 chi2=989 (186 in 6085) achi2=937 (208 in 6085) [CGGAGAA]

K=2 chi2=432 (698 in 6085) achi2=428 (695 in 6085) [CGGATAA]

K=3 chi2=281 (367 in 6085) achi2=272 (385 in 6085) [CGGAAAA]

K=3 chi2=242 (473 in 6085) achi2=225 (546 in 6085) [CGGAAGA]

K=3 chi2=580 (76 in 6085) achi2=544 (89 in 6085) [CGGAGAA]

K=3 chi2=366 (216 in 6085) achi2=309 (299 in 6085) [CGGATAA]

K=4 chi2=013 (3127 in 6085) achi2=022 (2503 in 6085) [CGGAAAA]

K=4 chi2=039 (1619 in 6085) achi2=040 (1722 in 6085) [CGGAAGA]

K=4 chi2=320 (35 in 6085) achi2=304 (56 in 6085) [CGGAGAA]

K=4 chi2=193 (166 in 6085) achi2=202 (188 in 6085) [CGGATAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 76

8_1_PDR1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 75

K=1 chi2=901 (25 in 639) achi2=884 (27 in 639) [TCCGCGGA]

K=2 chi2=886 (13 in 639) achi2=883 (14 in 639) [TCCGCGGA]

K=3 chi2=862 (4 in 639) achi2=864 (5 in 639) [TCCGCGGA]

K=4 chi2=659 (2 in 639) achi2=741 (2 in 639) [TCCGCGGA]

K=5 chi2=252 (1 in 639) achi2=306 (1 in 639) [TCCGCGGA]

K=6 chi2=012 (5 in 639) achi2=030 (253 in 639) [TCCGCGGA]

Error = 1

Quorum = 75

K=1 chi2=1388 (184 in 16695) achi2=1370 (211 in 16695) [TCCGCGGA]

K=1 chi2=913 (373 in 16695) achi2=895 (419 in 16695) [TCCGTGGA]

K=2 chi2=1355 (68 in 16695) achi2=1355 (91 in 16695) [TCCGCGGA]

K=2 chi2=952 (199 in 16695) achi2=944 (230 in 16695) [TCCGTGGA]

K=3 chi2=1237 (5 in 16695) achi2=1138 (22 in 16695) [TCCGCGGA]

K=3 chi2=782 (88 in 16695) achi2=771 (119 in 16695) [TCCGTGGA]

K=4 chi2=570 (45 in 16695) achi2=688 (33 in 16695) [TCCGCGGA]

K=4 chi2=544 (53 in 16695) achi2=610 (56 in 16695) [TCCGTGGA]

K=5 chi2=061 (2230 in 16699) achi2=113 (1175 in 16699) [TCCGCGGA]

K=5 chi2=101 (981 in 16699) achi2=207 (328 in 16699) [TCCGTGGA]

K=6 chi2=001 (8600 in 16699) achi2=000 (10541 in 16699) [TCCGCGGA]

K=6 chi2=002 (7065 in 16699) achi2=003 (8326 in 16699) [TCCGTGGA]

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 chi2=995 (22 in 423) achi2=985 (24 in 423) [TCCGCGGA]

K=2 chi2=980 (13 in 423) achi2=985 (13 in 423) [TCCGCGGA]

K=3 chi2=989 (4 in 423) achi2=967 (4 in 423) [TCCGCGGA]

K=4 chi2=741 (1 in 423) achi2=802 (1 in 423) [TCCGCGGA]

K=5 chi2=220 (1 in 423) achi2=303 (1 in 423) [TCCGCGGA]

K=6 chi2=010 (1 in 423) achi2=027 (229 in 423) [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 77

Error = 1

Quorum = 80

K=1 chi2=1609 (169 in 11592) achi2=1592 (187 in 11592) [TCCGCGGA]

K=1 chi2=1090 (327 in 11592) achi2=1109 (353 in 11592) [TCCGTGGA]

K=2 chi2=1634 (63 in 11592) achi2=1584 (97 in 11592) [TCCGCGGA]

K=2 chi2=1148 (174 in 11592) achi2=1142 (197 in 11592) [TCCGTGGA]

K=3 chi2=1333 (20 in 11592) achi2=1364 (24 in 11592) [TCCGCGGA]

K=3 chi2=878 (91 in 11592) achi2=894 (109 in 11592) [TCCGTGGA]

K=4 chi2=784 (26 in 11592) achi2=785 (35 in 11592) [TCCGCGGA]

K=4 chi2=632 (50 in 11592) achi2=689 (52 in 11592) [TCCGTGGA]

K=5 chi2=072 (1370 in 11601) achi2=127 (778 in 11601) [TCCGCGGA]

K=5 chi2=100 (878 in 11601) achi2=146 (618 in 11601) [TCCGTGGA]

K=6 chi2=000 (7969 in 11601) achi2=001 (5475 in 11601) [TCCGCGGA]

K=6 chi2=001 (4626 in 11601) achi2=004 (4674 in 11601) [TCCGTGGA]

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=285 (128 in 1319) achi2=287 (133 in 1319) [TCCGTGGA]

K=2 chi2=294 (89 in 1319) achi2=289 (95 in 1319) [TCCGTGGA]

K=3 chi2=283 (10 in 1319) achi2=278 (15 in 1319) [TCCGTGGA]

K=4 chi2=240 (7 in 1319) achi2=255 (6 in 1319) [TCCGTGGA]

K=5 chi2=122 (16 in 1319) achi2=206 (5 in 1319) [TCCGTGGA]

K=6 chi2=015 (42 in 1319) achi2=084 (269 in 1319) [TCCGTGGA]

Error = 1

Quorum = 60

K=1 chi2=336 (1859 in 35494) achi2=391 (1312 in 35494) [TCCGAGGA]

K=1 chi2=612 (489 in 35494) achi2=660 (442 in 35494) [TCCGCGGA]

K=1 chi2=368 (1518 in 35494) achi2=402 (1240 in 35494) [TCCGTGGA]

K=2 chi2=363 (946 in 35494) achi2=379 (816 in 35494) [TCCGAGGA]

K=2 chi2=636 (218 in 35494) achi2=640 (206 in 35494) [TCCGCGGA]

K=2 chi2=416 (670 in 35494) achi2=428 (599 in 35494) [TCCGTGGA]

K=3 chi2=301 (498 in 35494) achi2=304 (471 in 35494) [TCCGAGGA]

K=3 chi2=515 (41 in 35494) achi2=480 (63 in 35494) [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 78

K=3 chi2=341 (278 in 35494) achi2=329 (327 in 35494) [TCCGTGGA]

K=4 chi2=285 (274 in 35494) achi2=295 (205 in 35494) [TCCGAGGA]

K=4 chi2=300 (198 in 35494) achi2=337 (85 in 35494) [TCCGCGGA]

K=4 chi2=217 (1082 in 35494) achi2=219 (1060 in 35494) [TCCGTGGA]

K=5 chi2=075 (6352 in 35725) achi2=087 (6044 in 35725) [TCCGAGGA]

K=5 chi2=079 (5926 in 35725) achi2=153 (2215 in 35725) [TCCGCGGA]

K=5 chi2=081 (5763 in 35725) achi2=080 (6754 in 35725) [TCCGTGGA]

K=6 chi2=003 (19985 in 35725) achi2=010 (17420 in 35725) [TCCGAGGA]

K=6 chi2=026 (6383 in 35725) achi2=053 (6615 in 35725) [TCCGCGGA]

K=6 chi2=011 (11922 in 35725) achi2=000 (30343 in 35725) [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 79

Anexo C Resultados do Caacutelculo da Significacircncia Estatiacutestica referente agrave Abundacircncia

pelo Meacutetodo Analiacutetico para Conjuntos de Dados de Saccharomyces cerevisiae

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados

A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos os resultados para os motivos procurados em relaccedilatildeo a cada valor dos paracircmetros

Descriccedilatildeo do formato dos resultados

K=ltk-mer conservadogt achi2 = ltchi2 analiacuteticogt (ltposiccedilatildeogt in ltnuacutemero de motivos extraiacutedosgt ltposiccedilatildeo entre motivos do mesmo tamanhogt [motivo]

Nota A posiccedilatildeo do motivo refere-se agrave ordem em que se encontra numa lista ordenada por ordem decrescente de chi2 analiacutetico dos motivos extraiacutedos

10_2_YRR1 Motivo TTCCGTGGAA TTCCGCGGAT TTCCGCGGAA Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=476 (745 in 8908) 13 [TTCCGCGGAA]

K=2 achi2=464 (509 in 8908) 12 [TTCCGCGGAA]

K=3 achi2=413 (230 in 8908) 11 [TTCCGCGGAA]

K=4 achi2=278 (205 in 8908) 10 [TTCCGCGGAA]

K=5 achi2=143 (287 in 8908) 12 [TTCCGCGGAA]

K=6 achi2=041 (1031 in 8908) 15 [TTCCGCGGAA]

K=7 achi2=000 (2230 in 8908) 16 [TTCCGCGGAA]

K=8 achi2=001 (4728 in 8908) 16 [TTCCGCGGAA]

K=9 achi2=001 (7926 in 8908) 16 [TTCCGCGGAA]

K=10 achi2=000 (8782 in 8908) 16 [TTCCGCGGAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 80

K=11 achi2=000 (8903 in 8908) 12 [TTCCGCGGAA]

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 achi2=387 (504 in 17722) 3 [ACCCTAAAGGT]

K=1 achi2=483 (265 in 17722) 2 [ACCTTAAAGGT]

K=2 achi2=389 (248 in 17722) 3 [ACCCTAAAGGT]

K=2 achi2=484 (119 in 17722) 2 [ACCTTAAAGGT]

K=3 achi2=391 (61 in 17722) 3 [ACCCTAAAGGT]

K=3 achi2=485 (14 in 17722) 2 [ACCTTAAAGGT]

K=4 achi2=387 (31 in 17722) 4 [ACCCTAAAGGT]

K=4 achi2=485 (4 in 17722) 2 [ACCTTAAAGGT]

K=5 achi2=343 (29 in 17722) 4 [ACCCTAAAGGT]

K=5 achi2=462 (3 in 17722) 2 [ACCTTAAAGGT]

K=6 achi2=282 (276 in 17722) 4 [ACCCTAAAGGT]

K=6 achi2=431 (259 in 17722) 2 [ACCTTAAAGGT]

K=7 achi2=063 (1455 in 17722) 4 [ACCCTAAAGGT]

K=7 achi2=197 (1286 in 17722) 3 [ACCTTAAAGGT]

K=8 achi2=004 (5422 in 17722) 3 [ACCCTAAAGGT]

K=8 achi2=005 (5392 in 17722) 1 [ACCTTAAAGGT]

K=9 achi2=000 (13376 in 17722) 3 [ACCCTAAAGGT]

K=9 achi2=005 (13364 in 17722) 1 [ACCTTAAAGGT]

K=10 achi2=000 (17186 in 17722) 3 [ACCCTAAAGGT]

K=10 achi2=000 (17184 in 17722) 1 [ACCTTAAAGGT]

K=11 achi2=000 (17688 in 17722) 3 [ACCCTAAAGGT]

K=11 achi2=000 (17686 in 17722) 1 [ACCTTAAAGGT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 81

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=523 (72 in 826) 21 [CCCCT]

K=2 achi2=297 (75 in 826) 23 [CCCCT]

K=3 achi2=152 (105 in 826) 55 [CCCCT]

K=4 achi2=007 (382 in 826) 310 [CCCCT]

K=5 achi2=000 (339 in 826) 245 [CCCCT]

K=6 achi2=000 (604 in 826) 255 [CCCCT]

Error = 1

Quorum = 60

K=1 achi2=462 (2153 in 21544) 223 [CCCCT]

K=2 achi2=070 (8620 in 21544) 476 [CCCCT]

K=3 achi2=000 (20723 in 21544) 986 [CCCCT]

K=4 achi2=083 (4322 in 21544) 81 [CCCCT]

K=5 achi2=000 (20635 in 21544) 618 [CCCCT]

K=6 achi2=000 (21264 in 21544) 744 [CCCCT]

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=314 (116 in 1316) 27 [CCCCT]

K=2 achi2=194 (178 in 1316) 39 [CCCCT]

K=3 achi2=140 (190 in 1316) 42 [CCCCT]

K=4 achi2=104 (150 in 1316) 19 [CCCCT]

K=5 achi2=000 (576 in 1316) 111 [CCCCT]

K=6 achi2=000 (1113 in 1316) 392 [CCCCT]

K=7 achi2=901 (324 in 1316) 94 [CCCCT]

K=8 achi2=901 (340 in 1316) 94 [CCCCT]

K=9 achi2=901 (341 in 1316) 94 [CCCCT]

K=10 achi2=901 (342 in 1316) 94 [CCCCT]

K=11 achi2=901 (343 in 1316) 94 [CCCCT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 82

Error = 1

Quorum = 60

K=1 achi2=082 (15627 in 35258) 568 [CCCCT]

K=2 achi2=000 (34292 in 35258) 986 [CCCCT]

K=3 achi2=011 (25832 in 35258) 671 [CCCCT]

K=4 achi2=044 (14486 in 35258) 144 [CCCCT]

K=5 achi2=000 (34387 in 35258) 626 [CCCCT]

K=6 achi2=000 (34560 in 35258) 326 [CCCCT]

5_1_Gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=079 (3260 in 6121) 599 [CATCC]

K=1 achi2=1158 (344 in 6121) 50 [CTTCC]

K=2 achi2=161 (1763 in 6121) 312 [CATCC]

K=2 achi2=470 (566 in 6121) 105 [CTTCC]

K=3 achi2=192 (906 in 6121) 128 [CATCC]

K=3 achi2=109 (1663 in 6121) 248 [CTTCC]

K=4 achi2=091 (1091 in 6121) 97 [CATCC]

K=4 achi2=001 (5126 in 6121) 870 [CTTCC]

K=5 achi2=000 (5152 in 6121) 372 [CATCC]

K=5 achi2=000 (5000 in 6121) 230 [CTTCC]

K=6 achi2=000 (5438 in 6121) 341 [CATCC]

K=6 achi2=000 (5149 in 6121) 52 [CTTCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 83

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 achi2=273 (2534 in 10819) 831 [GATAAG]

K=1 achi2=102 (4875 in 10819) 1698 [GATTAG]

K=2 achi2=493 (849 in 10819) 251 [GATAAG]

K=2 achi2=268 (1952 in 10819) 593 [GATTAG]

K=3 achi2=174 (2107 in 10819) 675 [GATAAG]

K=3 achi2=925 (81 in 10819) 12 [GATTAG]

K=4 achi2=009 (7567 in 10819) 2712 [GATAAG]

K=4 achi2=352 (328 in 10819) 59 [GATTAG]

K=5 achi2=003 (7728 in 10819) 3046 [GATAAG]

K=5 achi2=159 (773 in 10819) 110 [GATTAG]

K=6 achi2=000 (6602 in 10819) 761 [GATAAG]

K=6 achi2=000 (6760 in 10819) 917 [GATTAG]

K=7 achi2=000 (10606 in 10819) 3684 [GATAAG]

K=7 achi2=000 (8570 in 10819) 1648 [GATTAG]

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

Error = 1

Quorum = 60

K=1 achi2=555 (2348 in 20531) 456 [CACCCA]

K=1 achi2=102 (9117 in 20531) 2005 [CACCCG]

K=2 achi2=368 (2233 in 20531) 460 [CACCCA]

K=2 achi2=117 (6956 in 20531) 1498 [CACCCG]

K=3 achi2=223 (2249 in 20531) 392 [CACCCA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 84

K=3 achi2=023 (12243 in 20531) 2397 [CACCCG]

K=4 achi2=105 (3457 in 20531) 482 [CACCCA]

K=4 achi2=002 (17523 in 20531) 3457 [CACCCG]

K=5 achi2=006 (13001 in 20531) 2409 [CACCCA]

K=5 achi2=048 (5016 in 20531) 610 [CACCCG]

K=6 achi2=000 (17016 in 20531) 1751 [CACCCA]

K=6 achi2=000 (18636 in 20531) 3343 [CACCCG]

K=7 achi2=000 (17654 in 20531) 1218 [CACCCA]

K=7 achi2=000 (18327 in 20531) 1891 [CACCCG]

7_0_REB1 Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 achi2=586 (33 in 405) 5 [TTACCC]

K=2 achi2=635 (12 in 405) 1 [TTACCC]

K=3 achi2=679 (2 in 405) 1 [TTACCC]

K=4 achi2=402 (3 in 405) 2 [TTACCC]

K=5 achi2=020 (8 in 405) 7 [TTACCC]

K=6 achi2=000 (232 in 405) 8 [TTACCC]

K=7 achi2=000 (402 in 405) 8 [TTACCC]

Error = 1

Quorum = 80

K=1 achi2=169 (2742 in 10337) 933 [TTACCC]

K=2 achi2=267 (945 in 10337) 284 [TTACCC]

K=3 achi2=394 (170 in 10337) 25 [TTACCC]

K=4 achi2=109 (1091 in 10337) 246 [TTACCC]

K=5 achi2=003 (6765 in 10337) 2619 [TTACCC]

K=6 achi2=000 (6295 in 10337) 852 [TTACCC]

K=7 achi2=000 (9863 in 10337) 3333 [TTACCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 85

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=615 (64 in 785) 12 [TGCCAAG]

K=2 achi2=585 (14 in 785) 3 [TGCCAAG]

K=3 achi2=575 (6 in 785) 2 [TGCCAAG]

K=4 achi2=377 (6 in 785) 2 [TGCCAAG]

K=5 achi2=157 (10 in 785) 5 [TGCCAAG]

K=6 achi2=055 (255 in 785) 4 [TGCCAAG]

K=7 achi2=000 (652 in 785) 18 [TGCCAAG]

K=8 achi2=000 (771 in 785) 15 [TGCCAAG]

Error = 1

Quorum = 60

K=1 achi2=458 (2166 in 20257) 407 [TGCCAAG]

K=2 achi2=287 (1959 in 20257) 462 [TGCCAAG]

K=3 achi2=270 (1060 in 20257) 241 [TGCCAAG]

K=4 achi2=030 (9306 in 20257) 3695 [TGCCAAG]

K=5 achi2=004 (13915 in 20257) 6353 [TGCCAAG]

K=6 achi2=029 (4512 in 20257) 1713 [TGCCAAG]

K=7 achi2=003 (5275 in 20257) 36 [TGCCAAG]

K=8 achi2=000 (12401 in 20257) 1099 [TGCCAAG]

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

K=1 achi2=996 (6 in 267) 1 [TGAAACA]

K=2 achi2=905 (1 in 267) 1 [TGAAACA]

K=3 achi2=884 (1 in 267) 1 [TGAAACA]

K=4 achi2=731 (1 in 267) 1 [TGAAACA]

K=5 achi2=320 (1 in 267) 1 [TGAAACA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 86

K=6 achi2=052 (168 in 267) 2 [TGAAACA]

K=7 achi2=000 (254 in 267) 1 [TGAAACA]

K=8 achi2=000 (266 in 267) 2 [TGAAACA]

Error = 1

Quorum = 100

K=1 achi2=400 (675 in 7705) 162 [TGAAACA]

K=2 achi2=157 (1246 in 7705) 402 [TGAAACA]

K=3 achi2=128 (992 in 7705) 375 [TGAAACA]

K=4 achi2=026 (3100 in 7705) 1267 [TGAAACA]

K=5 achi2=021 (2435 in 7705) 1154 [TGAAACA]

K=6 achi2=006 (2114 in 7705) 1435 [TGAAACA]

K=7 achi2=000 (2095 in 7705) 260 [TGAAACA]

K=8 achi2=000 (6802 in 7705) 1861 [TGAAACA]

7_1_SWI4 Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=950 (59 in 8974) 15 [CACGAAA]

K=1 achi2=1516 (9 in 8974) 2 [CGCGAAA]

K=2 achi2=638 (22 in 8974) 7 [CACGAAA]

K=2 achi2=924 (3 in 8974) 1 [CGCGAAA]

K=3 achi2=436 (53 in 8974) 25 [CACGAAA]

K=3 achi2=502 (25 in 8974) 10 [CGCGAAA]

K=4 achi2=106 (1095 in 8974) 476 [CACGAAA]

K=4 achi2=390 (27 in 8974) 9 [CGCGAAA]

K=5 achi2=000 (7343 in 8974) 3297 [CACGAAA]

K=5 achi2=121 (397 in 8974) 176 [CGCGAAA]

K=6 achi2=001 (3810 in 8974) 2702 [CACGAAA]

K=6 achi2=044 (873 in 8974) 314 [CGCGAAA]

K=7 achi2=000 (2384 in 8974) 205 [CACGAAA]

K=7 achi2=000 (2371 in 8974) 194 [CGCGAAA]

K=8 achi2=000 (8531 in 8974) 3025 [CACGAAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 87

K=8 achi2=000 (5630 in 8974) 124 [CGCGAAA]

7_2_RGT1

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=2140 (236 in 6085) 74 [CGGAAAA]

K=1 achi2=803 (815 in 6085) 253 [CGGAAGA]

K=1 achi2=1409 (416 in 6085) 129 [CGGAGAA]

K=1 achi2=350 (1782 in 6085) 511 [CGGATAA]

K=2 achi2=840 (245 in 6085) 67 [CGGAAAA]

K=2 achi2=442 (666 in 6085) 169 [CGGAAGA]

K=2 achi2=937 (208 in 6085) 55 [CGGAGAA]

K=2 achi2=428 (695 in 6085) 175 [CGGATAA]

K=3 achi2=272 (385 in 6085) 126 [CGGAAAA]

K=3 achi2=225 (546 in 6085) 173 [CGGAAGA]

K=3 achi2=544 (89 in 6085) 28 [CGGAGAA]

K=3 achi2=309 (299 in 6085) 100 [CGGATAA]

K=4 achi2=022 (2503 in 6085) 821 [CGGAAAA]

K=4 achi2=040 (1722 in 6085) 598 [CGGAAGA]

K=4 achi2=304 (56 in 6085) 23 [CGGAGAA]

K=4 achi2=202 (188 in 6085) 81 [CGGATAA]

K=5 achi2=003 (3495 in 6085) 1206 [CGGAAAA]

K=5 achi2=019 (1882 in 6085) 749 [CGGAAGA]

K=5 achi2=238 (34 in 6085) 12 [CGGAGAA]

K=5 achi2=138 (154 in 6085) 74 [CGGATAA]

K=6 achi2=009 (1192 in 6085) 744 [CGGAAAA]

K=6 achi2=031 (682 in 6085) 300 [CGGAAGA]

K=6 achi2=057 (459 in 6085) 122 [CGGAGAA]

K=6 achi2=042 (550 in 6085) 191 [CGGATAA]

K=7 achi2=000 (1608 in 6085) 53 [CGGAAAA]

K=7 achi2=000 (2439 in 6085) 861 [CGGAAGA]

K=7 achi2=000 (2150 in 6085) 572 [CGGAGAA]

K=7 achi2=000 (2472 in 6085) 894 [CGGATAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 88

K=8 achi2=000 (6056 in 6085) 1512 [CGGAAAA]

K=8 achi2=000 (5728 in 6085) 1184 [CGGAAGA]

K=8 achi2=000 (5127 in 6085) 583 [CGGAGAA]

K=8 achi2=000 (5961 in 6085) 1417 [CGGATAA]

8_1_PDR1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 75

K=1 achi2=884 (27 in 639) 1 [TCCGCGGA]

K=2 achi2=883 (14 in 639) 1 [TCCGCGGA]

K=3 achi2=864 (5 in 639) 1 [TCCGCGGA]

K=4 achi2=741 (2 in 639) 1 [TCCGCGGA]

K=5 achi2=306 (1 in 639) 1 [TCCGCGGA]

K=6 achi2=030 (253 in 639) 1 [TCCGCGGA]

K=7 achi2=012 (587 in 639) 1 [TCCGCGGA]

K=8 achi2=000 (633 in 639) 1 [TCCGCGGA]

K=9 achi2=000 (639 in 639) 1 [TCCGCGGA]

Error = 1

Quorum = 75

K=1 achi2=1370 (211 in 16695) 48 [TCCGCGGA]

K=1 achi2=895 (419 in 16695) 111 [TCCGTGGA]

K=2 achi2=1355 (91 in 16695) 26 [TCCGCGGA]

K=2 achi2=944 (230 in 16695) 59 [TCCGTGGA]

K=3 achi2=1138 (22 in 16695) 13 [TCCGCGGA]

K=3 achi2=771 (119 in 16695) 39 [TCCGTGGA]

K=4 achi2=688 (33 in 16695) 9 [TCCGCGGA]

K=4 achi2=610 (56 in 16695) 18 [TCCGTGGA]

K=5 achi2=113 (1171 in 16695) 496 [TCCGCGGA]

K=5 achi2=207 (324 in 16695) 135 [TCCGTGGA]

K=6 achi2=000 (10537 in 16695) 2237 [TCCGCGGA]

K=6 achi2=003 (8322 in 16695) 1955 [TCCGTGGA]

K=7 achi2=000 (4060 in 16695) 2312 [TCCGCGGA]

K=7 achi2=000 (4066 in 16695) 2318 [TCCGTGGA]

K=8 achi2=000 (5835 in 16695) 174 [TCCGCGGA]

K=8 achi2=000 (6050 in 16695) 389 [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 89

K=9 achi2=000 (15679 in 16695) 1375 [TCCGCGGA]

K=9 achi2=000 (14892 in 16695) 588 [TCCGTGGA]

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 achi2=985 (24 in 423) 1 [TCCGCGGA]

K=2 achi2=985 (13 in 423) 1 [TCCGCGGA]

K=3 achi2=967 (4 in 423) 1 [TCCGCGGA]

K=4 achi2=802 (1 in 423) 1 [TCCGCGGA]

K=5 achi2=303 (1 in 423) 1 [TCCGCGGA]

K=6 achi2=027 (229 in 423) 1 [TCCGCGGA]

K=7 achi2=013 (401 in 423) 1 [TCCGCGGA]

K=8 achi2=000 (420 in 423) 1 [TCCGCGGA]

K=9 achi2=000 (423 in 423) 1 [TCCGCGGA]

Error = 1

Quorum = 80

K=1 achi2=1592 (187 in 11592) 35 [TCCGCGGA]

K=1 achi2=1109 (353 in 11592) 83 [TCCGTGGA]

K=2 achi2=1584 (97 in 11592) 25 [TCCGCGGA]

K=2 achi2=1142 (197 in 11592) 44 [TCCGTGGA]

K=3 achi2=1364 (24 in 11592) 9 [TCCGCGGA]

K=3 achi2=894 (109 in 11592) 35 [TCCGTGGA]

K=4 achi2=785 (35 in 11592) 11 [TCCGCGGA]

K=4 achi2=689 (52 in 11592) 16 [TCCGTGGA]

K=5 achi2=127 (769 in 11592) 243 [TCCGCGGA]

K=5 achi2=146 (609 in 11592) 204 [TCCGTGGA]

K=6 achi2=001 (5466 in 11592) 879 [TCCGCGGA]

K=6 achi2=004 (4665 in 11592) 789 [TCCGTGGA]

K=7 achi2=000 (2570 in 11592) 968 [TCCGCGGA]

K=7 achi2=000 (2517 in 11592) 941 [TCCGTGGA]

K=8 achi2=000 (5547 in 11592) 157 [TCCGCGGA]

K=8 achi2=000 (5666 in 11592) 276 [TCCGTGGA]

K=9 achi2=000 (10744 in 11592) 135 [TCCGCGGA]

K=9 achi2=000 (11041 in 11592) 432 [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 90

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=287 (133 in 1319) 8 [TCCGTGGA]

K=2 achi2=289 (95 in 1319) 5 [TCCGTGGA]

K=3 achi2=278 (15 in 1319) 2 [TCCGTGGA]

K=4 achi2=255 (6 in 1319) 1 [TCCGTGGA]

K=5 achi2=206 (5 in 1319) 2 [TCCGTGGA]

K=6 achi2=084 (269 in 1319) 7 [TCCGTGGA]

K=7 achi2=000 (897 in 1319) 17 [TCCGTGGA]

K=8 achi2=000 (1232 in 1319) 8 [TCCGTGGA]

K=9 achi2=000 (1303 in 1319) 1 [TCCGTGGA]

Error = 1

Quorum = 60

K=1 achi2=391 (1312 in 35494) 312 [TCCGAGGA]

K=1 achi2=660 (442 in 35494) 89 [TCCGCGGA]

K=1 achi2=402 (1240 in 35494) 301 [TCCGTGGA]

K=2 achi2=379 (816 in 35494) 174 [TCCGAGGA]

K=2 achi2=640 (206 in 35494) 48 [TCCGCGGA]

K=2 achi2=428 (599 in 35494) 123 [TCCGTGGA]

K=3 achi2=304 (471 in 35494) 120 [TCCGAGGA]

K=3 achi2=480 (63 in 35494) 10 [TCCGCGGA]

K=3 achi2=329 (327 in 35494) 87 [TCCGTGGA]

K=4 achi2=295 (205 in 35494) 61 [TCCGAGGA]

K=4 achi2=337 (85 in 35494) 28 [TCCGCGGA]

K=4 achi2=219 (1060 in 35494) 257 [TCCGTGGA]

K=5 achi2=087 (5828 in 35494) 2082 [TCCGAGGA]

K=5 achi2=153 (2062 in 35494) 521 [TCCGCGGA]

K=5 achi2=080 (6534 in 35494) 2399 [TCCGTGGA]

K=6 achi2=010 (17189 in 35494) 7240 [TCCGAGGA]

K=6 achi2=053 (6392 in 35494) 2378 [TCCGCGGA]

K=6 achi2=000 (30112 in 35494) 12027 [TCCGTGGA]

K=7 achi2=006 (9736 in 35494) 4698 [TCCGAGGA]

K=7 achi2=006 (10113 in 35494) 5025 [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 91

K=7 achi2=000 (17876 in 35494) 11124 [TCCGTGGA]

K=8 achi2=000 (12067 in 35494) 1424 [TCCGAGGA]

K=8 achi2=000 (11172 in 35494) 529 [TCCGCGGA]

K=8 achi2=000 (11688 in 35494) 1045 [TCCGTGGA]

K=9 achi2=000 (31497 in 35494) 8200 [TCCGAGGA]

K=9 achi2=000 (25674 in 35494) 2377 [TCCGCGGA]

K=9 achi2=000 (29818 in 35494) 6521 [TCCGTGGA]

Page 6: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes vi

Figura 65

Significacircncia estatiacutestica de motivos simples de tamanho 7 usando o meacutetodo

analiacutetico 36

Figura 66

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o

conjunto de dados MSN4 com 0 erro 39

Figura 67

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados MSN4 com 1 erro 40

Figura 68

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados STE12 com 0 erros 41

Figura 69

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados STE12 com 1 erro 41

Figura 610

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados MSN4 com 0 erros 43

Figura 611

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados MSN4 com 1 erro 43

Figura 612

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados STE12 com 0 erros 44

Figura 613

Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor de k para o conjunto de dados STE12 com 1 erro 45

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes vii

Lista de Tabelas

Tabela 41 Tabela de contingecircncia para o caacutelculo do 2

13

Tabela 51 Coacutedigo IUPAC 23

Tabela 52 Codificaccedilatildeo binaacuteria dos siacutembolos IUPAC 24

Tabela 61 Posiccedilotildees dos motivos especificados 33

Tabela 62 Posiccedilotildees do motivo estruturado especificado 34

Tabela 63 Posiccedilotildees dos modelos especificados 37

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes viii

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes ix

Agradecimentos

Gostariacuteamos de agradecer agrave nossa orientadora Professora Ana Teresa Freitas pela forma

como sempre orientou o nosso trabalho pela inestimaacutevel disponibilidade pelo interesse

demonstrado e pela iacutempar capacidade de motivaccedilatildeo

Agradecemos tambeacutem ao nosso co-orientador Professor Arlindo Oliveira pela sua

disponibilidade e opiniatildeo criacutetica que sempre contribuiu para o enriquecimento do nosso

trabalho

Agrave Susana Vinga pelo importante contributo na anaacutelise estatiacutestica e pela sua diligente

disponibilidade

Agrave Joana Fradinho Luiacutes Figueiredo e Petra Jelinkova pela disponibilizaccedilatildeo de conjuntos de

dados essenciais para a prossecuccedilatildeo deste trabalho

Agrave Alexandra Carvalho por ter tido a disponibilidade de ler a primeira versatildeo deste relatoacuterio e

contribuiacutedo com pertinentes sugestotildees

Aos nossos colegas da sala 138 pela camaradagem e companhia nas longas horas passadas no

INESC

Aos colegas da sala 128 pela motivaccedilatildeo e constante disponibilidade

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes x

Resumo

A grande quantidade de dados disponiacuteveis na aacuterea da Biologia requer meacutetodos de extracccedilatildeo de

conhecimento poderosos sistemaacuteticos e eficientes Em particular a identificaccedilatildeo de

sequecircncias de nucleoacutetidos designadas de consensos onde se ligam factores de transcriccedilatildeo

responsaacuteveis em parte pelo mecanismo de regulaccedilatildeo geacutenica eacute essencial para uma

compreensatildeo do papel de cada gene

Actualmente existem vaacuterios algoritmos cujo objectivo eacute encontrar sequecircncias candidatas a

sequecircncias de consenso Estes algoritmos podem ser divididos em duas classes meacutetodos

restritivos e meacutetodos proliacuteficos Os meacutetodos restritivos obtecircm poucas respostas com elevada

precisatildeo enquanto que os meacutetodos proliacuteficos obtecircm muitas respostas com baixa precisatildeo

exigindo um esforccedilo de poacutes-processamento

Neste trabalho utilizamos o SMILE [1] que eacute um meacutetodo proliacutefico para a extracccedilatildeo de

sequecircncias de consenso na regiatildeo promotora dos genes Face ao nuacutemero significativo das

respostas obtidas pretende-se com este trabalho avaliar possiacuteveis soluccedilotildees de poacutes-

processamento de modo a garantir a utilidade da informaccedilatildeo extraiacuteda para os utilizadores do

algoritmo Assim definiram-se dois grandes objectivos

A avaliaccedilatildeo de meacutetodos estatiacutesticos que permitam aferir a significacircncia bioloacutegica das

respostas obtidas

A obtenccedilatildeo de uma descriccedilatildeo compacta da informaccedilatildeo extraiacuteda

Palavras-chave Gene regulaccedilatildeo geacutenica regiatildeo promotora sequecircncias degeneradas IUPAC

avaliaccedilatildeo estatiacutestica de biosequecircncias SMILE extracccedilatildeo de motivos

Relatoacuterio Intercalar de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 1

1 Introduccedilatildeo

A crescente disponibilidade de dados sobre o genoma de vaacuterios organismos tem possibilitado

o aparecimento de novos projectos na aacuterea da biologia No entanto a quantidade massiva de

dados disponiacuteveis torna impossiacutevel uma anaacutelise manual da informaccedilatildeo sendo cada vez mais

premente a necessidade de um processamento automaacutetico dos dados obtidos

Neste contexto a identificaccedilatildeo e modelaccedilatildeo da regiatildeo promotora dos genes assume um papel

fundamental pois as condiccedilotildees de activaccedilatildeo e transcriccedilatildeo de um gene dependem das

sequecircncias de nucleoacutetidos aiacute presentes

As sequecircncias de nucleoacutetidos da regiatildeo promotora que determinam a transcriccedilatildeo do gene satildeo

denominadas de promotores e satildeo representadas por sequecircncias de consenso ou

simplesmente consensos A literatura refere vaacuterias formas de descriccedilatildeo destes consensos

desde a utilizaccedilatildeo de uma matriz de pesos a uma sequecircncia de bases mais frequentes Neste

trabalho utilizamos uma codificaccedilatildeo IUPAC destas sequecircncias que corresponde a um

conjunto de sequecircncias degeneradas em que cada siacutembolo representa um conjunto de

nucleoacutetidos possiacuteveis para uma dada posiccedilatildeo

Actualmente existem vaacuterios algoritmos cujo objectivo eacute encontrar sequecircncias candidatas a

sequecircncias de consenso nas regiotildees promotoras As sequecircncias que satildeo reportadas como

possiacuteveis consensos satildeo designadas de motivos Os algoritmos de pesquisa de motivos podem

ser agrupados de uma forma geral em dois tipos algoritmos restritivos e algoritmos

proliacuteficos

Os algoritmos restritivos concentram-se em encontrar poucos motivos mas de relevacircncia

assinalaacutevel enquanto que os algoritmos proliacuteficos preocupam-se em determinar todos os

motivos que possam ser encontrados de acordo com determinados paracircmetros de pesquisa

Os algoritmos designados de proliacuteficos tecircm a vantagem de natildeo fazerem suposiccedilotildees a priori

No entanto a grande quantidade de motivos encontrados requer um esforccedilo de poacutes-

processamento significativo

Este trabalho tem por objectivo o desenvolvimento de uma metodologia que permita o

processamento automaacutetico dos motivos encontrados por um algoritmo que pode ser

classificado de proliacutefico o algoritmo SMILE [1]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 2

No Capiacutetulo 2 apresentamos uma descriccedilatildeo do problema em anaacutelise evidenciando a

motivaccedilatildeo bioloacutegica e fazendo o seu enquadramento com os objectivos do trabalho

No Capiacutetulo 3 descrevemos o algoritmo SMILE no contexto do problema da extracccedilatildeo de

motivos e apresentamos um gerador de dados sinteacuteticos que seraacute usado como ponto de partida

do estudo da eficaacutecia do algoritmo

No Capiacutetulo 4 discutimos a utilizaccedilatildeo de meacutetodos estatiacutesticos para aferir a significacircncia

bioloacutegica dos motivos extraiacutedos pelo SMILE

No Capiacutetulo 5 apresentamos um meacutetodo para geraccedilatildeo de uma representaccedilatildeo compacta de

motivos extraiacutedos usando a codificaccedilatildeo IUPAC

Finalmente no Capiacutetulo 6 apresentamos vaacuterios resultados obtidos tanto com dados sinteacuteticos

como com dados reais discutindo a aplicabilidade dos meacutetodos estatiacutesticos apresentados no

Capiacutetulo 4

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 3

2 Descriccedilatildeo do Problema

A moleacutecula de DNA eacute responsaacutevel pela manutenccedilatildeo da informaccedilatildeo geneacutetica de cada indiviacuteduo

e eacute constituiacuteda por duas cadeias de nucleoacutetidos dispostas de modo a formar uma dupla

heacutelice [2] que se encontra representada na Figura 21 Cada nucleoacutetido eacute formado por trecircs

elementos um accediluacutecar um grupo fosfato e uma de quatro bases azotadas As quatro bases satildeo

a Adenina (A) a Timina (T) a Guanina (G) e a Citosina (C) e podem ser vistas como os

quatro elementos de um alfabeto

Figura 21

Representaccedilatildeo de cadeias de DNA em forma de dupla heacutelice

As duas cadeias de DNA satildeo complementares no sentido em que as bases das duas cadeias

estatildeo emparelhadas Assim uma Adenina de uma cadeia emparelha com uma Timina da

cadeia complementar e do mesmo modo uma Citosina emparelha com uma Guanina

Os genes satildeo segmentos de uma cadeia de DNA que controlam a siacutentese proteica e

consequentemente toda a actividade celular O genoma eacute o conjunto de genes de um

indiviacuteduo

A expressatildeo geacutenica eacute o processo atraveacutes do qual a informaccedilatildeo contida nos genes dirige a

siacutentese de proteiacutenas Este processo envolve dois passos transcriccedilatildeo e traduccedilatildeo

A transcriccedilatildeo consiste na transferecircncia da informaccedilatildeo contida no DNA para uma moleacutecula

intermediaacuteria de RNA designada de RNA-mensageiro ou mRNA De seguida o molde de

mRNA eacute usado no passo de traduccedilatildeo onde iraacute dirigir a siacutentese proteica

Este processo eacute semelhante em todos os organismos vivos embora existam diferenccedilas

assinalaacuteveis entre organismos eucariotas e procariotas isto eacute entre organismos com e sem

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 4

nuacutecleo individualizado respectivamente Em particular o mecanismo eacute consideravelmente

mais complexo em organismos eucariotas A Figura 22 ilustra o processo de expressatildeo geacutenica

em eucariotas (Figura 22-A) e procariotas (Figura 22-B)

Figura 22 Expressatildeo geacutenica em eucariotas (A) e procariotas (B)

Actualmente o problema da identificaccedilatildeo e modelaccedilatildeo dos mecanismos que regulam a

interacccedilatildeo entre grupos de genes eacute um dos problemas mais em foco na investigaccedilatildeo em

biologia computacional Como jaacute foi referido a regiatildeo promotora eacute parte essencial do

mecanismo de regulaccedilatildeo da transcriccedilatildeo geacutenica

A biologia oferece-nos alguns modelos da regiatildeo promotora evidenciando as diferenccedilas entre

organismos procariotas (Figura 23) e eucariotas (Figura 24)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 5

Figura 23 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em procariotas

Figura 24 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em eucariotas

No mecanismo de transcriccedilatildeo geacutenica interveacutem uma enzima denominada RNA-polimerase

Esta enzima tem como funccedilatildeo a transcriccedilatildeo da informaccedilatildeo contida no DNA para uma cadeia

de RNA que iraacute posteriormente intervir no processo de siacutentese proteica

Para que a RNA-polimerase inicie a transcriccedilatildeo de uma cadeia de DNA geralmente um gene

eacute necessaacuterio que se cumpram algumas condiccedilotildees Assim entre outras eacute necessaacuterio que

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 6

estejam presentes na regiatildeo promotora motivos que a RNA-polimerase reconheccedila e aos quais

se possa ligar para iniciar a transcriccedilatildeo da regiatildeo a jusante (na literatura inglesa estas regiotildees

satildeo denominadas de binding sites) As condiccedilotildees de activaccedilatildeo desta enzima satildeo mais

complexas nos organismos eucariotas [3] uma vez que neste caso para aleacutem dos motivos

referidos existem ainda vaacuterios outros que satildeo reconhecidos por factores de transcriccedilatildeo isto eacute

proteiacutenas que se ligam sucessivamente agrave RNA-polimerase estabelecendo um complexo

mecanismo de regulaccedilatildeo Estes motivos podem estar a montante a jusante ou mesmo no

interior do gene a ser transcrito e podem ainda exercer um efeito estimulador ou repressor da

transcriccedilatildeo Os locais onde existem motivos aos quais se ligam os diversos factores de

transcriccedilatildeo satildeo designados genericamente por regiotildees reguladoras

Eacute possiacutevel compreender agora a importacircncia da necessidade de ser definido um modelo ou

modelos para a regiatildeo promotora no acircmbito do estudo do genoma

Neste trabalho utilizamos o algoritmo SMILE para procurar motivos interessantes isto eacute

biologicamente significativos em cadeias de DNA pertencentes agrave regiatildeo promotora dos genes

Como jaacute foi referido trata-se de um algoritmo proliacutefico no sentido em que se preocupa em

encontrar todas as sequecircncias que cumpram os paracircmetros especificados Sendo assim torna-

se necessaacuterio um esforccedilo significativo de poacutes-processamento para que possa ser obtida

informaccedilatildeo uacutetil a partir dos dados gerados

O poacutes-processamento dos motivos extraiacutedos inclui uma anaacutelise estatiacutestica que culmina com a

atribuiccedilatildeo de um niacutevel de significacircncia a cada motivo Deste modo eacute possiacutevel definir um

crivo que separa motivos considerados relevantes de motivos agrave partida menos interessantes

Finalmente e depois de ter sido encontrado um conjunto de motivos relevantes seraacute efectuada

uma traduccedilatildeo para uma representaccedilatildeo IUPAC Esta representaccedilatildeo permite compactar os

dados agrupando motivos muito semelhantes Este passo eacute de importacircncia essencial para uma

utilizaccedilatildeo eficiente dos dados obtidos uma vez que uma representaccedilatildeo compacta facilita a sua

utilizaccedilatildeo em pesquisas em bases de dados bioloacutegicas que contecircm informaccedilatildeo sobre

consensos anteriormente identificados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 7

3 Extracccedilatildeo de motivos

31 Algoritmo SMILE

O SMILE eacute um meacutetodo algoriacutetmico de extracccedilatildeo de motivos de sequecircncias bioloacutegicas O

algoritmo comeccedila por processar um conjunto de dados de entrada composto por vaacuterias

sequecircncias natildeo alinhadas de nucleoacutetidos que se sabe conterem um ou mais binding sites Estes

dados satildeo utilizados para calcular ocorrecircncias de motivos usando como estrutura de dados

base uma aacutervore de sufixos

Um modelo eacute uma representaccedilatildeo de subsequecircncias que ocorrem nos dados de entrada

satisfazendo potencialmente certas propriedades

O algoritmo iraacute assim pesquisar modelos (simples ou estruturados) nos dados que lhe satildeo

fornecidos segundo alguns paracircmetros

Um modelo simples diz respeito a uma subsequecircncia contiacutegua de nucleoacutetidos enquanto que

um modelo estruturado eacute uma composiccedilatildeo de modelos simples

Um modelo estruturado pode ser constituiacutedo por vaacuterias partes posicionadas ao longo da

sequecircncia Cada parte eacute um modelo simples que pode ter um tamanho variaacutevel (entre kmin e

kmax) O espaccedilo entre cada parte consecutiva pode tambeacutem ser parametrizado (dmin e dmax)

Do mesmo modo tambeacutem eacute possiacutevel parametrizar o nuacutemero de erros que se permite ocorrer

no modelo e em cada uma das suas partes

A Figura 31 apresenta um exemplo de uma especificaccedilatildeo de um modelo estruturado em que

se consideram duas partes A primeira parte pode ter um tamanho entre 6 e 8 nucleoacutetidos e satildeo

admitidos 2 erros A segunda parte pode ocorrer entre 16 e 18 nucleoacutetidos apoacutes a primeira

parte e teraacute um tamanho igualmente entre 6 e 8 embora seja admitido apenas 1 erro

A Figura 32 apresenta o esquema de outro modelo estruturado e respectiva concretizaccedilatildeo

numa sequecircncia Neste exemplo consideram-se igualmente duas partes A primeira com

tamanho entre 6 e 10 nucleoacutetidos e a segunda entre 6 e 8 As partes podem estar a uma

distacircncia que varia entre 10 e 15 nucleoacutetidos e natildeo satildeo admitidos erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 8

Figura 31 Exemplo de uma especificaccedilatildeo de um modelo estruturado

Figura 32 (a) Exemplo de especificaccedilatildeo (b) Modelo retirado de uma sequecircncia

que cumpre a especificaccedilatildeo

Um modelo eacute considerado vaacutelido caso o nuacutemero de sequecircncias de entrada em que ocorre seja

natildeo inferior a um miacutenimo estabelecido designado por quoacuterum Os modelos vaacutelidos satildeo

designados de motivos

Para verificar o nuacutemero de ocorrecircncias eacute utilizada uma aacutervore de sufixos Uma aacutervore de

sufixos eacute uma estrutura de dados que representa todos os sufixos de uma cadeia de caracteres

As suas caracteriacutesticas satildeo de grande utilidade para os algoritmos de emparelhamento de

caracteres

6-10 6-8

10-15

(a)

ATTATTA_CTATCT

ATTATTAGTACTCATACCTATCT

(b)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 9

O SMILE processa conjuntos de dados isto eacute conjuntos de sequecircncias de nucleoacutetidos

utilizando para esse efeito uma aacutervores de sufixos generalizada Esta estrutura de dados

difere da aacutervore de sufixos simples no sentido em que agrupa vaacuterias cadeias de caracteres

correspondentes agraves vaacuterias sequecircncias de nucleoacutetidos Esta multiplicidade de sequecircncias exige

que a estrutura registe as sequecircncias a que cada sufixo pertence As aacutervores de sufixos fazem

uso de um siacutembolo terminador ($) para assinalar o fim de cada sufixo

A Figura 33 eacute um exemplo de uma aacutervore de sufixos generalizada

Figura 33 - Aacutervore de sufixos generalizada para as sequecircncias

TACTA$ (sequecircncia 1) e CACTCA$ (sequecircncia 2)

A extracccedilatildeo de motivos eacute feita atraveacutes da travessia em profundidade-primeiro de uma aacutervore

lexicograacutefica virtual de modo a garantir que se explora o espaccedilo de todos os modelos

possiacuteveis Esta travessia da aacutervore lexicograacutefica eacute acompanhada da exploraccedilatildeo da aacutervore de

sufixos generalizada de forma a obter todos os sufixos a distacircncia de Hamming natildeo superior a

e1 do modelo em consideraccedilatildeo Assim para cada noacute da aacutervore virtual eacute verificado o quoacuterum

do modelo correspondente contabilizando para tanto o nuacutemero de sequecircncias diferentes que

participam com sufixos a distacircncia de Hamming natildeo superior a e do modelo

1 O valor desta distacircncia depende do nuacutemero de erros admitidos na extracccedilatildeo de motivos e corresponde a um dos

paracircmetros do algoritmo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 10

A extracccedilatildeo de motivos estruturados eacute feita de forma semelhante correspondendo a muacuteltiplas

procuras de modelos simples que constituem cada parte do modelo estruturado A transiccedilatildeo

entre partes ilustrada pela Figura 34 corresponde a um salto na aacutervore de sufixos com tantos

niacuteveis de profundidade adicionais quanto a distacircncia especificada entre cada parte

Uma descriccedilatildeo pormenorizada do algoritmo encontra-se em [4] e [5]

Figura 34 Esquema da procura de motivos estruturados usando uma aacutervore de

sufixos

Este algoritmo exacto gera todos os possiacuteveis motivos dentro dos paracircmetros especificados

Daqui resulta geralmente um nuacutemero demasiado grande de motivos sendo necessaacuterio

discriminar quais os verdadeiros binding sites Como meacutetodo de avaliaccedilatildeo o SMILE utiliza

um teste estatiacutestico que eacute descrito na Secccedilatildeo 41

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 11

32 Gerador de dados sinteacuteticos

A anaacutelise da eficaacutecia e eficiecircncia do algoritmo de extracccedilatildeo de motivos exige a utilizaccedilatildeo de

dados sobre os quais tenhamos agrave partida algum conhecimento Para tal foi desenvolvido um

gerador de dados sinteacuteticos

O gerador de dados sinteacuteticos permite por um lado evitar a necessidade de dispor de

conjuntos de dados reais e por outro ter um maior controlo sobre os motivos que estatildeo

realmente presentes nos dados

O gerador permite especificar o nuacutemero e o tamanho das sequecircncias do conjunto de dados

bem como os motivos a inserir Os motivos satildeo especificados pela sua sequecircncia de

nucleoacutetidos posiccedilatildeo na sequecircncia e frequecircncia de ocorrecircncia Os motivos podem ser simples

ou estruturados A Figura 35 representa um exemplo de um ficheiro de especificaccedilatildeo

Frequecircncia

Posiccedilatildeo

Sequecircncia Posiccedilatildeo

Sequecircncia

02 09 TGCTTTTTAAT

28 TCGA

03 02 AGTACATCGA

02 12 TGCGCA

Figura 35 Exemplo de um ficheiro de especificaccedilatildeo para a geraccedilatildeo de dados

sinteacuteticos

No exemplo apresentado satildeo especificados trecircs motivos (um motivo estruturado e dois

motivos simples) A primeira coluna (Frequecircncia) indica a percentagem de sequecircncias em que

o motivo deveraacute ocorrer Em particular para esta especificaccedilatildeo o primeiro motivo deveraacute

ocorrer em 20 das sequecircncias As restantes colunas especificam a posiccedilatildeo e a sequecircncia de

nucleoacutetidos de cada parte do motivo O nuacutemero e o tamanho das sequecircncias a gerar satildeo

especificados na linha de comandos do gerador

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 12

O gerador verifica a especificaccedilatildeo de modo a testar se eacute possiacutevel gerar um conjunto de dados

com as caracteriacutesticas indicadas Em particular eacute necessaacuterio que no caso das frequecircncias

especificadas somarem mais do que 1 alguns dos motivos sejam sobreponiacuteveis uma vez que o

gerador garante o cumprimento exacto da frequecircncia de ocorrecircncia especificada para cada

motivo

O processo de geraccedilatildeo do conjunto de dados envolve duas fases Numa primeira fase eacute gerado

um conjunto de dados aleatoacuterios em que a ocorrecircncia de cada nucleoacutetido eacute equiprovaacutevel Para

gerar aleatoriamente nucleoacutetidos eacute usada uma variaccedilatildeo do algoritmo ran2 [6]

Numa segunda fase satildeo inseridos os motivos especificados em tantas sequecircncias quanto as

necessaacuterias para perfazer a frequecircncia indicada As sequecircncias seleccionadas para a inserccedilatildeo

de motivos satildeo igualmente escolhidas de forma aleatoacuteria

O recurso a dados sinteacuteticos permite afastar a possibilidade de motivos bem classificados

corresponderem a consensos ainda natildeo identificados por via experimental como pode

acontecer quando se analisam conjuntos de dados reais No entanto eacute necessaacuterio termos

presentes as limitaccedilotildees da actual abordagem Em particular sabemos que a geraccedilatildeo

equiprovaacutevel de nucleoacutetidos estaacute em desacordo com a estatiacutestica tiacutepica da regiatildeo promotora

onde satildeo mais comuns A s e T s do que G s e C s Do mesmo modo podem existir outras

correlaccedilotildees de ordem superior designadamente uma preferecircncia por certos diacutemeros ou

triacutemeros em detrimento de outros Esta limitaccedilatildeo eacute ilustrada pelo facto de os resultados

obtidos com dados sinteacuteticos serem geralmente melhores do que os obtidos com dados reais

As causas e consequecircncias desta observaccedilatildeo seratildeo discutidas nas secccedilotildees seguintes

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 13

4 Anaacutelise Estatiacutestica

41 Teste do 2

Como jaacute foi referido o SMILE em geral extrai um elevado nuacutemero de modelos Para isolar

motivos relevantes eacute usado um teste estatiacutestico de modo a atribuir uma significacircncia estatiacutestica

a cada modelo extraiacutedo

O meacutetodo de avaliaccedilatildeo utilizado consiste em aplicar o teste do 2 com um grau de liberdade

O objectivo eacute determinar a probabilidade de obtermos motivos observados em sequecircncias

aleatoacuterias que preservam os k-mers2 das sequecircncias originais Assim pretende-se perceber se

a ocorrecircncia do motivo se deve agrave frequecircncia de k-mers presentes na sequecircncia aleatoacuteria tendo

portanto uma baixa significacircncia estatiacutestica ou se eacute verificada a situaccedilatildeo oposta ou seja

elevada significacircncia estatiacutestica Estes uacuteltimos satildeo considerados pelo algoritmo como os que

apresentam maior potencial de serem verdadeiros binding sites Para tal o SMILE permite a

realizaccedilatildeo de dois tipos alternativos de teste um quanto ao nuacutemero de sequecircncias em que o

motivo ocorre (quoacuterum) e outro em relaccedilatildeo agrave abundacircncia do motivo no conjunto de dados

Para aplicar o teste do 2 procedemos agrave construccedilatildeo de uma tabela de contingecircncia com 4

entradas (Tabela 41)

Dados Originais Dados Aleatoacuterios

Presenccedila Porig Prandom

Ausecircncia Aorig Arandom

Tabela 41 Tabela de contingecircncia para o caacutelculo do 2

2 Sequecircncias de nucleoacutetidos de tamanho k

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 14

As colunas da tabela referem-se agraves duas amostras em anaacutelise ou seja o conjunto de dados

original e as sequecircncias aleatoacuterias geradas As linhas da tabela referem-se agraves duas classes de

contagens Caso consideremos o teste quanto ao quoacuterum a classe Presenccedila diz respeito ao

nuacutemero de sequecircncias em que o motivo ocorre e a classe Ausecircncia refere-se ao nuacutemero de

sequecircncias em que o motivo natildeo ocorre Caso se trate do teste relativo agrave abundacircncia a

primeira classe refere-se ao nuacutemero de ocorrecircncias do motivo no conjunto de dados e a

segunda ao nuacutemero de natildeo ocorrecircncias do motivo em relaccedilatildeo ao nuacutemero de oportunidades de

ocorrecircncia Considera-se como nuacutemero de oportunidades de ocorrecircncia o tamanho do

conjunto de dados Esta tabela seraacute usada agora para fazer um teste de homogeneidade de

proporccedilotildees

Para calcular a significacircncia estatiacutestica basta usar a expressatildeo do 2 correspondente agrave equaccedilatildeo

(41) onde ijO diz respeito ao valor observado para a entrada (ij) da tabela e ijE se refere ao

correspondente valor esperado

21

22 )(

ji ij

ijij

E

OE

(41)

O valor esperado para cada entrada da tabela eacute dado pela expressatildeo (42) ou seja o valor

esperado para a entrada (ij) da tabela eacute igual ao produto do total da linha i pelo total da linha

j divido pela soma de todos os elementos da tabela

21

2121

lkkl

kkj

kik

ij O

OO

E (42)

Nas condiccedilotildees desta tabela de contingecircncia eacute possiacutevel utilizar uma forma expedita de caacutelculo

que consiste na aplicaccedilatildeo da expressatildeo (43)

))()()((

)()( 22

origorigrandomrandomrandomorigrandomorig

randomorigrandomorigorigrandomrandomorig

APAPAAPP

AAPPAPAP

(43)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 15

A hipoacutetese nula que consideramos neste teste estatiacutestico refere-se agrave possibilidade de os

motivos terem sido gerados por sequecircncias aleatoacuterias sob certas restriccedilotildees Isto eacute assumimos

que as contagens obtidas para os motivos nas sequecircncias originais satildeo semelhantes agraves que

obteriacuteamos em sequecircncias aleatoacuterias com as mesmas frequecircncias de k-mers Valores altos de

significacircncia estatiacutestica implicam a rejeiccedilatildeo da hipoacutetese nula

Um importante problema prende-se com a validade da aplicaccedilatildeo do teste do 2 O SMILE em

particular apresenta para cada motivo uma medida da sua significacircncia estatiacutestica No

entanto o verdadeiro interesse reside na determinaccedilatildeo da significacircncia bioloacutegica dos motivos

encontrados O que estaacute em causa eacute perceber se um motivo eacute um potencial binding site Eacute

necessaacuterio testar este meacutetodo em dados reais com consensos conhecidos para se perceber se a

significacircncia estatiacutestica apresenta uma elevada correlaccedilatildeo com a significacircncia bioloacutegica

No Capiacutetulo 6 apresentamos uma discussatildeo acerca da adequaccedilatildeo do teste do 2 para a afericcedilatildeo

da significacircncia bioloacutegica dos motivos extraiacutedos pelo SMILE

42 Meacutetodo de Shuffling

Como jaacute foi referido para efectuar o caacutelculo da significacircncia estatiacutestica o SMILE recorre agrave

geraccedilatildeo de sequecircncias aleatoacuterias com certas restriccedilotildees baseadas na estatiacutestica dos dados

originais Para o efeito eacute usado um algoritmo de data shuffling [78]

O meacutetodo de shuffling permite obter um conjunto de dados aleatoacuterio com base num conjunto

de dados original garantindo a preservaccedilatildeo exacta das frequecircncias de k-mers para um dado k

O meacutetodo de geraccedilatildeo pode ser visto como um passeio aleatoacuterio sobre um multi-grafo onde os

noacutes satildeo todas as subsequecircncias de tamanho k-1 presentes na sequecircncia original e cada aresta

corresponde a uma transiccedilatildeo entre (k-1)-mers verificada nos dados No caso de k igual a 1 natildeo

eacute gerado um multi-grafo sendo feita apenas uma reordenaccedilatildeo aleatoacuteria dos nucleoacutetidos de

cada sequecircncia

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 16

A Figura 41 ilustra um exemplo de um multi-grafo gerado a partir da sequecircncia

ATTATTTATT bem como um caminho no grafo que gera a sequecircncia alternativa

TATTATTTAT

Figura 41 Multi-grafo gerado pela sequecircncia ATTATTTATT para k=4 com 2

passeios aleatoacuterios

Para que cada sequecircncia gerada seja vaacutelida eacute necessaacuterio que tenha o mesmo tamanho que a

sequecircncia original Sendo assim eacute faacutecil perceber que apenas os caminhos eulerianos garantem

a geraccedilatildeo de uma sequecircncia com estas caracteriacutesticas No SMILE este processo eacute repetido

para cada sequecircncia isoladamente

Para garantir a fiabilidade dos resultados obtidos eacute efectuado um nuacutemero elevado de

simulaccedilotildees donde satildeo extraiacutedos os valores meacutedios do quoacuterum ou da abundacircncia de cada

motivo a partir dos quais eacute calculada a significacircncia estatiacutestica no sentido do teste do 2

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 17

A Figura 42 mostra um histograma com os resultados obtidos em 100 simulaccedilotildees para um

motivo extraiacutedo do conjunto de dados da Helicobater pylori3 onde foram preservadas as

frequecircncias relativas de nucleoacutetidos (k=1) Este conjunto de dados eacute constituiacutedo por 308

sequecircncias com comprimentos que variam entre 40 e 300 nucleoacutetidos Foi efectuada uma

procura de motivos simples com tamanhos natildeo inferiores a 6 Foi admitido 1 erro e foi

exigido um quoacuterum de 6

O histograma indica a percentagem de simulaccedilotildees em que o motivo em consideraccedilatildeo ocorre

num determinado nuacutemero de sequecircncias Em particular no exemplo da Figura 42 o motivo

TTTTAA ocorre num nuacutemero de sequecircncias entre 282 e 284 em 13 das simulaccedilotildees

A seta a negro refere-se ao nuacutemero de ocorrecircncias do motivo observadas no conjunto de dados

original Quanto mais afastada estiver a seta do maacuteximo da curva maior seraacute a significacircncia

estatiacutestica Neste caso foi atribuiacuteda uma significacircncia de 593 ao motivo TTTTAA

Figura 42 Histograma das ocorrecircncias observadas do motivo TTTTAA em 100

simulaccedilotildees de shuffling do conjunto de dados da H pylori

3 Organismo procariota

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 18

O meacutetodo de data shuffling pode ser pesado do ponto de vista computacional e representa

uma grande restriccedilatildeo no desempenho da avaliaccedilatildeo de motivos Em particular a necessidade

de pesquisar todos os motivos extraiacutedos em cada conjunto de dados aleatoacuterio gerado constitui

uma seacuterio entrave ao bom desempenho deste meacutetodo

Devido aos referidos problemas de desempenho opta-se geralmente por fazer um nuacutemero de

simulaccedilotildees com geraccedilatildeo de sequecircncias aleatoacuterias inferior ao estatisticamente aconselhado o

que pode ter impacto nos resultados

Outra questatildeo pertinente coloca-se ainda quanto agrave preservaccedilatildeo dos k-mers Uma vez que o

shuffling eacute feito sobre cada sequecircncia do conjunto de dados valores elevados de k impotildeem

restriccedilotildees severas agrave variabilidade dos conjuntos de dados aleatoacuterios gerados Assim para estes

valores o teste estatiacutestico eacute inuacutetil uma vez que os conjuntos de dados gerados satildeo

praticamente iguais ao conjunto de dados original Em particular quando o tamanho dos

k-mers a preservar eacute igual ou superior ao tamanho de um motivo as suas ocorrecircncias satildeo

estritamente conservadas no conjunto de dados aleatoacuterio levando a que o valor da

significacircncia seja 0 A Figura 43 ilustra o facto de a significacircncia estatiacutestica tender

inevitavelmente para zero agrave medida que o valor de k aumenta Os valores do graacutefico foram

igualmente obtidos a partir do conjunto de dados da H pylori descrito anteriormente

Figura 43 Graacutefico da evoluccedilatildeo da significacircncia estatiacutestica com o aumento do valor

de k para um motivo de tamanho 8 extraiacutedo do conjunto de dados da H pylori

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 19

43 Meacutetodo Analiacutetico

Nesta Secccedilatildeo propotildee-se um meacutetodo analiacutetico que tem por objectivo resolver alguns dos

problemas do meacutetodo de shuffling descrito na Secccedilatildeo anterior designadamente o fraco

desempenho computacional e as excessivas restriccedilotildees devidas agrave conservaccedilatildeo estrita das

frequecircncias dos k-mers Assim pretende-se obter um meacutetodo computacionalmente eficiente

para avaliar a relevacircncia de motivos extraiacutedos pelo SMILE

Com este meacutetodo comeccedila-se por abstrair um modelo de Markov a partir do conjunto de dados

em estudo Os estados do modelo de Markov correspondem a todos os (k-1)-mers presentes no

conjunto de dados sendo a probabilidade inicial de cada estado a frequecircncia relativa

observada do (k-1)-mer correspondente

A probabilidade de transiccedilatildeo entre estados corresponde agrave razatildeo entre o nuacutemero de vezes que o

(k-1)-mer referente ao estado de destino sucede ao (k-1)-mer referente ao estado de origem

nos dados e o nuacutemero de vezes que o (k-1)-mer correspondente ao estado de origem precede

qualquer outro (k-1)-mer nas sequecircncias em anaacutelise A Figura 45 apresenta um modelo de

Markov abstraiacutedo a partir do conjunto de dados referido na Figura 44

Figura 44 Conjunto de dados exemplo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 20

CA

TC

AT

TA

TT

101

51

52

101

51

Figura 45

Exemplo de uma cadeia de Markov para k=3

Cada motivo em anaacutelise eacute processado de forma a calcular a probabilidade do motivo ser

gerado pelo modelo de Markov abstraiacutedo

Esta probabilidade eacute calculada como o produto da probabilidade do estado inicial pela

probabilidade de todas as transiccedilotildees necessaacuterias para compor o motivo Em (44) (45) e (46)

apresenta-se o calculo desta probabilidade para o motivo ATTATT segundo a cadeia de

Markov da Figura 45

)()()()()()( TTATpATTApTATTpTTATpATpATTATTp

(44)

2

111

2

1

5

2)(ATTATTp (45)

10

1)(ATTATTp (46)

No caso em que k eacute igual 1 natildeo eacute construiacuteda uma cadeia de Markov sendo a probabilidade de

ocorrecircncia do motivo o produto das frequecircncias relativas no conjunto de dados dos

nucleoacutetidos que o compotildeem

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 21

Caso sejam admitidos e erros basta considerar a soma das probabilidades de todos motivos a

uma distacircncia de Hamming natildeo superior a e ao inveacutes de se considerar apenas a probabilidade

do motivo em anaacutelise

A probabilidade assim calculada seraacute usada para determinar as entradas referentes a dados

aleatoacuterios na tabela de contingecircncia descrita na Secccedilatildeo 41 para o teste relativo agrave abundacircncia

A determinaccedilatildeo das entradas na tabela quando consideramos o teste relativo ao quoacuterum de um

motivo eacute consideravelmente mais complexa pelo que natildeo a abordaremos neste texto

Assim as entradas randomP e randomA satildeo calculadas da forma indicada em (47) e (48)

respectivamente

))1)((()( nseqsmlenmotiflenseqsnseqskmpP Markovrandom

(47)

randomrandom PlenseqsnseqsA

(48)

Nas expressotildees (47) e (48)

)( kmpMarkov refere-se agrave probabilidade calculada para o motivo m a partir de uma cadeia

de Markov extraiacuteda do conjunto de dados para um dado k

nseqs designa o nuacutemero de sequecircncias do conjunto de dados

lseqs designa o comprimento meacutedio das sequecircncias do conjunto de dados

lenmotif(m) designa o tamanho do motivo m

Agrave semelhanccedila do SMILE no caacutelculo de randomA consideramos como nuacutemero de

oportunidades de ocorrecircncia o tamanho do conjunto de dados

Este meacutetodo apresenta um desempenho computacional significativamente melhor que o

meacutetodo baseado em shuffling uma vez que natildeo necessita de efectuar vaacuterias simulaccedilotildees tendo

apenas de processar o conjunto de dados por uma uacutenica vez O caacutelculo da significacircncia

estatiacutestica de cada motivo eacute linear em relaccedilatildeo ao seu comprimento

Por outro lado o meacutetodo analiacutetico natildeo enferma das mesmas limitaccedilotildees do que o teste

estatiacutestico baseado em simulaccedilotildees permitindo o caacutelculo de significacircncia estatiacutestica para

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 22

valores elevados de k Ao considerar a estatiacutestica de todo o conjunto de dados ao inveacutes de

cada sequecircncia isoladamente este meacutetodo pode tambeacutem agrave partida modelar melhor os dados

Resta acrescentar que o meacutetodo descrito nesta Secccedilatildeo soacute permite obter significacircncias

estatiacutesticas para motivos simples A realizaccedilatildeo de caacutelculos para motivos estruturados eacute

consideravelmente mais complexa e natildeo foi abordada neste trabalho

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 23

5 Geraccedilatildeo de coacutedigo IUPAC

A realizaccedilatildeo eficiente de pesquisas de consensos em bases de dados bioloacutegicas requer uma

representaccedilatildeo compacta dos dados armazenados Neste contexto a possibilidade de

representar consensos em coacutedigo IUPAC assume uma importacircncia fundamental

O coacutedigo IUPAC eacute uma extensatildeo sobre a representaccedilatildeo de sequecircncias de DNA Uma

sequecircncia de DNA eacute constituiacuteda por nucleoacutetidos A codificaccedilatildeo IUPAC introduz siacutembolos que

representam um conjunto de possiacuteveis nucleoacutetidos para uma dada posiccedilatildeo permitindo uma

representaccedilatildeo de sequecircncias degeneradas Por exemplo uma purina (A ou G) eacute representada

pela letra R A descriccedilatildeo completa dos coacutedigos IUPAC encontra-se na Tabela 51

Coacutedigo Descriccedilatildeo A Adenina

C Citosina

G Guanina

T Timina

U Uracilo

R Purina (A ou G)

Y Pirimidina (C T ou U)

M C ou A

K T U ou G

W T U ou A

S C ou G

B C T U ou G (natildeo A)

D A T U ou G (natildeo C)

H A T U ou C (natildeo G)

V A C ou G (natildeo T natildeo U)

N Qualquer base (A C G T ou U)

Tabela 51 Coacutedigo IUPAC

A conversatildeo de um conjunto de sequecircncias de DNA para um conjunto de sequecircncias IUPAC

natildeo eacute uma tarefa trivial Para um dado conjunto de sequecircncias existem diversas codificaccedilotildees

IUPAC possiacuteveis

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 24

O problema da geraccedilatildeo de coacutedigo IUPAC consiste em encontrar o conjunto miacutenimo de

sequecircncias IUPAC que representem um dado conjunto de sequecircncias DNA

Como o objectivo proposto eacute a compressatildeo da representaccedilatildeo das sequecircncias de nucleoacutetidos eacute

desejaacutevel que a codificaccedilatildeo IUPAC seja a mais compacta possiacutevel

A abordagem utilizada foi a de reduzir o problema da compressatildeo IUPAC a um problema

conhecido a minimizaccedilatildeo de expressotildees loacutegicas multi-valor

Uma expressatildeo loacutegica multi-valor eacute uma expressatildeo loacutegica onde figuram variaacuteveis multi-valor

ou seja variaacuteveis que necessitam de mais do que um bit para serem representadas

Para representar um siacutembolo IUPAC eacute utilizada uma variaacutevel multi-valor de 4 bits Os

siacutembolos e as respectivas representaccedilotildees estatildeo na Tabela 52

Siacutembolo

IUPAC

Codificaccedilatildeo

binaacuteria

A 1000

T 0100

C 0010

G 0001

R 1001

Y 0110

S 0011

W 1100

K 0101

M 1010

B 0111

D 1101

H 1110

V 1011

N 1111

Espaccedilo 0000

Tabela 52

Codificaccedilatildeo binaacuteria dos siacutembolos IUPAC

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 25

Uma sequecircncia de nucleoacutetidos ou IUPAC eacute construiacuteda atraveacutes de um produto de termos

sendo cada termo uma variaacutevel multi-valor que representa um siacutembolo da sequecircncia Por

exemplo a sequecircncia WTA eacute representada pela expressatildeo loacutegica (1100) (0100) (1000)

Agora que foi estabelecida uma representaccedilatildeo para sequecircncias IUPAC atraveacutes de expressotildees

loacutegicas multi-valor resta perceber como da minimizaccedilatildeo destas expressotildees pode resultar o

desejado coacutedigo IUPAC

Em (51) temos um exemplo simples de minimizaccedilatildeo loacutegica

ZXZYXZYX

(51)

Eacute faacutecil verificar que X Z eacute uma expressatildeo equivalente O que se pretende para a compressatildeo

IUPAC eacute algo semelhante

Por exemplo a partir das sequecircncias ATA e TTA pretende-se a expressatildeo IUPAC WTA A

simplificaccedilatildeo das expressotildees loacutegicas eacute exemplificada sucessivamente em (52) (53) e (54)

A T A + T T A (52)

(1000) (0100) (1000) + (0100) (0100) (1000)

(A ou T) T A (53)

((1000)+(0100)) (0100) (1000)

W T A (54)

(1100) (0100) (1000)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 26

Eacute faacutecil perceber atendendo agrave escolha criteriosa da codificaccedilatildeo que da minimizaccedilatildeo de

expressotildees loacutegicas que representam sequecircncias de nucleoacutetidos resultam expressotildees loacutegicas

que representam uma codificaccedilatildeo IUPAC das sequecircncias originais

O problema inicial encontra-se agora reduzido a um problema de minimizaccedilatildeo de expressotildees

loacutegicas Este problema jaacute estaacute resolvido na aacuterea da siacutentese loacutegica Um dos programas mais

conhecidos desenvolvido para a resoluccedilatildeo deste problema eacute o programa Espresso [9] Apesar

de ser utilizado neste contexto como uma caixa preta eacute importante perceber o seu

funcionamento

No Espresso as expressotildees loacutegicas satildeo representadas num espaccedilo booleano multi-

dimensional Um exemplo eacute um espaccedilo tridimensional onde podem ser representadas

sequecircncias de tamanho 3 tal como estaacute ilustrado na Figura 51

Figura 51

Representaccedilatildeo das sequecircncias ATA (1) e TTA (2)

Neste contexto um cubo define-se como a representaccedilatildeo espacial de um produto de termos

Ou seja para o problema em questatildeo cada sequecircncia de entrada eacute um cubo e uma cobertura

corresponde a um conjunto de cubos que engloba todos os veacutertices representados no espaccedilo

Pode observar-se que a dimensatildeo do espaccedilo encontra-se directamente relacionada com o

tamanho da sequecircncia que se pretende representar Para efectuar a minimizaccedilatildeo o Espresso

procura uma cobertura miacutenima que daraacute origem ao conjunto de sequecircncias IUPAC de saiacuteda

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 27

No caso do espaccedilo da Figura 51 existe uma cobertura miacutenima constituiacuteda por um uacutenico cubo

A Figura 52 ilustra a referida cobertura

Figura 52 Representaccedilatildeo da cobertura WTA (1)

Da cobertura resulta a codificaccedilatildeo IUPAC das sequecircncias iniciais

O processo para descobrir a cobertura miacutenima eacute complexo sendo composto por um conjunto

intrincado de passos Inicialmente o conjunto de cubos originais eacute expandido de forma a

englobar o maior nuacutemero de veacutertices adjacentes De seguida os cubos redundantes satildeo

removidos e os restantes satildeo reduzidos para que cubram apenas os cubos iniciais Um cubo eacute

considerado redundante se natildeo cobrir nenhum veacutertice que natildeo esteja jaacute coberto por outro

cubo Deste processo resulta uma reduccedilatildeo contiacutenua do nuacutemero de cubos necessaacuterios para a

cobertura O processo eacute reiterado ateacute natildeo se verificarem melhorias substanciais na dimensatildeo

da cobertura obtida

Este processo eacute guiado por heuriacutesticas e eacute possiacutevel demonstrar que produz resultados

proacuteximos da soluccedilatildeo oacuteptima O processo estaacute detalhadamente descrito em [910]

De modo a automatizar o processo de codificaccedilatildeo das sequecircncias de nucleoacutetidos e

descodificaccedilatildeo das sequecircncias IUPAC foi desenvolvida uma interface para o Espresso

Assim as sequecircncias de entrada satildeo transformadas em expressotildees loacutegicas (formato binaacuterio)

seguindo a correspondecircncia referida na Tabela 52 Do mesmo modo a representaccedilatildeo da

cobertura miacutenima obtida pelo Espresso eacute descodificada e traduzida para sequecircncias IUPAC

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 28

O funcionamento da interface foi testado com recurso a um gerador aleatoacuterio de sequecircncias de

nucleoacutetidos e a um verificador O gerador produz um conjunto de sequecircncias obtidas a partir

de uma sequecircncia inicial de nucleoacutetidos O conjunto de sequecircncias gerado corresponde a

vaacuterias substituiccedilotildees aleatoacuterias na sequecircncia inicial e constitui o conjunto de entrada que vai

ser lido pela ferramenta Espresso O verificador recebe o conjunto de sequecircncias de entrada e

o resultado da operaccedilatildeo de minimizaccedilatildeo do Espresso sob a forma de sequecircncias de coacutedigos

IUPAC Deste modo ao expandir as sequecircncias IUPAC obtidas pelo Espresso atraveacutes de

uma operaccedilatildeo trivial de substituiccedilotildees sucessivas eacute possiacutevel testar a completude e adequaccedilatildeo

da representaccedilatildeo Assim diz-se que a representaccedilatildeo eacute completa se a expansatildeo incluir todas as

sequecircncias de entrada por outro lado diz-se que a representaccedilatildeo eacute adequada se natildeo incluir

nenhuma sequecircncia que natildeo esteja no conjunto inicial

Depois de verificada a completude e adequaccedilatildeo das representaccedilotildees obtidas foram feitos testes

com dados reais de modo a poder aferir o grau de compressatildeo das sequecircncias introduzidas

Assim o Espresso foi executado tendo como conjunto de entrada sequecircncias devidamente

codificadas obtidas atraveacutes de uma execuccedilatildeo do SMILE

As taxas de compressatildeo obtidas variam entre 278 e 715

O gerador de coacutedigo IUPAC encontra-se neste momento integrado na base de dados Dbyeast

[11] disponibilizando publicamente o serviccedilo de codificaccedilatildeo A Figura 53 eacute uma imagem da

interface que permite que os utilizadores da Dbyeast obtenham coacutedigo IUPAC a partir de

sequecircncias de DNA

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 29

Figura 53 Interface para geraccedilatildeo de coacutedigo IUPAC integrada na Dbyeast

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 30

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 31

6 Resultados e Conclusotildees

Neste Capiacutetulo iremos analisar os resultados obtidos tanto para dados sinteacuteticos como para

dados reais Para tal iremos comparar os valores de significacircncia estatiacutestica obtidos para os

dois tipos de dados usando tanto o meacutetodo de shuffling como o meacutetodo analiacutetico Para efectuar

esta comparaccedilatildeo eacute uacutetil referirmo-nos agrave posiccedilatildeo obtida pelos motivos em anaacutelise numa lista

ordenada por valores decrescentes de significacircncia estatiacutestica Assim sempre que

mencionarmos o valor da posiccedilatildeo de um motivo estaremos a referir-nos agrave posiccedilatildeo numa lista

assim definida

61 Resultados Obtidos com Dados Sinteacuteticos

Como jaacute foi referido a utilizaccedilatildeo de dados sinteacuteticos permite um maior controlo sobre os

motivos que estatildeo efectivamente presentes no conjunto de dados Assim iremos referir-nos

aos motivos que foram introduzidos no conjunto de dados gerado por motivos especificados

em oposiccedilatildeo aos outros motivos igualmente extraiacutedos pelo SMILE que designaremos por

motivos natildeo-especificados Nesta Secccedilatildeo iremos considerar o teste de significacircncia estatiacutestica

relativo agrave abundacircncia de forma a podermos comparar os resultados obtidos com o meacutetodo

shuffling e com o meacutetodo analiacutetico

611 Resultados do teste do 2 com o meacutetodo shuffling

Ao especificar um conjunto de dados com os mesmos motivos que estatildeo presentemente

descritos para a H pylori obtivemos para motivos simples os resultados apresentados nas

Figuras 61 e 62 O conjunto de dados sinteacutetico conteacutem 308 sequecircncias de comprimento 167

Foi efectuada uma procura de motivos simples com tamanhos compreendidos entre 6 e 8

nucleoacutetidos Natildeo foram admitidos erros e foi exigido um quoacuterum de 6 Os motivos

especificados encontram-se representados a ponteado Os restantes motivos correspondem a

motivos natildeo-especificados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 32

Figura 61 Significacircncia estatiacutestica para motivos simples de tamanho 6

Figura 62 Significacircncia estatiacutestica para motivos simples de tamanho 7

Os graacuteficos natildeo satildeo no entanto suficientes para nos dar a percepccedilatildeo da correcta classificaccedilatildeo

dos motivos uma vez que natildeo eacute possiacutevel fazer representar no graacutefico os 172 motivos

extraiacutedos A Tabela 61 indica as posiccedilotildees ocupadas pelos motivos especificados em relaccedilatildeo agrave

totalidade dos modelos para vaacuterios valores de k

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 33

TTTAAG TTTTAA TATAAT TATAATA

k=1 5 4 1 2

k=2 6 4 1 2

k=3 6 4 2 1

k=4 6 5 2 1

k=5 78 7 5 1

Tabela 61 Posiccedilotildees dos motivos especificados

Em geral os motivos especificados aparecem melhor classificados para um baixo valor de k

Agrave medida que se consideram valores de k crescentes a significacircncia estatiacutestica de todos os

motivos aproxima-se de zero pelas razotildees jaacute apontadas na Secccedilatildeo 42

Eacute comum observar-se a presenccedila de motivos natildeo-especificados com niacuteveis de significacircncia

elevados especialmente se atendermos agraves posiccedilotildees da Tabela 61

Contudo estes bons resultados natildeo se mantecircm se forem admitidos erros na procura Neste

caso embora os motivos mantenham em geral elevadas significacircncias entram em

competiccedilatildeo com os motivos a distacircncia de Hamming natildeo superior ao nuacutemero de erros

admitido Assim eacute comum observar-se uma descida significativa na tabela de posiccedilotildees

Para motivos estruturados os resultados satildeo favoraacuteveis mesmo admitindo erros como eacute

ilustrado pelo graacutefico da Figura 63 em conjugaccedilatildeo com os valores de posiccedilatildeo apresentados na

Tabela 62

Neste exemplo efectuou-se uma procura por motivos estruturados compostos por duas partes

com tamanhos entre 6 e 7 com uma distacircncia entre si variando entre 21 e 23 nucleoacutetidos

Admitiu-se 1 erro em cada parte do motivo mas apenas 1 erro na totalidade do motivo

estruturado e exigiu-se um quoacuterum de 6 Foram extraiacutedos 53 motivos O motivo

especificado encontra-se a ponteado

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 34

Figura 63 Significacircncia estatiacutestica para modelos estruturados em dados sinteacuteticos

TTTAAG_TATAAT

k=1 4

k=2 4

k=3 17

k=4 63

k=5 162

Tabela 62 Posiccedilotildees do motivo estruturado especificado

Neste exemplo foi necessaacuterio admitir a existecircncia de erros para que o motivo fosse encontrado

pelo SMILE Natildeo existem motivos sem erros que cumpram as condiccedilotildees de procura

Esta boa prestaccedilatildeo dos motivos estruturados estaacute relacionada com o facto de o shuffling

raramente preservar as distacircncias relativas de cada uma das partes que constituem o motivo

fazendo com que estes ocorram poucas vezes nas simulaccedilotildees Assim neste exemplo o motivo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 35

estruturado especificado aparece claramente destacado Estes resultados parecem sugerir que a

utilizaccedilatildeo deste teste estatiacutestico se adequa agrave avaliaccedilatildeo de modelos estruturados No entanto

nem todos os promotores exibem esta estrutura sendo necessaacuterio um meacutetodo mais geral para

fazer esta avaliaccedilatildeo

Como veremos em seguida os resultados aparentemente animadores mesmo para motivos

simples natildeo se verificam quando analisamos dados reais Esta evidecircncia estaacute relacionada com

o facto de o gerador de dados sinteacuteticos gerar dados aleatoacuterios com equiprobabilidade de

nucleoacutetidos Nos dados reais isto natildeo se verifica existindo normalmente uma clara

abundacircncia de A s e T s na regiatildeo promotora Do mesmo modo cada conjunto de dados exibe

preferecircncia por certos diacutemeros ou triacutemeros que ocorrem com muito mais frequecircncia que

outros

Esta limitaccedilatildeo podia ser mitigada pela incorporaccedilatildeo destas correlaccedilotildees na geraccedilatildeo de dados

sinteacuteticos Mas embora seja relativamente simples estabelecer uma preferecircncia por certos

nucleoacutetidos a geraccedilatildeo natildeo-equiprovaacutevel de k-mers geneacutericos constitui soacute por si um problema

complexo pelo que natildeo foi abordado neste trabalho

612 Resultados do teste do 2 com o meacutetodo analiacutetico

Os dados sinteacuteticos foram igualmente analisados recorrendo ao meacutetodo analiacutetico que como jaacute

foi referido tem a vantagem de ser mais eficiente do ponto de vista computacional e de poder

explorar valores mais elevados de k As Figura 64 e 65 apresentam a evoluccedilatildeo da

significacircncia estatiacutestica dos mesmos motivos considerados nas Figuras 62 e 63 mas

recorrendo ao meacutetodo analiacutetico

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 36

Figura 64 Significacircncia estatiacutestica de motivos simples de tamanho 6 usando o

meacutetodo analiacutetico

Figura 65 Significacircncia estatiacutestica de motivos simples de tamanho 7 usando o

meacutetodo analiacutetico

A Tabela 63 indica as posiccedilotildees dos motivos especificados para a significacircncia estatiacutestica

calculada por via do meacutetodo analiacutetico

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 37

TTTAAG TTTTAA TATAAT TATAATA

k=1 6 4 1 2

k=2 6 4 1 2

k=3 6 3 2 1

k=4 6 3 2 1

k=5 55 3 2 1

Tabela 63 Posiccedilotildees dos modelos especificados

Satildeo oacutebvias as semelhanccedilas entre os resultados apresentados na Tabela 63 e os presentes na

Tabela 61 Isto confirma a possibilidade de usar o meacutetodo analiacutetico como alternativa ao

meacutetodo de shuffling

Sabemos igualmente que no acircmbito do meacutetodo analiacutetico quando k atinge um valor igual ao

comprimento do motivo em anaacutelise a significacircncia estatiacutestica anula-se Isto tem a ver com o

facto de a probabilidade de ocorrecircncia de um k-mer ser muito proacutexima da sua frequecircncia

relativa no conjunto de dados Assim sendo os valores das entradas da tabela de contingecircncia

relativas aos dados aleatoacuterios seratildeo inevitavelmente iguais agraves dos dados reais resultando deste

facto uma significacircncia estatiacutestica nula

Por outro lado agrave medida que o k aumenta os k-mers introduzidos pelos motivos especificados

no conjunto de dados que de resto eacute aleatoacuterio vatildeo fazer com que a cadeia de Markov gerada

faccedila convergir as probabilidades de ocorrecircncia de cada motivo com a sua frequecircncia relativa

efectiva no conjunto de dados Assim assiste-se ao mesmo fenoacutemeno de convergecircncia para

zero da significacircncia estatiacutestica que assinalaacutemos para o meacutetodo shuffling

Pela anaacutelise dos resultados podemos ainda concluir que em geral um valor de k demasiado

pequeno natildeo modela suficientemente bem os dados daqui resulta que alguns motivos natildeo

especificados obtenham melhores classificaccedilotildees que motivos especificados Em suma

deveremos preferir valores de k intermeacutedios

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 38

62 Resultados Obtidos com Dados Reais

Com este teste pretendemos verificar se uma sequecircncia classificada como estatisticamente

relevante tambeacutem pode ser considerada biologicamente relevante

Para fazer o estudo da anaacutelise estatiacutestica em dados reais foram recolhidos 16 conjuntos de

dados com regiotildees promotoras correspondentes a genes da levedura Saccharomyces

cerevisiae que eacute um organismo eucariota Cada conjunto conteacutem aproximadamente 10

sequecircncias As sequecircncias contecircm consensos obtidos por via experimental e descritos na

literatura A descriccedilatildeo completa de cada conjunto de dados pode ser vista no Anexo A

Para cada conjunto de dados foi feita uma procura de motivos de tamanhos variando entre 4 e

11 nucleoacutetidos para valores de quoacuterum de 60 75 80 e 100 Foram permitidos 0 e 1

erros em ensaios sucessivos e fez-se ainda variar o valor de k entre 1 e 4

Foi posteriormente analisada a significacircncia estatiacutestica calculada pelo SMILE no que diz

respeito ao quoacuterum

Os consensos descritos obtiveram boas classificaccedilotildees para algumas das condiccedilotildees testadas

Em particular quando o quoacuterum exigido se encontra proacuteximo da frequecircncia efectiva dos

motivos nos dados e quando natildeo satildeo admitidos erros Os resultados satildeo tambeacutem melhores

para motivos de tamanho superior a 7 Em suma obtecircm-se bons resultados quando as

condiccedilotildees favorecem os motivos com as caracteriacutesticas dos consensos descritos

Estes resultados natildeo satildeo muito animadores porque para os atingir eacute necessaacuterio um

conhecimento preacutevio da frequecircncia e tamanho dos motivos Ao considerar a generalidade dos

ensaios efectuados verifica-se que as classificaccedilotildees satildeo muito baixas com baixas

significacircncias estatiacutesticas e com valores de posiccedilatildeo frequentemente abaixo dos primeiros

1 000 motivos No Anexo A apresentamos os resultados obtidos com estes ensaios

A par desta anaacutelise foi considerada a significacircncia estatiacutestica obtida a respeito da abundacircncia

Deste modo eacute possiacutevel estabelecer uma comparaccedilatildeo directa entre o meacutetodo de shuffling e o

meacutetodo analiacutetico para o caacutelculo desta meacutetrica

De seguida apresentamos os resultados desta anaacutelise

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 39

621 Resultados do teste do 2 com o meacutetodo shuffling

De modo geral os resultados para o teste estatiacutestico referente agrave abundacircncia representam uma

melhoria em relaccedilatildeo ao teste referente ao quoacuterum

Comeccedilamos por apresentar os graacuteficos referentes a um conjunto de dados cujos motivos

permanecem mal classificados isto eacute o motivo eacute biologicamente relevante mas natildeo eacute

considerado estatisticamente relevante O conjunto de dados em causa o MSN4 tem um

motivo muito abundante (CCCCT) condicionando a estatiacutestica dos dados Isto conjugado

com o seu pequeno tamanho (5 nucleoacutetidos) resulta na inevitaacutevel baixa significacircncia

estatiacutestica uma vez que aparece sistematicamente na geraccedilatildeo aleatoacuteria de sequecircncias feita em

cada simulaccedilatildeo As Figuras 66 e 67 ilustram a evoluccedilatildeo da significacircncia estatiacutestica e da

posiccedilatildeo do referido motivo considerando erro 0 e 1 respectivamente para um quoacuterum de

60

Figura 66 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 0 erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 40

Figura 67 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 1 erro

Os resultados da classificaccedilatildeo satildeo claramente maus para um consenso descrito A estranha

subida para k igual a 4 estaacute relacionada com uma pequena flutuaccedilatildeo sem significado uma vez

que estamos a considerar valores de significacircncia estatiacutestica muito baixos A aparente melhor

classificaccedilatildeo quando consideramos erro 0 estaacute relacionada com o facto de que quando natildeo se

admitem erros satildeo consequentemente extraiacutedos menos motivos Em particular com erro 0 satildeo

extraiacutedos 1 316 motivos enquanto que com erro 1 satildeo extraiacutedos 35 258 motivos

De seguida apresentamos os resultados relativos a um outro conjunto de dados (STE12) que

evidencia resultados mais favoraacuteveis para erro 0 As Figuras 68 e 69 apresentam a evoluccedilatildeo

da significacircncia estatiacutestica do motivo descrito (TGAAACA) para 0 e 1 erros

respectivamente com um quoacuterum de 100

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 41

Figura 68 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 0 erros

Figura 69 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 1 erro

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 42

Resta referir que para este conjunto de dados foram extraiacutedos 267 motivos com erro 0 e

7 705 motivos para erro 1

O facto de os motivos serem abundantes em relaccedilatildeo ao nuacutemero de sequecircncias consideradas

faz com que o teste relativo agrave abundacircncia tenha um poder de resoluccedilatildeo consideravelmente

maior do que o teste relativo ao quoacuterum Por esta razatildeo deveremos sempre preferir o primeiro

em casos semelhantes

Por outro lado os resultados obtidos continuam a pocircr em causa a generalidade do meacutetodo uma

vez que eacute difiacutecil identificar as situaccedilotildees em que este produz bons resultados sobretudo quando

somos confrontados com um desconhecimento a priori do conjunto de dados

622 Resultados do teste do 2 com o meacutetodo analiacutetico

Resta-nos comparar os resultados obtidos na subsecccedilatildeo anterior com os obtidos pela via

analiacutetica Nos graacuteficos apresentados nesta subsecccedilatildeo que representam a evoluccedilatildeo da

significacircncia estatiacutestica com o crescimento do tamanho dos k-mers considerados estatildeo

tambeacutem assinaladas as posiccedilotildees ocupadas pelos motivos

As Figuras 610 e 611 apresentam os resultados referentes ao MSN4

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 43

Figura 610 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 0 erros

Figura 611 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 1 erro

Os resultados para o MSN4 natildeo sofrem alteraccedilotildees assinalaacuteveis em relaccedilatildeo ao meacutetodo anterior

Novamente as caracteriacutesticas do conjunto de dados limitam a possibilidade de evidenciar este

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 44

motivo por via deste teste estatiacutestico o que eacute tanto mais grave quanto o facto de este ser um

dos motivos cuja significacircncia bioloacutegica se encontra melhor estabelecida

As Figuras 612 e 613 apresentam os resultados referentes ao conjunto de dados STE12

Figura 612 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 0 erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 45

Figura 613 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 1 erro

Os dados apresentados natildeo evidenciam melhorias assinalaacuteveis em relaccedilatildeo aos resultados

obtidos por via de shuffling excepto a ocorrecircncia de melhorias ocasionais da classificaccedilatildeo

quando natildeo se admitem erros Estas diferenccedilas podem ser atribuiacutedas ao facto de o meacutetodo

analiacutetico natildeo conservar estritamente os k-mers e de analisar o conjunto de dados na sua

totalidade por oposiccedilatildeo ao shuffling que considera cada sequecircncia isoladamente

No Anexo B apresentamos a totalidade dos resultados desta anaacutelise comparativa No Anexo C

eacute apresentada uma listagem dos resultados do caacutelculo do valor de significacircncia para valores de

k ateacute ao tamanho dos consensos descritos

A grande vantagem deste meacutetodo eacute sem duacutevida o incomparaacutevel ganho a niacutevel de

desempenho computacional Para ilustrar esta afirmaccedilatildeo basta dizer que o caacutelculo da

significacircncia estatiacutestica para todos os conjuntos de dados considerados demorou com o

meacutetodo de shuffling mais de 30 horas de processamento O meacutetodo analiacutetico realizou todos os

caacutelculos em menos de 30 minutos

No entanto os resultados voltam a pocircr em causa a adequaccedilatildeo do teste estatiacutestico do 2 para

aferir a significacircncia bioloacutegica pela dificuldade de sintetizar um meacutetodo geneacuterico para

destacar motivos relevantes de entre os extraiacutedos pelo SMILE

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 46

63 Conclusotildees

Ao considerar os resultados apresentados eacute inevitaacutevel concluir que a significacircncia atribuiacuteda

pelo teste estatiacutestico do 2 aos motivos extraiacutedos pelo SMILE natildeo reflecte a sua significacircncia

bioloacutegica

A dificuldade em distinguir motivos relevantes da grande quantidade de motivos extraiacutedos

potildee em causa a utilidade praacutetica do algoritmo na generalidade dos casos

Para aleacutem desta questatildeo outras limitaccedilotildees tecircm sido apontadas por bioacutelogos designadamente

o facto de o algoritmo natildeo conseguir pesquisar motivos na cadeia de DNA inversa onde os

factores de transcriccedilatildeo podem igualmente ligar-se e o facto de a forma como o SMILE

modela a ocorrecircncia de erros nos motivos natildeo ser compatiacutevel com a necessidade de poder

indicar posiccedilotildees especiacuteficas onde erros satildeo admitidos

No entanto o SMILE continua a exibir resultados interessantes para motivos estruturados o

que constitui sem duacutevida a mais-valia fundamental do algoritmo Tudo indica que o meacutetodo

analiacutetico pode ser igualmente adaptado para calcular a significacircncia de motivos estruturados

Parece-nos claro que uma eficaz extracccedilatildeo de motivos relevantes passaraacute necessariamente

pela conjugaccedilatildeo com outros dados para aleacutem da simples sequecircncia de nucleoacutetidos Em

particular a disponibilidade de informaccedilatildeo acerca de co-regulaccedilatildeo de genes poderaacute guiar a

extracccedilatildeo de motivos permitindo exigir um quoacuterum mais alto dada a confianccedila na existecircncia

de factores de transcriccedilatildeo comuns

Por outro lado a utilizaccedilatildeo de modelos probabiliacutesticos em vez de meras colecccedilotildees de motivos

poderaacute ser uma abordagem mais natural para o problema permitindo simultaneamente uma

melhor modelaccedilatildeo da realidade bioloacutegica ao indicar uma probabilidade de ocorrecircncia de cada

nucleoacutetido para uma dada posiccedilatildeo no modelo O nuacutemero de modelos extraiacutedos seria tambeacutem

francamente reduzido uma vez que um uacutenico modelo probabiliacutestico pode representar com

expressividade acrescida um grande nuacutemero de motivos

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 47

7 Referecircncias

[1] A Vanet L Marsan e M F Sagot Promoter sequence and algorithmical methods for

identifying them Research in Microbiology 150 pp 779-799 1999

[2] JD Watson FH Crick Molecular structure of nucleic acids a structure for deoxyribose

nucleic acid Nature Number 4356 1953

[3] T Werner Models for Prediction and Recognition of Eukaryotic Promoters Mammalian

Genome Vol 10 pp 168-175 1999

[4] L Marsan e M F Sagot Algorithms for extracting structured motifs using a suffix tree

with an application to promoter and regulatory site consensus identication Journal of

Computational Biology 7 pp 345-362 2000

[5] L Marsan Infeacuterence de motifs structureacutes algorithmes et outils appliqueacutes agrave la deacutetection de

sites de fixation dans des seacutequences geacutenomiques PhD Thesis Universiteacute de Marne-la-Valleacutee

2002

[6] B Flannery S Teukolsky W Press e W Vetterling Numerical Recipes in C++

Cambridge University Press 2002

[7] S Altschul e B Erickson Significance of Nucleotide Sequence Alignments A method of

Random Sequence Permutation That Preserves Dinucleotide and Codon Usage Molecular

Biology Evolution 2 pp 526-538 1985

[8] D Kandel Y Matias R Unger e P Winkler Shuffling Biological Sequences Discrete

Appl Math 71 pp 171-185 1996

[9] R Rudell e A Sangiovanni-Vincentelli Multiple-Valued Minimization for PLA

Optimization IEEE Transactions on Computer-Aided Design of Integrated Circuits and

Systems Vol CAD-6 Nordm 5 pp 727-751 September 1987

[10] R Brayton G Hachtel C McMullen e A Sangiovanni-Vincentelli Logic Minimization

Algorithms for VLSI Synthesis Kluwer Academic Publishers 1985

[11] P Monteiro Dbyeast [httpdescartesinesc-idpt~ptgmdb] 2004

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 48

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 49

Anexo A

Resultados do Caacutelculo da Significacircncia Estatiacutestica referente ao Quoacuterum

para Conjuntos de Dados de Saccharomyces cerevisiae

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados

A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos os resultados para os motivos procurados em relaccedilatildeo a cada valor dos paracircmetros

Nota o campo posicao refere-se agrave posiccedilatildeo ocupada pelo motivo na tabela com a estatiacutestica das sequecircncias com pelo menos uma ocorrecircncia do motivo ordenada por chi2

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

314 motivos encontrados Quorum = 80

670 motivos encontrados Quorum = 75

670 motivos encontrados Quorum = 60

1306 motivos encontrados Erro = 1

Quorum = 100 8636 motivos encontrados k = 1 posicao = 2 chi2 = 98 (ACCTTAAAGGT) k = 2 posicao = 2 chi2 = 976 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 965 (ACCTTAAAGGT) k = 4 posicao = 2 chi2 = 984 (ACCTTAAAGGT)

Quorum = 80 17722 motivos encontrados k = 1 posicao = 2 chi2 = 651 (ACCCTAAAGGT) k = 1 posicao = 4 chi2 = 965 (ACCTTAAAGGT) k = 2 posicao = 2 chi2 = 659 (ACCCTAAAGGT) k = 2 posicao = 8 chi2 = 965 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 667 (ACCCTAAAGGT) k = 3 posicao = 4 chi2 = 969 (ACCTTAAAGGT) k = 4 posicao = 2 chi2 = 659 (ACCCTAAAGGT) k = 4 posicao = 3 chi2 = 984 (ACCTTAAAGGT)

Quorum = 75 17722 motivos encontrados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 50

k = 1 posicao = 4 chi2 = 651 (ACCCTAAAGGT) k = 1 posicao = 2 chi2 = 988 (ACCTTAAAGGT) k = 2 posicao = 3 chi2 = 659 (ACCCTAAAGGT) k = 2 posicao = 2 chi2 = 992 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 655 (ACCCTAAAGGT) k = 3 posicao = 3 chi2 = 976 (ACCTTAAAGGT) k = 4 posicao = 3 chi2 = 655 (ACCCTAAAGGT) k = 4 posicao = 5 chi2 = 984 (ACCTTAAAGGT)

Quorum = 60 34907 motivos encontrados k = 1 posicao = 11 chi2 = 655 (ACCCTAAAGGT) k = 1 posicao = 5 chi2 = 996 (ACCTTAAAGGT) k = 1 posicao = 13 chi2 = 421 (ACCTTGAAGGT) k = 2 posicao = 15 chi2 = 647 (ACCCTAAAGGT) k = 2 posicao = 12 chi2 = 969 (ACCTTAAAGGT) k = 2 posicao = 7 chi2 = 421 (ACCTTGAAGGT) k = 3 posicao = 9 chi2 = 655 (ACCCTAAAGGT) k = 3 posicao = 8 chi2 = 984 (ACCTTAAAGGT) k = 3 posicao = 27 chi2 = 414 (ACCTTGAAGGT) k = 4 posicao = 10 chi2 = 651 (ACCCTAAAGGT) k = 4 posicao = 5 chi2 = 984 (ACCTTAAAGGT) k = 4 posicao = 40 chi2 = 407 (ACCTTGAAGGT)

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

161 motivos encontrados Quorum = 80

381 motivos encontrados Quorum = 75

502 motivos encontrados Quorum = 60

826 motivos encontrados k = 1 posicao = 43 chi2 = 33 (CCCCT) k = 2 posicao = 42 chi2 = 202 (CCCCT) k = 3 posicao = 48 chi2 = 142 (CCCCT) k = 4 posicao = 122 chi2 = 028 (CCCCT)

Erro = 1 Quorum = 100

4877 motivos encontrados k = 1 posicao = 3089 chi2 = 002 (CCCCT) k = 2 posicao = 2781 chi2 = 005 (CCCCT) k = 3 posicao = 3148 chi2 = 002 (CCCCT) k = 4 posicao = 2516 chi2 = 007 (CCCCT)

Quorum = 80 10050 motivos encontrados k = 1 posicao = 8449 chi2 = 0 (CCCCT) k = 2 posicao = 5470 chi2 = 009 (CCCCT) k = 3 posicao = 5867 chi2 = 004 (CCCCT) k = 4 posicao = 5131 chi2 = 009 (CCCCT)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 51

Quorum = 75

13080 motivos encontrados k = 1 posicao = 7539 chi2 = 004 (CCCCT) k = 2 posicao = 8129 chi2 = 002 (CCCCT) k = 3 posicao = 7900 chi2 = 003 (CCCCT) k = 4 posicao = 7385 chi2 = 005 (CCCCT)

Quorum = 60 21544 motivos encontrados k = 1 posicao = 12673 chi2 = 004 (CCCCT) k = 2 posicao = 11871 chi2 = 008 (CCCCT) k = 3 posicao = 12731 chi2 = 004 (CCCCT) k = 4 posicao = 11754 chi2 = 007 (CCCCT)

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

326 motivos encontrados Quorum = 80

682 motivos encontrados k = 1 posicao = 169 chi2 = 109 (CCCCT) k = 2 posicao = 238 chi2 = 073 (CCCCT) k = 3 posicao = 223 chi2 = 057 (CCCCT) k = 4 posicao = 331 chi2 = 01 (CCCCT)

Quorum = 75 682 motivos encontrados k = 1 posicao = 136 chi2 = 131 (CCCCT) k = 2 posicao = 178 chi2 = 085 (CCCCT) k = 3 posicao = 245 chi2 = 042 (CCCCT) k = 4 posicao = 331 chi2 = 01 (CCCCT)

Quorum = 60 1316 motivos encontrados k = 1 posicao = 303 chi2 = 17 (CCCCT) k = 2 posicao = 505 chi2 = 075 (CCCCT) k = 3 posicao = 457 chi2 = 059 (CCCCT) k = 4 posicao = 613 chi2 = 014 (CCCCT)

Erro = 1 Quorum = 100

9022 motivos encontrados k = 1 posicao = 7955 chi2 = 0 (CCCCT) k = 2 posicao = 7901 chi2 = 0 (CCCCT) k = 3 posicao = 7846 chi2 = 0 (CCCCT) k = 4 posicao = 7711 chi2 = 0 (CCCCT)

Quorum = 80 17951 motivos encontrados k = 1 posicao = 16310 chi2 = 0 (CCCCT) k = 2 posicao = 16251 chi2 = 0 (CCCCT) k = 3 posicao = 16207 chi2 = 0 (CCCCT) k = 4 posicao = 16091 chi2 = 0 (CCCCT)

Quorum = 75 17951 motivos encontrados k = 1 posicao = 16308 chi2 = 0 (CCCCT)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 52

k = 2 posicao = 16242 chi2 = 0 (CCCCT) k = 3 posicao = 16212 chi2 = 0 (CCCCT) k = 4 posicao = 16063 chi2 = 0 (CCCCT)

Quorum = 60 35258 motivos encontrados k = 1 posicao = 32818 chi2 = 0 (CCCCT) k = 2 posicao = 32757 chi2 = 0 (CCCCT) k = 3 posicao = 32822 chi2 = 0 (CCCCT) k = 4 posicao = 32656 chi2 = 0 (CCCCT)

5_1_gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

220 motivos encontrados Quorum = 80

517 motivos encontrados k = 1 posicao = 52 chi2 = 254 (CTTCC) k = 2 posicao = 87 chi2 = 146 (CTTCC) k = 3 posicao = 164 chi2 = 067 (CTTCC) k = 4 posicao = 236 chi2 = 004 (CTTCC)

Quorum = 75 517 motivos encontrados k = 1 posicao = 77 chi2 = 246 (CTTCC) k = 2 posicao = 83 chi2 = 152 (CTTCC) k = 3 posicao = 99 chi2 = 098 (CTTCC) k = 4 posicao = 241 chi2 = 003 (CTTCC)

Quorum = 60 963 motivos encontrados k = 1 posicao = 625 chi2 = 003 (CATCC) k = 1 posicao = 128 chi2 = 284 (CTTCC) k = 2 posicao = 644 chi2 = 003 (CATCC) k = 2 posicao = 170 chi2 = 177 (CTTCC) k = 3 posicao = 490 chi2 = 015 (CATCC) k = 3 posicao = 256 chi2 = 107 (CTTCC) k = 4 posicao = 522 chi2 = 0 (CATCC) k = 4 posicao = 497 chi2 = 004 (CTTCC)

Erro = 1 Quorum = 100

6121 motivos encontrados k = 1 posicao = 5072 chi2 = 0 (CATCC) k = 1 posicao = 5313 chi2 = 0 (CTTCC) k = 2 posicao = 5049 chi2 = 0 (CATCC) k = 2 posicao = 5287 chi2 = 0 (CTTCC) k = 3 posicao = 4984 chi2 = 0 (CATCC) k = 3 posicao = 5236 chi2 = 0 (CTTCC) k = 4 posicao = 4894 chi2 = 0 (CATCC) k = 4 posicao = 5167 chi2 = 0 (CTTCC)

Quorum = 80 13644 motivos encontrados k = 1 posicao = 11732 chi2 = 0 (CATCC) k = 1 posicao = 11981 chi2 = 0 (CTTCC)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 53

k = 2 posicao = 11792 chi2 = 0 (CATCC) k = 2 posicao = 12044 chi2 = 0 (CTTCC) k = 3 posicao = 11736 chi2 = 0 (CATCC) k = 3 posicao = 11985 chi2 = 0 (CTTCC) k = 4 posicao = 11644 chi2 = 0 (CATCC) k = 4 posicao = 11917 chi2 = 0 (CTTCC)

Quorum = 75 13644 motivos encontrados k = 1 posicao = 11712 chi2 = 0 (CATCC) k = 1 posicao = 11966 chi2 = 0 (CTTCC) k = 2 posicao = 11791 chi2 = 0 (CATCC) k = 2 posicao = 12027 chi2 = 0 (CTTCC) k = 3 posicao = 11729 chi2 = 0 (CATCC) k = 3 posicao = 11981 chi2 = 0 (CTTCC) k = 4 posicao = 11649 chi2 = 0 (CATCC) k = 4 posicao = 11920 chi2 = 0 (CTTCC)

Quorum = 60 25804 motivos encontrados k = 1 posicao = 22732 chi2 = 0 (CATCC) k = 1 posicao = 22973 chi2 = 0 (CTTCC) k = 2 posicao = 22881 chi2 = 0 (CATCC) k = 2 posicao = 23121 chi2 = 0 (CTTCC) k = 3 posicao = 22916 chi2 = 0 (CATCC) k = 3 posicao = 23164 chi2 = 0 (CTTCC) k = 4 posicao = 22864 chi2 = 0 (CATCC) k = 4 posicao = 23141 chi2 = 0 (CTTCC)

6_0_MIG1

Motivo GCGGGG Frequecircncia 16 ~167 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

290 motivos encontrados Quorum = 80

556 motivos encontrados Quorum = 75

556 motivos encontrados Quorum = 60

927 motivos encontrados Erro = 1

Quorum = 100 7881 motivos encontrados k = 1 posicao = 650 chi2 = 252 (GCGGGG) k = 2 posicao = 773 chi2 = 173 (GCGGGG) k = 3 posicao = 1341 chi2 = 101 (GCGGGG) k = 4 posicao = 4437 chi2 = 052 (GCGGGG)

Quorum = 80 14601 motivos encontrados k = 1 posicao = 1895 chi2 = 249 (GCGGGG) k = 2 posicao = 2045 chi2 = 161 (GCGGGG) k = 3 posicao = 3284 chi2 = 11 (GCGGGG) k = 4 posicao = 7272 chi2 = 05 (GCGGGG)

Quorum = 75

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 54

14601 motivos encontrados k = 1 posicao = 2121 chi2 = 234 (GCGGGG) k = 2 posicao = 2604 chi2 = 153 (GCGGGG) k = 3 posicao = 3778 chi2 = 089 (GCGGGG) k = 4 posicao = 8057 chi2 = 047 (GCGGGG)

Quorum = 60 25117 motivos encontrados k = 1 posicao = 4371 chi2 = 234 (GCGGGG) k = 2 posicao = 5452 chi2 = 153 (GCGGGG) k = 3 posicao = 7361 chi2 = 116 (GCGGGG) k = 4 posicao = 12643 chi2 = 051 (GCGGGG)

6_0_UME6

Motivo GCCGCC Frequecircncia 37 ~4286 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

257 motivos encontrados Quorum = 80

454 motivos encontrados Quorum = 75

454 motivos encontrados Quorum = 60

748 motivos encontrados Erro = 1

Quorum = 100 7186 motivos encontrados

Quorum = 80 12323 motivos encontrados

Quorum = 75 12323 motivos encontrados

Quorum = 60 19726 motivos encontrados k = 1 posicao = 13214 chi2 = 002 (GCCGCC) k = 2 posicao = 14628 chi2 = 0 (GCCGCC) k = 3 posicao = 14684 chi2 = 0 (GCCGCC) k = 4 posicao = 15398 chi2 = 002 (GCCGCC)

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

173 motivos encontrados Quorum = 80

403 motivos encontrados Quorum = 75

530 motivos encontrados k = 1 posicao = 6 chi2 = 755 (GATAAG)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 55

k = 2 posicao = 3 chi2 = 892 (GATAAG) k = 3 posicao = 3 chi2 = 725 (GATAAG) k = 4 posicao = 12 chi2 = 457 (GATAAG)

Quorum = 60 836 motivos encontrados k = 1 posicao = 24 chi2 = 771 (GATAAG) k = 2 posicao = 7 chi2 = 94 (GATAAG) k = 3 posicao = 12 chi2 = 719 (GATAAG) k = 4 posicao = 25 chi2 = 48 (GATAAG)

Erro = 1 Quorum = 100

5360 motivos encontrados k = 1 posicao = 2690 chi2 = 012 (GATAAG) k = 1 posicao = 3118 chi2 = 008 (GATTAG) k = 2 posicao = 2917 chi2 = 01 (GATAAG) k = 2 posicao = 2424 chi2 = 02 (GATTAG) k = 3 posicao = 3096 chi2 = 007 (GATAAG) k = 3 posicao = 1982 chi2 = 033 (GATTAG) k = 4 posicao = 3004 chi2 = 007 (GATAAG) k = 4 posicao = 2767 chi2 = 01 (GATTAG)

Quorum = 80 10819 motivos encontrados k = 1 posicao = 6729 chi2 = 011 (GATAAG) k = 1 posicao = 6816 chi2 = 009 (GATTAG) k = 2 posicao = 6240 chi2 = 013 (GATAAG) k = 2 posicao = 6446 chi2 = 011 (GATTAG) k = 3 posicao = 7301 chi2 = 004 (GATAAG) k = 3 posicao = 4235 chi2 = 053 (GATTAG) k = 4 posicao = 7045 chi2 = 004 (GATAAG) k = 4 posicao = 6317 chi2 = 012 (GATTAG)

Quorum = 75 13889 motivos encontrados k = 1 posicao = 9061 chi2 = 007 (GATAAG) k = 1 posicao = 8672 chi2 = 01 (GATTAG) k = 2 posicao = 8095 chi2 = 016 (GATAAG) k = 2 posicao = 8763 chi2 = 01 (GATTAG) k = 3 posicao = 8965 chi2 = 008 (GATAAG) k = 3 posicao = 6907 chi2 = 036 (GATTAG) k = 4 posicao = 8966 chi2 = 006 (GATAAG) k = 4 posicao = 8323 chi2 = 011 (GATTAG)

Quorum = 60 22209 motivos encontrados k = 1 posicao = 14904 chi2 = 008 (GATAAG) k = 1 posicao = 14384 chi2 = 013 (GATTAG) k = 2 posicao = 13923 chi2 = 015 (GATAAG) k = 2 posicao = 13902 chi2 = 015 (GATTAG) k = 3 posicao = 14932 chi2 = 008 (GATAAG) k = 3 posicao = 11534 chi2 = 046 (GATTAG) k = 4 posicao = 14680 chi2 = 007 (GATAAG) k = 4 posicao = 13878 chi2 = 017 (GATTAG)

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 56

Erro = 0 Quorum = 100

128 motivos encontrados Quorum = 80

372 motivos encontrados Quorum = 75

454 motivos encontrados Quorum = 60

785 motivos encontrados Erro = 1

Quorum = 100 4212 motivos encontrados k = 1 posicao = 326 chi2 = 14 (CACCCA) k = 2 posicao = 594 chi2 = 108 (CACCCA) k = 3 posicao = 244 chi2 = 107 (CACCCA) k = 4 posicao = 1210 chi2 = 038 (CACCCA)

Quorum = 80 9800 motivos encontrados k = 1 posicao = 1302 chi2 = 157 (CACCCA) k = 1 posicao = 2061 chi2 = 087 (CACCCG) k = 2 posicao = 2058 chi2 = 117 (CACCCA) k = 2 posicao = 2522 chi2 = 059 (CACCCG) k = 3 posicao = 1624 chi2 = 106 (CACCCA) k = 3 posicao = 2994 chi2 = 045 (CACCCG) k = 4 posicao = 2703 chi2 = 05 (CACCCA) k = 4 posicao = 3926 chi2 = 011 (CACCCG)

Quorum = 75 11933 motivos encontrados k = 1 posicao = 1951 chi2 = 145 (CACCCA) k = 1 posicao = 2903 chi2 = 081 (CACCCG) k = 2 posicao = 2227 chi2 = 116 (CACCCA) k = 2 posicao = 3417 chi2 = 062 (CACCCG) k = 3 posicao = 2137 chi2 = 108 (CACCCA) k = 3 posicao = 3426 chi2 = 041 (CACCCG) k = 4 posicao = 4518 chi2 = 031 (CACCCA) k = 4 posicao = 4805 chi2 = 012 (CACCCG)

Quorum = 60 20531 motivos encontrados k = 1 posicao = 5137 chi2 = 144 (CACCCA) k = 1 posicao = 5556 chi2 = 073 (CACCCG) k = 2 posicao = 4865 chi2 = 113 (CACCCA) k = 2 posicao = 5737 chi2 = 062 (CACCCG) k = 3 posicao = 4491 chi2 = 097 (CACCCA) k = 3 posicao = 5797 chi2 = 052 (CACCCG) k = 4 posicao = 7825 chi2 = 041 (CACCCA) k = 4 posicao = 7275 chi2 = 018 (CACCCG)

7_0_REB1

Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

211 motivos encontrados k = 1 posicao = 4 chi2 = 965 (TTACCC)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 57

k = 2 posicao = 4 chi2 = 105 (TTACCC) k = 3 posicao = 4 chi2 = 1075 (TTACCC) k = 4 posicao = 4 chi2 = 755 (TTACCC)

Quorum = 80 405 motivos encontrados k = 1 posicao = 4 chi2 = 932 (TTACCC) k = 2 posicao = 4 chi2 = 1083 (TTACCC) k = 3 posicao = 4 chi2 = 1106 (TTACCC) k = 4 posicao = 4 chi2 = 723 (TTACCC)

Quorum = 75 605 motivos encontrados k = 1 posicao = 6 chi2 = 947 (TTACCC) k = 2 posicao = 5 chi2 = 999 (TTACCC) k = 3 posicao = 5 chi2 = 1098 (TTACCC) k = 4 posicao = 5 chi2 = 808 (TTACCC)

Quorum = 60 907 motivos encontrados k = 1 posicao = 9 chi2 = 1007 (TTACCC) k = 2 posicao = 6 chi2 = 1089 (TTACCC) k = 3 posicao = 6 chi2 = 1081 (TTACCC) k = 4 posicao = 6 chi2 = 788 (TTACCC)

Erro = 1 Quorum = 100

6121 motivos encontrados k = 1 posicao = 4617 chi2 = 013 (TTACCC) k = 2 posicao = 4454 chi2 = 016 (TTACCC) k = 3 posicao = 4730 chi2 = 012 (TTACCC) k = 4 posicao = 5483 chi2 = 004 (TTACCC)

Quorum = 80 10337 motivos encontrados k = 1 posicao = 7525 chi2 = 008 (TTACCC) k = 2 posicao = 7267 chi2 = 01 (TTACCC) k = 3 posicao = 7129 chi2 = 012 (TTACCC) k = 4 posicao = 7469 chi2 = 009 (TTACCC)

Quorum = 75 15777 motivos encontrados k = 1 posicao = 10287 chi2 = 012 (TTACCC) k = 2 posicao = 10740 chi2 = 01 (TTACCC) k = 3 posicao = 9696 chi2 = 016 (TTACCC) k = 4 posicao = 10789 chi2 = 008 (TTACCC)

Quorum = 60 23856 motivos encontrados k = 1 posicao = 15646 chi2 = 01 (TTACCC) k = 2 posicao = 15437 chi2 = 012 (TTACCC) k = 3 posicao = 13932 chi2 = 022 (TTACCC) k = 4 posicao = 15597 chi2 = 009 (TTACCC)

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

235 motivos encontrados Quorum = 80

475 motivos encontrados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 58

k = 1 posicao = 3 chi2 = 945 (TGCCAAG) k = 2 posicao = 2 chi2 = 92 (TGCCAAG) k = 3 posicao = 2 chi2 = 892 (TGCCAAG) k = 4 posicao = 3 chi2 = 7 (TGCCAAG)

Quorum = 75 475 motivos encontrados k = 1 posicao = 2 chi2 = 924 (TGCCAAG) k = 2 posicao = 3 chi2 = 886 (TGCCAAG) k = 3 posicao = 3 chi2 = 869 (TGCCAAG) k = 4 posicao = 2 chi2 = 678 (TGCCAAG)

Quorum = 60 785 motivos encontrados k = 1 posicao = 5 chi2 = 952 (TGCCAAG) k = 2 posicao = 4 chi2 = 934 (TGCCAAG) k = 3 posicao = 4 chi2 = 869 (TGCCAAG) k = 4 posicao = 6 chi2 = 67 (TGCCAAG)

Erro = 1 Quorum = 100

7028 motivos encontrados k = 1 posicao = 436 chi2 = 321 (TGCCAAG) k = 2 posicao = 551 chi2 = 217 (TGCCAAG) k = 3 posicao = 940 chi2 = 223 (TGCCAAG) k = 4 posicao = 1492 chi2 = 095 (TGCCAAG)

Quorum = 80 12574 motivos encontrados k = 1 posicao = 1703 chi2 = 325 (TGCCAAG) k = 2 posicao = 2035 chi2 = 244 (TGCCAAG) k = 3 posicao = 1678 chi2 = 217 (TGCCAAG) k = 4 posicao = 3298 chi2 = 093 (TGCCAAG)

Quorum = 75 12574 motivos encontrados k = 1 posicao = 1739 chi2 = 333 (TGCCAAG) k = 2 posicao = 1717 chi2 = 216 (TGCCAAG) k = 3 posicao = 1609 chi2 = 212 (TGCCAAG) k = 4 posicao = 3574 chi2 = 075 (TGCCAAG)

Quorum = 60 20257 motivos encontrados k = 1 posicao = 3598 chi2 = 304 (TGCCAAG) k = 2 posicao = 3664 chi2 = 211 (TGCCAAG) k = 3 posicao = 3206 chi2 = 213 (TGCCAAG) k = 4 posicao = 4753 chi2 = 115 (TGCCAAG)

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

267 motivos encontrados k = 1 posicao = 4 chi2 = 998 (TGAAACA) k = 2 posicao = 5 chi2 = 908 (TGAAACA) k = 3 posicao = 5 chi2 = 875 (TGAAACA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 59

k = 4 posicao = 4 chi2 = 743 (TGAAACA)

Quorum = 80 529 motivos encontrados k = 1 posicao = 4 chi2 = 969 (TGAAACA) k = 2 posicao = 6 chi2 = 84 (TGAAACA) k = 3 posicao = 5 chi2 = 845 (TGAAACA) k = 4 posicao = 5 chi2 = 702 (TGAAACA)

Quorum = 75 529 motivos encontrados k = 1 posicao = 6 chi2 = 933 (TGAAACA) k = 2 posicao = 5 chi2 = 866 (TGAAACA) k = 3 posicao = 5 chi2 = 86 (TGAAACA) k = 4 posicao = 5 chi2 = 717 (TGAAACA)

Quorum = 60 916 motivos encontrados k = 1 posicao = 12 chi2 = 956 (TGAAACA) k = 2 posicao = 13 chi2 = 893 (TGAAACA) k = 3 posicao = 16 chi2 = 84 (TGAAACA) k = 4 posicao = 18 chi2 = 715 (TGAAACA)

Erro = 1 Quorum = 100

7705 motivos encontrados k = 1 posicao = 4203 chi2 = 055 (TGAAACA) k = 2 posicao = 5562 chi2 = 02 (TGAAACA) k = 3 posicao = 5481 chi2 = 021 (TGAAACA) k = 4 posicao = 6219 chi2 = 012 (TGAAACA)

Quorum = 80 14161 motivos encontrados k = 1 posicao = 8113 chi2 = 052 (TGAAACA) k = 2 posicao = 9261 chi2 = 022 (TGAAACA) k = 3 posicao = 8536 chi2 = 029 (TGAAACA) k = 4 posicao = 10343 chi2 = 01 (TGAAACA)

Quorum = 75 14161 motivos encontrados k = 1 posicao = 7156 chi2 = 066 (TGAAACA) k = 2 posicao = 8778 chi2 = 028 (TGAAACA) k = 3 posicao = 8848 chi2 = 034 (TGAAACA) k = 4 posicao = 9747 chi2 = 015 (TGAAACA)

Quorum = 60 24421 motivos encontrados k = 1 posicao = 12918 chi2 = 049 (TGAAACA) k = 2 posicao = 15781 chi2 = 024 (TGAAACA) k = 3 posicao = 13941 chi2 = 03 (TGAAACA) k = 4 posicao = 16147 chi2 = 017 (TGAAACA)

7_1_SWI4

Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

330 motivos encontrados Quorum = 80

675 motivos encontrados k = 1 posicao = 3 chi2 = 575 (CGCGAAA) k = 2 posicao = 3 chi2 = 483 (CGCGAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 60

k = 3 posicao = 11 chi2 = 395 (CGCGAAA) k = 4 posicao = 5 chi2 = 367 (CGCGAAA)

Quorum = 75 675 motivos encontrados k = 1 posicao = 2 chi2 = 6 (CGCGAAA) k = 2 posicao = 4 chi2 = 504 (CGCGAAA) k = 3 posicao = 14 chi2 = 372 (CGCGAAA) k = 4 posicao = 14 chi2 = 343 (CGCGAAA)

Quorum = 60 1349 motivos encontrados k = 1 posicao = 50 chi2 = 31 (CACGAAA) k = 1 posicao = 8 chi2 = 569 (CGCGAAA) k = 2 posicao = 81 chi2 = 26 (CACGAAA) k = 2 posicao = 20 chi2 = 48 (CGCGAAA) k = 3 posicao = 117 chi2 = 21 (CACGAAA) k = 3 posicao = 47 chi2 = 37 (CGCGAAA) k = 4 posicao = 309 chi2 = 056 (CACGAAA) k = 4 posicao = 33 chi2 = 367 (CGCGAAA)

Erro = 1 Quorum = 100

8974 motivos encontrados k = 1 posicao = 2630 chi2 = 093 (CACGAAA) k = 1 posicao = 1189 chi2 = 212 (CGCGAAA) k = 2 posicao = 3046 chi2 = 07 (CACGAAA) k = 2 posicao = 2138 chi2 = 101 (CGCGAAA) k = 3 posicao = 4224 chi2 = 03 (CACGAAA) k = 3 posicao = 4064 chi2 = 04 (CGCGAAA) k = 4 posicao = 5230 chi2 = 012 (CACGAAA) k = 4 posicao = 4771 chi2 = 018 (CGCGAAA)

Quorum = 80 17937 motivos encontrados k = 1 posicao = 6152 chi2 = 107 (CACGAAA) k = 1 posicao = 3575 chi2 = 211 (CGCGAAA) k = 2 posicao = 7073 chi2 = 071 (CACGAAA) k = 2 posicao = 6979 chi2 = 078 (CGCGAAA) k = 3 posicao = 9212 chi2 = 035 (CACGAAA) k = 3 posicao = 8502 chi2 = 038 (CGCGAAA) k = 4 posicao = 10421 chi2 = 017 (CACGAAA) k = 4 posicao = 9629 chi2 = 026 (CGCGAAA)

Quorum = 75 17937 motivos encontrados k = 1 posicao = 6271 chi2 = 104 (CACGAAA) k = 1 posicao = 4092 chi2 = 171 (CGCGAAA) k = 2 posicao = 8574 chi2 = 052 (CACGAAA) k = 2 posicao = 5741 chi2 = 107 (CGCGAAA) k = 3 posicao = 10092 chi2 = 026 (CACGAAA) k = 3 posicao = 8743 chi2 = 044 (CGCGAAA) k = 4 posicao = 11741 chi2 = 009 (CACGAAA) k = 4 posicao = 9601 chi2 = 022 (CGCGAAA)

Quorum = 60 35352 motivos encontrados k = 1 posicao = 15854 chi2 = 094 (CACGAAA) k = 1 posicao = 9842 chi2 = 196 (CGCGAAA) k = 2 posicao = 18655 chi2 = 063 (CACGAAA) k = 2 posicao = 16854 chi2 = 093 (CGCGAAA) k = 3 posicao = 21349 chi2 = 025 (CACGAAA) k = 3 posicao = 19789 chi2 = 036 (CGCGAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 61

k = 4 posicao = 22509 chi2 = 016 (CACGAAA) k = 4 posicao = 21049 chi2 = 027 (CGCGAAA)

7_2_GCN4

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

229 motivos encontrados Quorum = 80

372 motivos encontrados Quorum = 75

586 motivos encontrados Quorum = 60

839 motivos encontrados Erro = 1

Quorum = 100 6343 motivos encontrados

Quorum = 80 10422 motivos encontrados

Quorum = 75 15227 motivos encontrados

Quorum = 60 21609 motivos encontrados

7_2_RGT1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

205 motivos encontrados Quorum = 80

496 motivos encontrados k = 1 posicao = 4 chi2 = 1052 (CGGAAAA) k = 2 posicao = 2 chi2 = 883 (CGGAAAA) k = 3 posicao = 2 chi2 = 692 (CGGAAAA) k = 4 posicao = 10 chi2 = 308 (CGGAAAA)

Quorum = 75 496 motivos encontrados k = 1 posicao = 4 chi2 = 1101 (CGGAAAA) k = 2 posicao = 3 chi2 = 855 (CGGAAAA) k = 3 posicao = 4 chi2 = 685 (CGGAAAA) k = 4 posicao = 9 chi2 = 338 (CGGAAAA)

Quorum = 60 987 motivos encontrados k = 1 posicao = 10 chi2 = 1087 (CGGAAAA) k = 2 posicao = 11 chi2 = 792 (CGGAAAA) k = 3 posicao = 10 chi2 = 637 (CGGAAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 62

k = 4 posicao = 27 chi2 = 333 (CGGAAAA)

Erro = 1 Quorum = 100

6085 motivos encontrados k = 1 posicao = 740 chi2 = 226 (CGGAAAA) k = 1 posicao = 244 chi2 = 442 (CGGAAGA) k = 1 posicao = 375 chi2 = 415 (CGGAGAA) k = 1 posicao = 795 chi2 = 205 (CGGATAA) k = 2 posicao = 1431 chi2 = 069 (CGGAAAA) k = 2 posicao = 350 chi2 = 257 (CGGAAGA) k = 2 posicao = 313 chi2 = 281 (CGGAGAA) k = 2 posicao = 403 chi2 = 257 (CGGATAA) k = 3 posicao = 2933 chi2 = 015 (CGGAAAA) k = 3 posicao = 543 chi2 = 161 (CGGAAGA) k = 3 posicao = 758 chi2 = 162 (CGGAGAA) k = 3 posicao = 334 chi2 = 242 (CGGATAA) k = 4 posicao = 3388 chi2 = 006 (CGGAAAA) k = 4 posicao = 944 chi2 = 088 (CGGAAGA) k = 4 posicao = 682 chi2 = 096 (CGGAGAA) k = 4 posicao = 448 chi2 = 157 (CGGATAA)

Quorum = 80 13578 motivos encontrados k = 1 posicao = 2782 chi2 = 211 (CGGAAAA) k = 1 posicao = 1309 chi2 = 443 (CGGAAGA) k = 1 posicao = 9793 chi2 = 0 (CGGAATA) k = 1 posicao = 1525 chi2 = 436 (CGGAGAA) k = 1 posicao = 1267 chi2 = 351 (CGGAGGA) k = 1 posicao = 2001 chi2 = 282 (CGGATAA) k = 1 posicao = 4454 chi2 = 055 (CGGATTA) k = 2 posicao = 4354 chi2 = 063 (CGGAAAA) k = 2 posicao = 1547 chi2 = 273 (CGGAAGA) k = 2 posicao = 7920 chi2 = 004 (CGGAATA) k = 2 posicao = 2260 chi2 = 262 (CGGAGAA) k = 2 posicao = 1049 chi2 = 271 (CGGAGGA) k = 2 posicao = 1502 chi2 = 271 (CGGATAA) k = 2 posicao = 3568 chi2 = 083 (CGGATTA) k = 3 posicao = 6889 chi2 = 02 (CGGAAAA) k = 3 posicao = 2122 chi2 = 16 (CGGAAGA) k = 3 posicao = 10332 chi2 = 01 (CGGAATA) k = 3 posicao = 2408 chi2 = 144 (CGGAGAA) k = 3 posicao = 1273 chi2 = 214 (CGGAGGA) k = 3 posicao = 1406 chi2 = 211 (CGGATAA) k = 3 posicao = 1203 chi2 = 189 (CGGATTA) k = 4 posicao = 8380 chi2 = 003 (CGGAAAA) k = 4 posicao = 4250 chi2 = 074 (CGGAAGA) k = 4 posicao = 12881 chi2 = 037 (CGGAATA) k = 4 posicao = 3392 chi2 = 088 (CGGAGAA) k = 4 posicao = 1278 chi2 = 162 (CGGAGGA) k = 4 posicao = 1930 chi2 = 148 (CGGATAA) k = 4 posicao = 1157 chi2 = 136 (CGGATTA)

Quorum = 75 13578 motivos encontrados k = 1 posicao = 2620 chi2 = 264 (CGGAAAA) k = 1 posicao = 1452 chi2 = 443 (CGGAAGA) k = 1 posicao = 8943 chi2 = 001 (CGGAATA) k = 1 posicao = 1121 chi2 = 446 (CGGAGAA) k = 1 posicao = 965 chi2 = 424 (CGGAGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 63

k = 1 posicao = 2453 chi2 = 246 (CGGATAA) k = 1 posicao = 3571 chi2 = 086 (CGGATTA) k = 2 posicao = 4690 chi2 = 069 (CGGAAAA) k = 2 posicao = 1475 chi2 = 255 (CGGAAGA) k = 2 posicao = 7150 chi2 = 01 (CGGAATA) k = 2 posicao = 1209 chi2 = 259 (CGGAGAA) k = 2 posicao = 837 chi2 = 274 (CGGAGGA) k = 2 posicao = 1900 chi2 = 268 (CGGATAA) k = 2 posicao = 3981 chi2 = 066 (CGGATTA) k = 3 posicao = 6549 chi2 = 022 (CGGAAAA) k = 3 posicao = 1447 chi2 = 191 (CGGAAGA) k = 3 posicao = 10656 chi2 = 018 (CGGAATA) k = 3 posicao = 2435 chi2 = 155 (CGGAGAA) k = 3 posicao = 1026 chi2 = 21 (CGGAGGA) k = 3 posicao = 1469 chi2 = 233 (CGGATAA) k = 3 posicao = 1202 chi2 = 189 (CGGATTA) k = 4 posicao = 11692 chi2 = 0 (CGGAAAA) k = 4 posicao = 3717 chi2 = 077 (CGGAAGA) k = 4 posicao = 10890 chi2 = 035 (CGGAATA) k = 4 posicao = 3482 chi2 = 087 (CGGAGAA) k = 4 posicao = 1187 chi2 = 168 (CGGAGGA) k = 4 posicao = 1746 chi2 = 148 (CGGATAA) k = 4 posicao = 1204 chi2 = 149 (CGGATTA)

Quorum = 60 25839 motivos encontrados k = 1 posicao = 5870 chi2 = 247 (CGGAAAA) k = 1 posicao = 4726 chi2 = 405 (CGGAAGA) k = 1 posicao = 18076 chi2 = 0 (CGGAATA) k = 1 posicao = 3940 chi2 = 388 (CGGAGAA) k = 1 posicao = 3424 chi2 = 384 (CGGAGGA) k = 1 posicao = 15679 chi2 = 005 (CGGAGTA) k = 1 posicao = 6177 chi2 = 245 (CGGATAA) k = 1 posicao = 15167 chi2 = 008 (CGGATGA) k = 1 posicao = 11165 chi2 = 059 (CGGATTA) k = 2 posicao = 11428 chi2 = 046 (CGGAAAA) k = 2 posicao = 4811 chi2 = 242 (CGGAAGA) k = 2 posicao = 16216 chi2 = 003 (CGGAATA) k = 2 posicao = 4128 chi2 = 226 (CGGAGAA) k = 2 posicao = 3005 chi2 = 278 (CGGAGGA) k = 2 posicao = 10245 chi2 = 04 (CGGAGTA) k = 2 posicao = 3437 chi2 = 3 (CGGATAA) k = 2 posicao = 10379 chi2 = 033 (CGGATGA) k = 2 posicao = 8888 chi2 = 072 (CGGATTA) k = 3 posicao = 13836 chi2 = 017 (CGGAAAA) k = 3 posicao = 4943 chi2 = 191 (CGGAAGA) k = 3 posicao = 20550 chi2 = 01 (CGGAATA) k = 3 posicao = 6774 chi2 = 155 (CGGAGAA) k = 3 posicao = 2524 chi2 = 222 (CGGAGGA) k = 3 posicao = 13828 chi2 = 01 (CGGAGTA) k = 3 posicao = 4859 chi2 = 197 (CGGATAA) k = 3 posicao = 9284 chi2 = 029 (CGGATGA) k = 3 posicao = 3146 chi2 = 179 (CGGATTA) k = 4 posicao = 17095 chi2 = 001 (CGGAAAA) k = 4 posicao = 7930 chi2 = 083 (CGGAAGA) k = 4 posicao = 24667 chi2 = 051 (CGGAATA) k = 4 posicao = 9042 chi2 = 083 (CGGAGAA) k = 4 posicao = 3884 chi2 = 147 (CGGAGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 64

k = 4 posicao = 13905 chi2 = 007 (CGGAGTA) k = 4 posicao = 4859 chi2 = 156 (CGGATAA) k = 4 posicao = 14606 chi2 = 005 (CGGATGA) k = 4 posicao = 3783 chi2 = 127 (CGGATTA)

8_1_PDR1

Motivo TCCGYGGA Frequecircncia 68 ~75 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

229 motivos encontrados Quorum = 80

416 motivos encontrados Quorum = 75

639 motivos encontrados k = 1 posicao = 2 chi2 = 96 (TCCGCGGA) k = 2 posicao = 2 chi2 = 941 (TCCGCGGA) k = 3 posicao = 2 chi2 = 915 (TCCGCGGA) k = 4 posicao = 2 chi2 = 674 (TCCGCGGA)

Quorum = 60 950 motivos encontrados k = 1 posicao = 4 chi2 = 937 (TCCGCGGA) k = 2 posicao = 3 chi2 = 933 (TCCGCGGA) k = 3 posicao = 3 chi2 = 926 (TCCGCGGA) k = 4 posicao = 3 chi2 = 686 (TCCGCGGA)

Erro = 1 Quorum = 100

6610 motivos encontrados k = 1 posicao = 8 chi2 = 1095 (TCCGCGGA) k = 1 posicao = 15 chi2 = 1007 (TCCGTGGA) k = 2 posicao = 8 chi2 = 1092 (TCCGCGGA) k = 2 posicao = 18 chi2 = 1039 (TCCGTGGA) k = 3 posicao = 11 chi2 = 907 (TCCGCGGA) k = 3 posicao = 9 chi2 = 881 (TCCGTGGA) k = 4 posicao = 18 chi2 = 517 (TCCGCGGA) k = 4 posicao = 8 chi2 = 759 (TCCGTGGA)

Quorum = 80 11058 motivos encontrados k = 1 posicao = 32 chi2 = 1126 (TCCGCGGA) k = 1 posicao = 48 chi2 = 1053 (TCCGTGGA) k = 2 posicao = 21 chi2 = 1053 (TCCGCGGA) k = 2 posicao = 19 chi2 = 1098 (TCCGTGGA) k = 3 posicao = 29 chi2 = 881 (TCCGCGGA) k = 3 posicao = 60 chi2 = 808 (TCCGTGGA) k = 4 posicao = 97 chi2 = 509 (TCCGCGGA) k = 4 posicao = 42 chi2 = 698 (TCCGTGGA)

Quorum = 75 16695 motivos encontrados k = 1 posicao = 92 chi2 = 1126 (TCCGCGGA) k = 1 posicao = 178 chi2 = 1026 (TCCGTGGA) k = 2 posicao = 70 chi2 = 1092 (TCCGCGGA) k = 2 posicao = 73 chi2 = 1069 (TCCGTGGA) k = 3 posicao = 64 chi2 = 983 (TCCGCGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 65

k = 3 posicao = 83 chi2 = 898 (TCCGTGGA) k = 4 posicao = 336 chi2 = 48 (TCCGCGGA) k = 4 posicao = 130 chi2 = 657 (TCCGTGGA)

Quorum = 60 25049 motivos encontrados k = 1 posicao = 220 chi2 = 1135 (TCCGCGGA) k = 1 posicao = 369 chi2 = 1004 (TCCGTGGA) k = 2 posicao = 83 chi2 = 1159 (TCCGCGGA) k = 2 posicao = 263 chi2 = 1045 (TCCGTGGA) k = 3 posicao = 134 chi2 = 883 (TCCGCGGA) k = 3 posicao = 206 chi2 = 857 (TCCGTGGA) k = 4 posicao = 580 chi2 = 488 (TCCGCGGA) k = 4 posicao = 213 chi2 = 67 (TCCGTGGA)

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

241 motivos encontrados Quorum = 80

423 motivos encontrados k = 1 posicao = 2 chi2 = 1237 (TCCGCGGA) k = 2 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 3 posicao = 2 chi2 = 1229 (TCCGCGGA) k = 4 posicao = 2 chi2 = 915 (TCCGCGGA)

Quorum = 75 667 motivos encontrados k = 1 posicao = 2 chi2 = 1237 (TCCGCGGA) k = 2 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 3 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 4 posicao = 2 chi2 = 909 (TCCGCGGA)

Quorum = 60 1024 motivos encontrados k = 1 posicao = 3 chi2 = 1233 (TCCGCGGA) k = 2 posicao = 4 chi2 = 124 (TCCGCGGA) k = 3 posicao = 3 chi2 = 1221 (TCCGCGGA) k = 4 posicao = 5 chi2 = 918 (TCCGCGGA)

Erro = 1 Quorum = 100

6897 motivos encontrados k = 1 posicao = 17 chi2 = 1115 (TCCGCGGA) k = 1 posicao = 24 chi2 = 1026 (TCCGTGGA) k = 2 posicao = 12 chi2 = 1174 (TCCGCGGA) k = 2 posicao = 10 chi2 = 1138 (TCCGTGGA) k = 3 posicao = 17 chi2 = 945 (TCCGCGGA) k = 3 posicao = 29 chi2 = 827 (TCCGTGGA) k = 4 posicao = 65 chi2 = 481 (TCCGCGGA) k = 4 posicao = 39 chi2 = 616 (TCCGTGGA)

Quorum = 80 11592 motivos encontrados k = 1 posicao = 69 chi2 = 1156 (TCCGCGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 66

k = 1 posicao = 117 chi2 = 1012 (TCCGTGGA) k = 2 posicao = 38 chi2 = 1177 (TCCGCGGA) k = 2 posicao = 69 chi2 = 1061 (TCCGTGGA) k = 3 posicao = 76 chi2 = 893 (TCCGCGGA) k = 3 posicao = 53 chi2 = 817 (TCCGTGGA) k = 4 posicao = 131 chi2 = 526 (TCCGCGGA) k = 4 posicao = 61 chi2 = 638 (TCCGTGGA)

Quorum = 75 17555 motivos encontrados k = 1 posicao = 210 chi2 = 1109 (TCCGCGGA) k = 1 posicao = 265 chi2 = 1061 (TCCGTGGA) k = 2 posicao = 78 chi2 = 115 (TCCGCGGA) k = 2 posicao = 102 chi2 = 1109 (TCCGTGGA) k = 3 posicao = 184 chi2 = 905 (TCCGCGGA) k = 3 posicao = 105 chi2 = 85 (TCCGTGGA) k = 4 posicao = 424 chi2 = 451 (TCCGCGGA) k = 4 posicao = 476 chi2 = 582 (TCCGTGGA)

Quorum = 60 26303 motivos encontrados k = 1 posicao = 433 chi2 = 1118 (TCCGCGGA) k = 1 posicao = 521 chi2 = 991 (TCCGTGGA) k = 2 posicao = 237 chi2 = 1064 (TCCGCGGA) k = 2 posicao = 322 chi2 = 1045 (TCCGTGGA) k = 3 posicao = 316 chi2 = 95 (TCCGCGGA) k = 3 posicao = 415 chi2 = 827 (TCCGTGGA) k = 4 posicao = 978 chi2 = 49 (TCCGCGGA) k = 4 posicao = 1277 chi2 = 616 (TCCGTGGA)

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

328 motivos encontrados Quorum = 80

685 motivos encontrados Quorum = 75

685 motivos encontrados Quorum = 60

1319 motivos encontrados k = 1 posicao = 4 chi2 = 411 (TCCGTGGA) k = 2 posicao = 2 chi2 = 421 (TCCGTGGA) k = 3 posicao = 2 chi2 = 407 (TCCGTGGA) k = 4 posicao = 3 chi2 = 354 (TCCGTGGA)

Erro = 1 Quorum = 100

9298 motivos encontrados k = 1 posicao = 95 chi2 = 631 (TCCGAGGA) k = 1 posicao = 63 chi2 = 675 (TCCGCGGA) k = 1 posicao = 75 chi2 = 678 (TCCGTGGA) k = 2 posicao = 51 chi2 = 61 (TCCGAGGA) k = 2 posicao = 25 chi2 = 745 (TCCGCGGA) k = 2 posicao = 22 chi2 = 718 (TCCGTGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 67

k = 3 posicao = 38 chi2 = 538 (TCCGAGGA) k = 3 posicao = 68 chi2 = 543 (TCCGCGGA) k = 3 posicao = 64 chi2 = 57 (TCCGTGGA) k = 4 posicao = 48 chi2 = 529 (TCCGAGGA) k = 4 posicao = 161 chi2 = 389 (TCCGCGGA) k = 4 posicao = 78 chi2 = 477 (TCCGTGGA)

Quorum = 80 18263 motivos encontrados k = 1 posicao = 551 chi2 = 592 (TCCGAGGA) k = 1 posicao = 147 chi2 = 754 (TCCGCGGA) k = 1 posicao = 282 chi2 = 647 (TCCGTGGA) k = 2 posicao = 296 chi2 = 605 (TCCGAGGA) k = 2 posicao = 143 chi2 = 715 (TCCGCGGA) k = 2 posicao = 182 chi2 = 681 (TCCGTGGA) k = 3 posicao = 589 chi2 = 511 (TCCGAGGA) k = 3 posicao = 347 chi2 = 553 (TCCGCGGA) k = 3 posicao = 245 chi2 = 59 (TCCGTGGA) k = 4 posicao = 429 chi2 = 462 (TCCGAGGA) k = 4 posicao = 944 chi2 = 401 (TCCGCGGA) k = 4 posicao = 577 chi2 = 41 (TCCGTGGA)

Quorum = 75 18263 motivos encontrados k = 1 posicao = 790 chi2 = 6 (TCCGAGGA) k = 1 posicao = 168 chi2 = 706 (TCCGCGGA) k = 1 posicao = 451 chi2 = 631 (TCCGTGGA) k = 2 posicao = 195 chi2 = 623 (TCCGAGGA) k = 2 posicao = 152 chi2 = 695 (TCCGCGGA) k = 2 posicao = 155 chi2 = 686 (TCCGTGGA) k = 3 posicao = 159 chi2 = 546 (TCCGAGGA) k = 3 posicao = 286 chi2 = 546 (TCCGCGGA) k = 3 posicao = 281 chi2 = 585 (TCCGTGGA) k = 4 posicao = 342 chi2 = 46 (TCCGAGGA) k = 4 posicao = 562 chi2 = 381 (TCCGCGGA) k = 4 posicao = 632 chi2 = 401 (TCCGTGGA)

Quorum = 60 35494 motivos encontrados k = 1 posicao = 1806 chi2 = 548 (TCCGAGGA) k = 1 posicao = 1580 chi2 = 65 (TCCGCGGA) k = 1 posicao = 1668 chi2 = 595 (TCCGTGGA) k = 2 posicao = 1224 chi2 = 592 (TCCGAGGA) k = 2 posicao = 794 chi2 = 701 (TCCGCGGA) k = 2 posicao = 991 chi2 = 658 (TCCGTGGA) k = 3 posicao = 1647 chi2 = 536 (TCCGAGGA) k = 3 posicao = 2029 chi2 = 546 (TCCGCGGA) k = 3 posicao = 1118 chi2 = 57 (TCCGTGGA) k = 4 posicao = 1549 chi2 = 502 (TCCGAGGA) k = 4 posicao = 2429 chi2 = 385 (TCCGCGGA) k = 4 posicao = 2813 chi2 = 429 (TCCGTGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 68

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 69

Anexo B Comparaccedilatildeo da Significacircncia Estatiacutestica referente agrave Abundacircncia obtida pelo

Meacutetodo de Shuffling e pelo Meacutetodo Analiacutetico

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos a comparaccedilatildeo entre o valor do chi2 obtido pelo meacutetodo de shuffling e o valor obtido pelo meacutetodo analiacutetico

Cada linha diz respeito a dados em que se conserva um determinado k-mer (k) Em cada uma eacute apresentado o valor do chi2 obtido pelo meacutetodo de shuffling (chi2) e a sua posiccedilatildeo relativa na lista de motivos ordenada por valores decrescentes de chi2 face ao nuacutemero de motivos extraiacutedos Os valores acima referidos tambeacutem satildeo apresentados para o meacutetodo analiacutetico (achi2)

10_2_YRR1 Motivo TTCCGTGGAA TTCCGCGGAT TTCCGCGGAA Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=488 (633 in 8908) achi2=476 (745 in 8908) [TTCCGCGGAA]

K=2 chi2=465 (468 in 8908) achi2=464 (509 in 8908) [TTCCGCGGAA]

K=3 chi2=412 (201 in 8908) achi2=413 (230 in 8908) [TTCCGCGGAA]

K=4 chi2=253 (223 in 8908) achi2=278 (205 in 8908) [TTCCGCGGAA]

K=5 chi2=126 (277 in 8912) achi2=143 (291 in 8912) [TTCCGCGGAA]

K=6 chi2=039 (323 in 8912) achi2=041 (1035 in 8912) [TTCCGCGGAA]

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 70

Error = 1

Quorum = 80

K=1 chi2=388 (428 in 17722) achi2=387 (504 in 17722) [ACCCTAAAGGT]

K=1 chi2=474 (246 in 17722) achi2=483 (265 in 17722) [ACCTTAAAGGT]

K=2 chi2=394 (222 in 17722) achi2=389 (248 in 17722) [ACCCTAAAGGT]

K=2 chi2=474 (111 in 17722) achi2=484 (119 in 17722) [ACCTTAAAGGT]

K=3 chi2=400 (51 in 17722) achi2=391 (61 in 17722) [ACCCTAAAGGT]

K=3 chi2=477 (12 in 17722) achi2=485 (14 in 17722) [ACCTTAAAGGT]

K=4 chi2=394 (28 in 17722) achi2=387 (31 in 17722) [ACCCTAAAGGT]

K=4 chi2=488 (4 in 17722) achi2=485 (4 in 17722) [ACCTTAAAGGT]

K=5 chi2=326 (24 in 17722) achi2=343 (29 in 17722) [ACCCTAAAGGT]

K=5 chi2=435 (7 in 17722) achi2=462 (3 in 17722) [ACCTTAAAGGT]

K=6 chi2=071 (387 in 17722) achi2=282 (276 in 17722) [ACCCTAAAGGT]

K=6 chi2=310 (2 in 17722) achi2=431 (259 in 17722) [ACCTTAAAGGT]

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=344 (91 in 1316) achi2=314 (116 in 1316) [CCCCT]

K=2 chi2=187 (183 in 1316) achi2=194 (178 in 1316) [CCCCT]

K=3 chi2=164 (138 in 1316) achi2=140 (190 in 1316) [CCCCT]

K=4 chi2=088 (186 in 1316) achi2=104 (150 in 1316) [CCCCT]

Error = 1

Quorum = 60

K=1 chi2=056 (18487 in 35258) achi2=082 (15627 in 35258) [CCCCT]

K=2 chi2=000 (34670 in 35258) achi2=000 (34292 in 35258) [CCCCT]

K=3 chi2=007 (27587 in 35258) achi2=011 (25832 in 35258) [CCCCT]

K=4 chi2=044 (14195 in 35258) achi2=044 (14486 in 35258) [CCCCT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 71

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=534 (66 in 826) achi2=523 (72 in 826) [CCCCT]

K=2 chi2=290 (76 in 826) achi2=297 (75 in 826) [CCCCT]

K=3 chi2=159 (97 in 826) achi2=152 (105 in 826) [CCCCT]

K=4 chi2=022 (242 in 826) achi2=007 (382 in 826) [CCCCT]

K=5 chi2=000 (360 in 826) achi2=000 (339 in 826) [CCCCT]

K=6 chi2=000 (331 in 826) achi2=000 (604 in 826) [CCCCT]

Error = 1

Quorum = 60

K=1 chi2=372 (2640 in 21544) achi2=462 (2153 in 21544) [CCCCT]

K=2 chi2=041 (10937 in 21544) achi2=070 (8620 in 21544) [CCCCT]

K=3 chi2=000 (20651 in 21544) achi2=000 (20723 in 21544) [CCCCT]

K=4 chi2=080 (4245 in 21544) achi2=083 (4322 in 21544) [CCCCT]

K=5 chi2=000 (19590 in 21562) achi2=000 (20653 in 21562) [CCCCT]

K=6 chi2=000 (16728 in 21562) achi2=000 (21282 in 21562) [CCCCT]

5_1_Gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=080 (3213 in 6121) achi2=079 (3260 in 6121) [CATCC]

K=1 chi2=1188 (320 in 6121) achi2=1158 (344 in 6121) [CTTCC]

K=2 chi2=180 (1552 in 6121) achi2=161 (1763 in 6121) [CATCC]

K=2 chi2=504 (498 in 6121) achi2=470 (566 in 6121) [CTTCC]

K=3 chi2=205 (809 in 6121) achi2=192 (906 in 6121) [CATCC]

K=3 chi2=102 (1713 in 6121) achi2=109 (1663 in 6121) [CTTCC]

K=4 chi2=097 (929 in 6121) achi2=091 (1091 in 6121) [CATCC]

K=4 chi2=001 (5090 in 6121) achi2=001 (5126 in 6121) [CTTCC]

K=5 chi2=000 (5948 in 6121) achi2=000 (5152 in 6121) [CATCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 72

K=5 chi2=000 (4578 in 6121) achi2=000 (5000 in 6121) [CTTCC]

K=6 chi2=000 (5634 in 6121) achi2=000 (5438 in 6121) [CATCC]

K=6 chi2=000 (2279 in 6121) achi2=000 (5149 in 6121) [CTTCC]

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 chi2=292 (2311 in 10819) achi2=273 (2534 in 10819) [GATAAG]

K=1 chi2=131 (4204 in 10819) achi2=102 (4875 in 10819) [GATTAG]

K=2 chi2=499 (766 in 10819) achi2=493 (849 in 10819) [GATAAG]

K=2 chi2=280 (1760 in 10819) achi2=268 (1952 in 10819) [GATTAG]

K=3 chi2=168 (2077 in 10819) achi2=174 (2107 in 10819) [GATAAG]

K=3 chi2=953 (62 in 10819) achi2=925 (81 in 10819) [GATTAG]

K=4 chi2=014 (6803 in 10819) achi2=009 (7567 in 10819) [GATAAG]

K=4 chi2=309 (394 in 10819) achi2=352 (328 in 10819) [GATTAG]

K=5 chi2=001 (8734 in 10819) achi2=003 (7728 in 10819) [GATAAG]

K=5 chi2=176 (429 in 10819) achi2=159 (773 in 10819) [GATTAG]

K=6 chi2=000 (9825 in 10819) achi2=000 (6602 in 10819) [GATAAG]

K=6 chi2=000 (7459 in 10819) achi2=000 (6760 in 10819) [GATTAG]

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

Error = 1

Quorum = 60

K=1 chi2=382 (3218 in 20531) achi2=555 (2348 in 20531) [CACCCA]

k=1 chi2=083 (9754 in 20531) achi2=102 (9117 in 20531) [CACCCG]

K=2 chi2=330 (2327 in 20531) achi2=368 (2233 in 20531) [CACCCA]

K=2 chi2=143 (5707 in 20531) achi2=117 (6956 in 20531) [CACCCG]

K=3 chi2=209 (2208 in 20531) achi2=223 (2249 in 20531) [CACCCA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 73

K=3 chi2=040 (9516 in 20531) achi2=023 (12243 in 20531) [CACCCG]

K=4 chi2=071 (4649 in 20531) achi2=105 (3457 in 20531) [CACCCA]

K=4 chi2=000 (19099 in 20531) achi2=002 (17523 in 20531) [CACCCG]

7_0_REB1 Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 chi2=549 (29 in 405) achi2=586 (33 in 405) [TTACCC]

K=2 chi2=688 (6 in 405) achi2=635 (12 in 405) [TTACCC]

K=3 chi2=706 (2 in 405) achi2=679 (2 in 405) [TTACCC]

K=4 chi2=373 (3 in 405) achi2=402 (3 in 405) [TTACCC]

K=5 chi2=034 (7 in 405) achi2=020 (8 in 405) [TTACCC]

K=6 chi2=000 (383 in 405) achi2=000 (232 in 405) [TTACCC]

Error = 1

Quorum = 80

K=1 chi2=133 (3134 in 10337) achi2=169 (2743 in 10337) [TTACCC]

K=2 chi2=302 (657 in 10337) achi2=267 (945 in 10337) [TTACCC]

K=3 chi2=409 (106 in 10337) achi2=394 (170 in 10337) [TTACCC]

K=4 chi2=082 (1439 in 10337) achi2=109 (1091 in 10337) [TTACCC]

K=5 chi2=002 (7204 in 10337) achi2=003 (6765 in 10337) [TTACCC]

K=6 chi2=000 (10150 in 10337) achi2=000 (6299 in 10337) [TTACCC]

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=626 (58 in 785) achi2=615 (64 in 785) [TGCCAAG]

K=2 chi2=610 (11 in 785) achi2=585 (14 in 785) [TGCCAAG]

K=3 chi2=561 (8 in 785) achi2=575 (6 in 785) [TGCCAAG]

K=4 chi2=399 (4 in 785) achi2=377 (6 in 785) [TGCCAAG]

K=5 chi2=184 (8 in 785) achi2=157 (10 in 785) [TGCCAAG]

K=6 chi2=054 (5 in 785) achi2=055 (255 in 785) [TGCCAAG]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 74

Error = 1

Quorum = 60

K=1 chi2=463 (1914 in 20257) achi2=458 (2166 in 20257) [TGCCAAG]

K=2 chi2=292 (1694 in 20257) achi2=287 (1959 in 20257) [TGCCAAG]

K=3 chi2=252 (1158 in 20257) achi2=270 (1060 in 20257) [TGCCAAG]

K=4 chi2=038 (8072 in 20257) achi2=030 (9306 in 20257) [TGCCAAG]

K=5 chi2=002 (15272 in 20366) achi2=004 (14013 in 20366) [TGCCAAG]

K=6 chi2=009 (5877 in 20366) achi2=029 (4589 in 20366) [TGCCAAG]

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

K=1 chi2=1035 (5 in 267) achi2=996 (6 in 267) [TGAAACA]

K=2 chi2=961 (1 in 267) achi2=905 (1 in 267) [TGAAACA]

K=3 chi2=934 (1 in 267) achi2=884 (1 in 267) [TGAAACA]

K=4 chi2=794 (1 in 267) achi2=731 (1 in 267) [TGAAACA]

K=5 chi2=264 (2 in 267) achi2=320 (1 in 267) [TGAAACA]

K=6 chi2=044 (3 in 267) achi2=052 (168 in 267) [TGAAACA]

Error = 1

Quorum = 100

K=1 chi2=448 (515 in 7705) achi2=400 (675 in 7705) [TGAAACA]

K=2 chi2=168 (1047 in 7705) achi2=157 (1246 in 7705) [TGAAACA]

K=3 chi2=159 (637 in 7705) achi2=128 (992 in 7705) [TGAAACA]

K=4 chi2=057 (1734 in 7705) achi2=026 (3100 in 7705) [TGAAACA]

K=5 chi2=015 (2574 in 7705) achi2=021 (2435 in 7705) [TGAAACA]

K=6 chi2=007 (1386 in 7705) achi2=006 (2114 in 7705) [TGAAACA]

7_1_SWI4

Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 75

Quorum = 100

K=1 chi2=927 (53 in 8974) achi2=950 (59 in 8974) [CACGAAA]

K=1 chi2=1447 (8 in 8974) achi2=1516 (9 in 8974) [CGCGAAA]

K=2 chi2=686 (17 in 8974) achi2=638 (22 in 8974) [CACGAAA]

K=2 chi2=940 (4 in 8974) achi2=924 (3 in 8974) [CGCGAAA]

K=3 chi2=456 (46 in 8974) achi2=436 (53 in 8974) [CACGAAA]

K=3 chi2=514 (20 in 8974) achi2=502 (25 in 8974) [CGCGAAA]

K=4 chi2=087 (1329 in 8974) achi2=106 (1095 in 8974) [CACGAAA]

K=4 chi2=343 (41 in 8974) achi2=390 (27 in 8974) [CGCGAAA]

K=5 chi2=012 (3730 in 8974) achi2=000 (7343 in 8974) [CACGAAA]

K=5 chi2=033 (1966 in 8974) achi2=121 (397 in 8974) [CGCGAAA]

K=6 chi2=007 (1861 in 8974) achi2=001 (3810 in 8974) [CACGAAA]

K=6 chi2=002 (3146 in 8974) achi2=044 (873 in 8974) [CGCGAAA]

7_2_RGT1

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=2092 (246 in 6085) achi2=2140 (236 in 6085) [CGGAAAA]

K=1 chi2=810 (799 in 6085) achi2=803 (815 in 6085) [CGGAAGA]

K=1 chi2=1437 (409 in 6085) achi2=1409 (416 in 6085) [CGGAGAA]

K=1 chi2=337 (1833 in 6085) achi2=350 (1782 in 6085) [CGGATAA]

K=2 chi2=837 (251 in 6085) achi2=840 (245 in 6085) [CGGAAAA]

K=2 chi2=451 (648 in 6085) achi2=442 (666 in 6085) [CGGAAGA]

K=2 chi2=989 (186 in 6085) achi2=937 (208 in 6085) [CGGAGAA]

K=2 chi2=432 (698 in 6085) achi2=428 (695 in 6085) [CGGATAA]

K=3 chi2=281 (367 in 6085) achi2=272 (385 in 6085) [CGGAAAA]

K=3 chi2=242 (473 in 6085) achi2=225 (546 in 6085) [CGGAAGA]

K=3 chi2=580 (76 in 6085) achi2=544 (89 in 6085) [CGGAGAA]

K=3 chi2=366 (216 in 6085) achi2=309 (299 in 6085) [CGGATAA]

K=4 chi2=013 (3127 in 6085) achi2=022 (2503 in 6085) [CGGAAAA]

K=4 chi2=039 (1619 in 6085) achi2=040 (1722 in 6085) [CGGAAGA]

K=4 chi2=320 (35 in 6085) achi2=304 (56 in 6085) [CGGAGAA]

K=4 chi2=193 (166 in 6085) achi2=202 (188 in 6085) [CGGATAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 76

8_1_PDR1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 75

K=1 chi2=901 (25 in 639) achi2=884 (27 in 639) [TCCGCGGA]

K=2 chi2=886 (13 in 639) achi2=883 (14 in 639) [TCCGCGGA]

K=3 chi2=862 (4 in 639) achi2=864 (5 in 639) [TCCGCGGA]

K=4 chi2=659 (2 in 639) achi2=741 (2 in 639) [TCCGCGGA]

K=5 chi2=252 (1 in 639) achi2=306 (1 in 639) [TCCGCGGA]

K=6 chi2=012 (5 in 639) achi2=030 (253 in 639) [TCCGCGGA]

Error = 1

Quorum = 75

K=1 chi2=1388 (184 in 16695) achi2=1370 (211 in 16695) [TCCGCGGA]

K=1 chi2=913 (373 in 16695) achi2=895 (419 in 16695) [TCCGTGGA]

K=2 chi2=1355 (68 in 16695) achi2=1355 (91 in 16695) [TCCGCGGA]

K=2 chi2=952 (199 in 16695) achi2=944 (230 in 16695) [TCCGTGGA]

K=3 chi2=1237 (5 in 16695) achi2=1138 (22 in 16695) [TCCGCGGA]

K=3 chi2=782 (88 in 16695) achi2=771 (119 in 16695) [TCCGTGGA]

K=4 chi2=570 (45 in 16695) achi2=688 (33 in 16695) [TCCGCGGA]

K=4 chi2=544 (53 in 16695) achi2=610 (56 in 16695) [TCCGTGGA]

K=5 chi2=061 (2230 in 16699) achi2=113 (1175 in 16699) [TCCGCGGA]

K=5 chi2=101 (981 in 16699) achi2=207 (328 in 16699) [TCCGTGGA]

K=6 chi2=001 (8600 in 16699) achi2=000 (10541 in 16699) [TCCGCGGA]

K=6 chi2=002 (7065 in 16699) achi2=003 (8326 in 16699) [TCCGTGGA]

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 chi2=995 (22 in 423) achi2=985 (24 in 423) [TCCGCGGA]

K=2 chi2=980 (13 in 423) achi2=985 (13 in 423) [TCCGCGGA]

K=3 chi2=989 (4 in 423) achi2=967 (4 in 423) [TCCGCGGA]

K=4 chi2=741 (1 in 423) achi2=802 (1 in 423) [TCCGCGGA]

K=5 chi2=220 (1 in 423) achi2=303 (1 in 423) [TCCGCGGA]

K=6 chi2=010 (1 in 423) achi2=027 (229 in 423) [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 77

Error = 1

Quorum = 80

K=1 chi2=1609 (169 in 11592) achi2=1592 (187 in 11592) [TCCGCGGA]

K=1 chi2=1090 (327 in 11592) achi2=1109 (353 in 11592) [TCCGTGGA]

K=2 chi2=1634 (63 in 11592) achi2=1584 (97 in 11592) [TCCGCGGA]

K=2 chi2=1148 (174 in 11592) achi2=1142 (197 in 11592) [TCCGTGGA]

K=3 chi2=1333 (20 in 11592) achi2=1364 (24 in 11592) [TCCGCGGA]

K=3 chi2=878 (91 in 11592) achi2=894 (109 in 11592) [TCCGTGGA]

K=4 chi2=784 (26 in 11592) achi2=785 (35 in 11592) [TCCGCGGA]

K=4 chi2=632 (50 in 11592) achi2=689 (52 in 11592) [TCCGTGGA]

K=5 chi2=072 (1370 in 11601) achi2=127 (778 in 11601) [TCCGCGGA]

K=5 chi2=100 (878 in 11601) achi2=146 (618 in 11601) [TCCGTGGA]

K=6 chi2=000 (7969 in 11601) achi2=001 (5475 in 11601) [TCCGCGGA]

K=6 chi2=001 (4626 in 11601) achi2=004 (4674 in 11601) [TCCGTGGA]

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=285 (128 in 1319) achi2=287 (133 in 1319) [TCCGTGGA]

K=2 chi2=294 (89 in 1319) achi2=289 (95 in 1319) [TCCGTGGA]

K=3 chi2=283 (10 in 1319) achi2=278 (15 in 1319) [TCCGTGGA]

K=4 chi2=240 (7 in 1319) achi2=255 (6 in 1319) [TCCGTGGA]

K=5 chi2=122 (16 in 1319) achi2=206 (5 in 1319) [TCCGTGGA]

K=6 chi2=015 (42 in 1319) achi2=084 (269 in 1319) [TCCGTGGA]

Error = 1

Quorum = 60

K=1 chi2=336 (1859 in 35494) achi2=391 (1312 in 35494) [TCCGAGGA]

K=1 chi2=612 (489 in 35494) achi2=660 (442 in 35494) [TCCGCGGA]

K=1 chi2=368 (1518 in 35494) achi2=402 (1240 in 35494) [TCCGTGGA]

K=2 chi2=363 (946 in 35494) achi2=379 (816 in 35494) [TCCGAGGA]

K=2 chi2=636 (218 in 35494) achi2=640 (206 in 35494) [TCCGCGGA]

K=2 chi2=416 (670 in 35494) achi2=428 (599 in 35494) [TCCGTGGA]

K=3 chi2=301 (498 in 35494) achi2=304 (471 in 35494) [TCCGAGGA]

K=3 chi2=515 (41 in 35494) achi2=480 (63 in 35494) [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 78

K=3 chi2=341 (278 in 35494) achi2=329 (327 in 35494) [TCCGTGGA]

K=4 chi2=285 (274 in 35494) achi2=295 (205 in 35494) [TCCGAGGA]

K=4 chi2=300 (198 in 35494) achi2=337 (85 in 35494) [TCCGCGGA]

K=4 chi2=217 (1082 in 35494) achi2=219 (1060 in 35494) [TCCGTGGA]

K=5 chi2=075 (6352 in 35725) achi2=087 (6044 in 35725) [TCCGAGGA]

K=5 chi2=079 (5926 in 35725) achi2=153 (2215 in 35725) [TCCGCGGA]

K=5 chi2=081 (5763 in 35725) achi2=080 (6754 in 35725) [TCCGTGGA]

K=6 chi2=003 (19985 in 35725) achi2=010 (17420 in 35725) [TCCGAGGA]

K=6 chi2=026 (6383 in 35725) achi2=053 (6615 in 35725) [TCCGCGGA]

K=6 chi2=011 (11922 in 35725) achi2=000 (30343 in 35725) [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 79

Anexo C Resultados do Caacutelculo da Significacircncia Estatiacutestica referente agrave Abundacircncia

pelo Meacutetodo Analiacutetico para Conjuntos de Dados de Saccharomyces cerevisiae

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados

A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos os resultados para os motivos procurados em relaccedilatildeo a cada valor dos paracircmetros

Descriccedilatildeo do formato dos resultados

K=ltk-mer conservadogt achi2 = ltchi2 analiacuteticogt (ltposiccedilatildeogt in ltnuacutemero de motivos extraiacutedosgt ltposiccedilatildeo entre motivos do mesmo tamanhogt [motivo]

Nota A posiccedilatildeo do motivo refere-se agrave ordem em que se encontra numa lista ordenada por ordem decrescente de chi2 analiacutetico dos motivos extraiacutedos

10_2_YRR1 Motivo TTCCGTGGAA TTCCGCGGAT TTCCGCGGAA Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=476 (745 in 8908) 13 [TTCCGCGGAA]

K=2 achi2=464 (509 in 8908) 12 [TTCCGCGGAA]

K=3 achi2=413 (230 in 8908) 11 [TTCCGCGGAA]

K=4 achi2=278 (205 in 8908) 10 [TTCCGCGGAA]

K=5 achi2=143 (287 in 8908) 12 [TTCCGCGGAA]

K=6 achi2=041 (1031 in 8908) 15 [TTCCGCGGAA]

K=7 achi2=000 (2230 in 8908) 16 [TTCCGCGGAA]

K=8 achi2=001 (4728 in 8908) 16 [TTCCGCGGAA]

K=9 achi2=001 (7926 in 8908) 16 [TTCCGCGGAA]

K=10 achi2=000 (8782 in 8908) 16 [TTCCGCGGAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 80

K=11 achi2=000 (8903 in 8908) 12 [TTCCGCGGAA]

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 achi2=387 (504 in 17722) 3 [ACCCTAAAGGT]

K=1 achi2=483 (265 in 17722) 2 [ACCTTAAAGGT]

K=2 achi2=389 (248 in 17722) 3 [ACCCTAAAGGT]

K=2 achi2=484 (119 in 17722) 2 [ACCTTAAAGGT]

K=3 achi2=391 (61 in 17722) 3 [ACCCTAAAGGT]

K=3 achi2=485 (14 in 17722) 2 [ACCTTAAAGGT]

K=4 achi2=387 (31 in 17722) 4 [ACCCTAAAGGT]

K=4 achi2=485 (4 in 17722) 2 [ACCTTAAAGGT]

K=5 achi2=343 (29 in 17722) 4 [ACCCTAAAGGT]

K=5 achi2=462 (3 in 17722) 2 [ACCTTAAAGGT]

K=6 achi2=282 (276 in 17722) 4 [ACCCTAAAGGT]

K=6 achi2=431 (259 in 17722) 2 [ACCTTAAAGGT]

K=7 achi2=063 (1455 in 17722) 4 [ACCCTAAAGGT]

K=7 achi2=197 (1286 in 17722) 3 [ACCTTAAAGGT]

K=8 achi2=004 (5422 in 17722) 3 [ACCCTAAAGGT]

K=8 achi2=005 (5392 in 17722) 1 [ACCTTAAAGGT]

K=9 achi2=000 (13376 in 17722) 3 [ACCCTAAAGGT]

K=9 achi2=005 (13364 in 17722) 1 [ACCTTAAAGGT]

K=10 achi2=000 (17186 in 17722) 3 [ACCCTAAAGGT]

K=10 achi2=000 (17184 in 17722) 1 [ACCTTAAAGGT]

K=11 achi2=000 (17688 in 17722) 3 [ACCCTAAAGGT]

K=11 achi2=000 (17686 in 17722) 1 [ACCTTAAAGGT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 81

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=523 (72 in 826) 21 [CCCCT]

K=2 achi2=297 (75 in 826) 23 [CCCCT]

K=3 achi2=152 (105 in 826) 55 [CCCCT]

K=4 achi2=007 (382 in 826) 310 [CCCCT]

K=5 achi2=000 (339 in 826) 245 [CCCCT]

K=6 achi2=000 (604 in 826) 255 [CCCCT]

Error = 1

Quorum = 60

K=1 achi2=462 (2153 in 21544) 223 [CCCCT]

K=2 achi2=070 (8620 in 21544) 476 [CCCCT]

K=3 achi2=000 (20723 in 21544) 986 [CCCCT]

K=4 achi2=083 (4322 in 21544) 81 [CCCCT]

K=5 achi2=000 (20635 in 21544) 618 [CCCCT]

K=6 achi2=000 (21264 in 21544) 744 [CCCCT]

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=314 (116 in 1316) 27 [CCCCT]

K=2 achi2=194 (178 in 1316) 39 [CCCCT]

K=3 achi2=140 (190 in 1316) 42 [CCCCT]

K=4 achi2=104 (150 in 1316) 19 [CCCCT]

K=5 achi2=000 (576 in 1316) 111 [CCCCT]

K=6 achi2=000 (1113 in 1316) 392 [CCCCT]

K=7 achi2=901 (324 in 1316) 94 [CCCCT]

K=8 achi2=901 (340 in 1316) 94 [CCCCT]

K=9 achi2=901 (341 in 1316) 94 [CCCCT]

K=10 achi2=901 (342 in 1316) 94 [CCCCT]

K=11 achi2=901 (343 in 1316) 94 [CCCCT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 82

Error = 1

Quorum = 60

K=1 achi2=082 (15627 in 35258) 568 [CCCCT]

K=2 achi2=000 (34292 in 35258) 986 [CCCCT]

K=3 achi2=011 (25832 in 35258) 671 [CCCCT]

K=4 achi2=044 (14486 in 35258) 144 [CCCCT]

K=5 achi2=000 (34387 in 35258) 626 [CCCCT]

K=6 achi2=000 (34560 in 35258) 326 [CCCCT]

5_1_Gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=079 (3260 in 6121) 599 [CATCC]

K=1 achi2=1158 (344 in 6121) 50 [CTTCC]

K=2 achi2=161 (1763 in 6121) 312 [CATCC]

K=2 achi2=470 (566 in 6121) 105 [CTTCC]

K=3 achi2=192 (906 in 6121) 128 [CATCC]

K=3 achi2=109 (1663 in 6121) 248 [CTTCC]

K=4 achi2=091 (1091 in 6121) 97 [CATCC]

K=4 achi2=001 (5126 in 6121) 870 [CTTCC]

K=5 achi2=000 (5152 in 6121) 372 [CATCC]

K=5 achi2=000 (5000 in 6121) 230 [CTTCC]

K=6 achi2=000 (5438 in 6121) 341 [CATCC]

K=6 achi2=000 (5149 in 6121) 52 [CTTCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 83

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 achi2=273 (2534 in 10819) 831 [GATAAG]

K=1 achi2=102 (4875 in 10819) 1698 [GATTAG]

K=2 achi2=493 (849 in 10819) 251 [GATAAG]

K=2 achi2=268 (1952 in 10819) 593 [GATTAG]

K=3 achi2=174 (2107 in 10819) 675 [GATAAG]

K=3 achi2=925 (81 in 10819) 12 [GATTAG]

K=4 achi2=009 (7567 in 10819) 2712 [GATAAG]

K=4 achi2=352 (328 in 10819) 59 [GATTAG]

K=5 achi2=003 (7728 in 10819) 3046 [GATAAG]

K=5 achi2=159 (773 in 10819) 110 [GATTAG]

K=6 achi2=000 (6602 in 10819) 761 [GATAAG]

K=6 achi2=000 (6760 in 10819) 917 [GATTAG]

K=7 achi2=000 (10606 in 10819) 3684 [GATAAG]

K=7 achi2=000 (8570 in 10819) 1648 [GATTAG]

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

Error = 1

Quorum = 60

K=1 achi2=555 (2348 in 20531) 456 [CACCCA]

K=1 achi2=102 (9117 in 20531) 2005 [CACCCG]

K=2 achi2=368 (2233 in 20531) 460 [CACCCA]

K=2 achi2=117 (6956 in 20531) 1498 [CACCCG]

K=3 achi2=223 (2249 in 20531) 392 [CACCCA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 84

K=3 achi2=023 (12243 in 20531) 2397 [CACCCG]

K=4 achi2=105 (3457 in 20531) 482 [CACCCA]

K=4 achi2=002 (17523 in 20531) 3457 [CACCCG]

K=5 achi2=006 (13001 in 20531) 2409 [CACCCA]

K=5 achi2=048 (5016 in 20531) 610 [CACCCG]

K=6 achi2=000 (17016 in 20531) 1751 [CACCCA]

K=6 achi2=000 (18636 in 20531) 3343 [CACCCG]

K=7 achi2=000 (17654 in 20531) 1218 [CACCCA]

K=7 achi2=000 (18327 in 20531) 1891 [CACCCG]

7_0_REB1 Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 achi2=586 (33 in 405) 5 [TTACCC]

K=2 achi2=635 (12 in 405) 1 [TTACCC]

K=3 achi2=679 (2 in 405) 1 [TTACCC]

K=4 achi2=402 (3 in 405) 2 [TTACCC]

K=5 achi2=020 (8 in 405) 7 [TTACCC]

K=6 achi2=000 (232 in 405) 8 [TTACCC]

K=7 achi2=000 (402 in 405) 8 [TTACCC]

Error = 1

Quorum = 80

K=1 achi2=169 (2742 in 10337) 933 [TTACCC]

K=2 achi2=267 (945 in 10337) 284 [TTACCC]

K=3 achi2=394 (170 in 10337) 25 [TTACCC]

K=4 achi2=109 (1091 in 10337) 246 [TTACCC]

K=5 achi2=003 (6765 in 10337) 2619 [TTACCC]

K=6 achi2=000 (6295 in 10337) 852 [TTACCC]

K=7 achi2=000 (9863 in 10337) 3333 [TTACCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 85

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=615 (64 in 785) 12 [TGCCAAG]

K=2 achi2=585 (14 in 785) 3 [TGCCAAG]

K=3 achi2=575 (6 in 785) 2 [TGCCAAG]

K=4 achi2=377 (6 in 785) 2 [TGCCAAG]

K=5 achi2=157 (10 in 785) 5 [TGCCAAG]

K=6 achi2=055 (255 in 785) 4 [TGCCAAG]

K=7 achi2=000 (652 in 785) 18 [TGCCAAG]

K=8 achi2=000 (771 in 785) 15 [TGCCAAG]

Error = 1

Quorum = 60

K=1 achi2=458 (2166 in 20257) 407 [TGCCAAG]

K=2 achi2=287 (1959 in 20257) 462 [TGCCAAG]

K=3 achi2=270 (1060 in 20257) 241 [TGCCAAG]

K=4 achi2=030 (9306 in 20257) 3695 [TGCCAAG]

K=5 achi2=004 (13915 in 20257) 6353 [TGCCAAG]

K=6 achi2=029 (4512 in 20257) 1713 [TGCCAAG]

K=7 achi2=003 (5275 in 20257) 36 [TGCCAAG]

K=8 achi2=000 (12401 in 20257) 1099 [TGCCAAG]

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

K=1 achi2=996 (6 in 267) 1 [TGAAACA]

K=2 achi2=905 (1 in 267) 1 [TGAAACA]

K=3 achi2=884 (1 in 267) 1 [TGAAACA]

K=4 achi2=731 (1 in 267) 1 [TGAAACA]

K=5 achi2=320 (1 in 267) 1 [TGAAACA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 86

K=6 achi2=052 (168 in 267) 2 [TGAAACA]

K=7 achi2=000 (254 in 267) 1 [TGAAACA]

K=8 achi2=000 (266 in 267) 2 [TGAAACA]

Error = 1

Quorum = 100

K=1 achi2=400 (675 in 7705) 162 [TGAAACA]

K=2 achi2=157 (1246 in 7705) 402 [TGAAACA]

K=3 achi2=128 (992 in 7705) 375 [TGAAACA]

K=4 achi2=026 (3100 in 7705) 1267 [TGAAACA]

K=5 achi2=021 (2435 in 7705) 1154 [TGAAACA]

K=6 achi2=006 (2114 in 7705) 1435 [TGAAACA]

K=7 achi2=000 (2095 in 7705) 260 [TGAAACA]

K=8 achi2=000 (6802 in 7705) 1861 [TGAAACA]

7_1_SWI4 Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=950 (59 in 8974) 15 [CACGAAA]

K=1 achi2=1516 (9 in 8974) 2 [CGCGAAA]

K=2 achi2=638 (22 in 8974) 7 [CACGAAA]

K=2 achi2=924 (3 in 8974) 1 [CGCGAAA]

K=3 achi2=436 (53 in 8974) 25 [CACGAAA]

K=3 achi2=502 (25 in 8974) 10 [CGCGAAA]

K=4 achi2=106 (1095 in 8974) 476 [CACGAAA]

K=4 achi2=390 (27 in 8974) 9 [CGCGAAA]

K=5 achi2=000 (7343 in 8974) 3297 [CACGAAA]

K=5 achi2=121 (397 in 8974) 176 [CGCGAAA]

K=6 achi2=001 (3810 in 8974) 2702 [CACGAAA]

K=6 achi2=044 (873 in 8974) 314 [CGCGAAA]

K=7 achi2=000 (2384 in 8974) 205 [CACGAAA]

K=7 achi2=000 (2371 in 8974) 194 [CGCGAAA]

K=8 achi2=000 (8531 in 8974) 3025 [CACGAAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 87

K=8 achi2=000 (5630 in 8974) 124 [CGCGAAA]

7_2_RGT1

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=2140 (236 in 6085) 74 [CGGAAAA]

K=1 achi2=803 (815 in 6085) 253 [CGGAAGA]

K=1 achi2=1409 (416 in 6085) 129 [CGGAGAA]

K=1 achi2=350 (1782 in 6085) 511 [CGGATAA]

K=2 achi2=840 (245 in 6085) 67 [CGGAAAA]

K=2 achi2=442 (666 in 6085) 169 [CGGAAGA]

K=2 achi2=937 (208 in 6085) 55 [CGGAGAA]

K=2 achi2=428 (695 in 6085) 175 [CGGATAA]

K=3 achi2=272 (385 in 6085) 126 [CGGAAAA]

K=3 achi2=225 (546 in 6085) 173 [CGGAAGA]

K=3 achi2=544 (89 in 6085) 28 [CGGAGAA]

K=3 achi2=309 (299 in 6085) 100 [CGGATAA]

K=4 achi2=022 (2503 in 6085) 821 [CGGAAAA]

K=4 achi2=040 (1722 in 6085) 598 [CGGAAGA]

K=4 achi2=304 (56 in 6085) 23 [CGGAGAA]

K=4 achi2=202 (188 in 6085) 81 [CGGATAA]

K=5 achi2=003 (3495 in 6085) 1206 [CGGAAAA]

K=5 achi2=019 (1882 in 6085) 749 [CGGAAGA]

K=5 achi2=238 (34 in 6085) 12 [CGGAGAA]

K=5 achi2=138 (154 in 6085) 74 [CGGATAA]

K=6 achi2=009 (1192 in 6085) 744 [CGGAAAA]

K=6 achi2=031 (682 in 6085) 300 [CGGAAGA]

K=6 achi2=057 (459 in 6085) 122 [CGGAGAA]

K=6 achi2=042 (550 in 6085) 191 [CGGATAA]

K=7 achi2=000 (1608 in 6085) 53 [CGGAAAA]

K=7 achi2=000 (2439 in 6085) 861 [CGGAAGA]

K=7 achi2=000 (2150 in 6085) 572 [CGGAGAA]

K=7 achi2=000 (2472 in 6085) 894 [CGGATAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 88

K=8 achi2=000 (6056 in 6085) 1512 [CGGAAAA]

K=8 achi2=000 (5728 in 6085) 1184 [CGGAAGA]

K=8 achi2=000 (5127 in 6085) 583 [CGGAGAA]

K=8 achi2=000 (5961 in 6085) 1417 [CGGATAA]

8_1_PDR1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 75

K=1 achi2=884 (27 in 639) 1 [TCCGCGGA]

K=2 achi2=883 (14 in 639) 1 [TCCGCGGA]

K=3 achi2=864 (5 in 639) 1 [TCCGCGGA]

K=4 achi2=741 (2 in 639) 1 [TCCGCGGA]

K=5 achi2=306 (1 in 639) 1 [TCCGCGGA]

K=6 achi2=030 (253 in 639) 1 [TCCGCGGA]

K=7 achi2=012 (587 in 639) 1 [TCCGCGGA]

K=8 achi2=000 (633 in 639) 1 [TCCGCGGA]

K=9 achi2=000 (639 in 639) 1 [TCCGCGGA]

Error = 1

Quorum = 75

K=1 achi2=1370 (211 in 16695) 48 [TCCGCGGA]

K=1 achi2=895 (419 in 16695) 111 [TCCGTGGA]

K=2 achi2=1355 (91 in 16695) 26 [TCCGCGGA]

K=2 achi2=944 (230 in 16695) 59 [TCCGTGGA]

K=3 achi2=1138 (22 in 16695) 13 [TCCGCGGA]

K=3 achi2=771 (119 in 16695) 39 [TCCGTGGA]

K=4 achi2=688 (33 in 16695) 9 [TCCGCGGA]

K=4 achi2=610 (56 in 16695) 18 [TCCGTGGA]

K=5 achi2=113 (1171 in 16695) 496 [TCCGCGGA]

K=5 achi2=207 (324 in 16695) 135 [TCCGTGGA]

K=6 achi2=000 (10537 in 16695) 2237 [TCCGCGGA]

K=6 achi2=003 (8322 in 16695) 1955 [TCCGTGGA]

K=7 achi2=000 (4060 in 16695) 2312 [TCCGCGGA]

K=7 achi2=000 (4066 in 16695) 2318 [TCCGTGGA]

K=8 achi2=000 (5835 in 16695) 174 [TCCGCGGA]

K=8 achi2=000 (6050 in 16695) 389 [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 89

K=9 achi2=000 (15679 in 16695) 1375 [TCCGCGGA]

K=9 achi2=000 (14892 in 16695) 588 [TCCGTGGA]

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 achi2=985 (24 in 423) 1 [TCCGCGGA]

K=2 achi2=985 (13 in 423) 1 [TCCGCGGA]

K=3 achi2=967 (4 in 423) 1 [TCCGCGGA]

K=4 achi2=802 (1 in 423) 1 [TCCGCGGA]

K=5 achi2=303 (1 in 423) 1 [TCCGCGGA]

K=6 achi2=027 (229 in 423) 1 [TCCGCGGA]

K=7 achi2=013 (401 in 423) 1 [TCCGCGGA]

K=8 achi2=000 (420 in 423) 1 [TCCGCGGA]

K=9 achi2=000 (423 in 423) 1 [TCCGCGGA]

Error = 1

Quorum = 80

K=1 achi2=1592 (187 in 11592) 35 [TCCGCGGA]

K=1 achi2=1109 (353 in 11592) 83 [TCCGTGGA]

K=2 achi2=1584 (97 in 11592) 25 [TCCGCGGA]

K=2 achi2=1142 (197 in 11592) 44 [TCCGTGGA]

K=3 achi2=1364 (24 in 11592) 9 [TCCGCGGA]

K=3 achi2=894 (109 in 11592) 35 [TCCGTGGA]

K=4 achi2=785 (35 in 11592) 11 [TCCGCGGA]

K=4 achi2=689 (52 in 11592) 16 [TCCGTGGA]

K=5 achi2=127 (769 in 11592) 243 [TCCGCGGA]

K=5 achi2=146 (609 in 11592) 204 [TCCGTGGA]

K=6 achi2=001 (5466 in 11592) 879 [TCCGCGGA]

K=6 achi2=004 (4665 in 11592) 789 [TCCGTGGA]

K=7 achi2=000 (2570 in 11592) 968 [TCCGCGGA]

K=7 achi2=000 (2517 in 11592) 941 [TCCGTGGA]

K=8 achi2=000 (5547 in 11592) 157 [TCCGCGGA]

K=8 achi2=000 (5666 in 11592) 276 [TCCGTGGA]

K=9 achi2=000 (10744 in 11592) 135 [TCCGCGGA]

K=9 achi2=000 (11041 in 11592) 432 [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 90

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=287 (133 in 1319) 8 [TCCGTGGA]

K=2 achi2=289 (95 in 1319) 5 [TCCGTGGA]

K=3 achi2=278 (15 in 1319) 2 [TCCGTGGA]

K=4 achi2=255 (6 in 1319) 1 [TCCGTGGA]

K=5 achi2=206 (5 in 1319) 2 [TCCGTGGA]

K=6 achi2=084 (269 in 1319) 7 [TCCGTGGA]

K=7 achi2=000 (897 in 1319) 17 [TCCGTGGA]

K=8 achi2=000 (1232 in 1319) 8 [TCCGTGGA]

K=9 achi2=000 (1303 in 1319) 1 [TCCGTGGA]

Error = 1

Quorum = 60

K=1 achi2=391 (1312 in 35494) 312 [TCCGAGGA]

K=1 achi2=660 (442 in 35494) 89 [TCCGCGGA]

K=1 achi2=402 (1240 in 35494) 301 [TCCGTGGA]

K=2 achi2=379 (816 in 35494) 174 [TCCGAGGA]

K=2 achi2=640 (206 in 35494) 48 [TCCGCGGA]

K=2 achi2=428 (599 in 35494) 123 [TCCGTGGA]

K=3 achi2=304 (471 in 35494) 120 [TCCGAGGA]

K=3 achi2=480 (63 in 35494) 10 [TCCGCGGA]

K=3 achi2=329 (327 in 35494) 87 [TCCGTGGA]

K=4 achi2=295 (205 in 35494) 61 [TCCGAGGA]

K=4 achi2=337 (85 in 35494) 28 [TCCGCGGA]

K=4 achi2=219 (1060 in 35494) 257 [TCCGTGGA]

K=5 achi2=087 (5828 in 35494) 2082 [TCCGAGGA]

K=5 achi2=153 (2062 in 35494) 521 [TCCGCGGA]

K=5 achi2=080 (6534 in 35494) 2399 [TCCGTGGA]

K=6 achi2=010 (17189 in 35494) 7240 [TCCGAGGA]

K=6 achi2=053 (6392 in 35494) 2378 [TCCGCGGA]

K=6 achi2=000 (30112 in 35494) 12027 [TCCGTGGA]

K=7 achi2=006 (9736 in 35494) 4698 [TCCGAGGA]

K=7 achi2=006 (10113 in 35494) 5025 [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 91

K=7 achi2=000 (17876 in 35494) 11124 [TCCGTGGA]

K=8 achi2=000 (12067 in 35494) 1424 [TCCGAGGA]

K=8 achi2=000 (11172 in 35494) 529 [TCCGCGGA]

K=8 achi2=000 (11688 in 35494) 1045 [TCCGTGGA]

K=9 achi2=000 (31497 in 35494) 8200 [TCCGAGGA]

K=9 achi2=000 (25674 in 35494) 2377 [TCCGCGGA]

K=9 achi2=000 (29818 in 35494) 6521 [TCCGTGGA]

Page 7: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes vii

Lista de Tabelas

Tabela 41 Tabela de contingecircncia para o caacutelculo do 2

13

Tabela 51 Coacutedigo IUPAC 23

Tabela 52 Codificaccedilatildeo binaacuteria dos siacutembolos IUPAC 24

Tabela 61 Posiccedilotildees dos motivos especificados 33

Tabela 62 Posiccedilotildees do motivo estruturado especificado 34

Tabela 63 Posiccedilotildees dos modelos especificados 37

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes viii

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes ix

Agradecimentos

Gostariacuteamos de agradecer agrave nossa orientadora Professora Ana Teresa Freitas pela forma

como sempre orientou o nosso trabalho pela inestimaacutevel disponibilidade pelo interesse

demonstrado e pela iacutempar capacidade de motivaccedilatildeo

Agradecemos tambeacutem ao nosso co-orientador Professor Arlindo Oliveira pela sua

disponibilidade e opiniatildeo criacutetica que sempre contribuiu para o enriquecimento do nosso

trabalho

Agrave Susana Vinga pelo importante contributo na anaacutelise estatiacutestica e pela sua diligente

disponibilidade

Agrave Joana Fradinho Luiacutes Figueiredo e Petra Jelinkova pela disponibilizaccedilatildeo de conjuntos de

dados essenciais para a prossecuccedilatildeo deste trabalho

Agrave Alexandra Carvalho por ter tido a disponibilidade de ler a primeira versatildeo deste relatoacuterio e

contribuiacutedo com pertinentes sugestotildees

Aos nossos colegas da sala 138 pela camaradagem e companhia nas longas horas passadas no

INESC

Aos colegas da sala 128 pela motivaccedilatildeo e constante disponibilidade

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes x

Resumo

A grande quantidade de dados disponiacuteveis na aacuterea da Biologia requer meacutetodos de extracccedilatildeo de

conhecimento poderosos sistemaacuteticos e eficientes Em particular a identificaccedilatildeo de

sequecircncias de nucleoacutetidos designadas de consensos onde se ligam factores de transcriccedilatildeo

responsaacuteveis em parte pelo mecanismo de regulaccedilatildeo geacutenica eacute essencial para uma

compreensatildeo do papel de cada gene

Actualmente existem vaacuterios algoritmos cujo objectivo eacute encontrar sequecircncias candidatas a

sequecircncias de consenso Estes algoritmos podem ser divididos em duas classes meacutetodos

restritivos e meacutetodos proliacuteficos Os meacutetodos restritivos obtecircm poucas respostas com elevada

precisatildeo enquanto que os meacutetodos proliacuteficos obtecircm muitas respostas com baixa precisatildeo

exigindo um esforccedilo de poacutes-processamento

Neste trabalho utilizamos o SMILE [1] que eacute um meacutetodo proliacutefico para a extracccedilatildeo de

sequecircncias de consenso na regiatildeo promotora dos genes Face ao nuacutemero significativo das

respostas obtidas pretende-se com este trabalho avaliar possiacuteveis soluccedilotildees de poacutes-

processamento de modo a garantir a utilidade da informaccedilatildeo extraiacuteda para os utilizadores do

algoritmo Assim definiram-se dois grandes objectivos

A avaliaccedilatildeo de meacutetodos estatiacutesticos que permitam aferir a significacircncia bioloacutegica das

respostas obtidas

A obtenccedilatildeo de uma descriccedilatildeo compacta da informaccedilatildeo extraiacuteda

Palavras-chave Gene regulaccedilatildeo geacutenica regiatildeo promotora sequecircncias degeneradas IUPAC

avaliaccedilatildeo estatiacutestica de biosequecircncias SMILE extracccedilatildeo de motivos

Relatoacuterio Intercalar de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 1

1 Introduccedilatildeo

A crescente disponibilidade de dados sobre o genoma de vaacuterios organismos tem possibilitado

o aparecimento de novos projectos na aacuterea da biologia No entanto a quantidade massiva de

dados disponiacuteveis torna impossiacutevel uma anaacutelise manual da informaccedilatildeo sendo cada vez mais

premente a necessidade de um processamento automaacutetico dos dados obtidos

Neste contexto a identificaccedilatildeo e modelaccedilatildeo da regiatildeo promotora dos genes assume um papel

fundamental pois as condiccedilotildees de activaccedilatildeo e transcriccedilatildeo de um gene dependem das

sequecircncias de nucleoacutetidos aiacute presentes

As sequecircncias de nucleoacutetidos da regiatildeo promotora que determinam a transcriccedilatildeo do gene satildeo

denominadas de promotores e satildeo representadas por sequecircncias de consenso ou

simplesmente consensos A literatura refere vaacuterias formas de descriccedilatildeo destes consensos

desde a utilizaccedilatildeo de uma matriz de pesos a uma sequecircncia de bases mais frequentes Neste

trabalho utilizamos uma codificaccedilatildeo IUPAC destas sequecircncias que corresponde a um

conjunto de sequecircncias degeneradas em que cada siacutembolo representa um conjunto de

nucleoacutetidos possiacuteveis para uma dada posiccedilatildeo

Actualmente existem vaacuterios algoritmos cujo objectivo eacute encontrar sequecircncias candidatas a

sequecircncias de consenso nas regiotildees promotoras As sequecircncias que satildeo reportadas como

possiacuteveis consensos satildeo designadas de motivos Os algoritmos de pesquisa de motivos podem

ser agrupados de uma forma geral em dois tipos algoritmos restritivos e algoritmos

proliacuteficos

Os algoritmos restritivos concentram-se em encontrar poucos motivos mas de relevacircncia

assinalaacutevel enquanto que os algoritmos proliacuteficos preocupam-se em determinar todos os

motivos que possam ser encontrados de acordo com determinados paracircmetros de pesquisa

Os algoritmos designados de proliacuteficos tecircm a vantagem de natildeo fazerem suposiccedilotildees a priori

No entanto a grande quantidade de motivos encontrados requer um esforccedilo de poacutes-

processamento significativo

Este trabalho tem por objectivo o desenvolvimento de uma metodologia que permita o

processamento automaacutetico dos motivos encontrados por um algoritmo que pode ser

classificado de proliacutefico o algoritmo SMILE [1]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 2

No Capiacutetulo 2 apresentamos uma descriccedilatildeo do problema em anaacutelise evidenciando a

motivaccedilatildeo bioloacutegica e fazendo o seu enquadramento com os objectivos do trabalho

No Capiacutetulo 3 descrevemos o algoritmo SMILE no contexto do problema da extracccedilatildeo de

motivos e apresentamos um gerador de dados sinteacuteticos que seraacute usado como ponto de partida

do estudo da eficaacutecia do algoritmo

No Capiacutetulo 4 discutimos a utilizaccedilatildeo de meacutetodos estatiacutesticos para aferir a significacircncia

bioloacutegica dos motivos extraiacutedos pelo SMILE

No Capiacutetulo 5 apresentamos um meacutetodo para geraccedilatildeo de uma representaccedilatildeo compacta de

motivos extraiacutedos usando a codificaccedilatildeo IUPAC

Finalmente no Capiacutetulo 6 apresentamos vaacuterios resultados obtidos tanto com dados sinteacuteticos

como com dados reais discutindo a aplicabilidade dos meacutetodos estatiacutesticos apresentados no

Capiacutetulo 4

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 3

2 Descriccedilatildeo do Problema

A moleacutecula de DNA eacute responsaacutevel pela manutenccedilatildeo da informaccedilatildeo geneacutetica de cada indiviacuteduo

e eacute constituiacuteda por duas cadeias de nucleoacutetidos dispostas de modo a formar uma dupla

heacutelice [2] que se encontra representada na Figura 21 Cada nucleoacutetido eacute formado por trecircs

elementos um accediluacutecar um grupo fosfato e uma de quatro bases azotadas As quatro bases satildeo

a Adenina (A) a Timina (T) a Guanina (G) e a Citosina (C) e podem ser vistas como os

quatro elementos de um alfabeto

Figura 21

Representaccedilatildeo de cadeias de DNA em forma de dupla heacutelice

As duas cadeias de DNA satildeo complementares no sentido em que as bases das duas cadeias

estatildeo emparelhadas Assim uma Adenina de uma cadeia emparelha com uma Timina da

cadeia complementar e do mesmo modo uma Citosina emparelha com uma Guanina

Os genes satildeo segmentos de uma cadeia de DNA que controlam a siacutentese proteica e

consequentemente toda a actividade celular O genoma eacute o conjunto de genes de um

indiviacuteduo

A expressatildeo geacutenica eacute o processo atraveacutes do qual a informaccedilatildeo contida nos genes dirige a

siacutentese de proteiacutenas Este processo envolve dois passos transcriccedilatildeo e traduccedilatildeo

A transcriccedilatildeo consiste na transferecircncia da informaccedilatildeo contida no DNA para uma moleacutecula

intermediaacuteria de RNA designada de RNA-mensageiro ou mRNA De seguida o molde de

mRNA eacute usado no passo de traduccedilatildeo onde iraacute dirigir a siacutentese proteica

Este processo eacute semelhante em todos os organismos vivos embora existam diferenccedilas

assinalaacuteveis entre organismos eucariotas e procariotas isto eacute entre organismos com e sem

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 4

nuacutecleo individualizado respectivamente Em particular o mecanismo eacute consideravelmente

mais complexo em organismos eucariotas A Figura 22 ilustra o processo de expressatildeo geacutenica

em eucariotas (Figura 22-A) e procariotas (Figura 22-B)

Figura 22 Expressatildeo geacutenica em eucariotas (A) e procariotas (B)

Actualmente o problema da identificaccedilatildeo e modelaccedilatildeo dos mecanismos que regulam a

interacccedilatildeo entre grupos de genes eacute um dos problemas mais em foco na investigaccedilatildeo em

biologia computacional Como jaacute foi referido a regiatildeo promotora eacute parte essencial do

mecanismo de regulaccedilatildeo da transcriccedilatildeo geacutenica

A biologia oferece-nos alguns modelos da regiatildeo promotora evidenciando as diferenccedilas entre

organismos procariotas (Figura 23) e eucariotas (Figura 24)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 5

Figura 23 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em procariotas

Figura 24 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em eucariotas

No mecanismo de transcriccedilatildeo geacutenica interveacutem uma enzima denominada RNA-polimerase

Esta enzima tem como funccedilatildeo a transcriccedilatildeo da informaccedilatildeo contida no DNA para uma cadeia

de RNA que iraacute posteriormente intervir no processo de siacutentese proteica

Para que a RNA-polimerase inicie a transcriccedilatildeo de uma cadeia de DNA geralmente um gene

eacute necessaacuterio que se cumpram algumas condiccedilotildees Assim entre outras eacute necessaacuterio que

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 6

estejam presentes na regiatildeo promotora motivos que a RNA-polimerase reconheccedila e aos quais

se possa ligar para iniciar a transcriccedilatildeo da regiatildeo a jusante (na literatura inglesa estas regiotildees

satildeo denominadas de binding sites) As condiccedilotildees de activaccedilatildeo desta enzima satildeo mais

complexas nos organismos eucariotas [3] uma vez que neste caso para aleacutem dos motivos

referidos existem ainda vaacuterios outros que satildeo reconhecidos por factores de transcriccedilatildeo isto eacute

proteiacutenas que se ligam sucessivamente agrave RNA-polimerase estabelecendo um complexo

mecanismo de regulaccedilatildeo Estes motivos podem estar a montante a jusante ou mesmo no

interior do gene a ser transcrito e podem ainda exercer um efeito estimulador ou repressor da

transcriccedilatildeo Os locais onde existem motivos aos quais se ligam os diversos factores de

transcriccedilatildeo satildeo designados genericamente por regiotildees reguladoras

Eacute possiacutevel compreender agora a importacircncia da necessidade de ser definido um modelo ou

modelos para a regiatildeo promotora no acircmbito do estudo do genoma

Neste trabalho utilizamos o algoritmo SMILE para procurar motivos interessantes isto eacute

biologicamente significativos em cadeias de DNA pertencentes agrave regiatildeo promotora dos genes

Como jaacute foi referido trata-se de um algoritmo proliacutefico no sentido em que se preocupa em

encontrar todas as sequecircncias que cumpram os paracircmetros especificados Sendo assim torna-

se necessaacuterio um esforccedilo significativo de poacutes-processamento para que possa ser obtida

informaccedilatildeo uacutetil a partir dos dados gerados

O poacutes-processamento dos motivos extraiacutedos inclui uma anaacutelise estatiacutestica que culmina com a

atribuiccedilatildeo de um niacutevel de significacircncia a cada motivo Deste modo eacute possiacutevel definir um

crivo que separa motivos considerados relevantes de motivos agrave partida menos interessantes

Finalmente e depois de ter sido encontrado um conjunto de motivos relevantes seraacute efectuada

uma traduccedilatildeo para uma representaccedilatildeo IUPAC Esta representaccedilatildeo permite compactar os

dados agrupando motivos muito semelhantes Este passo eacute de importacircncia essencial para uma

utilizaccedilatildeo eficiente dos dados obtidos uma vez que uma representaccedilatildeo compacta facilita a sua

utilizaccedilatildeo em pesquisas em bases de dados bioloacutegicas que contecircm informaccedilatildeo sobre

consensos anteriormente identificados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 7

3 Extracccedilatildeo de motivos

31 Algoritmo SMILE

O SMILE eacute um meacutetodo algoriacutetmico de extracccedilatildeo de motivos de sequecircncias bioloacutegicas O

algoritmo comeccedila por processar um conjunto de dados de entrada composto por vaacuterias

sequecircncias natildeo alinhadas de nucleoacutetidos que se sabe conterem um ou mais binding sites Estes

dados satildeo utilizados para calcular ocorrecircncias de motivos usando como estrutura de dados

base uma aacutervore de sufixos

Um modelo eacute uma representaccedilatildeo de subsequecircncias que ocorrem nos dados de entrada

satisfazendo potencialmente certas propriedades

O algoritmo iraacute assim pesquisar modelos (simples ou estruturados) nos dados que lhe satildeo

fornecidos segundo alguns paracircmetros

Um modelo simples diz respeito a uma subsequecircncia contiacutegua de nucleoacutetidos enquanto que

um modelo estruturado eacute uma composiccedilatildeo de modelos simples

Um modelo estruturado pode ser constituiacutedo por vaacuterias partes posicionadas ao longo da

sequecircncia Cada parte eacute um modelo simples que pode ter um tamanho variaacutevel (entre kmin e

kmax) O espaccedilo entre cada parte consecutiva pode tambeacutem ser parametrizado (dmin e dmax)

Do mesmo modo tambeacutem eacute possiacutevel parametrizar o nuacutemero de erros que se permite ocorrer

no modelo e em cada uma das suas partes

A Figura 31 apresenta um exemplo de uma especificaccedilatildeo de um modelo estruturado em que

se consideram duas partes A primeira parte pode ter um tamanho entre 6 e 8 nucleoacutetidos e satildeo

admitidos 2 erros A segunda parte pode ocorrer entre 16 e 18 nucleoacutetidos apoacutes a primeira

parte e teraacute um tamanho igualmente entre 6 e 8 embora seja admitido apenas 1 erro

A Figura 32 apresenta o esquema de outro modelo estruturado e respectiva concretizaccedilatildeo

numa sequecircncia Neste exemplo consideram-se igualmente duas partes A primeira com

tamanho entre 6 e 10 nucleoacutetidos e a segunda entre 6 e 8 As partes podem estar a uma

distacircncia que varia entre 10 e 15 nucleoacutetidos e natildeo satildeo admitidos erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 8

Figura 31 Exemplo de uma especificaccedilatildeo de um modelo estruturado

Figura 32 (a) Exemplo de especificaccedilatildeo (b) Modelo retirado de uma sequecircncia

que cumpre a especificaccedilatildeo

Um modelo eacute considerado vaacutelido caso o nuacutemero de sequecircncias de entrada em que ocorre seja

natildeo inferior a um miacutenimo estabelecido designado por quoacuterum Os modelos vaacutelidos satildeo

designados de motivos

Para verificar o nuacutemero de ocorrecircncias eacute utilizada uma aacutervore de sufixos Uma aacutervore de

sufixos eacute uma estrutura de dados que representa todos os sufixos de uma cadeia de caracteres

As suas caracteriacutesticas satildeo de grande utilidade para os algoritmos de emparelhamento de

caracteres

6-10 6-8

10-15

(a)

ATTATTA_CTATCT

ATTATTAGTACTCATACCTATCT

(b)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 9

O SMILE processa conjuntos de dados isto eacute conjuntos de sequecircncias de nucleoacutetidos

utilizando para esse efeito uma aacutervores de sufixos generalizada Esta estrutura de dados

difere da aacutervore de sufixos simples no sentido em que agrupa vaacuterias cadeias de caracteres

correspondentes agraves vaacuterias sequecircncias de nucleoacutetidos Esta multiplicidade de sequecircncias exige

que a estrutura registe as sequecircncias a que cada sufixo pertence As aacutervores de sufixos fazem

uso de um siacutembolo terminador ($) para assinalar o fim de cada sufixo

A Figura 33 eacute um exemplo de uma aacutervore de sufixos generalizada

Figura 33 - Aacutervore de sufixos generalizada para as sequecircncias

TACTA$ (sequecircncia 1) e CACTCA$ (sequecircncia 2)

A extracccedilatildeo de motivos eacute feita atraveacutes da travessia em profundidade-primeiro de uma aacutervore

lexicograacutefica virtual de modo a garantir que se explora o espaccedilo de todos os modelos

possiacuteveis Esta travessia da aacutervore lexicograacutefica eacute acompanhada da exploraccedilatildeo da aacutervore de

sufixos generalizada de forma a obter todos os sufixos a distacircncia de Hamming natildeo superior a

e1 do modelo em consideraccedilatildeo Assim para cada noacute da aacutervore virtual eacute verificado o quoacuterum

do modelo correspondente contabilizando para tanto o nuacutemero de sequecircncias diferentes que

participam com sufixos a distacircncia de Hamming natildeo superior a e do modelo

1 O valor desta distacircncia depende do nuacutemero de erros admitidos na extracccedilatildeo de motivos e corresponde a um dos

paracircmetros do algoritmo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 10

A extracccedilatildeo de motivos estruturados eacute feita de forma semelhante correspondendo a muacuteltiplas

procuras de modelos simples que constituem cada parte do modelo estruturado A transiccedilatildeo

entre partes ilustrada pela Figura 34 corresponde a um salto na aacutervore de sufixos com tantos

niacuteveis de profundidade adicionais quanto a distacircncia especificada entre cada parte

Uma descriccedilatildeo pormenorizada do algoritmo encontra-se em [4] e [5]

Figura 34 Esquema da procura de motivos estruturados usando uma aacutervore de

sufixos

Este algoritmo exacto gera todos os possiacuteveis motivos dentro dos paracircmetros especificados

Daqui resulta geralmente um nuacutemero demasiado grande de motivos sendo necessaacuterio

discriminar quais os verdadeiros binding sites Como meacutetodo de avaliaccedilatildeo o SMILE utiliza

um teste estatiacutestico que eacute descrito na Secccedilatildeo 41

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 11

32 Gerador de dados sinteacuteticos

A anaacutelise da eficaacutecia e eficiecircncia do algoritmo de extracccedilatildeo de motivos exige a utilizaccedilatildeo de

dados sobre os quais tenhamos agrave partida algum conhecimento Para tal foi desenvolvido um

gerador de dados sinteacuteticos

O gerador de dados sinteacuteticos permite por um lado evitar a necessidade de dispor de

conjuntos de dados reais e por outro ter um maior controlo sobre os motivos que estatildeo

realmente presentes nos dados

O gerador permite especificar o nuacutemero e o tamanho das sequecircncias do conjunto de dados

bem como os motivos a inserir Os motivos satildeo especificados pela sua sequecircncia de

nucleoacutetidos posiccedilatildeo na sequecircncia e frequecircncia de ocorrecircncia Os motivos podem ser simples

ou estruturados A Figura 35 representa um exemplo de um ficheiro de especificaccedilatildeo

Frequecircncia

Posiccedilatildeo

Sequecircncia Posiccedilatildeo

Sequecircncia

02 09 TGCTTTTTAAT

28 TCGA

03 02 AGTACATCGA

02 12 TGCGCA

Figura 35 Exemplo de um ficheiro de especificaccedilatildeo para a geraccedilatildeo de dados

sinteacuteticos

No exemplo apresentado satildeo especificados trecircs motivos (um motivo estruturado e dois

motivos simples) A primeira coluna (Frequecircncia) indica a percentagem de sequecircncias em que

o motivo deveraacute ocorrer Em particular para esta especificaccedilatildeo o primeiro motivo deveraacute

ocorrer em 20 das sequecircncias As restantes colunas especificam a posiccedilatildeo e a sequecircncia de

nucleoacutetidos de cada parte do motivo O nuacutemero e o tamanho das sequecircncias a gerar satildeo

especificados na linha de comandos do gerador

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 12

O gerador verifica a especificaccedilatildeo de modo a testar se eacute possiacutevel gerar um conjunto de dados

com as caracteriacutesticas indicadas Em particular eacute necessaacuterio que no caso das frequecircncias

especificadas somarem mais do que 1 alguns dos motivos sejam sobreponiacuteveis uma vez que o

gerador garante o cumprimento exacto da frequecircncia de ocorrecircncia especificada para cada

motivo

O processo de geraccedilatildeo do conjunto de dados envolve duas fases Numa primeira fase eacute gerado

um conjunto de dados aleatoacuterios em que a ocorrecircncia de cada nucleoacutetido eacute equiprovaacutevel Para

gerar aleatoriamente nucleoacutetidos eacute usada uma variaccedilatildeo do algoritmo ran2 [6]

Numa segunda fase satildeo inseridos os motivos especificados em tantas sequecircncias quanto as

necessaacuterias para perfazer a frequecircncia indicada As sequecircncias seleccionadas para a inserccedilatildeo

de motivos satildeo igualmente escolhidas de forma aleatoacuteria

O recurso a dados sinteacuteticos permite afastar a possibilidade de motivos bem classificados

corresponderem a consensos ainda natildeo identificados por via experimental como pode

acontecer quando se analisam conjuntos de dados reais No entanto eacute necessaacuterio termos

presentes as limitaccedilotildees da actual abordagem Em particular sabemos que a geraccedilatildeo

equiprovaacutevel de nucleoacutetidos estaacute em desacordo com a estatiacutestica tiacutepica da regiatildeo promotora

onde satildeo mais comuns A s e T s do que G s e C s Do mesmo modo podem existir outras

correlaccedilotildees de ordem superior designadamente uma preferecircncia por certos diacutemeros ou

triacutemeros em detrimento de outros Esta limitaccedilatildeo eacute ilustrada pelo facto de os resultados

obtidos com dados sinteacuteticos serem geralmente melhores do que os obtidos com dados reais

As causas e consequecircncias desta observaccedilatildeo seratildeo discutidas nas secccedilotildees seguintes

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 13

4 Anaacutelise Estatiacutestica

41 Teste do 2

Como jaacute foi referido o SMILE em geral extrai um elevado nuacutemero de modelos Para isolar

motivos relevantes eacute usado um teste estatiacutestico de modo a atribuir uma significacircncia estatiacutestica

a cada modelo extraiacutedo

O meacutetodo de avaliaccedilatildeo utilizado consiste em aplicar o teste do 2 com um grau de liberdade

O objectivo eacute determinar a probabilidade de obtermos motivos observados em sequecircncias

aleatoacuterias que preservam os k-mers2 das sequecircncias originais Assim pretende-se perceber se

a ocorrecircncia do motivo se deve agrave frequecircncia de k-mers presentes na sequecircncia aleatoacuteria tendo

portanto uma baixa significacircncia estatiacutestica ou se eacute verificada a situaccedilatildeo oposta ou seja

elevada significacircncia estatiacutestica Estes uacuteltimos satildeo considerados pelo algoritmo como os que

apresentam maior potencial de serem verdadeiros binding sites Para tal o SMILE permite a

realizaccedilatildeo de dois tipos alternativos de teste um quanto ao nuacutemero de sequecircncias em que o

motivo ocorre (quoacuterum) e outro em relaccedilatildeo agrave abundacircncia do motivo no conjunto de dados

Para aplicar o teste do 2 procedemos agrave construccedilatildeo de uma tabela de contingecircncia com 4

entradas (Tabela 41)

Dados Originais Dados Aleatoacuterios

Presenccedila Porig Prandom

Ausecircncia Aorig Arandom

Tabela 41 Tabela de contingecircncia para o caacutelculo do 2

2 Sequecircncias de nucleoacutetidos de tamanho k

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 14

As colunas da tabela referem-se agraves duas amostras em anaacutelise ou seja o conjunto de dados

original e as sequecircncias aleatoacuterias geradas As linhas da tabela referem-se agraves duas classes de

contagens Caso consideremos o teste quanto ao quoacuterum a classe Presenccedila diz respeito ao

nuacutemero de sequecircncias em que o motivo ocorre e a classe Ausecircncia refere-se ao nuacutemero de

sequecircncias em que o motivo natildeo ocorre Caso se trate do teste relativo agrave abundacircncia a

primeira classe refere-se ao nuacutemero de ocorrecircncias do motivo no conjunto de dados e a

segunda ao nuacutemero de natildeo ocorrecircncias do motivo em relaccedilatildeo ao nuacutemero de oportunidades de

ocorrecircncia Considera-se como nuacutemero de oportunidades de ocorrecircncia o tamanho do

conjunto de dados Esta tabela seraacute usada agora para fazer um teste de homogeneidade de

proporccedilotildees

Para calcular a significacircncia estatiacutestica basta usar a expressatildeo do 2 correspondente agrave equaccedilatildeo

(41) onde ijO diz respeito ao valor observado para a entrada (ij) da tabela e ijE se refere ao

correspondente valor esperado

21

22 )(

ji ij

ijij

E

OE

(41)

O valor esperado para cada entrada da tabela eacute dado pela expressatildeo (42) ou seja o valor

esperado para a entrada (ij) da tabela eacute igual ao produto do total da linha i pelo total da linha

j divido pela soma de todos os elementos da tabela

21

2121

lkkl

kkj

kik

ij O

OO

E (42)

Nas condiccedilotildees desta tabela de contingecircncia eacute possiacutevel utilizar uma forma expedita de caacutelculo

que consiste na aplicaccedilatildeo da expressatildeo (43)

))()()((

)()( 22

origorigrandomrandomrandomorigrandomorig

randomorigrandomorigorigrandomrandomorig

APAPAAPP

AAPPAPAP

(43)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 15

A hipoacutetese nula que consideramos neste teste estatiacutestico refere-se agrave possibilidade de os

motivos terem sido gerados por sequecircncias aleatoacuterias sob certas restriccedilotildees Isto eacute assumimos

que as contagens obtidas para os motivos nas sequecircncias originais satildeo semelhantes agraves que

obteriacuteamos em sequecircncias aleatoacuterias com as mesmas frequecircncias de k-mers Valores altos de

significacircncia estatiacutestica implicam a rejeiccedilatildeo da hipoacutetese nula

Um importante problema prende-se com a validade da aplicaccedilatildeo do teste do 2 O SMILE em

particular apresenta para cada motivo uma medida da sua significacircncia estatiacutestica No

entanto o verdadeiro interesse reside na determinaccedilatildeo da significacircncia bioloacutegica dos motivos

encontrados O que estaacute em causa eacute perceber se um motivo eacute um potencial binding site Eacute

necessaacuterio testar este meacutetodo em dados reais com consensos conhecidos para se perceber se a

significacircncia estatiacutestica apresenta uma elevada correlaccedilatildeo com a significacircncia bioloacutegica

No Capiacutetulo 6 apresentamos uma discussatildeo acerca da adequaccedilatildeo do teste do 2 para a afericcedilatildeo

da significacircncia bioloacutegica dos motivos extraiacutedos pelo SMILE

42 Meacutetodo de Shuffling

Como jaacute foi referido para efectuar o caacutelculo da significacircncia estatiacutestica o SMILE recorre agrave

geraccedilatildeo de sequecircncias aleatoacuterias com certas restriccedilotildees baseadas na estatiacutestica dos dados

originais Para o efeito eacute usado um algoritmo de data shuffling [78]

O meacutetodo de shuffling permite obter um conjunto de dados aleatoacuterio com base num conjunto

de dados original garantindo a preservaccedilatildeo exacta das frequecircncias de k-mers para um dado k

O meacutetodo de geraccedilatildeo pode ser visto como um passeio aleatoacuterio sobre um multi-grafo onde os

noacutes satildeo todas as subsequecircncias de tamanho k-1 presentes na sequecircncia original e cada aresta

corresponde a uma transiccedilatildeo entre (k-1)-mers verificada nos dados No caso de k igual a 1 natildeo

eacute gerado um multi-grafo sendo feita apenas uma reordenaccedilatildeo aleatoacuteria dos nucleoacutetidos de

cada sequecircncia

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 16

A Figura 41 ilustra um exemplo de um multi-grafo gerado a partir da sequecircncia

ATTATTTATT bem como um caminho no grafo que gera a sequecircncia alternativa

TATTATTTAT

Figura 41 Multi-grafo gerado pela sequecircncia ATTATTTATT para k=4 com 2

passeios aleatoacuterios

Para que cada sequecircncia gerada seja vaacutelida eacute necessaacuterio que tenha o mesmo tamanho que a

sequecircncia original Sendo assim eacute faacutecil perceber que apenas os caminhos eulerianos garantem

a geraccedilatildeo de uma sequecircncia com estas caracteriacutesticas No SMILE este processo eacute repetido

para cada sequecircncia isoladamente

Para garantir a fiabilidade dos resultados obtidos eacute efectuado um nuacutemero elevado de

simulaccedilotildees donde satildeo extraiacutedos os valores meacutedios do quoacuterum ou da abundacircncia de cada

motivo a partir dos quais eacute calculada a significacircncia estatiacutestica no sentido do teste do 2

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 17

A Figura 42 mostra um histograma com os resultados obtidos em 100 simulaccedilotildees para um

motivo extraiacutedo do conjunto de dados da Helicobater pylori3 onde foram preservadas as

frequecircncias relativas de nucleoacutetidos (k=1) Este conjunto de dados eacute constituiacutedo por 308

sequecircncias com comprimentos que variam entre 40 e 300 nucleoacutetidos Foi efectuada uma

procura de motivos simples com tamanhos natildeo inferiores a 6 Foi admitido 1 erro e foi

exigido um quoacuterum de 6

O histograma indica a percentagem de simulaccedilotildees em que o motivo em consideraccedilatildeo ocorre

num determinado nuacutemero de sequecircncias Em particular no exemplo da Figura 42 o motivo

TTTTAA ocorre num nuacutemero de sequecircncias entre 282 e 284 em 13 das simulaccedilotildees

A seta a negro refere-se ao nuacutemero de ocorrecircncias do motivo observadas no conjunto de dados

original Quanto mais afastada estiver a seta do maacuteximo da curva maior seraacute a significacircncia

estatiacutestica Neste caso foi atribuiacuteda uma significacircncia de 593 ao motivo TTTTAA

Figura 42 Histograma das ocorrecircncias observadas do motivo TTTTAA em 100

simulaccedilotildees de shuffling do conjunto de dados da H pylori

3 Organismo procariota

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 18

O meacutetodo de data shuffling pode ser pesado do ponto de vista computacional e representa

uma grande restriccedilatildeo no desempenho da avaliaccedilatildeo de motivos Em particular a necessidade

de pesquisar todos os motivos extraiacutedos em cada conjunto de dados aleatoacuterio gerado constitui

uma seacuterio entrave ao bom desempenho deste meacutetodo

Devido aos referidos problemas de desempenho opta-se geralmente por fazer um nuacutemero de

simulaccedilotildees com geraccedilatildeo de sequecircncias aleatoacuterias inferior ao estatisticamente aconselhado o

que pode ter impacto nos resultados

Outra questatildeo pertinente coloca-se ainda quanto agrave preservaccedilatildeo dos k-mers Uma vez que o

shuffling eacute feito sobre cada sequecircncia do conjunto de dados valores elevados de k impotildeem

restriccedilotildees severas agrave variabilidade dos conjuntos de dados aleatoacuterios gerados Assim para estes

valores o teste estatiacutestico eacute inuacutetil uma vez que os conjuntos de dados gerados satildeo

praticamente iguais ao conjunto de dados original Em particular quando o tamanho dos

k-mers a preservar eacute igual ou superior ao tamanho de um motivo as suas ocorrecircncias satildeo

estritamente conservadas no conjunto de dados aleatoacuterio levando a que o valor da

significacircncia seja 0 A Figura 43 ilustra o facto de a significacircncia estatiacutestica tender

inevitavelmente para zero agrave medida que o valor de k aumenta Os valores do graacutefico foram

igualmente obtidos a partir do conjunto de dados da H pylori descrito anteriormente

Figura 43 Graacutefico da evoluccedilatildeo da significacircncia estatiacutestica com o aumento do valor

de k para um motivo de tamanho 8 extraiacutedo do conjunto de dados da H pylori

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 19

43 Meacutetodo Analiacutetico

Nesta Secccedilatildeo propotildee-se um meacutetodo analiacutetico que tem por objectivo resolver alguns dos

problemas do meacutetodo de shuffling descrito na Secccedilatildeo anterior designadamente o fraco

desempenho computacional e as excessivas restriccedilotildees devidas agrave conservaccedilatildeo estrita das

frequecircncias dos k-mers Assim pretende-se obter um meacutetodo computacionalmente eficiente

para avaliar a relevacircncia de motivos extraiacutedos pelo SMILE

Com este meacutetodo comeccedila-se por abstrair um modelo de Markov a partir do conjunto de dados

em estudo Os estados do modelo de Markov correspondem a todos os (k-1)-mers presentes no

conjunto de dados sendo a probabilidade inicial de cada estado a frequecircncia relativa

observada do (k-1)-mer correspondente

A probabilidade de transiccedilatildeo entre estados corresponde agrave razatildeo entre o nuacutemero de vezes que o

(k-1)-mer referente ao estado de destino sucede ao (k-1)-mer referente ao estado de origem

nos dados e o nuacutemero de vezes que o (k-1)-mer correspondente ao estado de origem precede

qualquer outro (k-1)-mer nas sequecircncias em anaacutelise A Figura 45 apresenta um modelo de

Markov abstraiacutedo a partir do conjunto de dados referido na Figura 44

Figura 44 Conjunto de dados exemplo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 20

CA

TC

AT

TA

TT

101

51

52

101

51

Figura 45

Exemplo de uma cadeia de Markov para k=3

Cada motivo em anaacutelise eacute processado de forma a calcular a probabilidade do motivo ser

gerado pelo modelo de Markov abstraiacutedo

Esta probabilidade eacute calculada como o produto da probabilidade do estado inicial pela

probabilidade de todas as transiccedilotildees necessaacuterias para compor o motivo Em (44) (45) e (46)

apresenta-se o calculo desta probabilidade para o motivo ATTATT segundo a cadeia de

Markov da Figura 45

)()()()()()( TTATpATTApTATTpTTATpATpATTATTp

(44)

2

111

2

1

5

2)(ATTATTp (45)

10

1)(ATTATTp (46)

No caso em que k eacute igual 1 natildeo eacute construiacuteda uma cadeia de Markov sendo a probabilidade de

ocorrecircncia do motivo o produto das frequecircncias relativas no conjunto de dados dos

nucleoacutetidos que o compotildeem

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 21

Caso sejam admitidos e erros basta considerar a soma das probabilidades de todos motivos a

uma distacircncia de Hamming natildeo superior a e ao inveacutes de se considerar apenas a probabilidade

do motivo em anaacutelise

A probabilidade assim calculada seraacute usada para determinar as entradas referentes a dados

aleatoacuterios na tabela de contingecircncia descrita na Secccedilatildeo 41 para o teste relativo agrave abundacircncia

A determinaccedilatildeo das entradas na tabela quando consideramos o teste relativo ao quoacuterum de um

motivo eacute consideravelmente mais complexa pelo que natildeo a abordaremos neste texto

Assim as entradas randomP e randomA satildeo calculadas da forma indicada em (47) e (48)

respectivamente

))1)((()( nseqsmlenmotiflenseqsnseqskmpP Markovrandom

(47)

randomrandom PlenseqsnseqsA

(48)

Nas expressotildees (47) e (48)

)( kmpMarkov refere-se agrave probabilidade calculada para o motivo m a partir de uma cadeia

de Markov extraiacuteda do conjunto de dados para um dado k

nseqs designa o nuacutemero de sequecircncias do conjunto de dados

lseqs designa o comprimento meacutedio das sequecircncias do conjunto de dados

lenmotif(m) designa o tamanho do motivo m

Agrave semelhanccedila do SMILE no caacutelculo de randomA consideramos como nuacutemero de

oportunidades de ocorrecircncia o tamanho do conjunto de dados

Este meacutetodo apresenta um desempenho computacional significativamente melhor que o

meacutetodo baseado em shuffling uma vez que natildeo necessita de efectuar vaacuterias simulaccedilotildees tendo

apenas de processar o conjunto de dados por uma uacutenica vez O caacutelculo da significacircncia

estatiacutestica de cada motivo eacute linear em relaccedilatildeo ao seu comprimento

Por outro lado o meacutetodo analiacutetico natildeo enferma das mesmas limitaccedilotildees do que o teste

estatiacutestico baseado em simulaccedilotildees permitindo o caacutelculo de significacircncia estatiacutestica para

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 22

valores elevados de k Ao considerar a estatiacutestica de todo o conjunto de dados ao inveacutes de

cada sequecircncia isoladamente este meacutetodo pode tambeacutem agrave partida modelar melhor os dados

Resta acrescentar que o meacutetodo descrito nesta Secccedilatildeo soacute permite obter significacircncias

estatiacutesticas para motivos simples A realizaccedilatildeo de caacutelculos para motivos estruturados eacute

consideravelmente mais complexa e natildeo foi abordada neste trabalho

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 23

5 Geraccedilatildeo de coacutedigo IUPAC

A realizaccedilatildeo eficiente de pesquisas de consensos em bases de dados bioloacutegicas requer uma

representaccedilatildeo compacta dos dados armazenados Neste contexto a possibilidade de

representar consensos em coacutedigo IUPAC assume uma importacircncia fundamental

O coacutedigo IUPAC eacute uma extensatildeo sobre a representaccedilatildeo de sequecircncias de DNA Uma

sequecircncia de DNA eacute constituiacuteda por nucleoacutetidos A codificaccedilatildeo IUPAC introduz siacutembolos que

representam um conjunto de possiacuteveis nucleoacutetidos para uma dada posiccedilatildeo permitindo uma

representaccedilatildeo de sequecircncias degeneradas Por exemplo uma purina (A ou G) eacute representada

pela letra R A descriccedilatildeo completa dos coacutedigos IUPAC encontra-se na Tabela 51

Coacutedigo Descriccedilatildeo A Adenina

C Citosina

G Guanina

T Timina

U Uracilo

R Purina (A ou G)

Y Pirimidina (C T ou U)

M C ou A

K T U ou G

W T U ou A

S C ou G

B C T U ou G (natildeo A)

D A T U ou G (natildeo C)

H A T U ou C (natildeo G)

V A C ou G (natildeo T natildeo U)

N Qualquer base (A C G T ou U)

Tabela 51 Coacutedigo IUPAC

A conversatildeo de um conjunto de sequecircncias de DNA para um conjunto de sequecircncias IUPAC

natildeo eacute uma tarefa trivial Para um dado conjunto de sequecircncias existem diversas codificaccedilotildees

IUPAC possiacuteveis

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 24

O problema da geraccedilatildeo de coacutedigo IUPAC consiste em encontrar o conjunto miacutenimo de

sequecircncias IUPAC que representem um dado conjunto de sequecircncias DNA

Como o objectivo proposto eacute a compressatildeo da representaccedilatildeo das sequecircncias de nucleoacutetidos eacute

desejaacutevel que a codificaccedilatildeo IUPAC seja a mais compacta possiacutevel

A abordagem utilizada foi a de reduzir o problema da compressatildeo IUPAC a um problema

conhecido a minimizaccedilatildeo de expressotildees loacutegicas multi-valor

Uma expressatildeo loacutegica multi-valor eacute uma expressatildeo loacutegica onde figuram variaacuteveis multi-valor

ou seja variaacuteveis que necessitam de mais do que um bit para serem representadas

Para representar um siacutembolo IUPAC eacute utilizada uma variaacutevel multi-valor de 4 bits Os

siacutembolos e as respectivas representaccedilotildees estatildeo na Tabela 52

Siacutembolo

IUPAC

Codificaccedilatildeo

binaacuteria

A 1000

T 0100

C 0010

G 0001

R 1001

Y 0110

S 0011

W 1100

K 0101

M 1010

B 0111

D 1101

H 1110

V 1011

N 1111

Espaccedilo 0000

Tabela 52

Codificaccedilatildeo binaacuteria dos siacutembolos IUPAC

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 25

Uma sequecircncia de nucleoacutetidos ou IUPAC eacute construiacuteda atraveacutes de um produto de termos

sendo cada termo uma variaacutevel multi-valor que representa um siacutembolo da sequecircncia Por

exemplo a sequecircncia WTA eacute representada pela expressatildeo loacutegica (1100) (0100) (1000)

Agora que foi estabelecida uma representaccedilatildeo para sequecircncias IUPAC atraveacutes de expressotildees

loacutegicas multi-valor resta perceber como da minimizaccedilatildeo destas expressotildees pode resultar o

desejado coacutedigo IUPAC

Em (51) temos um exemplo simples de minimizaccedilatildeo loacutegica

ZXZYXZYX

(51)

Eacute faacutecil verificar que X Z eacute uma expressatildeo equivalente O que se pretende para a compressatildeo

IUPAC eacute algo semelhante

Por exemplo a partir das sequecircncias ATA e TTA pretende-se a expressatildeo IUPAC WTA A

simplificaccedilatildeo das expressotildees loacutegicas eacute exemplificada sucessivamente em (52) (53) e (54)

A T A + T T A (52)

(1000) (0100) (1000) + (0100) (0100) (1000)

(A ou T) T A (53)

((1000)+(0100)) (0100) (1000)

W T A (54)

(1100) (0100) (1000)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 26

Eacute faacutecil perceber atendendo agrave escolha criteriosa da codificaccedilatildeo que da minimizaccedilatildeo de

expressotildees loacutegicas que representam sequecircncias de nucleoacutetidos resultam expressotildees loacutegicas

que representam uma codificaccedilatildeo IUPAC das sequecircncias originais

O problema inicial encontra-se agora reduzido a um problema de minimizaccedilatildeo de expressotildees

loacutegicas Este problema jaacute estaacute resolvido na aacuterea da siacutentese loacutegica Um dos programas mais

conhecidos desenvolvido para a resoluccedilatildeo deste problema eacute o programa Espresso [9] Apesar

de ser utilizado neste contexto como uma caixa preta eacute importante perceber o seu

funcionamento

No Espresso as expressotildees loacutegicas satildeo representadas num espaccedilo booleano multi-

dimensional Um exemplo eacute um espaccedilo tridimensional onde podem ser representadas

sequecircncias de tamanho 3 tal como estaacute ilustrado na Figura 51

Figura 51

Representaccedilatildeo das sequecircncias ATA (1) e TTA (2)

Neste contexto um cubo define-se como a representaccedilatildeo espacial de um produto de termos

Ou seja para o problema em questatildeo cada sequecircncia de entrada eacute um cubo e uma cobertura

corresponde a um conjunto de cubos que engloba todos os veacutertices representados no espaccedilo

Pode observar-se que a dimensatildeo do espaccedilo encontra-se directamente relacionada com o

tamanho da sequecircncia que se pretende representar Para efectuar a minimizaccedilatildeo o Espresso

procura uma cobertura miacutenima que daraacute origem ao conjunto de sequecircncias IUPAC de saiacuteda

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 27

No caso do espaccedilo da Figura 51 existe uma cobertura miacutenima constituiacuteda por um uacutenico cubo

A Figura 52 ilustra a referida cobertura

Figura 52 Representaccedilatildeo da cobertura WTA (1)

Da cobertura resulta a codificaccedilatildeo IUPAC das sequecircncias iniciais

O processo para descobrir a cobertura miacutenima eacute complexo sendo composto por um conjunto

intrincado de passos Inicialmente o conjunto de cubos originais eacute expandido de forma a

englobar o maior nuacutemero de veacutertices adjacentes De seguida os cubos redundantes satildeo

removidos e os restantes satildeo reduzidos para que cubram apenas os cubos iniciais Um cubo eacute

considerado redundante se natildeo cobrir nenhum veacutertice que natildeo esteja jaacute coberto por outro

cubo Deste processo resulta uma reduccedilatildeo contiacutenua do nuacutemero de cubos necessaacuterios para a

cobertura O processo eacute reiterado ateacute natildeo se verificarem melhorias substanciais na dimensatildeo

da cobertura obtida

Este processo eacute guiado por heuriacutesticas e eacute possiacutevel demonstrar que produz resultados

proacuteximos da soluccedilatildeo oacuteptima O processo estaacute detalhadamente descrito em [910]

De modo a automatizar o processo de codificaccedilatildeo das sequecircncias de nucleoacutetidos e

descodificaccedilatildeo das sequecircncias IUPAC foi desenvolvida uma interface para o Espresso

Assim as sequecircncias de entrada satildeo transformadas em expressotildees loacutegicas (formato binaacuterio)

seguindo a correspondecircncia referida na Tabela 52 Do mesmo modo a representaccedilatildeo da

cobertura miacutenima obtida pelo Espresso eacute descodificada e traduzida para sequecircncias IUPAC

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 28

O funcionamento da interface foi testado com recurso a um gerador aleatoacuterio de sequecircncias de

nucleoacutetidos e a um verificador O gerador produz um conjunto de sequecircncias obtidas a partir

de uma sequecircncia inicial de nucleoacutetidos O conjunto de sequecircncias gerado corresponde a

vaacuterias substituiccedilotildees aleatoacuterias na sequecircncia inicial e constitui o conjunto de entrada que vai

ser lido pela ferramenta Espresso O verificador recebe o conjunto de sequecircncias de entrada e

o resultado da operaccedilatildeo de minimizaccedilatildeo do Espresso sob a forma de sequecircncias de coacutedigos

IUPAC Deste modo ao expandir as sequecircncias IUPAC obtidas pelo Espresso atraveacutes de

uma operaccedilatildeo trivial de substituiccedilotildees sucessivas eacute possiacutevel testar a completude e adequaccedilatildeo

da representaccedilatildeo Assim diz-se que a representaccedilatildeo eacute completa se a expansatildeo incluir todas as

sequecircncias de entrada por outro lado diz-se que a representaccedilatildeo eacute adequada se natildeo incluir

nenhuma sequecircncia que natildeo esteja no conjunto inicial

Depois de verificada a completude e adequaccedilatildeo das representaccedilotildees obtidas foram feitos testes

com dados reais de modo a poder aferir o grau de compressatildeo das sequecircncias introduzidas

Assim o Espresso foi executado tendo como conjunto de entrada sequecircncias devidamente

codificadas obtidas atraveacutes de uma execuccedilatildeo do SMILE

As taxas de compressatildeo obtidas variam entre 278 e 715

O gerador de coacutedigo IUPAC encontra-se neste momento integrado na base de dados Dbyeast

[11] disponibilizando publicamente o serviccedilo de codificaccedilatildeo A Figura 53 eacute uma imagem da

interface que permite que os utilizadores da Dbyeast obtenham coacutedigo IUPAC a partir de

sequecircncias de DNA

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 29

Figura 53 Interface para geraccedilatildeo de coacutedigo IUPAC integrada na Dbyeast

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 30

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 31

6 Resultados e Conclusotildees

Neste Capiacutetulo iremos analisar os resultados obtidos tanto para dados sinteacuteticos como para

dados reais Para tal iremos comparar os valores de significacircncia estatiacutestica obtidos para os

dois tipos de dados usando tanto o meacutetodo de shuffling como o meacutetodo analiacutetico Para efectuar

esta comparaccedilatildeo eacute uacutetil referirmo-nos agrave posiccedilatildeo obtida pelos motivos em anaacutelise numa lista

ordenada por valores decrescentes de significacircncia estatiacutestica Assim sempre que

mencionarmos o valor da posiccedilatildeo de um motivo estaremos a referir-nos agrave posiccedilatildeo numa lista

assim definida

61 Resultados Obtidos com Dados Sinteacuteticos

Como jaacute foi referido a utilizaccedilatildeo de dados sinteacuteticos permite um maior controlo sobre os

motivos que estatildeo efectivamente presentes no conjunto de dados Assim iremos referir-nos

aos motivos que foram introduzidos no conjunto de dados gerado por motivos especificados

em oposiccedilatildeo aos outros motivos igualmente extraiacutedos pelo SMILE que designaremos por

motivos natildeo-especificados Nesta Secccedilatildeo iremos considerar o teste de significacircncia estatiacutestica

relativo agrave abundacircncia de forma a podermos comparar os resultados obtidos com o meacutetodo

shuffling e com o meacutetodo analiacutetico

611 Resultados do teste do 2 com o meacutetodo shuffling

Ao especificar um conjunto de dados com os mesmos motivos que estatildeo presentemente

descritos para a H pylori obtivemos para motivos simples os resultados apresentados nas

Figuras 61 e 62 O conjunto de dados sinteacutetico conteacutem 308 sequecircncias de comprimento 167

Foi efectuada uma procura de motivos simples com tamanhos compreendidos entre 6 e 8

nucleoacutetidos Natildeo foram admitidos erros e foi exigido um quoacuterum de 6 Os motivos

especificados encontram-se representados a ponteado Os restantes motivos correspondem a

motivos natildeo-especificados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 32

Figura 61 Significacircncia estatiacutestica para motivos simples de tamanho 6

Figura 62 Significacircncia estatiacutestica para motivos simples de tamanho 7

Os graacuteficos natildeo satildeo no entanto suficientes para nos dar a percepccedilatildeo da correcta classificaccedilatildeo

dos motivos uma vez que natildeo eacute possiacutevel fazer representar no graacutefico os 172 motivos

extraiacutedos A Tabela 61 indica as posiccedilotildees ocupadas pelos motivos especificados em relaccedilatildeo agrave

totalidade dos modelos para vaacuterios valores de k

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 33

TTTAAG TTTTAA TATAAT TATAATA

k=1 5 4 1 2

k=2 6 4 1 2

k=3 6 4 2 1

k=4 6 5 2 1

k=5 78 7 5 1

Tabela 61 Posiccedilotildees dos motivos especificados

Em geral os motivos especificados aparecem melhor classificados para um baixo valor de k

Agrave medida que se consideram valores de k crescentes a significacircncia estatiacutestica de todos os

motivos aproxima-se de zero pelas razotildees jaacute apontadas na Secccedilatildeo 42

Eacute comum observar-se a presenccedila de motivos natildeo-especificados com niacuteveis de significacircncia

elevados especialmente se atendermos agraves posiccedilotildees da Tabela 61

Contudo estes bons resultados natildeo se mantecircm se forem admitidos erros na procura Neste

caso embora os motivos mantenham em geral elevadas significacircncias entram em

competiccedilatildeo com os motivos a distacircncia de Hamming natildeo superior ao nuacutemero de erros

admitido Assim eacute comum observar-se uma descida significativa na tabela de posiccedilotildees

Para motivos estruturados os resultados satildeo favoraacuteveis mesmo admitindo erros como eacute

ilustrado pelo graacutefico da Figura 63 em conjugaccedilatildeo com os valores de posiccedilatildeo apresentados na

Tabela 62

Neste exemplo efectuou-se uma procura por motivos estruturados compostos por duas partes

com tamanhos entre 6 e 7 com uma distacircncia entre si variando entre 21 e 23 nucleoacutetidos

Admitiu-se 1 erro em cada parte do motivo mas apenas 1 erro na totalidade do motivo

estruturado e exigiu-se um quoacuterum de 6 Foram extraiacutedos 53 motivos O motivo

especificado encontra-se a ponteado

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 34

Figura 63 Significacircncia estatiacutestica para modelos estruturados em dados sinteacuteticos

TTTAAG_TATAAT

k=1 4

k=2 4

k=3 17

k=4 63

k=5 162

Tabela 62 Posiccedilotildees do motivo estruturado especificado

Neste exemplo foi necessaacuterio admitir a existecircncia de erros para que o motivo fosse encontrado

pelo SMILE Natildeo existem motivos sem erros que cumpram as condiccedilotildees de procura

Esta boa prestaccedilatildeo dos motivos estruturados estaacute relacionada com o facto de o shuffling

raramente preservar as distacircncias relativas de cada uma das partes que constituem o motivo

fazendo com que estes ocorram poucas vezes nas simulaccedilotildees Assim neste exemplo o motivo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 35

estruturado especificado aparece claramente destacado Estes resultados parecem sugerir que a

utilizaccedilatildeo deste teste estatiacutestico se adequa agrave avaliaccedilatildeo de modelos estruturados No entanto

nem todos os promotores exibem esta estrutura sendo necessaacuterio um meacutetodo mais geral para

fazer esta avaliaccedilatildeo

Como veremos em seguida os resultados aparentemente animadores mesmo para motivos

simples natildeo se verificam quando analisamos dados reais Esta evidecircncia estaacute relacionada com

o facto de o gerador de dados sinteacuteticos gerar dados aleatoacuterios com equiprobabilidade de

nucleoacutetidos Nos dados reais isto natildeo se verifica existindo normalmente uma clara

abundacircncia de A s e T s na regiatildeo promotora Do mesmo modo cada conjunto de dados exibe

preferecircncia por certos diacutemeros ou triacutemeros que ocorrem com muito mais frequecircncia que

outros

Esta limitaccedilatildeo podia ser mitigada pela incorporaccedilatildeo destas correlaccedilotildees na geraccedilatildeo de dados

sinteacuteticos Mas embora seja relativamente simples estabelecer uma preferecircncia por certos

nucleoacutetidos a geraccedilatildeo natildeo-equiprovaacutevel de k-mers geneacutericos constitui soacute por si um problema

complexo pelo que natildeo foi abordado neste trabalho

612 Resultados do teste do 2 com o meacutetodo analiacutetico

Os dados sinteacuteticos foram igualmente analisados recorrendo ao meacutetodo analiacutetico que como jaacute

foi referido tem a vantagem de ser mais eficiente do ponto de vista computacional e de poder

explorar valores mais elevados de k As Figura 64 e 65 apresentam a evoluccedilatildeo da

significacircncia estatiacutestica dos mesmos motivos considerados nas Figuras 62 e 63 mas

recorrendo ao meacutetodo analiacutetico

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 36

Figura 64 Significacircncia estatiacutestica de motivos simples de tamanho 6 usando o

meacutetodo analiacutetico

Figura 65 Significacircncia estatiacutestica de motivos simples de tamanho 7 usando o

meacutetodo analiacutetico

A Tabela 63 indica as posiccedilotildees dos motivos especificados para a significacircncia estatiacutestica

calculada por via do meacutetodo analiacutetico

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 37

TTTAAG TTTTAA TATAAT TATAATA

k=1 6 4 1 2

k=2 6 4 1 2

k=3 6 3 2 1

k=4 6 3 2 1

k=5 55 3 2 1

Tabela 63 Posiccedilotildees dos modelos especificados

Satildeo oacutebvias as semelhanccedilas entre os resultados apresentados na Tabela 63 e os presentes na

Tabela 61 Isto confirma a possibilidade de usar o meacutetodo analiacutetico como alternativa ao

meacutetodo de shuffling

Sabemos igualmente que no acircmbito do meacutetodo analiacutetico quando k atinge um valor igual ao

comprimento do motivo em anaacutelise a significacircncia estatiacutestica anula-se Isto tem a ver com o

facto de a probabilidade de ocorrecircncia de um k-mer ser muito proacutexima da sua frequecircncia

relativa no conjunto de dados Assim sendo os valores das entradas da tabela de contingecircncia

relativas aos dados aleatoacuterios seratildeo inevitavelmente iguais agraves dos dados reais resultando deste

facto uma significacircncia estatiacutestica nula

Por outro lado agrave medida que o k aumenta os k-mers introduzidos pelos motivos especificados

no conjunto de dados que de resto eacute aleatoacuterio vatildeo fazer com que a cadeia de Markov gerada

faccedila convergir as probabilidades de ocorrecircncia de cada motivo com a sua frequecircncia relativa

efectiva no conjunto de dados Assim assiste-se ao mesmo fenoacutemeno de convergecircncia para

zero da significacircncia estatiacutestica que assinalaacutemos para o meacutetodo shuffling

Pela anaacutelise dos resultados podemos ainda concluir que em geral um valor de k demasiado

pequeno natildeo modela suficientemente bem os dados daqui resulta que alguns motivos natildeo

especificados obtenham melhores classificaccedilotildees que motivos especificados Em suma

deveremos preferir valores de k intermeacutedios

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 38

62 Resultados Obtidos com Dados Reais

Com este teste pretendemos verificar se uma sequecircncia classificada como estatisticamente

relevante tambeacutem pode ser considerada biologicamente relevante

Para fazer o estudo da anaacutelise estatiacutestica em dados reais foram recolhidos 16 conjuntos de

dados com regiotildees promotoras correspondentes a genes da levedura Saccharomyces

cerevisiae que eacute um organismo eucariota Cada conjunto conteacutem aproximadamente 10

sequecircncias As sequecircncias contecircm consensos obtidos por via experimental e descritos na

literatura A descriccedilatildeo completa de cada conjunto de dados pode ser vista no Anexo A

Para cada conjunto de dados foi feita uma procura de motivos de tamanhos variando entre 4 e

11 nucleoacutetidos para valores de quoacuterum de 60 75 80 e 100 Foram permitidos 0 e 1

erros em ensaios sucessivos e fez-se ainda variar o valor de k entre 1 e 4

Foi posteriormente analisada a significacircncia estatiacutestica calculada pelo SMILE no que diz

respeito ao quoacuterum

Os consensos descritos obtiveram boas classificaccedilotildees para algumas das condiccedilotildees testadas

Em particular quando o quoacuterum exigido se encontra proacuteximo da frequecircncia efectiva dos

motivos nos dados e quando natildeo satildeo admitidos erros Os resultados satildeo tambeacutem melhores

para motivos de tamanho superior a 7 Em suma obtecircm-se bons resultados quando as

condiccedilotildees favorecem os motivos com as caracteriacutesticas dos consensos descritos

Estes resultados natildeo satildeo muito animadores porque para os atingir eacute necessaacuterio um

conhecimento preacutevio da frequecircncia e tamanho dos motivos Ao considerar a generalidade dos

ensaios efectuados verifica-se que as classificaccedilotildees satildeo muito baixas com baixas

significacircncias estatiacutesticas e com valores de posiccedilatildeo frequentemente abaixo dos primeiros

1 000 motivos No Anexo A apresentamos os resultados obtidos com estes ensaios

A par desta anaacutelise foi considerada a significacircncia estatiacutestica obtida a respeito da abundacircncia

Deste modo eacute possiacutevel estabelecer uma comparaccedilatildeo directa entre o meacutetodo de shuffling e o

meacutetodo analiacutetico para o caacutelculo desta meacutetrica

De seguida apresentamos os resultados desta anaacutelise

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 39

621 Resultados do teste do 2 com o meacutetodo shuffling

De modo geral os resultados para o teste estatiacutestico referente agrave abundacircncia representam uma

melhoria em relaccedilatildeo ao teste referente ao quoacuterum

Comeccedilamos por apresentar os graacuteficos referentes a um conjunto de dados cujos motivos

permanecem mal classificados isto eacute o motivo eacute biologicamente relevante mas natildeo eacute

considerado estatisticamente relevante O conjunto de dados em causa o MSN4 tem um

motivo muito abundante (CCCCT) condicionando a estatiacutestica dos dados Isto conjugado

com o seu pequeno tamanho (5 nucleoacutetidos) resulta na inevitaacutevel baixa significacircncia

estatiacutestica uma vez que aparece sistematicamente na geraccedilatildeo aleatoacuteria de sequecircncias feita em

cada simulaccedilatildeo As Figuras 66 e 67 ilustram a evoluccedilatildeo da significacircncia estatiacutestica e da

posiccedilatildeo do referido motivo considerando erro 0 e 1 respectivamente para um quoacuterum de

60

Figura 66 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 0 erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 40

Figura 67 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 1 erro

Os resultados da classificaccedilatildeo satildeo claramente maus para um consenso descrito A estranha

subida para k igual a 4 estaacute relacionada com uma pequena flutuaccedilatildeo sem significado uma vez

que estamos a considerar valores de significacircncia estatiacutestica muito baixos A aparente melhor

classificaccedilatildeo quando consideramos erro 0 estaacute relacionada com o facto de que quando natildeo se

admitem erros satildeo consequentemente extraiacutedos menos motivos Em particular com erro 0 satildeo

extraiacutedos 1 316 motivos enquanto que com erro 1 satildeo extraiacutedos 35 258 motivos

De seguida apresentamos os resultados relativos a um outro conjunto de dados (STE12) que

evidencia resultados mais favoraacuteveis para erro 0 As Figuras 68 e 69 apresentam a evoluccedilatildeo

da significacircncia estatiacutestica do motivo descrito (TGAAACA) para 0 e 1 erros

respectivamente com um quoacuterum de 100

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 41

Figura 68 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 0 erros

Figura 69 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 1 erro

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 42

Resta referir que para este conjunto de dados foram extraiacutedos 267 motivos com erro 0 e

7 705 motivos para erro 1

O facto de os motivos serem abundantes em relaccedilatildeo ao nuacutemero de sequecircncias consideradas

faz com que o teste relativo agrave abundacircncia tenha um poder de resoluccedilatildeo consideravelmente

maior do que o teste relativo ao quoacuterum Por esta razatildeo deveremos sempre preferir o primeiro

em casos semelhantes

Por outro lado os resultados obtidos continuam a pocircr em causa a generalidade do meacutetodo uma

vez que eacute difiacutecil identificar as situaccedilotildees em que este produz bons resultados sobretudo quando

somos confrontados com um desconhecimento a priori do conjunto de dados

622 Resultados do teste do 2 com o meacutetodo analiacutetico

Resta-nos comparar os resultados obtidos na subsecccedilatildeo anterior com os obtidos pela via

analiacutetica Nos graacuteficos apresentados nesta subsecccedilatildeo que representam a evoluccedilatildeo da

significacircncia estatiacutestica com o crescimento do tamanho dos k-mers considerados estatildeo

tambeacutem assinaladas as posiccedilotildees ocupadas pelos motivos

As Figuras 610 e 611 apresentam os resultados referentes ao MSN4

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 43

Figura 610 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 0 erros

Figura 611 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 1 erro

Os resultados para o MSN4 natildeo sofrem alteraccedilotildees assinalaacuteveis em relaccedilatildeo ao meacutetodo anterior

Novamente as caracteriacutesticas do conjunto de dados limitam a possibilidade de evidenciar este

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 44

motivo por via deste teste estatiacutestico o que eacute tanto mais grave quanto o facto de este ser um

dos motivos cuja significacircncia bioloacutegica se encontra melhor estabelecida

As Figuras 612 e 613 apresentam os resultados referentes ao conjunto de dados STE12

Figura 612 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 0 erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 45

Figura 613 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 1 erro

Os dados apresentados natildeo evidenciam melhorias assinalaacuteveis em relaccedilatildeo aos resultados

obtidos por via de shuffling excepto a ocorrecircncia de melhorias ocasionais da classificaccedilatildeo

quando natildeo se admitem erros Estas diferenccedilas podem ser atribuiacutedas ao facto de o meacutetodo

analiacutetico natildeo conservar estritamente os k-mers e de analisar o conjunto de dados na sua

totalidade por oposiccedilatildeo ao shuffling que considera cada sequecircncia isoladamente

No Anexo B apresentamos a totalidade dos resultados desta anaacutelise comparativa No Anexo C

eacute apresentada uma listagem dos resultados do caacutelculo do valor de significacircncia para valores de

k ateacute ao tamanho dos consensos descritos

A grande vantagem deste meacutetodo eacute sem duacutevida o incomparaacutevel ganho a niacutevel de

desempenho computacional Para ilustrar esta afirmaccedilatildeo basta dizer que o caacutelculo da

significacircncia estatiacutestica para todos os conjuntos de dados considerados demorou com o

meacutetodo de shuffling mais de 30 horas de processamento O meacutetodo analiacutetico realizou todos os

caacutelculos em menos de 30 minutos

No entanto os resultados voltam a pocircr em causa a adequaccedilatildeo do teste estatiacutestico do 2 para

aferir a significacircncia bioloacutegica pela dificuldade de sintetizar um meacutetodo geneacuterico para

destacar motivos relevantes de entre os extraiacutedos pelo SMILE

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 46

63 Conclusotildees

Ao considerar os resultados apresentados eacute inevitaacutevel concluir que a significacircncia atribuiacuteda

pelo teste estatiacutestico do 2 aos motivos extraiacutedos pelo SMILE natildeo reflecte a sua significacircncia

bioloacutegica

A dificuldade em distinguir motivos relevantes da grande quantidade de motivos extraiacutedos

potildee em causa a utilidade praacutetica do algoritmo na generalidade dos casos

Para aleacutem desta questatildeo outras limitaccedilotildees tecircm sido apontadas por bioacutelogos designadamente

o facto de o algoritmo natildeo conseguir pesquisar motivos na cadeia de DNA inversa onde os

factores de transcriccedilatildeo podem igualmente ligar-se e o facto de a forma como o SMILE

modela a ocorrecircncia de erros nos motivos natildeo ser compatiacutevel com a necessidade de poder

indicar posiccedilotildees especiacuteficas onde erros satildeo admitidos

No entanto o SMILE continua a exibir resultados interessantes para motivos estruturados o

que constitui sem duacutevida a mais-valia fundamental do algoritmo Tudo indica que o meacutetodo

analiacutetico pode ser igualmente adaptado para calcular a significacircncia de motivos estruturados

Parece-nos claro que uma eficaz extracccedilatildeo de motivos relevantes passaraacute necessariamente

pela conjugaccedilatildeo com outros dados para aleacutem da simples sequecircncia de nucleoacutetidos Em

particular a disponibilidade de informaccedilatildeo acerca de co-regulaccedilatildeo de genes poderaacute guiar a

extracccedilatildeo de motivos permitindo exigir um quoacuterum mais alto dada a confianccedila na existecircncia

de factores de transcriccedilatildeo comuns

Por outro lado a utilizaccedilatildeo de modelos probabiliacutesticos em vez de meras colecccedilotildees de motivos

poderaacute ser uma abordagem mais natural para o problema permitindo simultaneamente uma

melhor modelaccedilatildeo da realidade bioloacutegica ao indicar uma probabilidade de ocorrecircncia de cada

nucleoacutetido para uma dada posiccedilatildeo no modelo O nuacutemero de modelos extraiacutedos seria tambeacutem

francamente reduzido uma vez que um uacutenico modelo probabiliacutestico pode representar com

expressividade acrescida um grande nuacutemero de motivos

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 47

7 Referecircncias

[1] A Vanet L Marsan e M F Sagot Promoter sequence and algorithmical methods for

identifying them Research in Microbiology 150 pp 779-799 1999

[2] JD Watson FH Crick Molecular structure of nucleic acids a structure for deoxyribose

nucleic acid Nature Number 4356 1953

[3] T Werner Models for Prediction and Recognition of Eukaryotic Promoters Mammalian

Genome Vol 10 pp 168-175 1999

[4] L Marsan e M F Sagot Algorithms for extracting structured motifs using a suffix tree

with an application to promoter and regulatory site consensus identication Journal of

Computational Biology 7 pp 345-362 2000

[5] L Marsan Infeacuterence de motifs structureacutes algorithmes et outils appliqueacutes agrave la deacutetection de

sites de fixation dans des seacutequences geacutenomiques PhD Thesis Universiteacute de Marne-la-Valleacutee

2002

[6] B Flannery S Teukolsky W Press e W Vetterling Numerical Recipes in C++

Cambridge University Press 2002

[7] S Altschul e B Erickson Significance of Nucleotide Sequence Alignments A method of

Random Sequence Permutation That Preserves Dinucleotide and Codon Usage Molecular

Biology Evolution 2 pp 526-538 1985

[8] D Kandel Y Matias R Unger e P Winkler Shuffling Biological Sequences Discrete

Appl Math 71 pp 171-185 1996

[9] R Rudell e A Sangiovanni-Vincentelli Multiple-Valued Minimization for PLA

Optimization IEEE Transactions on Computer-Aided Design of Integrated Circuits and

Systems Vol CAD-6 Nordm 5 pp 727-751 September 1987

[10] R Brayton G Hachtel C McMullen e A Sangiovanni-Vincentelli Logic Minimization

Algorithms for VLSI Synthesis Kluwer Academic Publishers 1985

[11] P Monteiro Dbyeast [httpdescartesinesc-idpt~ptgmdb] 2004

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 48

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 49

Anexo A

Resultados do Caacutelculo da Significacircncia Estatiacutestica referente ao Quoacuterum

para Conjuntos de Dados de Saccharomyces cerevisiae

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados

A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos os resultados para os motivos procurados em relaccedilatildeo a cada valor dos paracircmetros

Nota o campo posicao refere-se agrave posiccedilatildeo ocupada pelo motivo na tabela com a estatiacutestica das sequecircncias com pelo menos uma ocorrecircncia do motivo ordenada por chi2

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

314 motivos encontrados Quorum = 80

670 motivos encontrados Quorum = 75

670 motivos encontrados Quorum = 60

1306 motivos encontrados Erro = 1

Quorum = 100 8636 motivos encontrados k = 1 posicao = 2 chi2 = 98 (ACCTTAAAGGT) k = 2 posicao = 2 chi2 = 976 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 965 (ACCTTAAAGGT) k = 4 posicao = 2 chi2 = 984 (ACCTTAAAGGT)

Quorum = 80 17722 motivos encontrados k = 1 posicao = 2 chi2 = 651 (ACCCTAAAGGT) k = 1 posicao = 4 chi2 = 965 (ACCTTAAAGGT) k = 2 posicao = 2 chi2 = 659 (ACCCTAAAGGT) k = 2 posicao = 8 chi2 = 965 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 667 (ACCCTAAAGGT) k = 3 posicao = 4 chi2 = 969 (ACCTTAAAGGT) k = 4 posicao = 2 chi2 = 659 (ACCCTAAAGGT) k = 4 posicao = 3 chi2 = 984 (ACCTTAAAGGT)

Quorum = 75 17722 motivos encontrados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 50

k = 1 posicao = 4 chi2 = 651 (ACCCTAAAGGT) k = 1 posicao = 2 chi2 = 988 (ACCTTAAAGGT) k = 2 posicao = 3 chi2 = 659 (ACCCTAAAGGT) k = 2 posicao = 2 chi2 = 992 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 655 (ACCCTAAAGGT) k = 3 posicao = 3 chi2 = 976 (ACCTTAAAGGT) k = 4 posicao = 3 chi2 = 655 (ACCCTAAAGGT) k = 4 posicao = 5 chi2 = 984 (ACCTTAAAGGT)

Quorum = 60 34907 motivos encontrados k = 1 posicao = 11 chi2 = 655 (ACCCTAAAGGT) k = 1 posicao = 5 chi2 = 996 (ACCTTAAAGGT) k = 1 posicao = 13 chi2 = 421 (ACCTTGAAGGT) k = 2 posicao = 15 chi2 = 647 (ACCCTAAAGGT) k = 2 posicao = 12 chi2 = 969 (ACCTTAAAGGT) k = 2 posicao = 7 chi2 = 421 (ACCTTGAAGGT) k = 3 posicao = 9 chi2 = 655 (ACCCTAAAGGT) k = 3 posicao = 8 chi2 = 984 (ACCTTAAAGGT) k = 3 posicao = 27 chi2 = 414 (ACCTTGAAGGT) k = 4 posicao = 10 chi2 = 651 (ACCCTAAAGGT) k = 4 posicao = 5 chi2 = 984 (ACCTTAAAGGT) k = 4 posicao = 40 chi2 = 407 (ACCTTGAAGGT)

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

161 motivos encontrados Quorum = 80

381 motivos encontrados Quorum = 75

502 motivos encontrados Quorum = 60

826 motivos encontrados k = 1 posicao = 43 chi2 = 33 (CCCCT) k = 2 posicao = 42 chi2 = 202 (CCCCT) k = 3 posicao = 48 chi2 = 142 (CCCCT) k = 4 posicao = 122 chi2 = 028 (CCCCT)

Erro = 1 Quorum = 100

4877 motivos encontrados k = 1 posicao = 3089 chi2 = 002 (CCCCT) k = 2 posicao = 2781 chi2 = 005 (CCCCT) k = 3 posicao = 3148 chi2 = 002 (CCCCT) k = 4 posicao = 2516 chi2 = 007 (CCCCT)

Quorum = 80 10050 motivos encontrados k = 1 posicao = 8449 chi2 = 0 (CCCCT) k = 2 posicao = 5470 chi2 = 009 (CCCCT) k = 3 posicao = 5867 chi2 = 004 (CCCCT) k = 4 posicao = 5131 chi2 = 009 (CCCCT)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 51

Quorum = 75

13080 motivos encontrados k = 1 posicao = 7539 chi2 = 004 (CCCCT) k = 2 posicao = 8129 chi2 = 002 (CCCCT) k = 3 posicao = 7900 chi2 = 003 (CCCCT) k = 4 posicao = 7385 chi2 = 005 (CCCCT)

Quorum = 60 21544 motivos encontrados k = 1 posicao = 12673 chi2 = 004 (CCCCT) k = 2 posicao = 11871 chi2 = 008 (CCCCT) k = 3 posicao = 12731 chi2 = 004 (CCCCT) k = 4 posicao = 11754 chi2 = 007 (CCCCT)

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

326 motivos encontrados Quorum = 80

682 motivos encontrados k = 1 posicao = 169 chi2 = 109 (CCCCT) k = 2 posicao = 238 chi2 = 073 (CCCCT) k = 3 posicao = 223 chi2 = 057 (CCCCT) k = 4 posicao = 331 chi2 = 01 (CCCCT)

Quorum = 75 682 motivos encontrados k = 1 posicao = 136 chi2 = 131 (CCCCT) k = 2 posicao = 178 chi2 = 085 (CCCCT) k = 3 posicao = 245 chi2 = 042 (CCCCT) k = 4 posicao = 331 chi2 = 01 (CCCCT)

Quorum = 60 1316 motivos encontrados k = 1 posicao = 303 chi2 = 17 (CCCCT) k = 2 posicao = 505 chi2 = 075 (CCCCT) k = 3 posicao = 457 chi2 = 059 (CCCCT) k = 4 posicao = 613 chi2 = 014 (CCCCT)

Erro = 1 Quorum = 100

9022 motivos encontrados k = 1 posicao = 7955 chi2 = 0 (CCCCT) k = 2 posicao = 7901 chi2 = 0 (CCCCT) k = 3 posicao = 7846 chi2 = 0 (CCCCT) k = 4 posicao = 7711 chi2 = 0 (CCCCT)

Quorum = 80 17951 motivos encontrados k = 1 posicao = 16310 chi2 = 0 (CCCCT) k = 2 posicao = 16251 chi2 = 0 (CCCCT) k = 3 posicao = 16207 chi2 = 0 (CCCCT) k = 4 posicao = 16091 chi2 = 0 (CCCCT)

Quorum = 75 17951 motivos encontrados k = 1 posicao = 16308 chi2 = 0 (CCCCT)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 52

k = 2 posicao = 16242 chi2 = 0 (CCCCT) k = 3 posicao = 16212 chi2 = 0 (CCCCT) k = 4 posicao = 16063 chi2 = 0 (CCCCT)

Quorum = 60 35258 motivos encontrados k = 1 posicao = 32818 chi2 = 0 (CCCCT) k = 2 posicao = 32757 chi2 = 0 (CCCCT) k = 3 posicao = 32822 chi2 = 0 (CCCCT) k = 4 posicao = 32656 chi2 = 0 (CCCCT)

5_1_gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

220 motivos encontrados Quorum = 80

517 motivos encontrados k = 1 posicao = 52 chi2 = 254 (CTTCC) k = 2 posicao = 87 chi2 = 146 (CTTCC) k = 3 posicao = 164 chi2 = 067 (CTTCC) k = 4 posicao = 236 chi2 = 004 (CTTCC)

Quorum = 75 517 motivos encontrados k = 1 posicao = 77 chi2 = 246 (CTTCC) k = 2 posicao = 83 chi2 = 152 (CTTCC) k = 3 posicao = 99 chi2 = 098 (CTTCC) k = 4 posicao = 241 chi2 = 003 (CTTCC)

Quorum = 60 963 motivos encontrados k = 1 posicao = 625 chi2 = 003 (CATCC) k = 1 posicao = 128 chi2 = 284 (CTTCC) k = 2 posicao = 644 chi2 = 003 (CATCC) k = 2 posicao = 170 chi2 = 177 (CTTCC) k = 3 posicao = 490 chi2 = 015 (CATCC) k = 3 posicao = 256 chi2 = 107 (CTTCC) k = 4 posicao = 522 chi2 = 0 (CATCC) k = 4 posicao = 497 chi2 = 004 (CTTCC)

Erro = 1 Quorum = 100

6121 motivos encontrados k = 1 posicao = 5072 chi2 = 0 (CATCC) k = 1 posicao = 5313 chi2 = 0 (CTTCC) k = 2 posicao = 5049 chi2 = 0 (CATCC) k = 2 posicao = 5287 chi2 = 0 (CTTCC) k = 3 posicao = 4984 chi2 = 0 (CATCC) k = 3 posicao = 5236 chi2 = 0 (CTTCC) k = 4 posicao = 4894 chi2 = 0 (CATCC) k = 4 posicao = 5167 chi2 = 0 (CTTCC)

Quorum = 80 13644 motivos encontrados k = 1 posicao = 11732 chi2 = 0 (CATCC) k = 1 posicao = 11981 chi2 = 0 (CTTCC)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 53

k = 2 posicao = 11792 chi2 = 0 (CATCC) k = 2 posicao = 12044 chi2 = 0 (CTTCC) k = 3 posicao = 11736 chi2 = 0 (CATCC) k = 3 posicao = 11985 chi2 = 0 (CTTCC) k = 4 posicao = 11644 chi2 = 0 (CATCC) k = 4 posicao = 11917 chi2 = 0 (CTTCC)

Quorum = 75 13644 motivos encontrados k = 1 posicao = 11712 chi2 = 0 (CATCC) k = 1 posicao = 11966 chi2 = 0 (CTTCC) k = 2 posicao = 11791 chi2 = 0 (CATCC) k = 2 posicao = 12027 chi2 = 0 (CTTCC) k = 3 posicao = 11729 chi2 = 0 (CATCC) k = 3 posicao = 11981 chi2 = 0 (CTTCC) k = 4 posicao = 11649 chi2 = 0 (CATCC) k = 4 posicao = 11920 chi2 = 0 (CTTCC)

Quorum = 60 25804 motivos encontrados k = 1 posicao = 22732 chi2 = 0 (CATCC) k = 1 posicao = 22973 chi2 = 0 (CTTCC) k = 2 posicao = 22881 chi2 = 0 (CATCC) k = 2 posicao = 23121 chi2 = 0 (CTTCC) k = 3 posicao = 22916 chi2 = 0 (CATCC) k = 3 posicao = 23164 chi2 = 0 (CTTCC) k = 4 posicao = 22864 chi2 = 0 (CATCC) k = 4 posicao = 23141 chi2 = 0 (CTTCC)

6_0_MIG1

Motivo GCGGGG Frequecircncia 16 ~167 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

290 motivos encontrados Quorum = 80

556 motivos encontrados Quorum = 75

556 motivos encontrados Quorum = 60

927 motivos encontrados Erro = 1

Quorum = 100 7881 motivos encontrados k = 1 posicao = 650 chi2 = 252 (GCGGGG) k = 2 posicao = 773 chi2 = 173 (GCGGGG) k = 3 posicao = 1341 chi2 = 101 (GCGGGG) k = 4 posicao = 4437 chi2 = 052 (GCGGGG)

Quorum = 80 14601 motivos encontrados k = 1 posicao = 1895 chi2 = 249 (GCGGGG) k = 2 posicao = 2045 chi2 = 161 (GCGGGG) k = 3 posicao = 3284 chi2 = 11 (GCGGGG) k = 4 posicao = 7272 chi2 = 05 (GCGGGG)

Quorum = 75

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 54

14601 motivos encontrados k = 1 posicao = 2121 chi2 = 234 (GCGGGG) k = 2 posicao = 2604 chi2 = 153 (GCGGGG) k = 3 posicao = 3778 chi2 = 089 (GCGGGG) k = 4 posicao = 8057 chi2 = 047 (GCGGGG)

Quorum = 60 25117 motivos encontrados k = 1 posicao = 4371 chi2 = 234 (GCGGGG) k = 2 posicao = 5452 chi2 = 153 (GCGGGG) k = 3 posicao = 7361 chi2 = 116 (GCGGGG) k = 4 posicao = 12643 chi2 = 051 (GCGGGG)

6_0_UME6

Motivo GCCGCC Frequecircncia 37 ~4286 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

257 motivos encontrados Quorum = 80

454 motivos encontrados Quorum = 75

454 motivos encontrados Quorum = 60

748 motivos encontrados Erro = 1

Quorum = 100 7186 motivos encontrados

Quorum = 80 12323 motivos encontrados

Quorum = 75 12323 motivos encontrados

Quorum = 60 19726 motivos encontrados k = 1 posicao = 13214 chi2 = 002 (GCCGCC) k = 2 posicao = 14628 chi2 = 0 (GCCGCC) k = 3 posicao = 14684 chi2 = 0 (GCCGCC) k = 4 posicao = 15398 chi2 = 002 (GCCGCC)

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

173 motivos encontrados Quorum = 80

403 motivos encontrados Quorum = 75

530 motivos encontrados k = 1 posicao = 6 chi2 = 755 (GATAAG)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 55

k = 2 posicao = 3 chi2 = 892 (GATAAG) k = 3 posicao = 3 chi2 = 725 (GATAAG) k = 4 posicao = 12 chi2 = 457 (GATAAG)

Quorum = 60 836 motivos encontrados k = 1 posicao = 24 chi2 = 771 (GATAAG) k = 2 posicao = 7 chi2 = 94 (GATAAG) k = 3 posicao = 12 chi2 = 719 (GATAAG) k = 4 posicao = 25 chi2 = 48 (GATAAG)

Erro = 1 Quorum = 100

5360 motivos encontrados k = 1 posicao = 2690 chi2 = 012 (GATAAG) k = 1 posicao = 3118 chi2 = 008 (GATTAG) k = 2 posicao = 2917 chi2 = 01 (GATAAG) k = 2 posicao = 2424 chi2 = 02 (GATTAG) k = 3 posicao = 3096 chi2 = 007 (GATAAG) k = 3 posicao = 1982 chi2 = 033 (GATTAG) k = 4 posicao = 3004 chi2 = 007 (GATAAG) k = 4 posicao = 2767 chi2 = 01 (GATTAG)

Quorum = 80 10819 motivos encontrados k = 1 posicao = 6729 chi2 = 011 (GATAAG) k = 1 posicao = 6816 chi2 = 009 (GATTAG) k = 2 posicao = 6240 chi2 = 013 (GATAAG) k = 2 posicao = 6446 chi2 = 011 (GATTAG) k = 3 posicao = 7301 chi2 = 004 (GATAAG) k = 3 posicao = 4235 chi2 = 053 (GATTAG) k = 4 posicao = 7045 chi2 = 004 (GATAAG) k = 4 posicao = 6317 chi2 = 012 (GATTAG)

Quorum = 75 13889 motivos encontrados k = 1 posicao = 9061 chi2 = 007 (GATAAG) k = 1 posicao = 8672 chi2 = 01 (GATTAG) k = 2 posicao = 8095 chi2 = 016 (GATAAG) k = 2 posicao = 8763 chi2 = 01 (GATTAG) k = 3 posicao = 8965 chi2 = 008 (GATAAG) k = 3 posicao = 6907 chi2 = 036 (GATTAG) k = 4 posicao = 8966 chi2 = 006 (GATAAG) k = 4 posicao = 8323 chi2 = 011 (GATTAG)

Quorum = 60 22209 motivos encontrados k = 1 posicao = 14904 chi2 = 008 (GATAAG) k = 1 posicao = 14384 chi2 = 013 (GATTAG) k = 2 posicao = 13923 chi2 = 015 (GATAAG) k = 2 posicao = 13902 chi2 = 015 (GATTAG) k = 3 posicao = 14932 chi2 = 008 (GATAAG) k = 3 posicao = 11534 chi2 = 046 (GATTAG) k = 4 posicao = 14680 chi2 = 007 (GATAAG) k = 4 posicao = 13878 chi2 = 017 (GATTAG)

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 56

Erro = 0 Quorum = 100

128 motivos encontrados Quorum = 80

372 motivos encontrados Quorum = 75

454 motivos encontrados Quorum = 60

785 motivos encontrados Erro = 1

Quorum = 100 4212 motivos encontrados k = 1 posicao = 326 chi2 = 14 (CACCCA) k = 2 posicao = 594 chi2 = 108 (CACCCA) k = 3 posicao = 244 chi2 = 107 (CACCCA) k = 4 posicao = 1210 chi2 = 038 (CACCCA)

Quorum = 80 9800 motivos encontrados k = 1 posicao = 1302 chi2 = 157 (CACCCA) k = 1 posicao = 2061 chi2 = 087 (CACCCG) k = 2 posicao = 2058 chi2 = 117 (CACCCA) k = 2 posicao = 2522 chi2 = 059 (CACCCG) k = 3 posicao = 1624 chi2 = 106 (CACCCA) k = 3 posicao = 2994 chi2 = 045 (CACCCG) k = 4 posicao = 2703 chi2 = 05 (CACCCA) k = 4 posicao = 3926 chi2 = 011 (CACCCG)

Quorum = 75 11933 motivos encontrados k = 1 posicao = 1951 chi2 = 145 (CACCCA) k = 1 posicao = 2903 chi2 = 081 (CACCCG) k = 2 posicao = 2227 chi2 = 116 (CACCCA) k = 2 posicao = 3417 chi2 = 062 (CACCCG) k = 3 posicao = 2137 chi2 = 108 (CACCCA) k = 3 posicao = 3426 chi2 = 041 (CACCCG) k = 4 posicao = 4518 chi2 = 031 (CACCCA) k = 4 posicao = 4805 chi2 = 012 (CACCCG)

Quorum = 60 20531 motivos encontrados k = 1 posicao = 5137 chi2 = 144 (CACCCA) k = 1 posicao = 5556 chi2 = 073 (CACCCG) k = 2 posicao = 4865 chi2 = 113 (CACCCA) k = 2 posicao = 5737 chi2 = 062 (CACCCG) k = 3 posicao = 4491 chi2 = 097 (CACCCA) k = 3 posicao = 5797 chi2 = 052 (CACCCG) k = 4 posicao = 7825 chi2 = 041 (CACCCA) k = 4 posicao = 7275 chi2 = 018 (CACCCG)

7_0_REB1

Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

211 motivos encontrados k = 1 posicao = 4 chi2 = 965 (TTACCC)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 57

k = 2 posicao = 4 chi2 = 105 (TTACCC) k = 3 posicao = 4 chi2 = 1075 (TTACCC) k = 4 posicao = 4 chi2 = 755 (TTACCC)

Quorum = 80 405 motivos encontrados k = 1 posicao = 4 chi2 = 932 (TTACCC) k = 2 posicao = 4 chi2 = 1083 (TTACCC) k = 3 posicao = 4 chi2 = 1106 (TTACCC) k = 4 posicao = 4 chi2 = 723 (TTACCC)

Quorum = 75 605 motivos encontrados k = 1 posicao = 6 chi2 = 947 (TTACCC) k = 2 posicao = 5 chi2 = 999 (TTACCC) k = 3 posicao = 5 chi2 = 1098 (TTACCC) k = 4 posicao = 5 chi2 = 808 (TTACCC)

Quorum = 60 907 motivos encontrados k = 1 posicao = 9 chi2 = 1007 (TTACCC) k = 2 posicao = 6 chi2 = 1089 (TTACCC) k = 3 posicao = 6 chi2 = 1081 (TTACCC) k = 4 posicao = 6 chi2 = 788 (TTACCC)

Erro = 1 Quorum = 100

6121 motivos encontrados k = 1 posicao = 4617 chi2 = 013 (TTACCC) k = 2 posicao = 4454 chi2 = 016 (TTACCC) k = 3 posicao = 4730 chi2 = 012 (TTACCC) k = 4 posicao = 5483 chi2 = 004 (TTACCC)

Quorum = 80 10337 motivos encontrados k = 1 posicao = 7525 chi2 = 008 (TTACCC) k = 2 posicao = 7267 chi2 = 01 (TTACCC) k = 3 posicao = 7129 chi2 = 012 (TTACCC) k = 4 posicao = 7469 chi2 = 009 (TTACCC)

Quorum = 75 15777 motivos encontrados k = 1 posicao = 10287 chi2 = 012 (TTACCC) k = 2 posicao = 10740 chi2 = 01 (TTACCC) k = 3 posicao = 9696 chi2 = 016 (TTACCC) k = 4 posicao = 10789 chi2 = 008 (TTACCC)

Quorum = 60 23856 motivos encontrados k = 1 posicao = 15646 chi2 = 01 (TTACCC) k = 2 posicao = 15437 chi2 = 012 (TTACCC) k = 3 posicao = 13932 chi2 = 022 (TTACCC) k = 4 posicao = 15597 chi2 = 009 (TTACCC)

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

235 motivos encontrados Quorum = 80

475 motivos encontrados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 58

k = 1 posicao = 3 chi2 = 945 (TGCCAAG) k = 2 posicao = 2 chi2 = 92 (TGCCAAG) k = 3 posicao = 2 chi2 = 892 (TGCCAAG) k = 4 posicao = 3 chi2 = 7 (TGCCAAG)

Quorum = 75 475 motivos encontrados k = 1 posicao = 2 chi2 = 924 (TGCCAAG) k = 2 posicao = 3 chi2 = 886 (TGCCAAG) k = 3 posicao = 3 chi2 = 869 (TGCCAAG) k = 4 posicao = 2 chi2 = 678 (TGCCAAG)

Quorum = 60 785 motivos encontrados k = 1 posicao = 5 chi2 = 952 (TGCCAAG) k = 2 posicao = 4 chi2 = 934 (TGCCAAG) k = 3 posicao = 4 chi2 = 869 (TGCCAAG) k = 4 posicao = 6 chi2 = 67 (TGCCAAG)

Erro = 1 Quorum = 100

7028 motivos encontrados k = 1 posicao = 436 chi2 = 321 (TGCCAAG) k = 2 posicao = 551 chi2 = 217 (TGCCAAG) k = 3 posicao = 940 chi2 = 223 (TGCCAAG) k = 4 posicao = 1492 chi2 = 095 (TGCCAAG)

Quorum = 80 12574 motivos encontrados k = 1 posicao = 1703 chi2 = 325 (TGCCAAG) k = 2 posicao = 2035 chi2 = 244 (TGCCAAG) k = 3 posicao = 1678 chi2 = 217 (TGCCAAG) k = 4 posicao = 3298 chi2 = 093 (TGCCAAG)

Quorum = 75 12574 motivos encontrados k = 1 posicao = 1739 chi2 = 333 (TGCCAAG) k = 2 posicao = 1717 chi2 = 216 (TGCCAAG) k = 3 posicao = 1609 chi2 = 212 (TGCCAAG) k = 4 posicao = 3574 chi2 = 075 (TGCCAAG)

Quorum = 60 20257 motivos encontrados k = 1 posicao = 3598 chi2 = 304 (TGCCAAG) k = 2 posicao = 3664 chi2 = 211 (TGCCAAG) k = 3 posicao = 3206 chi2 = 213 (TGCCAAG) k = 4 posicao = 4753 chi2 = 115 (TGCCAAG)

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

267 motivos encontrados k = 1 posicao = 4 chi2 = 998 (TGAAACA) k = 2 posicao = 5 chi2 = 908 (TGAAACA) k = 3 posicao = 5 chi2 = 875 (TGAAACA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 59

k = 4 posicao = 4 chi2 = 743 (TGAAACA)

Quorum = 80 529 motivos encontrados k = 1 posicao = 4 chi2 = 969 (TGAAACA) k = 2 posicao = 6 chi2 = 84 (TGAAACA) k = 3 posicao = 5 chi2 = 845 (TGAAACA) k = 4 posicao = 5 chi2 = 702 (TGAAACA)

Quorum = 75 529 motivos encontrados k = 1 posicao = 6 chi2 = 933 (TGAAACA) k = 2 posicao = 5 chi2 = 866 (TGAAACA) k = 3 posicao = 5 chi2 = 86 (TGAAACA) k = 4 posicao = 5 chi2 = 717 (TGAAACA)

Quorum = 60 916 motivos encontrados k = 1 posicao = 12 chi2 = 956 (TGAAACA) k = 2 posicao = 13 chi2 = 893 (TGAAACA) k = 3 posicao = 16 chi2 = 84 (TGAAACA) k = 4 posicao = 18 chi2 = 715 (TGAAACA)

Erro = 1 Quorum = 100

7705 motivos encontrados k = 1 posicao = 4203 chi2 = 055 (TGAAACA) k = 2 posicao = 5562 chi2 = 02 (TGAAACA) k = 3 posicao = 5481 chi2 = 021 (TGAAACA) k = 4 posicao = 6219 chi2 = 012 (TGAAACA)

Quorum = 80 14161 motivos encontrados k = 1 posicao = 8113 chi2 = 052 (TGAAACA) k = 2 posicao = 9261 chi2 = 022 (TGAAACA) k = 3 posicao = 8536 chi2 = 029 (TGAAACA) k = 4 posicao = 10343 chi2 = 01 (TGAAACA)

Quorum = 75 14161 motivos encontrados k = 1 posicao = 7156 chi2 = 066 (TGAAACA) k = 2 posicao = 8778 chi2 = 028 (TGAAACA) k = 3 posicao = 8848 chi2 = 034 (TGAAACA) k = 4 posicao = 9747 chi2 = 015 (TGAAACA)

Quorum = 60 24421 motivos encontrados k = 1 posicao = 12918 chi2 = 049 (TGAAACA) k = 2 posicao = 15781 chi2 = 024 (TGAAACA) k = 3 posicao = 13941 chi2 = 03 (TGAAACA) k = 4 posicao = 16147 chi2 = 017 (TGAAACA)

7_1_SWI4

Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

330 motivos encontrados Quorum = 80

675 motivos encontrados k = 1 posicao = 3 chi2 = 575 (CGCGAAA) k = 2 posicao = 3 chi2 = 483 (CGCGAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 60

k = 3 posicao = 11 chi2 = 395 (CGCGAAA) k = 4 posicao = 5 chi2 = 367 (CGCGAAA)

Quorum = 75 675 motivos encontrados k = 1 posicao = 2 chi2 = 6 (CGCGAAA) k = 2 posicao = 4 chi2 = 504 (CGCGAAA) k = 3 posicao = 14 chi2 = 372 (CGCGAAA) k = 4 posicao = 14 chi2 = 343 (CGCGAAA)

Quorum = 60 1349 motivos encontrados k = 1 posicao = 50 chi2 = 31 (CACGAAA) k = 1 posicao = 8 chi2 = 569 (CGCGAAA) k = 2 posicao = 81 chi2 = 26 (CACGAAA) k = 2 posicao = 20 chi2 = 48 (CGCGAAA) k = 3 posicao = 117 chi2 = 21 (CACGAAA) k = 3 posicao = 47 chi2 = 37 (CGCGAAA) k = 4 posicao = 309 chi2 = 056 (CACGAAA) k = 4 posicao = 33 chi2 = 367 (CGCGAAA)

Erro = 1 Quorum = 100

8974 motivos encontrados k = 1 posicao = 2630 chi2 = 093 (CACGAAA) k = 1 posicao = 1189 chi2 = 212 (CGCGAAA) k = 2 posicao = 3046 chi2 = 07 (CACGAAA) k = 2 posicao = 2138 chi2 = 101 (CGCGAAA) k = 3 posicao = 4224 chi2 = 03 (CACGAAA) k = 3 posicao = 4064 chi2 = 04 (CGCGAAA) k = 4 posicao = 5230 chi2 = 012 (CACGAAA) k = 4 posicao = 4771 chi2 = 018 (CGCGAAA)

Quorum = 80 17937 motivos encontrados k = 1 posicao = 6152 chi2 = 107 (CACGAAA) k = 1 posicao = 3575 chi2 = 211 (CGCGAAA) k = 2 posicao = 7073 chi2 = 071 (CACGAAA) k = 2 posicao = 6979 chi2 = 078 (CGCGAAA) k = 3 posicao = 9212 chi2 = 035 (CACGAAA) k = 3 posicao = 8502 chi2 = 038 (CGCGAAA) k = 4 posicao = 10421 chi2 = 017 (CACGAAA) k = 4 posicao = 9629 chi2 = 026 (CGCGAAA)

Quorum = 75 17937 motivos encontrados k = 1 posicao = 6271 chi2 = 104 (CACGAAA) k = 1 posicao = 4092 chi2 = 171 (CGCGAAA) k = 2 posicao = 8574 chi2 = 052 (CACGAAA) k = 2 posicao = 5741 chi2 = 107 (CGCGAAA) k = 3 posicao = 10092 chi2 = 026 (CACGAAA) k = 3 posicao = 8743 chi2 = 044 (CGCGAAA) k = 4 posicao = 11741 chi2 = 009 (CACGAAA) k = 4 posicao = 9601 chi2 = 022 (CGCGAAA)

Quorum = 60 35352 motivos encontrados k = 1 posicao = 15854 chi2 = 094 (CACGAAA) k = 1 posicao = 9842 chi2 = 196 (CGCGAAA) k = 2 posicao = 18655 chi2 = 063 (CACGAAA) k = 2 posicao = 16854 chi2 = 093 (CGCGAAA) k = 3 posicao = 21349 chi2 = 025 (CACGAAA) k = 3 posicao = 19789 chi2 = 036 (CGCGAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 61

k = 4 posicao = 22509 chi2 = 016 (CACGAAA) k = 4 posicao = 21049 chi2 = 027 (CGCGAAA)

7_2_GCN4

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

229 motivos encontrados Quorum = 80

372 motivos encontrados Quorum = 75

586 motivos encontrados Quorum = 60

839 motivos encontrados Erro = 1

Quorum = 100 6343 motivos encontrados

Quorum = 80 10422 motivos encontrados

Quorum = 75 15227 motivos encontrados

Quorum = 60 21609 motivos encontrados

7_2_RGT1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

205 motivos encontrados Quorum = 80

496 motivos encontrados k = 1 posicao = 4 chi2 = 1052 (CGGAAAA) k = 2 posicao = 2 chi2 = 883 (CGGAAAA) k = 3 posicao = 2 chi2 = 692 (CGGAAAA) k = 4 posicao = 10 chi2 = 308 (CGGAAAA)

Quorum = 75 496 motivos encontrados k = 1 posicao = 4 chi2 = 1101 (CGGAAAA) k = 2 posicao = 3 chi2 = 855 (CGGAAAA) k = 3 posicao = 4 chi2 = 685 (CGGAAAA) k = 4 posicao = 9 chi2 = 338 (CGGAAAA)

Quorum = 60 987 motivos encontrados k = 1 posicao = 10 chi2 = 1087 (CGGAAAA) k = 2 posicao = 11 chi2 = 792 (CGGAAAA) k = 3 posicao = 10 chi2 = 637 (CGGAAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 62

k = 4 posicao = 27 chi2 = 333 (CGGAAAA)

Erro = 1 Quorum = 100

6085 motivos encontrados k = 1 posicao = 740 chi2 = 226 (CGGAAAA) k = 1 posicao = 244 chi2 = 442 (CGGAAGA) k = 1 posicao = 375 chi2 = 415 (CGGAGAA) k = 1 posicao = 795 chi2 = 205 (CGGATAA) k = 2 posicao = 1431 chi2 = 069 (CGGAAAA) k = 2 posicao = 350 chi2 = 257 (CGGAAGA) k = 2 posicao = 313 chi2 = 281 (CGGAGAA) k = 2 posicao = 403 chi2 = 257 (CGGATAA) k = 3 posicao = 2933 chi2 = 015 (CGGAAAA) k = 3 posicao = 543 chi2 = 161 (CGGAAGA) k = 3 posicao = 758 chi2 = 162 (CGGAGAA) k = 3 posicao = 334 chi2 = 242 (CGGATAA) k = 4 posicao = 3388 chi2 = 006 (CGGAAAA) k = 4 posicao = 944 chi2 = 088 (CGGAAGA) k = 4 posicao = 682 chi2 = 096 (CGGAGAA) k = 4 posicao = 448 chi2 = 157 (CGGATAA)

Quorum = 80 13578 motivos encontrados k = 1 posicao = 2782 chi2 = 211 (CGGAAAA) k = 1 posicao = 1309 chi2 = 443 (CGGAAGA) k = 1 posicao = 9793 chi2 = 0 (CGGAATA) k = 1 posicao = 1525 chi2 = 436 (CGGAGAA) k = 1 posicao = 1267 chi2 = 351 (CGGAGGA) k = 1 posicao = 2001 chi2 = 282 (CGGATAA) k = 1 posicao = 4454 chi2 = 055 (CGGATTA) k = 2 posicao = 4354 chi2 = 063 (CGGAAAA) k = 2 posicao = 1547 chi2 = 273 (CGGAAGA) k = 2 posicao = 7920 chi2 = 004 (CGGAATA) k = 2 posicao = 2260 chi2 = 262 (CGGAGAA) k = 2 posicao = 1049 chi2 = 271 (CGGAGGA) k = 2 posicao = 1502 chi2 = 271 (CGGATAA) k = 2 posicao = 3568 chi2 = 083 (CGGATTA) k = 3 posicao = 6889 chi2 = 02 (CGGAAAA) k = 3 posicao = 2122 chi2 = 16 (CGGAAGA) k = 3 posicao = 10332 chi2 = 01 (CGGAATA) k = 3 posicao = 2408 chi2 = 144 (CGGAGAA) k = 3 posicao = 1273 chi2 = 214 (CGGAGGA) k = 3 posicao = 1406 chi2 = 211 (CGGATAA) k = 3 posicao = 1203 chi2 = 189 (CGGATTA) k = 4 posicao = 8380 chi2 = 003 (CGGAAAA) k = 4 posicao = 4250 chi2 = 074 (CGGAAGA) k = 4 posicao = 12881 chi2 = 037 (CGGAATA) k = 4 posicao = 3392 chi2 = 088 (CGGAGAA) k = 4 posicao = 1278 chi2 = 162 (CGGAGGA) k = 4 posicao = 1930 chi2 = 148 (CGGATAA) k = 4 posicao = 1157 chi2 = 136 (CGGATTA)

Quorum = 75 13578 motivos encontrados k = 1 posicao = 2620 chi2 = 264 (CGGAAAA) k = 1 posicao = 1452 chi2 = 443 (CGGAAGA) k = 1 posicao = 8943 chi2 = 001 (CGGAATA) k = 1 posicao = 1121 chi2 = 446 (CGGAGAA) k = 1 posicao = 965 chi2 = 424 (CGGAGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 63

k = 1 posicao = 2453 chi2 = 246 (CGGATAA) k = 1 posicao = 3571 chi2 = 086 (CGGATTA) k = 2 posicao = 4690 chi2 = 069 (CGGAAAA) k = 2 posicao = 1475 chi2 = 255 (CGGAAGA) k = 2 posicao = 7150 chi2 = 01 (CGGAATA) k = 2 posicao = 1209 chi2 = 259 (CGGAGAA) k = 2 posicao = 837 chi2 = 274 (CGGAGGA) k = 2 posicao = 1900 chi2 = 268 (CGGATAA) k = 2 posicao = 3981 chi2 = 066 (CGGATTA) k = 3 posicao = 6549 chi2 = 022 (CGGAAAA) k = 3 posicao = 1447 chi2 = 191 (CGGAAGA) k = 3 posicao = 10656 chi2 = 018 (CGGAATA) k = 3 posicao = 2435 chi2 = 155 (CGGAGAA) k = 3 posicao = 1026 chi2 = 21 (CGGAGGA) k = 3 posicao = 1469 chi2 = 233 (CGGATAA) k = 3 posicao = 1202 chi2 = 189 (CGGATTA) k = 4 posicao = 11692 chi2 = 0 (CGGAAAA) k = 4 posicao = 3717 chi2 = 077 (CGGAAGA) k = 4 posicao = 10890 chi2 = 035 (CGGAATA) k = 4 posicao = 3482 chi2 = 087 (CGGAGAA) k = 4 posicao = 1187 chi2 = 168 (CGGAGGA) k = 4 posicao = 1746 chi2 = 148 (CGGATAA) k = 4 posicao = 1204 chi2 = 149 (CGGATTA)

Quorum = 60 25839 motivos encontrados k = 1 posicao = 5870 chi2 = 247 (CGGAAAA) k = 1 posicao = 4726 chi2 = 405 (CGGAAGA) k = 1 posicao = 18076 chi2 = 0 (CGGAATA) k = 1 posicao = 3940 chi2 = 388 (CGGAGAA) k = 1 posicao = 3424 chi2 = 384 (CGGAGGA) k = 1 posicao = 15679 chi2 = 005 (CGGAGTA) k = 1 posicao = 6177 chi2 = 245 (CGGATAA) k = 1 posicao = 15167 chi2 = 008 (CGGATGA) k = 1 posicao = 11165 chi2 = 059 (CGGATTA) k = 2 posicao = 11428 chi2 = 046 (CGGAAAA) k = 2 posicao = 4811 chi2 = 242 (CGGAAGA) k = 2 posicao = 16216 chi2 = 003 (CGGAATA) k = 2 posicao = 4128 chi2 = 226 (CGGAGAA) k = 2 posicao = 3005 chi2 = 278 (CGGAGGA) k = 2 posicao = 10245 chi2 = 04 (CGGAGTA) k = 2 posicao = 3437 chi2 = 3 (CGGATAA) k = 2 posicao = 10379 chi2 = 033 (CGGATGA) k = 2 posicao = 8888 chi2 = 072 (CGGATTA) k = 3 posicao = 13836 chi2 = 017 (CGGAAAA) k = 3 posicao = 4943 chi2 = 191 (CGGAAGA) k = 3 posicao = 20550 chi2 = 01 (CGGAATA) k = 3 posicao = 6774 chi2 = 155 (CGGAGAA) k = 3 posicao = 2524 chi2 = 222 (CGGAGGA) k = 3 posicao = 13828 chi2 = 01 (CGGAGTA) k = 3 posicao = 4859 chi2 = 197 (CGGATAA) k = 3 posicao = 9284 chi2 = 029 (CGGATGA) k = 3 posicao = 3146 chi2 = 179 (CGGATTA) k = 4 posicao = 17095 chi2 = 001 (CGGAAAA) k = 4 posicao = 7930 chi2 = 083 (CGGAAGA) k = 4 posicao = 24667 chi2 = 051 (CGGAATA) k = 4 posicao = 9042 chi2 = 083 (CGGAGAA) k = 4 posicao = 3884 chi2 = 147 (CGGAGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 64

k = 4 posicao = 13905 chi2 = 007 (CGGAGTA) k = 4 posicao = 4859 chi2 = 156 (CGGATAA) k = 4 posicao = 14606 chi2 = 005 (CGGATGA) k = 4 posicao = 3783 chi2 = 127 (CGGATTA)

8_1_PDR1

Motivo TCCGYGGA Frequecircncia 68 ~75 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

229 motivos encontrados Quorum = 80

416 motivos encontrados Quorum = 75

639 motivos encontrados k = 1 posicao = 2 chi2 = 96 (TCCGCGGA) k = 2 posicao = 2 chi2 = 941 (TCCGCGGA) k = 3 posicao = 2 chi2 = 915 (TCCGCGGA) k = 4 posicao = 2 chi2 = 674 (TCCGCGGA)

Quorum = 60 950 motivos encontrados k = 1 posicao = 4 chi2 = 937 (TCCGCGGA) k = 2 posicao = 3 chi2 = 933 (TCCGCGGA) k = 3 posicao = 3 chi2 = 926 (TCCGCGGA) k = 4 posicao = 3 chi2 = 686 (TCCGCGGA)

Erro = 1 Quorum = 100

6610 motivos encontrados k = 1 posicao = 8 chi2 = 1095 (TCCGCGGA) k = 1 posicao = 15 chi2 = 1007 (TCCGTGGA) k = 2 posicao = 8 chi2 = 1092 (TCCGCGGA) k = 2 posicao = 18 chi2 = 1039 (TCCGTGGA) k = 3 posicao = 11 chi2 = 907 (TCCGCGGA) k = 3 posicao = 9 chi2 = 881 (TCCGTGGA) k = 4 posicao = 18 chi2 = 517 (TCCGCGGA) k = 4 posicao = 8 chi2 = 759 (TCCGTGGA)

Quorum = 80 11058 motivos encontrados k = 1 posicao = 32 chi2 = 1126 (TCCGCGGA) k = 1 posicao = 48 chi2 = 1053 (TCCGTGGA) k = 2 posicao = 21 chi2 = 1053 (TCCGCGGA) k = 2 posicao = 19 chi2 = 1098 (TCCGTGGA) k = 3 posicao = 29 chi2 = 881 (TCCGCGGA) k = 3 posicao = 60 chi2 = 808 (TCCGTGGA) k = 4 posicao = 97 chi2 = 509 (TCCGCGGA) k = 4 posicao = 42 chi2 = 698 (TCCGTGGA)

Quorum = 75 16695 motivos encontrados k = 1 posicao = 92 chi2 = 1126 (TCCGCGGA) k = 1 posicao = 178 chi2 = 1026 (TCCGTGGA) k = 2 posicao = 70 chi2 = 1092 (TCCGCGGA) k = 2 posicao = 73 chi2 = 1069 (TCCGTGGA) k = 3 posicao = 64 chi2 = 983 (TCCGCGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 65

k = 3 posicao = 83 chi2 = 898 (TCCGTGGA) k = 4 posicao = 336 chi2 = 48 (TCCGCGGA) k = 4 posicao = 130 chi2 = 657 (TCCGTGGA)

Quorum = 60 25049 motivos encontrados k = 1 posicao = 220 chi2 = 1135 (TCCGCGGA) k = 1 posicao = 369 chi2 = 1004 (TCCGTGGA) k = 2 posicao = 83 chi2 = 1159 (TCCGCGGA) k = 2 posicao = 263 chi2 = 1045 (TCCGTGGA) k = 3 posicao = 134 chi2 = 883 (TCCGCGGA) k = 3 posicao = 206 chi2 = 857 (TCCGTGGA) k = 4 posicao = 580 chi2 = 488 (TCCGCGGA) k = 4 posicao = 213 chi2 = 67 (TCCGTGGA)

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

241 motivos encontrados Quorum = 80

423 motivos encontrados k = 1 posicao = 2 chi2 = 1237 (TCCGCGGA) k = 2 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 3 posicao = 2 chi2 = 1229 (TCCGCGGA) k = 4 posicao = 2 chi2 = 915 (TCCGCGGA)

Quorum = 75 667 motivos encontrados k = 1 posicao = 2 chi2 = 1237 (TCCGCGGA) k = 2 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 3 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 4 posicao = 2 chi2 = 909 (TCCGCGGA)

Quorum = 60 1024 motivos encontrados k = 1 posicao = 3 chi2 = 1233 (TCCGCGGA) k = 2 posicao = 4 chi2 = 124 (TCCGCGGA) k = 3 posicao = 3 chi2 = 1221 (TCCGCGGA) k = 4 posicao = 5 chi2 = 918 (TCCGCGGA)

Erro = 1 Quorum = 100

6897 motivos encontrados k = 1 posicao = 17 chi2 = 1115 (TCCGCGGA) k = 1 posicao = 24 chi2 = 1026 (TCCGTGGA) k = 2 posicao = 12 chi2 = 1174 (TCCGCGGA) k = 2 posicao = 10 chi2 = 1138 (TCCGTGGA) k = 3 posicao = 17 chi2 = 945 (TCCGCGGA) k = 3 posicao = 29 chi2 = 827 (TCCGTGGA) k = 4 posicao = 65 chi2 = 481 (TCCGCGGA) k = 4 posicao = 39 chi2 = 616 (TCCGTGGA)

Quorum = 80 11592 motivos encontrados k = 1 posicao = 69 chi2 = 1156 (TCCGCGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 66

k = 1 posicao = 117 chi2 = 1012 (TCCGTGGA) k = 2 posicao = 38 chi2 = 1177 (TCCGCGGA) k = 2 posicao = 69 chi2 = 1061 (TCCGTGGA) k = 3 posicao = 76 chi2 = 893 (TCCGCGGA) k = 3 posicao = 53 chi2 = 817 (TCCGTGGA) k = 4 posicao = 131 chi2 = 526 (TCCGCGGA) k = 4 posicao = 61 chi2 = 638 (TCCGTGGA)

Quorum = 75 17555 motivos encontrados k = 1 posicao = 210 chi2 = 1109 (TCCGCGGA) k = 1 posicao = 265 chi2 = 1061 (TCCGTGGA) k = 2 posicao = 78 chi2 = 115 (TCCGCGGA) k = 2 posicao = 102 chi2 = 1109 (TCCGTGGA) k = 3 posicao = 184 chi2 = 905 (TCCGCGGA) k = 3 posicao = 105 chi2 = 85 (TCCGTGGA) k = 4 posicao = 424 chi2 = 451 (TCCGCGGA) k = 4 posicao = 476 chi2 = 582 (TCCGTGGA)

Quorum = 60 26303 motivos encontrados k = 1 posicao = 433 chi2 = 1118 (TCCGCGGA) k = 1 posicao = 521 chi2 = 991 (TCCGTGGA) k = 2 posicao = 237 chi2 = 1064 (TCCGCGGA) k = 2 posicao = 322 chi2 = 1045 (TCCGTGGA) k = 3 posicao = 316 chi2 = 95 (TCCGCGGA) k = 3 posicao = 415 chi2 = 827 (TCCGTGGA) k = 4 posicao = 978 chi2 = 49 (TCCGCGGA) k = 4 posicao = 1277 chi2 = 616 (TCCGTGGA)

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

328 motivos encontrados Quorum = 80

685 motivos encontrados Quorum = 75

685 motivos encontrados Quorum = 60

1319 motivos encontrados k = 1 posicao = 4 chi2 = 411 (TCCGTGGA) k = 2 posicao = 2 chi2 = 421 (TCCGTGGA) k = 3 posicao = 2 chi2 = 407 (TCCGTGGA) k = 4 posicao = 3 chi2 = 354 (TCCGTGGA)

Erro = 1 Quorum = 100

9298 motivos encontrados k = 1 posicao = 95 chi2 = 631 (TCCGAGGA) k = 1 posicao = 63 chi2 = 675 (TCCGCGGA) k = 1 posicao = 75 chi2 = 678 (TCCGTGGA) k = 2 posicao = 51 chi2 = 61 (TCCGAGGA) k = 2 posicao = 25 chi2 = 745 (TCCGCGGA) k = 2 posicao = 22 chi2 = 718 (TCCGTGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 67

k = 3 posicao = 38 chi2 = 538 (TCCGAGGA) k = 3 posicao = 68 chi2 = 543 (TCCGCGGA) k = 3 posicao = 64 chi2 = 57 (TCCGTGGA) k = 4 posicao = 48 chi2 = 529 (TCCGAGGA) k = 4 posicao = 161 chi2 = 389 (TCCGCGGA) k = 4 posicao = 78 chi2 = 477 (TCCGTGGA)

Quorum = 80 18263 motivos encontrados k = 1 posicao = 551 chi2 = 592 (TCCGAGGA) k = 1 posicao = 147 chi2 = 754 (TCCGCGGA) k = 1 posicao = 282 chi2 = 647 (TCCGTGGA) k = 2 posicao = 296 chi2 = 605 (TCCGAGGA) k = 2 posicao = 143 chi2 = 715 (TCCGCGGA) k = 2 posicao = 182 chi2 = 681 (TCCGTGGA) k = 3 posicao = 589 chi2 = 511 (TCCGAGGA) k = 3 posicao = 347 chi2 = 553 (TCCGCGGA) k = 3 posicao = 245 chi2 = 59 (TCCGTGGA) k = 4 posicao = 429 chi2 = 462 (TCCGAGGA) k = 4 posicao = 944 chi2 = 401 (TCCGCGGA) k = 4 posicao = 577 chi2 = 41 (TCCGTGGA)

Quorum = 75 18263 motivos encontrados k = 1 posicao = 790 chi2 = 6 (TCCGAGGA) k = 1 posicao = 168 chi2 = 706 (TCCGCGGA) k = 1 posicao = 451 chi2 = 631 (TCCGTGGA) k = 2 posicao = 195 chi2 = 623 (TCCGAGGA) k = 2 posicao = 152 chi2 = 695 (TCCGCGGA) k = 2 posicao = 155 chi2 = 686 (TCCGTGGA) k = 3 posicao = 159 chi2 = 546 (TCCGAGGA) k = 3 posicao = 286 chi2 = 546 (TCCGCGGA) k = 3 posicao = 281 chi2 = 585 (TCCGTGGA) k = 4 posicao = 342 chi2 = 46 (TCCGAGGA) k = 4 posicao = 562 chi2 = 381 (TCCGCGGA) k = 4 posicao = 632 chi2 = 401 (TCCGTGGA)

Quorum = 60 35494 motivos encontrados k = 1 posicao = 1806 chi2 = 548 (TCCGAGGA) k = 1 posicao = 1580 chi2 = 65 (TCCGCGGA) k = 1 posicao = 1668 chi2 = 595 (TCCGTGGA) k = 2 posicao = 1224 chi2 = 592 (TCCGAGGA) k = 2 posicao = 794 chi2 = 701 (TCCGCGGA) k = 2 posicao = 991 chi2 = 658 (TCCGTGGA) k = 3 posicao = 1647 chi2 = 536 (TCCGAGGA) k = 3 posicao = 2029 chi2 = 546 (TCCGCGGA) k = 3 posicao = 1118 chi2 = 57 (TCCGTGGA) k = 4 posicao = 1549 chi2 = 502 (TCCGAGGA) k = 4 posicao = 2429 chi2 = 385 (TCCGCGGA) k = 4 posicao = 2813 chi2 = 429 (TCCGTGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 68

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 69

Anexo B Comparaccedilatildeo da Significacircncia Estatiacutestica referente agrave Abundacircncia obtida pelo

Meacutetodo de Shuffling e pelo Meacutetodo Analiacutetico

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos a comparaccedilatildeo entre o valor do chi2 obtido pelo meacutetodo de shuffling e o valor obtido pelo meacutetodo analiacutetico

Cada linha diz respeito a dados em que se conserva um determinado k-mer (k) Em cada uma eacute apresentado o valor do chi2 obtido pelo meacutetodo de shuffling (chi2) e a sua posiccedilatildeo relativa na lista de motivos ordenada por valores decrescentes de chi2 face ao nuacutemero de motivos extraiacutedos Os valores acima referidos tambeacutem satildeo apresentados para o meacutetodo analiacutetico (achi2)

10_2_YRR1 Motivo TTCCGTGGAA TTCCGCGGAT TTCCGCGGAA Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=488 (633 in 8908) achi2=476 (745 in 8908) [TTCCGCGGAA]

K=2 chi2=465 (468 in 8908) achi2=464 (509 in 8908) [TTCCGCGGAA]

K=3 chi2=412 (201 in 8908) achi2=413 (230 in 8908) [TTCCGCGGAA]

K=4 chi2=253 (223 in 8908) achi2=278 (205 in 8908) [TTCCGCGGAA]

K=5 chi2=126 (277 in 8912) achi2=143 (291 in 8912) [TTCCGCGGAA]

K=6 chi2=039 (323 in 8912) achi2=041 (1035 in 8912) [TTCCGCGGAA]

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 70

Error = 1

Quorum = 80

K=1 chi2=388 (428 in 17722) achi2=387 (504 in 17722) [ACCCTAAAGGT]

K=1 chi2=474 (246 in 17722) achi2=483 (265 in 17722) [ACCTTAAAGGT]

K=2 chi2=394 (222 in 17722) achi2=389 (248 in 17722) [ACCCTAAAGGT]

K=2 chi2=474 (111 in 17722) achi2=484 (119 in 17722) [ACCTTAAAGGT]

K=3 chi2=400 (51 in 17722) achi2=391 (61 in 17722) [ACCCTAAAGGT]

K=3 chi2=477 (12 in 17722) achi2=485 (14 in 17722) [ACCTTAAAGGT]

K=4 chi2=394 (28 in 17722) achi2=387 (31 in 17722) [ACCCTAAAGGT]

K=4 chi2=488 (4 in 17722) achi2=485 (4 in 17722) [ACCTTAAAGGT]

K=5 chi2=326 (24 in 17722) achi2=343 (29 in 17722) [ACCCTAAAGGT]

K=5 chi2=435 (7 in 17722) achi2=462 (3 in 17722) [ACCTTAAAGGT]

K=6 chi2=071 (387 in 17722) achi2=282 (276 in 17722) [ACCCTAAAGGT]

K=6 chi2=310 (2 in 17722) achi2=431 (259 in 17722) [ACCTTAAAGGT]

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=344 (91 in 1316) achi2=314 (116 in 1316) [CCCCT]

K=2 chi2=187 (183 in 1316) achi2=194 (178 in 1316) [CCCCT]

K=3 chi2=164 (138 in 1316) achi2=140 (190 in 1316) [CCCCT]

K=4 chi2=088 (186 in 1316) achi2=104 (150 in 1316) [CCCCT]

Error = 1

Quorum = 60

K=1 chi2=056 (18487 in 35258) achi2=082 (15627 in 35258) [CCCCT]

K=2 chi2=000 (34670 in 35258) achi2=000 (34292 in 35258) [CCCCT]

K=3 chi2=007 (27587 in 35258) achi2=011 (25832 in 35258) [CCCCT]

K=4 chi2=044 (14195 in 35258) achi2=044 (14486 in 35258) [CCCCT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 71

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=534 (66 in 826) achi2=523 (72 in 826) [CCCCT]

K=2 chi2=290 (76 in 826) achi2=297 (75 in 826) [CCCCT]

K=3 chi2=159 (97 in 826) achi2=152 (105 in 826) [CCCCT]

K=4 chi2=022 (242 in 826) achi2=007 (382 in 826) [CCCCT]

K=5 chi2=000 (360 in 826) achi2=000 (339 in 826) [CCCCT]

K=6 chi2=000 (331 in 826) achi2=000 (604 in 826) [CCCCT]

Error = 1

Quorum = 60

K=1 chi2=372 (2640 in 21544) achi2=462 (2153 in 21544) [CCCCT]

K=2 chi2=041 (10937 in 21544) achi2=070 (8620 in 21544) [CCCCT]

K=3 chi2=000 (20651 in 21544) achi2=000 (20723 in 21544) [CCCCT]

K=4 chi2=080 (4245 in 21544) achi2=083 (4322 in 21544) [CCCCT]

K=5 chi2=000 (19590 in 21562) achi2=000 (20653 in 21562) [CCCCT]

K=6 chi2=000 (16728 in 21562) achi2=000 (21282 in 21562) [CCCCT]

5_1_Gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=080 (3213 in 6121) achi2=079 (3260 in 6121) [CATCC]

K=1 chi2=1188 (320 in 6121) achi2=1158 (344 in 6121) [CTTCC]

K=2 chi2=180 (1552 in 6121) achi2=161 (1763 in 6121) [CATCC]

K=2 chi2=504 (498 in 6121) achi2=470 (566 in 6121) [CTTCC]

K=3 chi2=205 (809 in 6121) achi2=192 (906 in 6121) [CATCC]

K=3 chi2=102 (1713 in 6121) achi2=109 (1663 in 6121) [CTTCC]

K=4 chi2=097 (929 in 6121) achi2=091 (1091 in 6121) [CATCC]

K=4 chi2=001 (5090 in 6121) achi2=001 (5126 in 6121) [CTTCC]

K=5 chi2=000 (5948 in 6121) achi2=000 (5152 in 6121) [CATCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 72

K=5 chi2=000 (4578 in 6121) achi2=000 (5000 in 6121) [CTTCC]

K=6 chi2=000 (5634 in 6121) achi2=000 (5438 in 6121) [CATCC]

K=6 chi2=000 (2279 in 6121) achi2=000 (5149 in 6121) [CTTCC]

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 chi2=292 (2311 in 10819) achi2=273 (2534 in 10819) [GATAAG]

K=1 chi2=131 (4204 in 10819) achi2=102 (4875 in 10819) [GATTAG]

K=2 chi2=499 (766 in 10819) achi2=493 (849 in 10819) [GATAAG]

K=2 chi2=280 (1760 in 10819) achi2=268 (1952 in 10819) [GATTAG]

K=3 chi2=168 (2077 in 10819) achi2=174 (2107 in 10819) [GATAAG]

K=3 chi2=953 (62 in 10819) achi2=925 (81 in 10819) [GATTAG]

K=4 chi2=014 (6803 in 10819) achi2=009 (7567 in 10819) [GATAAG]

K=4 chi2=309 (394 in 10819) achi2=352 (328 in 10819) [GATTAG]

K=5 chi2=001 (8734 in 10819) achi2=003 (7728 in 10819) [GATAAG]

K=5 chi2=176 (429 in 10819) achi2=159 (773 in 10819) [GATTAG]

K=6 chi2=000 (9825 in 10819) achi2=000 (6602 in 10819) [GATAAG]

K=6 chi2=000 (7459 in 10819) achi2=000 (6760 in 10819) [GATTAG]

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

Error = 1

Quorum = 60

K=1 chi2=382 (3218 in 20531) achi2=555 (2348 in 20531) [CACCCA]

k=1 chi2=083 (9754 in 20531) achi2=102 (9117 in 20531) [CACCCG]

K=2 chi2=330 (2327 in 20531) achi2=368 (2233 in 20531) [CACCCA]

K=2 chi2=143 (5707 in 20531) achi2=117 (6956 in 20531) [CACCCG]

K=3 chi2=209 (2208 in 20531) achi2=223 (2249 in 20531) [CACCCA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 73

K=3 chi2=040 (9516 in 20531) achi2=023 (12243 in 20531) [CACCCG]

K=4 chi2=071 (4649 in 20531) achi2=105 (3457 in 20531) [CACCCA]

K=4 chi2=000 (19099 in 20531) achi2=002 (17523 in 20531) [CACCCG]

7_0_REB1 Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 chi2=549 (29 in 405) achi2=586 (33 in 405) [TTACCC]

K=2 chi2=688 (6 in 405) achi2=635 (12 in 405) [TTACCC]

K=3 chi2=706 (2 in 405) achi2=679 (2 in 405) [TTACCC]

K=4 chi2=373 (3 in 405) achi2=402 (3 in 405) [TTACCC]

K=5 chi2=034 (7 in 405) achi2=020 (8 in 405) [TTACCC]

K=6 chi2=000 (383 in 405) achi2=000 (232 in 405) [TTACCC]

Error = 1

Quorum = 80

K=1 chi2=133 (3134 in 10337) achi2=169 (2743 in 10337) [TTACCC]

K=2 chi2=302 (657 in 10337) achi2=267 (945 in 10337) [TTACCC]

K=3 chi2=409 (106 in 10337) achi2=394 (170 in 10337) [TTACCC]

K=4 chi2=082 (1439 in 10337) achi2=109 (1091 in 10337) [TTACCC]

K=5 chi2=002 (7204 in 10337) achi2=003 (6765 in 10337) [TTACCC]

K=6 chi2=000 (10150 in 10337) achi2=000 (6299 in 10337) [TTACCC]

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=626 (58 in 785) achi2=615 (64 in 785) [TGCCAAG]

K=2 chi2=610 (11 in 785) achi2=585 (14 in 785) [TGCCAAG]

K=3 chi2=561 (8 in 785) achi2=575 (6 in 785) [TGCCAAG]

K=4 chi2=399 (4 in 785) achi2=377 (6 in 785) [TGCCAAG]

K=5 chi2=184 (8 in 785) achi2=157 (10 in 785) [TGCCAAG]

K=6 chi2=054 (5 in 785) achi2=055 (255 in 785) [TGCCAAG]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 74

Error = 1

Quorum = 60

K=1 chi2=463 (1914 in 20257) achi2=458 (2166 in 20257) [TGCCAAG]

K=2 chi2=292 (1694 in 20257) achi2=287 (1959 in 20257) [TGCCAAG]

K=3 chi2=252 (1158 in 20257) achi2=270 (1060 in 20257) [TGCCAAG]

K=4 chi2=038 (8072 in 20257) achi2=030 (9306 in 20257) [TGCCAAG]

K=5 chi2=002 (15272 in 20366) achi2=004 (14013 in 20366) [TGCCAAG]

K=6 chi2=009 (5877 in 20366) achi2=029 (4589 in 20366) [TGCCAAG]

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

K=1 chi2=1035 (5 in 267) achi2=996 (6 in 267) [TGAAACA]

K=2 chi2=961 (1 in 267) achi2=905 (1 in 267) [TGAAACA]

K=3 chi2=934 (1 in 267) achi2=884 (1 in 267) [TGAAACA]

K=4 chi2=794 (1 in 267) achi2=731 (1 in 267) [TGAAACA]

K=5 chi2=264 (2 in 267) achi2=320 (1 in 267) [TGAAACA]

K=6 chi2=044 (3 in 267) achi2=052 (168 in 267) [TGAAACA]

Error = 1

Quorum = 100

K=1 chi2=448 (515 in 7705) achi2=400 (675 in 7705) [TGAAACA]

K=2 chi2=168 (1047 in 7705) achi2=157 (1246 in 7705) [TGAAACA]

K=3 chi2=159 (637 in 7705) achi2=128 (992 in 7705) [TGAAACA]

K=4 chi2=057 (1734 in 7705) achi2=026 (3100 in 7705) [TGAAACA]

K=5 chi2=015 (2574 in 7705) achi2=021 (2435 in 7705) [TGAAACA]

K=6 chi2=007 (1386 in 7705) achi2=006 (2114 in 7705) [TGAAACA]

7_1_SWI4

Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 75

Quorum = 100

K=1 chi2=927 (53 in 8974) achi2=950 (59 in 8974) [CACGAAA]

K=1 chi2=1447 (8 in 8974) achi2=1516 (9 in 8974) [CGCGAAA]

K=2 chi2=686 (17 in 8974) achi2=638 (22 in 8974) [CACGAAA]

K=2 chi2=940 (4 in 8974) achi2=924 (3 in 8974) [CGCGAAA]

K=3 chi2=456 (46 in 8974) achi2=436 (53 in 8974) [CACGAAA]

K=3 chi2=514 (20 in 8974) achi2=502 (25 in 8974) [CGCGAAA]

K=4 chi2=087 (1329 in 8974) achi2=106 (1095 in 8974) [CACGAAA]

K=4 chi2=343 (41 in 8974) achi2=390 (27 in 8974) [CGCGAAA]

K=5 chi2=012 (3730 in 8974) achi2=000 (7343 in 8974) [CACGAAA]

K=5 chi2=033 (1966 in 8974) achi2=121 (397 in 8974) [CGCGAAA]

K=6 chi2=007 (1861 in 8974) achi2=001 (3810 in 8974) [CACGAAA]

K=6 chi2=002 (3146 in 8974) achi2=044 (873 in 8974) [CGCGAAA]

7_2_RGT1

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=2092 (246 in 6085) achi2=2140 (236 in 6085) [CGGAAAA]

K=1 chi2=810 (799 in 6085) achi2=803 (815 in 6085) [CGGAAGA]

K=1 chi2=1437 (409 in 6085) achi2=1409 (416 in 6085) [CGGAGAA]

K=1 chi2=337 (1833 in 6085) achi2=350 (1782 in 6085) [CGGATAA]

K=2 chi2=837 (251 in 6085) achi2=840 (245 in 6085) [CGGAAAA]

K=2 chi2=451 (648 in 6085) achi2=442 (666 in 6085) [CGGAAGA]

K=2 chi2=989 (186 in 6085) achi2=937 (208 in 6085) [CGGAGAA]

K=2 chi2=432 (698 in 6085) achi2=428 (695 in 6085) [CGGATAA]

K=3 chi2=281 (367 in 6085) achi2=272 (385 in 6085) [CGGAAAA]

K=3 chi2=242 (473 in 6085) achi2=225 (546 in 6085) [CGGAAGA]

K=3 chi2=580 (76 in 6085) achi2=544 (89 in 6085) [CGGAGAA]

K=3 chi2=366 (216 in 6085) achi2=309 (299 in 6085) [CGGATAA]

K=4 chi2=013 (3127 in 6085) achi2=022 (2503 in 6085) [CGGAAAA]

K=4 chi2=039 (1619 in 6085) achi2=040 (1722 in 6085) [CGGAAGA]

K=4 chi2=320 (35 in 6085) achi2=304 (56 in 6085) [CGGAGAA]

K=4 chi2=193 (166 in 6085) achi2=202 (188 in 6085) [CGGATAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 76

8_1_PDR1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 75

K=1 chi2=901 (25 in 639) achi2=884 (27 in 639) [TCCGCGGA]

K=2 chi2=886 (13 in 639) achi2=883 (14 in 639) [TCCGCGGA]

K=3 chi2=862 (4 in 639) achi2=864 (5 in 639) [TCCGCGGA]

K=4 chi2=659 (2 in 639) achi2=741 (2 in 639) [TCCGCGGA]

K=5 chi2=252 (1 in 639) achi2=306 (1 in 639) [TCCGCGGA]

K=6 chi2=012 (5 in 639) achi2=030 (253 in 639) [TCCGCGGA]

Error = 1

Quorum = 75

K=1 chi2=1388 (184 in 16695) achi2=1370 (211 in 16695) [TCCGCGGA]

K=1 chi2=913 (373 in 16695) achi2=895 (419 in 16695) [TCCGTGGA]

K=2 chi2=1355 (68 in 16695) achi2=1355 (91 in 16695) [TCCGCGGA]

K=2 chi2=952 (199 in 16695) achi2=944 (230 in 16695) [TCCGTGGA]

K=3 chi2=1237 (5 in 16695) achi2=1138 (22 in 16695) [TCCGCGGA]

K=3 chi2=782 (88 in 16695) achi2=771 (119 in 16695) [TCCGTGGA]

K=4 chi2=570 (45 in 16695) achi2=688 (33 in 16695) [TCCGCGGA]

K=4 chi2=544 (53 in 16695) achi2=610 (56 in 16695) [TCCGTGGA]

K=5 chi2=061 (2230 in 16699) achi2=113 (1175 in 16699) [TCCGCGGA]

K=5 chi2=101 (981 in 16699) achi2=207 (328 in 16699) [TCCGTGGA]

K=6 chi2=001 (8600 in 16699) achi2=000 (10541 in 16699) [TCCGCGGA]

K=6 chi2=002 (7065 in 16699) achi2=003 (8326 in 16699) [TCCGTGGA]

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 chi2=995 (22 in 423) achi2=985 (24 in 423) [TCCGCGGA]

K=2 chi2=980 (13 in 423) achi2=985 (13 in 423) [TCCGCGGA]

K=3 chi2=989 (4 in 423) achi2=967 (4 in 423) [TCCGCGGA]

K=4 chi2=741 (1 in 423) achi2=802 (1 in 423) [TCCGCGGA]

K=5 chi2=220 (1 in 423) achi2=303 (1 in 423) [TCCGCGGA]

K=6 chi2=010 (1 in 423) achi2=027 (229 in 423) [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 77

Error = 1

Quorum = 80

K=1 chi2=1609 (169 in 11592) achi2=1592 (187 in 11592) [TCCGCGGA]

K=1 chi2=1090 (327 in 11592) achi2=1109 (353 in 11592) [TCCGTGGA]

K=2 chi2=1634 (63 in 11592) achi2=1584 (97 in 11592) [TCCGCGGA]

K=2 chi2=1148 (174 in 11592) achi2=1142 (197 in 11592) [TCCGTGGA]

K=3 chi2=1333 (20 in 11592) achi2=1364 (24 in 11592) [TCCGCGGA]

K=3 chi2=878 (91 in 11592) achi2=894 (109 in 11592) [TCCGTGGA]

K=4 chi2=784 (26 in 11592) achi2=785 (35 in 11592) [TCCGCGGA]

K=4 chi2=632 (50 in 11592) achi2=689 (52 in 11592) [TCCGTGGA]

K=5 chi2=072 (1370 in 11601) achi2=127 (778 in 11601) [TCCGCGGA]

K=5 chi2=100 (878 in 11601) achi2=146 (618 in 11601) [TCCGTGGA]

K=6 chi2=000 (7969 in 11601) achi2=001 (5475 in 11601) [TCCGCGGA]

K=6 chi2=001 (4626 in 11601) achi2=004 (4674 in 11601) [TCCGTGGA]

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=285 (128 in 1319) achi2=287 (133 in 1319) [TCCGTGGA]

K=2 chi2=294 (89 in 1319) achi2=289 (95 in 1319) [TCCGTGGA]

K=3 chi2=283 (10 in 1319) achi2=278 (15 in 1319) [TCCGTGGA]

K=4 chi2=240 (7 in 1319) achi2=255 (6 in 1319) [TCCGTGGA]

K=5 chi2=122 (16 in 1319) achi2=206 (5 in 1319) [TCCGTGGA]

K=6 chi2=015 (42 in 1319) achi2=084 (269 in 1319) [TCCGTGGA]

Error = 1

Quorum = 60

K=1 chi2=336 (1859 in 35494) achi2=391 (1312 in 35494) [TCCGAGGA]

K=1 chi2=612 (489 in 35494) achi2=660 (442 in 35494) [TCCGCGGA]

K=1 chi2=368 (1518 in 35494) achi2=402 (1240 in 35494) [TCCGTGGA]

K=2 chi2=363 (946 in 35494) achi2=379 (816 in 35494) [TCCGAGGA]

K=2 chi2=636 (218 in 35494) achi2=640 (206 in 35494) [TCCGCGGA]

K=2 chi2=416 (670 in 35494) achi2=428 (599 in 35494) [TCCGTGGA]

K=3 chi2=301 (498 in 35494) achi2=304 (471 in 35494) [TCCGAGGA]

K=3 chi2=515 (41 in 35494) achi2=480 (63 in 35494) [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 78

K=3 chi2=341 (278 in 35494) achi2=329 (327 in 35494) [TCCGTGGA]

K=4 chi2=285 (274 in 35494) achi2=295 (205 in 35494) [TCCGAGGA]

K=4 chi2=300 (198 in 35494) achi2=337 (85 in 35494) [TCCGCGGA]

K=4 chi2=217 (1082 in 35494) achi2=219 (1060 in 35494) [TCCGTGGA]

K=5 chi2=075 (6352 in 35725) achi2=087 (6044 in 35725) [TCCGAGGA]

K=5 chi2=079 (5926 in 35725) achi2=153 (2215 in 35725) [TCCGCGGA]

K=5 chi2=081 (5763 in 35725) achi2=080 (6754 in 35725) [TCCGTGGA]

K=6 chi2=003 (19985 in 35725) achi2=010 (17420 in 35725) [TCCGAGGA]

K=6 chi2=026 (6383 in 35725) achi2=053 (6615 in 35725) [TCCGCGGA]

K=6 chi2=011 (11922 in 35725) achi2=000 (30343 in 35725) [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 79

Anexo C Resultados do Caacutelculo da Significacircncia Estatiacutestica referente agrave Abundacircncia

pelo Meacutetodo Analiacutetico para Conjuntos de Dados de Saccharomyces cerevisiae

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados

A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos os resultados para os motivos procurados em relaccedilatildeo a cada valor dos paracircmetros

Descriccedilatildeo do formato dos resultados

K=ltk-mer conservadogt achi2 = ltchi2 analiacuteticogt (ltposiccedilatildeogt in ltnuacutemero de motivos extraiacutedosgt ltposiccedilatildeo entre motivos do mesmo tamanhogt [motivo]

Nota A posiccedilatildeo do motivo refere-se agrave ordem em que se encontra numa lista ordenada por ordem decrescente de chi2 analiacutetico dos motivos extraiacutedos

10_2_YRR1 Motivo TTCCGTGGAA TTCCGCGGAT TTCCGCGGAA Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=476 (745 in 8908) 13 [TTCCGCGGAA]

K=2 achi2=464 (509 in 8908) 12 [TTCCGCGGAA]

K=3 achi2=413 (230 in 8908) 11 [TTCCGCGGAA]

K=4 achi2=278 (205 in 8908) 10 [TTCCGCGGAA]

K=5 achi2=143 (287 in 8908) 12 [TTCCGCGGAA]

K=6 achi2=041 (1031 in 8908) 15 [TTCCGCGGAA]

K=7 achi2=000 (2230 in 8908) 16 [TTCCGCGGAA]

K=8 achi2=001 (4728 in 8908) 16 [TTCCGCGGAA]

K=9 achi2=001 (7926 in 8908) 16 [TTCCGCGGAA]

K=10 achi2=000 (8782 in 8908) 16 [TTCCGCGGAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 80

K=11 achi2=000 (8903 in 8908) 12 [TTCCGCGGAA]

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 achi2=387 (504 in 17722) 3 [ACCCTAAAGGT]

K=1 achi2=483 (265 in 17722) 2 [ACCTTAAAGGT]

K=2 achi2=389 (248 in 17722) 3 [ACCCTAAAGGT]

K=2 achi2=484 (119 in 17722) 2 [ACCTTAAAGGT]

K=3 achi2=391 (61 in 17722) 3 [ACCCTAAAGGT]

K=3 achi2=485 (14 in 17722) 2 [ACCTTAAAGGT]

K=4 achi2=387 (31 in 17722) 4 [ACCCTAAAGGT]

K=4 achi2=485 (4 in 17722) 2 [ACCTTAAAGGT]

K=5 achi2=343 (29 in 17722) 4 [ACCCTAAAGGT]

K=5 achi2=462 (3 in 17722) 2 [ACCTTAAAGGT]

K=6 achi2=282 (276 in 17722) 4 [ACCCTAAAGGT]

K=6 achi2=431 (259 in 17722) 2 [ACCTTAAAGGT]

K=7 achi2=063 (1455 in 17722) 4 [ACCCTAAAGGT]

K=7 achi2=197 (1286 in 17722) 3 [ACCTTAAAGGT]

K=8 achi2=004 (5422 in 17722) 3 [ACCCTAAAGGT]

K=8 achi2=005 (5392 in 17722) 1 [ACCTTAAAGGT]

K=9 achi2=000 (13376 in 17722) 3 [ACCCTAAAGGT]

K=9 achi2=005 (13364 in 17722) 1 [ACCTTAAAGGT]

K=10 achi2=000 (17186 in 17722) 3 [ACCCTAAAGGT]

K=10 achi2=000 (17184 in 17722) 1 [ACCTTAAAGGT]

K=11 achi2=000 (17688 in 17722) 3 [ACCCTAAAGGT]

K=11 achi2=000 (17686 in 17722) 1 [ACCTTAAAGGT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 81

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=523 (72 in 826) 21 [CCCCT]

K=2 achi2=297 (75 in 826) 23 [CCCCT]

K=3 achi2=152 (105 in 826) 55 [CCCCT]

K=4 achi2=007 (382 in 826) 310 [CCCCT]

K=5 achi2=000 (339 in 826) 245 [CCCCT]

K=6 achi2=000 (604 in 826) 255 [CCCCT]

Error = 1

Quorum = 60

K=1 achi2=462 (2153 in 21544) 223 [CCCCT]

K=2 achi2=070 (8620 in 21544) 476 [CCCCT]

K=3 achi2=000 (20723 in 21544) 986 [CCCCT]

K=4 achi2=083 (4322 in 21544) 81 [CCCCT]

K=5 achi2=000 (20635 in 21544) 618 [CCCCT]

K=6 achi2=000 (21264 in 21544) 744 [CCCCT]

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=314 (116 in 1316) 27 [CCCCT]

K=2 achi2=194 (178 in 1316) 39 [CCCCT]

K=3 achi2=140 (190 in 1316) 42 [CCCCT]

K=4 achi2=104 (150 in 1316) 19 [CCCCT]

K=5 achi2=000 (576 in 1316) 111 [CCCCT]

K=6 achi2=000 (1113 in 1316) 392 [CCCCT]

K=7 achi2=901 (324 in 1316) 94 [CCCCT]

K=8 achi2=901 (340 in 1316) 94 [CCCCT]

K=9 achi2=901 (341 in 1316) 94 [CCCCT]

K=10 achi2=901 (342 in 1316) 94 [CCCCT]

K=11 achi2=901 (343 in 1316) 94 [CCCCT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 82

Error = 1

Quorum = 60

K=1 achi2=082 (15627 in 35258) 568 [CCCCT]

K=2 achi2=000 (34292 in 35258) 986 [CCCCT]

K=3 achi2=011 (25832 in 35258) 671 [CCCCT]

K=4 achi2=044 (14486 in 35258) 144 [CCCCT]

K=5 achi2=000 (34387 in 35258) 626 [CCCCT]

K=6 achi2=000 (34560 in 35258) 326 [CCCCT]

5_1_Gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=079 (3260 in 6121) 599 [CATCC]

K=1 achi2=1158 (344 in 6121) 50 [CTTCC]

K=2 achi2=161 (1763 in 6121) 312 [CATCC]

K=2 achi2=470 (566 in 6121) 105 [CTTCC]

K=3 achi2=192 (906 in 6121) 128 [CATCC]

K=3 achi2=109 (1663 in 6121) 248 [CTTCC]

K=4 achi2=091 (1091 in 6121) 97 [CATCC]

K=4 achi2=001 (5126 in 6121) 870 [CTTCC]

K=5 achi2=000 (5152 in 6121) 372 [CATCC]

K=5 achi2=000 (5000 in 6121) 230 [CTTCC]

K=6 achi2=000 (5438 in 6121) 341 [CATCC]

K=6 achi2=000 (5149 in 6121) 52 [CTTCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 83

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 achi2=273 (2534 in 10819) 831 [GATAAG]

K=1 achi2=102 (4875 in 10819) 1698 [GATTAG]

K=2 achi2=493 (849 in 10819) 251 [GATAAG]

K=2 achi2=268 (1952 in 10819) 593 [GATTAG]

K=3 achi2=174 (2107 in 10819) 675 [GATAAG]

K=3 achi2=925 (81 in 10819) 12 [GATTAG]

K=4 achi2=009 (7567 in 10819) 2712 [GATAAG]

K=4 achi2=352 (328 in 10819) 59 [GATTAG]

K=5 achi2=003 (7728 in 10819) 3046 [GATAAG]

K=5 achi2=159 (773 in 10819) 110 [GATTAG]

K=6 achi2=000 (6602 in 10819) 761 [GATAAG]

K=6 achi2=000 (6760 in 10819) 917 [GATTAG]

K=7 achi2=000 (10606 in 10819) 3684 [GATAAG]

K=7 achi2=000 (8570 in 10819) 1648 [GATTAG]

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

Error = 1

Quorum = 60

K=1 achi2=555 (2348 in 20531) 456 [CACCCA]

K=1 achi2=102 (9117 in 20531) 2005 [CACCCG]

K=2 achi2=368 (2233 in 20531) 460 [CACCCA]

K=2 achi2=117 (6956 in 20531) 1498 [CACCCG]

K=3 achi2=223 (2249 in 20531) 392 [CACCCA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 84

K=3 achi2=023 (12243 in 20531) 2397 [CACCCG]

K=4 achi2=105 (3457 in 20531) 482 [CACCCA]

K=4 achi2=002 (17523 in 20531) 3457 [CACCCG]

K=5 achi2=006 (13001 in 20531) 2409 [CACCCA]

K=5 achi2=048 (5016 in 20531) 610 [CACCCG]

K=6 achi2=000 (17016 in 20531) 1751 [CACCCA]

K=6 achi2=000 (18636 in 20531) 3343 [CACCCG]

K=7 achi2=000 (17654 in 20531) 1218 [CACCCA]

K=7 achi2=000 (18327 in 20531) 1891 [CACCCG]

7_0_REB1 Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 achi2=586 (33 in 405) 5 [TTACCC]

K=2 achi2=635 (12 in 405) 1 [TTACCC]

K=3 achi2=679 (2 in 405) 1 [TTACCC]

K=4 achi2=402 (3 in 405) 2 [TTACCC]

K=5 achi2=020 (8 in 405) 7 [TTACCC]

K=6 achi2=000 (232 in 405) 8 [TTACCC]

K=7 achi2=000 (402 in 405) 8 [TTACCC]

Error = 1

Quorum = 80

K=1 achi2=169 (2742 in 10337) 933 [TTACCC]

K=2 achi2=267 (945 in 10337) 284 [TTACCC]

K=3 achi2=394 (170 in 10337) 25 [TTACCC]

K=4 achi2=109 (1091 in 10337) 246 [TTACCC]

K=5 achi2=003 (6765 in 10337) 2619 [TTACCC]

K=6 achi2=000 (6295 in 10337) 852 [TTACCC]

K=7 achi2=000 (9863 in 10337) 3333 [TTACCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 85

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=615 (64 in 785) 12 [TGCCAAG]

K=2 achi2=585 (14 in 785) 3 [TGCCAAG]

K=3 achi2=575 (6 in 785) 2 [TGCCAAG]

K=4 achi2=377 (6 in 785) 2 [TGCCAAG]

K=5 achi2=157 (10 in 785) 5 [TGCCAAG]

K=6 achi2=055 (255 in 785) 4 [TGCCAAG]

K=7 achi2=000 (652 in 785) 18 [TGCCAAG]

K=8 achi2=000 (771 in 785) 15 [TGCCAAG]

Error = 1

Quorum = 60

K=1 achi2=458 (2166 in 20257) 407 [TGCCAAG]

K=2 achi2=287 (1959 in 20257) 462 [TGCCAAG]

K=3 achi2=270 (1060 in 20257) 241 [TGCCAAG]

K=4 achi2=030 (9306 in 20257) 3695 [TGCCAAG]

K=5 achi2=004 (13915 in 20257) 6353 [TGCCAAG]

K=6 achi2=029 (4512 in 20257) 1713 [TGCCAAG]

K=7 achi2=003 (5275 in 20257) 36 [TGCCAAG]

K=8 achi2=000 (12401 in 20257) 1099 [TGCCAAG]

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

K=1 achi2=996 (6 in 267) 1 [TGAAACA]

K=2 achi2=905 (1 in 267) 1 [TGAAACA]

K=3 achi2=884 (1 in 267) 1 [TGAAACA]

K=4 achi2=731 (1 in 267) 1 [TGAAACA]

K=5 achi2=320 (1 in 267) 1 [TGAAACA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 86

K=6 achi2=052 (168 in 267) 2 [TGAAACA]

K=7 achi2=000 (254 in 267) 1 [TGAAACA]

K=8 achi2=000 (266 in 267) 2 [TGAAACA]

Error = 1

Quorum = 100

K=1 achi2=400 (675 in 7705) 162 [TGAAACA]

K=2 achi2=157 (1246 in 7705) 402 [TGAAACA]

K=3 achi2=128 (992 in 7705) 375 [TGAAACA]

K=4 achi2=026 (3100 in 7705) 1267 [TGAAACA]

K=5 achi2=021 (2435 in 7705) 1154 [TGAAACA]

K=6 achi2=006 (2114 in 7705) 1435 [TGAAACA]

K=7 achi2=000 (2095 in 7705) 260 [TGAAACA]

K=8 achi2=000 (6802 in 7705) 1861 [TGAAACA]

7_1_SWI4 Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=950 (59 in 8974) 15 [CACGAAA]

K=1 achi2=1516 (9 in 8974) 2 [CGCGAAA]

K=2 achi2=638 (22 in 8974) 7 [CACGAAA]

K=2 achi2=924 (3 in 8974) 1 [CGCGAAA]

K=3 achi2=436 (53 in 8974) 25 [CACGAAA]

K=3 achi2=502 (25 in 8974) 10 [CGCGAAA]

K=4 achi2=106 (1095 in 8974) 476 [CACGAAA]

K=4 achi2=390 (27 in 8974) 9 [CGCGAAA]

K=5 achi2=000 (7343 in 8974) 3297 [CACGAAA]

K=5 achi2=121 (397 in 8974) 176 [CGCGAAA]

K=6 achi2=001 (3810 in 8974) 2702 [CACGAAA]

K=6 achi2=044 (873 in 8974) 314 [CGCGAAA]

K=7 achi2=000 (2384 in 8974) 205 [CACGAAA]

K=7 achi2=000 (2371 in 8974) 194 [CGCGAAA]

K=8 achi2=000 (8531 in 8974) 3025 [CACGAAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 87

K=8 achi2=000 (5630 in 8974) 124 [CGCGAAA]

7_2_RGT1

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=2140 (236 in 6085) 74 [CGGAAAA]

K=1 achi2=803 (815 in 6085) 253 [CGGAAGA]

K=1 achi2=1409 (416 in 6085) 129 [CGGAGAA]

K=1 achi2=350 (1782 in 6085) 511 [CGGATAA]

K=2 achi2=840 (245 in 6085) 67 [CGGAAAA]

K=2 achi2=442 (666 in 6085) 169 [CGGAAGA]

K=2 achi2=937 (208 in 6085) 55 [CGGAGAA]

K=2 achi2=428 (695 in 6085) 175 [CGGATAA]

K=3 achi2=272 (385 in 6085) 126 [CGGAAAA]

K=3 achi2=225 (546 in 6085) 173 [CGGAAGA]

K=3 achi2=544 (89 in 6085) 28 [CGGAGAA]

K=3 achi2=309 (299 in 6085) 100 [CGGATAA]

K=4 achi2=022 (2503 in 6085) 821 [CGGAAAA]

K=4 achi2=040 (1722 in 6085) 598 [CGGAAGA]

K=4 achi2=304 (56 in 6085) 23 [CGGAGAA]

K=4 achi2=202 (188 in 6085) 81 [CGGATAA]

K=5 achi2=003 (3495 in 6085) 1206 [CGGAAAA]

K=5 achi2=019 (1882 in 6085) 749 [CGGAAGA]

K=5 achi2=238 (34 in 6085) 12 [CGGAGAA]

K=5 achi2=138 (154 in 6085) 74 [CGGATAA]

K=6 achi2=009 (1192 in 6085) 744 [CGGAAAA]

K=6 achi2=031 (682 in 6085) 300 [CGGAAGA]

K=6 achi2=057 (459 in 6085) 122 [CGGAGAA]

K=6 achi2=042 (550 in 6085) 191 [CGGATAA]

K=7 achi2=000 (1608 in 6085) 53 [CGGAAAA]

K=7 achi2=000 (2439 in 6085) 861 [CGGAAGA]

K=7 achi2=000 (2150 in 6085) 572 [CGGAGAA]

K=7 achi2=000 (2472 in 6085) 894 [CGGATAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 88

K=8 achi2=000 (6056 in 6085) 1512 [CGGAAAA]

K=8 achi2=000 (5728 in 6085) 1184 [CGGAAGA]

K=8 achi2=000 (5127 in 6085) 583 [CGGAGAA]

K=8 achi2=000 (5961 in 6085) 1417 [CGGATAA]

8_1_PDR1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 75

K=1 achi2=884 (27 in 639) 1 [TCCGCGGA]

K=2 achi2=883 (14 in 639) 1 [TCCGCGGA]

K=3 achi2=864 (5 in 639) 1 [TCCGCGGA]

K=4 achi2=741 (2 in 639) 1 [TCCGCGGA]

K=5 achi2=306 (1 in 639) 1 [TCCGCGGA]

K=6 achi2=030 (253 in 639) 1 [TCCGCGGA]

K=7 achi2=012 (587 in 639) 1 [TCCGCGGA]

K=8 achi2=000 (633 in 639) 1 [TCCGCGGA]

K=9 achi2=000 (639 in 639) 1 [TCCGCGGA]

Error = 1

Quorum = 75

K=1 achi2=1370 (211 in 16695) 48 [TCCGCGGA]

K=1 achi2=895 (419 in 16695) 111 [TCCGTGGA]

K=2 achi2=1355 (91 in 16695) 26 [TCCGCGGA]

K=2 achi2=944 (230 in 16695) 59 [TCCGTGGA]

K=3 achi2=1138 (22 in 16695) 13 [TCCGCGGA]

K=3 achi2=771 (119 in 16695) 39 [TCCGTGGA]

K=4 achi2=688 (33 in 16695) 9 [TCCGCGGA]

K=4 achi2=610 (56 in 16695) 18 [TCCGTGGA]

K=5 achi2=113 (1171 in 16695) 496 [TCCGCGGA]

K=5 achi2=207 (324 in 16695) 135 [TCCGTGGA]

K=6 achi2=000 (10537 in 16695) 2237 [TCCGCGGA]

K=6 achi2=003 (8322 in 16695) 1955 [TCCGTGGA]

K=7 achi2=000 (4060 in 16695) 2312 [TCCGCGGA]

K=7 achi2=000 (4066 in 16695) 2318 [TCCGTGGA]

K=8 achi2=000 (5835 in 16695) 174 [TCCGCGGA]

K=8 achi2=000 (6050 in 16695) 389 [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 89

K=9 achi2=000 (15679 in 16695) 1375 [TCCGCGGA]

K=9 achi2=000 (14892 in 16695) 588 [TCCGTGGA]

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 achi2=985 (24 in 423) 1 [TCCGCGGA]

K=2 achi2=985 (13 in 423) 1 [TCCGCGGA]

K=3 achi2=967 (4 in 423) 1 [TCCGCGGA]

K=4 achi2=802 (1 in 423) 1 [TCCGCGGA]

K=5 achi2=303 (1 in 423) 1 [TCCGCGGA]

K=6 achi2=027 (229 in 423) 1 [TCCGCGGA]

K=7 achi2=013 (401 in 423) 1 [TCCGCGGA]

K=8 achi2=000 (420 in 423) 1 [TCCGCGGA]

K=9 achi2=000 (423 in 423) 1 [TCCGCGGA]

Error = 1

Quorum = 80

K=1 achi2=1592 (187 in 11592) 35 [TCCGCGGA]

K=1 achi2=1109 (353 in 11592) 83 [TCCGTGGA]

K=2 achi2=1584 (97 in 11592) 25 [TCCGCGGA]

K=2 achi2=1142 (197 in 11592) 44 [TCCGTGGA]

K=3 achi2=1364 (24 in 11592) 9 [TCCGCGGA]

K=3 achi2=894 (109 in 11592) 35 [TCCGTGGA]

K=4 achi2=785 (35 in 11592) 11 [TCCGCGGA]

K=4 achi2=689 (52 in 11592) 16 [TCCGTGGA]

K=5 achi2=127 (769 in 11592) 243 [TCCGCGGA]

K=5 achi2=146 (609 in 11592) 204 [TCCGTGGA]

K=6 achi2=001 (5466 in 11592) 879 [TCCGCGGA]

K=6 achi2=004 (4665 in 11592) 789 [TCCGTGGA]

K=7 achi2=000 (2570 in 11592) 968 [TCCGCGGA]

K=7 achi2=000 (2517 in 11592) 941 [TCCGTGGA]

K=8 achi2=000 (5547 in 11592) 157 [TCCGCGGA]

K=8 achi2=000 (5666 in 11592) 276 [TCCGTGGA]

K=9 achi2=000 (10744 in 11592) 135 [TCCGCGGA]

K=9 achi2=000 (11041 in 11592) 432 [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 90

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=287 (133 in 1319) 8 [TCCGTGGA]

K=2 achi2=289 (95 in 1319) 5 [TCCGTGGA]

K=3 achi2=278 (15 in 1319) 2 [TCCGTGGA]

K=4 achi2=255 (6 in 1319) 1 [TCCGTGGA]

K=5 achi2=206 (5 in 1319) 2 [TCCGTGGA]

K=6 achi2=084 (269 in 1319) 7 [TCCGTGGA]

K=7 achi2=000 (897 in 1319) 17 [TCCGTGGA]

K=8 achi2=000 (1232 in 1319) 8 [TCCGTGGA]

K=9 achi2=000 (1303 in 1319) 1 [TCCGTGGA]

Error = 1

Quorum = 60

K=1 achi2=391 (1312 in 35494) 312 [TCCGAGGA]

K=1 achi2=660 (442 in 35494) 89 [TCCGCGGA]

K=1 achi2=402 (1240 in 35494) 301 [TCCGTGGA]

K=2 achi2=379 (816 in 35494) 174 [TCCGAGGA]

K=2 achi2=640 (206 in 35494) 48 [TCCGCGGA]

K=2 achi2=428 (599 in 35494) 123 [TCCGTGGA]

K=3 achi2=304 (471 in 35494) 120 [TCCGAGGA]

K=3 achi2=480 (63 in 35494) 10 [TCCGCGGA]

K=3 achi2=329 (327 in 35494) 87 [TCCGTGGA]

K=4 achi2=295 (205 in 35494) 61 [TCCGAGGA]

K=4 achi2=337 (85 in 35494) 28 [TCCGCGGA]

K=4 achi2=219 (1060 in 35494) 257 [TCCGTGGA]

K=5 achi2=087 (5828 in 35494) 2082 [TCCGAGGA]

K=5 achi2=153 (2062 in 35494) 521 [TCCGCGGA]

K=5 achi2=080 (6534 in 35494) 2399 [TCCGTGGA]

K=6 achi2=010 (17189 in 35494) 7240 [TCCGAGGA]

K=6 achi2=053 (6392 in 35494) 2378 [TCCGCGGA]

K=6 achi2=000 (30112 in 35494) 12027 [TCCGTGGA]

K=7 achi2=006 (9736 in 35494) 4698 [TCCGAGGA]

K=7 achi2=006 (10113 in 35494) 5025 [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 91

K=7 achi2=000 (17876 in 35494) 11124 [TCCGTGGA]

K=8 achi2=000 (12067 in 35494) 1424 [TCCGAGGA]

K=8 achi2=000 (11172 in 35494) 529 [TCCGCGGA]

K=8 achi2=000 (11688 in 35494) 1045 [TCCGTGGA]

K=9 achi2=000 (31497 in 35494) 8200 [TCCGAGGA]

K=9 achi2=000 (25674 in 35494) 2377 [TCCGCGGA]

K=9 achi2=000 (29818 in 35494) 6521 [TCCGTGGA]

Page 8: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes viii

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes ix

Agradecimentos

Gostariacuteamos de agradecer agrave nossa orientadora Professora Ana Teresa Freitas pela forma

como sempre orientou o nosso trabalho pela inestimaacutevel disponibilidade pelo interesse

demonstrado e pela iacutempar capacidade de motivaccedilatildeo

Agradecemos tambeacutem ao nosso co-orientador Professor Arlindo Oliveira pela sua

disponibilidade e opiniatildeo criacutetica que sempre contribuiu para o enriquecimento do nosso

trabalho

Agrave Susana Vinga pelo importante contributo na anaacutelise estatiacutestica e pela sua diligente

disponibilidade

Agrave Joana Fradinho Luiacutes Figueiredo e Petra Jelinkova pela disponibilizaccedilatildeo de conjuntos de

dados essenciais para a prossecuccedilatildeo deste trabalho

Agrave Alexandra Carvalho por ter tido a disponibilidade de ler a primeira versatildeo deste relatoacuterio e

contribuiacutedo com pertinentes sugestotildees

Aos nossos colegas da sala 138 pela camaradagem e companhia nas longas horas passadas no

INESC

Aos colegas da sala 128 pela motivaccedilatildeo e constante disponibilidade

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes x

Resumo

A grande quantidade de dados disponiacuteveis na aacuterea da Biologia requer meacutetodos de extracccedilatildeo de

conhecimento poderosos sistemaacuteticos e eficientes Em particular a identificaccedilatildeo de

sequecircncias de nucleoacutetidos designadas de consensos onde se ligam factores de transcriccedilatildeo

responsaacuteveis em parte pelo mecanismo de regulaccedilatildeo geacutenica eacute essencial para uma

compreensatildeo do papel de cada gene

Actualmente existem vaacuterios algoritmos cujo objectivo eacute encontrar sequecircncias candidatas a

sequecircncias de consenso Estes algoritmos podem ser divididos em duas classes meacutetodos

restritivos e meacutetodos proliacuteficos Os meacutetodos restritivos obtecircm poucas respostas com elevada

precisatildeo enquanto que os meacutetodos proliacuteficos obtecircm muitas respostas com baixa precisatildeo

exigindo um esforccedilo de poacutes-processamento

Neste trabalho utilizamos o SMILE [1] que eacute um meacutetodo proliacutefico para a extracccedilatildeo de

sequecircncias de consenso na regiatildeo promotora dos genes Face ao nuacutemero significativo das

respostas obtidas pretende-se com este trabalho avaliar possiacuteveis soluccedilotildees de poacutes-

processamento de modo a garantir a utilidade da informaccedilatildeo extraiacuteda para os utilizadores do

algoritmo Assim definiram-se dois grandes objectivos

A avaliaccedilatildeo de meacutetodos estatiacutesticos que permitam aferir a significacircncia bioloacutegica das

respostas obtidas

A obtenccedilatildeo de uma descriccedilatildeo compacta da informaccedilatildeo extraiacuteda

Palavras-chave Gene regulaccedilatildeo geacutenica regiatildeo promotora sequecircncias degeneradas IUPAC

avaliaccedilatildeo estatiacutestica de biosequecircncias SMILE extracccedilatildeo de motivos

Relatoacuterio Intercalar de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 1

1 Introduccedilatildeo

A crescente disponibilidade de dados sobre o genoma de vaacuterios organismos tem possibilitado

o aparecimento de novos projectos na aacuterea da biologia No entanto a quantidade massiva de

dados disponiacuteveis torna impossiacutevel uma anaacutelise manual da informaccedilatildeo sendo cada vez mais

premente a necessidade de um processamento automaacutetico dos dados obtidos

Neste contexto a identificaccedilatildeo e modelaccedilatildeo da regiatildeo promotora dos genes assume um papel

fundamental pois as condiccedilotildees de activaccedilatildeo e transcriccedilatildeo de um gene dependem das

sequecircncias de nucleoacutetidos aiacute presentes

As sequecircncias de nucleoacutetidos da regiatildeo promotora que determinam a transcriccedilatildeo do gene satildeo

denominadas de promotores e satildeo representadas por sequecircncias de consenso ou

simplesmente consensos A literatura refere vaacuterias formas de descriccedilatildeo destes consensos

desde a utilizaccedilatildeo de uma matriz de pesos a uma sequecircncia de bases mais frequentes Neste

trabalho utilizamos uma codificaccedilatildeo IUPAC destas sequecircncias que corresponde a um

conjunto de sequecircncias degeneradas em que cada siacutembolo representa um conjunto de

nucleoacutetidos possiacuteveis para uma dada posiccedilatildeo

Actualmente existem vaacuterios algoritmos cujo objectivo eacute encontrar sequecircncias candidatas a

sequecircncias de consenso nas regiotildees promotoras As sequecircncias que satildeo reportadas como

possiacuteveis consensos satildeo designadas de motivos Os algoritmos de pesquisa de motivos podem

ser agrupados de uma forma geral em dois tipos algoritmos restritivos e algoritmos

proliacuteficos

Os algoritmos restritivos concentram-se em encontrar poucos motivos mas de relevacircncia

assinalaacutevel enquanto que os algoritmos proliacuteficos preocupam-se em determinar todos os

motivos que possam ser encontrados de acordo com determinados paracircmetros de pesquisa

Os algoritmos designados de proliacuteficos tecircm a vantagem de natildeo fazerem suposiccedilotildees a priori

No entanto a grande quantidade de motivos encontrados requer um esforccedilo de poacutes-

processamento significativo

Este trabalho tem por objectivo o desenvolvimento de uma metodologia que permita o

processamento automaacutetico dos motivos encontrados por um algoritmo que pode ser

classificado de proliacutefico o algoritmo SMILE [1]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 2

No Capiacutetulo 2 apresentamos uma descriccedilatildeo do problema em anaacutelise evidenciando a

motivaccedilatildeo bioloacutegica e fazendo o seu enquadramento com os objectivos do trabalho

No Capiacutetulo 3 descrevemos o algoritmo SMILE no contexto do problema da extracccedilatildeo de

motivos e apresentamos um gerador de dados sinteacuteticos que seraacute usado como ponto de partida

do estudo da eficaacutecia do algoritmo

No Capiacutetulo 4 discutimos a utilizaccedilatildeo de meacutetodos estatiacutesticos para aferir a significacircncia

bioloacutegica dos motivos extraiacutedos pelo SMILE

No Capiacutetulo 5 apresentamos um meacutetodo para geraccedilatildeo de uma representaccedilatildeo compacta de

motivos extraiacutedos usando a codificaccedilatildeo IUPAC

Finalmente no Capiacutetulo 6 apresentamos vaacuterios resultados obtidos tanto com dados sinteacuteticos

como com dados reais discutindo a aplicabilidade dos meacutetodos estatiacutesticos apresentados no

Capiacutetulo 4

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 3

2 Descriccedilatildeo do Problema

A moleacutecula de DNA eacute responsaacutevel pela manutenccedilatildeo da informaccedilatildeo geneacutetica de cada indiviacuteduo

e eacute constituiacuteda por duas cadeias de nucleoacutetidos dispostas de modo a formar uma dupla

heacutelice [2] que se encontra representada na Figura 21 Cada nucleoacutetido eacute formado por trecircs

elementos um accediluacutecar um grupo fosfato e uma de quatro bases azotadas As quatro bases satildeo

a Adenina (A) a Timina (T) a Guanina (G) e a Citosina (C) e podem ser vistas como os

quatro elementos de um alfabeto

Figura 21

Representaccedilatildeo de cadeias de DNA em forma de dupla heacutelice

As duas cadeias de DNA satildeo complementares no sentido em que as bases das duas cadeias

estatildeo emparelhadas Assim uma Adenina de uma cadeia emparelha com uma Timina da

cadeia complementar e do mesmo modo uma Citosina emparelha com uma Guanina

Os genes satildeo segmentos de uma cadeia de DNA que controlam a siacutentese proteica e

consequentemente toda a actividade celular O genoma eacute o conjunto de genes de um

indiviacuteduo

A expressatildeo geacutenica eacute o processo atraveacutes do qual a informaccedilatildeo contida nos genes dirige a

siacutentese de proteiacutenas Este processo envolve dois passos transcriccedilatildeo e traduccedilatildeo

A transcriccedilatildeo consiste na transferecircncia da informaccedilatildeo contida no DNA para uma moleacutecula

intermediaacuteria de RNA designada de RNA-mensageiro ou mRNA De seguida o molde de

mRNA eacute usado no passo de traduccedilatildeo onde iraacute dirigir a siacutentese proteica

Este processo eacute semelhante em todos os organismos vivos embora existam diferenccedilas

assinalaacuteveis entre organismos eucariotas e procariotas isto eacute entre organismos com e sem

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 4

nuacutecleo individualizado respectivamente Em particular o mecanismo eacute consideravelmente

mais complexo em organismos eucariotas A Figura 22 ilustra o processo de expressatildeo geacutenica

em eucariotas (Figura 22-A) e procariotas (Figura 22-B)

Figura 22 Expressatildeo geacutenica em eucariotas (A) e procariotas (B)

Actualmente o problema da identificaccedilatildeo e modelaccedilatildeo dos mecanismos que regulam a

interacccedilatildeo entre grupos de genes eacute um dos problemas mais em foco na investigaccedilatildeo em

biologia computacional Como jaacute foi referido a regiatildeo promotora eacute parte essencial do

mecanismo de regulaccedilatildeo da transcriccedilatildeo geacutenica

A biologia oferece-nos alguns modelos da regiatildeo promotora evidenciando as diferenccedilas entre

organismos procariotas (Figura 23) e eucariotas (Figura 24)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 5

Figura 23 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em procariotas

Figura 24 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em eucariotas

No mecanismo de transcriccedilatildeo geacutenica interveacutem uma enzima denominada RNA-polimerase

Esta enzima tem como funccedilatildeo a transcriccedilatildeo da informaccedilatildeo contida no DNA para uma cadeia

de RNA que iraacute posteriormente intervir no processo de siacutentese proteica

Para que a RNA-polimerase inicie a transcriccedilatildeo de uma cadeia de DNA geralmente um gene

eacute necessaacuterio que se cumpram algumas condiccedilotildees Assim entre outras eacute necessaacuterio que

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 6

estejam presentes na regiatildeo promotora motivos que a RNA-polimerase reconheccedila e aos quais

se possa ligar para iniciar a transcriccedilatildeo da regiatildeo a jusante (na literatura inglesa estas regiotildees

satildeo denominadas de binding sites) As condiccedilotildees de activaccedilatildeo desta enzima satildeo mais

complexas nos organismos eucariotas [3] uma vez que neste caso para aleacutem dos motivos

referidos existem ainda vaacuterios outros que satildeo reconhecidos por factores de transcriccedilatildeo isto eacute

proteiacutenas que se ligam sucessivamente agrave RNA-polimerase estabelecendo um complexo

mecanismo de regulaccedilatildeo Estes motivos podem estar a montante a jusante ou mesmo no

interior do gene a ser transcrito e podem ainda exercer um efeito estimulador ou repressor da

transcriccedilatildeo Os locais onde existem motivos aos quais se ligam os diversos factores de

transcriccedilatildeo satildeo designados genericamente por regiotildees reguladoras

Eacute possiacutevel compreender agora a importacircncia da necessidade de ser definido um modelo ou

modelos para a regiatildeo promotora no acircmbito do estudo do genoma

Neste trabalho utilizamos o algoritmo SMILE para procurar motivos interessantes isto eacute

biologicamente significativos em cadeias de DNA pertencentes agrave regiatildeo promotora dos genes

Como jaacute foi referido trata-se de um algoritmo proliacutefico no sentido em que se preocupa em

encontrar todas as sequecircncias que cumpram os paracircmetros especificados Sendo assim torna-

se necessaacuterio um esforccedilo significativo de poacutes-processamento para que possa ser obtida

informaccedilatildeo uacutetil a partir dos dados gerados

O poacutes-processamento dos motivos extraiacutedos inclui uma anaacutelise estatiacutestica que culmina com a

atribuiccedilatildeo de um niacutevel de significacircncia a cada motivo Deste modo eacute possiacutevel definir um

crivo que separa motivos considerados relevantes de motivos agrave partida menos interessantes

Finalmente e depois de ter sido encontrado um conjunto de motivos relevantes seraacute efectuada

uma traduccedilatildeo para uma representaccedilatildeo IUPAC Esta representaccedilatildeo permite compactar os

dados agrupando motivos muito semelhantes Este passo eacute de importacircncia essencial para uma

utilizaccedilatildeo eficiente dos dados obtidos uma vez que uma representaccedilatildeo compacta facilita a sua

utilizaccedilatildeo em pesquisas em bases de dados bioloacutegicas que contecircm informaccedilatildeo sobre

consensos anteriormente identificados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 7

3 Extracccedilatildeo de motivos

31 Algoritmo SMILE

O SMILE eacute um meacutetodo algoriacutetmico de extracccedilatildeo de motivos de sequecircncias bioloacutegicas O

algoritmo comeccedila por processar um conjunto de dados de entrada composto por vaacuterias

sequecircncias natildeo alinhadas de nucleoacutetidos que se sabe conterem um ou mais binding sites Estes

dados satildeo utilizados para calcular ocorrecircncias de motivos usando como estrutura de dados

base uma aacutervore de sufixos

Um modelo eacute uma representaccedilatildeo de subsequecircncias que ocorrem nos dados de entrada

satisfazendo potencialmente certas propriedades

O algoritmo iraacute assim pesquisar modelos (simples ou estruturados) nos dados que lhe satildeo

fornecidos segundo alguns paracircmetros

Um modelo simples diz respeito a uma subsequecircncia contiacutegua de nucleoacutetidos enquanto que

um modelo estruturado eacute uma composiccedilatildeo de modelos simples

Um modelo estruturado pode ser constituiacutedo por vaacuterias partes posicionadas ao longo da

sequecircncia Cada parte eacute um modelo simples que pode ter um tamanho variaacutevel (entre kmin e

kmax) O espaccedilo entre cada parte consecutiva pode tambeacutem ser parametrizado (dmin e dmax)

Do mesmo modo tambeacutem eacute possiacutevel parametrizar o nuacutemero de erros que se permite ocorrer

no modelo e em cada uma das suas partes

A Figura 31 apresenta um exemplo de uma especificaccedilatildeo de um modelo estruturado em que

se consideram duas partes A primeira parte pode ter um tamanho entre 6 e 8 nucleoacutetidos e satildeo

admitidos 2 erros A segunda parte pode ocorrer entre 16 e 18 nucleoacutetidos apoacutes a primeira

parte e teraacute um tamanho igualmente entre 6 e 8 embora seja admitido apenas 1 erro

A Figura 32 apresenta o esquema de outro modelo estruturado e respectiva concretizaccedilatildeo

numa sequecircncia Neste exemplo consideram-se igualmente duas partes A primeira com

tamanho entre 6 e 10 nucleoacutetidos e a segunda entre 6 e 8 As partes podem estar a uma

distacircncia que varia entre 10 e 15 nucleoacutetidos e natildeo satildeo admitidos erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 8

Figura 31 Exemplo de uma especificaccedilatildeo de um modelo estruturado

Figura 32 (a) Exemplo de especificaccedilatildeo (b) Modelo retirado de uma sequecircncia

que cumpre a especificaccedilatildeo

Um modelo eacute considerado vaacutelido caso o nuacutemero de sequecircncias de entrada em que ocorre seja

natildeo inferior a um miacutenimo estabelecido designado por quoacuterum Os modelos vaacutelidos satildeo

designados de motivos

Para verificar o nuacutemero de ocorrecircncias eacute utilizada uma aacutervore de sufixos Uma aacutervore de

sufixos eacute uma estrutura de dados que representa todos os sufixos de uma cadeia de caracteres

As suas caracteriacutesticas satildeo de grande utilidade para os algoritmos de emparelhamento de

caracteres

6-10 6-8

10-15

(a)

ATTATTA_CTATCT

ATTATTAGTACTCATACCTATCT

(b)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 9

O SMILE processa conjuntos de dados isto eacute conjuntos de sequecircncias de nucleoacutetidos

utilizando para esse efeito uma aacutervores de sufixos generalizada Esta estrutura de dados

difere da aacutervore de sufixos simples no sentido em que agrupa vaacuterias cadeias de caracteres

correspondentes agraves vaacuterias sequecircncias de nucleoacutetidos Esta multiplicidade de sequecircncias exige

que a estrutura registe as sequecircncias a que cada sufixo pertence As aacutervores de sufixos fazem

uso de um siacutembolo terminador ($) para assinalar o fim de cada sufixo

A Figura 33 eacute um exemplo de uma aacutervore de sufixos generalizada

Figura 33 - Aacutervore de sufixos generalizada para as sequecircncias

TACTA$ (sequecircncia 1) e CACTCA$ (sequecircncia 2)

A extracccedilatildeo de motivos eacute feita atraveacutes da travessia em profundidade-primeiro de uma aacutervore

lexicograacutefica virtual de modo a garantir que se explora o espaccedilo de todos os modelos

possiacuteveis Esta travessia da aacutervore lexicograacutefica eacute acompanhada da exploraccedilatildeo da aacutervore de

sufixos generalizada de forma a obter todos os sufixos a distacircncia de Hamming natildeo superior a

e1 do modelo em consideraccedilatildeo Assim para cada noacute da aacutervore virtual eacute verificado o quoacuterum

do modelo correspondente contabilizando para tanto o nuacutemero de sequecircncias diferentes que

participam com sufixos a distacircncia de Hamming natildeo superior a e do modelo

1 O valor desta distacircncia depende do nuacutemero de erros admitidos na extracccedilatildeo de motivos e corresponde a um dos

paracircmetros do algoritmo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 10

A extracccedilatildeo de motivos estruturados eacute feita de forma semelhante correspondendo a muacuteltiplas

procuras de modelos simples que constituem cada parte do modelo estruturado A transiccedilatildeo

entre partes ilustrada pela Figura 34 corresponde a um salto na aacutervore de sufixos com tantos

niacuteveis de profundidade adicionais quanto a distacircncia especificada entre cada parte

Uma descriccedilatildeo pormenorizada do algoritmo encontra-se em [4] e [5]

Figura 34 Esquema da procura de motivos estruturados usando uma aacutervore de

sufixos

Este algoritmo exacto gera todos os possiacuteveis motivos dentro dos paracircmetros especificados

Daqui resulta geralmente um nuacutemero demasiado grande de motivos sendo necessaacuterio

discriminar quais os verdadeiros binding sites Como meacutetodo de avaliaccedilatildeo o SMILE utiliza

um teste estatiacutestico que eacute descrito na Secccedilatildeo 41

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 11

32 Gerador de dados sinteacuteticos

A anaacutelise da eficaacutecia e eficiecircncia do algoritmo de extracccedilatildeo de motivos exige a utilizaccedilatildeo de

dados sobre os quais tenhamos agrave partida algum conhecimento Para tal foi desenvolvido um

gerador de dados sinteacuteticos

O gerador de dados sinteacuteticos permite por um lado evitar a necessidade de dispor de

conjuntos de dados reais e por outro ter um maior controlo sobre os motivos que estatildeo

realmente presentes nos dados

O gerador permite especificar o nuacutemero e o tamanho das sequecircncias do conjunto de dados

bem como os motivos a inserir Os motivos satildeo especificados pela sua sequecircncia de

nucleoacutetidos posiccedilatildeo na sequecircncia e frequecircncia de ocorrecircncia Os motivos podem ser simples

ou estruturados A Figura 35 representa um exemplo de um ficheiro de especificaccedilatildeo

Frequecircncia

Posiccedilatildeo

Sequecircncia Posiccedilatildeo

Sequecircncia

02 09 TGCTTTTTAAT

28 TCGA

03 02 AGTACATCGA

02 12 TGCGCA

Figura 35 Exemplo de um ficheiro de especificaccedilatildeo para a geraccedilatildeo de dados

sinteacuteticos

No exemplo apresentado satildeo especificados trecircs motivos (um motivo estruturado e dois

motivos simples) A primeira coluna (Frequecircncia) indica a percentagem de sequecircncias em que

o motivo deveraacute ocorrer Em particular para esta especificaccedilatildeo o primeiro motivo deveraacute

ocorrer em 20 das sequecircncias As restantes colunas especificam a posiccedilatildeo e a sequecircncia de

nucleoacutetidos de cada parte do motivo O nuacutemero e o tamanho das sequecircncias a gerar satildeo

especificados na linha de comandos do gerador

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 12

O gerador verifica a especificaccedilatildeo de modo a testar se eacute possiacutevel gerar um conjunto de dados

com as caracteriacutesticas indicadas Em particular eacute necessaacuterio que no caso das frequecircncias

especificadas somarem mais do que 1 alguns dos motivos sejam sobreponiacuteveis uma vez que o

gerador garante o cumprimento exacto da frequecircncia de ocorrecircncia especificada para cada

motivo

O processo de geraccedilatildeo do conjunto de dados envolve duas fases Numa primeira fase eacute gerado

um conjunto de dados aleatoacuterios em que a ocorrecircncia de cada nucleoacutetido eacute equiprovaacutevel Para

gerar aleatoriamente nucleoacutetidos eacute usada uma variaccedilatildeo do algoritmo ran2 [6]

Numa segunda fase satildeo inseridos os motivos especificados em tantas sequecircncias quanto as

necessaacuterias para perfazer a frequecircncia indicada As sequecircncias seleccionadas para a inserccedilatildeo

de motivos satildeo igualmente escolhidas de forma aleatoacuteria

O recurso a dados sinteacuteticos permite afastar a possibilidade de motivos bem classificados

corresponderem a consensos ainda natildeo identificados por via experimental como pode

acontecer quando se analisam conjuntos de dados reais No entanto eacute necessaacuterio termos

presentes as limitaccedilotildees da actual abordagem Em particular sabemos que a geraccedilatildeo

equiprovaacutevel de nucleoacutetidos estaacute em desacordo com a estatiacutestica tiacutepica da regiatildeo promotora

onde satildeo mais comuns A s e T s do que G s e C s Do mesmo modo podem existir outras

correlaccedilotildees de ordem superior designadamente uma preferecircncia por certos diacutemeros ou

triacutemeros em detrimento de outros Esta limitaccedilatildeo eacute ilustrada pelo facto de os resultados

obtidos com dados sinteacuteticos serem geralmente melhores do que os obtidos com dados reais

As causas e consequecircncias desta observaccedilatildeo seratildeo discutidas nas secccedilotildees seguintes

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 13

4 Anaacutelise Estatiacutestica

41 Teste do 2

Como jaacute foi referido o SMILE em geral extrai um elevado nuacutemero de modelos Para isolar

motivos relevantes eacute usado um teste estatiacutestico de modo a atribuir uma significacircncia estatiacutestica

a cada modelo extraiacutedo

O meacutetodo de avaliaccedilatildeo utilizado consiste em aplicar o teste do 2 com um grau de liberdade

O objectivo eacute determinar a probabilidade de obtermos motivos observados em sequecircncias

aleatoacuterias que preservam os k-mers2 das sequecircncias originais Assim pretende-se perceber se

a ocorrecircncia do motivo se deve agrave frequecircncia de k-mers presentes na sequecircncia aleatoacuteria tendo

portanto uma baixa significacircncia estatiacutestica ou se eacute verificada a situaccedilatildeo oposta ou seja

elevada significacircncia estatiacutestica Estes uacuteltimos satildeo considerados pelo algoritmo como os que

apresentam maior potencial de serem verdadeiros binding sites Para tal o SMILE permite a

realizaccedilatildeo de dois tipos alternativos de teste um quanto ao nuacutemero de sequecircncias em que o

motivo ocorre (quoacuterum) e outro em relaccedilatildeo agrave abundacircncia do motivo no conjunto de dados

Para aplicar o teste do 2 procedemos agrave construccedilatildeo de uma tabela de contingecircncia com 4

entradas (Tabela 41)

Dados Originais Dados Aleatoacuterios

Presenccedila Porig Prandom

Ausecircncia Aorig Arandom

Tabela 41 Tabela de contingecircncia para o caacutelculo do 2

2 Sequecircncias de nucleoacutetidos de tamanho k

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 14

As colunas da tabela referem-se agraves duas amostras em anaacutelise ou seja o conjunto de dados

original e as sequecircncias aleatoacuterias geradas As linhas da tabela referem-se agraves duas classes de

contagens Caso consideremos o teste quanto ao quoacuterum a classe Presenccedila diz respeito ao

nuacutemero de sequecircncias em que o motivo ocorre e a classe Ausecircncia refere-se ao nuacutemero de

sequecircncias em que o motivo natildeo ocorre Caso se trate do teste relativo agrave abundacircncia a

primeira classe refere-se ao nuacutemero de ocorrecircncias do motivo no conjunto de dados e a

segunda ao nuacutemero de natildeo ocorrecircncias do motivo em relaccedilatildeo ao nuacutemero de oportunidades de

ocorrecircncia Considera-se como nuacutemero de oportunidades de ocorrecircncia o tamanho do

conjunto de dados Esta tabela seraacute usada agora para fazer um teste de homogeneidade de

proporccedilotildees

Para calcular a significacircncia estatiacutestica basta usar a expressatildeo do 2 correspondente agrave equaccedilatildeo

(41) onde ijO diz respeito ao valor observado para a entrada (ij) da tabela e ijE se refere ao

correspondente valor esperado

21

22 )(

ji ij

ijij

E

OE

(41)

O valor esperado para cada entrada da tabela eacute dado pela expressatildeo (42) ou seja o valor

esperado para a entrada (ij) da tabela eacute igual ao produto do total da linha i pelo total da linha

j divido pela soma de todos os elementos da tabela

21

2121

lkkl

kkj

kik

ij O

OO

E (42)

Nas condiccedilotildees desta tabela de contingecircncia eacute possiacutevel utilizar uma forma expedita de caacutelculo

que consiste na aplicaccedilatildeo da expressatildeo (43)

))()()((

)()( 22

origorigrandomrandomrandomorigrandomorig

randomorigrandomorigorigrandomrandomorig

APAPAAPP

AAPPAPAP

(43)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 15

A hipoacutetese nula que consideramos neste teste estatiacutestico refere-se agrave possibilidade de os

motivos terem sido gerados por sequecircncias aleatoacuterias sob certas restriccedilotildees Isto eacute assumimos

que as contagens obtidas para os motivos nas sequecircncias originais satildeo semelhantes agraves que

obteriacuteamos em sequecircncias aleatoacuterias com as mesmas frequecircncias de k-mers Valores altos de

significacircncia estatiacutestica implicam a rejeiccedilatildeo da hipoacutetese nula

Um importante problema prende-se com a validade da aplicaccedilatildeo do teste do 2 O SMILE em

particular apresenta para cada motivo uma medida da sua significacircncia estatiacutestica No

entanto o verdadeiro interesse reside na determinaccedilatildeo da significacircncia bioloacutegica dos motivos

encontrados O que estaacute em causa eacute perceber se um motivo eacute um potencial binding site Eacute

necessaacuterio testar este meacutetodo em dados reais com consensos conhecidos para se perceber se a

significacircncia estatiacutestica apresenta uma elevada correlaccedilatildeo com a significacircncia bioloacutegica

No Capiacutetulo 6 apresentamos uma discussatildeo acerca da adequaccedilatildeo do teste do 2 para a afericcedilatildeo

da significacircncia bioloacutegica dos motivos extraiacutedos pelo SMILE

42 Meacutetodo de Shuffling

Como jaacute foi referido para efectuar o caacutelculo da significacircncia estatiacutestica o SMILE recorre agrave

geraccedilatildeo de sequecircncias aleatoacuterias com certas restriccedilotildees baseadas na estatiacutestica dos dados

originais Para o efeito eacute usado um algoritmo de data shuffling [78]

O meacutetodo de shuffling permite obter um conjunto de dados aleatoacuterio com base num conjunto

de dados original garantindo a preservaccedilatildeo exacta das frequecircncias de k-mers para um dado k

O meacutetodo de geraccedilatildeo pode ser visto como um passeio aleatoacuterio sobre um multi-grafo onde os

noacutes satildeo todas as subsequecircncias de tamanho k-1 presentes na sequecircncia original e cada aresta

corresponde a uma transiccedilatildeo entre (k-1)-mers verificada nos dados No caso de k igual a 1 natildeo

eacute gerado um multi-grafo sendo feita apenas uma reordenaccedilatildeo aleatoacuteria dos nucleoacutetidos de

cada sequecircncia

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 16

A Figura 41 ilustra um exemplo de um multi-grafo gerado a partir da sequecircncia

ATTATTTATT bem como um caminho no grafo que gera a sequecircncia alternativa

TATTATTTAT

Figura 41 Multi-grafo gerado pela sequecircncia ATTATTTATT para k=4 com 2

passeios aleatoacuterios

Para que cada sequecircncia gerada seja vaacutelida eacute necessaacuterio que tenha o mesmo tamanho que a

sequecircncia original Sendo assim eacute faacutecil perceber que apenas os caminhos eulerianos garantem

a geraccedilatildeo de uma sequecircncia com estas caracteriacutesticas No SMILE este processo eacute repetido

para cada sequecircncia isoladamente

Para garantir a fiabilidade dos resultados obtidos eacute efectuado um nuacutemero elevado de

simulaccedilotildees donde satildeo extraiacutedos os valores meacutedios do quoacuterum ou da abundacircncia de cada

motivo a partir dos quais eacute calculada a significacircncia estatiacutestica no sentido do teste do 2

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 17

A Figura 42 mostra um histograma com os resultados obtidos em 100 simulaccedilotildees para um

motivo extraiacutedo do conjunto de dados da Helicobater pylori3 onde foram preservadas as

frequecircncias relativas de nucleoacutetidos (k=1) Este conjunto de dados eacute constituiacutedo por 308

sequecircncias com comprimentos que variam entre 40 e 300 nucleoacutetidos Foi efectuada uma

procura de motivos simples com tamanhos natildeo inferiores a 6 Foi admitido 1 erro e foi

exigido um quoacuterum de 6

O histograma indica a percentagem de simulaccedilotildees em que o motivo em consideraccedilatildeo ocorre

num determinado nuacutemero de sequecircncias Em particular no exemplo da Figura 42 o motivo

TTTTAA ocorre num nuacutemero de sequecircncias entre 282 e 284 em 13 das simulaccedilotildees

A seta a negro refere-se ao nuacutemero de ocorrecircncias do motivo observadas no conjunto de dados

original Quanto mais afastada estiver a seta do maacuteximo da curva maior seraacute a significacircncia

estatiacutestica Neste caso foi atribuiacuteda uma significacircncia de 593 ao motivo TTTTAA

Figura 42 Histograma das ocorrecircncias observadas do motivo TTTTAA em 100

simulaccedilotildees de shuffling do conjunto de dados da H pylori

3 Organismo procariota

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 18

O meacutetodo de data shuffling pode ser pesado do ponto de vista computacional e representa

uma grande restriccedilatildeo no desempenho da avaliaccedilatildeo de motivos Em particular a necessidade

de pesquisar todos os motivos extraiacutedos em cada conjunto de dados aleatoacuterio gerado constitui

uma seacuterio entrave ao bom desempenho deste meacutetodo

Devido aos referidos problemas de desempenho opta-se geralmente por fazer um nuacutemero de

simulaccedilotildees com geraccedilatildeo de sequecircncias aleatoacuterias inferior ao estatisticamente aconselhado o

que pode ter impacto nos resultados

Outra questatildeo pertinente coloca-se ainda quanto agrave preservaccedilatildeo dos k-mers Uma vez que o

shuffling eacute feito sobre cada sequecircncia do conjunto de dados valores elevados de k impotildeem

restriccedilotildees severas agrave variabilidade dos conjuntos de dados aleatoacuterios gerados Assim para estes

valores o teste estatiacutestico eacute inuacutetil uma vez que os conjuntos de dados gerados satildeo

praticamente iguais ao conjunto de dados original Em particular quando o tamanho dos

k-mers a preservar eacute igual ou superior ao tamanho de um motivo as suas ocorrecircncias satildeo

estritamente conservadas no conjunto de dados aleatoacuterio levando a que o valor da

significacircncia seja 0 A Figura 43 ilustra o facto de a significacircncia estatiacutestica tender

inevitavelmente para zero agrave medida que o valor de k aumenta Os valores do graacutefico foram

igualmente obtidos a partir do conjunto de dados da H pylori descrito anteriormente

Figura 43 Graacutefico da evoluccedilatildeo da significacircncia estatiacutestica com o aumento do valor

de k para um motivo de tamanho 8 extraiacutedo do conjunto de dados da H pylori

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 19

43 Meacutetodo Analiacutetico

Nesta Secccedilatildeo propotildee-se um meacutetodo analiacutetico que tem por objectivo resolver alguns dos

problemas do meacutetodo de shuffling descrito na Secccedilatildeo anterior designadamente o fraco

desempenho computacional e as excessivas restriccedilotildees devidas agrave conservaccedilatildeo estrita das

frequecircncias dos k-mers Assim pretende-se obter um meacutetodo computacionalmente eficiente

para avaliar a relevacircncia de motivos extraiacutedos pelo SMILE

Com este meacutetodo comeccedila-se por abstrair um modelo de Markov a partir do conjunto de dados

em estudo Os estados do modelo de Markov correspondem a todos os (k-1)-mers presentes no

conjunto de dados sendo a probabilidade inicial de cada estado a frequecircncia relativa

observada do (k-1)-mer correspondente

A probabilidade de transiccedilatildeo entre estados corresponde agrave razatildeo entre o nuacutemero de vezes que o

(k-1)-mer referente ao estado de destino sucede ao (k-1)-mer referente ao estado de origem

nos dados e o nuacutemero de vezes que o (k-1)-mer correspondente ao estado de origem precede

qualquer outro (k-1)-mer nas sequecircncias em anaacutelise A Figura 45 apresenta um modelo de

Markov abstraiacutedo a partir do conjunto de dados referido na Figura 44

Figura 44 Conjunto de dados exemplo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 20

CA

TC

AT

TA

TT

101

51

52

101

51

Figura 45

Exemplo de uma cadeia de Markov para k=3

Cada motivo em anaacutelise eacute processado de forma a calcular a probabilidade do motivo ser

gerado pelo modelo de Markov abstraiacutedo

Esta probabilidade eacute calculada como o produto da probabilidade do estado inicial pela

probabilidade de todas as transiccedilotildees necessaacuterias para compor o motivo Em (44) (45) e (46)

apresenta-se o calculo desta probabilidade para o motivo ATTATT segundo a cadeia de

Markov da Figura 45

)()()()()()( TTATpATTApTATTpTTATpATpATTATTp

(44)

2

111

2

1

5

2)(ATTATTp (45)

10

1)(ATTATTp (46)

No caso em que k eacute igual 1 natildeo eacute construiacuteda uma cadeia de Markov sendo a probabilidade de

ocorrecircncia do motivo o produto das frequecircncias relativas no conjunto de dados dos

nucleoacutetidos que o compotildeem

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 21

Caso sejam admitidos e erros basta considerar a soma das probabilidades de todos motivos a

uma distacircncia de Hamming natildeo superior a e ao inveacutes de se considerar apenas a probabilidade

do motivo em anaacutelise

A probabilidade assim calculada seraacute usada para determinar as entradas referentes a dados

aleatoacuterios na tabela de contingecircncia descrita na Secccedilatildeo 41 para o teste relativo agrave abundacircncia

A determinaccedilatildeo das entradas na tabela quando consideramos o teste relativo ao quoacuterum de um

motivo eacute consideravelmente mais complexa pelo que natildeo a abordaremos neste texto

Assim as entradas randomP e randomA satildeo calculadas da forma indicada em (47) e (48)

respectivamente

))1)((()( nseqsmlenmotiflenseqsnseqskmpP Markovrandom

(47)

randomrandom PlenseqsnseqsA

(48)

Nas expressotildees (47) e (48)

)( kmpMarkov refere-se agrave probabilidade calculada para o motivo m a partir de uma cadeia

de Markov extraiacuteda do conjunto de dados para um dado k

nseqs designa o nuacutemero de sequecircncias do conjunto de dados

lseqs designa o comprimento meacutedio das sequecircncias do conjunto de dados

lenmotif(m) designa o tamanho do motivo m

Agrave semelhanccedila do SMILE no caacutelculo de randomA consideramos como nuacutemero de

oportunidades de ocorrecircncia o tamanho do conjunto de dados

Este meacutetodo apresenta um desempenho computacional significativamente melhor que o

meacutetodo baseado em shuffling uma vez que natildeo necessita de efectuar vaacuterias simulaccedilotildees tendo

apenas de processar o conjunto de dados por uma uacutenica vez O caacutelculo da significacircncia

estatiacutestica de cada motivo eacute linear em relaccedilatildeo ao seu comprimento

Por outro lado o meacutetodo analiacutetico natildeo enferma das mesmas limitaccedilotildees do que o teste

estatiacutestico baseado em simulaccedilotildees permitindo o caacutelculo de significacircncia estatiacutestica para

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 22

valores elevados de k Ao considerar a estatiacutestica de todo o conjunto de dados ao inveacutes de

cada sequecircncia isoladamente este meacutetodo pode tambeacutem agrave partida modelar melhor os dados

Resta acrescentar que o meacutetodo descrito nesta Secccedilatildeo soacute permite obter significacircncias

estatiacutesticas para motivos simples A realizaccedilatildeo de caacutelculos para motivos estruturados eacute

consideravelmente mais complexa e natildeo foi abordada neste trabalho

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 23

5 Geraccedilatildeo de coacutedigo IUPAC

A realizaccedilatildeo eficiente de pesquisas de consensos em bases de dados bioloacutegicas requer uma

representaccedilatildeo compacta dos dados armazenados Neste contexto a possibilidade de

representar consensos em coacutedigo IUPAC assume uma importacircncia fundamental

O coacutedigo IUPAC eacute uma extensatildeo sobre a representaccedilatildeo de sequecircncias de DNA Uma

sequecircncia de DNA eacute constituiacuteda por nucleoacutetidos A codificaccedilatildeo IUPAC introduz siacutembolos que

representam um conjunto de possiacuteveis nucleoacutetidos para uma dada posiccedilatildeo permitindo uma

representaccedilatildeo de sequecircncias degeneradas Por exemplo uma purina (A ou G) eacute representada

pela letra R A descriccedilatildeo completa dos coacutedigos IUPAC encontra-se na Tabela 51

Coacutedigo Descriccedilatildeo A Adenina

C Citosina

G Guanina

T Timina

U Uracilo

R Purina (A ou G)

Y Pirimidina (C T ou U)

M C ou A

K T U ou G

W T U ou A

S C ou G

B C T U ou G (natildeo A)

D A T U ou G (natildeo C)

H A T U ou C (natildeo G)

V A C ou G (natildeo T natildeo U)

N Qualquer base (A C G T ou U)

Tabela 51 Coacutedigo IUPAC

A conversatildeo de um conjunto de sequecircncias de DNA para um conjunto de sequecircncias IUPAC

natildeo eacute uma tarefa trivial Para um dado conjunto de sequecircncias existem diversas codificaccedilotildees

IUPAC possiacuteveis

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 24

O problema da geraccedilatildeo de coacutedigo IUPAC consiste em encontrar o conjunto miacutenimo de

sequecircncias IUPAC que representem um dado conjunto de sequecircncias DNA

Como o objectivo proposto eacute a compressatildeo da representaccedilatildeo das sequecircncias de nucleoacutetidos eacute

desejaacutevel que a codificaccedilatildeo IUPAC seja a mais compacta possiacutevel

A abordagem utilizada foi a de reduzir o problema da compressatildeo IUPAC a um problema

conhecido a minimizaccedilatildeo de expressotildees loacutegicas multi-valor

Uma expressatildeo loacutegica multi-valor eacute uma expressatildeo loacutegica onde figuram variaacuteveis multi-valor

ou seja variaacuteveis que necessitam de mais do que um bit para serem representadas

Para representar um siacutembolo IUPAC eacute utilizada uma variaacutevel multi-valor de 4 bits Os

siacutembolos e as respectivas representaccedilotildees estatildeo na Tabela 52

Siacutembolo

IUPAC

Codificaccedilatildeo

binaacuteria

A 1000

T 0100

C 0010

G 0001

R 1001

Y 0110

S 0011

W 1100

K 0101

M 1010

B 0111

D 1101

H 1110

V 1011

N 1111

Espaccedilo 0000

Tabela 52

Codificaccedilatildeo binaacuteria dos siacutembolos IUPAC

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 25

Uma sequecircncia de nucleoacutetidos ou IUPAC eacute construiacuteda atraveacutes de um produto de termos

sendo cada termo uma variaacutevel multi-valor que representa um siacutembolo da sequecircncia Por

exemplo a sequecircncia WTA eacute representada pela expressatildeo loacutegica (1100) (0100) (1000)

Agora que foi estabelecida uma representaccedilatildeo para sequecircncias IUPAC atraveacutes de expressotildees

loacutegicas multi-valor resta perceber como da minimizaccedilatildeo destas expressotildees pode resultar o

desejado coacutedigo IUPAC

Em (51) temos um exemplo simples de minimizaccedilatildeo loacutegica

ZXZYXZYX

(51)

Eacute faacutecil verificar que X Z eacute uma expressatildeo equivalente O que se pretende para a compressatildeo

IUPAC eacute algo semelhante

Por exemplo a partir das sequecircncias ATA e TTA pretende-se a expressatildeo IUPAC WTA A

simplificaccedilatildeo das expressotildees loacutegicas eacute exemplificada sucessivamente em (52) (53) e (54)

A T A + T T A (52)

(1000) (0100) (1000) + (0100) (0100) (1000)

(A ou T) T A (53)

((1000)+(0100)) (0100) (1000)

W T A (54)

(1100) (0100) (1000)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 26

Eacute faacutecil perceber atendendo agrave escolha criteriosa da codificaccedilatildeo que da minimizaccedilatildeo de

expressotildees loacutegicas que representam sequecircncias de nucleoacutetidos resultam expressotildees loacutegicas

que representam uma codificaccedilatildeo IUPAC das sequecircncias originais

O problema inicial encontra-se agora reduzido a um problema de minimizaccedilatildeo de expressotildees

loacutegicas Este problema jaacute estaacute resolvido na aacuterea da siacutentese loacutegica Um dos programas mais

conhecidos desenvolvido para a resoluccedilatildeo deste problema eacute o programa Espresso [9] Apesar

de ser utilizado neste contexto como uma caixa preta eacute importante perceber o seu

funcionamento

No Espresso as expressotildees loacutegicas satildeo representadas num espaccedilo booleano multi-

dimensional Um exemplo eacute um espaccedilo tridimensional onde podem ser representadas

sequecircncias de tamanho 3 tal como estaacute ilustrado na Figura 51

Figura 51

Representaccedilatildeo das sequecircncias ATA (1) e TTA (2)

Neste contexto um cubo define-se como a representaccedilatildeo espacial de um produto de termos

Ou seja para o problema em questatildeo cada sequecircncia de entrada eacute um cubo e uma cobertura

corresponde a um conjunto de cubos que engloba todos os veacutertices representados no espaccedilo

Pode observar-se que a dimensatildeo do espaccedilo encontra-se directamente relacionada com o

tamanho da sequecircncia que se pretende representar Para efectuar a minimizaccedilatildeo o Espresso

procura uma cobertura miacutenima que daraacute origem ao conjunto de sequecircncias IUPAC de saiacuteda

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 27

No caso do espaccedilo da Figura 51 existe uma cobertura miacutenima constituiacuteda por um uacutenico cubo

A Figura 52 ilustra a referida cobertura

Figura 52 Representaccedilatildeo da cobertura WTA (1)

Da cobertura resulta a codificaccedilatildeo IUPAC das sequecircncias iniciais

O processo para descobrir a cobertura miacutenima eacute complexo sendo composto por um conjunto

intrincado de passos Inicialmente o conjunto de cubos originais eacute expandido de forma a

englobar o maior nuacutemero de veacutertices adjacentes De seguida os cubos redundantes satildeo

removidos e os restantes satildeo reduzidos para que cubram apenas os cubos iniciais Um cubo eacute

considerado redundante se natildeo cobrir nenhum veacutertice que natildeo esteja jaacute coberto por outro

cubo Deste processo resulta uma reduccedilatildeo contiacutenua do nuacutemero de cubos necessaacuterios para a

cobertura O processo eacute reiterado ateacute natildeo se verificarem melhorias substanciais na dimensatildeo

da cobertura obtida

Este processo eacute guiado por heuriacutesticas e eacute possiacutevel demonstrar que produz resultados

proacuteximos da soluccedilatildeo oacuteptima O processo estaacute detalhadamente descrito em [910]

De modo a automatizar o processo de codificaccedilatildeo das sequecircncias de nucleoacutetidos e

descodificaccedilatildeo das sequecircncias IUPAC foi desenvolvida uma interface para o Espresso

Assim as sequecircncias de entrada satildeo transformadas em expressotildees loacutegicas (formato binaacuterio)

seguindo a correspondecircncia referida na Tabela 52 Do mesmo modo a representaccedilatildeo da

cobertura miacutenima obtida pelo Espresso eacute descodificada e traduzida para sequecircncias IUPAC

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 28

O funcionamento da interface foi testado com recurso a um gerador aleatoacuterio de sequecircncias de

nucleoacutetidos e a um verificador O gerador produz um conjunto de sequecircncias obtidas a partir

de uma sequecircncia inicial de nucleoacutetidos O conjunto de sequecircncias gerado corresponde a

vaacuterias substituiccedilotildees aleatoacuterias na sequecircncia inicial e constitui o conjunto de entrada que vai

ser lido pela ferramenta Espresso O verificador recebe o conjunto de sequecircncias de entrada e

o resultado da operaccedilatildeo de minimizaccedilatildeo do Espresso sob a forma de sequecircncias de coacutedigos

IUPAC Deste modo ao expandir as sequecircncias IUPAC obtidas pelo Espresso atraveacutes de

uma operaccedilatildeo trivial de substituiccedilotildees sucessivas eacute possiacutevel testar a completude e adequaccedilatildeo

da representaccedilatildeo Assim diz-se que a representaccedilatildeo eacute completa se a expansatildeo incluir todas as

sequecircncias de entrada por outro lado diz-se que a representaccedilatildeo eacute adequada se natildeo incluir

nenhuma sequecircncia que natildeo esteja no conjunto inicial

Depois de verificada a completude e adequaccedilatildeo das representaccedilotildees obtidas foram feitos testes

com dados reais de modo a poder aferir o grau de compressatildeo das sequecircncias introduzidas

Assim o Espresso foi executado tendo como conjunto de entrada sequecircncias devidamente

codificadas obtidas atraveacutes de uma execuccedilatildeo do SMILE

As taxas de compressatildeo obtidas variam entre 278 e 715

O gerador de coacutedigo IUPAC encontra-se neste momento integrado na base de dados Dbyeast

[11] disponibilizando publicamente o serviccedilo de codificaccedilatildeo A Figura 53 eacute uma imagem da

interface que permite que os utilizadores da Dbyeast obtenham coacutedigo IUPAC a partir de

sequecircncias de DNA

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 29

Figura 53 Interface para geraccedilatildeo de coacutedigo IUPAC integrada na Dbyeast

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 30

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 31

6 Resultados e Conclusotildees

Neste Capiacutetulo iremos analisar os resultados obtidos tanto para dados sinteacuteticos como para

dados reais Para tal iremos comparar os valores de significacircncia estatiacutestica obtidos para os

dois tipos de dados usando tanto o meacutetodo de shuffling como o meacutetodo analiacutetico Para efectuar

esta comparaccedilatildeo eacute uacutetil referirmo-nos agrave posiccedilatildeo obtida pelos motivos em anaacutelise numa lista

ordenada por valores decrescentes de significacircncia estatiacutestica Assim sempre que

mencionarmos o valor da posiccedilatildeo de um motivo estaremos a referir-nos agrave posiccedilatildeo numa lista

assim definida

61 Resultados Obtidos com Dados Sinteacuteticos

Como jaacute foi referido a utilizaccedilatildeo de dados sinteacuteticos permite um maior controlo sobre os

motivos que estatildeo efectivamente presentes no conjunto de dados Assim iremos referir-nos

aos motivos que foram introduzidos no conjunto de dados gerado por motivos especificados

em oposiccedilatildeo aos outros motivos igualmente extraiacutedos pelo SMILE que designaremos por

motivos natildeo-especificados Nesta Secccedilatildeo iremos considerar o teste de significacircncia estatiacutestica

relativo agrave abundacircncia de forma a podermos comparar os resultados obtidos com o meacutetodo

shuffling e com o meacutetodo analiacutetico

611 Resultados do teste do 2 com o meacutetodo shuffling

Ao especificar um conjunto de dados com os mesmos motivos que estatildeo presentemente

descritos para a H pylori obtivemos para motivos simples os resultados apresentados nas

Figuras 61 e 62 O conjunto de dados sinteacutetico conteacutem 308 sequecircncias de comprimento 167

Foi efectuada uma procura de motivos simples com tamanhos compreendidos entre 6 e 8

nucleoacutetidos Natildeo foram admitidos erros e foi exigido um quoacuterum de 6 Os motivos

especificados encontram-se representados a ponteado Os restantes motivos correspondem a

motivos natildeo-especificados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 32

Figura 61 Significacircncia estatiacutestica para motivos simples de tamanho 6

Figura 62 Significacircncia estatiacutestica para motivos simples de tamanho 7

Os graacuteficos natildeo satildeo no entanto suficientes para nos dar a percepccedilatildeo da correcta classificaccedilatildeo

dos motivos uma vez que natildeo eacute possiacutevel fazer representar no graacutefico os 172 motivos

extraiacutedos A Tabela 61 indica as posiccedilotildees ocupadas pelos motivos especificados em relaccedilatildeo agrave

totalidade dos modelos para vaacuterios valores de k

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 33

TTTAAG TTTTAA TATAAT TATAATA

k=1 5 4 1 2

k=2 6 4 1 2

k=3 6 4 2 1

k=4 6 5 2 1

k=5 78 7 5 1

Tabela 61 Posiccedilotildees dos motivos especificados

Em geral os motivos especificados aparecem melhor classificados para um baixo valor de k

Agrave medida que se consideram valores de k crescentes a significacircncia estatiacutestica de todos os

motivos aproxima-se de zero pelas razotildees jaacute apontadas na Secccedilatildeo 42

Eacute comum observar-se a presenccedila de motivos natildeo-especificados com niacuteveis de significacircncia

elevados especialmente se atendermos agraves posiccedilotildees da Tabela 61

Contudo estes bons resultados natildeo se mantecircm se forem admitidos erros na procura Neste

caso embora os motivos mantenham em geral elevadas significacircncias entram em

competiccedilatildeo com os motivos a distacircncia de Hamming natildeo superior ao nuacutemero de erros

admitido Assim eacute comum observar-se uma descida significativa na tabela de posiccedilotildees

Para motivos estruturados os resultados satildeo favoraacuteveis mesmo admitindo erros como eacute

ilustrado pelo graacutefico da Figura 63 em conjugaccedilatildeo com os valores de posiccedilatildeo apresentados na

Tabela 62

Neste exemplo efectuou-se uma procura por motivos estruturados compostos por duas partes

com tamanhos entre 6 e 7 com uma distacircncia entre si variando entre 21 e 23 nucleoacutetidos

Admitiu-se 1 erro em cada parte do motivo mas apenas 1 erro na totalidade do motivo

estruturado e exigiu-se um quoacuterum de 6 Foram extraiacutedos 53 motivos O motivo

especificado encontra-se a ponteado

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 34

Figura 63 Significacircncia estatiacutestica para modelos estruturados em dados sinteacuteticos

TTTAAG_TATAAT

k=1 4

k=2 4

k=3 17

k=4 63

k=5 162

Tabela 62 Posiccedilotildees do motivo estruturado especificado

Neste exemplo foi necessaacuterio admitir a existecircncia de erros para que o motivo fosse encontrado

pelo SMILE Natildeo existem motivos sem erros que cumpram as condiccedilotildees de procura

Esta boa prestaccedilatildeo dos motivos estruturados estaacute relacionada com o facto de o shuffling

raramente preservar as distacircncias relativas de cada uma das partes que constituem o motivo

fazendo com que estes ocorram poucas vezes nas simulaccedilotildees Assim neste exemplo o motivo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 35

estruturado especificado aparece claramente destacado Estes resultados parecem sugerir que a

utilizaccedilatildeo deste teste estatiacutestico se adequa agrave avaliaccedilatildeo de modelos estruturados No entanto

nem todos os promotores exibem esta estrutura sendo necessaacuterio um meacutetodo mais geral para

fazer esta avaliaccedilatildeo

Como veremos em seguida os resultados aparentemente animadores mesmo para motivos

simples natildeo se verificam quando analisamos dados reais Esta evidecircncia estaacute relacionada com

o facto de o gerador de dados sinteacuteticos gerar dados aleatoacuterios com equiprobabilidade de

nucleoacutetidos Nos dados reais isto natildeo se verifica existindo normalmente uma clara

abundacircncia de A s e T s na regiatildeo promotora Do mesmo modo cada conjunto de dados exibe

preferecircncia por certos diacutemeros ou triacutemeros que ocorrem com muito mais frequecircncia que

outros

Esta limitaccedilatildeo podia ser mitigada pela incorporaccedilatildeo destas correlaccedilotildees na geraccedilatildeo de dados

sinteacuteticos Mas embora seja relativamente simples estabelecer uma preferecircncia por certos

nucleoacutetidos a geraccedilatildeo natildeo-equiprovaacutevel de k-mers geneacutericos constitui soacute por si um problema

complexo pelo que natildeo foi abordado neste trabalho

612 Resultados do teste do 2 com o meacutetodo analiacutetico

Os dados sinteacuteticos foram igualmente analisados recorrendo ao meacutetodo analiacutetico que como jaacute

foi referido tem a vantagem de ser mais eficiente do ponto de vista computacional e de poder

explorar valores mais elevados de k As Figura 64 e 65 apresentam a evoluccedilatildeo da

significacircncia estatiacutestica dos mesmos motivos considerados nas Figuras 62 e 63 mas

recorrendo ao meacutetodo analiacutetico

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 36

Figura 64 Significacircncia estatiacutestica de motivos simples de tamanho 6 usando o

meacutetodo analiacutetico

Figura 65 Significacircncia estatiacutestica de motivos simples de tamanho 7 usando o

meacutetodo analiacutetico

A Tabela 63 indica as posiccedilotildees dos motivos especificados para a significacircncia estatiacutestica

calculada por via do meacutetodo analiacutetico

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 37

TTTAAG TTTTAA TATAAT TATAATA

k=1 6 4 1 2

k=2 6 4 1 2

k=3 6 3 2 1

k=4 6 3 2 1

k=5 55 3 2 1

Tabela 63 Posiccedilotildees dos modelos especificados

Satildeo oacutebvias as semelhanccedilas entre os resultados apresentados na Tabela 63 e os presentes na

Tabela 61 Isto confirma a possibilidade de usar o meacutetodo analiacutetico como alternativa ao

meacutetodo de shuffling

Sabemos igualmente que no acircmbito do meacutetodo analiacutetico quando k atinge um valor igual ao

comprimento do motivo em anaacutelise a significacircncia estatiacutestica anula-se Isto tem a ver com o

facto de a probabilidade de ocorrecircncia de um k-mer ser muito proacutexima da sua frequecircncia

relativa no conjunto de dados Assim sendo os valores das entradas da tabela de contingecircncia

relativas aos dados aleatoacuterios seratildeo inevitavelmente iguais agraves dos dados reais resultando deste

facto uma significacircncia estatiacutestica nula

Por outro lado agrave medida que o k aumenta os k-mers introduzidos pelos motivos especificados

no conjunto de dados que de resto eacute aleatoacuterio vatildeo fazer com que a cadeia de Markov gerada

faccedila convergir as probabilidades de ocorrecircncia de cada motivo com a sua frequecircncia relativa

efectiva no conjunto de dados Assim assiste-se ao mesmo fenoacutemeno de convergecircncia para

zero da significacircncia estatiacutestica que assinalaacutemos para o meacutetodo shuffling

Pela anaacutelise dos resultados podemos ainda concluir que em geral um valor de k demasiado

pequeno natildeo modela suficientemente bem os dados daqui resulta que alguns motivos natildeo

especificados obtenham melhores classificaccedilotildees que motivos especificados Em suma

deveremos preferir valores de k intermeacutedios

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 38

62 Resultados Obtidos com Dados Reais

Com este teste pretendemos verificar se uma sequecircncia classificada como estatisticamente

relevante tambeacutem pode ser considerada biologicamente relevante

Para fazer o estudo da anaacutelise estatiacutestica em dados reais foram recolhidos 16 conjuntos de

dados com regiotildees promotoras correspondentes a genes da levedura Saccharomyces

cerevisiae que eacute um organismo eucariota Cada conjunto conteacutem aproximadamente 10

sequecircncias As sequecircncias contecircm consensos obtidos por via experimental e descritos na

literatura A descriccedilatildeo completa de cada conjunto de dados pode ser vista no Anexo A

Para cada conjunto de dados foi feita uma procura de motivos de tamanhos variando entre 4 e

11 nucleoacutetidos para valores de quoacuterum de 60 75 80 e 100 Foram permitidos 0 e 1

erros em ensaios sucessivos e fez-se ainda variar o valor de k entre 1 e 4

Foi posteriormente analisada a significacircncia estatiacutestica calculada pelo SMILE no que diz

respeito ao quoacuterum

Os consensos descritos obtiveram boas classificaccedilotildees para algumas das condiccedilotildees testadas

Em particular quando o quoacuterum exigido se encontra proacuteximo da frequecircncia efectiva dos

motivos nos dados e quando natildeo satildeo admitidos erros Os resultados satildeo tambeacutem melhores

para motivos de tamanho superior a 7 Em suma obtecircm-se bons resultados quando as

condiccedilotildees favorecem os motivos com as caracteriacutesticas dos consensos descritos

Estes resultados natildeo satildeo muito animadores porque para os atingir eacute necessaacuterio um

conhecimento preacutevio da frequecircncia e tamanho dos motivos Ao considerar a generalidade dos

ensaios efectuados verifica-se que as classificaccedilotildees satildeo muito baixas com baixas

significacircncias estatiacutesticas e com valores de posiccedilatildeo frequentemente abaixo dos primeiros

1 000 motivos No Anexo A apresentamos os resultados obtidos com estes ensaios

A par desta anaacutelise foi considerada a significacircncia estatiacutestica obtida a respeito da abundacircncia

Deste modo eacute possiacutevel estabelecer uma comparaccedilatildeo directa entre o meacutetodo de shuffling e o

meacutetodo analiacutetico para o caacutelculo desta meacutetrica

De seguida apresentamos os resultados desta anaacutelise

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 39

621 Resultados do teste do 2 com o meacutetodo shuffling

De modo geral os resultados para o teste estatiacutestico referente agrave abundacircncia representam uma

melhoria em relaccedilatildeo ao teste referente ao quoacuterum

Comeccedilamos por apresentar os graacuteficos referentes a um conjunto de dados cujos motivos

permanecem mal classificados isto eacute o motivo eacute biologicamente relevante mas natildeo eacute

considerado estatisticamente relevante O conjunto de dados em causa o MSN4 tem um

motivo muito abundante (CCCCT) condicionando a estatiacutestica dos dados Isto conjugado

com o seu pequeno tamanho (5 nucleoacutetidos) resulta na inevitaacutevel baixa significacircncia

estatiacutestica uma vez que aparece sistematicamente na geraccedilatildeo aleatoacuteria de sequecircncias feita em

cada simulaccedilatildeo As Figuras 66 e 67 ilustram a evoluccedilatildeo da significacircncia estatiacutestica e da

posiccedilatildeo do referido motivo considerando erro 0 e 1 respectivamente para um quoacuterum de

60

Figura 66 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 0 erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 40

Figura 67 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 1 erro

Os resultados da classificaccedilatildeo satildeo claramente maus para um consenso descrito A estranha

subida para k igual a 4 estaacute relacionada com uma pequena flutuaccedilatildeo sem significado uma vez

que estamos a considerar valores de significacircncia estatiacutestica muito baixos A aparente melhor

classificaccedilatildeo quando consideramos erro 0 estaacute relacionada com o facto de que quando natildeo se

admitem erros satildeo consequentemente extraiacutedos menos motivos Em particular com erro 0 satildeo

extraiacutedos 1 316 motivos enquanto que com erro 1 satildeo extraiacutedos 35 258 motivos

De seguida apresentamos os resultados relativos a um outro conjunto de dados (STE12) que

evidencia resultados mais favoraacuteveis para erro 0 As Figuras 68 e 69 apresentam a evoluccedilatildeo

da significacircncia estatiacutestica do motivo descrito (TGAAACA) para 0 e 1 erros

respectivamente com um quoacuterum de 100

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 41

Figura 68 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 0 erros

Figura 69 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 1 erro

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 42

Resta referir que para este conjunto de dados foram extraiacutedos 267 motivos com erro 0 e

7 705 motivos para erro 1

O facto de os motivos serem abundantes em relaccedilatildeo ao nuacutemero de sequecircncias consideradas

faz com que o teste relativo agrave abundacircncia tenha um poder de resoluccedilatildeo consideravelmente

maior do que o teste relativo ao quoacuterum Por esta razatildeo deveremos sempre preferir o primeiro

em casos semelhantes

Por outro lado os resultados obtidos continuam a pocircr em causa a generalidade do meacutetodo uma

vez que eacute difiacutecil identificar as situaccedilotildees em que este produz bons resultados sobretudo quando

somos confrontados com um desconhecimento a priori do conjunto de dados

622 Resultados do teste do 2 com o meacutetodo analiacutetico

Resta-nos comparar os resultados obtidos na subsecccedilatildeo anterior com os obtidos pela via

analiacutetica Nos graacuteficos apresentados nesta subsecccedilatildeo que representam a evoluccedilatildeo da

significacircncia estatiacutestica com o crescimento do tamanho dos k-mers considerados estatildeo

tambeacutem assinaladas as posiccedilotildees ocupadas pelos motivos

As Figuras 610 e 611 apresentam os resultados referentes ao MSN4

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 43

Figura 610 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 0 erros

Figura 611 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 1 erro

Os resultados para o MSN4 natildeo sofrem alteraccedilotildees assinalaacuteveis em relaccedilatildeo ao meacutetodo anterior

Novamente as caracteriacutesticas do conjunto de dados limitam a possibilidade de evidenciar este

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 44

motivo por via deste teste estatiacutestico o que eacute tanto mais grave quanto o facto de este ser um

dos motivos cuja significacircncia bioloacutegica se encontra melhor estabelecida

As Figuras 612 e 613 apresentam os resultados referentes ao conjunto de dados STE12

Figura 612 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 0 erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 45

Figura 613 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 1 erro

Os dados apresentados natildeo evidenciam melhorias assinalaacuteveis em relaccedilatildeo aos resultados

obtidos por via de shuffling excepto a ocorrecircncia de melhorias ocasionais da classificaccedilatildeo

quando natildeo se admitem erros Estas diferenccedilas podem ser atribuiacutedas ao facto de o meacutetodo

analiacutetico natildeo conservar estritamente os k-mers e de analisar o conjunto de dados na sua

totalidade por oposiccedilatildeo ao shuffling que considera cada sequecircncia isoladamente

No Anexo B apresentamos a totalidade dos resultados desta anaacutelise comparativa No Anexo C

eacute apresentada uma listagem dos resultados do caacutelculo do valor de significacircncia para valores de

k ateacute ao tamanho dos consensos descritos

A grande vantagem deste meacutetodo eacute sem duacutevida o incomparaacutevel ganho a niacutevel de

desempenho computacional Para ilustrar esta afirmaccedilatildeo basta dizer que o caacutelculo da

significacircncia estatiacutestica para todos os conjuntos de dados considerados demorou com o

meacutetodo de shuffling mais de 30 horas de processamento O meacutetodo analiacutetico realizou todos os

caacutelculos em menos de 30 minutos

No entanto os resultados voltam a pocircr em causa a adequaccedilatildeo do teste estatiacutestico do 2 para

aferir a significacircncia bioloacutegica pela dificuldade de sintetizar um meacutetodo geneacuterico para

destacar motivos relevantes de entre os extraiacutedos pelo SMILE

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 46

63 Conclusotildees

Ao considerar os resultados apresentados eacute inevitaacutevel concluir que a significacircncia atribuiacuteda

pelo teste estatiacutestico do 2 aos motivos extraiacutedos pelo SMILE natildeo reflecte a sua significacircncia

bioloacutegica

A dificuldade em distinguir motivos relevantes da grande quantidade de motivos extraiacutedos

potildee em causa a utilidade praacutetica do algoritmo na generalidade dos casos

Para aleacutem desta questatildeo outras limitaccedilotildees tecircm sido apontadas por bioacutelogos designadamente

o facto de o algoritmo natildeo conseguir pesquisar motivos na cadeia de DNA inversa onde os

factores de transcriccedilatildeo podem igualmente ligar-se e o facto de a forma como o SMILE

modela a ocorrecircncia de erros nos motivos natildeo ser compatiacutevel com a necessidade de poder

indicar posiccedilotildees especiacuteficas onde erros satildeo admitidos

No entanto o SMILE continua a exibir resultados interessantes para motivos estruturados o

que constitui sem duacutevida a mais-valia fundamental do algoritmo Tudo indica que o meacutetodo

analiacutetico pode ser igualmente adaptado para calcular a significacircncia de motivos estruturados

Parece-nos claro que uma eficaz extracccedilatildeo de motivos relevantes passaraacute necessariamente

pela conjugaccedilatildeo com outros dados para aleacutem da simples sequecircncia de nucleoacutetidos Em

particular a disponibilidade de informaccedilatildeo acerca de co-regulaccedilatildeo de genes poderaacute guiar a

extracccedilatildeo de motivos permitindo exigir um quoacuterum mais alto dada a confianccedila na existecircncia

de factores de transcriccedilatildeo comuns

Por outro lado a utilizaccedilatildeo de modelos probabiliacutesticos em vez de meras colecccedilotildees de motivos

poderaacute ser uma abordagem mais natural para o problema permitindo simultaneamente uma

melhor modelaccedilatildeo da realidade bioloacutegica ao indicar uma probabilidade de ocorrecircncia de cada

nucleoacutetido para uma dada posiccedilatildeo no modelo O nuacutemero de modelos extraiacutedos seria tambeacutem

francamente reduzido uma vez que um uacutenico modelo probabiliacutestico pode representar com

expressividade acrescida um grande nuacutemero de motivos

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 47

7 Referecircncias

[1] A Vanet L Marsan e M F Sagot Promoter sequence and algorithmical methods for

identifying them Research in Microbiology 150 pp 779-799 1999

[2] JD Watson FH Crick Molecular structure of nucleic acids a structure for deoxyribose

nucleic acid Nature Number 4356 1953

[3] T Werner Models for Prediction and Recognition of Eukaryotic Promoters Mammalian

Genome Vol 10 pp 168-175 1999

[4] L Marsan e M F Sagot Algorithms for extracting structured motifs using a suffix tree

with an application to promoter and regulatory site consensus identication Journal of

Computational Biology 7 pp 345-362 2000

[5] L Marsan Infeacuterence de motifs structureacutes algorithmes et outils appliqueacutes agrave la deacutetection de

sites de fixation dans des seacutequences geacutenomiques PhD Thesis Universiteacute de Marne-la-Valleacutee

2002

[6] B Flannery S Teukolsky W Press e W Vetterling Numerical Recipes in C++

Cambridge University Press 2002

[7] S Altschul e B Erickson Significance of Nucleotide Sequence Alignments A method of

Random Sequence Permutation That Preserves Dinucleotide and Codon Usage Molecular

Biology Evolution 2 pp 526-538 1985

[8] D Kandel Y Matias R Unger e P Winkler Shuffling Biological Sequences Discrete

Appl Math 71 pp 171-185 1996

[9] R Rudell e A Sangiovanni-Vincentelli Multiple-Valued Minimization for PLA

Optimization IEEE Transactions on Computer-Aided Design of Integrated Circuits and

Systems Vol CAD-6 Nordm 5 pp 727-751 September 1987

[10] R Brayton G Hachtel C McMullen e A Sangiovanni-Vincentelli Logic Minimization

Algorithms for VLSI Synthesis Kluwer Academic Publishers 1985

[11] P Monteiro Dbyeast [httpdescartesinesc-idpt~ptgmdb] 2004

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 48

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 49

Anexo A

Resultados do Caacutelculo da Significacircncia Estatiacutestica referente ao Quoacuterum

para Conjuntos de Dados de Saccharomyces cerevisiae

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados

A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos os resultados para os motivos procurados em relaccedilatildeo a cada valor dos paracircmetros

Nota o campo posicao refere-se agrave posiccedilatildeo ocupada pelo motivo na tabela com a estatiacutestica das sequecircncias com pelo menos uma ocorrecircncia do motivo ordenada por chi2

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

314 motivos encontrados Quorum = 80

670 motivos encontrados Quorum = 75

670 motivos encontrados Quorum = 60

1306 motivos encontrados Erro = 1

Quorum = 100 8636 motivos encontrados k = 1 posicao = 2 chi2 = 98 (ACCTTAAAGGT) k = 2 posicao = 2 chi2 = 976 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 965 (ACCTTAAAGGT) k = 4 posicao = 2 chi2 = 984 (ACCTTAAAGGT)

Quorum = 80 17722 motivos encontrados k = 1 posicao = 2 chi2 = 651 (ACCCTAAAGGT) k = 1 posicao = 4 chi2 = 965 (ACCTTAAAGGT) k = 2 posicao = 2 chi2 = 659 (ACCCTAAAGGT) k = 2 posicao = 8 chi2 = 965 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 667 (ACCCTAAAGGT) k = 3 posicao = 4 chi2 = 969 (ACCTTAAAGGT) k = 4 posicao = 2 chi2 = 659 (ACCCTAAAGGT) k = 4 posicao = 3 chi2 = 984 (ACCTTAAAGGT)

Quorum = 75 17722 motivos encontrados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 50

k = 1 posicao = 4 chi2 = 651 (ACCCTAAAGGT) k = 1 posicao = 2 chi2 = 988 (ACCTTAAAGGT) k = 2 posicao = 3 chi2 = 659 (ACCCTAAAGGT) k = 2 posicao = 2 chi2 = 992 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 655 (ACCCTAAAGGT) k = 3 posicao = 3 chi2 = 976 (ACCTTAAAGGT) k = 4 posicao = 3 chi2 = 655 (ACCCTAAAGGT) k = 4 posicao = 5 chi2 = 984 (ACCTTAAAGGT)

Quorum = 60 34907 motivos encontrados k = 1 posicao = 11 chi2 = 655 (ACCCTAAAGGT) k = 1 posicao = 5 chi2 = 996 (ACCTTAAAGGT) k = 1 posicao = 13 chi2 = 421 (ACCTTGAAGGT) k = 2 posicao = 15 chi2 = 647 (ACCCTAAAGGT) k = 2 posicao = 12 chi2 = 969 (ACCTTAAAGGT) k = 2 posicao = 7 chi2 = 421 (ACCTTGAAGGT) k = 3 posicao = 9 chi2 = 655 (ACCCTAAAGGT) k = 3 posicao = 8 chi2 = 984 (ACCTTAAAGGT) k = 3 posicao = 27 chi2 = 414 (ACCTTGAAGGT) k = 4 posicao = 10 chi2 = 651 (ACCCTAAAGGT) k = 4 posicao = 5 chi2 = 984 (ACCTTAAAGGT) k = 4 posicao = 40 chi2 = 407 (ACCTTGAAGGT)

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

161 motivos encontrados Quorum = 80

381 motivos encontrados Quorum = 75

502 motivos encontrados Quorum = 60

826 motivos encontrados k = 1 posicao = 43 chi2 = 33 (CCCCT) k = 2 posicao = 42 chi2 = 202 (CCCCT) k = 3 posicao = 48 chi2 = 142 (CCCCT) k = 4 posicao = 122 chi2 = 028 (CCCCT)

Erro = 1 Quorum = 100

4877 motivos encontrados k = 1 posicao = 3089 chi2 = 002 (CCCCT) k = 2 posicao = 2781 chi2 = 005 (CCCCT) k = 3 posicao = 3148 chi2 = 002 (CCCCT) k = 4 posicao = 2516 chi2 = 007 (CCCCT)

Quorum = 80 10050 motivos encontrados k = 1 posicao = 8449 chi2 = 0 (CCCCT) k = 2 posicao = 5470 chi2 = 009 (CCCCT) k = 3 posicao = 5867 chi2 = 004 (CCCCT) k = 4 posicao = 5131 chi2 = 009 (CCCCT)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 51

Quorum = 75

13080 motivos encontrados k = 1 posicao = 7539 chi2 = 004 (CCCCT) k = 2 posicao = 8129 chi2 = 002 (CCCCT) k = 3 posicao = 7900 chi2 = 003 (CCCCT) k = 4 posicao = 7385 chi2 = 005 (CCCCT)

Quorum = 60 21544 motivos encontrados k = 1 posicao = 12673 chi2 = 004 (CCCCT) k = 2 posicao = 11871 chi2 = 008 (CCCCT) k = 3 posicao = 12731 chi2 = 004 (CCCCT) k = 4 posicao = 11754 chi2 = 007 (CCCCT)

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

326 motivos encontrados Quorum = 80

682 motivos encontrados k = 1 posicao = 169 chi2 = 109 (CCCCT) k = 2 posicao = 238 chi2 = 073 (CCCCT) k = 3 posicao = 223 chi2 = 057 (CCCCT) k = 4 posicao = 331 chi2 = 01 (CCCCT)

Quorum = 75 682 motivos encontrados k = 1 posicao = 136 chi2 = 131 (CCCCT) k = 2 posicao = 178 chi2 = 085 (CCCCT) k = 3 posicao = 245 chi2 = 042 (CCCCT) k = 4 posicao = 331 chi2 = 01 (CCCCT)

Quorum = 60 1316 motivos encontrados k = 1 posicao = 303 chi2 = 17 (CCCCT) k = 2 posicao = 505 chi2 = 075 (CCCCT) k = 3 posicao = 457 chi2 = 059 (CCCCT) k = 4 posicao = 613 chi2 = 014 (CCCCT)

Erro = 1 Quorum = 100

9022 motivos encontrados k = 1 posicao = 7955 chi2 = 0 (CCCCT) k = 2 posicao = 7901 chi2 = 0 (CCCCT) k = 3 posicao = 7846 chi2 = 0 (CCCCT) k = 4 posicao = 7711 chi2 = 0 (CCCCT)

Quorum = 80 17951 motivos encontrados k = 1 posicao = 16310 chi2 = 0 (CCCCT) k = 2 posicao = 16251 chi2 = 0 (CCCCT) k = 3 posicao = 16207 chi2 = 0 (CCCCT) k = 4 posicao = 16091 chi2 = 0 (CCCCT)

Quorum = 75 17951 motivos encontrados k = 1 posicao = 16308 chi2 = 0 (CCCCT)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 52

k = 2 posicao = 16242 chi2 = 0 (CCCCT) k = 3 posicao = 16212 chi2 = 0 (CCCCT) k = 4 posicao = 16063 chi2 = 0 (CCCCT)

Quorum = 60 35258 motivos encontrados k = 1 posicao = 32818 chi2 = 0 (CCCCT) k = 2 posicao = 32757 chi2 = 0 (CCCCT) k = 3 posicao = 32822 chi2 = 0 (CCCCT) k = 4 posicao = 32656 chi2 = 0 (CCCCT)

5_1_gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

220 motivos encontrados Quorum = 80

517 motivos encontrados k = 1 posicao = 52 chi2 = 254 (CTTCC) k = 2 posicao = 87 chi2 = 146 (CTTCC) k = 3 posicao = 164 chi2 = 067 (CTTCC) k = 4 posicao = 236 chi2 = 004 (CTTCC)

Quorum = 75 517 motivos encontrados k = 1 posicao = 77 chi2 = 246 (CTTCC) k = 2 posicao = 83 chi2 = 152 (CTTCC) k = 3 posicao = 99 chi2 = 098 (CTTCC) k = 4 posicao = 241 chi2 = 003 (CTTCC)

Quorum = 60 963 motivos encontrados k = 1 posicao = 625 chi2 = 003 (CATCC) k = 1 posicao = 128 chi2 = 284 (CTTCC) k = 2 posicao = 644 chi2 = 003 (CATCC) k = 2 posicao = 170 chi2 = 177 (CTTCC) k = 3 posicao = 490 chi2 = 015 (CATCC) k = 3 posicao = 256 chi2 = 107 (CTTCC) k = 4 posicao = 522 chi2 = 0 (CATCC) k = 4 posicao = 497 chi2 = 004 (CTTCC)

Erro = 1 Quorum = 100

6121 motivos encontrados k = 1 posicao = 5072 chi2 = 0 (CATCC) k = 1 posicao = 5313 chi2 = 0 (CTTCC) k = 2 posicao = 5049 chi2 = 0 (CATCC) k = 2 posicao = 5287 chi2 = 0 (CTTCC) k = 3 posicao = 4984 chi2 = 0 (CATCC) k = 3 posicao = 5236 chi2 = 0 (CTTCC) k = 4 posicao = 4894 chi2 = 0 (CATCC) k = 4 posicao = 5167 chi2 = 0 (CTTCC)

Quorum = 80 13644 motivos encontrados k = 1 posicao = 11732 chi2 = 0 (CATCC) k = 1 posicao = 11981 chi2 = 0 (CTTCC)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 53

k = 2 posicao = 11792 chi2 = 0 (CATCC) k = 2 posicao = 12044 chi2 = 0 (CTTCC) k = 3 posicao = 11736 chi2 = 0 (CATCC) k = 3 posicao = 11985 chi2 = 0 (CTTCC) k = 4 posicao = 11644 chi2 = 0 (CATCC) k = 4 posicao = 11917 chi2 = 0 (CTTCC)

Quorum = 75 13644 motivos encontrados k = 1 posicao = 11712 chi2 = 0 (CATCC) k = 1 posicao = 11966 chi2 = 0 (CTTCC) k = 2 posicao = 11791 chi2 = 0 (CATCC) k = 2 posicao = 12027 chi2 = 0 (CTTCC) k = 3 posicao = 11729 chi2 = 0 (CATCC) k = 3 posicao = 11981 chi2 = 0 (CTTCC) k = 4 posicao = 11649 chi2 = 0 (CATCC) k = 4 posicao = 11920 chi2 = 0 (CTTCC)

Quorum = 60 25804 motivos encontrados k = 1 posicao = 22732 chi2 = 0 (CATCC) k = 1 posicao = 22973 chi2 = 0 (CTTCC) k = 2 posicao = 22881 chi2 = 0 (CATCC) k = 2 posicao = 23121 chi2 = 0 (CTTCC) k = 3 posicao = 22916 chi2 = 0 (CATCC) k = 3 posicao = 23164 chi2 = 0 (CTTCC) k = 4 posicao = 22864 chi2 = 0 (CATCC) k = 4 posicao = 23141 chi2 = 0 (CTTCC)

6_0_MIG1

Motivo GCGGGG Frequecircncia 16 ~167 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

290 motivos encontrados Quorum = 80

556 motivos encontrados Quorum = 75

556 motivos encontrados Quorum = 60

927 motivos encontrados Erro = 1

Quorum = 100 7881 motivos encontrados k = 1 posicao = 650 chi2 = 252 (GCGGGG) k = 2 posicao = 773 chi2 = 173 (GCGGGG) k = 3 posicao = 1341 chi2 = 101 (GCGGGG) k = 4 posicao = 4437 chi2 = 052 (GCGGGG)

Quorum = 80 14601 motivos encontrados k = 1 posicao = 1895 chi2 = 249 (GCGGGG) k = 2 posicao = 2045 chi2 = 161 (GCGGGG) k = 3 posicao = 3284 chi2 = 11 (GCGGGG) k = 4 posicao = 7272 chi2 = 05 (GCGGGG)

Quorum = 75

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 54

14601 motivos encontrados k = 1 posicao = 2121 chi2 = 234 (GCGGGG) k = 2 posicao = 2604 chi2 = 153 (GCGGGG) k = 3 posicao = 3778 chi2 = 089 (GCGGGG) k = 4 posicao = 8057 chi2 = 047 (GCGGGG)

Quorum = 60 25117 motivos encontrados k = 1 posicao = 4371 chi2 = 234 (GCGGGG) k = 2 posicao = 5452 chi2 = 153 (GCGGGG) k = 3 posicao = 7361 chi2 = 116 (GCGGGG) k = 4 posicao = 12643 chi2 = 051 (GCGGGG)

6_0_UME6

Motivo GCCGCC Frequecircncia 37 ~4286 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

257 motivos encontrados Quorum = 80

454 motivos encontrados Quorum = 75

454 motivos encontrados Quorum = 60

748 motivos encontrados Erro = 1

Quorum = 100 7186 motivos encontrados

Quorum = 80 12323 motivos encontrados

Quorum = 75 12323 motivos encontrados

Quorum = 60 19726 motivos encontrados k = 1 posicao = 13214 chi2 = 002 (GCCGCC) k = 2 posicao = 14628 chi2 = 0 (GCCGCC) k = 3 posicao = 14684 chi2 = 0 (GCCGCC) k = 4 posicao = 15398 chi2 = 002 (GCCGCC)

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

173 motivos encontrados Quorum = 80

403 motivos encontrados Quorum = 75

530 motivos encontrados k = 1 posicao = 6 chi2 = 755 (GATAAG)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 55

k = 2 posicao = 3 chi2 = 892 (GATAAG) k = 3 posicao = 3 chi2 = 725 (GATAAG) k = 4 posicao = 12 chi2 = 457 (GATAAG)

Quorum = 60 836 motivos encontrados k = 1 posicao = 24 chi2 = 771 (GATAAG) k = 2 posicao = 7 chi2 = 94 (GATAAG) k = 3 posicao = 12 chi2 = 719 (GATAAG) k = 4 posicao = 25 chi2 = 48 (GATAAG)

Erro = 1 Quorum = 100

5360 motivos encontrados k = 1 posicao = 2690 chi2 = 012 (GATAAG) k = 1 posicao = 3118 chi2 = 008 (GATTAG) k = 2 posicao = 2917 chi2 = 01 (GATAAG) k = 2 posicao = 2424 chi2 = 02 (GATTAG) k = 3 posicao = 3096 chi2 = 007 (GATAAG) k = 3 posicao = 1982 chi2 = 033 (GATTAG) k = 4 posicao = 3004 chi2 = 007 (GATAAG) k = 4 posicao = 2767 chi2 = 01 (GATTAG)

Quorum = 80 10819 motivos encontrados k = 1 posicao = 6729 chi2 = 011 (GATAAG) k = 1 posicao = 6816 chi2 = 009 (GATTAG) k = 2 posicao = 6240 chi2 = 013 (GATAAG) k = 2 posicao = 6446 chi2 = 011 (GATTAG) k = 3 posicao = 7301 chi2 = 004 (GATAAG) k = 3 posicao = 4235 chi2 = 053 (GATTAG) k = 4 posicao = 7045 chi2 = 004 (GATAAG) k = 4 posicao = 6317 chi2 = 012 (GATTAG)

Quorum = 75 13889 motivos encontrados k = 1 posicao = 9061 chi2 = 007 (GATAAG) k = 1 posicao = 8672 chi2 = 01 (GATTAG) k = 2 posicao = 8095 chi2 = 016 (GATAAG) k = 2 posicao = 8763 chi2 = 01 (GATTAG) k = 3 posicao = 8965 chi2 = 008 (GATAAG) k = 3 posicao = 6907 chi2 = 036 (GATTAG) k = 4 posicao = 8966 chi2 = 006 (GATAAG) k = 4 posicao = 8323 chi2 = 011 (GATTAG)

Quorum = 60 22209 motivos encontrados k = 1 posicao = 14904 chi2 = 008 (GATAAG) k = 1 posicao = 14384 chi2 = 013 (GATTAG) k = 2 posicao = 13923 chi2 = 015 (GATAAG) k = 2 posicao = 13902 chi2 = 015 (GATTAG) k = 3 posicao = 14932 chi2 = 008 (GATAAG) k = 3 posicao = 11534 chi2 = 046 (GATTAG) k = 4 posicao = 14680 chi2 = 007 (GATAAG) k = 4 posicao = 13878 chi2 = 017 (GATTAG)

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 56

Erro = 0 Quorum = 100

128 motivos encontrados Quorum = 80

372 motivos encontrados Quorum = 75

454 motivos encontrados Quorum = 60

785 motivos encontrados Erro = 1

Quorum = 100 4212 motivos encontrados k = 1 posicao = 326 chi2 = 14 (CACCCA) k = 2 posicao = 594 chi2 = 108 (CACCCA) k = 3 posicao = 244 chi2 = 107 (CACCCA) k = 4 posicao = 1210 chi2 = 038 (CACCCA)

Quorum = 80 9800 motivos encontrados k = 1 posicao = 1302 chi2 = 157 (CACCCA) k = 1 posicao = 2061 chi2 = 087 (CACCCG) k = 2 posicao = 2058 chi2 = 117 (CACCCA) k = 2 posicao = 2522 chi2 = 059 (CACCCG) k = 3 posicao = 1624 chi2 = 106 (CACCCA) k = 3 posicao = 2994 chi2 = 045 (CACCCG) k = 4 posicao = 2703 chi2 = 05 (CACCCA) k = 4 posicao = 3926 chi2 = 011 (CACCCG)

Quorum = 75 11933 motivos encontrados k = 1 posicao = 1951 chi2 = 145 (CACCCA) k = 1 posicao = 2903 chi2 = 081 (CACCCG) k = 2 posicao = 2227 chi2 = 116 (CACCCA) k = 2 posicao = 3417 chi2 = 062 (CACCCG) k = 3 posicao = 2137 chi2 = 108 (CACCCA) k = 3 posicao = 3426 chi2 = 041 (CACCCG) k = 4 posicao = 4518 chi2 = 031 (CACCCA) k = 4 posicao = 4805 chi2 = 012 (CACCCG)

Quorum = 60 20531 motivos encontrados k = 1 posicao = 5137 chi2 = 144 (CACCCA) k = 1 posicao = 5556 chi2 = 073 (CACCCG) k = 2 posicao = 4865 chi2 = 113 (CACCCA) k = 2 posicao = 5737 chi2 = 062 (CACCCG) k = 3 posicao = 4491 chi2 = 097 (CACCCA) k = 3 posicao = 5797 chi2 = 052 (CACCCG) k = 4 posicao = 7825 chi2 = 041 (CACCCA) k = 4 posicao = 7275 chi2 = 018 (CACCCG)

7_0_REB1

Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

211 motivos encontrados k = 1 posicao = 4 chi2 = 965 (TTACCC)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 57

k = 2 posicao = 4 chi2 = 105 (TTACCC) k = 3 posicao = 4 chi2 = 1075 (TTACCC) k = 4 posicao = 4 chi2 = 755 (TTACCC)

Quorum = 80 405 motivos encontrados k = 1 posicao = 4 chi2 = 932 (TTACCC) k = 2 posicao = 4 chi2 = 1083 (TTACCC) k = 3 posicao = 4 chi2 = 1106 (TTACCC) k = 4 posicao = 4 chi2 = 723 (TTACCC)

Quorum = 75 605 motivos encontrados k = 1 posicao = 6 chi2 = 947 (TTACCC) k = 2 posicao = 5 chi2 = 999 (TTACCC) k = 3 posicao = 5 chi2 = 1098 (TTACCC) k = 4 posicao = 5 chi2 = 808 (TTACCC)

Quorum = 60 907 motivos encontrados k = 1 posicao = 9 chi2 = 1007 (TTACCC) k = 2 posicao = 6 chi2 = 1089 (TTACCC) k = 3 posicao = 6 chi2 = 1081 (TTACCC) k = 4 posicao = 6 chi2 = 788 (TTACCC)

Erro = 1 Quorum = 100

6121 motivos encontrados k = 1 posicao = 4617 chi2 = 013 (TTACCC) k = 2 posicao = 4454 chi2 = 016 (TTACCC) k = 3 posicao = 4730 chi2 = 012 (TTACCC) k = 4 posicao = 5483 chi2 = 004 (TTACCC)

Quorum = 80 10337 motivos encontrados k = 1 posicao = 7525 chi2 = 008 (TTACCC) k = 2 posicao = 7267 chi2 = 01 (TTACCC) k = 3 posicao = 7129 chi2 = 012 (TTACCC) k = 4 posicao = 7469 chi2 = 009 (TTACCC)

Quorum = 75 15777 motivos encontrados k = 1 posicao = 10287 chi2 = 012 (TTACCC) k = 2 posicao = 10740 chi2 = 01 (TTACCC) k = 3 posicao = 9696 chi2 = 016 (TTACCC) k = 4 posicao = 10789 chi2 = 008 (TTACCC)

Quorum = 60 23856 motivos encontrados k = 1 posicao = 15646 chi2 = 01 (TTACCC) k = 2 posicao = 15437 chi2 = 012 (TTACCC) k = 3 posicao = 13932 chi2 = 022 (TTACCC) k = 4 posicao = 15597 chi2 = 009 (TTACCC)

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

235 motivos encontrados Quorum = 80

475 motivos encontrados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 58

k = 1 posicao = 3 chi2 = 945 (TGCCAAG) k = 2 posicao = 2 chi2 = 92 (TGCCAAG) k = 3 posicao = 2 chi2 = 892 (TGCCAAG) k = 4 posicao = 3 chi2 = 7 (TGCCAAG)

Quorum = 75 475 motivos encontrados k = 1 posicao = 2 chi2 = 924 (TGCCAAG) k = 2 posicao = 3 chi2 = 886 (TGCCAAG) k = 3 posicao = 3 chi2 = 869 (TGCCAAG) k = 4 posicao = 2 chi2 = 678 (TGCCAAG)

Quorum = 60 785 motivos encontrados k = 1 posicao = 5 chi2 = 952 (TGCCAAG) k = 2 posicao = 4 chi2 = 934 (TGCCAAG) k = 3 posicao = 4 chi2 = 869 (TGCCAAG) k = 4 posicao = 6 chi2 = 67 (TGCCAAG)

Erro = 1 Quorum = 100

7028 motivos encontrados k = 1 posicao = 436 chi2 = 321 (TGCCAAG) k = 2 posicao = 551 chi2 = 217 (TGCCAAG) k = 3 posicao = 940 chi2 = 223 (TGCCAAG) k = 4 posicao = 1492 chi2 = 095 (TGCCAAG)

Quorum = 80 12574 motivos encontrados k = 1 posicao = 1703 chi2 = 325 (TGCCAAG) k = 2 posicao = 2035 chi2 = 244 (TGCCAAG) k = 3 posicao = 1678 chi2 = 217 (TGCCAAG) k = 4 posicao = 3298 chi2 = 093 (TGCCAAG)

Quorum = 75 12574 motivos encontrados k = 1 posicao = 1739 chi2 = 333 (TGCCAAG) k = 2 posicao = 1717 chi2 = 216 (TGCCAAG) k = 3 posicao = 1609 chi2 = 212 (TGCCAAG) k = 4 posicao = 3574 chi2 = 075 (TGCCAAG)

Quorum = 60 20257 motivos encontrados k = 1 posicao = 3598 chi2 = 304 (TGCCAAG) k = 2 posicao = 3664 chi2 = 211 (TGCCAAG) k = 3 posicao = 3206 chi2 = 213 (TGCCAAG) k = 4 posicao = 4753 chi2 = 115 (TGCCAAG)

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

267 motivos encontrados k = 1 posicao = 4 chi2 = 998 (TGAAACA) k = 2 posicao = 5 chi2 = 908 (TGAAACA) k = 3 posicao = 5 chi2 = 875 (TGAAACA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 59

k = 4 posicao = 4 chi2 = 743 (TGAAACA)

Quorum = 80 529 motivos encontrados k = 1 posicao = 4 chi2 = 969 (TGAAACA) k = 2 posicao = 6 chi2 = 84 (TGAAACA) k = 3 posicao = 5 chi2 = 845 (TGAAACA) k = 4 posicao = 5 chi2 = 702 (TGAAACA)

Quorum = 75 529 motivos encontrados k = 1 posicao = 6 chi2 = 933 (TGAAACA) k = 2 posicao = 5 chi2 = 866 (TGAAACA) k = 3 posicao = 5 chi2 = 86 (TGAAACA) k = 4 posicao = 5 chi2 = 717 (TGAAACA)

Quorum = 60 916 motivos encontrados k = 1 posicao = 12 chi2 = 956 (TGAAACA) k = 2 posicao = 13 chi2 = 893 (TGAAACA) k = 3 posicao = 16 chi2 = 84 (TGAAACA) k = 4 posicao = 18 chi2 = 715 (TGAAACA)

Erro = 1 Quorum = 100

7705 motivos encontrados k = 1 posicao = 4203 chi2 = 055 (TGAAACA) k = 2 posicao = 5562 chi2 = 02 (TGAAACA) k = 3 posicao = 5481 chi2 = 021 (TGAAACA) k = 4 posicao = 6219 chi2 = 012 (TGAAACA)

Quorum = 80 14161 motivos encontrados k = 1 posicao = 8113 chi2 = 052 (TGAAACA) k = 2 posicao = 9261 chi2 = 022 (TGAAACA) k = 3 posicao = 8536 chi2 = 029 (TGAAACA) k = 4 posicao = 10343 chi2 = 01 (TGAAACA)

Quorum = 75 14161 motivos encontrados k = 1 posicao = 7156 chi2 = 066 (TGAAACA) k = 2 posicao = 8778 chi2 = 028 (TGAAACA) k = 3 posicao = 8848 chi2 = 034 (TGAAACA) k = 4 posicao = 9747 chi2 = 015 (TGAAACA)

Quorum = 60 24421 motivos encontrados k = 1 posicao = 12918 chi2 = 049 (TGAAACA) k = 2 posicao = 15781 chi2 = 024 (TGAAACA) k = 3 posicao = 13941 chi2 = 03 (TGAAACA) k = 4 posicao = 16147 chi2 = 017 (TGAAACA)

7_1_SWI4

Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

330 motivos encontrados Quorum = 80

675 motivos encontrados k = 1 posicao = 3 chi2 = 575 (CGCGAAA) k = 2 posicao = 3 chi2 = 483 (CGCGAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 60

k = 3 posicao = 11 chi2 = 395 (CGCGAAA) k = 4 posicao = 5 chi2 = 367 (CGCGAAA)

Quorum = 75 675 motivos encontrados k = 1 posicao = 2 chi2 = 6 (CGCGAAA) k = 2 posicao = 4 chi2 = 504 (CGCGAAA) k = 3 posicao = 14 chi2 = 372 (CGCGAAA) k = 4 posicao = 14 chi2 = 343 (CGCGAAA)

Quorum = 60 1349 motivos encontrados k = 1 posicao = 50 chi2 = 31 (CACGAAA) k = 1 posicao = 8 chi2 = 569 (CGCGAAA) k = 2 posicao = 81 chi2 = 26 (CACGAAA) k = 2 posicao = 20 chi2 = 48 (CGCGAAA) k = 3 posicao = 117 chi2 = 21 (CACGAAA) k = 3 posicao = 47 chi2 = 37 (CGCGAAA) k = 4 posicao = 309 chi2 = 056 (CACGAAA) k = 4 posicao = 33 chi2 = 367 (CGCGAAA)

Erro = 1 Quorum = 100

8974 motivos encontrados k = 1 posicao = 2630 chi2 = 093 (CACGAAA) k = 1 posicao = 1189 chi2 = 212 (CGCGAAA) k = 2 posicao = 3046 chi2 = 07 (CACGAAA) k = 2 posicao = 2138 chi2 = 101 (CGCGAAA) k = 3 posicao = 4224 chi2 = 03 (CACGAAA) k = 3 posicao = 4064 chi2 = 04 (CGCGAAA) k = 4 posicao = 5230 chi2 = 012 (CACGAAA) k = 4 posicao = 4771 chi2 = 018 (CGCGAAA)

Quorum = 80 17937 motivos encontrados k = 1 posicao = 6152 chi2 = 107 (CACGAAA) k = 1 posicao = 3575 chi2 = 211 (CGCGAAA) k = 2 posicao = 7073 chi2 = 071 (CACGAAA) k = 2 posicao = 6979 chi2 = 078 (CGCGAAA) k = 3 posicao = 9212 chi2 = 035 (CACGAAA) k = 3 posicao = 8502 chi2 = 038 (CGCGAAA) k = 4 posicao = 10421 chi2 = 017 (CACGAAA) k = 4 posicao = 9629 chi2 = 026 (CGCGAAA)

Quorum = 75 17937 motivos encontrados k = 1 posicao = 6271 chi2 = 104 (CACGAAA) k = 1 posicao = 4092 chi2 = 171 (CGCGAAA) k = 2 posicao = 8574 chi2 = 052 (CACGAAA) k = 2 posicao = 5741 chi2 = 107 (CGCGAAA) k = 3 posicao = 10092 chi2 = 026 (CACGAAA) k = 3 posicao = 8743 chi2 = 044 (CGCGAAA) k = 4 posicao = 11741 chi2 = 009 (CACGAAA) k = 4 posicao = 9601 chi2 = 022 (CGCGAAA)

Quorum = 60 35352 motivos encontrados k = 1 posicao = 15854 chi2 = 094 (CACGAAA) k = 1 posicao = 9842 chi2 = 196 (CGCGAAA) k = 2 posicao = 18655 chi2 = 063 (CACGAAA) k = 2 posicao = 16854 chi2 = 093 (CGCGAAA) k = 3 posicao = 21349 chi2 = 025 (CACGAAA) k = 3 posicao = 19789 chi2 = 036 (CGCGAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 61

k = 4 posicao = 22509 chi2 = 016 (CACGAAA) k = 4 posicao = 21049 chi2 = 027 (CGCGAAA)

7_2_GCN4

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

229 motivos encontrados Quorum = 80

372 motivos encontrados Quorum = 75

586 motivos encontrados Quorum = 60

839 motivos encontrados Erro = 1

Quorum = 100 6343 motivos encontrados

Quorum = 80 10422 motivos encontrados

Quorum = 75 15227 motivos encontrados

Quorum = 60 21609 motivos encontrados

7_2_RGT1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

205 motivos encontrados Quorum = 80

496 motivos encontrados k = 1 posicao = 4 chi2 = 1052 (CGGAAAA) k = 2 posicao = 2 chi2 = 883 (CGGAAAA) k = 3 posicao = 2 chi2 = 692 (CGGAAAA) k = 4 posicao = 10 chi2 = 308 (CGGAAAA)

Quorum = 75 496 motivos encontrados k = 1 posicao = 4 chi2 = 1101 (CGGAAAA) k = 2 posicao = 3 chi2 = 855 (CGGAAAA) k = 3 posicao = 4 chi2 = 685 (CGGAAAA) k = 4 posicao = 9 chi2 = 338 (CGGAAAA)

Quorum = 60 987 motivos encontrados k = 1 posicao = 10 chi2 = 1087 (CGGAAAA) k = 2 posicao = 11 chi2 = 792 (CGGAAAA) k = 3 posicao = 10 chi2 = 637 (CGGAAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 62

k = 4 posicao = 27 chi2 = 333 (CGGAAAA)

Erro = 1 Quorum = 100

6085 motivos encontrados k = 1 posicao = 740 chi2 = 226 (CGGAAAA) k = 1 posicao = 244 chi2 = 442 (CGGAAGA) k = 1 posicao = 375 chi2 = 415 (CGGAGAA) k = 1 posicao = 795 chi2 = 205 (CGGATAA) k = 2 posicao = 1431 chi2 = 069 (CGGAAAA) k = 2 posicao = 350 chi2 = 257 (CGGAAGA) k = 2 posicao = 313 chi2 = 281 (CGGAGAA) k = 2 posicao = 403 chi2 = 257 (CGGATAA) k = 3 posicao = 2933 chi2 = 015 (CGGAAAA) k = 3 posicao = 543 chi2 = 161 (CGGAAGA) k = 3 posicao = 758 chi2 = 162 (CGGAGAA) k = 3 posicao = 334 chi2 = 242 (CGGATAA) k = 4 posicao = 3388 chi2 = 006 (CGGAAAA) k = 4 posicao = 944 chi2 = 088 (CGGAAGA) k = 4 posicao = 682 chi2 = 096 (CGGAGAA) k = 4 posicao = 448 chi2 = 157 (CGGATAA)

Quorum = 80 13578 motivos encontrados k = 1 posicao = 2782 chi2 = 211 (CGGAAAA) k = 1 posicao = 1309 chi2 = 443 (CGGAAGA) k = 1 posicao = 9793 chi2 = 0 (CGGAATA) k = 1 posicao = 1525 chi2 = 436 (CGGAGAA) k = 1 posicao = 1267 chi2 = 351 (CGGAGGA) k = 1 posicao = 2001 chi2 = 282 (CGGATAA) k = 1 posicao = 4454 chi2 = 055 (CGGATTA) k = 2 posicao = 4354 chi2 = 063 (CGGAAAA) k = 2 posicao = 1547 chi2 = 273 (CGGAAGA) k = 2 posicao = 7920 chi2 = 004 (CGGAATA) k = 2 posicao = 2260 chi2 = 262 (CGGAGAA) k = 2 posicao = 1049 chi2 = 271 (CGGAGGA) k = 2 posicao = 1502 chi2 = 271 (CGGATAA) k = 2 posicao = 3568 chi2 = 083 (CGGATTA) k = 3 posicao = 6889 chi2 = 02 (CGGAAAA) k = 3 posicao = 2122 chi2 = 16 (CGGAAGA) k = 3 posicao = 10332 chi2 = 01 (CGGAATA) k = 3 posicao = 2408 chi2 = 144 (CGGAGAA) k = 3 posicao = 1273 chi2 = 214 (CGGAGGA) k = 3 posicao = 1406 chi2 = 211 (CGGATAA) k = 3 posicao = 1203 chi2 = 189 (CGGATTA) k = 4 posicao = 8380 chi2 = 003 (CGGAAAA) k = 4 posicao = 4250 chi2 = 074 (CGGAAGA) k = 4 posicao = 12881 chi2 = 037 (CGGAATA) k = 4 posicao = 3392 chi2 = 088 (CGGAGAA) k = 4 posicao = 1278 chi2 = 162 (CGGAGGA) k = 4 posicao = 1930 chi2 = 148 (CGGATAA) k = 4 posicao = 1157 chi2 = 136 (CGGATTA)

Quorum = 75 13578 motivos encontrados k = 1 posicao = 2620 chi2 = 264 (CGGAAAA) k = 1 posicao = 1452 chi2 = 443 (CGGAAGA) k = 1 posicao = 8943 chi2 = 001 (CGGAATA) k = 1 posicao = 1121 chi2 = 446 (CGGAGAA) k = 1 posicao = 965 chi2 = 424 (CGGAGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 63

k = 1 posicao = 2453 chi2 = 246 (CGGATAA) k = 1 posicao = 3571 chi2 = 086 (CGGATTA) k = 2 posicao = 4690 chi2 = 069 (CGGAAAA) k = 2 posicao = 1475 chi2 = 255 (CGGAAGA) k = 2 posicao = 7150 chi2 = 01 (CGGAATA) k = 2 posicao = 1209 chi2 = 259 (CGGAGAA) k = 2 posicao = 837 chi2 = 274 (CGGAGGA) k = 2 posicao = 1900 chi2 = 268 (CGGATAA) k = 2 posicao = 3981 chi2 = 066 (CGGATTA) k = 3 posicao = 6549 chi2 = 022 (CGGAAAA) k = 3 posicao = 1447 chi2 = 191 (CGGAAGA) k = 3 posicao = 10656 chi2 = 018 (CGGAATA) k = 3 posicao = 2435 chi2 = 155 (CGGAGAA) k = 3 posicao = 1026 chi2 = 21 (CGGAGGA) k = 3 posicao = 1469 chi2 = 233 (CGGATAA) k = 3 posicao = 1202 chi2 = 189 (CGGATTA) k = 4 posicao = 11692 chi2 = 0 (CGGAAAA) k = 4 posicao = 3717 chi2 = 077 (CGGAAGA) k = 4 posicao = 10890 chi2 = 035 (CGGAATA) k = 4 posicao = 3482 chi2 = 087 (CGGAGAA) k = 4 posicao = 1187 chi2 = 168 (CGGAGGA) k = 4 posicao = 1746 chi2 = 148 (CGGATAA) k = 4 posicao = 1204 chi2 = 149 (CGGATTA)

Quorum = 60 25839 motivos encontrados k = 1 posicao = 5870 chi2 = 247 (CGGAAAA) k = 1 posicao = 4726 chi2 = 405 (CGGAAGA) k = 1 posicao = 18076 chi2 = 0 (CGGAATA) k = 1 posicao = 3940 chi2 = 388 (CGGAGAA) k = 1 posicao = 3424 chi2 = 384 (CGGAGGA) k = 1 posicao = 15679 chi2 = 005 (CGGAGTA) k = 1 posicao = 6177 chi2 = 245 (CGGATAA) k = 1 posicao = 15167 chi2 = 008 (CGGATGA) k = 1 posicao = 11165 chi2 = 059 (CGGATTA) k = 2 posicao = 11428 chi2 = 046 (CGGAAAA) k = 2 posicao = 4811 chi2 = 242 (CGGAAGA) k = 2 posicao = 16216 chi2 = 003 (CGGAATA) k = 2 posicao = 4128 chi2 = 226 (CGGAGAA) k = 2 posicao = 3005 chi2 = 278 (CGGAGGA) k = 2 posicao = 10245 chi2 = 04 (CGGAGTA) k = 2 posicao = 3437 chi2 = 3 (CGGATAA) k = 2 posicao = 10379 chi2 = 033 (CGGATGA) k = 2 posicao = 8888 chi2 = 072 (CGGATTA) k = 3 posicao = 13836 chi2 = 017 (CGGAAAA) k = 3 posicao = 4943 chi2 = 191 (CGGAAGA) k = 3 posicao = 20550 chi2 = 01 (CGGAATA) k = 3 posicao = 6774 chi2 = 155 (CGGAGAA) k = 3 posicao = 2524 chi2 = 222 (CGGAGGA) k = 3 posicao = 13828 chi2 = 01 (CGGAGTA) k = 3 posicao = 4859 chi2 = 197 (CGGATAA) k = 3 posicao = 9284 chi2 = 029 (CGGATGA) k = 3 posicao = 3146 chi2 = 179 (CGGATTA) k = 4 posicao = 17095 chi2 = 001 (CGGAAAA) k = 4 posicao = 7930 chi2 = 083 (CGGAAGA) k = 4 posicao = 24667 chi2 = 051 (CGGAATA) k = 4 posicao = 9042 chi2 = 083 (CGGAGAA) k = 4 posicao = 3884 chi2 = 147 (CGGAGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 64

k = 4 posicao = 13905 chi2 = 007 (CGGAGTA) k = 4 posicao = 4859 chi2 = 156 (CGGATAA) k = 4 posicao = 14606 chi2 = 005 (CGGATGA) k = 4 posicao = 3783 chi2 = 127 (CGGATTA)

8_1_PDR1

Motivo TCCGYGGA Frequecircncia 68 ~75 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

229 motivos encontrados Quorum = 80

416 motivos encontrados Quorum = 75

639 motivos encontrados k = 1 posicao = 2 chi2 = 96 (TCCGCGGA) k = 2 posicao = 2 chi2 = 941 (TCCGCGGA) k = 3 posicao = 2 chi2 = 915 (TCCGCGGA) k = 4 posicao = 2 chi2 = 674 (TCCGCGGA)

Quorum = 60 950 motivos encontrados k = 1 posicao = 4 chi2 = 937 (TCCGCGGA) k = 2 posicao = 3 chi2 = 933 (TCCGCGGA) k = 3 posicao = 3 chi2 = 926 (TCCGCGGA) k = 4 posicao = 3 chi2 = 686 (TCCGCGGA)

Erro = 1 Quorum = 100

6610 motivos encontrados k = 1 posicao = 8 chi2 = 1095 (TCCGCGGA) k = 1 posicao = 15 chi2 = 1007 (TCCGTGGA) k = 2 posicao = 8 chi2 = 1092 (TCCGCGGA) k = 2 posicao = 18 chi2 = 1039 (TCCGTGGA) k = 3 posicao = 11 chi2 = 907 (TCCGCGGA) k = 3 posicao = 9 chi2 = 881 (TCCGTGGA) k = 4 posicao = 18 chi2 = 517 (TCCGCGGA) k = 4 posicao = 8 chi2 = 759 (TCCGTGGA)

Quorum = 80 11058 motivos encontrados k = 1 posicao = 32 chi2 = 1126 (TCCGCGGA) k = 1 posicao = 48 chi2 = 1053 (TCCGTGGA) k = 2 posicao = 21 chi2 = 1053 (TCCGCGGA) k = 2 posicao = 19 chi2 = 1098 (TCCGTGGA) k = 3 posicao = 29 chi2 = 881 (TCCGCGGA) k = 3 posicao = 60 chi2 = 808 (TCCGTGGA) k = 4 posicao = 97 chi2 = 509 (TCCGCGGA) k = 4 posicao = 42 chi2 = 698 (TCCGTGGA)

Quorum = 75 16695 motivos encontrados k = 1 posicao = 92 chi2 = 1126 (TCCGCGGA) k = 1 posicao = 178 chi2 = 1026 (TCCGTGGA) k = 2 posicao = 70 chi2 = 1092 (TCCGCGGA) k = 2 posicao = 73 chi2 = 1069 (TCCGTGGA) k = 3 posicao = 64 chi2 = 983 (TCCGCGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 65

k = 3 posicao = 83 chi2 = 898 (TCCGTGGA) k = 4 posicao = 336 chi2 = 48 (TCCGCGGA) k = 4 posicao = 130 chi2 = 657 (TCCGTGGA)

Quorum = 60 25049 motivos encontrados k = 1 posicao = 220 chi2 = 1135 (TCCGCGGA) k = 1 posicao = 369 chi2 = 1004 (TCCGTGGA) k = 2 posicao = 83 chi2 = 1159 (TCCGCGGA) k = 2 posicao = 263 chi2 = 1045 (TCCGTGGA) k = 3 posicao = 134 chi2 = 883 (TCCGCGGA) k = 3 posicao = 206 chi2 = 857 (TCCGTGGA) k = 4 posicao = 580 chi2 = 488 (TCCGCGGA) k = 4 posicao = 213 chi2 = 67 (TCCGTGGA)

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

241 motivos encontrados Quorum = 80

423 motivos encontrados k = 1 posicao = 2 chi2 = 1237 (TCCGCGGA) k = 2 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 3 posicao = 2 chi2 = 1229 (TCCGCGGA) k = 4 posicao = 2 chi2 = 915 (TCCGCGGA)

Quorum = 75 667 motivos encontrados k = 1 posicao = 2 chi2 = 1237 (TCCGCGGA) k = 2 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 3 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 4 posicao = 2 chi2 = 909 (TCCGCGGA)

Quorum = 60 1024 motivos encontrados k = 1 posicao = 3 chi2 = 1233 (TCCGCGGA) k = 2 posicao = 4 chi2 = 124 (TCCGCGGA) k = 3 posicao = 3 chi2 = 1221 (TCCGCGGA) k = 4 posicao = 5 chi2 = 918 (TCCGCGGA)

Erro = 1 Quorum = 100

6897 motivos encontrados k = 1 posicao = 17 chi2 = 1115 (TCCGCGGA) k = 1 posicao = 24 chi2 = 1026 (TCCGTGGA) k = 2 posicao = 12 chi2 = 1174 (TCCGCGGA) k = 2 posicao = 10 chi2 = 1138 (TCCGTGGA) k = 3 posicao = 17 chi2 = 945 (TCCGCGGA) k = 3 posicao = 29 chi2 = 827 (TCCGTGGA) k = 4 posicao = 65 chi2 = 481 (TCCGCGGA) k = 4 posicao = 39 chi2 = 616 (TCCGTGGA)

Quorum = 80 11592 motivos encontrados k = 1 posicao = 69 chi2 = 1156 (TCCGCGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 66

k = 1 posicao = 117 chi2 = 1012 (TCCGTGGA) k = 2 posicao = 38 chi2 = 1177 (TCCGCGGA) k = 2 posicao = 69 chi2 = 1061 (TCCGTGGA) k = 3 posicao = 76 chi2 = 893 (TCCGCGGA) k = 3 posicao = 53 chi2 = 817 (TCCGTGGA) k = 4 posicao = 131 chi2 = 526 (TCCGCGGA) k = 4 posicao = 61 chi2 = 638 (TCCGTGGA)

Quorum = 75 17555 motivos encontrados k = 1 posicao = 210 chi2 = 1109 (TCCGCGGA) k = 1 posicao = 265 chi2 = 1061 (TCCGTGGA) k = 2 posicao = 78 chi2 = 115 (TCCGCGGA) k = 2 posicao = 102 chi2 = 1109 (TCCGTGGA) k = 3 posicao = 184 chi2 = 905 (TCCGCGGA) k = 3 posicao = 105 chi2 = 85 (TCCGTGGA) k = 4 posicao = 424 chi2 = 451 (TCCGCGGA) k = 4 posicao = 476 chi2 = 582 (TCCGTGGA)

Quorum = 60 26303 motivos encontrados k = 1 posicao = 433 chi2 = 1118 (TCCGCGGA) k = 1 posicao = 521 chi2 = 991 (TCCGTGGA) k = 2 posicao = 237 chi2 = 1064 (TCCGCGGA) k = 2 posicao = 322 chi2 = 1045 (TCCGTGGA) k = 3 posicao = 316 chi2 = 95 (TCCGCGGA) k = 3 posicao = 415 chi2 = 827 (TCCGTGGA) k = 4 posicao = 978 chi2 = 49 (TCCGCGGA) k = 4 posicao = 1277 chi2 = 616 (TCCGTGGA)

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

328 motivos encontrados Quorum = 80

685 motivos encontrados Quorum = 75

685 motivos encontrados Quorum = 60

1319 motivos encontrados k = 1 posicao = 4 chi2 = 411 (TCCGTGGA) k = 2 posicao = 2 chi2 = 421 (TCCGTGGA) k = 3 posicao = 2 chi2 = 407 (TCCGTGGA) k = 4 posicao = 3 chi2 = 354 (TCCGTGGA)

Erro = 1 Quorum = 100

9298 motivos encontrados k = 1 posicao = 95 chi2 = 631 (TCCGAGGA) k = 1 posicao = 63 chi2 = 675 (TCCGCGGA) k = 1 posicao = 75 chi2 = 678 (TCCGTGGA) k = 2 posicao = 51 chi2 = 61 (TCCGAGGA) k = 2 posicao = 25 chi2 = 745 (TCCGCGGA) k = 2 posicao = 22 chi2 = 718 (TCCGTGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 67

k = 3 posicao = 38 chi2 = 538 (TCCGAGGA) k = 3 posicao = 68 chi2 = 543 (TCCGCGGA) k = 3 posicao = 64 chi2 = 57 (TCCGTGGA) k = 4 posicao = 48 chi2 = 529 (TCCGAGGA) k = 4 posicao = 161 chi2 = 389 (TCCGCGGA) k = 4 posicao = 78 chi2 = 477 (TCCGTGGA)

Quorum = 80 18263 motivos encontrados k = 1 posicao = 551 chi2 = 592 (TCCGAGGA) k = 1 posicao = 147 chi2 = 754 (TCCGCGGA) k = 1 posicao = 282 chi2 = 647 (TCCGTGGA) k = 2 posicao = 296 chi2 = 605 (TCCGAGGA) k = 2 posicao = 143 chi2 = 715 (TCCGCGGA) k = 2 posicao = 182 chi2 = 681 (TCCGTGGA) k = 3 posicao = 589 chi2 = 511 (TCCGAGGA) k = 3 posicao = 347 chi2 = 553 (TCCGCGGA) k = 3 posicao = 245 chi2 = 59 (TCCGTGGA) k = 4 posicao = 429 chi2 = 462 (TCCGAGGA) k = 4 posicao = 944 chi2 = 401 (TCCGCGGA) k = 4 posicao = 577 chi2 = 41 (TCCGTGGA)

Quorum = 75 18263 motivos encontrados k = 1 posicao = 790 chi2 = 6 (TCCGAGGA) k = 1 posicao = 168 chi2 = 706 (TCCGCGGA) k = 1 posicao = 451 chi2 = 631 (TCCGTGGA) k = 2 posicao = 195 chi2 = 623 (TCCGAGGA) k = 2 posicao = 152 chi2 = 695 (TCCGCGGA) k = 2 posicao = 155 chi2 = 686 (TCCGTGGA) k = 3 posicao = 159 chi2 = 546 (TCCGAGGA) k = 3 posicao = 286 chi2 = 546 (TCCGCGGA) k = 3 posicao = 281 chi2 = 585 (TCCGTGGA) k = 4 posicao = 342 chi2 = 46 (TCCGAGGA) k = 4 posicao = 562 chi2 = 381 (TCCGCGGA) k = 4 posicao = 632 chi2 = 401 (TCCGTGGA)

Quorum = 60 35494 motivos encontrados k = 1 posicao = 1806 chi2 = 548 (TCCGAGGA) k = 1 posicao = 1580 chi2 = 65 (TCCGCGGA) k = 1 posicao = 1668 chi2 = 595 (TCCGTGGA) k = 2 posicao = 1224 chi2 = 592 (TCCGAGGA) k = 2 posicao = 794 chi2 = 701 (TCCGCGGA) k = 2 posicao = 991 chi2 = 658 (TCCGTGGA) k = 3 posicao = 1647 chi2 = 536 (TCCGAGGA) k = 3 posicao = 2029 chi2 = 546 (TCCGCGGA) k = 3 posicao = 1118 chi2 = 57 (TCCGTGGA) k = 4 posicao = 1549 chi2 = 502 (TCCGAGGA) k = 4 posicao = 2429 chi2 = 385 (TCCGCGGA) k = 4 posicao = 2813 chi2 = 429 (TCCGTGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 68

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 69

Anexo B Comparaccedilatildeo da Significacircncia Estatiacutestica referente agrave Abundacircncia obtida pelo

Meacutetodo de Shuffling e pelo Meacutetodo Analiacutetico

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos a comparaccedilatildeo entre o valor do chi2 obtido pelo meacutetodo de shuffling e o valor obtido pelo meacutetodo analiacutetico

Cada linha diz respeito a dados em que se conserva um determinado k-mer (k) Em cada uma eacute apresentado o valor do chi2 obtido pelo meacutetodo de shuffling (chi2) e a sua posiccedilatildeo relativa na lista de motivos ordenada por valores decrescentes de chi2 face ao nuacutemero de motivos extraiacutedos Os valores acima referidos tambeacutem satildeo apresentados para o meacutetodo analiacutetico (achi2)

10_2_YRR1 Motivo TTCCGTGGAA TTCCGCGGAT TTCCGCGGAA Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=488 (633 in 8908) achi2=476 (745 in 8908) [TTCCGCGGAA]

K=2 chi2=465 (468 in 8908) achi2=464 (509 in 8908) [TTCCGCGGAA]

K=3 chi2=412 (201 in 8908) achi2=413 (230 in 8908) [TTCCGCGGAA]

K=4 chi2=253 (223 in 8908) achi2=278 (205 in 8908) [TTCCGCGGAA]

K=5 chi2=126 (277 in 8912) achi2=143 (291 in 8912) [TTCCGCGGAA]

K=6 chi2=039 (323 in 8912) achi2=041 (1035 in 8912) [TTCCGCGGAA]

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 70

Error = 1

Quorum = 80

K=1 chi2=388 (428 in 17722) achi2=387 (504 in 17722) [ACCCTAAAGGT]

K=1 chi2=474 (246 in 17722) achi2=483 (265 in 17722) [ACCTTAAAGGT]

K=2 chi2=394 (222 in 17722) achi2=389 (248 in 17722) [ACCCTAAAGGT]

K=2 chi2=474 (111 in 17722) achi2=484 (119 in 17722) [ACCTTAAAGGT]

K=3 chi2=400 (51 in 17722) achi2=391 (61 in 17722) [ACCCTAAAGGT]

K=3 chi2=477 (12 in 17722) achi2=485 (14 in 17722) [ACCTTAAAGGT]

K=4 chi2=394 (28 in 17722) achi2=387 (31 in 17722) [ACCCTAAAGGT]

K=4 chi2=488 (4 in 17722) achi2=485 (4 in 17722) [ACCTTAAAGGT]

K=5 chi2=326 (24 in 17722) achi2=343 (29 in 17722) [ACCCTAAAGGT]

K=5 chi2=435 (7 in 17722) achi2=462 (3 in 17722) [ACCTTAAAGGT]

K=6 chi2=071 (387 in 17722) achi2=282 (276 in 17722) [ACCCTAAAGGT]

K=6 chi2=310 (2 in 17722) achi2=431 (259 in 17722) [ACCTTAAAGGT]

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=344 (91 in 1316) achi2=314 (116 in 1316) [CCCCT]

K=2 chi2=187 (183 in 1316) achi2=194 (178 in 1316) [CCCCT]

K=3 chi2=164 (138 in 1316) achi2=140 (190 in 1316) [CCCCT]

K=4 chi2=088 (186 in 1316) achi2=104 (150 in 1316) [CCCCT]

Error = 1

Quorum = 60

K=1 chi2=056 (18487 in 35258) achi2=082 (15627 in 35258) [CCCCT]

K=2 chi2=000 (34670 in 35258) achi2=000 (34292 in 35258) [CCCCT]

K=3 chi2=007 (27587 in 35258) achi2=011 (25832 in 35258) [CCCCT]

K=4 chi2=044 (14195 in 35258) achi2=044 (14486 in 35258) [CCCCT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 71

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=534 (66 in 826) achi2=523 (72 in 826) [CCCCT]

K=2 chi2=290 (76 in 826) achi2=297 (75 in 826) [CCCCT]

K=3 chi2=159 (97 in 826) achi2=152 (105 in 826) [CCCCT]

K=4 chi2=022 (242 in 826) achi2=007 (382 in 826) [CCCCT]

K=5 chi2=000 (360 in 826) achi2=000 (339 in 826) [CCCCT]

K=6 chi2=000 (331 in 826) achi2=000 (604 in 826) [CCCCT]

Error = 1

Quorum = 60

K=1 chi2=372 (2640 in 21544) achi2=462 (2153 in 21544) [CCCCT]

K=2 chi2=041 (10937 in 21544) achi2=070 (8620 in 21544) [CCCCT]

K=3 chi2=000 (20651 in 21544) achi2=000 (20723 in 21544) [CCCCT]

K=4 chi2=080 (4245 in 21544) achi2=083 (4322 in 21544) [CCCCT]

K=5 chi2=000 (19590 in 21562) achi2=000 (20653 in 21562) [CCCCT]

K=6 chi2=000 (16728 in 21562) achi2=000 (21282 in 21562) [CCCCT]

5_1_Gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=080 (3213 in 6121) achi2=079 (3260 in 6121) [CATCC]

K=1 chi2=1188 (320 in 6121) achi2=1158 (344 in 6121) [CTTCC]

K=2 chi2=180 (1552 in 6121) achi2=161 (1763 in 6121) [CATCC]

K=2 chi2=504 (498 in 6121) achi2=470 (566 in 6121) [CTTCC]

K=3 chi2=205 (809 in 6121) achi2=192 (906 in 6121) [CATCC]

K=3 chi2=102 (1713 in 6121) achi2=109 (1663 in 6121) [CTTCC]

K=4 chi2=097 (929 in 6121) achi2=091 (1091 in 6121) [CATCC]

K=4 chi2=001 (5090 in 6121) achi2=001 (5126 in 6121) [CTTCC]

K=5 chi2=000 (5948 in 6121) achi2=000 (5152 in 6121) [CATCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 72

K=5 chi2=000 (4578 in 6121) achi2=000 (5000 in 6121) [CTTCC]

K=6 chi2=000 (5634 in 6121) achi2=000 (5438 in 6121) [CATCC]

K=6 chi2=000 (2279 in 6121) achi2=000 (5149 in 6121) [CTTCC]

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 chi2=292 (2311 in 10819) achi2=273 (2534 in 10819) [GATAAG]

K=1 chi2=131 (4204 in 10819) achi2=102 (4875 in 10819) [GATTAG]

K=2 chi2=499 (766 in 10819) achi2=493 (849 in 10819) [GATAAG]

K=2 chi2=280 (1760 in 10819) achi2=268 (1952 in 10819) [GATTAG]

K=3 chi2=168 (2077 in 10819) achi2=174 (2107 in 10819) [GATAAG]

K=3 chi2=953 (62 in 10819) achi2=925 (81 in 10819) [GATTAG]

K=4 chi2=014 (6803 in 10819) achi2=009 (7567 in 10819) [GATAAG]

K=4 chi2=309 (394 in 10819) achi2=352 (328 in 10819) [GATTAG]

K=5 chi2=001 (8734 in 10819) achi2=003 (7728 in 10819) [GATAAG]

K=5 chi2=176 (429 in 10819) achi2=159 (773 in 10819) [GATTAG]

K=6 chi2=000 (9825 in 10819) achi2=000 (6602 in 10819) [GATAAG]

K=6 chi2=000 (7459 in 10819) achi2=000 (6760 in 10819) [GATTAG]

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

Error = 1

Quorum = 60

K=1 chi2=382 (3218 in 20531) achi2=555 (2348 in 20531) [CACCCA]

k=1 chi2=083 (9754 in 20531) achi2=102 (9117 in 20531) [CACCCG]

K=2 chi2=330 (2327 in 20531) achi2=368 (2233 in 20531) [CACCCA]

K=2 chi2=143 (5707 in 20531) achi2=117 (6956 in 20531) [CACCCG]

K=3 chi2=209 (2208 in 20531) achi2=223 (2249 in 20531) [CACCCA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 73

K=3 chi2=040 (9516 in 20531) achi2=023 (12243 in 20531) [CACCCG]

K=4 chi2=071 (4649 in 20531) achi2=105 (3457 in 20531) [CACCCA]

K=4 chi2=000 (19099 in 20531) achi2=002 (17523 in 20531) [CACCCG]

7_0_REB1 Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 chi2=549 (29 in 405) achi2=586 (33 in 405) [TTACCC]

K=2 chi2=688 (6 in 405) achi2=635 (12 in 405) [TTACCC]

K=3 chi2=706 (2 in 405) achi2=679 (2 in 405) [TTACCC]

K=4 chi2=373 (3 in 405) achi2=402 (3 in 405) [TTACCC]

K=5 chi2=034 (7 in 405) achi2=020 (8 in 405) [TTACCC]

K=6 chi2=000 (383 in 405) achi2=000 (232 in 405) [TTACCC]

Error = 1

Quorum = 80

K=1 chi2=133 (3134 in 10337) achi2=169 (2743 in 10337) [TTACCC]

K=2 chi2=302 (657 in 10337) achi2=267 (945 in 10337) [TTACCC]

K=3 chi2=409 (106 in 10337) achi2=394 (170 in 10337) [TTACCC]

K=4 chi2=082 (1439 in 10337) achi2=109 (1091 in 10337) [TTACCC]

K=5 chi2=002 (7204 in 10337) achi2=003 (6765 in 10337) [TTACCC]

K=6 chi2=000 (10150 in 10337) achi2=000 (6299 in 10337) [TTACCC]

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=626 (58 in 785) achi2=615 (64 in 785) [TGCCAAG]

K=2 chi2=610 (11 in 785) achi2=585 (14 in 785) [TGCCAAG]

K=3 chi2=561 (8 in 785) achi2=575 (6 in 785) [TGCCAAG]

K=4 chi2=399 (4 in 785) achi2=377 (6 in 785) [TGCCAAG]

K=5 chi2=184 (8 in 785) achi2=157 (10 in 785) [TGCCAAG]

K=6 chi2=054 (5 in 785) achi2=055 (255 in 785) [TGCCAAG]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 74

Error = 1

Quorum = 60

K=1 chi2=463 (1914 in 20257) achi2=458 (2166 in 20257) [TGCCAAG]

K=2 chi2=292 (1694 in 20257) achi2=287 (1959 in 20257) [TGCCAAG]

K=3 chi2=252 (1158 in 20257) achi2=270 (1060 in 20257) [TGCCAAG]

K=4 chi2=038 (8072 in 20257) achi2=030 (9306 in 20257) [TGCCAAG]

K=5 chi2=002 (15272 in 20366) achi2=004 (14013 in 20366) [TGCCAAG]

K=6 chi2=009 (5877 in 20366) achi2=029 (4589 in 20366) [TGCCAAG]

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

K=1 chi2=1035 (5 in 267) achi2=996 (6 in 267) [TGAAACA]

K=2 chi2=961 (1 in 267) achi2=905 (1 in 267) [TGAAACA]

K=3 chi2=934 (1 in 267) achi2=884 (1 in 267) [TGAAACA]

K=4 chi2=794 (1 in 267) achi2=731 (1 in 267) [TGAAACA]

K=5 chi2=264 (2 in 267) achi2=320 (1 in 267) [TGAAACA]

K=6 chi2=044 (3 in 267) achi2=052 (168 in 267) [TGAAACA]

Error = 1

Quorum = 100

K=1 chi2=448 (515 in 7705) achi2=400 (675 in 7705) [TGAAACA]

K=2 chi2=168 (1047 in 7705) achi2=157 (1246 in 7705) [TGAAACA]

K=3 chi2=159 (637 in 7705) achi2=128 (992 in 7705) [TGAAACA]

K=4 chi2=057 (1734 in 7705) achi2=026 (3100 in 7705) [TGAAACA]

K=5 chi2=015 (2574 in 7705) achi2=021 (2435 in 7705) [TGAAACA]

K=6 chi2=007 (1386 in 7705) achi2=006 (2114 in 7705) [TGAAACA]

7_1_SWI4

Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 75

Quorum = 100

K=1 chi2=927 (53 in 8974) achi2=950 (59 in 8974) [CACGAAA]

K=1 chi2=1447 (8 in 8974) achi2=1516 (9 in 8974) [CGCGAAA]

K=2 chi2=686 (17 in 8974) achi2=638 (22 in 8974) [CACGAAA]

K=2 chi2=940 (4 in 8974) achi2=924 (3 in 8974) [CGCGAAA]

K=3 chi2=456 (46 in 8974) achi2=436 (53 in 8974) [CACGAAA]

K=3 chi2=514 (20 in 8974) achi2=502 (25 in 8974) [CGCGAAA]

K=4 chi2=087 (1329 in 8974) achi2=106 (1095 in 8974) [CACGAAA]

K=4 chi2=343 (41 in 8974) achi2=390 (27 in 8974) [CGCGAAA]

K=5 chi2=012 (3730 in 8974) achi2=000 (7343 in 8974) [CACGAAA]

K=5 chi2=033 (1966 in 8974) achi2=121 (397 in 8974) [CGCGAAA]

K=6 chi2=007 (1861 in 8974) achi2=001 (3810 in 8974) [CACGAAA]

K=6 chi2=002 (3146 in 8974) achi2=044 (873 in 8974) [CGCGAAA]

7_2_RGT1

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=2092 (246 in 6085) achi2=2140 (236 in 6085) [CGGAAAA]

K=1 chi2=810 (799 in 6085) achi2=803 (815 in 6085) [CGGAAGA]

K=1 chi2=1437 (409 in 6085) achi2=1409 (416 in 6085) [CGGAGAA]

K=1 chi2=337 (1833 in 6085) achi2=350 (1782 in 6085) [CGGATAA]

K=2 chi2=837 (251 in 6085) achi2=840 (245 in 6085) [CGGAAAA]

K=2 chi2=451 (648 in 6085) achi2=442 (666 in 6085) [CGGAAGA]

K=2 chi2=989 (186 in 6085) achi2=937 (208 in 6085) [CGGAGAA]

K=2 chi2=432 (698 in 6085) achi2=428 (695 in 6085) [CGGATAA]

K=3 chi2=281 (367 in 6085) achi2=272 (385 in 6085) [CGGAAAA]

K=3 chi2=242 (473 in 6085) achi2=225 (546 in 6085) [CGGAAGA]

K=3 chi2=580 (76 in 6085) achi2=544 (89 in 6085) [CGGAGAA]

K=3 chi2=366 (216 in 6085) achi2=309 (299 in 6085) [CGGATAA]

K=4 chi2=013 (3127 in 6085) achi2=022 (2503 in 6085) [CGGAAAA]

K=4 chi2=039 (1619 in 6085) achi2=040 (1722 in 6085) [CGGAAGA]

K=4 chi2=320 (35 in 6085) achi2=304 (56 in 6085) [CGGAGAA]

K=4 chi2=193 (166 in 6085) achi2=202 (188 in 6085) [CGGATAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 76

8_1_PDR1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 75

K=1 chi2=901 (25 in 639) achi2=884 (27 in 639) [TCCGCGGA]

K=2 chi2=886 (13 in 639) achi2=883 (14 in 639) [TCCGCGGA]

K=3 chi2=862 (4 in 639) achi2=864 (5 in 639) [TCCGCGGA]

K=4 chi2=659 (2 in 639) achi2=741 (2 in 639) [TCCGCGGA]

K=5 chi2=252 (1 in 639) achi2=306 (1 in 639) [TCCGCGGA]

K=6 chi2=012 (5 in 639) achi2=030 (253 in 639) [TCCGCGGA]

Error = 1

Quorum = 75

K=1 chi2=1388 (184 in 16695) achi2=1370 (211 in 16695) [TCCGCGGA]

K=1 chi2=913 (373 in 16695) achi2=895 (419 in 16695) [TCCGTGGA]

K=2 chi2=1355 (68 in 16695) achi2=1355 (91 in 16695) [TCCGCGGA]

K=2 chi2=952 (199 in 16695) achi2=944 (230 in 16695) [TCCGTGGA]

K=3 chi2=1237 (5 in 16695) achi2=1138 (22 in 16695) [TCCGCGGA]

K=3 chi2=782 (88 in 16695) achi2=771 (119 in 16695) [TCCGTGGA]

K=4 chi2=570 (45 in 16695) achi2=688 (33 in 16695) [TCCGCGGA]

K=4 chi2=544 (53 in 16695) achi2=610 (56 in 16695) [TCCGTGGA]

K=5 chi2=061 (2230 in 16699) achi2=113 (1175 in 16699) [TCCGCGGA]

K=5 chi2=101 (981 in 16699) achi2=207 (328 in 16699) [TCCGTGGA]

K=6 chi2=001 (8600 in 16699) achi2=000 (10541 in 16699) [TCCGCGGA]

K=6 chi2=002 (7065 in 16699) achi2=003 (8326 in 16699) [TCCGTGGA]

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 chi2=995 (22 in 423) achi2=985 (24 in 423) [TCCGCGGA]

K=2 chi2=980 (13 in 423) achi2=985 (13 in 423) [TCCGCGGA]

K=3 chi2=989 (4 in 423) achi2=967 (4 in 423) [TCCGCGGA]

K=4 chi2=741 (1 in 423) achi2=802 (1 in 423) [TCCGCGGA]

K=5 chi2=220 (1 in 423) achi2=303 (1 in 423) [TCCGCGGA]

K=6 chi2=010 (1 in 423) achi2=027 (229 in 423) [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 77

Error = 1

Quorum = 80

K=1 chi2=1609 (169 in 11592) achi2=1592 (187 in 11592) [TCCGCGGA]

K=1 chi2=1090 (327 in 11592) achi2=1109 (353 in 11592) [TCCGTGGA]

K=2 chi2=1634 (63 in 11592) achi2=1584 (97 in 11592) [TCCGCGGA]

K=2 chi2=1148 (174 in 11592) achi2=1142 (197 in 11592) [TCCGTGGA]

K=3 chi2=1333 (20 in 11592) achi2=1364 (24 in 11592) [TCCGCGGA]

K=3 chi2=878 (91 in 11592) achi2=894 (109 in 11592) [TCCGTGGA]

K=4 chi2=784 (26 in 11592) achi2=785 (35 in 11592) [TCCGCGGA]

K=4 chi2=632 (50 in 11592) achi2=689 (52 in 11592) [TCCGTGGA]

K=5 chi2=072 (1370 in 11601) achi2=127 (778 in 11601) [TCCGCGGA]

K=5 chi2=100 (878 in 11601) achi2=146 (618 in 11601) [TCCGTGGA]

K=6 chi2=000 (7969 in 11601) achi2=001 (5475 in 11601) [TCCGCGGA]

K=6 chi2=001 (4626 in 11601) achi2=004 (4674 in 11601) [TCCGTGGA]

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=285 (128 in 1319) achi2=287 (133 in 1319) [TCCGTGGA]

K=2 chi2=294 (89 in 1319) achi2=289 (95 in 1319) [TCCGTGGA]

K=3 chi2=283 (10 in 1319) achi2=278 (15 in 1319) [TCCGTGGA]

K=4 chi2=240 (7 in 1319) achi2=255 (6 in 1319) [TCCGTGGA]

K=5 chi2=122 (16 in 1319) achi2=206 (5 in 1319) [TCCGTGGA]

K=6 chi2=015 (42 in 1319) achi2=084 (269 in 1319) [TCCGTGGA]

Error = 1

Quorum = 60

K=1 chi2=336 (1859 in 35494) achi2=391 (1312 in 35494) [TCCGAGGA]

K=1 chi2=612 (489 in 35494) achi2=660 (442 in 35494) [TCCGCGGA]

K=1 chi2=368 (1518 in 35494) achi2=402 (1240 in 35494) [TCCGTGGA]

K=2 chi2=363 (946 in 35494) achi2=379 (816 in 35494) [TCCGAGGA]

K=2 chi2=636 (218 in 35494) achi2=640 (206 in 35494) [TCCGCGGA]

K=2 chi2=416 (670 in 35494) achi2=428 (599 in 35494) [TCCGTGGA]

K=3 chi2=301 (498 in 35494) achi2=304 (471 in 35494) [TCCGAGGA]

K=3 chi2=515 (41 in 35494) achi2=480 (63 in 35494) [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 78

K=3 chi2=341 (278 in 35494) achi2=329 (327 in 35494) [TCCGTGGA]

K=4 chi2=285 (274 in 35494) achi2=295 (205 in 35494) [TCCGAGGA]

K=4 chi2=300 (198 in 35494) achi2=337 (85 in 35494) [TCCGCGGA]

K=4 chi2=217 (1082 in 35494) achi2=219 (1060 in 35494) [TCCGTGGA]

K=5 chi2=075 (6352 in 35725) achi2=087 (6044 in 35725) [TCCGAGGA]

K=5 chi2=079 (5926 in 35725) achi2=153 (2215 in 35725) [TCCGCGGA]

K=5 chi2=081 (5763 in 35725) achi2=080 (6754 in 35725) [TCCGTGGA]

K=6 chi2=003 (19985 in 35725) achi2=010 (17420 in 35725) [TCCGAGGA]

K=6 chi2=026 (6383 in 35725) achi2=053 (6615 in 35725) [TCCGCGGA]

K=6 chi2=011 (11922 in 35725) achi2=000 (30343 in 35725) [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 79

Anexo C Resultados do Caacutelculo da Significacircncia Estatiacutestica referente agrave Abundacircncia

pelo Meacutetodo Analiacutetico para Conjuntos de Dados de Saccharomyces cerevisiae

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados

A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos os resultados para os motivos procurados em relaccedilatildeo a cada valor dos paracircmetros

Descriccedilatildeo do formato dos resultados

K=ltk-mer conservadogt achi2 = ltchi2 analiacuteticogt (ltposiccedilatildeogt in ltnuacutemero de motivos extraiacutedosgt ltposiccedilatildeo entre motivos do mesmo tamanhogt [motivo]

Nota A posiccedilatildeo do motivo refere-se agrave ordem em que se encontra numa lista ordenada por ordem decrescente de chi2 analiacutetico dos motivos extraiacutedos

10_2_YRR1 Motivo TTCCGTGGAA TTCCGCGGAT TTCCGCGGAA Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=476 (745 in 8908) 13 [TTCCGCGGAA]

K=2 achi2=464 (509 in 8908) 12 [TTCCGCGGAA]

K=3 achi2=413 (230 in 8908) 11 [TTCCGCGGAA]

K=4 achi2=278 (205 in 8908) 10 [TTCCGCGGAA]

K=5 achi2=143 (287 in 8908) 12 [TTCCGCGGAA]

K=6 achi2=041 (1031 in 8908) 15 [TTCCGCGGAA]

K=7 achi2=000 (2230 in 8908) 16 [TTCCGCGGAA]

K=8 achi2=001 (4728 in 8908) 16 [TTCCGCGGAA]

K=9 achi2=001 (7926 in 8908) 16 [TTCCGCGGAA]

K=10 achi2=000 (8782 in 8908) 16 [TTCCGCGGAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 80

K=11 achi2=000 (8903 in 8908) 12 [TTCCGCGGAA]

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 achi2=387 (504 in 17722) 3 [ACCCTAAAGGT]

K=1 achi2=483 (265 in 17722) 2 [ACCTTAAAGGT]

K=2 achi2=389 (248 in 17722) 3 [ACCCTAAAGGT]

K=2 achi2=484 (119 in 17722) 2 [ACCTTAAAGGT]

K=3 achi2=391 (61 in 17722) 3 [ACCCTAAAGGT]

K=3 achi2=485 (14 in 17722) 2 [ACCTTAAAGGT]

K=4 achi2=387 (31 in 17722) 4 [ACCCTAAAGGT]

K=4 achi2=485 (4 in 17722) 2 [ACCTTAAAGGT]

K=5 achi2=343 (29 in 17722) 4 [ACCCTAAAGGT]

K=5 achi2=462 (3 in 17722) 2 [ACCTTAAAGGT]

K=6 achi2=282 (276 in 17722) 4 [ACCCTAAAGGT]

K=6 achi2=431 (259 in 17722) 2 [ACCTTAAAGGT]

K=7 achi2=063 (1455 in 17722) 4 [ACCCTAAAGGT]

K=7 achi2=197 (1286 in 17722) 3 [ACCTTAAAGGT]

K=8 achi2=004 (5422 in 17722) 3 [ACCCTAAAGGT]

K=8 achi2=005 (5392 in 17722) 1 [ACCTTAAAGGT]

K=9 achi2=000 (13376 in 17722) 3 [ACCCTAAAGGT]

K=9 achi2=005 (13364 in 17722) 1 [ACCTTAAAGGT]

K=10 achi2=000 (17186 in 17722) 3 [ACCCTAAAGGT]

K=10 achi2=000 (17184 in 17722) 1 [ACCTTAAAGGT]

K=11 achi2=000 (17688 in 17722) 3 [ACCCTAAAGGT]

K=11 achi2=000 (17686 in 17722) 1 [ACCTTAAAGGT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 81

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=523 (72 in 826) 21 [CCCCT]

K=2 achi2=297 (75 in 826) 23 [CCCCT]

K=3 achi2=152 (105 in 826) 55 [CCCCT]

K=4 achi2=007 (382 in 826) 310 [CCCCT]

K=5 achi2=000 (339 in 826) 245 [CCCCT]

K=6 achi2=000 (604 in 826) 255 [CCCCT]

Error = 1

Quorum = 60

K=1 achi2=462 (2153 in 21544) 223 [CCCCT]

K=2 achi2=070 (8620 in 21544) 476 [CCCCT]

K=3 achi2=000 (20723 in 21544) 986 [CCCCT]

K=4 achi2=083 (4322 in 21544) 81 [CCCCT]

K=5 achi2=000 (20635 in 21544) 618 [CCCCT]

K=6 achi2=000 (21264 in 21544) 744 [CCCCT]

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=314 (116 in 1316) 27 [CCCCT]

K=2 achi2=194 (178 in 1316) 39 [CCCCT]

K=3 achi2=140 (190 in 1316) 42 [CCCCT]

K=4 achi2=104 (150 in 1316) 19 [CCCCT]

K=5 achi2=000 (576 in 1316) 111 [CCCCT]

K=6 achi2=000 (1113 in 1316) 392 [CCCCT]

K=7 achi2=901 (324 in 1316) 94 [CCCCT]

K=8 achi2=901 (340 in 1316) 94 [CCCCT]

K=9 achi2=901 (341 in 1316) 94 [CCCCT]

K=10 achi2=901 (342 in 1316) 94 [CCCCT]

K=11 achi2=901 (343 in 1316) 94 [CCCCT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 82

Error = 1

Quorum = 60

K=1 achi2=082 (15627 in 35258) 568 [CCCCT]

K=2 achi2=000 (34292 in 35258) 986 [CCCCT]

K=3 achi2=011 (25832 in 35258) 671 [CCCCT]

K=4 achi2=044 (14486 in 35258) 144 [CCCCT]

K=5 achi2=000 (34387 in 35258) 626 [CCCCT]

K=6 achi2=000 (34560 in 35258) 326 [CCCCT]

5_1_Gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=079 (3260 in 6121) 599 [CATCC]

K=1 achi2=1158 (344 in 6121) 50 [CTTCC]

K=2 achi2=161 (1763 in 6121) 312 [CATCC]

K=2 achi2=470 (566 in 6121) 105 [CTTCC]

K=3 achi2=192 (906 in 6121) 128 [CATCC]

K=3 achi2=109 (1663 in 6121) 248 [CTTCC]

K=4 achi2=091 (1091 in 6121) 97 [CATCC]

K=4 achi2=001 (5126 in 6121) 870 [CTTCC]

K=5 achi2=000 (5152 in 6121) 372 [CATCC]

K=5 achi2=000 (5000 in 6121) 230 [CTTCC]

K=6 achi2=000 (5438 in 6121) 341 [CATCC]

K=6 achi2=000 (5149 in 6121) 52 [CTTCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 83

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 achi2=273 (2534 in 10819) 831 [GATAAG]

K=1 achi2=102 (4875 in 10819) 1698 [GATTAG]

K=2 achi2=493 (849 in 10819) 251 [GATAAG]

K=2 achi2=268 (1952 in 10819) 593 [GATTAG]

K=3 achi2=174 (2107 in 10819) 675 [GATAAG]

K=3 achi2=925 (81 in 10819) 12 [GATTAG]

K=4 achi2=009 (7567 in 10819) 2712 [GATAAG]

K=4 achi2=352 (328 in 10819) 59 [GATTAG]

K=5 achi2=003 (7728 in 10819) 3046 [GATAAG]

K=5 achi2=159 (773 in 10819) 110 [GATTAG]

K=6 achi2=000 (6602 in 10819) 761 [GATAAG]

K=6 achi2=000 (6760 in 10819) 917 [GATTAG]

K=7 achi2=000 (10606 in 10819) 3684 [GATAAG]

K=7 achi2=000 (8570 in 10819) 1648 [GATTAG]

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

Error = 1

Quorum = 60

K=1 achi2=555 (2348 in 20531) 456 [CACCCA]

K=1 achi2=102 (9117 in 20531) 2005 [CACCCG]

K=2 achi2=368 (2233 in 20531) 460 [CACCCA]

K=2 achi2=117 (6956 in 20531) 1498 [CACCCG]

K=3 achi2=223 (2249 in 20531) 392 [CACCCA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 84

K=3 achi2=023 (12243 in 20531) 2397 [CACCCG]

K=4 achi2=105 (3457 in 20531) 482 [CACCCA]

K=4 achi2=002 (17523 in 20531) 3457 [CACCCG]

K=5 achi2=006 (13001 in 20531) 2409 [CACCCA]

K=5 achi2=048 (5016 in 20531) 610 [CACCCG]

K=6 achi2=000 (17016 in 20531) 1751 [CACCCA]

K=6 achi2=000 (18636 in 20531) 3343 [CACCCG]

K=7 achi2=000 (17654 in 20531) 1218 [CACCCA]

K=7 achi2=000 (18327 in 20531) 1891 [CACCCG]

7_0_REB1 Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 achi2=586 (33 in 405) 5 [TTACCC]

K=2 achi2=635 (12 in 405) 1 [TTACCC]

K=3 achi2=679 (2 in 405) 1 [TTACCC]

K=4 achi2=402 (3 in 405) 2 [TTACCC]

K=5 achi2=020 (8 in 405) 7 [TTACCC]

K=6 achi2=000 (232 in 405) 8 [TTACCC]

K=7 achi2=000 (402 in 405) 8 [TTACCC]

Error = 1

Quorum = 80

K=1 achi2=169 (2742 in 10337) 933 [TTACCC]

K=2 achi2=267 (945 in 10337) 284 [TTACCC]

K=3 achi2=394 (170 in 10337) 25 [TTACCC]

K=4 achi2=109 (1091 in 10337) 246 [TTACCC]

K=5 achi2=003 (6765 in 10337) 2619 [TTACCC]

K=6 achi2=000 (6295 in 10337) 852 [TTACCC]

K=7 achi2=000 (9863 in 10337) 3333 [TTACCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 85

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=615 (64 in 785) 12 [TGCCAAG]

K=2 achi2=585 (14 in 785) 3 [TGCCAAG]

K=3 achi2=575 (6 in 785) 2 [TGCCAAG]

K=4 achi2=377 (6 in 785) 2 [TGCCAAG]

K=5 achi2=157 (10 in 785) 5 [TGCCAAG]

K=6 achi2=055 (255 in 785) 4 [TGCCAAG]

K=7 achi2=000 (652 in 785) 18 [TGCCAAG]

K=8 achi2=000 (771 in 785) 15 [TGCCAAG]

Error = 1

Quorum = 60

K=1 achi2=458 (2166 in 20257) 407 [TGCCAAG]

K=2 achi2=287 (1959 in 20257) 462 [TGCCAAG]

K=3 achi2=270 (1060 in 20257) 241 [TGCCAAG]

K=4 achi2=030 (9306 in 20257) 3695 [TGCCAAG]

K=5 achi2=004 (13915 in 20257) 6353 [TGCCAAG]

K=6 achi2=029 (4512 in 20257) 1713 [TGCCAAG]

K=7 achi2=003 (5275 in 20257) 36 [TGCCAAG]

K=8 achi2=000 (12401 in 20257) 1099 [TGCCAAG]

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

K=1 achi2=996 (6 in 267) 1 [TGAAACA]

K=2 achi2=905 (1 in 267) 1 [TGAAACA]

K=3 achi2=884 (1 in 267) 1 [TGAAACA]

K=4 achi2=731 (1 in 267) 1 [TGAAACA]

K=5 achi2=320 (1 in 267) 1 [TGAAACA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 86

K=6 achi2=052 (168 in 267) 2 [TGAAACA]

K=7 achi2=000 (254 in 267) 1 [TGAAACA]

K=8 achi2=000 (266 in 267) 2 [TGAAACA]

Error = 1

Quorum = 100

K=1 achi2=400 (675 in 7705) 162 [TGAAACA]

K=2 achi2=157 (1246 in 7705) 402 [TGAAACA]

K=3 achi2=128 (992 in 7705) 375 [TGAAACA]

K=4 achi2=026 (3100 in 7705) 1267 [TGAAACA]

K=5 achi2=021 (2435 in 7705) 1154 [TGAAACA]

K=6 achi2=006 (2114 in 7705) 1435 [TGAAACA]

K=7 achi2=000 (2095 in 7705) 260 [TGAAACA]

K=8 achi2=000 (6802 in 7705) 1861 [TGAAACA]

7_1_SWI4 Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=950 (59 in 8974) 15 [CACGAAA]

K=1 achi2=1516 (9 in 8974) 2 [CGCGAAA]

K=2 achi2=638 (22 in 8974) 7 [CACGAAA]

K=2 achi2=924 (3 in 8974) 1 [CGCGAAA]

K=3 achi2=436 (53 in 8974) 25 [CACGAAA]

K=3 achi2=502 (25 in 8974) 10 [CGCGAAA]

K=4 achi2=106 (1095 in 8974) 476 [CACGAAA]

K=4 achi2=390 (27 in 8974) 9 [CGCGAAA]

K=5 achi2=000 (7343 in 8974) 3297 [CACGAAA]

K=5 achi2=121 (397 in 8974) 176 [CGCGAAA]

K=6 achi2=001 (3810 in 8974) 2702 [CACGAAA]

K=6 achi2=044 (873 in 8974) 314 [CGCGAAA]

K=7 achi2=000 (2384 in 8974) 205 [CACGAAA]

K=7 achi2=000 (2371 in 8974) 194 [CGCGAAA]

K=8 achi2=000 (8531 in 8974) 3025 [CACGAAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 87

K=8 achi2=000 (5630 in 8974) 124 [CGCGAAA]

7_2_RGT1

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=2140 (236 in 6085) 74 [CGGAAAA]

K=1 achi2=803 (815 in 6085) 253 [CGGAAGA]

K=1 achi2=1409 (416 in 6085) 129 [CGGAGAA]

K=1 achi2=350 (1782 in 6085) 511 [CGGATAA]

K=2 achi2=840 (245 in 6085) 67 [CGGAAAA]

K=2 achi2=442 (666 in 6085) 169 [CGGAAGA]

K=2 achi2=937 (208 in 6085) 55 [CGGAGAA]

K=2 achi2=428 (695 in 6085) 175 [CGGATAA]

K=3 achi2=272 (385 in 6085) 126 [CGGAAAA]

K=3 achi2=225 (546 in 6085) 173 [CGGAAGA]

K=3 achi2=544 (89 in 6085) 28 [CGGAGAA]

K=3 achi2=309 (299 in 6085) 100 [CGGATAA]

K=4 achi2=022 (2503 in 6085) 821 [CGGAAAA]

K=4 achi2=040 (1722 in 6085) 598 [CGGAAGA]

K=4 achi2=304 (56 in 6085) 23 [CGGAGAA]

K=4 achi2=202 (188 in 6085) 81 [CGGATAA]

K=5 achi2=003 (3495 in 6085) 1206 [CGGAAAA]

K=5 achi2=019 (1882 in 6085) 749 [CGGAAGA]

K=5 achi2=238 (34 in 6085) 12 [CGGAGAA]

K=5 achi2=138 (154 in 6085) 74 [CGGATAA]

K=6 achi2=009 (1192 in 6085) 744 [CGGAAAA]

K=6 achi2=031 (682 in 6085) 300 [CGGAAGA]

K=6 achi2=057 (459 in 6085) 122 [CGGAGAA]

K=6 achi2=042 (550 in 6085) 191 [CGGATAA]

K=7 achi2=000 (1608 in 6085) 53 [CGGAAAA]

K=7 achi2=000 (2439 in 6085) 861 [CGGAAGA]

K=7 achi2=000 (2150 in 6085) 572 [CGGAGAA]

K=7 achi2=000 (2472 in 6085) 894 [CGGATAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 88

K=8 achi2=000 (6056 in 6085) 1512 [CGGAAAA]

K=8 achi2=000 (5728 in 6085) 1184 [CGGAAGA]

K=8 achi2=000 (5127 in 6085) 583 [CGGAGAA]

K=8 achi2=000 (5961 in 6085) 1417 [CGGATAA]

8_1_PDR1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 75

K=1 achi2=884 (27 in 639) 1 [TCCGCGGA]

K=2 achi2=883 (14 in 639) 1 [TCCGCGGA]

K=3 achi2=864 (5 in 639) 1 [TCCGCGGA]

K=4 achi2=741 (2 in 639) 1 [TCCGCGGA]

K=5 achi2=306 (1 in 639) 1 [TCCGCGGA]

K=6 achi2=030 (253 in 639) 1 [TCCGCGGA]

K=7 achi2=012 (587 in 639) 1 [TCCGCGGA]

K=8 achi2=000 (633 in 639) 1 [TCCGCGGA]

K=9 achi2=000 (639 in 639) 1 [TCCGCGGA]

Error = 1

Quorum = 75

K=1 achi2=1370 (211 in 16695) 48 [TCCGCGGA]

K=1 achi2=895 (419 in 16695) 111 [TCCGTGGA]

K=2 achi2=1355 (91 in 16695) 26 [TCCGCGGA]

K=2 achi2=944 (230 in 16695) 59 [TCCGTGGA]

K=3 achi2=1138 (22 in 16695) 13 [TCCGCGGA]

K=3 achi2=771 (119 in 16695) 39 [TCCGTGGA]

K=4 achi2=688 (33 in 16695) 9 [TCCGCGGA]

K=4 achi2=610 (56 in 16695) 18 [TCCGTGGA]

K=5 achi2=113 (1171 in 16695) 496 [TCCGCGGA]

K=5 achi2=207 (324 in 16695) 135 [TCCGTGGA]

K=6 achi2=000 (10537 in 16695) 2237 [TCCGCGGA]

K=6 achi2=003 (8322 in 16695) 1955 [TCCGTGGA]

K=7 achi2=000 (4060 in 16695) 2312 [TCCGCGGA]

K=7 achi2=000 (4066 in 16695) 2318 [TCCGTGGA]

K=8 achi2=000 (5835 in 16695) 174 [TCCGCGGA]

K=8 achi2=000 (6050 in 16695) 389 [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 89

K=9 achi2=000 (15679 in 16695) 1375 [TCCGCGGA]

K=9 achi2=000 (14892 in 16695) 588 [TCCGTGGA]

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 achi2=985 (24 in 423) 1 [TCCGCGGA]

K=2 achi2=985 (13 in 423) 1 [TCCGCGGA]

K=3 achi2=967 (4 in 423) 1 [TCCGCGGA]

K=4 achi2=802 (1 in 423) 1 [TCCGCGGA]

K=5 achi2=303 (1 in 423) 1 [TCCGCGGA]

K=6 achi2=027 (229 in 423) 1 [TCCGCGGA]

K=7 achi2=013 (401 in 423) 1 [TCCGCGGA]

K=8 achi2=000 (420 in 423) 1 [TCCGCGGA]

K=9 achi2=000 (423 in 423) 1 [TCCGCGGA]

Error = 1

Quorum = 80

K=1 achi2=1592 (187 in 11592) 35 [TCCGCGGA]

K=1 achi2=1109 (353 in 11592) 83 [TCCGTGGA]

K=2 achi2=1584 (97 in 11592) 25 [TCCGCGGA]

K=2 achi2=1142 (197 in 11592) 44 [TCCGTGGA]

K=3 achi2=1364 (24 in 11592) 9 [TCCGCGGA]

K=3 achi2=894 (109 in 11592) 35 [TCCGTGGA]

K=4 achi2=785 (35 in 11592) 11 [TCCGCGGA]

K=4 achi2=689 (52 in 11592) 16 [TCCGTGGA]

K=5 achi2=127 (769 in 11592) 243 [TCCGCGGA]

K=5 achi2=146 (609 in 11592) 204 [TCCGTGGA]

K=6 achi2=001 (5466 in 11592) 879 [TCCGCGGA]

K=6 achi2=004 (4665 in 11592) 789 [TCCGTGGA]

K=7 achi2=000 (2570 in 11592) 968 [TCCGCGGA]

K=7 achi2=000 (2517 in 11592) 941 [TCCGTGGA]

K=8 achi2=000 (5547 in 11592) 157 [TCCGCGGA]

K=8 achi2=000 (5666 in 11592) 276 [TCCGTGGA]

K=9 achi2=000 (10744 in 11592) 135 [TCCGCGGA]

K=9 achi2=000 (11041 in 11592) 432 [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 90

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=287 (133 in 1319) 8 [TCCGTGGA]

K=2 achi2=289 (95 in 1319) 5 [TCCGTGGA]

K=3 achi2=278 (15 in 1319) 2 [TCCGTGGA]

K=4 achi2=255 (6 in 1319) 1 [TCCGTGGA]

K=5 achi2=206 (5 in 1319) 2 [TCCGTGGA]

K=6 achi2=084 (269 in 1319) 7 [TCCGTGGA]

K=7 achi2=000 (897 in 1319) 17 [TCCGTGGA]

K=8 achi2=000 (1232 in 1319) 8 [TCCGTGGA]

K=9 achi2=000 (1303 in 1319) 1 [TCCGTGGA]

Error = 1

Quorum = 60

K=1 achi2=391 (1312 in 35494) 312 [TCCGAGGA]

K=1 achi2=660 (442 in 35494) 89 [TCCGCGGA]

K=1 achi2=402 (1240 in 35494) 301 [TCCGTGGA]

K=2 achi2=379 (816 in 35494) 174 [TCCGAGGA]

K=2 achi2=640 (206 in 35494) 48 [TCCGCGGA]

K=2 achi2=428 (599 in 35494) 123 [TCCGTGGA]

K=3 achi2=304 (471 in 35494) 120 [TCCGAGGA]

K=3 achi2=480 (63 in 35494) 10 [TCCGCGGA]

K=3 achi2=329 (327 in 35494) 87 [TCCGTGGA]

K=4 achi2=295 (205 in 35494) 61 [TCCGAGGA]

K=4 achi2=337 (85 in 35494) 28 [TCCGCGGA]

K=4 achi2=219 (1060 in 35494) 257 [TCCGTGGA]

K=5 achi2=087 (5828 in 35494) 2082 [TCCGAGGA]

K=5 achi2=153 (2062 in 35494) 521 [TCCGCGGA]

K=5 achi2=080 (6534 in 35494) 2399 [TCCGTGGA]

K=6 achi2=010 (17189 in 35494) 7240 [TCCGAGGA]

K=6 achi2=053 (6392 in 35494) 2378 [TCCGCGGA]

K=6 achi2=000 (30112 in 35494) 12027 [TCCGTGGA]

K=7 achi2=006 (9736 in 35494) 4698 [TCCGAGGA]

K=7 achi2=006 (10113 in 35494) 5025 [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 91

K=7 achi2=000 (17876 in 35494) 11124 [TCCGTGGA]

K=8 achi2=000 (12067 in 35494) 1424 [TCCGAGGA]

K=8 achi2=000 (11172 in 35494) 529 [TCCGCGGA]

K=8 achi2=000 (11688 in 35494) 1045 [TCCGTGGA]

K=9 achi2=000 (31497 in 35494) 8200 [TCCGAGGA]

K=9 achi2=000 (25674 in 35494) 2377 [TCCGCGGA]

K=9 achi2=000 (29818 in 35494) 6521 [TCCGTGGA]

Page 9: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes ix

Agradecimentos

Gostariacuteamos de agradecer agrave nossa orientadora Professora Ana Teresa Freitas pela forma

como sempre orientou o nosso trabalho pela inestimaacutevel disponibilidade pelo interesse

demonstrado e pela iacutempar capacidade de motivaccedilatildeo

Agradecemos tambeacutem ao nosso co-orientador Professor Arlindo Oliveira pela sua

disponibilidade e opiniatildeo criacutetica que sempre contribuiu para o enriquecimento do nosso

trabalho

Agrave Susana Vinga pelo importante contributo na anaacutelise estatiacutestica e pela sua diligente

disponibilidade

Agrave Joana Fradinho Luiacutes Figueiredo e Petra Jelinkova pela disponibilizaccedilatildeo de conjuntos de

dados essenciais para a prossecuccedilatildeo deste trabalho

Agrave Alexandra Carvalho por ter tido a disponibilidade de ler a primeira versatildeo deste relatoacuterio e

contribuiacutedo com pertinentes sugestotildees

Aos nossos colegas da sala 138 pela camaradagem e companhia nas longas horas passadas no

INESC

Aos colegas da sala 128 pela motivaccedilatildeo e constante disponibilidade

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes x

Resumo

A grande quantidade de dados disponiacuteveis na aacuterea da Biologia requer meacutetodos de extracccedilatildeo de

conhecimento poderosos sistemaacuteticos e eficientes Em particular a identificaccedilatildeo de

sequecircncias de nucleoacutetidos designadas de consensos onde se ligam factores de transcriccedilatildeo

responsaacuteveis em parte pelo mecanismo de regulaccedilatildeo geacutenica eacute essencial para uma

compreensatildeo do papel de cada gene

Actualmente existem vaacuterios algoritmos cujo objectivo eacute encontrar sequecircncias candidatas a

sequecircncias de consenso Estes algoritmos podem ser divididos em duas classes meacutetodos

restritivos e meacutetodos proliacuteficos Os meacutetodos restritivos obtecircm poucas respostas com elevada

precisatildeo enquanto que os meacutetodos proliacuteficos obtecircm muitas respostas com baixa precisatildeo

exigindo um esforccedilo de poacutes-processamento

Neste trabalho utilizamos o SMILE [1] que eacute um meacutetodo proliacutefico para a extracccedilatildeo de

sequecircncias de consenso na regiatildeo promotora dos genes Face ao nuacutemero significativo das

respostas obtidas pretende-se com este trabalho avaliar possiacuteveis soluccedilotildees de poacutes-

processamento de modo a garantir a utilidade da informaccedilatildeo extraiacuteda para os utilizadores do

algoritmo Assim definiram-se dois grandes objectivos

A avaliaccedilatildeo de meacutetodos estatiacutesticos que permitam aferir a significacircncia bioloacutegica das

respostas obtidas

A obtenccedilatildeo de uma descriccedilatildeo compacta da informaccedilatildeo extraiacuteda

Palavras-chave Gene regulaccedilatildeo geacutenica regiatildeo promotora sequecircncias degeneradas IUPAC

avaliaccedilatildeo estatiacutestica de biosequecircncias SMILE extracccedilatildeo de motivos

Relatoacuterio Intercalar de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 1

1 Introduccedilatildeo

A crescente disponibilidade de dados sobre o genoma de vaacuterios organismos tem possibilitado

o aparecimento de novos projectos na aacuterea da biologia No entanto a quantidade massiva de

dados disponiacuteveis torna impossiacutevel uma anaacutelise manual da informaccedilatildeo sendo cada vez mais

premente a necessidade de um processamento automaacutetico dos dados obtidos

Neste contexto a identificaccedilatildeo e modelaccedilatildeo da regiatildeo promotora dos genes assume um papel

fundamental pois as condiccedilotildees de activaccedilatildeo e transcriccedilatildeo de um gene dependem das

sequecircncias de nucleoacutetidos aiacute presentes

As sequecircncias de nucleoacutetidos da regiatildeo promotora que determinam a transcriccedilatildeo do gene satildeo

denominadas de promotores e satildeo representadas por sequecircncias de consenso ou

simplesmente consensos A literatura refere vaacuterias formas de descriccedilatildeo destes consensos

desde a utilizaccedilatildeo de uma matriz de pesos a uma sequecircncia de bases mais frequentes Neste

trabalho utilizamos uma codificaccedilatildeo IUPAC destas sequecircncias que corresponde a um

conjunto de sequecircncias degeneradas em que cada siacutembolo representa um conjunto de

nucleoacutetidos possiacuteveis para uma dada posiccedilatildeo

Actualmente existem vaacuterios algoritmos cujo objectivo eacute encontrar sequecircncias candidatas a

sequecircncias de consenso nas regiotildees promotoras As sequecircncias que satildeo reportadas como

possiacuteveis consensos satildeo designadas de motivos Os algoritmos de pesquisa de motivos podem

ser agrupados de uma forma geral em dois tipos algoritmos restritivos e algoritmos

proliacuteficos

Os algoritmos restritivos concentram-se em encontrar poucos motivos mas de relevacircncia

assinalaacutevel enquanto que os algoritmos proliacuteficos preocupam-se em determinar todos os

motivos que possam ser encontrados de acordo com determinados paracircmetros de pesquisa

Os algoritmos designados de proliacuteficos tecircm a vantagem de natildeo fazerem suposiccedilotildees a priori

No entanto a grande quantidade de motivos encontrados requer um esforccedilo de poacutes-

processamento significativo

Este trabalho tem por objectivo o desenvolvimento de uma metodologia que permita o

processamento automaacutetico dos motivos encontrados por um algoritmo que pode ser

classificado de proliacutefico o algoritmo SMILE [1]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 2

No Capiacutetulo 2 apresentamos uma descriccedilatildeo do problema em anaacutelise evidenciando a

motivaccedilatildeo bioloacutegica e fazendo o seu enquadramento com os objectivos do trabalho

No Capiacutetulo 3 descrevemos o algoritmo SMILE no contexto do problema da extracccedilatildeo de

motivos e apresentamos um gerador de dados sinteacuteticos que seraacute usado como ponto de partida

do estudo da eficaacutecia do algoritmo

No Capiacutetulo 4 discutimos a utilizaccedilatildeo de meacutetodos estatiacutesticos para aferir a significacircncia

bioloacutegica dos motivos extraiacutedos pelo SMILE

No Capiacutetulo 5 apresentamos um meacutetodo para geraccedilatildeo de uma representaccedilatildeo compacta de

motivos extraiacutedos usando a codificaccedilatildeo IUPAC

Finalmente no Capiacutetulo 6 apresentamos vaacuterios resultados obtidos tanto com dados sinteacuteticos

como com dados reais discutindo a aplicabilidade dos meacutetodos estatiacutesticos apresentados no

Capiacutetulo 4

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 3

2 Descriccedilatildeo do Problema

A moleacutecula de DNA eacute responsaacutevel pela manutenccedilatildeo da informaccedilatildeo geneacutetica de cada indiviacuteduo

e eacute constituiacuteda por duas cadeias de nucleoacutetidos dispostas de modo a formar uma dupla

heacutelice [2] que se encontra representada na Figura 21 Cada nucleoacutetido eacute formado por trecircs

elementos um accediluacutecar um grupo fosfato e uma de quatro bases azotadas As quatro bases satildeo

a Adenina (A) a Timina (T) a Guanina (G) e a Citosina (C) e podem ser vistas como os

quatro elementos de um alfabeto

Figura 21

Representaccedilatildeo de cadeias de DNA em forma de dupla heacutelice

As duas cadeias de DNA satildeo complementares no sentido em que as bases das duas cadeias

estatildeo emparelhadas Assim uma Adenina de uma cadeia emparelha com uma Timina da

cadeia complementar e do mesmo modo uma Citosina emparelha com uma Guanina

Os genes satildeo segmentos de uma cadeia de DNA que controlam a siacutentese proteica e

consequentemente toda a actividade celular O genoma eacute o conjunto de genes de um

indiviacuteduo

A expressatildeo geacutenica eacute o processo atraveacutes do qual a informaccedilatildeo contida nos genes dirige a

siacutentese de proteiacutenas Este processo envolve dois passos transcriccedilatildeo e traduccedilatildeo

A transcriccedilatildeo consiste na transferecircncia da informaccedilatildeo contida no DNA para uma moleacutecula

intermediaacuteria de RNA designada de RNA-mensageiro ou mRNA De seguida o molde de

mRNA eacute usado no passo de traduccedilatildeo onde iraacute dirigir a siacutentese proteica

Este processo eacute semelhante em todos os organismos vivos embora existam diferenccedilas

assinalaacuteveis entre organismos eucariotas e procariotas isto eacute entre organismos com e sem

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 4

nuacutecleo individualizado respectivamente Em particular o mecanismo eacute consideravelmente

mais complexo em organismos eucariotas A Figura 22 ilustra o processo de expressatildeo geacutenica

em eucariotas (Figura 22-A) e procariotas (Figura 22-B)

Figura 22 Expressatildeo geacutenica em eucariotas (A) e procariotas (B)

Actualmente o problema da identificaccedilatildeo e modelaccedilatildeo dos mecanismos que regulam a

interacccedilatildeo entre grupos de genes eacute um dos problemas mais em foco na investigaccedilatildeo em

biologia computacional Como jaacute foi referido a regiatildeo promotora eacute parte essencial do

mecanismo de regulaccedilatildeo da transcriccedilatildeo geacutenica

A biologia oferece-nos alguns modelos da regiatildeo promotora evidenciando as diferenccedilas entre

organismos procariotas (Figura 23) e eucariotas (Figura 24)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 5

Figura 23 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em procariotas

Figura 24 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em eucariotas

No mecanismo de transcriccedilatildeo geacutenica interveacutem uma enzima denominada RNA-polimerase

Esta enzima tem como funccedilatildeo a transcriccedilatildeo da informaccedilatildeo contida no DNA para uma cadeia

de RNA que iraacute posteriormente intervir no processo de siacutentese proteica

Para que a RNA-polimerase inicie a transcriccedilatildeo de uma cadeia de DNA geralmente um gene

eacute necessaacuterio que se cumpram algumas condiccedilotildees Assim entre outras eacute necessaacuterio que

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 6

estejam presentes na regiatildeo promotora motivos que a RNA-polimerase reconheccedila e aos quais

se possa ligar para iniciar a transcriccedilatildeo da regiatildeo a jusante (na literatura inglesa estas regiotildees

satildeo denominadas de binding sites) As condiccedilotildees de activaccedilatildeo desta enzima satildeo mais

complexas nos organismos eucariotas [3] uma vez que neste caso para aleacutem dos motivos

referidos existem ainda vaacuterios outros que satildeo reconhecidos por factores de transcriccedilatildeo isto eacute

proteiacutenas que se ligam sucessivamente agrave RNA-polimerase estabelecendo um complexo

mecanismo de regulaccedilatildeo Estes motivos podem estar a montante a jusante ou mesmo no

interior do gene a ser transcrito e podem ainda exercer um efeito estimulador ou repressor da

transcriccedilatildeo Os locais onde existem motivos aos quais se ligam os diversos factores de

transcriccedilatildeo satildeo designados genericamente por regiotildees reguladoras

Eacute possiacutevel compreender agora a importacircncia da necessidade de ser definido um modelo ou

modelos para a regiatildeo promotora no acircmbito do estudo do genoma

Neste trabalho utilizamos o algoritmo SMILE para procurar motivos interessantes isto eacute

biologicamente significativos em cadeias de DNA pertencentes agrave regiatildeo promotora dos genes

Como jaacute foi referido trata-se de um algoritmo proliacutefico no sentido em que se preocupa em

encontrar todas as sequecircncias que cumpram os paracircmetros especificados Sendo assim torna-

se necessaacuterio um esforccedilo significativo de poacutes-processamento para que possa ser obtida

informaccedilatildeo uacutetil a partir dos dados gerados

O poacutes-processamento dos motivos extraiacutedos inclui uma anaacutelise estatiacutestica que culmina com a

atribuiccedilatildeo de um niacutevel de significacircncia a cada motivo Deste modo eacute possiacutevel definir um

crivo que separa motivos considerados relevantes de motivos agrave partida menos interessantes

Finalmente e depois de ter sido encontrado um conjunto de motivos relevantes seraacute efectuada

uma traduccedilatildeo para uma representaccedilatildeo IUPAC Esta representaccedilatildeo permite compactar os

dados agrupando motivos muito semelhantes Este passo eacute de importacircncia essencial para uma

utilizaccedilatildeo eficiente dos dados obtidos uma vez que uma representaccedilatildeo compacta facilita a sua

utilizaccedilatildeo em pesquisas em bases de dados bioloacutegicas que contecircm informaccedilatildeo sobre

consensos anteriormente identificados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 7

3 Extracccedilatildeo de motivos

31 Algoritmo SMILE

O SMILE eacute um meacutetodo algoriacutetmico de extracccedilatildeo de motivos de sequecircncias bioloacutegicas O

algoritmo comeccedila por processar um conjunto de dados de entrada composto por vaacuterias

sequecircncias natildeo alinhadas de nucleoacutetidos que se sabe conterem um ou mais binding sites Estes

dados satildeo utilizados para calcular ocorrecircncias de motivos usando como estrutura de dados

base uma aacutervore de sufixos

Um modelo eacute uma representaccedilatildeo de subsequecircncias que ocorrem nos dados de entrada

satisfazendo potencialmente certas propriedades

O algoritmo iraacute assim pesquisar modelos (simples ou estruturados) nos dados que lhe satildeo

fornecidos segundo alguns paracircmetros

Um modelo simples diz respeito a uma subsequecircncia contiacutegua de nucleoacutetidos enquanto que

um modelo estruturado eacute uma composiccedilatildeo de modelos simples

Um modelo estruturado pode ser constituiacutedo por vaacuterias partes posicionadas ao longo da

sequecircncia Cada parte eacute um modelo simples que pode ter um tamanho variaacutevel (entre kmin e

kmax) O espaccedilo entre cada parte consecutiva pode tambeacutem ser parametrizado (dmin e dmax)

Do mesmo modo tambeacutem eacute possiacutevel parametrizar o nuacutemero de erros que se permite ocorrer

no modelo e em cada uma das suas partes

A Figura 31 apresenta um exemplo de uma especificaccedilatildeo de um modelo estruturado em que

se consideram duas partes A primeira parte pode ter um tamanho entre 6 e 8 nucleoacutetidos e satildeo

admitidos 2 erros A segunda parte pode ocorrer entre 16 e 18 nucleoacutetidos apoacutes a primeira

parte e teraacute um tamanho igualmente entre 6 e 8 embora seja admitido apenas 1 erro

A Figura 32 apresenta o esquema de outro modelo estruturado e respectiva concretizaccedilatildeo

numa sequecircncia Neste exemplo consideram-se igualmente duas partes A primeira com

tamanho entre 6 e 10 nucleoacutetidos e a segunda entre 6 e 8 As partes podem estar a uma

distacircncia que varia entre 10 e 15 nucleoacutetidos e natildeo satildeo admitidos erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 8

Figura 31 Exemplo de uma especificaccedilatildeo de um modelo estruturado

Figura 32 (a) Exemplo de especificaccedilatildeo (b) Modelo retirado de uma sequecircncia

que cumpre a especificaccedilatildeo

Um modelo eacute considerado vaacutelido caso o nuacutemero de sequecircncias de entrada em que ocorre seja

natildeo inferior a um miacutenimo estabelecido designado por quoacuterum Os modelos vaacutelidos satildeo

designados de motivos

Para verificar o nuacutemero de ocorrecircncias eacute utilizada uma aacutervore de sufixos Uma aacutervore de

sufixos eacute uma estrutura de dados que representa todos os sufixos de uma cadeia de caracteres

As suas caracteriacutesticas satildeo de grande utilidade para os algoritmos de emparelhamento de

caracteres

6-10 6-8

10-15

(a)

ATTATTA_CTATCT

ATTATTAGTACTCATACCTATCT

(b)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 9

O SMILE processa conjuntos de dados isto eacute conjuntos de sequecircncias de nucleoacutetidos

utilizando para esse efeito uma aacutervores de sufixos generalizada Esta estrutura de dados

difere da aacutervore de sufixos simples no sentido em que agrupa vaacuterias cadeias de caracteres

correspondentes agraves vaacuterias sequecircncias de nucleoacutetidos Esta multiplicidade de sequecircncias exige

que a estrutura registe as sequecircncias a que cada sufixo pertence As aacutervores de sufixos fazem

uso de um siacutembolo terminador ($) para assinalar o fim de cada sufixo

A Figura 33 eacute um exemplo de uma aacutervore de sufixos generalizada

Figura 33 - Aacutervore de sufixos generalizada para as sequecircncias

TACTA$ (sequecircncia 1) e CACTCA$ (sequecircncia 2)

A extracccedilatildeo de motivos eacute feita atraveacutes da travessia em profundidade-primeiro de uma aacutervore

lexicograacutefica virtual de modo a garantir que se explora o espaccedilo de todos os modelos

possiacuteveis Esta travessia da aacutervore lexicograacutefica eacute acompanhada da exploraccedilatildeo da aacutervore de

sufixos generalizada de forma a obter todos os sufixos a distacircncia de Hamming natildeo superior a

e1 do modelo em consideraccedilatildeo Assim para cada noacute da aacutervore virtual eacute verificado o quoacuterum

do modelo correspondente contabilizando para tanto o nuacutemero de sequecircncias diferentes que

participam com sufixos a distacircncia de Hamming natildeo superior a e do modelo

1 O valor desta distacircncia depende do nuacutemero de erros admitidos na extracccedilatildeo de motivos e corresponde a um dos

paracircmetros do algoritmo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 10

A extracccedilatildeo de motivos estruturados eacute feita de forma semelhante correspondendo a muacuteltiplas

procuras de modelos simples que constituem cada parte do modelo estruturado A transiccedilatildeo

entre partes ilustrada pela Figura 34 corresponde a um salto na aacutervore de sufixos com tantos

niacuteveis de profundidade adicionais quanto a distacircncia especificada entre cada parte

Uma descriccedilatildeo pormenorizada do algoritmo encontra-se em [4] e [5]

Figura 34 Esquema da procura de motivos estruturados usando uma aacutervore de

sufixos

Este algoritmo exacto gera todos os possiacuteveis motivos dentro dos paracircmetros especificados

Daqui resulta geralmente um nuacutemero demasiado grande de motivos sendo necessaacuterio

discriminar quais os verdadeiros binding sites Como meacutetodo de avaliaccedilatildeo o SMILE utiliza

um teste estatiacutestico que eacute descrito na Secccedilatildeo 41

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 11

32 Gerador de dados sinteacuteticos

A anaacutelise da eficaacutecia e eficiecircncia do algoritmo de extracccedilatildeo de motivos exige a utilizaccedilatildeo de

dados sobre os quais tenhamos agrave partida algum conhecimento Para tal foi desenvolvido um

gerador de dados sinteacuteticos

O gerador de dados sinteacuteticos permite por um lado evitar a necessidade de dispor de

conjuntos de dados reais e por outro ter um maior controlo sobre os motivos que estatildeo

realmente presentes nos dados

O gerador permite especificar o nuacutemero e o tamanho das sequecircncias do conjunto de dados

bem como os motivos a inserir Os motivos satildeo especificados pela sua sequecircncia de

nucleoacutetidos posiccedilatildeo na sequecircncia e frequecircncia de ocorrecircncia Os motivos podem ser simples

ou estruturados A Figura 35 representa um exemplo de um ficheiro de especificaccedilatildeo

Frequecircncia

Posiccedilatildeo

Sequecircncia Posiccedilatildeo

Sequecircncia

02 09 TGCTTTTTAAT

28 TCGA

03 02 AGTACATCGA

02 12 TGCGCA

Figura 35 Exemplo de um ficheiro de especificaccedilatildeo para a geraccedilatildeo de dados

sinteacuteticos

No exemplo apresentado satildeo especificados trecircs motivos (um motivo estruturado e dois

motivos simples) A primeira coluna (Frequecircncia) indica a percentagem de sequecircncias em que

o motivo deveraacute ocorrer Em particular para esta especificaccedilatildeo o primeiro motivo deveraacute

ocorrer em 20 das sequecircncias As restantes colunas especificam a posiccedilatildeo e a sequecircncia de

nucleoacutetidos de cada parte do motivo O nuacutemero e o tamanho das sequecircncias a gerar satildeo

especificados na linha de comandos do gerador

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 12

O gerador verifica a especificaccedilatildeo de modo a testar se eacute possiacutevel gerar um conjunto de dados

com as caracteriacutesticas indicadas Em particular eacute necessaacuterio que no caso das frequecircncias

especificadas somarem mais do que 1 alguns dos motivos sejam sobreponiacuteveis uma vez que o

gerador garante o cumprimento exacto da frequecircncia de ocorrecircncia especificada para cada

motivo

O processo de geraccedilatildeo do conjunto de dados envolve duas fases Numa primeira fase eacute gerado

um conjunto de dados aleatoacuterios em que a ocorrecircncia de cada nucleoacutetido eacute equiprovaacutevel Para

gerar aleatoriamente nucleoacutetidos eacute usada uma variaccedilatildeo do algoritmo ran2 [6]

Numa segunda fase satildeo inseridos os motivos especificados em tantas sequecircncias quanto as

necessaacuterias para perfazer a frequecircncia indicada As sequecircncias seleccionadas para a inserccedilatildeo

de motivos satildeo igualmente escolhidas de forma aleatoacuteria

O recurso a dados sinteacuteticos permite afastar a possibilidade de motivos bem classificados

corresponderem a consensos ainda natildeo identificados por via experimental como pode

acontecer quando se analisam conjuntos de dados reais No entanto eacute necessaacuterio termos

presentes as limitaccedilotildees da actual abordagem Em particular sabemos que a geraccedilatildeo

equiprovaacutevel de nucleoacutetidos estaacute em desacordo com a estatiacutestica tiacutepica da regiatildeo promotora

onde satildeo mais comuns A s e T s do que G s e C s Do mesmo modo podem existir outras

correlaccedilotildees de ordem superior designadamente uma preferecircncia por certos diacutemeros ou

triacutemeros em detrimento de outros Esta limitaccedilatildeo eacute ilustrada pelo facto de os resultados

obtidos com dados sinteacuteticos serem geralmente melhores do que os obtidos com dados reais

As causas e consequecircncias desta observaccedilatildeo seratildeo discutidas nas secccedilotildees seguintes

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 13

4 Anaacutelise Estatiacutestica

41 Teste do 2

Como jaacute foi referido o SMILE em geral extrai um elevado nuacutemero de modelos Para isolar

motivos relevantes eacute usado um teste estatiacutestico de modo a atribuir uma significacircncia estatiacutestica

a cada modelo extraiacutedo

O meacutetodo de avaliaccedilatildeo utilizado consiste em aplicar o teste do 2 com um grau de liberdade

O objectivo eacute determinar a probabilidade de obtermos motivos observados em sequecircncias

aleatoacuterias que preservam os k-mers2 das sequecircncias originais Assim pretende-se perceber se

a ocorrecircncia do motivo se deve agrave frequecircncia de k-mers presentes na sequecircncia aleatoacuteria tendo

portanto uma baixa significacircncia estatiacutestica ou se eacute verificada a situaccedilatildeo oposta ou seja

elevada significacircncia estatiacutestica Estes uacuteltimos satildeo considerados pelo algoritmo como os que

apresentam maior potencial de serem verdadeiros binding sites Para tal o SMILE permite a

realizaccedilatildeo de dois tipos alternativos de teste um quanto ao nuacutemero de sequecircncias em que o

motivo ocorre (quoacuterum) e outro em relaccedilatildeo agrave abundacircncia do motivo no conjunto de dados

Para aplicar o teste do 2 procedemos agrave construccedilatildeo de uma tabela de contingecircncia com 4

entradas (Tabela 41)

Dados Originais Dados Aleatoacuterios

Presenccedila Porig Prandom

Ausecircncia Aorig Arandom

Tabela 41 Tabela de contingecircncia para o caacutelculo do 2

2 Sequecircncias de nucleoacutetidos de tamanho k

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 14

As colunas da tabela referem-se agraves duas amostras em anaacutelise ou seja o conjunto de dados

original e as sequecircncias aleatoacuterias geradas As linhas da tabela referem-se agraves duas classes de

contagens Caso consideremos o teste quanto ao quoacuterum a classe Presenccedila diz respeito ao

nuacutemero de sequecircncias em que o motivo ocorre e a classe Ausecircncia refere-se ao nuacutemero de

sequecircncias em que o motivo natildeo ocorre Caso se trate do teste relativo agrave abundacircncia a

primeira classe refere-se ao nuacutemero de ocorrecircncias do motivo no conjunto de dados e a

segunda ao nuacutemero de natildeo ocorrecircncias do motivo em relaccedilatildeo ao nuacutemero de oportunidades de

ocorrecircncia Considera-se como nuacutemero de oportunidades de ocorrecircncia o tamanho do

conjunto de dados Esta tabela seraacute usada agora para fazer um teste de homogeneidade de

proporccedilotildees

Para calcular a significacircncia estatiacutestica basta usar a expressatildeo do 2 correspondente agrave equaccedilatildeo

(41) onde ijO diz respeito ao valor observado para a entrada (ij) da tabela e ijE se refere ao

correspondente valor esperado

21

22 )(

ji ij

ijij

E

OE

(41)

O valor esperado para cada entrada da tabela eacute dado pela expressatildeo (42) ou seja o valor

esperado para a entrada (ij) da tabela eacute igual ao produto do total da linha i pelo total da linha

j divido pela soma de todos os elementos da tabela

21

2121

lkkl

kkj

kik

ij O

OO

E (42)

Nas condiccedilotildees desta tabela de contingecircncia eacute possiacutevel utilizar uma forma expedita de caacutelculo

que consiste na aplicaccedilatildeo da expressatildeo (43)

))()()((

)()( 22

origorigrandomrandomrandomorigrandomorig

randomorigrandomorigorigrandomrandomorig

APAPAAPP

AAPPAPAP

(43)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 15

A hipoacutetese nula que consideramos neste teste estatiacutestico refere-se agrave possibilidade de os

motivos terem sido gerados por sequecircncias aleatoacuterias sob certas restriccedilotildees Isto eacute assumimos

que as contagens obtidas para os motivos nas sequecircncias originais satildeo semelhantes agraves que

obteriacuteamos em sequecircncias aleatoacuterias com as mesmas frequecircncias de k-mers Valores altos de

significacircncia estatiacutestica implicam a rejeiccedilatildeo da hipoacutetese nula

Um importante problema prende-se com a validade da aplicaccedilatildeo do teste do 2 O SMILE em

particular apresenta para cada motivo uma medida da sua significacircncia estatiacutestica No

entanto o verdadeiro interesse reside na determinaccedilatildeo da significacircncia bioloacutegica dos motivos

encontrados O que estaacute em causa eacute perceber se um motivo eacute um potencial binding site Eacute

necessaacuterio testar este meacutetodo em dados reais com consensos conhecidos para se perceber se a

significacircncia estatiacutestica apresenta uma elevada correlaccedilatildeo com a significacircncia bioloacutegica

No Capiacutetulo 6 apresentamos uma discussatildeo acerca da adequaccedilatildeo do teste do 2 para a afericcedilatildeo

da significacircncia bioloacutegica dos motivos extraiacutedos pelo SMILE

42 Meacutetodo de Shuffling

Como jaacute foi referido para efectuar o caacutelculo da significacircncia estatiacutestica o SMILE recorre agrave

geraccedilatildeo de sequecircncias aleatoacuterias com certas restriccedilotildees baseadas na estatiacutestica dos dados

originais Para o efeito eacute usado um algoritmo de data shuffling [78]

O meacutetodo de shuffling permite obter um conjunto de dados aleatoacuterio com base num conjunto

de dados original garantindo a preservaccedilatildeo exacta das frequecircncias de k-mers para um dado k

O meacutetodo de geraccedilatildeo pode ser visto como um passeio aleatoacuterio sobre um multi-grafo onde os

noacutes satildeo todas as subsequecircncias de tamanho k-1 presentes na sequecircncia original e cada aresta

corresponde a uma transiccedilatildeo entre (k-1)-mers verificada nos dados No caso de k igual a 1 natildeo

eacute gerado um multi-grafo sendo feita apenas uma reordenaccedilatildeo aleatoacuteria dos nucleoacutetidos de

cada sequecircncia

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 16

A Figura 41 ilustra um exemplo de um multi-grafo gerado a partir da sequecircncia

ATTATTTATT bem como um caminho no grafo que gera a sequecircncia alternativa

TATTATTTAT

Figura 41 Multi-grafo gerado pela sequecircncia ATTATTTATT para k=4 com 2

passeios aleatoacuterios

Para que cada sequecircncia gerada seja vaacutelida eacute necessaacuterio que tenha o mesmo tamanho que a

sequecircncia original Sendo assim eacute faacutecil perceber que apenas os caminhos eulerianos garantem

a geraccedilatildeo de uma sequecircncia com estas caracteriacutesticas No SMILE este processo eacute repetido

para cada sequecircncia isoladamente

Para garantir a fiabilidade dos resultados obtidos eacute efectuado um nuacutemero elevado de

simulaccedilotildees donde satildeo extraiacutedos os valores meacutedios do quoacuterum ou da abundacircncia de cada

motivo a partir dos quais eacute calculada a significacircncia estatiacutestica no sentido do teste do 2

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 17

A Figura 42 mostra um histograma com os resultados obtidos em 100 simulaccedilotildees para um

motivo extraiacutedo do conjunto de dados da Helicobater pylori3 onde foram preservadas as

frequecircncias relativas de nucleoacutetidos (k=1) Este conjunto de dados eacute constituiacutedo por 308

sequecircncias com comprimentos que variam entre 40 e 300 nucleoacutetidos Foi efectuada uma

procura de motivos simples com tamanhos natildeo inferiores a 6 Foi admitido 1 erro e foi

exigido um quoacuterum de 6

O histograma indica a percentagem de simulaccedilotildees em que o motivo em consideraccedilatildeo ocorre

num determinado nuacutemero de sequecircncias Em particular no exemplo da Figura 42 o motivo

TTTTAA ocorre num nuacutemero de sequecircncias entre 282 e 284 em 13 das simulaccedilotildees

A seta a negro refere-se ao nuacutemero de ocorrecircncias do motivo observadas no conjunto de dados

original Quanto mais afastada estiver a seta do maacuteximo da curva maior seraacute a significacircncia

estatiacutestica Neste caso foi atribuiacuteda uma significacircncia de 593 ao motivo TTTTAA

Figura 42 Histograma das ocorrecircncias observadas do motivo TTTTAA em 100

simulaccedilotildees de shuffling do conjunto de dados da H pylori

3 Organismo procariota

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 18

O meacutetodo de data shuffling pode ser pesado do ponto de vista computacional e representa

uma grande restriccedilatildeo no desempenho da avaliaccedilatildeo de motivos Em particular a necessidade

de pesquisar todos os motivos extraiacutedos em cada conjunto de dados aleatoacuterio gerado constitui

uma seacuterio entrave ao bom desempenho deste meacutetodo

Devido aos referidos problemas de desempenho opta-se geralmente por fazer um nuacutemero de

simulaccedilotildees com geraccedilatildeo de sequecircncias aleatoacuterias inferior ao estatisticamente aconselhado o

que pode ter impacto nos resultados

Outra questatildeo pertinente coloca-se ainda quanto agrave preservaccedilatildeo dos k-mers Uma vez que o

shuffling eacute feito sobre cada sequecircncia do conjunto de dados valores elevados de k impotildeem

restriccedilotildees severas agrave variabilidade dos conjuntos de dados aleatoacuterios gerados Assim para estes

valores o teste estatiacutestico eacute inuacutetil uma vez que os conjuntos de dados gerados satildeo

praticamente iguais ao conjunto de dados original Em particular quando o tamanho dos

k-mers a preservar eacute igual ou superior ao tamanho de um motivo as suas ocorrecircncias satildeo

estritamente conservadas no conjunto de dados aleatoacuterio levando a que o valor da

significacircncia seja 0 A Figura 43 ilustra o facto de a significacircncia estatiacutestica tender

inevitavelmente para zero agrave medida que o valor de k aumenta Os valores do graacutefico foram

igualmente obtidos a partir do conjunto de dados da H pylori descrito anteriormente

Figura 43 Graacutefico da evoluccedilatildeo da significacircncia estatiacutestica com o aumento do valor

de k para um motivo de tamanho 8 extraiacutedo do conjunto de dados da H pylori

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 19

43 Meacutetodo Analiacutetico

Nesta Secccedilatildeo propotildee-se um meacutetodo analiacutetico que tem por objectivo resolver alguns dos

problemas do meacutetodo de shuffling descrito na Secccedilatildeo anterior designadamente o fraco

desempenho computacional e as excessivas restriccedilotildees devidas agrave conservaccedilatildeo estrita das

frequecircncias dos k-mers Assim pretende-se obter um meacutetodo computacionalmente eficiente

para avaliar a relevacircncia de motivos extraiacutedos pelo SMILE

Com este meacutetodo comeccedila-se por abstrair um modelo de Markov a partir do conjunto de dados

em estudo Os estados do modelo de Markov correspondem a todos os (k-1)-mers presentes no

conjunto de dados sendo a probabilidade inicial de cada estado a frequecircncia relativa

observada do (k-1)-mer correspondente

A probabilidade de transiccedilatildeo entre estados corresponde agrave razatildeo entre o nuacutemero de vezes que o

(k-1)-mer referente ao estado de destino sucede ao (k-1)-mer referente ao estado de origem

nos dados e o nuacutemero de vezes que o (k-1)-mer correspondente ao estado de origem precede

qualquer outro (k-1)-mer nas sequecircncias em anaacutelise A Figura 45 apresenta um modelo de

Markov abstraiacutedo a partir do conjunto de dados referido na Figura 44

Figura 44 Conjunto de dados exemplo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 20

CA

TC

AT

TA

TT

101

51

52

101

51

Figura 45

Exemplo de uma cadeia de Markov para k=3

Cada motivo em anaacutelise eacute processado de forma a calcular a probabilidade do motivo ser

gerado pelo modelo de Markov abstraiacutedo

Esta probabilidade eacute calculada como o produto da probabilidade do estado inicial pela

probabilidade de todas as transiccedilotildees necessaacuterias para compor o motivo Em (44) (45) e (46)

apresenta-se o calculo desta probabilidade para o motivo ATTATT segundo a cadeia de

Markov da Figura 45

)()()()()()( TTATpATTApTATTpTTATpATpATTATTp

(44)

2

111

2

1

5

2)(ATTATTp (45)

10

1)(ATTATTp (46)

No caso em que k eacute igual 1 natildeo eacute construiacuteda uma cadeia de Markov sendo a probabilidade de

ocorrecircncia do motivo o produto das frequecircncias relativas no conjunto de dados dos

nucleoacutetidos que o compotildeem

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 21

Caso sejam admitidos e erros basta considerar a soma das probabilidades de todos motivos a

uma distacircncia de Hamming natildeo superior a e ao inveacutes de se considerar apenas a probabilidade

do motivo em anaacutelise

A probabilidade assim calculada seraacute usada para determinar as entradas referentes a dados

aleatoacuterios na tabela de contingecircncia descrita na Secccedilatildeo 41 para o teste relativo agrave abundacircncia

A determinaccedilatildeo das entradas na tabela quando consideramos o teste relativo ao quoacuterum de um

motivo eacute consideravelmente mais complexa pelo que natildeo a abordaremos neste texto

Assim as entradas randomP e randomA satildeo calculadas da forma indicada em (47) e (48)

respectivamente

))1)((()( nseqsmlenmotiflenseqsnseqskmpP Markovrandom

(47)

randomrandom PlenseqsnseqsA

(48)

Nas expressotildees (47) e (48)

)( kmpMarkov refere-se agrave probabilidade calculada para o motivo m a partir de uma cadeia

de Markov extraiacuteda do conjunto de dados para um dado k

nseqs designa o nuacutemero de sequecircncias do conjunto de dados

lseqs designa o comprimento meacutedio das sequecircncias do conjunto de dados

lenmotif(m) designa o tamanho do motivo m

Agrave semelhanccedila do SMILE no caacutelculo de randomA consideramos como nuacutemero de

oportunidades de ocorrecircncia o tamanho do conjunto de dados

Este meacutetodo apresenta um desempenho computacional significativamente melhor que o

meacutetodo baseado em shuffling uma vez que natildeo necessita de efectuar vaacuterias simulaccedilotildees tendo

apenas de processar o conjunto de dados por uma uacutenica vez O caacutelculo da significacircncia

estatiacutestica de cada motivo eacute linear em relaccedilatildeo ao seu comprimento

Por outro lado o meacutetodo analiacutetico natildeo enferma das mesmas limitaccedilotildees do que o teste

estatiacutestico baseado em simulaccedilotildees permitindo o caacutelculo de significacircncia estatiacutestica para

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 22

valores elevados de k Ao considerar a estatiacutestica de todo o conjunto de dados ao inveacutes de

cada sequecircncia isoladamente este meacutetodo pode tambeacutem agrave partida modelar melhor os dados

Resta acrescentar que o meacutetodo descrito nesta Secccedilatildeo soacute permite obter significacircncias

estatiacutesticas para motivos simples A realizaccedilatildeo de caacutelculos para motivos estruturados eacute

consideravelmente mais complexa e natildeo foi abordada neste trabalho

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 23

5 Geraccedilatildeo de coacutedigo IUPAC

A realizaccedilatildeo eficiente de pesquisas de consensos em bases de dados bioloacutegicas requer uma

representaccedilatildeo compacta dos dados armazenados Neste contexto a possibilidade de

representar consensos em coacutedigo IUPAC assume uma importacircncia fundamental

O coacutedigo IUPAC eacute uma extensatildeo sobre a representaccedilatildeo de sequecircncias de DNA Uma

sequecircncia de DNA eacute constituiacuteda por nucleoacutetidos A codificaccedilatildeo IUPAC introduz siacutembolos que

representam um conjunto de possiacuteveis nucleoacutetidos para uma dada posiccedilatildeo permitindo uma

representaccedilatildeo de sequecircncias degeneradas Por exemplo uma purina (A ou G) eacute representada

pela letra R A descriccedilatildeo completa dos coacutedigos IUPAC encontra-se na Tabela 51

Coacutedigo Descriccedilatildeo A Adenina

C Citosina

G Guanina

T Timina

U Uracilo

R Purina (A ou G)

Y Pirimidina (C T ou U)

M C ou A

K T U ou G

W T U ou A

S C ou G

B C T U ou G (natildeo A)

D A T U ou G (natildeo C)

H A T U ou C (natildeo G)

V A C ou G (natildeo T natildeo U)

N Qualquer base (A C G T ou U)

Tabela 51 Coacutedigo IUPAC

A conversatildeo de um conjunto de sequecircncias de DNA para um conjunto de sequecircncias IUPAC

natildeo eacute uma tarefa trivial Para um dado conjunto de sequecircncias existem diversas codificaccedilotildees

IUPAC possiacuteveis

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 24

O problema da geraccedilatildeo de coacutedigo IUPAC consiste em encontrar o conjunto miacutenimo de

sequecircncias IUPAC que representem um dado conjunto de sequecircncias DNA

Como o objectivo proposto eacute a compressatildeo da representaccedilatildeo das sequecircncias de nucleoacutetidos eacute

desejaacutevel que a codificaccedilatildeo IUPAC seja a mais compacta possiacutevel

A abordagem utilizada foi a de reduzir o problema da compressatildeo IUPAC a um problema

conhecido a minimizaccedilatildeo de expressotildees loacutegicas multi-valor

Uma expressatildeo loacutegica multi-valor eacute uma expressatildeo loacutegica onde figuram variaacuteveis multi-valor

ou seja variaacuteveis que necessitam de mais do que um bit para serem representadas

Para representar um siacutembolo IUPAC eacute utilizada uma variaacutevel multi-valor de 4 bits Os

siacutembolos e as respectivas representaccedilotildees estatildeo na Tabela 52

Siacutembolo

IUPAC

Codificaccedilatildeo

binaacuteria

A 1000

T 0100

C 0010

G 0001

R 1001

Y 0110

S 0011

W 1100

K 0101

M 1010

B 0111

D 1101

H 1110

V 1011

N 1111

Espaccedilo 0000

Tabela 52

Codificaccedilatildeo binaacuteria dos siacutembolos IUPAC

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 25

Uma sequecircncia de nucleoacutetidos ou IUPAC eacute construiacuteda atraveacutes de um produto de termos

sendo cada termo uma variaacutevel multi-valor que representa um siacutembolo da sequecircncia Por

exemplo a sequecircncia WTA eacute representada pela expressatildeo loacutegica (1100) (0100) (1000)

Agora que foi estabelecida uma representaccedilatildeo para sequecircncias IUPAC atraveacutes de expressotildees

loacutegicas multi-valor resta perceber como da minimizaccedilatildeo destas expressotildees pode resultar o

desejado coacutedigo IUPAC

Em (51) temos um exemplo simples de minimizaccedilatildeo loacutegica

ZXZYXZYX

(51)

Eacute faacutecil verificar que X Z eacute uma expressatildeo equivalente O que se pretende para a compressatildeo

IUPAC eacute algo semelhante

Por exemplo a partir das sequecircncias ATA e TTA pretende-se a expressatildeo IUPAC WTA A

simplificaccedilatildeo das expressotildees loacutegicas eacute exemplificada sucessivamente em (52) (53) e (54)

A T A + T T A (52)

(1000) (0100) (1000) + (0100) (0100) (1000)

(A ou T) T A (53)

((1000)+(0100)) (0100) (1000)

W T A (54)

(1100) (0100) (1000)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 26

Eacute faacutecil perceber atendendo agrave escolha criteriosa da codificaccedilatildeo que da minimizaccedilatildeo de

expressotildees loacutegicas que representam sequecircncias de nucleoacutetidos resultam expressotildees loacutegicas

que representam uma codificaccedilatildeo IUPAC das sequecircncias originais

O problema inicial encontra-se agora reduzido a um problema de minimizaccedilatildeo de expressotildees

loacutegicas Este problema jaacute estaacute resolvido na aacuterea da siacutentese loacutegica Um dos programas mais

conhecidos desenvolvido para a resoluccedilatildeo deste problema eacute o programa Espresso [9] Apesar

de ser utilizado neste contexto como uma caixa preta eacute importante perceber o seu

funcionamento

No Espresso as expressotildees loacutegicas satildeo representadas num espaccedilo booleano multi-

dimensional Um exemplo eacute um espaccedilo tridimensional onde podem ser representadas

sequecircncias de tamanho 3 tal como estaacute ilustrado na Figura 51

Figura 51

Representaccedilatildeo das sequecircncias ATA (1) e TTA (2)

Neste contexto um cubo define-se como a representaccedilatildeo espacial de um produto de termos

Ou seja para o problema em questatildeo cada sequecircncia de entrada eacute um cubo e uma cobertura

corresponde a um conjunto de cubos que engloba todos os veacutertices representados no espaccedilo

Pode observar-se que a dimensatildeo do espaccedilo encontra-se directamente relacionada com o

tamanho da sequecircncia que se pretende representar Para efectuar a minimizaccedilatildeo o Espresso

procura uma cobertura miacutenima que daraacute origem ao conjunto de sequecircncias IUPAC de saiacuteda

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 27

No caso do espaccedilo da Figura 51 existe uma cobertura miacutenima constituiacuteda por um uacutenico cubo

A Figura 52 ilustra a referida cobertura

Figura 52 Representaccedilatildeo da cobertura WTA (1)

Da cobertura resulta a codificaccedilatildeo IUPAC das sequecircncias iniciais

O processo para descobrir a cobertura miacutenima eacute complexo sendo composto por um conjunto

intrincado de passos Inicialmente o conjunto de cubos originais eacute expandido de forma a

englobar o maior nuacutemero de veacutertices adjacentes De seguida os cubos redundantes satildeo

removidos e os restantes satildeo reduzidos para que cubram apenas os cubos iniciais Um cubo eacute

considerado redundante se natildeo cobrir nenhum veacutertice que natildeo esteja jaacute coberto por outro

cubo Deste processo resulta uma reduccedilatildeo contiacutenua do nuacutemero de cubos necessaacuterios para a

cobertura O processo eacute reiterado ateacute natildeo se verificarem melhorias substanciais na dimensatildeo

da cobertura obtida

Este processo eacute guiado por heuriacutesticas e eacute possiacutevel demonstrar que produz resultados

proacuteximos da soluccedilatildeo oacuteptima O processo estaacute detalhadamente descrito em [910]

De modo a automatizar o processo de codificaccedilatildeo das sequecircncias de nucleoacutetidos e

descodificaccedilatildeo das sequecircncias IUPAC foi desenvolvida uma interface para o Espresso

Assim as sequecircncias de entrada satildeo transformadas em expressotildees loacutegicas (formato binaacuterio)

seguindo a correspondecircncia referida na Tabela 52 Do mesmo modo a representaccedilatildeo da

cobertura miacutenima obtida pelo Espresso eacute descodificada e traduzida para sequecircncias IUPAC

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 28

O funcionamento da interface foi testado com recurso a um gerador aleatoacuterio de sequecircncias de

nucleoacutetidos e a um verificador O gerador produz um conjunto de sequecircncias obtidas a partir

de uma sequecircncia inicial de nucleoacutetidos O conjunto de sequecircncias gerado corresponde a

vaacuterias substituiccedilotildees aleatoacuterias na sequecircncia inicial e constitui o conjunto de entrada que vai

ser lido pela ferramenta Espresso O verificador recebe o conjunto de sequecircncias de entrada e

o resultado da operaccedilatildeo de minimizaccedilatildeo do Espresso sob a forma de sequecircncias de coacutedigos

IUPAC Deste modo ao expandir as sequecircncias IUPAC obtidas pelo Espresso atraveacutes de

uma operaccedilatildeo trivial de substituiccedilotildees sucessivas eacute possiacutevel testar a completude e adequaccedilatildeo

da representaccedilatildeo Assim diz-se que a representaccedilatildeo eacute completa se a expansatildeo incluir todas as

sequecircncias de entrada por outro lado diz-se que a representaccedilatildeo eacute adequada se natildeo incluir

nenhuma sequecircncia que natildeo esteja no conjunto inicial

Depois de verificada a completude e adequaccedilatildeo das representaccedilotildees obtidas foram feitos testes

com dados reais de modo a poder aferir o grau de compressatildeo das sequecircncias introduzidas

Assim o Espresso foi executado tendo como conjunto de entrada sequecircncias devidamente

codificadas obtidas atraveacutes de uma execuccedilatildeo do SMILE

As taxas de compressatildeo obtidas variam entre 278 e 715

O gerador de coacutedigo IUPAC encontra-se neste momento integrado na base de dados Dbyeast

[11] disponibilizando publicamente o serviccedilo de codificaccedilatildeo A Figura 53 eacute uma imagem da

interface que permite que os utilizadores da Dbyeast obtenham coacutedigo IUPAC a partir de

sequecircncias de DNA

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 29

Figura 53 Interface para geraccedilatildeo de coacutedigo IUPAC integrada na Dbyeast

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 30

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 31

6 Resultados e Conclusotildees

Neste Capiacutetulo iremos analisar os resultados obtidos tanto para dados sinteacuteticos como para

dados reais Para tal iremos comparar os valores de significacircncia estatiacutestica obtidos para os

dois tipos de dados usando tanto o meacutetodo de shuffling como o meacutetodo analiacutetico Para efectuar

esta comparaccedilatildeo eacute uacutetil referirmo-nos agrave posiccedilatildeo obtida pelos motivos em anaacutelise numa lista

ordenada por valores decrescentes de significacircncia estatiacutestica Assim sempre que

mencionarmos o valor da posiccedilatildeo de um motivo estaremos a referir-nos agrave posiccedilatildeo numa lista

assim definida

61 Resultados Obtidos com Dados Sinteacuteticos

Como jaacute foi referido a utilizaccedilatildeo de dados sinteacuteticos permite um maior controlo sobre os

motivos que estatildeo efectivamente presentes no conjunto de dados Assim iremos referir-nos

aos motivos que foram introduzidos no conjunto de dados gerado por motivos especificados

em oposiccedilatildeo aos outros motivos igualmente extraiacutedos pelo SMILE que designaremos por

motivos natildeo-especificados Nesta Secccedilatildeo iremos considerar o teste de significacircncia estatiacutestica

relativo agrave abundacircncia de forma a podermos comparar os resultados obtidos com o meacutetodo

shuffling e com o meacutetodo analiacutetico

611 Resultados do teste do 2 com o meacutetodo shuffling

Ao especificar um conjunto de dados com os mesmos motivos que estatildeo presentemente

descritos para a H pylori obtivemos para motivos simples os resultados apresentados nas

Figuras 61 e 62 O conjunto de dados sinteacutetico conteacutem 308 sequecircncias de comprimento 167

Foi efectuada uma procura de motivos simples com tamanhos compreendidos entre 6 e 8

nucleoacutetidos Natildeo foram admitidos erros e foi exigido um quoacuterum de 6 Os motivos

especificados encontram-se representados a ponteado Os restantes motivos correspondem a

motivos natildeo-especificados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 32

Figura 61 Significacircncia estatiacutestica para motivos simples de tamanho 6

Figura 62 Significacircncia estatiacutestica para motivos simples de tamanho 7

Os graacuteficos natildeo satildeo no entanto suficientes para nos dar a percepccedilatildeo da correcta classificaccedilatildeo

dos motivos uma vez que natildeo eacute possiacutevel fazer representar no graacutefico os 172 motivos

extraiacutedos A Tabela 61 indica as posiccedilotildees ocupadas pelos motivos especificados em relaccedilatildeo agrave

totalidade dos modelos para vaacuterios valores de k

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 33

TTTAAG TTTTAA TATAAT TATAATA

k=1 5 4 1 2

k=2 6 4 1 2

k=3 6 4 2 1

k=4 6 5 2 1

k=5 78 7 5 1

Tabela 61 Posiccedilotildees dos motivos especificados

Em geral os motivos especificados aparecem melhor classificados para um baixo valor de k

Agrave medida que se consideram valores de k crescentes a significacircncia estatiacutestica de todos os

motivos aproxima-se de zero pelas razotildees jaacute apontadas na Secccedilatildeo 42

Eacute comum observar-se a presenccedila de motivos natildeo-especificados com niacuteveis de significacircncia

elevados especialmente se atendermos agraves posiccedilotildees da Tabela 61

Contudo estes bons resultados natildeo se mantecircm se forem admitidos erros na procura Neste

caso embora os motivos mantenham em geral elevadas significacircncias entram em

competiccedilatildeo com os motivos a distacircncia de Hamming natildeo superior ao nuacutemero de erros

admitido Assim eacute comum observar-se uma descida significativa na tabela de posiccedilotildees

Para motivos estruturados os resultados satildeo favoraacuteveis mesmo admitindo erros como eacute

ilustrado pelo graacutefico da Figura 63 em conjugaccedilatildeo com os valores de posiccedilatildeo apresentados na

Tabela 62

Neste exemplo efectuou-se uma procura por motivos estruturados compostos por duas partes

com tamanhos entre 6 e 7 com uma distacircncia entre si variando entre 21 e 23 nucleoacutetidos

Admitiu-se 1 erro em cada parte do motivo mas apenas 1 erro na totalidade do motivo

estruturado e exigiu-se um quoacuterum de 6 Foram extraiacutedos 53 motivos O motivo

especificado encontra-se a ponteado

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 34

Figura 63 Significacircncia estatiacutestica para modelos estruturados em dados sinteacuteticos

TTTAAG_TATAAT

k=1 4

k=2 4

k=3 17

k=4 63

k=5 162

Tabela 62 Posiccedilotildees do motivo estruturado especificado

Neste exemplo foi necessaacuterio admitir a existecircncia de erros para que o motivo fosse encontrado

pelo SMILE Natildeo existem motivos sem erros que cumpram as condiccedilotildees de procura

Esta boa prestaccedilatildeo dos motivos estruturados estaacute relacionada com o facto de o shuffling

raramente preservar as distacircncias relativas de cada uma das partes que constituem o motivo

fazendo com que estes ocorram poucas vezes nas simulaccedilotildees Assim neste exemplo o motivo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 35

estruturado especificado aparece claramente destacado Estes resultados parecem sugerir que a

utilizaccedilatildeo deste teste estatiacutestico se adequa agrave avaliaccedilatildeo de modelos estruturados No entanto

nem todos os promotores exibem esta estrutura sendo necessaacuterio um meacutetodo mais geral para

fazer esta avaliaccedilatildeo

Como veremos em seguida os resultados aparentemente animadores mesmo para motivos

simples natildeo se verificam quando analisamos dados reais Esta evidecircncia estaacute relacionada com

o facto de o gerador de dados sinteacuteticos gerar dados aleatoacuterios com equiprobabilidade de

nucleoacutetidos Nos dados reais isto natildeo se verifica existindo normalmente uma clara

abundacircncia de A s e T s na regiatildeo promotora Do mesmo modo cada conjunto de dados exibe

preferecircncia por certos diacutemeros ou triacutemeros que ocorrem com muito mais frequecircncia que

outros

Esta limitaccedilatildeo podia ser mitigada pela incorporaccedilatildeo destas correlaccedilotildees na geraccedilatildeo de dados

sinteacuteticos Mas embora seja relativamente simples estabelecer uma preferecircncia por certos

nucleoacutetidos a geraccedilatildeo natildeo-equiprovaacutevel de k-mers geneacutericos constitui soacute por si um problema

complexo pelo que natildeo foi abordado neste trabalho

612 Resultados do teste do 2 com o meacutetodo analiacutetico

Os dados sinteacuteticos foram igualmente analisados recorrendo ao meacutetodo analiacutetico que como jaacute

foi referido tem a vantagem de ser mais eficiente do ponto de vista computacional e de poder

explorar valores mais elevados de k As Figura 64 e 65 apresentam a evoluccedilatildeo da

significacircncia estatiacutestica dos mesmos motivos considerados nas Figuras 62 e 63 mas

recorrendo ao meacutetodo analiacutetico

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 36

Figura 64 Significacircncia estatiacutestica de motivos simples de tamanho 6 usando o

meacutetodo analiacutetico

Figura 65 Significacircncia estatiacutestica de motivos simples de tamanho 7 usando o

meacutetodo analiacutetico

A Tabela 63 indica as posiccedilotildees dos motivos especificados para a significacircncia estatiacutestica

calculada por via do meacutetodo analiacutetico

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 37

TTTAAG TTTTAA TATAAT TATAATA

k=1 6 4 1 2

k=2 6 4 1 2

k=3 6 3 2 1

k=4 6 3 2 1

k=5 55 3 2 1

Tabela 63 Posiccedilotildees dos modelos especificados

Satildeo oacutebvias as semelhanccedilas entre os resultados apresentados na Tabela 63 e os presentes na

Tabela 61 Isto confirma a possibilidade de usar o meacutetodo analiacutetico como alternativa ao

meacutetodo de shuffling

Sabemos igualmente que no acircmbito do meacutetodo analiacutetico quando k atinge um valor igual ao

comprimento do motivo em anaacutelise a significacircncia estatiacutestica anula-se Isto tem a ver com o

facto de a probabilidade de ocorrecircncia de um k-mer ser muito proacutexima da sua frequecircncia

relativa no conjunto de dados Assim sendo os valores das entradas da tabela de contingecircncia

relativas aos dados aleatoacuterios seratildeo inevitavelmente iguais agraves dos dados reais resultando deste

facto uma significacircncia estatiacutestica nula

Por outro lado agrave medida que o k aumenta os k-mers introduzidos pelos motivos especificados

no conjunto de dados que de resto eacute aleatoacuterio vatildeo fazer com que a cadeia de Markov gerada

faccedila convergir as probabilidades de ocorrecircncia de cada motivo com a sua frequecircncia relativa

efectiva no conjunto de dados Assim assiste-se ao mesmo fenoacutemeno de convergecircncia para

zero da significacircncia estatiacutestica que assinalaacutemos para o meacutetodo shuffling

Pela anaacutelise dos resultados podemos ainda concluir que em geral um valor de k demasiado

pequeno natildeo modela suficientemente bem os dados daqui resulta que alguns motivos natildeo

especificados obtenham melhores classificaccedilotildees que motivos especificados Em suma

deveremos preferir valores de k intermeacutedios

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 38

62 Resultados Obtidos com Dados Reais

Com este teste pretendemos verificar se uma sequecircncia classificada como estatisticamente

relevante tambeacutem pode ser considerada biologicamente relevante

Para fazer o estudo da anaacutelise estatiacutestica em dados reais foram recolhidos 16 conjuntos de

dados com regiotildees promotoras correspondentes a genes da levedura Saccharomyces

cerevisiae que eacute um organismo eucariota Cada conjunto conteacutem aproximadamente 10

sequecircncias As sequecircncias contecircm consensos obtidos por via experimental e descritos na

literatura A descriccedilatildeo completa de cada conjunto de dados pode ser vista no Anexo A

Para cada conjunto de dados foi feita uma procura de motivos de tamanhos variando entre 4 e

11 nucleoacutetidos para valores de quoacuterum de 60 75 80 e 100 Foram permitidos 0 e 1

erros em ensaios sucessivos e fez-se ainda variar o valor de k entre 1 e 4

Foi posteriormente analisada a significacircncia estatiacutestica calculada pelo SMILE no que diz

respeito ao quoacuterum

Os consensos descritos obtiveram boas classificaccedilotildees para algumas das condiccedilotildees testadas

Em particular quando o quoacuterum exigido se encontra proacuteximo da frequecircncia efectiva dos

motivos nos dados e quando natildeo satildeo admitidos erros Os resultados satildeo tambeacutem melhores

para motivos de tamanho superior a 7 Em suma obtecircm-se bons resultados quando as

condiccedilotildees favorecem os motivos com as caracteriacutesticas dos consensos descritos

Estes resultados natildeo satildeo muito animadores porque para os atingir eacute necessaacuterio um

conhecimento preacutevio da frequecircncia e tamanho dos motivos Ao considerar a generalidade dos

ensaios efectuados verifica-se que as classificaccedilotildees satildeo muito baixas com baixas

significacircncias estatiacutesticas e com valores de posiccedilatildeo frequentemente abaixo dos primeiros

1 000 motivos No Anexo A apresentamos os resultados obtidos com estes ensaios

A par desta anaacutelise foi considerada a significacircncia estatiacutestica obtida a respeito da abundacircncia

Deste modo eacute possiacutevel estabelecer uma comparaccedilatildeo directa entre o meacutetodo de shuffling e o

meacutetodo analiacutetico para o caacutelculo desta meacutetrica

De seguida apresentamos os resultados desta anaacutelise

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 39

621 Resultados do teste do 2 com o meacutetodo shuffling

De modo geral os resultados para o teste estatiacutestico referente agrave abundacircncia representam uma

melhoria em relaccedilatildeo ao teste referente ao quoacuterum

Comeccedilamos por apresentar os graacuteficos referentes a um conjunto de dados cujos motivos

permanecem mal classificados isto eacute o motivo eacute biologicamente relevante mas natildeo eacute

considerado estatisticamente relevante O conjunto de dados em causa o MSN4 tem um

motivo muito abundante (CCCCT) condicionando a estatiacutestica dos dados Isto conjugado

com o seu pequeno tamanho (5 nucleoacutetidos) resulta na inevitaacutevel baixa significacircncia

estatiacutestica uma vez que aparece sistematicamente na geraccedilatildeo aleatoacuteria de sequecircncias feita em

cada simulaccedilatildeo As Figuras 66 e 67 ilustram a evoluccedilatildeo da significacircncia estatiacutestica e da

posiccedilatildeo do referido motivo considerando erro 0 e 1 respectivamente para um quoacuterum de

60

Figura 66 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 0 erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 40

Figura 67 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 1 erro

Os resultados da classificaccedilatildeo satildeo claramente maus para um consenso descrito A estranha

subida para k igual a 4 estaacute relacionada com uma pequena flutuaccedilatildeo sem significado uma vez

que estamos a considerar valores de significacircncia estatiacutestica muito baixos A aparente melhor

classificaccedilatildeo quando consideramos erro 0 estaacute relacionada com o facto de que quando natildeo se

admitem erros satildeo consequentemente extraiacutedos menos motivos Em particular com erro 0 satildeo

extraiacutedos 1 316 motivos enquanto que com erro 1 satildeo extraiacutedos 35 258 motivos

De seguida apresentamos os resultados relativos a um outro conjunto de dados (STE12) que

evidencia resultados mais favoraacuteveis para erro 0 As Figuras 68 e 69 apresentam a evoluccedilatildeo

da significacircncia estatiacutestica do motivo descrito (TGAAACA) para 0 e 1 erros

respectivamente com um quoacuterum de 100

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 41

Figura 68 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 0 erros

Figura 69 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 1 erro

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 42

Resta referir que para este conjunto de dados foram extraiacutedos 267 motivos com erro 0 e

7 705 motivos para erro 1

O facto de os motivos serem abundantes em relaccedilatildeo ao nuacutemero de sequecircncias consideradas

faz com que o teste relativo agrave abundacircncia tenha um poder de resoluccedilatildeo consideravelmente

maior do que o teste relativo ao quoacuterum Por esta razatildeo deveremos sempre preferir o primeiro

em casos semelhantes

Por outro lado os resultados obtidos continuam a pocircr em causa a generalidade do meacutetodo uma

vez que eacute difiacutecil identificar as situaccedilotildees em que este produz bons resultados sobretudo quando

somos confrontados com um desconhecimento a priori do conjunto de dados

622 Resultados do teste do 2 com o meacutetodo analiacutetico

Resta-nos comparar os resultados obtidos na subsecccedilatildeo anterior com os obtidos pela via

analiacutetica Nos graacuteficos apresentados nesta subsecccedilatildeo que representam a evoluccedilatildeo da

significacircncia estatiacutestica com o crescimento do tamanho dos k-mers considerados estatildeo

tambeacutem assinaladas as posiccedilotildees ocupadas pelos motivos

As Figuras 610 e 611 apresentam os resultados referentes ao MSN4

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 43

Figura 610 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 0 erros

Figura 611 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 1 erro

Os resultados para o MSN4 natildeo sofrem alteraccedilotildees assinalaacuteveis em relaccedilatildeo ao meacutetodo anterior

Novamente as caracteriacutesticas do conjunto de dados limitam a possibilidade de evidenciar este

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 44

motivo por via deste teste estatiacutestico o que eacute tanto mais grave quanto o facto de este ser um

dos motivos cuja significacircncia bioloacutegica se encontra melhor estabelecida

As Figuras 612 e 613 apresentam os resultados referentes ao conjunto de dados STE12

Figura 612 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 0 erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 45

Figura 613 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 1 erro

Os dados apresentados natildeo evidenciam melhorias assinalaacuteveis em relaccedilatildeo aos resultados

obtidos por via de shuffling excepto a ocorrecircncia de melhorias ocasionais da classificaccedilatildeo

quando natildeo se admitem erros Estas diferenccedilas podem ser atribuiacutedas ao facto de o meacutetodo

analiacutetico natildeo conservar estritamente os k-mers e de analisar o conjunto de dados na sua

totalidade por oposiccedilatildeo ao shuffling que considera cada sequecircncia isoladamente

No Anexo B apresentamos a totalidade dos resultados desta anaacutelise comparativa No Anexo C

eacute apresentada uma listagem dos resultados do caacutelculo do valor de significacircncia para valores de

k ateacute ao tamanho dos consensos descritos

A grande vantagem deste meacutetodo eacute sem duacutevida o incomparaacutevel ganho a niacutevel de

desempenho computacional Para ilustrar esta afirmaccedilatildeo basta dizer que o caacutelculo da

significacircncia estatiacutestica para todos os conjuntos de dados considerados demorou com o

meacutetodo de shuffling mais de 30 horas de processamento O meacutetodo analiacutetico realizou todos os

caacutelculos em menos de 30 minutos

No entanto os resultados voltam a pocircr em causa a adequaccedilatildeo do teste estatiacutestico do 2 para

aferir a significacircncia bioloacutegica pela dificuldade de sintetizar um meacutetodo geneacuterico para

destacar motivos relevantes de entre os extraiacutedos pelo SMILE

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 46

63 Conclusotildees

Ao considerar os resultados apresentados eacute inevitaacutevel concluir que a significacircncia atribuiacuteda

pelo teste estatiacutestico do 2 aos motivos extraiacutedos pelo SMILE natildeo reflecte a sua significacircncia

bioloacutegica

A dificuldade em distinguir motivos relevantes da grande quantidade de motivos extraiacutedos

potildee em causa a utilidade praacutetica do algoritmo na generalidade dos casos

Para aleacutem desta questatildeo outras limitaccedilotildees tecircm sido apontadas por bioacutelogos designadamente

o facto de o algoritmo natildeo conseguir pesquisar motivos na cadeia de DNA inversa onde os

factores de transcriccedilatildeo podem igualmente ligar-se e o facto de a forma como o SMILE

modela a ocorrecircncia de erros nos motivos natildeo ser compatiacutevel com a necessidade de poder

indicar posiccedilotildees especiacuteficas onde erros satildeo admitidos

No entanto o SMILE continua a exibir resultados interessantes para motivos estruturados o

que constitui sem duacutevida a mais-valia fundamental do algoritmo Tudo indica que o meacutetodo

analiacutetico pode ser igualmente adaptado para calcular a significacircncia de motivos estruturados

Parece-nos claro que uma eficaz extracccedilatildeo de motivos relevantes passaraacute necessariamente

pela conjugaccedilatildeo com outros dados para aleacutem da simples sequecircncia de nucleoacutetidos Em

particular a disponibilidade de informaccedilatildeo acerca de co-regulaccedilatildeo de genes poderaacute guiar a

extracccedilatildeo de motivos permitindo exigir um quoacuterum mais alto dada a confianccedila na existecircncia

de factores de transcriccedilatildeo comuns

Por outro lado a utilizaccedilatildeo de modelos probabiliacutesticos em vez de meras colecccedilotildees de motivos

poderaacute ser uma abordagem mais natural para o problema permitindo simultaneamente uma

melhor modelaccedilatildeo da realidade bioloacutegica ao indicar uma probabilidade de ocorrecircncia de cada

nucleoacutetido para uma dada posiccedilatildeo no modelo O nuacutemero de modelos extraiacutedos seria tambeacutem

francamente reduzido uma vez que um uacutenico modelo probabiliacutestico pode representar com

expressividade acrescida um grande nuacutemero de motivos

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 47

7 Referecircncias

[1] A Vanet L Marsan e M F Sagot Promoter sequence and algorithmical methods for

identifying them Research in Microbiology 150 pp 779-799 1999

[2] JD Watson FH Crick Molecular structure of nucleic acids a structure for deoxyribose

nucleic acid Nature Number 4356 1953

[3] T Werner Models for Prediction and Recognition of Eukaryotic Promoters Mammalian

Genome Vol 10 pp 168-175 1999

[4] L Marsan e M F Sagot Algorithms for extracting structured motifs using a suffix tree

with an application to promoter and regulatory site consensus identication Journal of

Computational Biology 7 pp 345-362 2000

[5] L Marsan Infeacuterence de motifs structureacutes algorithmes et outils appliqueacutes agrave la deacutetection de

sites de fixation dans des seacutequences geacutenomiques PhD Thesis Universiteacute de Marne-la-Valleacutee

2002

[6] B Flannery S Teukolsky W Press e W Vetterling Numerical Recipes in C++

Cambridge University Press 2002

[7] S Altschul e B Erickson Significance of Nucleotide Sequence Alignments A method of

Random Sequence Permutation That Preserves Dinucleotide and Codon Usage Molecular

Biology Evolution 2 pp 526-538 1985

[8] D Kandel Y Matias R Unger e P Winkler Shuffling Biological Sequences Discrete

Appl Math 71 pp 171-185 1996

[9] R Rudell e A Sangiovanni-Vincentelli Multiple-Valued Minimization for PLA

Optimization IEEE Transactions on Computer-Aided Design of Integrated Circuits and

Systems Vol CAD-6 Nordm 5 pp 727-751 September 1987

[10] R Brayton G Hachtel C McMullen e A Sangiovanni-Vincentelli Logic Minimization

Algorithms for VLSI Synthesis Kluwer Academic Publishers 1985

[11] P Monteiro Dbyeast [httpdescartesinesc-idpt~ptgmdb] 2004

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 48

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 49

Anexo A

Resultados do Caacutelculo da Significacircncia Estatiacutestica referente ao Quoacuterum

para Conjuntos de Dados de Saccharomyces cerevisiae

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados

A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos os resultados para os motivos procurados em relaccedilatildeo a cada valor dos paracircmetros

Nota o campo posicao refere-se agrave posiccedilatildeo ocupada pelo motivo na tabela com a estatiacutestica das sequecircncias com pelo menos uma ocorrecircncia do motivo ordenada por chi2

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

314 motivos encontrados Quorum = 80

670 motivos encontrados Quorum = 75

670 motivos encontrados Quorum = 60

1306 motivos encontrados Erro = 1

Quorum = 100 8636 motivos encontrados k = 1 posicao = 2 chi2 = 98 (ACCTTAAAGGT) k = 2 posicao = 2 chi2 = 976 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 965 (ACCTTAAAGGT) k = 4 posicao = 2 chi2 = 984 (ACCTTAAAGGT)

Quorum = 80 17722 motivos encontrados k = 1 posicao = 2 chi2 = 651 (ACCCTAAAGGT) k = 1 posicao = 4 chi2 = 965 (ACCTTAAAGGT) k = 2 posicao = 2 chi2 = 659 (ACCCTAAAGGT) k = 2 posicao = 8 chi2 = 965 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 667 (ACCCTAAAGGT) k = 3 posicao = 4 chi2 = 969 (ACCTTAAAGGT) k = 4 posicao = 2 chi2 = 659 (ACCCTAAAGGT) k = 4 posicao = 3 chi2 = 984 (ACCTTAAAGGT)

Quorum = 75 17722 motivos encontrados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 50

k = 1 posicao = 4 chi2 = 651 (ACCCTAAAGGT) k = 1 posicao = 2 chi2 = 988 (ACCTTAAAGGT) k = 2 posicao = 3 chi2 = 659 (ACCCTAAAGGT) k = 2 posicao = 2 chi2 = 992 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 655 (ACCCTAAAGGT) k = 3 posicao = 3 chi2 = 976 (ACCTTAAAGGT) k = 4 posicao = 3 chi2 = 655 (ACCCTAAAGGT) k = 4 posicao = 5 chi2 = 984 (ACCTTAAAGGT)

Quorum = 60 34907 motivos encontrados k = 1 posicao = 11 chi2 = 655 (ACCCTAAAGGT) k = 1 posicao = 5 chi2 = 996 (ACCTTAAAGGT) k = 1 posicao = 13 chi2 = 421 (ACCTTGAAGGT) k = 2 posicao = 15 chi2 = 647 (ACCCTAAAGGT) k = 2 posicao = 12 chi2 = 969 (ACCTTAAAGGT) k = 2 posicao = 7 chi2 = 421 (ACCTTGAAGGT) k = 3 posicao = 9 chi2 = 655 (ACCCTAAAGGT) k = 3 posicao = 8 chi2 = 984 (ACCTTAAAGGT) k = 3 posicao = 27 chi2 = 414 (ACCTTGAAGGT) k = 4 posicao = 10 chi2 = 651 (ACCCTAAAGGT) k = 4 posicao = 5 chi2 = 984 (ACCTTAAAGGT) k = 4 posicao = 40 chi2 = 407 (ACCTTGAAGGT)

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

161 motivos encontrados Quorum = 80

381 motivos encontrados Quorum = 75

502 motivos encontrados Quorum = 60

826 motivos encontrados k = 1 posicao = 43 chi2 = 33 (CCCCT) k = 2 posicao = 42 chi2 = 202 (CCCCT) k = 3 posicao = 48 chi2 = 142 (CCCCT) k = 4 posicao = 122 chi2 = 028 (CCCCT)

Erro = 1 Quorum = 100

4877 motivos encontrados k = 1 posicao = 3089 chi2 = 002 (CCCCT) k = 2 posicao = 2781 chi2 = 005 (CCCCT) k = 3 posicao = 3148 chi2 = 002 (CCCCT) k = 4 posicao = 2516 chi2 = 007 (CCCCT)

Quorum = 80 10050 motivos encontrados k = 1 posicao = 8449 chi2 = 0 (CCCCT) k = 2 posicao = 5470 chi2 = 009 (CCCCT) k = 3 posicao = 5867 chi2 = 004 (CCCCT) k = 4 posicao = 5131 chi2 = 009 (CCCCT)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 51

Quorum = 75

13080 motivos encontrados k = 1 posicao = 7539 chi2 = 004 (CCCCT) k = 2 posicao = 8129 chi2 = 002 (CCCCT) k = 3 posicao = 7900 chi2 = 003 (CCCCT) k = 4 posicao = 7385 chi2 = 005 (CCCCT)

Quorum = 60 21544 motivos encontrados k = 1 posicao = 12673 chi2 = 004 (CCCCT) k = 2 posicao = 11871 chi2 = 008 (CCCCT) k = 3 posicao = 12731 chi2 = 004 (CCCCT) k = 4 posicao = 11754 chi2 = 007 (CCCCT)

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

326 motivos encontrados Quorum = 80

682 motivos encontrados k = 1 posicao = 169 chi2 = 109 (CCCCT) k = 2 posicao = 238 chi2 = 073 (CCCCT) k = 3 posicao = 223 chi2 = 057 (CCCCT) k = 4 posicao = 331 chi2 = 01 (CCCCT)

Quorum = 75 682 motivos encontrados k = 1 posicao = 136 chi2 = 131 (CCCCT) k = 2 posicao = 178 chi2 = 085 (CCCCT) k = 3 posicao = 245 chi2 = 042 (CCCCT) k = 4 posicao = 331 chi2 = 01 (CCCCT)

Quorum = 60 1316 motivos encontrados k = 1 posicao = 303 chi2 = 17 (CCCCT) k = 2 posicao = 505 chi2 = 075 (CCCCT) k = 3 posicao = 457 chi2 = 059 (CCCCT) k = 4 posicao = 613 chi2 = 014 (CCCCT)

Erro = 1 Quorum = 100

9022 motivos encontrados k = 1 posicao = 7955 chi2 = 0 (CCCCT) k = 2 posicao = 7901 chi2 = 0 (CCCCT) k = 3 posicao = 7846 chi2 = 0 (CCCCT) k = 4 posicao = 7711 chi2 = 0 (CCCCT)

Quorum = 80 17951 motivos encontrados k = 1 posicao = 16310 chi2 = 0 (CCCCT) k = 2 posicao = 16251 chi2 = 0 (CCCCT) k = 3 posicao = 16207 chi2 = 0 (CCCCT) k = 4 posicao = 16091 chi2 = 0 (CCCCT)

Quorum = 75 17951 motivos encontrados k = 1 posicao = 16308 chi2 = 0 (CCCCT)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 52

k = 2 posicao = 16242 chi2 = 0 (CCCCT) k = 3 posicao = 16212 chi2 = 0 (CCCCT) k = 4 posicao = 16063 chi2 = 0 (CCCCT)

Quorum = 60 35258 motivos encontrados k = 1 posicao = 32818 chi2 = 0 (CCCCT) k = 2 posicao = 32757 chi2 = 0 (CCCCT) k = 3 posicao = 32822 chi2 = 0 (CCCCT) k = 4 posicao = 32656 chi2 = 0 (CCCCT)

5_1_gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

220 motivos encontrados Quorum = 80

517 motivos encontrados k = 1 posicao = 52 chi2 = 254 (CTTCC) k = 2 posicao = 87 chi2 = 146 (CTTCC) k = 3 posicao = 164 chi2 = 067 (CTTCC) k = 4 posicao = 236 chi2 = 004 (CTTCC)

Quorum = 75 517 motivos encontrados k = 1 posicao = 77 chi2 = 246 (CTTCC) k = 2 posicao = 83 chi2 = 152 (CTTCC) k = 3 posicao = 99 chi2 = 098 (CTTCC) k = 4 posicao = 241 chi2 = 003 (CTTCC)

Quorum = 60 963 motivos encontrados k = 1 posicao = 625 chi2 = 003 (CATCC) k = 1 posicao = 128 chi2 = 284 (CTTCC) k = 2 posicao = 644 chi2 = 003 (CATCC) k = 2 posicao = 170 chi2 = 177 (CTTCC) k = 3 posicao = 490 chi2 = 015 (CATCC) k = 3 posicao = 256 chi2 = 107 (CTTCC) k = 4 posicao = 522 chi2 = 0 (CATCC) k = 4 posicao = 497 chi2 = 004 (CTTCC)

Erro = 1 Quorum = 100

6121 motivos encontrados k = 1 posicao = 5072 chi2 = 0 (CATCC) k = 1 posicao = 5313 chi2 = 0 (CTTCC) k = 2 posicao = 5049 chi2 = 0 (CATCC) k = 2 posicao = 5287 chi2 = 0 (CTTCC) k = 3 posicao = 4984 chi2 = 0 (CATCC) k = 3 posicao = 5236 chi2 = 0 (CTTCC) k = 4 posicao = 4894 chi2 = 0 (CATCC) k = 4 posicao = 5167 chi2 = 0 (CTTCC)

Quorum = 80 13644 motivos encontrados k = 1 posicao = 11732 chi2 = 0 (CATCC) k = 1 posicao = 11981 chi2 = 0 (CTTCC)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 53

k = 2 posicao = 11792 chi2 = 0 (CATCC) k = 2 posicao = 12044 chi2 = 0 (CTTCC) k = 3 posicao = 11736 chi2 = 0 (CATCC) k = 3 posicao = 11985 chi2 = 0 (CTTCC) k = 4 posicao = 11644 chi2 = 0 (CATCC) k = 4 posicao = 11917 chi2 = 0 (CTTCC)

Quorum = 75 13644 motivos encontrados k = 1 posicao = 11712 chi2 = 0 (CATCC) k = 1 posicao = 11966 chi2 = 0 (CTTCC) k = 2 posicao = 11791 chi2 = 0 (CATCC) k = 2 posicao = 12027 chi2 = 0 (CTTCC) k = 3 posicao = 11729 chi2 = 0 (CATCC) k = 3 posicao = 11981 chi2 = 0 (CTTCC) k = 4 posicao = 11649 chi2 = 0 (CATCC) k = 4 posicao = 11920 chi2 = 0 (CTTCC)

Quorum = 60 25804 motivos encontrados k = 1 posicao = 22732 chi2 = 0 (CATCC) k = 1 posicao = 22973 chi2 = 0 (CTTCC) k = 2 posicao = 22881 chi2 = 0 (CATCC) k = 2 posicao = 23121 chi2 = 0 (CTTCC) k = 3 posicao = 22916 chi2 = 0 (CATCC) k = 3 posicao = 23164 chi2 = 0 (CTTCC) k = 4 posicao = 22864 chi2 = 0 (CATCC) k = 4 posicao = 23141 chi2 = 0 (CTTCC)

6_0_MIG1

Motivo GCGGGG Frequecircncia 16 ~167 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

290 motivos encontrados Quorum = 80

556 motivos encontrados Quorum = 75

556 motivos encontrados Quorum = 60

927 motivos encontrados Erro = 1

Quorum = 100 7881 motivos encontrados k = 1 posicao = 650 chi2 = 252 (GCGGGG) k = 2 posicao = 773 chi2 = 173 (GCGGGG) k = 3 posicao = 1341 chi2 = 101 (GCGGGG) k = 4 posicao = 4437 chi2 = 052 (GCGGGG)

Quorum = 80 14601 motivos encontrados k = 1 posicao = 1895 chi2 = 249 (GCGGGG) k = 2 posicao = 2045 chi2 = 161 (GCGGGG) k = 3 posicao = 3284 chi2 = 11 (GCGGGG) k = 4 posicao = 7272 chi2 = 05 (GCGGGG)

Quorum = 75

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 54

14601 motivos encontrados k = 1 posicao = 2121 chi2 = 234 (GCGGGG) k = 2 posicao = 2604 chi2 = 153 (GCGGGG) k = 3 posicao = 3778 chi2 = 089 (GCGGGG) k = 4 posicao = 8057 chi2 = 047 (GCGGGG)

Quorum = 60 25117 motivos encontrados k = 1 posicao = 4371 chi2 = 234 (GCGGGG) k = 2 posicao = 5452 chi2 = 153 (GCGGGG) k = 3 posicao = 7361 chi2 = 116 (GCGGGG) k = 4 posicao = 12643 chi2 = 051 (GCGGGG)

6_0_UME6

Motivo GCCGCC Frequecircncia 37 ~4286 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

257 motivos encontrados Quorum = 80

454 motivos encontrados Quorum = 75

454 motivos encontrados Quorum = 60

748 motivos encontrados Erro = 1

Quorum = 100 7186 motivos encontrados

Quorum = 80 12323 motivos encontrados

Quorum = 75 12323 motivos encontrados

Quorum = 60 19726 motivos encontrados k = 1 posicao = 13214 chi2 = 002 (GCCGCC) k = 2 posicao = 14628 chi2 = 0 (GCCGCC) k = 3 posicao = 14684 chi2 = 0 (GCCGCC) k = 4 posicao = 15398 chi2 = 002 (GCCGCC)

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

173 motivos encontrados Quorum = 80

403 motivos encontrados Quorum = 75

530 motivos encontrados k = 1 posicao = 6 chi2 = 755 (GATAAG)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 55

k = 2 posicao = 3 chi2 = 892 (GATAAG) k = 3 posicao = 3 chi2 = 725 (GATAAG) k = 4 posicao = 12 chi2 = 457 (GATAAG)

Quorum = 60 836 motivos encontrados k = 1 posicao = 24 chi2 = 771 (GATAAG) k = 2 posicao = 7 chi2 = 94 (GATAAG) k = 3 posicao = 12 chi2 = 719 (GATAAG) k = 4 posicao = 25 chi2 = 48 (GATAAG)

Erro = 1 Quorum = 100

5360 motivos encontrados k = 1 posicao = 2690 chi2 = 012 (GATAAG) k = 1 posicao = 3118 chi2 = 008 (GATTAG) k = 2 posicao = 2917 chi2 = 01 (GATAAG) k = 2 posicao = 2424 chi2 = 02 (GATTAG) k = 3 posicao = 3096 chi2 = 007 (GATAAG) k = 3 posicao = 1982 chi2 = 033 (GATTAG) k = 4 posicao = 3004 chi2 = 007 (GATAAG) k = 4 posicao = 2767 chi2 = 01 (GATTAG)

Quorum = 80 10819 motivos encontrados k = 1 posicao = 6729 chi2 = 011 (GATAAG) k = 1 posicao = 6816 chi2 = 009 (GATTAG) k = 2 posicao = 6240 chi2 = 013 (GATAAG) k = 2 posicao = 6446 chi2 = 011 (GATTAG) k = 3 posicao = 7301 chi2 = 004 (GATAAG) k = 3 posicao = 4235 chi2 = 053 (GATTAG) k = 4 posicao = 7045 chi2 = 004 (GATAAG) k = 4 posicao = 6317 chi2 = 012 (GATTAG)

Quorum = 75 13889 motivos encontrados k = 1 posicao = 9061 chi2 = 007 (GATAAG) k = 1 posicao = 8672 chi2 = 01 (GATTAG) k = 2 posicao = 8095 chi2 = 016 (GATAAG) k = 2 posicao = 8763 chi2 = 01 (GATTAG) k = 3 posicao = 8965 chi2 = 008 (GATAAG) k = 3 posicao = 6907 chi2 = 036 (GATTAG) k = 4 posicao = 8966 chi2 = 006 (GATAAG) k = 4 posicao = 8323 chi2 = 011 (GATTAG)

Quorum = 60 22209 motivos encontrados k = 1 posicao = 14904 chi2 = 008 (GATAAG) k = 1 posicao = 14384 chi2 = 013 (GATTAG) k = 2 posicao = 13923 chi2 = 015 (GATAAG) k = 2 posicao = 13902 chi2 = 015 (GATTAG) k = 3 posicao = 14932 chi2 = 008 (GATAAG) k = 3 posicao = 11534 chi2 = 046 (GATTAG) k = 4 posicao = 14680 chi2 = 007 (GATAAG) k = 4 posicao = 13878 chi2 = 017 (GATTAG)

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 56

Erro = 0 Quorum = 100

128 motivos encontrados Quorum = 80

372 motivos encontrados Quorum = 75

454 motivos encontrados Quorum = 60

785 motivos encontrados Erro = 1

Quorum = 100 4212 motivos encontrados k = 1 posicao = 326 chi2 = 14 (CACCCA) k = 2 posicao = 594 chi2 = 108 (CACCCA) k = 3 posicao = 244 chi2 = 107 (CACCCA) k = 4 posicao = 1210 chi2 = 038 (CACCCA)

Quorum = 80 9800 motivos encontrados k = 1 posicao = 1302 chi2 = 157 (CACCCA) k = 1 posicao = 2061 chi2 = 087 (CACCCG) k = 2 posicao = 2058 chi2 = 117 (CACCCA) k = 2 posicao = 2522 chi2 = 059 (CACCCG) k = 3 posicao = 1624 chi2 = 106 (CACCCA) k = 3 posicao = 2994 chi2 = 045 (CACCCG) k = 4 posicao = 2703 chi2 = 05 (CACCCA) k = 4 posicao = 3926 chi2 = 011 (CACCCG)

Quorum = 75 11933 motivos encontrados k = 1 posicao = 1951 chi2 = 145 (CACCCA) k = 1 posicao = 2903 chi2 = 081 (CACCCG) k = 2 posicao = 2227 chi2 = 116 (CACCCA) k = 2 posicao = 3417 chi2 = 062 (CACCCG) k = 3 posicao = 2137 chi2 = 108 (CACCCA) k = 3 posicao = 3426 chi2 = 041 (CACCCG) k = 4 posicao = 4518 chi2 = 031 (CACCCA) k = 4 posicao = 4805 chi2 = 012 (CACCCG)

Quorum = 60 20531 motivos encontrados k = 1 posicao = 5137 chi2 = 144 (CACCCA) k = 1 posicao = 5556 chi2 = 073 (CACCCG) k = 2 posicao = 4865 chi2 = 113 (CACCCA) k = 2 posicao = 5737 chi2 = 062 (CACCCG) k = 3 posicao = 4491 chi2 = 097 (CACCCA) k = 3 posicao = 5797 chi2 = 052 (CACCCG) k = 4 posicao = 7825 chi2 = 041 (CACCCA) k = 4 posicao = 7275 chi2 = 018 (CACCCG)

7_0_REB1

Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

211 motivos encontrados k = 1 posicao = 4 chi2 = 965 (TTACCC)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 57

k = 2 posicao = 4 chi2 = 105 (TTACCC) k = 3 posicao = 4 chi2 = 1075 (TTACCC) k = 4 posicao = 4 chi2 = 755 (TTACCC)

Quorum = 80 405 motivos encontrados k = 1 posicao = 4 chi2 = 932 (TTACCC) k = 2 posicao = 4 chi2 = 1083 (TTACCC) k = 3 posicao = 4 chi2 = 1106 (TTACCC) k = 4 posicao = 4 chi2 = 723 (TTACCC)

Quorum = 75 605 motivos encontrados k = 1 posicao = 6 chi2 = 947 (TTACCC) k = 2 posicao = 5 chi2 = 999 (TTACCC) k = 3 posicao = 5 chi2 = 1098 (TTACCC) k = 4 posicao = 5 chi2 = 808 (TTACCC)

Quorum = 60 907 motivos encontrados k = 1 posicao = 9 chi2 = 1007 (TTACCC) k = 2 posicao = 6 chi2 = 1089 (TTACCC) k = 3 posicao = 6 chi2 = 1081 (TTACCC) k = 4 posicao = 6 chi2 = 788 (TTACCC)

Erro = 1 Quorum = 100

6121 motivos encontrados k = 1 posicao = 4617 chi2 = 013 (TTACCC) k = 2 posicao = 4454 chi2 = 016 (TTACCC) k = 3 posicao = 4730 chi2 = 012 (TTACCC) k = 4 posicao = 5483 chi2 = 004 (TTACCC)

Quorum = 80 10337 motivos encontrados k = 1 posicao = 7525 chi2 = 008 (TTACCC) k = 2 posicao = 7267 chi2 = 01 (TTACCC) k = 3 posicao = 7129 chi2 = 012 (TTACCC) k = 4 posicao = 7469 chi2 = 009 (TTACCC)

Quorum = 75 15777 motivos encontrados k = 1 posicao = 10287 chi2 = 012 (TTACCC) k = 2 posicao = 10740 chi2 = 01 (TTACCC) k = 3 posicao = 9696 chi2 = 016 (TTACCC) k = 4 posicao = 10789 chi2 = 008 (TTACCC)

Quorum = 60 23856 motivos encontrados k = 1 posicao = 15646 chi2 = 01 (TTACCC) k = 2 posicao = 15437 chi2 = 012 (TTACCC) k = 3 posicao = 13932 chi2 = 022 (TTACCC) k = 4 posicao = 15597 chi2 = 009 (TTACCC)

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

235 motivos encontrados Quorum = 80

475 motivos encontrados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 58

k = 1 posicao = 3 chi2 = 945 (TGCCAAG) k = 2 posicao = 2 chi2 = 92 (TGCCAAG) k = 3 posicao = 2 chi2 = 892 (TGCCAAG) k = 4 posicao = 3 chi2 = 7 (TGCCAAG)

Quorum = 75 475 motivos encontrados k = 1 posicao = 2 chi2 = 924 (TGCCAAG) k = 2 posicao = 3 chi2 = 886 (TGCCAAG) k = 3 posicao = 3 chi2 = 869 (TGCCAAG) k = 4 posicao = 2 chi2 = 678 (TGCCAAG)

Quorum = 60 785 motivos encontrados k = 1 posicao = 5 chi2 = 952 (TGCCAAG) k = 2 posicao = 4 chi2 = 934 (TGCCAAG) k = 3 posicao = 4 chi2 = 869 (TGCCAAG) k = 4 posicao = 6 chi2 = 67 (TGCCAAG)

Erro = 1 Quorum = 100

7028 motivos encontrados k = 1 posicao = 436 chi2 = 321 (TGCCAAG) k = 2 posicao = 551 chi2 = 217 (TGCCAAG) k = 3 posicao = 940 chi2 = 223 (TGCCAAG) k = 4 posicao = 1492 chi2 = 095 (TGCCAAG)

Quorum = 80 12574 motivos encontrados k = 1 posicao = 1703 chi2 = 325 (TGCCAAG) k = 2 posicao = 2035 chi2 = 244 (TGCCAAG) k = 3 posicao = 1678 chi2 = 217 (TGCCAAG) k = 4 posicao = 3298 chi2 = 093 (TGCCAAG)

Quorum = 75 12574 motivos encontrados k = 1 posicao = 1739 chi2 = 333 (TGCCAAG) k = 2 posicao = 1717 chi2 = 216 (TGCCAAG) k = 3 posicao = 1609 chi2 = 212 (TGCCAAG) k = 4 posicao = 3574 chi2 = 075 (TGCCAAG)

Quorum = 60 20257 motivos encontrados k = 1 posicao = 3598 chi2 = 304 (TGCCAAG) k = 2 posicao = 3664 chi2 = 211 (TGCCAAG) k = 3 posicao = 3206 chi2 = 213 (TGCCAAG) k = 4 posicao = 4753 chi2 = 115 (TGCCAAG)

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

267 motivos encontrados k = 1 posicao = 4 chi2 = 998 (TGAAACA) k = 2 posicao = 5 chi2 = 908 (TGAAACA) k = 3 posicao = 5 chi2 = 875 (TGAAACA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 59

k = 4 posicao = 4 chi2 = 743 (TGAAACA)

Quorum = 80 529 motivos encontrados k = 1 posicao = 4 chi2 = 969 (TGAAACA) k = 2 posicao = 6 chi2 = 84 (TGAAACA) k = 3 posicao = 5 chi2 = 845 (TGAAACA) k = 4 posicao = 5 chi2 = 702 (TGAAACA)

Quorum = 75 529 motivos encontrados k = 1 posicao = 6 chi2 = 933 (TGAAACA) k = 2 posicao = 5 chi2 = 866 (TGAAACA) k = 3 posicao = 5 chi2 = 86 (TGAAACA) k = 4 posicao = 5 chi2 = 717 (TGAAACA)

Quorum = 60 916 motivos encontrados k = 1 posicao = 12 chi2 = 956 (TGAAACA) k = 2 posicao = 13 chi2 = 893 (TGAAACA) k = 3 posicao = 16 chi2 = 84 (TGAAACA) k = 4 posicao = 18 chi2 = 715 (TGAAACA)

Erro = 1 Quorum = 100

7705 motivos encontrados k = 1 posicao = 4203 chi2 = 055 (TGAAACA) k = 2 posicao = 5562 chi2 = 02 (TGAAACA) k = 3 posicao = 5481 chi2 = 021 (TGAAACA) k = 4 posicao = 6219 chi2 = 012 (TGAAACA)

Quorum = 80 14161 motivos encontrados k = 1 posicao = 8113 chi2 = 052 (TGAAACA) k = 2 posicao = 9261 chi2 = 022 (TGAAACA) k = 3 posicao = 8536 chi2 = 029 (TGAAACA) k = 4 posicao = 10343 chi2 = 01 (TGAAACA)

Quorum = 75 14161 motivos encontrados k = 1 posicao = 7156 chi2 = 066 (TGAAACA) k = 2 posicao = 8778 chi2 = 028 (TGAAACA) k = 3 posicao = 8848 chi2 = 034 (TGAAACA) k = 4 posicao = 9747 chi2 = 015 (TGAAACA)

Quorum = 60 24421 motivos encontrados k = 1 posicao = 12918 chi2 = 049 (TGAAACA) k = 2 posicao = 15781 chi2 = 024 (TGAAACA) k = 3 posicao = 13941 chi2 = 03 (TGAAACA) k = 4 posicao = 16147 chi2 = 017 (TGAAACA)

7_1_SWI4

Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

330 motivos encontrados Quorum = 80

675 motivos encontrados k = 1 posicao = 3 chi2 = 575 (CGCGAAA) k = 2 posicao = 3 chi2 = 483 (CGCGAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 60

k = 3 posicao = 11 chi2 = 395 (CGCGAAA) k = 4 posicao = 5 chi2 = 367 (CGCGAAA)

Quorum = 75 675 motivos encontrados k = 1 posicao = 2 chi2 = 6 (CGCGAAA) k = 2 posicao = 4 chi2 = 504 (CGCGAAA) k = 3 posicao = 14 chi2 = 372 (CGCGAAA) k = 4 posicao = 14 chi2 = 343 (CGCGAAA)

Quorum = 60 1349 motivos encontrados k = 1 posicao = 50 chi2 = 31 (CACGAAA) k = 1 posicao = 8 chi2 = 569 (CGCGAAA) k = 2 posicao = 81 chi2 = 26 (CACGAAA) k = 2 posicao = 20 chi2 = 48 (CGCGAAA) k = 3 posicao = 117 chi2 = 21 (CACGAAA) k = 3 posicao = 47 chi2 = 37 (CGCGAAA) k = 4 posicao = 309 chi2 = 056 (CACGAAA) k = 4 posicao = 33 chi2 = 367 (CGCGAAA)

Erro = 1 Quorum = 100

8974 motivos encontrados k = 1 posicao = 2630 chi2 = 093 (CACGAAA) k = 1 posicao = 1189 chi2 = 212 (CGCGAAA) k = 2 posicao = 3046 chi2 = 07 (CACGAAA) k = 2 posicao = 2138 chi2 = 101 (CGCGAAA) k = 3 posicao = 4224 chi2 = 03 (CACGAAA) k = 3 posicao = 4064 chi2 = 04 (CGCGAAA) k = 4 posicao = 5230 chi2 = 012 (CACGAAA) k = 4 posicao = 4771 chi2 = 018 (CGCGAAA)

Quorum = 80 17937 motivos encontrados k = 1 posicao = 6152 chi2 = 107 (CACGAAA) k = 1 posicao = 3575 chi2 = 211 (CGCGAAA) k = 2 posicao = 7073 chi2 = 071 (CACGAAA) k = 2 posicao = 6979 chi2 = 078 (CGCGAAA) k = 3 posicao = 9212 chi2 = 035 (CACGAAA) k = 3 posicao = 8502 chi2 = 038 (CGCGAAA) k = 4 posicao = 10421 chi2 = 017 (CACGAAA) k = 4 posicao = 9629 chi2 = 026 (CGCGAAA)

Quorum = 75 17937 motivos encontrados k = 1 posicao = 6271 chi2 = 104 (CACGAAA) k = 1 posicao = 4092 chi2 = 171 (CGCGAAA) k = 2 posicao = 8574 chi2 = 052 (CACGAAA) k = 2 posicao = 5741 chi2 = 107 (CGCGAAA) k = 3 posicao = 10092 chi2 = 026 (CACGAAA) k = 3 posicao = 8743 chi2 = 044 (CGCGAAA) k = 4 posicao = 11741 chi2 = 009 (CACGAAA) k = 4 posicao = 9601 chi2 = 022 (CGCGAAA)

Quorum = 60 35352 motivos encontrados k = 1 posicao = 15854 chi2 = 094 (CACGAAA) k = 1 posicao = 9842 chi2 = 196 (CGCGAAA) k = 2 posicao = 18655 chi2 = 063 (CACGAAA) k = 2 posicao = 16854 chi2 = 093 (CGCGAAA) k = 3 posicao = 21349 chi2 = 025 (CACGAAA) k = 3 posicao = 19789 chi2 = 036 (CGCGAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 61

k = 4 posicao = 22509 chi2 = 016 (CACGAAA) k = 4 posicao = 21049 chi2 = 027 (CGCGAAA)

7_2_GCN4

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

229 motivos encontrados Quorum = 80

372 motivos encontrados Quorum = 75

586 motivos encontrados Quorum = 60

839 motivos encontrados Erro = 1

Quorum = 100 6343 motivos encontrados

Quorum = 80 10422 motivos encontrados

Quorum = 75 15227 motivos encontrados

Quorum = 60 21609 motivos encontrados

7_2_RGT1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

205 motivos encontrados Quorum = 80

496 motivos encontrados k = 1 posicao = 4 chi2 = 1052 (CGGAAAA) k = 2 posicao = 2 chi2 = 883 (CGGAAAA) k = 3 posicao = 2 chi2 = 692 (CGGAAAA) k = 4 posicao = 10 chi2 = 308 (CGGAAAA)

Quorum = 75 496 motivos encontrados k = 1 posicao = 4 chi2 = 1101 (CGGAAAA) k = 2 posicao = 3 chi2 = 855 (CGGAAAA) k = 3 posicao = 4 chi2 = 685 (CGGAAAA) k = 4 posicao = 9 chi2 = 338 (CGGAAAA)

Quorum = 60 987 motivos encontrados k = 1 posicao = 10 chi2 = 1087 (CGGAAAA) k = 2 posicao = 11 chi2 = 792 (CGGAAAA) k = 3 posicao = 10 chi2 = 637 (CGGAAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 62

k = 4 posicao = 27 chi2 = 333 (CGGAAAA)

Erro = 1 Quorum = 100

6085 motivos encontrados k = 1 posicao = 740 chi2 = 226 (CGGAAAA) k = 1 posicao = 244 chi2 = 442 (CGGAAGA) k = 1 posicao = 375 chi2 = 415 (CGGAGAA) k = 1 posicao = 795 chi2 = 205 (CGGATAA) k = 2 posicao = 1431 chi2 = 069 (CGGAAAA) k = 2 posicao = 350 chi2 = 257 (CGGAAGA) k = 2 posicao = 313 chi2 = 281 (CGGAGAA) k = 2 posicao = 403 chi2 = 257 (CGGATAA) k = 3 posicao = 2933 chi2 = 015 (CGGAAAA) k = 3 posicao = 543 chi2 = 161 (CGGAAGA) k = 3 posicao = 758 chi2 = 162 (CGGAGAA) k = 3 posicao = 334 chi2 = 242 (CGGATAA) k = 4 posicao = 3388 chi2 = 006 (CGGAAAA) k = 4 posicao = 944 chi2 = 088 (CGGAAGA) k = 4 posicao = 682 chi2 = 096 (CGGAGAA) k = 4 posicao = 448 chi2 = 157 (CGGATAA)

Quorum = 80 13578 motivos encontrados k = 1 posicao = 2782 chi2 = 211 (CGGAAAA) k = 1 posicao = 1309 chi2 = 443 (CGGAAGA) k = 1 posicao = 9793 chi2 = 0 (CGGAATA) k = 1 posicao = 1525 chi2 = 436 (CGGAGAA) k = 1 posicao = 1267 chi2 = 351 (CGGAGGA) k = 1 posicao = 2001 chi2 = 282 (CGGATAA) k = 1 posicao = 4454 chi2 = 055 (CGGATTA) k = 2 posicao = 4354 chi2 = 063 (CGGAAAA) k = 2 posicao = 1547 chi2 = 273 (CGGAAGA) k = 2 posicao = 7920 chi2 = 004 (CGGAATA) k = 2 posicao = 2260 chi2 = 262 (CGGAGAA) k = 2 posicao = 1049 chi2 = 271 (CGGAGGA) k = 2 posicao = 1502 chi2 = 271 (CGGATAA) k = 2 posicao = 3568 chi2 = 083 (CGGATTA) k = 3 posicao = 6889 chi2 = 02 (CGGAAAA) k = 3 posicao = 2122 chi2 = 16 (CGGAAGA) k = 3 posicao = 10332 chi2 = 01 (CGGAATA) k = 3 posicao = 2408 chi2 = 144 (CGGAGAA) k = 3 posicao = 1273 chi2 = 214 (CGGAGGA) k = 3 posicao = 1406 chi2 = 211 (CGGATAA) k = 3 posicao = 1203 chi2 = 189 (CGGATTA) k = 4 posicao = 8380 chi2 = 003 (CGGAAAA) k = 4 posicao = 4250 chi2 = 074 (CGGAAGA) k = 4 posicao = 12881 chi2 = 037 (CGGAATA) k = 4 posicao = 3392 chi2 = 088 (CGGAGAA) k = 4 posicao = 1278 chi2 = 162 (CGGAGGA) k = 4 posicao = 1930 chi2 = 148 (CGGATAA) k = 4 posicao = 1157 chi2 = 136 (CGGATTA)

Quorum = 75 13578 motivos encontrados k = 1 posicao = 2620 chi2 = 264 (CGGAAAA) k = 1 posicao = 1452 chi2 = 443 (CGGAAGA) k = 1 posicao = 8943 chi2 = 001 (CGGAATA) k = 1 posicao = 1121 chi2 = 446 (CGGAGAA) k = 1 posicao = 965 chi2 = 424 (CGGAGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 63

k = 1 posicao = 2453 chi2 = 246 (CGGATAA) k = 1 posicao = 3571 chi2 = 086 (CGGATTA) k = 2 posicao = 4690 chi2 = 069 (CGGAAAA) k = 2 posicao = 1475 chi2 = 255 (CGGAAGA) k = 2 posicao = 7150 chi2 = 01 (CGGAATA) k = 2 posicao = 1209 chi2 = 259 (CGGAGAA) k = 2 posicao = 837 chi2 = 274 (CGGAGGA) k = 2 posicao = 1900 chi2 = 268 (CGGATAA) k = 2 posicao = 3981 chi2 = 066 (CGGATTA) k = 3 posicao = 6549 chi2 = 022 (CGGAAAA) k = 3 posicao = 1447 chi2 = 191 (CGGAAGA) k = 3 posicao = 10656 chi2 = 018 (CGGAATA) k = 3 posicao = 2435 chi2 = 155 (CGGAGAA) k = 3 posicao = 1026 chi2 = 21 (CGGAGGA) k = 3 posicao = 1469 chi2 = 233 (CGGATAA) k = 3 posicao = 1202 chi2 = 189 (CGGATTA) k = 4 posicao = 11692 chi2 = 0 (CGGAAAA) k = 4 posicao = 3717 chi2 = 077 (CGGAAGA) k = 4 posicao = 10890 chi2 = 035 (CGGAATA) k = 4 posicao = 3482 chi2 = 087 (CGGAGAA) k = 4 posicao = 1187 chi2 = 168 (CGGAGGA) k = 4 posicao = 1746 chi2 = 148 (CGGATAA) k = 4 posicao = 1204 chi2 = 149 (CGGATTA)

Quorum = 60 25839 motivos encontrados k = 1 posicao = 5870 chi2 = 247 (CGGAAAA) k = 1 posicao = 4726 chi2 = 405 (CGGAAGA) k = 1 posicao = 18076 chi2 = 0 (CGGAATA) k = 1 posicao = 3940 chi2 = 388 (CGGAGAA) k = 1 posicao = 3424 chi2 = 384 (CGGAGGA) k = 1 posicao = 15679 chi2 = 005 (CGGAGTA) k = 1 posicao = 6177 chi2 = 245 (CGGATAA) k = 1 posicao = 15167 chi2 = 008 (CGGATGA) k = 1 posicao = 11165 chi2 = 059 (CGGATTA) k = 2 posicao = 11428 chi2 = 046 (CGGAAAA) k = 2 posicao = 4811 chi2 = 242 (CGGAAGA) k = 2 posicao = 16216 chi2 = 003 (CGGAATA) k = 2 posicao = 4128 chi2 = 226 (CGGAGAA) k = 2 posicao = 3005 chi2 = 278 (CGGAGGA) k = 2 posicao = 10245 chi2 = 04 (CGGAGTA) k = 2 posicao = 3437 chi2 = 3 (CGGATAA) k = 2 posicao = 10379 chi2 = 033 (CGGATGA) k = 2 posicao = 8888 chi2 = 072 (CGGATTA) k = 3 posicao = 13836 chi2 = 017 (CGGAAAA) k = 3 posicao = 4943 chi2 = 191 (CGGAAGA) k = 3 posicao = 20550 chi2 = 01 (CGGAATA) k = 3 posicao = 6774 chi2 = 155 (CGGAGAA) k = 3 posicao = 2524 chi2 = 222 (CGGAGGA) k = 3 posicao = 13828 chi2 = 01 (CGGAGTA) k = 3 posicao = 4859 chi2 = 197 (CGGATAA) k = 3 posicao = 9284 chi2 = 029 (CGGATGA) k = 3 posicao = 3146 chi2 = 179 (CGGATTA) k = 4 posicao = 17095 chi2 = 001 (CGGAAAA) k = 4 posicao = 7930 chi2 = 083 (CGGAAGA) k = 4 posicao = 24667 chi2 = 051 (CGGAATA) k = 4 posicao = 9042 chi2 = 083 (CGGAGAA) k = 4 posicao = 3884 chi2 = 147 (CGGAGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 64

k = 4 posicao = 13905 chi2 = 007 (CGGAGTA) k = 4 posicao = 4859 chi2 = 156 (CGGATAA) k = 4 posicao = 14606 chi2 = 005 (CGGATGA) k = 4 posicao = 3783 chi2 = 127 (CGGATTA)

8_1_PDR1

Motivo TCCGYGGA Frequecircncia 68 ~75 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

229 motivos encontrados Quorum = 80

416 motivos encontrados Quorum = 75

639 motivos encontrados k = 1 posicao = 2 chi2 = 96 (TCCGCGGA) k = 2 posicao = 2 chi2 = 941 (TCCGCGGA) k = 3 posicao = 2 chi2 = 915 (TCCGCGGA) k = 4 posicao = 2 chi2 = 674 (TCCGCGGA)

Quorum = 60 950 motivos encontrados k = 1 posicao = 4 chi2 = 937 (TCCGCGGA) k = 2 posicao = 3 chi2 = 933 (TCCGCGGA) k = 3 posicao = 3 chi2 = 926 (TCCGCGGA) k = 4 posicao = 3 chi2 = 686 (TCCGCGGA)

Erro = 1 Quorum = 100

6610 motivos encontrados k = 1 posicao = 8 chi2 = 1095 (TCCGCGGA) k = 1 posicao = 15 chi2 = 1007 (TCCGTGGA) k = 2 posicao = 8 chi2 = 1092 (TCCGCGGA) k = 2 posicao = 18 chi2 = 1039 (TCCGTGGA) k = 3 posicao = 11 chi2 = 907 (TCCGCGGA) k = 3 posicao = 9 chi2 = 881 (TCCGTGGA) k = 4 posicao = 18 chi2 = 517 (TCCGCGGA) k = 4 posicao = 8 chi2 = 759 (TCCGTGGA)

Quorum = 80 11058 motivos encontrados k = 1 posicao = 32 chi2 = 1126 (TCCGCGGA) k = 1 posicao = 48 chi2 = 1053 (TCCGTGGA) k = 2 posicao = 21 chi2 = 1053 (TCCGCGGA) k = 2 posicao = 19 chi2 = 1098 (TCCGTGGA) k = 3 posicao = 29 chi2 = 881 (TCCGCGGA) k = 3 posicao = 60 chi2 = 808 (TCCGTGGA) k = 4 posicao = 97 chi2 = 509 (TCCGCGGA) k = 4 posicao = 42 chi2 = 698 (TCCGTGGA)

Quorum = 75 16695 motivos encontrados k = 1 posicao = 92 chi2 = 1126 (TCCGCGGA) k = 1 posicao = 178 chi2 = 1026 (TCCGTGGA) k = 2 posicao = 70 chi2 = 1092 (TCCGCGGA) k = 2 posicao = 73 chi2 = 1069 (TCCGTGGA) k = 3 posicao = 64 chi2 = 983 (TCCGCGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 65

k = 3 posicao = 83 chi2 = 898 (TCCGTGGA) k = 4 posicao = 336 chi2 = 48 (TCCGCGGA) k = 4 posicao = 130 chi2 = 657 (TCCGTGGA)

Quorum = 60 25049 motivos encontrados k = 1 posicao = 220 chi2 = 1135 (TCCGCGGA) k = 1 posicao = 369 chi2 = 1004 (TCCGTGGA) k = 2 posicao = 83 chi2 = 1159 (TCCGCGGA) k = 2 posicao = 263 chi2 = 1045 (TCCGTGGA) k = 3 posicao = 134 chi2 = 883 (TCCGCGGA) k = 3 posicao = 206 chi2 = 857 (TCCGTGGA) k = 4 posicao = 580 chi2 = 488 (TCCGCGGA) k = 4 posicao = 213 chi2 = 67 (TCCGTGGA)

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

241 motivos encontrados Quorum = 80

423 motivos encontrados k = 1 posicao = 2 chi2 = 1237 (TCCGCGGA) k = 2 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 3 posicao = 2 chi2 = 1229 (TCCGCGGA) k = 4 posicao = 2 chi2 = 915 (TCCGCGGA)

Quorum = 75 667 motivos encontrados k = 1 posicao = 2 chi2 = 1237 (TCCGCGGA) k = 2 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 3 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 4 posicao = 2 chi2 = 909 (TCCGCGGA)

Quorum = 60 1024 motivos encontrados k = 1 posicao = 3 chi2 = 1233 (TCCGCGGA) k = 2 posicao = 4 chi2 = 124 (TCCGCGGA) k = 3 posicao = 3 chi2 = 1221 (TCCGCGGA) k = 4 posicao = 5 chi2 = 918 (TCCGCGGA)

Erro = 1 Quorum = 100

6897 motivos encontrados k = 1 posicao = 17 chi2 = 1115 (TCCGCGGA) k = 1 posicao = 24 chi2 = 1026 (TCCGTGGA) k = 2 posicao = 12 chi2 = 1174 (TCCGCGGA) k = 2 posicao = 10 chi2 = 1138 (TCCGTGGA) k = 3 posicao = 17 chi2 = 945 (TCCGCGGA) k = 3 posicao = 29 chi2 = 827 (TCCGTGGA) k = 4 posicao = 65 chi2 = 481 (TCCGCGGA) k = 4 posicao = 39 chi2 = 616 (TCCGTGGA)

Quorum = 80 11592 motivos encontrados k = 1 posicao = 69 chi2 = 1156 (TCCGCGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 66

k = 1 posicao = 117 chi2 = 1012 (TCCGTGGA) k = 2 posicao = 38 chi2 = 1177 (TCCGCGGA) k = 2 posicao = 69 chi2 = 1061 (TCCGTGGA) k = 3 posicao = 76 chi2 = 893 (TCCGCGGA) k = 3 posicao = 53 chi2 = 817 (TCCGTGGA) k = 4 posicao = 131 chi2 = 526 (TCCGCGGA) k = 4 posicao = 61 chi2 = 638 (TCCGTGGA)

Quorum = 75 17555 motivos encontrados k = 1 posicao = 210 chi2 = 1109 (TCCGCGGA) k = 1 posicao = 265 chi2 = 1061 (TCCGTGGA) k = 2 posicao = 78 chi2 = 115 (TCCGCGGA) k = 2 posicao = 102 chi2 = 1109 (TCCGTGGA) k = 3 posicao = 184 chi2 = 905 (TCCGCGGA) k = 3 posicao = 105 chi2 = 85 (TCCGTGGA) k = 4 posicao = 424 chi2 = 451 (TCCGCGGA) k = 4 posicao = 476 chi2 = 582 (TCCGTGGA)

Quorum = 60 26303 motivos encontrados k = 1 posicao = 433 chi2 = 1118 (TCCGCGGA) k = 1 posicao = 521 chi2 = 991 (TCCGTGGA) k = 2 posicao = 237 chi2 = 1064 (TCCGCGGA) k = 2 posicao = 322 chi2 = 1045 (TCCGTGGA) k = 3 posicao = 316 chi2 = 95 (TCCGCGGA) k = 3 posicao = 415 chi2 = 827 (TCCGTGGA) k = 4 posicao = 978 chi2 = 49 (TCCGCGGA) k = 4 posicao = 1277 chi2 = 616 (TCCGTGGA)

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

328 motivos encontrados Quorum = 80

685 motivos encontrados Quorum = 75

685 motivos encontrados Quorum = 60

1319 motivos encontrados k = 1 posicao = 4 chi2 = 411 (TCCGTGGA) k = 2 posicao = 2 chi2 = 421 (TCCGTGGA) k = 3 posicao = 2 chi2 = 407 (TCCGTGGA) k = 4 posicao = 3 chi2 = 354 (TCCGTGGA)

Erro = 1 Quorum = 100

9298 motivos encontrados k = 1 posicao = 95 chi2 = 631 (TCCGAGGA) k = 1 posicao = 63 chi2 = 675 (TCCGCGGA) k = 1 posicao = 75 chi2 = 678 (TCCGTGGA) k = 2 posicao = 51 chi2 = 61 (TCCGAGGA) k = 2 posicao = 25 chi2 = 745 (TCCGCGGA) k = 2 posicao = 22 chi2 = 718 (TCCGTGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 67

k = 3 posicao = 38 chi2 = 538 (TCCGAGGA) k = 3 posicao = 68 chi2 = 543 (TCCGCGGA) k = 3 posicao = 64 chi2 = 57 (TCCGTGGA) k = 4 posicao = 48 chi2 = 529 (TCCGAGGA) k = 4 posicao = 161 chi2 = 389 (TCCGCGGA) k = 4 posicao = 78 chi2 = 477 (TCCGTGGA)

Quorum = 80 18263 motivos encontrados k = 1 posicao = 551 chi2 = 592 (TCCGAGGA) k = 1 posicao = 147 chi2 = 754 (TCCGCGGA) k = 1 posicao = 282 chi2 = 647 (TCCGTGGA) k = 2 posicao = 296 chi2 = 605 (TCCGAGGA) k = 2 posicao = 143 chi2 = 715 (TCCGCGGA) k = 2 posicao = 182 chi2 = 681 (TCCGTGGA) k = 3 posicao = 589 chi2 = 511 (TCCGAGGA) k = 3 posicao = 347 chi2 = 553 (TCCGCGGA) k = 3 posicao = 245 chi2 = 59 (TCCGTGGA) k = 4 posicao = 429 chi2 = 462 (TCCGAGGA) k = 4 posicao = 944 chi2 = 401 (TCCGCGGA) k = 4 posicao = 577 chi2 = 41 (TCCGTGGA)

Quorum = 75 18263 motivos encontrados k = 1 posicao = 790 chi2 = 6 (TCCGAGGA) k = 1 posicao = 168 chi2 = 706 (TCCGCGGA) k = 1 posicao = 451 chi2 = 631 (TCCGTGGA) k = 2 posicao = 195 chi2 = 623 (TCCGAGGA) k = 2 posicao = 152 chi2 = 695 (TCCGCGGA) k = 2 posicao = 155 chi2 = 686 (TCCGTGGA) k = 3 posicao = 159 chi2 = 546 (TCCGAGGA) k = 3 posicao = 286 chi2 = 546 (TCCGCGGA) k = 3 posicao = 281 chi2 = 585 (TCCGTGGA) k = 4 posicao = 342 chi2 = 46 (TCCGAGGA) k = 4 posicao = 562 chi2 = 381 (TCCGCGGA) k = 4 posicao = 632 chi2 = 401 (TCCGTGGA)

Quorum = 60 35494 motivos encontrados k = 1 posicao = 1806 chi2 = 548 (TCCGAGGA) k = 1 posicao = 1580 chi2 = 65 (TCCGCGGA) k = 1 posicao = 1668 chi2 = 595 (TCCGTGGA) k = 2 posicao = 1224 chi2 = 592 (TCCGAGGA) k = 2 posicao = 794 chi2 = 701 (TCCGCGGA) k = 2 posicao = 991 chi2 = 658 (TCCGTGGA) k = 3 posicao = 1647 chi2 = 536 (TCCGAGGA) k = 3 posicao = 2029 chi2 = 546 (TCCGCGGA) k = 3 posicao = 1118 chi2 = 57 (TCCGTGGA) k = 4 posicao = 1549 chi2 = 502 (TCCGAGGA) k = 4 posicao = 2429 chi2 = 385 (TCCGCGGA) k = 4 posicao = 2813 chi2 = 429 (TCCGTGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 68

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 69

Anexo B Comparaccedilatildeo da Significacircncia Estatiacutestica referente agrave Abundacircncia obtida pelo

Meacutetodo de Shuffling e pelo Meacutetodo Analiacutetico

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos a comparaccedilatildeo entre o valor do chi2 obtido pelo meacutetodo de shuffling e o valor obtido pelo meacutetodo analiacutetico

Cada linha diz respeito a dados em que se conserva um determinado k-mer (k) Em cada uma eacute apresentado o valor do chi2 obtido pelo meacutetodo de shuffling (chi2) e a sua posiccedilatildeo relativa na lista de motivos ordenada por valores decrescentes de chi2 face ao nuacutemero de motivos extraiacutedos Os valores acima referidos tambeacutem satildeo apresentados para o meacutetodo analiacutetico (achi2)

10_2_YRR1 Motivo TTCCGTGGAA TTCCGCGGAT TTCCGCGGAA Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=488 (633 in 8908) achi2=476 (745 in 8908) [TTCCGCGGAA]

K=2 chi2=465 (468 in 8908) achi2=464 (509 in 8908) [TTCCGCGGAA]

K=3 chi2=412 (201 in 8908) achi2=413 (230 in 8908) [TTCCGCGGAA]

K=4 chi2=253 (223 in 8908) achi2=278 (205 in 8908) [TTCCGCGGAA]

K=5 chi2=126 (277 in 8912) achi2=143 (291 in 8912) [TTCCGCGGAA]

K=6 chi2=039 (323 in 8912) achi2=041 (1035 in 8912) [TTCCGCGGAA]

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 70

Error = 1

Quorum = 80

K=1 chi2=388 (428 in 17722) achi2=387 (504 in 17722) [ACCCTAAAGGT]

K=1 chi2=474 (246 in 17722) achi2=483 (265 in 17722) [ACCTTAAAGGT]

K=2 chi2=394 (222 in 17722) achi2=389 (248 in 17722) [ACCCTAAAGGT]

K=2 chi2=474 (111 in 17722) achi2=484 (119 in 17722) [ACCTTAAAGGT]

K=3 chi2=400 (51 in 17722) achi2=391 (61 in 17722) [ACCCTAAAGGT]

K=3 chi2=477 (12 in 17722) achi2=485 (14 in 17722) [ACCTTAAAGGT]

K=4 chi2=394 (28 in 17722) achi2=387 (31 in 17722) [ACCCTAAAGGT]

K=4 chi2=488 (4 in 17722) achi2=485 (4 in 17722) [ACCTTAAAGGT]

K=5 chi2=326 (24 in 17722) achi2=343 (29 in 17722) [ACCCTAAAGGT]

K=5 chi2=435 (7 in 17722) achi2=462 (3 in 17722) [ACCTTAAAGGT]

K=6 chi2=071 (387 in 17722) achi2=282 (276 in 17722) [ACCCTAAAGGT]

K=6 chi2=310 (2 in 17722) achi2=431 (259 in 17722) [ACCTTAAAGGT]

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=344 (91 in 1316) achi2=314 (116 in 1316) [CCCCT]

K=2 chi2=187 (183 in 1316) achi2=194 (178 in 1316) [CCCCT]

K=3 chi2=164 (138 in 1316) achi2=140 (190 in 1316) [CCCCT]

K=4 chi2=088 (186 in 1316) achi2=104 (150 in 1316) [CCCCT]

Error = 1

Quorum = 60

K=1 chi2=056 (18487 in 35258) achi2=082 (15627 in 35258) [CCCCT]

K=2 chi2=000 (34670 in 35258) achi2=000 (34292 in 35258) [CCCCT]

K=3 chi2=007 (27587 in 35258) achi2=011 (25832 in 35258) [CCCCT]

K=4 chi2=044 (14195 in 35258) achi2=044 (14486 in 35258) [CCCCT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 71

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=534 (66 in 826) achi2=523 (72 in 826) [CCCCT]

K=2 chi2=290 (76 in 826) achi2=297 (75 in 826) [CCCCT]

K=3 chi2=159 (97 in 826) achi2=152 (105 in 826) [CCCCT]

K=4 chi2=022 (242 in 826) achi2=007 (382 in 826) [CCCCT]

K=5 chi2=000 (360 in 826) achi2=000 (339 in 826) [CCCCT]

K=6 chi2=000 (331 in 826) achi2=000 (604 in 826) [CCCCT]

Error = 1

Quorum = 60

K=1 chi2=372 (2640 in 21544) achi2=462 (2153 in 21544) [CCCCT]

K=2 chi2=041 (10937 in 21544) achi2=070 (8620 in 21544) [CCCCT]

K=3 chi2=000 (20651 in 21544) achi2=000 (20723 in 21544) [CCCCT]

K=4 chi2=080 (4245 in 21544) achi2=083 (4322 in 21544) [CCCCT]

K=5 chi2=000 (19590 in 21562) achi2=000 (20653 in 21562) [CCCCT]

K=6 chi2=000 (16728 in 21562) achi2=000 (21282 in 21562) [CCCCT]

5_1_Gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=080 (3213 in 6121) achi2=079 (3260 in 6121) [CATCC]

K=1 chi2=1188 (320 in 6121) achi2=1158 (344 in 6121) [CTTCC]

K=2 chi2=180 (1552 in 6121) achi2=161 (1763 in 6121) [CATCC]

K=2 chi2=504 (498 in 6121) achi2=470 (566 in 6121) [CTTCC]

K=3 chi2=205 (809 in 6121) achi2=192 (906 in 6121) [CATCC]

K=3 chi2=102 (1713 in 6121) achi2=109 (1663 in 6121) [CTTCC]

K=4 chi2=097 (929 in 6121) achi2=091 (1091 in 6121) [CATCC]

K=4 chi2=001 (5090 in 6121) achi2=001 (5126 in 6121) [CTTCC]

K=5 chi2=000 (5948 in 6121) achi2=000 (5152 in 6121) [CATCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 72

K=5 chi2=000 (4578 in 6121) achi2=000 (5000 in 6121) [CTTCC]

K=6 chi2=000 (5634 in 6121) achi2=000 (5438 in 6121) [CATCC]

K=6 chi2=000 (2279 in 6121) achi2=000 (5149 in 6121) [CTTCC]

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 chi2=292 (2311 in 10819) achi2=273 (2534 in 10819) [GATAAG]

K=1 chi2=131 (4204 in 10819) achi2=102 (4875 in 10819) [GATTAG]

K=2 chi2=499 (766 in 10819) achi2=493 (849 in 10819) [GATAAG]

K=2 chi2=280 (1760 in 10819) achi2=268 (1952 in 10819) [GATTAG]

K=3 chi2=168 (2077 in 10819) achi2=174 (2107 in 10819) [GATAAG]

K=3 chi2=953 (62 in 10819) achi2=925 (81 in 10819) [GATTAG]

K=4 chi2=014 (6803 in 10819) achi2=009 (7567 in 10819) [GATAAG]

K=4 chi2=309 (394 in 10819) achi2=352 (328 in 10819) [GATTAG]

K=5 chi2=001 (8734 in 10819) achi2=003 (7728 in 10819) [GATAAG]

K=5 chi2=176 (429 in 10819) achi2=159 (773 in 10819) [GATTAG]

K=6 chi2=000 (9825 in 10819) achi2=000 (6602 in 10819) [GATAAG]

K=6 chi2=000 (7459 in 10819) achi2=000 (6760 in 10819) [GATTAG]

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

Error = 1

Quorum = 60

K=1 chi2=382 (3218 in 20531) achi2=555 (2348 in 20531) [CACCCA]

k=1 chi2=083 (9754 in 20531) achi2=102 (9117 in 20531) [CACCCG]

K=2 chi2=330 (2327 in 20531) achi2=368 (2233 in 20531) [CACCCA]

K=2 chi2=143 (5707 in 20531) achi2=117 (6956 in 20531) [CACCCG]

K=3 chi2=209 (2208 in 20531) achi2=223 (2249 in 20531) [CACCCA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 73

K=3 chi2=040 (9516 in 20531) achi2=023 (12243 in 20531) [CACCCG]

K=4 chi2=071 (4649 in 20531) achi2=105 (3457 in 20531) [CACCCA]

K=4 chi2=000 (19099 in 20531) achi2=002 (17523 in 20531) [CACCCG]

7_0_REB1 Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 chi2=549 (29 in 405) achi2=586 (33 in 405) [TTACCC]

K=2 chi2=688 (6 in 405) achi2=635 (12 in 405) [TTACCC]

K=3 chi2=706 (2 in 405) achi2=679 (2 in 405) [TTACCC]

K=4 chi2=373 (3 in 405) achi2=402 (3 in 405) [TTACCC]

K=5 chi2=034 (7 in 405) achi2=020 (8 in 405) [TTACCC]

K=6 chi2=000 (383 in 405) achi2=000 (232 in 405) [TTACCC]

Error = 1

Quorum = 80

K=1 chi2=133 (3134 in 10337) achi2=169 (2743 in 10337) [TTACCC]

K=2 chi2=302 (657 in 10337) achi2=267 (945 in 10337) [TTACCC]

K=3 chi2=409 (106 in 10337) achi2=394 (170 in 10337) [TTACCC]

K=4 chi2=082 (1439 in 10337) achi2=109 (1091 in 10337) [TTACCC]

K=5 chi2=002 (7204 in 10337) achi2=003 (6765 in 10337) [TTACCC]

K=6 chi2=000 (10150 in 10337) achi2=000 (6299 in 10337) [TTACCC]

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=626 (58 in 785) achi2=615 (64 in 785) [TGCCAAG]

K=2 chi2=610 (11 in 785) achi2=585 (14 in 785) [TGCCAAG]

K=3 chi2=561 (8 in 785) achi2=575 (6 in 785) [TGCCAAG]

K=4 chi2=399 (4 in 785) achi2=377 (6 in 785) [TGCCAAG]

K=5 chi2=184 (8 in 785) achi2=157 (10 in 785) [TGCCAAG]

K=6 chi2=054 (5 in 785) achi2=055 (255 in 785) [TGCCAAG]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 74

Error = 1

Quorum = 60

K=1 chi2=463 (1914 in 20257) achi2=458 (2166 in 20257) [TGCCAAG]

K=2 chi2=292 (1694 in 20257) achi2=287 (1959 in 20257) [TGCCAAG]

K=3 chi2=252 (1158 in 20257) achi2=270 (1060 in 20257) [TGCCAAG]

K=4 chi2=038 (8072 in 20257) achi2=030 (9306 in 20257) [TGCCAAG]

K=5 chi2=002 (15272 in 20366) achi2=004 (14013 in 20366) [TGCCAAG]

K=6 chi2=009 (5877 in 20366) achi2=029 (4589 in 20366) [TGCCAAG]

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

K=1 chi2=1035 (5 in 267) achi2=996 (6 in 267) [TGAAACA]

K=2 chi2=961 (1 in 267) achi2=905 (1 in 267) [TGAAACA]

K=3 chi2=934 (1 in 267) achi2=884 (1 in 267) [TGAAACA]

K=4 chi2=794 (1 in 267) achi2=731 (1 in 267) [TGAAACA]

K=5 chi2=264 (2 in 267) achi2=320 (1 in 267) [TGAAACA]

K=6 chi2=044 (3 in 267) achi2=052 (168 in 267) [TGAAACA]

Error = 1

Quorum = 100

K=1 chi2=448 (515 in 7705) achi2=400 (675 in 7705) [TGAAACA]

K=2 chi2=168 (1047 in 7705) achi2=157 (1246 in 7705) [TGAAACA]

K=3 chi2=159 (637 in 7705) achi2=128 (992 in 7705) [TGAAACA]

K=4 chi2=057 (1734 in 7705) achi2=026 (3100 in 7705) [TGAAACA]

K=5 chi2=015 (2574 in 7705) achi2=021 (2435 in 7705) [TGAAACA]

K=6 chi2=007 (1386 in 7705) achi2=006 (2114 in 7705) [TGAAACA]

7_1_SWI4

Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 75

Quorum = 100

K=1 chi2=927 (53 in 8974) achi2=950 (59 in 8974) [CACGAAA]

K=1 chi2=1447 (8 in 8974) achi2=1516 (9 in 8974) [CGCGAAA]

K=2 chi2=686 (17 in 8974) achi2=638 (22 in 8974) [CACGAAA]

K=2 chi2=940 (4 in 8974) achi2=924 (3 in 8974) [CGCGAAA]

K=3 chi2=456 (46 in 8974) achi2=436 (53 in 8974) [CACGAAA]

K=3 chi2=514 (20 in 8974) achi2=502 (25 in 8974) [CGCGAAA]

K=4 chi2=087 (1329 in 8974) achi2=106 (1095 in 8974) [CACGAAA]

K=4 chi2=343 (41 in 8974) achi2=390 (27 in 8974) [CGCGAAA]

K=5 chi2=012 (3730 in 8974) achi2=000 (7343 in 8974) [CACGAAA]

K=5 chi2=033 (1966 in 8974) achi2=121 (397 in 8974) [CGCGAAA]

K=6 chi2=007 (1861 in 8974) achi2=001 (3810 in 8974) [CACGAAA]

K=6 chi2=002 (3146 in 8974) achi2=044 (873 in 8974) [CGCGAAA]

7_2_RGT1

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=2092 (246 in 6085) achi2=2140 (236 in 6085) [CGGAAAA]

K=1 chi2=810 (799 in 6085) achi2=803 (815 in 6085) [CGGAAGA]

K=1 chi2=1437 (409 in 6085) achi2=1409 (416 in 6085) [CGGAGAA]

K=1 chi2=337 (1833 in 6085) achi2=350 (1782 in 6085) [CGGATAA]

K=2 chi2=837 (251 in 6085) achi2=840 (245 in 6085) [CGGAAAA]

K=2 chi2=451 (648 in 6085) achi2=442 (666 in 6085) [CGGAAGA]

K=2 chi2=989 (186 in 6085) achi2=937 (208 in 6085) [CGGAGAA]

K=2 chi2=432 (698 in 6085) achi2=428 (695 in 6085) [CGGATAA]

K=3 chi2=281 (367 in 6085) achi2=272 (385 in 6085) [CGGAAAA]

K=3 chi2=242 (473 in 6085) achi2=225 (546 in 6085) [CGGAAGA]

K=3 chi2=580 (76 in 6085) achi2=544 (89 in 6085) [CGGAGAA]

K=3 chi2=366 (216 in 6085) achi2=309 (299 in 6085) [CGGATAA]

K=4 chi2=013 (3127 in 6085) achi2=022 (2503 in 6085) [CGGAAAA]

K=4 chi2=039 (1619 in 6085) achi2=040 (1722 in 6085) [CGGAAGA]

K=4 chi2=320 (35 in 6085) achi2=304 (56 in 6085) [CGGAGAA]

K=4 chi2=193 (166 in 6085) achi2=202 (188 in 6085) [CGGATAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 76

8_1_PDR1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 75

K=1 chi2=901 (25 in 639) achi2=884 (27 in 639) [TCCGCGGA]

K=2 chi2=886 (13 in 639) achi2=883 (14 in 639) [TCCGCGGA]

K=3 chi2=862 (4 in 639) achi2=864 (5 in 639) [TCCGCGGA]

K=4 chi2=659 (2 in 639) achi2=741 (2 in 639) [TCCGCGGA]

K=5 chi2=252 (1 in 639) achi2=306 (1 in 639) [TCCGCGGA]

K=6 chi2=012 (5 in 639) achi2=030 (253 in 639) [TCCGCGGA]

Error = 1

Quorum = 75

K=1 chi2=1388 (184 in 16695) achi2=1370 (211 in 16695) [TCCGCGGA]

K=1 chi2=913 (373 in 16695) achi2=895 (419 in 16695) [TCCGTGGA]

K=2 chi2=1355 (68 in 16695) achi2=1355 (91 in 16695) [TCCGCGGA]

K=2 chi2=952 (199 in 16695) achi2=944 (230 in 16695) [TCCGTGGA]

K=3 chi2=1237 (5 in 16695) achi2=1138 (22 in 16695) [TCCGCGGA]

K=3 chi2=782 (88 in 16695) achi2=771 (119 in 16695) [TCCGTGGA]

K=4 chi2=570 (45 in 16695) achi2=688 (33 in 16695) [TCCGCGGA]

K=4 chi2=544 (53 in 16695) achi2=610 (56 in 16695) [TCCGTGGA]

K=5 chi2=061 (2230 in 16699) achi2=113 (1175 in 16699) [TCCGCGGA]

K=5 chi2=101 (981 in 16699) achi2=207 (328 in 16699) [TCCGTGGA]

K=6 chi2=001 (8600 in 16699) achi2=000 (10541 in 16699) [TCCGCGGA]

K=6 chi2=002 (7065 in 16699) achi2=003 (8326 in 16699) [TCCGTGGA]

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 chi2=995 (22 in 423) achi2=985 (24 in 423) [TCCGCGGA]

K=2 chi2=980 (13 in 423) achi2=985 (13 in 423) [TCCGCGGA]

K=3 chi2=989 (4 in 423) achi2=967 (4 in 423) [TCCGCGGA]

K=4 chi2=741 (1 in 423) achi2=802 (1 in 423) [TCCGCGGA]

K=5 chi2=220 (1 in 423) achi2=303 (1 in 423) [TCCGCGGA]

K=6 chi2=010 (1 in 423) achi2=027 (229 in 423) [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 77

Error = 1

Quorum = 80

K=1 chi2=1609 (169 in 11592) achi2=1592 (187 in 11592) [TCCGCGGA]

K=1 chi2=1090 (327 in 11592) achi2=1109 (353 in 11592) [TCCGTGGA]

K=2 chi2=1634 (63 in 11592) achi2=1584 (97 in 11592) [TCCGCGGA]

K=2 chi2=1148 (174 in 11592) achi2=1142 (197 in 11592) [TCCGTGGA]

K=3 chi2=1333 (20 in 11592) achi2=1364 (24 in 11592) [TCCGCGGA]

K=3 chi2=878 (91 in 11592) achi2=894 (109 in 11592) [TCCGTGGA]

K=4 chi2=784 (26 in 11592) achi2=785 (35 in 11592) [TCCGCGGA]

K=4 chi2=632 (50 in 11592) achi2=689 (52 in 11592) [TCCGTGGA]

K=5 chi2=072 (1370 in 11601) achi2=127 (778 in 11601) [TCCGCGGA]

K=5 chi2=100 (878 in 11601) achi2=146 (618 in 11601) [TCCGTGGA]

K=6 chi2=000 (7969 in 11601) achi2=001 (5475 in 11601) [TCCGCGGA]

K=6 chi2=001 (4626 in 11601) achi2=004 (4674 in 11601) [TCCGTGGA]

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=285 (128 in 1319) achi2=287 (133 in 1319) [TCCGTGGA]

K=2 chi2=294 (89 in 1319) achi2=289 (95 in 1319) [TCCGTGGA]

K=3 chi2=283 (10 in 1319) achi2=278 (15 in 1319) [TCCGTGGA]

K=4 chi2=240 (7 in 1319) achi2=255 (6 in 1319) [TCCGTGGA]

K=5 chi2=122 (16 in 1319) achi2=206 (5 in 1319) [TCCGTGGA]

K=6 chi2=015 (42 in 1319) achi2=084 (269 in 1319) [TCCGTGGA]

Error = 1

Quorum = 60

K=1 chi2=336 (1859 in 35494) achi2=391 (1312 in 35494) [TCCGAGGA]

K=1 chi2=612 (489 in 35494) achi2=660 (442 in 35494) [TCCGCGGA]

K=1 chi2=368 (1518 in 35494) achi2=402 (1240 in 35494) [TCCGTGGA]

K=2 chi2=363 (946 in 35494) achi2=379 (816 in 35494) [TCCGAGGA]

K=2 chi2=636 (218 in 35494) achi2=640 (206 in 35494) [TCCGCGGA]

K=2 chi2=416 (670 in 35494) achi2=428 (599 in 35494) [TCCGTGGA]

K=3 chi2=301 (498 in 35494) achi2=304 (471 in 35494) [TCCGAGGA]

K=3 chi2=515 (41 in 35494) achi2=480 (63 in 35494) [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 78

K=3 chi2=341 (278 in 35494) achi2=329 (327 in 35494) [TCCGTGGA]

K=4 chi2=285 (274 in 35494) achi2=295 (205 in 35494) [TCCGAGGA]

K=4 chi2=300 (198 in 35494) achi2=337 (85 in 35494) [TCCGCGGA]

K=4 chi2=217 (1082 in 35494) achi2=219 (1060 in 35494) [TCCGTGGA]

K=5 chi2=075 (6352 in 35725) achi2=087 (6044 in 35725) [TCCGAGGA]

K=5 chi2=079 (5926 in 35725) achi2=153 (2215 in 35725) [TCCGCGGA]

K=5 chi2=081 (5763 in 35725) achi2=080 (6754 in 35725) [TCCGTGGA]

K=6 chi2=003 (19985 in 35725) achi2=010 (17420 in 35725) [TCCGAGGA]

K=6 chi2=026 (6383 in 35725) achi2=053 (6615 in 35725) [TCCGCGGA]

K=6 chi2=011 (11922 in 35725) achi2=000 (30343 in 35725) [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 79

Anexo C Resultados do Caacutelculo da Significacircncia Estatiacutestica referente agrave Abundacircncia

pelo Meacutetodo Analiacutetico para Conjuntos de Dados de Saccharomyces cerevisiae

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados

A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos os resultados para os motivos procurados em relaccedilatildeo a cada valor dos paracircmetros

Descriccedilatildeo do formato dos resultados

K=ltk-mer conservadogt achi2 = ltchi2 analiacuteticogt (ltposiccedilatildeogt in ltnuacutemero de motivos extraiacutedosgt ltposiccedilatildeo entre motivos do mesmo tamanhogt [motivo]

Nota A posiccedilatildeo do motivo refere-se agrave ordem em que se encontra numa lista ordenada por ordem decrescente de chi2 analiacutetico dos motivos extraiacutedos

10_2_YRR1 Motivo TTCCGTGGAA TTCCGCGGAT TTCCGCGGAA Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=476 (745 in 8908) 13 [TTCCGCGGAA]

K=2 achi2=464 (509 in 8908) 12 [TTCCGCGGAA]

K=3 achi2=413 (230 in 8908) 11 [TTCCGCGGAA]

K=4 achi2=278 (205 in 8908) 10 [TTCCGCGGAA]

K=5 achi2=143 (287 in 8908) 12 [TTCCGCGGAA]

K=6 achi2=041 (1031 in 8908) 15 [TTCCGCGGAA]

K=7 achi2=000 (2230 in 8908) 16 [TTCCGCGGAA]

K=8 achi2=001 (4728 in 8908) 16 [TTCCGCGGAA]

K=9 achi2=001 (7926 in 8908) 16 [TTCCGCGGAA]

K=10 achi2=000 (8782 in 8908) 16 [TTCCGCGGAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 80

K=11 achi2=000 (8903 in 8908) 12 [TTCCGCGGAA]

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 achi2=387 (504 in 17722) 3 [ACCCTAAAGGT]

K=1 achi2=483 (265 in 17722) 2 [ACCTTAAAGGT]

K=2 achi2=389 (248 in 17722) 3 [ACCCTAAAGGT]

K=2 achi2=484 (119 in 17722) 2 [ACCTTAAAGGT]

K=3 achi2=391 (61 in 17722) 3 [ACCCTAAAGGT]

K=3 achi2=485 (14 in 17722) 2 [ACCTTAAAGGT]

K=4 achi2=387 (31 in 17722) 4 [ACCCTAAAGGT]

K=4 achi2=485 (4 in 17722) 2 [ACCTTAAAGGT]

K=5 achi2=343 (29 in 17722) 4 [ACCCTAAAGGT]

K=5 achi2=462 (3 in 17722) 2 [ACCTTAAAGGT]

K=6 achi2=282 (276 in 17722) 4 [ACCCTAAAGGT]

K=6 achi2=431 (259 in 17722) 2 [ACCTTAAAGGT]

K=7 achi2=063 (1455 in 17722) 4 [ACCCTAAAGGT]

K=7 achi2=197 (1286 in 17722) 3 [ACCTTAAAGGT]

K=8 achi2=004 (5422 in 17722) 3 [ACCCTAAAGGT]

K=8 achi2=005 (5392 in 17722) 1 [ACCTTAAAGGT]

K=9 achi2=000 (13376 in 17722) 3 [ACCCTAAAGGT]

K=9 achi2=005 (13364 in 17722) 1 [ACCTTAAAGGT]

K=10 achi2=000 (17186 in 17722) 3 [ACCCTAAAGGT]

K=10 achi2=000 (17184 in 17722) 1 [ACCTTAAAGGT]

K=11 achi2=000 (17688 in 17722) 3 [ACCCTAAAGGT]

K=11 achi2=000 (17686 in 17722) 1 [ACCTTAAAGGT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 81

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=523 (72 in 826) 21 [CCCCT]

K=2 achi2=297 (75 in 826) 23 [CCCCT]

K=3 achi2=152 (105 in 826) 55 [CCCCT]

K=4 achi2=007 (382 in 826) 310 [CCCCT]

K=5 achi2=000 (339 in 826) 245 [CCCCT]

K=6 achi2=000 (604 in 826) 255 [CCCCT]

Error = 1

Quorum = 60

K=1 achi2=462 (2153 in 21544) 223 [CCCCT]

K=2 achi2=070 (8620 in 21544) 476 [CCCCT]

K=3 achi2=000 (20723 in 21544) 986 [CCCCT]

K=4 achi2=083 (4322 in 21544) 81 [CCCCT]

K=5 achi2=000 (20635 in 21544) 618 [CCCCT]

K=6 achi2=000 (21264 in 21544) 744 [CCCCT]

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=314 (116 in 1316) 27 [CCCCT]

K=2 achi2=194 (178 in 1316) 39 [CCCCT]

K=3 achi2=140 (190 in 1316) 42 [CCCCT]

K=4 achi2=104 (150 in 1316) 19 [CCCCT]

K=5 achi2=000 (576 in 1316) 111 [CCCCT]

K=6 achi2=000 (1113 in 1316) 392 [CCCCT]

K=7 achi2=901 (324 in 1316) 94 [CCCCT]

K=8 achi2=901 (340 in 1316) 94 [CCCCT]

K=9 achi2=901 (341 in 1316) 94 [CCCCT]

K=10 achi2=901 (342 in 1316) 94 [CCCCT]

K=11 achi2=901 (343 in 1316) 94 [CCCCT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 82

Error = 1

Quorum = 60

K=1 achi2=082 (15627 in 35258) 568 [CCCCT]

K=2 achi2=000 (34292 in 35258) 986 [CCCCT]

K=3 achi2=011 (25832 in 35258) 671 [CCCCT]

K=4 achi2=044 (14486 in 35258) 144 [CCCCT]

K=5 achi2=000 (34387 in 35258) 626 [CCCCT]

K=6 achi2=000 (34560 in 35258) 326 [CCCCT]

5_1_Gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=079 (3260 in 6121) 599 [CATCC]

K=1 achi2=1158 (344 in 6121) 50 [CTTCC]

K=2 achi2=161 (1763 in 6121) 312 [CATCC]

K=2 achi2=470 (566 in 6121) 105 [CTTCC]

K=3 achi2=192 (906 in 6121) 128 [CATCC]

K=3 achi2=109 (1663 in 6121) 248 [CTTCC]

K=4 achi2=091 (1091 in 6121) 97 [CATCC]

K=4 achi2=001 (5126 in 6121) 870 [CTTCC]

K=5 achi2=000 (5152 in 6121) 372 [CATCC]

K=5 achi2=000 (5000 in 6121) 230 [CTTCC]

K=6 achi2=000 (5438 in 6121) 341 [CATCC]

K=6 achi2=000 (5149 in 6121) 52 [CTTCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 83

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 achi2=273 (2534 in 10819) 831 [GATAAG]

K=1 achi2=102 (4875 in 10819) 1698 [GATTAG]

K=2 achi2=493 (849 in 10819) 251 [GATAAG]

K=2 achi2=268 (1952 in 10819) 593 [GATTAG]

K=3 achi2=174 (2107 in 10819) 675 [GATAAG]

K=3 achi2=925 (81 in 10819) 12 [GATTAG]

K=4 achi2=009 (7567 in 10819) 2712 [GATAAG]

K=4 achi2=352 (328 in 10819) 59 [GATTAG]

K=5 achi2=003 (7728 in 10819) 3046 [GATAAG]

K=5 achi2=159 (773 in 10819) 110 [GATTAG]

K=6 achi2=000 (6602 in 10819) 761 [GATAAG]

K=6 achi2=000 (6760 in 10819) 917 [GATTAG]

K=7 achi2=000 (10606 in 10819) 3684 [GATAAG]

K=7 achi2=000 (8570 in 10819) 1648 [GATTAG]

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

Error = 1

Quorum = 60

K=1 achi2=555 (2348 in 20531) 456 [CACCCA]

K=1 achi2=102 (9117 in 20531) 2005 [CACCCG]

K=2 achi2=368 (2233 in 20531) 460 [CACCCA]

K=2 achi2=117 (6956 in 20531) 1498 [CACCCG]

K=3 achi2=223 (2249 in 20531) 392 [CACCCA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 84

K=3 achi2=023 (12243 in 20531) 2397 [CACCCG]

K=4 achi2=105 (3457 in 20531) 482 [CACCCA]

K=4 achi2=002 (17523 in 20531) 3457 [CACCCG]

K=5 achi2=006 (13001 in 20531) 2409 [CACCCA]

K=5 achi2=048 (5016 in 20531) 610 [CACCCG]

K=6 achi2=000 (17016 in 20531) 1751 [CACCCA]

K=6 achi2=000 (18636 in 20531) 3343 [CACCCG]

K=7 achi2=000 (17654 in 20531) 1218 [CACCCA]

K=7 achi2=000 (18327 in 20531) 1891 [CACCCG]

7_0_REB1 Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 achi2=586 (33 in 405) 5 [TTACCC]

K=2 achi2=635 (12 in 405) 1 [TTACCC]

K=3 achi2=679 (2 in 405) 1 [TTACCC]

K=4 achi2=402 (3 in 405) 2 [TTACCC]

K=5 achi2=020 (8 in 405) 7 [TTACCC]

K=6 achi2=000 (232 in 405) 8 [TTACCC]

K=7 achi2=000 (402 in 405) 8 [TTACCC]

Error = 1

Quorum = 80

K=1 achi2=169 (2742 in 10337) 933 [TTACCC]

K=2 achi2=267 (945 in 10337) 284 [TTACCC]

K=3 achi2=394 (170 in 10337) 25 [TTACCC]

K=4 achi2=109 (1091 in 10337) 246 [TTACCC]

K=5 achi2=003 (6765 in 10337) 2619 [TTACCC]

K=6 achi2=000 (6295 in 10337) 852 [TTACCC]

K=7 achi2=000 (9863 in 10337) 3333 [TTACCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 85

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=615 (64 in 785) 12 [TGCCAAG]

K=2 achi2=585 (14 in 785) 3 [TGCCAAG]

K=3 achi2=575 (6 in 785) 2 [TGCCAAG]

K=4 achi2=377 (6 in 785) 2 [TGCCAAG]

K=5 achi2=157 (10 in 785) 5 [TGCCAAG]

K=6 achi2=055 (255 in 785) 4 [TGCCAAG]

K=7 achi2=000 (652 in 785) 18 [TGCCAAG]

K=8 achi2=000 (771 in 785) 15 [TGCCAAG]

Error = 1

Quorum = 60

K=1 achi2=458 (2166 in 20257) 407 [TGCCAAG]

K=2 achi2=287 (1959 in 20257) 462 [TGCCAAG]

K=3 achi2=270 (1060 in 20257) 241 [TGCCAAG]

K=4 achi2=030 (9306 in 20257) 3695 [TGCCAAG]

K=5 achi2=004 (13915 in 20257) 6353 [TGCCAAG]

K=6 achi2=029 (4512 in 20257) 1713 [TGCCAAG]

K=7 achi2=003 (5275 in 20257) 36 [TGCCAAG]

K=8 achi2=000 (12401 in 20257) 1099 [TGCCAAG]

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

K=1 achi2=996 (6 in 267) 1 [TGAAACA]

K=2 achi2=905 (1 in 267) 1 [TGAAACA]

K=3 achi2=884 (1 in 267) 1 [TGAAACA]

K=4 achi2=731 (1 in 267) 1 [TGAAACA]

K=5 achi2=320 (1 in 267) 1 [TGAAACA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 86

K=6 achi2=052 (168 in 267) 2 [TGAAACA]

K=7 achi2=000 (254 in 267) 1 [TGAAACA]

K=8 achi2=000 (266 in 267) 2 [TGAAACA]

Error = 1

Quorum = 100

K=1 achi2=400 (675 in 7705) 162 [TGAAACA]

K=2 achi2=157 (1246 in 7705) 402 [TGAAACA]

K=3 achi2=128 (992 in 7705) 375 [TGAAACA]

K=4 achi2=026 (3100 in 7705) 1267 [TGAAACA]

K=5 achi2=021 (2435 in 7705) 1154 [TGAAACA]

K=6 achi2=006 (2114 in 7705) 1435 [TGAAACA]

K=7 achi2=000 (2095 in 7705) 260 [TGAAACA]

K=8 achi2=000 (6802 in 7705) 1861 [TGAAACA]

7_1_SWI4 Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=950 (59 in 8974) 15 [CACGAAA]

K=1 achi2=1516 (9 in 8974) 2 [CGCGAAA]

K=2 achi2=638 (22 in 8974) 7 [CACGAAA]

K=2 achi2=924 (3 in 8974) 1 [CGCGAAA]

K=3 achi2=436 (53 in 8974) 25 [CACGAAA]

K=3 achi2=502 (25 in 8974) 10 [CGCGAAA]

K=4 achi2=106 (1095 in 8974) 476 [CACGAAA]

K=4 achi2=390 (27 in 8974) 9 [CGCGAAA]

K=5 achi2=000 (7343 in 8974) 3297 [CACGAAA]

K=5 achi2=121 (397 in 8974) 176 [CGCGAAA]

K=6 achi2=001 (3810 in 8974) 2702 [CACGAAA]

K=6 achi2=044 (873 in 8974) 314 [CGCGAAA]

K=7 achi2=000 (2384 in 8974) 205 [CACGAAA]

K=7 achi2=000 (2371 in 8974) 194 [CGCGAAA]

K=8 achi2=000 (8531 in 8974) 3025 [CACGAAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 87

K=8 achi2=000 (5630 in 8974) 124 [CGCGAAA]

7_2_RGT1

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=2140 (236 in 6085) 74 [CGGAAAA]

K=1 achi2=803 (815 in 6085) 253 [CGGAAGA]

K=1 achi2=1409 (416 in 6085) 129 [CGGAGAA]

K=1 achi2=350 (1782 in 6085) 511 [CGGATAA]

K=2 achi2=840 (245 in 6085) 67 [CGGAAAA]

K=2 achi2=442 (666 in 6085) 169 [CGGAAGA]

K=2 achi2=937 (208 in 6085) 55 [CGGAGAA]

K=2 achi2=428 (695 in 6085) 175 [CGGATAA]

K=3 achi2=272 (385 in 6085) 126 [CGGAAAA]

K=3 achi2=225 (546 in 6085) 173 [CGGAAGA]

K=3 achi2=544 (89 in 6085) 28 [CGGAGAA]

K=3 achi2=309 (299 in 6085) 100 [CGGATAA]

K=4 achi2=022 (2503 in 6085) 821 [CGGAAAA]

K=4 achi2=040 (1722 in 6085) 598 [CGGAAGA]

K=4 achi2=304 (56 in 6085) 23 [CGGAGAA]

K=4 achi2=202 (188 in 6085) 81 [CGGATAA]

K=5 achi2=003 (3495 in 6085) 1206 [CGGAAAA]

K=5 achi2=019 (1882 in 6085) 749 [CGGAAGA]

K=5 achi2=238 (34 in 6085) 12 [CGGAGAA]

K=5 achi2=138 (154 in 6085) 74 [CGGATAA]

K=6 achi2=009 (1192 in 6085) 744 [CGGAAAA]

K=6 achi2=031 (682 in 6085) 300 [CGGAAGA]

K=6 achi2=057 (459 in 6085) 122 [CGGAGAA]

K=6 achi2=042 (550 in 6085) 191 [CGGATAA]

K=7 achi2=000 (1608 in 6085) 53 [CGGAAAA]

K=7 achi2=000 (2439 in 6085) 861 [CGGAAGA]

K=7 achi2=000 (2150 in 6085) 572 [CGGAGAA]

K=7 achi2=000 (2472 in 6085) 894 [CGGATAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 88

K=8 achi2=000 (6056 in 6085) 1512 [CGGAAAA]

K=8 achi2=000 (5728 in 6085) 1184 [CGGAAGA]

K=8 achi2=000 (5127 in 6085) 583 [CGGAGAA]

K=8 achi2=000 (5961 in 6085) 1417 [CGGATAA]

8_1_PDR1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 75

K=1 achi2=884 (27 in 639) 1 [TCCGCGGA]

K=2 achi2=883 (14 in 639) 1 [TCCGCGGA]

K=3 achi2=864 (5 in 639) 1 [TCCGCGGA]

K=4 achi2=741 (2 in 639) 1 [TCCGCGGA]

K=5 achi2=306 (1 in 639) 1 [TCCGCGGA]

K=6 achi2=030 (253 in 639) 1 [TCCGCGGA]

K=7 achi2=012 (587 in 639) 1 [TCCGCGGA]

K=8 achi2=000 (633 in 639) 1 [TCCGCGGA]

K=9 achi2=000 (639 in 639) 1 [TCCGCGGA]

Error = 1

Quorum = 75

K=1 achi2=1370 (211 in 16695) 48 [TCCGCGGA]

K=1 achi2=895 (419 in 16695) 111 [TCCGTGGA]

K=2 achi2=1355 (91 in 16695) 26 [TCCGCGGA]

K=2 achi2=944 (230 in 16695) 59 [TCCGTGGA]

K=3 achi2=1138 (22 in 16695) 13 [TCCGCGGA]

K=3 achi2=771 (119 in 16695) 39 [TCCGTGGA]

K=4 achi2=688 (33 in 16695) 9 [TCCGCGGA]

K=4 achi2=610 (56 in 16695) 18 [TCCGTGGA]

K=5 achi2=113 (1171 in 16695) 496 [TCCGCGGA]

K=5 achi2=207 (324 in 16695) 135 [TCCGTGGA]

K=6 achi2=000 (10537 in 16695) 2237 [TCCGCGGA]

K=6 achi2=003 (8322 in 16695) 1955 [TCCGTGGA]

K=7 achi2=000 (4060 in 16695) 2312 [TCCGCGGA]

K=7 achi2=000 (4066 in 16695) 2318 [TCCGTGGA]

K=8 achi2=000 (5835 in 16695) 174 [TCCGCGGA]

K=8 achi2=000 (6050 in 16695) 389 [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 89

K=9 achi2=000 (15679 in 16695) 1375 [TCCGCGGA]

K=9 achi2=000 (14892 in 16695) 588 [TCCGTGGA]

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 achi2=985 (24 in 423) 1 [TCCGCGGA]

K=2 achi2=985 (13 in 423) 1 [TCCGCGGA]

K=3 achi2=967 (4 in 423) 1 [TCCGCGGA]

K=4 achi2=802 (1 in 423) 1 [TCCGCGGA]

K=5 achi2=303 (1 in 423) 1 [TCCGCGGA]

K=6 achi2=027 (229 in 423) 1 [TCCGCGGA]

K=7 achi2=013 (401 in 423) 1 [TCCGCGGA]

K=8 achi2=000 (420 in 423) 1 [TCCGCGGA]

K=9 achi2=000 (423 in 423) 1 [TCCGCGGA]

Error = 1

Quorum = 80

K=1 achi2=1592 (187 in 11592) 35 [TCCGCGGA]

K=1 achi2=1109 (353 in 11592) 83 [TCCGTGGA]

K=2 achi2=1584 (97 in 11592) 25 [TCCGCGGA]

K=2 achi2=1142 (197 in 11592) 44 [TCCGTGGA]

K=3 achi2=1364 (24 in 11592) 9 [TCCGCGGA]

K=3 achi2=894 (109 in 11592) 35 [TCCGTGGA]

K=4 achi2=785 (35 in 11592) 11 [TCCGCGGA]

K=4 achi2=689 (52 in 11592) 16 [TCCGTGGA]

K=5 achi2=127 (769 in 11592) 243 [TCCGCGGA]

K=5 achi2=146 (609 in 11592) 204 [TCCGTGGA]

K=6 achi2=001 (5466 in 11592) 879 [TCCGCGGA]

K=6 achi2=004 (4665 in 11592) 789 [TCCGTGGA]

K=7 achi2=000 (2570 in 11592) 968 [TCCGCGGA]

K=7 achi2=000 (2517 in 11592) 941 [TCCGTGGA]

K=8 achi2=000 (5547 in 11592) 157 [TCCGCGGA]

K=8 achi2=000 (5666 in 11592) 276 [TCCGTGGA]

K=9 achi2=000 (10744 in 11592) 135 [TCCGCGGA]

K=9 achi2=000 (11041 in 11592) 432 [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 90

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=287 (133 in 1319) 8 [TCCGTGGA]

K=2 achi2=289 (95 in 1319) 5 [TCCGTGGA]

K=3 achi2=278 (15 in 1319) 2 [TCCGTGGA]

K=4 achi2=255 (6 in 1319) 1 [TCCGTGGA]

K=5 achi2=206 (5 in 1319) 2 [TCCGTGGA]

K=6 achi2=084 (269 in 1319) 7 [TCCGTGGA]

K=7 achi2=000 (897 in 1319) 17 [TCCGTGGA]

K=8 achi2=000 (1232 in 1319) 8 [TCCGTGGA]

K=9 achi2=000 (1303 in 1319) 1 [TCCGTGGA]

Error = 1

Quorum = 60

K=1 achi2=391 (1312 in 35494) 312 [TCCGAGGA]

K=1 achi2=660 (442 in 35494) 89 [TCCGCGGA]

K=1 achi2=402 (1240 in 35494) 301 [TCCGTGGA]

K=2 achi2=379 (816 in 35494) 174 [TCCGAGGA]

K=2 achi2=640 (206 in 35494) 48 [TCCGCGGA]

K=2 achi2=428 (599 in 35494) 123 [TCCGTGGA]

K=3 achi2=304 (471 in 35494) 120 [TCCGAGGA]

K=3 achi2=480 (63 in 35494) 10 [TCCGCGGA]

K=3 achi2=329 (327 in 35494) 87 [TCCGTGGA]

K=4 achi2=295 (205 in 35494) 61 [TCCGAGGA]

K=4 achi2=337 (85 in 35494) 28 [TCCGCGGA]

K=4 achi2=219 (1060 in 35494) 257 [TCCGTGGA]

K=5 achi2=087 (5828 in 35494) 2082 [TCCGAGGA]

K=5 achi2=153 (2062 in 35494) 521 [TCCGCGGA]

K=5 achi2=080 (6534 in 35494) 2399 [TCCGTGGA]

K=6 achi2=010 (17189 in 35494) 7240 [TCCGAGGA]

K=6 achi2=053 (6392 in 35494) 2378 [TCCGCGGA]

K=6 achi2=000 (30112 in 35494) 12027 [TCCGTGGA]

K=7 achi2=006 (9736 in 35494) 4698 [TCCGAGGA]

K=7 achi2=006 (10113 in 35494) 5025 [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 91

K=7 achi2=000 (17876 in 35494) 11124 [TCCGTGGA]

K=8 achi2=000 (12067 in 35494) 1424 [TCCGAGGA]

K=8 achi2=000 (11172 in 35494) 529 [TCCGCGGA]

K=8 achi2=000 (11688 in 35494) 1045 [TCCGTGGA]

K=9 achi2=000 (31497 in 35494) 8200 [TCCGAGGA]

K=9 achi2=000 (25674 in 35494) 2377 [TCCGCGGA]

K=9 achi2=000 (29818 in 35494) 6521 [TCCGTGGA]

Page 10: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes x

Resumo

A grande quantidade de dados disponiacuteveis na aacuterea da Biologia requer meacutetodos de extracccedilatildeo de

conhecimento poderosos sistemaacuteticos e eficientes Em particular a identificaccedilatildeo de

sequecircncias de nucleoacutetidos designadas de consensos onde se ligam factores de transcriccedilatildeo

responsaacuteveis em parte pelo mecanismo de regulaccedilatildeo geacutenica eacute essencial para uma

compreensatildeo do papel de cada gene

Actualmente existem vaacuterios algoritmos cujo objectivo eacute encontrar sequecircncias candidatas a

sequecircncias de consenso Estes algoritmos podem ser divididos em duas classes meacutetodos

restritivos e meacutetodos proliacuteficos Os meacutetodos restritivos obtecircm poucas respostas com elevada

precisatildeo enquanto que os meacutetodos proliacuteficos obtecircm muitas respostas com baixa precisatildeo

exigindo um esforccedilo de poacutes-processamento

Neste trabalho utilizamos o SMILE [1] que eacute um meacutetodo proliacutefico para a extracccedilatildeo de

sequecircncias de consenso na regiatildeo promotora dos genes Face ao nuacutemero significativo das

respostas obtidas pretende-se com este trabalho avaliar possiacuteveis soluccedilotildees de poacutes-

processamento de modo a garantir a utilidade da informaccedilatildeo extraiacuteda para os utilizadores do

algoritmo Assim definiram-se dois grandes objectivos

A avaliaccedilatildeo de meacutetodos estatiacutesticos que permitam aferir a significacircncia bioloacutegica das

respostas obtidas

A obtenccedilatildeo de uma descriccedilatildeo compacta da informaccedilatildeo extraiacuteda

Palavras-chave Gene regulaccedilatildeo geacutenica regiatildeo promotora sequecircncias degeneradas IUPAC

avaliaccedilatildeo estatiacutestica de biosequecircncias SMILE extracccedilatildeo de motivos

Relatoacuterio Intercalar de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 1

1 Introduccedilatildeo

A crescente disponibilidade de dados sobre o genoma de vaacuterios organismos tem possibilitado

o aparecimento de novos projectos na aacuterea da biologia No entanto a quantidade massiva de

dados disponiacuteveis torna impossiacutevel uma anaacutelise manual da informaccedilatildeo sendo cada vez mais

premente a necessidade de um processamento automaacutetico dos dados obtidos

Neste contexto a identificaccedilatildeo e modelaccedilatildeo da regiatildeo promotora dos genes assume um papel

fundamental pois as condiccedilotildees de activaccedilatildeo e transcriccedilatildeo de um gene dependem das

sequecircncias de nucleoacutetidos aiacute presentes

As sequecircncias de nucleoacutetidos da regiatildeo promotora que determinam a transcriccedilatildeo do gene satildeo

denominadas de promotores e satildeo representadas por sequecircncias de consenso ou

simplesmente consensos A literatura refere vaacuterias formas de descriccedilatildeo destes consensos

desde a utilizaccedilatildeo de uma matriz de pesos a uma sequecircncia de bases mais frequentes Neste

trabalho utilizamos uma codificaccedilatildeo IUPAC destas sequecircncias que corresponde a um

conjunto de sequecircncias degeneradas em que cada siacutembolo representa um conjunto de

nucleoacutetidos possiacuteveis para uma dada posiccedilatildeo

Actualmente existem vaacuterios algoritmos cujo objectivo eacute encontrar sequecircncias candidatas a

sequecircncias de consenso nas regiotildees promotoras As sequecircncias que satildeo reportadas como

possiacuteveis consensos satildeo designadas de motivos Os algoritmos de pesquisa de motivos podem

ser agrupados de uma forma geral em dois tipos algoritmos restritivos e algoritmos

proliacuteficos

Os algoritmos restritivos concentram-se em encontrar poucos motivos mas de relevacircncia

assinalaacutevel enquanto que os algoritmos proliacuteficos preocupam-se em determinar todos os

motivos que possam ser encontrados de acordo com determinados paracircmetros de pesquisa

Os algoritmos designados de proliacuteficos tecircm a vantagem de natildeo fazerem suposiccedilotildees a priori

No entanto a grande quantidade de motivos encontrados requer um esforccedilo de poacutes-

processamento significativo

Este trabalho tem por objectivo o desenvolvimento de uma metodologia que permita o

processamento automaacutetico dos motivos encontrados por um algoritmo que pode ser

classificado de proliacutefico o algoritmo SMILE [1]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 2

No Capiacutetulo 2 apresentamos uma descriccedilatildeo do problema em anaacutelise evidenciando a

motivaccedilatildeo bioloacutegica e fazendo o seu enquadramento com os objectivos do trabalho

No Capiacutetulo 3 descrevemos o algoritmo SMILE no contexto do problema da extracccedilatildeo de

motivos e apresentamos um gerador de dados sinteacuteticos que seraacute usado como ponto de partida

do estudo da eficaacutecia do algoritmo

No Capiacutetulo 4 discutimos a utilizaccedilatildeo de meacutetodos estatiacutesticos para aferir a significacircncia

bioloacutegica dos motivos extraiacutedos pelo SMILE

No Capiacutetulo 5 apresentamos um meacutetodo para geraccedilatildeo de uma representaccedilatildeo compacta de

motivos extraiacutedos usando a codificaccedilatildeo IUPAC

Finalmente no Capiacutetulo 6 apresentamos vaacuterios resultados obtidos tanto com dados sinteacuteticos

como com dados reais discutindo a aplicabilidade dos meacutetodos estatiacutesticos apresentados no

Capiacutetulo 4

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 3

2 Descriccedilatildeo do Problema

A moleacutecula de DNA eacute responsaacutevel pela manutenccedilatildeo da informaccedilatildeo geneacutetica de cada indiviacuteduo

e eacute constituiacuteda por duas cadeias de nucleoacutetidos dispostas de modo a formar uma dupla

heacutelice [2] que se encontra representada na Figura 21 Cada nucleoacutetido eacute formado por trecircs

elementos um accediluacutecar um grupo fosfato e uma de quatro bases azotadas As quatro bases satildeo

a Adenina (A) a Timina (T) a Guanina (G) e a Citosina (C) e podem ser vistas como os

quatro elementos de um alfabeto

Figura 21

Representaccedilatildeo de cadeias de DNA em forma de dupla heacutelice

As duas cadeias de DNA satildeo complementares no sentido em que as bases das duas cadeias

estatildeo emparelhadas Assim uma Adenina de uma cadeia emparelha com uma Timina da

cadeia complementar e do mesmo modo uma Citosina emparelha com uma Guanina

Os genes satildeo segmentos de uma cadeia de DNA que controlam a siacutentese proteica e

consequentemente toda a actividade celular O genoma eacute o conjunto de genes de um

indiviacuteduo

A expressatildeo geacutenica eacute o processo atraveacutes do qual a informaccedilatildeo contida nos genes dirige a

siacutentese de proteiacutenas Este processo envolve dois passos transcriccedilatildeo e traduccedilatildeo

A transcriccedilatildeo consiste na transferecircncia da informaccedilatildeo contida no DNA para uma moleacutecula

intermediaacuteria de RNA designada de RNA-mensageiro ou mRNA De seguida o molde de

mRNA eacute usado no passo de traduccedilatildeo onde iraacute dirigir a siacutentese proteica

Este processo eacute semelhante em todos os organismos vivos embora existam diferenccedilas

assinalaacuteveis entre organismos eucariotas e procariotas isto eacute entre organismos com e sem

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 4

nuacutecleo individualizado respectivamente Em particular o mecanismo eacute consideravelmente

mais complexo em organismos eucariotas A Figura 22 ilustra o processo de expressatildeo geacutenica

em eucariotas (Figura 22-A) e procariotas (Figura 22-B)

Figura 22 Expressatildeo geacutenica em eucariotas (A) e procariotas (B)

Actualmente o problema da identificaccedilatildeo e modelaccedilatildeo dos mecanismos que regulam a

interacccedilatildeo entre grupos de genes eacute um dos problemas mais em foco na investigaccedilatildeo em

biologia computacional Como jaacute foi referido a regiatildeo promotora eacute parte essencial do

mecanismo de regulaccedilatildeo da transcriccedilatildeo geacutenica

A biologia oferece-nos alguns modelos da regiatildeo promotora evidenciando as diferenccedilas entre

organismos procariotas (Figura 23) e eucariotas (Figura 24)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 5

Figura 23 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em procariotas

Figura 24 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em eucariotas

No mecanismo de transcriccedilatildeo geacutenica interveacutem uma enzima denominada RNA-polimerase

Esta enzima tem como funccedilatildeo a transcriccedilatildeo da informaccedilatildeo contida no DNA para uma cadeia

de RNA que iraacute posteriormente intervir no processo de siacutentese proteica

Para que a RNA-polimerase inicie a transcriccedilatildeo de uma cadeia de DNA geralmente um gene

eacute necessaacuterio que se cumpram algumas condiccedilotildees Assim entre outras eacute necessaacuterio que

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 6

estejam presentes na regiatildeo promotora motivos que a RNA-polimerase reconheccedila e aos quais

se possa ligar para iniciar a transcriccedilatildeo da regiatildeo a jusante (na literatura inglesa estas regiotildees

satildeo denominadas de binding sites) As condiccedilotildees de activaccedilatildeo desta enzima satildeo mais

complexas nos organismos eucariotas [3] uma vez que neste caso para aleacutem dos motivos

referidos existem ainda vaacuterios outros que satildeo reconhecidos por factores de transcriccedilatildeo isto eacute

proteiacutenas que se ligam sucessivamente agrave RNA-polimerase estabelecendo um complexo

mecanismo de regulaccedilatildeo Estes motivos podem estar a montante a jusante ou mesmo no

interior do gene a ser transcrito e podem ainda exercer um efeito estimulador ou repressor da

transcriccedilatildeo Os locais onde existem motivos aos quais se ligam os diversos factores de

transcriccedilatildeo satildeo designados genericamente por regiotildees reguladoras

Eacute possiacutevel compreender agora a importacircncia da necessidade de ser definido um modelo ou

modelos para a regiatildeo promotora no acircmbito do estudo do genoma

Neste trabalho utilizamos o algoritmo SMILE para procurar motivos interessantes isto eacute

biologicamente significativos em cadeias de DNA pertencentes agrave regiatildeo promotora dos genes

Como jaacute foi referido trata-se de um algoritmo proliacutefico no sentido em que se preocupa em

encontrar todas as sequecircncias que cumpram os paracircmetros especificados Sendo assim torna-

se necessaacuterio um esforccedilo significativo de poacutes-processamento para que possa ser obtida

informaccedilatildeo uacutetil a partir dos dados gerados

O poacutes-processamento dos motivos extraiacutedos inclui uma anaacutelise estatiacutestica que culmina com a

atribuiccedilatildeo de um niacutevel de significacircncia a cada motivo Deste modo eacute possiacutevel definir um

crivo que separa motivos considerados relevantes de motivos agrave partida menos interessantes

Finalmente e depois de ter sido encontrado um conjunto de motivos relevantes seraacute efectuada

uma traduccedilatildeo para uma representaccedilatildeo IUPAC Esta representaccedilatildeo permite compactar os

dados agrupando motivos muito semelhantes Este passo eacute de importacircncia essencial para uma

utilizaccedilatildeo eficiente dos dados obtidos uma vez que uma representaccedilatildeo compacta facilita a sua

utilizaccedilatildeo em pesquisas em bases de dados bioloacutegicas que contecircm informaccedilatildeo sobre

consensos anteriormente identificados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 7

3 Extracccedilatildeo de motivos

31 Algoritmo SMILE

O SMILE eacute um meacutetodo algoriacutetmico de extracccedilatildeo de motivos de sequecircncias bioloacutegicas O

algoritmo comeccedila por processar um conjunto de dados de entrada composto por vaacuterias

sequecircncias natildeo alinhadas de nucleoacutetidos que se sabe conterem um ou mais binding sites Estes

dados satildeo utilizados para calcular ocorrecircncias de motivos usando como estrutura de dados

base uma aacutervore de sufixos

Um modelo eacute uma representaccedilatildeo de subsequecircncias que ocorrem nos dados de entrada

satisfazendo potencialmente certas propriedades

O algoritmo iraacute assim pesquisar modelos (simples ou estruturados) nos dados que lhe satildeo

fornecidos segundo alguns paracircmetros

Um modelo simples diz respeito a uma subsequecircncia contiacutegua de nucleoacutetidos enquanto que

um modelo estruturado eacute uma composiccedilatildeo de modelos simples

Um modelo estruturado pode ser constituiacutedo por vaacuterias partes posicionadas ao longo da

sequecircncia Cada parte eacute um modelo simples que pode ter um tamanho variaacutevel (entre kmin e

kmax) O espaccedilo entre cada parte consecutiva pode tambeacutem ser parametrizado (dmin e dmax)

Do mesmo modo tambeacutem eacute possiacutevel parametrizar o nuacutemero de erros que se permite ocorrer

no modelo e em cada uma das suas partes

A Figura 31 apresenta um exemplo de uma especificaccedilatildeo de um modelo estruturado em que

se consideram duas partes A primeira parte pode ter um tamanho entre 6 e 8 nucleoacutetidos e satildeo

admitidos 2 erros A segunda parte pode ocorrer entre 16 e 18 nucleoacutetidos apoacutes a primeira

parte e teraacute um tamanho igualmente entre 6 e 8 embora seja admitido apenas 1 erro

A Figura 32 apresenta o esquema de outro modelo estruturado e respectiva concretizaccedilatildeo

numa sequecircncia Neste exemplo consideram-se igualmente duas partes A primeira com

tamanho entre 6 e 10 nucleoacutetidos e a segunda entre 6 e 8 As partes podem estar a uma

distacircncia que varia entre 10 e 15 nucleoacutetidos e natildeo satildeo admitidos erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 8

Figura 31 Exemplo de uma especificaccedilatildeo de um modelo estruturado

Figura 32 (a) Exemplo de especificaccedilatildeo (b) Modelo retirado de uma sequecircncia

que cumpre a especificaccedilatildeo

Um modelo eacute considerado vaacutelido caso o nuacutemero de sequecircncias de entrada em que ocorre seja

natildeo inferior a um miacutenimo estabelecido designado por quoacuterum Os modelos vaacutelidos satildeo

designados de motivos

Para verificar o nuacutemero de ocorrecircncias eacute utilizada uma aacutervore de sufixos Uma aacutervore de

sufixos eacute uma estrutura de dados que representa todos os sufixos de uma cadeia de caracteres

As suas caracteriacutesticas satildeo de grande utilidade para os algoritmos de emparelhamento de

caracteres

6-10 6-8

10-15

(a)

ATTATTA_CTATCT

ATTATTAGTACTCATACCTATCT

(b)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 9

O SMILE processa conjuntos de dados isto eacute conjuntos de sequecircncias de nucleoacutetidos

utilizando para esse efeito uma aacutervores de sufixos generalizada Esta estrutura de dados

difere da aacutervore de sufixos simples no sentido em que agrupa vaacuterias cadeias de caracteres

correspondentes agraves vaacuterias sequecircncias de nucleoacutetidos Esta multiplicidade de sequecircncias exige

que a estrutura registe as sequecircncias a que cada sufixo pertence As aacutervores de sufixos fazem

uso de um siacutembolo terminador ($) para assinalar o fim de cada sufixo

A Figura 33 eacute um exemplo de uma aacutervore de sufixos generalizada

Figura 33 - Aacutervore de sufixos generalizada para as sequecircncias

TACTA$ (sequecircncia 1) e CACTCA$ (sequecircncia 2)

A extracccedilatildeo de motivos eacute feita atraveacutes da travessia em profundidade-primeiro de uma aacutervore

lexicograacutefica virtual de modo a garantir que se explora o espaccedilo de todos os modelos

possiacuteveis Esta travessia da aacutervore lexicograacutefica eacute acompanhada da exploraccedilatildeo da aacutervore de

sufixos generalizada de forma a obter todos os sufixos a distacircncia de Hamming natildeo superior a

e1 do modelo em consideraccedilatildeo Assim para cada noacute da aacutervore virtual eacute verificado o quoacuterum

do modelo correspondente contabilizando para tanto o nuacutemero de sequecircncias diferentes que

participam com sufixos a distacircncia de Hamming natildeo superior a e do modelo

1 O valor desta distacircncia depende do nuacutemero de erros admitidos na extracccedilatildeo de motivos e corresponde a um dos

paracircmetros do algoritmo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 10

A extracccedilatildeo de motivos estruturados eacute feita de forma semelhante correspondendo a muacuteltiplas

procuras de modelos simples que constituem cada parte do modelo estruturado A transiccedilatildeo

entre partes ilustrada pela Figura 34 corresponde a um salto na aacutervore de sufixos com tantos

niacuteveis de profundidade adicionais quanto a distacircncia especificada entre cada parte

Uma descriccedilatildeo pormenorizada do algoritmo encontra-se em [4] e [5]

Figura 34 Esquema da procura de motivos estruturados usando uma aacutervore de

sufixos

Este algoritmo exacto gera todos os possiacuteveis motivos dentro dos paracircmetros especificados

Daqui resulta geralmente um nuacutemero demasiado grande de motivos sendo necessaacuterio

discriminar quais os verdadeiros binding sites Como meacutetodo de avaliaccedilatildeo o SMILE utiliza

um teste estatiacutestico que eacute descrito na Secccedilatildeo 41

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 11

32 Gerador de dados sinteacuteticos

A anaacutelise da eficaacutecia e eficiecircncia do algoritmo de extracccedilatildeo de motivos exige a utilizaccedilatildeo de

dados sobre os quais tenhamos agrave partida algum conhecimento Para tal foi desenvolvido um

gerador de dados sinteacuteticos

O gerador de dados sinteacuteticos permite por um lado evitar a necessidade de dispor de

conjuntos de dados reais e por outro ter um maior controlo sobre os motivos que estatildeo

realmente presentes nos dados

O gerador permite especificar o nuacutemero e o tamanho das sequecircncias do conjunto de dados

bem como os motivos a inserir Os motivos satildeo especificados pela sua sequecircncia de

nucleoacutetidos posiccedilatildeo na sequecircncia e frequecircncia de ocorrecircncia Os motivos podem ser simples

ou estruturados A Figura 35 representa um exemplo de um ficheiro de especificaccedilatildeo

Frequecircncia

Posiccedilatildeo

Sequecircncia Posiccedilatildeo

Sequecircncia

02 09 TGCTTTTTAAT

28 TCGA

03 02 AGTACATCGA

02 12 TGCGCA

Figura 35 Exemplo de um ficheiro de especificaccedilatildeo para a geraccedilatildeo de dados

sinteacuteticos

No exemplo apresentado satildeo especificados trecircs motivos (um motivo estruturado e dois

motivos simples) A primeira coluna (Frequecircncia) indica a percentagem de sequecircncias em que

o motivo deveraacute ocorrer Em particular para esta especificaccedilatildeo o primeiro motivo deveraacute

ocorrer em 20 das sequecircncias As restantes colunas especificam a posiccedilatildeo e a sequecircncia de

nucleoacutetidos de cada parte do motivo O nuacutemero e o tamanho das sequecircncias a gerar satildeo

especificados na linha de comandos do gerador

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 12

O gerador verifica a especificaccedilatildeo de modo a testar se eacute possiacutevel gerar um conjunto de dados

com as caracteriacutesticas indicadas Em particular eacute necessaacuterio que no caso das frequecircncias

especificadas somarem mais do que 1 alguns dos motivos sejam sobreponiacuteveis uma vez que o

gerador garante o cumprimento exacto da frequecircncia de ocorrecircncia especificada para cada

motivo

O processo de geraccedilatildeo do conjunto de dados envolve duas fases Numa primeira fase eacute gerado

um conjunto de dados aleatoacuterios em que a ocorrecircncia de cada nucleoacutetido eacute equiprovaacutevel Para

gerar aleatoriamente nucleoacutetidos eacute usada uma variaccedilatildeo do algoritmo ran2 [6]

Numa segunda fase satildeo inseridos os motivos especificados em tantas sequecircncias quanto as

necessaacuterias para perfazer a frequecircncia indicada As sequecircncias seleccionadas para a inserccedilatildeo

de motivos satildeo igualmente escolhidas de forma aleatoacuteria

O recurso a dados sinteacuteticos permite afastar a possibilidade de motivos bem classificados

corresponderem a consensos ainda natildeo identificados por via experimental como pode

acontecer quando se analisam conjuntos de dados reais No entanto eacute necessaacuterio termos

presentes as limitaccedilotildees da actual abordagem Em particular sabemos que a geraccedilatildeo

equiprovaacutevel de nucleoacutetidos estaacute em desacordo com a estatiacutestica tiacutepica da regiatildeo promotora

onde satildeo mais comuns A s e T s do que G s e C s Do mesmo modo podem existir outras

correlaccedilotildees de ordem superior designadamente uma preferecircncia por certos diacutemeros ou

triacutemeros em detrimento de outros Esta limitaccedilatildeo eacute ilustrada pelo facto de os resultados

obtidos com dados sinteacuteticos serem geralmente melhores do que os obtidos com dados reais

As causas e consequecircncias desta observaccedilatildeo seratildeo discutidas nas secccedilotildees seguintes

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 13

4 Anaacutelise Estatiacutestica

41 Teste do 2

Como jaacute foi referido o SMILE em geral extrai um elevado nuacutemero de modelos Para isolar

motivos relevantes eacute usado um teste estatiacutestico de modo a atribuir uma significacircncia estatiacutestica

a cada modelo extraiacutedo

O meacutetodo de avaliaccedilatildeo utilizado consiste em aplicar o teste do 2 com um grau de liberdade

O objectivo eacute determinar a probabilidade de obtermos motivos observados em sequecircncias

aleatoacuterias que preservam os k-mers2 das sequecircncias originais Assim pretende-se perceber se

a ocorrecircncia do motivo se deve agrave frequecircncia de k-mers presentes na sequecircncia aleatoacuteria tendo

portanto uma baixa significacircncia estatiacutestica ou se eacute verificada a situaccedilatildeo oposta ou seja

elevada significacircncia estatiacutestica Estes uacuteltimos satildeo considerados pelo algoritmo como os que

apresentam maior potencial de serem verdadeiros binding sites Para tal o SMILE permite a

realizaccedilatildeo de dois tipos alternativos de teste um quanto ao nuacutemero de sequecircncias em que o

motivo ocorre (quoacuterum) e outro em relaccedilatildeo agrave abundacircncia do motivo no conjunto de dados

Para aplicar o teste do 2 procedemos agrave construccedilatildeo de uma tabela de contingecircncia com 4

entradas (Tabela 41)

Dados Originais Dados Aleatoacuterios

Presenccedila Porig Prandom

Ausecircncia Aorig Arandom

Tabela 41 Tabela de contingecircncia para o caacutelculo do 2

2 Sequecircncias de nucleoacutetidos de tamanho k

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 14

As colunas da tabela referem-se agraves duas amostras em anaacutelise ou seja o conjunto de dados

original e as sequecircncias aleatoacuterias geradas As linhas da tabela referem-se agraves duas classes de

contagens Caso consideremos o teste quanto ao quoacuterum a classe Presenccedila diz respeito ao

nuacutemero de sequecircncias em que o motivo ocorre e a classe Ausecircncia refere-se ao nuacutemero de

sequecircncias em que o motivo natildeo ocorre Caso se trate do teste relativo agrave abundacircncia a

primeira classe refere-se ao nuacutemero de ocorrecircncias do motivo no conjunto de dados e a

segunda ao nuacutemero de natildeo ocorrecircncias do motivo em relaccedilatildeo ao nuacutemero de oportunidades de

ocorrecircncia Considera-se como nuacutemero de oportunidades de ocorrecircncia o tamanho do

conjunto de dados Esta tabela seraacute usada agora para fazer um teste de homogeneidade de

proporccedilotildees

Para calcular a significacircncia estatiacutestica basta usar a expressatildeo do 2 correspondente agrave equaccedilatildeo

(41) onde ijO diz respeito ao valor observado para a entrada (ij) da tabela e ijE se refere ao

correspondente valor esperado

21

22 )(

ji ij

ijij

E

OE

(41)

O valor esperado para cada entrada da tabela eacute dado pela expressatildeo (42) ou seja o valor

esperado para a entrada (ij) da tabela eacute igual ao produto do total da linha i pelo total da linha

j divido pela soma de todos os elementos da tabela

21

2121

lkkl

kkj

kik

ij O

OO

E (42)

Nas condiccedilotildees desta tabela de contingecircncia eacute possiacutevel utilizar uma forma expedita de caacutelculo

que consiste na aplicaccedilatildeo da expressatildeo (43)

))()()((

)()( 22

origorigrandomrandomrandomorigrandomorig

randomorigrandomorigorigrandomrandomorig

APAPAAPP

AAPPAPAP

(43)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 15

A hipoacutetese nula que consideramos neste teste estatiacutestico refere-se agrave possibilidade de os

motivos terem sido gerados por sequecircncias aleatoacuterias sob certas restriccedilotildees Isto eacute assumimos

que as contagens obtidas para os motivos nas sequecircncias originais satildeo semelhantes agraves que

obteriacuteamos em sequecircncias aleatoacuterias com as mesmas frequecircncias de k-mers Valores altos de

significacircncia estatiacutestica implicam a rejeiccedilatildeo da hipoacutetese nula

Um importante problema prende-se com a validade da aplicaccedilatildeo do teste do 2 O SMILE em

particular apresenta para cada motivo uma medida da sua significacircncia estatiacutestica No

entanto o verdadeiro interesse reside na determinaccedilatildeo da significacircncia bioloacutegica dos motivos

encontrados O que estaacute em causa eacute perceber se um motivo eacute um potencial binding site Eacute

necessaacuterio testar este meacutetodo em dados reais com consensos conhecidos para se perceber se a

significacircncia estatiacutestica apresenta uma elevada correlaccedilatildeo com a significacircncia bioloacutegica

No Capiacutetulo 6 apresentamos uma discussatildeo acerca da adequaccedilatildeo do teste do 2 para a afericcedilatildeo

da significacircncia bioloacutegica dos motivos extraiacutedos pelo SMILE

42 Meacutetodo de Shuffling

Como jaacute foi referido para efectuar o caacutelculo da significacircncia estatiacutestica o SMILE recorre agrave

geraccedilatildeo de sequecircncias aleatoacuterias com certas restriccedilotildees baseadas na estatiacutestica dos dados

originais Para o efeito eacute usado um algoritmo de data shuffling [78]

O meacutetodo de shuffling permite obter um conjunto de dados aleatoacuterio com base num conjunto

de dados original garantindo a preservaccedilatildeo exacta das frequecircncias de k-mers para um dado k

O meacutetodo de geraccedilatildeo pode ser visto como um passeio aleatoacuterio sobre um multi-grafo onde os

noacutes satildeo todas as subsequecircncias de tamanho k-1 presentes na sequecircncia original e cada aresta

corresponde a uma transiccedilatildeo entre (k-1)-mers verificada nos dados No caso de k igual a 1 natildeo

eacute gerado um multi-grafo sendo feita apenas uma reordenaccedilatildeo aleatoacuteria dos nucleoacutetidos de

cada sequecircncia

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 16

A Figura 41 ilustra um exemplo de um multi-grafo gerado a partir da sequecircncia

ATTATTTATT bem como um caminho no grafo que gera a sequecircncia alternativa

TATTATTTAT

Figura 41 Multi-grafo gerado pela sequecircncia ATTATTTATT para k=4 com 2

passeios aleatoacuterios

Para que cada sequecircncia gerada seja vaacutelida eacute necessaacuterio que tenha o mesmo tamanho que a

sequecircncia original Sendo assim eacute faacutecil perceber que apenas os caminhos eulerianos garantem

a geraccedilatildeo de uma sequecircncia com estas caracteriacutesticas No SMILE este processo eacute repetido

para cada sequecircncia isoladamente

Para garantir a fiabilidade dos resultados obtidos eacute efectuado um nuacutemero elevado de

simulaccedilotildees donde satildeo extraiacutedos os valores meacutedios do quoacuterum ou da abundacircncia de cada

motivo a partir dos quais eacute calculada a significacircncia estatiacutestica no sentido do teste do 2

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 17

A Figura 42 mostra um histograma com os resultados obtidos em 100 simulaccedilotildees para um

motivo extraiacutedo do conjunto de dados da Helicobater pylori3 onde foram preservadas as

frequecircncias relativas de nucleoacutetidos (k=1) Este conjunto de dados eacute constituiacutedo por 308

sequecircncias com comprimentos que variam entre 40 e 300 nucleoacutetidos Foi efectuada uma

procura de motivos simples com tamanhos natildeo inferiores a 6 Foi admitido 1 erro e foi

exigido um quoacuterum de 6

O histograma indica a percentagem de simulaccedilotildees em que o motivo em consideraccedilatildeo ocorre

num determinado nuacutemero de sequecircncias Em particular no exemplo da Figura 42 o motivo

TTTTAA ocorre num nuacutemero de sequecircncias entre 282 e 284 em 13 das simulaccedilotildees

A seta a negro refere-se ao nuacutemero de ocorrecircncias do motivo observadas no conjunto de dados

original Quanto mais afastada estiver a seta do maacuteximo da curva maior seraacute a significacircncia

estatiacutestica Neste caso foi atribuiacuteda uma significacircncia de 593 ao motivo TTTTAA

Figura 42 Histograma das ocorrecircncias observadas do motivo TTTTAA em 100

simulaccedilotildees de shuffling do conjunto de dados da H pylori

3 Organismo procariota

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 18

O meacutetodo de data shuffling pode ser pesado do ponto de vista computacional e representa

uma grande restriccedilatildeo no desempenho da avaliaccedilatildeo de motivos Em particular a necessidade

de pesquisar todos os motivos extraiacutedos em cada conjunto de dados aleatoacuterio gerado constitui

uma seacuterio entrave ao bom desempenho deste meacutetodo

Devido aos referidos problemas de desempenho opta-se geralmente por fazer um nuacutemero de

simulaccedilotildees com geraccedilatildeo de sequecircncias aleatoacuterias inferior ao estatisticamente aconselhado o

que pode ter impacto nos resultados

Outra questatildeo pertinente coloca-se ainda quanto agrave preservaccedilatildeo dos k-mers Uma vez que o

shuffling eacute feito sobre cada sequecircncia do conjunto de dados valores elevados de k impotildeem

restriccedilotildees severas agrave variabilidade dos conjuntos de dados aleatoacuterios gerados Assim para estes

valores o teste estatiacutestico eacute inuacutetil uma vez que os conjuntos de dados gerados satildeo

praticamente iguais ao conjunto de dados original Em particular quando o tamanho dos

k-mers a preservar eacute igual ou superior ao tamanho de um motivo as suas ocorrecircncias satildeo

estritamente conservadas no conjunto de dados aleatoacuterio levando a que o valor da

significacircncia seja 0 A Figura 43 ilustra o facto de a significacircncia estatiacutestica tender

inevitavelmente para zero agrave medida que o valor de k aumenta Os valores do graacutefico foram

igualmente obtidos a partir do conjunto de dados da H pylori descrito anteriormente

Figura 43 Graacutefico da evoluccedilatildeo da significacircncia estatiacutestica com o aumento do valor

de k para um motivo de tamanho 8 extraiacutedo do conjunto de dados da H pylori

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 19

43 Meacutetodo Analiacutetico

Nesta Secccedilatildeo propotildee-se um meacutetodo analiacutetico que tem por objectivo resolver alguns dos

problemas do meacutetodo de shuffling descrito na Secccedilatildeo anterior designadamente o fraco

desempenho computacional e as excessivas restriccedilotildees devidas agrave conservaccedilatildeo estrita das

frequecircncias dos k-mers Assim pretende-se obter um meacutetodo computacionalmente eficiente

para avaliar a relevacircncia de motivos extraiacutedos pelo SMILE

Com este meacutetodo comeccedila-se por abstrair um modelo de Markov a partir do conjunto de dados

em estudo Os estados do modelo de Markov correspondem a todos os (k-1)-mers presentes no

conjunto de dados sendo a probabilidade inicial de cada estado a frequecircncia relativa

observada do (k-1)-mer correspondente

A probabilidade de transiccedilatildeo entre estados corresponde agrave razatildeo entre o nuacutemero de vezes que o

(k-1)-mer referente ao estado de destino sucede ao (k-1)-mer referente ao estado de origem

nos dados e o nuacutemero de vezes que o (k-1)-mer correspondente ao estado de origem precede

qualquer outro (k-1)-mer nas sequecircncias em anaacutelise A Figura 45 apresenta um modelo de

Markov abstraiacutedo a partir do conjunto de dados referido na Figura 44

Figura 44 Conjunto de dados exemplo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 20

CA

TC

AT

TA

TT

101

51

52

101

51

Figura 45

Exemplo de uma cadeia de Markov para k=3

Cada motivo em anaacutelise eacute processado de forma a calcular a probabilidade do motivo ser

gerado pelo modelo de Markov abstraiacutedo

Esta probabilidade eacute calculada como o produto da probabilidade do estado inicial pela

probabilidade de todas as transiccedilotildees necessaacuterias para compor o motivo Em (44) (45) e (46)

apresenta-se o calculo desta probabilidade para o motivo ATTATT segundo a cadeia de

Markov da Figura 45

)()()()()()( TTATpATTApTATTpTTATpATpATTATTp

(44)

2

111

2

1

5

2)(ATTATTp (45)

10

1)(ATTATTp (46)

No caso em que k eacute igual 1 natildeo eacute construiacuteda uma cadeia de Markov sendo a probabilidade de

ocorrecircncia do motivo o produto das frequecircncias relativas no conjunto de dados dos

nucleoacutetidos que o compotildeem

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 21

Caso sejam admitidos e erros basta considerar a soma das probabilidades de todos motivos a

uma distacircncia de Hamming natildeo superior a e ao inveacutes de se considerar apenas a probabilidade

do motivo em anaacutelise

A probabilidade assim calculada seraacute usada para determinar as entradas referentes a dados

aleatoacuterios na tabela de contingecircncia descrita na Secccedilatildeo 41 para o teste relativo agrave abundacircncia

A determinaccedilatildeo das entradas na tabela quando consideramos o teste relativo ao quoacuterum de um

motivo eacute consideravelmente mais complexa pelo que natildeo a abordaremos neste texto

Assim as entradas randomP e randomA satildeo calculadas da forma indicada em (47) e (48)

respectivamente

))1)((()( nseqsmlenmotiflenseqsnseqskmpP Markovrandom

(47)

randomrandom PlenseqsnseqsA

(48)

Nas expressotildees (47) e (48)

)( kmpMarkov refere-se agrave probabilidade calculada para o motivo m a partir de uma cadeia

de Markov extraiacuteda do conjunto de dados para um dado k

nseqs designa o nuacutemero de sequecircncias do conjunto de dados

lseqs designa o comprimento meacutedio das sequecircncias do conjunto de dados

lenmotif(m) designa o tamanho do motivo m

Agrave semelhanccedila do SMILE no caacutelculo de randomA consideramos como nuacutemero de

oportunidades de ocorrecircncia o tamanho do conjunto de dados

Este meacutetodo apresenta um desempenho computacional significativamente melhor que o

meacutetodo baseado em shuffling uma vez que natildeo necessita de efectuar vaacuterias simulaccedilotildees tendo

apenas de processar o conjunto de dados por uma uacutenica vez O caacutelculo da significacircncia

estatiacutestica de cada motivo eacute linear em relaccedilatildeo ao seu comprimento

Por outro lado o meacutetodo analiacutetico natildeo enferma das mesmas limitaccedilotildees do que o teste

estatiacutestico baseado em simulaccedilotildees permitindo o caacutelculo de significacircncia estatiacutestica para

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 22

valores elevados de k Ao considerar a estatiacutestica de todo o conjunto de dados ao inveacutes de

cada sequecircncia isoladamente este meacutetodo pode tambeacutem agrave partida modelar melhor os dados

Resta acrescentar que o meacutetodo descrito nesta Secccedilatildeo soacute permite obter significacircncias

estatiacutesticas para motivos simples A realizaccedilatildeo de caacutelculos para motivos estruturados eacute

consideravelmente mais complexa e natildeo foi abordada neste trabalho

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 23

5 Geraccedilatildeo de coacutedigo IUPAC

A realizaccedilatildeo eficiente de pesquisas de consensos em bases de dados bioloacutegicas requer uma

representaccedilatildeo compacta dos dados armazenados Neste contexto a possibilidade de

representar consensos em coacutedigo IUPAC assume uma importacircncia fundamental

O coacutedigo IUPAC eacute uma extensatildeo sobre a representaccedilatildeo de sequecircncias de DNA Uma

sequecircncia de DNA eacute constituiacuteda por nucleoacutetidos A codificaccedilatildeo IUPAC introduz siacutembolos que

representam um conjunto de possiacuteveis nucleoacutetidos para uma dada posiccedilatildeo permitindo uma

representaccedilatildeo de sequecircncias degeneradas Por exemplo uma purina (A ou G) eacute representada

pela letra R A descriccedilatildeo completa dos coacutedigos IUPAC encontra-se na Tabela 51

Coacutedigo Descriccedilatildeo A Adenina

C Citosina

G Guanina

T Timina

U Uracilo

R Purina (A ou G)

Y Pirimidina (C T ou U)

M C ou A

K T U ou G

W T U ou A

S C ou G

B C T U ou G (natildeo A)

D A T U ou G (natildeo C)

H A T U ou C (natildeo G)

V A C ou G (natildeo T natildeo U)

N Qualquer base (A C G T ou U)

Tabela 51 Coacutedigo IUPAC

A conversatildeo de um conjunto de sequecircncias de DNA para um conjunto de sequecircncias IUPAC

natildeo eacute uma tarefa trivial Para um dado conjunto de sequecircncias existem diversas codificaccedilotildees

IUPAC possiacuteveis

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 24

O problema da geraccedilatildeo de coacutedigo IUPAC consiste em encontrar o conjunto miacutenimo de

sequecircncias IUPAC que representem um dado conjunto de sequecircncias DNA

Como o objectivo proposto eacute a compressatildeo da representaccedilatildeo das sequecircncias de nucleoacutetidos eacute

desejaacutevel que a codificaccedilatildeo IUPAC seja a mais compacta possiacutevel

A abordagem utilizada foi a de reduzir o problema da compressatildeo IUPAC a um problema

conhecido a minimizaccedilatildeo de expressotildees loacutegicas multi-valor

Uma expressatildeo loacutegica multi-valor eacute uma expressatildeo loacutegica onde figuram variaacuteveis multi-valor

ou seja variaacuteveis que necessitam de mais do que um bit para serem representadas

Para representar um siacutembolo IUPAC eacute utilizada uma variaacutevel multi-valor de 4 bits Os

siacutembolos e as respectivas representaccedilotildees estatildeo na Tabela 52

Siacutembolo

IUPAC

Codificaccedilatildeo

binaacuteria

A 1000

T 0100

C 0010

G 0001

R 1001

Y 0110

S 0011

W 1100

K 0101

M 1010

B 0111

D 1101

H 1110

V 1011

N 1111

Espaccedilo 0000

Tabela 52

Codificaccedilatildeo binaacuteria dos siacutembolos IUPAC

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 25

Uma sequecircncia de nucleoacutetidos ou IUPAC eacute construiacuteda atraveacutes de um produto de termos

sendo cada termo uma variaacutevel multi-valor que representa um siacutembolo da sequecircncia Por

exemplo a sequecircncia WTA eacute representada pela expressatildeo loacutegica (1100) (0100) (1000)

Agora que foi estabelecida uma representaccedilatildeo para sequecircncias IUPAC atraveacutes de expressotildees

loacutegicas multi-valor resta perceber como da minimizaccedilatildeo destas expressotildees pode resultar o

desejado coacutedigo IUPAC

Em (51) temos um exemplo simples de minimizaccedilatildeo loacutegica

ZXZYXZYX

(51)

Eacute faacutecil verificar que X Z eacute uma expressatildeo equivalente O que se pretende para a compressatildeo

IUPAC eacute algo semelhante

Por exemplo a partir das sequecircncias ATA e TTA pretende-se a expressatildeo IUPAC WTA A

simplificaccedilatildeo das expressotildees loacutegicas eacute exemplificada sucessivamente em (52) (53) e (54)

A T A + T T A (52)

(1000) (0100) (1000) + (0100) (0100) (1000)

(A ou T) T A (53)

((1000)+(0100)) (0100) (1000)

W T A (54)

(1100) (0100) (1000)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 26

Eacute faacutecil perceber atendendo agrave escolha criteriosa da codificaccedilatildeo que da minimizaccedilatildeo de

expressotildees loacutegicas que representam sequecircncias de nucleoacutetidos resultam expressotildees loacutegicas

que representam uma codificaccedilatildeo IUPAC das sequecircncias originais

O problema inicial encontra-se agora reduzido a um problema de minimizaccedilatildeo de expressotildees

loacutegicas Este problema jaacute estaacute resolvido na aacuterea da siacutentese loacutegica Um dos programas mais

conhecidos desenvolvido para a resoluccedilatildeo deste problema eacute o programa Espresso [9] Apesar

de ser utilizado neste contexto como uma caixa preta eacute importante perceber o seu

funcionamento

No Espresso as expressotildees loacutegicas satildeo representadas num espaccedilo booleano multi-

dimensional Um exemplo eacute um espaccedilo tridimensional onde podem ser representadas

sequecircncias de tamanho 3 tal como estaacute ilustrado na Figura 51

Figura 51

Representaccedilatildeo das sequecircncias ATA (1) e TTA (2)

Neste contexto um cubo define-se como a representaccedilatildeo espacial de um produto de termos

Ou seja para o problema em questatildeo cada sequecircncia de entrada eacute um cubo e uma cobertura

corresponde a um conjunto de cubos que engloba todos os veacutertices representados no espaccedilo

Pode observar-se que a dimensatildeo do espaccedilo encontra-se directamente relacionada com o

tamanho da sequecircncia que se pretende representar Para efectuar a minimizaccedilatildeo o Espresso

procura uma cobertura miacutenima que daraacute origem ao conjunto de sequecircncias IUPAC de saiacuteda

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 27

No caso do espaccedilo da Figura 51 existe uma cobertura miacutenima constituiacuteda por um uacutenico cubo

A Figura 52 ilustra a referida cobertura

Figura 52 Representaccedilatildeo da cobertura WTA (1)

Da cobertura resulta a codificaccedilatildeo IUPAC das sequecircncias iniciais

O processo para descobrir a cobertura miacutenima eacute complexo sendo composto por um conjunto

intrincado de passos Inicialmente o conjunto de cubos originais eacute expandido de forma a

englobar o maior nuacutemero de veacutertices adjacentes De seguida os cubos redundantes satildeo

removidos e os restantes satildeo reduzidos para que cubram apenas os cubos iniciais Um cubo eacute

considerado redundante se natildeo cobrir nenhum veacutertice que natildeo esteja jaacute coberto por outro

cubo Deste processo resulta uma reduccedilatildeo contiacutenua do nuacutemero de cubos necessaacuterios para a

cobertura O processo eacute reiterado ateacute natildeo se verificarem melhorias substanciais na dimensatildeo

da cobertura obtida

Este processo eacute guiado por heuriacutesticas e eacute possiacutevel demonstrar que produz resultados

proacuteximos da soluccedilatildeo oacuteptima O processo estaacute detalhadamente descrito em [910]

De modo a automatizar o processo de codificaccedilatildeo das sequecircncias de nucleoacutetidos e

descodificaccedilatildeo das sequecircncias IUPAC foi desenvolvida uma interface para o Espresso

Assim as sequecircncias de entrada satildeo transformadas em expressotildees loacutegicas (formato binaacuterio)

seguindo a correspondecircncia referida na Tabela 52 Do mesmo modo a representaccedilatildeo da

cobertura miacutenima obtida pelo Espresso eacute descodificada e traduzida para sequecircncias IUPAC

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 28

O funcionamento da interface foi testado com recurso a um gerador aleatoacuterio de sequecircncias de

nucleoacutetidos e a um verificador O gerador produz um conjunto de sequecircncias obtidas a partir

de uma sequecircncia inicial de nucleoacutetidos O conjunto de sequecircncias gerado corresponde a

vaacuterias substituiccedilotildees aleatoacuterias na sequecircncia inicial e constitui o conjunto de entrada que vai

ser lido pela ferramenta Espresso O verificador recebe o conjunto de sequecircncias de entrada e

o resultado da operaccedilatildeo de minimizaccedilatildeo do Espresso sob a forma de sequecircncias de coacutedigos

IUPAC Deste modo ao expandir as sequecircncias IUPAC obtidas pelo Espresso atraveacutes de

uma operaccedilatildeo trivial de substituiccedilotildees sucessivas eacute possiacutevel testar a completude e adequaccedilatildeo

da representaccedilatildeo Assim diz-se que a representaccedilatildeo eacute completa se a expansatildeo incluir todas as

sequecircncias de entrada por outro lado diz-se que a representaccedilatildeo eacute adequada se natildeo incluir

nenhuma sequecircncia que natildeo esteja no conjunto inicial

Depois de verificada a completude e adequaccedilatildeo das representaccedilotildees obtidas foram feitos testes

com dados reais de modo a poder aferir o grau de compressatildeo das sequecircncias introduzidas

Assim o Espresso foi executado tendo como conjunto de entrada sequecircncias devidamente

codificadas obtidas atraveacutes de uma execuccedilatildeo do SMILE

As taxas de compressatildeo obtidas variam entre 278 e 715

O gerador de coacutedigo IUPAC encontra-se neste momento integrado na base de dados Dbyeast

[11] disponibilizando publicamente o serviccedilo de codificaccedilatildeo A Figura 53 eacute uma imagem da

interface que permite que os utilizadores da Dbyeast obtenham coacutedigo IUPAC a partir de

sequecircncias de DNA

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 29

Figura 53 Interface para geraccedilatildeo de coacutedigo IUPAC integrada na Dbyeast

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 30

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 31

6 Resultados e Conclusotildees

Neste Capiacutetulo iremos analisar os resultados obtidos tanto para dados sinteacuteticos como para

dados reais Para tal iremos comparar os valores de significacircncia estatiacutestica obtidos para os

dois tipos de dados usando tanto o meacutetodo de shuffling como o meacutetodo analiacutetico Para efectuar

esta comparaccedilatildeo eacute uacutetil referirmo-nos agrave posiccedilatildeo obtida pelos motivos em anaacutelise numa lista

ordenada por valores decrescentes de significacircncia estatiacutestica Assim sempre que

mencionarmos o valor da posiccedilatildeo de um motivo estaremos a referir-nos agrave posiccedilatildeo numa lista

assim definida

61 Resultados Obtidos com Dados Sinteacuteticos

Como jaacute foi referido a utilizaccedilatildeo de dados sinteacuteticos permite um maior controlo sobre os

motivos que estatildeo efectivamente presentes no conjunto de dados Assim iremos referir-nos

aos motivos que foram introduzidos no conjunto de dados gerado por motivos especificados

em oposiccedilatildeo aos outros motivos igualmente extraiacutedos pelo SMILE que designaremos por

motivos natildeo-especificados Nesta Secccedilatildeo iremos considerar o teste de significacircncia estatiacutestica

relativo agrave abundacircncia de forma a podermos comparar os resultados obtidos com o meacutetodo

shuffling e com o meacutetodo analiacutetico

611 Resultados do teste do 2 com o meacutetodo shuffling

Ao especificar um conjunto de dados com os mesmos motivos que estatildeo presentemente

descritos para a H pylori obtivemos para motivos simples os resultados apresentados nas

Figuras 61 e 62 O conjunto de dados sinteacutetico conteacutem 308 sequecircncias de comprimento 167

Foi efectuada uma procura de motivos simples com tamanhos compreendidos entre 6 e 8

nucleoacutetidos Natildeo foram admitidos erros e foi exigido um quoacuterum de 6 Os motivos

especificados encontram-se representados a ponteado Os restantes motivos correspondem a

motivos natildeo-especificados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 32

Figura 61 Significacircncia estatiacutestica para motivos simples de tamanho 6

Figura 62 Significacircncia estatiacutestica para motivos simples de tamanho 7

Os graacuteficos natildeo satildeo no entanto suficientes para nos dar a percepccedilatildeo da correcta classificaccedilatildeo

dos motivos uma vez que natildeo eacute possiacutevel fazer representar no graacutefico os 172 motivos

extraiacutedos A Tabela 61 indica as posiccedilotildees ocupadas pelos motivos especificados em relaccedilatildeo agrave

totalidade dos modelos para vaacuterios valores de k

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 33

TTTAAG TTTTAA TATAAT TATAATA

k=1 5 4 1 2

k=2 6 4 1 2

k=3 6 4 2 1

k=4 6 5 2 1

k=5 78 7 5 1

Tabela 61 Posiccedilotildees dos motivos especificados

Em geral os motivos especificados aparecem melhor classificados para um baixo valor de k

Agrave medida que se consideram valores de k crescentes a significacircncia estatiacutestica de todos os

motivos aproxima-se de zero pelas razotildees jaacute apontadas na Secccedilatildeo 42

Eacute comum observar-se a presenccedila de motivos natildeo-especificados com niacuteveis de significacircncia

elevados especialmente se atendermos agraves posiccedilotildees da Tabela 61

Contudo estes bons resultados natildeo se mantecircm se forem admitidos erros na procura Neste

caso embora os motivos mantenham em geral elevadas significacircncias entram em

competiccedilatildeo com os motivos a distacircncia de Hamming natildeo superior ao nuacutemero de erros

admitido Assim eacute comum observar-se uma descida significativa na tabela de posiccedilotildees

Para motivos estruturados os resultados satildeo favoraacuteveis mesmo admitindo erros como eacute

ilustrado pelo graacutefico da Figura 63 em conjugaccedilatildeo com os valores de posiccedilatildeo apresentados na

Tabela 62

Neste exemplo efectuou-se uma procura por motivos estruturados compostos por duas partes

com tamanhos entre 6 e 7 com uma distacircncia entre si variando entre 21 e 23 nucleoacutetidos

Admitiu-se 1 erro em cada parte do motivo mas apenas 1 erro na totalidade do motivo

estruturado e exigiu-se um quoacuterum de 6 Foram extraiacutedos 53 motivos O motivo

especificado encontra-se a ponteado

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 34

Figura 63 Significacircncia estatiacutestica para modelos estruturados em dados sinteacuteticos

TTTAAG_TATAAT

k=1 4

k=2 4

k=3 17

k=4 63

k=5 162

Tabela 62 Posiccedilotildees do motivo estruturado especificado

Neste exemplo foi necessaacuterio admitir a existecircncia de erros para que o motivo fosse encontrado

pelo SMILE Natildeo existem motivos sem erros que cumpram as condiccedilotildees de procura

Esta boa prestaccedilatildeo dos motivos estruturados estaacute relacionada com o facto de o shuffling

raramente preservar as distacircncias relativas de cada uma das partes que constituem o motivo

fazendo com que estes ocorram poucas vezes nas simulaccedilotildees Assim neste exemplo o motivo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 35

estruturado especificado aparece claramente destacado Estes resultados parecem sugerir que a

utilizaccedilatildeo deste teste estatiacutestico se adequa agrave avaliaccedilatildeo de modelos estruturados No entanto

nem todos os promotores exibem esta estrutura sendo necessaacuterio um meacutetodo mais geral para

fazer esta avaliaccedilatildeo

Como veremos em seguida os resultados aparentemente animadores mesmo para motivos

simples natildeo se verificam quando analisamos dados reais Esta evidecircncia estaacute relacionada com

o facto de o gerador de dados sinteacuteticos gerar dados aleatoacuterios com equiprobabilidade de

nucleoacutetidos Nos dados reais isto natildeo se verifica existindo normalmente uma clara

abundacircncia de A s e T s na regiatildeo promotora Do mesmo modo cada conjunto de dados exibe

preferecircncia por certos diacutemeros ou triacutemeros que ocorrem com muito mais frequecircncia que

outros

Esta limitaccedilatildeo podia ser mitigada pela incorporaccedilatildeo destas correlaccedilotildees na geraccedilatildeo de dados

sinteacuteticos Mas embora seja relativamente simples estabelecer uma preferecircncia por certos

nucleoacutetidos a geraccedilatildeo natildeo-equiprovaacutevel de k-mers geneacutericos constitui soacute por si um problema

complexo pelo que natildeo foi abordado neste trabalho

612 Resultados do teste do 2 com o meacutetodo analiacutetico

Os dados sinteacuteticos foram igualmente analisados recorrendo ao meacutetodo analiacutetico que como jaacute

foi referido tem a vantagem de ser mais eficiente do ponto de vista computacional e de poder

explorar valores mais elevados de k As Figura 64 e 65 apresentam a evoluccedilatildeo da

significacircncia estatiacutestica dos mesmos motivos considerados nas Figuras 62 e 63 mas

recorrendo ao meacutetodo analiacutetico

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 36

Figura 64 Significacircncia estatiacutestica de motivos simples de tamanho 6 usando o

meacutetodo analiacutetico

Figura 65 Significacircncia estatiacutestica de motivos simples de tamanho 7 usando o

meacutetodo analiacutetico

A Tabela 63 indica as posiccedilotildees dos motivos especificados para a significacircncia estatiacutestica

calculada por via do meacutetodo analiacutetico

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 37

TTTAAG TTTTAA TATAAT TATAATA

k=1 6 4 1 2

k=2 6 4 1 2

k=3 6 3 2 1

k=4 6 3 2 1

k=5 55 3 2 1

Tabela 63 Posiccedilotildees dos modelos especificados

Satildeo oacutebvias as semelhanccedilas entre os resultados apresentados na Tabela 63 e os presentes na

Tabela 61 Isto confirma a possibilidade de usar o meacutetodo analiacutetico como alternativa ao

meacutetodo de shuffling

Sabemos igualmente que no acircmbito do meacutetodo analiacutetico quando k atinge um valor igual ao

comprimento do motivo em anaacutelise a significacircncia estatiacutestica anula-se Isto tem a ver com o

facto de a probabilidade de ocorrecircncia de um k-mer ser muito proacutexima da sua frequecircncia

relativa no conjunto de dados Assim sendo os valores das entradas da tabela de contingecircncia

relativas aos dados aleatoacuterios seratildeo inevitavelmente iguais agraves dos dados reais resultando deste

facto uma significacircncia estatiacutestica nula

Por outro lado agrave medida que o k aumenta os k-mers introduzidos pelos motivos especificados

no conjunto de dados que de resto eacute aleatoacuterio vatildeo fazer com que a cadeia de Markov gerada

faccedila convergir as probabilidades de ocorrecircncia de cada motivo com a sua frequecircncia relativa

efectiva no conjunto de dados Assim assiste-se ao mesmo fenoacutemeno de convergecircncia para

zero da significacircncia estatiacutestica que assinalaacutemos para o meacutetodo shuffling

Pela anaacutelise dos resultados podemos ainda concluir que em geral um valor de k demasiado

pequeno natildeo modela suficientemente bem os dados daqui resulta que alguns motivos natildeo

especificados obtenham melhores classificaccedilotildees que motivos especificados Em suma

deveremos preferir valores de k intermeacutedios

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 38

62 Resultados Obtidos com Dados Reais

Com este teste pretendemos verificar se uma sequecircncia classificada como estatisticamente

relevante tambeacutem pode ser considerada biologicamente relevante

Para fazer o estudo da anaacutelise estatiacutestica em dados reais foram recolhidos 16 conjuntos de

dados com regiotildees promotoras correspondentes a genes da levedura Saccharomyces

cerevisiae que eacute um organismo eucariota Cada conjunto conteacutem aproximadamente 10

sequecircncias As sequecircncias contecircm consensos obtidos por via experimental e descritos na

literatura A descriccedilatildeo completa de cada conjunto de dados pode ser vista no Anexo A

Para cada conjunto de dados foi feita uma procura de motivos de tamanhos variando entre 4 e

11 nucleoacutetidos para valores de quoacuterum de 60 75 80 e 100 Foram permitidos 0 e 1

erros em ensaios sucessivos e fez-se ainda variar o valor de k entre 1 e 4

Foi posteriormente analisada a significacircncia estatiacutestica calculada pelo SMILE no que diz

respeito ao quoacuterum

Os consensos descritos obtiveram boas classificaccedilotildees para algumas das condiccedilotildees testadas

Em particular quando o quoacuterum exigido se encontra proacuteximo da frequecircncia efectiva dos

motivos nos dados e quando natildeo satildeo admitidos erros Os resultados satildeo tambeacutem melhores

para motivos de tamanho superior a 7 Em suma obtecircm-se bons resultados quando as

condiccedilotildees favorecem os motivos com as caracteriacutesticas dos consensos descritos

Estes resultados natildeo satildeo muito animadores porque para os atingir eacute necessaacuterio um

conhecimento preacutevio da frequecircncia e tamanho dos motivos Ao considerar a generalidade dos

ensaios efectuados verifica-se que as classificaccedilotildees satildeo muito baixas com baixas

significacircncias estatiacutesticas e com valores de posiccedilatildeo frequentemente abaixo dos primeiros

1 000 motivos No Anexo A apresentamos os resultados obtidos com estes ensaios

A par desta anaacutelise foi considerada a significacircncia estatiacutestica obtida a respeito da abundacircncia

Deste modo eacute possiacutevel estabelecer uma comparaccedilatildeo directa entre o meacutetodo de shuffling e o

meacutetodo analiacutetico para o caacutelculo desta meacutetrica

De seguida apresentamos os resultados desta anaacutelise

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 39

621 Resultados do teste do 2 com o meacutetodo shuffling

De modo geral os resultados para o teste estatiacutestico referente agrave abundacircncia representam uma

melhoria em relaccedilatildeo ao teste referente ao quoacuterum

Comeccedilamos por apresentar os graacuteficos referentes a um conjunto de dados cujos motivos

permanecem mal classificados isto eacute o motivo eacute biologicamente relevante mas natildeo eacute

considerado estatisticamente relevante O conjunto de dados em causa o MSN4 tem um

motivo muito abundante (CCCCT) condicionando a estatiacutestica dos dados Isto conjugado

com o seu pequeno tamanho (5 nucleoacutetidos) resulta na inevitaacutevel baixa significacircncia

estatiacutestica uma vez que aparece sistematicamente na geraccedilatildeo aleatoacuteria de sequecircncias feita em

cada simulaccedilatildeo As Figuras 66 e 67 ilustram a evoluccedilatildeo da significacircncia estatiacutestica e da

posiccedilatildeo do referido motivo considerando erro 0 e 1 respectivamente para um quoacuterum de

60

Figura 66 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 0 erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 40

Figura 67 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 1 erro

Os resultados da classificaccedilatildeo satildeo claramente maus para um consenso descrito A estranha

subida para k igual a 4 estaacute relacionada com uma pequena flutuaccedilatildeo sem significado uma vez

que estamos a considerar valores de significacircncia estatiacutestica muito baixos A aparente melhor

classificaccedilatildeo quando consideramos erro 0 estaacute relacionada com o facto de que quando natildeo se

admitem erros satildeo consequentemente extraiacutedos menos motivos Em particular com erro 0 satildeo

extraiacutedos 1 316 motivos enquanto que com erro 1 satildeo extraiacutedos 35 258 motivos

De seguida apresentamos os resultados relativos a um outro conjunto de dados (STE12) que

evidencia resultados mais favoraacuteveis para erro 0 As Figuras 68 e 69 apresentam a evoluccedilatildeo

da significacircncia estatiacutestica do motivo descrito (TGAAACA) para 0 e 1 erros

respectivamente com um quoacuterum de 100

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 41

Figura 68 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 0 erros

Figura 69 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 1 erro

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 42

Resta referir que para este conjunto de dados foram extraiacutedos 267 motivos com erro 0 e

7 705 motivos para erro 1

O facto de os motivos serem abundantes em relaccedilatildeo ao nuacutemero de sequecircncias consideradas

faz com que o teste relativo agrave abundacircncia tenha um poder de resoluccedilatildeo consideravelmente

maior do que o teste relativo ao quoacuterum Por esta razatildeo deveremos sempre preferir o primeiro

em casos semelhantes

Por outro lado os resultados obtidos continuam a pocircr em causa a generalidade do meacutetodo uma

vez que eacute difiacutecil identificar as situaccedilotildees em que este produz bons resultados sobretudo quando

somos confrontados com um desconhecimento a priori do conjunto de dados

622 Resultados do teste do 2 com o meacutetodo analiacutetico

Resta-nos comparar os resultados obtidos na subsecccedilatildeo anterior com os obtidos pela via

analiacutetica Nos graacuteficos apresentados nesta subsecccedilatildeo que representam a evoluccedilatildeo da

significacircncia estatiacutestica com o crescimento do tamanho dos k-mers considerados estatildeo

tambeacutem assinaladas as posiccedilotildees ocupadas pelos motivos

As Figuras 610 e 611 apresentam os resultados referentes ao MSN4

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 43

Figura 610 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 0 erros

Figura 611 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 1 erro

Os resultados para o MSN4 natildeo sofrem alteraccedilotildees assinalaacuteveis em relaccedilatildeo ao meacutetodo anterior

Novamente as caracteriacutesticas do conjunto de dados limitam a possibilidade de evidenciar este

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 44

motivo por via deste teste estatiacutestico o que eacute tanto mais grave quanto o facto de este ser um

dos motivos cuja significacircncia bioloacutegica se encontra melhor estabelecida

As Figuras 612 e 613 apresentam os resultados referentes ao conjunto de dados STE12

Figura 612 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 0 erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 45

Figura 613 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 1 erro

Os dados apresentados natildeo evidenciam melhorias assinalaacuteveis em relaccedilatildeo aos resultados

obtidos por via de shuffling excepto a ocorrecircncia de melhorias ocasionais da classificaccedilatildeo

quando natildeo se admitem erros Estas diferenccedilas podem ser atribuiacutedas ao facto de o meacutetodo

analiacutetico natildeo conservar estritamente os k-mers e de analisar o conjunto de dados na sua

totalidade por oposiccedilatildeo ao shuffling que considera cada sequecircncia isoladamente

No Anexo B apresentamos a totalidade dos resultados desta anaacutelise comparativa No Anexo C

eacute apresentada uma listagem dos resultados do caacutelculo do valor de significacircncia para valores de

k ateacute ao tamanho dos consensos descritos

A grande vantagem deste meacutetodo eacute sem duacutevida o incomparaacutevel ganho a niacutevel de

desempenho computacional Para ilustrar esta afirmaccedilatildeo basta dizer que o caacutelculo da

significacircncia estatiacutestica para todos os conjuntos de dados considerados demorou com o

meacutetodo de shuffling mais de 30 horas de processamento O meacutetodo analiacutetico realizou todos os

caacutelculos em menos de 30 minutos

No entanto os resultados voltam a pocircr em causa a adequaccedilatildeo do teste estatiacutestico do 2 para

aferir a significacircncia bioloacutegica pela dificuldade de sintetizar um meacutetodo geneacuterico para

destacar motivos relevantes de entre os extraiacutedos pelo SMILE

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 46

63 Conclusotildees

Ao considerar os resultados apresentados eacute inevitaacutevel concluir que a significacircncia atribuiacuteda

pelo teste estatiacutestico do 2 aos motivos extraiacutedos pelo SMILE natildeo reflecte a sua significacircncia

bioloacutegica

A dificuldade em distinguir motivos relevantes da grande quantidade de motivos extraiacutedos

potildee em causa a utilidade praacutetica do algoritmo na generalidade dos casos

Para aleacutem desta questatildeo outras limitaccedilotildees tecircm sido apontadas por bioacutelogos designadamente

o facto de o algoritmo natildeo conseguir pesquisar motivos na cadeia de DNA inversa onde os

factores de transcriccedilatildeo podem igualmente ligar-se e o facto de a forma como o SMILE

modela a ocorrecircncia de erros nos motivos natildeo ser compatiacutevel com a necessidade de poder

indicar posiccedilotildees especiacuteficas onde erros satildeo admitidos

No entanto o SMILE continua a exibir resultados interessantes para motivos estruturados o

que constitui sem duacutevida a mais-valia fundamental do algoritmo Tudo indica que o meacutetodo

analiacutetico pode ser igualmente adaptado para calcular a significacircncia de motivos estruturados

Parece-nos claro que uma eficaz extracccedilatildeo de motivos relevantes passaraacute necessariamente

pela conjugaccedilatildeo com outros dados para aleacutem da simples sequecircncia de nucleoacutetidos Em

particular a disponibilidade de informaccedilatildeo acerca de co-regulaccedilatildeo de genes poderaacute guiar a

extracccedilatildeo de motivos permitindo exigir um quoacuterum mais alto dada a confianccedila na existecircncia

de factores de transcriccedilatildeo comuns

Por outro lado a utilizaccedilatildeo de modelos probabiliacutesticos em vez de meras colecccedilotildees de motivos

poderaacute ser uma abordagem mais natural para o problema permitindo simultaneamente uma

melhor modelaccedilatildeo da realidade bioloacutegica ao indicar uma probabilidade de ocorrecircncia de cada

nucleoacutetido para uma dada posiccedilatildeo no modelo O nuacutemero de modelos extraiacutedos seria tambeacutem

francamente reduzido uma vez que um uacutenico modelo probabiliacutestico pode representar com

expressividade acrescida um grande nuacutemero de motivos

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 47

7 Referecircncias

[1] A Vanet L Marsan e M F Sagot Promoter sequence and algorithmical methods for

identifying them Research in Microbiology 150 pp 779-799 1999

[2] JD Watson FH Crick Molecular structure of nucleic acids a structure for deoxyribose

nucleic acid Nature Number 4356 1953

[3] T Werner Models for Prediction and Recognition of Eukaryotic Promoters Mammalian

Genome Vol 10 pp 168-175 1999

[4] L Marsan e M F Sagot Algorithms for extracting structured motifs using a suffix tree

with an application to promoter and regulatory site consensus identication Journal of

Computational Biology 7 pp 345-362 2000

[5] L Marsan Infeacuterence de motifs structureacutes algorithmes et outils appliqueacutes agrave la deacutetection de

sites de fixation dans des seacutequences geacutenomiques PhD Thesis Universiteacute de Marne-la-Valleacutee

2002

[6] B Flannery S Teukolsky W Press e W Vetterling Numerical Recipes in C++

Cambridge University Press 2002

[7] S Altschul e B Erickson Significance of Nucleotide Sequence Alignments A method of

Random Sequence Permutation That Preserves Dinucleotide and Codon Usage Molecular

Biology Evolution 2 pp 526-538 1985

[8] D Kandel Y Matias R Unger e P Winkler Shuffling Biological Sequences Discrete

Appl Math 71 pp 171-185 1996

[9] R Rudell e A Sangiovanni-Vincentelli Multiple-Valued Minimization for PLA

Optimization IEEE Transactions on Computer-Aided Design of Integrated Circuits and

Systems Vol CAD-6 Nordm 5 pp 727-751 September 1987

[10] R Brayton G Hachtel C McMullen e A Sangiovanni-Vincentelli Logic Minimization

Algorithms for VLSI Synthesis Kluwer Academic Publishers 1985

[11] P Monteiro Dbyeast [httpdescartesinesc-idpt~ptgmdb] 2004

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 48

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 49

Anexo A

Resultados do Caacutelculo da Significacircncia Estatiacutestica referente ao Quoacuterum

para Conjuntos de Dados de Saccharomyces cerevisiae

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados

A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos os resultados para os motivos procurados em relaccedilatildeo a cada valor dos paracircmetros

Nota o campo posicao refere-se agrave posiccedilatildeo ocupada pelo motivo na tabela com a estatiacutestica das sequecircncias com pelo menos uma ocorrecircncia do motivo ordenada por chi2

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

314 motivos encontrados Quorum = 80

670 motivos encontrados Quorum = 75

670 motivos encontrados Quorum = 60

1306 motivos encontrados Erro = 1

Quorum = 100 8636 motivos encontrados k = 1 posicao = 2 chi2 = 98 (ACCTTAAAGGT) k = 2 posicao = 2 chi2 = 976 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 965 (ACCTTAAAGGT) k = 4 posicao = 2 chi2 = 984 (ACCTTAAAGGT)

Quorum = 80 17722 motivos encontrados k = 1 posicao = 2 chi2 = 651 (ACCCTAAAGGT) k = 1 posicao = 4 chi2 = 965 (ACCTTAAAGGT) k = 2 posicao = 2 chi2 = 659 (ACCCTAAAGGT) k = 2 posicao = 8 chi2 = 965 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 667 (ACCCTAAAGGT) k = 3 posicao = 4 chi2 = 969 (ACCTTAAAGGT) k = 4 posicao = 2 chi2 = 659 (ACCCTAAAGGT) k = 4 posicao = 3 chi2 = 984 (ACCTTAAAGGT)

Quorum = 75 17722 motivos encontrados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 50

k = 1 posicao = 4 chi2 = 651 (ACCCTAAAGGT) k = 1 posicao = 2 chi2 = 988 (ACCTTAAAGGT) k = 2 posicao = 3 chi2 = 659 (ACCCTAAAGGT) k = 2 posicao = 2 chi2 = 992 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 655 (ACCCTAAAGGT) k = 3 posicao = 3 chi2 = 976 (ACCTTAAAGGT) k = 4 posicao = 3 chi2 = 655 (ACCCTAAAGGT) k = 4 posicao = 5 chi2 = 984 (ACCTTAAAGGT)

Quorum = 60 34907 motivos encontrados k = 1 posicao = 11 chi2 = 655 (ACCCTAAAGGT) k = 1 posicao = 5 chi2 = 996 (ACCTTAAAGGT) k = 1 posicao = 13 chi2 = 421 (ACCTTGAAGGT) k = 2 posicao = 15 chi2 = 647 (ACCCTAAAGGT) k = 2 posicao = 12 chi2 = 969 (ACCTTAAAGGT) k = 2 posicao = 7 chi2 = 421 (ACCTTGAAGGT) k = 3 posicao = 9 chi2 = 655 (ACCCTAAAGGT) k = 3 posicao = 8 chi2 = 984 (ACCTTAAAGGT) k = 3 posicao = 27 chi2 = 414 (ACCTTGAAGGT) k = 4 posicao = 10 chi2 = 651 (ACCCTAAAGGT) k = 4 posicao = 5 chi2 = 984 (ACCTTAAAGGT) k = 4 posicao = 40 chi2 = 407 (ACCTTGAAGGT)

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

161 motivos encontrados Quorum = 80

381 motivos encontrados Quorum = 75

502 motivos encontrados Quorum = 60

826 motivos encontrados k = 1 posicao = 43 chi2 = 33 (CCCCT) k = 2 posicao = 42 chi2 = 202 (CCCCT) k = 3 posicao = 48 chi2 = 142 (CCCCT) k = 4 posicao = 122 chi2 = 028 (CCCCT)

Erro = 1 Quorum = 100

4877 motivos encontrados k = 1 posicao = 3089 chi2 = 002 (CCCCT) k = 2 posicao = 2781 chi2 = 005 (CCCCT) k = 3 posicao = 3148 chi2 = 002 (CCCCT) k = 4 posicao = 2516 chi2 = 007 (CCCCT)

Quorum = 80 10050 motivos encontrados k = 1 posicao = 8449 chi2 = 0 (CCCCT) k = 2 posicao = 5470 chi2 = 009 (CCCCT) k = 3 posicao = 5867 chi2 = 004 (CCCCT) k = 4 posicao = 5131 chi2 = 009 (CCCCT)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 51

Quorum = 75

13080 motivos encontrados k = 1 posicao = 7539 chi2 = 004 (CCCCT) k = 2 posicao = 8129 chi2 = 002 (CCCCT) k = 3 posicao = 7900 chi2 = 003 (CCCCT) k = 4 posicao = 7385 chi2 = 005 (CCCCT)

Quorum = 60 21544 motivos encontrados k = 1 posicao = 12673 chi2 = 004 (CCCCT) k = 2 posicao = 11871 chi2 = 008 (CCCCT) k = 3 posicao = 12731 chi2 = 004 (CCCCT) k = 4 posicao = 11754 chi2 = 007 (CCCCT)

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

326 motivos encontrados Quorum = 80

682 motivos encontrados k = 1 posicao = 169 chi2 = 109 (CCCCT) k = 2 posicao = 238 chi2 = 073 (CCCCT) k = 3 posicao = 223 chi2 = 057 (CCCCT) k = 4 posicao = 331 chi2 = 01 (CCCCT)

Quorum = 75 682 motivos encontrados k = 1 posicao = 136 chi2 = 131 (CCCCT) k = 2 posicao = 178 chi2 = 085 (CCCCT) k = 3 posicao = 245 chi2 = 042 (CCCCT) k = 4 posicao = 331 chi2 = 01 (CCCCT)

Quorum = 60 1316 motivos encontrados k = 1 posicao = 303 chi2 = 17 (CCCCT) k = 2 posicao = 505 chi2 = 075 (CCCCT) k = 3 posicao = 457 chi2 = 059 (CCCCT) k = 4 posicao = 613 chi2 = 014 (CCCCT)

Erro = 1 Quorum = 100

9022 motivos encontrados k = 1 posicao = 7955 chi2 = 0 (CCCCT) k = 2 posicao = 7901 chi2 = 0 (CCCCT) k = 3 posicao = 7846 chi2 = 0 (CCCCT) k = 4 posicao = 7711 chi2 = 0 (CCCCT)

Quorum = 80 17951 motivos encontrados k = 1 posicao = 16310 chi2 = 0 (CCCCT) k = 2 posicao = 16251 chi2 = 0 (CCCCT) k = 3 posicao = 16207 chi2 = 0 (CCCCT) k = 4 posicao = 16091 chi2 = 0 (CCCCT)

Quorum = 75 17951 motivos encontrados k = 1 posicao = 16308 chi2 = 0 (CCCCT)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 52

k = 2 posicao = 16242 chi2 = 0 (CCCCT) k = 3 posicao = 16212 chi2 = 0 (CCCCT) k = 4 posicao = 16063 chi2 = 0 (CCCCT)

Quorum = 60 35258 motivos encontrados k = 1 posicao = 32818 chi2 = 0 (CCCCT) k = 2 posicao = 32757 chi2 = 0 (CCCCT) k = 3 posicao = 32822 chi2 = 0 (CCCCT) k = 4 posicao = 32656 chi2 = 0 (CCCCT)

5_1_gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

220 motivos encontrados Quorum = 80

517 motivos encontrados k = 1 posicao = 52 chi2 = 254 (CTTCC) k = 2 posicao = 87 chi2 = 146 (CTTCC) k = 3 posicao = 164 chi2 = 067 (CTTCC) k = 4 posicao = 236 chi2 = 004 (CTTCC)

Quorum = 75 517 motivos encontrados k = 1 posicao = 77 chi2 = 246 (CTTCC) k = 2 posicao = 83 chi2 = 152 (CTTCC) k = 3 posicao = 99 chi2 = 098 (CTTCC) k = 4 posicao = 241 chi2 = 003 (CTTCC)

Quorum = 60 963 motivos encontrados k = 1 posicao = 625 chi2 = 003 (CATCC) k = 1 posicao = 128 chi2 = 284 (CTTCC) k = 2 posicao = 644 chi2 = 003 (CATCC) k = 2 posicao = 170 chi2 = 177 (CTTCC) k = 3 posicao = 490 chi2 = 015 (CATCC) k = 3 posicao = 256 chi2 = 107 (CTTCC) k = 4 posicao = 522 chi2 = 0 (CATCC) k = 4 posicao = 497 chi2 = 004 (CTTCC)

Erro = 1 Quorum = 100

6121 motivos encontrados k = 1 posicao = 5072 chi2 = 0 (CATCC) k = 1 posicao = 5313 chi2 = 0 (CTTCC) k = 2 posicao = 5049 chi2 = 0 (CATCC) k = 2 posicao = 5287 chi2 = 0 (CTTCC) k = 3 posicao = 4984 chi2 = 0 (CATCC) k = 3 posicao = 5236 chi2 = 0 (CTTCC) k = 4 posicao = 4894 chi2 = 0 (CATCC) k = 4 posicao = 5167 chi2 = 0 (CTTCC)

Quorum = 80 13644 motivos encontrados k = 1 posicao = 11732 chi2 = 0 (CATCC) k = 1 posicao = 11981 chi2 = 0 (CTTCC)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 53

k = 2 posicao = 11792 chi2 = 0 (CATCC) k = 2 posicao = 12044 chi2 = 0 (CTTCC) k = 3 posicao = 11736 chi2 = 0 (CATCC) k = 3 posicao = 11985 chi2 = 0 (CTTCC) k = 4 posicao = 11644 chi2 = 0 (CATCC) k = 4 posicao = 11917 chi2 = 0 (CTTCC)

Quorum = 75 13644 motivos encontrados k = 1 posicao = 11712 chi2 = 0 (CATCC) k = 1 posicao = 11966 chi2 = 0 (CTTCC) k = 2 posicao = 11791 chi2 = 0 (CATCC) k = 2 posicao = 12027 chi2 = 0 (CTTCC) k = 3 posicao = 11729 chi2 = 0 (CATCC) k = 3 posicao = 11981 chi2 = 0 (CTTCC) k = 4 posicao = 11649 chi2 = 0 (CATCC) k = 4 posicao = 11920 chi2 = 0 (CTTCC)

Quorum = 60 25804 motivos encontrados k = 1 posicao = 22732 chi2 = 0 (CATCC) k = 1 posicao = 22973 chi2 = 0 (CTTCC) k = 2 posicao = 22881 chi2 = 0 (CATCC) k = 2 posicao = 23121 chi2 = 0 (CTTCC) k = 3 posicao = 22916 chi2 = 0 (CATCC) k = 3 posicao = 23164 chi2 = 0 (CTTCC) k = 4 posicao = 22864 chi2 = 0 (CATCC) k = 4 posicao = 23141 chi2 = 0 (CTTCC)

6_0_MIG1

Motivo GCGGGG Frequecircncia 16 ~167 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

290 motivos encontrados Quorum = 80

556 motivos encontrados Quorum = 75

556 motivos encontrados Quorum = 60

927 motivos encontrados Erro = 1

Quorum = 100 7881 motivos encontrados k = 1 posicao = 650 chi2 = 252 (GCGGGG) k = 2 posicao = 773 chi2 = 173 (GCGGGG) k = 3 posicao = 1341 chi2 = 101 (GCGGGG) k = 4 posicao = 4437 chi2 = 052 (GCGGGG)

Quorum = 80 14601 motivos encontrados k = 1 posicao = 1895 chi2 = 249 (GCGGGG) k = 2 posicao = 2045 chi2 = 161 (GCGGGG) k = 3 posicao = 3284 chi2 = 11 (GCGGGG) k = 4 posicao = 7272 chi2 = 05 (GCGGGG)

Quorum = 75

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 54

14601 motivos encontrados k = 1 posicao = 2121 chi2 = 234 (GCGGGG) k = 2 posicao = 2604 chi2 = 153 (GCGGGG) k = 3 posicao = 3778 chi2 = 089 (GCGGGG) k = 4 posicao = 8057 chi2 = 047 (GCGGGG)

Quorum = 60 25117 motivos encontrados k = 1 posicao = 4371 chi2 = 234 (GCGGGG) k = 2 posicao = 5452 chi2 = 153 (GCGGGG) k = 3 posicao = 7361 chi2 = 116 (GCGGGG) k = 4 posicao = 12643 chi2 = 051 (GCGGGG)

6_0_UME6

Motivo GCCGCC Frequecircncia 37 ~4286 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

257 motivos encontrados Quorum = 80

454 motivos encontrados Quorum = 75

454 motivos encontrados Quorum = 60

748 motivos encontrados Erro = 1

Quorum = 100 7186 motivos encontrados

Quorum = 80 12323 motivos encontrados

Quorum = 75 12323 motivos encontrados

Quorum = 60 19726 motivos encontrados k = 1 posicao = 13214 chi2 = 002 (GCCGCC) k = 2 posicao = 14628 chi2 = 0 (GCCGCC) k = 3 posicao = 14684 chi2 = 0 (GCCGCC) k = 4 posicao = 15398 chi2 = 002 (GCCGCC)

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

173 motivos encontrados Quorum = 80

403 motivos encontrados Quorum = 75

530 motivos encontrados k = 1 posicao = 6 chi2 = 755 (GATAAG)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 55

k = 2 posicao = 3 chi2 = 892 (GATAAG) k = 3 posicao = 3 chi2 = 725 (GATAAG) k = 4 posicao = 12 chi2 = 457 (GATAAG)

Quorum = 60 836 motivos encontrados k = 1 posicao = 24 chi2 = 771 (GATAAG) k = 2 posicao = 7 chi2 = 94 (GATAAG) k = 3 posicao = 12 chi2 = 719 (GATAAG) k = 4 posicao = 25 chi2 = 48 (GATAAG)

Erro = 1 Quorum = 100

5360 motivos encontrados k = 1 posicao = 2690 chi2 = 012 (GATAAG) k = 1 posicao = 3118 chi2 = 008 (GATTAG) k = 2 posicao = 2917 chi2 = 01 (GATAAG) k = 2 posicao = 2424 chi2 = 02 (GATTAG) k = 3 posicao = 3096 chi2 = 007 (GATAAG) k = 3 posicao = 1982 chi2 = 033 (GATTAG) k = 4 posicao = 3004 chi2 = 007 (GATAAG) k = 4 posicao = 2767 chi2 = 01 (GATTAG)

Quorum = 80 10819 motivos encontrados k = 1 posicao = 6729 chi2 = 011 (GATAAG) k = 1 posicao = 6816 chi2 = 009 (GATTAG) k = 2 posicao = 6240 chi2 = 013 (GATAAG) k = 2 posicao = 6446 chi2 = 011 (GATTAG) k = 3 posicao = 7301 chi2 = 004 (GATAAG) k = 3 posicao = 4235 chi2 = 053 (GATTAG) k = 4 posicao = 7045 chi2 = 004 (GATAAG) k = 4 posicao = 6317 chi2 = 012 (GATTAG)

Quorum = 75 13889 motivos encontrados k = 1 posicao = 9061 chi2 = 007 (GATAAG) k = 1 posicao = 8672 chi2 = 01 (GATTAG) k = 2 posicao = 8095 chi2 = 016 (GATAAG) k = 2 posicao = 8763 chi2 = 01 (GATTAG) k = 3 posicao = 8965 chi2 = 008 (GATAAG) k = 3 posicao = 6907 chi2 = 036 (GATTAG) k = 4 posicao = 8966 chi2 = 006 (GATAAG) k = 4 posicao = 8323 chi2 = 011 (GATTAG)

Quorum = 60 22209 motivos encontrados k = 1 posicao = 14904 chi2 = 008 (GATAAG) k = 1 posicao = 14384 chi2 = 013 (GATTAG) k = 2 posicao = 13923 chi2 = 015 (GATAAG) k = 2 posicao = 13902 chi2 = 015 (GATTAG) k = 3 posicao = 14932 chi2 = 008 (GATAAG) k = 3 posicao = 11534 chi2 = 046 (GATTAG) k = 4 posicao = 14680 chi2 = 007 (GATAAG) k = 4 posicao = 13878 chi2 = 017 (GATTAG)

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 56

Erro = 0 Quorum = 100

128 motivos encontrados Quorum = 80

372 motivos encontrados Quorum = 75

454 motivos encontrados Quorum = 60

785 motivos encontrados Erro = 1

Quorum = 100 4212 motivos encontrados k = 1 posicao = 326 chi2 = 14 (CACCCA) k = 2 posicao = 594 chi2 = 108 (CACCCA) k = 3 posicao = 244 chi2 = 107 (CACCCA) k = 4 posicao = 1210 chi2 = 038 (CACCCA)

Quorum = 80 9800 motivos encontrados k = 1 posicao = 1302 chi2 = 157 (CACCCA) k = 1 posicao = 2061 chi2 = 087 (CACCCG) k = 2 posicao = 2058 chi2 = 117 (CACCCA) k = 2 posicao = 2522 chi2 = 059 (CACCCG) k = 3 posicao = 1624 chi2 = 106 (CACCCA) k = 3 posicao = 2994 chi2 = 045 (CACCCG) k = 4 posicao = 2703 chi2 = 05 (CACCCA) k = 4 posicao = 3926 chi2 = 011 (CACCCG)

Quorum = 75 11933 motivos encontrados k = 1 posicao = 1951 chi2 = 145 (CACCCA) k = 1 posicao = 2903 chi2 = 081 (CACCCG) k = 2 posicao = 2227 chi2 = 116 (CACCCA) k = 2 posicao = 3417 chi2 = 062 (CACCCG) k = 3 posicao = 2137 chi2 = 108 (CACCCA) k = 3 posicao = 3426 chi2 = 041 (CACCCG) k = 4 posicao = 4518 chi2 = 031 (CACCCA) k = 4 posicao = 4805 chi2 = 012 (CACCCG)

Quorum = 60 20531 motivos encontrados k = 1 posicao = 5137 chi2 = 144 (CACCCA) k = 1 posicao = 5556 chi2 = 073 (CACCCG) k = 2 posicao = 4865 chi2 = 113 (CACCCA) k = 2 posicao = 5737 chi2 = 062 (CACCCG) k = 3 posicao = 4491 chi2 = 097 (CACCCA) k = 3 posicao = 5797 chi2 = 052 (CACCCG) k = 4 posicao = 7825 chi2 = 041 (CACCCA) k = 4 posicao = 7275 chi2 = 018 (CACCCG)

7_0_REB1

Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

211 motivos encontrados k = 1 posicao = 4 chi2 = 965 (TTACCC)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 57

k = 2 posicao = 4 chi2 = 105 (TTACCC) k = 3 posicao = 4 chi2 = 1075 (TTACCC) k = 4 posicao = 4 chi2 = 755 (TTACCC)

Quorum = 80 405 motivos encontrados k = 1 posicao = 4 chi2 = 932 (TTACCC) k = 2 posicao = 4 chi2 = 1083 (TTACCC) k = 3 posicao = 4 chi2 = 1106 (TTACCC) k = 4 posicao = 4 chi2 = 723 (TTACCC)

Quorum = 75 605 motivos encontrados k = 1 posicao = 6 chi2 = 947 (TTACCC) k = 2 posicao = 5 chi2 = 999 (TTACCC) k = 3 posicao = 5 chi2 = 1098 (TTACCC) k = 4 posicao = 5 chi2 = 808 (TTACCC)

Quorum = 60 907 motivos encontrados k = 1 posicao = 9 chi2 = 1007 (TTACCC) k = 2 posicao = 6 chi2 = 1089 (TTACCC) k = 3 posicao = 6 chi2 = 1081 (TTACCC) k = 4 posicao = 6 chi2 = 788 (TTACCC)

Erro = 1 Quorum = 100

6121 motivos encontrados k = 1 posicao = 4617 chi2 = 013 (TTACCC) k = 2 posicao = 4454 chi2 = 016 (TTACCC) k = 3 posicao = 4730 chi2 = 012 (TTACCC) k = 4 posicao = 5483 chi2 = 004 (TTACCC)

Quorum = 80 10337 motivos encontrados k = 1 posicao = 7525 chi2 = 008 (TTACCC) k = 2 posicao = 7267 chi2 = 01 (TTACCC) k = 3 posicao = 7129 chi2 = 012 (TTACCC) k = 4 posicao = 7469 chi2 = 009 (TTACCC)

Quorum = 75 15777 motivos encontrados k = 1 posicao = 10287 chi2 = 012 (TTACCC) k = 2 posicao = 10740 chi2 = 01 (TTACCC) k = 3 posicao = 9696 chi2 = 016 (TTACCC) k = 4 posicao = 10789 chi2 = 008 (TTACCC)

Quorum = 60 23856 motivos encontrados k = 1 posicao = 15646 chi2 = 01 (TTACCC) k = 2 posicao = 15437 chi2 = 012 (TTACCC) k = 3 posicao = 13932 chi2 = 022 (TTACCC) k = 4 posicao = 15597 chi2 = 009 (TTACCC)

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

235 motivos encontrados Quorum = 80

475 motivos encontrados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 58

k = 1 posicao = 3 chi2 = 945 (TGCCAAG) k = 2 posicao = 2 chi2 = 92 (TGCCAAG) k = 3 posicao = 2 chi2 = 892 (TGCCAAG) k = 4 posicao = 3 chi2 = 7 (TGCCAAG)

Quorum = 75 475 motivos encontrados k = 1 posicao = 2 chi2 = 924 (TGCCAAG) k = 2 posicao = 3 chi2 = 886 (TGCCAAG) k = 3 posicao = 3 chi2 = 869 (TGCCAAG) k = 4 posicao = 2 chi2 = 678 (TGCCAAG)

Quorum = 60 785 motivos encontrados k = 1 posicao = 5 chi2 = 952 (TGCCAAG) k = 2 posicao = 4 chi2 = 934 (TGCCAAG) k = 3 posicao = 4 chi2 = 869 (TGCCAAG) k = 4 posicao = 6 chi2 = 67 (TGCCAAG)

Erro = 1 Quorum = 100

7028 motivos encontrados k = 1 posicao = 436 chi2 = 321 (TGCCAAG) k = 2 posicao = 551 chi2 = 217 (TGCCAAG) k = 3 posicao = 940 chi2 = 223 (TGCCAAG) k = 4 posicao = 1492 chi2 = 095 (TGCCAAG)

Quorum = 80 12574 motivos encontrados k = 1 posicao = 1703 chi2 = 325 (TGCCAAG) k = 2 posicao = 2035 chi2 = 244 (TGCCAAG) k = 3 posicao = 1678 chi2 = 217 (TGCCAAG) k = 4 posicao = 3298 chi2 = 093 (TGCCAAG)

Quorum = 75 12574 motivos encontrados k = 1 posicao = 1739 chi2 = 333 (TGCCAAG) k = 2 posicao = 1717 chi2 = 216 (TGCCAAG) k = 3 posicao = 1609 chi2 = 212 (TGCCAAG) k = 4 posicao = 3574 chi2 = 075 (TGCCAAG)

Quorum = 60 20257 motivos encontrados k = 1 posicao = 3598 chi2 = 304 (TGCCAAG) k = 2 posicao = 3664 chi2 = 211 (TGCCAAG) k = 3 posicao = 3206 chi2 = 213 (TGCCAAG) k = 4 posicao = 4753 chi2 = 115 (TGCCAAG)

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

267 motivos encontrados k = 1 posicao = 4 chi2 = 998 (TGAAACA) k = 2 posicao = 5 chi2 = 908 (TGAAACA) k = 3 posicao = 5 chi2 = 875 (TGAAACA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 59

k = 4 posicao = 4 chi2 = 743 (TGAAACA)

Quorum = 80 529 motivos encontrados k = 1 posicao = 4 chi2 = 969 (TGAAACA) k = 2 posicao = 6 chi2 = 84 (TGAAACA) k = 3 posicao = 5 chi2 = 845 (TGAAACA) k = 4 posicao = 5 chi2 = 702 (TGAAACA)

Quorum = 75 529 motivos encontrados k = 1 posicao = 6 chi2 = 933 (TGAAACA) k = 2 posicao = 5 chi2 = 866 (TGAAACA) k = 3 posicao = 5 chi2 = 86 (TGAAACA) k = 4 posicao = 5 chi2 = 717 (TGAAACA)

Quorum = 60 916 motivos encontrados k = 1 posicao = 12 chi2 = 956 (TGAAACA) k = 2 posicao = 13 chi2 = 893 (TGAAACA) k = 3 posicao = 16 chi2 = 84 (TGAAACA) k = 4 posicao = 18 chi2 = 715 (TGAAACA)

Erro = 1 Quorum = 100

7705 motivos encontrados k = 1 posicao = 4203 chi2 = 055 (TGAAACA) k = 2 posicao = 5562 chi2 = 02 (TGAAACA) k = 3 posicao = 5481 chi2 = 021 (TGAAACA) k = 4 posicao = 6219 chi2 = 012 (TGAAACA)

Quorum = 80 14161 motivos encontrados k = 1 posicao = 8113 chi2 = 052 (TGAAACA) k = 2 posicao = 9261 chi2 = 022 (TGAAACA) k = 3 posicao = 8536 chi2 = 029 (TGAAACA) k = 4 posicao = 10343 chi2 = 01 (TGAAACA)

Quorum = 75 14161 motivos encontrados k = 1 posicao = 7156 chi2 = 066 (TGAAACA) k = 2 posicao = 8778 chi2 = 028 (TGAAACA) k = 3 posicao = 8848 chi2 = 034 (TGAAACA) k = 4 posicao = 9747 chi2 = 015 (TGAAACA)

Quorum = 60 24421 motivos encontrados k = 1 posicao = 12918 chi2 = 049 (TGAAACA) k = 2 posicao = 15781 chi2 = 024 (TGAAACA) k = 3 posicao = 13941 chi2 = 03 (TGAAACA) k = 4 posicao = 16147 chi2 = 017 (TGAAACA)

7_1_SWI4

Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

330 motivos encontrados Quorum = 80

675 motivos encontrados k = 1 posicao = 3 chi2 = 575 (CGCGAAA) k = 2 posicao = 3 chi2 = 483 (CGCGAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 60

k = 3 posicao = 11 chi2 = 395 (CGCGAAA) k = 4 posicao = 5 chi2 = 367 (CGCGAAA)

Quorum = 75 675 motivos encontrados k = 1 posicao = 2 chi2 = 6 (CGCGAAA) k = 2 posicao = 4 chi2 = 504 (CGCGAAA) k = 3 posicao = 14 chi2 = 372 (CGCGAAA) k = 4 posicao = 14 chi2 = 343 (CGCGAAA)

Quorum = 60 1349 motivos encontrados k = 1 posicao = 50 chi2 = 31 (CACGAAA) k = 1 posicao = 8 chi2 = 569 (CGCGAAA) k = 2 posicao = 81 chi2 = 26 (CACGAAA) k = 2 posicao = 20 chi2 = 48 (CGCGAAA) k = 3 posicao = 117 chi2 = 21 (CACGAAA) k = 3 posicao = 47 chi2 = 37 (CGCGAAA) k = 4 posicao = 309 chi2 = 056 (CACGAAA) k = 4 posicao = 33 chi2 = 367 (CGCGAAA)

Erro = 1 Quorum = 100

8974 motivos encontrados k = 1 posicao = 2630 chi2 = 093 (CACGAAA) k = 1 posicao = 1189 chi2 = 212 (CGCGAAA) k = 2 posicao = 3046 chi2 = 07 (CACGAAA) k = 2 posicao = 2138 chi2 = 101 (CGCGAAA) k = 3 posicao = 4224 chi2 = 03 (CACGAAA) k = 3 posicao = 4064 chi2 = 04 (CGCGAAA) k = 4 posicao = 5230 chi2 = 012 (CACGAAA) k = 4 posicao = 4771 chi2 = 018 (CGCGAAA)

Quorum = 80 17937 motivos encontrados k = 1 posicao = 6152 chi2 = 107 (CACGAAA) k = 1 posicao = 3575 chi2 = 211 (CGCGAAA) k = 2 posicao = 7073 chi2 = 071 (CACGAAA) k = 2 posicao = 6979 chi2 = 078 (CGCGAAA) k = 3 posicao = 9212 chi2 = 035 (CACGAAA) k = 3 posicao = 8502 chi2 = 038 (CGCGAAA) k = 4 posicao = 10421 chi2 = 017 (CACGAAA) k = 4 posicao = 9629 chi2 = 026 (CGCGAAA)

Quorum = 75 17937 motivos encontrados k = 1 posicao = 6271 chi2 = 104 (CACGAAA) k = 1 posicao = 4092 chi2 = 171 (CGCGAAA) k = 2 posicao = 8574 chi2 = 052 (CACGAAA) k = 2 posicao = 5741 chi2 = 107 (CGCGAAA) k = 3 posicao = 10092 chi2 = 026 (CACGAAA) k = 3 posicao = 8743 chi2 = 044 (CGCGAAA) k = 4 posicao = 11741 chi2 = 009 (CACGAAA) k = 4 posicao = 9601 chi2 = 022 (CGCGAAA)

Quorum = 60 35352 motivos encontrados k = 1 posicao = 15854 chi2 = 094 (CACGAAA) k = 1 posicao = 9842 chi2 = 196 (CGCGAAA) k = 2 posicao = 18655 chi2 = 063 (CACGAAA) k = 2 posicao = 16854 chi2 = 093 (CGCGAAA) k = 3 posicao = 21349 chi2 = 025 (CACGAAA) k = 3 posicao = 19789 chi2 = 036 (CGCGAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 61

k = 4 posicao = 22509 chi2 = 016 (CACGAAA) k = 4 posicao = 21049 chi2 = 027 (CGCGAAA)

7_2_GCN4

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

229 motivos encontrados Quorum = 80

372 motivos encontrados Quorum = 75

586 motivos encontrados Quorum = 60

839 motivos encontrados Erro = 1

Quorum = 100 6343 motivos encontrados

Quorum = 80 10422 motivos encontrados

Quorum = 75 15227 motivos encontrados

Quorum = 60 21609 motivos encontrados

7_2_RGT1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

205 motivos encontrados Quorum = 80

496 motivos encontrados k = 1 posicao = 4 chi2 = 1052 (CGGAAAA) k = 2 posicao = 2 chi2 = 883 (CGGAAAA) k = 3 posicao = 2 chi2 = 692 (CGGAAAA) k = 4 posicao = 10 chi2 = 308 (CGGAAAA)

Quorum = 75 496 motivos encontrados k = 1 posicao = 4 chi2 = 1101 (CGGAAAA) k = 2 posicao = 3 chi2 = 855 (CGGAAAA) k = 3 posicao = 4 chi2 = 685 (CGGAAAA) k = 4 posicao = 9 chi2 = 338 (CGGAAAA)

Quorum = 60 987 motivos encontrados k = 1 posicao = 10 chi2 = 1087 (CGGAAAA) k = 2 posicao = 11 chi2 = 792 (CGGAAAA) k = 3 posicao = 10 chi2 = 637 (CGGAAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 62

k = 4 posicao = 27 chi2 = 333 (CGGAAAA)

Erro = 1 Quorum = 100

6085 motivos encontrados k = 1 posicao = 740 chi2 = 226 (CGGAAAA) k = 1 posicao = 244 chi2 = 442 (CGGAAGA) k = 1 posicao = 375 chi2 = 415 (CGGAGAA) k = 1 posicao = 795 chi2 = 205 (CGGATAA) k = 2 posicao = 1431 chi2 = 069 (CGGAAAA) k = 2 posicao = 350 chi2 = 257 (CGGAAGA) k = 2 posicao = 313 chi2 = 281 (CGGAGAA) k = 2 posicao = 403 chi2 = 257 (CGGATAA) k = 3 posicao = 2933 chi2 = 015 (CGGAAAA) k = 3 posicao = 543 chi2 = 161 (CGGAAGA) k = 3 posicao = 758 chi2 = 162 (CGGAGAA) k = 3 posicao = 334 chi2 = 242 (CGGATAA) k = 4 posicao = 3388 chi2 = 006 (CGGAAAA) k = 4 posicao = 944 chi2 = 088 (CGGAAGA) k = 4 posicao = 682 chi2 = 096 (CGGAGAA) k = 4 posicao = 448 chi2 = 157 (CGGATAA)

Quorum = 80 13578 motivos encontrados k = 1 posicao = 2782 chi2 = 211 (CGGAAAA) k = 1 posicao = 1309 chi2 = 443 (CGGAAGA) k = 1 posicao = 9793 chi2 = 0 (CGGAATA) k = 1 posicao = 1525 chi2 = 436 (CGGAGAA) k = 1 posicao = 1267 chi2 = 351 (CGGAGGA) k = 1 posicao = 2001 chi2 = 282 (CGGATAA) k = 1 posicao = 4454 chi2 = 055 (CGGATTA) k = 2 posicao = 4354 chi2 = 063 (CGGAAAA) k = 2 posicao = 1547 chi2 = 273 (CGGAAGA) k = 2 posicao = 7920 chi2 = 004 (CGGAATA) k = 2 posicao = 2260 chi2 = 262 (CGGAGAA) k = 2 posicao = 1049 chi2 = 271 (CGGAGGA) k = 2 posicao = 1502 chi2 = 271 (CGGATAA) k = 2 posicao = 3568 chi2 = 083 (CGGATTA) k = 3 posicao = 6889 chi2 = 02 (CGGAAAA) k = 3 posicao = 2122 chi2 = 16 (CGGAAGA) k = 3 posicao = 10332 chi2 = 01 (CGGAATA) k = 3 posicao = 2408 chi2 = 144 (CGGAGAA) k = 3 posicao = 1273 chi2 = 214 (CGGAGGA) k = 3 posicao = 1406 chi2 = 211 (CGGATAA) k = 3 posicao = 1203 chi2 = 189 (CGGATTA) k = 4 posicao = 8380 chi2 = 003 (CGGAAAA) k = 4 posicao = 4250 chi2 = 074 (CGGAAGA) k = 4 posicao = 12881 chi2 = 037 (CGGAATA) k = 4 posicao = 3392 chi2 = 088 (CGGAGAA) k = 4 posicao = 1278 chi2 = 162 (CGGAGGA) k = 4 posicao = 1930 chi2 = 148 (CGGATAA) k = 4 posicao = 1157 chi2 = 136 (CGGATTA)

Quorum = 75 13578 motivos encontrados k = 1 posicao = 2620 chi2 = 264 (CGGAAAA) k = 1 posicao = 1452 chi2 = 443 (CGGAAGA) k = 1 posicao = 8943 chi2 = 001 (CGGAATA) k = 1 posicao = 1121 chi2 = 446 (CGGAGAA) k = 1 posicao = 965 chi2 = 424 (CGGAGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 63

k = 1 posicao = 2453 chi2 = 246 (CGGATAA) k = 1 posicao = 3571 chi2 = 086 (CGGATTA) k = 2 posicao = 4690 chi2 = 069 (CGGAAAA) k = 2 posicao = 1475 chi2 = 255 (CGGAAGA) k = 2 posicao = 7150 chi2 = 01 (CGGAATA) k = 2 posicao = 1209 chi2 = 259 (CGGAGAA) k = 2 posicao = 837 chi2 = 274 (CGGAGGA) k = 2 posicao = 1900 chi2 = 268 (CGGATAA) k = 2 posicao = 3981 chi2 = 066 (CGGATTA) k = 3 posicao = 6549 chi2 = 022 (CGGAAAA) k = 3 posicao = 1447 chi2 = 191 (CGGAAGA) k = 3 posicao = 10656 chi2 = 018 (CGGAATA) k = 3 posicao = 2435 chi2 = 155 (CGGAGAA) k = 3 posicao = 1026 chi2 = 21 (CGGAGGA) k = 3 posicao = 1469 chi2 = 233 (CGGATAA) k = 3 posicao = 1202 chi2 = 189 (CGGATTA) k = 4 posicao = 11692 chi2 = 0 (CGGAAAA) k = 4 posicao = 3717 chi2 = 077 (CGGAAGA) k = 4 posicao = 10890 chi2 = 035 (CGGAATA) k = 4 posicao = 3482 chi2 = 087 (CGGAGAA) k = 4 posicao = 1187 chi2 = 168 (CGGAGGA) k = 4 posicao = 1746 chi2 = 148 (CGGATAA) k = 4 posicao = 1204 chi2 = 149 (CGGATTA)

Quorum = 60 25839 motivos encontrados k = 1 posicao = 5870 chi2 = 247 (CGGAAAA) k = 1 posicao = 4726 chi2 = 405 (CGGAAGA) k = 1 posicao = 18076 chi2 = 0 (CGGAATA) k = 1 posicao = 3940 chi2 = 388 (CGGAGAA) k = 1 posicao = 3424 chi2 = 384 (CGGAGGA) k = 1 posicao = 15679 chi2 = 005 (CGGAGTA) k = 1 posicao = 6177 chi2 = 245 (CGGATAA) k = 1 posicao = 15167 chi2 = 008 (CGGATGA) k = 1 posicao = 11165 chi2 = 059 (CGGATTA) k = 2 posicao = 11428 chi2 = 046 (CGGAAAA) k = 2 posicao = 4811 chi2 = 242 (CGGAAGA) k = 2 posicao = 16216 chi2 = 003 (CGGAATA) k = 2 posicao = 4128 chi2 = 226 (CGGAGAA) k = 2 posicao = 3005 chi2 = 278 (CGGAGGA) k = 2 posicao = 10245 chi2 = 04 (CGGAGTA) k = 2 posicao = 3437 chi2 = 3 (CGGATAA) k = 2 posicao = 10379 chi2 = 033 (CGGATGA) k = 2 posicao = 8888 chi2 = 072 (CGGATTA) k = 3 posicao = 13836 chi2 = 017 (CGGAAAA) k = 3 posicao = 4943 chi2 = 191 (CGGAAGA) k = 3 posicao = 20550 chi2 = 01 (CGGAATA) k = 3 posicao = 6774 chi2 = 155 (CGGAGAA) k = 3 posicao = 2524 chi2 = 222 (CGGAGGA) k = 3 posicao = 13828 chi2 = 01 (CGGAGTA) k = 3 posicao = 4859 chi2 = 197 (CGGATAA) k = 3 posicao = 9284 chi2 = 029 (CGGATGA) k = 3 posicao = 3146 chi2 = 179 (CGGATTA) k = 4 posicao = 17095 chi2 = 001 (CGGAAAA) k = 4 posicao = 7930 chi2 = 083 (CGGAAGA) k = 4 posicao = 24667 chi2 = 051 (CGGAATA) k = 4 posicao = 9042 chi2 = 083 (CGGAGAA) k = 4 posicao = 3884 chi2 = 147 (CGGAGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 64

k = 4 posicao = 13905 chi2 = 007 (CGGAGTA) k = 4 posicao = 4859 chi2 = 156 (CGGATAA) k = 4 posicao = 14606 chi2 = 005 (CGGATGA) k = 4 posicao = 3783 chi2 = 127 (CGGATTA)

8_1_PDR1

Motivo TCCGYGGA Frequecircncia 68 ~75 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

229 motivos encontrados Quorum = 80

416 motivos encontrados Quorum = 75

639 motivos encontrados k = 1 posicao = 2 chi2 = 96 (TCCGCGGA) k = 2 posicao = 2 chi2 = 941 (TCCGCGGA) k = 3 posicao = 2 chi2 = 915 (TCCGCGGA) k = 4 posicao = 2 chi2 = 674 (TCCGCGGA)

Quorum = 60 950 motivos encontrados k = 1 posicao = 4 chi2 = 937 (TCCGCGGA) k = 2 posicao = 3 chi2 = 933 (TCCGCGGA) k = 3 posicao = 3 chi2 = 926 (TCCGCGGA) k = 4 posicao = 3 chi2 = 686 (TCCGCGGA)

Erro = 1 Quorum = 100

6610 motivos encontrados k = 1 posicao = 8 chi2 = 1095 (TCCGCGGA) k = 1 posicao = 15 chi2 = 1007 (TCCGTGGA) k = 2 posicao = 8 chi2 = 1092 (TCCGCGGA) k = 2 posicao = 18 chi2 = 1039 (TCCGTGGA) k = 3 posicao = 11 chi2 = 907 (TCCGCGGA) k = 3 posicao = 9 chi2 = 881 (TCCGTGGA) k = 4 posicao = 18 chi2 = 517 (TCCGCGGA) k = 4 posicao = 8 chi2 = 759 (TCCGTGGA)

Quorum = 80 11058 motivos encontrados k = 1 posicao = 32 chi2 = 1126 (TCCGCGGA) k = 1 posicao = 48 chi2 = 1053 (TCCGTGGA) k = 2 posicao = 21 chi2 = 1053 (TCCGCGGA) k = 2 posicao = 19 chi2 = 1098 (TCCGTGGA) k = 3 posicao = 29 chi2 = 881 (TCCGCGGA) k = 3 posicao = 60 chi2 = 808 (TCCGTGGA) k = 4 posicao = 97 chi2 = 509 (TCCGCGGA) k = 4 posicao = 42 chi2 = 698 (TCCGTGGA)

Quorum = 75 16695 motivos encontrados k = 1 posicao = 92 chi2 = 1126 (TCCGCGGA) k = 1 posicao = 178 chi2 = 1026 (TCCGTGGA) k = 2 posicao = 70 chi2 = 1092 (TCCGCGGA) k = 2 posicao = 73 chi2 = 1069 (TCCGTGGA) k = 3 posicao = 64 chi2 = 983 (TCCGCGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 65

k = 3 posicao = 83 chi2 = 898 (TCCGTGGA) k = 4 posicao = 336 chi2 = 48 (TCCGCGGA) k = 4 posicao = 130 chi2 = 657 (TCCGTGGA)

Quorum = 60 25049 motivos encontrados k = 1 posicao = 220 chi2 = 1135 (TCCGCGGA) k = 1 posicao = 369 chi2 = 1004 (TCCGTGGA) k = 2 posicao = 83 chi2 = 1159 (TCCGCGGA) k = 2 posicao = 263 chi2 = 1045 (TCCGTGGA) k = 3 posicao = 134 chi2 = 883 (TCCGCGGA) k = 3 posicao = 206 chi2 = 857 (TCCGTGGA) k = 4 posicao = 580 chi2 = 488 (TCCGCGGA) k = 4 posicao = 213 chi2 = 67 (TCCGTGGA)

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

241 motivos encontrados Quorum = 80

423 motivos encontrados k = 1 posicao = 2 chi2 = 1237 (TCCGCGGA) k = 2 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 3 posicao = 2 chi2 = 1229 (TCCGCGGA) k = 4 posicao = 2 chi2 = 915 (TCCGCGGA)

Quorum = 75 667 motivos encontrados k = 1 posicao = 2 chi2 = 1237 (TCCGCGGA) k = 2 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 3 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 4 posicao = 2 chi2 = 909 (TCCGCGGA)

Quorum = 60 1024 motivos encontrados k = 1 posicao = 3 chi2 = 1233 (TCCGCGGA) k = 2 posicao = 4 chi2 = 124 (TCCGCGGA) k = 3 posicao = 3 chi2 = 1221 (TCCGCGGA) k = 4 posicao = 5 chi2 = 918 (TCCGCGGA)

Erro = 1 Quorum = 100

6897 motivos encontrados k = 1 posicao = 17 chi2 = 1115 (TCCGCGGA) k = 1 posicao = 24 chi2 = 1026 (TCCGTGGA) k = 2 posicao = 12 chi2 = 1174 (TCCGCGGA) k = 2 posicao = 10 chi2 = 1138 (TCCGTGGA) k = 3 posicao = 17 chi2 = 945 (TCCGCGGA) k = 3 posicao = 29 chi2 = 827 (TCCGTGGA) k = 4 posicao = 65 chi2 = 481 (TCCGCGGA) k = 4 posicao = 39 chi2 = 616 (TCCGTGGA)

Quorum = 80 11592 motivos encontrados k = 1 posicao = 69 chi2 = 1156 (TCCGCGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 66

k = 1 posicao = 117 chi2 = 1012 (TCCGTGGA) k = 2 posicao = 38 chi2 = 1177 (TCCGCGGA) k = 2 posicao = 69 chi2 = 1061 (TCCGTGGA) k = 3 posicao = 76 chi2 = 893 (TCCGCGGA) k = 3 posicao = 53 chi2 = 817 (TCCGTGGA) k = 4 posicao = 131 chi2 = 526 (TCCGCGGA) k = 4 posicao = 61 chi2 = 638 (TCCGTGGA)

Quorum = 75 17555 motivos encontrados k = 1 posicao = 210 chi2 = 1109 (TCCGCGGA) k = 1 posicao = 265 chi2 = 1061 (TCCGTGGA) k = 2 posicao = 78 chi2 = 115 (TCCGCGGA) k = 2 posicao = 102 chi2 = 1109 (TCCGTGGA) k = 3 posicao = 184 chi2 = 905 (TCCGCGGA) k = 3 posicao = 105 chi2 = 85 (TCCGTGGA) k = 4 posicao = 424 chi2 = 451 (TCCGCGGA) k = 4 posicao = 476 chi2 = 582 (TCCGTGGA)

Quorum = 60 26303 motivos encontrados k = 1 posicao = 433 chi2 = 1118 (TCCGCGGA) k = 1 posicao = 521 chi2 = 991 (TCCGTGGA) k = 2 posicao = 237 chi2 = 1064 (TCCGCGGA) k = 2 posicao = 322 chi2 = 1045 (TCCGTGGA) k = 3 posicao = 316 chi2 = 95 (TCCGCGGA) k = 3 posicao = 415 chi2 = 827 (TCCGTGGA) k = 4 posicao = 978 chi2 = 49 (TCCGCGGA) k = 4 posicao = 1277 chi2 = 616 (TCCGTGGA)

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

328 motivos encontrados Quorum = 80

685 motivos encontrados Quorum = 75

685 motivos encontrados Quorum = 60

1319 motivos encontrados k = 1 posicao = 4 chi2 = 411 (TCCGTGGA) k = 2 posicao = 2 chi2 = 421 (TCCGTGGA) k = 3 posicao = 2 chi2 = 407 (TCCGTGGA) k = 4 posicao = 3 chi2 = 354 (TCCGTGGA)

Erro = 1 Quorum = 100

9298 motivos encontrados k = 1 posicao = 95 chi2 = 631 (TCCGAGGA) k = 1 posicao = 63 chi2 = 675 (TCCGCGGA) k = 1 posicao = 75 chi2 = 678 (TCCGTGGA) k = 2 posicao = 51 chi2 = 61 (TCCGAGGA) k = 2 posicao = 25 chi2 = 745 (TCCGCGGA) k = 2 posicao = 22 chi2 = 718 (TCCGTGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 67

k = 3 posicao = 38 chi2 = 538 (TCCGAGGA) k = 3 posicao = 68 chi2 = 543 (TCCGCGGA) k = 3 posicao = 64 chi2 = 57 (TCCGTGGA) k = 4 posicao = 48 chi2 = 529 (TCCGAGGA) k = 4 posicao = 161 chi2 = 389 (TCCGCGGA) k = 4 posicao = 78 chi2 = 477 (TCCGTGGA)

Quorum = 80 18263 motivos encontrados k = 1 posicao = 551 chi2 = 592 (TCCGAGGA) k = 1 posicao = 147 chi2 = 754 (TCCGCGGA) k = 1 posicao = 282 chi2 = 647 (TCCGTGGA) k = 2 posicao = 296 chi2 = 605 (TCCGAGGA) k = 2 posicao = 143 chi2 = 715 (TCCGCGGA) k = 2 posicao = 182 chi2 = 681 (TCCGTGGA) k = 3 posicao = 589 chi2 = 511 (TCCGAGGA) k = 3 posicao = 347 chi2 = 553 (TCCGCGGA) k = 3 posicao = 245 chi2 = 59 (TCCGTGGA) k = 4 posicao = 429 chi2 = 462 (TCCGAGGA) k = 4 posicao = 944 chi2 = 401 (TCCGCGGA) k = 4 posicao = 577 chi2 = 41 (TCCGTGGA)

Quorum = 75 18263 motivos encontrados k = 1 posicao = 790 chi2 = 6 (TCCGAGGA) k = 1 posicao = 168 chi2 = 706 (TCCGCGGA) k = 1 posicao = 451 chi2 = 631 (TCCGTGGA) k = 2 posicao = 195 chi2 = 623 (TCCGAGGA) k = 2 posicao = 152 chi2 = 695 (TCCGCGGA) k = 2 posicao = 155 chi2 = 686 (TCCGTGGA) k = 3 posicao = 159 chi2 = 546 (TCCGAGGA) k = 3 posicao = 286 chi2 = 546 (TCCGCGGA) k = 3 posicao = 281 chi2 = 585 (TCCGTGGA) k = 4 posicao = 342 chi2 = 46 (TCCGAGGA) k = 4 posicao = 562 chi2 = 381 (TCCGCGGA) k = 4 posicao = 632 chi2 = 401 (TCCGTGGA)

Quorum = 60 35494 motivos encontrados k = 1 posicao = 1806 chi2 = 548 (TCCGAGGA) k = 1 posicao = 1580 chi2 = 65 (TCCGCGGA) k = 1 posicao = 1668 chi2 = 595 (TCCGTGGA) k = 2 posicao = 1224 chi2 = 592 (TCCGAGGA) k = 2 posicao = 794 chi2 = 701 (TCCGCGGA) k = 2 posicao = 991 chi2 = 658 (TCCGTGGA) k = 3 posicao = 1647 chi2 = 536 (TCCGAGGA) k = 3 posicao = 2029 chi2 = 546 (TCCGCGGA) k = 3 posicao = 1118 chi2 = 57 (TCCGTGGA) k = 4 posicao = 1549 chi2 = 502 (TCCGAGGA) k = 4 posicao = 2429 chi2 = 385 (TCCGCGGA) k = 4 posicao = 2813 chi2 = 429 (TCCGTGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 68

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 69

Anexo B Comparaccedilatildeo da Significacircncia Estatiacutestica referente agrave Abundacircncia obtida pelo

Meacutetodo de Shuffling e pelo Meacutetodo Analiacutetico

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos a comparaccedilatildeo entre o valor do chi2 obtido pelo meacutetodo de shuffling e o valor obtido pelo meacutetodo analiacutetico

Cada linha diz respeito a dados em que se conserva um determinado k-mer (k) Em cada uma eacute apresentado o valor do chi2 obtido pelo meacutetodo de shuffling (chi2) e a sua posiccedilatildeo relativa na lista de motivos ordenada por valores decrescentes de chi2 face ao nuacutemero de motivos extraiacutedos Os valores acima referidos tambeacutem satildeo apresentados para o meacutetodo analiacutetico (achi2)

10_2_YRR1 Motivo TTCCGTGGAA TTCCGCGGAT TTCCGCGGAA Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=488 (633 in 8908) achi2=476 (745 in 8908) [TTCCGCGGAA]

K=2 chi2=465 (468 in 8908) achi2=464 (509 in 8908) [TTCCGCGGAA]

K=3 chi2=412 (201 in 8908) achi2=413 (230 in 8908) [TTCCGCGGAA]

K=4 chi2=253 (223 in 8908) achi2=278 (205 in 8908) [TTCCGCGGAA]

K=5 chi2=126 (277 in 8912) achi2=143 (291 in 8912) [TTCCGCGGAA]

K=6 chi2=039 (323 in 8912) achi2=041 (1035 in 8912) [TTCCGCGGAA]

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 70

Error = 1

Quorum = 80

K=1 chi2=388 (428 in 17722) achi2=387 (504 in 17722) [ACCCTAAAGGT]

K=1 chi2=474 (246 in 17722) achi2=483 (265 in 17722) [ACCTTAAAGGT]

K=2 chi2=394 (222 in 17722) achi2=389 (248 in 17722) [ACCCTAAAGGT]

K=2 chi2=474 (111 in 17722) achi2=484 (119 in 17722) [ACCTTAAAGGT]

K=3 chi2=400 (51 in 17722) achi2=391 (61 in 17722) [ACCCTAAAGGT]

K=3 chi2=477 (12 in 17722) achi2=485 (14 in 17722) [ACCTTAAAGGT]

K=4 chi2=394 (28 in 17722) achi2=387 (31 in 17722) [ACCCTAAAGGT]

K=4 chi2=488 (4 in 17722) achi2=485 (4 in 17722) [ACCTTAAAGGT]

K=5 chi2=326 (24 in 17722) achi2=343 (29 in 17722) [ACCCTAAAGGT]

K=5 chi2=435 (7 in 17722) achi2=462 (3 in 17722) [ACCTTAAAGGT]

K=6 chi2=071 (387 in 17722) achi2=282 (276 in 17722) [ACCCTAAAGGT]

K=6 chi2=310 (2 in 17722) achi2=431 (259 in 17722) [ACCTTAAAGGT]

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=344 (91 in 1316) achi2=314 (116 in 1316) [CCCCT]

K=2 chi2=187 (183 in 1316) achi2=194 (178 in 1316) [CCCCT]

K=3 chi2=164 (138 in 1316) achi2=140 (190 in 1316) [CCCCT]

K=4 chi2=088 (186 in 1316) achi2=104 (150 in 1316) [CCCCT]

Error = 1

Quorum = 60

K=1 chi2=056 (18487 in 35258) achi2=082 (15627 in 35258) [CCCCT]

K=2 chi2=000 (34670 in 35258) achi2=000 (34292 in 35258) [CCCCT]

K=3 chi2=007 (27587 in 35258) achi2=011 (25832 in 35258) [CCCCT]

K=4 chi2=044 (14195 in 35258) achi2=044 (14486 in 35258) [CCCCT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 71

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=534 (66 in 826) achi2=523 (72 in 826) [CCCCT]

K=2 chi2=290 (76 in 826) achi2=297 (75 in 826) [CCCCT]

K=3 chi2=159 (97 in 826) achi2=152 (105 in 826) [CCCCT]

K=4 chi2=022 (242 in 826) achi2=007 (382 in 826) [CCCCT]

K=5 chi2=000 (360 in 826) achi2=000 (339 in 826) [CCCCT]

K=6 chi2=000 (331 in 826) achi2=000 (604 in 826) [CCCCT]

Error = 1

Quorum = 60

K=1 chi2=372 (2640 in 21544) achi2=462 (2153 in 21544) [CCCCT]

K=2 chi2=041 (10937 in 21544) achi2=070 (8620 in 21544) [CCCCT]

K=3 chi2=000 (20651 in 21544) achi2=000 (20723 in 21544) [CCCCT]

K=4 chi2=080 (4245 in 21544) achi2=083 (4322 in 21544) [CCCCT]

K=5 chi2=000 (19590 in 21562) achi2=000 (20653 in 21562) [CCCCT]

K=6 chi2=000 (16728 in 21562) achi2=000 (21282 in 21562) [CCCCT]

5_1_Gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=080 (3213 in 6121) achi2=079 (3260 in 6121) [CATCC]

K=1 chi2=1188 (320 in 6121) achi2=1158 (344 in 6121) [CTTCC]

K=2 chi2=180 (1552 in 6121) achi2=161 (1763 in 6121) [CATCC]

K=2 chi2=504 (498 in 6121) achi2=470 (566 in 6121) [CTTCC]

K=3 chi2=205 (809 in 6121) achi2=192 (906 in 6121) [CATCC]

K=3 chi2=102 (1713 in 6121) achi2=109 (1663 in 6121) [CTTCC]

K=4 chi2=097 (929 in 6121) achi2=091 (1091 in 6121) [CATCC]

K=4 chi2=001 (5090 in 6121) achi2=001 (5126 in 6121) [CTTCC]

K=5 chi2=000 (5948 in 6121) achi2=000 (5152 in 6121) [CATCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 72

K=5 chi2=000 (4578 in 6121) achi2=000 (5000 in 6121) [CTTCC]

K=6 chi2=000 (5634 in 6121) achi2=000 (5438 in 6121) [CATCC]

K=6 chi2=000 (2279 in 6121) achi2=000 (5149 in 6121) [CTTCC]

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 chi2=292 (2311 in 10819) achi2=273 (2534 in 10819) [GATAAG]

K=1 chi2=131 (4204 in 10819) achi2=102 (4875 in 10819) [GATTAG]

K=2 chi2=499 (766 in 10819) achi2=493 (849 in 10819) [GATAAG]

K=2 chi2=280 (1760 in 10819) achi2=268 (1952 in 10819) [GATTAG]

K=3 chi2=168 (2077 in 10819) achi2=174 (2107 in 10819) [GATAAG]

K=3 chi2=953 (62 in 10819) achi2=925 (81 in 10819) [GATTAG]

K=4 chi2=014 (6803 in 10819) achi2=009 (7567 in 10819) [GATAAG]

K=4 chi2=309 (394 in 10819) achi2=352 (328 in 10819) [GATTAG]

K=5 chi2=001 (8734 in 10819) achi2=003 (7728 in 10819) [GATAAG]

K=5 chi2=176 (429 in 10819) achi2=159 (773 in 10819) [GATTAG]

K=6 chi2=000 (9825 in 10819) achi2=000 (6602 in 10819) [GATAAG]

K=6 chi2=000 (7459 in 10819) achi2=000 (6760 in 10819) [GATTAG]

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

Error = 1

Quorum = 60

K=1 chi2=382 (3218 in 20531) achi2=555 (2348 in 20531) [CACCCA]

k=1 chi2=083 (9754 in 20531) achi2=102 (9117 in 20531) [CACCCG]

K=2 chi2=330 (2327 in 20531) achi2=368 (2233 in 20531) [CACCCA]

K=2 chi2=143 (5707 in 20531) achi2=117 (6956 in 20531) [CACCCG]

K=3 chi2=209 (2208 in 20531) achi2=223 (2249 in 20531) [CACCCA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 73

K=3 chi2=040 (9516 in 20531) achi2=023 (12243 in 20531) [CACCCG]

K=4 chi2=071 (4649 in 20531) achi2=105 (3457 in 20531) [CACCCA]

K=4 chi2=000 (19099 in 20531) achi2=002 (17523 in 20531) [CACCCG]

7_0_REB1 Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 chi2=549 (29 in 405) achi2=586 (33 in 405) [TTACCC]

K=2 chi2=688 (6 in 405) achi2=635 (12 in 405) [TTACCC]

K=3 chi2=706 (2 in 405) achi2=679 (2 in 405) [TTACCC]

K=4 chi2=373 (3 in 405) achi2=402 (3 in 405) [TTACCC]

K=5 chi2=034 (7 in 405) achi2=020 (8 in 405) [TTACCC]

K=6 chi2=000 (383 in 405) achi2=000 (232 in 405) [TTACCC]

Error = 1

Quorum = 80

K=1 chi2=133 (3134 in 10337) achi2=169 (2743 in 10337) [TTACCC]

K=2 chi2=302 (657 in 10337) achi2=267 (945 in 10337) [TTACCC]

K=3 chi2=409 (106 in 10337) achi2=394 (170 in 10337) [TTACCC]

K=4 chi2=082 (1439 in 10337) achi2=109 (1091 in 10337) [TTACCC]

K=5 chi2=002 (7204 in 10337) achi2=003 (6765 in 10337) [TTACCC]

K=6 chi2=000 (10150 in 10337) achi2=000 (6299 in 10337) [TTACCC]

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=626 (58 in 785) achi2=615 (64 in 785) [TGCCAAG]

K=2 chi2=610 (11 in 785) achi2=585 (14 in 785) [TGCCAAG]

K=3 chi2=561 (8 in 785) achi2=575 (6 in 785) [TGCCAAG]

K=4 chi2=399 (4 in 785) achi2=377 (6 in 785) [TGCCAAG]

K=5 chi2=184 (8 in 785) achi2=157 (10 in 785) [TGCCAAG]

K=6 chi2=054 (5 in 785) achi2=055 (255 in 785) [TGCCAAG]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 74

Error = 1

Quorum = 60

K=1 chi2=463 (1914 in 20257) achi2=458 (2166 in 20257) [TGCCAAG]

K=2 chi2=292 (1694 in 20257) achi2=287 (1959 in 20257) [TGCCAAG]

K=3 chi2=252 (1158 in 20257) achi2=270 (1060 in 20257) [TGCCAAG]

K=4 chi2=038 (8072 in 20257) achi2=030 (9306 in 20257) [TGCCAAG]

K=5 chi2=002 (15272 in 20366) achi2=004 (14013 in 20366) [TGCCAAG]

K=6 chi2=009 (5877 in 20366) achi2=029 (4589 in 20366) [TGCCAAG]

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

K=1 chi2=1035 (5 in 267) achi2=996 (6 in 267) [TGAAACA]

K=2 chi2=961 (1 in 267) achi2=905 (1 in 267) [TGAAACA]

K=3 chi2=934 (1 in 267) achi2=884 (1 in 267) [TGAAACA]

K=4 chi2=794 (1 in 267) achi2=731 (1 in 267) [TGAAACA]

K=5 chi2=264 (2 in 267) achi2=320 (1 in 267) [TGAAACA]

K=6 chi2=044 (3 in 267) achi2=052 (168 in 267) [TGAAACA]

Error = 1

Quorum = 100

K=1 chi2=448 (515 in 7705) achi2=400 (675 in 7705) [TGAAACA]

K=2 chi2=168 (1047 in 7705) achi2=157 (1246 in 7705) [TGAAACA]

K=3 chi2=159 (637 in 7705) achi2=128 (992 in 7705) [TGAAACA]

K=4 chi2=057 (1734 in 7705) achi2=026 (3100 in 7705) [TGAAACA]

K=5 chi2=015 (2574 in 7705) achi2=021 (2435 in 7705) [TGAAACA]

K=6 chi2=007 (1386 in 7705) achi2=006 (2114 in 7705) [TGAAACA]

7_1_SWI4

Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 75

Quorum = 100

K=1 chi2=927 (53 in 8974) achi2=950 (59 in 8974) [CACGAAA]

K=1 chi2=1447 (8 in 8974) achi2=1516 (9 in 8974) [CGCGAAA]

K=2 chi2=686 (17 in 8974) achi2=638 (22 in 8974) [CACGAAA]

K=2 chi2=940 (4 in 8974) achi2=924 (3 in 8974) [CGCGAAA]

K=3 chi2=456 (46 in 8974) achi2=436 (53 in 8974) [CACGAAA]

K=3 chi2=514 (20 in 8974) achi2=502 (25 in 8974) [CGCGAAA]

K=4 chi2=087 (1329 in 8974) achi2=106 (1095 in 8974) [CACGAAA]

K=4 chi2=343 (41 in 8974) achi2=390 (27 in 8974) [CGCGAAA]

K=5 chi2=012 (3730 in 8974) achi2=000 (7343 in 8974) [CACGAAA]

K=5 chi2=033 (1966 in 8974) achi2=121 (397 in 8974) [CGCGAAA]

K=6 chi2=007 (1861 in 8974) achi2=001 (3810 in 8974) [CACGAAA]

K=6 chi2=002 (3146 in 8974) achi2=044 (873 in 8974) [CGCGAAA]

7_2_RGT1

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=2092 (246 in 6085) achi2=2140 (236 in 6085) [CGGAAAA]

K=1 chi2=810 (799 in 6085) achi2=803 (815 in 6085) [CGGAAGA]

K=1 chi2=1437 (409 in 6085) achi2=1409 (416 in 6085) [CGGAGAA]

K=1 chi2=337 (1833 in 6085) achi2=350 (1782 in 6085) [CGGATAA]

K=2 chi2=837 (251 in 6085) achi2=840 (245 in 6085) [CGGAAAA]

K=2 chi2=451 (648 in 6085) achi2=442 (666 in 6085) [CGGAAGA]

K=2 chi2=989 (186 in 6085) achi2=937 (208 in 6085) [CGGAGAA]

K=2 chi2=432 (698 in 6085) achi2=428 (695 in 6085) [CGGATAA]

K=3 chi2=281 (367 in 6085) achi2=272 (385 in 6085) [CGGAAAA]

K=3 chi2=242 (473 in 6085) achi2=225 (546 in 6085) [CGGAAGA]

K=3 chi2=580 (76 in 6085) achi2=544 (89 in 6085) [CGGAGAA]

K=3 chi2=366 (216 in 6085) achi2=309 (299 in 6085) [CGGATAA]

K=4 chi2=013 (3127 in 6085) achi2=022 (2503 in 6085) [CGGAAAA]

K=4 chi2=039 (1619 in 6085) achi2=040 (1722 in 6085) [CGGAAGA]

K=4 chi2=320 (35 in 6085) achi2=304 (56 in 6085) [CGGAGAA]

K=4 chi2=193 (166 in 6085) achi2=202 (188 in 6085) [CGGATAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 76

8_1_PDR1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 75

K=1 chi2=901 (25 in 639) achi2=884 (27 in 639) [TCCGCGGA]

K=2 chi2=886 (13 in 639) achi2=883 (14 in 639) [TCCGCGGA]

K=3 chi2=862 (4 in 639) achi2=864 (5 in 639) [TCCGCGGA]

K=4 chi2=659 (2 in 639) achi2=741 (2 in 639) [TCCGCGGA]

K=5 chi2=252 (1 in 639) achi2=306 (1 in 639) [TCCGCGGA]

K=6 chi2=012 (5 in 639) achi2=030 (253 in 639) [TCCGCGGA]

Error = 1

Quorum = 75

K=1 chi2=1388 (184 in 16695) achi2=1370 (211 in 16695) [TCCGCGGA]

K=1 chi2=913 (373 in 16695) achi2=895 (419 in 16695) [TCCGTGGA]

K=2 chi2=1355 (68 in 16695) achi2=1355 (91 in 16695) [TCCGCGGA]

K=2 chi2=952 (199 in 16695) achi2=944 (230 in 16695) [TCCGTGGA]

K=3 chi2=1237 (5 in 16695) achi2=1138 (22 in 16695) [TCCGCGGA]

K=3 chi2=782 (88 in 16695) achi2=771 (119 in 16695) [TCCGTGGA]

K=4 chi2=570 (45 in 16695) achi2=688 (33 in 16695) [TCCGCGGA]

K=4 chi2=544 (53 in 16695) achi2=610 (56 in 16695) [TCCGTGGA]

K=5 chi2=061 (2230 in 16699) achi2=113 (1175 in 16699) [TCCGCGGA]

K=5 chi2=101 (981 in 16699) achi2=207 (328 in 16699) [TCCGTGGA]

K=6 chi2=001 (8600 in 16699) achi2=000 (10541 in 16699) [TCCGCGGA]

K=6 chi2=002 (7065 in 16699) achi2=003 (8326 in 16699) [TCCGTGGA]

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 chi2=995 (22 in 423) achi2=985 (24 in 423) [TCCGCGGA]

K=2 chi2=980 (13 in 423) achi2=985 (13 in 423) [TCCGCGGA]

K=3 chi2=989 (4 in 423) achi2=967 (4 in 423) [TCCGCGGA]

K=4 chi2=741 (1 in 423) achi2=802 (1 in 423) [TCCGCGGA]

K=5 chi2=220 (1 in 423) achi2=303 (1 in 423) [TCCGCGGA]

K=6 chi2=010 (1 in 423) achi2=027 (229 in 423) [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 77

Error = 1

Quorum = 80

K=1 chi2=1609 (169 in 11592) achi2=1592 (187 in 11592) [TCCGCGGA]

K=1 chi2=1090 (327 in 11592) achi2=1109 (353 in 11592) [TCCGTGGA]

K=2 chi2=1634 (63 in 11592) achi2=1584 (97 in 11592) [TCCGCGGA]

K=2 chi2=1148 (174 in 11592) achi2=1142 (197 in 11592) [TCCGTGGA]

K=3 chi2=1333 (20 in 11592) achi2=1364 (24 in 11592) [TCCGCGGA]

K=3 chi2=878 (91 in 11592) achi2=894 (109 in 11592) [TCCGTGGA]

K=4 chi2=784 (26 in 11592) achi2=785 (35 in 11592) [TCCGCGGA]

K=4 chi2=632 (50 in 11592) achi2=689 (52 in 11592) [TCCGTGGA]

K=5 chi2=072 (1370 in 11601) achi2=127 (778 in 11601) [TCCGCGGA]

K=5 chi2=100 (878 in 11601) achi2=146 (618 in 11601) [TCCGTGGA]

K=6 chi2=000 (7969 in 11601) achi2=001 (5475 in 11601) [TCCGCGGA]

K=6 chi2=001 (4626 in 11601) achi2=004 (4674 in 11601) [TCCGTGGA]

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=285 (128 in 1319) achi2=287 (133 in 1319) [TCCGTGGA]

K=2 chi2=294 (89 in 1319) achi2=289 (95 in 1319) [TCCGTGGA]

K=3 chi2=283 (10 in 1319) achi2=278 (15 in 1319) [TCCGTGGA]

K=4 chi2=240 (7 in 1319) achi2=255 (6 in 1319) [TCCGTGGA]

K=5 chi2=122 (16 in 1319) achi2=206 (5 in 1319) [TCCGTGGA]

K=6 chi2=015 (42 in 1319) achi2=084 (269 in 1319) [TCCGTGGA]

Error = 1

Quorum = 60

K=1 chi2=336 (1859 in 35494) achi2=391 (1312 in 35494) [TCCGAGGA]

K=1 chi2=612 (489 in 35494) achi2=660 (442 in 35494) [TCCGCGGA]

K=1 chi2=368 (1518 in 35494) achi2=402 (1240 in 35494) [TCCGTGGA]

K=2 chi2=363 (946 in 35494) achi2=379 (816 in 35494) [TCCGAGGA]

K=2 chi2=636 (218 in 35494) achi2=640 (206 in 35494) [TCCGCGGA]

K=2 chi2=416 (670 in 35494) achi2=428 (599 in 35494) [TCCGTGGA]

K=3 chi2=301 (498 in 35494) achi2=304 (471 in 35494) [TCCGAGGA]

K=3 chi2=515 (41 in 35494) achi2=480 (63 in 35494) [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 78

K=3 chi2=341 (278 in 35494) achi2=329 (327 in 35494) [TCCGTGGA]

K=4 chi2=285 (274 in 35494) achi2=295 (205 in 35494) [TCCGAGGA]

K=4 chi2=300 (198 in 35494) achi2=337 (85 in 35494) [TCCGCGGA]

K=4 chi2=217 (1082 in 35494) achi2=219 (1060 in 35494) [TCCGTGGA]

K=5 chi2=075 (6352 in 35725) achi2=087 (6044 in 35725) [TCCGAGGA]

K=5 chi2=079 (5926 in 35725) achi2=153 (2215 in 35725) [TCCGCGGA]

K=5 chi2=081 (5763 in 35725) achi2=080 (6754 in 35725) [TCCGTGGA]

K=6 chi2=003 (19985 in 35725) achi2=010 (17420 in 35725) [TCCGAGGA]

K=6 chi2=026 (6383 in 35725) achi2=053 (6615 in 35725) [TCCGCGGA]

K=6 chi2=011 (11922 in 35725) achi2=000 (30343 in 35725) [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 79

Anexo C Resultados do Caacutelculo da Significacircncia Estatiacutestica referente agrave Abundacircncia

pelo Meacutetodo Analiacutetico para Conjuntos de Dados de Saccharomyces cerevisiae

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados

A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos os resultados para os motivos procurados em relaccedilatildeo a cada valor dos paracircmetros

Descriccedilatildeo do formato dos resultados

K=ltk-mer conservadogt achi2 = ltchi2 analiacuteticogt (ltposiccedilatildeogt in ltnuacutemero de motivos extraiacutedosgt ltposiccedilatildeo entre motivos do mesmo tamanhogt [motivo]

Nota A posiccedilatildeo do motivo refere-se agrave ordem em que se encontra numa lista ordenada por ordem decrescente de chi2 analiacutetico dos motivos extraiacutedos

10_2_YRR1 Motivo TTCCGTGGAA TTCCGCGGAT TTCCGCGGAA Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=476 (745 in 8908) 13 [TTCCGCGGAA]

K=2 achi2=464 (509 in 8908) 12 [TTCCGCGGAA]

K=3 achi2=413 (230 in 8908) 11 [TTCCGCGGAA]

K=4 achi2=278 (205 in 8908) 10 [TTCCGCGGAA]

K=5 achi2=143 (287 in 8908) 12 [TTCCGCGGAA]

K=6 achi2=041 (1031 in 8908) 15 [TTCCGCGGAA]

K=7 achi2=000 (2230 in 8908) 16 [TTCCGCGGAA]

K=8 achi2=001 (4728 in 8908) 16 [TTCCGCGGAA]

K=9 achi2=001 (7926 in 8908) 16 [TTCCGCGGAA]

K=10 achi2=000 (8782 in 8908) 16 [TTCCGCGGAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 80

K=11 achi2=000 (8903 in 8908) 12 [TTCCGCGGAA]

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 achi2=387 (504 in 17722) 3 [ACCCTAAAGGT]

K=1 achi2=483 (265 in 17722) 2 [ACCTTAAAGGT]

K=2 achi2=389 (248 in 17722) 3 [ACCCTAAAGGT]

K=2 achi2=484 (119 in 17722) 2 [ACCTTAAAGGT]

K=3 achi2=391 (61 in 17722) 3 [ACCCTAAAGGT]

K=3 achi2=485 (14 in 17722) 2 [ACCTTAAAGGT]

K=4 achi2=387 (31 in 17722) 4 [ACCCTAAAGGT]

K=4 achi2=485 (4 in 17722) 2 [ACCTTAAAGGT]

K=5 achi2=343 (29 in 17722) 4 [ACCCTAAAGGT]

K=5 achi2=462 (3 in 17722) 2 [ACCTTAAAGGT]

K=6 achi2=282 (276 in 17722) 4 [ACCCTAAAGGT]

K=6 achi2=431 (259 in 17722) 2 [ACCTTAAAGGT]

K=7 achi2=063 (1455 in 17722) 4 [ACCCTAAAGGT]

K=7 achi2=197 (1286 in 17722) 3 [ACCTTAAAGGT]

K=8 achi2=004 (5422 in 17722) 3 [ACCCTAAAGGT]

K=8 achi2=005 (5392 in 17722) 1 [ACCTTAAAGGT]

K=9 achi2=000 (13376 in 17722) 3 [ACCCTAAAGGT]

K=9 achi2=005 (13364 in 17722) 1 [ACCTTAAAGGT]

K=10 achi2=000 (17186 in 17722) 3 [ACCCTAAAGGT]

K=10 achi2=000 (17184 in 17722) 1 [ACCTTAAAGGT]

K=11 achi2=000 (17688 in 17722) 3 [ACCCTAAAGGT]

K=11 achi2=000 (17686 in 17722) 1 [ACCTTAAAGGT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 81

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=523 (72 in 826) 21 [CCCCT]

K=2 achi2=297 (75 in 826) 23 [CCCCT]

K=3 achi2=152 (105 in 826) 55 [CCCCT]

K=4 achi2=007 (382 in 826) 310 [CCCCT]

K=5 achi2=000 (339 in 826) 245 [CCCCT]

K=6 achi2=000 (604 in 826) 255 [CCCCT]

Error = 1

Quorum = 60

K=1 achi2=462 (2153 in 21544) 223 [CCCCT]

K=2 achi2=070 (8620 in 21544) 476 [CCCCT]

K=3 achi2=000 (20723 in 21544) 986 [CCCCT]

K=4 achi2=083 (4322 in 21544) 81 [CCCCT]

K=5 achi2=000 (20635 in 21544) 618 [CCCCT]

K=6 achi2=000 (21264 in 21544) 744 [CCCCT]

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=314 (116 in 1316) 27 [CCCCT]

K=2 achi2=194 (178 in 1316) 39 [CCCCT]

K=3 achi2=140 (190 in 1316) 42 [CCCCT]

K=4 achi2=104 (150 in 1316) 19 [CCCCT]

K=5 achi2=000 (576 in 1316) 111 [CCCCT]

K=6 achi2=000 (1113 in 1316) 392 [CCCCT]

K=7 achi2=901 (324 in 1316) 94 [CCCCT]

K=8 achi2=901 (340 in 1316) 94 [CCCCT]

K=9 achi2=901 (341 in 1316) 94 [CCCCT]

K=10 achi2=901 (342 in 1316) 94 [CCCCT]

K=11 achi2=901 (343 in 1316) 94 [CCCCT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 82

Error = 1

Quorum = 60

K=1 achi2=082 (15627 in 35258) 568 [CCCCT]

K=2 achi2=000 (34292 in 35258) 986 [CCCCT]

K=3 achi2=011 (25832 in 35258) 671 [CCCCT]

K=4 achi2=044 (14486 in 35258) 144 [CCCCT]

K=5 achi2=000 (34387 in 35258) 626 [CCCCT]

K=6 achi2=000 (34560 in 35258) 326 [CCCCT]

5_1_Gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=079 (3260 in 6121) 599 [CATCC]

K=1 achi2=1158 (344 in 6121) 50 [CTTCC]

K=2 achi2=161 (1763 in 6121) 312 [CATCC]

K=2 achi2=470 (566 in 6121) 105 [CTTCC]

K=3 achi2=192 (906 in 6121) 128 [CATCC]

K=3 achi2=109 (1663 in 6121) 248 [CTTCC]

K=4 achi2=091 (1091 in 6121) 97 [CATCC]

K=4 achi2=001 (5126 in 6121) 870 [CTTCC]

K=5 achi2=000 (5152 in 6121) 372 [CATCC]

K=5 achi2=000 (5000 in 6121) 230 [CTTCC]

K=6 achi2=000 (5438 in 6121) 341 [CATCC]

K=6 achi2=000 (5149 in 6121) 52 [CTTCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 83

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 achi2=273 (2534 in 10819) 831 [GATAAG]

K=1 achi2=102 (4875 in 10819) 1698 [GATTAG]

K=2 achi2=493 (849 in 10819) 251 [GATAAG]

K=2 achi2=268 (1952 in 10819) 593 [GATTAG]

K=3 achi2=174 (2107 in 10819) 675 [GATAAG]

K=3 achi2=925 (81 in 10819) 12 [GATTAG]

K=4 achi2=009 (7567 in 10819) 2712 [GATAAG]

K=4 achi2=352 (328 in 10819) 59 [GATTAG]

K=5 achi2=003 (7728 in 10819) 3046 [GATAAG]

K=5 achi2=159 (773 in 10819) 110 [GATTAG]

K=6 achi2=000 (6602 in 10819) 761 [GATAAG]

K=6 achi2=000 (6760 in 10819) 917 [GATTAG]

K=7 achi2=000 (10606 in 10819) 3684 [GATAAG]

K=7 achi2=000 (8570 in 10819) 1648 [GATTAG]

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

Error = 1

Quorum = 60

K=1 achi2=555 (2348 in 20531) 456 [CACCCA]

K=1 achi2=102 (9117 in 20531) 2005 [CACCCG]

K=2 achi2=368 (2233 in 20531) 460 [CACCCA]

K=2 achi2=117 (6956 in 20531) 1498 [CACCCG]

K=3 achi2=223 (2249 in 20531) 392 [CACCCA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 84

K=3 achi2=023 (12243 in 20531) 2397 [CACCCG]

K=4 achi2=105 (3457 in 20531) 482 [CACCCA]

K=4 achi2=002 (17523 in 20531) 3457 [CACCCG]

K=5 achi2=006 (13001 in 20531) 2409 [CACCCA]

K=5 achi2=048 (5016 in 20531) 610 [CACCCG]

K=6 achi2=000 (17016 in 20531) 1751 [CACCCA]

K=6 achi2=000 (18636 in 20531) 3343 [CACCCG]

K=7 achi2=000 (17654 in 20531) 1218 [CACCCA]

K=7 achi2=000 (18327 in 20531) 1891 [CACCCG]

7_0_REB1 Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 achi2=586 (33 in 405) 5 [TTACCC]

K=2 achi2=635 (12 in 405) 1 [TTACCC]

K=3 achi2=679 (2 in 405) 1 [TTACCC]

K=4 achi2=402 (3 in 405) 2 [TTACCC]

K=5 achi2=020 (8 in 405) 7 [TTACCC]

K=6 achi2=000 (232 in 405) 8 [TTACCC]

K=7 achi2=000 (402 in 405) 8 [TTACCC]

Error = 1

Quorum = 80

K=1 achi2=169 (2742 in 10337) 933 [TTACCC]

K=2 achi2=267 (945 in 10337) 284 [TTACCC]

K=3 achi2=394 (170 in 10337) 25 [TTACCC]

K=4 achi2=109 (1091 in 10337) 246 [TTACCC]

K=5 achi2=003 (6765 in 10337) 2619 [TTACCC]

K=6 achi2=000 (6295 in 10337) 852 [TTACCC]

K=7 achi2=000 (9863 in 10337) 3333 [TTACCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 85

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=615 (64 in 785) 12 [TGCCAAG]

K=2 achi2=585 (14 in 785) 3 [TGCCAAG]

K=3 achi2=575 (6 in 785) 2 [TGCCAAG]

K=4 achi2=377 (6 in 785) 2 [TGCCAAG]

K=5 achi2=157 (10 in 785) 5 [TGCCAAG]

K=6 achi2=055 (255 in 785) 4 [TGCCAAG]

K=7 achi2=000 (652 in 785) 18 [TGCCAAG]

K=8 achi2=000 (771 in 785) 15 [TGCCAAG]

Error = 1

Quorum = 60

K=1 achi2=458 (2166 in 20257) 407 [TGCCAAG]

K=2 achi2=287 (1959 in 20257) 462 [TGCCAAG]

K=3 achi2=270 (1060 in 20257) 241 [TGCCAAG]

K=4 achi2=030 (9306 in 20257) 3695 [TGCCAAG]

K=5 achi2=004 (13915 in 20257) 6353 [TGCCAAG]

K=6 achi2=029 (4512 in 20257) 1713 [TGCCAAG]

K=7 achi2=003 (5275 in 20257) 36 [TGCCAAG]

K=8 achi2=000 (12401 in 20257) 1099 [TGCCAAG]

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

K=1 achi2=996 (6 in 267) 1 [TGAAACA]

K=2 achi2=905 (1 in 267) 1 [TGAAACA]

K=3 achi2=884 (1 in 267) 1 [TGAAACA]

K=4 achi2=731 (1 in 267) 1 [TGAAACA]

K=5 achi2=320 (1 in 267) 1 [TGAAACA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 86

K=6 achi2=052 (168 in 267) 2 [TGAAACA]

K=7 achi2=000 (254 in 267) 1 [TGAAACA]

K=8 achi2=000 (266 in 267) 2 [TGAAACA]

Error = 1

Quorum = 100

K=1 achi2=400 (675 in 7705) 162 [TGAAACA]

K=2 achi2=157 (1246 in 7705) 402 [TGAAACA]

K=3 achi2=128 (992 in 7705) 375 [TGAAACA]

K=4 achi2=026 (3100 in 7705) 1267 [TGAAACA]

K=5 achi2=021 (2435 in 7705) 1154 [TGAAACA]

K=6 achi2=006 (2114 in 7705) 1435 [TGAAACA]

K=7 achi2=000 (2095 in 7705) 260 [TGAAACA]

K=8 achi2=000 (6802 in 7705) 1861 [TGAAACA]

7_1_SWI4 Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=950 (59 in 8974) 15 [CACGAAA]

K=1 achi2=1516 (9 in 8974) 2 [CGCGAAA]

K=2 achi2=638 (22 in 8974) 7 [CACGAAA]

K=2 achi2=924 (3 in 8974) 1 [CGCGAAA]

K=3 achi2=436 (53 in 8974) 25 [CACGAAA]

K=3 achi2=502 (25 in 8974) 10 [CGCGAAA]

K=4 achi2=106 (1095 in 8974) 476 [CACGAAA]

K=4 achi2=390 (27 in 8974) 9 [CGCGAAA]

K=5 achi2=000 (7343 in 8974) 3297 [CACGAAA]

K=5 achi2=121 (397 in 8974) 176 [CGCGAAA]

K=6 achi2=001 (3810 in 8974) 2702 [CACGAAA]

K=6 achi2=044 (873 in 8974) 314 [CGCGAAA]

K=7 achi2=000 (2384 in 8974) 205 [CACGAAA]

K=7 achi2=000 (2371 in 8974) 194 [CGCGAAA]

K=8 achi2=000 (8531 in 8974) 3025 [CACGAAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 87

K=8 achi2=000 (5630 in 8974) 124 [CGCGAAA]

7_2_RGT1

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=2140 (236 in 6085) 74 [CGGAAAA]

K=1 achi2=803 (815 in 6085) 253 [CGGAAGA]

K=1 achi2=1409 (416 in 6085) 129 [CGGAGAA]

K=1 achi2=350 (1782 in 6085) 511 [CGGATAA]

K=2 achi2=840 (245 in 6085) 67 [CGGAAAA]

K=2 achi2=442 (666 in 6085) 169 [CGGAAGA]

K=2 achi2=937 (208 in 6085) 55 [CGGAGAA]

K=2 achi2=428 (695 in 6085) 175 [CGGATAA]

K=3 achi2=272 (385 in 6085) 126 [CGGAAAA]

K=3 achi2=225 (546 in 6085) 173 [CGGAAGA]

K=3 achi2=544 (89 in 6085) 28 [CGGAGAA]

K=3 achi2=309 (299 in 6085) 100 [CGGATAA]

K=4 achi2=022 (2503 in 6085) 821 [CGGAAAA]

K=4 achi2=040 (1722 in 6085) 598 [CGGAAGA]

K=4 achi2=304 (56 in 6085) 23 [CGGAGAA]

K=4 achi2=202 (188 in 6085) 81 [CGGATAA]

K=5 achi2=003 (3495 in 6085) 1206 [CGGAAAA]

K=5 achi2=019 (1882 in 6085) 749 [CGGAAGA]

K=5 achi2=238 (34 in 6085) 12 [CGGAGAA]

K=5 achi2=138 (154 in 6085) 74 [CGGATAA]

K=6 achi2=009 (1192 in 6085) 744 [CGGAAAA]

K=6 achi2=031 (682 in 6085) 300 [CGGAAGA]

K=6 achi2=057 (459 in 6085) 122 [CGGAGAA]

K=6 achi2=042 (550 in 6085) 191 [CGGATAA]

K=7 achi2=000 (1608 in 6085) 53 [CGGAAAA]

K=7 achi2=000 (2439 in 6085) 861 [CGGAAGA]

K=7 achi2=000 (2150 in 6085) 572 [CGGAGAA]

K=7 achi2=000 (2472 in 6085) 894 [CGGATAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 88

K=8 achi2=000 (6056 in 6085) 1512 [CGGAAAA]

K=8 achi2=000 (5728 in 6085) 1184 [CGGAAGA]

K=8 achi2=000 (5127 in 6085) 583 [CGGAGAA]

K=8 achi2=000 (5961 in 6085) 1417 [CGGATAA]

8_1_PDR1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 75

K=1 achi2=884 (27 in 639) 1 [TCCGCGGA]

K=2 achi2=883 (14 in 639) 1 [TCCGCGGA]

K=3 achi2=864 (5 in 639) 1 [TCCGCGGA]

K=4 achi2=741 (2 in 639) 1 [TCCGCGGA]

K=5 achi2=306 (1 in 639) 1 [TCCGCGGA]

K=6 achi2=030 (253 in 639) 1 [TCCGCGGA]

K=7 achi2=012 (587 in 639) 1 [TCCGCGGA]

K=8 achi2=000 (633 in 639) 1 [TCCGCGGA]

K=9 achi2=000 (639 in 639) 1 [TCCGCGGA]

Error = 1

Quorum = 75

K=1 achi2=1370 (211 in 16695) 48 [TCCGCGGA]

K=1 achi2=895 (419 in 16695) 111 [TCCGTGGA]

K=2 achi2=1355 (91 in 16695) 26 [TCCGCGGA]

K=2 achi2=944 (230 in 16695) 59 [TCCGTGGA]

K=3 achi2=1138 (22 in 16695) 13 [TCCGCGGA]

K=3 achi2=771 (119 in 16695) 39 [TCCGTGGA]

K=4 achi2=688 (33 in 16695) 9 [TCCGCGGA]

K=4 achi2=610 (56 in 16695) 18 [TCCGTGGA]

K=5 achi2=113 (1171 in 16695) 496 [TCCGCGGA]

K=5 achi2=207 (324 in 16695) 135 [TCCGTGGA]

K=6 achi2=000 (10537 in 16695) 2237 [TCCGCGGA]

K=6 achi2=003 (8322 in 16695) 1955 [TCCGTGGA]

K=7 achi2=000 (4060 in 16695) 2312 [TCCGCGGA]

K=7 achi2=000 (4066 in 16695) 2318 [TCCGTGGA]

K=8 achi2=000 (5835 in 16695) 174 [TCCGCGGA]

K=8 achi2=000 (6050 in 16695) 389 [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 89

K=9 achi2=000 (15679 in 16695) 1375 [TCCGCGGA]

K=9 achi2=000 (14892 in 16695) 588 [TCCGTGGA]

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 achi2=985 (24 in 423) 1 [TCCGCGGA]

K=2 achi2=985 (13 in 423) 1 [TCCGCGGA]

K=3 achi2=967 (4 in 423) 1 [TCCGCGGA]

K=4 achi2=802 (1 in 423) 1 [TCCGCGGA]

K=5 achi2=303 (1 in 423) 1 [TCCGCGGA]

K=6 achi2=027 (229 in 423) 1 [TCCGCGGA]

K=7 achi2=013 (401 in 423) 1 [TCCGCGGA]

K=8 achi2=000 (420 in 423) 1 [TCCGCGGA]

K=9 achi2=000 (423 in 423) 1 [TCCGCGGA]

Error = 1

Quorum = 80

K=1 achi2=1592 (187 in 11592) 35 [TCCGCGGA]

K=1 achi2=1109 (353 in 11592) 83 [TCCGTGGA]

K=2 achi2=1584 (97 in 11592) 25 [TCCGCGGA]

K=2 achi2=1142 (197 in 11592) 44 [TCCGTGGA]

K=3 achi2=1364 (24 in 11592) 9 [TCCGCGGA]

K=3 achi2=894 (109 in 11592) 35 [TCCGTGGA]

K=4 achi2=785 (35 in 11592) 11 [TCCGCGGA]

K=4 achi2=689 (52 in 11592) 16 [TCCGTGGA]

K=5 achi2=127 (769 in 11592) 243 [TCCGCGGA]

K=5 achi2=146 (609 in 11592) 204 [TCCGTGGA]

K=6 achi2=001 (5466 in 11592) 879 [TCCGCGGA]

K=6 achi2=004 (4665 in 11592) 789 [TCCGTGGA]

K=7 achi2=000 (2570 in 11592) 968 [TCCGCGGA]

K=7 achi2=000 (2517 in 11592) 941 [TCCGTGGA]

K=8 achi2=000 (5547 in 11592) 157 [TCCGCGGA]

K=8 achi2=000 (5666 in 11592) 276 [TCCGTGGA]

K=9 achi2=000 (10744 in 11592) 135 [TCCGCGGA]

K=9 achi2=000 (11041 in 11592) 432 [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 90

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=287 (133 in 1319) 8 [TCCGTGGA]

K=2 achi2=289 (95 in 1319) 5 [TCCGTGGA]

K=3 achi2=278 (15 in 1319) 2 [TCCGTGGA]

K=4 achi2=255 (6 in 1319) 1 [TCCGTGGA]

K=5 achi2=206 (5 in 1319) 2 [TCCGTGGA]

K=6 achi2=084 (269 in 1319) 7 [TCCGTGGA]

K=7 achi2=000 (897 in 1319) 17 [TCCGTGGA]

K=8 achi2=000 (1232 in 1319) 8 [TCCGTGGA]

K=9 achi2=000 (1303 in 1319) 1 [TCCGTGGA]

Error = 1

Quorum = 60

K=1 achi2=391 (1312 in 35494) 312 [TCCGAGGA]

K=1 achi2=660 (442 in 35494) 89 [TCCGCGGA]

K=1 achi2=402 (1240 in 35494) 301 [TCCGTGGA]

K=2 achi2=379 (816 in 35494) 174 [TCCGAGGA]

K=2 achi2=640 (206 in 35494) 48 [TCCGCGGA]

K=2 achi2=428 (599 in 35494) 123 [TCCGTGGA]

K=3 achi2=304 (471 in 35494) 120 [TCCGAGGA]

K=3 achi2=480 (63 in 35494) 10 [TCCGCGGA]

K=3 achi2=329 (327 in 35494) 87 [TCCGTGGA]

K=4 achi2=295 (205 in 35494) 61 [TCCGAGGA]

K=4 achi2=337 (85 in 35494) 28 [TCCGCGGA]

K=4 achi2=219 (1060 in 35494) 257 [TCCGTGGA]

K=5 achi2=087 (5828 in 35494) 2082 [TCCGAGGA]

K=5 achi2=153 (2062 in 35494) 521 [TCCGCGGA]

K=5 achi2=080 (6534 in 35494) 2399 [TCCGTGGA]

K=6 achi2=010 (17189 in 35494) 7240 [TCCGAGGA]

K=6 achi2=053 (6392 in 35494) 2378 [TCCGCGGA]

K=6 achi2=000 (30112 in 35494) 12027 [TCCGTGGA]

K=7 achi2=006 (9736 in 35494) 4698 [TCCGAGGA]

K=7 achi2=006 (10113 in 35494) 5025 [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 91

K=7 achi2=000 (17876 in 35494) 11124 [TCCGTGGA]

K=8 achi2=000 (12067 in 35494) 1424 [TCCGAGGA]

K=8 achi2=000 (11172 in 35494) 529 [TCCGCGGA]

K=8 achi2=000 (11688 in 35494) 1045 [TCCGTGGA]

K=9 achi2=000 (31497 in 35494) 8200 [TCCGAGGA]

K=9 achi2=000 (25674 in 35494) 2377 [TCCGCGGA]

K=9 achi2=000 (29818 in 35494) 6521 [TCCGTGGA]

Page 11: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004

Relatoacuterio Intercalar de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 1

1 Introduccedilatildeo

A crescente disponibilidade de dados sobre o genoma de vaacuterios organismos tem possibilitado

o aparecimento de novos projectos na aacuterea da biologia No entanto a quantidade massiva de

dados disponiacuteveis torna impossiacutevel uma anaacutelise manual da informaccedilatildeo sendo cada vez mais

premente a necessidade de um processamento automaacutetico dos dados obtidos

Neste contexto a identificaccedilatildeo e modelaccedilatildeo da regiatildeo promotora dos genes assume um papel

fundamental pois as condiccedilotildees de activaccedilatildeo e transcriccedilatildeo de um gene dependem das

sequecircncias de nucleoacutetidos aiacute presentes

As sequecircncias de nucleoacutetidos da regiatildeo promotora que determinam a transcriccedilatildeo do gene satildeo

denominadas de promotores e satildeo representadas por sequecircncias de consenso ou

simplesmente consensos A literatura refere vaacuterias formas de descriccedilatildeo destes consensos

desde a utilizaccedilatildeo de uma matriz de pesos a uma sequecircncia de bases mais frequentes Neste

trabalho utilizamos uma codificaccedilatildeo IUPAC destas sequecircncias que corresponde a um

conjunto de sequecircncias degeneradas em que cada siacutembolo representa um conjunto de

nucleoacutetidos possiacuteveis para uma dada posiccedilatildeo

Actualmente existem vaacuterios algoritmos cujo objectivo eacute encontrar sequecircncias candidatas a

sequecircncias de consenso nas regiotildees promotoras As sequecircncias que satildeo reportadas como

possiacuteveis consensos satildeo designadas de motivos Os algoritmos de pesquisa de motivos podem

ser agrupados de uma forma geral em dois tipos algoritmos restritivos e algoritmos

proliacuteficos

Os algoritmos restritivos concentram-se em encontrar poucos motivos mas de relevacircncia

assinalaacutevel enquanto que os algoritmos proliacuteficos preocupam-se em determinar todos os

motivos que possam ser encontrados de acordo com determinados paracircmetros de pesquisa

Os algoritmos designados de proliacuteficos tecircm a vantagem de natildeo fazerem suposiccedilotildees a priori

No entanto a grande quantidade de motivos encontrados requer um esforccedilo de poacutes-

processamento significativo

Este trabalho tem por objectivo o desenvolvimento de uma metodologia que permita o

processamento automaacutetico dos motivos encontrados por um algoritmo que pode ser

classificado de proliacutefico o algoritmo SMILE [1]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 2

No Capiacutetulo 2 apresentamos uma descriccedilatildeo do problema em anaacutelise evidenciando a

motivaccedilatildeo bioloacutegica e fazendo o seu enquadramento com os objectivos do trabalho

No Capiacutetulo 3 descrevemos o algoritmo SMILE no contexto do problema da extracccedilatildeo de

motivos e apresentamos um gerador de dados sinteacuteticos que seraacute usado como ponto de partida

do estudo da eficaacutecia do algoritmo

No Capiacutetulo 4 discutimos a utilizaccedilatildeo de meacutetodos estatiacutesticos para aferir a significacircncia

bioloacutegica dos motivos extraiacutedos pelo SMILE

No Capiacutetulo 5 apresentamos um meacutetodo para geraccedilatildeo de uma representaccedilatildeo compacta de

motivos extraiacutedos usando a codificaccedilatildeo IUPAC

Finalmente no Capiacutetulo 6 apresentamos vaacuterios resultados obtidos tanto com dados sinteacuteticos

como com dados reais discutindo a aplicabilidade dos meacutetodos estatiacutesticos apresentados no

Capiacutetulo 4

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 3

2 Descriccedilatildeo do Problema

A moleacutecula de DNA eacute responsaacutevel pela manutenccedilatildeo da informaccedilatildeo geneacutetica de cada indiviacuteduo

e eacute constituiacuteda por duas cadeias de nucleoacutetidos dispostas de modo a formar uma dupla

heacutelice [2] que se encontra representada na Figura 21 Cada nucleoacutetido eacute formado por trecircs

elementos um accediluacutecar um grupo fosfato e uma de quatro bases azotadas As quatro bases satildeo

a Adenina (A) a Timina (T) a Guanina (G) e a Citosina (C) e podem ser vistas como os

quatro elementos de um alfabeto

Figura 21

Representaccedilatildeo de cadeias de DNA em forma de dupla heacutelice

As duas cadeias de DNA satildeo complementares no sentido em que as bases das duas cadeias

estatildeo emparelhadas Assim uma Adenina de uma cadeia emparelha com uma Timina da

cadeia complementar e do mesmo modo uma Citosina emparelha com uma Guanina

Os genes satildeo segmentos de uma cadeia de DNA que controlam a siacutentese proteica e

consequentemente toda a actividade celular O genoma eacute o conjunto de genes de um

indiviacuteduo

A expressatildeo geacutenica eacute o processo atraveacutes do qual a informaccedilatildeo contida nos genes dirige a

siacutentese de proteiacutenas Este processo envolve dois passos transcriccedilatildeo e traduccedilatildeo

A transcriccedilatildeo consiste na transferecircncia da informaccedilatildeo contida no DNA para uma moleacutecula

intermediaacuteria de RNA designada de RNA-mensageiro ou mRNA De seguida o molde de

mRNA eacute usado no passo de traduccedilatildeo onde iraacute dirigir a siacutentese proteica

Este processo eacute semelhante em todos os organismos vivos embora existam diferenccedilas

assinalaacuteveis entre organismos eucariotas e procariotas isto eacute entre organismos com e sem

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 4

nuacutecleo individualizado respectivamente Em particular o mecanismo eacute consideravelmente

mais complexo em organismos eucariotas A Figura 22 ilustra o processo de expressatildeo geacutenica

em eucariotas (Figura 22-A) e procariotas (Figura 22-B)

Figura 22 Expressatildeo geacutenica em eucariotas (A) e procariotas (B)

Actualmente o problema da identificaccedilatildeo e modelaccedilatildeo dos mecanismos que regulam a

interacccedilatildeo entre grupos de genes eacute um dos problemas mais em foco na investigaccedilatildeo em

biologia computacional Como jaacute foi referido a regiatildeo promotora eacute parte essencial do

mecanismo de regulaccedilatildeo da transcriccedilatildeo geacutenica

A biologia oferece-nos alguns modelos da regiatildeo promotora evidenciando as diferenccedilas entre

organismos procariotas (Figura 23) e eucariotas (Figura 24)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 5

Figura 23 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em procariotas

Figura 24 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em eucariotas

No mecanismo de transcriccedilatildeo geacutenica interveacutem uma enzima denominada RNA-polimerase

Esta enzima tem como funccedilatildeo a transcriccedilatildeo da informaccedilatildeo contida no DNA para uma cadeia

de RNA que iraacute posteriormente intervir no processo de siacutentese proteica

Para que a RNA-polimerase inicie a transcriccedilatildeo de uma cadeia de DNA geralmente um gene

eacute necessaacuterio que se cumpram algumas condiccedilotildees Assim entre outras eacute necessaacuterio que

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 6

estejam presentes na regiatildeo promotora motivos que a RNA-polimerase reconheccedila e aos quais

se possa ligar para iniciar a transcriccedilatildeo da regiatildeo a jusante (na literatura inglesa estas regiotildees

satildeo denominadas de binding sites) As condiccedilotildees de activaccedilatildeo desta enzima satildeo mais

complexas nos organismos eucariotas [3] uma vez que neste caso para aleacutem dos motivos

referidos existem ainda vaacuterios outros que satildeo reconhecidos por factores de transcriccedilatildeo isto eacute

proteiacutenas que se ligam sucessivamente agrave RNA-polimerase estabelecendo um complexo

mecanismo de regulaccedilatildeo Estes motivos podem estar a montante a jusante ou mesmo no

interior do gene a ser transcrito e podem ainda exercer um efeito estimulador ou repressor da

transcriccedilatildeo Os locais onde existem motivos aos quais se ligam os diversos factores de

transcriccedilatildeo satildeo designados genericamente por regiotildees reguladoras

Eacute possiacutevel compreender agora a importacircncia da necessidade de ser definido um modelo ou

modelos para a regiatildeo promotora no acircmbito do estudo do genoma

Neste trabalho utilizamos o algoritmo SMILE para procurar motivos interessantes isto eacute

biologicamente significativos em cadeias de DNA pertencentes agrave regiatildeo promotora dos genes

Como jaacute foi referido trata-se de um algoritmo proliacutefico no sentido em que se preocupa em

encontrar todas as sequecircncias que cumpram os paracircmetros especificados Sendo assim torna-

se necessaacuterio um esforccedilo significativo de poacutes-processamento para que possa ser obtida

informaccedilatildeo uacutetil a partir dos dados gerados

O poacutes-processamento dos motivos extraiacutedos inclui uma anaacutelise estatiacutestica que culmina com a

atribuiccedilatildeo de um niacutevel de significacircncia a cada motivo Deste modo eacute possiacutevel definir um

crivo que separa motivos considerados relevantes de motivos agrave partida menos interessantes

Finalmente e depois de ter sido encontrado um conjunto de motivos relevantes seraacute efectuada

uma traduccedilatildeo para uma representaccedilatildeo IUPAC Esta representaccedilatildeo permite compactar os

dados agrupando motivos muito semelhantes Este passo eacute de importacircncia essencial para uma

utilizaccedilatildeo eficiente dos dados obtidos uma vez que uma representaccedilatildeo compacta facilita a sua

utilizaccedilatildeo em pesquisas em bases de dados bioloacutegicas que contecircm informaccedilatildeo sobre

consensos anteriormente identificados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 7

3 Extracccedilatildeo de motivos

31 Algoritmo SMILE

O SMILE eacute um meacutetodo algoriacutetmico de extracccedilatildeo de motivos de sequecircncias bioloacutegicas O

algoritmo comeccedila por processar um conjunto de dados de entrada composto por vaacuterias

sequecircncias natildeo alinhadas de nucleoacutetidos que se sabe conterem um ou mais binding sites Estes

dados satildeo utilizados para calcular ocorrecircncias de motivos usando como estrutura de dados

base uma aacutervore de sufixos

Um modelo eacute uma representaccedilatildeo de subsequecircncias que ocorrem nos dados de entrada

satisfazendo potencialmente certas propriedades

O algoritmo iraacute assim pesquisar modelos (simples ou estruturados) nos dados que lhe satildeo

fornecidos segundo alguns paracircmetros

Um modelo simples diz respeito a uma subsequecircncia contiacutegua de nucleoacutetidos enquanto que

um modelo estruturado eacute uma composiccedilatildeo de modelos simples

Um modelo estruturado pode ser constituiacutedo por vaacuterias partes posicionadas ao longo da

sequecircncia Cada parte eacute um modelo simples que pode ter um tamanho variaacutevel (entre kmin e

kmax) O espaccedilo entre cada parte consecutiva pode tambeacutem ser parametrizado (dmin e dmax)

Do mesmo modo tambeacutem eacute possiacutevel parametrizar o nuacutemero de erros que se permite ocorrer

no modelo e em cada uma das suas partes

A Figura 31 apresenta um exemplo de uma especificaccedilatildeo de um modelo estruturado em que

se consideram duas partes A primeira parte pode ter um tamanho entre 6 e 8 nucleoacutetidos e satildeo

admitidos 2 erros A segunda parte pode ocorrer entre 16 e 18 nucleoacutetidos apoacutes a primeira

parte e teraacute um tamanho igualmente entre 6 e 8 embora seja admitido apenas 1 erro

A Figura 32 apresenta o esquema de outro modelo estruturado e respectiva concretizaccedilatildeo

numa sequecircncia Neste exemplo consideram-se igualmente duas partes A primeira com

tamanho entre 6 e 10 nucleoacutetidos e a segunda entre 6 e 8 As partes podem estar a uma

distacircncia que varia entre 10 e 15 nucleoacutetidos e natildeo satildeo admitidos erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 8

Figura 31 Exemplo de uma especificaccedilatildeo de um modelo estruturado

Figura 32 (a) Exemplo de especificaccedilatildeo (b) Modelo retirado de uma sequecircncia

que cumpre a especificaccedilatildeo

Um modelo eacute considerado vaacutelido caso o nuacutemero de sequecircncias de entrada em que ocorre seja

natildeo inferior a um miacutenimo estabelecido designado por quoacuterum Os modelos vaacutelidos satildeo

designados de motivos

Para verificar o nuacutemero de ocorrecircncias eacute utilizada uma aacutervore de sufixos Uma aacutervore de

sufixos eacute uma estrutura de dados que representa todos os sufixos de uma cadeia de caracteres

As suas caracteriacutesticas satildeo de grande utilidade para os algoritmos de emparelhamento de

caracteres

6-10 6-8

10-15

(a)

ATTATTA_CTATCT

ATTATTAGTACTCATACCTATCT

(b)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 9

O SMILE processa conjuntos de dados isto eacute conjuntos de sequecircncias de nucleoacutetidos

utilizando para esse efeito uma aacutervores de sufixos generalizada Esta estrutura de dados

difere da aacutervore de sufixos simples no sentido em que agrupa vaacuterias cadeias de caracteres

correspondentes agraves vaacuterias sequecircncias de nucleoacutetidos Esta multiplicidade de sequecircncias exige

que a estrutura registe as sequecircncias a que cada sufixo pertence As aacutervores de sufixos fazem

uso de um siacutembolo terminador ($) para assinalar o fim de cada sufixo

A Figura 33 eacute um exemplo de uma aacutervore de sufixos generalizada

Figura 33 - Aacutervore de sufixos generalizada para as sequecircncias

TACTA$ (sequecircncia 1) e CACTCA$ (sequecircncia 2)

A extracccedilatildeo de motivos eacute feita atraveacutes da travessia em profundidade-primeiro de uma aacutervore

lexicograacutefica virtual de modo a garantir que se explora o espaccedilo de todos os modelos

possiacuteveis Esta travessia da aacutervore lexicograacutefica eacute acompanhada da exploraccedilatildeo da aacutervore de

sufixos generalizada de forma a obter todos os sufixos a distacircncia de Hamming natildeo superior a

e1 do modelo em consideraccedilatildeo Assim para cada noacute da aacutervore virtual eacute verificado o quoacuterum

do modelo correspondente contabilizando para tanto o nuacutemero de sequecircncias diferentes que

participam com sufixos a distacircncia de Hamming natildeo superior a e do modelo

1 O valor desta distacircncia depende do nuacutemero de erros admitidos na extracccedilatildeo de motivos e corresponde a um dos

paracircmetros do algoritmo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 10

A extracccedilatildeo de motivos estruturados eacute feita de forma semelhante correspondendo a muacuteltiplas

procuras de modelos simples que constituem cada parte do modelo estruturado A transiccedilatildeo

entre partes ilustrada pela Figura 34 corresponde a um salto na aacutervore de sufixos com tantos

niacuteveis de profundidade adicionais quanto a distacircncia especificada entre cada parte

Uma descriccedilatildeo pormenorizada do algoritmo encontra-se em [4] e [5]

Figura 34 Esquema da procura de motivos estruturados usando uma aacutervore de

sufixos

Este algoritmo exacto gera todos os possiacuteveis motivos dentro dos paracircmetros especificados

Daqui resulta geralmente um nuacutemero demasiado grande de motivos sendo necessaacuterio

discriminar quais os verdadeiros binding sites Como meacutetodo de avaliaccedilatildeo o SMILE utiliza

um teste estatiacutestico que eacute descrito na Secccedilatildeo 41

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 11

32 Gerador de dados sinteacuteticos

A anaacutelise da eficaacutecia e eficiecircncia do algoritmo de extracccedilatildeo de motivos exige a utilizaccedilatildeo de

dados sobre os quais tenhamos agrave partida algum conhecimento Para tal foi desenvolvido um

gerador de dados sinteacuteticos

O gerador de dados sinteacuteticos permite por um lado evitar a necessidade de dispor de

conjuntos de dados reais e por outro ter um maior controlo sobre os motivos que estatildeo

realmente presentes nos dados

O gerador permite especificar o nuacutemero e o tamanho das sequecircncias do conjunto de dados

bem como os motivos a inserir Os motivos satildeo especificados pela sua sequecircncia de

nucleoacutetidos posiccedilatildeo na sequecircncia e frequecircncia de ocorrecircncia Os motivos podem ser simples

ou estruturados A Figura 35 representa um exemplo de um ficheiro de especificaccedilatildeo

Frequecircncia

Posiccedilatildeo

Sequecircncia Posiccedilatildeo

Sequecircncia

02 09 TGCTTTTTAAT

28 TCGA

03 02 AGTACATCGA

02 12 TGCGCA

Figura 35 Exemplo de um ficheiro de especificaccedilatildeo para a geraccedilatildeo de dados

sinteacuteticos

No exemplo apresentado satildeo especificados trecircs motivos (um motivo estruturado e dois

motivos simples) A primeira coluna (Frequecircncia) indica a percentagem de sequecircncias em que

o motivo deveraacute ocorrer Em particular para esta especificaccedilatildeo o primeiro motivo deveraacute

ocorrer em 20 das sequecircncias As restantes colunas especificam a posiccedilatildeo e a sequecircncia de

nucleoacutetidos de cada parte do motivo O nuacutemero e o tamanho das sequecircncias a gerar satildeo

especificados na linha de comandos do gerador

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 12

O gerador verifica a especificaccedilatildeo de modo a testar se eacute possiacutevel gerar um conjunto de dados

com as caracteriacutesticas indicadas Em particular eacute necessaacuterio que no caso das frequecircncias

especificadas somarem mais do que 1 alguns dos motivos sejam sobreponiacuteveis uma vez que o

gerador garante o cumprimento exacto da frequecircncia de ocorrecircncia especificada para cada

motivo

O processo de geraccedilatildeo do conjunto de dados envolve duas fases Numa primeira fase eacute gerado

um conjunto de dados aleatoacuterios em que a ocorrecircncia de cada nucleoacutetido eacute equiprovaacutevel Para

gerar aleatoriamente nucleoacutetidos eacute usada uma variaccedilatildeo do algoritmo ran2 [6]

Numa segunda fase satildeo inseridos os motivos especificados em tantas sequecircncias quanto as

necessaacuterias para perfazer a frequecircncia indicada As sequecircncias seleccionadas para a inserccedilatildeo

de motivos satildeo igualmente escolhidas de forma aleatoacuteria

O recurso a dados sinteacuteticos permite afastar a possibilidade de motivos bem classificados

corresponderem a consensos ainda natildeo identificados por via experimental como pode

acontecer quando se analisam conjuntos de dados reais No entanto eacute necessaacuterio termos

presentes as limitaccedilotildees da actual abordagem Em particular sabemos que a geraccedilatildeo

equiprovaacutevel de nucleoacutetidos estaacute em desacordo com a estatiacutestica tiacutepica da regiatildeo promotora

onde satildeo mais comuns A s e T s do que G s e C s Do mesmo modo podem existir outras

correlaccedilotildees de ordem superior designadamente uma preferecircncia por certos diacutemeros ou

triacutemeros em detrimento de outros Esta limitaccedilatildeo eacute ilustrada pelo facto de os resultados

obtidos com dados sinteacuteticos serem geralmente melhores do que os obtidos com dados reais

As causas e consequecircncias desta observaccedilatildeo seratildeo discutidas nas secccedilotildees seguintes

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 13

4 Anaacutelise Estatiacutestica

41 Teste do 2

Como jaacute foi referido o SMILE em geral extrai um elevado nuacutemero de modelos Para isolar

motivos relevantes eacute usado um teste estatiacutestico de modo a atribuir uma significacircncia estatiacutestica

a cada modelo extraiacutedo

O meacutetodo de avaliaccedilatildeo utilizado consiste em aplicar o teste do 2 com um grau de liberdade

O objectivo eacute determinar a probabilidade de obtermos motivos observados em sequecircncias

aleatoacuterias que preservam os k-mers2 das sequecircncias originais Assim pretende-se perceber se

a ocorrecircncia do motivo se deve agrave frequecircncia de k-mers presentes na sequecircncia aleatoacuteria tendo

portanto uma baixa significacircncia estatiacutestica ou se eacute verificada a situaccedilatildeo oposta ou seja

elevada significacircncia estatiacutestica Estes uacuteltimos satildeo considerados pelo algoritmo como os que

apresentam maior potencial de serem verdadeiros binding sites Para tal o SMILE permite a

realizaccedilatildeo de dois tipos alternativos de teste um quanto ao nuacutemero de sequecircncias em que o

motivo ocorre (quoacuterum) e outro em relaccedilatildeo agrave abundacircncia do motivo no conjunto de dados

Para aplicar o teste do 2 procedemos agrave construccedilatildeo de uma tabela de contingecircncia com 4

entradas (Tabela 41)

Dados Originais Dados Aleatoacuterios

Presenccedila Porig Prandom

Ausecircncia Aorig Arandom

Tabela 41 Tabela de contingecircncia para o caacutelculo do 2

2 Sequecircncias de nucleoacutetidos de tamanho k

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 14

As colunas da tabela referem-se agraves duas amostras em anaacutelise ou seja o conjunto de dados

original e as sequecircncias aleatoacuterias geradas As linhas da tabela referem-se agraves duas classes de

contagens Caso consideremos o teste quanto ao quoacuterum a classe Presenccedila diz respeito ao

nuacutemero de sequecircncias em que o motivo ocorre e a classe Ausecircncia refere-se ao nuacutemero de

sequecircncias em que o motivo natildeo ocorre Caso se trate do teste relativo agrave abundacircncia a

primeira classe refere-se ao nuacutemero de ocorrecircncias do motivo no conjunto de dados e a

segunda ao nuacutemero de natildeo ocorrecircncias do motivo em relaccedilatildeo ao nuacutemero de oportunidades de

ocorrecircncia Considera-se como nuacutemero de oportunidades de ocorrecircncia o tamanho do

conjunto de dados Esta tabela seraacute usada agora para fazer um teste de homogeneidade de

proporccedilotildees

Para calcular a significacircncia estatiacutestica basta usar a expressatildeo do 2 correspondente agrave equaccedilatildeo

(41) onde ijO diz respeito ao valor observado para a entrada (ij) da tabela e ijE se refere ao

correspondente valor esperado

21

22 )(

ji ij

ijij

E

OE

(41)

O valor esperado para cada entrada da tabela eacute dado pela expressatildeo (42) ou seja o valor

esperado para a entrada (ij) da tabela eacute igual ao produto do total da linha i pelo total da linha

j divido pela soma de todos os elementos da tabela

21

2121

lkkl

kkj

kik

ij O

OO

E (42)

Nas condiccedilotildees desta tabela de contingecircncia eacute possiacutevel utilizar uma forma expedita de caacutelculo

que consiste na aplicaccedilatildeo da expressatildeo (43)

))()()((

)()( 22

origorigrandomrandomrandomorigrandomorig

randomorigrandomorigorigrandomrandomorig

APAPAAPP

AAPPAPAP

(43)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 15

A hipoacutetese nula que consideramos neste teste estatiacutestico refere-se agrave possibilidade de os

motivos terem sido gerados por sequecircncias aleatoacuterias sob certas restriccedilotildees Isto eacute assumimos

que as contagens obtidas para os motivos nas sequecircncias originais satildeo semelhantes agraves que

obteriacuteamos em sequecircncias aleatoacuterias com as mesmas frequecircncias de k-mers Valores altos de

significacircncia estatiacutestica implicam a rejeiccedilatildeo da hipoacutetese nula

Um importante problema prende-se com a validade da aplicaccedilatildeo do teste do 2 O SMILE em

particular apresenta para cada motivo uma medida da sua significacircncia estatiacutestica No

entanto o verdadeiro interesse reside na determinaccedilatildeo da significacircncia bioloacutegica dos motivos

encontrados O que estaacute em causa eacute perceber se um motivo eacute um potencial binding site Eacute

necessaacuterio testar este meacutetodo em dados reais com consensos conhecidos para se perceber se a

significacircncia estatiacutestica apresenta uma elevada correlaccedilatildeo com a significacircncia bioloacutegica

No Capiacutetulo 6 apresentamos uma discussatildeo acerca da adequaccedilatildeo do teste do 2 para a afericcedilatildeo

da significacircncia bioloacutegica dos motivos extraiacutedos pelo SMILE

42 Meacutetodo de Shuffling

Como jaacute foi referido para efectuar o caacutelculo da significacircncia estatiacutestica o SMILE recorre agrave

geraccedilatildeo de sequecircncias aleatoacuterias com certas restriccedilotildees baseadas na estatiacutestica dos dados

originais Para o efeito eacute usado um algoritmo de data shuffling [78]

O meacutetodo de shuffling permite obter um conjunto de dados aleatoacuterio com base num conjunto

de dados original garantindo a preservaccedilatildeo exacta das frequecircncias de k-mers para um dado k

O meacutetodo de geraccedilatildeo pode ser visto como um passeio aleatoacuterio sobre um multi-grafo onde os

noacutes satildeo todas as subsequecircncias de tamanho k-1 presentes na sequecircncia original e cada aresta

corresponde a uma transiccedilatildeo entre (k-1)-mers verificada nos dados No caso de k igual a 1 natildeo

eacute gerado um multi-grafo sendo feita apenas uma reordenaccedilatildeo aleatoacuteria dos nucleoacutetidos de

cada sequecircncia

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 16

A Figura 41 ilustra um exemplo de um multi-grafo gerado a partir da sequecircncia

ATTATTTATT bem como um caminho no grafo que gera a sequecircncia alternativa

TATTATTTAT

Figura 41 Multi-grafo gerado pela sequecircncia ATTATTTATT para k=4 com 2

passeios aleatoacuterios

Para que cada sequecircncia gerada seja vaacutelida eacute necessaacuterio que tenha o mesmo tamanho que a

sequecircncia original Sendo assim eacute faacutecil perceber que apenas os caminhos eulerianos garantem

a geraccedilatildeo de uma sequecircncia com estas caracteriacutesticas No SMILE este processo eacute repetido

para cada sequecircncia isoladamente

Para garantir a fiabilidade dos resultados obtidos eacute efectuado um nuacutemero elevado de

simulaccedilotildees donde satildeo extraiacutedos os valores meacutedios do quoacuterum ou da abundacircncia de cada

motivo a partir dos quais eacute calculada a significacircncia estatiacutestica no sentido do teste do 2

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 17

A Figura 42 mostra um histograma com os resultados obtidos em 100 simulaccedilotildees para um

motivo extraiacutedo do conjunto de dados da Helicobater pylori3 onde foram preservadas as

frequecircncias relativas de nucleoacutetidos (k=1) Este conjunto de dados eacute constituiacutedo por 308

sequecircncias com comprimentos que variam entre 40 e 300 nucleoacutetidos Foi efectuada uma

procura de motivos simples com tamanhos natildeo inferiores a 6 Foi admitido 1 erro e foi

exigido um quoacuterum de 6

O histograma indica a percentagem de simulaccedilotildees em que o motivo em consideraccedilatildeo ocorre

num determinado nuacutemero de sequecircncias Em particular no exemplo da Figura 42 o motivo

TTTTAA ocorre num nuacutemero de sequecircncias entre 282 e 284 em 13 das simulaccedilotildees

A seta a negro refere-se ao nuacutemero de ocorrecircncias do motivo observadas no conjunto de dados

original Quanto mais afastada estiver a seta do maacuteximo da curva maior seraacute a significacircncia

estatiacutestica Neste caso foi atribuiacuteda uma significacircncia de 593 ao motivo TTTTAA

Figura 42 Histograma das ocorrecircncias observadas do motivo TTTTAA em 100

simulaccedilotildees de shuffling do conjunto de dados da H pylori

3 Organismo procariota

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 18

O meacutetodo de data shuffling pode ser pesado do ponto de vista computacional e representa

uma grande restriccedilatildeo no desempenho da avaliaccedilatildeo de motivos Em particular a necessidade

de pesquisar todos os motivos extraiacutedos em cada conjunto de dados aleatoacuterio gerado constitui

uma seacuterio entrave ao bom desempenho deste meacutetodo

Devido aos referidos problemas de desempenho opta-se geralmente por fazer um nuacutemero de

simulaccedilotildees com geraccedilatildeo de sequecircncias aleatoacuterias inferior ao estatisticamente aconselhado o

que pode ter impacto nos resultados

Outra questatildeo pertinente coloca-se ainda quanto agrave preservaccedilatildeo dos k-mers Uma vez que o

shuffling eacute feito sobre cada sequecircncia do conjunto de dados valores elevados de k impotildeem

restriccedilotildees severas agrave variabilidade dos conjuntos de dados aleatoacuterios gerados Assim para estes

valores o teste estatiacutestico eacute inuacutetil uma vez que os conjuntos de dados gerados satildeo

praticamente iguais ao conjunto de dados original Em particular quando o tamanho dos

k-mers a preservar eacute igual ou superior ao tamanho de um motivo as suas ocorrecircncias satildeo

estritamente conservadas no conjunto de dados aleatoacuterio levando a que o valor da

significacircncia seja 0 A Figura 43 ilustra o facto de a significacircncia estatiacutestica tender

inevitavelmente para zero agrave medida que o valor de k aumenta Os valores do graacutefico foram

igualmente obtidos a partir do conjunto de dados da H pylori descrito anteriormente

Figura 43 Graacutefico da evoluccedilatildeo da significacircncia estatiacutestica com o aumento do valor

de k para um motivo de tamanho 8 extraiacutedo do conjunto de dados da H pylori

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 19

43 Meacutetodo Analiacutetico

Nesta Secccedilatildeo propotildee-se um meacutetodo analiacutetico que tem por objectivo resolver alguns dos

problemas do meacutetodo de shuffling descrito na Secccedilatildeo anterior designadamente o fraco

desempenho computacional e as excessivas restriccedilotildees devidas agrave conservaccedilatildeo estrita das

frequecircncias dos k-mers Assim pretende-se obter um meacutetodo computacionalmente eficiente

para avaliar a relevacircncia de motivos extraiacutedos pelo SMILE

Com este meacutetodo comeccedila-se por abstrair um modelo de Markov a partir do conjunto de dados

em estudo Os estados do modelo de Markov correspondem a todos os (k-1)-mers presentes no

conjunto de dados sendo a probabilidade inicial de cada estado a frequecircncia relativa

observada do (k-1)-mer correspondente

A probabilidade de transiccedilatildeo entre estados corresponde agrave razatildeo entre o nuacutemero de vezes que o

(k-1)-mer referente ao estado de destino sucede ao (k-1)-mer referente ao estado de origem

nos dados e o nuacutemero de vezes que o (k-1)-mer correspondente ao estado de origem precede

qualquer outro (k-1)-mer nas sequecircncias em anaacutelise A Figura 45 apresenta um modelo de

Markov abstraiacutedo a partir do conjunto de dados referido na Figura 44

Figura 44 Conjunto de dados exemplo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 20

CA

TC

AT

TA

TT

101

51

52

101

51

Figura 45

Exemplo de uma cadeia de Markov para k=3

Cada motivo em anaacutelise eacute processado de forma a calcular a probabilidade do motivo ser

gerado pelo modelo de Markov abstraiacutedo

Esta probabilidade eacute calculada como o produto da probabilidade do estado inicial pela

probabilidade de todas as transiccedilotildees necessaacuterias para compor o motivo Em (44) (45) e (46)

apresenta-se o calculo desta probabilidade para o motivo ATTATT segundo a cadeia de

Markov da Figura 45

)()()()()()( TTATpATTApTATTpTTATpATpATTATTp

(44)

2

111

2

1

5

2)(ATTATTp (45)

10

1)(ATTATTp (46)

No caso em que k eacute igual 1 natildeo eacute construiacuteda uma cadeia de Markov sendo a probabilidade de

ocorrecircncia do motivo o produto das frequecircncias relativas no conjunto de dados dos

nucleoacutetidos que o compotildeem

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 21

Caso sejam admitidos e erros basta considerar a soma das probabilidades de todos motivos a

uma distacircncia de Hamming natildeo superior a e ao inveacutes de se considerar apenas a probabilidade

do motivo em anaacutelise

A probabilidade assim calculada seraacute usada para determinar as entradas referentes a dados

aleatoacuterios na tabela de contingecircncia descrita na Secccedilatildeo 41 para o teste relativo agrave abundacircncia

A determinaccedilatildeo das entradas na tabela quando consideramos o teste relativo ao quoacuterum de um

motivo eacute consideravelmente mais complexa pelo que natildeo a abordaremos neste texto

Assim as entradas randomP e randomA satildeo calculadas da forma indicada em (47) e (48)

respectivamente

))1)((()( nseqsmlenmotiflenseqsnseqskmpP Markovrandom

(47)

randomrandom PlenseqsnseqsA

(48)

Nas expressotildees (47) e (48)

)( kmpMarkov refere-se agrave probabilidade calculada para o motivo m a partir de uma cadeia

de Markov extraiacuteda do conjunto de dados para um dado k

nseqs designa o nuacutemero de sequecircncias do conjunto de dados

lseqs designa o comprimento meacutedio das sequecircncias do conjunto de dados

lenmotif(m) designa o tamanho do motivo m

Agrave semelhanccedila do SMILE no caacutelculo de randomA consideramos como nuacutemero de

oportunidades de ocorrecircncia o tamanho do conjunto de dados

Este meacutetodo apresenta um desempenho computacional significativamente melhor que o

meacutetodo baseado em shuffling uma vez que natildeo necessita de efectuar vaacuterias simulaccedilotildees tendo

apenas de processar o conjunto de dados por uma uacutenica vez O caacutelculo da significacircncia

estatiacutestica de cada motivo eacute linear em relaccedilatildeo ao seu comprimento

Por outro lado o meacutetodo analiacutetico natildeo enferma das mesmas limitaccedilotildees do que o teste

estatiacutestico baseado em simulaccedilotildees permitindo o caacutelculo de significacircncia estatiacutestica para

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 22

valores elevados de k Ao considerar a estatiacutestica de todo o conjunto de dados ao inveacutes de

cada sequecircncia isoladamente este meacutetodo pode tambeacutem agrave partida modelar melhor os dados

Resta acrescentar que o meacutetodo descrito nesta Secccedilatildeo soacute permite obter significacircncias

estatiacutesticas para motivos simples A realizaccedilatildeo de caacutelculos para motivos estruturados eacute

consideravelmente mais complexa e natildeo foi abordada neste trabalho

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 23

5 Geraccedilatildeo de coacutedigo IUPAC

A realizaccedilatildeo eficiente de pesquisas de consensos em bases de dados bioloacutegicas requer uma

representaccedilatildeo compacta dos dados armazenados Neste contexto a possibilidade de

representar consensos em coacutedigo IUPAC assume uma importacircncia fundamental

O coacutedigo IUPAC eacute uma extensatildeo sobre a representaccedilatildeo de sequecircncias de DNA Uma

sequecircncia de DNA eacute constituiacuteda por nucleoacutetidos A codificaccedilatildeo IUPAC introduz siacutembolos que

representam um conjunto de possiacuteveis nucleoacutetidos para uma dada posiccedilatildeo permitindo uma

representaccedilatildeo de sequecircncias degeneradas Por exemplo uma purina (A ou G) eacute representada

pela letra R A descriccedilatildeo completa dos coacutedigos IUPAC encontra-se na Tabela 51

Coacutedigo Descriccedilatildeo A Adenina

C Citosina

G Guanina

T Timina

U Uracilo

R Purina (A ou G)

Y Pirimidina (C T ou U)

M C ou A

K T U ou G

W T U ou A

S C ou G

B C T U ou G (natildeo A)

D A T U ou G (natildeo C)

H A T U ou C (natildeo G)

V A C ou G (natildeo T natildeo U)

N Qualquer base (A C G T ou U)

Tabela 51 Coacutedigo IUPAC

A conversatildeo de um conjunto de sequecircncias de DNA para um conjunto de sequecircncias IUPAC

natildeo eacute uma tarefa trivial Para um dado conjunto de sequecircncias existem diversas codificaccedilotildees

IUPAC possiacuteveis

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 24

O problema da geraccedilatildeo de coacutedigo IUPAC consiste em encontrar o conjunto miacutenimo de

sequecircncias IUPAC que representem um dado conjunto de sequecircncias DNA

Como o objectivo proposto eacute a compressatildeo da representaccedilatildeo das sequecircncias de nucleoacutetidos eacute

desejaacutevel que a codificaccedilatildeo IUPAC seja a mais compacta possiacutevel

A abordagem utilizada foi a de reduzir o problema da compressatildeo IUPAC a um problema

conhecido a minimizaccedilatildeo de expressotildees loacutegicas multi-valor

Uma expressatildeo loacutegica multi-valor eacute uma expressatildeo loacutegica onde figuram variaacuteveis multi-valor

ou seja variaacuteveis que necessitam de mais do que um bit para serem representadas

Para representar um siacutembolo IUPAC eacute utilizada uma variaacutevel multi-valor de 4 bits Os

siacutembolos e as respectivas representaccedilotildees estatildeo na Tabela 52

Siacutembolo

IUPAC

Codificaccedilatildeo

binaacuteria

A 1000

T 0100

C 0010

G 0001

R 1001

Y 0110

S 0011

W 1100

K 0101

M 1010

B 0111

D 1101

H 1110

V 1011

N 1111

Espaccedilo 0000

Tabela 52

Codificaccedilatildeo binaacuteria dos siacutembolos IUPAC

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 25

Uma sequecircncia de nucleoacutetidos ou IUPAC eacute construiacuteda atraveacutes de um produto de termos

sendo cada termo uma variaacutevel multi-valor que representa um siacutembolo da sequecircncia Por

exemplo a sequecircncia WTA eacute representada pela expressatildeo loacutegica (1100) (0100) (1000)

Agora que foi estabelecida uma representaccedilatildeo para sequecircncias IUPAC atraveacutes de expressotildees

loacutegicas multi-valor resta perceber como da minimizaccedilatildeo destas expressotildees pode resultar o

desejado coacutedigo IUPAC

Em (51) temos um exemplo simples de minimizaccedilatildeo loacutegica

ZXZYXZYX

(51)

Eacute faacutecil verificar que X Z eacute uma expressatildeo equivalente O que se pretende para a compressatildeo

IUPAC eacute algo semelhante

Por exemplo a partir das sequecircncias ATA e TTA pretende-se a expressatildeo IUPAC WTA A

simplificaccedilatildeo das expressotildees loacutegicas eacute exemplificada sucessivamente em (52) (53) e (54)

A T A + T T A (52)

(1000) (0100) (1000) + (0100) (0100) (1000)

(A ou T) T A (53)

((1000)+(0100)) (0100) (1000)

W T A (54)

(1100) (0100) (1000)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 26

Eacute faacutecil perceber atendendo agrave escolha criteriosa da codificaccedilatildeo que da minimizaccedilatildeo de

expressotildees loacutegicas que representam sequecircncias de nucleoacutetidos resultam expressotildees loacutegicas

que representam uma codificaccedilatildeo IUPAC das sequecircncias originais

O problema inicial encontra-se agora reduzido a um problema de minimizaccedilatildeo de expressotildees

loacutegicas Este problema jaacute estaacute resolvido na aacuterea da siacutentese loacutegica Um dos programas mais

conhecidos desenvolvido para a resoluccedilatildeo deste problema eacute o programa Espresso [9] Apesar

de ser utilizado neste contexto como uma caixa preta eacute importante perceber o seu

funcionamento

No Espresso as expressotildees loacutegicas satildeo representadas num espaccedilo booleano multi-

dimensional Um exemplo eacute um espaccedilo tridimensional onde podem ser representadas

sequecircncias de tamanho 3 tal como estaacute ilustrado na Figura 51

Figura 51

Representaccedilatildeo das sequecircncias ATA (1) e TTA (2)

Neste contexto um cubo define-se como a representaccedilatildeo espacial de um produto de termos

Ou seja para o problema em questatildeo cada sequecircncia de entrada eacute um cubo e uma cobertura

corresponde a um conjunto de cubos que engloba todos os veacutertices representados no espaccedilo

Pode observar-se que a dimensatildeo do espaccedilo encontra-se directamente relacionada com o

tamanho da sequecircncia que se pretende representar Para efectuar a minimizaccedilatildeo o Espresso

procura uma cobertura miacutenima que daraacute origem ao conjunto de sequecircncias IUPAC de saiacuteda

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 27

No caso do espaccedilo da Figura 51 existe uma cobertura miacutenima constituiacuteda por um uacutenico cubo

A Figura 52 ilustra a referida cobertura

Figura 52 Representaccedilatildeo da cobertura WTA (1)

Da cobertura resulta a codificaccedilatildeo IUPAC das sequecircncias iniciais

O processo para descobrir a cobertura miacutenima eacute complexo sendo composto por um conjunto

intrincado de passos Inicialmente o conjunto de cubos originais eacute expandido de forma a

englobar o maior nuacutemero de veacutertices adjacentes De seguida os cubos redundantes satildeo

removidos e os restantes satildeo reduzidos para que cubram apenas os cubos iniciais Um cubo eacute

considerado redundante se natildeo cobrir nenhum veacutertice que natildeo esteja jaacute coberto por outro

cubo Deste processo resulta uma reduccedilatildeo contiacutenua do nuacutemero de cubos necessaacuterios para a

cobertura O processo eacute reiterado ateacute natildeo se verificarem melhorias substanciais na dimensatildeo

da cobertura obtida

Este processo eacute guiado por heuriacutesticas e eacute possiacutevel demonstrar que produz resultados

proacuteximos da soluccedilatildeo oacuteptima O processo estaacute detalhadamente descrito em [910]

De modo a automatizar o processo de codificaccedilatildeo das sequecircncias de nucleoacutetidos e

descodificaccedilatildeo das sequecircncias IUPAC foi desenvolvida uma interface para o Espresso

Assim as sequecircncias de entrada satildeo transformadas em expressotildees loacutegicas (formato binaacuterio)

seguindo a correspondecircncia referida na Tabela 52 Do mesmo modo a representaccedilatildeo da

cobertura miacutenima obtida pelo Espresso eacute descodificada e traduzida para sequecircncias IUPAC

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 28

O funcionamento da interface foi testado com recurso a um gerador aleatoacuterio de sequecircncias de

nucleoacutetidos e a um verificador O gerador produz um conjunto de sequecircncias obtidas a partir

de uma sequecircncia inicial de nucleoacutetidos O conjunto de sequecircncias gerado corresponde a

vaacuterias substituiccedilotildees aleatoacuterias na sequecircncia inicial e constitui o conjunto de entrada que vai

ser lido pela ferramenta Espresso O verificador recebe o conjunto de sequecircncias de entrada e

o resultado da operaccedilatildeo de minimizaccedilatildeo do Espresso sob a forma de sequecircncias de coacutedigos

IUPAC Deste modo ao expandir as sequecircncias IUPAC obtidas pelo Espresso atraveacutes de

uma operaccedilatildeo trivial de substituiccedilotildees sucessivas eacute possiacutevel testar a completude e adequaccedilatildeo

da representaccedilatildeo Assim diz-se que a representaccedilatildeo eacute completa se a expansatildeo incluir todas as

sequecircncias de entrada por outro lado diz-se que a representaccedilatildeo eacute adequada se natildeo incluir

nenhuma sequecircncia que natildeo esteja no conjunto inicial

Depois de verificada a completude e adequaccedilatildeo das representaccedilotildees obtidas foram feitos testes

com dados reais de modo a poder aferir o grau de compressatildeo das sequecircncias introduzidas

Assim o Espresso foi executado tendo como conjunto de entrada sequecircncias devidamente

codificadas obtidas atraveacutes de uma execuccedilatildeo do SMILE

As taxas de compressatildeo obtidas variam entre 278 e 715

O gerador de coacutedigo IUPAC encontra-se neste momento integrado na base de dados Dbyeast

[11] disponibilizando publicamente o serviccedilo de codificaccedilatildeo A Figura 53 eacute uma imagem da

interface que permite que os utilizadores da Dbyeast obtenham coacutedigo IUPAC a partir de

sequecircncias de DNA

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 29

Figura 53 Interface para geraccedilatildeo de coacutedigo IUPAC integrada na Dbyeast

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 30

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 31

6 Resultados e Conclusotildees

Neste Capiacutetulo iremos analisar os resultados obtidos tanto para dados sinteacuteticos como para

dados reais Para tal iremos comparar os valores de significacircncia estatiacutestica obtidos para os

dois tipos de dados usando tanto o meacutetodo de shuffling como o meacutetodo analiacutetico Para efectuar

esta comparaccedilatildeo eacute uacutetil referirmo-nos agrave posiccedilatildeo obtida pelos motivos em anaacutelise numa lista

ordenada por valores decrescentes de significacircncia estatiacutestica Assim sempre que

mencionarmos o valor da posiccedilatildeo de um motivo estaremos a referir-nos agrave posiccedilatildeo numa lista

assim definida

61 Resultados Obtidos com Dados Sinteacuteticos

Como jaacute foi referido a utilizaccedilatildeo de dados sinteacuteticos permite um maior controlo sobre os

motivos que estatildeo efectivamente presentes no conjunto de dados Assim iremos referir-nos

aos motivos que foram introduzidos no conjunto de dados gerado por motivos especificados

em oposiccedilatildeo aos outros motivos igualmente extraiacutedos pelo SMILE que designaremos por

motivos natildeo-especificados Nesta Secccedilatildeo iremos considerar o teste de significacircncia estatiacutestica

relativo agrave abundacircncia de forma a podermos comparar os resultados obtidos com o meacutetodo

shuffling e com o meacutetodo analiacutetico

611 Resultados do teste do 2 com o meacutetodo shuffling

Ao especificar um conjunto de dados com os mesmos motivos que estatildeo presentemente

descritos para a H pylori obtivemos para motivos simples os resultados apresentados nas

Figuras 61 e 62 O conjunto de dados sinteacutetico conteacutem 308 sequecircncias de comprimento 167

Foi efectuada uma procura de motivos simples com tamanhos compreendidos entre 6 e 8

nucleoacutetidos Natildeo foram admitidos erros e foi exigido um quoacuterum de 6 Os motivos

especificados encontram-se representados a ponteado Os restantes motivos correspondem a

motivos natildeo-especificados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 32

Figura 61 Significacircncia estatiacutestica para motivos simples de tamanho 6

Figura 62 Significacircncia estatiacutestica para motivos simples de tamanho 7

Os graacuteficos natildeo satildeo no entanto suficientes para nos dar a percepccedilatildeo da correcta classificaccedilatildeo

dos motivos uma vez que natildeo eacute possiacutevel fazer representar no graacutefico os 172 motivos

extraiacutedos A Tabela 61 indica as posiccedilotildees ocupadas pelos motivos especificados em relaccedilatildeo agrave

totalidade dos modelos para vaacuterios valores de k

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 33

TTTAAG TTTTAA TATAAT TATAATA

k=1 5 4 1 2

k=2 6 4 1 2

k=3 6 4 2 1

k=4 6 5 2 1

k=5 78 7 5 1

Tabela 61 Posiccedilotildees dos motivos especificados

Em geral os motivos especificados aparecem melhor classificados para um baixo valor de k

Agrave medida que se consideram valores de k crescentes a significacircncia estatiacutestica de todos os

motivos aproxima-se de zero pelas razotildees jaacute apontadas na Secccedilatildeo 42

Eacute comum observar-se a presenccedila de motivos natildeo-especificados com niacuteveis de significacircncia

elevados especialmente se atendermos agraves posiccedilotildees da Tabela 61

Contudo estes bons resultados natildeo se mantecircm se forem admitidos erros na procura Neste

caso embora os motivos mantenham em geral elevadas significacircncias entram em

competiccedilatildeo com os motivos a distacircncia de Hamming natildeo superior ao nuacutemero de erros

admitido Assim eacute comum observar-se uma descida significativa na tabela de posiccedilotildees

Para motivos estruturados os resultados satildeo favoraacuteveis mesmo admitindo erros como eacute

ilustrado pelo graacutefico da Figura 63 em conjugaccedilatildeo com os valores de posiccedilatildeo apresentados na

Tabela 62

Neste exemplo efectuou-se uma procura por motivos estruturados compostos por duas partes

com tamanhos entre 6 e 7 com uma distacircncia entre si variando entre 21 e 23 nucleoacutetidos

Admitiu-se 1 erro em cada parte do motivo mas apenas 1 erro na totalidade do motivo

estruturado e exigiu-se um quoacuterum de 6 Foram extraiacutedos 53 motivos O motivo

especificado encontra-se a ponteado

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 34

Figura 63 Significacircncia estatiacutestica para modelos estruturados em dados sinteacuteticos

TTTAAG_TATAAT

k=1 4

k=2 4

k=3 17

k=4 63

k=5 162

Tabela 62 Posiccedilotildees do motivo estruturado especificado

Neste exemplo foi necessaacuterio admitir a existecircncia de erros para que o motivo fosse encontrado

pelo SMILE Natildeo existem motivos sem erros que cumpram as condiccedilotildees de procura

Esta boa prestaccedilatildeo dos motivos estruturados estaacute relacionada com o facto de o shuffling

raramente preservar as distacircncias relativas de cada uma das partes que constituem o motivo

fazendo com que estes ocorram poucas vezes nas simulaccedilotildees Assim neste exemplo o motivo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 35

estruturado especificado aparece claramente destacado Estes resultados parecem sugerir que a

utilizaccedilatildeo deste teste estatiacutestico se adequa agrave avaliaccedilatildeo de modelos estruturados No entanto

nem todos os promotores exibem esta estrutura sendo necessaacuterio um meacutetodo mais geral para

fazer esta avaliaccedilatildeo

Como veremos em seguida os resultados aparentemente animadores mesmo para motivos

simples natildeo se verificam quando analisamos dados reais Esta evidecircncia estaacute relacionada com

o facto de o gerador de dados sinteacuteticos gerar dados aleatoacuterios com equiprobabilidade de

nucleoacutetidos Nos dados reais isto natildeo se verifica existindo normalmente uma clara

abundacircncia de A s e T s na regiatildeo promotora Do mesmo modo cada conjunto de dados exibe

preferecircncia por certos diacutemeros ou triacutemeros que ocorrem com muito mais frequecircncia que

outros

Esta limitaccedilatildeo podia ser mitigada pela incorporaccedilatildeo destas correlaccedilotildees na geraccedilatildeo de dados

sinteacuteticos Mas embora seja relativamente simples estabelecer uma preferecircncia por certos

nucleoacutetidos a geraccedilatildeo natildeo-equiprovaacutevel de k-mers geneacutericos constitui soacute por si um problema

complexo pelo que natildeo foi abordado neste trabalho

612 Resultados do teste do 2 com o meacutetodo analiacutetico

Os dados sinteacuteticos foram igualmente analisados recorrendo ao meacutetodo analiacutetico que como jaacute

foi referido tem a vantagem de ser mais eficiente do ponto de vista computacional e de poder

explorar valores mais elevados de k As Figura 64 e 65 apresentam a evoluccedilatildeo da

significacircncia estatiacutestica dos mesmos motivos considerados nas Figuras 62 e 63 mas

recorrendo ao meacutetodo analiacutetico

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 36

Figura 64 Significacircncia estatiacutestica de motivos simples de tamanho 6 usando o

meacutetodo analiacutetico

Figura 65 Significacircncia estatiacutestica de motivos simples de tamanho 7 usando o

meacutetodo analiacutetico

A Tabela 63 indica as posiccedilotildees dos motivos especificados para a significacircncia estatiacutestica

calculada por via do meacutetodo analiacutetico

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 37

TTTAAG TTTTAA TATAAT TATAATA

k=1 6 4 1 2

k=2 6 4 1 2

k=3 6 3 2 1

k=4 6 3 2 1

k=5 55 3 2 1

Tabela 63 Posiccedilotildees dos modelos especificados

Satildeo oacutebvias as semelhanccedilas entre os resultados apresentados na Tabela 63 e os presentes na

Tabela 61 Isto confirma a possibilidade de usar o meacutetodo analiacutetico como alternativa ao

meacutetodo de shuffling

Sabemos igualmente que no acircmbito do meacutetodo analiacutetico quando k atinge um valor igual ao

comprimento do motivo em anaacutelise a significacircncia estatiacutestica anula-se Isto tem a ver com o

facto de a probabilidade de ocorrecircncia de um k-mer ser muito proacutexima da sua frequecircncia

relativa no conjunto de dados Assim sendo os valores das entradas da tabela de contingecircncia

relativas aos dados aleatoacuterios seratildeo inevitavelmente iguais agraves dos dados reais resultando deste

facto uma significacircncia estatiacutestica nula

Por outro lado agrave medida que o k aumenta os k-mers introduzidos pelos motivos especificados

no conjunto de dados que de resto eacute aleatoacuterio vatildeo fazer com que a cadeia de Markov gerada

faccedila convergir as probabilidades de ocorrecircncia de cada motivo com a sua frequecircncia relativa

efectiva no conjunto de dados Assim assiste-se ao mesmo fenoacutemeno de convergecircncia para

zero da significacircncia estatiacutestica que assinalaacutemos para o meacutetodo shuffling

Pela anaacutelise dos resultados podemos ainda concluir que em geral um valor de k demasiado

pequeno natildeo modela suficientemente bem os dados daqui resulta que alguns motivos natildeo

especificados obtenham melhores classificaccedilotildees que motivos especificados Em suma

deveremos preferir valores de k intermeacutedios

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 38

62 Resultados Obtidos com Dados Reais

Com este teste pretendemos verificar se uma sequecircncia classificada como estatisticamente

relevante tambeacutem pode ser considerada biologicamente relevante

Para fazer o estudo da anaacutelise estatiacutestica em dados reais foram recolhidos 16 conjuntos de

dados com regiotildees promotoras correspondentes a genes da levedura Saccharomyces

cerevisiae que eacute um organismo eucariota Cada conjunto conteacutem aproximadamente 10

sequecircncias As sequecircncias contecircm consensos obtidos por via experimental e descritos na

literatura A descriccedilatildeo completa de cada conjunto de dados pode ser vista no Anexo A

Para cada conjunto de dados foi feita uma procura de motivos de tamanhos variando entre 4 e

11 nucleoacutetidos para valores de quoacuterum de 60 75 80 e 100 Foram permitidos 0 e 1

erros em ensaios sucessivos e fez-se ainda variar o valor de k entre 1 e 4

Foi posteriormente analisada a significacircncia estatiacutestica calculada pelo SMILE no que diz

respeito ao quoacuterum

Os consensos descritos obtiveram boas classificaccedilotildees para algumas das condiccedilotildees testadas

Em particular quando o quoacuterum exigido se encontra proacuteximo da frequecircncia efectiva dos

motivos nos dados e quando natildeo satildeo admitidos erros Os resultados satildeo tambeacutem melhores

para motivos de tamanho superior a 7 Em suma obtecircm-se bons resultados quando as

condiccedilotildees favorecem os motivos com as caracteriacutesticas dos consensos descritos

Estes resultados natildeo satildeo muito animadores porque para os atingir eacute necessaacuterio um

conhecimento preacutevio da frequecircncia e tamanho dos motivos Ao considerar a generalidade dos

ensaios efectuados verifica-se que as classificaccedilotildees satildeo muito baixas com baixas

significacircncias estatiacutesticas e com valores de posiccedilatildeo frequentemente abaixo dos primeiros

1 000 motivos No Anexo A apresentamos os resultados obtidos com estes ensaios

A par desta anaacutelise foi considerada a significacircncia estatiacutestica obtida a respeito da abundacircncia

Deste modo eacute possiacutevel estabelecer uma comparaccedilatildeo directa entre o meacutetodo de shuffling e o

meacutetodo analiacutetico para o caacutelculo desta meacutetrica

De seguida apresentamos os resultados desta anaacutelise

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 39

621 Resultados do teste do 2 com o meacutetodo shuffling

De modo geral os resultados para o teste estatiacutestico referente agrave abundacircncia representam uma

melhoria em relaccedilatildeo ao teste referente ao quoacuterum

Comeccedilamos por apresentar os graacuteficos referentes a um conjunto de dados cujos motivos

permanecem mal classificados isto eacute o motivo eacute biologicamente relevante mas natildeo eacute

considerado estatisticamente relevante O conjunto de dados em causa o MSN4 tem um

motivo muito abundante (CCCCT) condicionando a estatiacutestica dos dados Isto conjugado

com o seu pequeno tamanho (5 nucleoacutetidos) resulta na inevitaacutevel baixa significacircncia

estatiacutestica uma vez que aparece sistematicamente na geraccedilatildeo aleatoacuteria de sequecircncias feita em

cada simulaccedilatildeo As Figuras 66 e 67 ilustram a evoluccedilatildeo da significacircncia estatiacutestica e da

posiccedilatildeo do referido motivo considerando erro 0 e 1 respectivamente para um quoacuterum de

60

Figura 66 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 0 erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 40

Figura 67 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 1 erro

Os resultados da classificaccedilatildeo satildeo claramente maus para um consenso descrito A estranha

subida para k igual a 4 estaacute relacionada com uma pequena flutuaccedilatildeo sem significado uma vez

que estamos a considerar valores de significacircncia estatiacutestica muito baixos A aparente melhor

classificaccedilatildeo quando consideramos erro 0 estaacute relacionada com o facto de que quando natildeo se

admitem erros satildeo consequentemente extraiacutedos menos motivos Em particular com erro 0 satildeo

extraiacutedos 1 316 motivos enquanto que com erro 1 satildeo extraiacutedos 35 258 motivos

De seguida apresentamos os resultados relativos a um outro conjunto de dados (STE12) que

evidencia resultados mais favoraacuteveis para erro 0 As Figuras 68 e 69 apresentam a evoluccedilatildeo

da significacircncia estatiacutestica do motivo descrito (TGAAACA) para 0 e 1 erros

respectivamente com um quoacuterum de 100

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 41

Figura 68 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 0 erros

Figura 69 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 1 erro

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 42

Resta referir que para este conjunto de dados foram extraiacutedos 267 motivos com erro 0 e

7 705 motivos para erro 1

O facto de os motivos serem abundantes em relaccedilatildeo ao nuacutemero de sequecircncias consideradas

faz com que o teste relativo agrave abundacircncia tenha um poder de resoluccedilatildeo consideravelmente

maior do que o teste relativo ao quoacuterum Por esta razatildeo deveremos sempre preferir o primeiro

em casos semelhantes

Por outro lado os resultados obtidos continuam a pocircr em causa a generalidade do meacutetodo uma

vez que eacute difiacutecil identificar as situaccedilotildees em que este produz bons resultados sobretudo quando

somos confrontados com um desconhecimento a priori do conjunto de dados

622 Resultados do teste do 2 com o meacutetodo analiacutetico

Resta-nos comparar os resultados obtidos na subsecccedilatildeo anterior com os obtidos pela via

analiacutetica Nos graacuteficos apresentados nesta subsecccedilatildeo que representam a evoluccedilatildeo da

significacircncia estatiacutestica com o crescimento do tamanho dos k-mers considerados estatildeo

tambeacutem assinaladas as posiccedilotildees ocupadas pelos motivos

As Figuras 610 e 611 apresentam os resultados referentes ao MSN4

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 43

Figura 610 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 0 erros

Figura 611 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 1 erro

Os resultados para o MSN4 natildeo sofrem alteraccedilotildees assinalaacuteveis em relaccedilatildeo ao meacutetodo anterior

Novamente as caracteriacutesticas do conjunto de dados limitam a possibilidade de evidenciar este

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 44

motivo por via deste teste estatiacutestico o que eacute tanto mais grave quanto o facto de este ser um

dos motivos cuja significacircncia bioloacutegica se encontra melhor estabelecida

As Figuras 612 e 613 apresentam os resultados referentes ao conjunto de dados STE12

Figura 612 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 0 erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 45

Figura 613 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 1 erro

Os dados apresentados natildeo evidenciam melhorias assinalaacuteveis em relaccedilatildeo aos resultados

obtidos por via de shuffling excepto a ocorrecircncia de melhorias ocasionais da classificaccedilatildeo

quando natildeo se admitem erros Estas diferenccedilas podem ser atribuiacutedas ao facto de o meacutetodo

analiacutetico natildeo conservar estritamente os k-mers e de analisar o conjunto de dados na sua

totalidade por oposiccedilatildeo ao shuffling que considera cada sequecircncia isoladamente

No Anexo B apresentamos a totalidade dos resultados desta anaacutelise comparativa No Anexo C

eacute apresentada uma listagem dos resultados do caacutelculo do valor de significacircncia para valores de

k ateacute ao tamanho dos consensos descritos

A grande vantagem deste meacutetodo eacute sem duacutevida o incomparaacutevel ganho a niacutevel de

desempenho computacional Para ilustrar esta afirmaccedilatildeo basta dizer que o caacutelculo da

significacircncia estatiacutestica para todos os conjuntos de dados considerados demorou com o

meacutetodo de shuffling mais de 30 horas de processamento O meacutetodo analiacutetico realizou todos os

caacutelculos em menos de 30 minutos

No entanto os resultados voltam a pocircr em causa a adequaccedilatildeo do teste estatiacutestico do 2 para

aferir a significacircncia bioloacutegica pela dificuldade de sintetizar um meacutetodo geneacuterico para

destacar motivos relevantes de entre os extraiacutedos pelo SMILE

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 46

63 Conclusotildees

Ao considerar os resultados apresentados eacute inevitaacutevel concluir que a significacircncia atribuiacuteda

pelo teste estatiacutestico do 2 aos motivos extraiacutedos pelo SMILE natildeo reflecte a sua significacircncia

bioloacutegica

A dificuldade em distinguir motivos relevantes da grande quantidade de motivos extraiacutedos

potildee em causa a utilidade praacutetica do algoritmo na generalidade dos casos

Para aleacutem desta questatildeo outras limitaccedilotildees tecircm sido apontadas por bioacutelogos designadamente

o facto de o algoritmo natildeo conseguir pesquisar motivos na cadeia de DNA inversa onde os

factores de transcriccedilatildeo podem igualmente ligar-se e o facto de a forma como o SMILE

modela a ocorrecircncia de erros nos motivos natildeo ser compatiacutevel com a necessidade de poder

indicar posiccedilotildees especiacuteficas onde erros satildeo admitidos

No entanto o SMILE continua a exibir resultados interessantes para motivos estruturados o

que constitui sem duacutevida a mais-valia fundamental do algoritmo Tudo indica que o meacutetodo

analiacutetico pode ser igualmente adaptado para calcular a significacircncia de motivos estruturados

Parece-nos claro que uma eficaz extracccedilatildeo de motivos relevantes passaraacute necessariamente

pela conjugaccedilatildeo com outros dados para aleacutem da simples sequecircncia de nucleoacutetidos Em

particular a disponibilidade de informaccedilatildeo acerca de co-regulaccedilatildeo de genes poderaacute guiar a

extracccedilatildeo de motivos permitindo exigir um quoacuterum mais alto dada a confianccedila na existecircncia

de factores de transcriccedilatildeo comuns

Por outro lado a utilizaccedilatildeo de modelos probabiliacutesticos em vez de meras colecccedilotildees de motivos

poderaacute ser uma abordagem mais natural para o problema permitindo simultaneamente uma

melhor modelaccedilatildeo da realidade bioloacutegica ao indicar uma probabilidade de ocorrecircncia de cada

nucleoacutetido para uma dada posiccedilatildeo no modelo O nuacutemero de modelos extraiacutedos seria tambeacutem

francamente reduzido uma vez que um uacutenico modelo probabiliacutestico pode representar com

expressividade acrescida um grande nuacutemero de motivos

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 47

7 Referecircncias

[1] A Vanet L Marsan e M F Sagot Promoter sequence and algorithmical methods for

identifying them Research in Microbiology 150 pp 779-799 1999

[2] JD Watson FH Crick Molecular structure of nucleic acids a structure for deoxyribose

nucleic acid Nature Number 4356 1953

[3] T Werner Models for Prediction and Recognition of Eukaryotic Promoters Mammalian

Genome Vol 10 pp 168-175 1999

[4] L Marsan e M F Sagot Algorithms for extracting structured motifs using a suffix tree

with an application to promoter and regulatory site consensus identication Journal of

Computational Biology 7 pp 345-362 2000

[5] L Marsan Infeacuterence de motifs structureacutes algorithmes et outils appliqueacutes agrave la deacutetection de

sites de fixation dans des seacutequences geacutenomiques PhD Thesis Universiteacute de Marne-la-Valleacutee

2002

[6] B Flannery S Teukolsky W Press e W Vetterling Numerical Recipes in C++

Cambridge University Press 2002

[7] S Altschul e B Erickson Significance of Nucleotide Sequence Alignments A method of

Random Sequence Permutation That Preserves Dinucleotide and Codon Usage Molecular

Biology Evolution 2 pp 526-538 1985

[8] D Kandel Y Matias R Unger e P Winkler Shuffling Biological Sequences Discrete

Appl Math 71 pp 171-185 1996

[9] R Rudell e A Sangiovanni-Vincentelli Multiple-Valued Minimization for PLA

Optimization IEEE Transactions on Computer-Aided Design of Integrated Circuits and

Systems Vol CAD-6 Nordm 5 pp 727-751 September 1987

[10] R Brayton G Hachtel C McMullen e A Sangiovanni-Vincentelli Logic Minimization

Algorithms for VLSI Synthesis Kluwer Academic Publishers 1985

[11] P Monteiro Dbyeast [httpdescartesinesc-idpt~ptgmdb] 2004

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 48

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 49

Anexo A

Resultados do Caacutelculo da Significacircncia Estatiacutestica referente ao Quoacuterum

para Conjuntos de Dados de Saccharomyces cerevisiae

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados

A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos os resultados para os motivos procurados em relaccedilatildeo a cada valor dos paracircmetros

Nota o campo posicao refere-se agrave posiccedilatildeo ocupada pelo motivo na tabela com a estatiacutestica das sequecircncias com pelo menos uma ocorrecircncia do motivo ordenada por chi2

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

314 motivos encontrados Quorum = 80

670 motivos encontrados Quorum = 75

670 motivos encontrados Quorum = 60

1306 motivos encontrados Erro = 1

Quorum = 100 8636 motivos encontrados k = 1 posicao = 2 chi2 = 98 (ACCTTAAAGGT) k = 2 posicao = 2 chi2 = 976 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 965 (ACCTTAAAGGT) k = 4 posicao = 2 chi2 = 984 (ACCTTAAAGGT)

Quorum = 80 17722 motivos encontrados k = 1 posicao = 2 chi2 = 651 (ACCCTAAAGGT) k = 1 posicao = 4 chi2 = 965 (ACCTTAAAGGT) k = 2 posicao = 2 chi2 = 659 (ACCCTAAAGGT) k = 2 posicao = 8 chi2 = 965 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 667 (ACCCTAAAGGT) k = 3 posicao = 4 chi2 = 969 (ACCTTAAAGGT) k = 4 posicao = 2 chi2 = 659 (ACCCTAAAGGT) k = 4 posicao = 3 chi2 = 984 (ACCTTAAAGGT)

Quorum = 75 17722 motivos encontrados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 50

k = 1 posicao = 4 chi2 = 651 (ACCCTAAAGGT) k = 1 posicao = 2 chi2 = 988 (ACCTTAAAGGT) k = 2 posicao = 3 chi2 = 659 (ACCCTAAAGGT) k = 2 posicao = 2 chi2 = 992 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 655 (ACCCTAAAGGT) k = 3 posicao = 3 chi2 = 976 (ACCTTAAAGGT) k = 4 posicao = 3 chi2 = 655 (ACCCTAAAGGT) k = 4 posicao = 5 chi2 = 984 (ACCTTAAAGGT)

Quorum = 60 34907 motivos encontrados k = 1 posicao = 11 chi2 = 655 (ACCCTAAAGGT) k = 1 posicao = 5 chi2 = 996 (ACCTTAAAGGT) k = 1 posicao = 13 chi2 = 421 (ACCTTGAAGGT) k = 2 posicao = 15 chi2 = 647 (ACCCTAAAGGT) k = 2 posicao = 12 chi2 = 969 (ACCTTAAAGGT) k = 2 posicao = 7 chi2 = 421 (ACCTTGAAGGT) k = 3 posicao = 9 chi2 = 655 (ACCCTAAAGGT) k = 3 posicao = 8 chi2 = 984 (ACCTTAAAGGT) k = 3 posicao = 27 chi2 = 414 (ACCTTGAAGGT) k = 4 posicao = 10 chi2 = 651 (ACCCTAAAGGT) k = 4 posicao = 5 chi2 = 984 (ACCTTAAAGGT) k = 4 posicao = 40 chi2 = 407 (ACCTTGAAGGT)

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

161 motivos encontrados Quorum = 80

381 motivos encontrados Quorum = 75

502 motivos encontrados Quorum = 60

826 motivos encontrados k = 1 posicao = 43 chi2 = 33 (CCCCT) k = 2 posicao = 42 chi2 = 202 (CCCCT) k = 3 posicao = 48 chi2 = 142 (CCCCT) k = 4 posicao = 122 chi2 = 028 (CCCCT)

Erro = 1 Quorum = 100

4877 motivos encontrados k = 1 posicao = 3089 chi2 = 002 (CCCCT) k = 2 posicao = 2781 chi2 = 005 (CCCCT) k = 3 posicao = 3148 chi2 = 002 (CCCCT) k = 4 posicao = 2516 chi2 = 007 (CCCCT)

Quorum = 80 10050 motivos encontrados k = 1 posicao = 8449 chi2 = 0 (CCCCT) k = 2 posicao = 5470 chi2 = 009 (CCCCT) k = 3 posicao = 5867 chi2 = 004 (CCCCT) k = 4 posicao = 5131 chi2 = 009 (CCCCT)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 51

Quorum = 75

13080 motivos encontrados k = 1 posicao = 7539 chi2 = 004 (CCCCT) k = 2 posicao = 8129 chi2 = 002 (CCCCT) k = 3 posicao = 7900 chi2 = 003 (CCCCT) k = 4 posicao = 7385 chi2 = 005 (CCCCT)

Quorum = 60 21544 motivos encontrados k = 1 posicao = 12673 chi2 = 004 (CCCCT) k = 2 posicao = 11871 chi2 = 008 (CCCCT) k = 3 posicao = 12731 chi2 = 004 (CCCCT) k = 4 posicao = 11754 chi2 = 007 (CCCCT)

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

326 motivos encontrados Quorum = 80

682 motivos encontrados k = 1 posicao = 169 chi2 = 109 (CCCCT) k = 2 posicao = 238 chi2 = 073 (CCCCT) k = 3 posicao = 223 chi2 = 057 (CCCCT) k = 4 posicao = 331 chi2 = 01 (CCCCT)

Quorum = 75 682 motivos encontrados k = 1 posicao = 136 chi2 = 131 (CCCCT) k = 2 posicao = 178 chi2 = 085 (CCCCT) k = 3 posicao = 245 chi2 = 042 (CCCCT) k = 4 posicao = 331 chi2 = 01 (CCCCT)

Quorum = 60 1316 motivos encontrados k = 1 posicao = 303 chi2 = 17 (CCCCT) k = 2 posicao = 505 chi2 = 075 (CCCCT) k = 3 posicao = 457 chi2 = 059 (CCCCT) k = 4 posicao = 613 chi2 = 014 (CCCCT)

Erro = 1 Quorum = 100

9022 motivos encontrados k = 1 posicao = 7955 chi2 = 0 (CCCCT) k = 2 posicao = 7901 chi2 = 0 (CCCCT) k = 3 posicao = 7846 chi2 = 0 (CCCCT) k = 4 posicao = 7711 chi2 = 0 (CCCCT)

Quorum = 80 17951 motivos encontrados k = 1 posicao = 16310 chi2 = 0 (CCCCT) k = 2 posicao = 16251 chi2 = 0 (CCCCT) k = 3 posicao = 16207 chi2 = 0 (CCCCT) k = 4 posicao = 16091 chi2 = 0 (CCCCT)

Quorum = 75 17951 motivos encontrados k = 1 posicao = 16308 chi2 = 0 (CCCCT)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 52

k = 2 posicao = 16242 chi2 = 0 (CCCCT) k = 3 posicao = 16212 chi2 = 0 (CCCCT) k = 4 posicao = 16063 chi2 = 0 (CCCCT)

Quorum = 60 35258 motivos encontrados k = 1 posicao = 32818 chi2 = 0 (CCCCT) k = 2 posicao = 32757 chi2 = 0 (CCCCT) k = 3 posicao = 32822 chi2 = 0 (CCCCT) k = 4 posicao = 32656 chi2 = 0 (CCCCT)

5_1_gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

220 motivos encontrados Quorum = 80

517 motivos encontrados k = 1 posicao = 52 chi2 = 254 (CTTCC) k = 2 posicao = 87 chi2 = 146 (CTTCC) k = 3 posicao = 164 chi2 = 067 (CTTCC) k = 4 posicao = 236 chi2 = 004 (CTTCC)

Quorum = 75 517 motivos encontrados k = 1 posicao = 77 chi2 = 246 (CTTCC) k = 2 posicao = 83 chi2 = 152 (CTTCC) k = 3 posicao = 99 chi2 = 098 (CTTCC) k = 4 posicao = 241 chi2 = 003 (CTTCC)

Quorum = 60 963 motivos encontrados k = 1 posicao = 625 chi2 = 003 (CATCC) k = 1 posicao = 128 chi2 = 284 (CTTCC) k = 2 posicao = 644 chi2 = 003 (CATCC) k = 2 posicao = 170 chi2 = 177 (CTTCC) k = 3 posicao = 490 chi2 = 015 (CATCC) k = 3 posicao = 256 chi2 = 107 (CTTCC) k = 4 posicao = 522 chi2 = 0 (CATCC) k = 4 posicao = 497 chi2 = 004 (CTTCC)

Erro = 1 Quorum = 100

6121 motivos encontrados k = 1 posicao = 5072 chi2 = 0 (CATCC) k = 1 posicao = 5313 chi2 = 0 (CTTCC) k = 2 posicao = 5049 chi2 = 0 (CATCC) k = 2 posicao = 5287 chi2 = 0 (CTTCC) k = 3 posicao = 4984 chi2 = 0 (CATCC) k = 3 posicao = 5236 chi2 = 0 (CTTCC) k = 4 posicao = 4894 chi2 = 0 (CATCC) k = 4 posicao = 5167 chi2 = 0 (CTTCC)

Quorum = 80 13644 motivos encontrados k = 1 posicao = 11732 chi2 = 0 (CATCC) k = 1 posicao = 11981 chi2 = 0 (CTTCC)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 53

k = 2 posicao = 11792 chi2 = 0 (CATCC) k = 2 posicao = 12044 chi2 = 0 (CTTCC) k = 3 posicao = 11736 chi2 = 0 (CATCC) k = 3 posicao = 11985 chi2 = 0 (CTTCC) k = 4 posicao = 11644 chi2 = 0 (CATCC) k = 4 posicao = 11917 chi2 = 0 (CTTCC)

Quorum = 75 13644 motivos encontrados k = 1 posicao = 11712 chi2 = 0 (CATCC) k = 1 posicao = 11966 chi2 = 0 (CTTCC) k = 2 posicao = 11791 chi2 = 0 (CATCC) k = 2 posicao = 12027 chi2 = 0 (CTTCC) k = 3 posicao = 11729 chi2 = 0 (CATCC) k = 3 posicao = 11981 chi2 = 0 (CTTCC) k = 4 posicao = 11649 chi2 = 0 (CATCC) k = 4 posicao = 11920 chi2 = 0 (CTTCC)

Quorum = 60 25804 motivos encontrados k = 1 posicao = 22732 chi2 = 0 (CATCC) k = 1 posicao = 22973 chi2 = 0 (CTTCC) k = 2 posicao = 22881 chi2 = 0 (CATCC) k = 2 posicao = 23121 chi2 = 0 (CTTCC) k = 3 posicao = 22916 chi2 = 0 (CATCC) k = 3 posicao = 23164 chi2 = 0 (CTTCC) k = 4 posicao = 22864 chi2 = 0 (CATCC) k = 4 posicao = 23141 chi2 = 0 (CTTCC)

6_0_MIG1

Motivo GCGGGG Frequecircncia 16 ~167 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

290 motivos encontrados Quorum = 80

556 motivos encontrados Quorum = 75

556 motivos encontrados Quorum = 60

927 motivos encontrados Erro = 1

Quorum = 100 7881 motivos encontrados k = 1 posicao = 650 chi2 = 252 (GCGGGG) k = 2 posicao = 773 chi2 = 173 (GCGGGG) k = 3 posicao = 1341 chi2 = 101 (GCGGGG) k = 4 posicao = 4437 chi2 = 052 (GCGGGG)

Quorum = 80 14601 motivos encontrados k = 1 posicao = 1895 chi2 = 249 (GCGGGG) k = 2 posicao = 2045 chi2 = 161 (GCGGGG) k = 3 posicao = 3284 chi2 = 11 (GCGGGG) k = 4 posicao = 7272 chi2 = 05 (GCGGGG)

Quorum = 75

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 54

14601 motivos encontrados k = 1 posicao = 2121 chi2 = 234 (GCGGGG) k = 2 posicao = 2604 chi2 = 153 (GCGGGG) k = 3 posicao = 3778 chi2 = 089 (GCGGGG) k = 4 posicao = 8057 chi2 = 047 (GCGGGG)

Quorum = 60 25117 motivos encontrados k = 1 posicao = 4371 chi2 = 234 (GCGGGG) k = 2 posicao = 5452 chi2 = 153 (GCGGGG) k = 3 posicao = 7361 chi2 = 116 (GCGGGG) k = 4 posicao = 12643 chi2 = 051 (GCGGGG)

6_0_UME6

Motivo GCCGCC Frequecircncia 37 ~4286 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

257 motivos encontrados Quorum = 80

454 motivos encontrados Quorum = 75

454 motivos encontrados Quorum = 60

748 motivos encontrados Erro = 1

Quorum = 100 7186 motivos encontrados

Quorum = 80 12323 motivos encontrados

Quorum = 75 12323 motivos encontrados

Quorum = 60 19726 motivos encontrados k = 1 posicao = 13214 chi2 = 002 (GCCGCC) k = 2 posicao = 14628 chi2 = 0 (GCCGCC) k = 3 posicao = 14684 chi2 = 0 (GCCGCC) k = 4 posicao = 15398 chi2 = 002 (GCCGCC)

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

173 motivos encontrados Quorum = 80

403 motivos encontrados Quorum = 75

530 motivos encontrados k = 1 posicao = 6 chi2 = 755 (GATAAG)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 55

k = 2 posicao = 3 chi2 = 892 (GATAAG) k = 3 posicao = 3 chi2 = 725 (GATAAG) k = 4 posicao = 12 chi2 = 457 (GATAAG)

Quorum = 60 836 motivos encontrados k = 1 posicao = 24 chi2 = 771 (GATAAG) k = 2 posicao = 7 chi2 = 94 (GATAAG) k = 3 posicao = 12 chi2 = 719 (GATAAG) k = 4 posicao = 25 chi2 = 48 (GATAAG)

Erro = 1 Quorum = 100

5360 motivos encontrados k = 1 posicao = 2690 chi2 = 012 (GATAAG) k = 1 posicao = 3118 chi2 = 008 (GATTAG) k = 2 posicao = 2917 chi2 = 01 (GATAAG) k = 2 posicao = 2424 chi2 = 02 (GATTAG) k = 3 posicao = 3096 chi2 = 007 (GATAAG) k = 3 posicao = 1982 chi2 = 033 (GATTAG) k = 4 posicao = 3004 chi2 = 007 (GATAAG) k = 4 posicao = 2767 chi2 = 01 (GATTAG)

Quorum = 80 10819 motivos encontrados k = 1 posicao = 6729 chi2 = 011 (GATAAG) k = 1 posicao = 6816 chi2 = 009 (GATTAG) k = 2 posicao = 6240 chi2 = 013 (GATAAG) k = 2 posicao = 6446 chi2 = 011 (GATTAG) k = 3 posicao = 7301 chi2 = 004 (GATAAG) k = 3 posicao = 4235 chi2 = 053 (GATTAG) k = 4 posicao = 7045 chi2 = 004 (GATAAG) k = 4 posicao = 6317 chi2 = 012 (GATTAG)

Quorum = 75 13889 motivos encontrados k = 1 posicao = 9061 chi2 = 007 (GATAAG) k = 1 posicao = 8672 chi2 = 01 (GATTAG) k = 2 posicao = 8095 chi2 = 016 (GATAAG) k = 2 posicao = 8763 chi2 = 01 (GATTAG) k = 3 posicao = 8965 chi2 = 008 (GATAAG) k = 3 posicao = 6907 chi2 = 036 (GATTAG) k = 4 posicao = 8966 chi2 = 006 (GATAAG) k = 4 posicao = 8323 chi2 = 011 (GATTAG)

Quorum = 60 22209 motivos encontrados k = 1 posicao = 14904 chi2 = 008 (GATAAG) k = 1 posicao = 14384 chi2 = 013 (GATTAG) k = 2 posicao = 13923 chi2 = 015 (GATAAG) k = 2 posicao = 13902 chi2 = 015 (GATTAG) k = 3 posicao = 14932 chi2 = 008 (GATAAG) k = 3 posicao = 11534 chi2 = 046 (GATTAG) k = 4 posicao = 14680 chi2 = 007 (GATAAG) k = 4 posicao = 13878 chi2 = 017 (GATTAG)

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 56

Erro = 0 Quorum = 100

128 motivos encontrados Quorum = 80

372 motivos encontrados Quorum = 75

454 motivos encontrados Quorum = 60

785 motivos encontrados Erro = 1

Quorum = 100 4212 motivos encontrados k = 1 posicao = 326 chi2 = 14 (CACCCA) k = 2 posicao = 594 chi2 = 108 (CACCCA) k = 3 posicao = 244 chi2 = 107 (CACCCA) k = 4 posicao = 1210 chi2 = 038 (CACCCA)

Quorum = 80 9800 motivos encontrados k = 1 posicao = 1302 chi2 = 157 (CACCCA) k = 1 posicao = 2061 chi2 = 087 (CACCCG) k = 2 posicao = 2058 chi2 = 117 (CACCCA) k = 2 posicao = 2522 chi2 = 059 (CACCCG) k = 3 posicao = 1624 chi2 = 106 (CACCCA) k = 3 posicao = 2994 chi2 = 045 (CACCCG) k = 4 posicao = 2703 chi2 = 05 (CACCCA) k = 4 posicao = 3926 chi2 = 011 (CACCCG)

Quorum = 75 11933 motivos encontrados k = 1 posicao = 1951 chi2 = 145 (CACCCA) k = 1 posicao = 2903 chi2 = 081 (CACCCG) k = 2 posicao = 2227 chi2 = 116 (CACCCA) k = 2 posicao = 3417 chi2 = 062 (CACCCG) k = 3 posicao = 2137 chi2 = 108 (CACCCA) k = 3 posicao = 3426 chi2 = 041 (CACCCG) k = 4 posicao = 4518 chi2 = 031 (CACCCA) k = 4 posicao = 4805 chi2 = 012 (CACCCG)

Quorum = 60 20531 motivos encontrados k = 1 posicao = 5137 chi2 = 144 (CACCCA) k = 1 posicao = 5556 chi2 = 073 (CACCCG) k = 2 posicao = 4865 chi2 = 113 (CACCCA) k = 2 posicao = 5737 chi2 = 062 (CACCCG) k = 3 posicao = 4491 chi2 = 097 (CACCCA) k = 3 posicao = 5797 chi2 = 052 (CACCCG) k = 4 posicao = 7825 chi2 = 041 (CACCCA) k = 4 posicao = 7275 chi2 = 018 (CACCCG)

7_0_REB1

Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

211 motivos encontrados k = 1 posicao = 4 chi2 = 965 (TTACCC)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 57

k = 2 posicao = 4 chi2 = 105 (TTACCC) k = 3 posicao = 4 chi2 = 1075 (TTACCC) k = 4 posicao = 4 chi2 = 755 (TTACCC)

Quorum = 80 405 motivos encontrados k = 1 posicao = 4 chi2 = 932 (TTACCC) k = 2 posicao = 4 chi2 = 1083 (TTACCC) k = 3 posicao = 4 chi2 = 1106 (TTACCC) k = 4 posicao = 4 chi2 = 723 (TTACCC)

Quorum = 75 605 motivos encontrados k = 1 posicao = 6 chi2 = 947 (TTACCC) k = 2 posicao = 5 chi2 = 999 (TTACCC) k = 3 posicao = 5 chi2 = 1098 (TTACCC) k = 4 posicao = 5 chi2 = 808 (TTACCC)

Quorum = 60 907 motivos encontrados k = 1 posicao = 9 chi2 = 1007 (TTACCC) k = 2 posicao = 6 chi2 = 1089 (TTACCC) k = 3 posicao = 6 chi2 = 1081 (TTACCC) k = 4 posicao = 6 chi2 = 788 (TTACCC)

Erro = 1 Quorum = 100

6121 motivos encontrados k = 1 posicao = 4617 chi2 = 013 (TTACCC) k = 2 posicao = 4454 chi2 = 016 (TTACCC) k = 3 posicao = 4730 chi2 = 012 (TTACCC) k = 4 posicao = 5483 chi2 = 004 (TTACCC)

Quorum = 80 10337 motivos encontrados k = 1 posicao = 7525 chi2 = 008 (TTACCC) k = 2 posicao = 7267 chi2 = 01 (TTACCC) k = 3 posicao = 7129 chi2 = 012 (TTACCC) k = 4 posicao = 7469 chi2 = 009 (TTACCC)

Quorum = 75 15777 motivos encontrados k = 1 posicao = 10287 chi2 = 012 (TTACCC) k = 2 posicao = 10740 chi2 = 01 (TTACCC) k = 3 posicao = 9696 chi2 = 016 (TTACCC) k = 4 posicao = 10789 chi2 = 008 (TTACCC)

Quorum = 60 23856 motivos encontrados k = 1 posicao = 15646 chi2 = 01 (TTACCC) k = 2 posicao = 15437 chi2 = 012 (TTACCC) k = 3 posicao = 13932 chi2 = 022 (TTACCC) k = 4 posicao = 15597 chi2 = 009 (TTACCC)

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

235 motivos encontrados Quorum = 80

475 motivos encontrados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 58

k = 1 posicao = 3 chi2 = 945 (TGCCAAG) k = 2 posicao = 2 chi2 = 92 (TGCCAAG) k = 3 posicao = 2 chi2 = 892 (TGCCAAG) k = 4 posicao = 3 chi2 = 7 (TGCCAAG)

Quorum = 75 475 motivos encontrados k = 1 posicao = 2 chi2 = 924 (TGCCAAG) k = 2 posicao = 3 chi2 = 886 (TGCCAAG) k = 3 posicao = 3 chi2 = 869 (TGCCAAG) k = 4 posicao = 2 chi2 = 678 (TGCCAAG)

Quorum = 60 785 motivos encontrados k = 1 posicao = 5 chi2 = 952 (TGCCAAG) k = 2 posicao = 4 chi2 = 934 (TGCCAAG) k = 3 posicao = 4 chi2 = 869 (TGCCAAG) k = 4 posicao = 6 chi2 = 67 (TGCCAAG)

Erro = 1 Quorum = 100

7028 motivos encontrados k = 1 posicao = 436 chi2 = 321 (TGCCAAG) k = 2 posicao = 551 chi2 = 217 (TGCCAAG) k = 3 posicao = 940 chi2 = 223 (TGCCAAG) k = 4 posicao = 1492 chi2 = 095 (TGCCAAG)

Quorum = 80 12574 motivos encontrados k = 1 posicao = 1703 chi2 = 325 (TGCCAAG) k = 2 posicao = 2035 chi2 = 244 (TGCCAAG) k = 3 posicao = 1678 chi2 = 217 (TGCCAAG) k = 4 posicao = 3298 chi2 = 093 (TGCCAAG)

Quorum = 75 12574 motivos encontrados k = 1 posicao = 1739 chi2 = 333 (TGCCAAG) k = 2 posicao = 1717 chi2 = 216 (TGCCAAG) k = 3 posicao = 1609 chi2 = 212 (TGCCAAG) k = 4 posicao = 3574 chi2 = 075 (TGCCAAG)

Quorum = 60 20257 motivos encontrados k = 1 posicao = 3598 chi2 = 304 (TGCCAAG) k = 2 posicao = 3664 chi2 = 211 (TGCCAAG) k = 3 posicao = 3206 chi2 = 213 (TGCCAAG) k = 4 posicao = 4753 chi2 = 115 (TGCCAAG)

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

267 motivos encontrados k = 1 posicao = 4 chi2 = 998 (TGAAACA) k = 2 posicao = 5 chi2 = 908 (TGAAACA) k = 3 posicao = 5 chi2 = 875 (TGAAACA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 59

k = 4 posicao = 4 chi2 = 743 (TGAAACA)

Quorum = 80 529 motivos encontrados k = 1 posicao = 4 chi2 = 969 (TGAAACA) k = 2 posicao = 6 chi2 = 84 (TGAAACA) k = 3 posicao = 5 chi2 = 845 (TGAAACA) k = 4 posicao = 5 chi2 = 702 (TGAAACA)

Quorum = 75 529 motivos encontrados k = 1 posicao = 6 chi2 = 933 (TGAAACA) k = 2 posicao = 5 chi2 = 866 (TGAAACA) k = 3 posicao = 5 chi2 = 86 (TGAAACA) k = 4 posicao = 5 chi2 = 717 (TGAAACA)

Quorum = 60 916 motivos encontrados k = 1 posicao = 12 chi2 = 956 (TGAAACA) k = 2 posicao = 13 chi2 = 893 (TGAAACA) k = 3 posicao = 16 chi2 = 84 (TGAAACA) k = 4 posicao = 18 chi2 = 715 (TGAAACA)

Erro = 1 Quorum = 100

7705 motivos encontrados k = 1 posicao = 4203 chi2 = 055 (TGAAACA) k = 2 posicao = 5562 chi2 = 02 (TGAAACA) k = 3 posicao = 5481 chi2 = 021 (TGAAACA) k = 4 posicao = 6219 chi2 = 012 (TGAAACA)

Quorum = 80 14161 motivos encontrados k = 1 posicao = 8113 chi2 = 052 (TGAAACA) k = 2 posicao = 9261 chi2 = 022 (TGAAACA) k = 3 posicao = 8536 chi2 = 029 (TGAAACA) k = 4 posicao = 10343 chi2 = 01 (TGAAACA)

Quorum = 75 14161 motivos encontrados k = 1 posicao = 7156 chi2 = 066 (TGAAACA) k = 2 posicao = 8778 chi2 = 028 (TGAAACA) k = 3 posicao = 8848 chi2 = 034 (TGAAACA) k = 4 posicao = 9747 chi2 = 015 (TGAAACA)

Quorum = 60 24421 motivos encontrados k = 1 posicao = 12918 chi2 = 049 (TGAAACA) k = 2 posicao = 15781 chi2 = 024 (TGAAACA) k = 3 posicao = 13941 chi2 = 03 (TGAAACA) k = 4 posicao = 16147 chi2 = 017 (TGAAACA)

7_1_SWI4

Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

330 motivos encontrados Quorum = 80

675 motivos encontrados k = 1 posicao = 3 chi2 = 575 (CGCGAAA) k = 2 posicao = 3 chi2 = 483 (CGCGAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 60

k = 3 posicao = 11 chi2 = 395 (CGCGAAA) k = 4 posicao = 5 chi2 = 367 (CGCGAAA)

Quorum = 75 675 motivos encontrados k = 1 posicao = 2 chi2 = 6 (CGCGAAA) k = 2 posicao = 4 chi2 = 504 (CGCGAAA) k = 3 posicao = 14 chi2 = 372 (CGCGAAA) k = 4 posicao = 14 chi2 = 343 (CGCGAAA)

Quorum = 60 1349 motivos encontrados k = 1 posicao = 50 chi2 = 31 (CACGAAA) k = 1 posicao = 8 chi2 = 569 (CGCGAAA) k = 2 posicao = 81 chi2 = 26 (CACGAAA) k = 2 posicao = 20 chi2 = 48 (CGCGAAA) k = 3 posicao = 117 chi2 = 21 (CACGAAA) k = 3 posicao = 47 chi2 = 37 (CGCGAAA) k = 4 posicao = 309 chi2 = 056 (CACGAAA) k = 4 posicao = 33 chi2 = 367 (CGCGAAA)

Erro = 1 Quorum = 100

8974 motivos encontrados k = 1 posicao = 2630 chi2 = 093 (CACGAAA) k = 1 posicao = 1189 chi2 = 212 (CGCGAAA) k = 2 posicao = 3046 chi2 = 07 (CACGAAA) k = 2 posicao = 2138 chi2 = 101 (CGCGAAA) k = 3 posicao = 4224 chi2 = 03 (CACGAAA) k = 3 posicao = 4064 chi2 = 04 (CGCGAAA) k = 4 posicao = 5230 chi2 = 012 (CACGAAA) k = 4 posicao = 4771 chi2 = 018 (CGCGAAA)

Quorum = 80 17937 motivos encontrados k = 1 posicao = 6152 chi2 = 107 (CACGAAA) k = 1 posicao = 3575 chi2 = 211 (CGCGAAA) k = 2 posicao = 7073 chi2 = 071 (CACGAAA) k = 2 posicao = 6979 chi2 = 078 (CGCGAAA) k = 3 posicao = 9212 chi2 = 035 (CACGAAA) k = 3 posicao = 8502 chi2 = 038 (CGCGAAA) k = 4 posicao = 10421 chi2 = 017 (CACGAAA) k = 4 posicao = 9629 chi2 = 026 (CGCGAAA)

Quorum = 75 17937 motivos encontrados k = 1 posicao = 6271 chi2 = 104 (CACGAAA) k = 1 posicao = 4092 chi2 = 171 (CGCGAAA) k = 2 posicao = 8574 chi2 = 052 (CACGAAA) k = 2 posicao = 5741 chi2 = 107 (CGCGAAA) k = 3 posicao = 10092 chi2 = 026 (CACGAAA) k = 3 posicao = 8743 chi2 = 044 (CGCGAAA) k = 4 posicao = 11741 chi2 = 009 (CACGAAA) k = 4 posicao = 9601 chi2 = 022 (CGCGAAA)

Quorum = 60 35352 motivos encontrados k = 1 posicao = 15854 chi2 = 094 (CACGAAA) k = 1 posicao = 9842 chi2 = 196 (CGCGAAA) k = 2 posicao = 18655 chi2 = 063 (CACGAAA) k = 2 posicao = 16854 chi2 = 093 (CGCGAAA) k = 3 posicao = 21349 chi2 = 025 (CACGAAA) k = 3 posicao = 19789 chi2 = 036 (CGCGAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 61

k = 4 posicao = 22509 chi2 = 016 (CACGAAA) k = 4 posicao = 21049 chi2 = 027 (CGCGAAA)

7_2_GCN4

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

229 motivos encontrados Quorum = 80

372 motivos encontrados Quorum = 75

586 motivos encontrados Quorum = 60

839 motivos encontrados Erro = 1

Quorum = 100 6343 motivos encontrados

Quorum = 80 10422 motivos encontrados

Quorum = 75 15227 motivos encontrados

Quorum = 60 21609 motivos encontrados

7_2_RGT1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

205 motivos encontrados Quorum = 80

496 motivos encontrados k = 1 posicao = 4 chi2 = 1052 (CGGAAAA) k = 2 posicao = 2 chi2 = 883 (CGGAAAA) k = 3 posicao = 2 chi2 = 692 (CGGAAAA) k = 4 posicao = 10 chi2 = 308 (CGGAAAA)

Quorum = 75 496 motivos encontrados k = 1 posicao = 4 chi2 = 1101 (CGGAAAA) k = 2 posicao = 3 chi2 = 855 (CGGAAAA) k = 3 posicao = 4 chi2 = 685 (CGGAAAA) k = 4 posicao = 9 chi2 = 338 (CGGAAAA)

Quorum = 60 987 motivos encontrados k = 1 posicao = 10 chi2 = 1087 (CGGAAAA) k = 2 posicao = 11 chi2 = 792 (CGGAAAA) k = 3 posicao = 10 chi2 = 637 (CGGAAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 62

k = 4 posicao = 27 chi2 = 333 (CGGAAAA)

Erro = 1 Quorum = 100

6085 motivos encontrados k = 1 posicao = 740 chi2 = 226 (CGGAAAA) k = 1 posicao = 244 chi2 = 442 (CGGAAGA) k = 1 posicao = 375 chi2 = 415 (CGGAGAA) k = 1 posicao = 795 chi2 = 205 (CGGATAA) k = 2 posicao = 1431 chi2 = 069 (CGGAAAA) k = 2 posicao = 350 chi2 = 257 (CGGAAGA) k = 2 posicao = 313 chi2 = 281 (CGGAGAA) k = 2 posicao = 403 chi2 = 257 (CGGATAA) k = 3 posicao = 2933 chi2 = 015 (CGGAAAA) k = 3 posicao = 543 chi2 = 161 (CGGAAGA) k = 3 posicao = 758 chi2 = 162 (CGGAGAA) k = 3 posicao = 334 chi2 = 242 (CGGATAA) k = 4 posicao = 3388 chi2 = 006 (CGGAAAA) k = 4 posicao = 944 chi2 = 088 (CGGAAGA) k = 4 posicao = 682 chi2 = 096 (CGGAGAA) k = 4 posicao = 448 chi2 = 157 (CGGATAA)

Quorum = 80 13578 motivos encontrados k = 1 posicao = 2782 chi2 = 211 (CGGAAAA) k = 1 posicao = 1309 chi2 = 443 (CGGAAGA) k = 1 posicao = 9793 chi2 = 0 (CGGAATA) k = 1 posicao = 1525 chi2 = 436 (CGGAGAA) k = 1 posicao = 1267 chi2 = 351 (CGGAGGA) k = 1 posicao = 2001 chi2 = 282 (CGGATAA) k = 1 posicao = 4454 chi2 = 055 (CGGATTA) k = 2 posicao = 4354 chi2 = 063 (CGGAAAA) k = 2 posicao = 1547 chi2 = 273 (CGGAAGA) k = 2 posicao = 7920 chi2 = 004 (CGGAATA) k = 2 posicao = 2260 chi2 = 262 (CGGAGAA) k = 2 posicao = 1049 chi2 = 271 (CGGAGGA) k = 2 posicao = 1502 chi2 = 271 (CGGATAA) k = 2 posicao = 3568 chi2 = 083 (CGGATTA) k = 3 posicao = 6889 chi2 = 02 (CGGAAAA) k = 3 posicao = 2122 chi2 = 16 (CGGAAGA) k = 3 posicao = 10332 chi2 = 01 (CGGAATA) k = 3 posicao = 2408 chi2 = 144 (CGGAGAA) k = 3 posicao = 1273 chi2 = 214 (CGGAGGA) k = 3 posicao = 1406 chi2 = 211 (CGGATAA) k = 3 posicao = 1203 chi2 = 189 (CGGATTA) k = 4 posicao = 8380 chi2 = 003 (CGGAAAA) k = 4 posicao = 4250 chi2 = 074 (CGGAAGA) k = 4 posicao = 12881 chi2 = 037 (CGGAATA) k = 4 posicao = 3392 chi2 = 088 (CGGAGAA) k = 4 posicao = 1278 chi2 = 162 (CGGAGGA) k = 4 posicao = 1930 chi2 = 148 (CGGATAA) k = 4 posicao = 1157 chi2 = 136 (CGGATTA)

Quorum = 75 13578 motivos encontrados k = 1 posicao = 2620 chi2 = 264 (CGGAAAA) k = 1 posicao = 1452 chi2 = 443 (CGGAAGA) k = 1 posicao = 8943 chi2 = 001 (CGGAATA) k = 1 posicao = 1121 chi2 = 446 (CGGAGAA) k = 1 posicao = 965 chi2 = 424 (CGGAGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 63

k = 1 posicao = 2453 chi2 = 246 (CGGATAA) k = 1 posicao = 3571 chi2 = 086 (CGGATTA) k = 2 posicao = 4690 chi2 = 069 (CGGAAAA) k = 2 posicao = 1475 chi2 = 255 (CGGAAGA) k = 2 posicao = 7150 chi2 = 01 (CGGAATA) k = 2 posicao = 1209 chi2 = 259 (CGGAGAA) k = 2 posicao = 837 chi2 = 274 (CGGAGGA) k = 2 posicao = 1900 chi2 = 268 (CGGATAA) k = 2 posicao = 3981 chi2 = 066 (CGGATTA) k = 3 posicao = 6549 chi2 = 022 (CGGAAAA) k = 3 posicao = 1447 chi2 = 191 (CGGAAGA) k = 3 posicao = 10656 chi2 = 018 (CGGAATA) k = 3 posicao = 2435 chi2 = 155 (CGGAGAA) k = 3 posicao = 1026 chi2 = 21 (CGGAGGA) k = 3 posicao = 1469 chi2 = 233 (CGGATAA) k = 3 posicao = 1202 chi2 = 189 (CGGATTA) k = 4 posicao = 11692 chi2 = 0 (CGGAAAA) k = 4 posicao = 3717 chi2 = 077 (CGGAAGA) k = 4 posicao = 10890 chi2 = 035 (CGGAATA) k = 4 posicao = 3482 chi2 = 087 (CGGAGAA) k = 4 posicao = 1187 chi2 = 168 (CGGAGGA) k = 4 posicao = 1746 chi2 = 148 (CGGATAA) k = 4 posicao = 1204 chi2 = 149 (CGGATTA)

Quorum = 60 25839 motivos encontrados k = 1 posicao = 5870 chi2 = 247 (CGGAAAA) k = 1 posicao = 4726 chi2 = 405 (CGGAAGA) k = 1 posicao = 18076 chi2 = 0 (CGGAATA) k = 1 posicao = 3940 chi2 = 388 (CGGAGAA) k = 1 posicao = 3424 chi2 = 384 (CGGAGGA) k = 1 posicao = 15679 chi2 = 005 (CGGAGTA) k = 1 posicao = 6177 chi2 = 245 (CGGATAA) k = 1 posicao = 15167 chi2 = 008 (CGGATGA) k = 1 posicao = 11165 chi2 = 059 (CGGATTA) k = 2 posicao = 11428 chi2 = 046 (CGGAAAA) k = 2 posicao = 4811 chi2 = 242 (CGGAAGA) k = 2 posicao = 16216 chi2 = 003 (CGGAATA) k = 2 posicao = 4128 chi2 = 226 (CGGAGAA) k = 2 posicao = 3005 chi2 = 278 (CGGAGGA) k = 2 posicao = 10245 chi2 = 04 (CGGAGTA) k = 2 posicao = 3437 chi2 = 3 (CGGATAA) k = 2 posicao = 10379 chi2 = 033 (CGGATGA) k = 2 posicao = 8888 chi2 = 072 (CGGATTA) k = 3 posicao = 13836 chi2 = 017 (CGGAAAA) k = 3 posicao = 4943 chi2 = 191 (CGGAAGA) k = 3 posicao = 20550 chi2 = 01 (CGGAATA) k = 3 posicao = 6774 chi2 = 155 (CGGAGAA) k = 3 posicao = 2524 chi2 = 222 (CGGAGGA) k = 3 posicao = 13828 chi2 = 01 (CGGAGTA) k = 3 posicao = 4859 chi2 = 197 (CGGATAA) k = 3 posicao = 9284 chi2 = 029 (CGGATGA) k = 3 posicao = 3146 chi2 = 179 (CGGATTA) k = 4 posicao = 17095 chi2 = 001 (CGGAAAA) k = 4 posicao = 7930 chi2 = 083 (CGGAAGA) k = 4 posicao = 24667 chi2 = 051 (CGGAATA) k = 4 posicao = 9042 chi2 = 083 (CGGAGAA) k = 4 posicao = 3884 chi2 = 147 (CGGAGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 64

k = 4 posicao = 13905 chi2 = 007 (CGGAGTA) k = 4 posicao = 4859 chi2 = 156 (CGGATAA) k = 4 posicao = 14606 chi2 = 005 (CGGATGA) k = 4 posicao = 3783 chi2 = 127 (CGGATTA)

8_1_PDR1

Motivo TCCGYGGA Frequecircncia 68 ~75 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

229 motivos encontrados Quorum = 80

416 motivos encontrados Quorum = 75

639 motivos encontrados k = 1 posicao = 2 chi2 = 96 (TCCGCGGA) k = 2 posicao = 2 chi2 = 941 (TCCGCGGA) k = 3 posicao = 2 chi2 = 915 (TCCGCGGA) k = 4 posicao = 2 chi2 = 674 (TCCGCGGA)

Quorum = 60 950 motivos encontrados k = 1 posicao = 4 chi2 = 937 (TCCGCGGA) k = 2 posicao = 3 chi2 = 933 (TCCGCGGA) k = 3 posicao = 3 chi2 = 926 (TCCGCGGA) k = 4 posicao = 3 chi2 = 686 (TCCGCGGA)

Erro = 1 Quorum = 100

6610 motivos encontrados k = 1 posicao = 8 chi2 = 1095 (TCCGCGGA) k = 1 posicao = 15 chi2 = 1007 (TCCGTGGA) k = 2 posicao = 8 chi2 = 1092 (TCCGCGGA) k = 2 posicao = 18 chi2 = 1039 (TCCGTGGA) k = 3 posicao = 11 chi2 = 907 (TCCGCGGA) k = 3 posicao = 9 chi2 = 881 (TCCGTGGA) k = 4 posicao = 18 chi2 = 517 (TCCGCGGA) k = 4 posicao = 8 chi2 = 759 (TCCGTGGA)

Quorum = 80 11058 motivos encontrados k = 1 posicao = 32 chi2 = 1126 (TCCGCGGA) k = 1 posicao = 48 chi2 = 1053 (TCCGTGGA) k = 2 posicao = 21 chi2 = 1053 (TCCGCGGA) k = 2 posicao = 19 chi2 = 1098 (TCCGTGGA) k = 3 posicao = 29 chi2 = 881 (TCCGCGGA) k = 3 posicao = 60 chi2 = 808 (TCCGTGGA) k = 4 posicao = 97 chi2 = 509 (TCCGCGGA) k = 4 posicao = 42 chi2 = 698 (TCCGTGGA)

Quorum = 75 16695 motivos encontrados k = 1 posicao = 92 chi2 = 1126 (TCCGCGGA) k = 1 posicao = 178 chi2 = 1026 (TCCGTGGA) k = 2 posicao = 70 chi2 = 1092 (TCCGCGGA) k = 2 posicao = 73 chi2 = 1069 (TCCGTGGA) k = 3 posicao = 64 chi2 = 983 (TCCGCGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 65

k = 3 posicao = 83 chi2 = 898 (TCCGTGGA) k = 4 posicao = 336 chi2 = 48 (TCCGCGGA) k = 4 posicao = 130 chi2 = 657 (TCCGTGGA)

Quorum = 60 25049 motivos encontrados k = 1 posicao = 220 chi2 = 1135 (TCCGCGGA) k = 1 posicao = 369 chi2 = 1004 (TCCGTGGA) k = 2 posicao = 83 chi2 = 1159 (TCCGCGGA) k = 2 posicao = 263 chi2 = 1045 (TCCGTGGA) k = 3 posicao = 134 chi2 = 883 (TCCGCGGA) k = 3 posicao = 206 chi2 = 857 (TCCGTGGA) k = 4 posicao = 580 chi2 = 488 (TCCGCGGA) k = 4 posicao = 213 chi2 = 67 (TCCGTGGA)

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

241 motivos encontrados Quorum = 80

423 motivos encontrados k = 1 posicao = 2 chi2 = 1237 (TCCGCGGA) k = 2 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 3 posicao = 2 chi2 = 1229 (TCCGCGGA) k = 4 posicao = 2 chi2 = 915 (TCCGCGGA)

Quorum = 75 667 motivos encontrados k = 1 posicao = 2 chi2 = 1237 (TCCGCGGA) k = 2 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 3 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 4 posicao = 2 chi2 = 909 (TCCGCGGA)

Quorum = 60 1024 motivos encontrados k = 1 posicao = 3 chi2 = 1233 (TCCGCGGA) k = 2 posicao = 4 chi2 = 124 (TCCGCGGA) k = 3 posicao = 3 chi2 = 1221 (TCCGCGGA) k = 4 posicao = 5 chi2 = 918 (TCCGCGGA)

Erro = 1 Quorum = 100

6897 motivos encontrados k = 1 posicao = 17 chi2 = 1115 (TCCGCGGA) k = 1 posicao = 24 chi2 = 1026 (TCCGTGGA) k = 2 posicao = 12 chi2 = 1174 (TCCGCGGA) k = 2 posicao = 10 chi2 = 1138 (TCCGTGGA) k = 3 posicao = 17 chi2 = 945 (TCCGCGGA) k = 3 posicao = 29 chi2 = 827 (TCCGTGGA) k = 4 posicao = 65 chi2 = 481 (TCCGCGGA) k = 4 posicao = 39 chi2 = 616 (TCCGTGGA)

Quorum = 80 11592 motivos encontrados k = 1 posicao = 69 chi2 = 1156 (TCCGCGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 66

k = 1 posicao = 117 chi2 = 1012 (TCCGTGGA) k = 2 posicao = 38 chi2 = 1177 (TCCGCGGA) k = 2 posicao = 69 chi2 = 1061 (TCCGTGGA) k = 3 posicao = 76 chi2 = 893 (TCCGCGGA) k = 3 posicao = 53 chi2 = 817 (TCCGTGGA) k = 4 posicao = 131 chi2 = 526 (TCCGCGGA) k = 4 posicao = 61 chi2 = 638 (TCCGTGGA)

Quorum = 75 17555 motivos encontrados k = 1 posicao = 210 chi2 = 1109 (TCCGCGGA) k = 1 posicao = 265 chi2 = 1061 (TCCGTGGA) k = 2 posicao = 78 chi2 = 115 (TCCGCGGA) k = 2 posicao = 102 chi2 = 1109 (TCCGTGGA) k = 3 posicao = 184 chi2 = 905 (TCCGCGGA) k = 3 posicao = 105 chi2 = 85 (TCCGTGGA) k = 4 posicao = 424 chi2 = 451 (TCCGCGGA) k = 4 posicao = 476 chi2 = 582 (TCCGTGGA)

Quorum = 60 26303 motivos encontrados k = 1 posicao = 433 chi2 = 1118 (TCCGCGGA) k = 1 posicao = 521 chi2 = 991 (TCCGTGGA) k = 2 posicao = 237 chi2 = 1064 (TCCGCGGA) k = 2 posicao = 322 chi2 = 1045 (TCCGTGGA) k = 3 posicao = 316 chi2 = 95 (TCCGCGGA) k = 3 posicao = 415 chi2 = 827 (TCCGTGGA) k = 4 posicao = 978 chi2 = 49 (TCCGCGGA) k = 4 posicao = 1277 chi2 = 616 (TCCGTGGA)

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

328 motivos encontrados Quorum = 80

685 motivos encontrados Quorum = 75

685 motivos encontrados Quorum = 60

1319 motivos encontrados k = 1 posicao = 4 chi2 = 411 (TCCGTGGA) k = 2 posicao = 2 chi2 = 421 (TCCGTGGA) k = 3 posicao = 2 chi2 = 407 (TCCGTGGA) k = 4 posicao = 3 chi2 = 354 (TCCGTGGA)

Erro = 1 Quorum = 100

9298 motivos encontrados k = 1 posicao = 95 chi2 = 631 (TCCGAGGA) k = 1 posicao = 63 chi2 = 675 (TCCGCGGA) k = 1 posicao = 75 chi2 = 678 (TCCGTGGA) k = 2 posicao = 51 chi2 = 61 (TCCGAGGA) k = 2 posicao = 25 chi2 = 745 (TCCGCGGA) k = 2 posicao = 22 chi2 = 718 (TCCGTGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 67

k = 3 posicao = 38 chi2 = 538 (TCCGAGGA) k = 3 posicao = 68 chi2 = 543 (TCCGCGGA) k = 3 posicao = 64 chi2 = 57 (TCCGTGGA) k = 4 posicao = 48 chi2 = 529 (TCCGAGGA) k = 4 posicao = 161 chi2 = 389 (TCCGCGGA) k = 4 posicao = 78 chi2 = 477 (TCCGTGGA)

Quorum = 80 18263 motivos encontrados k = 1 posicao = 551 chi2 = 592 (TCCGAGGA) k = 1 posicao = 147 chi2 = 754 (TCCGCGGA) k = 1 posicao = 282 chi2 = 647 (TCCGTGGA) k = 2 posicao = 296 chi2 = 605 (TCCGAGGA) k = 2 posicao = 143 chi2 = 715 (TCCGCGGA) k = 2 posicao = 182 chi2 = 681 (TCCGTGGA) k = 3 posicao = 589 chi2 = 511 (TCCGAGGA) k = 3 posicao = 347 chi2 = 553 (TCCGCGGA) k = 3 posicao = 245 chi2 = 59 (TCCGTGGA) k = 4 posicao = 429 chi2 = 462 (TCCGAGGA) k = 4 posicao = 944 chi2 = 401 (TCCGCGGA) k = 4 posicao = 577 chi2 = 41 (TCCGTGGA)

Quorum = 75 18263 motivos encontrados k = 1 posicao = 790 chi2 = 6 (TCCGAGGA) k = 1 posicao = 168 chi2 = 706 (TCCGCGGA) k = 1 posicao = 451 chi2 = 631 (TCCGTGGA) k = 2 posicao = 195 chi2 = 623 (TCCGAGGA) k = 2 posicao = 152 chi2 = 695 (TCCGCGGA) k = 2 posicao = 155 chi2 = 686 (TCCGTGGA) k = 3 posicao = 159 chi2 = 546 (TCCGAGGA) k = 3 posicao = 286 chi2 = 546 (TCCGCGGA) k = 3 posicao = 281 chi2 = 585 (TCCGTGGA) k = 4 posicao = 342 chi2 = 46 (TCCGAGGA) k = 4 posicao = 562 chi2 = 381 (TCCGCGGA) k = 4 posicao = 632 chi2 = 401 (TCCGTGGA)

Quorum = 60 35494 motivos encontrados k = 1 posicao = 1806 chi2 = 548 (TCCGAGGA) k = 1 posicao = 1580 chi2 = 65 (TCCGCGGA) k = 1 posicao = 1668 chi2 = 595 (TCCGTGGA) k = 2 posicao = 1224 chi2 = 592 (TCCGAGGA) k = 2 posicao = 794 chi2 = 701 (TCCGCGGA) k = 2 posicao = 991 chi2 = 658 (TCCGTGGA) k = 3 posicao = 1647 chi2 = 536 (TCCGAGGA) k = 3 posicao = 2029 chi2 = 546 (TCCGCGGA) k = 3 posicao = 1118 chi2 = 57 (TCCGTGGA) k = 4 posicao = 1549 chi2 = 502 (TCCGAGGA) k = 4 posicao = 2429 chi2 = 385 (TCCGCGGA) k = 4 posicao = 2813 chi2 = 429 (TCCGTGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 68

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 69

Anexo B Comparaccedilatildeo da Significacircncia Estatiacutestica referente agrave Abundacircncia obtida pelo

Meacutetodo de Shuffling e pelo Meacutetodo Analiacutetico

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos a comparaccedilatildeo entre o valor do chi2 obtido pelo meacutetodo de shuffling e o valor obtido pelo meacutetodo analiacutetico

Cada linha diz respeito a dados em que se conserva um determinado k-mer (k) Em cada uma eacute apresentado o valor do chi2 obtido pelo meacutetodo de shuffling (chi2) e a sua posiccedilatildeo relativa na lista de motivos ordenada por valores decrescentes de chi2 face ao nuacutemero de motivos extraiacutedos Os valores acima referidos tambeacutem satildeo apresentados para o meacutetodo analiacutetico (achi2)

10_2_YRR1 Motivo TTCCGTGGAA TTCCGCGGAT TTCCGCGGAA Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=488 (633 in 8908) achi2=476 (745 in 8908) [TTCCGCGGAA]

K=2 chi2=465 (468 in 8908) achi2=464 (509 in 8908) [TTCCGCGGAA]

K=3 chi2=412 (201 in 8908) achi2=413 (230 in 8908) [TTCCGCGGAA]

K=4 chi2=253 (223 in 8908) achi2=278 (205 in 8908) [TTCCGCGGAA]

K=5 chi2=126 (277 in 8912) achi2=143 (291 in 8912) [TTCCGCGGAA]

K=6 chi2=039 (323 in 8912) achi2=041 (1035 in 8912) [TTCCGCGGAA]

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 70

Error = 1

Quorum = 80

K=1 chi2=388 (428 in 17722) achi2=387 (504 in 17722) [ACCCTAAAGGT]

K=1 chi2=474 (246 in 17722) achi2=483 (265 in 17722) [ACCTTAAAGGT]

K=2 chi2=394 (222 in 17722) achi2=389 (248 in 17722) [ACCCTAAAGGT]

K=2 chi2=474 (111 in 17722) achi2=484 (119 in 17722) [ACCTTAAAGGT]

K=3 chi2=400 (51 in 17722) achi2=391 (61 in 17722) [ACCCTAAAGGT]

K=3 chi2=477 (12 in 17722) achi2=485 (14 in 17722) [ACCTTAAAGGT]

K=4 chi2=394 (28 in 17722) achi2=387 (31 in 17722) [ACCCTAAAGGT]

K=4 chi2=488 (4 in 17722) achi2=485 (4 in 17722) [ACCTTAAAGGT]

K=5 chi2=326 (24 in 17722) achi2=343 (29 in 17722) [ACCCTAAAGGT]

K=5 chi2=435 (7 in 17722) achi2=462 (3 in 17722) [ACCTTAAAGGT]

K=6 chi2=071 (387 in 17722) achi2=282 (276 in 17722) [ACCCTAAAGGT]

K=6 chi2=310 (2 in 17722) achi2=431 (259 in 17722) [ACCTTAAAGGT]

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=344 (91 in 1316) achi2=314 (116 in 1316) [CCCCT]

K=2 chi2=187 (183 in 1316) achi2=194 (178 in 1316) [CCCCT]

K=3 chi2=164 (138 in 1316) achi2=140 (190 in 1316) [CCCCT]

K=4 chi2=088 (186 in 1316) achi2=104 (150 in 1316) [CCCCT]

Error = 1

Quorum = 60

K=1 chi2=056 (18487 in 35258) achi2=082 (15627 in 35258) [CCCCT]

K=2 chi2=000 (34670 in 35258) achi2=000 (34292 in 35258) [CCCCT]

K=3 chi2=007 (27587 in 35258) achi2=011 (25832 in 35258) [CCCCT]

K=4 chi2=044 (14195 in 35258) achi2=044 (14486 in 35258) [CCCCT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 71

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=534 (66 in 826) achi2=523 (72 in 826) [CCCCT]

K=2 chi2=290 (76 in 826) achi2=297 (75 in 826) [CCCCT]

K=3 chi2=159 (97 in 826) achi2=152 (105 in 826) [CCCCT]

K=4 chi2=022 (242 in 826) achi2=007 (382 in 826) [CCCCT]

K=5 chi2=000 (360 in 826) achi2=000 (339 in 826) [CCCCT]

K=6 chi2=000 (331 in 826) achi2=000 (604 in 826) [CCCCT]

Error = 1

Quorum = 60

K=1 chi2=372 (2640 in 21544) achi2=462 (2153 in 21544) [CCCCT]

K=2 chi2=041 (10937 in 21544) achi2=070 (8620 in 21544) [CCCCT]

K=3 chi2=000 (20651 in 21544) achi2=000 (20723 in 21544) [CCCCT]

K=4 chi2=080 (4245 in 21544) achi2=083 (4322 in 21544) [CCCCT]

K=5 chi2=000 (19590 in 21562) achi2=000 (20653 in 21562) [CCCCT]

K=6 chi2=000 (16728 in 21562) achi2=000 (21282 in 21562) [CCCCT]

5_1_Gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=080 (3213 in 6121) achi2=079 (3260 in 6121) [CATCC]

K=1 chi2=1188 (320 in 6121) achi2=1158 (344 in 6121) [CTTCC]

K=2 chi2=180 (1552 in 6121) achi2=161 (1763 in 6121) [CATCC]

K=2 chi2=504 (498 in 6121) achi2=470 (566 in 6121) [CTTCC]

K=3 chi2=205 (809 in 6121) achi2=192 (906 in 6121) [CATCC]

K=3 chi2=102 (1713 in 6121) achi2=109 (1663 in 6121) [CTTCC]

K=4 chi2=097 (929 in 6121) achi2=091 (1091 in 6121) [CATCC]

K=4 chi2=001 (5090 in 6121) achi2=001 (5126 in 6121) [CTTCC]

K=5 chi2=000 (5948 in 6121) achi2=000 (5152 in 6121) [CATCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 72

K=5 chi2=000 (4578 in 6121) achi2=000 (5000 in 6121) [CTTCC]

K=6 chi2=000 (5634 in 6121) achi2=000 (5438 in 6121) [CATCC]

K=6 chi2=000 (2279 in 6121) achi2=000 (5149 in 6121) [CTTCC]

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 chi2=292 (2311 in 10819) achi2=273 (2534 in 10819) [GATAAG]

K=1 chi2=131 (4204 in 10819) achi2=102 (4875 in 10819) [GATTAG]

K=2 chi2=499 (766 in 10819) achi2=493 (849 in 10819) [GATAAG]

K=2 chi2=280 (1760 in 10819) achi2=268 (1952 in 10819) [GATTAG]

K=3 chi2=168 (2077 in 10819) achi2=174 (2107 in 10819) [GATAAG]

K=3 chi2=953 (62 in 10819) achi2=925 (81 in 10819) [GATTAG]

K=4 chi2=014 (6803 in 10819) achi2=009 (7567 in 10819) [GATAAG]

K=4 chi2=309 (394 in 10819) achi2=352 (328 in 10819) [GATTAG]

K=5 chi2=001 (8734 in 10819) achi2=003 (7728 in 10819) [GATAAG]

K=5 chi2=176 (429 in 10819) achi2=159 (773 in 10819) [GATTAG]

K=6 chi2=000 (9825 in 10819) achi2=000 (6602 in 10819) [GATAAG]

K=6 chi2=000 (7459 in 10819) achi2=000 (6760 in 10819) [GATTAG]

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

Error = 1

Quorum = 60

K=1 chi2=382 (3218 in 20531) achi2=555 (2348 in 20531) [CACCCA]

k=1 chi2=083 (9754 in 20531) achi2=102 (9117 in 20531) [CACCCG]

K=2 chi2=330 (2327 in 20531) achi2=368 (2233 in 20531) [CACCCA]

K=2 chi2=143 (5707 in 20531) achi2=117 (6956 in 20531) [CACCCG]

K=3 chi2=209 (2208 in 20531) achi2=223 (2249 in 20531) [CACCCA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 73

K=3 chi2=040 (9516 in 20531) achi2=023 (12243 in 20531) [CACCCG]

K=4 chi2=071 (4649 in 20531) achi2=105 (3457 in 20531) [CACCCA]

K=4 chi2=000 (19099 in 20531) achi2=002 (17523 in 20531) [CACCCG]

7_0_REB1 Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 chi2=549 (29 in 405) achi2=586 (33 in 405) [TTACCC]

K=2 chi2=688 (6 in 405) achi2=635 (12 in 405) [TTACCC]

K=3 chi2=706 (2 in 405) achi2=679 (2 in 405) [TTACCC]

K=4 chi2=373 (3 in 405) achi2=402 (3 in 405) [TTACCC]

K=5 chi2=034 (7 in 405) achi2=020 (8 in 405) [TTACCC]

K=6 chi2=000 (383 in 405) achi2=000 (232 in 405) [TTACCC]

Error = 1

Quorum = 80

K=1 chi2=133 (3134 in 10337) achi2=169 (2743 in 10337) [TTACCC]

K=2 chi2=302 (657 in 10337) achi2=267 (945 in 10337) [TTACCC]

K=3 chi2=409 (106 in 10337) achi2=394 (170 in 10337) [TTACCC]

K=4 chi2=082 (1439 in 10337) achi2=109 (1091 in 10337) [TTACCC]

K=5 chi2=002 (7204 in 10337) achi2=003 (6765 in 10337) [TTACCC]

K=6 chi2=000 (10150 in 10337) achi2=000 (6299 in 10337) [TTACCC]

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=626 (58 in 785) achi2=615 (64 in 785) [TGCCAAG]

K=2 chi2=610 (11 in 785) achi2=585 (14 in 785) [TGCCAAG]

K=3 chi2=561 (8 in 785) achi2=575 (6 in 785) [TGCCAAG]

K=4 chi2=399 (4 in 785) achi2=377 (6 in 785) [TGCCAAG]

K=5 chi2=184 (8 in 785) achi2=157 (10 in 785) [TGCCAAG]

K=6 chi2=054 (5 in 785) achi2=055 (255 in 785) [TGCCAAG]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 74

Error = 1

Quorum = 60

K=1 chi2=463 (1914 in 20257) achi2=458 (2166 in 20257) [TGCCAAG]

K=2 chi2=292 (1694 in 20257) achi2=287 (1959 in 20257) [TGCCAAG]

K=3 chi2=252 (1158 in 20257) achi2=270 (1060 in 20257) [TGCCAAG]

K=4 chi2=038 (8072 in 20257) achi2=030 (9306 in 20257) [TGCCAAG]

K=5 chi2=002 (15272 in 20366) achi2=004 (14013 in 20366) [TGCCAAG]

K=6 chi2=009 (5877 in 20366) achi2=029 (4589 in 20366) [TGCCAAG]

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

K=1 chi2=1035 (5 in 267) achi2=996 (6 in 267) [TGAAACA]

K=2 chi2=961 (1 in 267) achi2=905 (1 in 267) [TGAAACA]

K=3 chi2=934 (1 in 267) achi2=884 (1 in 267) [TGAAACA]

K=4 chi2=794 (1 in 267) achi2=731 (1 in 267) [TGAAACA]

K=5 chi2=264 (2 in 267) achi2=320 (1 in 267) [TGAAACA]

K=6 chi2=044 (3 in 267) achi2=052 (168 in 267) [TGAAACA]

Error = 1

Quorum = 100

K=1 chi2=448 (515 in 7705) achi2=400 (675 in 7705) [TGAAACA]

K=2 chi2=168 (1047 in 7705) achi2=157 (1246 in 7705) [TGAAACA]

K=3 chi2=159 (637 in 7705) achi2=128 (992 in 7705) [TGAAACA]

K=4 chi2=057 (1734 in 7705) achi2=026 (3100 in 7705) [TGAAACA]

K=5 chi2=015 (2574 in 7705) achi2=021 (2435 in 7705) [TGAAACA]

K=6 chi2=007 (1386 in 7705) achi2=006 (2114 in 7705) [TGAAACA]

7_1_SWI4

Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 75

Quorum = 100

K=1 chi2=927 (53 in 8974) achi2=950 (59 in 8974) [CACGAAA]

K=1 chi2=1447 (8 in 8974) achi2=1516 (9 in 8974) [CGCGAAA]

K=2 chi2=686 (17 in 8974) achi2=638 (22 in 8974) [CACGAAA]

K=2 chi2=940 (4 in 8974) achi2=924 (3 in 8974) [CGCGAAA]

K=3 chi2=456 (46 in 8974) achi2=436 (53 in 8974) [CACGAAA]

K=3 chi2=514 (20 in 8974) achi2=502 (25 in 8974) [CGCGAAA]

K=4 chi2=087 (1329 in 8974) achi2=106 (1095 in 8974) [CACGAAA]

K=4 chi2=343 (41 in 8974) achi2=390 (27 in 8974) [CGCGAAA]

K=5 chi2=012 (3730 in 8974) achi2=000 (7343 in 8974) [CACGAAA]

K=5 chi2=033 (1966 in 8974) achi2=121 (397 in 8974) [CGCGAAA]

K=6 chi2=007 (1861 in 8974) achi2=001 (3810 in 8974) [CACGAAA]

K=6 chi2=002 (3146 in 8974) achi2=044 (873 in 8974) [CGCGAAA]

7_2_RGT1

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=2092 (246 in 6085) achi2=2140 (236 in 6085) [CGGAAAA]

K=1 chi2=810 (799 in 6085) achi2=803 (815 in 6085) [CGGAAGA]

K=1 chi2=1437 (409 in 6085) achi2=1409 (416 in 6085) [CGGAGAA]

K=1 chi2=337 (1833 in 6085) achi2=350 (1782 in 6085) [CGGATAA]

K=2 chi2=837 (251 in 6085) achi2=840 (245 in 6085) [CGGAAAA]

K=2 chi2=451 (648 in 6085) achi2=442 (666 in 6085) [CGGAAGA]

K=2 chi2=989 (186 in 6085) achi2=937 (208 in 6085) [CGGAGAA]

K=2 chi2=432 (698 in 6085) achi2=428 (695 in 6085) [CGGATAA]

K=3 chi2=281 (367 in 6085) achi2=272 (385 in 6085) [CGGAAAA]

K=3 chi2=242 (473 in 6085) achi2=225 (546 in 6085) [CGGAAGA]

K=3 chi2=580 (76 in 6085) achi2=544 (89 in 6085) [CGGAGAA]

K=3 chi2=366 (216 in 6085) achi2=309 (299 in 6085) [CGGATAA]

K=4 chi2=013 (3127 in 6085) achi2=022 (2503 in 6085) [CGGAAAA]

K=4 chi2=039 (1619 in 6085) achi2=040 (1722 in 6085) [CGGAAGA]

K=4 chi2=320 (35 in 6085) achi2=304 (56 in 6085) [CGGAGAA]

K=4 chi2=193 (166 in 6085) achi2=202 (188 in 6085) [CGGATAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 76

8_1_PDR1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 75

K=1 chi2=901 (25 in 639) achi2=884 (27 in 639) [TCCGCGGA]

K=2 chi2=886 (13 in 639) achi2=883 (14 in 639) [TCCGCGGA]

K=3 chi2=862 (4 in 639) achi2=864 (5 in 639) [TCCGCGGA]

K=4 chi2=659 (2 in 639) achi2=741 (2 in 639) [TCCGCGGA]

K=5 chi2=252 (1 in 639) achi2=306 (1 in 639) [TCCGCGGA]

K=6 chi2=012 (5 in 639) achi2=030 (253 in 639) [TCCGCGGA]

Error = 1

Quorum = 75

K=1 chi2=1388 (184 in 16695) achi2=1370 (211 in 16695) [TCCGCGGA]

K=1 chi2=913 (373 in 16695) achi2=895 (419 in 16695) [TCCGTGGA]

K=2 chi2=1355 (68 in 16695) achi2=1355 (91 in 16695) [TCCGCGGA]

K=2 chi2=952 (199 in 16695) achi2=944 (230 in 16695) [TCCGTGGA]

K=3 chi2=1237 (5 in 16695) achi2=1138 (22 in 16695) [TCCGCGGA]

K=3 chi2=782 (88 in 16695) achi2=771 (119 in 16695) [TCCGTGGA]

K=4 chi2=570 (45 in 16695) achi2=688 (33 in 16695) [TCCGCGGA]

K=4 chi2=544 (53 in 16695) achi2=610 (56 in 16695) [TCCGTGGA]

K=5 chi2=061 (2230 in 16699) achi2=113 (1175 in 16699) [TCCGCGGA]

K=5 chi2=101 (981 in 16699) achi2=207 (328 in 16699) [TCCGTGGA]

K=6 chi2=001 (8600 in 16699) achi2=000 (10541 in 16699) [TCCGCGGA]

K=6 chi2=002 (7065 in 16699) achi2=003 (8326 in 16699) [TCCGTGGA]

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 chi2=995 (22 in 423) achi2=985 (24 in 423) [TCCGCGGA]

K=2 chi2=980 (13 in 423) achi2=985 (13 in 423) [TCCGCGGA]

K=3 chi2=989 (4 in 423) achi2=967 (4 in 423) [TCCGCGGA]

K=4 chi2=741 (1 in 423) achi2=802 (1 in 423) [TCCGCGGA]

K=5 chi2=220 (1 in 423) achi2=303 (1 in 423) [TCCGCGGA]

K=6 chi2=010 (1 in 423) achi2=027 (229 in 423) [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 77

Error = 1

Quorum = 80

K=1 chi2=1609 (169 in 11592) achi2=1592 (187 in 11592) [TCCGCGGA]

K=1 chi2=1090 (327 in 11592) achi2=1109 (353 in 11592) [TCCGTGGA]

K=2 chi2=1634 (63 in 11592) achi2=1584 (97 in 11592) [TCCGCGGA]

K=2 chi2=1148 (174 in 11592) achi2=1142 (197 in 11592) [TCCGTGGA]

K=3 chi2=1333 (20 in 11592) achi2=1364 (24 in 11592) [TCCGCGGA]

K=3 chi2=878 (91 in 11592) achi2=894 (109 in 11592) [TCCGTGGA]

K=4 chi2=784 (26 in 11592) achi2=785 (35 in 11592) [TCCGCGGA]

K=4 chi2=632 (50 in 11592) achi2=689 (52 in 11592) [TCCGTGGA]

K=5 chi2=072 (1370 in 11601) achi2=127 (778 in 11601) [TCCGCGGA]

K=5 chi2=100 (878 in 11601) achi2=146 (618 in 11601) [TCCGTGGA]

K=6 chi2=000 (7969 in 11601) achi2=001 (5475 in 11601) [TCCGCGGA]

K=6 chi2=001 (4626 in 11601) achi2=004 (4674 in 11601) [TCCGTGGA]

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=285 (128 in 1319) achi2=287 (133 in 1319) [TCCGTGGA]

K=2 chi2=294 (89 in 1319) achi2=289 (95 in 1319) [TCCGTGGA]

K=3 chi2=283 (10 in 1319) achi2=278 (15 in 1319) [TCCGTGGA]

K=4 chi2=240 (7 in 1319) achi2=255 (6 in 1319) [TCCGTGGA]

K=5 chi2=122 (16 in 1319) achi2=206 (5 in 1319) [TCCGTGGA]

K=6 chi2=015 (42 in 1319) achi2=084 (269 in 1319) [TCCGTGGA]

Error = 1

Quorum = 60

K=1 chi2=336 (1859 in 35494) achi2=391 (1312 in 35494) [TCCGAGGA]

K=1 chi2=612 (489 in 35494) achi2=660 (442 in 35494) [TCCGCGGA]

K=1 chi2=368 (1518 in 35494) achi2=402 (1240 in 35494) [TCCGTGGA]

K=2 chi2=363 (946 in 35494) achi2=379 (816 in 35494) [TCCGAGGA]

K=2 chi2=636 (218 in 35494) achi2=640 (206 in 35494) [TCCGCGGA]

K=2 chi2=416 (670 in 35494) achi2=428 (599 in 35494) [TCCGTGGA]

K=3 chi2=301 (498 in 35494) achi2=304 (471 in 35494) [TCCGAGGA]

K=3 chi2=515 (41 in 35494) achi2=480 (63 in 35494) [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 78

K=3 chi2=341 (278 in 35494) achi2=329 (327 in 35494) [TCCGTGGA]

K=4 chi2=285 (274 in 35494) achi2=295 (205 in 35494) [TCCGAGGA]

K=4 chi2=300 (198 in 35494) achi2=337 (85 in 35494) [TCCGCGGA]

K=4 chi2=217 (1082 in 35494) achi2=219 (1060 in 35494) [TCCGTGGA]

K=5 chi2=075 (6352 in 35725) achi2=087 (6044 in 35725) [TCCGAGGA]

K=5 chi2=079 (5926 in 35725) achi2=153 (2215 in 35725) [TCCGCGGA]

K=5 chi2=081 (5763 in 35725) achi2=080 (6754 in 35725) [TCCGTGGA]

K=6 chi2=003 (19985 in 35725) achi2=010 (17420 in 35725) [TCCGAGGA]

K=6 chi2=026 (6383 in 35725) achi2=053 (6615 in 35725) [TCCGCGGA]

K=6 chi2=011 (11922 in 35725) achi2=000 (30343 in 35725) [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 79

Anexo C Resultados do Caacutelculo da Significacircncia Estatiacutestica referente agrave Abundacircncia

pelo Meacutetodo Analiacutetico para Conjuntos de Dados de Saccharomyces cerevisiae

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados

A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos os resultados para os motivos procurados em relaccedilatildeo a cada valor dos paracircmetros

Descriccedilatildeo do formato dos resultados

K=ltk-mer conservadogt achi2 = ltchi2 analiacuteticogt (ltposiccedilatildeogt in ltnuacutemero de motivos extraiacutedosgt ltposiccedilatildeo entre motivos do mesmo tamanhogt [motivo]

Nota A posiccedilatildeo do motivo refere-se agrave ordem em que se encontra numa lista ordenada por ordem decrescente de chi2 analiacutetico dos motivos extraiacutedos

10_2_YRR1 Motivo TTCCGTGGAA TTCCGCGGAT TTCCGCGGAA Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=476 (745 in 8908) 13 [TTCCGCGGAA]

K=2 achi2=464 (509 in 8908) 12 [TTCCGCGGAA]

K=3 achi2=413 (230 in 8908) 11 [TTCCGCGGAA]

K=4 achi2=278 (205 in 8908) 10 [TTCCGCGGAA]

K=5 achi2=143 (287 in 8908) 12 [TTCCGCGGAA]

K=6 achi2=041 (1031 in 8908) 15 [TTCCGCGGAA]

K=7 achi2=000 (2230 in 8908) 16 [TTCCGCGGAA]

K=8 achi2=001 (4728 in 8908) 16 [TTCCGCGGAA]

K=9 achi2=001 (7926 in 8908) 16 [TTCCGCGGAA]

K=10 achi2=000 (8782 in 8908) 16 [TTCCGCGGAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 80

K=11 achi2=000 (8903 in 8908) 12 [TTCCGCGGAA]

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 achi2=387 (504 in 17722) 3 [ACCCTAAAGGT]

K=1 achi2=483 (265 in 17722) 2 [ACCTTAAAGGT]

K=2 achi2=389 (248 in 17722) 3 [ACCCTAAAGGT]

K=2 achi2=484 (119 in 17722) 2 [ACCTTAAAGGT]

K=3 achi2=391 (61 in 17722) 3 [ACCCTAAAGGT]

K=3 achi2=485 (14 in 17722) 2 [ACCTTAAAGGT]

K=4 achi2=387 (31 in 17722) 4 [ACCCTAAAGGT]

K=4 achi2=485 (4 in 17722) 2 [ACCTTAAAGGT]

K=5 achi2=343 (29 in 17722) 4 [ACCCTAAAGGT]

K=5 achi2=462 (3 in 17722) 2 [ACCTTAAAGGT]

K=6 achi2=282 (276 in 17722) 4 [ACCCTAAAGGT]

K=6 achi2=431 (259 in 17722) 2 [ACCTTAAAGGT]

K=7 achi2=063 (1455 in 17722) 4 [ACCCTAAAGGT]

K=7 achi2=197 (1286 in 17722) 3 [ACCTTAAAGGT]

K=8 achi2=004 (5422 in 17722) 3 [ACCCTAAAGGT]

K=8 achi2=005 (5392 in 17722) 1 [ACCTTAAAGGT]

K=9 achi2=000 (13376 in 17722) 3 [ACCCTAAAGGT]

K=9 achi2=005 (13364 in 17722) 1 [ACCTTAAAGGT]

K=10 achi2=000 (17186 in 17722) 3 [ACCCTAAAGGT]

K=10 achi2=000 (17184 in 17722) 1 [ACCTTAAAGGT]

K=11 achi2=000 (17688 in 17722) 3 [ACCCTAAAGGT]

K=11 achi2=000 (17686 in 17722) 1 [ACCTTAAAGGT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 81

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=523 (72 in 826) 21 [CCCCT]

K=2 achi2=297 (75 in 826) 23 [CCCCT]

K=3 achi2=152 (105 in 826) 55 [CCCCT]

K=4 achi2=007 (382 in 826) 310 [CCCCT]

K=5 achi2=000 (339 in 826) 245 [CCCCT]

K=6 achi2=000 (604 in 826) 255 [CCCCT]

Error = 1

Quorum = 60

K=1 achi2=462 (2153 in 21544) 223 [CCCCT]

K=2 achi2=070 (8620 in 21544) 476 [CCCCT]

K=3 achi2=000 (20723 in 21544) 986 [CCCCT]

K=4 achi2=083 (4322 in 21544) 81 [CCCCT]

K=5 achi2=000 (20635 in 21544) 618 [CCCCT]

K=6 achi2=000 (21264 in 21544) 744 [CCCCT]

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=314 (116 in 1316) 27 [CCCCT]

K=2 achi2=194 (178 in 1316) 39 [CCCCT]

K=3 achi2=140 (190 in 1316) 42 [CCCCT]

K=4 achi2=104 (150 in 1316) 19 [CCCCT]

K=5 achi2=000 (576 in 1316) 111 [CCCCT]

K=6 achi2=000 (1113 in 1316) 392 [CCCCT]

K=7 achi2=901 (324 in 1316) 94 [CCCCT]

K=8 achi2=901 (340 in 1316) 94 [CCCCT]

K=9 achi2=901 (341 in 1316) 94 [CCCCT]

K=10 achi2=901 (342 in 1316) 94 [CCCCT]

K=11 achi2=901 (343 in 1316) 94 [CCCCT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 82

Error = 1

Quorum = 60

K=1 achi2=082 (15627 in 35258) 568 [CCCCT]

K=2 achi2=000 (34292 in 35258) 986 [CCCCT]

K=3 achi2=011 (25832 in 35258) 671 [CCCCT]

K=4 achi2=044 (14486 in 35258) 144 [CCCCT]

K=5 achi2=000 (34387 in 35258) 626 [CCCCT]

K=6 achi2=000 (34560 in 35258) 326 [CCCCT]

5_1_Gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=079 (3260 in 6121) 599 [CATCC]

K=1 achi2=1158 (344 in 6121) 50 [CTTCC]

K=2 achi2=161 (1763 in 6121) 312 [CATCC]

K=2 achi2=470 (566 in 6121) 105 [CTTCC]

K=3 achi2=192 (906 in 6121) 128 [CATCC]

K=3 achi2=109 (1663 in 6121) 248 [CTTCC]

K=4 achi2=091 (1091 in 6121) 97 [CATCC]

K=4 achi2=001 (5126 in 6121) 870 [CTTCC]

K=5 achi2=000 (5152 in 6121) 372 [CATCC]

K=5 achi2=000 (5000 in 6121) 230 [CTTCC]

K=6 achi2=000 (5438 in 6121) 341 [CATCC]

K=6 achi2=000 (5149 in 6121) 52 [CTTCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 83

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 achi2=273 (2534 in 10819) 831 [GATAAG]

K=1 achi2=102 (4875 in 10819) 1698 [GATTAG]

K=2 achi2=493 (849 in 10819) 251 [GATAAG]

K=2 achi2=268 (1952 in 10819) 593 [GATTAG]

K=3 achi2=174 (2107 in 10819) 675 [GATAAG]

K=3 achi2=925 (81 in 10819) 12 [GATTAG]

K=4 achi2=009 (7567 in 10819) 2712 [GATAAG]

K=4 achi2=352 (328 in 10819) 59 [GATTAG]

K=5 achi2=003 (7728 in 10819) 3046 [GATAAG]

K=5 achi2=159 (773 in 10819) 110 [GATTAG]

K=6 achi2=000 (6602 in 10819) 761 [GATAAG]

K=6 achi2=000 (6760 in 10819) 917 [GATTAG]

K=7 achi2=000 (10606 in 10819) 3684 [GATAAG]

K=7 achi2=000 (8570 in 10819) 1648 [GATTAG]

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

Error = 1

Quorum = 60

K=1 achi2=555 (2348 in 20531) 456 [CACCCA]

K=1 achi2=102 (9117 in 20531) 2005 [CACCCG]

K=2 achi2=368 (2233 in 20531) 460 [CACCCA]

K=2 achi2=117 (6956 in 20531) 1498 [CACCCG]

K=3 achi2=223 (2249 in 20531) 392 [CACCCA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 84

K=3 achi2=023 (12243 in 20531) 2397 [CACCCG]

K=4 achi2=105 (3457 in 20531) 482 [CACCCA]

K=4 achi2=002 (17523 in 20531) 3457 [CACCCG]

K=5 achi2=006 (13001 in 20531) 2409 [CACCCA]

K=5 achi2=048 (5016 in 20531) 610 [CACCCG]

K=6 achi2=000 (17016 in 20531) 1751 [CACCCA]

K=6 achi2=000 (18636 in 20531) 3343 [CACCCG]

K=7 achi2=000 (17654 in 20531) 1218 [CACCCA]

K=7 achi2=000 (18327 in 20531) 1891 [CACCCG]

7_0_REB1 Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 achi2=586 (33 in 405) 5 [TTACCC]

K=2 achi2=635 (12 in 405) 1 [TTACCC]

K=3 achi2=679 (2 in 405) 1 [TTACCC]

K=4 achi2=402 (3 in 405) 2 [TTACCC]

K=5 achi2=020 (8 in 405) 7 [TTACCC]

K=6 achi2=000 (232 in 405) 8 [TTACCC]

K=7 achi2=000 (402 in 405) 8 [TTACCC]

Error = 1

Quorum = 80

K=1 achi2=169 (2742 in 10337) 933 [TTACCC]

K=2 achi2=267 (945 in 10337) 284 [TTACCC]

K=3 achi2=394 (170 in 10337) 25 [TTACCC]

K=4 achi2=109 (1091 in 10337) 246 [TTACCC]

K=5 achi2=003 (6765 in 10337) 2619 [TTACCC]

K=6 achi2=000 (6295 in 10337) 852 [TTACCC]

K=7 achi2=000 (9863 in 10337) 3333 [TTACCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 85

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=615 (64 in 785) 12 [TGCCAAG]

K=2 achi2=585 (14 in 785) 3 [TGCCAAG]

K=3 achi2=575 (6 in 785) 2 [TGCCAAG]

K=4 achi2=377 (6 in 785) 2 [TGCCAAG]

K=5 achi2=157 (10 in 785) 5 [TGCCAAG]

K=6 achi2=055 (255 in 785) 4 [TGCCAAG]

K=7 achi2=000 (652 in 785) 18 [TGCCAAG]

K=8 achi2=000 (771 in 785) 15 [TGCCAAG]

Error = 1

Quorum = 60

K=1 achi2=458 (2166 in 20257) 407 [TGCCAAG]

K=2 achi2=287 (1959 in 20257) 462 [TGCCAAG]

K=3 achi2=270 (1060 in 20257) 241 [TGCCAAG]

K=4 achi2=030 (9306 in 20257) 3695 [TGCCAAG]

K=5 achi2=004 (13915 in 20257) 6353 [TGCCAAG]

K=6 achi2=029 (4512 in 20257) 1713 [TGCCAAG]

K=7 achi2=003 (5275 in 20257) 36 [TGCCAAG]

K=8 achi2=000 (12401 in 20257) 1099 [TGCCAAG]

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

K=1 achi2=996 (6 in 267) 1 [TGAAACA]

K=2 achi2=905 (1 in 267) 1 [TGAAACA]

K=3 achi2=884 (1 in 267) 1 [TGAAACA]

K=4 achi2=731 (1 in 267) 1 [TGAAACA]

K=5 achi2=320 (1 in 267) 1 [TGAAACA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 86

K=6 achi2=052 (168 in 267) 2 [TGAAACA]

K=7 achi2=000 (254 in 267) 1 [TGAAACA]

K=8 achi2=000 (266 in 267) 2 [TGAAACA]

Error = 1

Quorum = 100

K=1 achi2=400 (675 in 7705) 162 [TGAAACA]

K=2 achi2=157 (1246 in 7705) 402 [TGAAACA]

K=3 achi2=128 (992 in 7705) 375 [TGAAACA]

K=4 achi2=026 (3100 in 7705) 1267 [TGAAACA]

K=5 achi2=021 (2435 in 7705) 1154 [TGAAACA]

K=6 achi2=006 (2114 in 7705) 1435 [TGAAACA]

K=7 achi2=000 (2095 in 7705) 260 [TGAAACA]

K=8 achi2=000 (6802 in 7705) 1861 [TGAAACA]

7_1_SWI4 Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=950 (59 in 8974) 15 [CACGAAA]

K=1 achi2=1516 (9 in 8974) 2 [CGCGAAA]

K=2 achi2=638 (22 in 8974) 7 [CACGAAA]

K=2 achi2=924 (3 in 8974) 1 [CGCGAAA]

K=3 achi2=436 (53 in 8974) 25 [CACGAAA]

K=3 achi2=502 (25 in 8974) 10 [CGCGAAA]

K=4 achi2=106 (1095 in 8974) 476 [CACGAAA]

K=4 achi2=390 (27 in 8974) 9 [CGCGAAA]

K=5 achi2=000 (7343 in 8974) 3297 [CACGAAA]

K=5 achi2=121 (397 in 8974) 176 [CGCGAAA]

K=6 achi2=001 (3810 in 8974) 2702 [CACGAAA]

K=6 achi2=044 (873 in 8974) 314 [CGCGAAA]

K=7 achi2=000 (2384 in 8974) 205 [CACGAAA]

K=7 achi2=000 (2371 in 8974) 194 [CGCGAAA]

K=8 achi2=000 (8531 in 8974) 3025 [CACGAAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 87

K=8 achi2=000 (5630 in 8974) 124 [CGCGAAA]

7_2_RGT1

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=2140 (236 in 6085) 74 [CGGAAAA]

K=1 achi2=803 (815 in 6085) 253 [CGGAAGA]

K=1 achi2=1409 (416 in 6085) 129 [CGGAGAA]

K=1 achi2=350 (1782 in 6085) 511 [CGGATAA]

K=2 achi2=840 (245 in 6085) 67 [CGGAAAA]

K=2 achi2=442 (666 in 6085) 169 [CGGAAGA]

K=2 achi2=937 (208 in 6085) 55 [CGGAGAA]

K=2 achi2=428 (695 in 6085) 175 [CGGATAA]

K=3 achi2=272 (385 in 6085) 126 [CGGAAAA]

K=3 achi2=225 (546 in 6085) 173 [CGGAAGA]

K=3 achi2=544 (89 in 6085) 28 [CGGAGAA]

K=3 achi2=309 (299 in 6085) 100 [CGGATAA]

K=4 achi2=022 (2503 in 6085) 821 [CGGAAAA]

K=4 achi2=040 (1722 in 6085) 598 [CGGAAGA]

K=4 achi2=304 (56 in 6085) 23 [CGGAGAA]

K=4 achi2=202 (188 in 6085) 81 [CGGATAA]

K=5 achi2=003 (3495 in 6085) 1206 [CGGAAAA]

K=5 achi2=019 (1882 in 6085) 749 [CGGAAGA]

K=5 achi2=238 (34 in 6085) 12 [CGGAGAA]

K=5 achi2=138 (154 in 6085) 74 [CGGATAA]

K=6 achi2=009 (1192 in 6085) 744 [CGGAAAA]

K=6 achi2=031 (682 in 6085) 300 [CGGAAGA]

K=6 achi2=057 (459 in 6085) 122 [CGGAGAA]

K=6 achi2=042 (550 in 6085) 191 [CGGATAA]

K=7 achi2=000 (1608 in 6085) 53 [CGGAAAA]

K=7 achi2=000 (2439 in 6085) 861 [CGGAAGA]

K=7 achi2=000 (2150 in 6085) 572 [CGGAGAA]

K=7 achi2=000 (2472 in 6085) 894 [CGGATAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 88

K=8 achi2=000 (6056 in 6085) 1512 [CGGAAAA]

K=8 achi2=000 (5728 in 6085) 1184 [CGGAAGA]

K=8 achi2=000 (5127 in 6085) 583 [CGGAGAA]

K=8 achi2=000 (5961 in 6085) 1417 [CGGATAA]

8_1_PDR1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 75

K=1 achi2=884 (27 in 639) 1 [TCCGCGGA]

K=2 achi2=883 (14 in 639) 1 [TCCGCGGA]

K=3 achi2=864 (5 in 639) 1 [TCCGCGGA]

K=4 achi2=741 (2 in 639) 1 [TCCGCGGA]

K=5 achi2=306 (1 in 639) 1 [TCCGCGGA]

K=6 achi2=030 (253 in 639) 1 [TCCGCGGA]

K=7 achi2=012 (587 in 639) 1 [TCCGCGGA]

K=8 achi2=000 (633 in 639) 1 [TCCGCGGA]

K=9 achi2=000 (639 in 639) 1 [TCCGCGGA]

Error = 1

Quorum = 75

K=1 achi2=1370 (211 in 16695) 48 [TCCGCGGA]

K=1 achi2=895 (419 in 16695) 111 [TCCGTGGA]

K=2 achi2=1355 (91 in 16695) 26 [TCCGCGGA]

K=2 achi2=944 (230 in 16695) 59 [TCCGTGGA]

K=3 achi2=1138 (22 in 16695) 13 [TCCGCGGA]

K=3 achi2=771 (119 in 16695) 39 [TCCGTGGA]

K=4 achi2=688 (33 in 16695) 9 [TCCGCGGA]

K=4 achi2=610 (56 in 16695) 18 [TCCGTGGA]

K=5 achi2=113 (1171 in 16695) 496 [TCCGCGGA]

K=5 achi2=207 (324 in 16695) 135 [TCCGTGGA]

K=6 achi2=000 (10537 in 16695) 2237 [TCCGCGGA]

K=6 achi2=003 (8322 in 16695) 1955 [TCCGTGGA]

K=7 achi2=000 (4060 in 16695) 2312 [TCCGCGGA]

K=7 achi2=000 (4066 in 16695) 2318 [TCCGTGGA]

K=8 achi2=000 (5835 in 16695) 174 [TCCGCGGA]

K=8 achi2=000 (6050 in 16695) 389 [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 89

K=9 achi2=000 (15679 in 16695) 1375 [TCCGCGGA]

K=9 achi2=000 (14892 in 16695) 588 [TCCGTGGA]

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 achi2=985 (24 in 423) 1 [TCCGCGGA]

K=2 achi2=985 (13 in 423) 1 [TCCGCGGA]

K=3 achi2=967 (4 in 423) 1 [TCCGCGGA]

K=4 achi2=802 (1 in 423) 1 [TCCGCGGA]

K=5 achi2=303 (1 in 423) 1 [TCCGCGGA]

K=6 achi2=027 (229 in 423) 1 [TCCGCGGA]

K=7 achi2=013 (401 in 423) 1 [TCCGCGGA]

K=8 achi2=000 (420 in 423) 1 [TCCGCGGA]

K=9 achi2=000 (423 in 423) 1 [TCCGCGGA]

Error = 1

Quorum = 80

K=1 achi2=1592 (187 in 11592) 35 [TCCGCGGA]

K=1 achi2=1109 (353 in 11592) 83 [TCCGTGGA]

K=2 achi2=1584 (97 in 11592) 25 [TCCGCGGA]

K=2 achi2=1142 (197 in 11592) 44 [TCCGTGGA]

K=3 achi2=1364 (24 in 11592) 9 [TCCGCGGA]

K=3 achi2=894 (109 in 11592) 35 [TCCGTGGA]

K=4 achi2=785 (35 in 11592) 11 [TCCGCGGA]

K=4 achi2=689 (52 in 11592) 16 [TCCGTGGA]

K=5 achi2=127 (769 in 11592) 243 [TCCGCGGA]

K=5 achi2=146 (609 in 11592) 204 [TCCGTGGA]

K=6 achi2=001 (5466 in 11592) 879 [TCCGCGGA]

K=6 achi2=004 (4665 in 11592) 789 [TCCGTGGA]

K=7 achi2=000 (2570 in 11592) 968 [TCCGCGGA]

K=7 achi2=000 (2517 in 11592) 941 [TCCGTGGA]

K=8 achi2=000 (5547 in 11592) 157 [TCCGCGGA]

K=8 achi2=000 (5666 in 11592) 276 [TCCGTGGA]

K=9 achi2=000 (10744 in 11592) 135 [TCCGCGGA]

K=9 achi2=000 (11041 in 11592) 432 [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 90

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=287 (133 in 1319) 8 [TCCGTGGA]

K=2 achi2=289 (95 in 1319) 5 [TCCGTGGA]

K=3 achi2=278 (15 in 1319) 2 [TCCGTGGA]

K=4 achi2=255 (6 in 1319) 1 [TCCGTGGA]

K=5 achi2=206 (5 in 1319) 2 [TCCGTGGA]

K=6 achi2=084 (269 in 1319) 7 [TCCGTGGA]

K=7 achi2=000 (897 in 1319) 17 [TCCGTGGA]

K=8 achi2=000 (1232 in 1319) 8 [TCCGTGGA]

K=9 achi2=000 (1303 in 1319) 1 [TCCGTGGA]

Error = 1

Quorum = 60

K=1 achi2=391 (1312 in 35494) 312 [TCCGAGGA]

K=1 achi2=660 (442 in 35494) 89 [TCCGCGGA]

K=1 achi2=402 (1240 in 35494) 301 [TCCGTGGA]

K=2 achi2=379 (816 in 35494) 174 [TCCGAGGA]

K=2 achi2=640 (206 in 35494) 48 [TCCGCGGA]

K=2 achi2=428 (599 in 35494) 123 [TCCGTGGA]

K=3 achi2=304 (471 in 35494) 120 [TCCGAGGA]

K=3 achi2=480 (63 in 35494) 10 [TCCGCGGA]

K=3 achi2=329 (327 in 35494) 87 [TCCGTGGA]

K=4 achi2=295 (205 in 35494) 61 [TCCGAGGA]

K=4 achi2=337 (85 in 35494) 28 [TCCGCGGA]

K=4 achi2=219 (1060 in 35494) 257 [TCCGTGGA]

K=5 achi2=087 (5828 in 35494) 2082 [TCCGAGGA]

K=5 achi2=153 (2062 in 35494) 521 [TCCGCGGA]

K=5 achi2=080 (6534 in 35494) 2399 [TCCGTGGA]

K=6 achi2=010 (17189 in 35494) 7240 [TCCGAGGA]

K=6 achi2=053 (6392 in 35494) 2378 [TCCGCGGA]

K=6 achi2=000 (30112 in 35494) 12027 [TCCGTGGA]

K=7 achi2=006 (9736 in 35494) 4698 [TCCGAGGA]

K=7 achi2=006 (10113 in 35494) 5025 [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 91

K=7 achi2=000 (17876 in 35494) 11124 [TCCGTGGA]

K=8 achi2=000 (12067 in 35494) 1424 [TCCGAGGA]

K=8 achi2=000 (11172 in 35494) 529 [TCCGCGGA]

K=8 achi2=000 (11688 in 35494) 1045 [TCCGTGGA]

K=9 achi2=000 (31497 in 35494) 8200 [TCCGAGGA]

K=9 achi2=000 (25674 in 35494) 2377 [TCCGCGGA]

K=9 achi2=000 (29818 in 35494) 6521 [TCCGTGGA]

Page 12: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 2

No Capiacutetulo 2 apresentamos uma descriccedilatildeo do problema em anaacutelise evidenciando a

motivaccedilatildeo bioloacutegica e fazendo o seu enquadramento com os objectivos do trabalho

No Capiacutetulo 3 descrevemos o algoritmo SMILE no contexto do problema da extracccedilatildeo de

motivos e apresentamos um gerador de dados sinteacuteticos que seraacute usado como ponto de partida

do estudo da eficaacutecia do algoritmo

No Capiacutetulo 4 discutimos a utilizaccedilatildeo de meacutetodos estatiacutesticos para aferir a significacircncia

bioloacutegica dos motivos extraiacutedos pelo SMILE

No Capiacutetulo 5 apresentamos um meacutetodo para geraccedilatildeo de uma representaccedilatildeo compacta de

motivos extraiacutedos usando a codificaccedilatildeo IUPAC

Finalmente no Capiacutetulo 6 apresentamos vaacuterios resultados obtidos tanto com dados sinteacuteticos

como com dados reais discutindo a aplicabilidade dos meacutetodos estatiacutesticos apresentados no

Capiacutetulo 4

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 3

2 Descriccedilatildeo do Problema

A moleacutecula de DNA eacute responsaacutevel pela manutenccedilatildeo da informaccedilatildeo geneacutetica de cada indiviacuteduo

e eacute constituiacuteda por duas cadeias de nucleoacutetidos dispostas de modo a formar uma dupla

heacutelice [2] que se encontra representada na Figura 21 Cada nucleoacutetido eacute formado por trecircs

elementos um accediluacutecar um grupo fosfato e uma de quatro bases azotadas As quatro bases satildeo

a Adenina (A) a Timina (T) a Guanina (G) e a Citosina (C) e podem ser vistas como os

quatro elementos de um alfabeto

Figura 21

Representaccedilatildeo de cadeias de DNA em forma de dupla heacutelice

As duas cadeias de DNA satildeo complementares no sentido em que as bases das duas cadeias

estatildeo emparelhadas Assim uma Adenina de uma cadeia emparelha com uma Timina da

cadeia complementar e do mesmo modo uma Citosina emparelha com uma Guanina

Os genes satildeo segmentos de uma cadeia de DNA que controlam a siacutentese proteica e

consequentemente toda a actividade celular O genoma eacute o conjunto de genes de um

indiviacuteduo

A expressatildeo geacutenica eacute o processo atraveacutes do qual a informaccedilatildeo contida nos genes dirige a

siacutentese de proteiacutenas Este processo envolve dois passos transcriccedilatildeo e traduccedilatildeo

A transcriccedilatildeo consiste na transferecircncia da informaccedilatildeo contida no DNA para uma moleacutecula

intermediaacuteria de RNA designada de RNA-mensageiro ou mRNA De seguida o molde de

mRNA eacute usado no passo de traduccedilatildeo onde iraacute dirigir a siacutentese proteica

Este processo eacute semelhante em todos os organismos vivos embora existam diferenccedilas

assinalaacuteveis entre organismos eucariotas e procariotas isto eacute entre organismos com e sem

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 4

nuacutecleo individualizado respectivamente Em particular o mecanismo eacute consideravelmente

mais complexo em organismos eucariotas A Figura 22 ilustra o processo de expressatildeo geacutenica

em eucariotas (Figura 22-A) e procariotas (Figura 22-B)

Figura 22 Expressatildeo geacutenica em eucariotas (A) e procariotas (B)

Actualmente o problema da identificaccedilatildeo e modelaccedilatildeo dos mecanismos que regulam a

interacccedilatildeo entre grupos de genes eacute um dos problemas mais em foco na investigaccedilatildeo em

biologia computacional Como jaacute foi referido a regiatildeo promotora eacute parte essencial do

mecanismo de regulaccedilatildeo da transcriccedilatildeo geacutenica

A biologia oferece-nos alguns modelos da regiatildeo promotora evidenciando as diferenccedilas entre

organismos procariotas (Figura 23) e eucariotas (Figura 24)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 5

Figura 23 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em procariotas

Figura 24 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em eucariotas

No mecanismo de transcriccedilatildeo geacutenica interveacutem uma enzima denominada RNA-polimerase

Esta enzima tem como funccedilatildeo a transcriccedilatildeo da informaccedilatildeo contida no DNA para uma cadeia

de RNA que iraacute posteriormente intervir no processo de siacutentese proteica

Para que a RNA-polimerase inicie a transcriccedilatildeo de uma cadeia de DNA geralmente um gene

eacute necessaacuterio que se cumpram algumas condiccedilotildees Assim entre outras eacute necessaacuterio que

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 6

estejam presentes na regiatildeo promotora motivos que a RNA-polimerase reconheccedila e aos quais

se possa ligar para iniciar a transcriccedilatildeo da regiatildeo a jusante (na literatura inglesa estas regiotildees

satildeo denominadas de binding sites) As condiccedilotildees de activaccedilatildeo desta enzima satildeo mais

complexas nos organismos eucariotas [3] uma vez que neste caso para aleacutem dos motivos

referidos existem ainda vaacuterios outros que satildeo reconhecidos por factores de transcriccedilatildeo isto eacute

proteiacutenas que se ligam sucessivamente agrave RNA-polimerase estabelecendo um complexo

mecanismo de regulaccedilatildeo Estes motivos podem estar a montante a jusante ou mesmo no

interior do gene a ser transcrito e podem ainda exercer um efeito estimulador ou repressor da

transcriccedilatildeo Os locais onde existem motivos aos quais se ligam os diversos factores de

transcriccedilatildeo satildeo designados genericamente por regiotildees reguladoras

Eacute possiacutevel compreender agora a importacircncia da necessidade de ser definido um modelo ou

modelos para a regiatildeo promotora no acircmbito do estudo do genoma

Neste trabalho utilizamos o algoritmo SMILE para procurar motivos interessantes isto eacute

biologicamente significativos em cadeias de DNA pertencentes agrave regiatildeo promotora dos genes

Como jaacute foi referido trata-se de um algoritmo proliacutefico no sentido em que se preocupa em

encontrar todas as sequecircncias que cumpram os paracircmetros especificados Sendo assim torna-

se necessaacuterio um esforccedilo significativo de poacutes-processamento para que possa ser obtida

informaccedilatildeo uacutetil a partir dos dados gerados

O poacutes-processamento dos motivos extraiacutedos inclui uma anaacutelise estatiacutestica que culmina com a

atribuiccedilatildeo de um niacutevel de significacircncia a cada motivo Deste modo eacute possiacutevel definir um

crivo que separa motivos considerados relevantes de motivos agrave partida menos interessantes

Finalmente e depois de ter sido encontrado um conjunto de motivos relevantes seraacute efectuada

uma traduccedilatildeo para uma representaccedilatildeo IUPAC Esta representaccedilatildeo permite compactar os

dados agrupando motivos muito semelhantes Este passo eacute de importacircncia essencial para uma

utilizaccedilatildeo eficiente dos dados obtidos uma vez que uma representaccedilatildeo compacta facilita a sua

utilizaccedilatildeo em pesquisas em bases de dados bioloacutegicas que contecircm informaccedilatildeo sobre

consensos anteriormente identificados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 7

3 Extracccedilatildeo de motivos

31 Algoritmo SMILE

O SMILE eacute um meacutetodo algoriacutetmico de extracccedilatildeo de motivos de sequecircncias bioloacutegicas O

algoritmo comeccedila por processar um conjunto de dados de entrada composto por vaacuterias

sequecircncias natildeo alinhadas de nucleoacutetidos que se sabe conterem um ou mais binding sites Estes

dados satildeo utilizados para calcular ocorrecircncias de motivos usando como estrutura de dados

base uma aacutervore de sufixos

Um modelo eacute uma representaccedilatildeo de subsequecircncias que ocorrem nos dados de entrada

satisfazendo potencialmente certas propriedades

O algoritmo iraacute assim pesquisar modelos (simples ou estruturados) nos dados que lhe satildeo

fornecidos segundo alguns paracircmetros

Um modelo simples diz respeito a uma subsequecircncia contiacutegua de nucleoacutetidos enquanto que

um modelo estruturado eacute uma composiccedilatildeo de modelos simples

Um modelo estruturado pode ser constituiacutedo por vaacuterias partes posicionadas ao longo da

sequecircncia Cada parte eacute um modelo simples que pode ter um tamanho variaacutevel (entre kmin e

kmax) O espaccedilo entre cada parte consecutiva pode tambeacutem ser parametrizado (dmin e dmax)

Do mesmo modo tambeacutem eacute possiacutevel parametrizar o nuacutemero de erros que se permite ocorrer

no modelo e em cada uma das suas partes

A Figura 31 apresenta um exemplo de uma especificaccedilatildeo de um modelo estruturado em que

se consideram duas partes A primeira parte pode ter um tamanho entre 6 e 8 nucleoacutetidos e satildeo

admitidos 2 erros A segunda parte pode ocorrer entre 16 e 18 nucleoacutetidos apoacutes a primeira

parte e teraacute um tamanho igualmente entre 6 e 8 embora seja admitido apenas 1 erro

A Figura 32 apresenta o esquema de outro modelo estruturado e respectiva concretizaccedilatildeo

numa sequecircncia Neste exemplo consideram-se igualmente duas partes A primeira com

tamanho entre 6 e 10 nucleoacutetidos e a segunda entre 6 e 8 As partes podem estar a uma

distacircncia que varia entre 10 e 15 nucleoacutetidos e natildeo satildeo admitidos erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 8

Figura 31 Exemplo de uma especificaccedilatildeo de um modelo estruturado

Figura 32 (a) Exemplo de especificaccedilatildeo (b) Modelo retirado de uma sequecircncia

que cumpre a especificaccedilatildeo

Um modelo eacute considerado vaacutelido caso o nuacutemero de sequecircncias de entrada em que ocorre seja

natildeo inferior a um miacutenimo estabelecido designado por quoacuterum Os modelos vaacutelidos satildeo

designados de motivos

Para verificar o nuacutemero de ocorrecircncias eacute utilizada uma aacutervore de sufixos Uma aacutervore de

sufixos eacute uma estrutura de dados que representa todos os sufixos de uma cadeia de caracteres

As suas caracteriacutesticas satildeo de grande utilidade para os algoritmos de emparelhamento de

caracteres

6-10 6-8

10-15

(a)

ATTATTA_CTATCT

ATTATTAGTACTCATACCTATCT

(b)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 9

O SMILE processa conjuntos de dados isto eacute conjuntos de sequecircncias de nucleoacutetidos

utilizando para esse efeito uma aacutervores de sufixos generalizada Esta estrutura de dados

difere da aacutervore de sufixos simples no sentido em que agrupa vaacuterias cadeias de caracteres

correspondentes agraves vaacuterias sequecircncias de nucleoacutetidos Esta multiplicidade de sequecircncias exige

que a estrutura registe as sequecircncias a que cada sufixo pertence As aacutervores de sufixos fazem

uso de um siacutembolo terminador ($) para assinalar o fim de cada sufixo

A Figura 33 eacute um exemplo de uma aacutervore de sufixos generalizada

Figura 33 - Aacutervore de sufixos generalizada para as sequecircncias

TACTA$ (sequecircncia 1) e CACTCA$ (sequecircncia 2)

A extracccedilatildeo de motivos eacute feita atraveacutes da travessia em profundidade-primeiro de uma aacutervore

lexicograacutefica virtual de modo a garantir que se explora o espaccedilo de todos os modelos

possiacuteveis Esta travessia da aacutervore lexicograacutefica eacute acompanhada da exploraccedilatildeo da aacutervore de

sufixos generalizada de forma a obter todos os sufixos a distacircncia de Hamming natildeo superior a

e1 do modelo em consideraccedilatildeo Assim para cada noacute da aacutervore virtual eacute verificado o quoacuterum

do modelo correspondente contabilizando para tanto o nuacutemero de sequecircncias diferentes que

participam com sufixos a distacircncia de Hamming natildeo superior a e do modelo

1 O valor desta distacircncia depende do nuacutemero de erros admitidos na extracccedilatildeo de motivos e corresponde a um dos

paracircmetros do algoritmo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 10

A extracccedilatildeo de motivos estruturados eacute feita de forma semelhante correspondendo a muacuteltiplas

procuras de modelos simples que constituem cada parte do modelo estruturado A transiccedilatildeo

entre partes ilustrada pela Figura 34 corresponde a um salto na aacutervore de sufixos com tantos

niacuteveis de profundidade adicionais quanto a distacircncia especificada entre cada parte

Uma descriccedilatildeo pormenorizada do algoritmo encontra-se em [4] e [5]

Figura 34 Esquema da procura de motivos estruturados usando uma aacutervore de

sufixos

Este algoritmo exacto gera todos os possiacuteveis motivos dentro dos paracircmetros especificados

Daqui resulta geralmente um nuacutemero demasiado grande de motivos sendo necessaacuterio

discriminar quais os verdadeiros binding sites Como meacutetodo de avaliaccedilatildeo o SMILE utiliza

um teste estatiacutestico que eacute descrito na Secccedilatildeo 41

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 11

32 Gerador de dados sinteacuteticos

A anaacutelise da eficaacutecia e eficiecircncia do algoritmo de extracccedilatildeo de motivos exige a utilizaccedilatildeo de

dados sobre os quais tenhamos agrave partida algum conhecimento Para tal foi desenvolvido um

gerador de dados sinteacuteticos

O gerador de dados sinteacuteticos permite por um lado evitar a necessidade de dispor de

conjuntos de dados reais e por outro ter um maior controlo sobre os motivos que estatildeo

realmente presentes nos dados

O gerador permite especificar o nuacutemero e o tamanho das sequecircncias do conjunto de dados

bem como os motivos a inserir Os motivos satildeo especificados pela sua sequecircncia de

nucleoacutetidos posiccedilatildeo na sequecircncia e frequecircncia de ocorrecircncia Os motivos podem ser simples

ou estruturados A Figura 35 representa um exemplo de um ficheiro de especificaccedilatildeo

Frequecircncia

Posiccedilatildeo

Sequecircncia Posiccedilatildeo

Sequecircncia

02 09 TGCTTTTTAAT

28 TCGA

03 02 AGTACATCGA

02 12 TGCGCA

Figura 35 Exemplo de um ficheiro de especificaccedilatildeo para a geraccedilatildeo de dados

sinteacuteticos

No exemplo apresentado satildeo especificados trecircs motivos (um motivo estruturado e dois

motivos simples) A primeira coluna (Frequecircncia) indica a percentagem de sequecircncias em que

o motivo deveraacute ocorrer Em particular para esta especificaccedilatildeo o primeiro motivo deveraacute

ocorrer em 20 das sequecircncias As restantes colunas especificam a posiccedilatildeo e a sequecircncia de

nucleoacutetidos de cada parte do motivo O nuacutemero e o tamanho das sequecircncias a gerar satildeo

especificados na linha de comandos do gerador

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 12

O gerador verifica a especificaccedilatildeo de modo a testar se eacute possiacutevel gerar um conjunto de dados

com as caracteriacutesticas indicadas Em particular eacute necessaacuterio que no caso das frequecircncias

especificadas somarem mais do que 1 alguns dos motivos sejam sobreponiacuteveis uma vez que o

gerador garante o cumprimento exacto da frequecircncia de ocorrecircncia especificada para cada

motivo

O processo de geraccedilatildeo do conjunto de dados envolve duas fases Numa primeira fase eacute gerado

um conjunto de dados aleatoacuterios em que a ocorrecircncia de cada nucleoacutetido eacute equiprovaacutevel Para

gerar aleatoriamente nucleoacutetidos eacute usada uma variaccedilatildeo do algoritmo ran2 [6]

Numa segunda fase satildeo inseridos os motivos especificados em tantas sequecircncias quanto as

necessaacuterias para perfazer a frequecircncia indicada As sequecircncias seleccionadas para a inserccedilatildeo

de motivos satildeo igualmente escolhidas de forma aleatoacuteria

O recurso a dados sinteacuteticos permite afastar a possibilidade de motivos bem classificados

corresponderem a consensos ainda natildeo identificados por via experimental como pode

acontecer quando se analisam conjuntos de dados reais No entanto eacute necessaacuterio termos

presentes as limitaccedilotildees da actual abordagem Em particular sabemos que a geraccedilatildeo

equiprovaacutevel de nucleoacutetidos estaacute em desacordo com a estatiacutestica tiacutepica da regiatildeo promotora

onde satildeo mais comuns A s e T s do que G s e C s Do mesmo modo podem existir outras

correlaccedilotildees de ordem superior designadamente uma preferecircncia por certos diacutemeros ou

triacutemeros em detrimento de outros Esta limitaccedilatildeo eacute ilustrada pelo facto de os resultados

obtidos com dados sinteacuteticos serem geralmente melhores do que os obtidos com dados reais

As causas e consequecircncias desta observaccedilatildeo seratildeo discutidas nas secccedilotildees seguintes

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 13

4 Anaacutelise Estatiacutestica

41 Teste do 2

Como jaacute foi referido o SMILE em geral extrai um elevado nuacutemero de modelos Para isolar

motivos relevantes eacute usado um teste estatiacutestico de modo a atribuir uma significacircncia estatiacutestica

a cada modelo extraiacutedo

O meacutetodo de avaliaccedilatildeo utilizado consiste em aplicar o teste do 2 com um grau de liberdade

O objectivo eacute determinar a probabilidade de obtermos motivos observados em sequecircncias

aleatoacuterias que preservam os k-mers2 das sequecircncias originais Assim pretende-se perceber se

a ocorrecircncia do motivo se deve agrave frequecircncia de k-mers presentes na sequecircncia aleatoacuteria tendo

portanto uma baixa significacircncia estatiacutestica ou se eacute verificada a situaccedilatildeo oposta ou seja

elevada significacircncia estatiacutestica Estes uacuteltimos satildeo considerados pelo algoritmo como os que

apresentam maior potencial de serem verdadeiros binding sites Para tal o SMILE permite a

realizaccedilatildeo de dois tipos alternativos de teste um quanto ao nuacutemero de sequecircncias em que o

motivo ocorre (quoacuterum) e outro em relaccedilatildeo agrave abundacircncia do motivo no conjunto de dados

Para aplicar o teste do 2 procedemos agrave construccedilatildeo de uma tabela de contingecircncia com 4

entradas (Tabela 41)

Dados Originais Dados Aleatoacuterios

Presenccedila Porig Prandom

Ausecircncia Aorig Arandom

Tabela 41 Tabela de contingecircncia para o caacutelculo do 2

2 Sequecircncias de nucleoacutetidos de tamanho k

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 14

As colunas da tabela referem-se agraves duas amostras em anaacutelise ou seja o conjunto de dados

original e as sequecircncias aleatoacuterias geradas As linhas da tabela referem-se agraves duas classes de

contagens Caso consideremos o teste quanto ao quoacuterum a classe Presenccedila diz respeito ao

nuacutemero de sequecircncias em que o motivo ocorre e a classe Ausecircncia refere-se ao nuacutemero de

sequecircncias em que o motivo natildeo ocorre Caso se trate do teste relativo agrave abundacircncia a

primeira classe refere-se ao nuacutemero de ocorrecircncias do motivo no conjunto de dados e a

segunda ao nuacutemero de natildeo ocorrecircncias do motivo em relaccedilatildeo ao nuacutemero de oportunidades de

ocorrecircncia Considera-se como nuacutemero de oportunidades de ocorrecircncia o tamanho do

conjunto de dados Esta tabela seraacute usada agora para fazer um teste de homogeneidade de

proporccedilotildees

Para calcular a significacircncia estatiacutestica basta usar a expressatildeo do 2 correspondente agrave equaccedilatildeo

(41) onde ijO diz respeito ao valor observado para a entrada (ij) da tabela e ijE se refere ao

correspondente valor esperado

21

22 )(

ji ij

ijij

E

OE

(41)

O valor esperado para cada entrada da tabela eacute dado pela expressatildeo (42) ou seja o valor

esperado para a entrada (ij) da tabela eacute igual ao produto do total da linha i pelo total da linha

j divido pela soma de todos os elementos da tabela

21

2121

lkkl

kkj

kik

ij O

OO

E (42)

Nas condiccedilotildees desta tabela de contingecircncia eacute possiacutevel utilizar uma forma expedita de caacutelculo

que consiste na aplicaccedilatildeo da expressatildeo (43)

))()()((

)()( 22

origorigrandomrandomrandomorigrandomorig

randomorigrandomorigorigrandomrandomorig

APAPAAPP

AAPPAPAP

(43)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 15

A hipoacutetese nula que consideramos neste teste estatiacutestico refere-se agrave possibilidade de os

motivos terem sido gerados por sequecircncias aleatoacuterias sob certas restriccedilotildees Isto eacute assumimos

que as contagens obtidas para os motivos nas sequecircncias originais satildeo semelhantes agraves que

obteriacuteamos em sequecircncias aleatoacuterias com as mesmas frequecircncias de k-mers Valores altos de

significacircncia estatiacutestica implicam a rejeiccedilatildeo da hipoacutetese nula

Um importante problema prende-se com a validade da aplicaccedilatildeo do teste do 2 O SMILE em

particular apresenta para cada motivo uma medida da sua significacircncia estatiacutestica No

entanto o verdadeiro interesse reside na determinaccedilatildeo da significacircncia bioloacutegica dos motivos

encontrados O que estaacute em causa eacute perceber se um motivo eacute um potencial binding site Eacute

necessaacuterio testar este meacutetodo em dados reais com consensos conhecidos para se perceber se a

significacircncia estatiacutestica apresenta uma elevada correlaccedilatildeo com a significacircncia bioloacutegica

No Capiacutetulo 6 apresentamos uma discussatildeo acerca da adequaccedilatildeo do teste do 2 para a afericcedilatildeo

da significacircncia bioloacutegica dos motivos extraiacutedos pelo SMILE

42 Meacutetodo de Shuffling

Como jaacute foi referido para efectuar o caacutelculo da significacircncia estatiacutestica o SMILE recorre agrave

geraccedilatildeo de sequecircncias aleatoacuterias com certas restriccedilotildees baseadas na estatiacutestica dos dados

originais Para o efeito eacute usado um algoritmo de data shuffling [78]

O meacutetodo de shuffling permite obter um conjunto de dados aleatoacuterio com base num conjunto

de dados original garantindo a preservaccedilatildeo exacta das frequecircncias de k-mers para um dado k

O meacutetodo de geraccedilatildeo pode ser visto como um passeio aleatoacuterio sobre um multi-grafo onde os

noacutes satildeo todas as subsequecircncias de tamanho k-1 presentes na sequecircncia original e cada aresta

corresponde a uma transiccedilatildeo entre (k-1)-mers verificada nos dados No caso de k igual a 1 natildeo

eacute gerado um multi-grafo sendo feita apenas uma reordenaccedilatildeo aleatoacuteria dos nucleoacutetidos de

cada sequecircncia

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 16

A Figura 41 ilustra um exemplo de um multi-grafo gerado a partir da sequecircncia

ATTATTTATT bem como um caminho no grafo que gera a sequecircncia alternativa

TATTATTTAT

Figura 41 Multi-grafo gerado pela sequecircncia ATTATTTATT para k=4 com 2

passeios aleatoacuterios

Para que cada sequecircncia gerada seja vaacutelida eacute necessaacuterio que tenha o mesmo tamanho que a

sequecircncia original Sendo assim eacute faacutecil perceber que apenas os caminhos eulerianos garantem

a geraccedilatildeo de uma sequecircncia com estas caracteriacutesticas No SMILE este processo eacute repetido

para cada sequecircncia isoladamente

Para garantir a fiabilidade dos resultados obtidos eacute efectuado um nuacutemero elevado de

simulaccedilotildees donde satildeo extraiacutedos os valores meacutedios do quoacuterum ou da abundacircncia de cada

motivo a partir dos quais eacute calculada a significacircncia estatiacutestica no sentido do teste do 2

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 17

A Figura 42 mostra um histograma com os resultados obtidos em 100 simulaccedilotildees para um

motivo extraiacutedo do conjunto de dados da Helicobater pylori3 onde foram preservadas as

frequecircncias relativas de nucleoacutetidos (k=1) Este conjunto de dados eacute constituiacutedo por 308

sequecircncias com comprimentos que variam entre 40 e 300 nucleoacutetidos Foi efectuada uma

procura de motivos simples com tamanhos natildeo inferiores a 6 Foi admitido 1 erro e foi

exigido um quoacuterum de 6

O histograma indica a percentagem de simulaccedilotildees em que o motivo em consideraccedilatildeo ocorre

num determinado nuacutemero de sequecircncias Em particular no exemplo da Figura 42 o motivo

TTTTAA ocorre num nuacutemero de sequecircncias entre 282 e 284 em 13 das simulaccedilotildees

A seta a negro refere-se ao nuacutemero de ocorrecircncias do motivo observadas no conjunto de dados

original Quanto mais afastada estiver a seta do maacuteximo da curva maior seraacute a significacircncia

estatiacutestica Neste caso foi atribuiacuteda uma significacircncia de 593 ao motivo TTTTAA

Figura 42 Histograma das ocorrecircncias observadas do motivo TTTTAA em 100

simulaccedilotildees de shuffling do conjunto de dados da H pylori

3 Organismo procariota

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 18

O meacutetodo de data shuffling pode ser pesado do ponto de vista computacional e representa

uma grande restriccedilatildeo no desempenho da avaliaccedilatildeo de motivos Em particular a necessidade

de pesquisar todos os motivos extraiacutedos em cada conjunto de dados aleatoacuterio gerado constitui

uma seacuterio entrave ao bom desempenho deste meacutetodo

Devido aos referidos problemas de desempenho opta-se geralmente por fazer um nuacutemero de

simulaccedilotildees com geraccedilatildeo de sequecircncias aleatoacuterias inferior ao estatisticamente aconselhado o

que pode ter impacto nos resultados

Outra questatildeo pertinente coloca-se ainda quanto agrave preservaccedilatildeo dos k-mers Uma vez que o

shuffling eacute feito sobre cada sequecircncia do conjunto de dados valores elevados de k impotildeem

restriccedilotildees severas agrave variabilidade dos conjuntos de dados aleatoacuterios gerados Assim para estes

valores o teste estatiacutestico eacute inuacutetil uma vez que os conjuntos de dados gerados satildeo

praticamente iguais ao conjunto de dados original Em particular quando o tamanho dos

k-mers a preservar eacute igual ou superior ao tamanho de um motivo as suas ocorrecircncias satildeo

estritamente conservadas no conjunto de dados aleatoacuterio levando a que o valor da

significacircncia seja 0 A Figura 43 ilustra o facto de a significacircncia estatiacutestica tender

inevitavelmente para zero agrave medida que o valor de k aumenta Os valores do graacutefico foram

igualmente obtidos a partir do conjunto de dados da H pylori descrito anteriormente

Figura 43 Graacutefico da evoluccedilatildeo da significacircncia estatiacutestica com o aumento do valor

de k para um motivo de tamanho 8 extraiacutedo do conjunto de dados da H pylori

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 19

43 Meacutetodo Analiacutetico

Nesta Secccedilatildeo propotildee-se um meacutetodo analiacutetico que tem por objectivo resolver alguns dos

problemas do meacutetodo de shuffling descrito na Secccedilatildeo anterior designadamente o fraco

desempenho computacional e as excessivas restriccedilotildees devidas agrave conservaccedilatildeo estrita das

frequecircncias dos k-mers Assim pretende-se obter um meacutetodo computacionalmente eficiente

para avaliar a relevacircncia de motivos extraiacutedos pelo SMILE

Com este meacutetodo comeccedila-se por abstrair um modelo de Markov a partir do conjunto de dados

em estudo Os estados do modelo de Markov correspondem a todos os (k-1)-mers presentes no

conjunto de dados sendo a probabilidade inicial de cada estado a frequecircncia relativa

observada do (k-1)-mer correspondente

A probabilidade de transiccedilatildeo entre estados corresponde agrave razatildeo entre o nuacutemero de vezes que o

(k-1)-mer referente ao estado de destino sucede ao (k-1)-mer referente ao estado de origem

nos dados e o nuacutemero de vezes que o (k-1)-mer correspondente ao estado de origem precede

qualquer outro (k-1)-mer nas sequecircncias em anaacutelise A Figura 45 apresenta um modelo de

Markov abstraiacutedo a partir do conjunto de dados referido na Figura 44

Figura 44 Conjunto de dados exemplo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 20

CA

TC

AT

TA

TT

101

51

52

101

51

Figura 45

Exemplo de uma cadeia de Markov para k=3

Cada motivo em anaacutelise eacute processado de forma a calcular a probabilidade do motivo ser

gerado pelo modelo de Markov abstraiacutedo

Esta probabilidade eacute calculada como o produto da probabilidade do estado inicial pela

probabilidade de todas as transiccedilotildees necessaacuterias para compor o motivo Em (44) (45) e (46)

apresenta-se o calculo desta probabilidade para o motivo ATTATT segundo a cadeia de

Markov da Figura 45

)()()()()()( TTATpATTApTATTpTTATpATpATTATTp

(44)

2

111

2

1

5

2)(ATTATTp (45)

10

1)(ATTATTp (46)

No caso em que k eacute igual 1 natildeo eacute construiacuteda uma cadeia de Markov sendo a probabilidade de

ocorrecircncia do motivo o produto das frequecircncias relativas no conjunto de dados dos

nucleoacutetidos que o compotildeem

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 21

Caso sejam admitidos e erros basta considerar a soma das probabilidades de todos motivos a

uma distacircncia de Hamming natildeo superior a e ao inveacutes de se considerar apenas a probabilidade

do motivo em anaacutelise

A probabilidade assim calculada seraacute usada para determinar as entradas referentes a dados

aleatoacuterios na tabela de contingecircncia descrita na Secccedilatildeo 41 para o teste relativo agrave abundacircncia

A determinaccedilatildeo das entradas na tabela quando consideramos o teste relativo ao quoacuterum de um

motivo eacute consideravelmente mais complexa pelo que natildeo a abordaremos neste texto

Assim as entradas randomP e randomA satildeo calculadas da forma indicada em (47) e (48)

respectivamente

))1)((()( nseqsmlenmotiflenseqsnseqskmpP Markovrandom

(47)

randomrandom PlenseqsnseqsA

(48)

Nas expressotildees (47) e (48)

)( kmpMarkov refere-se agrave probabilidade calculada para o motivo m a partir de uma cadeia

de Markov extraiacuteda do conjunto de dados para um dado k

nseqs designa o nuacutemero de sequecircncias do conjunto de dados

lseqs designa o comprimento meacutedio das sequecircncias do conjunto de dados

lenmotif(m) designa o tamanho do motivo m

Agrave semelhanccedila do SMILE no caacutelculo de randomA consideramos como nuacutemero de

oportunidades de ocorrecircncia o tamanho do conjunto de dados

Este meacutetodo apresenta um desempenho computacional significativamente melhor que o

meacutetodo baseado em shuffling uma vez que natildeo necessita de efectuar vaacuterias simulaccedilotildees tendo

apenas de processar o conjunto de dados por uma uacutenica vez O caacutelculo da significacircncia

estatiacutestica de cada motivo eacute linear em relaccedilatildeo ao seu comprimento

Por outro lado o meacutetodo analiacutetico natildeo enferma das mesmas limitaccedilotildees do que o teste

estatiacutestico baseado em simulaccedilotildees permitindo o caacutelculo de significacircncia estatiacutestica para

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 22

valores elevados de k Ao considerar a estatiacutestica de todo o conjunto de dados ao inveacutes de

cada sequecircncia isoladamente este meacutetodo pode tambeacutem agrave partida modelar melhor os dados

Resta acrescentar que o meacutetodo descrito nesta Secccedilatildeo soacute permite obter significacircncias

estatiacutesticas para motivos simples A realizaccedilatildeo de caacutelculos para motivos estruturados eacute

consideravelmente mais complexa e natildeo foi abordada neste trabalho

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 23

5 Geraccedilatildeo de coacutedigo IUPAC

A realizaccedilatildeo eficiente de pesquisas de consensos em bases de dados bioloacutegicas requer uma

representaccedilatildeo compacta dos dados armazenados Neste contexto a possibilidade de

representar consensos em coacutedigo IUPAC assume uma importacircncia fundamental

O coacutedigo IUPAC eacute uma extensatildeo sobre a representaccedilatildeo de sequecircncias de DNA Uma

sequecircncia de DNA eacute constituiacuteda por nucleoacutetidos A codificaccedilatildeo IUPAC introduz siacutembolos que

representam um conjunto de possiacuteveis nucleoacutetidos para uma dada posiccedilatildeo permitindo uma

representaccedilatildeo de sequecircncias degeneradas Por exemplo uma purina (A ou G) eacute representada

pela letra R A descriccedilatildeo completa dos coacutedigos IUPAC encontra-se na Tabela 51

Coacutedigo Descriccedilatildeo A Adenina

C Citosina

G Guanina

T Timina

U Uracilo

R Purina (A ou G)

Y Pirimidina (C T ou U)

M C ou A

K T U ou G

W T U ou A

S C ou G

B C T U ou G (natildeo A)

D A T U ou G (natildeo C)

H A T U ou C (natildeo G)

V A C ou G (natildeo T natildeo U)

N Qualquer base (A C G T ou U)

Tabela 51 Coacutedigo IUPAC

A conversatildeo de um conjunto de sequecircncias de DNA para um conjunto de sequecircncias IUPAC

natildeo eacute uma tarefa trivial Para um dado conjunto de sequecircncias existem diversas codificaccedilotildees

IUPAC possiacuteveis

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 24

O problema da geraccedilatildeo de coacutedigo IUPAC consiste em encontrar o conjunto miacutenimo de

sequecircncias IUPAC que representem um dado conjunto de sequecircncias DNA

Como o objectivo proposto eacute a compressatildeo da representaccedilatildeo das sequecircncias de nucleoacutetidos eacute

desejaacutevel que a codificaccedilatildeo IUPAC seja a mais compacta possiacutevel

A abordagem utilizada foi a de reduzir o problema da compressatildeo IUPAC a um problema

conhecido a minimizaccedilatildeo de expressotildees loacutegicas multi-valor

Uma expressatildeo loacutegica multi-valor eacute uma expressatildeo loacutegica onde figuram variaacuteveis multi-valor

ou seja variaacuteveis que necessitam de mais do que um bit para serem representadas

Para representar um siacutembolo IUPAC eacute utilizada uma variaacutevel multi-valor de 4 bits Os

siacutembolos e as respectivas representaccedilotildees estatildeo na Tabela 52

Siacutembolo

IUPAC

Codificaccedilatildeo

binaacuteria

A 1000

T 0100

C 0010

G 0001

R 1001

Y 0110

S 0011

W 1100

K 0101

M 1010

B 0111

D 1101

H 1110

V 1011

N 1111

Espaccedilo 0000

Tabela 52

Codificaccedilatildeo binaacuteria dos siacutembolos IUPAC

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 25

Uma sequecircncia de nucleoacutetidos ou IUPAC eacute construiacuteda atraveacutes de um produto de termos

sendo cada termo uma variaacutevel multi-valor que representa um siacutembolo da sequecircncia Por

exemplo a sequecircncia WTA eacute representada pela expressatildeo loacutegica (1100) (0100) (1000)

Agora que foi estabelecida uma representaccedilatildeo para sequecircncias IUPAC atraveacutes de expressotildees

loacutegicas multi-valor resta perceber como da minimizaccedilatildeo destas expressotildees pode resultar o

desejado coacutedigo IUPAC

Em (51) temos um exemplo simples de minimizaccedilatildeo loacutegica

ZXZYXZYX

(51)

Eacute faacutecil verificar que X Z eacute uma expressatildeo equivalente O que se pretende para a compressatildeo

IUPAC eacute algo semelhante

Por exemplo a partir das sequecircncias ATA e TTA pretende-se a expressatildeo IUPAC WTA A

simplificaccedilatildeo das expressotildees loacutegicas eacute exemplificada sucessivamente em (52) (53) e (54)

A T A + T T A (52)

(1000) (0100) (1000) + (0100) (0100) (1000)

(A ou T) T A (53)

((1000)+(0100)) (0100) (1000)

W T A (54)

(1100) (0100) (1000)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 26

Eacute faacutecil perceber atendendo agrave escolha criteriosa da codificaccedilatildeo que da minimizaccedilatildeo de

expressotildees loacutegicas que representam sequecircncias de nucleoacutetidos resultam expressotildees loacutegicas

que representam uma codificaccedilatildeo IUPAC das sequecircncias originais

O problema inicial encontra-se agora reduzido a um problema de minimizaccedilatildeo de expressotildees

loacutegicas Este problema jaacute estaacute resolvido na aacuterea da siacutentese loacutegica Um dos programas mais

conhecidos desenvolvido para a resoluccedilatildeo deste problema eacute o programa Espresso [9] Apesar

de ser utilizado neste contexto como uma caixa preta eacute importante perceber o seu

funcionamento

No Espresso as expressotildees loacutegicas satildeo representadas num espaccedilo booleano multi-

dimensional Um exemplo eacute um espaccedilo tridimensional onde podem ser representadas

sequecircncias de tamanho 3 tal como estaacute ilustrado na Figura 51

Figura 51

Representaccedilatildeo das sequecircncias ATA (1) e TTA (2)

Neste contexto um cubo define-se como a representaccedilatildeo espacial de um produto de termos

Ou seja para o problema em questatildeo cada sequecircncia de entrada eacute um cubo e uma cobertura

corresponde a um conjunto de cubos que engloba todos os veacutertices representados no espaccedilo

Pode observar-se que a dimensatildeo do espaccedilo encontra-se directamente relacionada com o

tamanho da sequecircncia que se pretende representar Para efectuar a minimizaccedilatildeo o Espresso

procura uma cobertura miacutenima que daraacute origem ao conjunto de sequecircncias IUPAC de saiacuteda

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 27

No caso do espaccedilo da Figura 51 existe uma cobertura miacutenima constituiacuteda por um uacutenico cubo

A Figura 52 ilustra a referida cobertura

Figura 52 Representaccedilatildeo da cobertura WTA (1)

Da cobertura resulta a codificaccedilatildeo IUPAC das sequecircncias iniciais

O processo para descobrir a cobertura miacutenima eacute complexo sendo composto por um conjunto

intrincado de passos Inicialmente o conjunto de cubos originais eacute expandido de forma a

englobar o maior nuacutemero de veacutertices adjacentes De seguida os cubos redundantes satildeo

removidos e os restantes satildeo reduzidos para que cubram apenas os cubos iniciais Um cubo eacute

considerado redundante se natildeo cobrir nenhum veacutertice que natildeo esteja jaacute coberto por outro

cubo Deste processo resulta uma reduccedilatildeo contiacutenua do nuacutemero de cubos necessaacuterios para a

cobertura O processo eacute reiterado ateacute natildeo se verificarem melhorias substanciais na dimensatildeo

da cobertura obtida

Este processo eacute guiado por heuriacutesticas e eacute possiacutevel demonstrar que produz resultados

proacuteximos da soluccedilatildeo oacuteptima O processo estaacute detalhadamente descrito em [910]

De modo a automatizar o processo de codificaccedilatildeo das sequecircncias de nucleoacutetidos e

descodificaccedilatildeo das sequecircncias IUPAC foi desenvolvida uma interface para o Espresso

Assim as sequecircncias de entrada satildeo transformadas em expressotildees loacutegicas (formato binaacuterio)

seguindo a correspondecircncia referida na Tabela 52 Do mesmo modo a representaccedilatildeo da

cobertura miacutenima obtida pelo Espresso eacute descodificada e traduzida para sequecircncias IUPAC

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 28

O funcionamento da interface foi testado com recurso a um gerador aleatoacuterio de sequecircncias de

nucleoacutetidos e a um verificador O gerador produz um conjunto de sequecircncias obtidas a partir

de uma sequecircncia inicial de nucleoacutetidos O conjunto de sequecircncias gerado corresponde a

vaacuterias substituiccedilotildees aleatoacuterias na sequecircncia inicial e constitui o conjunto de entrada que vai

ser lido pela ferramenta Espresso O verificador recebe o conjunto de sequecircncias de entrada e

o resultado da operaccedilatildeo de minimizaccedilatildeo do Espresso sob a forma de sequecircncias de coacutedigos

IUPAC Deste modo ao expandir as sequecircncias IUPAC obtidas pelo Espresso atraveacutes de

uma operaccedilatildeo trivial de substituiccedilotildees sucessivas eacute possiacutevel testar a completude e adequaccedilatildeo

da representaccedilatildeo Assim diz-se que a representaccedilatildeo eacute completa se a expansatildeo incluir todas as

sequecircncias de entrada por outro lado diz-se que a representaccedilatildeo eacute adequada se natildeo incluir

nenhuma sequecircncia que natildeo esteja no conjunto inicial

Depois de verificada a completude e adequaccedilatildeo das representaccedilotildees obtidas foram feitos testes

com dados reais de modo a poder aferir o grau de compressatildeo das sequecircncias introduzidas

Assim o Espresso foi executado tendo como conjunto de entrada sequecircncias devidamente

codificadas obtidas atraveacutes de uma execuccedilatildeo do SMILE

As taxas de compressatildeo obtidas variam entre 278 e 715

O gerador de coacutedigo IUPAC encontra-se neste momento integrado na base de dados Dbyeast

[11] disponibilizando publicamente o serviccedilo de codificaccedilatildeo A Figura 53 eacute uma imagem da

interface que permite que os utilizadores da Dbyeast obtenham coacutedigo IUPAC a partir de

sequecircncias de DNA

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 29

Figura 53 Interface para geraccedilatildeo de coacutedigo IUPAC integrada na Dbyeast

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 30

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 31

6 Resultados e Conclusotildees

Neste Capiacutetulo iremos analisar os resultados obtidos tanto para dados sinteacuteticos como para

dados reais Para tal iremos comparar os valores de significacircncia estatiacutestica obtidos para os

dois tipos de dados usando tanto o meacutetodo de shuffling como o meacutetodo analiacutetico Para efectuar

esta comparaccedilatildeo eacute uacutetil referirmo-nos agrave posiccedilatildeo obtida pelos motivos em anaacutelise numa lista

ordenada por valores decrescentes de significacircncia estatiacutestica Assim sempre que

mencionarmos o valor da posiccedilatildeo de um motivo estaremos a referir-nos agrave posiccedilatildeo numa lista

assim definida

61 Resultados Obtidos com Dados Sinteacuteticos

Como jaacute foi referido a utilizaccedilatildeo de dados sinteacuteticos permite um maior controlo sobre os

motivos que estatildeo efectivamente presentes no conjunto de dados Assim iremos referir-nos

aos motivos que foram introduzidos no conjunto de dados gerado por motivos especificados

em oposiccedilatildeo aos outros motivos igualmente extraiacutedos pelo SMILE que designaremos por

motivos natildeo-especificados Nesta Secccedilatildeo iremos considerar o teste de significacircncia estatiacutestica

relativo agrave abundacircncia de forma a podermos comparar os resultados obtidos com o meacutetodo

shuffling e com o meacutetodo analiacutetico

611 Resultados do teste do 2 com o meacutetodo shuffling

Ao especificar um conjunto de dados com os mesmos motivos que estatildeo presentemente

descritos para a H pylori obtivemos para motivos simples os resultados apresentados nas

Figuras 61 e 62 O conjunto de dados sinteacutetico conteacutem 308 sequecircncias de comprimento 167

Foi efectuada uma procura de motivos simples com tamanhos compreendidos entre 6 e 8

nucleoacutetidos Natildeo foram admitidos erros e foi exigido um quoacuterum de 6 Os motivos

especificados encontram-se representados a ponteado Os restantes motivos correspondem a

motivos natildeo-especificados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 32

Figura 61 Significacircncia estatiacutestica para motivos simples de tamanho 6

Figura 62 Significacircncia estatiacutestica para motivos simples de tamanho 7

Os graacuteficos natildeo satildeo no entanto suficientes para nos dar a percepccedilatildeo da correcta classificaccedilatildeo

dos motivos uma vez que natildeo eacute possiacutevel fazer representar no graacutefico os 172 motivos

extraiacutedos A Tabela 61 indica as posiccedilotildees ocupadas pelos motivos especificados em relaccedilatildeo agrave

totalidade dos modelos para vaacuterios valores de k

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 33

TTTAAG TTTTAA TATAAT TATAATA

k=1 5 4 1 2

k=2 6 4 1 2

k=3 6 4 2 1

k=4 6 5 2 1

k=5 78 7 5 1

Tabela 61 Posiccedilotildees dos motivos especificados

Em geral os motivos especificados aparecem melhor classificados para um baixo valor de k

Agrave medida que se consideram valores de k crescentes a significacircncia estatiacutestica de todos os

motivos aproxima-se de zero pelas razotildees jaacute apontadas na Secccedilatildeo 42

Eacute comum observar-se a presenccedila de motivos natildeo-especificados com niacuteveis de significacircncia

elevados especialmente se atendermos agraves posiccedilotildees da Tabela 61

Contudo estes bons resultados natildeo se mantecircm se forem admitidos erros na procura Neste

caso embora os motivos mantenham em geral elevadas significacircncias entram em

competiccedilatildeo com os motivos a distacircncia de Hamming natildeo superior ao nuacutemero de erros

admitido Assim eacute comum observar-se uma descida significativa na tabela de posiccedilotildees

Para motivos estruturados os resultados satildeo favoraacuteveis mesmo admitindo erros como eacute

ilustrado pelo graacutefico da Figura 63 em conjugaccedilatildeo com os valores de posiccedilatildeo apresentados na

Tabela 62

Neste exemplo efectuou-se uma procura por motivos estruturados compostos por duas partes

com tamanhos entre 6 e 7 com uma distacircncia entre si variando entre 21 e 23 nucleoacutetidos

Admitiu-se 1 erro em cada parte do motivo mas apenas 1 erro na totalidade do motivo

estruturado e exigiu-se um quoacuterum de 6 Foram extraiacutedos 53 motivos O motivo

especificado encontra-se a ponteado

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 34

Figura 63 Significacircncia estatiacutestica para modelos estruturados em dados sinteacuteticos

TTTAAG_TATAAT

k=1 4

k=2 4

k=3 17

k=4 63

k=5 162

Tabela 62 Posiccedilotildees do motivo estruturado especificado

Neste exemplo foi necessaacuterio admitir a existecircncia de erros para que o motivo fosse encontrado

pelo SMILE Natildeo existem motivos sem erros que cumpram as condiccedilotildees de procura

Esta boa prestaccedilatildeo dos motivos estruturados estaacute relacionada com o facto de o shuffling

raramente preservar as distacircncias relativas de cada uma das partes que constituem o motivo

fazendo com que estes ocorram poucas vezes nas simulaccedilotildees Assim neste exemplo o motivo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 35

estruturado especificado aparece claramente destacado Estes resultados parecem sugerir que a

utilizaccedilatildeo deste teste estatiacutestico se adequa agrave avaliaccedilatildeo de modelos estruturados No entanto

nem todos os promotores exibem esta estrutura sendo necessaacuterio um meacutetodo mais geral para

fazer esta avaliaccedilatildeo

Como veremos em seguida os resultados aparentemente animadores mesmo para motivos

simples natildeo se verificam quando analisamos dados reais Esta evidecircncia estaacute relacionada com

o facto de o gerador de dados sinteacuteticos gerar dados aleatoacuterios com equiprobabilidade de

nucleoacutetidos Nos dados reais isto natildeo se verifica existindo normalmente uma clara

abundacircncia de A s e T s na regiatildeo promotora Do mesmo modo cada conjunto de dados exibe

preferecircncia por certos diacutemeros ou triacutemeros que ocorrem com muito mais frequecircncia que

outros

Esta limitaccedilatildeo podia ser mitigada pela incorporaccedilatildeo destas correlaccedilotildees na geraccedilatildeo de dados

sinteacuteticos Mas embora seja relativamente simples estabelecer uma preferecircncia por certos

nucleoacutetidos a geraccedilatildeo natildeo-equiprovaacutevel de k-mers geneacutericos constitui soacute por si um problema

complexo pelo que natildeo foi abordado neste trabalho

612 Resultados do teste do 2 com o meacutetodo analiacutetico

Os dados sinteacuteticos foram igualmente analisados recorrendo ao meacutetodo analiacutetico que como jaacute

foi referido tem a vantagem de ser mais eficiente do ponto de vista computacional e de poder

explorar valores mais elevados de k As Figura 64 e 65 apresentam a evoluccedilatildeo da

significacircncia estatiacutestica dos mesmos motivos considerados nas Figuras 62 e 63 mas

recorrendo ao meacutetodo analiacutetico

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 36

Figura 64 Significacircncia estatiacutestica de motivos simples de tamanho 6 usando o

meacutetodo analiacutetico

Figura 65 Significacircncia estatiacutestica de motivos simples de tamanho 7 usando o

meacutetodo analiacutetico

A Tabela 63 indica as posiccedilotildees dos motivos especificados para a significacircncia estatiacutestica

calculada por via do meacutetodo analiacutetico

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 37

TTTAAG TTTTAA TATAAT TATAATA

k=1 6 4 1 2

k=2 6 4 1 2

k=3 6 3 2 1

k=4 6 3 2 1

k=5 55 3 2 1

Tabela 63 Posiccedilotildees dos modelos especificados

Satildeo oacutebvias as semelhanccedilas entre os resultados apresentados na Tabela 63 e os presentes na

Tabela 61 Isto confirma a possibilidade de usar o meacutetodo analiacutetico como alternativa ao

meacutetodo de shuffling

Sabemos igualmente que no acircmbito do meacutetodo analiacutetico quando k atinge um valor igual ao

comprimento do motivo em anaacutelise a significacircncia estatiacutestica anula-se Isto tem a ver com o

facto de a probabilidade de ocorrecircncia de um k-mer ser muito proacutexima da sua frequecircncia

relativa no conjunto de dados Assim sendo os valores das entradas da tabela de contingecircncia

relativas aos dados aleatoacuterios seratildeo inevitavelmente iguais agraves dos dados reais resultando deste

facto uma significacircncia estatiacutestica nula

Por outro lado agrave medida que o k aumenta os k-mers introduzidos pelos motivos especificados

no conjunto de dados que de resto eacute aleatoacuterio vatildeo fazer com que a cadeia de Markov gerada

faccedila convergir as probabilidades de ocorrecircncia de cada motivo com a sua frequecircncia relativa

efectiva no conjunto de dados Assim assiste-se ao mesmo fenoacutemeno de convergecircncia para

zero da significacircncia estatiacutestica que assinalaacutemos para o meacutetodo shuffling

Pela anaacutelise dos resultados podemos ainda concluir que em geral um valor de k demasiado

pequeno natildeo modela suficientemente bem os dados daqui resulta que alguns motivos natildeo

especificados obtenham melhores classificaccedilotildees que motivos especificados Em suma

deveremos preferir valores de k intermeacutedios

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 38

62 Resultados Obtidos com Dados Reais

Com este teste pretendemos verificar se uma sequecircncia classificada como estatisticamente

relevante tambeacutem pode ser considerada biologicamente relevante

Para fazer o estudo da anaacutelise estatiacutestica em dados reais foram recolhidos 16 conjuntos de

dados com regiotildees promotoras correspondentes a genes da levedura Saccharomyces

cerevisiae que eacute um organismo eucariota Cada conjunto conteacutem aproximadamente 10

sequecircncias As sequecircncias contecircm consensos obtidos por via experimental e descritos na

literatura A descriccedilatildeo completa de cada conjunto de dados pode ser vista no Anexo A

Para cada conjunto de dados foi feita uma procura de motivos de tamanhos variando entre 4 e

11 nucleoacutetidos para valores de quoacuterum de 60 75 80 e 100 Foram permitidos 0 e 1

erros em ensaios sucessivos e fez-se ainda variar o valor de k entre 1 e 4

Foi posteriormente analisada a significacircncia estatiacutestica calculada pelo SMILE no que diz

respeito ao quoacuterum

Os consensos descritos obtiveram boas classificaccedilotildees para algumas das condiccedilotildees testadas

Em particular quando o quoacuterum exigido se encontra proacuteximo da frequecircncia efectiva dos

motivos nos dados e quando natildeo satildeo admitidos erros Os resultados satildeo tambeacutem melhores

para motivos de tamanho superior a 7 Em suma obtecircm-se bons resultados quando as

condiccedilotildees favorecem os motivos com as caracteriacutesticas dos consensos descritos

Estes resultados natildeo satildeo muito animadores porque para os atingir eacute necessaacuterio um

conhecimento preacutevio da frequecircncia e tamanho dos motivos Ao considerar a generalidade dos

ensaios efectuados verifica-se que as classificaccedilotildees satildeo muito baixas com baixas

significacircncias estatiacutesticas e com valores de posiccedilatildeo frequentemente abaixo dos primeiros

1 000 motivos No Anexo A apresentamos os resultados obtidos com estes ensaios

A par desta anaacutelise foi considerada a significacircncia estatiacutestica obtida a respeito da abundacircncia

Deste modo eacute possiacutevel estabelecer uma comparaccedilatildeo directa entre o meacutetodo de shuffling e o

meacutetodo analiacutetico para o caacutelculo desta meacutetrica

De seguida apresentamos os resultados desta anaacutelise

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 39

621 Resultados do teste do 2 com o meacutetodo shuffling

De modo geral os resultados para o teste estatiacutestico referente agrave abundacircncia representam uma

melhoria em relaccedilatildeo ao teste referente ao quoacuterum

Comeccedilamos por apresentar os graacuteficos referentes a um conjunto de dados cujos motivos

permanecem mal classificados isto eacute o motivo eacute biologicamente relevante mas natildeo eacute

considerado estatisticamente relevante O conjunto de dados em causa o MSN4 tem um

motivo muito abundante (CCCCT) condicionando a estatiacutestica dos dados Isto conjugado

com o seu pequeno tamanho (5 nucleoacutetidos) resulta na inevitaacutevel baixa significacircncia

estatiacutestica uma vez que aparece sistematicamente na geraccedilatildeo aleatoacuteria de sequecircncias feita em

cada simulaccedilatildeo As Figuras 66 e 67 ilustram a evoluccedilatildeo da significacircncia estatiacutestica e da

posiccedilatildeo do referido motivo considerando erro 0 e 1 respectivamente para um quoacuterum de

60

Figura 66 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 0 erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 40

Figura 67 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 1 erro

Os resultados da classificaccedilatildeo satildeo claramente maus para um consenso descrito A estranha

subida para k igual a 4 estaacute relacionada com uma pequena flutuaccedilatildeo sem significado uma vez

que estamos a considerar valores de significacircncia estatiacutestica muito baixos A aparente melhor

classificaccedilatildeo quando consideramos erro 0 estaacute relacionada com o facto de que quando natildeo se

admitem erros satildeo consequentemente extraiacutedos menos motivos Em particular com erro 0 satildeo

extraiacutedos 1 316 motivos enquanto que com erro 1 satildeo extraiacutedos 35 258 motivos

De seguida apresentamos os resultados relativos a um outro conjunto de dados (STE12) que

evidencia resultados mais favoraacuteveis para erro 0 As Figuras 68 e 69 apresentam a evoluccedilatildeo

da significacircncia estatiacutestica do motivo descrito (TGAAACA) para 0 e 1 erros

respectivamente com um quoacuterum de 100

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 41

Figura 68 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 0 erros

Figura 69 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 1 erro

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 42

Resta referir que para este conjunto de dados foram extraiacutedos 267 motivos com erro 0 e

7 705 motivos para erro 1

O facto de os motivos serem abundantes em relaccedilatildeo ao nuacutemero de sequecircncias consideradas

faz com que o teste relativo agrave abundacircncia tenha um poder de resoluccedilatildeo consideravelmente

maior do que o teste relativo ao quoacuterum Por esta razatildeo deveremos sempre preferir o primeiro

em casos semelhantes

Por outro lado os resultados obtidos continuam a pocircr em causa a generalidade do meacutetodo uma

vez que eacute difiacutecil identificar as situaccedilotildees em que este produz bons resultados sobretudo quando

somos confrontados com um desconhecimento a priori do conjunto de dados

622 Resultados do teste do 2 com o meacutetodo analiacutetico

Resta-nos comparar os resultados obtidos na subsecccedilatildeo anterior com os obtidos pela via

analiacutetica Nos graacuteficos apresentados nesta subsecccedilatildeo que representam a evoluccedilatildeo da

significacircncia estatiacutestica com o crescimento do tamanho dos k-mers considerados estatildeo

tambeacutem assinaladas as posiccedilotildees ocupadas pelos motivos

As Figuras 610 e 611 apresentam os resultados referentes ao MSN4

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 43

Figura 610 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 0 erros

Figura 611 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 1 erro

Os resultados para o MSN4 natildeo sofrem alteraccedilotildees assinalaacuteveis em relaccedilatildeo ao meacutetodo anterior

Novamente as caracteriacutesticas do conjunto de dados limitam a possibilidade de evidenciar este

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 44

motivo por via deste teste estatiacutestico o que eacute tanto mais grave quanto o facto de este ser um

dos motivos cuja significacircncia bioloacutegica se encontra melhor estabelecida

As Figuras 612 e 613 apresentam os resultados referentes ao conjunto de dados STE12

Figura 612 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 0 erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 45

Figura 613 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 1 erro

Os dados apresentados natildeo evidenciam melhorias assinalaacuteveis em relaccedilatildeo aos resultados

obtidos por via de shuffling excepto a ocorrecircncia de melhorias ocasionais da classificaccedilatildeo

quando natildeo se admitem erros Estas diferenccedilas podem ser atribuiacutedas ao facto de o meacutetodo

analiacutetico natildeo conservar estritamente os k-mers e de analisar o conjunto de dados na sua

totalidade por oposiccedilatildeo ao shuffling que considera cada sequecircncia isoladamente

No Anexo B apresentamos a totalidade dos resultados desta anaacutelise comparativa No Anexo C

eacute apresentada uma listagem dos resultados do caacutelculo do valor de significacircncia para valores de

k ateacute ao tamanho dos consensos descritos

A grande vantagem deste meacutetodo eacute sem duacutevida o incomparaacutevel ganho a niacutevel de

desempenho computacional Para ilustrar esta afirmaccedilatildeo basta dizer que o caacutelculo da

significacircncia estatiacutestica para todos os conjuntos de dados considerados demorou com o

meacutetodo de shuffling mais de 30 horas de processamento O meacutetodo analiacutetico realizou todos os

caacutelculos em menos de 30 minutos

No entanto os resultados voltam a pocircr em causa a adequaccedilatildeo do teste estatiacutestico do 2 para

aferir a significacircncia bioloacutegica pela dificuldade de sintetizar um meacutetodo geneacuterico para

destacar motivos relevantes de entre os extraiacutedos pelo SMILE

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 46

63 Conclusotildees

Ao considerar os resultados apresentados eacute inevitaacutevel concluir que a significacircncia atribuiacuteda

pelo teste estatiacutestico do 2 aos motivos extraiacutedos pelo SMILE natildeo reflecte a sua significacircncia

bioloacutegica

A dificuldade em distinguir motivos relevantes da grande quantidade de motivos extraiacutedos

potildee em causa a utilidade praacutetica do algoritmo na generalidade dos casos

Para aleacutem desta questatildeo outras limitaccedilotildees tecircm sido apontadas por bioacutelogos designadamente

o facto de o algoritmo natildeo conseguir pesquisar motivos na cadeia de DNA inversa onde os

factores de transcriccedilatildeo podem igualmente ligar-se e o facto de a forma como o SMILE

modela a ocorrecircncia de erros nos motivos natildeo ser compatiacutevel com a necessidade de poder

indicar posiccedilotildees especiacuteficas onde erros satildeo admitidos

No entanto o SMILE continua a exibir resultados interessantes para motivos estruturados o

que constitui sem duacutevida a mais-valia fundamental do algoritmo Tudo indica que o meacutetodo

analiacutetico pode ser igualmente adaptado para calcular a significacircncia de motivos estruturados

Parece-nos claro que uma eficaz extracccedilatildeo de motivos relevantes passaraacute necessariamente

pela conjugaccedilatildeo com outros dados para aleacutem da simples sequecircncia de nucleoacutetidos Em

particular a disponibilidade de informaccedilatildeo acerca de co-regulaccedilatildeo de genes poderaacute guiar a

extracccedilatildeo de motivos permitindo exigir um quoacuterum mais alto dada a confianccedila na existecircncia

de factores de transcriccedilatildeo comuns

Por outro lado a utilizaccedilatildeo de modelos probabiliacutesticos em vez de meras colecccedilotildees de motivos

poderaacute ser uma abordagem mais natural para o problema permitindo simultaneamente uma

melhor modelaccedilatildeo da realidade bioloacutegica ao indicar uma probabilidade de ocorrecircncia de cada

nucleoacutetido para uma dada posiccedilatildeo no modelo O nuacutemero de modelos extraiacutedos seria tambeacutem

francamente reduzido uma vez que um uacutenico modelo probabiliacutestico pode representar com

expressividade acrescida um grande nuacutemero de motivos

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 47

7 Referecircncias

[1] A Vanet L Marsan e M F Sagot Promoter sequence and algorithmical methods for

identifying them Research in Microbiology 150 pp 779-799 1999

[2] JD Watson FH Crick Molecular structure of nucleic acids a structure for deoxyribose

nucleic acid Nature Number 4356 1953

[3] T Werner Models for Prediction and Recognition of Eukaryotic Promoters Mammalian

Genome Vol 10 pp 168-175 1999

[4] L Marsan e M F Sagot Algorithms for extracting structured motifs using a suffix tree

with an application to promoter and regulatory site consensus identication Journal of

Computational Biology 7 pp 345-362 2000

[5] L Marsan Infeacuterence de motifs structureacutes algorithmes et outils appliqueacutes agrave la deacutetection de

sites de fixation dans des seacutequences geacutenomiques PhD Thesis Universiteacute de Marne-la-Valleacutee

2002

[6] B Flannery S Teukolsky W Press e W Vetterling Numerical Recipes in C++

Cambridge University Press 2002

[7] S Altschul e B Erickson Significance of Nucleotide Sequence Alignments A method of

Random Sequence Permutation That Preserves Dinucleotide and Codon Usage Molecular

Biology Evolution 2 pp 526-538 1985

[8] D Kandel Y Matias R Unger e P Winkler Shuffling Biological Sequences Discrete

Appl Math 71 pp 171-185 1996

[9] R Rudell e A Sangiovanni-Vincentelli Multiple-Valued Minimization for PLA

Optimization IEEE Transactions on Computer-Aided Design of Integrated Circuits and

Systems Vol CAD-6 Nordm 5 pp 727-751 September 1987

[10] R Brayton G Hachtel C McMullen e A Sangiovanni-Vincentelli Logic Minimization

Algorithms for VLSI Synthesis Kluwer Academic Publishers 1985

[11] P Monteiro Dbyeast [httpdescartesinesc-idpt~ptgmdb] 2004

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 48

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 49

Anexo A

Resultados do Caacutelculo da Significacircncia Estatiacutestica referente ao Quoacuterum

para Conjuntos de Dados de Saccharomyces cerevisiae

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados

A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos os resultados para os motivos procurados em relaccedilatildeo a cada valor dos paracircmetros

Nota o campo posicao refere-se agrave posiccedilatildeo ocupada pelo motivo na tabela com a estatiacutestica das sequecircncias com pelo menos uma ocorrecircncia do motivo ordenada por chi2

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

314 motivos encontrados Quorum = 80

670 motivos encontrados Quorum = 75

670 motivos encontrados Quorum = 60

1306 motivos encontrados Erro = 1

Quorum = 100 8636 motivos encontrados k = 1 posicao = 2 chi2 = 98 (ACCTTAAAGGT) k = 2 posicao = 2 chi2 = 976 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 965 (ACCTTAAAGGT) k = 4 posicao = 2 chi2 = 984 (ACCTTAAAGGT)

Quorum = 80 17722 motivos encontrados k = 1 posicao = 2 chi2 = 651 (ACCCTAAAGGT) k = 1 posicao = 4 chi2 = 965 (ACCTTAAAGGT) k = 2 posicao = 2 chi2 = 659 (ACCCTAAAGGT) k = 2 posicao = 8 chi2 = 965 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 667 (ACCCTAAAGGT) k = 3 posicao = 4 chi2 = 969 (ACCTTAAAGGT) k = 4 posicao = 2 chi2 = 659 (ACCCTAAAGGT) k = 4 posicao = 3 chi2 = 984 (ACCTTAAAGGT)

Quorum = 75 17722 motivos encontrados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 50

k = 1 posicao = 4 chi2 = 651 (ACCCTAAAGGT) k = 1 posicao = 2 chi2 = 988 (ACCTTAAAGGT) k = 2 posicao = 3 chi2 = 659 (ACCCTAAAGGT) k = 2 posicao = 2 chi2 = 992 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 655 (ACCCTAAAGGT) k = 3 posicao = 3 chi2 = 976 (ACCTTAAAGGT) k = 4 posicao = 3 chi2 = 655 (ACCCTAAAGGT) k = 4 posicao = 5 chi2 = 984 (ACCTTAAAGGT)

Quorum = 60 34907 motivos encontrados k = 1 posicao = 11 chi2 = 655 (ACCCTAAAGGT) k = 1 posicao = 5 chi2 = 996 (ACCTTAAAGGT) k = 1 posicao = 13 chi2 = 421 (ACCTTGAAGGT) k = 2 posicao = 15 chi2 = 647 (ACCCTAAAGGT) k = 2 posicao = 12 chi2 = 969 (ACCTTAAAGGT) k = 2 posicao = 7 chi2 = 421 (ACCTTGAAGGT) k = 3 posicao = 9 chi2 = 655 (ACCCTAAAGGT) k = 3 posicao = 8 chi2 = 984 (ACCTTAAAGGT) k = 3 posicao = 27 chi2 = 414 (ACCTTGAAGGT) k = 4 posicao = 10 chi2 = 651 (ACCCTAAAGGT) k = 4 posicao = 5 chi2 = 984 (ACCTTAAAGGT) k = 4 posicao = 40 chi2 = 407 (ACCTTGAAGGT)

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

161 motivos encontrados Quorum = 80

381 motivos encontrados Quorum = 75

502 motivos encontrados Quorum = 60

826 motivos encontrados k = 1 posicao = 43 chi2 = 33 (CCCCT) k = 2 posicao = 42 chi2 = 202 (CCCCT) k = 3 posicao = 48 chi2 = 142 (CCCCT) k = 4 posicao = 122 chi2 = 028 (CCCCT)

Erro = 1 Quorum = 100

4877 motivos encontrados k = 1 posicao = 3089 chi2 = 002 (CCCCT) k = 2 posicao = 2781 chi2 = 005 (CCCCT) k = 3 posicao = 3148 chi2 = 002 (CCCCT) k = 4 posicao = 2516 chi2 = 007 (CCCCT)

Quorum = 80 10050 motivos encontrados k = 1 posicao = 8449 chi2 = 0 (CCCCT) k = 2 posicao = 5470 chi2 = 009 (CCCCT) k = 3 posicao = 5867 chi2 = 004 (CCCCT) k = 4 posicao = 5131 chi2 = 009 (CCCCT)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 51

Quorum = 75

13080 motivos encontrados k = 1 posicao = 7539 chi2 = 004 (CCCCT) k = 2 posicao = 8129 chi2 = 002 (CCCCT) k = 3 posicao = 7900 chi2 = 003 (CCCCT) k = 4 posicao = 7385 chi2 = 005 (CCCCT)

Quorum = 60 21544 motivos encontrados k = 1 posicao = 12673 chi2 = 004 (CCCCT) k = 2 posicao = 11871 chi2 = 008 (CCCCT) k = 3 posicao = 12731 chi2 = 004 (CCCCT) k = 4 posicao = 11754 chi2 = 007 (CCCCT)

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

326 motivos encontrados Quorum = 80

682 motivos encontrados k = 1 posicao = 169 chi2 = 109 (CCCCT) k = 2 posicao = 238 chi2 = 073 (CCCCT) k = 3 posicao = 223 chi2 = 057 (CCCCT) k = 4 posicao = 331 chi2 = 01 (CCCCT)

Quorum = 75 682 motivos encontrados k = 1 posicao = 136 chi2 = 131 (CCCCT) k = 2 posicao = 178 chi2 = 085 (CCCCT) k = 3 posicao = 245 chi2 = 042 (CCCCT) k = 4 posicao = 331 chi2 = 01 (CCCCT)

Quorum = 60 1316 motivos encontrados k = 1 posicao = 303 chi2 = 17 (CCCCT) k = 2 posicao = 505 chi2 = 075 (CCCCT) k = 3 posicao = 457 chi2 = 059 (CCCCT) k = 4 posicao = 613 chi2 = 014 (CCCCT)

Erro = 1 Quorum = 100

9022 motivos encontrados k = 1 posicao = 7955 chi2 = 0 (CCCCT) k = 2 posicao = 7901 chi2 = 0 (CCCCT) k = 3 posicao = 7846 chi2 = 0 (CCCCT) k = 4 posicao = 7711 chi2 = 0 (CCCCT)

Quorum = 80 17951 motivos encontrados k = 1 posicao = 16310 chi2 = 0 (CCCCT) k = 2 posicao = 16251 chi2 = 0 (CCCCT) k = 3 posicao = 16207 chi2 = 0 (CCCCT) k = 4 posicao = 16091 chi2 = 0 (CCCCT)

Quorum = 75 17951 motivos encontrados k = 1 posicao = 16308 chi2 = 0 (CCCCT)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 52

k = 2 posicao = 16242 chi2 = 0 (CCCCT) k = 3 posicao = 16212 chi2 = 0 (CCCCT) k = 4 posicao = 16063 chi2 = 0 (CCCCT)

Quorum = 60 35258 motivos encontrados k = 1 posicao = 32818 chi2 = 0 (CCCCT) k = 2 posicao = 32757 chi2 = 0 (CCCCT) k = 3 posicao = 32822 chi2 = 0 (CCCCT) k = 4 posicao = 32656 chi2 = 0 (CCCCT)

5_1_gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

220 motivos encontrados Quorum = 80

517 motivos encontrados k = 1 posicao = 52 chi2 = 254 (CTTCC) k = 2 posicao = 87 chi2 = 146 (CTTCC) k = 3 posicao = 164 chi2 = 067 (CTTCC) k = 4 posicao = 236 chi2 = 004 (CTTCC)

Quorum = 75 517 motivos encontrados k = 1 posicao = 77 chi2 = 246 (CTTCC) k = 2 posicao = 83 chi2 = 152 (CTTCC) k = 3 posicao = 99 chi2 = 098 (CTTCC) k = 4 posicao = 241 chi2 = 003 (CTTCC)

Quorum = 60 963 motivos encontrados k = 1 posicao = 625 chi2 = 003 (CATCC) k = 1 posicao = 128 chi2 = 284 (CTTCC) k = 2 posicao = 644 chi2 = 003 (CATCC) k = 2 posicao = 170 chi2 = 177 (CTTCC) k = 3 posicao = 490 chi2 = 015 (CATCC) k = 3 posicao = 256 chi2 = 107 (CTTCC) k = 4 posicao = 522 chi2 = 0 (CATCC) k = 4 posicao = 497 chi2 = 004 (CTTCC)

Erro = 1 Quorum = 100

6121 motivos encontrados k = 1 posicao = 5072 chi2 = 0 (CATCC) k = 1 posicao = 5313 chi2 = 0 (CTTCC) k = 2 posicao = 5049 chi2 = 0 (CATCC) k = 2 posicao = 5287 chi2 = 0 (CTTCC) k = 3 posicao = 4984 chi2 = 0 (CATCC) k = 3 posicao = 5236 chi2 = 0 (CTTCC) k = 4 posicao = 4894 chi2 = 0 (CATCC) k = 4 posicao = 5167 chi2 = 0 (CTTCC)

Quorum = 80 13644 motivos encontrados k = 1 posicao = 11732 chi2 = 0 (CATCC) k = 1 posicao = 11981 chi2 = 0 (CTTCC)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 53

k = 2 posicao = 11792 chi2 = 0 (CATCC) k = 2 posicao = 12044 chi2 = 0 (CTTCC) k = 3 posicao = 11736 chi2 = 0 (CATCC) k = 3 posicao = 11985 chi2 = 0 (CTTCC) k = 4 posicao = 11644 chi2 = 0 (CATCC) k = 4 posicao = 11917 chi2 = 0 (CTTCC)

Quorum = 75 13644 motivos encontrados k = 1 posicao = 11712 chi2 = 0 (CATCC) k = 1 posicao = 11966 chi2 = 0 (CTTCC) k = 2 posicao = 11791 chi2 = 0 (CATCC) k = 2 posicao = 12027 chi2 = 0 (CTTCC) k = 3 posicao = 11729 chi2 = 0 (CATCC) k = 3 posicao = 11981 chi2 = 0 (CTTCC) k = 4 posicao = 11649 chi2 = 0 (CATCC) k = 4 posicao = 11920 chi2 = 0 (CTTCC)

Quorum = 60 25804 motivos encontrados k = 1 posicao = 22732 chi2 = 0 (CATCC) k = 1 posicao = 22973 chi2 = 0 (CTTCC) k = 2 posicao = 22881 chi2 = 0 (CATCC) k = 2 posicao = 23121 chi2 = 0 (CTTCC) k = 3 posicao = 22916 chi2 = 0 (CATCC) k = 3 posicao = 23164 chi2 = 0 (CTTCC) k = 4 posicao = 22864 chi2 = 0 (CATCC) k = 4 posicao = 23141 chi2 = 0 (CTTCC)

6_0_MIG1

Motivo GCGGGG Frequecircncia 16 ~167 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

290 motivos encontrados Quorum = 80

556 motivos encontrados Quorum = 75

556 motivos encontrados Quorum = 60

927 motivos encontrados Erro = 1

Quorum = 100 7881 motivos encontrados k = 1 posicao = 650 chi2 = 252 (GCGGGG) k = 2 posicao = 773 chi2 = 173 (GCGGGG) k = 3 posicao = 1341 chi2 = 101 (GCGGGG) k = 4 posicao = 4437 chi2 = 052 (GCGGGG)

Quorum = 80 14601 motivos encontrados k = 1 posicao = 1895 chi2 = 249 (GCGGGG) k = 2 posicao = 2045 chi2 = 161 (GCGGGG) k = 3 posicao = 3284 chi2 = 11 (GCGGGG) k = 4 posicao = 7272 chi2 = 05 (GCGGGG)

Quorum = 75

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 54

14601 motivos encontrados k = 1 posicao = 2121 chi2 = 234 (GCGGGG) k = 2 posicao = 2604 chi2 = 153 (GCGGGG) k = 3 posicao = 3778 chi2 = 089 (GCGGGG) k = 4 posicao = 8057 chi2 = 047 (GCGGGG)

Quorum = 60 25117 motivos encontrados k = 1 posicao = 4371 chi2 = 234 (GCGGGG) k = 2 posicao = 5452 chi2 = 153 (GCGGGG) k = 3 posicao = 7361 chi2 = 116 (GCGGGG) k = 4 posicao = 12643 chi2 = 051 (GCGGGG)

6_0_UME6

Motivo GCCGCC Frequecircncia 37 ~4286 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

257 motivos encontrados Quorum = 80

454 motivos encontrados Quorum = 75

454 motivos encontrados Quorum = 60

748 motivos encontrados Erro = 1

Quorum = 100 7186 motivos encontrados

Quorum = 80 12323 motivos encontrados

Quorum = 75 12323 motivos encontrados

Quorum = 60 19726 motivos encontrados k = 1 posicao = 13214 chi2 = 002 (GCCGCC) k = 2 posicao = 14628 chi2 = 0 (GCCGCC) k = 3 posicao = 14684 chi2 = 0 (GCCGCC) k = 4 posicao = 15398 chi2 = 002 (GCCGCC)

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

173 motivos encontrados Quorum = 80

403 motivos encontrados Quorum = 75

530 motivos encontrados k = 1 posicao = 6 chi2 = 755 (GATAAG)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 55

k = 2 posicao = 3 chi2 = 892 (GATAAG) k = 3 posicao = 3 chi2 = 725 (GATAAG) k = 4 posicao = 12 chi2 = 457 (GATAAG)

Quorum = 60 836 motivos encontrados k = 1 posicao = 24 chi2 = 771 (GATAAG) k = 2 posicao = 7 chi2 = 94 (GATAAG) k = 3 posicao = 12 chi2 = 719 (GATAAG) k = 4 posicao = 25 chi2 = 48 (GATAAG)

Erro = 1 Quorum = 100

5360 motivos encontrados k = 1 posicao = 2690 chi2 = 012 (GATAAG) k = 1 posicao = 3118 chi2 = 008 (GATTAG) k = 2 posicao = 2917 chi2 = 01 (GATAAG) k = 2 posicao = 2424 chi2 = 02 (GATTAG) k = 3 posicao = 3096 chi2 = 007 (GATAAG) k = 3 posicao = 1982 chi2 = 033 (GATTAG) k = 4 posicao = 3004 chi2 = 007 (GATAAG) k = 4 posicao = 2767 chi2 = 01 (GATTAG)

Quorum = 80 10819 motivos encontrados k = 1 posicao = 6729 chi2 = 011 (GATAAG) k = 1 posicao = 6816 chi2 = 009 (GATTAG) k = 2 posicao = 6240 chi2 = 013 (GATAAG) k = 2 posicao = 6446 chi2 = 011 (GATTAG) k = 3 posicao = 7301 chi2 = 004 (GATAAG) k = 3 posicao = 4235 chi2 = 053 (GATTAG) k = 4 posicao = 7045 chi2 = 004 (GATAAG) k = 4 posicao = 6317 chi2 = 012 (GATTAG)

Quorum = 75 13889 motivos encontrados k = 1 posicao = 9061 chi2 = 007 (GATAAG) k = 1 posicao = 8672 chi2 = 01 (GATTAG) k = 2 posicao = 8095 chi2 = 016 (GATAAG) k = 2 posicao = 8763 chi2 = 01 (GATTAG) k = 3 posicao = 8965 chi2 = 008 (GATAAG) k = 3 posicao = 6907 chi2 = 036 (GATTAG) k = 4 posicao = 8966 chi2 = 006 (GATAAG) k = 4 posicao = 8323 chi2 = 011 (GATTAG)

Quorum = 60 22209 motivos encontrados k = 1 posicao = 14904 chi2 = 008 (GATAAG) k = 1 posicao = 14384 chi2 = 013 (GATTAG) k = 2 posicao = 13923 chi2 = 015 (GATAAG) k = 2 posicao = 13902 chi2 = 015 (GATTAG) k = 3 posicao = 14932 chi2 = 008 (GATAAG) k = 3 posicao = 11534 chi2 = 046 (GATTAG) k = 4 posicao = 14680 chi2 = 007 (GATAAG) k = 4 posicao = 13878 chi2 = 017 (GATTAG)

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 56

Erro = 0 Quorum = 100

128 motivos encontrados Quorum = 80

372 motivos encontrados Quorum = 75

454 motivos encontrados Quorum = 60

785 motivos encontrados Erro = 1

Quorum = 100 4212 motivos encontrados k = 1 posicao = 326 chi2 = 14 (CACCCA) k = 2 posicao = 594 chi2 = 108 (CACCCA) k = 3 posicao = 244 chi2 = 107 (CACCCA) k = 4 posicao = 1210 chi2 = 038 (CACCCA)

Quorum = 80 9800 motivos encontrados k = 1 posicao = 1302 chi2 = 157 (CACCCA) k = 1 posicao = 2061 chi2 = 087 (CACCCG) k = 2 posicao = 2058 chi2 = 117 (CACCCA) k = 2 posicao = 2522 chi2 = 059 (CACCCG) k = 3 posicao = 1624 chi2 = 106 (CACCCA) k = 3 posicao = 2994 chi2 = 045 (CACCCG) k = 4 posicao = 2703 chi2 = 05 (CACCCA) k = 4 posicao = 3926 chi2 = 011 (CACCCG)

Quorum = 75 11933 motivos encontrados k = 1 posicao = 1951 chi2 = 145 (CACCCA) k = 1 posicao = 2903 chi2 = 081 (CACCCG) k = 2 posicao = 2227 chi2 = 116 (CACCCA) k = 2 posicao = 3417 chi2 = 062 (CACCCG) k = 3 posicao = 2137 chi2 = 108 (CACCCA) k = 3 posicao = 3426 chi2 = 041 (CACCCG) k = 4 posicao = 4518 chi2 = 031 (CACCCA) k = 4 posicao = 4805 chi2 = 012 (CACCCG)

Quorum = 60 20531 motivos encontrados k = 1 posicao = 5137 chi2 = 144 (CACCCA) k = 1 posicao = 5556 chi2 = 073 (CACCCG) k = 2 posicao = 4865 chi2 = 113 (CACCCA) k = 2 posicao = 5737 chi2 = 062 (CACCCG) k = 3 posicao = 4491 chi2 = 097 (CACCCA) k = 3 posicao = 5797 chi2 = 052 (CACCCG) k = 4 posicao = 7825 chi2 = 041 (CACCCA) k = 4 posicao = 7275 chi2 = 018 (CACCCG)

7_0_REB1

Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

211 motivos encontrados k = 1 posicao = 4 chi2 = 965 (TTACCC)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 57

k = 2 posicao = 4 chi2 = 105 (TTACCC) k = 3 posicao = 4 chi2 = 1075 (TTACCC) k = 4 posicao = 4 chi2 = 755 (TTACCC)

Quorum = 80 405 motivos encontrados k = 1 posicao = 4 chi2 = 932 (TTACCC) k = 2 posicao = 4 chi2 = 1083 (TTACCC) k = 3 posicao = 4 chi2 = 1106 (TTACCC) k = 4 posicao = 4 chi2 = 723 (TTACCC)

Quorum = 75 605 motivos encontrados k = 1 posicao = 6 chi2 = 947 (TTACCC) k = 2 posicao = 5 chi2 = 999 (TTACCC) k = 3 posicao = 5 chi2 = 1098 (TTACCC) k = 4 posicao = 5 chi2 = 808 (TTACCC)

Quorum = 60 907 motivos encontrados k = 1 posicao = 9 chi2 = 1007 (TTACCC) k = 2 posicao = 6 chi2 = 1089 (TTACCC) k = 3 posicao = 6 chi2 = 1081 (TTACCC) k = 4 posicao = 6 chi2 = 788 (TTACCC)

Erro = 1 Quorum = 100

6121 motivos encontrados k = 1 posicao = 4617 chi2 = 013 (TTACCC) k = 2 posicao = 4454 chi2 = 016 (TTACCC) k = 3 posicao = 4730 chi2 = 012 (TTACCC) k = 4 posicao = 5483 chi2 = 004 (TTACCC)

Quorum = 80 10337 motivos encontrados k = 1 posicao = 7525 chi2 = 008 (TTACCC) k = 2 posicao = 7267 chi2 = 01 (TTACCC) k = 3 posicao = 7129 chi2 = 012 (TTACCC) k = 4 posicao = 7469 chi2 = 009 (TTACCC)

Quorum = 75 15777 motivos encontrados k = 1 posicao = 10287 chi2 = 012 (TTACCC) k = 2 posicao = 10740 chi2 = 01 (TTACCC) k = 3 posicao = 9696 chi2 = 016 (TTACCC) k = 4 posicao = 10789 chi2 = 008 (TTACCC)

Quorum = 60 23856 motivos encontrados k = 1 posicao = 15646 chi2 = 01 (TTACCC) k = 2 posicao = 15437 chi2 = 012 (TTACCC) k = 3 posicao = 13932 chi2 = 022 (TTACCC) k = 4 posicao = 15597 chi2 = 009 (TTACCC)

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

235 motivos encontrados Quorum = 80

475 motivos encontrados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 58

k = 1 posicao = 3 chi2 = 945 (TGCCAAG) k = 2 posicao = 2 chi2 = 92 (TGCCAAG) k = 3 posicao = 2 chi2 = 892 (TGCCAAG) k = 4 posicao = 3 chi2 = 7 (TGCCAAG)

Quorum = 75 475 motivos encontrados k = 1 posicao = 2 chi2 = 924 (TGCCAAG) k = 2 posicao = 3 chi2 = 886 (TGCCAAG) k = 3 posicao = 3 chi2 = 869 (TGCCAAG) k = 4 posicao = 2 chi2 = 678 (TGCCAAG)

Quorum = 60 785 motivos encontrados k = 1 posicao = 5 chi2 = 952 (TGCCAAG) k = 2 posicao = 4 chi2 = 934 (TGCCAAG) k = 3 posicao = 4 chi2 = 869 (TGCCAAG) k = 4 posicao = 6 chi2 = 67 (TGCCAAG)

Erro = 1 Quorum = 100

7028 motivos encontrados k = 1 posicao = 436 chi2 = 321 (TGCCAAG) k = 2 posicao = 551 chi2 = 217 (TGCCAAG) k = 3 posicao = 940 chi2 = 223 (TGCCAAG) k = 4 posicao = 1492 chi2 = 095 (TGCCAAG)

Quorum = 80 12574 motivos encontrados k = 1 posicao = 1703 chi2 = 325 (TGCCAAG) k = 2 posicao = 2035 chi2 = 244 (TGCCAAG) k = 3 posicao = 1678 chi2 = 217 (TGCCAAG) k = 4 posicao = 3298 chi2 = 093 (TGCCAAG)

Quorum = 75 12574 motivos encontrados k = 1 posicao = 1739 chi2 = 333 (TGCCAAG) k = 2 posicao = 1717 chi2 = 216 (TGCCAAG) k = 3 posicao = 1609 chi2 = 212 (TGCCAAG) k = 4 posicao = 3574 chi2 = 075 (TGCCAAG)

Quorum = 60 20257 motivos encontrados k = 1 posicao = 3598 chi2 = 304 (TGCCAAG) k = 2 posicao = 3664 chi2 = 211 (TGCCAAG) k = 3 posicao = 3206 chi2 = 213 (TGCCAAG) k = 4 posicao = 4753 chi2 = 115 (TGCCAAG)

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

267 motivos encontrados k = 1 posicao = 4 chi2 = 998 (TGAAACA) k = 2 posicao = 5 chi2 = 908 (TGAAACA) k = 3 posicao = 5 chi2 = 875 (TGAAACA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 59

k = 4 posicao = 4 chi2 = 743 (TGAAACA)

Quorum = 80 529 motivos encontrados k = 1 posicao = 4 chi2 = 969 (TGAAACA) k = 2 posicao = 6 chi2 = 84 (TGAAACA) k = 3 posicao = 5 chi2 = 845 (TGAAACA) k = 4 posicao = 5 chi2 = 702 (TGAAACA)

Quorum = 75 529 motivos encontrados k = 1 posicao = 6 chi2 = 933 (TGAAACA) k = 2 posicao = 5 chi2 = 866 (TGAAACA) k = 3 posicao = 5 chi2 = 86 (TGAAACA) k = 4 posicao = 5 chi2 = 717 (TGAAACA)

Quorum = 60 916 motivos encontrados k = 1 posicao = 12 chi2 = 956 (TGAAACA) k = 2 posicao = 13 chi2 = 893 (TGAAACA) k = 3 posicao = 16 chi2 = 84 (TGAAACA) k = 4 posicao = 18 chi2 = 715 (TGAAACA)

Erro = 1 Quorum = 100

7705 motivos encontrados k = 1 posicao = 4203 chi2 = 055 (TGAAACA) k = 2 posicao = 5562 chi2 = 02 (TGAAACA) k = 3 posicao = 5481 chi2 = 021 (TGAAACA) k = 4 posicao = 6219 chi2 = 012 (TGAAACA)

Quorum = 80 14161 motivos encontrados k = 1 posicao = 8113 chi2 = 052 (TGAAACA) k = 2 posicao = 9261 chi2 = 022 (TGAAACA) k = 3 posicao = 8536 chi2 = 029 (TGAAACA) k = 4 posicao = 10343 chi2 = 01 (TGAAACA)

Quorum = 75 14161 motivos encontrados k = 1 posicao = 7156 chi2 = 066 (TGAAACA) k = 2 posicao = 8778 chi2 = 028 (TGAAACA) k = 3 posicao = 8848 chi2 = 034 (TGAAACA) k = 4 posicao = 9747 chi2 = 015 (TGAAACA)

Quorum = 60 24421 motivos encontrados k = 1 posicao = 12918 chi2 = 049 (TGAAACA) k = 2 posicao = 15781 chi2 = 024 (TGAAACA) k = 3 posicao = 13941 chi2 = 03 (TGAAACA) k = 4 posicao = 16147 chi2 = 017 (TGAAACA)

7_1_SWI4

Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

330 motivos encontrados Quorum = 80

675 motivos encontrados k = 1 posicao = 3 chi2 = 575 (CGCGAAA) k = 2 posicao = 3 chi2 = 483 (CGCGAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 60

k = 3 posicao = 11 chi2 = 395 (CGCGAAA) k = 4 posicao = 5 chi2 = 367 (CGCGAAA)

Quorum = 75 675 motivos encontrados k = 1 posicao = 2 chi2 = 6 (CGCGAAA) k = 2 posicao = 4 chi2 = 504 (CGCGAAA) k = 3 posicao = 14 chi2 = 372 (CGCGAAA) k = 4 posicao = 14 chi2 = 343 (CGCGAAA)

Quorum = 60 1349 motivos encontrados k = 1 posicao = 50 chi2 = 31 (CACGAAA) k = 1 posicao = 8 chi2 = 569 (CGCGAAA) k = 2 posicao = 81 chi2 = 26 (CACGAAA) k = 2 posicao = 20 chi2 = 48 (CGCGAAA) k = 3 posicao = 117 chi2 = 21 (CACGAAA) k = 3 posicao = 47 chi2 = 37 (CGCGAAA) k = 4 posicao = 309 chi2 = 056 (CACGAAA) k = 4 posicao = 33 chi2 = 367 (CGCGAAA)

Erro = 1 Quorum = 100

8974 motivos encontrados k = 1 posicao = 2630 chi2 = 093 (CACGAAA) k = 1 posicao = 1189 chi2 = 212 (CGCGAAA) k = 2 posicao = 3046 chi2 = 07 (CACGAAA) k = 2 posicao = 2138 chi2 = 101 (CGCGAAA) k = 3 posicao = 4224 chi2 = 03 (CACGAAA) k = 3 posicao = 4064 chi2 = 04 (CGCGAAA) k = 4 posicao = 5230 chi2 = 012 (CACGAAA) k = 4 posicao = 4771 chi2 = 018 (CGCGAAA)

Quorum = 80 17937 motivos encontrados k = 1 posicao = 6152 chi2 = 107 (CACGAAA) k = 1 posicao = 3575 chi2 = 211 (CGCGAAA) k = 2 posicao = 7073 chi2 = 071 (CACGAAA) k = 2 posicao = 6979 chi2 = 078 (CGCGAAA) k = 3 posicao = 9212 chi2 = 035 (CACGAAA) k = 3 posicao = 8502 chi2 = 038 (CGCGAAA) k = 4 posicao = 10421 chi2 = 017 (CACGAAA) k = 4 posicao = 9629 chi2 = 026 (CGCGAAA)

Quorum = 75 17937 motivos encontrados k = 1 posicao = 6271 chi2 = 104 (CACGAAA) k = 1 posicao = 4092 chi2 = 171 (CGCGAAA) k = 2 posicao = 8574 chi2 = 052 (CACGAAA) k = 2 posicao = 5741 chi2 = 107 (CGCGAAA) k = 3 posicao = 10092 chi2 = 026 (CACGAAA) k = 3 posicao = 8743 chi2 = 044 (CGCGAAA) k = 4 posicao = 11741 chi2 = 009 (CACGAAA) k = 4 posicao = 9601 chi2 = 022 (CGCGAAA)

Quorum = 60 35352 motivos encontrados k = 1 posicao = 15854 chi2 = 094 (CACGAAA) k = 1 posicao = 9842 chi2 = 196 (CGCGAAA) k = 2 posicao = 18655 chi2 = 063 (CACGAAA) k = 2 posicao = 16854 chi2 = 093 (CGCGAAA) k = 3 posicao = 21349 chi2 = 025 (CACGAAA) k = 3 posicao = 19789 chi2 = 036 (CGCGAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 61

k = 4 posicao = 22509 chi2 = 016 (CACGAAA) k = 4 posicao = 21049 chi2 = 027 (CGCGAAA)

7_2_GCN4

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

229 motivos encontrados Quorum = 80

372 motivos encontrados Quorum = 75

586 motivos encontrados Quorum = 60

839 motivos encontrados Erro = 1

Quorum = 100 6343 motivos encontrados

Quorum = 80 10422 motivos encontrados

Quorum = 75 15227 motivos encontrados

Quorum = 60 21609 motivos encontrados

7_2_RGT1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

205 motivos encontrados Quorum = 80

496 motivos encontrados k = 1 posicao = 4 chi2 = 1052 (CGGAAAA) k = 2 posicao = 2 chi2 = 883 (CGGAAAA) k = 3 posicao = 2 chi2 = 692 (CGGAAAA) k = 4 posicao = 10 chi2 = 308 (CGGAAAA)

Quorum = 75 496 motivos encontrados k = 1 posicao = 4 chi2 = 1101 (CGGAAAA) k = 2 posicao = 3 chi2 = 855 (CGGAAAA) k = 3 posicao = 4 chi2 = 685 (CGGAAAA) k = 4 posicao = 9 chi2 = 338 (CGGAAAA)

Quorum = 60 987 motivos encontrados k = 1 posicao = 10 chi2 = 1087 (CGGAAAA) k = 2 posicao = 11 chi2 = 792 (CGGAAAA) k = 3 posicao = 10 chi2 = 637 (CGGAAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 62

k = 4 posicao = 27 chi2 = 333 (CGGAAAA)

Erro = 1 Quorum = 100

6085 motivos encontrados k = 1 posicao = 740 chi2 = 226 (CGGAAAA) k = 1 posicao = 244 chi2 = 442 (CGGAAGA) k = 1 posicao = 375 chi2 = 415 (CGGAGAA) k = 1 posicao = 795 chi2 = 205 (CGGATAA) k = 2 posicao = 1431 chi2 = 069 (CGGAAAA) k = 2 posicao = 350 chi2 = 257 (CGGAAGA) k = 2 posicao = 313 chi2 = 281 (CGGAGAA) k = 2 posicao = 403 chi2 = 257 (CGGATAA) k = 3 posicao = 2933 chi2 = 015 (CGGAAAA) k = 3 posicao = 543 chi2 = 161 (CGGAAGA) k = 3 posicao = 758 chi2 = 162 (CGGAGAA) k = 3 posicao = 334 chi2 = 242 (CGGATAA) k = 4 posicao = 3388 chi2 = 006 (CGGAAAA) k = 4 posicao = 944 chi2 = 088 (CGGAAGA) k = 4 posicao = 682 chi2 = 096 (CGGAGAA) k = 4 posicao = 448 chi2 = 157 (CGGATAA)

Quorum = 80 13578 motivos encontrados k = 1 posicao = 2782 chi2 = 211 (CGGAAAA) k = 1 posicao = 1309 chi2 = 443 (CGGAAGA) k = 1 posicao = 9793 chi2 = 0 (CGGAATA) k = 1 posicao = 1525 chi2 = 436 (CGGAGAA) k = 1 posicao = 1267 chi2 = 351 (CGGAGGA) k = 1 posicao = 2001 chi2 = 282 (CGGATAA) k = 1 posicao = 4454 chi2 = 055 (CGGATTA) k = 2 posicao = 4354 chi2 = 063 (CGGAAAA) k = 2 posicao = 1547 chi2 = 273 (CGGAAGA) k = 2 posicao = 7920 chi2 = 004 (CGGAATA) k = 2 posicao = 2260 chi2 = 262 (CGGAGAA) k = 2 posicao = 1049 chi2 = 271 (CGGAGGA) k = 2 posicao = 1502 chi2 = 271 (CGGATAA) k = 2 posicao = 3568 chi2 = 083 (CGGATTA) k = 3 posicao = 6889 chi2 = 02 (CGGAAAA) k = 3 posicao = 2122 chi2 = 16 (CGGAAGA) k = 3 posicao = 10332 chi2 = 01 (CGGAATA) k = 3 posicao = 2408 chi2 = 144 (CGGAGAA) k = 3 posicao = 1273 chi2 = 214 (CGGAGGA) k = 3 posicao = 1406 chi2 = 211 (CGGATAA) k = 3 posicao = 1203 chi2 = 189 (CGGATTA) k = 4 posicao = 8380 chi2 = 003 (CGGAAAA) k = 4 posicao = 4250 chi2 = 074 (CGGAAGA) k = 4 posicao = 12881 chi2 = 037 (CGGAATA) k = 4 posicao = 3392 chi2 = 088 (CGGAGAA) k = 4 posicao = 1278 chi2 = 162 (CGGAGGA) k = 4 posicao = 1930 chi2 = 148 (CGGATAA) k = 4 posicao = 1157 chi2 = 136 (CGGATTA)

Quorum = 75 13578 motivos encontrados k = 1 posicao = 2620 chi2 = 264 (CGGAAAA) k = 1 posicao = 1452 chi2 = 443 (CGGAAGA) k = 1 posicao = 8943 chi2 = 001 (CGGAATA) k = 1 posicao = 1121 chi2 = 446 (CGGAGAA) k = 1 posicao = 965 chi2 = 424 (CGGAGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 63

k = 1 posicao = 2453 chi2 = 246 (CGGATAA) k = 1 posicao = 3571 chi2 = 086 (CGGATTA) k = 2 posicao = 4690 chi2 = 069 (CGGAAAA) k = 2 posicao = 1475 chi2 = 255 (CGGAAGA) k = 2 posicao = 7150 chi2 = 01 (CGGAATA) k = 2 posicao = 1209 chi2 = 259 (CGGAGAA) k = 2 posicao = 837 chi2 = 274 (CGGAGGA) k = 2 posicao = 1900 chi2 = 268 (CGGATAA) k = 2 posicao = 3981 chi2 = 066 (CGGATTA) k = 3 posicao = 6549 chi2 = 022 (CGGAAAA) k = 3 posicao = 1447 chi2 = 191 (CGGAAGA) k = 3 posicao = 10656 chi2 = 018 (CGGAATA) k = 3 posicao = 2435 chi2 = 155 (CGGAGAA) k = 3 posicao = 1026 chi2 = 21 (CGGAGGA) k = 3 posicao = 1469 chi2 = 233 (CGGATAA) k = 3 posicao = 1202 chi2 = 189 (CGGATTA) k = 4 posicao = 11692 chi2 = 0 (CGGAAAA) k = 4 posicao = 3717 chi2 = 077 (CGGAAGA) k = 4 posicao = 10890 chi2 = 035 (CGGAATA) k = 4 posicao = 3482 chi2 = 087 (CGGAGAA) k = 4 posicao = 1187 chi2 = 168 (CGGAGGA) k = 4 posicao = 1746 chi2 = 148 (CGGATAA) k = 4 posicao = 1204 chi2 = 149 (CGGATTA)

Quorum = 60 25839 motivos encontrados k = 1 posicao = 5870 chi2 = 247 (CGGAAAA) k = 1 posicao = 4726 chi2 = 405 (CGGAAGA) k = 1 posicao = 18076 chi2 = 0 (CGGAATA) k = 1 posicao = 3940 chi2 = 388 (CGGAGAA) k = 1 posicao = 3424 chi2 = 384 (CGGAGGA) k = 1 posicao = 15679 chi2 = 005 (CGGAGTA) k = 1 posicao = 6177 chi2 = 245 (CGGATAA) k = 1 posicao = 15167 chi2 = 008 (CGGATGA) k = 1 posicao = 11165 chi2 = 059 (CGGATTA) k = 2 posicao = 11428 chi2 = 046 (CGGAAAA) k = 2 posicao = 4811 chi2 = 242 (CGGAAGA) k = 2 posicao = 16216 chi2 = 003 (CGGAATA) k = 2 posicao = 4128 chi2 = 226 (CGGAGAA) k = 2 posicao = 3005 chi2 = 278 (CGGAGGA) k = 2 posicao = 10245 chi2 = 04 (CGGAGTA) k = 2 posicao = 3437 chi2 = 3 (CGGATAA) k = 2 posicao = 10379 chi2 = 033 (CGGATGA) k = 2 posicao = 8888 chi2 = 072 (CGGATTA) k = 3 posicao = 13836 chi2 = 017 (CGGAAAA) k = 3 posicao = 4943 chi2 = 191 (CGGAAGA) k = 3 posicao = 20550 chi2 = 01 (CGGAATA) k = 3 posicao = 6774 chi2 = 155 (CGGAGAA) k = 3 posicao = 2524 chi2 = 222 (CGGAGGA) k = 3 posicao = 13828 chi2 = 01 (CGGAGTA) k = 3 posicao = 4859 chi2 = 197 (CGGATAA) k = 3 posicao = 9284 chi2 = 029 (CGGATGA) k = 3 posicao = 3146 chi2 = 179 (CGGATTA) k = 4 posicao = 17095 chi2 = 001 (CGGAAAA) k = 4 posicao = 7930 chi2 = 083 (CGGAAGA) k = 4 posicao = 24667 chi2 = 051 (CGGAATA) k = 4 posicao = 9042 chi2 = 083 (CGGAGAA) k = 4 posicao = 3884 chi2 = 147 (CGGAGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 64

k = 4 posicao = 13905 chi2 = 007 (CGGAGTA) k = 4 posicao = 4859 chi2 = 156 (CGGATAA) k = 4 posicao = 14606 chi2 = 005 (CGGATGA) k = 4 posicao = 3783 chi2 = 127 (CGGATTA)

8_1_PDR1

Motivo TCCGYGGA Frequecircncia 68 ~75 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

229 motivos encontrados Quorum = 80

416 motivos encontrados Quorum = 75

639 motivos encontrados k = 1 posicao = 2 chi2 = 96 (TCCGCGGA) k = 2 posicao = 2 chi2 = 941 (TCCGCGGA) k = 3 posicao = 2 chi2 = 915 (TCCGCGGA) k = 4 posicao = 2 chi2 = 674 (TCCGCGGA)

Quorum = 60 950 motivos encontrados k = 1 posicao = 4 chi2 = 937 (TCCGCGGA) k = 2 posicao = 3 chi2 = 933 (TCCGCGGA) k = 3 posicao = 3 chi2 = 926 (TCCGCGGA) k = 4 posicao = 3 chi2 = 686 (TCCGCGGA)

Erro = 1 Quorum = 100

6610 motivos encontrados k = 1 posicao = 8 chi2 = 1095 (TCCGCGGA) k = 1 posicao = 15 chi2 = 1007 (TCCGTGGA) k = 2 posicao = 8 chi2 = 1092 (TCCGCGGA) k = 2 posicao = 18 chi2 = 1039 (TCCGTGGA) k = 3 posicao = 11 chi2 = 907 (TCCGCGGA) k = 3 posicao = 9 chi2 = 881 (TCCGTGGA) k = 4 posicao = 18 chi2 = 517 (TCCGCGGA) k = 4 posicao = 8 chi2 = 759 (TCCGTGGA)

Quorum = 80 11058 motivos encontrados k = 1 posicao = 32 chi2 = 1126 (TCCGCGGA) k = 1 posicao = 48 chi2 = 1053 (TCCGTGGA) k = 2 posicao = 21 chi2 = 1053 (TCCGCGGA) k = 2 posicao = 19 chi2 = 1098 (TCCGTGGA) k = 3 posicao = 29 chi2 = 881 (TCCGCGGA) k = 3 posicao = 60 chi2 = 808 (TCCGTGGA) k = 4 posicao = 97 chi2 = 509 (TCCGCGGA) k = 4 posicao = 42 chi2 = 698 (TCCGTGGA)

Quorum = 75 16695 motivos encontrados k = 1 posicao = 92 chi2 = 1126 (TCCGCGGA) k = 1 posicao = 178 chi2 = 1026 (TCCGTGGA) k = 2 posicao = 70 chi2 = 1092 (TCCGCGGA) k = 2 posicao = 73 chi2 = 1069 (TCCGTGGA) k = 3 posicao = 64 chi2 = 983 (TCCGCGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 65

k = 3 posicao = 83 chi2 = 898 (TCCGTGGA) k = 4 posicao = 336 chi2 = 48 (TCCGCGGA) k = 4 posicao = 130 chi2 = 657 (TCCGTGGA)

Quorum = 60 25049 motivos encontrados k = 1 posicao = 220 chi2 = 1135 (TCCGCGGA) k = 1 posicao = 369 chi2 = 1004 (TCCGTGGA) k = 2 posicao = 83 chi2 = 1159 (TCCGCGGA) k = 2 posicao = 263 chi2 = 1045 (TCCGTGGA) k = 3 posicao = 134 chi2 = 883 (TCCGCGGA) k = 3 posicao = 206 chi2 = 857 (TCCGTGGA) k = 4 posicao = 580 chi2 = 488 (TCCGCGGA) k = 4 posicao = 213 chi2 = 67 (TCCGTGGA)

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

241 motivos encontrados Quorum = 80

423 motivos encontrados k = 1 posicao = 2 chi2 = 1237 (TCCGCGGA) k = 2 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 3 posicao = 2 chi2 = 1229 (TCCGCGGA) k = 4 posicao = 2 chi2 = 915 (TCCGCGGA)

Quorum = 75 667 motivos encontrados k = 1 posicao = 2 chi2 = 1237 (TCCGCGGA) k = 2 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 3 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 4 posicao = 2 chi2 = 909 (TCCGCGGA)

Quorum = 60 1024 motivos encontrados k = 1 posicao = 3 chi2 = 1233 (TCCGCGGA) k = 2 posicao = 4 chi2 = 124 (TCCGCGGA) k = 3 posicao = 3 chi2 = 1221 (TCCGCGGA) k = 4 posicao = 5 chi2 = 918 (TCCGCGGA)

Erro = 1 Quorum = 100

6897 motivos encontrados k = 1 posicao = 17 chi2 = 1115 (TCCGCGGA) k = 1 posicao = 24 chi2 = 1026 (TCCGTGGA) k = 2 posicao = 12 chi2 = 1174 (TCCGCGGA) k = 2 posicao = 10 chi2 = 1138 (TCCGTGGA) k = 3 posicao = 17 chi2 = 945 (TCCGCGGA) k = 3 posicao = 29 chi2 = 827 (TCCGTGGA) k = 4 posicao = 65 chi2 = 481 (TCCGCGGA) k = 4 posicao = 39 chi2 = 616 (TCCGTGGA)

Quorum = 80 11592 motivos encontrados k = 1 posicao = 69 chi2 = 1156 (TCCGCGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 66

k = 1 posicao = 117 chi2 = 1012 (TCCGTGGA) k = 2 posicao = 38 chi2 = 1177 (TCCGCGGA) k = 2 posicao = 69 chi2 = 1061 (TCCGTGGA) k = 3 posicao = 76 chi2 = 893 (TCCGCGGA) k = 3 posicao = 53 chi2 = 817 (TCCGTGGA) k = 4 posicao = 131 chi2 = 526 (TCCGCGGA) k = 4 posicao = 61 chi2 = 638 (TCCGTGGA)

Quorum = 75 17555 motivos encontrados k = 1 posicao = 210 chi2 = 1109 (TCCGCGGA) k = 1 posicao = 265 chi2 = 1061 (TCCGTGGA) k = 2 posicao = 78 chi2 = 115 (TCCGCGGA) k = 2 posicao = 102 chi2 = 1109 (TCCGTGGA) k = 3 posicao = 184 chi2 = 905 (TCCGCGGA) k = 3 posicao = 105 chi2 = 85 (TCCGTGGA) k = 4 posicao = 424 chi2 = 451 (TCCGCGGA) k = 4 posicao = 476 chi2 = 582 (TCCGTGGA)

Quorum = 60 26303 motivos encontrados k = 1 posicao = 433 chi2 = 1118 (TCCGCGGA) k = 1 posicao = 521 chi2 = 991 (TCCGTGGA) k = 2 posicao = 237 chi2 = 1064 (TCCGCGGA) k = 2 posicao = 322 chi2 = 1045 (TCCGTGGA) k = 3 posicao = 316 chi2 = 95 (TCCGCGGA) k = 3 posicao = 415 chi2 = 827 (TCCGTGGA) k = 4 posicao = 978 chi2 = 49 (TCCGCGGA) k = 4 posicao = 1277 chi2 = 616 (TCCGTGGA)

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

328 motivos encontrados Quorum = 80

685 motivos encontrados Quorum = 75

685 motivos encontrados Quorum = 60

1319 motivos encontrados k = 1 posicao = 4 chi2 = 411 (TCCGTGGA) k = 2 posicao = 2 chi2 = 421 (TCCGTGGA) k = 3 posicao = 2 chi2 = 407 (TCCGTGGA) k = 4 posicao = 3 chi2 = 354 (TCCGTGGA)

Erro = 1 Quorum = 100

9298 motivos encontrados k = 1 posicao = 95 chi2 = 631 (TCCGAGGA) k = 1 posicao = 63 chi2 = 675 (TCCGCGGA) k = 1 posicao = 75 chi2 = 678 (TCCGTGGA) k = 2 posicao = 51 chi2 = 61 (TCCGAGGA) k = 2 posicao = 25 chi2 = 745 (TCCGCGGA) k = 2 posicao = 22 chi2 = 718 (TCCGTGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 67

k = 3 posicao = 38 chi2 = 538 (TCCGAGGA) k = 3 posicao = 68 chi2 = 543 (TCCGCGGA) k = 3 posicao = 64 chi2 = 57 (TCCGTGGA) k = 4 posicao = 48 chi2 = 529 (TCCGAGGA) k = 4 posicao = 161 chi2 = 389 (TCCGCGGA) k = 4 posicao = 78 chi2 = 477 (TCCGTGGA)

Quorum = 80 18263 motivos encontrados k = 1 posicao = 551 chi2 = 592 (TCCGAGGA) k = 1 posicao = 147 chi2 = 754 (TCCGCGGA) k = 1 posicao = 282 chi2 = 647 (TCCGTGGA) k = 2 posicao = 296 chi2 = 605 (TCCGAGGA) k = 2 posicao = 143 chi2 = 715 (TCCGCGGA) k = 2 posicao = 182 chi2 = 681 (TCCGTGGA) k = 3 posicao = 589 chi2 = 511 (TCCGAGGA) k = 3 posicao = 347 chi2 = 553 (TCCGCGGA) k = 3 posicao = 245 chi2 = 59 (TCCGTGGA) k = 4 posicao = 429 chi2 = 462 (TCCGAGGA) k = 4 posicao = 944 chi2 = 401 (TCCGCGGA) k = 4 posicao = 577 chi2 = 41 (TCCGTGGA)

Quorum = 75 18263 motivos encontrados k = 1 posicao = 790 chi2 = 6 (TCCGAGGA) k = 1 posicao = 168 chi2 = 706 (TCCGCGGA) k = 1 posicao = 451 chi2 = 631 (TCCGTGGA) k = 2 posicao = 195 chi2 = 623 (TCCGAGGA) k = 2 posicao = 152 chi2 = 695 (TCCGCGGA) k = 2 posicao = 155 chi2 = 686 (TCCGTGGA) k = 3 posicao = 159 chi2 = 546 (TCCGAGGA) k = 3 posicao = 286 chi2 = 546 (TCCGCGGA) k = 3 posicao = 281 chi2 = 585 (TCCGTGGA) k = 4 posicao = 342 chi2 = 46 (TCCGAGGA) k = 4 posicao = 562 chi2 = 381 (TCCGCGGA) k = 4 posicao = 632 chi2 = 401 (TCCGTGGA)

Quorum = 60 35494 motivos encontrados k = 1 posicao = 1806 chi2 = 548 (TCCGAGGA) k = 1 posicao = 1580 chi2 = 65 (TCCGCGGA) k = 1 posicao = 1668 chi2 = 595 (TCCGTGGA) k = 2 posicao = 1224 chi2 = 592 (TCCGAGGA) k = 2 posicao = 794 chi2 = 701 (TCCGCGGA) k = 2 posicao = 991 chi2 = 658 (TCCGTGGA) k = 3 posicao = 1647 chi2 = 536 (TCCGAGGA) k = 3 posicao = 2029 chi2 = 546 (TCCGCGGA) k = 3 posicao = 1118 chi2 = 57 (TCCGTGGA) k = 4 posicao = 1549 chi2 = 502 (TCCGAGGA) k = 4 posicao = 2429 chi2 = 385 (TCCGCGGA) k = 4 posicao = 2813 chi2 = 429 (TCCGTGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 68

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 69

Anexo B Comparaccedilatildeo da Significacircncia Estatiacutestica referente agrave Abundacircncia obtida pelo

Meacutetodo de Shuffling e pelo Meacutetodo Analiacutetico

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos a comparaccedilatildeo entre o valor do chi2 obtido pelo meacutetodo de shuffling e o valor obtido pelo meacutetodo analiacutetico

Cada linha diz respeito a dados em que se conserva um determinado k-mer (k) Em cada uma eacute apresentado o valor do chi2 obtido pelo meacutetodo de shuffling (chi2) e a sua posiccedilatildeo relativa na lista de motivos ordenada por valores decrescentes de chi2 face ao nuacutemero de motivos extraiacutedos Os valores acima referidos tambeacutem satildeo apresentados para o meacutetodo analiacutetico (achi2)

10_2_YRR1 Motivo TTCCGTGGAA TTCCGCGGAT TTCCGCGGAA Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=488 (633 in 8908) achi2=476 (745 in 8908) [TTCCGCGGAA]

K=2 chi2=465 (468 in 8908) achi2=464 (509 in 8908) [TTCCGCGGAA]

K=3 chi2=412 (201 in 8908) achi2=413 (230 in 8908) [TTCCGCGGAA]

K=4 chi2=253 (223 in 8908) achi2=278 (205 in 8908) [TTCCGCGGAA]

K=5 chi2=126 (277 in 8912) achi2=143 (291 in 8912) [TTCCGCGGAA]

K=6 chi2=039 (323 in 8912) achi2=041 (1035 in 8912) [TTCCGCGGAA]

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 70

Error = 1

Quorum = 80

K=1 chi2=388 (428 in 17722) achi2=387 (504 in 17722) [ACCCTAAAGGT]

K=1 chi2=474 (246 in 17722) achi2=483 (265 in 17722) [ACCTTAAAGGT]

K=2 chi2=394 (222 in 17722) achi2=389 (248 in 17722) [ACCCTAAAGGT]

K=2 chi2=474 (111 in 17722) achi2=484 (119 in 17722) [ACCTTAAAGGT]

K=3 chi2=400 (51 in 17722) achi2=391 (61 in 17722) [ACCCTAAAGGT]

K=3 chi2=477 (12 in 17722) achi2=485 (14 in 17722) [ACCTTAAAGGT]

K=4 chi2=394 (28 in 17722) achi2=387 (31 in 17722) [ACCCTAAAGGT]

K=4 chi2=488 (4 in 17722) achi2=485 (4 in 17722) [ACCTTAAAGGT]

K=5 chi2=326 (24 in 17722) achi2=343 (29 in 17722) [ACCCTAAAGGT]

K=5 chi2=435 (7 in 17722) achi2=462 (3 in 17722) [ACCTTAAAGGT]

K=6 chi2=071 (387 in 17722) achi2=282 (276 in 17722) [ACCCTAAAGGT]

K=6 chi2=310 (2 in 17722) achi2=431 (259 in 17722) [ACCTTAAAGGT]

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=344 (91 in 1316) achi2=314 (116 in 1316) [CCCCT]

K=2 chi2=187 (183 in 1316) achi2=194 (178 in 1316) [CCCCT]

K=3 chi2=164 (138 in 1316) achi2=140 (190 in 1316) [CCCCT]

K=4 chi2=088 (186 in 1316) achi2=104 (150 in 1316) [CCCCT]

Error = 1

Quorum = 60

K=1 chi2=056 (18487 in 35258) achi2=082 (15627 in 35258) [CCCCT]

K=2 chi2=000 (34670 in 35258) achi2=000 (34292 in 35258) [CCCCT]

K=3 chi2=007 (27587 in 35258) achi2=011 (25832 in 35258) [CCCCT]

K=4 chi2=044 (14195 in 35258) achi2=044 (14486 in 35258) [CCCCT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 71

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=534 (66 in 826) achi2=523 (72 in 826) [CCCCT]

K=2 chi2=290 (76 in 826) achi2=297 (75 in 826) [CCCCT]

K=3 chi2=159 (97 in 826) achi2=152 (105 in 826) [CCCCT]

K=4 chi2=022 (242 in 826) achi2=007 (382 in 826) [CCCCT]

K=5 chi2=000 (360 in 826) achi2=000 (339 in 826) [CCCCT]

K=6 chi2=000 (331 in 826) achi2=000 (604 in 826) [CCCCT]

Error = 1

Quorum = 60

K=1 chi2=372 (2640 in 21544) achi2=462 (2153 in 21544) [CCCCT]

K=2 chi2=041 (10937 in 21544) achi2=070 (8620 in 21544) [CCCCT]

K=3 chi2=000 (20651 in 21544) achi2=000 (20723 in 21544) [CCCCT]

K=4 chi2=080 (4245 in 21544) achi2=083 (4322 in 21544) [CCCCT]

K=5 chi2=000 (19590 in 21562) achi2=000 (20653 in 21562) [CCCCT]

K=6 chi2=000 (16728 in 21562) achi2=000 (21282 in 21562) [CCCCT]

5_1_Gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=080 (3213 in 6121) achi2=079 (3260 in 6121) [CATCC]

K=1 chi2=1188 (320 in 6121) achi2=1158 (344 in 6121) [CTTCC]

K=2 chi2=180 (1552 in 6121) achi2=161 (1763 in 6121) [CATCC]

K=2 chi2=504 (498 in 6121) achi2=470 (566 in 6121) [CTTCC]

K=3 chi2=205 (809 in 6121) achi2=192 (906 in 6121) [CATCC]

K=3 chi2=102 (1713 in 6121) achi2=109 (1663 in 6121) [CTTCC]

K=4 chi2=097 (929 in 6121) achi2=091 (1091 in 6121) [CATCC]

K=4 chi2=001 (5090 in 6121) achi2=001 (5126 in 6121) [CTTCC]

K=5 chi2=000 (5948 in 6121) achi2=000 (5152 in 6121) [CATCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 72

K=5 chi2=000 (4578 in 6121) achi2=000 (5000 in 6121) [CTTCC]

K=6 chi2=000 (5634 in 6121) achi2=000 (5438 in 6121) [CATCC]

K=6 chi2=000 (2279 in 6121) achi2=000 (5149 in 6121) [CTTCC]

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 chi2=292 (2311 in 10819) achi2=273 (2534 in 10819) [GATAAG]

K=1 chi2=131 (4204 in 10819) achi2=102 (4875 in 10819) [GATTAG]

K=2 chi2=499 (766 in 10819) achi2=493 (849 in 10819) [GATAAG]

K=2 chi2=280 (1760 in 10819) achi2=268 (1952 in 10819) [GATTAG]

K=3 chi2=168 (2077 in 10819) achi2=174 (2107 in 10819) [GATAAG]

K=3 chi2=953 (62 in 10819) achi2=925 (81 in 10819) [GATTAG]

K=4 chi2=014 (6803 in 10819) achi2=009 (7567 in 10819) [GATAAG]

K=4 chi2=309 (394 in 10819) achi2=352 (328 in 10819) [GATTAG]

K=5 chi2=001 (8734 in 10819) achi2=003 (7728 in 10819) [GATAAG]

K=5 chi2=176 (429 in 10819) achi2=159 (773 in 10819) [GATTAG]

K=6 chi2=000 (9825 in 10819) achi2=000 (6602 in 10819) [GATAAG]

K=6 chi2=000 (7459 in 10819) achi2=000 (6760 in 10819) [GATTAG]

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

Error = 1

Quorum = 60

K=1 chi2=382 (3218 in 20531) achi2=555 (2348 in 20531) [CACCCA]

k=1 chi2=083 (9754 in 20531) achi2=102 (9117 in 20531) [CACCCG]

K=2 chi2=330 (2327 in 20531) achi2=368 (2233 in 20531) [CACCCA]

K=2 chi2=143 (5707 in 20531) achi2=117 (6956 in 20531) [CACCCG]

K=3 chi2=209 (2208 in 20531) achi2=223 (2249 in 20531) [CACCCA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 73

K=3 chi2=040 (9516 in 20531) achi2=023 (12243 in 20531) [CACCCG]

K=4 chi2=071 (4649 in 20531) achi2=105 (3457 in 20531) [CACCCA]

K=4 chi2=000 (19099 in 20531) achi2=002 (17523 in 20531) [CACCCG]

7_0_REB1 Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 chi2=549 (29 in 405) achi2=586 (33 in 405) [TTACCC]

K=2 chi2=688 (6 in 405) achi2=635 (12 in 405) [TTACCC]

K=3 chi2=706 (2 in 405) achi2=679 (2 in 405) [TTACCC]

K=4 chi2=373 (3 in 405) achi2=402 (3 in 405) [TTACCC]

K=5 chi2=034 (7 in 405) achi2=020 (8 in 405) [TTACCC]

K=6 chi2=000 (383 in 405) achi2=000 (232 in 405) [TTACCC]

Error = 1

Quorum = 80

K=1 chi2=133 (3134 in 10337) achi2=169 (2743 in 10337) [TTACCC]

K=2 chi2=302 (657 in 10337) achi2=267 (945 in 10337) [TTACCC]

K=3 chi2=409 (106 in 10337) achi2=394 (170 in 10337) [TTACCC]

K=4 chi2=082 (1439 in 10337) achi2=109 (1091 in 10337) [TTACCC]

K=5 chi2=002 (7204 in 10337) achi2=003 (6765 in 10337) [TTACCC]

K=6 chi2=000 (10150 in 10337) achi2=000 (6299 in 10337) [TTACCC]

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=626 (58 in 785) achi2=615 (64 in 785) [TGCCAAG]

K=2 chi2=610 (11 in 785) achi2=585 (14 in 785) [TGCCAAG]

K=3 chi2=561 (8 in 785) achi2=575 (6 in 785) [TGCCAAG]

K=4 chi2=399 (4 in 785) achi2=377 (6 in 785) [TGCCAAG]

K=5 chi2=184 (8 in 785) achi2=157 (10 in 785) [TGCCAAG]

K=6 chi2=054 (5 in 785) achi2=055 (255 in 785) [TGCCAAG]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 74

Error = 1

Quorum = 60

K=1 chi2=463 (1914 in 20257) achi2=458 (2166 in 20257) [TGCCAAG]

K=2 chi2=292 (1694 in 20257) achi2=287 (1959 in 20257) [TGCCAAG]

K=3 chi2=252 (1158 in 20257) achi2=270 (1060 in 20257) [TGCCAAG]

K=4 chi2=038 (8072 in 20257) achi2=030 (9306 in 20257) [TGCCAAG]

K=5 chi2=002 (15272 in 20366) achi2=004 (14013 in 20366) [TGCCAAG]

K=6 chi2=009 (5877 in 20366) achi2=029 (4589 in 20366) [TGCCAAG]

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

K=1 chi2=1035 (5 in 267) achi2=996 (6 in 267) [TGAAACA]

K=2 chi2=961 (1 in 267) achi2=905 (1 in 267) [TGAAACA]

K=3 chi2=934 (1 in 267) achi2=884 (1 in 267) [TGAAACA]

K=4 chi2=794 (1 in 267) achi2=731 (1 in 267) [TGAAACA]

K=5 chi2=264 (2 in 267) achi2=320 (1 in 267) [TGAAACA]

K=6 chi2=044 (3 in 267) achi2=052 (168 in 267) [TGAAACA]

Error = 1

Quorum = 100

K=1 chi2=448 (515 in 7705) achi2=400 (675 in 7705) [TGAAACA]

K=2 chi2=168 (1047 in 7705) achi2=157 (1246 in 7705) [TGAAACA]

K=3 chi2=159 (637 in 7705) achi2=128 (992 in 7705) [TGAAACA]

K=4 chi2=057 (1734 in 7705) achi2=026 (3100 in 7705) [TGAAACA]

K=5 chi2=015 (2574 in 7705) achi2=021 (2435 in 7705) [TGAAACA]

K=6 chi2=007 (1386 in 7705) achi2=006 (2114 in 7705) [TGAAACA]

7_1_SWI4

Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 75

Quorum = 100

K=1 chi2=927 (53 in 8974) achi2=950 (59 in 8974) [CACGAAA]

K=1 chi2=1447 (8 in 8974) achi2=1516 (9 in 8974) [CGCGAAA]

K=2 chi2=686 (17 in 8974) achi2=638 (22 in 8974) [CACGAAA]

K=2 chi2=940 (4 in 8974) achi2=924 (3 in 8974) [CGCGAAA]

K=3 chi2=456 (46 in 8974) achi2=436 (53 in 8974) [CACGAAA]

K=3 chi2=514 (20 in 8974) achi2=502 (25 in 8974) [CGCGAAA]

K=4 chi2=087 (1329 in 8974) achi2=106 (1095 in 8974) [CACGAAA]

K=4 chi2=343 (41 in 8974) achi2=390 (27 in 8974) [CGCGAAA]

K=5 chi2=012 (3730 in 8974) achi2=000 (7343 in 8974) [CACGAAA]

K=5 chi2=033 (1966 in 8974) achi2=121 (397 in 8974) [CGCGAAA]

K=6 chi2=007 (1861 in 8974) achi2=001 (3810 in 8974) [CACGAAA]

K=6 chi2=002 (3146 in 8974) achi2=044 (873 in 8974) [CGCGAAA]

7_2_RGT1

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=2092 (246 in 6085) achi2=2140 (236 in 6085) [CGGAAAA]

K=1 chi2=810 (799 in 6085) achi2=803 (815 in 6085) [CGGAAGA]

K=1 chi2=1437 (409 in 6085) achi2=1409 (416 in 6085) [CGGAGAA]

K=1 chi2=337 (1833 in 6085) achi2=350 (1782 in 6085) [CGGATAA]

K=2 chi2=837 (251 in 6085) achi2=840 (245 in 6085) [CGGAAAA]

K=2 chi2=451 (648 in 6085) achi2=442 (666 in 6085) [CGGAAGA]

K=2 chi2=989 (186 in 6085) achi2=937 (208 in 6085) [CGGAGAA]

K=2 chi2=432 (698 in 6085) achi2=428 (695 in 6085) [CGGATAA]

K=3 chi2=281 (367 in 6085) achi2=272 (385 in 6085) [CGGAAAA]

K=3 chi2=242 (473 in 6085) achi2=225 (546 in 6085) [CGGAAGA]

K=3 chi2=580 (76 in 6085) achi2=544 (89 in 6085) [CGGAGAA]

K=3 chi2=366 (216 in 6085) achi2=309 (299 in 6085) [CGGATAA]

K=4 chi2=013 (3127 in 6085) achi2=022 (2503 in 6085) [CGGAAAA]

K=4 chi2=039 (1619 in 6085) achi2=040 (1722 in 6085) [CGGAAGA]

K=4 chi2=320 (35 in 6085) achi2=304 (56 in 6085) [CGGAGAA]

K=4 chi2=193 (166 in 6085) achi2=202 (188 in 6085) [CGGATAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 76

8_1_PDR1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 75

K=1 chi2=901 (25 in 639) achi2=884 (27 in 639) [TCCGCGGA]

K=2 chi2=886 (13 in 639) achi2=883 (14 in 639) [TCCGCGGA]

K=3 chi2=862 (4 in 639) achi2=864 (5 in 639) [TCCGCGGA]

K=4 chi2=659 (2 in 639) achi2=741 (2 in 639) [TCCGCGGA]

K=5 chi2=252 (1 in 639) achi2=306 (1 in 639) [TCCGCGGA]

K=6 chi2=012 (5 in 639) achi2=030 (253 in 639) [TCCGCGGA]

Error = 1

Quorum = 75

K=1 chi2=1388 (184 in 16695) achi2=1370 (211 in 16695) [TCCGCGGA]

K=1 chi2=913 (373 in 16695) achi2=895 (419 in 16695) [TCCGTGGA]

K=2 chi2=1355 (68 in 16695) achi2=1355 (91 in 16695) [TCCGCGGA]

K=2 chi2=952 (199 in 16695) achi2=944 (230 in 16695) [TCCGTGGA]

K=3 chi2=1237 (5 in 16695) achi2=1138 (22 in 16695) [TCCGCGGA]

K=3 chi2=782 (88 in 16695) achi2=771 (119 in 16695) [TCCGTGGA]

K=4 chi2=570 (45 in 16695) achi2=688 (33 in 16695) [TCCGCGGA]

K=4 chi2=544 (53 in 16695) achi2=610 (56 in 16695) [TCCGTGGA]

K=5 chi2=061 (2230 in 16699) achi2=113 (1175 in 16699) [TCCGCGGA]

K=5 chi2=101 (981 in 16699) achi2=207 (328 in 16699) [TCCGTGGA]

K=6 chi2=001 (8600 in 16699) achi2=000 (10541 in 16699) [TCCGCGGA]

K=6 chi2=002 (7065 in 16699) achi2=003 (8326 in 16699) [TCCGTGGA]

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 chi2=995 (22 in 423) achi2=985 (24 in 423) [TCCGCGGA]

K=2 chi2=980 (13 in 423) achi2=985 (13 in 423) [TCCGCGGA]

K=3 chi2=989 (4 in 423) achi2=967 (4 in 423) [TCCGCGGA]

K=4 chi2=741 (1 in 423) achi2=802 (1 in 423) [TCCGCGGA]

K=5 chi2=220 (1 in 423) achi2=303 (1 in 423) [TCCGCGGA]

K=6 chi2=010 (1 in 423) achi2=027 (229 in 423) [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 77

Error = 1

Quorum = 80

K=1 chi2=1609 (169 in 11592) achi2=1592 (187 in 11592) [TCCGCGGA]

K=1 chi2=1090 (327 in 11592) achi2=1109 (353 in 11592) [TCCGTGGA]

K=2 chi2=1634 (63 in 11592) achi2=1584 (97 in 11592) [TCCGCGGA]

K=2 chi2=1148 (174 in 11592) achi2=1142 (197 in 11592) [TCCGTGGA]

K=3 chi2=1333 (20 in 11592) achi2=1364 (24 in 11592) [TCCGCGGA]

K=3 chi2=878 (91 in 11592) achi2=894 (109 in 11592) [TCCGTGGA]

K=4 chi2=784 (26 in 11592) achi2=785 (35 in 11592) [TCCGCGGA]

K=4 chi2=632 (50 in 11592) achi2=689 (52 in 11592) [TCCGTGGA]

K=5 chi2=072 (1370 in 11601) achi2=127 (778 in 11601) [TCCGCGGA]

K=5 chi2=100 (878 in 11601) achi2=146 (618 in 11601) [TCCGTGGA]

K=6 chi2=000 (7969 in 11601) achi2=001 (5475 in 11601) [TCCGCGGA]

K=6 chi2=001 (4626 in 11601) achi2=004 (4674 in 11601) [TCCGTGGA]

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=285 (128 in 1319) achi2=287 (133 in 1319) [TCCGTGGA]

K=2 chi2=294 (89 in 1319) achi2=289 (95 in 1319) [TCCGTGGA]

K=3 chi2=283 (10 in 1319) achi2=278 (15 in 1319) [TCCGTGGA]

K=4 chi2=240 (7 in 1319) achi2=255 (6 in 1319) [TCCGTGGA]

K=5 chi2=122 (16 in 1319) achi2=206 (5 in 1319) [TCCGTGGA]

K=6 chi2=015 (42 in 1319) achi2=084 (269 in 1319) [TCCGTGGA]

Error = 1

Quorum = 60

K=1 chi2=336 (1859 in 35494) achi2=391 (1312 in 35494) [TCCGAGGA]

K=1 chi2=612 (489 in 35494) achi2=660 (442 in 35494) [TCCGCGGA]

K=1 chi2=368 (1518 in 35494) achi2=402 (1240 in 35494) [TCCGTGGA]

K=2 chi2=363 (946 in 35494) achi2=379 (816 in 35494) [TCCGAGGA]

K=2 chi2=636 (218 in 35494) achi2=640 (206 in 35494) [TCCGCGGA]

K=2 chi2=416 (670 in 35494) achi2=428 (599 in 35494) [TCCGTGGA]

K=3 chi2=301 (498 in 35494) achi2=304 (471 in 35494) [TCCGAGGA]

K=3 chi2=515 (41 in 35494) achi2=480 (63 in 35494) [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 78

K=3 chi2=341 (278 in 35494) achi2=329 (327 in 35494) [TCCGTGGA]

K=4 chi2=285 (274 in 35494) achi2=295 (205 in 35494) [TCCGAGGA]

K=4 chi2=300 (198 in 35494) achi2=337 (85 in 35494) [TCCGCGGA]

K=4 chi2=217 (1082 in 35494) achi2=219 (1060 in 35494) [TCCGTGGA]

K=5 chi2=075 (6352 in 35725) achi2=087 (6044 in 35725) [TCCGAGGA]

K=5 chi2=079 (5926 in 35725) achi2=153 (2215 in 35725) [TCCGCGGA]

K=5 chi2=081 (5763 in 35725) achi2=080 (6754 in 35725) [TCCGTGGA]

K=6 chi2=003 (19985 in 35725) achi2=010 (17420 in 35725) [TCCGAGGA]

K=6 chi2=026 (6383 in 35725) achi2=053 (6615 in 35725) [TCCGCGGA]

K=6 chi2=011 (11922 in 35725) achi2=000 (30343 in 35725) [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 79

Anexo C Resultados do Caacutelculo da Significacircncia Estatiacutestica referente agrave Abundacircncia

pelo Meacutetodo Analiacutetico para Conjuntos de Dados de Saccharomyces cerevisiae

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados

A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos os resultados para os motivos procurados em relaccedilatildeo a cada valor dos paracircmetros

Descriccedilatildeo do formato dos resultados

K=ltk-mer conservadogt achi2 = ltchi2 analiacuteticogt (ltposiccedilatildeogt in ltnuacutemero de motivos extraiacutedosgt ltposiccedilatildeo entre motivos do mesmo tamanhogt [motivo]

Nota A posiccedilatildeo do motivo refere-se agrave ordem em que se encontra numa lista ordenada por ordem decrescente de chi2 analiacutetico dos motivos extraiacutedos

10_2_YRR1 Motivo TTCCGTGGAA TTCCGCGGAT TTCCGCGGAA Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=476 (745 in 8908) 13 [TTCCGCGGAA]

K=2 achi2=464 (509 in 8908) 12 [TTCCGCGGAA]

K=3 achi2=413 (230 in 8908) 11 [TTCCGCGGAA]

K=4 achi2=278 (205 in 8908) 10 [TTCCGCGGAA]

K=5 achi2=143 (287 in 8908) 12 [TTCCGCGGAA]

K=6 achi2=041 (1031 in 8908) 15 [TTCCGCGGAA]

K=7 achi2=000 (2230 in 8908) 16 [TTCCGCGGAA]

K=8 achi2=001 (4728 in 8908) 16 [TTCCGCGGAA]

K=9 achi2=001 (7926 in 8908) 16 [TTCCGCGGAA]

K=10 achi2=000 (8782 in 8908) 16 [TTCCGCGGAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 80

K=11 achi2=000 (8903 in 8908) 12 [TTCCGCGGAA]

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 achi2=387 (504 in 17722) 3 [ACCCTAAAGGT]

K=1 achi2=483 (265 in 17722) 2 [ACCTTAAAGGT]

K=2 achi2=389 (248 in 17722) 3 [ACCCTAAAGGT]

K=2 achi2=484 (119 in 17722) 2 [ACCTTAAAGGT]

K=3 achi2=391 (61 in 17722) 3 [ACCCTAAAGGT]

K=3 achi2=485 (14 in 17722) 2 [ACCTTAAAGGT]

K=4 achi2=387 (31 in 17722) 4 [ACCCTAAAGGT]

K=4 achi2=485 (4 in 17722) 2 [ACCTTAAAGGT]

K=5 achi2=343 (29 in 17722) 4 [ACCCTAAAGGT]

K=5 achi2=462 (3 in 17722) 2 [ACCTTAAAGGT]

K=6 achi2=282 (276 in 17722) 4 [ACCCTAAAGGT]

K=6 achi2=431 (259 in 17722) 2 [ACCTTAAAGGT]

K=7 achi2=063 (1455 in 17722) 4 [ACCCTAAAGGT]

K=7 achi2=197 (1286 in 17722) 3 [ACCTTAAAGGT]

K=8 achi2=004 (5422 in 17722) 3 [ACCCTAAAGGT]

K=8 achi2=005 (5392 in 17722) 1 [ACCTTAAAGGT]

K=9 achi2=000 (13376 in 17722) 3 [ACCCTAAAGGT]

K=9 achi2=005 (13364 in 17722) 1 [ACCTTAAAGGT]

K=10 achi2=000 (17186 in 17722) 3 [ACCCTAAAGGT]

K=10 achi2=000 (17184 in 17722) 1 [ACCTTAAAGGT]

K=11 achi2=000 (17688 in 17722) 3 [ACCCTAAAGGT]

K=11 achi2=000 (17686 in 17722) 1 [ACCTTAAAGGT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 81

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=523 (72 in 826) 21 [CCCCT]

K=2 achi2=297 (75 in 826) 23 [CCCCT]

K=3 achi2=152 (105 in 826) 55 [CCCCT]

K=4 achi2=007 (382 in 826) 310 [CCCCT]

K=5 achi2=000 (339 in 826) 245 [CCCCT]

K=6 achi2=000 (604 in 826) 255 [CCCCT]

Error = 1

Quorum = 60

K=1 achi2=462 (2153 in 21544) 223 [CCCCT]

K=2 achi2=070 (8620 in 21544) 476 [CCCCT]

K=3 achi2=000 (20723 in 21544) 986 [CCCCT]

K=4 achi2=083 (4322 in 21544) 81 [CCCCT]

K=5 achi2=000 (20635 in 21544) 618 [CCCCT]

K=6 achi2=000 (21264 in 21544) 744 [CCCCT]

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=314 (116 in 1316) 27 [CCCCT]

K=2 achi2=194 (178 in 1316) 39 [CCCCT]

K=3 achi2=140 (190 in 1316) 42 [CCCCT]

K=4 achi2=104 (150 in 1316) 19 [CCCCT]

K=5 achi2=000 (576 in 1316) 111 [CCCCT]

K=6 achi2=000 (1113 in 1316) 392 [CCCCT]

K=7 achi2=901 (324 in 1316) 94 [CCCCT]

K=8 achi2=901 (340 in 1316) 94 [CCCCT]

K=9 achi2=901 (341 in 1316) 94 [CCCCT]

K=10 achi2=901 (342 in 1316) 94 [CCCCT]

K=11 achi2=901 (343 in 1316) 94 [CCCCT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 82

Error = 1

Quorum = 60

K=1 achi2=082 (15627 in 35258) 568 [CCCCT]

K=2 achi2=000 (34292 in 35258) 986 [CCCCT]

K=3 achi2=011 (25832 in 35258) 671 [CCCCT]

K=4 achi2=044 (14486 in 35258) 144 [CCCCT]

K=5 achi2=000 (34387 in 35258) 626 [CCCCT]

K=6 achi2=000 (34560 in 35258) 326 [CCCCT]

5_1_Gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=079 (3260 in 6121) 599 [CATCC]

K=1 achi2=1158 (344 in 6121) 50 [CTTCC]

K=2 achi2=161 (1763 in 6121) 312 [CATCC]

K=2 achi2=470 (566 in 6121) 105 [CTTCC]

K=3 achi2=192 (906 in 6121) 128 [CATCC]

K=3 achi2=109 (1663 in 6121) 248 [CTTCC]

K=4 achi2=091 (1091 in 6121) 97 [CATCC]

K=4 achi2=001 (5126 in 6121) 870 [CTTCC]

K=5 achi2=000 (5152 in 6121) 372 [CATCC]

K=5 achi2=000 (5000 in 6121) 230 [CTTCC]

K=6 achi2=000 (5438 in 6121) 341 [CATCC]

K=6 achi2=000 (5149 in 6121) 52 [CTTCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 83

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 achi2=273 (2534 in 10819) 831 [GATAAG]

K=1 achi2=102 (4875 in 10819) 1698 [GATTAG]

K=2 achi2=493 (849 in 10819) 251 [GATAAG]

K=2 achi2=268 (1952 in 10819) 593 [GATTAG]

K=3 achi2=174 (2107 in 10819) 675 [GATAAG]

K=3 achi2=925 (81 in 10819) 12 [GATTAG]

K=4 achi2=009 (7567 in 10819) 2712 [GATAAG]

K=4 achi2=352 (328 in 10819) 59 [GATTAG]

K=5 achi2=003 (7728 in 10819) 3046 [GATAAG]

K=5 achi2=159 (773 in 10819) 110 [GATTAG]

K=6 achi2=000 (6602 in 10819) 761 [GATAAG]

K=6 achi2=000 (6760 in 10819) 917 [GATTAG]

K=7 achi2=000 (10606 in 10819) 3684 [GATAAG]

K=7 achi2=000 (8570 in 10819) 1648 [GATTAG]

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

Error = 1

Quorum = 60

K=1 achi2=555 (2348 in 20531) 456 [CACCCA]

K=1 achi2=102 (9117 in 20531) 2005 [CACCCG]

K=2 achi2=368 (2233 in 20531) 460 [CACCCA]

K=2 achi2=117 (6956 in 20531) 1498 [CACCCG]

K=3 achi2=223 (2249 in 20531) 392 [CACCCA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 84

K=3 achi2=023 (12243 in 20531) 2397 [CACCCG]

K=4 achi2=105 (3457 in 20531) 482 [CACCCA]

K=4 achi2=002 (17523 in 20531) 3457 [CACCCG]

K=5 achi2=006 (13001 in 20531) 2409 [CACCCA]

K=5 achi2=048 (5016 in 20531) 610 [CACCCG]

K=6 achi2=000 (17016 in 20531) 1751 [CACCCA]

K=6 achi2=000 (18636 in 20531) 3343 [CACCCG]

K=7 achi2=000 (17654 in 20531) 1218 [CACCCA]

K=7 achi2=000 (18327 in 20531) 1891 [CACCCG]

7_0_REB1 Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 achi2=586 (33 in 405) 5 [TTACCC]

K=2 achi2=635 (12 in 405) 1 [TTACCC]

K=3 achi2=679 (2 in 405) 1 [TTACCC]

K=4 achi2=402 (3 in 405) 2 [TTACCC]

K=5 achi2=020 (8 in 405) 7 [TTACCC]

K=6 achi2=000 (232 in 405) 8 [TTACCC]

K=7 achi2=000 (402 in 405) 8 [TTACCC]

Error = 1

Quorum = 80

K=1 achi2=169 (2742 in 10337) 933 [TTACCC]

K=2 achi2=267 (945 in 10337) 284 [TTACCC]

K=3 achi2=394 (170 in 10337) 25 [TTACCC]

K=4 achi2=109 (1091 in 10337) 246 [TTACCC]

K=5 achi2=003 (6765 in 10337) 2619 [TTACCC]

K=6 achi2=000 (6295 in 10337) 852 [TTACCC]

K=7 achi2=000 (9863 in 10337) 3333 [TTACCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 85

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=615 (64 in 785) 12 [TGCCAAG]

K=2 achi2=585 (14 in 785) 3 [TGCCAAG]

K=3 achi2=575 (6 in 785) 2 [TGCCAAG]

K=4 achi2=377 (6 in 785) 2 [TGCCAAG]

K=5 achi2=157 (10 in 785) 5 [TGCCAAG]

K=6 achi2=055 (255 in 785) 4 [TGCCAAG]

K=7 achi2=000 (652 in 785) 18 [TGCCAAG]

K=8 achi2=000 (771 in 785) 15 [TGCCAAG]

Error = 1

Quorum = 60

K=1 achi2=458 (2166 in 20257) 407 [TGCCAAG]

K=2 achi2=287 (1959 in 20257) 462 [TGCCAAG]

K=3 achi2=270 (1060 in 20257) 241 [TGCCAAG]

K=4 achi2=030 (9306 in 20257) 3695 [TGCCAAG]

K=5 achi2=004 (13915 in 20257) 6353 [TGCCAAG]

K=6 achi2=029 (4512 in 20257) 1713 [TGCCAAG]

K=7 achi2=003 (5275 in 20257) 36 [TGCCAAG]

K=8 achi2=000 (12401 in 20257) 1099 [TGCCAAG]

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

K=1 achi2=996 (6 in 267) 1 [TGAAACA]

K=2 achi2=905 (1 in 267) 1 [TGAAACA]

K=3 achi2=884 (1 in 267) 1 [TGAAACA]

K=4 achi2=731 (1 in 267) 1 [TGAAACA]

K=5 achi2=320 (1 in 267) 1 [TGAAACA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 86

K=6 achi2=052 (168 in 267) 2 [TGAAACA]

K=7 achi2=000 (254 in 267) 1 [TGAAACA]

K=8 achi2=000 (266 in 267) 2 [TGAAACA]

Error = 1

Quorum = 100

K=1 achi2=400 (675 in 7705) 162 [TGAAACA]

K=2 achi2=157 (1246 in 7705) 402 [TGAAACA]

K=3 achi2=128 (992 in 7705) 375 [TGAAACA]

K=4 achi2=026 (3100 in 7705) 1267 [TGAAACA]

K=5 achi2=021 (2435 in 7705) 1154 [TGAAACA]

K=6 achi2=006 (2114 in 7705) 1435 [TGAAACA]

K=7 achi2=000 (2095 in 7705) 260 [TGAAACA]

K=8 achi2=000 (6802 in 7705) 1861 [TGAAACA]

7_1_SWI4 Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=950 (59 in 8974) 15 [CACGAAA]

K=1 achi2=1516 (9 in 8974) 2 [CGCGAAA]

K=2 achi2=638 (22 in 8974) 7 [CACGAAA]

K=2 achi2=924 (3 in 8974) 1 [CGCGAAA]

K=3 achi2=436 (53 in 8974) 25 [CACGAAA]

K=3 achi2=502 (25 in 8974) 10 [CGCGAAA]

K=4 achi2=106 (1095 in 8974) 476 [CACGAAA]

K=4 achi2=390 (27 in 8974) 9 [CGCGAAA]

K=5 achi2=000 (7343 in 8974) 3297 [CACGAAA]

K=5 achi2=121 (397 in 8974) 176 [CGCGAAA]

K=6 achi2=001 (3810 in 8974) 2702 [CACGAAA]

K=6 achi2=044 (873 in 8974) 314 [CGCGAAA]

K=7 achi2=000 (2384 in 8974) 205 [CACGAAA]

K=7 achi2=000 (2371 in 8974) 194 [CGCGAAA]

K=8 achi2=000 (8531 in 8974) 3025 [CACGAAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 87

K=8 achi2=000 (5630 in 8974) 124 [CGCGAAA]

7_2_RGT1

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=2140 (236 in 6085) 74 [CGGAAAA]

K=1 achi2=803 (815 in 6085) 253 [CGGAAGA]

K=1 achi2=1409 (416 in 6085) 129 [CGGAGAA]

K=1 achi2=350 (1782 in 6085) 511 [CGGATAA]

K=2 achi2=840 (245 in 6085) 67 [CGGAAAA]

K=2 achi2=442 (666 in 6085) 169 [CGGAAGA]

K=2 achi2=937 (208 in 6085) 55 [CGGAGAA]

K=2 achi2=428 (695 in 6085) 175 [CGGATAA]

K=3 achi2=272 (385 in 6085) 126 [CGGAAAA]

K=3 achi2=225 (546 in 6085) 173 [CGGAAGA]

K=3 achi2=544 (89 in 6085) 28 [CGGAGAA]

K=3 achi2=309 (299 in 6085) 100 [CGGATAA]

K=4 achi2=022 (2503 in 6085) 821 [CGGAAAA]

K=4 achi2=040 (1722 in 6085) 598 [CGGAAGA]

K=4 achi2=304 (56 in 6085) 23 [CGGAGAA]

K=4 achi2=202 (188 in 6085) 81 [CGGATAA]

K=5 achi2=003 (3495 in 6085) 1206 [CGGAAAA]

K=5 achi2=019 (1882 in 6085) 749 [CGGAAGA]

K=5 achi2=238 (34 in 6085) 12 [CGGAGAA]

K=5 achi2=138 (154 in 6085) 74 [CGGATAA]

K=6 achi2=009 (1192 in 6085) 744 [CGGAAAA]

K=6 achi2=031 (682 in 6085) 300 [CGGAAGA]

K=6 achi2=057 (459 in 6085) 122 [CGGAGAA]

K=6 achi2=042 (550 in 6085) 191 [CGGATAA]

K=7 achi2=000 (1608 in 6085) 53 [CGGAAAA]

K=7 achi2=000 (2439 in 6085) 861 [CGGAAGA]

K=7 achi2=000 (2150 in 6085) 572 [CGGAGAA]

K=7 achi2=000 (2472 in 6085) 894 [CGGATAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 88

K=8 achi2=000 (6056 in 6085) 1512 [CGGAAAA]

K=8 achi2=000 (5728 in 6085) 1184 [CGGAAGA]

K=8 achi2=000 (5127 in 6085) 583 [CGGAGAA]

K=8 achi2=000 (5961 in 6085) 1417 [CGGATAA]

8_1_PDR1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 75

K=1 achi2=884 (27 in 639) 1 [TCCGCGGA]

K=2 achi2=883 (14 in 639) 1 [TCCGCGGA]

K=3 achi2=864 (5 in 639) 1 [TCCGCGGA]

K=4 achi2=741 (2 in 639) 1 [TCCGCGGA]

K=5 achi2=306 (1 in 639) 1 [TCCGCGGA]

K=6 achi2=030 (253 in 639) 1 [TCCGCGGA]

K=7 achi2=012 (587 in 639) 1 [TCCGCGGA]

K=8 achi2=000 (633 in 639) 1 [TCCGCGGA]

K=9 achi2=000 (639 in 639) 1 [TCCGCGGA]

Error = 1

Quorum = 75

K=1 achi2=1370 (211 in 16695) 48 [TCCGCGGA]

K=1 achi2=895 (419 in 16695) 111 [TCCGTGGA]

K=2 achi2=1355 (91 in 16695) 26 [TCCGCGGA]

K=2 achi2=944 (230 in 16695) 59 [TCCGTGGA]

K=3 achi2=1138 (22 in 16695) 13 [TCCGCGGA]

K=3 achi2=771 (119 in 16695) 39 [TCCGTGGA]

K=4 achi2=688 (33 in 16695) 9 [TCCGCGGA]

K=4 achi2=610 (56 in 16695) 18 [TCCGTGGA]

K=5 achi2=113 (1171 in 16695) 496 [TCCGCGGA]

K=5 achi2=207 (324 in 16695) 135 [TCCGTGGA]

K=6 achi2=000 (10537 in 16695) 2237 [TCCGCGGA]

K=6 achi2=003 (8322 in 16695) 1955 [TCCGTGGA]

K=7 achi2=000 (4060 in 16695) 2312 [TCCGCGGA]

K=7 achi2=000 (4066 in 16695) 2318 [TCCGTGGA]

K=8 achi2=000 (5835 in 16695) 174 [TCCGCGGA]

K=8 achi2=000 (6050 in 16695) 389 [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 89

K=9 achi2=000 (15679 in 16695) 1375 [TCCGCGGA]

K=9 achi2=000 (14892 in 16695) 588 [TCCGTGGA]

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 achi2=985 (24 in 423) 1 [TCCGCGGA]

K=2 achi2=985 (13 in 423) 1 [TCCGCGGA]

K=3 achi2=967 (4 in 423) 1 [TCCGCGGA]

K=4 achi2=802 (1 in 423) 1 [TCCGCGGA]

K=5 achi2=303 (1 in 423) 1 [TCCGCGGA]

K=6 achi2=027 (229 in 423) 1 [TCCGCGGA]

K=7 achi2=013 (401 in 423) 1 [TCCGCGGA]

K=8 achi2=000 (420 in 423) 1 [TCCGCGGA]

K=9 achi2=000 (423 in 423) 1 [TCCGCGGA]

Error = 1

Quorum = 80

K=1 achi2=1592 (187 in 11592) 35 [TCCGCGGA]

K=1 achi2=1109 (353 in 11592) 83 [TCCGTGGA]

K=2 achi2=1584 (97 in 11592) 25 [TCCGCGGA]

K=2 achi2=1142 (197 in 11592) 44 [TCCGTGGA]

K=3 achi2=1364 (24 in 11592) 9 [TCCGCGGA]

K=3 achi2=894 (109 in 11592) 35 [TCCGTGGA]

K=4 achi2=785 (35 in 11592) 11 [TCCGCGGA]

K=4 achi2=689 (52 in 11592) 16 [TCCGTGGA]

K=5 achi2=127 (769 in 11592) 243 [TCCGCGGA]

K=5 achi2=146 (609 in 11592) 204 [TCCGTGGA]

K=6 achi2=001 (5466 in 11592) 879 [TCCGCGGA]

K=6 achi2=004 (4665 in 11592) 789 [TCCGTGGA]

K=7 achi2=000 (2570 in 11592) 968 [TCCGCGGA]

K=7 achi2=000 (2517 in 11592) 941 [TCCGTGGA]

K=8 achi2=000 (5547 in 11592) 157 [TCCGCGGA]

K=8 achi2=000 (5666 in 11592) 276 [TCCGTGGA]

K=9 achi2=000 (10744 in 11592) 135 [TCCGCGGA]

K=9 achi2=000 (11041 in 11592) 432 [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 90

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=287 (133 in 1319) 8 [TCCGTGGA]

K=2 achi2=289 (95 in 1319) 5 [TCCGTGGA]

K=3 achi2=278 (15 in 1319) 2 [TCCGTGGA]

K=4 achi2=255 (6 in 1319) 1 [TCCGTGGA]

K=5 achi2=206 (5 in 1319) 2 [TCCGTGGA]

K=6 achi2=084 (269 in 1319) 7 [TCCGTGGA]

K=7 achi2=000 (897 in 1319) 17 [TCCGTGGA]

K=8 achi2=000 (1232 in 1319) 8 [TCCGTGGA]

K=9 achi2=000 (1303 in 1319) 1 [TCCGTGGA]

Error = 1

Quorum = 60

K=1 achi2=391 (1312 in 35494) 312 [TCCGAGGA]

K=1 achi2=660 (442 in 35494) 89 [TCCGCGGA]

K=1 achi2=402 (1240 in 35494) 301 [TCCGTGGA]

K=2 achi2=379 (816 in 35494) 174 [TCCGAGGA]

K=2 achi2=640 (206 in 35494) 48 [TCCGCGGA]

K=2 achi2=428 (599 in 35494) 123 [TCCGTGGA]

K=3 achi2=304 (471 in 35494) 120 [TCCGAGGA]

K=3 achi2=480 (63 in 35494) 10 [TCCGCGGA]

K=3 achi2=329 (327 in 35494) 87 [TCCGTGGA]

K=4 achi2=295 (205 in 35494) 61 [TCCGAGGA]

K=4 achi2=337 (85 in 35494) 28 [TCCGCGGA]

K=4 achi2=219 (1060 in 35494) 257 [TCCGTGGA]

K=5 achi2=087 (5828 in 35494) 2082 [TCCGAGGA]

K=5 achi2=153 (2062 in 35494) 521 [TCCGCGGA]

K=5 achi2=080 (6534 in 35494) 2399 [TCCGTGGA]

K=6 achi2=010 (17189 in 35494) 7240 [TCCGAGGA]

K=6 achi2=053 (6392 in 35494) 2378 [TCCGCGGA]

K=6 achi2=000 (30112 in 35494) 12027 [TCCGTGGA]

K=7 achi2=006 (9736 in 35494) 4698 [TCCGAGGA]

K=7 achi2=006 (10113 in 35494) 5025 [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 91

K=7 achi2=000 (17876 in 35494) 11124 [TCCGTGGA]

K=8 achi2=000 (12067 in 35494) 1424 [TCCGAGGA]

K=8 achi2=000 (11172 in 35494) 529 [TCCGCGGA]

K=8 achi2=000 (11688 in 35494) 1045 [TCCGTGGA]

K=9 achi2=000 (31497 in 35494) 8200 [TCCGAGGA]

K=9 achi2=000 (25674 in 35494) 2377 [TCCGCGGA]

K=9 achi2=000 (29818 in 35494) 6521 [TCCGTGGA]

Page 13: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 3

2 Descriccedilatildeo do Problema

A moleacutecula de DNA eacute responsaacutevel pela manutenccedilatildeo da informaccedilatildeo geneacutetica de cada indiviacuteduo

e eacute constituiacuteda por duas cadeias de nucleoacutetidos dispostas de modo a formar uma dupla

heacutelice [2] que se encontra representada na Figura 21 Cada nucleoacutetido eacute formado por trecircs

elementos um accediluacutecar um grupo fosfato e uma de quatro bases azotadas As quatro bases satildeo

a Adenina (A) a Timina (T) a Guanina (G) e a Citosina (C) e podem ser vistas como os

quatro elementos de um alfabeto

Figura 21

Representaccedilatildeo de cadeias de DNA em forma de dupla heacutelice

As duas cadeias de DNA satildeo complementares no sentido em que as bases das duas cadeias

estatildeo emparelhadas Assim uma Adenina de uma cadeia emparelha com uma Timina da

cadeia complementar e do mesmo modo uma Citosina emparelha com uma Guanina

Os genes satildeo segmentos de uma cadeia de DNA que controlam a siacutentese proteica e

consequentemente toda a actividade celular O genoma eacute o conjunto de genes de um

indiviacuteduo

A expressatildeo geacutenica eacute o processo atraveacutes do qual a informaccedilatildeo contida nos genes dirige a

siacutentese de proteiacutenas Este processo envolve dois passos transcriccedilatildeo e traduccedilatildeo

A transcriccedilatildeo consiste na transferecircncia da informaccedilatildeo contida no DNA para uma moleacutecula

intermediaacuteria de RNA designada de RNA-mensageiro ou mRNA De seguida o molde de

mRNA eacute usado no passo de traduccedilatildeo onde iraacute dirigir a siacutentese proteica

Este processo eacute semelhante em todos os organismos vivos embora existam diferenccedilas

assinalaacuteveis entre organismos eucariotas e procariotas isto eacute entre organismos com e sem

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 4

nuacutecleo individualizado respectivamente Em particular o mecanismo eacute consideravelmente

mais complexo em organismos eucariotas A Figura 22 ilustra o processo de expressatildeo geacutenica

em eucariotas (Figura 22-A) e procariotas (Figura 22-B)

Figura 22 Expressatildeo geacutenica em eucariotas (A) e procariotas (B)

Actualmente o problema da identificaccedilatildeo e modelaccedilatildeo dos mecanismos que regulam a

interacccedilatildeo entre grupos de genes eacute um dos problemas mais em foco na investigaccedilatildeo em

biologia computacional Como jaacute foi referido a regiatildeo promotora eacute parte essencial do

mecanismo de regulaccedilatildeo da transcriccedilatildeo geacutenica

A biologia oferece-nos alguns modelos da regiatildeo promotora evidenciando as diferenccedilas entre

organismos procariotas (Figura 23) e eucariotas (Figura 24)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 5

Figura 23 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em procariotas

Figura 24 Esquema da regulaccedilatildeo geacutenica ao niacutevel da transcriccedilatildeo em eucariotas

No mecanismo de transcriccedilatildeo geacutenica interveacutem uma enzima denominada RNA-polimerase

Esta enzima tem como funccedilatildeo a transcriccedilatildeo da informaccedilatildeo contida no DNA para uma cadeia

de RNA que iraacute posteriormente intervir no processo de siacutentese proteica

Para que a RNA-polimerase inicie a transcriccedilatildeo de uma cadeia de DNA geralmente um gene

eacute necessaacuterio que se cumpram algumas condiccedilotildees Assim entre outras eacute necessaacuterio que

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 6

estejam presentes na regiatildeo promotora motivos que a RNA-polimerase reconheccedila e aos quais

se possa ligar para iniciar a transcriccedilatildeo da regiatildeo a jusante (na literatura inglesa estas regiotildees

satildeo denominadas de binding sites) As condiccedilotildees de activaccedilatildeo desta enzima satildeo mais

complexas nos organismos eucariotas [3] uma vez que neste caso para aleacutem dos motivos

referidos existem ainda vaacuterios outros que satildeo reconhecidos por factores de transcriccedilatildeo isto eacute

proteiacutenas que se ligam sucessivamente agrave RNA-polimerase estabelecendo um complexo

mecanismo de regulaccedilatildeo Estes motivos podem estar a montante a jusante ou mesmo no

interior do gene a ser transcrito e podem ainda exercer um efeito estimulador ou repressor da

transcriccedilatildeo Os locais onde existem motivos aos quais se ligam os diversos factores de

transcriccedilatildeo satildeo designados genericamente por regiotildees reguladoras

Eacute possiacutevel compreender agora a importacircncia da necessidade de ser definido um modelo ou

modelos para a regiatildeo promotora no acircmbito do estudo do genoma

Neste trabalho utilizamos o algoritmo SMILE para procurar motivos interessantes isto eacute

biologicamente significativos em cadeias de DNA pertencentes agrave regiatildeo promotora dos genes

Como jaacute foi referido trata-se de um algoritmo proliacutefico no sentido em que se preocupa em

encontrar todas as sequecircncias que cumpram os paracircmetros especificados Sendo assim torna-

se necessaacuterio um esforccedilo significativo de poacutes-processamento para que possa ser obtida

informaccedilatildeo uacutetil a partir dos dados gerados

O poacutes-processamento dos motivos extraiacutedos inclui uma anaacutelise estatiacutestica que culmina com a

atribuiccedilatildeo de um niacutevel de significacircncia a cada motivo Deste modo eacute possiacutevel definir um

crivo que separa motivos considerados relevantes de motivos agrave partida menos interessantes

Finalmente e depois de ter sido encontrado um conjunto de motivos relevantes seraacute efectuada

uma traduccedilatildeo para uma representaccedilatildeo IUPAC Esta representaccedilatildeo permite compactar os

dados agrupando motivos muito semelhantes Este passo eacute de importacircncia essencial para uma

utilizaccedilatildeo eficiente dos dados obtidos uma vez que uma representaccedilatildeo compacta facilita a sua

utilizaccedilatildeo em pesquisas em bases de dados bioloacutegicas que contecircm informaccedilatildeo sobre

consensos anteriormente identificados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 7

3 Extracccedilatildeo de motivos

31 Algoritmo SMILE

O SMILE eacute um meacutetodo algoriacutetmico de extracccedilatildeo de motivos de sequecircncias bioloacutegicas O

algoritmo comeccedila por processar um conjunto de dados de entrada composto por vaacuterias

sequecircncias natildeo alinhadas de nucleoacutetidos que se sabe conterem um ou mais binding sites Estes

dados satildeo utilizados para calcular ocorrecircncias de motivos usando como estrutura de dados

base uma aacutervore de sufixos

Um modelo eacute uma representaccedilatildeo de subsequecircncias que ocorrem nos dados de entrada

satisfazendo potencialmente certas propriedades

O algoritmo iraacute assim pesquisar modelos (simples ou estruturados) nos dados que lhe satildeo

fornecidos segundo alguns paracircmetros

Um modelo simples diz respeito a uma subsequecircncia contiacutegua de nucleoacutetidos enquanto que

um modelo estruturado eacute uma composiccedilatildeo de modelos simples

Um modelo estruturado pode ser constituiacutedo por vaacuterias partes posicionadas ao longo da

sequecircncia Cada parte eacute um modelo simples que pode ter um tamanho variaacutevel (entre kmin e

kmax) O espaccedilo entre cada parte consecutiva pode tambeacutem ser parametrizado (dmin e dmax)

Do mesmo modo tambeacutem eacute possiacutevel parametrizar o nuacutemero de erros que se permite ocorrer

no modelo e em cada uma das suas partes

A Figura 31 apresenta um exemplo de uma especificaccedilatildeo de um modelo estruturado em que

se consideram duas partes A primeira parte pode ter um tamanho entre 6 e 8 nucleoacutetidos e satildeo

admitidos 2 erros A segunda parte pode ocorrer entre 16 e 18 nucleoacutetidos apoacutes a primeira

parte e teraacute um tamanho igualmente entre 6 e 8 embora seja admitido apenas 1 erro

A Figura 32 apresenta o esquema de outro modelo estruturado e respectiva concretizaccedilatildeo

numa sequecircncia Neste exemplo consideram-se igualmente duas partes A primeira com

tamanho entre 6 e 10 nucleoacutetidos e a segunda entre 6 e 8 As partes podem estar a uma

distacircncia que varia entre 10 e 15 nucleoacutetidos e natildeo satildeo admitidos erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 8

Figura 31 Exemplo de uma especificaccedilatildeo de um modelo estruturado

Figura 32 (a) Exemplo de especificaccedilatildeo (b) Modelo retirado de uma sequecircncia

que cumpre a especificaccedilatildeo

Um modelo eacute considerado vaacutelido caso o nuacutemero de sequecircncias de entrada em que ocorre seja

natildeo inferior a um miacutenimo estabelecido designado por quoacuterum Os modelos vaacutelidos satildeo

designados de motivos

Para verificar o nuacutemero de ocorrecircncias eacute utilizada uma aacutervore de sufixos Uma aacutervore de

sufixos eacute uma estrutura de dados que representa todos os sufixos de uma cadeia de caracteres

As suas caracteriacutesticas satildeo de grande utilidade para os algoritmos de emparelhamento de

caracteres

6-10 6-8

10-15

(a)

ATTATTA_CTATCT

ATTATTAGTACTCATACCTATCT

(b)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 9

O SMILE processa conjuntos de dados isto eacute conjuntos de sequecircncias de nucleoacutetidos

utilizando para esse efeito uma aacutervores de sufixos generalizada Esta estrutura de dados

difere da aacutervore de sufixos simples no sentido em que agrupa vaacuterias cadeias de caracteres

correspondentes agraves vaacuterias sequecircncias de nucleoacutetidos Esta multiplicidade de sequecircncias exige

que a estrutura registe as sequecircncias a que cada sufixo pertence As aacutervores de sufixos fazem

uso de um siacutembolo terminador ($) para assinalar o fim de cada sufixo

A Figura 33 eacute um exemplo de uma aacutervore de sufixos generalizada

Figura 33 - Aacutervore de sufixos generalizada para as sequecircncias

TACTA$ (sequecircncia 1) e CACTCA$ (sequecircncia 2)

A extracccedilatildeo de motivos eacute feita atraveacutes da travessia em profundidade-primeiro de uma aacutervore

lexicograacutefica virtual de modo a garantir que se explora o espaccedilo de todos os modelos

possiacuteveis Esta travessia da aacutervore lexicograacutefica eacute acompanhada da exploraccedilatildeo da aacutervore de

sufixos generalizada de forma a obter todos os sufixos a distacircncia de Hamming natildeo superior a

e1 do modelo em consideraccedilatildeo Assim para cada noacute da aacutervore virtual eacute verificado o quoacuterum

do modelo correspondente contabilizando para tanto o nuacutemero de sequecircncias diferentes que

participam com sufixos a distacircncia de Hamming natildeo superior a e do modelo

1 O valor desta distacircncia depende do nuacutemero de erros admitidos na extracccedilatildeo de motivos e corresponde a um dos

paracircmetros do algoritmo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 10

A extracccedilatildeo de motivos estruturados eacute feita de forma semelhante correspondendo a muacuteltiplas

procuras de modelos simples que constituem cada parte do modelo estruturado A transiccedilatildeo

entre partes ilustrada pela Figura 34 corresponde a um salto na aacutervore de sufixos com tantos

niacuteveis de profundidade adicionais quanto a distacircncia especificada entre cada parte

Uma descriccedilatildeo pormenorizada do algoritmo encontra-se em [4] e [5]

Figura 34 Esquema da procura de motivos estruturados usando uma aacutervore de

sufixos

Este algoritmo exacto gera todos os possiacuteveis motivos dentro dos paracircmetros especificados

Daqui resulta geralmente um nuacutemero demasiado grande de motivos sendo necessaacuterio

discriminar quais os verdadeiros binding sites Como meacutetodo de avaliaccedilatildeo o SMILE utiliza

um teste estatiacutestico que eacute descrito na Secccedilatildeo 41

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 11

32 Gerador de dados sinteacuteticos

A anaacutelise da eficaacutecia e eficiecircncia do algoritmo de extracccedilatildeo de motivos exige a utilizaccedilatildeo de

dados sobre os quais tenhamos agrave partida algum conhecimento Para tal foi desenvolvido um

gerador de dados sinteacuteticos

O gerador de dados sinteacuteticos permite por um lado evitar a necessidade de dispor de

conjuntos de dados reais e por outro ter um maior controlo sobre os motivos que estatildeo

realmente presentes nos dados

O gerador permite especificar o nuacutemero e o tamanho das sequecircncias do conjunto de dados

bem como os motivos a inserir Os motivos satildeo especificados pela sua sequecircncia de

nucleoacutetidos posiccedilatildeo na sequecircncia e frequecircncia de ocorrecircncia Os motivos podem ser simples

ou estruturados A Figura 35 representa um exemplo de um ficheiro de especificaccedilatildeo

Frequecircncia

Posiccedilatildeo

Sequecircncia Posiccedilatildeo

Sequecircncia

02 09 TGCTTTTTAAT

28 TCGA

03 02 AGTACATCGA

02 12 TGCGCA

Figura 35 Exemplo de um ficheiro de especificaccedilatildeo para a geraccedilatildeo de dados

sinteacuteticos

No exemplo apresentado satildeo especificados trecircs motivos (um motivo estruturado e dois

motivos simples) A primeira coluna (Frequecircncia) indica a percentagem de sequecircncias em que

o motivo deveraacute ocorrer Em particular para esta especificaccedilatildeo o primeiro motivo deveraacute

ocorrer em 20 das sequecircncias As restantes colunas especificam a posiccedilatildeo e a sequecircncia de

nucleoacutetidos de cada parte do motivo O nuacutemero e o tamanho das sequecircncias a gerar satildeo

especificados na linha de comandos do gerador

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 12

O gerador verifica a especificaccedilatildeo de modo a testar se eacute possiacutevel gerar um conjunto de dados

com as caracteriacutesticas indicadas Em particular eacute necessaacuterio que no caso das frequecircncias

especificadas somarem mais do que 1 alguns dos motivos sejam sobreponiacuteveis uma vez que o

gerador garante o cumprimento exacto da frequecircncia de ocorrecircncia especificada para cada

motivo

O processo de geraccedilatildeo do conjunto de dados envolve duas fases Numa primeira fase eacute gerado

um conjunto de dados aleatoacuterios em que a ocorrecircncia de cada nucleoacutetido eacute equiprovaacutevel Para

gerar aleatoriamente nucleoacutetidos eacute usada uma variaccedilatildeo do algoritmo ran2 [6]

Numa segunda fase satildeo inseridos os motivos especificados em tantas sequecircncias quanto as

necessaacuterias para perfazer a frequecircncia indicada As sequecircncias seleccionadas para a inserccedilatildeo

de motivos satildeo igualmente escolhidas de forma aleatoacuteria

O recurso a dados sinteacuteticos permite afastar a possibilidade de motivos bem classificados

corresponderem a consensos ainda natildeo identificados por via experimental como pode

acontecer quando se analisam conjuntos de dados reais No entanto eacute necessaacuterio termos

presentes as limitaccedilotildees da actual abordagem Em particular sabemos que a geraccedilatildeo

equiprovaacutevel de nucleoacutetidos estaacute em desacordo com a estatiacutestica tiacutepica da regiatildeo promotora

onde satildeo mais comuns A s e T s do que G s e C s Do mesmo modo podem existir outras

correlaccedilotildees de ordem superior designadamente uma preferecircncia por certos diacutemeros ou

triacutemeros em detrimento de outros Esta limitaccedilatildeo eacute ilustrada pelo facto de os resultados

obtidos com dados sinteacuteticos serem geralmente melhores do que os obtidos com dados reais

As causas e consequecircncias desta observaccedilatildeo seratildeo discutidas nas secccedilotildees seguintes

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 13

4 Anaacutelise Estatiacutestica

41 Teste do 2

Como jaacute foi referido o SMILE em geral extrai um elevado nuacutemero de modelos Para isolar

motivos relevantes eacute usado um teste estatiacutestico de modo a atribuir uma significacircncia estatiacutestica

a cada modelo extraiacutedo

O meacutetodo de avaliaccedilatildeo utilizado consiste em aplicar o teste do 2 com um grau de liberdade

O objectivo eacute determinar a probabilidade de obtermos motivos observados em sequecircncias

aleatoacuterias que preservam os k-mers2 das sequecircncias originais Assim pretende-se perceber se

a ocorrecircncia do motivo se deve agrave frequecircncia de k-mers presentes na sequecircncia aleatoacuteria tendo

portanto uma baixa significacircncia estatiacutestica ou se eacute verificada a situaccedilatildeo oposta ou seja

elevada significacircncia estatiacutestica Estes uacuteltimos satildeo considerados pelo algoritmo como os que

apresentam maior potencial de serem verdadeiros binding sites Para tal o SMILE permite a

realizaccedilatildeo de dois tipos alternativos de teste um quanto ao nuacutemero de sequecircncias em que o

motivo ocorre (quoacuterum) e outro em relaccedilatildeo agrave abundacircncia do motivo no conjunto de dados

Para aplicar o teste do 2 procedemos agrave construccedilatildeo de uma tabela de contingecircncia com 4

entradas (Tabela 41)

Dados Originais Dados Aleatoacuterios

Presenccedila Porig Prandom

Ausecircncia Aorig Arandom

Tabela 41 Tabela de contingecircncia para o caacutelculo do 2

2 Sequecircncias de nucleoacutetidos de tamanho k

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 14

As colunas da tabela referem-se agraves duas amostras em anaacutelise ou seja o conjunto de dados

original e as sequecircncias aleatoacuterias geradas As linhas da tabela referem-se agraves duas classes de

contagens Caso consideremos o teste quanto ao quoacuterum a classe Presenccedila diz respeito ao

nuacutemero de sequecircncias em que o motivo ocorre e a classe Ausecircncia refere-se ao nuacutemero de

sequecircncias em que o motivo natildeo ocorre Caso se trate do teste relativo agrave abundacircncia a

primeira classe refere-se ao nuacutemero de ocorrecircncias do motivo no conjunto de dados e a

segunda ao nuacutemero de natildeo ocorrecircncias do motivo em relaccedilatildeo ao nuacutemero de oportunidades de

ocorrecircncia Considera-se como nuacutemero de oportunidades de ocorrecircncia o tamanho do

conjunto de dados Esta tabela seraacute usada agora para fazer um teste de homogeneidade de

proporccedilotildees

Para calcular a significacircncia estatiacutestica basta usar a expressatildeo do 2 correspondente agrave equaccedilatildeo

(41) onde ijO diz respeito ao valor observado para a entrada (ij) da tabela e ijE se refere ao

correspondente valor esperado

21

22 )(

ji ij

ijij

E

OE

(41)

O valor esperado para cada entrada da tabela eacute dado pela expressatildeo (42) ou seja o valor

esperado para a entrada (ij) da tabela eacute igual ao produto do total da linha i pelo total da linha

j divido pela soma de todos os elementos da tabela

21

2121

lkkl

kkj

kik

ij O

OO

E (42)

Nas condiccedilotildees desta tabela de contingecircncia eacute possiacutevel utilizar uma forma expedita de caacutelculo

que consiste na aplicaccedilatildeo da expressatildeo (43)

))()()((

)()( 22

origorigrandomrandomrandomorigrandomorig

randomorigrandomorigorigrandomrandomorig

APAPAAPP

AAPPAPAP

(43)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 15

A hipoacutetese nula que consideramos neste teste estatiacutestico refere-se agrave possibilidade de os

motivos terem sido gerados por sequecircncias aleatoacuterias sob certas restriccedilotildees Isto eacute assumimos

que as contagens obtidas para os motivos nas sequecircncias originais satildeo semelhantes agraves que

obteriacuteamos em sequecircncias aleatoacuterias com as mesmas frequecircncias de k-mers Valores altos de

significacircncia estatiacutestica implicam a rejeiccedilatildeo da hipoacutetese nula

Um importante problema prende-se com a validade da aplicaccedilatildeo do teste do 2 O SMILE em

particular apresenta para cada motivo uma medida da sua significacircncia estatiacutestica No

entanto o verdadeiro interesse reside na determinaccedilatildeo da significacircncia bioloacutegica dos motivos

encontrados O que estaacute em causa eacute perceber se um motivo eacute um potencial binding site Eacute

necessaacuterio testar este meacutetodo em dados reais com consensos conhecidos para se perceber se a

significacircncia estatiacutestica apresenta uma elevada correlaccedilatildeo com a significacircncia bioloacutegica

No Capiacutetulo 6 apresentamos uma discussatildeo acerca da adequaccedilatildeo do teste do 2 para a afericcedilatildeo

da significacircncia bioloacutegica dos motivos extraiacutedos pelo SMILE

42 Meacutetodo de Shuffling

Como jaacute foi referido para efectuar o caacutelculo da significacircncia estatiacutestica o SMILE recorre agrave

geraccedilatildeo de sequecircncias aleatoacuterias com certas restriccedilotildees baseadas na estatiacutestica dos dados

originais Para o efeito eacute usado um algoritmo de data shuffling [78]

O meacutetodo de shuffling permite obter um conjunto de dados aleatoacuterio com base num conjunto

de dados original garantindo a preservaccedilatildeo exacta das frequecircncias de k-mers para um dado k

O meacutetodo de geraccedilatildeo pode ser visto como um passeio aleatoacuterio sobre um multi-grafo onde os

noacutes satildeo todas as subsequecircncias de tamanho k-1 presentes na sequecircncia original e cada aresta

corresponde a uma transiccedilatildeo entre (k-1)-mers verificada nos dados No caso de k igual a 1 natildeo

eacute gerado um multi-grafo sendo feita apenas uma reordenaccedilatildeo aleatoacuteria dos nucleoacutetidos de

cada sequecircncia

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 16

A Figura 41 ilustra um exemplo de um multi-grafo gerado a partir da sequecircncia

ATTATTTATT bem como um caminho no grafo que gera a sequecircncia alternativa

TATTATTTAT

Figura 41 Multi-grafo gerado pela sequecircncia ATTATTTATT para k=4 com 2

passeios aleatoacuterios

Para que cada sequecircncia gerada seja vaacutelida eacute necessaacuterio que tenha o mesmo tamanho que a

sequecircncia original Sendo assim eacute faacutecil perceber que apenas os caminhos eulerianos garantem

a geraccedilatildeo de uma sequecircncia com estas caracteriacutesticas No SMILE este processo eacute repetido

para cada sequecircncia isoladamente

Para garantir a fiabilidade dos resultados obtidos eacute efectuado um nuacutemero elevado de

simulaccedilotildees donde satildeo extraiacutedos os valores meacutedios do quoacuterum ou da abundacircncia de cada

motivo a partir dos quais eacute calculada a significacircncia estatiacutestica no sentido do teste do 2

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 17

A Figura 42 mostra um histograma com os resultados obtidos em 100 simulaccedilotildees para um

motivo extraiacutedo do conjunto de dados da Helicobater pylori3 onde foram preservadas as

frequecircncias relativas de nucleoacutetidos (k=1) Este conjunto de dados eacute constituiacutedo por 308

sequecircncias com comprimentos que variam entre 40 e 300 nucleoacutetidos Foi efectuada uma

procura de motivos simples com tamanhos natildeo inferiores a 6 Foi admitido 1 erro e foi

exigido um quoacuterum de 6

O histograma indica a percentagem de simulaccedilotildees em que o motivo em consideraccedilatildeo ocorre

num determinado nuacutemero de sequecircncias Em particular no exemplo da Figura 42 o motivo

TTTTAA ocorre num nuacutemero de sequecircncias entre 282 e 284 em 13 das simulaccedilotildees

A seta a negro refere-se ao nuacutemero de ocorrecircncias do motivo observadas no conjunto de dados

original Quanto mais afastada estiver a seta do maacuteximo da curva maior seraacute a significacircncia

estatiacutestica Neste caso foi atribuiacuteda uma significacircncia de 593 ao motivo TTTTAA

Figura 42 Histograma das ocorrecircncias observadas do motivo TTTTAA em 100

simulaccedilotildees de shuffling do conjunto de dados da H pylori

3 Organismo procariota

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 18

O meacutetodo de data shuffling pode ser pesado do ponto de vista computacional e representa

uma grande restriccedilatildeo no desempenho da avaliaccedilatildeo de motivos Em particular a necessidade

de pesquisar todos os motivos extraiacutedos em cada conjunto de dados aleatoacuterio gerado constitui

uma seacuterio entrave ao bom desempenho deste meacutetodo

Devido aos referidos problemas de desempenho opta-se geralmente por fazer um nuacutemero de

simulaccedilotildees com geraccedilatildeo de sequecircncias aleatoacuterias inferior ao estatisticamente aconselhado o

que pode ter impacto nos resultados

Outra questatildeo pertinente coloca-se ainda quanto agrave preservaccedilatildeo dos k-mers Uma vez que o

shuffling eacute feito sobre cada sequecircncia do conjunto de dados valores elevados de k impotildeem

restriccedilotildees severas agrave variabilidade dos conjuntos de dados aleatoacuterios gerados Assim para estes

valores o teste estatiacutestico eacute inuacutetil uma vez que os conjuntos de dados gerados satildeo

praticamente iguais ao conjunto de dados original Em particular quando o tamanho dos

k-mers a preservar eacute igual ou superior ao tamanho de um motivo as suas ocorrecircncias satildeo

estritamente conservadas no conjunto de dados aleatoacuterio levando a que o valor da

significacircncia seja 0 A Figura 43 ilustra o facto de a significacircncia estatiacutestica tender

inevitavelmente para zero agrave medida que o valor de k aumenta Os valores do graacutefico foram

igualmente obtidos a partir do conjunto de dados da H pylori descrito anteriormente

Figura 43 Graacutefico da evoluccedilatildeo da significacircncia estatiacutestica com o aumento do valor

de k para um motivo de tamanho 8 extraiacutedo do conjunto de dados da H pylori

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 19

43 Meacutetodo Analiacutetico

Nesta Secccedilatildeo propotildee-se um meacutetodo analiacutetico que tem por objectivo resolver alguns dos

problemas do meacutetodo de shuffling descrito na Secccedilatildeo anterior designadamente o fraco

desempenho computacional e as excessivas restriccedilotildees devidas agrave conservaccedilatildeo estrita das

frequecircncias dos k-mers Assim pretende-se obter um meacutetodo computacionalmente eficiente

para avaliar a relevacircncia de motivos extraiacutedos pelo SMILE

Com este meacutetodo comeccedila-se por abstrair um modelo de Markov a partir do conjunto de dados

em estudo Os estados do modelo de Markov correspondem a todos os (k-1)-mers presentes no

conjunto de dados sendo a probabilidade inicial de cada estado a frequecircncia relativa

observada do (k-1)-mer correspondente

A probabilidade de transiccedilatildeo entre estados corresponde agrave razatildeo entre o nuacutemero de vezes que o

(k-1)-mer referente ao estado de destino sucede ao (k-1)-mer referente ao estado de origem

nos dados e o nuacutemero de vezes que o (k-1)-mer correspondente ao estado de origem precede

qualquer outro (k-1)-mer nas sequecircncias em anaacutelise A Figura 45 apresenta um modelo de

Markov abstraiacutedo a partir do conjunto de dados referido na Figura 44

Figura 44 Conjunto de dados exemplo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 20

CA

TC

AT

TA

TT

101

51

52

101

51

Figura 45

Exemplo de uma cadeia de Markov para k=3

Cada motivo em anaacutelise eacute processado de forma a calcular a probabilidade do motivo ser

gerado pelo modelo de Markov abstraiacutedo

Esta probabilidade eacute calculada como o produto da probabilidade do estado inicial pela

probabilidade de todas as transiccedilotildees necessaacuterias para compor o motivo Em (44) (45) e (46)

apresenta-se o calculo desta probabilidade para o motivo ATTATT segundo a cadeia de

Markov da Figura 45

)()()()()()( TTATpATTApTATTpTTATpATpATTATTp

(44)

2

111

2

1

5

2)(ATTATTp (45)

10

1)(ATTATTp (46)

No caso em que k eacute igual 1 natildeo eacute construiacuteda uma cadeia de Markov sendo a probabilidade de

ocorrecircncia do motivo o produto das frequecircncias relativas no conjunto de dados dos

nucleoacutetidos que o compotildeem

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 21

Caso sejam admitidos e erros basta considerar a soma das probabilidades de todos motivos a

uma distacircncia de Hamming natildeo superior a e ao inveacutes de se considerar apenas a probabilidade

do motivo em anaacutelise

A probabilidade assim calculada seraacute usada para determinar as entradas referentes a dados

aleatoacuterios na tabela de contingecircncia descrita na Secccedilatildeo 41 para o teste relativo agrave abundacircncia

A determinaccedilatildeo das entradas na tabela quando consideramos o teste relativo ao quoacuterum de um

motivo eacute consideravelmente mais complexa pelo que natildeo a abordaremos neste texto

Assim as entradas randomP e randomA satildeo calculadas da forma indicada em (47) e (48)

respectivamente

))1)((()( nseqsmlenmotiflenseqsnseqskmpP Markovrandom

(47)

randomrandom PlenseqsnseqsA

(48)

Nas expressotildees (47) e (48)

)( kmpMarkov refere-se agrave probabilidade calculada para o motivo m a partir de uma cadeia

de Markov extraiacuteda do conjunto de dados para um dado k

nseqs designa o nuacutemero de sequecircncias do conjunto de dados

lseqs designa o comprimento meacutedio das sequecircncias do conjunto de dados

lenmotif(m) designa o tamanho do motivo m

Agrave semelhanccedila do SMILE no caacutelculo de randomA consideramos como nuacutemero de

oportunidades de ocorrecircncia o tamanho do conjunto de dados

Este meacutetodo apresenta um desempenho computacional significativamente melhor que o

meacutetodo baseado em shuffling uma vez que natildeo necessita de efectuar vaacuterias simulaccedilotildees tendo

apenas de processar o conjunto de dados por uma uacutenica vez O caacutelculo da significacircncia

estatiacutestica de cada motivo eacute linear em relaccedilatildeo ao seu comprimento

Por outro lado o meacutetodo analiacutetico natildeo enferma das mesmas limitaccedilotildees do que o teste

estatiacutestico baseado em simulaccedilotildees permitindo o caacutelculo de significacircncia estatiacutestica para

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 22

valores elevados de k Ao considerar a estatiacutestica de todo o conjunto de dados ao inveacutes de

cada sequecircncia isoladamente este meacutetodo pode tambeacutem agrave partida modelar melhor os dados

Resta acrescentar que o meacutetodo descrito nesta Secccedilatildeo soacute permite obter significacircncias

estatiacutesticas para motivos simples A realizaccedilatildeo de caacutelculos para motivos estruturados eacute

consideravelmente mais complexa e natildeo foi abordada neste trabalho

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 23

5 Geraccedilatildeo de coacutedigo IUPAC

A realizaccedilatildeo eficiente de pesquisas de consensos em bases de dados bioloacutegicas requer uma

representaccedilatildeo compacta dos dados armazenados Neste contexto a possibilidade de

representar consensos em coacutedigo IUPAC assume uma importacircncia fundamental

O coacutedigo IUPAC eacute uma extensatildeo sobre a representaccedilatildeo de sequecircncias de DNA Uma

sequecircncia de DNA eacute constituiacuteda por nucleoacutetidos A codificaccedilatildeo IUPAC introduz siacutembolos que

representam um conjunto de possiacuteveis nucleoacutetidos para uma dada posiccedilatildeo permitindo uma

representaccedilatildeo de sequecircncias degeneradas Por exemplo uma purina (A ou G) eacute representada

pela letra R A descriccedilatildeo completa dos coacutedigos IUPAC encontra-se na Tabela 51

Coacutedigo Descriccedilatildeo A Adenina

C Citosina

G Guanina

T Timina

U Uracilo

R Purina (A ou G)

Y Pirimidina (C T ou U)

M C ou A

K T U ou G

W T U ou A

S C ou G

B C T U ou G (natildeo A)

D A T U ou G (natildeo C)

H A T U ou C (natildeo G)

V A C ou G (natildeo T natildeo U)

N Qualquer base (A C G T ou U)

Tabela 51 Coacutedigo IUPAC

A conversatildeo de um conjunto de sequecircncias de DNA para um conjunto de sequecircncias IUPAC

natildeo eacute uma tarefa trivial Para um dado conjunto de sequecircncias existem diversas codificaccedilotildees

IUPAC possiacuteveis

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 24

O problema da geraccedilatildeo de coacutedigo IUPAC consiste em encontrar o conjunto miacutenimo de

sequecircncias IUPAC que representem um dado conjunto de sequecircncias DNA

Como o objectivo proposto eacute a compressatildeo da representaccedilatildeo das sequecircncias de nucleoacutetidos eacute

desejaacutevel que a codificaccedilatildeo IUPAC seja a mais compacta possiacutevel

A abordagem utilizada foi a de reduzir o problema da compressatildeo IUPAC a um problema

conhecido a minimizaccedilatildeo de expressotildees loacutegicas multi-valor

Uma expressatildeo loacutegica multi-valor eacute uma expressatildeo loacutegica onde figuram variaacuteveis multi-valor

ou seja variaacuteveis que necessitam de mais do que um bit para serem representadas

Para representar um siacutembolo IUPAC eacute utilizada uma variaacutevel multi-valor de 4 bits Os

siacutembolos e as respectivas representaccedilotildees estatildeo na Tabela 52

Siacutembolo

IUPAC

Codificaccedilatildeo

binaacuteria

A 1000

T 0100

C 0010

G 0001

R 1001

Y 0110

S 0011

W 1100

K 0101

M 1010

B 0111

D 1101

H 1110

V 1011

N 1111

Espaccedilo 0000

Tabela 52

Codificaccedilatildeo binaacuteria dos siacutembolos IUPAC

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 25

Uma sequecircncia de nucleoacutetidos ou IUPAC eacute construiacuteda atraveacutes de um produto de termos

sendo cada termo uma variaacutevel multi-valor que representa um siacutembolo da sequecircncia Por

exemplo a sequecircncia WTA eacute representada pela expressatildeo loacutegica (1100) (0100) (1000)

Agora que foi estabelecida uma representaccedilatildeo para sequecircncias IUPAC atraveacutes de expressotildees

loacutegicas multi-valor resta perceber como da minimizaccedilatildeo destas expressotildees pode resultar o

desejado coacutedigo IUPAC

Em (51) temos um exemplo simples de minimizaccedilatildeo loacutegica

ZXZYXZYX

(51)

Eacute faacutecil verificar que X Z eacute uma expressatildeo equivalente O que se pretende para a compressatildeo

IUPAC eacute algo semelhante

Por exemplo a partir das sequecircncias ATA e TTA pretende-se a expressatildeo IUPAC WTA A

simplificaccedilatildeo das expressotildees loacutegicas eacute exemplificada sucessivamente em (52) (53) e (54)

A T A + T T A (52)

(1000) (0100) (1000) + (0100) (0100) (1000)

(A ou T) T A (53)

((1000)+(0100)) (0100) (1000)

W T A (54)

(1100) (0100) (1000)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 26

Eacute faacutecil perceber atendendo agrave escolha criteriosa da codificaccedilatildeo que da minimizaccedilatildeo de

expressotildees loacutegicas que representam sequecircncias de nucleoacutetidos resultam expressotildees loacutegicas

que representam uma codificaccedilatildeo IUPAC das sequecircncias originais

O problema inicial encontra-se agora reduzido a um problema de minimizaccedilatildeo de expressotildees

loacutegicas Este problema jaacute estaacute resolvido na aacuterea da siacutentese loacutegica Um dos programas mais

conhecidos desenvolvido para a resoluccedilatildeo deste problema eacute o programa Espresso [9] Apesar

de ser utilizado neste contexto como uma caixa preta eacute importante perceber o seu

funcionamento

No Espresso as expressotildees loacutegicas satildeo representadas num espaccedilo booleano multi-

dimensional Um exemplo eacute um espaccedilo tridimensional onde podem ser representadas

sequecircncias de tamanho 3 tal como estaacute ilustrado na Figura 51

Figura 51

Representaccedilatildeo das sequecircncias ATA (1) e TTA (2)

Neste contexto um cubo define-se como a representaccedilatildeo espacial de um produto de termos

Ou seja para o problema em questatildeo cada sequecircncia de entrada eacute um cubo e uma cobertura

corresponde a um conjunto de cubos que engloba todos os veacutertices representados no espaccedilo

Pode observar-se que a dimensatildeo do espaccedilo encontra-se directamente relacionada com o

tamanho da sequecircncia que se pretende representar Para efectuar a minimizaccedilatildeo o Espresso

procura uma cobertura miacutenima que daraacute origem ao conjunto de sequecircncias IUPAC de saiacuteda

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 27

No caso do espaccedilo da Figura 51 existe uma cobertura miacutenima constituiacuteda por um uacutenico cubo

A Figura 52 ilustra a referida cobertura

Figura 52 Representaccedilatildeo da cobertura WTA (1)

Da cobertura resulta a codificaccedilatildeo IUPAC das sequecircncias iniciais

O processo para descobrir a cobertura miacutenima eacute complexo sendo composto por um conjunto

intrincado de passos Inicialmente o conjunto de cubos originais eacute expandido de forma a

englobar o maior nuacutemero de veacutertices adjacentes De seguida os cubos redundantes satildeo

removidos e os restantes satildeo reduzidos para que cubram apenas os cubos iniciais Um cubo eacute

considerado redundante se natildeo cobrir nenhum veacutertice que natildeo esteja jaacute coberto por outro

cubo Deste processo resulta uma reduccedilatildeo contiacutenua do nuacutemero de cubos necessaacuterios para a

cobertura O processo eacute reiterado ateacute natildeo se verificarem melhorias substanciais na dimensatildeo

da cobertura obtida

Este processo eacute guiado por heuriacutesticas e eacute possiacutevel demonstrar que produz resultados

proacuteximos da soluccedilatildeo oacuteptima O processo estaacute detalhadamente descrito em [910]

De modo a automatizar o processo de codificaccedilatildeo das sequecircncias de nucleoacutetidos e

descodificaccedilatildeo das sequecircncias IUPAC foi desenvolvida uma interface para o Espresso

Assim as sequecircncias de entrada satildeo transformadas em expressotildees loacutegicas (formato binaacuterio)

seguindo a correspondecircncia referida na Tabela 52 Do mesmo modo a representaccedilatildeo da

cobertura miacutenima obtida pelo Espresso eacute descodificada e traduzida para sequecircncias IUPAC

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 28

O funcionamento da interface foi testado com recurso a um gerador aleatoacuterio de sequecircncias de

nucleoacutetidos e a um verificador O gerador produz um conjunto de sequecircncias obtidas a partir

de uma sequecircncia inicial de nucleoacutetidos O conjunto de sequecircncias gerado corresponde a

vaacuterias substituiccedilotildees aleatoacuterias na sequecircncia inicial e constitui o conjunto de entrada que vai

ser lido pela ferramenta Espresso O verificador recebe o conjunto de sequecircncias de entrada e

o resultado da operaccedilatildeo de minimizaccedilatildeo do Espresso sob a forma de sequecircncias de coacutedigos

IUPAC Deste modo ao expandir as sequecircncias IUPAC obtidas pelo Espresso atraveacutes de

uma operaccedilatildeo trivial de substituiccedilotildees sucessivas eacute possiacutevel testar a completude e adequaccedilatildeo

da representaccedilatildeo Assim diz-se que a representaccedilatildeo eacute completa se a expansatildeo incluir todas as

sequecircncias de entrada por outro lado diz-se que a representaccedilatildeo eacute adequada se natildeo incluir

nenhuma sequecircncia que natildeo esteja no conjunto inicial

Depois de verificada a completude e adequaccedilatildeo das representaccedilotildees obtidas foram feitos testes

com dados reais de modo a poder aferir o grau de compressatildeo das sequecircncias introduzidas

Assim o Espresso foi executado tendo como conjunto de entrada sequecircncias devidamente

codificadas obtidas atraveacutes de uma execuccedilatildeo do SMILE

As taxas de compressatildeo obtidas variam entre 278 e 715

O gerador de coacutedigo IUPAC encontra-se neste momento integrado na base de dados Dbyeast

[11] disponibilizando publicamente o serviccedilo de codificaccedilatildeo A Figura 53 eacute uma imagem da

interface que permite que os utilizadores da Dbyeast obtenham coacutedigo IUPAC a partir de

sequecircncias de DNA

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 29

Figura 53 Interface para geraccedilatildeo de coacutedigo IUPAC integrada na Dbyeast

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 30

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 31

6 Resultados e Conclusotildees

Neste Capiacutetulo iremos analisar os resultados obtidos tanto para dados sinteacuteticos como para

dados reais Para tal iremos comparar os valores de significacircncia estatiacutestica obtidos para os

dois tipos de dados usando tanto o meacutetodo de shuffling como o meacutetodo analiacutetico Para efectuar

esta comparaccedilatildeo eacute uacutetil referirmo-nos agrave posiccedilatildeo obtida pelos motivos em anaacutelise numa lista

ordenada por valores decrescentes de significacircncia estatiacutestica Assim sempre que

mencionarmos o valor da posiccedilatildeo de um motivo estaremos a referir-nos agrave posiccedilatildeo numa lista

assim definida

61 Resultados Obtidos com Dados Sinteacuteticos

Como jaacute foi referido a utilizaccedilatildeo de dados sinteacuteticos permite um maior controlo sobre os

motivos que estatildeo efectivamente presentes no conjunto de dados Assim iremos referir-nos

aos motivos que foram introduzidos no conjunto de dados gerado por motivos especificados

em oposiccedilatildeo aos outros motivos igualmente extraiacutedos pelo SMILE que designaremos por

motivos natildeo-especificados Nesta Secccedilatildeo iremos considerar o teste de significacircncia estatiacutestica

relativo agrave abundacircncia de forma a podermos comparar os resultados obtidos com o meacutetodo

shuffling e com o meacutetodo analiacutetico

611 Resultados do teste do 2 com o meacutetodo shuffling

Ao especificar um conjunto de dados com os mesmos motivos que estatildeo presentemente

descritos para a H pylori obtivemos para motivos simples os resultados apresentados nas

Figuras 61 e 62 O conjunto de dados sinteacutetico conteacutem 308 sequecircncias de comprimento 167

Foi efectuada uma procura de motivos simples com tamanhos compreendidos entre 6 e 8

nucleoacutetidos Natildeo foram admitidos erros e foi exigido um quoacuterum de 6 Os motivos

especificados encontram-se representados a ponteado Os restantes motivos correspondem a

motivos natildeo-especificados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 32

Figura 61 Significacircncia estatiacutestica para motivos simples de tamanho 6

Figura 62 Significacircncia estatiacutestica para motivos simples de tamanho 7

Os graacuteficos natildeo satildeo no entanto suficientes para nos dar a percepccedilatildeo da correcta classificaccedilatildeo

dos motivos uma vez que natildeo eacute possiacutevel fazer representar no graacutefico os 172 motivos

extraiacutedos A Tabela 61 indica as posiccedilotildees ocupadas pelos motivos especificados em relaccedilatildeo agrave

totalidade dos modelos para vaacuterios valores de k

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 33

TTTAAG TTTTAA TATAAT TATAATA

k=1 5 4 1 2

k=2 6 4 1 2

k=3 6 4 2 1

k=4 6 5 2 1

k=5 78 7 5 1

Tabela 61 Posiccedilotildees dos motivos especificados

Em geral os motivos especificados aparecem melhor classificados para um baixo valor de k

Agrave medida que se consideram valores de k crescentes a significacircncia estatiacutestica de todos os

motivos aproxima-se de zero pelas razotildees jaacute apontadas na Secccedilatildeo 42

Eacute comum observar-se a presenccedila de motivos natildeo-especificados com niacuteveis de significacircncia

elevados especialmente se atendermos agraves posiccedilotildees da Tabela 61

Contudo estes bons resultados natildeo se mantecircm se forem admitidos erros na procura Neste

caso embora os motivos mantenham em geral elevadas significacircncias entram em

competiccedilatildeo com os motivos a distacircncia de Hamming natildeo superior ao nuacutemero de erros

admitido Assim eacute comum observar-se uma descida significativa na tabela de posiccedilotildees

Para motivos estruturados os resultados satildeo favoraacuteveis mesmo admitindo erros como eacute

ilustrado pelo graacutefico da Figura 63 em conjugaccedilatildeo com os valores de posiccedilatildeo apresentados na

Tabela 62

Neste exemplo efectuou-se uma procura por motivos estruturados compostos por duas partes

com tamanhos entre 6 e 7 com uma distacircncia entre si variando entre 21 e 23 nucleoacutetidos

Admitiu-se 1 erro em cada parte do motivo mas apenas 1 erro na totalidade do motivo

estruturado e exigiu-se um quoacuterum de 6 Foram extraiacutedos 53 motivos O motivo

especificado encontra-se a ponteado

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 34

Figura 63 Significacircncia estatiacutestica para modelos estruturados em dados sinteacuteticos

TTTAAG_TATAAT

k=1 4

k=2 4

k=3 17

k=4 63

k=5 162

Tabela 62 Posiccedilotildees do motivo estruturado especificado

Neste exemplo foi necessaacuterio admitir a existecircncia de erros para que o motivo fosse encontrado

pelo SMILE Natildeo existem motivos sem erros que cumpram as condiccedilotildees de procura

Esta boa prestaccedilatildeo dos motivos estruturados estaacute relacionada com o facto de o shuffling

raramente preservar as distacircncias relativas de cada uma das partes que constituem o motivo

fazendo com que estes ocorram poucas vezes nas simulaccedilotildees Assim neste exemplo o motivo

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 35

estruturado especificado aparece claramente destacado Estes resultados parecem sugerir que a

utilizaccedilatildeo deste teste estatiacutestico se adequa agrave avaliaccedilatildeo de modelos estruturados No entanto

nem todos os promotores exibem esta estrutura sendo necessaacuterio um meacutetodo mais geral para

fazer esta avaliaccedilatildeo

Como veremos em seguida os resultados aparentemente animadores mesmo para motivos

simples natildeo se verificam quando analisamos dados reais Esta evidecircncia estaacute relacionada com

o facto de o gerador de dados sinteacuteticos gerar dados aleatoacuterios com equiprobabilidade de

nucleoacutetidos Nos dados reais isto natildeo se verifica existindo normalmente uma clara

abundacircncia de A s e T s na regiatildeo promotora Do mesmo modo cada conjunto de dados exibe

preferecircncia por certos diacutemeros ou triacutemeros que ocorrem com muito mais frequecircncia que

outros

Esta limitaccedilatildeo podia ser mitigada pela incorporaccedilatildeo destas correlaccedilotildees na geraccedilatildeo de dados

sinteacuteticos Mas embora seja relativamente simples estabelecer uma preferecircncia por certos

nucleoacutetidos a geraccedilatildeo natildeo-equiprovaacutevel de k-mers geneacutericos constitui soacute por si um problema

complexo pelo que natildeo foi abordado neste trabalho

612 Resultados do teste do 2 com o meacutetodo analiacutetico

Os dados sinteacuteticos foram igualmente analisados recorrendo ao meacutetodo analiacutetico que como jaacute

foi referido tem a vantagem de ser mais eficiente do ponto de vista computacional e de poder

explorar valores mais elevados de k As Figura 64 e 65 apresentam a evoluccedilatildeo da

significacircncia estatiacutestica dos mesmos motivos considerados nas Figuras 62 e 63 mas

recorrendo ao meacutetodo analiacutetico

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 36

Figura 64 Significacircncia estatiacutestica de motivos simples de tamanho 6 usando o

meacutetodo analiacutetico

Figura 65 Significacircncia estatiacutestica de motivos simples de tamanho 7 usando o

meacutetodo analiacutetico

A Tabela 63 indica as posiccedilotildees dos motivos especificados para a significacircncia estatiacutestica

calculada por via do meacutetodo analiacutetico

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 37

TTTAAG TTTTAA TATAAT TATAATA

k=1 6 4 1 2

k=2 6 4 1 2

k=3 6 3 2 1

k=4 6 3 2 1

k=5 55 3 2 1

Tabela 63 Posiccedilotildees dos modelos especificados

Satildeo oacutebvias as semelhanccedilas entre os resultados apresentados na Tabela 63 e os presentes na

Tabela 61 Isto confirma a possibilidade de usar o meacutetodo analiacutetico como alternativa ao

meacutetodo de shuffling

Sabemos igualmente que no acircmbito do meacutetodo analiacutetico quando k atinge um valor igual ao

comprimento do motivo em anaacutelise a significacircncia estatiacutestica anula-se Isto tem a ver com o

facto de a probabilidade de ocorrecircncia de um k-mer ser muito proacutexima da sua frequecircncia

relativa no conjunto de dados Assim sendo os valores das entradas da tabela de contingecircncia

relativas aos dados aleatoacuterios seratildeo inevitavelmente iguais agraves dos dados reais resultando deste

facto uma significacircncia estatiacutestica nula

Por outro lado agrave medida que o k aumenta os k-mers introduzidos pelos motivos especificados

no conjunto de dados que de resto eacute aleatoacuterio vatildeo fazer com que a cadeia de Markov gerada

faccedila convergir as probabilidades de ocorrecircncia de cada motivo com a sua frequecircncia relativa

efectiva no conjunto de dados Assim assiste-se ao mesmo fenoacutemeno de convergecircncia para

zero da significacircncia estatiacutestica que assinalaacutemos para o meacutetodo shuffling

Pela anaacutelise dos resultados podemos ainda concluir que em geral um valor de k demasiado

pequeno natildeo modela suficientemente bem os dados daqui resulta que alguns motivos natildeo

especificados obtenham melhores classificaccedilotildees que motivos especificados Em suma

deveremos preferir valores de k intermeacutedios

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 38

62 Resultados Obtidos com Dados Reais

Com este teste pretendemos verificar se uma sequecircncia classificada como estatisticamente

relevante tambeacutem pode ser considerada biologicamente relevante

Para fazer o estudo da anaacutelise estatiacutestica em dados reais foram recolhidos 16 conjuntos de

dados com regiotildees promotoras correspondentes a genes da levedura Saccharomyces

cerevisiae que eacute um organismo eucariota Cada conjunto conteacutem aproximadamente 10

sequecircncias As sequecircncias contecircm consensos obtidos por via experimental e descritos na

literatura A descriccedilatildeo completa de cada conjunto de dados pode ser vista no Anexo A

Para cada conjunto de dados foi feita uma procura de motivos de tamanhos variando entre 4 e

11 nucleoacutetidos para valores de quoacuterum de 60 75 80 e 100 Foram permitidos 0 e 1

erros em ensaios sucessivos e fez-se ainda variar o valor de k entre 1 e 4

Foi posteriormente analisada a significacircncia estatiacutestica calculada pelo SMILE no que diz

respeito ao quoacuterum

Os consensos descritos obtiveram boas classificaccedilotildees para algumas das condiccedilotildees testadas

Em particular quando o quoacuterum exigido se encontra proacuteximo da frequecircncia efectiva dos

motivos nos dados e quando natildeo satildeo admitidos erros Os resultados satildeo tambeacutem melhores

para motivos de tamanho superior a 7 Em suma obtecircm-se bons resultados quando as

condiccedilotildees favorecem os motivos com as caracteriacutesticas dos consensos descritos

Estes resultados natildeo satildeo muito animadores porque para os atingir eacute necessaacuterio um

conhecimento preacutevio da frequecircncia e tamanho dos motivos Ao considerar a generalidade dos

ensaios efectuados verifica-se que as classificaccedilotildees satildeo muito baixas com baixas

significacircncias estatiacutesticas e com valores de posiccedilatildeo frequentemente abaixo dos primeiros

1 000 motivos No Anexo A apresentamos os resultados obtidos com estes ensaios

A par desta anaacutelise foi considerada a significacircncia estatiacutestica obtida a respeito da abundacircncia

Deste modo eacute possiacutevel estabelecer uma comparaccedilatildeo directa entre o meacutetodo de shuffling e o

meacutetodo analiacutetico para o caacutelculo desta meacutetrica

De seguida apresentamos os resultados desta anaacutelise

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 39

621 Resultados do teste do 2 com o meacutetodo shuffling

De modo geral os resultados para o teste estatiacutestico referente agrave abundacircncia representam uma

melhoria em relaccedilatildeo ao teste referente ao quoacuterum

Comeccedilamos por apresentar os graacuteficos referentes a um conjunto de dados cujos motivos

permanecem mal classificados isto eacute o motivo eacute biologicamente relevante mas natildeo eacute

considerado estatisticamente relevante O conjunto de dados em causa o MSN4 tem um

motivo muito abundante (CCCCT) condicionando a estatiacutestica dos dados Isto conjugado

com o seu pequeno tamanho (5 nucleoacutetidos) resulta na inevitaacutevel baixa significacircncia

estatiacutestica uma vez que aparece sistematicamente na geraccedilatildeo aleatoacuteria de sequecircncias feita em

cada simulaccedilatildeo As Figuras 66 e 67 ilustram a evoluccedilatildeo da significacircncia estatiacutestica e da

posiccedilatildeo do referido motivo considerando erro 0 e 1 respectivamente para um quoacuterum de

60

Figura 66 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 0 erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 40

Figura 67 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 1 erro

Os resultados da classificaccedilatildeo satildeo claramente maus para um consenso descrito A estranha

subida para k igual a 4 estaacute relacionada com uma pequena flutuaccedilatildeo sem significado uma vez

que estamos a considerar valores de significacircncia estatiacutestica muito baixos A aparente melhor

classificaccedilatildeo quando consideramos erro 0 estaacute relacionada com o facto de que quando natildeo se

admitem erros satildeo consequentemente extraiacutedos menos motivos Em particular com erro 0 satildeo

extraiacutedos 1 316 motivos enquanto que com erro 1 satildeo extraiacutedos 35 258 motivos

De seguida apresentamos os resultados relativos a um outro conjunto de dados (STE12) que

evidencia resultados mais favoraacuteveis para erro 0 As Figuras 68 e 69 apresentam a evoluccedilatildeo

da significacircncia estatiacutestica do motivo descrito (TGAAACA) para 0 e 1 erros

respectivamente com um quoacuterum de 100

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 41

Figura 68 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 0 erros

Figura 69 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 1 erro

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 42

Resta referir que para este conjunto de dados foram extraiacutedos 267 motivos com erro 0 e

7 705 motivos para erro 1

O facto de os motivos serem abundantes em relaccedilatildeo ao nuacutemero de sequecircncias consideradas

faz com que o teste relativo agrave abundacircncia tenha um poder de resoluccedilatildeo consideravelmente

maior do que o teste relativo ao quoacuterum Por esta razatildeo deveremos sempre preferir o primeiro

em casos semelhantes

Por outro lado os resultados obtidos continuam a pocircr em causa a generalidade do meacutetodo uma

vez que eacute difiacutecil identificar as situaccedilotildees em que este produz bons resultados sobretudo quando

somos confrontados com um desconhecimento a priori do conjunto de dados

622 Resultados do teste do 2 com o meacutetodo analiacutetico

Resta-nos comparar os resultados obtidos na subsecccedilatildeo anterior com os obtidos pela via

analiacutetica Nos graacuteficos apresentados nesta subsecccedilatildeo que representam a evoluccedilatildeo da

significacircncia estatiacutestica com o crescimento do tamanho dos k-mers considerados estatildeo

tambeacutem assinaladas as posiccedilotildees ocupadas pelos motivos

As Figuras 610 e 611 apresentam os resultados referentes ao MSN4

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 43

Figura 610 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 0 erros

Figura 611 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados MSN4 com 1 erro

Os resultados para o MSN4 natildeo sofrem alteraccedilotildees assinalaacuteveis em relaccedilatildeo ao meacutetodo anterior

Novamente as caracteriacutesticas do conjunto de dados limitam a possibilidade de evidenciar este

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 44

motivo por via deste teste estatiacutestico o que eacute tanto mais grave quanto o facto de este ser um

dos motivos cuja significacircncia bioloacutegica se encontra melhor estabelecida

As Figuras 612 e 613 apresentam os resultados referentes ao conjunto de dados STE12

Figura 612 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 0 erros

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 45

Figura 613 Evoluccedilatildeo da significacircncia estatiacutestica relativa agrave abundacircncia com o valor

de k para o conjunto de dados STE12 com 1 erro

Os dados apresentados natildeo evidenciam melhorias assinalaacuteveis em relaccedilatildeo aos resultados

obtidos por via de shuffling excepto a ocorrecircncia de melhorias ocasionais da classificaccedilatildeo

quando natildeo se admitem erros Estas diferenccedilas podem ser atribuiacutedas ao facto de o meacutetodo

analiacutetico natildeo conservar estritamente os k-mers e de analisar o conjunto de dados na sua

totalidade por oposiccedilatildeo ao shuffling que considera cada sequecircncia isoladamente

No Anexo B apresentamos a totalidade dos resultados desta anaacutelise comparativa No Anexo C

eacute apresentada uma listagem dos resultados do caacutelculo do valor de significacircncia para valores de

k ateacute ao tamanho dos consensos descritos

A grande vantagem deste meacutetodo eacute sem duacutevida o incomparaacutevel ganho a niacutevel de

desempenho computacional Para ilustrar esta afirmaccedilatildeo basta dizer que o caacutelculo da

significacircncia estatiacutestica para todos os conjuntos de dados considerados demorou com o

meacutetodo de shuffling mais de 30 horas de processamento O meacutetodo analiacutetico realizou todos os

caacutelculos em menos de 30 minutos

No entanto os resultados voltam a pocircr em causa a adequaccedilatildeo do teste estatiacutestico do 2 para

aferir a significacircncia bioloacutegica pela dificuldade de sintetizar um meacutetodo geneacuterico para

destacar motivos relevantes de entre os extraiacutedos pelo SMILE

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 46

63 Conclusotildees

Ao considerar os resultados apresentados eacute inevitaacutevel concluir que a significacircncia atribuiacuteda

pelo teste estatiacutestico do 2 aos motivos extraiacutedos pelo SMILE natildeo reflecte a sua significacircncia

bioloacutegica

A dificuldade em distinguir motivos relevantes da grande quantidade de motivos extraiacutedos

potildee em causa a utilidade praacutetica do algoritmo na generalidade dos casos

Para aleacutem desta questatildeo outras limitaccedilotildees tecircm sido apontadas por bioacutelogos designadamente

o facto de o algoritmo natildeo conseguir pesquisar motivos na cadeia de DNA inversa onde os

factores de transcriccedilatildeo podem igualmente ligar-se e o facto de a forma como o SMILE

modela a ocorrecircncia de erros nos motivos natildeo ser compatiacutevel com a necessidade de poder

indicar posiccedilotildees especiacuteficas onde erros satildeo admitidos

No entanto o SMILE continua a exibir resultados interessantes para motivos estruturados o

que constitui sem duacutevida a mais-valia fundamental do algoritmo Tudo indica que o meacutetodo

analiacutetico pode ser igualmente adaptado para calcular a significacircncia de motivos estruturados

Parece-nos claro que uma eficaz extracccedilatildeo de motivos relevantes passaraacute necessariamente

pela conjugaccedilatildeo com outros dados para aleacutem da simples sequecircncia de nucleoacutetidos Em

particular a disponibilidade de informaccedilatildeo acerca de co-regulaccedilatildeo de genes poderaacute guiar a

extracccedilatildeo de motivos permitindo exigir um quoacuterum mais alto dada a confianccedila na existecircncia

de factores de transcriccedilatildeo comuns

Por outro lado a utilizaccedilatildeo de modelos probabiliacutesticos em vez de meras colecccedilotildees de motivos

poderaacute ser uma abordagem mais natural para o problema permitindo simultaneamente uma

melhor modelaccedilatildeo da realidade bioloacutegica ao indicar uma probabilidade de ocorrecircncia de cada

nucleoacutetido para uma dada posiccedilatildeo no modelo O nuacutemero de modelos extraiacutedos seria tambeacutem

francamente reduzido uma vez que um uacutenico modelo probabiliacutestico pode representar com

expressividade acrescida um grande nuacutemero de motivos

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 47

7 Referecircncias

[1] A Vanet L Marsan e M F Sagot Promoter sequence and algorithmical methods for

identifying them Research in Microbiology 150 pp 779-799 1999

[2] JD Watson FH Crick Molecular structure of nucleic acids a structure for deoxyribose

nucleic acid Nature Number 4356 1953

[3] T Werner Models for Prediction and Recognition of Eukaryotic Promoters Mammalian

Genome Vol 10 pp 168-175 1999

[4] L Marsan e M F Sagot Algorithms for extracting structured motifs using a suffix tree

with an application to promoter and regulatory site consensus identication Journal of

Computational Biology 7 pp 345-362 2000

[5] L Marsan Infeacuterence de motifs structureacutes algorithmes et outils appliqueacutes agrave la deacutetection de

sites de fixation dans des seacutequences geacutenomiques PhD Thesis Universiteacute de Marne-la-Valleacutee

2002

[6] B Flannery S Teukolsky W Press e W Vetterling Numerical Recipes in C++

Cambridge University Press 2002

[7] S Altschul e B Erickson Significance of Nucleotide Sequence Alignments A method of

Random Sequence Permutation That Preserves Dinucleotide and Codon Usage Molecular

Biology Evolution 2 pp 526-538 1985

[8] D Kandel Y Matias R Unger e P Winkler Shuffling Biological Sequences Discrete

Appl Math 71 pp 171-185 1996

[9] R Rudell e A Sangiovanni-Vincentelli Multiple-Valued Minimization for PLA

Optimization IEEE Transactions on Computer-Aided Design of Integrated Circuits and

Systems Vol CAD-6 Nordm 5 pp 727-751 September 1987

[10] R Brayton G Hachtel C McMullen e A Sangiovanni-Vincentelli Logic Minimization

Algorithms for VLSI Synthesis Kluwer Academic Publishers 1985

[11] P Monteiro Dbyeast [httpdescartesinesc-idpt~ptgmdb] 2004

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 48

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 49

Anexo A

Resultados do Caacutelculo da Significacircncia Estatiacutestica referente ao Quoacuterum

para Conjuntos de Dados de Saccharomyces cerevisiae

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados

A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos os resultados para os motivos procurados em relaccedilatildeo a cada valor dos paracircmetros

Nota o campo posicao refere-se agrave posiccedilatildeo ocupada pelo motivo na tabela com a estatiacutestica das sequecircncias com pelo menos uma ocorrecircncia do motivo ordenada por chi2

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

314 motivos encontrados Quorum = 80

670 motivos encontrados Quorum = 75

670 motivos encontrados Quorum = 60

1306 motivos encontrados Erro = 1

Quorum = 100 8636 motivos encontrados k = 1 posicao = 2 chi2 = 98 (ACCTTAAAGGT) k = 2 posicao = 2 chi2 = 976 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 965 (ACCTTAAAGGT) k = 4 posicao = 2 chi2 = 984 (ACCTTAAAGGT)

Quorum = 80 17722 motivos encontrados k = 1 posicao = 2 chi2 = 651 (ACCCTAAAGGT) k = 1 posicao = 4 chi2 = 965 (ACCTTAAAGGT) k = 2 posicao = 2 chi2 = 659 (ACCCTAAAGGT) k = 2 posicao = 8 chi2 = 965 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 667 (ACCCTAAAGGT) k = 3 posicao = 4 chi2 = 969 (ACCTTAAAGGT) k = 4 posicao = 2 chi2 = 659 (ACCCTAAAGGT) k = 4 posicao = 3 chi2 = 984 (ACCTTAAAGGT)

Quorum = 75 17722 motivos encontrados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 50

k = 1 posicao = 4 chi2 = 651 (ACCCTAAAGGT) k = 1 posicao = 2 chi2 = 988 (ACCTTAAAGGT) k = 2 posicao = 3 chi2 = 659 (ACCCTAAAGGT) k = 2 posicao = 2 chi2 = 992 (ACCTTAAAGGT) k = 3 posicao = 2 chi2 = 655 (ACCCTAAAGGT) k = 3 posicao = 3 chi2 = 976 (ACCTTAAAGGT) k = 4 posicao = 3 chi2 = 655 (ACCCTAAAGGT) k = 4 posicao = 5 chi2 = 984 (ACCTTAAAGGT)

Quorum = 60 34907 motivos encontrados k = 1 posicao = 11 chi2 = 655 (ACCCTAAAGGT) k = 1 posicao = 5 chi2 = 996 (ACCTTAAAGGT) k = 1 posicao = 13 chi2 = 421 (ACCTTGAAGGT) k = 2 posicao = 15 chi2 = 647 (ACCCTAAAGGT) k = 2 posicao = 12 chi2 = 969 (ACCTTAAAGGT) k = 2 posicao = 7 chi2 = 421 (ACCTTGAAGGT) k = 3 posicao = 9 chi2 = 655 (ACCCTAAAGGT) k = 3 posicao = 8 chi2 = 984 (ACCTTAAAGGT) k = 3 posicao = 27 chi2 = 414 (ACCTTGAAGGT) k = 4 posicao = 10 chi2 = 651 (ACCCTAAAGGT) k = 4 posicao = 5 chi2 = 984 (ACCTTAAAGGT) k = 4 posicao = 40 chi2 = 407 (ACCTTGAAGGT)

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

161 motivos encontrados Quorum = 80

381 motivos encontrados Quorum = 75

502 motivos encontrados Quorum = 60

826 motivos encontrados k = 1 posicao = 43 chi2 = 33 (CCCCT) k = 2 posicao = 42 chi2 = 202 (CCCCT) k = 3 posicao = 48 chi2 = 142 (CCCCT) k = 4 posicao = 122 chi2 = 028 (CCCCT)

Erro = 1 Quorum = 100

4877 motivos encontrados k = 1 posicao = 3089 chi2 = 002 (CCCCT) k = 2 posicao = 2781 chi2 = 005 (CCCCT) k = 3 posicao = 3148 chi2 = 002 (CCCCT) k = 4 posicao = 2516 chi2 = 007 (CCCCT)

Quorum = 80 10050 motivos encontrados k = 1 posicao = 8449 chi2 = 0 (CCCCT) k = 2 posicao = 5470 chi2 = 009 (CCCCT) k = 3 posicao = 5867 chi2 = 004 (CCCCT) k = 4 posicao = 5131 chi2 = 009 (CCCCT)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 51

Quorum = 75

13080 motivos encontrados k = 1 posicao = 7539 chi2 = 004 (CCCCT) k = 2 posicao = 8129 chi2 = 002 (CCCCT) k = 3 posicao = 7900 chi2 = 003 (CCCCT) k = 4 posicao = 7385 chi2 = 005 (CCCCT)

Quorum = 60 21544 motivos encontrados k = 1 posicao = 12673 chi2 = 004 (CCCCT) k = 2 posicao = 11871 chi2 = 008 (CCCCT) k = 3 posicao = 12731 chi2 = 004 (CCCCT) k = 4 posicao = 11754 chi2 = 007 (CCCCT)

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

326 motivos encontrados Quorum = 80

682 motivos encontrados k = 1 posicao = 169 chi2 = 109 (CCCCT) k = 2 posicao = 238 chi2 = 073 (CCCCT) k = 3 posicao = 223 chi2 = 057 (CCCCT) k = 4 posicao = 331 chi2 = 01 (CCCCT)

Quorum = 75 682 motivos encontrados k = 1 posicao = 136 chi2 = 131 (CCCCT) k = 2 posicao = 178 chi2 = 085 (CCCCT) k = 3 posicao = 245 chi2 = 042 (CCCCT) k = 4 posicao = 331 chi2 = 01 (CCCCT)

Quorum = 60 1316 motivos encontrados k = 1 posicao = 303 chi2 = 17 (CCCCT) k = 2 posicao = 505 chi2 = 075 (CCCCT) k = 3 posicao = 457 chi2 = 059 (CCCCT) k = 4 posicao = 613 chi2 = 014 (CCCCT)

Erro = 1 Quorum = 100

9022 motivos encontrados k = 1 posicao = 7955 chi2 = 0 (CCCCT) k = 2 posicao = 7901 chi2 = 0 (CCCCT) k = 3 posicao = 7846 chi2 = 0 (CCCCT) k = 4 posicao = 7711 chi2 = 0 (CCCCT)

Quorum = 80 17951 motivos encontrados k = 1 posicao = 16310 chi2 = 0 (CCCCT) k = 2 posicao = 16251 chi2 = 0 (CCCCT) k = 3 posicao = 16207 chi2 = 0 (CCCCT) k = 4 posicao = 16091 chi2 = 0 (CCCCT)

Quorum = 75 17951 motivos encontrados k = 1 posicao = 16308 chi2 = 0 (CCCCT)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 52

k = 2 posicao = 16242 chi2 = 0 (CCCCT) k = 3 posicao = 16212 chi2 = 0 (CCCCT) k = 4 posicao = 16063 chi2 = 0 (CCCCT)

Quorum = 60 35258 motivos encontrados k = 1 posicao = 32818 chi2 = 0 (CCCCT) k = 2 posicao = 32757 chi2 = 0 (CCCCT) k = 3 posicao = 32822 chi2 = 0 (CCCCT) k = 4 posicao = 32656 chi2 = 0 (CCCCT)

5_1_gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

220 motivos encontrados Quorum = 80

517 motivos encontrados k = 1 posicao = 52 chi2 = 254 (CTTCC) k = 2 posicao = 87 chi2 = 146 (CTTCC) k = 3 posicao = 164 chi2 = 067 (CTTCC) k = 4 posicao = 236 chi2 = 004 (CTTCC)

Quorum = 75 517 motivos encontrados k = 1 posicao = 77 chi2 = 246 (CTTCC) k = 2 posicao = 83 chi2 = 152 (CTTCC) k = 3 posicao = 99 chi2 = 098 (CTTCC) k = 4 posicao = 241 chi2 = 003 (CTTCC)

Quorum = 60 963 motivos encontrados k = 1 posicao = 625 chi2 = 003 (CATCC) k = 1 posicao = 128 chi2 = 284 (CTTCC) k = 2 posicao = 644 chi2 = 003 (CATCC) k = 2 posicao = 170 chi2 = 177 (CTTCC) k = 3 posicao = 490 chi2 = 015 (CATCC) k = 3 posicao = 256 chi2 = 107 (CTTCC) k = 4 posicao = 522 chi2 = 0 (CATCC) k = 4 posicao = 497 chi2 = 004 (CTTCC)

Erro = 1 Quorum = 100

6121 motivos encontrados k = 1 posicao = 5072 chi2 = 0 (CATCC) k = 1 posicao = 5313 chi2 = 0 (CTTCC) k = 2 posicao = 5049 chi2 = 0 (CATCC) k = 2 posicao = 5287 chi2 = 0 (CTTCC) k = 3 posicao = 4984 chi2 = 0 (CATCC) k = 3 posicao = 5236 chi2 = 0 (CTTCC) k = 4 posicao = 4894 chi2 = 0 (CATCC) k = 4 posicao = 5167 chi2 = 0 (CTTCC)

Quorum = 80 13644 motivos encontrados k = 1 posicao = 11732 chi2 = 0 (CATCC) k = 1 posicao = 11981 chi2 = 0 (CTTCC)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 53

k = 2 posicao = 11792 chi2 = 0 (CATCC) k = 2 posicao = 12044 chi2 = 0 (CTTCC) k = 3 posicao = 11736 chi2 = 0 (CATCC) k = 3 posicao = 11985 chi2 = 0 (CTTCC) k = 4 posicao = 11644 chi2 = 0 (CATCC) k = 4 posicao = 11917 chi2 = 0 (CTTCC)

Quorum = 75 13644 motivos encontrados k = 1 posicao = 11712 chi2 = 0 (CATCC) k = 1 posicao = 11966 chi2 = 0 (CTTCC) k = 2 posicao = 11791 chi2 = 0 (CATCC) k = 2 posicao = 12027 chi2 = 0 (CTTCC) k = 3 posicao = 11729 chi2 = 0 (CATCC) k = 3 posicao = 11981 chi2 = 0 (CTTCC) k = 4 posicao = 11649 chi2 = 0 (CATCC) k = 4 posicao = 11920 chi2 = 0 (CTTCC)

Quorum = 60 25804 motivos encontrados k = 1 posicao = 22732 chi2 = 0 (CATCC) k = 1 posicao = 22973 chi2 = 0 (CTTCC) k = 2 posicao = 22881 chi2 = 0 (CATCC) k = 2 posicao = 23121 chi2 = 0 (CTTCC) k = 3 posicao = 22916 chi2 = 0 (CATCC) k = 3 posicao = 23164 chi2 = 0 (CTTCC) k = 4 posicao = 22864 chi2 = 0 (CATCC) k = 4 posicao = 23141 chi2 = 0 (CTTCC)

6_0_MIG1

Motivo GCGGGG Frequecircncia 16 ~167 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

290 motivos encontrados Quorum = 80

556 motivos encontrados Quorum = 75

556 motivos encontrados Quorum = 60

927 motivos encontrados Erro = 1

Quorum = 100 7881 motivos encontrados k = 1 posicao = 650 chi2 = 252 (GCGGGG) k = 2 posicao = 773 chi2 = 173 (GCGGGG) k = 3 posicao = 1341 chi2 = 101 (GCGGGG) k = 4 posicao = 4437 chi2 = 052 (GCGGGG)

Quorum = 80 14601 motivos encontrados k = 1 posicao = 1895 chi2 = 249 (GCGGGG) k = 2 posicao = 2045 chi2 = 161 (GCGGGG) k = 3 posicao = 3284 chi2 = 11 (GCGGGG) k = 4 posicao = 7272 chi2 = 05 (GCGGGG)

Quorum = 75

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 54

14601 motivos encontrados k = 1 posicao = 2121 chi2 = 234 (GCGGGG) k = 2 posicao = 2604 chi2 = 153 (GCGGGG) k = 3 posicao = 3778 chi2 = 089 (GCGGGG) k = 4 posicao = 8057 chi2 = 047 (GCGGGG)

Quorum = 60 25117 motivos encontrados k = 1 posicao = 4371 chi2 = 234 (GCGGGG) k = 2 posicao = 5452 chi2 = 153 (GCGGGG) k = 3 posicao = 7361 chi2 = 116 (GCGGGG) k = 4 posicao = 12643 chi2 = 051 (GCGGGG)

6_0_UME6

Motivo GCCGCC Frequecircncia 37 ~4286 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

257 motivos encontrados Quorum = 80

454 motivos encontrados Quorum = 75

454 motivos encontrados Quorum = 60

748 motivos encontrados Erro = 1

Quorum = 100 7186 motivos encontrados

Quorum = 80 12323 motivos encontrados

Quorum = 75 12323 motivos encontrados

Quorum = 60 19726 motivos encontrados k = 1 posicao = 13214 chi2 = 002 (GCCGCC) k = 2 posicao = 14628 chi2 = 0 (GCCGCC) k = 3 posicao = 14684 chi2 = 0 (GCCGCC) k = 4 posicao = 15398 chi2 = 002 (GCCGCC)

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

173 motivos encontrados Quorum = 80

403 motivos encontrados Quorum = 75

530 motivos encontrados k = 1 posicao = 6 chi2 = 755 (GATAAG)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 55

k = 2 posicao = 3 chi2 = 892 (GATAAG) k = 3 posicao = 3 chi2 = 725 (GATAAG) k = 4 posicao = 12 chi2 = 457 (GATAAG)

Quorum = 60 836 motivos encontrados k = 1 posicao = 24 chi2 = 771 (GATAAG) k = 2 posicao = 7 chi2 = 94 (GATAAG) k = 3 posicao = 12 chi2 = 719 (GATAAG) k = 4 posicao = 25 chi2 = 48 (GATAAG)

Erro = 1 Quorum = 100

5360 motivos encontrados k = 1 posicao = 2690 chi2 = 012 (GATAAG) k = 1 posicao = 3118 chi2 = 008 (GATTAG) k = 2 posicao = 2917 chi2 = 01 (GATAAG) k = 2 posicao = 2424 chi2 = 02 (GATTAG) k = 3 posicao = 3096 chi2 = 007 (GATAAG) k = 3 posicao = 1982 chi2 = 033 (GATTAG) k = 4 posicao = 3004 chi2 = 007 (GATAAG) k = 4 posicao = 2767 chi2 = 01 (GATTAG)

Quorum = 80 10819 motivos encontrados k = 1 posicao = 6729 chi2 = 011 (GATAAG) k = 1 posicao = 6816 chi2 = 009 (GATTAG) k = 2 posicao = 6240 chi2 = 013 (GATAAG) k = 2 posicao = 6446 chi2 = 011 (GATTAG) k = 3 posicao = 7301 chi2 = 004 (GATAAG) k = 3 posicao = 4235 chi2 = 053 (GATTAG) k = 4 posicao = 7045 chi2 = 004 (GATAAG) k = 4 posicao = 6317 chi2 = 012 (GATTAG)

Quorum = 75 13889 motivos encontrados k = 1 posicao = 9061 chi2 = 007 (GATAAG) k = 1 posicao = 8672 chi2 = 01 (GATTAG) k = 2 posicao = 8095 chi2 = 016 (GATAAG) k = 2 posicao = 8763 chi2 = 01 (GATTAG) k = 3 posicao = 8965 chi2 = 008 (GATAAG) k = 3 posicao = 6907 chi2 = 036 (GATTAG) k = 4 posicao = 8966 chi2 = 006 (GATAAG) k = 4 posicao = 8323 chi2 = 011 (GATTAG)

Quorum = 60 22209 motivos encontrados k = 1 posicao = 14904 chi2 = 008 (GATAAG) k = 1 posicao = 14384 chi2 = 013 (GATTAG) k = 2 posicao = 13923 chi2 = 015 (GATAAG) k = 2 posicao = 13902 chi2 = 015 (GATTAG) k = 3 posicao = 14932 chi2 = 008 (GATAAG) k = 3 posicao = 11534 chi2 = 046 (GATTAG) k = 4 posicao = 14680 chi2 = 007 (GATAAG) k = 4 posicao = 13878 chi2 = 017 (GATTAG)

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 56

Erro = 0 Quorum = 100

128 motivos encontrados Quorum = 80

372 motivos encontrados Quorum = 75

454 motivos encontrados Quorum = 60

785 motivos encontrados Erro = 1

Quorum = 100 4212 motivos encontrados k = 1 posicao = 326 chi2 = 14 (CACCCA) k = 2 posicao = 594 chi2 = 108 (CACCCA) k = 3 posicao = 244 chi2 = 107 (CACCCA) k = 4 posicao = 1210 chi2 = 038 (CACCCA)

Quorum = 80 9800 motivos encontrados k = 1 posicao = 1302 chi2 = 157 (CACCCA) k = 1 posicao = 2061 chi2 = 087 (CACCCG) k = 2 posicao = 2058 chi2 = 117 (CACCCA) k = 2 posicao = 2522 chi2 = 059 (CACCCG) k = 3 posicao = 1624 chi2 = 106 (CACCCA) k = 3 posicao = 2994 chi2 = 045 (CACCCG) k = 4 posicao = 2703 chi2 = 05 (CACCCA) k = 4 posicao = 3926 chi2 = 011 (CACCCG)

Quorum = 75 11933 motivos encontrados k = 1 posicao = 1951 chi2 = 145 (CACCCA) k = 1 posicao = 2903 chi2 = 081 (CACCCG) k = 2 posicao = 2227 chi2 = 116 (CACCCA) k = 2 posicao = 3417 chi2 = 062 (CACCCG) k = 3 posicao = 2137 chi2 = 108 (CACCCA) k = 3 posicao = 3426 chi2 = 041 (CACCCG) k = 4 posicao = 4518 chi2 = 031 (CACCCA) k = 4 posicao = 4805 chi2 = 012 (CACCCG)

Quorum = 60 20531 motivos encontrados k = 1 posicao = 5137 chi2 = 144 (CACCCA) k = 1 posicao = 5556 chi2 = 073 (CACCCG) k = 2 posicao = 4865 chi2 = 113 (CACCCA) k = 2 posicao = 5737 chi2 = 062 (CACCCG) k = 3 posicao = 4491 chi2 = 097 (CACCCA) k = 3 posicao = 5797 chi2 = 052 (CACCCG) k = 4 posicao = 7825 chi2 = 041 (CACCCA) k = 4 posicao = 7275 chi2 = 018 (CACCCG)

7_0_REB1

Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

211 motivos encontrados k = 1 posicao = 4 chi2 = 965 (TTACCC)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 57

k = 2 posicao = 4 chi2 = 105 (TTACCC) k = 3 posicao = 4 chi2 = 1075 (TTACCC) k = 4 posicao = 4 chi2 = 755 (TTACCC)

Quorum = 80 405 motivos encontrados k = 1 posicao = 4 chi2 = 932 (TTACCC) k = 2 posicao = 4 chi2 = 1083 (TTACCC) k = 3 posicao = 4 chi2 = 1106 (TTACCC) k = 4 posicao = 4 chi2 = 723 (TTACCC)

Quorum = 75 605 motivos encontrados k = 1 posicao = 6 chi2 = 947 (TTACCC) k = 2 posicao = 5 chi2 = 999 (TTACCC) k = 3 posicao = 5 chi2 = 1098 (TTACCC) k = 4 posicao = 5 chi2 = 808 (TTACCC)

Quorum = 60 907 motivos encontrados k = 1 posicao = 9 chi2 = 1007 (TTACCC) k = 2 posicao = 6 chi2 = 1089 (TTACCC) k = 3 posicao = 6 chi2 = 1081 (TTACCC) k = 4 posicao = 6 chi2 = 788 (TTACCC)

Erro = 1 Quorum = 100

6121 motivos encontrados k = 1 posicao = 4617 chi2 = 013 (TTACCC) k = 2 posicao = 4454 chi2 = 016 (TTACCC) k = 3 posicao = 4730 chi2 = 012 (TTACCC) k = 4 posicao = 5483 chi2 = 004 (TTACCC)

Quorum = 80 10337 motivos encontrados k = 1 posicao = 7525 chi2 = 008 (TTACCC) k = 2 posicao = 7267 chi2 = 01 (TTACCC) k = 3 posicao = 7129 chi2 = 012 (TTACCC) k = 4 posicao = 7469 chi2 = 009 (TTACCC)

Quorum = 75 15777 motivos encontrados k = 1 posicao = 10287 chi2 = 012 (TTACCC) k = 2 posicao = 10740 chi2 = 01 (TTACCC) k = 3 posicao = 9696 chi2 = 016 (TTACCC) k = 4 posicao = 10789 chi2 = 008 (TTACCC)

Quorum = 60 23856 motivos encontrados k = 1 posicao = 15646 chi2 = 01 (TTACCC) k = 2 posicao = 15437 chi2 = 012 (TTACCC) k = 3 posicao = 13932 chi2 = 022 (TTACCC) k = 4 posicao = 15597 chi2 = 009 (TTACCC)

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

235 motivos encontrados Quorum = 80

475 motivos encontrados

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 58

k = 1 posicao = 3 chi2 = 945 (TGCCAAG) k = 2 posicao = 2 chi2 = 92 (TGCCAAG) k = 3 posicao = 2 chi2 = 892 (TGCCAAG) k = 4 posicao = 3 chi2 = 7 (TGCCAAG)

Quorum = 75 475 motivos encontrados k = 1 posicao = 2 chi2 = 924 (TGCCAAG) k = 2 posicao = 3 chi2 = 886 (TGCCAAG) k = 3 posicao = 3 chi2 = 869 (TGCCAAG) k = 4 posicao = 2 chi2 = 678 (TGCCAAG)

Quorum = 60 785 motivos encontrados k = 1 posicao = 5 chi2 = 952 (TGCCAAG) k = 2 posicao = 4 chi2 = 934 (TGCCAAG) k = 3 posicao = 4 chi2 = 869 (TGCCAAG) k = 4 posicao = 6 chi2 = 67 (TGCCAAG)

Erro = 1 Quorum = 100

7028 motivos encontrados k = 1 posicao = 436 chi2 = 321 (TGCCAAG) k = 2 posicao = 551 chi2 = 217 (TGCCAAG) k = 3 posicao = 940 chi2 = 223 (TGCCAAG) k = 4 posicao = 1492 chi2 = 095 (TGCCAAG)

Quorum = 80 12574 motivos encontrados k = 1 posicao = 1703 chi2 = 325 (TGCCAAG) k = 2 posicao = 2035 chi2 = 244 (TGCCAAG) k = 3 posicao = 1678 chi2 = 217 (TGCCAAG) k = 4 posicao = 3298 chi2 = 093 (TGCCAAG)

Quorum = 75 12574 motivos encontrados k = 1 posicao = 1739 chi2 = 333 (TGCCAAG) k = 2 posicao = 1717 chi2 = 216 (TGCCAAG) k = 3 posicao = 1609 chi2 = 212 (TGCCAAG) k = 4 posicao = 3574 chi2 = 075 (TGCCAAG)

Quorum = 60 20257 motivos encontrados k = 1 posicao = 3598 chi2 = 304 (TGCCAAG) k = 2 posicao = 3664 chi2 = 211 (TGCCAAG) k = 3 posicao = 3206 chi2 = 213 (TGCCAAG) k = 4 posicao = 4753 chi2 = 115 (TGCCAAG)

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

267 motivos encontrados k = 1 posicao = 4 chi2 = 998 (TGAAACA) k = 2 posicao = 5 chi2 = 908 (TGAAACA) k = 3 posicao = 5 chi2 = 875 (TGAAACA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 59

k = 4 posicao = 4 chi2 = 743 (TGAAACA)

Quorum = 80 529 motivos encontrados k = 1 posicao = 4 chi2 = 969 (TGAAACA) k = 2 posicao = 6 chi2 = 84 (TGAAACA) k = 3 posicao = 5 chi2 = 845 (TGAAACA) k = 4 posicao = 5 chi2 = 702 (TGAAACA)

Quorum = 75 529 motivos encontrados k = 1 posicao = 6 chi2 = 933 (TGAAACA) k = 2 posicao = 5 chi2 = 866 (TGAAACA) k = 3 posicao = 5 chi2 = 86 (TGAAACA) k = 4 posicao = 5 chi2 = 717 (TGAAACA)

Quorum = 60 916 motivos encontrados k = 1 posicao = 12 chi2 = 956 (TGAAACA) k = 2 posicao = 13 chi2 = 893 (TGAAACA) k = 3 posicao = 16 chi2 = 84 (TGAAACA) k = 4 posicao = 18 chi2 = 715 (TGAAACA)

Erro = 1 Quorum = 100

7705 motivos encontrados k = 1 posicao = 4203 chi2 = 055 (TGAAACA) k = 2 posicao = 5562 chi2 = 02 (TGAAACA) k = 3 posicao = 5481 chi2 = 021 (TGAAACA) k = 4 posicao = 6219 chi2 = 012 (TGAAACA)

Quorum = 80 14161 motivos encontrados k = 1 posicao = 8113 chi2 = 052 (TGAAACA) k = 2 posicao = 9261 chi2 = 022 (TGAAACA) k = 3 posicao = 8536 chi2 = 029 (TGAAACA) k = 4 posicao = 10343 chi2 = 01 (TGAAACA)

Quorum = 75 14161 motivos encontrados k = 1 posicao = 7156 chi2 = 066 (TGAAACA) k = 2 posicao = 8778 chi2 = 028 (TGAAACA) k = 3 posicao = 8848 chi2 = 034 (TGAAACA) k = 4 posicao = 9747 chi2 = 015 (TGAAACA)

Quorum = 60 24421 motivos encontrados k = 1 posicao = 12918 chi2 = 049 (TGAAACA) k = 2 posicao = 15781 chi2 = 024 (TGAAACA) k = 3 posicao = 13941 chi2 = 03 (TGAAACA) k = 4 posicao = 16147 chi2 = 017 (TGAAACA)

7_1_SWI4

Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

330 motivos encontrados Quorum = 80

675 motivos encontrados k = 1 posicao = 3 chi2 = 575 (CGCGAAA) k = 2 posicao = 3 chi2 = 483 (CGCGAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 60

k = 3 posicao = 11 chi2 = 395 (CGCGAAA) k = 4 posicao = 5 chi2 = 367 (CGCGAAA)

Quorum = 75 675 motivos encontrados k = 1 posicao = 2 chi2 = 6 (CGCGAAA) k = 2 posicao = 4 chi2 = 504 (CGCGAAA) k = 3 posicao = 14 chi2 = 372 (CGCGAAA) k = 4 posicao = 14 chi2 = 343 (CGCGAAA)

Quorum = 60 1349 motivos encontrados k = 1 posicao = 50 chi2 = 31 (CACGAAA) k = 1 posicao = 8 chi2 = 569 (CGCGAAA) k = 2 posicao = 81 chi2 = 26 (CACGAAA) k = 2 posicao = 20 chi2 = 48 (CGCGAAA) k = 3 posicao = 117 chi2 = 21 (CACGAAA) k = 3 posicao = 47 chi2 = 37 (CGCGAAA) k = 4 posicao = 309 chi2 = 056 (CACGAAA) k = 4 posicao = 33 chi2 = 367 (CGCGAAA)

Erro = 1 Quorum = 100

8974 motivos encontrados k = 1 posicao = 2630 chi2 = 093 (CACGAAA) k = 1 posicao = 1189 chi2 = 212 (CGCGAAA) k = 2 posicao = 3046 chi2 = 07 (CACGAAA) k = 2 posicao = 2138 chi2 = 101 (CGCGAAA) k = 3 posicao = 4224 chi2 = 03 (CACGAAA) k = 3 posicao = 4064 chi2 = 04 (CGCGAAA) k = 4 posicao = 5230 chi2 = 012 (CACGAAA) k = 4 posicao = 4771 chi2 = 018 (CGCGAAA)

Quorum = 80 17937 motivos encontrados k = 1 posicao = 6152 chi2 = 107 (CACGAAA) k = 1 posicao = 3575 chi2 = 211 (CGCGAAA) k = 2 posicao = 7073 chi2 = 071 (CACGAAA) k = 2 posicao = 6979 chi2 = 078 (CGCGAAA) k = 3 posicao = 9212 chi2 = 035 (CACGAAA) k = 3 posicao = 8502 chi2 = 038 (CGCGAAA) k = 4 posicao = 10421 chi2 = 017 (CACGAAA) k = 4 posicao = 9629 chi2 = 026 (CGCGAAA)

Quorum = 75 17937 motivos encontrados k = 1 posicao = 6271 chi2 = 104 (CACGAAA) k = 1 posicao = 4092 chi2 = 171 (CGCGAAA) k = 2 posicao = 8574 chi2 = 052 (CACGAAA) k = 2 posicao = 5741 chi2 = 107 (CGCGAAA) k = 3 posicao = 10092 chi2 = 026 (CACGAAA) k = 3 posicao = 8743 chi2 = 044 (CGCGAAA) k = 4 posicao = 11741 chi2 = 009 (CACGAAA) k = 4 posicao = 9601 chi2 = 022 (CGCGAAA)

Quorum = 60 35352 motivos encontrados k = 1 posicao = 15854 chi2 = 094 (CACGAAA) k = 1 posicao = 9842 chi2 = 196 (CGCGAAA) k = 2 posicao = 18655 chi2 = 063 (CACGAAA) k = 2 posicao = 16854 chi2 = 093 (CGCGAAA) k = 3 posicao = 21349 chi2 = 025 (CACGAAA) k = 3 posicao = 19789 chi2 = 036 (CGCGAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 61

k = 4 posicao = 22509 chi2 = 016 (CACGAAA) k = 4 posicao = 21049 chi2 = 027 (CGCGAAA)

7_2_GCN4

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

229 motivos encontrados Quorum = 80

372 motivos encontrados Quorum = 75

586 motivos encontrados Quorum = 60

839 motivos encontrados Erro = 1

Quorum = 100 6343 motivos encontrados

Quorum = 80 10422 motivos encontrados

Quorum = 75 15227 motivos encontrados

Quorum = 60 21609 motivos encontrados

7_2_RGT1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

205 motivos encontrados Quorum = 80

496 motivos encontrados k = 1 posicao = 4 chi2 = 1052 (CGGAAAA) k = 2 posicao = 2 chi2 = 883 (CGGAAAA) k = 3 posicao = 2 chi2 = 692 (CGGAAAA) k = 4 posicao = 10 chi2 = 308 (CGGAAAA)

Quorum = 75 496 motivos encontrados k = 1 posicao = 4 chi2 = 1101 (CGGAAAA) k = 2 posicao = 3 chi2 = 855 (CGGAAAA) k = 3 posicao = 4 chi2 = 685 (CGGAAAA) k = 4 posicao = 9 chi2 = 338 (CGGAAAA)

Quorum = 60 987 motivos encontrados k = 1 posicao = 10 chi2 = 1087 (CGGAAAA) k = 2 posicao = 11 chi2 = 792 (CGGAAAA) k = 3 posicao = 10 chi2 = 637 (CGGAAAA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 62

k = 4 posicao = 27 chi2 = 333 (CGGAAAA)

Erro = 1 Quorum = 100

6085 motivos encontrados k = 1 posicao = 740 chi2 = 226 (CGGAAAA) k = 1 posicao = 244 chi2 = 442 (CGGAAGA) k = 1 posicao = 375 chi2 = 415 (CGGAGAA) k = 1 posicao = 795 chi2 = 205 (CGGATAA) k = 2 posicao = 1431 chi2 = 069 (CGGAAAA) k = 2 posicao = 350 chi2 = 257 (CGGAAGA) k = 2 posicao = 313 chi2 = 281 (CGGAGAA) k = 2 posicao = 403 chi2 = 257 (CGGATAA) k = 3 posicao = 2933 chi2 = 015 (CGGAAAA) k = 3 posicao = 543 chi2 = 161 (CGGAAGA) k = 3 posicao = 758 chi2 = 162 (CGGAGAA) k = 3 posicao = 334 chi2 = 242 (CGGATAA) k = 4 posicao = 3388 chi2 = 006 (CGGAAAA) k = 4 posicao = 944 chi2 = 088 (CGGAAGA) k = 4 posicao = 682 chi2 = 096 (CGGAGAA) k = 4 posicao = 448 chi2 = 157 (CGGATAA)

Quorum = 80 13578 motivos encontrados k = 1 posicao = 2782 chi2 = 211 (CGGAAAA) k = 1 posicao = 1309 chi2 = 443 (CGGAAGA) k = 1 posicao = 9793 chi2 = 0 (CGGAATA) k = 1 posicao = 1525 chi2 = 436 (CGGAGAA) k = 1 posicao = 1267 chi2 = 351 (CGGAGGA) k = 1 posicao = 2001 chi2 = 282 (CGGATAA) k = 1 posicao = 4454 chi2 = 055 (CGGATTA) k = 2 posicao = 4354 chi2 = 063 (CGGAAAA) k = 2 posicao = 1547 chi2 = 273 (CGGAAGA) k = 2 posicao = 7920 chi2 = 004 (CGGAATA) k = 2 posicao = 2260 chi2 = 262 (CGGAGAA) k = 2 posicao = 1049 chi2 = 271 (CGGAGGA) k = 2 posicao = 1502 chi2 = 271 (CGGATAA) k = 2 posicao = 3568 chi2 = 083 (CGGATTA) k = 3 posicao = 6889 chi2 = 02 (CGGAAAA) k = 3 posicao = 2122 chi2 = 16 (CGGAAGA) k = 3 posicao = 10332 chi2 = 01 (CGGAATA) k = 3 posicao = 2408 chi2 = 144 (CGGAGAA) k = 3 posicao = 1273 chi2 = 214 (CGGAGGA) k = 3 posicao = 1406 chi2 = 211 (CGGATAA) k = 3 posicao = 1203 chi2 = 189 (CGGATTA) k = 4 posicao = 8380 chi2 = 003 (CGGAAAA) k = 4 posicao = 4250 chi2 = 074 (CGGAAGA) k = 4 posicao = 12881 chi2 = 037 (CGGAATA) k = 4 posicao = 3392 chi2 = 088 (CGGAGAA) k = 4 posicao = 1278 chi2 = 162 (CGGAGGA) k = 4 posicao = 1930 chi2 = 148 (CGGATAA) k = 4 posicao = 1157 chi2 = 136 (CGGATTA)

Quorum = 75 13578 motivos encontrados k = 1 posicao = 2620 chi2 = 264 (CGGAAAA) k = 1 posicao = 1452 chi2 = 443 (CGGAAGA) k = 1 posicao = 8943 chi2 = 001 (CGGAATA) k = 1 posicao = 1121 chi2 = 446 (CGGAGAA) k = 1 posicao = 965 chi2 = 424 (CGGAGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 63

k = 1 posicao = 2453 chi2 = 246 (CGGATAA) k = 1 posicao = 3571 chi2 = 086 (CGGATTA) k = 2 posicao = 4690 chi2 = 069 (CGGAAAA) k = 2 posicao = 1475 chi2 = 255 (CGGAAGA) k = 2 posicao = 7150 chi2 = 01 (CGGAATA) k = 2 posicao = 1209 chi2 = 259 (CGGAGAA) k = 2 posicao = 837 chi2 = 274 (CGGAGGA) k = 2 posicao = 1900 chi2 = 268 (CGGATAA) k = 2 posicao = 3981 chi2 = 066 (CGGATTA) k = 3 posicao = 6549 chi2 = 022 (CGGAAAA) k = 3 posicao = 1447 chi2 = 191 (CGGAAGA) k = 3 posicao = 10656 chi2 = 018 (CGGAATA) k = 3 posicao = 2435 chi2 = 155 (CGGAGAA) k = 3 posicao = 1026 chi2 = 21 (CGGAGGA) k = 3 posicao = 1469 chi2 = 233 (CGGATAA) k = 3 posicao = 1202 chi2 = 189 (CGGATTA) k = 4 posicao = 11692 chi2 = 0 (CGGAAAA) k = 4 posicao = 3717 chi2 = 077 (CGGAAGA) k = 4 posicao = 10890 chi2 = 035 (CGGAATA) k = 4 posicao = 3482 chi2 = 087 (CGGAGAA) k = 4 posicao = 1187 chi2 = 168 (CGGAGGA) k = 4 posicao = 1746 chi2 = 148 (CGGATAA) k = 4 posicao = 1204 chi2 = 149 (CGGATTA)

Quorum = 60 25839 motivos encontrados k = 1 posicao = 5870 chi2 = 247 (CGGAAAA) k = 1 posicao = 4726 chi2 = 405 (CGGAAGA) k = 1 posicao = 18076 chi2 = 0 (CGGAATA) k = 1 posicao = 3940 chi2 = 388 (CGGAGAA) k = 1 posicao = 3424 chi2 = 384 (CGGAGGA) k = 1 posicao = 15679 chi2 = 005 (CGGAGTA) k = 1 posicao = 6177 chi2 = 245 (CGGATAA) k = 1 posicao = 15167 chi2 = 008 (CGGATGA) k = 1 posicao = 11165 chi2 = 059 (CGGATTA) k = 2 posicao = 11428 chi2 = 046 (CGGAAAA) k = 2 posicao = 4811 chi2 = 242 (CGGAAGA) k = 2 posicao = 16216 chi2 = 003 (CGGAATA) k = 2 posicao = 4128 chi2 = 226 (CGGAGAA) k = 2 posicao = 3005 chi2 = 278 (CGGAGGA) k = 2 posicao = 10245 chi2 = 04 (CGGAGTA) k = 2 posicao = 3437 chi2 = 3 (CGGATAA) k = 2 posicao = 10379 chi2 = 033 (CGGATGA) k = 2 posicao = 8888 chi2 = 072 (CGGATTA) k = 3 posicao = 13836 chi2 = 017 (CGGAAAA) k = 3 posicao = 4943 chi2 = 191 (CGGAAGA) k = 3 posicao = 20550 chi2 = 01 (CGGAATA) k = 3 posicao = 6774 chi2 = 155 (CGGAGAA) k = 3 posicao = 2524 chi2 = 222 (CGGAGGA) k = 3 posicao = 13828 chi2 = 01 (CGGAGTA) k = 3 posicao = 4859 chi2 = 197 (CGGATAA) k = 3 posicao = 9284 chi2 = 029 (CGGATGA) k = 3 posicao = 3146 chi2 = 179 (CGGATTA) k = 4 posicao = 17095 chi2 = 001 (CGGAAAA) k = 4 posicao = 7930 chi2 = 083 (CGGAAGA) k = 4 posicao = 24667 chi2 = 051 (CGGAATA) k = 4 posicao = 9042 chi2 = 083 (CGGAGAA) k = 4 posicao = 3884 chi2 = 147 (CGGAGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 64

k = 4 posicao = 13905 chi2 = 007 (CGGAGTA) k = 4 posicao = 4859 chi2 = 156 (CGGATAA) k = 4 posicao = 14606 chi2 = 005 (CGGATGA) k = 4 posicao = 3783 chi2 = 127 (CGGATTA)

8_1_PDR1

Motivo TCCGYGGA Frequecircncia 68 ~75 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

229 motivos encontrados Quorum = 80

416 motivos encontrados Quorum = 75

639 motivos encontrados k = 1 posicao = 2 chi2 = 96 (TCCGCGGA) k = 2 posicao = 2 chi2 = 941 (TCCGCGGA) k = 3 posicao = 2 chi2 = 915 (TCCGCGGA) k = 4 posicao = 2 chi2 = 674 (TCCGCGGA)

Quorum = 60 950 motivos encontrados k = 1 posicao = 4 chi2 = 937 (TCCGCGGA) k = 2 posicao = 3 chi2 = 933 (TCCGCGGA) k = 3 posicao = 3 chi2 = 926 (TCCGCGGA) k = 4 posicao = 3 chi2 = 686 (TCCGCGGA)

Erro = 1 Quorum = 100

6610 motivos encontrados k = 1 posicao = 8 chi2 = 1095 (TCCGCGGA) k = 1 posicao = 15 chi2 = 1007 (TCCGTGGA) k = 2 posicao = 8 chi2 = 1092 (TCCGCGGA) k = 2 posicao = 18 chi2 = 1039 (TCCGTGGA) k = 3 posicao = 11 chi2 = 907 (TCCGCGGA) k = 3 posicao = 9 chi2 = 881 (TCCGTGGA) k = 4 posicao = 18 chi2 = 517 (TCCGCGGA) k = 4 posicao = 8 chi2 = 759 (TCCGTGGA)

Quorum = 80 11058 motivos encontrados k = 1 posicao = 32 chi2 = 1126 (TCCGCGGA) k = 1 posicao = 48 chi2 = 1053 (TCCGTGGA) k = 2 posicao = 21 chi2 = 1053 (TCCGCGGA) k = 2 posicao = 19 chi2 = 1098 (TCCGTGGA) k = 3 posicao = 29 chi2 = 881 (TCCGCGGA) k = 3 posicao = 60 chi2 = 808 (TCCGTGGA) k = 4 posicao = 97 chi2 = 509 (TCCGCGGA) k = 4 posicao = 42 chi2 = 698 (TCCGTGGA)

Quorum = 75 16695 motivos encontrados k = 1 posicao = 92 chi2 = 1126 (TCCGCGGA) k = 1 posicao = 178 chi2 = 1026 (TCCGTGGA) k = 2 posicao = 70 chi2 = 1092 (TCCGCGGA) k = 2 posicao = 73 chi2 = 1069 (TCCGTGGA) k = 3 posicao = 64 chi2 = 983 (TCCGCGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 65

k = 3 posicao = 83 chi2 = 898 (TCCGTGGA) k = 4 posicao = 336 chi2 = 48 (TCCGCGGA) k = 4 posicao = 130 chi2 = 657 (TCCGTGGA)

Quorum = 60 25049 motivos encontrados k = 1 posicao = 220 chi2 = 1135 (TCCGCGGA) k = 1 posicao = 369 chi2 = 1004 (TCCGTGGA) k = 2 posicao = 83 chi2 = 1159 (TCCGCGGA) k = 2 posicao = 263 chi2 = 1045 (TCCGTGGA) k = 3 posicao = 134 chi2 = 883 (TCCGCGGA) k = 3 posicao = 206 chi2 = 857 (TCCGTGGA) k = 4 posicao = 580 chi2 = 488 (TCCGCGGA) k = 4 posicao = 213 chi2 = 67 (TCCGTGGA)

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

241 motivos encontrados Quorum = 80

423 motivos encontrados k = 1 posicao = 2 chi2 = 1237 (TCCGCGGA) k = 2 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 3 posicao = 2 chi2 = 1229 (TCCGCGGA) k = 4 posicao = 2 chi2 = 915 (TCCGCGGA)

Quorum = 75 667 motivos encontrados k = 1 posicao = 2 chi2 = 1237 (TCCGCGGA) k = 2 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 3 posicao = 2 chi2 = 1217 (TCCGCGGA) k = 4 posicao = 2 chi2 = 909 (TCCGCGGA)

Quorum = 60 1024 motivos encontrados k = 1 posicao = 3 chi2 = 1233 (TCCGCGGA) k = 2 posicao = 4 chi2 = 124 (TCCGCGGA) k = 3 posicao = 3 chi2 = 1221 (TCCGCGGA) k = 4 posicao = 5 chi2 = 918 (TCCGCGGA)

Erro = 1 Quorum = 100

6897 motivos encontrados k = 1 posicao = 17 chi2 = 1115 (TCCGCGGA) k = 1 posicao = 24 chi2 = 1026 (TCCGTGGA) k = 2 posicao = 12 chi2 = 1174 (TCCGCGGA) k = 2 posicao = 10 chi2 = 1138 (TCCGTGGA) k = 3 posicao = 17 chi2 = 945 (TCCGCGGA) k = 3 posicao = 29 chi2 = 827 (TCCGTGGA) k = 4 posicao = 65 chi2 = 481 (TCCGCGGA) k = 4 posicao = 39 chi2 = 616 (TCCGTGGA)

Quorum = 80 11592 motivos encontrados k = 1 posicao = 69 chi2 = 1156 (TCCGCGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 66

k = 1 posicao = 117 chi2 = 1012 (TCCGTGGA) k = 2 posicao = 38 chi2 = 1177 (TCCGCGGA) k = 2 posicao = 69 chi2 = 1061 (TCCGTGGA) k = 3 posicao = 76 chi2 = 893 (TCCGCGGA) k = 3 posicao = 53 chi2 = 817 (TCCGTGGA) k = 4 posicao = 131 chi2 = 526 (TCCGCGGA) k = 4 posicao = 61 chi2 = 638 (TCCGTGGA)

Quorum = 75 17555 motivos encontrados k = 1 posicao = 210 chi2 = 1109 (TCCGCGGA) k = 1 posicao = 265 chi2 = 1061 (TCCGTGGA) k = 2 posicao = 78 chi2 = 115 (TCCGCGGA) k = 2 posicao = 102 chi2 = 1109 (TCCGTGGA) k = 3 posicao = 184 chi2 = 905 (TCCGCGGA) k = 3 posicao = 105 chi2 = 85 (TCCGTGGA) k = 4 posicao = 424 chi2 = 451 (TCCGCGGA) k = 4 posicao = 476 chi2 = 582 (TCCGTGGA)

Quorum = 60 26303 motivos encontrados k = 1 posicao = 433 chi2 = 1118 (TCCGCGGA) k = 1 posicao = 521 chi2 = 991 (TCCGTGGA) k = 2 posicao = 237 chi2 = 1064 (TCCGCGGA) k = 2 posicao = 322 chi2 = 1045 (TCCGTGGA) k = 3 posicao = 316 chi2 = 95 (TCCGCGGA) k = 3 posicao = 415 chi2 = 827 (TCCGTGGA) k = 4 posicao = 978 chi2 = 49 (TCCGCGGA) k = 4 posicao = 1277 chi2 = 616 (TCCGTGGA)

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Erro = 0 Quorum = 100

328 motivos encontrados Quorum = 80

685 motivos encontrados Quorum = 75

685 motivos encontrados Quorum = 60

1319 motivos encontrados k = 1 posicao = 4 chi2 = 411 (TCCGTGGA) k = 2 posicao = 2 chi2 = 421 (TCCGTGGA) k = 3 posicao = 2 chi2 = 407 (TCCGTGGA) k = 4 posicao = 3 chi2 = 354 (TCCGTGGA)

Erro = 1 Quorum = 100

9298 motivos encontrados k = 1 posicao = 95 chi2 = 631 (TCCGAGGA) k = 1 posicao = 63 chi2 = 675 (TCCGCGGA) k = 1 posicao = 75 chi2 = 678 (TCCGTGGA) k = 2 posicao = 51 chi2 = 61 (TCCGAGGA) k = 2 posicao = 25 chi2 = 745 (TCCGCGGA) k = 2 posicao = 22 chi2 = 718 (TCCGTGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 67

k = 3 posicao = 38 chi2 = 538 (TCCGAGGA) k = 3 posicao = 68 chi2 = 543 (TCCGCGGA) k = 3 posicao = 64 chi2 = 57 (TCCGTGGA) k = 4 posicao = 48 chi2 = 529 (TCCGAGGA) k = 4 posicao = 161 chi2 = 389 (TCCGCGGA) k = 4 posicao = 78 chi2 = 477 (TCCGTGGA)

Quorum = 80 18263 motivos encontrados k = 1 posicao = 551 chi2 = 592 (TCCGAGGA) k = 1 posicao = 147 chi2 = 754 (TCCGCGGA) k = 1 posicao = 282 chi2 = 647 (TCCGTGGA) k = 2 posicao = 296 chi2 = 605 (TCCGAGGA) k = 2 posicao = 143 chi2 = 715 (TCCGCGGA) k = 2 posicao = 182 chi2 = 681 (TCCGTGGA) k = 3 posicao = 589 chi2 = 511 (TCCGAGGA) k = 3 posicao = 347 chi2 = 553 (TCCGCGGA) k = 3 posicao = 245 chi2 = 59 (TCCGTGGA) k = 4 posicao = 429 chi2 = 462 (TCCGAGGA) k = 4 posicao = 944 chi2 = 401 (TCCGCGGA) k = 4 posicao = 577 chi2 = 41 (TCCGTGGA)

Quorum = 75 18263 motivos encontrados k = 1 posicao = 790 chi2 = 6 (TCCGAGGA) k = 1 posicao = 168 chi2 = 706 (TCCGCGGA) k = 1 posicao = 451 chi2 = 631 (TCCGTGGA) k = 2 posicao = 195 chi2 = 623 (TCCGAGGA) k = 2 posicao = 152 chi2 = 695 (TCCGCGGA) k = 2 posicao = 155 chi2 = 686 (TCCGTGGA) k = 3 posicao = 159 chi2 = 546 (TCCGAGGA) k = 3 posicao = 286 chi2 = 546 (TCCGCGGA) k = 3 posicao = 281 chi2 = 585 (TCCGTGGA) k = 4 posicao = 342 chi2 = 46 (TCCGAGGA) k = 4 posicao = 562 chi2 = 381 (TCCGCGGA) k = 4 posicao = 632 chi2 = 401 (TCCGTGGA)

Quorum = 60 35494 motivos encontrados k = 1 posicao = 1806 chi2 = 548 (TCCGAGGA) k = 1 posicao = 1580 chi2 = 65 (TCCGCGGA) k = 1 posicao = 1668 chi2 = 595 (TCCGTGGA) k = 2 posicao = 1224 chi2 = 592 (TCCGAGGA) k = 2 posicao = 794 chi2 = 701 (TCCGCGGA) k = 2 posicao = 991 chi2 = 658 (TCCGTGGA) k = 3 posicao = 1647 chi2 = 536 (TCCGAGGA) k = 3 posicao = 2029 chi2 = 546 (TCCGCGGA) k = 3 posicao = 1118 chi2 = 57 (TCCGTGGA) k = 4 posicao = 1549 chi2 = 502 (TCCGAGGA) k = 4 posicao = 2429 chi2 = 385 (TCCGCGGA) k = 4 posicao = 2813 chi2 = 429 (TCCGTGGA)

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 68

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 69

Anexo B Comparaccedilatildeo da Significacircncia Estatiacutestica referente agrave Abundacircncia obtida pelo

Meacutetodo de Shuffling e pelo Meacutetodo Analiacutetico

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos a comparaccedilatildeo entre o valor do chi2 obtido pelo meacutetodo de shuffling e o valor obtido pelo meacutetodo analiacutetico

Cada linha diz respeito a dados em que se conserva um determinado k-mer (k) Em cada uma eacute apresentado o valor do chi2 obtido pelo meacutetodo de shuffling (chi2) e a sua posiccedilatildeo relativa na lista de motivos ordenada por valores decrescentes de chi2 face ao nuacutemero de motivos extraiacutedos Os valores acima referidos tambeacutem satildeo apresentados para o meacutetodo analiacutetico (achi2)

10_2_YRR1 Motivo TTCCGTGGAA TTCCGCGGAT TTCCGCGGAA Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=488 (633 in 8908) achi2=476 (745 in 8908) [TTCCGCGGAA]

K=2 chi2=465 (468 in 8908) achi2=464 (509 in 8908) [TTCCGCGGAA]

K=3 chi2=412 (201 in 8908) achi2=413 (230 in 8908) [TTCCGCGGAA]

K=4 chi2=253 (223 in 8908) achi2=278 (205 in 8908) [TTCCGCGGAA]

K=5 chi2=126 (277 in 8912) achi2=143 (291 in 8912) [TTCCGCGGAA]

K=6 chi2=039 (323 in 8912) achi2=041 (1035 in 8912) [TTCCGCGGAA]

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 70

Error = 1

Quorum = 80

K=1 chi2=388 (428 in 17722) achi2=387 (504 in 17722) [ACCCTAAAGGT]

K=1 chi2=474 (246 in 17722) achi2=483 (265 in 17722) [ACCTTAAAGGT]

K=2 chi2=394 (222 in 17722) achi2=389 (248 in 17722) [ACCCTAAAGGT]

K=2 chi2=474 (111 in 17722) achi2=484 (119 in 17722) [ACCTTAAAGGT]

K=3 chi2=400 (51 in 17722) achi2=391 (61 in 17722) [ACCCTAAAGGT]

K=3 chi2=477 (12 in 17722) achi2=485 (14 in 17722) [ACCTTAAAGGT]

K=4 chi2=394 (28 in 17722) achi2=387 (31 in 17722) [ACCCTAAAGGT]

K=4 chi2=488 (4 in 17722) achi2=485 (4 in 17722) [ACCTTAAAGGT]

K=5 chi2=326 (24 in 17722) achi2=343 (29 in 17722) [ACCCTAAAGGT]

K=5 chi2=435 (7 in 17722) achi2=462 (3 in 17722) [ACCTTAAAGGT]

K=6 chi2=071 (387 in 17722) achi2=282 (276 in 17722) [ACCCTAAAGGT]

K=6 chi2=310 (2 in 17722) achi2=431 (259 in 17722) [ACCTTAAAGGT]

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=344 (91 in 1316) achi2=314 (116 in 1316) [CCCCT]

K=2 chi2=187 (183 in 1316) achi2=194 (178 in 1316) [CCCCT]

K=3 chi2=164 (138 in 1316) achi2=140 (190 in 1316) [CCCCT]

K=4 chi2=088 (186 in 1316) achi2=104 (150 in 1316) [CCCCT]

Error = 1

Quorum = 60

K=1 chi2=056 (18487 in 35258) achi2=082 (15627 in 35258) [CCCCT]

K=2 chi2=000 (34670 in 35258) achi2=000 (34292 in 35258) [CCCCT]

K=3 chi2=007 (27587 in 35258) achi2=011 (25832 in 35258) [CCCCT]

K=4 chi2=044 (14195 in 35258) achi2=044 (14486 in 35258) [CCCCT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 71

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=534 (66 in 826) achi2=523 (72 in 826) [CCCCT]

K=2 chi2=290 (76 in 826) achi2=297 (75 in 826) [CCCCT]

K=3 chi2=159 (97 in 826) achi2=152 (105 in 826) [CCCCT]

K=4 chi2=022 (242 in 826) achi2=007 (382 in 826) [CCCCT]

K=5 chi2=000 (360 in 826) achi2=000 (339 in 826) [CCCCT]

K=6 chi2=000 (331 in 826) achi2=000 (604 in 826) [CCCCT]

Error = 1

Quorum = 60

K=1 chi2=372 (2640 in 21544) achi2=462 (2153 in 21544) [CCCCT]

K=2 chi2=041 (10937 in 21544) achi2=070 (8620 in 21544) [CCCCT]

K=3 chi2=000 (20651 in 21544) achi2=000 (20723 in 21544) [CCCCT]

K=4 chi2=080 (4245 in 21544) achi2=083 (4322 in 21544) [CCCCT]

K=5 chi2=000 (19590 in 21562) achi2=000 (20653 in 21562) [CCCCT]

K=6 chi2=000 (16728 in 21562) achi2=000 (21282 in 21562) [CCCCT]

5_1_Gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=080 (3213 in 6121) achi2=079 (3260 in 6121) [CATCC]

K=1 chi2=1188 (320 in 6121) achi2=1158 (344 in 6121) [CTTCC]

K=2 chi2=180 (1552 in 6121) achi2=161 (1763 in 6121) [CATCC]

K=2 chi2=504 (498 in 6121) achi2=470 (566 in 6121) [CTTCC]

K=3 chi2=205 (809 in 6121) achi2=192 (906 in 6121) [CATCC]

K=3 chi2=102 (1713 in 6121) achi2=109 (1663 in 6121) [CTTCC]

K=4 chi2=097 (929 in 6121) achi2=091 (1091 in 6121) [CATCC]

K=4 chi2=001 (5090 in 6121) achi2=001 (5126 in 6121) [CTTCC]

K=5 chi2=000 (5948 in 6121) achi2=000 (5152 in 6121) [CATCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 72

K=5 chi2=000 (4578 in 6121) achi2=000 (5000 in 6121) [CTTCC]

K=6 chi2=000 (5634 in 6121) achi2=000 (5438 in 6121) [CATCC]

K=6 chi2=000 (2279 in 6121) achi2=000 (5149 in 6121) [CTTCC]

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 chi2=292 (2311 in 10819) achi2=273 (2534 in 10819) [GATAAG]

K=1 chi2=131 (4204 in 10819) achi2=102 (4875 in 10819) [GATTAG]

K=2 chi2=499 (766 in 10819) achi2=493 (849 in 10819) [GATAAG]

K=2 chi2=280 (1760 in 10819) achi2=268 (1952 in 10819) [GATTAG]

K=3 chi2=168 (2077 in 10819) achi2=174 (2107 in 10819) [GATAAG]

K=3 chi2=953 (62 in 10819) achi2=925 (81 in 10819) [GATTAG]

K=4 chi2=014 (6803 in 10819) achi2=009 (7567 in 10819) [GATAAG]

K=4 chi2=309 (394 in 10819) achi2=352 (328 in 10819) [GATTAG]

K=5 chi2=001 (8734 in 10819) achi2=003 (7728 in 10819) [GATAAG]

K=5 chi2=176 (429 in 10819) achi2=159 (773 in 10819) [GATTAG]

K=6 chi2=000 (9825 in 10819) achi2=000 (6602 in 10819) [GATAAG]

K=6 chi2=000 (7459 in 10819) achi2=000 (6760 in 10819) [GATTAG]

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

Error = 1

Quorum = 60

K=1 chi2=382 (3218 in 20531) achi2=555 (2348 in 20531) [CACCCA]

k=1 chi2=083 (9754 in 20531) achi2=102 (9117 in 20531) [CACCCG]

K=2 chi2=330 (2327 in 20531) achi2=368 (2233 in 20531) [CACCCA]

K=2 chi2=143 (5707 in 20531) achi2=117 (6956 in 20531) [CACCCG]

K=3 chi2=209 (2208 in 20531) achi2=223 (2249 in 20531) [CACCCA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 73

K=3 chi2=040 (9516 in 20531) achi2=023 (12243 in 20531) [CACCCG]

K=4 chi2=071 (4649 in 20531) achi2=105 (3457 in 20531) [CACCCA]

K=4 chi2=000 (19099 in 20531) achi2=002 (17523 in 20531) [CACCCG]

7_0_REB1 Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 chi2=549 (29 in 405) achi2=586 (33 in 405) [TTACCC]

K=2 chi2=688 (6 in 405) achi2=635 (12 in 405) [TTACCC]

K=3 chi2=706 (2 in 405) achi2=679 (2 in 405) [TTACCC]

K=4 chi2=373 (3 in 405) achi2=402 (3 in 405) [TTACCC]

K=5 chi2=034 (7 in 405) achi2=020 (8 in 405) [TTACCC]

K=6 chi2=000 (383 in 405) achi2=000 (232 in 405) [TTACCC]

Error = 1

Quorum = 80

K=1 chi2=133 (3134 in 10337) achi2=169 (2743 in 10337) [TTACCC]

K=2 chi2=302 (657 in 10337) achi2=267 (945 in 10337) [TTACCC]

K=3 chi2=409 (106 in 10337) achi2=394 (170 in 10337) [TTACCC]

K=4 chi2=082 (1439 in 10337) achi2=109 (1091 in 10337) [TTACCC]

K=5 chi2=002 (7204 in 10337) achi2=003 (6765 in 10337) [TTACCC]

K=6 chi2=000 (10150 in 10337) achi2=000 (6299 in 10337) [TTACCC]

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=626 (58 in 785) achi2=615 (64 in 785) [TGCCAAG]

K=2 chi2=610 (11 in 785) achi2=585 (14 in 785) [TGCCAAG]

K=3 chi2=561 (8 in 785) achi2=575 (6 in 785) [TGCCAAG]

K=4 chi2=399 (4 in 785) achi2=377 (6 in 785) [TGCCAAG]

K=5 chi2=184 (8 in 785) achi2=157 (10 in 785) [TGCCAAG]

K=6 chi2=054 (5 in 785) achi2=055 (255 in 785) [TGCCAAG]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 74

Error = 1

Quorum = 60

K=1 chi2=463 (1914 in 20257) achi2=458 (2166 in 20257) [TGCCAAG]

K=2 chi2=292 (1694 in 20257) achi2=287 (1959 in 20257) [TGCCAAG]

K=3 chi2=252 (1158 in 20257) achi2=270 (1060 in 20257) [TGCCAAG]

K=4 chi2=038 (8072 in 20257) achi2=030 (9306 in 20257) [TGCCAAG]

K=5 chi2=002 (15272 in 20366) achi2=004 (14013 in 20366) [TGCCAAG]

K=6 chi2=009 (5877 in 20366) achi2=029 (4589 in 20366) [TGCCAAG]

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

K=1 chi2=1035 (5 in 267) achi2=996 (6 in 267) [TGAAACA]

K=2 chi2=961 (1 in 267) achi2=905 (1 in 267) [TGAAACA]

K=3 chi2=934 (1 in 267) achi2=884 (1 in 267) [TGAAACA]

K=4 chi2=794 (1 in 267) achi2=731 (1 in 267) [TGAAACA]

K=5 chi2=264 (2 in 267) achi2=320 (1 in 267) [TGAAACA]

K=6 chi2=044 (3 in 267) achi2=052 (168 in 267) [TGAAACA]

Error = 1

Quorum = 100

K=1 chi2=448 (515 in 7705) achi2=400 (675 in 7705) [TGAAACA]

K=2 chi2=168 (1047 in 7705) achi2=157 (1246 in 7705) [TGAAACA]

K=3 chi2=159 (637 in 7705) achi2=128 (992 in 7705) [TGAAACA]

K=4 chi2=057 (1734 in 7705) achi2=026 (3100 in 7705) [TGAAACA]

K=5 chi2=015 (2574 in 7705) achi2=021 (2435 in 7705) [TGAAACA]

K=6 chi2=007 (1386 in 7705) achi2=006 (2114 in 7705) [TGAAACA]

7_1_SWI4

Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 75

Quorum = 100

K=1 chi2=927 (53 in 8974) achi2=950 (59 in 8974) [CACGAAA]

K=1 chi2=1447 (8 in 8974) achi2=1516 (9 in 8974) [CGCGAAA]

K=2 chi2=686 (17 in 8974) achi2=638 (22 in 8974) [CACGAAA]

K=2 chi2=940 (4 in 8974) achi2=924 (3 in 8974) [CGCGAAA]

K=3 chi2=456 (46 in 8974) achi2=436 (53 in 8974) [CACGAAA]

K=3 chi2=514 (20 in 8974) achi2=502 (25 in 8974) [CGCGAAA]

K=4 chi2=087 (1329 in 8974) achi2=106 (1095 in 8974) [CACGAAA]

K=4 chi2=343 (41 in 8974) achi2=390 (27 in 8974) [CGCGAAA]

K=5 chi2=012 (3730 in 8974) achi2=000 (7343 in 8974) [CACGAAA]

K=5 chi2=033 (1966 in 8974) achi2=121 (397 in 8974) [CGCGAAA]

K=6 chi2=007 (1861 in 8974) achi2=001 (3810 in 8974) [CACGAAA]

K=6 chi2=002 (3146 in 8974) achi2=044 (873 in 8974) [CGCGAAA]

7_2_RGT1

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 chi2=2092 (246 in 6085) achi2=2140 (236 in 6085) [CGGAAAA]

K=1 chi2=810 (799 in 6085) achi2=803 (815 in 6085) [CGGAAGA]

K=1 chi2=1437 (409 in 6085) achi2=1409 (416 in 6085) [CGGAGAA]

K=1 chi2=337 (1833 in 6085) achi2=350 (1782 in 6085) [CGGATAA]

K=2 chi2=837 (251 in 6085) achi2=840 (245 in 6085) [CGGAAAA]

K=2 chi2=451 (648 in 6085) achi2=442 (666 in 6085) [CGGAAGA]

K=2 chi2=989 (186 in 6085) achi2=937 (208 in 6085) [CGGAGAA]

K=2 chi2=432 (698 in 6085) achi2=428 (695 in 6085) [CGGATAA]

K=3 chi2=281 (367 in 6085) achi2=272 (385 in 6085) [CGGAAAA]

K=3 chi2=242 (473 in 6085) achi2=225 (546 in 6085) [CGGAAGA]

K=3 chi2=580 (76 in 6085) achi2=544 (89 in 6085) [CGGAGAA]

K=3 chi2=366 (216 in 6085) achi2=309 (299 in 6085) [CGGATAA]

K=4 chi2=013 (3127 in 6085) achi2=022 (2503 in 6085) [CGGAAAA]

K=4 chi2=039 (1619 in 6085) achi2=040 (1722 in 6085) [CGGAAGA]

K=4 chi2=320 (35 in 6085) achi2=304 (56 in 6085) [CGGAGAA]

K=4 chi2=193 (166 in 6085) achi2=202 (188 in 6085) [CGGATAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 76

8_1_PDR1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 75

K=1 chi2=901 (25 in 639) achi2=884 (27 in 639) [TCCGCGGA]

K=2 chi2=886 (13 in 639) achi2=883 (14 in 639) [TCCGCGGA]

K=3 chi2=862 (4 in 639) achi2=864 (5 in 639) [TCCGCGGA]

K=4 chi2=659 (2 in 639) achi2=741 (2 in 639) [TCCGCGGA]

K=5 chi2=252 (1 in 639) achi2=306 (1 in 639) [TCCGCGGA]

K=6 chi2=012 (5 in 639) achi2=030 (253 in 639) [TCCGCGGA]

Error = 1

Quorum = 75

K=1 chi2=1388 (184 in 16695) achi2=1370 (211 in 16695) [TCCGCGGA]

K=1 chi2=913 (373 in 16695) achi2=895 (419 in 16695) [TCCGTGGA]

K=2 chi2=1355 (68 in 16695) achi2=1355 (91 in 16695) [TCCGCGGA]

K=2 chi2=952 (199 in 16695) achi2=944 (230 in 16695) [TCCGTGGA]

K=3 chi2=1237 (5 in 16695) achi2=1138 (22 in 16695) [TCCGCGGA]

K=3 chi2=782 (88 in 16695) achi2=771 (119 in 16695) [TCCGTGGA]

K=4 chi2=570 (45 in 16695) achi2=688 (33 in 16695) [TCCGCGGA]

K=4 chi2=544 (53 in 16695) achi2=610 (56 in 16695) [TCCGTGGA]

K=5 chi2=061 (2230 in 16699) achi2=113 (1175 in 16699) [TCCGCGGA]

K=5 chi2=101 (981 in 16699) achi2=207 (328 in 16699) [TCCGTGGA]

K=6 chi2=001 (8600 in 16699) achi2=000 (10541 in 16699) [TCCGCGGA]

K=6 chi2=002 (7065 in 16699) achi2=003 (8326 in 16699) [TCCGTGGA]

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 chi2=995 (22 in 423) achi2=985 (24 in 423) [TCCGCGGA]

K=2 chi2=980 (13 in 423) achi2=985 (13 in 423) [TCCGCGGA]

K=3 chi2=989 (4 in 423) achi2=967 (4 in 423) [TCCGCGGA]

K=4 chi2=741 (1 in 423) achi2=802 (1 in 423) [TCCGCGGA]

K=5 chi2=220 (1 in 423) achi2=303 (1 in 423) [TCCGCGGA]

K=6 chi2=010 (1 in 423) achi2=027 (229 in 423) [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 77

Error = 1

Quorum = 80

K=1 chi2=1609 (169 in 11592) achi2=1592 (187 in 11592) [TCCGCGGA]

K=1 chi2=1090 (327 in 11592) achi2=1109 (353 in 11592) [TCCGTGGA]

K=2 chi2=1634 (63 in 11592) achi2=1584 (97 in 11592) [TCCGCGGA]

K=2 chi2=1148 (174 in 11592) achi2=1142 (197 in 11592) [TCCGTGGA]

K=3 chi2=1333 (20 in 11592) achi2=1364 (24 in 11592) [TCCGCGGA]

K=3 chi2=878 (91 in 11592) achi2=894 (109 in 11592) [TCCGTGGA]

K=4 chi2=784 (26 in 11592) achi2=785 (35 in 11592) [TCCGCGGA]

K=4 chi2=632 (50 in 11592) achi2=689 (52 in 11592) [TCCGTGGA]

K=5 chi2=072 (1370 in 11601) achi2=127 (778 in 11601) [TCCGCGGA]

K=5 chi2=100 (878 in 11601) achi2=146 (618 in 11601) [TCCGTGGA]

K=6 chi2=000 (7969 in 11601) achi2=001 (5475 in 11601) [TCCGCGGA]

K=6 chi2=001 (4626 in 11601) achi2=004 (4674 in 11601) [TCCGTGGA]

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 chi2=285 (128 in 1319) achi2=287 (133 in 1319) [TCCGTGGA]

K=2 chi2=294 (89 in 1319) achi2=289 (95 in 1319) [TCCGTGGA]

K=3 chi2=283 (10 in 1319) achi2=278 (15 in 1319) [TCCGTGGA]

K=4 chi2=240 (7 in 1319) achi2=255 (6 in 1319) [TCCGTGGA]

K=5 chi2=122 (16 in 1319) achi2=206 (5 in 1319) [TCCGTGGA]

K=6 chi2=015 (42 in 1319) achi2=084 (269 in 1319) [TCCGTGGA]

Error = 1

Quorum = 60

K=1 chi2=336 (1859 in 35494) achi2=391 (1312 in 35494) [TCCGAGGA]

K=1 chi2=612 (489 in 35494) achi2=660 (442 in 35494) [TCCGCGGA]

K=1 chi2=368 (1518 in 35494) achi2=402 (1240 in 35494) [TCCGTGGA]

K=2 chi2=363 (946 in 35494) achi2=379 (816 in 35494) [TCCGAGGA]

K=2 chi2=636 (218 in 35494) achi2=640 (206 in 35494) [TCCGCGGA]

K=2 chi2=416 (670 in 35494) achi2=428 (599 in 35494) [TCCGTGGA]

K=3 chi2=301 (498 in 35494) achi2=304 (471 in 35494) [TCCGAGGA]

K=3 chi2=515 (41 in 35494) achi2=480 (63 in 35494) [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 78

K=3 chi2=341 (278 in 35494) achi2=329 (327 in 35494) [TCCGTGGA]

K=4 chi2=285 (274 in 35494) achi2=295 (205 in 35494) [TCCGAGGA]

K=4 chi2=300 (198 in 35494) achi2=337 (85 in 35494) [TCCGCGGA]

K=4 chi2=217 (1082 in 35494) achi2=219 (1060 in 35494) [TCCGTGGA]

K=5 chi2=075 (6352 in 35725) achi2=087 (6044 in 35725) [TCCGAGGA]

K=5 chi2=079 (5926 in 35725) achi2=153 (2215 in 35725) [TCCGCGGA]

K=5 chi2=081 (5763 in 35725) achi2=080 (6754 in 35725) [TCCGTGGA]

K=6 chi2=003 (19985 in 35725) achi2=010 (17420 in 35725) [TCCGAGGA]

K=6 chi2=026 (6383 in 35725) achi2=053 (6615 in 35725) [TCCGCGGA]

K=6 chi2=011 (11922 in 35725) achi2=000 (30343 in 35725) [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 79

Anexo C Resultados do Caacutelculo da Significacircncia Estatiacutestica referente agrave Abundacircncia

pelo Meacutetodo Analiacutetico para Conjuntos de Dados de Saccharomyces cerevisiae

Foi feita uma procura usando o SMILE em vaacuterios conjuntos de dados

A parametrizaccedilatildeo usada fez variar os seguintes paracircmetros

k = 14 erro = 01 quoacuterum = 60 75 80 100

A procura foi feita para motivos com comprimento de 4 a 10 excepto no conjunto de dados ZAP1 onde a procura foi feita para tamanhos entre 4 e 11

De seguida apresentamos os resultados para os motivos procurados em relaccedilatildeo a cada valor dos paracircmetros

Descriccedilatildeo do formato dos resultados

K=ltk-mer conservadogt achi2 = ltchi2 analiacuteticogt (ltposiccedilatildeogt in ltnuacutemero de motivos extraiacutedosgt ltposiccedilatildeo entre motivos do mesmo tamanhogt [motivo]

Nota A posiccedilatildeo do motivo refere-se agrave ordem em que se encontra numa lista ordenada por ordem decrescente de chi2 analiacutetico dos motivos extraiacutedos

10_2_YRR1 Motivo TTCCGTGGAA TTCCGCGGAT TTCCGCGGAA Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=476 (745 in 8908) 13 [TTCCGCGGAA]

K=2 achi2=464 (509 in 8908) 12 [TTCCGCGGAA]

K=3 achi2=413 (230 in 8908) 11 [TTCCGCGGAA]

K=4 achi2=278 (205 in 8908) 10 [TTCCGCGGAA]

K=5 achi2=143 (287 in 8908) 12 [TTCCGCGGAA]

K=6 achi2=041 (1031 in 8908) 15 [TTCCGCGGAA]

K=7 achi2=000 (2230 in 8908) 16 [TTCCGCGGAA]

K=8 achi2=001 (4728 in 8908) 16 [TTCCGCGGAA]

K=9 achi2=001 (7926 in 8908) 16 [TTCCGCGGAA]

K=10 achi2=000 (8782 in 8908) 16 [TTCCGCGGAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 80

K=11 achi2=000 (8903 in 8908) 12 [TTCCGCGGAA]

11_2_ZAP1

Motivo ACCTTGAAGGT ACCCTAAAGGT ACCTTAAAGGT Frequecircncia 45 ~80 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 achi2=387 (504 in 17722) 3 [ACCCTAAAGGT]

K=1 achi2=483 (265 in 17722) 2 [ACCTTAAAGGT]

K=2 achi2=389 (248 in 17722) 3 [ACCCTAAAGGT]

K=2 achi2=484 (119 in 17722) 2 [ACCTTAAAGGT]

K=3 achi2=391 (61 in 17722) 3 [ACCCTAAAGGT]

K=3 achi2=485 (14 in 17722) 2 [ACCTTAAAGGT]

K=4 achi2=387 (31 in 17722) 4 [ACCCTAAAGGT]

K=4 achi2=485 (4 in 17722) 2 [ACCTTAAAGGT]

K=5 achi2=343 (29 in 17722) 4 [ACCCTAAAGGT]

K=5 achi2=462 (3 in 17722) 2 [ACCTTAAAGGT]

K=6 achi2=282 (276 in 17722) 4 [ACCCTAAAGGT]

K=6 achi2=431 (259 in 17722) 2 [ACCTTAAAGGT]

K=7 achi2=063 (1455 in 17722) 4 [ACCCTAAAGGT]

K=7 achi2=197 (1286 in 17722) 3 [ACCTTAAAGGT]

K=8 achi2=004 (5422 in 17722) 3 [ACCCTAAAGGT]

K=8 achi2=005 (5392 in 17722) 1 [ACCTTAAAGGT]

K=9 achi2=000 (13376 in 17722) 3 [ACCCTAAAGGT]

K=9 achi2=005 (13364 in 17722) 1 [ACCTTAAAGGT]

K=10 achi2=000 (17186 in 17722) 3 [ACCCTAAAGGT]

K=10 achi2=000 (17184 in 17722) 1 [ACCTTAAAGGT]

K=11 achi2=000 (17688 in 17722) 3 [ACCCTAAAGGT]

K=11 achi2=000 (17686 in 17722) 1 [ACCTTAAAGGT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 81

5_0_msn2_4

Motivo CCCCT Frequecircncia 913 ~692 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=523 (72 in 826) 21 [CCCCT]

K=2 achi2=297 (75 in 826) 23 [CCCCT]

K=3 achi2=152 (105 in 826) 55 [CCCCT]

K=4 achi2=007 (382 in 826) 310 [CCCCT]

K=5 achi2=000 (339 in 826) 245 [CCCCT]

K=6 achi2=000 (604 in 826) 255 [CCCCT]

Error = 1

Quorum = 60

K=1 achi2=462 (2153 in 21544) 223 [CCCCT]

K=2 achi2=070 (8620 in 21544) 476 [CCCCT]

K=3 achi2=000 (20723 in 21544) 986 [CCCCT]

K=4 achi2=083 (4322 in 21544) 81 [CCCCT]

K=5 achi2=000 (20635 in 21544) 618 [CCCCT]

K=6 achi2=000 (21264 in 21544) 744 [CCCCT]

5_0_MSN4

Motivo CCCCT Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=314 (116 in 1316) 27 [CCCCT]

K=2 achi2=194 (178 in 1316) 39 [CCCCT]

K=3 achi2=140 (190 in 1316) 42 [CCCCT]

K=4 achi2=104 (150 in 1316) 19 [CCCCT]

K=5 achi2=000 (576 in 1316) 111 [CCCCT]

K=6 achi2=000 (1113 in 1316) 392 [CCCCT]

K=7 achi2=901 (324 in 1316) 94 [CCCCT]

K=8 achi2=901 (340 in 1316) 94 [CCCCT]

K=9 achi2=901 (341 in 1316) 94 [CCCCT]

K=10 achi2=901 (342 in 1316) 94 [CCCCT]

K=11 achi2=901 (343 in 1316) 94 [CCCCT]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 82

Error = 1

Quorum = 60

K=1 achi2=082 (15627 in 35258) 568 [CCCCT]

K=2 achi2=000 (34292 in 35258) 986 [CCCCT]

K=3 achi2=011 (25832 in 35258) 671 [CCCCT]

K=4 achi2=044 (14486 in 35258) 144 [CCCCT]

K=5 achi2=000 (34387 in 35258) 626 [CCCCT]

K=6 achi2=000 (34560 in 35258) 326 [CCCCT]

5_1_Gcr1

Motivo CWTCC Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=079 (3260 in 6121) 599 [CATCC]

K=1 achi2=1158 (344 in 6121) 50 [CTTCC]

K=2 achi2=161 (1763 in 6121) 312 [CATCC]

K=2 achi2=470 (566 in 6121) 105 [CTTCC]

K=3 achi2=192 (906 in 6121) 128 [CATCC]

K=3 achi2=109 (1663 in 6121) 248 [CTTCC]

K=4 achi2=091 (1091 in 6121) 97 [CATCC]

K=4 achi2=001 (5126 in 6121) 870 [CTTCC]

K=5 achi2=000 (5152 in 6121) 372 [CATCC]

K=5 achi2=000 (5000 in 6121) 230 [CTTCC]

K=6 achi2=000 (5438 in 6121) 341 [CATCC]

K=6 achi2=000 (5149 in 6121) 52 [CTTCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 83

6_1_Gln3

Motivo GATWAG Frequecircncia 1113 ~8462 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

Error = 1

Quorum = 80

K=1 achi2=273 (2534 in 10819) 831 [GATAAG]

K=1 achi2=102 (4875 in 10819) 1698 [GATTAG]

K=2 achi2=493 (849 in 10819) 251 [GATAAG]

K=2 achi2=268 (1952 in 10819) 593 [GATTAG]

K=3 achi2=174 (2107 in 10819) 675 [GATAAG]

K=3 achi2=925 (81 in 10819) 12 [GATTAG]

K=4 achi2=009 (7567 in 10819) 2712 [GATAAG]

K=4 achi2=352 (328 in 10819) 59 [GATTAG]

K=5 achi2=003 (7728 in 10819) 3046 [GATAAG]

K=5 achi2=159 (773 in 10819) 110 [GATTAG]

K=6 achi2=000 (6602 in 10819) 761 [GATAAG]

K=6 achi2=000 (6760 in 10819) 917 [GATTAG]

K=7 achi2=000 (10606 in 10819) 3684 [GATAAG]

K=7 achi2=000 (8570 in 10819) 1648 [GATTAG]

6_1_RAP1

Motivo CACCCR Frequecircncia 1118 ~611 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

Error = 1

Quorum = 60

K=1 achi2=555 (2348 in 20531) 456 [CACCCA]

K=1 achi2=102 (9117 in 20531) 2005 [CACCCG]

K=2 achi2=368 (2233 in 20531) 460 [CACCCA]

K=2 achi2=117 (6956 in 20531) 1498 [CACCCG]

K=3 achi2=223 (2249 in 20531) 392 [CACCCA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 84

K=3 achi2=023 (12243 in 20531) 2397 [CACCCG]

K=4 achi2=105 (3457 in 20531) 482 [CACCCA]

K=4 achi2=002 (17523 in 20531) 3457 [CACCCG]

K=5 achi2=006 (13001 in 20531) 2409 [CACCCA]

K=5 achi2=048 (5016 in 20531) 610 [CACCCG]

K=6 achi2=000 (17016 in 20531) 1751 [CACCCA]

K=6 achi2=000 (18636 in 20531) 3343 [CACCCG]

K=7 achi2=000 (17654 in 20531) 1218 [CACCCA]

K=7 achi2=000 (18327 in 20531) 1891 [CACCCG]

7_0_REB1 Motivo TTACCC Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 achi2=586 (33 in 405) 5 [TTACCC]

K=2 achi2=635 (12 in 405) 1 [TTACCC]

K=3 achi2=679 (2 in 405) 1 [TTACCC]

K=4 achi2=402 (3 in 405) 2 [TTACCC]

K=5 achi2=020 (8 in 405) 7 [TTACCC]

K=6 achi2=000 (232 in 405) 8 [TTACCC]

K=7 achi2=000 (402 in 405) 8 [TTACCC]

Error = 1

Quorum = 80

K=1 achi2=169 (2742 in 10337) 933 [TTACCC]

K=2 achi2=267 (945 in 10337) 284 [TTACCC]

K=3 achi2=394 (170 in 10337) 25 [TTACCC]

K=4 achi2=109 (1091 in 10337) 246 [TTACCC]

K=5 achi2=003 (6765 in 10337) 2619 [TTACCC]

K=6 achi2=000 (6295 in 10337) 852 [TTACCC]

K=7 achi2=000 (9863 in 10337) 3333 [TTACCC]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 85

7_0_RIM101

Motivo TGCCAAG Frequecircncia 57 ~7143 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=615 (64 in 785) 12 [TGCCAAG]

K=2 achi2=585 (14 in 785) 3 [TGCCAAG]

K=3 achi2=575 (6 in 785) 2 [TGCCAAG]

K=4 achi2=377 (6 in 785) 2 [TGCCAAG]

K=5 achi2=157 (10 in 785) 5 [TGCCAAG]

K=6 achi2=055 (255 in 785) 4 [TGCCAAG]

K=7 achi2=000 (652 in 785) 18 [TGCCAAG]

K=8 achi2=000 (771 in 785) 15 [TGCCAAG]

Error = 1

Quorum = 60

K=1 achi2=458 (2166 in 20257) 407 [TGCCAAG]

K=2 achi2=287 (1959 in 20257) 462 [TGCCAAG]

K=3 achi2=270 (1060 in 20257) 241 [TGCCAAG]

K=4 achi2=030 (9306 in 20257) 3695 [TGCCAAG]

K=5 achi2=004 (13915 in 20257) 6353 [TGCCAAG]

K=6 achi2=029 (4512 in 20257) 1713 [TGCCAAG]

K=7 achi2=003 (5275 in 20257) 36 [TGCCAAG]

K=8 achi2=000 (12401 in 20257) 1099 [TGCCAAG]

7_0_STE12

Motivo TGAAACA Frequecircncia 66 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

K=1 achi2=996 (6 in 267) 1 [TGAAACA]

K=2 achi2=905 (1 in 267) 1 [TGAAACA]

K=3 achi2=884 (1 in 267) 1 [TGAAACA]

K=4 achi2=731 (1 in 267) 1 [TGAAACA]

K=5 achi2=320 (1 in 267) 1 [TGAAACA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 86

K=6 achi2=052 (168 in 267) 2 [TGAAACA]

K=7 achi2=000 (254 in 267) 1 [TGAAACA]

K=8 achi2=000 (266 in 267) 2 [TGAAACA]

Error = 1

Quorum = 100

K=1 achi2=400 (675 in 7705) 162 [TGAAACA]

K=2 achi2=157 (1246 in 7705) 402 [TGAAACA]

K=3 achi2=128 (992 in 7705) 375 [TGAAACA]

K=4 achi2=026 (3100 in 7705) 1267 [TGAAACA]

K=5 achi2=021 (2435 in 7705) 1154 [TGAAACA]

K=6 achi2=006 (2114 in 7705) 1435 [TGAAACA]

K=7 achi2=000 (2095 in 7705) 260 [TGAAACA]

K=8 achi2=000 (6802 in 7705) 1861 [TGAAACA]

7_1_SWI4 Motivo CRCGAAA Frequecircncia 55 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=950 (59 in 8974) 15 [CACGAAA]

K=1 achi2=1516 (9 in 8974) 2 [CGCGAAA]

K=2 achi2=638 (22 in 8974) 7 [CACGAAA]

K=2 achi2=924 (3 in 8974) 1 [CGCGAAA]

K=3 achi2=436 (53 in 8974) 25 [CACGAAA]

K=3 achi2=502 (25 in 8974) 10 [CGCGAAA]

K=4 achi2=106 (1095 in 8974) 476 [CACGAAA]

K=4 achi2=390 (27 in 8974) 9 [CGCGAAA]

K=5 achi2=000 (7343 in 8974) 3297 [CACGAAA]

K=5 achi2=121 (397 in 8974) 176 [CGCGAAA]

K=6 achi2=001 (3810 in 8974) 2702 [CACGAAA]

K=6 achi2=044 (873 in 8974) 314 [CGCGAAA]

K=7 achi2=000 (2384 in 8974) 205 [CACGAAA]

K=7 achi2=000 (2371 in 8974) 194 [CGCGAAA]

K=8 achi2=000 (8531 in 8974) 3025 [CACGAAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 87

K=8 achi2=000 (5630 in 8974) 124 [CGCGAAA]

7_2_RGT1

Motivo TGASTCW Frequecircncia 09 ~0 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 100

Error = 1

Quorum = 100

K=1 achi2=2140 (236 in 6085) 74 [CGGAAAA]

K=1 achi2=803 (815 in 6085) 253 [CGGAAGA]

K=1 achi2=1409 (416 in 6085) 129 [CGGAGAA]

K=1 achi2=350 (1782 in 6085) 511 [CGGATAA]

K=2 achi2=840 (245 in 6085) 67 [CGGAAAA]

K=2 achi2=442 (666 in 6085) 169 [CGGAAGA]

K=2 achi2=937 (208 in 6085) 55 [CGGAGAA]

K=2 achi2=428 (695 in 6085) 175 [CGGATAA]

K=3 achi2=272 (385 in 6085) 126 [CGGAAAA]

K=3 achi2=225 (546 in 6085) 173 [CGGAAGA]

K=3 achi2=544 (89 in 6085) 28 [CGGAGAA]

K=3 achi2=309 (299 in 6085) 100 [CGGATAA]

K=4 achi2=022 (2503 in 6085) 821 [CGGAAAA]

K=4 achi2=040 (1722 in 6085) 598 [CGGAAGA]

K=4 achi2=304 (56 in 6085) 23 [CGGAGAA]

K=4 achi2=202 (188 in 6085) 81 [CGGATAA]

K=5 achi2=003 (3495 in 6085) 1206 [CGGAAAA]

K=5 achi2=019 (1882 in 6085) 749 [CGGAAGA]

K=5 achi2=238 (34 in 6085) 12 [CGGAGAA]

K=5 achi2=138 (154 in 6085) 74 [CGGATAA]

K=6 achi2=009 (1192 in 6085) 744 [CGGAAAA]

K=6 achi2=031 (682 in 6085) 300 [CGGAAGA]

K=6 achi2=057 (459 in 6085) 122 [CGGAGAA]

K=6 achi2=042 (550 in 6085) 191 [CGGATAA]

K=7 achi2=000 (1608 in 6085) 53 [CGGAAAA]

K=7 achi2=000 (2439 in 6085) 861 [CGGAAGA]

K=7 achi2=000 (2150 in 6085) 572 [CGGAGAA]

K=7 achi2=000 (2472 in 6085) 894 [CGGATAA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 88

K=8 achi2=000 (6056 in 6085) 1512 [CGGAAAA]

K=8 achi2=000 (5728 in 6085) 1184 [CGGAAGA]

K=8 achi2=000 (5127 in 6085) 583 [CGGAGAA]

K=8 achi2=000 (5961 in 6085) 1417 [CGGATAA]

8_1_PDR1

Motivo CGGADDA Frequecircncia 1010 ~100 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 75

K=1 achi2=884 (27 in 639) 1 [TCCGCGGA]

K=2 achi2=883 (14 in 639) 1 [TCCGCGGA]

K=3 achi2=864 (5 in 639) 1 [TCCGCGGA]

K=4 achi2=741 (2 in 639) 1 [TCCGCGGA]

K=5 achi2=306 (1 in 639) 1 [TCCGCGGA]

K=6 achi2=030 (253 in 639) 1 [TCCGCGGA]

K=7 achi2=012 (587 in 639) 1 [TCCGCGGA]

K=8 achi2=000 (633 in 639) 1 [TCCGCGGA]

K=9 achi2=000 (639 in 639) 1 [TCCGCGGA]

Error = 1

Quorum = 75

K=1 achi2=1370 (211 in 16695) 48 [TCCGCGGA]

K=1 achi2=895 (419 in 16695) 111 [TCCGTGGA]

K=2 achi2=1355 (91 in 16695) 26 [TCCGCGGA]

K=2 achi2=944 (230 in 16695) 59 [TCCGTGGA]

K=3 achi2=1138 (22 in 16695) 13 [TCCGCGGA]

K=3 achi2=771 (119 in 16695) 39 [TCCGTGGA]

K=4 achi2=688 (33 in 16695) 9 [TCCGCGGA]

K=4 achi2=610 (56 in 16695) 18 [TCCGTGGA]

K=5 achi2=113 (1171 in 16695) 496 [TCCGCGGA]

K=5 achi2=207 (324 in 16695) 135 [TCCGTGGA]

K=6 achi2=000 (10537 in 16695) 2237 [TCCGCGGA]

K=6 achi2=003 (8322 in 16695) 1955 [TCCGTGGA]

K=7 achi2=000 (4060 in 16695) 2312 [TCCGCGGA]

K=7 achi2=000 (4066 in 16695) 2318 [TCCGTGGA]

K=8 achi2=000 (5835 in 16695) 174 [TCCGCGGA]

K=8 achi2=000 (6050 in 16695) 389 [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 89

K=9 achi2=000 (15679 in 16695) 1375 [TCCGCGGA]

K=9 achi2=000 (14892 in 16695) 588 [TCCGTGGA]

8_1_PDR3

Motivo TCCGYGGA Frequecircncia 78 ~875 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 80

K=1 achi2=985 (24 in 423) 1 [TCCGCGGA]

K=2 achi2=985 (13 in 423) 1 [TCCGCGGA]

K=3 achi2=967 (4 in 423) 1 [TCCGCGGA]

K=4 achi2=802 (1 in 423) 1 [TCCGCGGA]

K=5 achi2=303 (1 in 423) 1 [TCCGCGGA]

K=6 achi2=027 (229 in 423) 1 [TCCGCGGA]

K=7 achi2=013 (401 in 423) 1 [TCCGCGGA]

K=8 achi2=000 (420 in 423) 1 [TCCGCGGA]

K=9 achi2=000 (423 in 423) 1 [TCCGCGGA]

Error = 1

Quorum = 80

K=1 achi2=1592 (187 in 11592) 35 [TCCGCGGA]

K=1 achi2=1109 (353 in 11592) 83 [TCCGTGGA]

K=2 achi2=1584 (97 in 11592) 25 [TCCGCGGA]

K=2 achi2=1142 (197 in 11592) 44 [TCCGTGGA]

K=3 achi2=1364 (24 in 11592) 9 [TCCGCGGA]

K=3 achi2=894 (109 in 11592) 35 [TCCGTGGA]

K=4 achi2=785 (35 in 11592) 11 [TCCGCGGA]

K=4 achi2=689 (52 in 11592) 16 [TCCGTGGA]

K=5 achi2=127 (769 in 11592) 243 [TCCGCGGA]

K=5 achi2=146 (609 in 11592) 204 [TCCGTGGA]

K=6 achi2=001 (5466 in 11592) 879 [TCCGCGGA]

K=6 achi2=004 (4665 in 11592) 789 [TCCGTGGA]

K=7 achi2=000 (2570 in 11592) 968 [TCCGCGGA]

K=7 achi2=000 (2517 in 11592) 941 [TCCGTGGA]

K=8 achi2=000 (5547 in 11592) 157 [TCCGCGGA]

K=8 achi2=000 (5666 in 11592) 276 [TCCGTGGA]

K=9 achi2=000 (10744 in 11592) 135 [TCCGCGGA]

K=9 achi2=000 (11041 in 11592) 432 [TCCGTGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 90

8_1_PDR8

Motivo TCCGHGGA Frequecircncia 35 ~60 Tamanho das Sequecircncias 1000

Error = 0

Quorum = 60

K=1 achi2=287 (133 in 1319) 8 [TCCGTGGA]

K=2 achi2=289 (95 in 1319) 5 [TCCGTGGA]

K=3 achi2=278 (15 in 1319) 2 [TCCGTGGA]

K=4 achi2=255 (6 in 1319) 1 [TCCGTGGA]

K=5 achi2=206 (5 in 1319) 2 [TCCGTGGA]

K=6 achi2=084 (269 in 1319) 7 [TCCGTGGA]

K=7 achi2=000 (897 in 1319) 17 [TCCGTGGA]

K=8 achi2=000 (1232 in 1319) 8 [TCCGTGGA]

K=9 achi2=000 (1303 in 1319) 1 [TCCGTGGA]

Error = 1

Quorum = 60

K=1 achi2=391 (1312 in 35494) 312 [TCCGAGGA]

K=1 achi2=660 (442 in 35494) 89 [TCCGCGGA]

K=1 achi2=402 (1240 in 35494) 301 [TCCGTGGA]

K=2 achi2=379 (816 in 35494) 174 [TCCGAGGA]

K=2 achi2=640 (206 in 35494) 48 [TCCGCGGA]

K=2 achi2=428 (599 in 35494) 123 [TCCGTGGA]

K=3 achi2=304 (471 in 35494) 120 [TCCGAGGA]

K=3 achi2=480 (63 in 35494) 10 [TCCGCGGA]

K=3 achi2=329 (327 in 35494) 87 [TCCGTGGA]

K=4 achi2=295 (205 in 35494) 61 [TCCGAGGA]

K=4 achi2=337 (85 in 35494) 28 [TCCGCGGA]

K=4 achi2=219 (1060 in 35494) 257 [TCCGTGGA]

K=5 achi2=087 (5828 in 35494) 2082 [TCCGAGGA]

K=5 achi2=153 (2062 in 35494) 521 [TCCGCGGA]

K=5 achi2=080 (6534 in 35494) 2399 [TCCGTGGA]

K=6 achi2=010 (17189 in 35494) 7240 [TCCGAGGA]

K=6 achi2=053 (6392 in 35494) 2378 [TCCGCGGA]

K=6 achi2=000 (30112 in 35494) 12027 [TCCGTGGA]

K=7 achi2=006 (9736 in 35494) 4698 [TCCGAGGA]

K=7 achi2=006 (10113 in 35494) 5025 [TCCGCGGA]

Relatoacuterio de TFC Geraccedilatildeo de Coacutedigo IUPAC 22-07-2004

Nuno Dias Mendes David Varela Nunes 91

K=7 achi2=000 (17876 in 35494) 11124 [TCCGTGGA]

K=8 achi2=000 (12067 in 35494) 1424 [TCCGAGGA]

K=8 achi2=000 (11172 in 35494) 529 [TCCGCGGA]

K=8 achi2=000 (11688 in 35494) 1045 [TCCGTGGA]

K=9 achi2=000 (31497 in 35494) 8200 [TCCGAGGA]

K=9 achi2=000 (25674 in 35494) 2377 [TCCGCGGA]

K=9 achi2=000 (29818 in 35494) 6521 [TCCGTGGA]

Page 14: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 15: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 16: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 17: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 18: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 19: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 20: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 21: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 22: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 23: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 24: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 25: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 26: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 27: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 28: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 29: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 30: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 31: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 32: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 33: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 34: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 35: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 36: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 37: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 38: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 39: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 40: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 41: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 42: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 43: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 44: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 45: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 46: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 47: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 48: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 49: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 50: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 51: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 52: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 53: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 54: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 55: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 56: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 57: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 58: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 59: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 60: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 61: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 62: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 63: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 64: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 65: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 66: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 67: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 68: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 69: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 70: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 71: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 72: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 73: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 74: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 75: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 76: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 77: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 78: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 79: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 80: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 81: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 82: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 83: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 84: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 85: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 86: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 87: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 88: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 89: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 90: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 91: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 92: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 93: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 94: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 95: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 96: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 97: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 98: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 99: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 100: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004
Page 101: Relatório de TRABALHO FINAL DE CURSO · Relatório de TRABALHO FINAL DE CURSO do Curso de LICENCIATURA EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES (LEIC) Ano Lectivo 2003 /2004