reconhecimento de padrões utilizando métricas de redes...

85
UNIVERSIDADE TECNOL ´ OGICA FEDERAL DO PARAN ´ A C ˆ AMPUS CORN ´ ELIO PROC ´ OPIO DIRETORIA DE PESQUISA E P ´ OS - GRADUAC ¸ ˜ AO PROGRAMA DE P ´ OS - GRADUAC ¸ ˜ AO EM BIOINFORM ´ ATICA ISAQUE KATAHIRA Reconhecimento de padr˜ oes utilizando m´ etricas de redes complexas para a extra¸ ao de caracter´ ısticas, representa¸ ao e classifica¸ ao de sequˆ encias de RNAs CORN ´ ELIO PROC ´ OPIO - PR 2018

Upload: others

Post on 21-Jul-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

UNIVERSIDADE TECNOLOGICA FEDERAL DO PARANA

CAMPUS CORNELIO PROCOPIO

DIRETORIA DE PESQUISA E POS - GRADUACAO

PROGRAMA DE POS - GRADUACAO EM BIOINFORMATICA

ISAQUE KATAHIRA

Reconhecimento de padroes utilizando metricas de redes complexas para a

extracao de caracterısticas, representacao e classificacao de sequencias de

RNAs

CORNELIO PROCOPIO - PR

2018

Page 2: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

ISAQUE KATAHIRA

Reconhecimento de padroes utilizando metricas de redes complexas para a

extracao de caracterısticas, representacao e classificacao de sequencias de

RNAs

Dissertacao apresentada como requisito a ob-tencao do grau de Mestre em Bioinformaticapela Universidade Tecnologica Federal doParana – Campus Cornelio Procopio.

Area de concentracao: Bioinformatica

Orientador: Prof. Dr. Fabrıcio Martins Lopes

Coorientador: Prof. Dr. Luiz Filipe ProtasioPereira

CORNELIO PROCOPIO - PR

2018

Page 3: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

Ministério da EducaçãoUniversidade Tecnológica Federal do Paraná

Câmpus Cornélio ProcópioPrograma de Pós-Graduação em Bioinformática

Título da Dissertação Nº 06:

“RECONHECIMENTO DE PADRÕES UTILIZANDOMÉTRICAS DE REDES COMPLEXAS PARA A EXTRAÇÃODE CARACTERÍSTICAS, REPRESENTAÇÃO ECLASSIFICAÇÃO DE SEQUÊNCIAS DE RNAs”.

por

Isaque Katahira

Orientador: Prof. Dr. Fabrício Martins Lopes

Esta dissertação foi apresentada como requisito parcial à obtenção dograu de MESTRE EM BIOINFORMÁTICA – Linha de Pesquisa: BiologiaComputacional e Sistêmica, pelo Programa de Pós-Graduação em Bioinformática –PPGBIOINFO – da Universidade Tecnológica Federal do Paraná – UTFPR –Câmpus Cornélio Procópio, às 09h 00min do dia 16 de março de 2018. O trabalhofoi __________ pela Banca Examinadora, composta pelos professores:

__________________________________Prof. Dr. Fabrício Martins Lopes

(Presidente)

__________________________________Prof. Dr. André Yoshiaki Kashiwabara

(UTFPR-CP)

_________________________________Prof. Dr. Ronaldo Fumio Hashimoto

(USP-SP)

Visto da coordenação: __________________________________André Yoshiaki Kashiwabara

Coordenador do Programa de Pós-Graduação em BioinformáticaUTFPR Câmpus Cornélio Procópio

A Folha de Aprovação assinada encontra-se na Coordenação do Programa.

Av. Alberto Carazzai, 1640 - 86.300-000- Cornélio Procópio – PR.Tel. +55 (43) 3520-4055 / e-mail: [email protected] / www.utfpr.edu.br/cornelioprocopio/ppgbioinfo

Page 4: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

Agradecimentos

Em primeiro lugar, agradeco a Deus por ter me dado inspiracao, saude e persistencia

para desenvolver este trabalho. Ao diretor da Escola Tecnica Estadual Prof. Mario Antonio

Verza, Prof. Randal do Vale Ortiz e demais amigos da unidade escolar, pelo incentivo,

companheirismo e compreensao para que eu pudesse frequentar as aulas do mestrado.

A minha mae, Dona Maria Augusta dos Santos, por ter acreditado em meu sonho e

estado comigo em todos os momentos dessa caminhada, sempre confiando que eu alcancaria

o sucesso.

As minhas professoras da graduacao Dra. Lia Cupertino Duarte Albino, Dra. Elaine

Pasqualine e ao professor Me. Sergio Roberto Delfino por terem me inspirado na carreira

docente. A minha ex-orientadora e amiga, Me. Ivone Matiko Ivassaki de Deus, que me

acompanhou nas apresentacoes nos primeiros congressos cientıficos, despertando em mim

o gosto pela pesquisa cientıfica ja na graduacao.

Ao Prof. Dr. Fabrıcio Martins Lopes, por ter confiado em minha capacidade e me

aceitado como seu orientando de mestrado. Fazer parte do grupo de pesquisa “Reconheci-

mento de Padroes em sequencias genomicas” enriqueceu minha formacao profissional e

suas orientacoes foram fundamentais para o desenvolvimento e conclusao deste trabalho.

Ao Prof. Dr. Luiz Filipe Protasio Pereira, por ter aceitado o convite em coori-

entar este trabalho e ter participado efetivamente do seu desenvolvimento, realizando

contribuicoes significativas, especialmente durante a qualificacao.

Ao Prof. Dr. Andre Yoshiaki Kashiwabara pelas valiosas contribuicoes oferecidas

durante a banca de qualificacao deste trabalho.

Ao Prof. Dr. Fabio Fernandes da Rocha Vicente, que contribuiu com indicacoes

bibliograficas, especialmente, para as descricoes das ferramentas comparativas.

Ao amigo e membro do grupo de pesquisa Eric Augusto Ito que contribuiu para o

desenvolvimento dos scripts da ferramenta BASiNET, etapa fundamental para atingirmos

os objetivos da dissertacao.

Aos professores Dr. Alexandre Rossi Paschoal, Dr. Andre Yoshiaki Kashiwabara, Dr.

Douglas Silva Domingues, Dr. Fabrıcio Martins Lopes, Dra. Francismar Correa Marcelino-

Guimaraes, Dra. Katia Romero Felizardo Scannavino, Dr. Laurival Antonio Vilas-Boas e

Dr. Pedro Henrique Bugatti pelas aulas sempre precisas e esclarecedoras durante o perıodo

de mestrado.

Page 5: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

Aos membros do PPGBIOINFO pela oportunidade de aprendizado durante minha

participacao como representante discente e na colaboracao da organizacao dos Workshops

de Bioinformatica dos anos de 2016 e 2017, na UTFPR - Campus Cornelio Procopio. De

forma especial, agradeco ao secretario Jose Eduardo de Lima Simao por ter me ajudado

em todas as questoes burocraticas no PPGBIOINFO.

Aos amigos de curso Bruno, Douglas, Fabio, Guilherme, Marcelo, Nayara, Ricardo,

Samara e Vanesca pelo apoio e pela acolhida durante as aulas.

Page 6: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

“A gente nunca chega a saber tudo de coisa alguma. Ate a morte, estamos sempre

aprendendo”.

(Marcos Rey)

Page 7: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

Resumo

KATAHIRA, Isaque. “Reconhecimento de padroes utilizando metricas de redescomplexas para a extracao de caracterısticas, representacao e classificacao desequencias de RNAs” 2018. 84 f. Dissertacao (Mestrado em Bioinformatica) – Univer-sidade Tecnologica Federal do Parana, Cornelio Procopio, 2018.

A partir do surgimento dos Sequenciadores de Nova Geracao (NGS), um grande volumede dados de DNAs e RNAs passaram a ser sequenciados rapidamente a custos relati-vamente menores. Os NGS tem a capacidade de producao de milhares de sequenciassimultaneamente, produzindo um volume massivo de dados a serem analisados. Nessesentido, as ferramentas computacionais se tornam essenciais nao so para a extracao, mastambem para a selecao e analise desses dados. Esta pesquisa apresenta um modelo capazde extrair caracterısticas para a classificacao de RNAs codificantes e nao-codificantes. Aferramenta BiologicAl Sequences NETwork (BASiNET), disponıvel em: <https://cran.r-project.org/package=BASiNET>, implementa o metodo desenvolvido, o qual mapeiasequencias de RNAs por meio de redes complexas, pois estas sao eficientes para representarsistemas reais, nos quais estao inseridos os sistemas biologicos. A fim de representar assequencias selecionadas, a configuracao da rede complexa e feita a partir dos parametros dotamanho do passo (conexoes entre os nucleotıdeos) e do tamanho da palavra (quantidadede nucleotıdeos por vertice); na sequencia, as arestas menos densas sao removidas paraa geracao de sub-redes que sao resultantes da eliminacao crescente de 1 ate n arestasda rede. Posteriormente, cada sub-rede e submetida as metricas de: proximidade, grau,grau maximo, grau mınimo, intermediacao, coeficiente de clustering, caminho mınimomedio, desvio padrao e motifs. A extracao de metricas de cada uma dessas sub-redescompoe o vetor de caracterısticas, os valores desse vetor sao inseridos no algoritmo declassificacao supervisionada que, por meio da deteccao de padroes, realiza a distincao dassequencias com validacao cruzada de 10-fold. A ferramenta BASiNET e aplicada de formaexperimental a dois conjuntos de dados. Os resultados obtidos foram comparados comoutras ferramentas: Predictor of long non-coding RNAs and messenger RNAs based on animproved k-mer scheme (PLEK), Coding-Non-Coding Index (CNCI) e Coding PotentialCalculator (CPC2). A comparacao evidencia a viabilidade da ferramenta BASiNET, umavez que esta apresentou resultados medios superiores de acuracia na identificacao de RNAscodificantes e RNAs nao-codificantes, nos dois conjuntos de dados experimentais. Os ındicesmedios obtidos entre os dois experimentos foram superiores na identificacao de RNAscodificantes em 8,6% com relacao a CNCI; 11,4% com relacao a PLEK e 4,4% com relacaoa CPC2. A proposito da identificacao dos RNAs nao-codificantes, a media geral obtidafoi superior em 2,2%, 2,6%, 1,5% com relacao a CNCI, PLEK e CPC2, respectivamente.A melhoria dos ındices de acuracia reforca a estabilidade e a homogeneidade do metodo.Por fim, convem destacar que o metodo implementado pela BASiNET usa ferramentas decodigo aberto e pode ser executado em um computador com configuracoes basicas, sendoextensıvel a classificacao de outras sequencias como as de DNAs e aminoacidos.

Palavras-chaves: Bioinformatica. Classificacao supervisionada. Redes complexas. Extracaode caracterısticas. RNAs. Reconhecimento de padroes.

Page 8: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

Abstract

Pattern recognition using complex network metrics for feature extraction, representationand classification of sequences of RNAs

KATAHIRA, Isaque. Pattern recognition using complex network metrics for fea-ture extraction, representation and classification of sequences of RNAs. 2018.84 p. Dissertation (Master in Bioinformatics) – Federal Technological University of Parana.Cornelio Procopio, 2018.

Due to the emergence of Next Generation Sequencers (NGS), a large volume of DNAs andRNAs has been sequenced quickly at relatively lower costs. NGS has a output capacity ofseveral thousands of sequences simultaneously, producing a massive volume of data to beanalyzed. In this sense, computational tools become essential not only for an extraction, butalso for the data selection and analysis. This research presents a model capable of extractingfeatures for classification of coding and non-coding RNAs. The BiologicAl Sequences NET-work (BASiNET) is available at url https : //cran.r − project.org/package = BASiNET ,implements the developed method, which convert RNAs sequences through complex net-works, since these are efficient to represent real systems, as is the case with biologicalsystems. In order to represent the selected sequences, the configuration of the complexnetwork is from the step size parameter, that represents the connections between thenucleotides, and also the word size parameter, that represents the quantity of nucleotidesby vertex; afterwards the least dense edges are removed for subnetwork generation resultingfrom the increasing elimination of 1 to n edges from the network. Subsequently, eachsubnetwork is submitted to the measures of: proximity, degree, maximum degree, minimumdegree, intermediation, clustering coefficient, mean minimum path, standard deviationand motifs. The extraction of measures from each of these subnetworks makes up thefeature vector, the vector values are inserted in the supervised classification algorithmthat, through the detection of patterns, performs the distinction of sequences with 10-foldcross validation. The BASiNET tool is applied to two data sets. The obtained resultswere compared with other tools: Predictor of long non-coding RNAs and messenger RNAsbased on an improved k-mer scheme (PLEK), Coding-Non-Coding Index (CNCI) andCoding Potential Calculator (CPC2). The comparison of the BASiNET performanceindicates, since it higher average accuracy results in the identification of coding RNAsand non-coding RNAs in the two experimental data sets. The average indices obtainedfrom the two experiments were higher in the identification of coding RNAs by 8,6 % withrespect to the CNCI; 11,4 % with respect to PLEK and 4,4 % with respect to CPC2.Regarding the identification of the non-coding RNAs, the overall average obtained was2,2 %, 2,6 %, 1,5 % higher with respect to CNCI, PLEK and CPC2, respectively. Theimprovement of the accuracy indices reinforces the stability and the homogeneity of themethod. Finally, it should be noted that the method implemented by BASiNET uses opensource tools and can be executed on a computer with basic configurations, being extendedto the classification of other sequences such as DNAs and amino acids.

Keywords: Bioinformatics. Supervised classification. Complex networks. Feature extraction.RNAs. Pattern recognition.

Page 9: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

Lista de figuras

Figura 1 – Etapas da pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

Figura 2 – RNA Polimerase no processo de transcricao. . . . . . . . . . . . . . . . 24

Figura 3 – Estrutura de um RNA. . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

Figura 4 – Codigo genetico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

Figura 5 – Organizacao das estruturas da proteına. . . . . . . . . . . . . . . . . . 27

Figura 6 – Grafo direcionado e sua matriz de adjacencias. . . . . . . . . . . . . . . 30

Figura 7 – Grafo nao-direcionado e sua matriz de adjacencias. . . . . . . . . . . . 31

Figura 8 – Grafo ponderado e sua matriz de pesos. . . . . . . . . . . . . . . . . . 31

Figura 9 – Dinamica em uma rede complexa. . . . . . . . . . . . . . . . . . . . . . 32

Figura 10 – Rede aleatoria, a) distribuicao dos vertices e b) representacao media

dos graus. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

Figura 11 – Rede de mundo pequeno. . . . . . . . . . . . . . . . . . . . . . . . . . . 34

Figura 12 – Conexoes dos vertices, a) rede aleatoria e b) rede livre de escala. . . . . 35

Figura 13 – Exemplos de redes com motifs, a) motif em uma rede real e b) motif

em uma rede aleatoria. . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

Figura 14 – Motifs em redes biologicas. . . . . . . . . . . . . . . . . . . . . . . . . . 38

Figura 15 – Arvore de decisao binaria em que a) contem a estrutura raiz, descen-

dente e folha, e b) representa a estrutura de decisao com base nas

caracterısticas de m1, m2 e m3, por exemplo, se o valor de m1 > 5 e m2

<= 7, portanto, essa instancia e predita como classe B. . . . . . . . . . 41

Figura 16 – Validacao Cruzada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

Figura 17 – Distribuicao dos tamanhos das sequencias de RNAs no primeiro conjunto

de dados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

Figura 18 – Distribuicao dos tamanhos das sequencias de RNAs no segundo conjunto

de dados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

Figura 19 – Metodo utilizado para identificacao de padroes. . . . . . . . . . . . . . 55

Figura 20 – Grafo de uma sequencia com tamanho de palavra 3 e tamanho de passo 1. 56

Figura 21 – Remocao das arestas menos densas, a) threshold = 0, b) threshold = 1

e c) threshold = 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

Page 10: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

Figura 22 – Media geral de acuracia de mRNA e ncRNA no primeiro conjunto de

dados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

Figura 23 – Arvore de decisao do J48 para a especie Danio rerio no primeiro conjunto

de dados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

Figura 24 – Histograma da frequencia das metricas utilizadas pelas arvores de decisao

para classificacao no primeiro conjunto de dados. . . . . . . . . . . . . 64

Figura 25 – Media geral de acuracia de mRNAs, long RNAs e small RNAs no

segundo conjunto de dados. . . . . . . . . . . . . . . . . . . . . . . . . 67

Figura 26 – Arvore de decisao do J48 para a especie Caenorhabditis elegans no

segundo conjunto de dados. . . . . . . . . . . . . . . . . . . . . . . . . 67

Figura 27 – Histograma da frequencia das metricas utilizadas pelas arvores de decisao

para classificacao no segundo conjunto de dados. . . . . . . . . . . . . 68

Figura 28 – Distincao de redes pela remocao de vertices com alta interacao, sendo

a) um grafo e b) o mesmo grafo com a remocao de um vertice, fato que

altera a topologia da rede. . . . . . . . . . . . . . . . . . . . . . . . . 69

Figura 29 – Relacao entre o caminho mınimo e a intermediacao, sendo que em a) o

caminho mınimo e de 2 saltos e em b) o caminho mınimo e de 4 saltos

devido a remocao de um vertice com alta interacao. . . . . . . . . . . 70

Page 11: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

Lista de tabelas

Tabela 1 – Repositorios de dados biologicos. . . . . . . . . . . . . . . . . . . . . . 28

Tabela 2 – Alfabetos que representam as sequencias biologicas. . . . . . . . . . . . 29

Tabela 3 – Matriz de confusao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

Tabela 4 – Primeiro conjunto de dados completo utilizado pela ferramenta PLEK 49

Tabela 5 – Segundo conjunto de dados completo utilizado pela ferramenta CPC2 . 51

Tabela 6 – Comparativo de acuracia media da BASiNET com as ferramentas de

predicao CNCI, PLEK e CPC2, no primeiro conjunto de dados . . . . 61

Tabela 7 – Identificacao dos thresholds de recorrencia das metricas caminho mınimo

medio (ASPL) e intermediacao (BET) aplicadas ao primeiro conjunto

de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

Tabela 8 – Comparativo de acuracia media da BASiNET com as ferramentas de

predicao CNCI, PLEK e CPC2, no segundo conjunto de dados . . . . . 66

Tabela 9 – Identificacao dos thresholds de recorrencia das metricas caminho mınimo

medio (ASPL) e intermediacao (BET) aplicadas ao segundo conjunto

de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

Tabela 10 – BASiNET aplicada ao primeiro conjunto de dados com as medidas

de avaliacao: verdadeiros positivos (TP), verdadeiros negativos (TN),

precisao e F-measure, com o classificador Random Forest (RF) . . . . 74

Tabela 11 – BASiNET aplicada ao primeiro conjunto de dados com as medidas

de avaliacao: verdadeiros positivos (TP), verdadeiros negativos (TN),

precisao e F-measure, com o classificador J48 . . . . . . . . . . . . . . 74

Tabela 12 – BASiNET aplicada ao segundo conjunto de dados com as medidas

de avaliacao: verdadeiros positivos (TP), verdadeiros negativos (TN),

precisao e F-measure, com o classificador J48. . . . . . . . . . . . . . . 75

Tabela 13 – BASiNET aplicada ao segundo conjunto de dados com as medidas

de avaliacao: verdadeiros positivos (TP), verdadeiros negativos (TN),

precisao e F-measure, com o classificador Random Forest (RF) . . . . 75

Page 12: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

Lista de abreviaturas e siglas

A Adenina

AUC Area Embaixo da Curva (Area Under the Curve)

C Citosina

CN Redes Complexas (Complex Networks)

COG Conjunto de Grupos Ortologos (Cluster of Orthologous Groups)

CVC Clorose Variegada dos Citrus

DDBJ Banco de DNA do Japao (DNA Data Bank of Japan)

DNA Acido Desoxirribonucleico (Deoxyribonucleic Acid)

EMBL Laboratorio Europeu de Biologia Molecular (European Molecular Bio-

logy Laboratory)

FN Falso Negativo

FPR Taxa de Falsos Positivos (False Positive Rate)

KEGG Enciclopedia Kyoto de Genes e Genomas (Kyoto Encyclopedia of Genes

and Genomes)

G Guanina

GO Gene Ontology

INSDC Colaboracao Internacional de Banco de Dados de Sequencias de Nu-

cleotıdeos (International Nucleotide Sequence Database Collaboration)

lncRNAs RNAs longos nao-codificantes (long non-coding) RNAs

Mb Megabases

mRNA RNA mensageiro

NCBI Centro Internacional para Informacao Biotecnologica (National Center

for Biotechnology Information)

Page 13: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

ncRNAs RNAs nao-codificantes (non-coding) RNAs

NIH Instituto Nacional de Saude (National Institutes of Health)

NGS Sequenciamento de Nova Geracao (Next Generation Sequencing)

ORF Quadro Aberto de Leitura (Open Reading Frame)

Pb Pares de base

PDB Banco de Dados de Proteınas (Protein Data Bank)

sncRNAs RNAs nao-codificantes curtos (small non-coding) RNAs

RefSeq Base de dados de Sequencias de Referencia (Reference Sequence Data-

base)

RNA Acido Ribonucleico (Ribonucleic Acid)

ROC Caracterıstica de Operacao do Receptor (Receiver Operating Characte-

ristic)

T Timina

TN Verdadeiro Negativo

TP Verdadeiro Positivo

TPR Taxa de Verdadeiros Positivos (True Positive Rate)

tRNA RNA transportador

U Uracila

WEKA Waikato Environment for Knowledge Analysis

Page 14: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

Lista de sımbolos

G Caracteriza um grafo ou uma rede

V Representa um conjunto de vertices de uma rede

E Conjunto de pares nao ordenados “arestas”

vi Conjuntos das adjacencias do vertice i

Si Forca do vertice i

ki Grau do vertice i

Page 15: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

Sumario

1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.1 Motivacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.3 Contribuicoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

1.4 Organizacao do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . 20

2 Revisao bibliografica . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.1 Sequencias biologicas . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.1.1 DNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.1.2 RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.1.3 Proteına . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.1.4 Repositorios de sequencias biologicas . . . . . . . . . . . . . . . . . 27

2.2 Modelos de redes complexas . . . . . . . . . . . . . . . . . . . . . . . 29

2.2.1 Redes aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.2.2 Redes de mundo pequeno . . . . . . . . . . . . . . . . . . . . . . . 34

2.2.3 Redes livres de escala . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2.2.4 Metricas de redes complexas . . . . . . . . . . . . . . . . . . . . . . 35

2.2.5 Reconhecimento de padroes e classificacao . . . . . . . . . . . . . . 39

2.2.6 Algoritmo de classificacao de arvore de decisao . . . . . . . . . . . . 40

2.2.7 Medidas de avaliacao do classificador . . . . . . . . . . . . . . . . . 42

2.2.8 Validacao Cruzada . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

2.3 Metodologias propostas para classificacao de RNAs codificantes e RNAs

nao-codificantes de proteınas . . . . . . . . . . . . . . . . . . . . . . . 44

2.3.1 Coding Potential Calculator (CPC e CPC2) . . . . . . . . . . . . . 45

2.3.2 Coding-Non-Coding Index (CNCI) . . . . . . . . . . . . . . . . . . 46

2.3.3 Predictor of long non-coding RNAs and messenger RNAs based on

an improved k-mer scheme (PLEK) . . . . . . . . . . . . . . . . . . 47

3 Recursos necessarios e proposta para classificacao de RNAs . 48

3.1 Materiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.1.1 Sistema Computacional . . . . . . . . . . . . . . . . . . . . . . . . 53

Page 16: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

3.1.2 Linguagem de Programacao R . . . . . . . . . . . . . . . . . . . . . 53

3.1.3 Software WEKA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

3.2 Metodo proposto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.2.1 Mapeamento de sequencias de RNAs . . . . . . . . . . . . . . . . . 55

3.2.2 Extracao de caracterısticas para a identificacao de RNAs . . . . . . 57

3.2.3 Classificacao de sequencias em RNAs codificantes ou RNAs nao-

codificantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

3.2.4 Algoritmo de extracao de caracterısticas: BASiNET . . . . . . . . . 58

4 Resultados da classificacao e discussao comparativa . . . . . . 60

4.1 Classificacao de mRNAs e ncRNAs - comparativo da BASiNET com

as ferramentas PLEK, CNCI e CPC2 . . . . . . . . . . . . . . . . . . 60

4.2 Classificacao de mRNAs, lncRNAs e sncRNAs - comparativo da BA-

SiNET com as ferramentas PLEK, CNCI e CPC2 . . . . . . . . . . . 65

5 Conclusoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

Apendice A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

Apendice B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

Page 17: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

16

1 Introducao

1.1 Motivacao

As demandas de processamento computacional cada vez mais sofisticadas, a

exigencia de tempos de resposta cada vez menores e o crescente volume de dados tem desa-

fiado pesquisadores de diversas areas do conhecimento. As analises de sequencias biologicas

tem conquistado uma importancia cada vez maior devido a extensa quantidade de dados

sequenciados. Para tratar desse fenomeno, a literatura comumente utiliza o termo “Big

Data”, um termo bastante amplo que se refere a tecnologias de geracao, armazenamento,

transmissao e processamento de uma grande e complexa quantidade de dados estruturados

e nao-estruturados produzidos por aplicacoes de alto desempenho, de forma a torna-los

significativos em diversos contextos de analise (BARABASI, 2009; CLINE et al., 2007;

CUZZOCREA; SONG; DAVIS, 2011; FONSECA et al., 2016; GOODWIN; MCPHERSON;

MCCOMBIE, 2016; LETOUZE, 2011; SCHOEBERL et al., 2017).

O crescente fluxo de dados na ordem de centenas de petabytes traz novos e grandes

desafios no que tange a estrategias computacionais capazes de realizar o processamento

analıtico dos dados (data about the data) em diversas redes, como transportes, sociais,

comunicacoes e biologicas, entre outras. Nas mais variadas areas as quais se aplicam,

algoritmos buscam detectar padroes, tendencias e correlacoes que, somados a tecnicas

avancadas de visualizacao, constituem ferramentas importantes para atribuicao de sentidos

ao massivo volume de dados disponıvel (ALBERT, 2005; BARABASI et al., 2002; CAMILO;

SILVA, 2009; ITZKOVITZ et al., 2003; PANG-NING; STEINBACH; KUMAR, 2014).

Na biologia molecular, as aplicacoes de Big Data estao relacionadas, sobretudo, aos

estudos das “Omicas”, investigacao das moleculas que compoem as celulas, os tecidos e os

organismos, destinando-se principalmente ao estudo de genes (genomica), RNAs (trans-

criptomica), proteınas (proteomica) e metabolitos (metabolomica). Algumas aplicacoes

destacaveis estao relacionadas ao uso de biomarcadores voltados a identificacao de genes

que causam doencas na gravidez, como, a pre-eclampsia ou o nascimento prematuro

(HORGAN; KENNY, 2011), as interacoes entre proteınas (SAID et al., 2004) e a identi-

ficacao de lncRNAs relacionados a doencas graves como o cancer (GUTTMAN; RINN,

2012). O conjunto de todos esses estudos tambem e conhecido como biologia de alta

Page 18: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

17

dimensionalidade e todas essas tecnicas compoem a chamada biologia sistemica (IDEKER;

GALITSKI; HOOD, 2001; PIRES, 2014; WESTERHOFF; PALSSON, 2004).

A biologia sistemica inclui a visualizacao de redes associativas a fim de analisar

e decifrar a complexidade dos sistemas biologicos, por meio da observacao das conexoes

existentes entre os elementos (WANG; CHANG, 2011). Com uma visao essencialmente

interdisciplinar, ela supera o reducionismo por considerar que o todo e maior que a soma

das partes e que as redes estabelecidas sao fundamentais para a compreensao de como os

sistemas mudam ao longo do tempo, ou seja, em um organismo nenhum sistema funciona so-

zinho, todos os sistemas se articulam entre si e tal articulacao ainda e influenciada de forma

dinamica por diversos fatores especıficos a rede analisada (GOODWIN; MCPHERSON;

MCCOMBIE, 2016; HORGAN; KENNY, 2011). Uma das vantagens em utilizar a biologia

sistemica e a capacidade de projetar modelos in silico preditivos e multiescalares que estao

relacionados a descoberta de novos biomarcadores, por exemplo, para o melhoramento na

producao de soja (HAO et al., 2012), a segmentacao de grupos pautada em perfis geneticos,

bem como ao aprimoramento de tratamentos de doencas, como o cancer (BIOLOGY, 2017;

MUHAMMAD et al., 2017).

Nesse aspecto, a visao em rede tornou-se essencial para a compreensao das interacoes

das unidades biologicas, ou seja, como as sequencias e os sistemas interagem entre si

para a execucao das funcionalidades dos organismos (KITANO, 2002; LOPES; CESAR;

COSTA, 2011a; LOPES; OLIVEIRA; CESAR, 2011b; MUHAMMAD et al., 2017; YEGER-

LOTEM et al., 2004; ZHAO et al., 2015). Em uma analise de grafos (redes), os “vertices”

correspondem as unidades de informacao biologica e as “arestas” sao as conexoes existentes

entre essas informacoes, sendo que essa representacao permite visualizar os relacionamentos

existentes para um melhor entendimento de varios processos biologicos, visto que a topologia

das redes pode interferir na funcionalidade do organismo (BARABASI, 2009; CHEN et

al., 2010; GOLLO; BREAKSPEAR, 2014; LOPES et al., 2014; MEGHANATHAN, 2016).

O uso de redes complexas e cada vez mais recorrente para se modelar sistemas reais

e artificiais (ALBERT, 2005), pois essas redes podem representar desde a analise de reacoes

quımicas ate a dinamica dos relacionamentos que permeiam a sociedade, por exemplo, as

redes sociais e a internet (BARABASI et al., 2002; BOCCALETTI et al., 2006; JIA et

al., 2017). No campo biologico, as redes complexas tem colaborado especialmente para os

estudos de bioinformatica relacionados a predicao genica e as interacoes entre proteınas

Page 19: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

18

(ALBERT, 2005; CONQUE; KASHIWABARA; LOPES, 2014; LI; ZHANG; ZHOU, 2014;

LOPES; MARTINS; CESAR, 2008).

Nesse sentido, as redes complexas tem sido usadas para representar diferentes objetos

e extrair caracterısticas mais globais e abrangentes em diferentes contextos (BOCCALETTI

et al., 2006; COSTA et al., 2007; MILO et al., 2002; NEWMAN, 2003; VAZQUEZ et

al., 2004), considerando interatomas (BARABASI; GULBAHCE; LOSCALZO, 2011;

PAVLOPOULOS et al., 2011), organizacao celular (BARABASI; OLTVAI, 2004), redes

genicas (CONQUE; KASHIWABARA; LOPES, 2016; LOPES; CESAR; COSTA, 2011a;

LOPES et al., 2010; LOPES et al., 2014; VICENTE; LOPES, 2014), dentre outros.

• Problema de pesquisa:

Diante do grande volume de dados biologicos disponibilizados pelos repositorios na

internet, como a Bioinformatica pode auxiliar na transformacao desses dados em

informacoes significativas?

• Hipotese:

A utilizacao de metricas topologicas de redes complexas auxilia na classificacao e

identificacao de sequencias biologicas de RNAs codificantes e RNAs nao-codificantes.

• Metodo:

As sequencias biologicas sao transformadas em grafos utilizando dois parametros de

configuracao: o tamanho da palavra (Word Size - WS), que representa a quantidade

de nucleotıdeos - e o tamanho do passo (Step Size - ST), que representa as conexoes

entre eles. Desses grafos sao extraıdas metricas de redes complexas de proximidade,

grau, grau mınimo, grau maximo, intermediacao, coeficiente de clustering, caminho

mınimo medio, desvio padrao e motif de tamanho 3 e 4 (BARABASI; OLTVAI,

2004; BOCCALETTI et al., 2006; COSTA et al., 2007). Na sequencia, sao aplicados

thresholds de modo a diminuir a quantidade de arestas menos densas criando

subgrafos, dos quais sao novamente extraıdas as metricas ja descritas, gerando um

vetor de caracterısticas, de modo que esses valores sao utilizados com intuito de

revelar propriedades significativas para compreensao, classificacao e caracterizacao

das sequencias biologicas (ALBERT; BARABASI, 2002; COSTA et al., 2007). Uma

visao geral da pesquisa pode ser observada na Figura 1:

Page 20: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

19

Figura 1 – Etapas da pesquisa

Fonte: Autoria propria.

1.2 Objetivos

– Objetivo geral:

O objetivo principal deste trabalho e caracterizar sequencias de RNAs por meio

da utilizacao de metricas de redes complexas a fim de buscar padroes para a

classificacao das sequencias em RNAs codificantes e RNAs nao-codificantes.

– Objetivos especıficos:

1) Aplicar uma metodologia baseada no agrupamento dos nucleotıdeos (nu-

cleotıdeo, dinucleotıdeo ou trinucleotıdeo) e na relacao organizacional entre eles

para representar as sequencias de RNAs na forma de redes complexas;

2) Classificar diferentes classes de RNAs como: mRNA, ncRNA, lncRNA e

sncRNA;

3) Analisar possıveis padroes na identificacao e classificacao das referidas redes

biologicas.

4) Comparar a ferramenta desenvolvida, BASiNET, com as ferramentas CNCI,

PLEK e CPC2 a fim de verificar a validade do metodo por meio da comparacao

dos ındices de acuracia obtidos na classificacao de RNAs codificantes e RNAs

nao-codificantes.

Page 21: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

20

1.3 Contribuicoes

O desenvolvimento do metodo proposto BiologicAl Sequences NETwork (BASiNET)

contribui para a representacao e distincao de sequencias biologicas de RNAs em codificantes

ou nao-codificantes. Pautada no uso de metricas de redes complexas para a extracao de

caracterısticas distintivas, a metodologia pode ser ampliada a outras classificacoes biologicas

relacionadas a DNAs e aminoacidos. Desse modo, a ferramenta pode se tornar extensıvel a

um numero significativo de problemas relacionados a sequencias biologicas.

1.4 Organizacao do trabalho

O presente trabalho esta organizado da seguinte forma: apos essa introducao, no

segundo capıtulo, ha a apresentacao do referencial bibliografico sobre dados biologicos e

a conexao entre as redes complexas com suas aplicacoes em sistemas reais. No terceiro

capıtulo, e descrito o metodo do trabalho, que consiste em utilizar metricas de redes

complexas para caracterizar sequencias biologicas de RNAs. O quarto capıtulo apresenta os

resultados da caracterizacao e distincao, comparando os ındices obtidos pela BASiNET com

os de outras ferramentas de predicao. No quinto capıtulo, sao apresentadas as conclusoes e

os encaminhamentos para pesquisas futuras.

Page 22: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

21

2 Revisao bibliografica

O primeiro genoma completo sequenciado foi em um vırus (Enterobacteria phage

phiX174), em 1977, realizado por Frederick Sanger que sequenciou 5.375 pares de bases

(pb) (SANGER; NICKLEN; COULSON, 1977). Desde entao, as inovacoes tecnologicas

realizaram uma revolucao na area de sequenciamento de dados biologicos, visto que

proporcionam a leitura de uma maior quantidade de sequencias em tempo relativamente

reduzido (GOODWIN; MCPHERSON; MCCOMBIE, 2016; WALKER, 2014).

Nesse aspecto, a decada de 1990 foi um perıodo intenso em descobertas de sequencias

biologicas, destacando-se o lancamento do Projeto Genoma Humano, o qual reuniu pesqui-

sadores e laboratorios do mundo todo, inclusive do Brasil, para realizar o mapeamento

genetico que auxiliou na compreensao da origem de varias doencas, como por exemplo,

o cancer (LANDER et al., 2001; SAID et al., 2004). O sequenciamento completo do

Projeto Genoma Humano foi concluıdo em 2003 e foram sequenciadas 3,4 bilhoes pb, entre

20-25 mil genes, dos quais apenas 2% sao codificados em proteınas (GIBBS et al., 2003;

INTERNATIONAL; CONSORTIUM, 2003).

Em 1992, o repositorio de sequencias biologicas GenBank foi integrado ao Instituto

Nacional de Saude (NIH, do ingles National Institutes of Health), permitindo o acesso

publico a sequencias de nucleotıdeos e proteınas (BENSON; LIPMAN; OSTELL, 1993).

Em 1995, foi sequenciado o primeiro genoma de um procarioto (Haemophilus influenzae)

com 1.830.137 pb (FLEISCHMANN et al., 1995).

Em 1996, na Belgica, o pesquisador Andre Goffeau publicou o primeiro genoma

eucarioto unicelular (Saccharomyces cerevisiae), os resultados foram 12.068 Kb e 6.000

genes (GOFFEAU et al., 1996). Em 1998, o genoma de um organismo multicelular de uma

especie de nematoide (Caenorhabditis elegans) foi publicado com 97 Mb e 19.000 genes

(CONSORTIUM et al., 1998). O inıcio do seculo XXI foi marcado com o sequenciamento

da Drosophila melanogster com cerca de 120 Mb e 13.600 genes (ADAMS et al., 2000).

Ainda no ano 2000, o primeiro vegetal sequenciado foi a especie Arabidopsis thaliana com

um genoma de 125 Mb e 25.498 genes (KAUL et al., 2000).

No Brasil, foi publicado no ano 2000, o sequenciamento completo da bacteria Xyllela

fastidiosa com 2.679.305 pb e dois plasmıdeos com 51.158 bp e 1.285 bp, responsaveis por

Page 23: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

22

provocar a doenca Clorose Variegada dos Citrus (CVC) ou amarelinho, ligada a diminuicao

drastica da produtividade de plantas cıtricas (SIMPSON et al., 2000).

A partir de 2005, os Sequenciadores de Nova Geracao - NGS (do ingles, Next

Generation Sequencing) comecaram a ser disponibilizados e proporcionaram um grande

avanco no volume de dados gerados. O sequenciador 454 (Life Sciences), por exemplo,

proporcionou a producao de dados moleculares de 25 milhoes de pares de base em uma

corrida de 4 horas, isso representou uma reducao de tempo de 100 vezes, quando comparado

ao metodo de Sanger (MARGULIES et al., 2005). Atualmente, com o uso dos sequenciadores

de alto desempenho (NGS), e possıvel analisar o genoma completo de diversas especies,

incluindo as regioes codificantes e nao-codificantes (ALBERTS et al., 2010).

Desde seu inıcio, os NGS tem impactado significativamente nos estudos em Bioin-

formatica devido ao aumento do volume de dados disponıveis, ao tamanho das sequencias

produzidas e a queda dos custos de sequenciamento, proporcionado por ferramentas como a

Illumina ou Nanopore (FONSECA et al., 2016; GOODWIN; MCPHERSON; MCCOMBIE,

2016).

Devido a massiva producao de sequencias biologicas, principalmente a partir do

lancamento comercial dos NGS, ha uma grande lacuna entre producao de dados biologicos

e sua analise, fato que motiva a construcao de metodos eficientes para tratar esses dados e

torna-los informacoes significativas.

2.1 Sequencias biologicas

2.1.1 DNA

As informacoes geneticas de todos os organismos eucariotos e procariotos estao

armazenadas na molecula de Acido Desoxirribonucleico (DNA, do ingles Deoxyribonu-

cleic Acid) (WATSON; CRICK, 1953), nos organismos eucariotos o DNA esta localizado no

nucleo da celula, enquanto nos organismos procariotos o DNA esta disperso no citoplasma

da celula (ZAHA; FERREIRA; PASSAGLIA, 2014). Existem poucos vırus que contem

as informacoes na molecula de Acido Ribonucleico (RNA, do ingles Ribonucleic Acid)

(SNUSTAD, 2011). As moleculas de DNA e RNA sao essenciais para a sobrevivencia, desen-

volvimento e funcionamento de todos os organismos (ZAHA; FERREIRA; PASSAGLIA,

2014).

Page 24: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

23

A estrutura primaria da molecula de DNA e composta por um grupo fosfato, uma

base nitrogenada (Adenina, Timina, Citosina e Guanina) e um acucar (desoxirribose),

cuja estrutura quımica e formada por uma pentose contendo cinco carbonos, dos quais

o carbono 5’ e o carbono 3’ se ligam ao fosfato que e composto de um atomo de fosforo

e quatro de oxigenio, formando uma sequencia linear de nucleotıdeos (ALBERTS et al.,

2010; WATSON; CRICK, 1953; ZAHA; FERREIRA; PASSAGLIA, 2014).

A estrutura secundaria do DNA, conhecida como dupla helice, possui dois filamentos

de nucleotıdeos unidos por pontes de hidrogenio que sao antiparalelas, ou seja, com

polaridade oposta entre si, em forma de uma espiral (ALBERTS et al., 2010; SNUSTAD,

2011; WATSON; CRICK, 1953; ZAHA; FERREIRA; PASSAGLIA, 2014).

Na estrutura secundaria, as bases nitrogenadas sao pareadas entre a Adenina e a

Timina, unidas por duas pontes de hidrogenio, e entre a Citosina e a Guanina que sao

ligadas por tres pontes de hidrogenio. As bases Timina e Citosina pertencem ao grupo das

pirimidinas apresentando um unico anel aromatico heterocıclico, ja a Adenina e a Guanina

pertencem ao grupo quımico das purinas e apresentam anel aromatico heterocıclico duplo

(ALBERTS et al., 2010; SNUSTAD, 2011; ZAHA; FERREIRA; PASSAGLIA, 2014).

Ao preservar a informacao genetica, o DNA armazena os dados de forma protegida e

condensada, a combinacao do DNA com proteınas como as histonas forma os nucleossomos

resultando-se na cromatina; no mais alto nıvel de condensacao, formam-se os cromossomos

(ZAHA; FERREIRA; PASSAGLIA, 2014).

A condensacao do material genetico se justifica como mecanismo para que nao ocor-

ram falhas ou mutacoes nos descendentes ao longo do processo de replicacao (SNUSTAD,

2011). Contudo, uma vez que a informacao genetica (DNA) e a mesma em todas as celulas,

a diferenciacao e a expressao genetica se da por meio da regulacao genica (ALBERTS et

al., 2010; SNUSTAD, 2011; ZAHA; FERREIRA; PASSAGLIA, 2014).

2.1.2 RNA

Dado que sequencias biologicas podem apresentar diferentes expressoes genicas,

compreender a dinamica das relacoes existentes entre os RNAs ainda e uma questao em

aberto (GUTTMAN; RINN, 2012; LOPES; OLIVEIRA; CESAR, 2011b; SUN et al., 2013;

TAYLOR; SIEGEL; GALITSKI, 2007).

Page 25: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

24

O RNA e transcrito a partir da fita molde de DNA de uma regiao genica, no sentido

5’ e 3’ de forma complementar a fita molde, ou seja, ele tera a mesma informacao da

fita codante, exceto pela troca da base nitrogenada Timina pela Uracila (ALBERTS et

al., 2010). Nesse processo, destaca-se a enzima denominada RNA Polimerase que possui

funcoes como: a) reconhecer e ligar-se a regiao certa do DNA a ser sintetizado; b) separar

as fitas duplas de DNA e mante-las separadas na regiao durante a sıntese do RNA e

estabilizar essa regiao; c) restaurar a regiao ja sintetizada do DNA e em conjunto com

outras proteınas finalizar a sıntese do RNA (ZAHA; FERREIRA; PASSAGLIA, 2014).

A Figura 2 exibe a atuacao da RNA Polimerase:

Figura 2 – RNA Polimerase no processo de transcricao.

Fonte: National Human Genome Research Institute - adaptacao.

Os mRNAs carregam os codigos necessarios para a producao de proteınas, con-

forme descrito inicialmente por Beatle e Tatum na decada de 1940 (ZAHA; FERREIRA;

PASSAGLIA, 2014).

Nos organismos eucariotos, o mRNA passa por algumas etapas ate ser traduzido

no ribossomo. Inicialmente, apos a transcricao da regiao genica do DNA, a fita simples

de RNA contem unidades codificadoras (exons) e as unidades nao-codificadoras (introns),

conforme Figura 3:

exón1

116-130 573-904

216-255

AAAA...CAP142-145 222

+ codificante 1-30Conteúdo

31-104aminoácidos

Comprimento exóns

Comprimento intróns

Codificante 105-fim+ 3' UTR

5' UTR

intrón1 intrón2exón2 exón3

Figura 3 – Estrutura de um RNA.

Fonte: (LEWIN, 2008) - adaptacao.

A partir da unidade de transcricao, o transcrito primario de RNA passa pelo

capeamento (CAP) no sentido 5’ e pela poliadenilacao (AAAA...) no sentido 3’; na

sequencia, ha a retirada dos ıntrons, de modo que a fita de mRNA contenha apenas os

Page 26: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

25

exons em um processo de recombinacao (splicing) do RNA, desse modo, o mRNA se

encontra no estagio maduro podendo atravessar a parede nuclear para ser traduzido pelos

ribossomos no citoplasma (ALBERTS et al., 2010).

Nesse contexto, ha diversos tipos de RNAs alem dos mRNAs, que sao diferenciados

pela regiao genica transcrita, por exemplo, os RNAs ribossomais (rRNA) que sao encon-

trados em maior quantidade na celula, sendo os responsaveis por sintetizar as proteınas;

os RNAs transportadores (tRNA) que sao responsaveis por transportar os aminoacidos; e

outros diversos RNAs nao-codificantes denominados de non-coding RNAs (ncRNA), que

sao essenciais para compreensao e funcionamento dos organismos, atuando por exemplo,

na replicacao, na traducao, ou na regulacao da expressao genica (GUTTMAN; RINN,

2012; SNUSTAD, 2011; ZAHA; FERREIRA; PASSAGLIA, 2014).

Dentre os ncRNAs, a classe long non-coding (lncRNAs) e composta por sequencias

com mais de 200 pares de bases (WANG; CHANG, 2011), ja a classe dos small non-coding

(sncRNAs) sao sequencias menores (KAPRANOV et al., 2007), muito abundantes nos

organismos, altamente conservados que sao envolvidos no silenciamento genico transcri-

cional (LEE; AMBROS, 2001; WANG; CHANG, 2011). A importancia dos ncRNAs se

relaciona a regulacao da transcricao que pode estar associada a doencas humanas como o

cancer (SPIZZO et al., 2012; ZHAO et al., 2015), sındromes neurodegenerativas, disfuncoes

cardiovasculares, dentre outras (CHEN et al., 2012).

Nesse sentido, identificar os diferentes tipos de sequencias, no grande volume de

dados produzidos pelo sequenciamento de alto desempenho, tem movido esforcos de

pesquisadores do mundo que buscam desenvolver metodos computacionais eficazes na

classificacao de mRNA, ncRNAs, lncRNAs e sncRNAs (CONQUE; KASHIWABARA;

LOPES, 2014; LI; ZHANG; ZHOU, 2014; LIU; GOUGH; ROST, 2006; KANG et al., 2017;

KONG et al., 2007).

2.1.3 Proteına

Dado que as proteınas sao responsaveis por grande parte dos processos biologicos no

organismo, e fundamental a compreensao dos mecanismos que participam de sua formacao

(DOOLITTLE, 2010).

Page 27: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

26

Para a sıntese das proteınas, e necessario que haja o processo de traducao, em que

o mRNA maduro e lido a partir do aminoacido Metionina (AUG) em uma sequencia de

trincas de nucleotıdeos reconhecido pelo rRNA (composto por duas subunidades proteicas),

onde cada aminoacido correspondente e transportado pelo tRNA (anticodon) para ser

incorporado aos codons, formando uma cadeia de aminoacidos (ZAHA; FERREIRA;

PASSAGLIA, 2014).

A Figura 4 exibe o codigo genetico com 20 diferentes aminoacidos, resultando em

64 combinacoes dos quatro nucleotıdeos (A, C, U, G) agrupados em codons (triplets).

UUCUUA

UUU

UUG

UCUUCCUCAUCG

UAUUACUAAUAG

UGUUGCUGAUGG

CUUCUCCUACUG

CCCCCU

CCACCG CAG

CAACACCAU CGU

CGCCGACGG

AUUAUCAUAAUG

ACUACCACAACG

AAAAACAAU

AAG AGGAGAAGCAGU

GUUGUCGUAGUG

GCUGCCGCAGCG GAG

GAAGACGAU

GGC

GGGGGA

GGU G

F

D

E

AVM

T N

K

L

L

I

RPW

H

Q

S

TERMTERM

Y C

S

R

Mapeamento dos códons em aminoácidos

Figura 4 – Codigo genetico.

Fonte: NIRENBERG, 2004 - adaptacao.

Destaca-se na Figura 4, a nao ambiguidade e a redundancia de codons pela corres-

pondencia a um mesmo aminoacido. As unicas sequencias nao redundantes sao: AUG que

corresponde ao aminoacido da Metionina e UGG do aminoacido Triptofano. A Metionina

tambem representa o codon de inicializacao da traducao pelo ribossomo. Ja os codons

UAA; UAG; UGA nao correspondem a nenhum aminoacido e indicam apenas o termino

da traducao da proteına (NIRENBERG, 2004).

As proteınas sao organizadas em quatro estruturas: i) a estrutura primaria e

composta pela sequencia dos aminoacidos; ii) a estrutura secundaria e formada por

aminoacidos ligados por hidrogenio, ocorrendo a formacao de alfa helice e de folha dobrada

(beta); iii) a estrutura terciaria e resultado da atracao entre a formacao da alfa helice e da

folha dobrada; iv) a estrutura quaternaria e composta pela proteına com mais de uma

cadeia de aminoacidos enovelados em formato especıfico (SNUSTAD, 2011). A Figura 5

exibe as quatro estruturas de uma proteına.

Page 28: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

27

Figura 5 – Organizacao das estruturas da proteına.

Fonte: National Human Genome Research Institute - adaptacao.

Destaca-se na Figura 5 que cada uma das estruturas pode ter uma funcao no

organismo, auxiliando, por exemplo, nos processos de replicacao, traducao, biossıntese e

funcoes estruturais (SNUSTAD, 2011).

2.1.4 Repositorios de sequencias biologicas

Para fomentar os estudos cientıficos que envolvem pesquisadores do mundo todo, fo-

ram criados laboratorios especıficos para o armazenamento de dados biologicos como

sequencias de nucleotıdeos de DNA e RNA, aminoacidos e proteınas (GALPERIN;

FERNANDEZ-SUAREZ; RIGDEN, 2017). O European Molecular Biology Laboratory

(EMBL), instalado desde 1974, e considerado o principal laboratorio da Europa para

as ciencias da vida. Trata-se de uma organizacao intergovernamental com mais de 80

grupos de investigacao independentes que cobrem todo o espectro da biologia molecular

e opera em seis locais: em Heidelberg (Alemanha) considerado o laboratorio principal;

em Barcelona (Espanha) se concentra os estudos da biologia de tecidos e modelagem de

doencas; em Hamburg (Alemanha) e Grenoble (Franca), estao concentradas as pesquisas

de biologia estrutural; em Hinxton (Reino Unido) esta instalado o Instituto Europeu de

Bioinformatica; e, em Monterotondo (Italia), onde sao desenvolvidos estudos em que ratos

sao os principais organismos experimentais (STOESSER et al., 2002).

Alem do EMBL, destacam-se outros repositorios de dados de importancia mundial

em estudos de biologia molecular. O International Nucleotide Sequence Database Collabo-

ration (INSDC) armazena dados do DNA Data Bank of Japan (DDBJ), pelo European

Nucleotide Archive (ENA) e pelo GenBank, localizado no Instituto de Genetica, em

Page 29: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

28

Mishina, Japao, com foco em fornecer dados de nucleotıdeos e aminoacidos a comunidade

cientıfica (COCHRANE et al., 2016; TORIBIO et al., 2017).

O GenBank armazena sequencias geneticas de DNA, RNA e proteınas de varias

especies procariotas e eucariotas, do National Center for Biotechnology Information (NCBI)

(BENSON et al., 2017). O NCBI esta localizado em Bethesda, Maryland, EUA, alem do

banco de Cluster of Orthologous Groups (NCBI COG) que contem as informacoes de

filogenia envolvendo proteınas codificadoras em genomas completos (NCBI, 2017).

O Protein Data Bank (PDB), destaca-se como repositorio mundial de informacoes

sobre as estruturas 3D de grandes moleculas biologicas, incluindo proteınas e acidos

nucleicos. O PDB e gerenciado por tres centros, localizados nos Estados Unidos, Japao e

Europa (ROSE et al., 2017). O Kyoto Encyclopedia of Genes and Genomes (KEGG) esta

localizado em dois centros no Japao: Centro de Bioinformatica no Instituto de Pesquisa

Quımica, Universidade de Kyoto e o Centro do Genoma Humano no Instituto de Ciencias

Medicas, Universidade de Toquio. O KEGG e um banco de dados de pesquisas integradas de

genomica, vias metabolicas, quımica, informacao funcional sistemica e saude (KANEHISA

et al., 2017).

O Gene Ontology (GO) e uma importante iniciativa da Bioinformatica para unificar

e fornecer um vocabulario controlado de termos para descrever a funcao do gene e dados

de anotacoes (ASHBURNER et al., 2000).

A Tabela 1 apresenta a compilacao da quantidade de dados e sua descricao disponi-

bilizados pelos repositorios GENBANK, PDB e KEGG.

Tabela 1 – Repositorios de dados biologicos.

Repositorio Descricao QuantidadeGENBANK Sequencias de nucleotıdeos publica-

dos e descritos370.000 especies formal-mente descritas.

PDB Proteınas 3D e acidos nucleicos 130.365 estruturas biologicasmacromoleculares.

KEGG Funcoes do sistema biologico, rela-cionando o conjunto de dados mole-culares.

KEGG GENES - 25.193.365;KEGG PATHWAY - 552.727;KEGG REACTION - 10.775;KEGG DISEASE - 1.999;KEGG MEDICUS - 14.578.

Fonte: Repositorios - compilacao, jan. 2018.

Page 30: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

29

Observa-se a expansao permanente dos repositorios existentes, bem como o surgi-

mento de novos. Os dados se expandem em quantidade e diversidade, contribuindo para

as mais diversas areas biologicas, sobretudo para os avancos relacionados a compreensao

de mutacoes dos organismos (GALPERIN; FERNANDEZ-SUAREZ; RIGDEN, 2017).

A Tabela 2 apresenta o alfabeto utilizado em cada tipo de sequencia, bem como

algumas bases de dados de armazenamento.

Tabela 2 – Alfabetos que representam as sequencias biologicas.

Sequencia biologica Alfabeto RepositoriosDNA A,C,T,G RefSeq; GenBank; KEGG; DDBJ;

ENA.RNA A,C,U,G RefSeq; DDBJ; GenBank.Aminoacidos A,R,N,D,C,

Q,E,G,H,I,J,K,M,F,P,S,T,W,Y,V

RefSeq; PDB; COG;GenBank.

Fonte: BIONFORMATICS, 2017 - adaptacao.

Os repositorios de armazenamento de dados biologicos disponibilizam suas in-

formacoes por meio de padroes, dentre eles destaca-se o padrao FASTA. Trata-se de um

formato de arquivo texto que representa sequencias de nucleotıdeos ou aminoacidos por

meio de letras (BIONFORMATICS, 2017; MICHIGAN, 2017).

2.2 Modelos de redes complexas

Em 1736, Leonhard Euler iniciou os estudos da teoria dos grafos no celebre caso das

pontes de Konigsberg ao representar cada uma das quatro porcoes de terras por vertices e

cada ponte por uma aresta. Com suas observacoes, Euler evidenciou que nao existia uma

rota que cruzasse todas as pontes sem repetir o caminho (BARABASI, 2009).

A impossibilidade evidenciada por Euler acontecia devido a uma propriedade do

grafo a qual estabelece que atravessar todos os pontos e voltar ao local inicial sem que

haja repeticao de caminhos, somente e possıvel caso o ponto de origem tenha um numero

par de arestas; como todos os vertices do grafo possuıam um numero ımpar de arestas era

impossıvel realizar a travessia (BARABASI, 2009).

Neste contexto, ao modelar problemas reais em grafos, a simplicidade de repre-

sentacao e a praticidade de uso permitem utilizar suas propriedades para generalizar

Page 31: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

30

aplicacoes e encontrar solucoes para problemas diversos, como: modelagem de textos;

analise de redes sociais; redes neurais; dobramento de proteınas; dentre outras funcoes

biologicas (ALBERT, 2005; BARABASI, 2009; COSTA et al., 2007; LOPES, 2011; LOPES

et al., 2014; SMOOT et al., 2011).

A estrutura dos grafos (Figura 6) e determinada por G = (V, E), na qual a letra

G representa o grafo, a letra V os vertices representados pelos dinucleotıdeos GG, AT,

TG, AA, GA e a letra E corresponde as arestas que determinam o direcionamento das

conexoes (DIESTEL, 2000). Os grafos tambem podem ser representados numericamente

por meio de uma matriz de adjacencias.

Figura 6 – Grafo direcionado e sua matriz de adjacencias.

Fonte: Autoria propria.

Assim, a matriz de adjacencias representa de forma binaria a ocorrencia de aresta

entre os vertices do grafo, sendo que 1 representa a existencia de aresta entre o vertice

identificado na respectiva linha e coluna e 0 a inexistencia delas (DOROGOVTSEV;

GOLTSEV; MENDES, 2002). Nos sistemas biologicos, essa estrutura pode ser verificada

nas redes de regulacao genica (MILO et al., 2002; LOPES; CESAR; COSTA, 2011a).

O exemplo citado traz um grafo direcionado, contudo ha tambem grafos nao-

direcionados e ponderados. A Figura 7 exibe um grafo nao-direcionado acompanhado de

sua respectiva matriz de adjacencias, neste caso a matriz e simetrica, isto e, a aresta de

TG para AA existe tambem de AA para TG.

Page 32: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

31

Figura 7 – Grafo nao-direcionado e sua matriz de adjacencias.

Fonte: Autoria propria.

A Figura 8 exibe um grafo ponderado e sua respectiva matriz de pesos, isto e, cada

aresta tem associado a ela um valor que e somado em caso de nova ocorrencia. Destaca-se

que nesse tipo de grafo as arestas tem um peso associado (GOLDBARG; GOLDBARG,

2012):

Figura 8 – Grafo ponderado e sua matriz de pesos.

Fonte: Autoria propria.

Dado o exposto, qualquer um dos grafos pode conter conexoes irregulares entre

os vertices e topologias nao triviais, tais grafos sao definidos como redes complexas

(BARABASI, 2009). Os diferenciais sobre as redes complexas com relacao a um grafo

simples e a complexidade e a dinamica na representacao de sistemas reais. Tal representacao

demonstra padroes em sua estrutura que se assemelham a complexidade das atividades do

mundo real (BARABASI, 2009).

Page 33: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

32

Costa (2007) demonstra a aplicacao dos thresholds para caracterizacao e repre-

sentacao da dinamica dos conjuntos. Na Figura 9, foi possıvel selecionar varios subconjuntos

por meio de metricas, isso gera o vetor de caracterısticas baseado na dinamica da rede

representado por ~µT , em que µ e a media e T o threshold (COSTA et al., 2007).

Na sequencia, foram aplicados limiares (thresholds) no grafo, conforme exibido na

Figura 9.

Representação

Representação

Threshold

Caracterização

Caracterização

µ=[µ1µ2µ3...µTM]

µT=[µT1µT2µT3...µTM]

∆µ

Figura 9 – Dinamica em uma rede complexa.

Fonte: COSTA et al., 2007 - adaptacao.

Na literatura sao encontrados exemplos de sucesso do uso da teoria de redes

complexas na resolucao e representacao de sistemas reais em quatro grupos, conforme

descrito por Newman (2003): o primeiro grupo se refere as redes sociais, que sao formadas

por pessoas com caracterısticas e contatos em comum, destaca-se o experimento realizado

por Milgram (1967) que afirmou serem necessarios em media seis lacos de amizade para que

duas pessoas quaisquer estejam ligadas no mundo (small world); o segundo grupo trata-se

das redes de informacao, em que os relacionamentos se dao pela troca de comunicacoes,

como as citacoes entre artigos ou mesmo a web e seus hiperlinks que relacionam uma vasta

gama de informacoes; o terceiro grupo sao as redes tecnologicas dispostas em areas como

a aviacao, o transporte, a eletricidade, a comunicacao e a internet; e o quarto grupo, foco

desta pesquisa, diz respeito as redes biologicas, tais como, as redes neurais, metabolicas,

de interacao entre proteınas ou de regulacao genica (NEWMAN, 2003).

Page 34: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

33

As redes complexas apresentam um caminho promissor para o melhor entendimento

das interacoes biologicas, pois permitem visualizar de forma grafica a complexidade das

atividades dos organismos (ALBERT, 2005).

2.2.1 Redes aleatorias

De acordo com o modelo de Redes aleatorias proposto por Erdos e Renyi (ER), os

vertices sao distribuıdos de forma aleatoria com uma uniformidade de probabilidade entre

as conexoes (Figura 10a). Esse modelo de distribuicao dos graus dos vertices tambem

se aproxima da distribuicao de Poisson, conforme exibido na Figura 10b (COSTA et al.,

2007; ERDOS; RENYI, 1959). A letra k representa o grau medio de conexoes e P(k) a

probabilidade de um novo vertice ter k conexoes. Desse modo, e possıvel verificar uma

concentracao maior em torno do grau medio, isto e, uma possibilidade maior de que novos

vertices estejam em torno do grau medio.

Rede aleatória

1850

0.00

0.08

0.10

0.02

0.04

0.06

P(k

)

a)

1900 1950 2000 2050k

b)

2100 2150

Figura 10 – Rede aleatoria, a) distribuicao dos vertices e b) representacao media dos graus.

Fonte: COSTA et al., 2007 - adaptacao.

O modelo ER e considerado a primeira representacao de redes complexas (COSTA

et al., 2007). Nesse modelo, inicialmente os vertices estao desconectados, sendo a rede

construıda aleatoriamente com a insercao de arestas por meio da probabilidade 0 > p

>1 (BOCCALETTI et al., 2006). Nas redes reais, o modelo ER nao e tao representativo,

Page 35: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

34

uma vez que e comum encontrar alguns vertices mais conectados que outros (BARABASI;

ALBERT, 1999).

2.2.2 Redes de mundo pequeno

Watts e Strogatz buscaram representar as redes como um conjunto de metricas de

similaridade. Nesse modelo de redes complexas, as conexoes nao sao totalmente aleatorias,

mas estao determinadas por agrupamentos (WATTS; STROGATZ, 1998). Esse modelo,

recebe o nome de mundo pequeno em referencia ao experimento de Milgran (1967), nos

Estados Unidos, o qual relata que em media ha seis graus de separacao entre qualquer

pessoa do mundo (TRAVERS; MILGRAM, 1967). Nesse modelo de rede, a construcao das

relacoes e realizada considerando a proximidade entre os vertices (COSTA et al., 2007),

conforme exibido na Figura 11.

loop

Rede de mundo pequeno

Figura 11 – Rede de mundo pequeno.

Fonte: COSTA et al., 2007 - adaptacao.

Destaca-se, na Figura 11, o agrupamento entre os vertices, desse modo e possıvel

verificar pequenos grupos de semelhanca e a caracterıstica de um grande numero de loops

de tamanho 3 (COSTA et al., 2007). Watts e Strogatz demonstraram que essa rede e

encontrada no sistema neural da Caenorhabditis elegans (WATTS; STROGATZ, 1998).

2.2.3 Redes livres de escala

No modelo de redes complexas de Barabasi (BA), existem conexoes preferenciais

(hub), isto e, ha vertices mais atrativos, tais sistemas sao representados pela distribuicao

Page 36: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

35

dos graus nos vertices por uma Lei de Potencia (ALBERT, 2005; BARABASI, 2009;

COSTA et al., 2007).

Para encontrar os graus de distribuicao da rede livre de escala, e dada a formula da

lei de potencia, representada por P (k) ∼ kγ , na qual P (k) corresponde a probabilidade de

interacao entre k e os outros vertices e γ a constante do expoente, frequentemente com os

valores 2 ou 3, que se refere ao declınio exponencial dos vertices (ALBERT, 2005).

Na rede livre de escala, existe a possibilidade dos vertices serem mais conectados

(hub), isto e, alguns vertices possuem mais atratividade, como exibido na Figura 12b

(BARABASI; ALBERT, 1999).

hub

a) b)

Figura 12 – Conexoes dos vertices, a) rede aleatoria e b) rede livre de escala.

Fonte: ITZKOVITZ et al., 2003 - adaptacao.

Destaca-se a representatividade das redes livres de escala relacionadas com os

estudos de redes biologicas, uma vez que os organismos sao constituıdos por um complexo

conjunto de materiais geneticos cujas interconectividades vem sendo investigadas para

melhor compreensao de como os organismos funcionam. As redes metabolicas, de regulacao

genica ou de interacoes entre proteınas sao exemplos disso (ALBERT, 2005; CLINE et al.,

2007; LOPES; CESAR; COSTA, 2011a).

2.2.4 Metricas de redes complexas

Ha diversas metricas utilizadas para a extracao de caracterısticas topologicas de

redes complexas, destacam-se as correlacionais e as de centralidade (COSTA et al., 2007).

As primeiras nao consideram a magnitude dos valores e sim a similaridade entre os padroes,

ja as de centralidade sao representadas pela similaridade entre os valores, ou seja, e

Page 37: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

36

considerada a proximidade entre as distancias que podem ter padroes muito diferentes ao

longo das caracterısticas observadas (CAMILO; SILVA, 2009; WEBB; COPSEY, 2011).

Para Barabasi e Oltvai (2004), as metricas mais basicas que podem ser utilizadas

na caracterizacao de um sistema biologico sao: grau; distribuicao de grau; redes scale-free;

grau exponencial; caminho mınimo; caminho medio e coeficiente de clustering. No mesmo

sentido Costa (2007), destaca dentre outras metricas, as de centralidade para classificacao

de problemas do mundo real, uma vez que elas permitem evidenciar quantitativamente os

elementos mais importantes ou centrais da rede (COSTA et al., 2007).

A intermediacao e uma metrica de centralidade que quantifica o numero de mediacoes

realizadas pelo vertice com relacao a outros dois vertices, capturando os vertices mais

utilizados como ponte para outros vertices, na qual giej e o numero de caminho mais curto

entre os vertices i e j que passa pelo vertice ou aresta e. Ja gij e a totalidade dos caminhos

mais curtos entre i e j (COSTA et al., 2007).

A representacao matematica e dada pela equacao:

e =∑

i 6=j

giejgij

A proximidade se refere a semelhanca entre os vertices de um grafo, baseada em

um vertice rotulado ou valores atribuıdos a ele. O coeficiente de proximidade, quando

positivo, demonstra que os vertices tendem a se conectarem, ja quando o valor e negativo,

ha pouca ou nenhuma atratividade entre eles (NEWMAN, 2003), definida pela equacao:

r =

∑ieii−

∑iaibi

1−∑

iaibi

No qual ei j refere-se a fracao das arestas conectadas aos vertices i e j. Ja ai =∑j

eij e bj =∑i eij.

A proposito do grau, tambem uma metrica de centralidade, ela reflete o numero de

arestas conectadas aos vertices. No qual ki e o vertice e aij e a soma das arestas conectadas

a ele (COSTA et al., 2007), definida pela equacao:

ki =∑

jaij =

∑jaj i

Algumas metricas sao derivadas da centralidade de grau, dentre elas o grau maximo

e o grau mınimo, representados pelas formulas: kmax = maxiki e kmin = min

iki, na qual

max indica o vertice mais conectado da rede e min o menos conectado.

Page 38: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

37

Destaca-se tambem a metrica de caminho mınimo medio que esta relacionada a

caracterizacao estrutural interna da rede, uma vez que determina o comprimento dos

menores caminhos entre dois vertices que se conectam, representado pela letra l. Na qual

N e o numero de vertices do grafo e dij e a distancia media geodesica (caminho mais

curto) entre os vertices i e j (BOCCALETTI et al., 2006).

A representacao matematica e dada pela equacao:

l= 1N(N−1)

∑i 6=j

dij

O coeficiente de clustering conhecido tambem como transitividade e uma metrica

de agrupamento que determina a probabilidade de um vertice estar conectado a outro.

Onde Cwi e a probabilidade que varia entre 0 e 1, si e a forca do vertice i, ja os wij e wik

sao os pesos das arestas, ki e o grau do vertice e aij, aik e ajk sao elementos da matriz de

adjacencias (COSTA et al., 2007), definida pela equacao:

Cwi = 1

si(ki−1)

∑k>j

wij+wik

2aijaikajk

O desvio padrao (DP) indica a dispersao dos vertices relacionados a media amostral.

Onde x e a aresta e x as medias das arestas, sendo n o numero total de possibilidades de

arestas no grafo. Representado pela equacao:

DP=

√∑|xi−x|2n

O Motivo (do ingles motif ) e um subgrafo que representa uma rede maior com a

finalidade de quantificar frequencias significativas nos parametros das analises (MILO et al.,

2002). Em uma sequencia biologica, um motif e um padrao que ocorre repetidamente em

diferentes posicoes na rede, representando modulos com informacoes moleculares relevantes

e representativas da sequencia devido a sua alta recorrencia (BERG; LASSIG, 2004).

Na Figura 13, e possıvel verificar que a frequencia de ocorrencias do motif indicado

e muito mais intensa em a) do que em b). Assim, evidencia-se que a observacao de

motifs em redes reais e fundamental enquanto constituicao topologica de uma sub-rede

representativa de uma rede maior. Observa-se que o numero de ocorrencias de motif e

muito mais significativo em uma rede real (MILO et al., 2002).

Page 39: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

38

a) b)

motif

rede real rede aleatória

Figura 13 – Exemplos de redes com motifs, a) motif em uma rede real e b) motif em umarede aleatoria.

Fonte: MILO et al., 2002 - adaptacao.

Os motifs podem ser aplicados em diversas areas, tais como, analises bioquımicas,

neurobiologicas, ecologicas, de circuitos eletronicos e hiperlinks em paginas web (TAY-

LOR; SIEGEL; GALITSKI, 2007; GOLLO; BREAKSPEAR, 2014). Ha varias topologias

definidoras de motifs, porem, no ambito biologico, de acordo com Milo (2002), destacam-se

os denominados feedfoward loop, bi-fan e biparallel, conforme exibido na Figura 14.

Figura 14 – Motifs em redes biologicas.

Fonte: MILO et al., 2002.

No motif feedforward loop de tamanho 3, o vertice X influencia os vertices Y e Z,

enquanto Y influencia somente o vertice Z e Z nao influencia nenhum vertice. No motif

Bi-fan de tamanho 4, os vertices X e Y sao reguladores dos vertices Z e W simultaneamente,

porem nao sao regulados por nenhum outro vertice (MILO et al., 2002). A ocorrencia

Page 40: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

39

desses motifs e destacavel em redes de regulacao genica e em redes de sinapses neuronais

(DREES et al., 2005).

No motif Bi-Parallel, tambem de tamanho 4, o vertice X influencia Y e Z que, por

sua vez, influencia o vertice W. Observa-se, portanto, que X exerce influencia indireta em

W, sendo X o regulador central dos demais vertices. Esses motifs podem ser visualizados

em redes de sinapses neuronais e redes representativas de cadeias alimentares (MILO et

al., 2002).

Dado que a metrica motif e um subgrafo que representa uma rede maior, destaca-se

a finalidade de quantificar as frequencias mais significativas como parametros das analises.

A frequencia estatıstica de um motif pode ser medida quando comparada a correspondente

em um grafo aleatorio, sendo N i(real) o numero de vezes que o motif i aparece em uma

rede real e N i(rand) o numero de vezes que o motif i aparece em uma rede aleatoria, ja

σi(rand) e o desvio padrao de i do numero de ocorrencias encontradas na rede aleatoria

(COSTA et al., 2007). O escore-Z e definida pela equacao:

zi=N i

(real)−〈N i(rand)〉

σi(rand)

Dado o exposto, e de fundamental importancia a busca por metricas que extraiam

caracterısticas relevantes para identificar as sequencias biologicas, uma vez que esses padroes

podem ser utilizados para compreensao das funcionalidades biologicas das sequencias

analisadas (BERG; LASSIG, 2004).

2.2.5 Reconhecimento de padroes e classificacao

Devido a existencia de muitas sequencias biologicas, e de fundamental importancia

reconhecer padroes distintivos que as caracterizem. Para tanto, Webb e Copsey (2011)

afirmaram que o reconhecimento de padroes e uma area que envolve os estudos de

investigacao relacionados a formulacao de um problema, bem como a colecao de dados por

meio da discriminacao, classificacao, calculo e interpretacoes dos resultados. Os metodos

de reconhecimento de padroes buscam a classificacao de uma determinada sequencia em

uma classe especıfica (THEODORIDIS et al., 2010).

Na bioinformatica, um problema recorrente e a grandeza do espaco de caracterısticas,

tornando difıcil e computacionalmente custosa a tarefa de classificacao e consequentemente

a analise do material biologico estudado (BISHOP, 1995; CAMPOS, 2001).

Page 41: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

40

Ha tres formas para tratar as classificacoes: i) o aprendizado ou classificacao

supervisionada; ii) a semi-supervisionada e a iii) a nao-supervisionada (LIBBRECHT;

NOBLE, 2015).

O conceito de supervisao esta relacionado ao conhecimento do padrao (rotulo) a ser

categorizado. Assim, o aprendizado supervisionado divide-se em dois grupos: classificacao

e regressao (CAMILO; SILVA, 2009). A classificacao associa os objetos a uma categoria

ou classe com base em suas caracterısticas qualitativas, enquanto a regressao associa os

objetos a valores numericos, sendo a classe alvo analisada quantitativamente (CAMILO;

SILVA, 2009).

Quanto ao aprendizado nao-supervisionado, os rotulos sao desconhecidos e tambem

o numero total de classes a serem encontradas durante a classificacao. Os classificadores

nao-supervisionados tambem sao conhecidos como analise de agrupamentos (clusterings)

(CAMILO; SILVA, 2009; WEBB; COPSEY, 2011).

Sobre a classificacao semi-supervisionada, os dados rotulados e nao rotulados sao

aplicados no processo de classificacao, de modo a abranger um numero maior de situacoes

onde possa haver somente partes de classes conhecidas (ZHU, 2005).

2.2.6 Algoritmo de classificacao de arvore de decisao

A arvore de decisao e uma estrutura de dados representativos de uma sequencia

de passos que determina um caminho para classificacao, sua utilizacao ja foi empregada

com sucesso em situacoes do mundo real, por exemplo, na analise de aminoacidos, estudos

cardıacos e analise de farmacos, entre outros (MURTHY, 1998). Essa estrutura comeca

com uma unidade raiz (no que esta no topo da arvore), em arvores de decisao binaria,

ha dois caminhos distintos (descendentes ou ramos) a serem percorridos de acordo com

um criterio de decisao, caso esses caminhos nao cheguem ao final, os mesmos podem se

subdividir em outros dois caminhos, sucessivamente, ate chegar ao no folha que contem a

classe predita (GONG; HAN, 1997; MEIRA et al., 2008).

A inducao da arvore de decisao constroi um modelo com base no treinamento

de amostras de dados rotulados, considerando os valores das caracterısticas de cada no

das amostras para separar as classes (GONG; HAN, 1997; KAUR; CHHABRA, 2014;

KOTSIANTIS; ZAHARAKIS; PINTELAS, 2007).

Page 42: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

41

Os algoritmos de classificacao de arvore de decisao sao amplamente utilizados pela

clareza das caracterısticas extraıdas. A Figura 15 exibe a estrutura de uma arvore de

decisao binaria, bem como sua funcionalidade:

folhas

a) b)

>5

>7 <=7 >4 <=4

<=5

classe

A

classe

A

classe

B

classe

B

descendentes

raiz

m1

m2 m3

Árvore de decisão

Figura 15 – Arvore de decisao binaria em que a) contem a estrutura raiz, descendente efolha, e b) representa a estrutura de decisao com base nas caracterısticas dem1, m2 e m3, por exemplo, se o valor de m1 > 5 e m2 <= 7, portanto, essainstancia e predita como classe B.

Fonte: Autoria propria.

Para realizar a generalizacao do modelo de arvore de decisao, pode se eliminar

uma parte da arvore (poda) de modo a simplifica-la; trata-se da pre-poda e pos-poda. Na

pre-poda, e realizado um limiar para remover descendentes (ramos) enquanto a arvore e

induzida; na pos-poda e verificada a arvore completa e sao retirados alguns descendentes

apos a inducao da arvore (MONARD; BARANAUSKAS, 2003).

Ha diversos algoritmos de inducao de arvores de decisao, dentre eles destaca-se o

algoritmo C4.5 proposto por Quinlan, o qual consiste em uma arvore de decisao top-down.

Esse algoritmo utiliza estrategia de divisao e conquista, sendo uma extensao do algoritmo

Induction of Decision Trees (ID3) (GONG; HAN, 1997), uma implementacao em codigo

aberto do algoritmo C4.5 e encontrada no J48 do software de mineracao de dados WEKA

(BHARGAVA et al., 2013). O J48 e o algoritmo selecionado para alcancar os objetivos

desta pesquisa.

Sobre a estrategia de divisao e conquista, observa-se que o problema complexo e

dividido em subproblemas mais simples para a reaplicacao da estrategia. A selecao da

melhor particao dos vertices e o criterio de parada sao baseados na entropia de Shannon,

caracterıstica comum a grande parte da famılia de inducao de arvores de classificacao

(MITCHELL et al., 1997).

A proposito do funcionamento do algoritmo J48, convem destacar a existencia

de uma fase pos-poda da arvore, isto e, apos a expansao. Nessa fase, as subarvores que

Page 43: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

42

nao representam ganho de informacoes (maior reducao de entropia) significativas a partir

de um determinado threshold sao convertidas em folhas (BASGALUPP; CARVALHO;

FREITAS, 2010).

Outro algoritmo de arvore de decisao amplamente utilizado em problemas do mundo

real, em areas como a Bioinformatica, e o Random Forest. Trata-se de um conjunto de

arvores de decisao que classifica as novas instancias, tendo por base os votos majoritarios

desse conjunto de arvores (OSHIRO; PEREZ, 2012).

2.2.7 Medidas de avaliacao do classificador

Alem das metricas de redes complexas, tambem e preciso considerar algumas

metricas de desempenho; para tanto, destacam-se quatro possibilidades: 1) positivos

verdadeiros (TP), representando classificacoes corretas de casos positivos; 2) negativos

verdadeiros (TN), representando classificacoes corretas de casos negativos; 3) positivos

falsos (FP), representando classificacoes erradas de casos negativos; e 4) negativos falsos

(FN), representando classificacoes erradas de casos positivos (SOKOLOVA; JAPKOWICZ;

SZPAKOWICZ, 2006; ZHU et al., 2010).

Ao testar o desempenho do classificador, pode-se utilizar a matriz de confusao,

exibida na Tabela 3, cujo objetivo e mensurar a similaridade entre as respostas do

classificador e as classes conhecidas das amostras (WEBB; COPSEY, 2011).

Tabela 3 – Matriz de confusao.

REAL

ESTIMADO

Classe x Classe yClasse x TP FNClasse y FP TN

Fonte: Autoria propria.

Como parametros para verificacao, a matriz de confusao de um classificador otimo

possui a diagonal principal com valores positivos e todas as demais com valores iguais a

zero. Nesse sentido, para a classificacao de uma sequencia biologica correta, busca-se que a

diagonal principal esteja preenchida com valores e as demais colunas com o numero 0, tal

caracterıstica indica que o metodo, bem como o classificador, estao sendo eficientes.

Nesse sentido, a medida de desempenho sensibilidade e dada pela formula:

Page 44: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

43

Sensibilidade =TP

(TP + FN)(1)

A sensibilidade fornece dados que permitem verificar a capacidade do classificador

quanto a identificacao correta dos casos positivos, assim, quanto maior a sensibilidade

maior o numero de sequencias biologicas que o metodo classifica corretamente.

A proposito da identificacao correta dos casos negativos, considera-se a medida de

desempenho especificidade que e dada pela formula:

Especificidade =TN

(TN + FP )(2)

Outro parametro importante e dado pelo calculo de verificacao da acuracia, que

mensura a proporcao dos resultados corretos na predicao da sequencia analisada.

Acuracia =(TP + TN)

(TP + TN + FP + FN)(3)

A proporcao tambem e considerada para o calculo da precisao, porem considera as

sequencias de uma classe preditas corretamente dentro da classe identificada (TP) dividido

pela soma desse valor com o numero de sequencias classificadas nesta classe, mas que

pertencem a outra (FP).

Precisao =TP

(TP + FP )(4)

O F-score e uma medida que relaciona a precisao e a sensibilidade, logo, proporciona

um teste mais completo, indicando nao apenas a precisao com que as sequencias sao

classificadas corretamente, mas tambem a porcentagem de predicao delas.

F -Score =2 ∗ precisao ∗ sensibilidadeprecisao+ sensibilidade

(5)

A medida de desempenho AUC (do ingles, Area Under the Curve) e dada pela taxa

de verdadeiros positivos (TPR, do ingles, True Positive Rate) e pela taxa de falsos positivos

(FPR, do ingles, False Positive Rate). Gera-se, pois, a curva ROC (do ingles, Receiver

Operating Characteristic), que e um grafico resultante da sensibilidade ou proporcao de

verdadeiros positivos sob a especificidade ou falsos positivos.

Page 45: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

44

AUC =TPR

FPR(6)

Pode-se dizer que um bom classificador possui uma area sob a curva ROC proxima

a 1 e um metodo aleatorio teria um valor proximo a 0.5.

2.2.8 Validacao Cruzada

Para evitar problemas de classificacao, por exemplo, o superajustamento dos dados

(overfitting) ou quando nao se consegue verificar as tendencias dos dados (underfitting)

pode ser utilizada a validacao cruzada. Trata-se de separar uma parte do conjunto de

dados em teste e outras em treinamentos, representadas por k-fold (KOHAVI et al., 1995;

XIA et al., 2014), conforme ilustra a Figura 16:

Figura 16 – Validacao Cruzada

Fonte: Autoria propria.

Na Figura 16, e realizado 1 teste em cada fold do conjunto completo dos dados,

de modo a obter a validacao estatıstica dos resultados. A validacao cruzada avalia a

capacidade de generalizacao de um modelo a partir de um conjunto de dados. Nesse

sentido, usualmente, particiona-se aleatoriamente o conjunto em 10-fold (KOHAVI et al.,

1995), a fim de verificar a aprendizagem do algoritmo e ajustar os parametros (PANG-NING;

STEINBACH; KUMAR, 2014).

2.3 Metodologias propostas para classificacao de RNAs codificantes e RNAs nao-codificantesde proteınas

Os avancos do sequenciamento de alto desempenho (RNA-seq) tem propiciado que

transcritos de muitas especies sejam sequenciados (WANG; GERSTEIN; SNYDER, 2009).

Page 46: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

45

Nesse contexto, a classificacao de RNAs tem ganhado importancia crescente, visto

que identificar as diferencas entre as sequencias codificantes e nao-codificantes de proteınas

continua sendo um desafio que impulsiona pesquisadores do mundo todo, a buscar es-

trategias para o desenvolvimento de ferramentas computacionais capazes de classificar

RNAs com acuracia, rapidez, interface amigavel e codigo fonte livre (CONQUE; KASHIWA-

BARA; LOPES, 2014; KANG et al., 2017; KONG et al., 2007; LI; ZHANG; ZHOU, 2014;

LIU; GOUGH; ROST, 2006). Destarte, existem metodos de classificacao bem consolidados

como Support Vector Machines (SVM), Arvores de Decisao, Redes Neurais e outros

(BISHOP, 2006).

Em 2006, quando poucas abordagens computacionais eram projetadas especifica-

mente para a distincao entre mRNAs e de lncRNAs, a Coding Or Non-Coding (CONC)

buscou apresentar um metodo inovador pautado em SVM, isto e, algoritmo de aprendi-

zado supervisionado (LIU; GOUGH; ROST, 2006). Convem destacar que o SVM tem

sido amplamente utilizado para problemas de biologia computacional, com o intuito de

reconhecer padroes e classificar sequencias (ZHANG et al., 2017).

O metodo desenvolvido pela ferramenta CONC classifica as transcricoes de acordo

com 180 variaveis, entre elas destacam-se: tamanho da sequencia; composicao de aminoacidos;

estrutura secundaria; entropia da sequencia; numero de homologos de buscas de banco de

dados e entropia de alinhamento. Os autores destacam que as frequencias de nucleotıdeos

tambem sao incorporadas ao metodo, alem de utilizar softwares externos para extrair as

caracterısticas supracitadas (LIU; GOUGH; ROST, 2006).

Os resultados apresentados pelo metodo CONC indicam que o mesmo conseguiu

distinguir mRNAs de lncRNAs dos organismos eucariotos obtidos no banco de dados

Swiss-Prot (BOECKMANN et al., 2003), com cerca de 97% de especificidade e 98% de

sensibilidade, com validacao cruzada de 10-fold (LIU; GOUGH; ROST, 2006).

2.3.1 Coding Potential Calculator (CPC e CPC2)

Frente as transcricoes geradas por projetos de sequenciamento, em 2007, a CPC

focaliza a acuracia na distincao entre mRNAs e ncRNAs. Como vantagens com relacao ao

metodo CONC, os autores evidenciam alem da acuracia, a rapidez, a interface de facil

utilizacao e a utilizacao on-line (KONG et al., 2007).

Page 47: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

46

A CPC2 (2017) e a atualizacao da CPC, a ferramenta adota o mesmo classificador

SVM da CONC, no entanto, utiliza outras caracterısticas para a classificacao das sequencias.

Sao utilizados seis valores da sequencia de um transcrito, tres baseados na predicao de

Open Reading Frame - (ORF), a saber: cobertura da ORF, log-odds score da predicao e

um valor binario da ORF que indica se a ORF comeca com um start codon ou stop codon

e tres baseados no alinhamento de proteınas do UNIPROT, a saber: numero de hit, hit

score, baseado no e-value de High Scoring Pairs (HSPs) e frame score, que fundamenta-se

na distribuicao dos HSPs nos tres reading frames (KONG et al., 2007).

Observa-se, portanto, que a CPC2 utiliza caracterısticas especialmente relacionadas

aos mRNAs, pois, para que codifique uma proteına, deve possuir uma ORF e ter bom

alinhamento com a proteına correspondente (KANG et al., 2017). A lacuna desse metodo

encontra-se na necessidade de que as sequencias ja sejam conhecidas, logo, no caso do

sequenciamento de novos organismos, ou seja, que ainda nao foram anotados, a extracao

de caracterısticas ficara prejudicada.

Comparando a CPC com a ferramenta CONC, verifica-se que ambas utilizam softwa-

res externos para extracao de caracterısticas e dependem do alinhamento de sequencias

de proteınas em bases de dados conhecidas; contudo, acerca dos resultados alcancados, a

CPC, mesmo usando menos caracterısticas do que o CONC, alcancou melhor desempe-

nho na avaliacao comparada. Os autores da CPC enfatizaram que os resultados obtidos

pela ferramenta demonstraram a eficacia das caracterısticas de sequencias usadas. Como

vantagem, tambem foi citada a reducao do custo computacional, eliminando assim um

obstaculo para o desenvolvimento de um servidor web (KANG et al., 2017).

A proposito da versao atualizada da CPC, CPC2, os autores destacam que houve

aprimoramento quanto a velocidade de execucao e a acuracia. Quanto a rapidez, a versao

atualizada e aproximadamente 1000 vezes superior e a acuracia, no geral, tem uma melhoria

de 2,9% (KANG et al., 2017).

2.3.2 Coding-Non-Coding Index (CNCI)

A CNCI utiliza os codons de nucleotıdeos com o objetivo de distinguir RNAs

codificantes de RNAs nao-codificantes, sobretudo, para melhorar os ındices de acuracia

com relacao a identificacao de RNAs nao-codificantes longos (lncRNAs) (SUN et al., 2013).

Page 48: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

47

A ferramenta possui dois passos principais: a pontuacao da sequencia e a construcao

do modelo de classificacao. A pontuacao da sequencia utiliza uma janela deslizante por

meio da qual e calculada a frequencia de cada codon entre as 64 possibilidades do codigo

genetico. Cada uma das sequencias e percorrida 6 vezes, gerando 6 reading frame, cada

um deles permite a obtencao da pontuacao da sequencia (SUN et al., 2013).

A construcao do modelo de classificacao e feita por meio da construcao de uma

matriz de pontuacao que representa o grau de classificacao de RNAs codificantes e RNAs

nao-codificantes (SUN et al., 2013).

A CNCI ofereceu alta acuracia de distincao dos transcritos utilizando o sequencia-

mento de transcriptoma completo, a partir de dados de cruzamento entre especies. Tal

resultado demonstrou a divergencia evolutiva entre vertebrados e invertebrados, fornecendo

uma ferramenta adequada para um catalogo de lncRNAs de orangotangos (SUN et al.,

2013).

2.3.3 Predictor of long non-coding RNAs and messenger RNAs based on an improvedk-mer scheme (PLEK)

Assim como as demais ferramentas mencionadas, a ferramenta PLEK tambem visa

a distincao entre RNAs codificantes e RNAs nao-codificantes, sobretudo, os lncRNAs,

mesmo quando nao ha anotacao do genoma (LI; ZHANG; ZHOU, 2014).

A ferramenta utiliza um metodo alignment free, ou seja, e independente do alinha-

mento de sequencias com banco de dados preexistentes. Para a classificacao, a PLEK faz

uso da frequencia de k-mer como caracterıstica e usa uma janela deslizante com step igual

a 1 para contar k-mer que varia de 1 a 5. Convem destacar que o valor da frequencia de

cada padrao e ponderado pelo seu tamanho, o conjunto de frequencias e utilizado como

vetor de caracterısticas para um classificador SVM (LI; ZHANG; ZHOU, 2014).

Um olhar comparativo entre a PLEK, a CONC e a CPC2 permite verificar que a

extracao de caracterısticas da PLEK depende apenas da sequencia, sendo a frequencia de

nucleotıdeos diretamente considerada, ao contrario das outras duas ferramentas citadas.

Dado o exposto, verifica-se que a PLEK e adequada para distinguir transcritos de

sequenciamento de genes nao anotados, alem dos possıveis erros de delecao ou acrescimo

de bases do sequenciamento de alto rendimento (LI; ZHANG; ZHOU, 2014).

Page 49: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

48

3 Recursos necessarios e proposta para classificacao de RNAs

Conforme descrito no referencial teorico, estrategias computacionais tem sido

amplamente utilizadas a fim de distinguir RNAs codificantes de RNAs nao-codificantes

(KANG et al., 2017; KONG et al., 2007; LI; ZHANG; ZHOU, 2014; LIU; GOUGH;

ROST, 2006). Entretanto, tal tarefa permanece um desafio para os profissionais das

diversas areas relacionadas, uma vez que alem da enorme quantidade de dados, ainda

precisam ser considerados problemas de dependencia de anotacoes, ruıdos advindos do

sequenciamento e ındices confiaveis de acuracia (ALBERT, 2005; BARABASI; ALBERT,

1999; BOCCALETTI et al., 2006; CONQUE; KASHIWABARA; LOPES, 2014; COSTA

et al., 2007; KANG et al., 2017; LOPES; CESAR; COSTA, 2011a; LOPES et al., 2014;

LOPES; MARTINS; CESAR, 2008; LOPES; OLIVEIRA; CESAR, 2011b).

Nesse sentido, e proposto um modelo de extracao de caracterısticas de sequencias

biologicas de RNAs por meio da utilizacao de metricas de redes complexas a fim de buscar

padroes para a distincao de RNAs codificantes e RNAs nao-codificantes.

A ferramenta proposta, BASiNET, consiste na representacao de sequencias em

grafos, nos quais os vertices sao os segmentos de nucleotıdeos de uma sequencia e as arestas

sao definidas pela sua organizacao estrutural (vizinhanca). Essas arestas sao ponderadas

pela frequencia de ocorrencia de segmentos adjacentes nas sequencias de RNAs.

Na BASiNET, as sequencias de RNAs sao transformadas em grafos utilizando dois

parametros de configuracao: o tamanho da palavra (WS), que representa a quantidade de

nucleotıdeos - e o tamanho do passo (ST), que representa as conexoes entre eles. Desses

grafos sao extraıdas metricas de redes complexas de proximidade, grau, grau maximo, grau

mınimo, intermediacao, coeficiente de clustering, caminho mınimo medio, desvio padrao,

motif de tamanho 3 e motif de tamanho 4 (COSTA et al., 2007).

Em seguida, sao aplicados thresholds de modo a diminuir a quantidade de arestas

menos densas, criando subgrafos, dos quais sao novamente extraıdas as metricas ja

descritas. Assim, as metricas topologicas dos grafos sao extraıdas para compor um vetor

de caracterısticas, que e usado para classificar as sequencias de entrada.

Um dos diferenciais do metodo consiste na distincao de RNAs pautada exclusiva-

mente nas sequencias de nucleotıdeos, isto e, nao e necessario ter o genoma anotado. Sendo

Page 50: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

49

assim, e possıvel realizar a distincao unicamente com base nos relacionamentos entre os

nucleotıdeos da sequencia analisada.

3.1 Materiais

O metodo foi aplicado a dois conjuntos de dados, o primeiro deles composto por

nove especies de vertebrados a fim de comparar com os resultados ja apresentados pelo

artigo Predictor of long non-coding RNAs and messenger RNAs based on an improved

k-mer scheme (LI; ZHANG; ZHOU, 2014). O conjunto de dados esta disponıvel em:

<https://sourceforge.net/projects/plek/files/>, conforme a descricao da Tabela 4.

Tabela 4 – Primeiro conjunto de dados completo utilizado pela ferramenta PLEK

Especies Tipo de RNA Sequencias Menor Maior Media Desvio padraoMus musculus mRNA 26062 205 101674 3066 2318

ncRNA 2963 200 20771 1257 1222Danio rerio mRNA 14493 246 19180 2088 1257

ncRNA 419 202 2937 593 472Xenopus tropicalis mRNA 8874 325 11783 2294 1350

ncRNA 279 150 1635 205 110Bos taurus mRNA 13190 204 21755 2302 1507

ncRNA 182 200 1571 296 117Pan troglodytes mRNA 1906 204 12211 1922 1204

ncRNA 1166 201 1558 289 50Sus scrofa mRNA 3978 207 40106 1823 1413

ncRNA 241 200 2138 381 248Macaca mulatta mRNA 5709 207 13998 2044 1389

ncRNA 359 200 1558 292 88Gorilla gorilla mRNA 33025 207 107499 2775 2080

ncRNA 367 201 1558 291 88Pongo abelii mRNA 3401 282 8834 2836 1195

ncRNA 392 200 1560 290 86

Fonte: (LI; ZHANG; ZHOU, 2014)

A Figura 17 exibe a distribuicao dos tamanhos das sequencias e classes de RNAs.

Observa-se, portanto, a localizacao, a dispersao, certa assimetria e outliers para cada

sequencia/especie do primeiro dataset.

Page 51: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

50

05

00

01

00

00

15

000

20

00

0

EspéciesTa

manho d

as

sequên

cia

s

Mus m

uscu

lus - m

rna

Mus m

uscu

lus - n

crna

Danio

rerio

- mR

NA

Danio

rerio

- ncR

NA

Xenopus tro

pica

lis - mR

NA

Xenopus tro

pica

lis - ncR

NA

Bos ta

uru

s - m

RN

A

Bos ta

uru

s - n

cRN

A

Pan tro

glo

dyte

s - m

RN

A

Pan tro

glo

dyte

s - n

cRN

A

Sus scro

fa - m

RN

A

Sus scro

fa - n

cRN

A

Maca

ca m

ula

tta - m

RN

A

Maca

ca m

ula

tta - n

cRN

A

Gorilla

gorilla

- mR

NA

Gorilla

gorilla

- ncR

NA

Pongo a

belii - m

RN

A

Pongo a

belii - n

cRN

A

Figura 17 – Distribuicao dos tamanhos das sequencias de RNAs no primeiro conjunto dedados.

Fonte: Autoria propria.

Page 52: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

51

O segundo conjunto de dados com finalidade comparativa e constituıdo por seis

especies (quatro vertebrados, uma planta e um nematoide), foi exposto pelo artigo CPC2:

a fast and accurate coding potential calculator based on sequence intrinsic features

(KANG et al., 2017), com o objetivo de distinguir small ncRNAs, long ncRNAs e mRNAs

e esta disponıvel em: <http://cpc2.cbi.pku.edu.cn/help/data set.php>. Os dados sao

apresentados na Tabela 5:

Tabela 5 – Segundo conjunto de dados completo utilizado pela ferramenta CPC2

Especies Tipo de RNA Sequencias Menor Maior Media Desvio padraoHomo sapiens mRNA 6142 147 109224 3833 3938

long RNA 4534 201 205012 944 2597small RNA 7485 35 199 100 26

Mus musculus mRNA 10638 192 23252 2954 2068long RNA 5791 200 25241 1169 1139small RNA 6460 35 199 106 28

Danio rerio mRNA 2344 246 9738 2084 1113long RNA 365 206 13525 952 876small RNA 1163 60 194 99 26

Drosophila melanogaster mRNA 3680 195 22289 2852 2302long RNA 780 200 21216 1016 1293small RNA 2776 30 199 99 36

Caenorhabditis elegans mRNA 3551 96 39303 1600 1695long RNA 1582 200 4183 346 381small RNA 7888 17 199 109 43

Arabidopsis thaliana mRNA 13986 78 15465 1669 938long RNA 1291 200 2810 351 194small RNA 2562 19 199 94 33

Fonte: (KANG et al., 2017)

A Figura 18 exibe a distribuicao dos tamanhos das sequencias e classes de RNAs.

Observa-se, portanto, a localizacao, a dispersao, certa assimetria e outliers para cada

sequencia/especie do segundo dataset.

Page 53: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

52

05000

10000

150

00

20

00

025

00

0

EspéciesTa

manho d

as

sequên

cia

s

Hom

o sa

pie

ns - m

RN

A

Mus m

uscu

lus - m

RN

A

Danio

rerio

- mR

NA

Dro

sophila

mela

nogaste

r - mR

NA

Caenorh

abditis e

legans - m

RN

A

Ara

bid

opsis th

alia

na - m

RN

A

Hom

o sa

pie

ns - lo

ng R

NA

Mus m

uscu

lus - lo

ng R

NA

Danio

rerio

- long R

NA

Dro

sophila

mela

nogaste

r - long R

NA

Caenorh

abditis e

legans - lo

ng R

NA

Ara

bid

opsis th

alia

na - lo

ng R

NA

Hom

o sa

pie

ns - sm

all R

NA

Mus m

uscu

lus - sm

all R

NA

Danio

rerio

- small R

NA

Dro

sophila

mela

nogaste

r - small R

NA

Caenorh

abditis e

legans - sm

all R

NA

Ara

bid

opsis th

alia

na - sm

all R

NA

Figura 18 – Distribuicao dos tamanhos das sequencias de RNAs no segundo conjunto dedados.

Fonte: Autoria propria.

Page 54: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

53

3.1.1 Sistema Computacional

Para aplicar o metodo proposto foi utilizado um computador com configuracoes

basicas: processador Intel i5, 4 GB de memoria RAM, HD de 500 GB e sistema operacional

Ubuntu.

3.1.2 Linguagem de Programacao R

O script esta descrito na linguagem R, a qual e amplamente utilizada em computacao

e estatıstica para a analise de grandes volumes de dados (SING et al., 2005). A linguagem

R e baseada no conceito de software livre (RIPLEY, 2001).

A linguagem R, alem de ter pacotes estatısticos que podem ser utilizados para

tratar volumes de Big Data, conta tambem com curva rapida de aprendizagem, extensa

documentacao e bibliotecas da linguagem, que permitem acesso a pacotes como o Bio-

conductor, uma iniciativa colaborativa para disponibilizar metodos utilizados na area de

Biologia Computacional e Bioinformatica (GENTLEMAN et al., 2004).

Para a visualizacao dos grafos, foi adicionada a linguagem R a biblioteca igraph, a

qual e desenvolvida para trabalhar na analise de redes complexas com volumes massivos de

dados de forma eficiente (CSARDI; NEPUSZ, 2006). Tambem foi adicionada a biblioteca rgl

que permite a visualizacao de graficos tridimensionais em tempo real (ADLER; NENADIC;

ZUCCHINI, 2003), alem do pacote dos algoritmos de aprendizagem de maquina rWeka

(HORNIK; BUCHTA; ZEILEIS, 2009) e o pacote de visualizacao e analise exploratoria de

dados biologicos seqinr (BIOLOGICAL; RETRIEVAL, 2017). Finalmente, foi adicionada

a biblioteca rmcfs, que permite salvar as extracoes de caracterısticas em formato .arff,

extensao padrao do software WEKA.

3.1.3 Software WEKA

O WEKA (Waikato Environment for Knowledge Analysis), software livre dispo-

nibilizado pela universidade de Waikato, Nova Zelandia, fornece um vasto conjunto de

algoritmos de aprendizagem de maquina supervisionada e nao-supervisionada aos bioinfor-

matas e demais pesquisadores de Big Data (HALL et al., 2009). Destacam-se os algoritmos

de regressao, classificacao, agrupamento, mineracao de regras de associacao e selecao.

Page 55: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

54

O WEKA tem codigo fonte aberto e e multiplataforma; assim, pode ser modificado

e adaptado de acordo com a necessidade do usuario (STALLMAN, 2002). Salienta-se,

portanto, a flexibilidade dos recursos disponibilizados com o intuito de colaborar para

decisoes mais rapidas e com maior acuracia envolvendo grandes quantidades de dados.

3.2 Metodo proposto

A partir da observacao dos desafios relacionados a analise de grandes volumes de

dados biologicos, sobretudo no que concerne a distincao de RNAs codificantes e RNAs

nao-codificantes, a presente pesquisa propoe um metodo de extracao de caracterısticas

distintivas pautado em metricas de redes complexas.

Nesse sentido, o metodo desenvolvido pode ser particionado em tres grandes etapas:

Mapeamento; Extracao de caracterısticas e Classificacao. O Mapeamento das sequencias

de RNAs e composto por: i) entrada das sequencias de RNAs em formato FASTA e ii)

configuracao da rede a partir do agrupamento de nucleotıdeos considerando os parametros

do tamanho da palavra (WS) e do tamanho do passo (ST), que sao variaveis.

A Extracao de caracterısticas para identificacao dos RNAs inclui: i) realizacao dos

thresholds em cada uma das sequencias e consequente reducao da quantidade de arestas

menos densas, formando sub-redes e ii) extracao de caracterısticas topologicas das redes em

cada threshold. A Classificacao dos RNAs em codificantes ou nao-codificantes e realizada

por meio do escalonamento dos dados e da formacao do Vetor de Caracterısticas que e

submetido ao algoritmo de arvore de decisao J48 para, enfim, classificar as sequencias.

De modo geral, as etapas contempladas pelo metodo podem ser visualizadas na

Figura 19:

Page 56: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

55

Figura 19 – Metodo utilizado para identificacao de padroes.

Fonte: Autoria propria.

3.2.1 Mapeamento de sequencias de RNAs

As sequencias de RNAs codificantes e RNAs nao-codificantes sao mapeadas segundo

o comando a seguir: <classificacao (tamanho da palavra, tamanho do passo, “sequen-

cia1mRNA.fasta”, “sequencia2ncRNA.fasta”)>.

Para cada transcrito sao considerados seus nucleotıdeos (A, C, U, G) em formato

FASTA, os quais sao submetidos a dois parametros, o tamanho da palavra (Word Size -

WS), que esta relacionado a quantidade de nucleotıdeos por vertice e o tamanho do passo

(Step Size - ST), que diz respeito ao caminho entre os vertices para formacao do grafo,

conforme exibido na Figura 20:

Page 57: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

56

1

2

3

CGA

CAC

ACA

a)

b) c)

AUG

CAC

CAC

ACG

ACG

UGC

ACA

ACA

CGAGCAGAU

3

3

2

1

1

1

1 2

1

1

12

3

2CGA

1

ACG

ACACACGAUGCACGAUGCACACGAUGCA

CAC ACA

Figura 20 – Grafo de uma sequencia com tamanho de palavra 3 e tamanho de passo 1.

Fonte: Autoria propria.

Na Figura 20, a) traz um exemplo de sequencia de RNA; b) o grafo represen-

tativo das tres primeiras iteracoes da etapa de mapeamento e c) o grafo completo da

sequencia. Observa-se, portanto, um grafo ponderado e nao-direcionado. A seguir exibe-se

um algoritmo da construcao da rede complexa:

Algoritmo 1 Mapeamento (integer passo, integer tamanhoPalavra, vector seq)

1: var vector graph, vertice1, vertice2,2: var integer pi

pi← 03: for pi to seq.tamanho()− tamanhoPalavra ∗ 2: pi← pi+ passo do

vertice1← seq.substring(pi, pi+ tamanhoPalavra)vertice2← seq.substring(pi+ tamanhoPalavra, pi+ tamanhoPalavra ∗ 2)graph.append edge(vertice1, vertice2)

4: end for

Apos a execucao do algoritmo, tem-se como resultado o grafo da sequencia de RNA

apresentada na Figura 20 item c, seja o conjunto de vertices V=‘ACA’,‘CAC’,‘ACG’,

‘CGA’,‘GAU’,‘AUG’,‘UGC’,‘GCA’ e o conjunto de arestas, sendo E=‘ACA’,‘CAC’ -

‘CAC’,’ACG’ - ‘ACA’,’CGA’- ‘CAC’,’GAU’ - ‘ACG’,’AUG’ - ‘CGA’,’UGC’- ‘GAU’,’GCA’ -

‘AUG’,’CAC’ - ‘UGC’,’ACG’- ‘GCA’,’CGA’ - ‘CAC’,’GAU’ - ‘ACG’,’AUG’- ‘CGA’,’UGC’ -

‘GAU’,’GCA’ - ‘AUG’,’CAC’ - ‘UGC’,’ACA’ - ‘GCA’,’CAC’ - ‘CAC’,’ACG’- ‘ACA’,’CGA’

- ‘CAC’,’GAU’ - ‘ACG’,’AUG’- ‘CGA’,’UGC’ - ‘GAU’,’GCA’, logo, o grafo da rede

complexa e constituıdo G =(V,E).

Page 58: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

57

3.2.2 Extracao de caracterısticas para a identificacao de RNAs

A extracao de caracterısticas da rede e realizada por meio das metricas vindas dos

thresholds que tem como objetivo reduzir a quantidade de dados no grafo em busca da

selecao de vertices com maior numero de conexoes (vertices preferenciais) e tambem de

criar uma dinamica a partir da topologia da rede, iniciando com a visualizacao de todas

as conexoes e finalizando apenas com as arestas mais frequentes. Os vertices e arestas

selecionados geram novos subgrafos que permitem uma nova extracao das metricas de

redes complexas. Todos os valores extraıdos irao compor o vetor de caracterıstica que

permitira a identificacao da sequencia.

Na Figura 21, em a) os vertices CAC - ACA; ACA - UGC; UGC - ACG; CAC -

GCA; GCA - CGA possuıam apenas uma aresta, por isso ela foi removida no threshold 1,

conforme item b).

a)

b)

c)

AUG

AUG

AUG

CAC

CAC

CAC

ACG

ACG

ACG

UGC

UGC

UGC

ACA

ACA

ACA

CGA

CGA

CGA

GCA

GCA

GCA

GAU

GAU

GAU

3

3

3

3

3

3

t++

t++

medidastopológicas

medidastopológicas

medidastopológicas

t=0

t=1

t=2

2

2

1

1

1 2

2

1

12

2

3

3

3

2

2

Vetor de Características (F)i

Figura 21 – Remocao das arestas menos densas, a) threshold = 0, b) threshold = 1 e c)threshold = 2.

Fonte: Autoria propria.

Page 59: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

58

O processo de remocao de arestas ponderadas se repete enquanto houver arestas

passıveis de cortes, ficando somente os vertices e arestas mais conectados, como visualizado

no item c). A caracterizacao em formato numerico das sequencias de RNAs vem das

metricas de redes complexas extraıdas de cada um dos thresholds realizados.

3.2.3 Classificacao de sequencias em RNAs codificantes ou RNAs nao-codificantes

Cada uma das metricas (proximidade, grau, grau maximo, grau mınimo, interme-

diacao, coeficiente de clustering, caminho mınimo medio, desvio padrao e motifs) e escalada

entre 0 e 1, o reescalonamento e realizado pelo valor mınimo (kmin) e pelo valor maximo

(kmax) entre todos os thresholds de cada metrica (ki), definida pela equacao ki − kmin

kmax− kmin,

esses valores sao utilizados para construcao do vetor de caracterısticas reescalonado.

O vetor de caracterısticas permite buscar padroes e analisar a rede por meio das

metricas extraıdas das sequencias biologicas com seus respectivos thresholds, de modo

a proporcionar um conjunto de valores representativos (COSTA et al., 2007). Os dados

fornecidos pelo vetor de caracterısticas foram submetidos aos algoritmos de classificacao

supervisionada de arvore de decisao J48 e Random Forest, do pacote rWEKA devido a

simplicidade e a clareza do uso das caracterısticas extraıdas, utilizando validacao cruzada

de 10-fold.

Apos as etapas anteriores, e gerado um arquivo em formato .arff com o auxılio da

biblioteca rmcfs. Esse arquivo contem o vetor de caracterısticas que pode ser carregado no

software WEKA para ser submetido a outros algoritmos de classificacao supervisionada.

3.2.4 Algoritmo de extracao de caracterısticas: BASiNET

Nesta secao e apresentado o algoritmo do funcionamento da BASiNET a partir da

entrada de sequencias de RNAs. Apos as declaracoes das variaveis, o algoritmo transforma

as sequencias de RNAs em redes (linha 3) por meio dos parametros tamanhoPalavra e

passo, de modo a criar a organizacao da estrutura completa da rede, conforme observado

na primeira estrutura de repeticao for.

Outro elemento importante e a geracao da dinamica da rede (linha 5), propiciada

pelos thresholds, de modo a remover as arestas menos densas da rede para a criacao de sub-

Page 60: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

59

redes, representadas na segunda estrutura de repeticao for. Ainda dentro dessa estrutura

de repeticao, apos a remocao de cada aresta, sao extraıdas as metricas topologicas de cada

nova sub-rede (NetworkMeasures), armazenando os valores no vetor de caracterısticas (Fi).

Para nao interferir na classificacao, os valores do vetor de caracterısticas e reescalado

entre os valores de 0 e 1 (linha 7), por meio da funcao NetworkScaling. Por fim, na linha 8 e

gerado o arquivo da extracao de caracterısticas em formato .arff, esse arquivo e submetido

ao algoritmo de classificacao supervisionada do software WEKA, de modo a realizar a

classificacao das sequencias de entrada em RNAs codificantes ou RNAs nao-codificantes.

Algoritmo 2 Algoritmo BASiNET (integer passo, integer tamanhoPalavra, vector seq)

1: var vector graph, vertice1, vertice2, Fi2: var integer , threshold, pi

threshold← 0pi← 0

3: for pi to seq.tamanho()− tamanhoPalavra ∗ 2: pi← pi+ passo dovertice1← seq.substring(pi, pi+ tamanhoPalavra)vertice2← seq.substring(pi+ tamanhoPalavra, pi+ tamanhoPalavra ∗ 2)graph.append edge(vertice1, vertice2)

4: end for5: for edges.min(graph) to edges.max(graph)− 1: edges.min(graph) + 1 do

Fi← NetworkMeasures(graph, threshold)threshold+ +

6: end for7: Fi← NetworkScaling(Fi)8: write.arff(Fi//local/extratorSequencia.arff)

Nesta pesquisa, foi definida a configuracao padrao dos parametros WS=3 e ST=1,

com validacao cruzada de 10-fold. Esses valores foram os que permitiram maior ındice de

acuracia com relacao aos dois conjuntos de dados experimentais. Convem destacar, que os

parametros podem ser alterados conforme a necessidade e observacao do pesquisador e do

material a ser analisado.

Page 61: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

60

4 Resultados da classificacao e discussao comparativa

Nesta secao sao apresentados os resultados obtidos durante as etapas da pesquisa.

O subitem 4.1 traz o comparativo referente a aplicacao do metodo ao primeiro conjunto de

dados, que e composto por nove especies. O subitem 4.2 refere-se a aplicacao do metodo

ao segundo conjunto de dados, que e composto por seis especies.

As ferramentas CNCI, PLEK, CPC2 e BASiNET foram utilizadas em configuracao

padrao. O classificador utilizado pelas ferramentas CNCI, CPC2 e PLEK foi o SVM. As

duas primeiras usaram o SVM com a configuracao standard radial basis function kernel;

para a ferramenta PLEK foi utilizada a configuracao radial basis functional kernel com

variacao gamma. A ferramenta BASiNET utilizou os classificadores de arvore de decisao

J48 e Random Forest (RF) com configuracao padrao. As quatro ferramentas utilizaram

validacao cruzada de 10-fold.

4.1 Classificacao de mRNAs e ncRNAs - comparativo da BASiNET com as ferramentasPLEK, CNCI e CPC2

Para validar a metodologia proposta com relacao a distincao entre RNAs codificantes

(mRNAs) e RNAs nao-codificantes (ncRNAs), os resultados de acuracia em nove especies

de vertebrados, apresentados pela ferramenta PLEK (LI; ZHANG; ZHOU, 2014), serviram

como parametros comparativos.

O metodo proposto, ferramenta Biological Sequences Network (BASiNET), compara

os resultados encontrados aos obtidos pelas ferramentas PLEK, CNCI e CPC2, conforme

apresentado na Tabela 6:

Page 62: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

61

Tabela 6 – Comparativo de acuracia media da BASiNET com as ferramentas de predicaoCNCI, PLEK e CPC2, no primeiro conjunto de dados

Especies Tipo de RNA Sequencias CNCI(%) PLEK(%) CPC2(%) BASiNET RF e J48Mus musculus mRNA 26062 93,9 88,1 94,7 100,0 100,0

ncRNA 2963 97,1 89,9 99,9 98,4 99,9Danio rerio mRNA 14493 95,3 91,3 96,6 100,0 100,0

ncRNA 419 89,3 90,9 94,0 98,3 98,9Xenopus tropicalis mRNA 8874 92,9 94,5 96,5 100,0 100,0

ncRNA 279 99,7 100,0 100,0 98,6 100,0Bos taurus mRNA 13190 94,3 94,8 95,9 100,0 100,0

ncRNA 182 100,0 99,5 100,0 98,4 98,9Pan troglodytes mRNA 1906 90,2 87,1 93,9 100,0 100,0

ncRNA 1166 100,0 99,9 100,0 99,6 99,8Sus scrofa mRNA 3978 93,4 85,1 94,9 100,0 99,9

ncRNA 241 95,9 98,3 98,3 99,2 99,6Macaca mulatta mRNA 5709 92,0 85,0 94,2 100,0 100,0

ncRNA 359 99,7 100,0 100,0 98,9 100,0Gorilla gorilla mRNA 33025 87,4 83,8 91,6 100,0 100,0

ncRNA 367 99,7 99,7 100,0 98,9 100,0Pongo abelii mRNA 3401 93,4 98,0 94,4 99,9 100,0

ncRNA 392 99,8 100,0 100,0 98,5 99,2Media mRNA 12293 92,5 89,7 94,8 100,0 100,0

ncRNA 708 97,9 97,6 99,1 98,6 99,6Media geral mRNA e ncRNA 6500 95,2 93,7 97,0 99,3 99,8

Desvio padrao mRNA 10817,7 2,4 5,1 1,5 0,0 0,0ncRNA 894,1 3,5 4,1 2,0 0,4 0,4

Fonte: Autoria propria.

O mesmo conjunto de dados (Tabela 4) foi testado nas ferramentas CNCI, PLEK,

CPC2 e BASiNET, sendo os maiores ındices de acuracia destacados em negrito. Os ındices

alcancados pela BASiNET com ambos os classificadores (RF e J48) obtiveram nıveis

medios superiores de acuracia. No entanto, o J48 obteve uma pequena superioridade media,

por esse motivo os valores desse classificador foram usados para a discussao dos resultados.

A BASiNET alcancou nıveis de acuracia superiores as demais ferramentas quanto a

predicao de mRNAs em todas as especies observadas, sendo, em media, 7,5% superior com

relacao a CNCI; 10,3% com relacao a PLEK e 5,2% com relacao a CPC2.

A proposito da identificacao dos RNAs nao-codificantes, a media obtida foi superior

em 1,7%, 2,0%, 0,5% com relacao a CNCI, PLEK e CPC2, respectivamente. Destaca-se,

portanto, que a BASiNET obteve resultados medios superiores tanto na identificacao de

RNAs codificantes quanto de RNAs nao-codificantes (Tabela 6).

Convem mencionar ainda que a BASiNET possui desvio padrao 0,0 para RNAs

codificantes e apenas 0,4 para RNAs nao-codificantes, fato que evidencia a uniformidade

do metodo, que alcanca resultados semelhantes em todas as especıes analisadas (Tabela

6) 1.

1 A proposito das demais medidas de avaliacao: verdadeiros positivos, verdadeiros negativos, precisao eF-measure, os valores encontrados podem ser conferidos no Apendice A.

Page 63: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

62

A seguir, apresenta-se o grafico de linhas com as medias gerais de acuracia por

especie, isto e, uni-se mRNA e ncRNA para cada especie:

Figura 22 – Media geral de acuracia de mRNA e ncRNA no primeiro conjunto de dados.

Fonte: Autoria propria.

A avaliacao comparativa da acuracia proporcionada pelas ferramentas, conforme

visualizacao da Figura 22, permite constatar o desempenho medio superior da BASiNET

em todas as nove especies. Outro fator destacavel e a homogeneidade do metodo, visto

que a linha correspondente nao apresenta grandes variacoes entre as especies.

Para verificar quais metricas selecionadas neste trabalho obtiveram maior relevancia

na identificacao das sequencias de RNAs, foram geradas as arvores de decisao do algoritmo

J48, como a da Figura 23, primeiro conjunto de dados, o que permitiu tambem gerar um

histograma das frequencias em que as metricas apareceram nas arvores de decisao, Figura

24.

Page 64: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

63

Figura 23 – Arvore de decisao do J48 para a especie Danio rerio no primeiro conjunto dedados.

Fonte: Autoria propria.

Das dez metricas selecionadas, foram usadas seis para a classificacao de todas

as especies do primeiro conjunto de dados com o algoritmo J48, sendo elas em ordem

decrescente de frequencia, caminho mınimo medio (ASPL, do ingles Average Shortest

Path Length), intermediacao (BET, do ingles betweenness), grau (DEG, do ingles degree),

proximidade (ASS, do ingles assortativity), grau maximo (MAX, do ingles maximum

degree) e grau mınimo (MIN, do ingles minimum degree), conforme Figura 24.

Page 65: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

64

Figura 24 – Histograma da frequencia das metricas utilizadas pelas arvores de decisaopara classificacao no primeiro conjunto de dados.

Fonte: Autoria propria.

O histograma deixa clara a maior recorrencia das metricas caminho mınimo medio

(ASPL) e intermediacao (BET) que foram utilizadas em 74,1% das classificacoes.

Com relacao aos thresholds mais significativos para a extracao das metricas caminho

mınimo medio e intermediacao, no primeiro conjunto de dados, tem-se a Tabela 7:

Page 66: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

65

Tabela 7 – Identificacao dos thresholds de recorrencia das metricas caminho mınimo medio(ASPL) e intermediacao (BET) aplicadas ao primeiro conjunto de dados

Especies Metrica ThresholdsMus musculus ASPL 1

BET 1;7Danio rerio ASPL 1;3;3;7;17

BET -Xenopus tropicalis ASPL -

BET 1Bos taurus ASPL 7

BET 1Pan troglodytes ASPL 1;2

BET 1Sus scrofa ASPL 3;7

BET 1Macaca mulatta ASPL -

BET 1Gorilla gorilla ASPL -

BET 1Pongo abelii ASPL 22

BET 1

Fonte: Autoria propria.

O caminho mınimo medio foi a metrica mais recorrente, sendo sua extracao realizada,

sobretudo, nos thresholds 1 e 3. A proposito da metrica de intermediacao, o threshold

mais frequente para a extracao, conforme Tabela 7, foi o 1.

4.2 Classificacao de mRNAs, lncRNAs e sncRNAs - comparativo da BASiNET com asferramentas PLEK, CNCI e CPC2

Alem do comparativo relacionado a RNAs codificantes e RNAs nao-codificantes, e

realizada tambem uma comparacao concernente a codificacao e a distincao entre RNAs nao-

codificantes longos e RNAs nao-codificantes curtos. Para tanto, compara-se os resultados

de acuracia obtidos na extracao de caracterısticas de seis especies (quatro vertebrados,

uma planta e um nematoide), conforme CPC2 (KANG et al., 2017).

A Tabela 8 apresenta os resultados de acuracia na identificacao de RNAs codifican-

tes; RNAs nao-codificantes longos e RNAs nao-codificantes curtos pelas tres ferramentas

tomadas como parametros, assim como pela BASiNET:

Page 67: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

66

Tabela 8 – Comparativo de acuracia media da BASiNET com as ferramentas de predicaoCNCI, PLEK e CPC2, no segundo conjunto de dados

Especies Tipo de RNA Sequencias CNCI(%) PLEK(%) CPC2(%) BASiNET RF e J48Homo sapiens mRNA 6142 91,4 97,0 95,9 99,7 100,0

long RNA 7485 99,2 97,6 92,8 99,9 100,0small RNA 4534 96,5 100,0 100,0 100,0 100,0

Mus musculus mRNA 10638 91,9 89,2 93,9 99,8 100,0long RNA 6460 96,8 91,7 95,0 99,8 99,9small RNA 5791 99,2 100,0 100,0 100,0 99,9

Danio rerio mRNA 2344 95,9 94,4 95,5 99,1 99,5long RNA 1163 99,5 79,2 88,1 97,9 98,9small RNA 365 84,0 100,0 100,0 99,2 98,7

Drosophila melanogaster mRNA 3680 94,8 82,8 94,6 93,9 98,5long RNA 2776 99,1 87,5 91,9 88,8 97,3small RNA 780 89,5 100,0 100,0 99,9 99,7

Caenorhabditis elegans mRNA 3551 82,9 53,0 96,5 100,0 100,0long RNA 1582 99,3 98,4 99,9 99,2 99,4small RNA 7888 98,2 100,0 100,0 100,0 99,9

Arabidopsis thaliana mRNA 13986 82,8 63,1 99,7 100,0 99,7long RNA 2562 99,7 99,6 95,3 99,8 99,7small RNA 1291 99,5 100,0 100,0 99,6 100,0

Media mRNA 6724 90,0 79,9 96,0 98,8 99,6long RNA 3671 98,9 92,3 93,8 97,6 99,2small RNA 3442 94,5 100,0 100,0 99,8 99,7

Media geral mRNA 6724 90,0 79,9 96,0 98,8 99,6long e small RNA 3556 96,7 96,2 96,9 98,7 99,4

Desvio padrao mRNA 4624,1 5,7 17,9 2,0 2,4 0,6long RNA 2646,1 1,0 7,9 3,9 4,4 1,0small RNA 3087,3 6,3 0,0 0,0 0,3 0,5

Fonte: Autoria propria.

Os dados apresentados pela Tabela 8 indicam que a BASiNET obteve nıveis de

acuracia superiores quanto a identificacao de RNAs codificantes em todas as especies,

sendo em media 9,6%, 19,7% e 3,6% superior a CNCI, a PLEK e a CPC2, respectivamente.

Com relacao a acuracia de predicao dos RNAs nao-codificantes (lncRNAs e sncR-

NAs), observa-se que, mesmo tendo alcancado nıveis individuais menores, a BASiNET

demonstrou maior media geral, os ındices foram superiores em 2,7%, 3,2% e 2,5% com

relacao a CNCI, a PLEK e a CPC2, respectivamente, fato que reforca a estabilidade e a

homogeneidade do metodo 2.

A Figura 25 apresenta graficamente a quantificacao dos ındices gerais de ganho de

RNAs codificantes e RNAs nao-codificantes:

2 A proposito das demais medidas de avaliacao: verdadeiros positivos, verdadeiros negativos, precisao eF-measure, os valores encontrados podem ser conferidos no Apendice B.

Page 68: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

67

Figura 25 – Media geral de acuracia de mRNAs, long RNAs e small RNAs no segundoconjunto de dados.

Fonte: Autoria propria.

A proposito do segundo conjunto de dados, como exemplo apresenta-se a arvore

de decisao da especie Caenorhabditis elegans (Figura 26) que originou o histograma das

frequencias das metricas utilizadas na identificacao dos RNAs (Figura 27).

Figura 26 – Arvore de decisao do J48 para a especie Caenorhabditis elegans no segundoconjunto de dados.

Fonte: Autoria propria.

A Figura 27 exibe que todas as dez metricas foram utilizadas para a identificacao

das sequencias no conjunto de dados CPC2 (KANG et al., 2017). Destacam-se as metricas

Page 69: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

68

de caminho mınimo medio (ASPL) e intermediacao (BET) como as mais frequentes (54,8%),

seguidas das metricas de proximidade (ASS), motif de tamanho 4 (MT4) e motif de

tamanho 3 (MT3). As metricas menos usadas foram as de grau mınimo (MIN), desvio

padrao (SD, do ingles Standard Deviation) e a de coeficiente de clustering (CC, do ingles

Clustering Coefficient).

Figura 27 – Histograma da frequencia das metricas utilizadas pelas arvores de decisaopara classificacao no segundo conjunto de dados.

Fonte: Autoria propria.

O histograma deixa clara a maior recorrencia das metricas caminho mınimo medio

(ASPL) e intermediacao (BET) que foram utilizadas em 54,8% das classificacoes.

Os resultados de acuracia apresentados pela BASiNET, quando da aplicacao nos

dois conjuntos de dados selecionados, evidenciam a viabilidade das metricas para extracao

de caracterısticas, especialmente pela alta frequencia das metricas de caminho mınimo

medio (ASPL) e intermediacao (BET).

Com relacao aos thresholds mais significativos para a extracao das metricas caminho

mınimo medio e intermediacao, no segundo conjunto de dados, tem-se a Tabela 9:

Page 70: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

69

Tabela 9 – Identificacao dos thresholds de recorrencia das metricas caminho mınimo medio(ASPL) e intermediacao (BET) aplicadas ao segundo conjunto de dados

Especies Metrica ThresholdsHomo sapiens ASPL -

BET 1Mus musculus ASPL -

BET 1;2Danio rerio ASPL 1;3;3;4;7;8;18

BET 2Drosophila melanogaster ASPL 1;1;1;1;1;1;1;1;1;1;2;2;2;92

BET 1;1;1;1;1;1;1;1;1;1;1;1;2;2;2;7;27Caenorhabditis elegans ASPL 1;1;6;8;24

BET 1;1;1;2;4;16Arabidopsis thaliana ASPL 1;3;3;4

BET 3

Fonte: Autoria propria.

O caminho mınimo medio foi a metrica mais recorrente, sendo sua extracao realizada,

sobretudo, no threshold 1. A proposito da metrica de intermediacao, os thresholds mais

frequentes para a extracao, conforme Tabela 9, foram 1 e 2.

Observa-se que a alta recorrencia da metrica de intermediacao para a extracao de

caracterısticas distintivas esta relacionada a importancia dos vertices com grande interacao,

uma vez que eles podem ter influencia consideravel dentro da rede em razao de seu poder

comunicativo de controlar as informacoes passadas pela rede; nesse sentido, remover um

vertice com alta interacao faz com que muitas comunicacoes sejam interrompidas, fato que

pode alterar consideravelmente a configuracao da rede, conforme Figura 28:

a) b)CAC

ACG ACGUGC UGC

ACA ACA

CGA CGA

GAU GAU

Figura 28 – Distincao de redes pela remocao de vertices com alta interacao, sendo a) umgrafo e b) o mesmo grafo com a remocao de um vertice, fato que altera atopologia da rede.

Fonte: Autoria propria.

A metrica caminho mınimo medio extrai caracterısticas relacionadas ao menor

numero de arestas que precisam ser percorridas para se chegar de um vertice ao outro,

ou seja, qual e o menor caminho a ser percorrido para que determinada comunicacao

Page 71: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

70

seja realizada. Sendo assim, verifica-se que o caminho mınimo medio se relaciona com

a intermediacao a medida que a remocao de um vertice altamente conectado pode nao

so interromper a comunicacao da rede, mas tambem aumentar o caminho mınimo a ser

percorrido, conforme Figura 29.

a) b)

ACG ACGUGC UGC

ACA ACACAC

CGA CGA

GAU GAU

Figura 29 – Relacao entre o caminho mınimo e a intermediacao, sendo que em a) o caminhomınimo e de 2 saltos e em b) o caminho mınimo e de 4 saltos devido a remocaode um vertice com alta interacao.

Fonte: Autoria propria.

Observa-se que a extracao de metricas permitem verificar as relacoes construıdas

pela rede e a remocao de qualquer elemento pode alterar todo o seu funcionamento e,

consequentemente, sua classificacao.

O metodo BASiNET, ao utilizar metricas de redes complexas, mostrou-se eficaz

ao utilizar recursos computacionais a fim de extrair caracterısticas significativas para a

distincao entre sequencias biologicas de RNAs codificantes e RNAs nao-codificantes.

Page 72: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

71

5 Conclusoes

Em meio a extensao de dados disponibilizados diariamente, estrategias para a selecao

de informacoes relevantes tem ganhado destaque. No cenario das analises biologicas, essa

realidade nao e diferente, visto que o volume de dados proporcionados pelos Sequenciadores

de Nova Geracao (NGS), ao passo que impulsionam avancos na area, tambem tornam

necessario o desenvolvimento de estrategias para as analises dos dados produzidos. Nesse

sentido, ferramentas de Bioinformatica sao fundamentais para a transformacao de dados

em informacoes significativas.

Assim, a presente pesquisa vem ao encontro desse objetivo, a medida que desenvolve

o modelo BASiNET, uma ferramenta extratora de caracterısticas capazes de distinguir

sequencias biologicas de RNAs quanto a codificacao ou nao-codificacao.

Para atender o desafio de selecionar caracterısticas representativas, a utilizacao de

recursos computacionais relacionados as redes complexas mostram-se eficientes na medida

em que atuam no reconhecimento de padroes das sequencias.

A BASiNET transforma as sequencias biologicas em grafos por meio das confi-

guracoes dos parametros de tamanho de palavra e tamanho de passo, sendo consideradas

as quantidades de nucleotıdeos e as relacoes entre eles, respectivamente. Os resultados

positivos indicam a adequacao da metodologia proposta para classificacao de sequencias de

RNAs, em especial as com configuracao WS = 3 e ST = 1, fato que pode estar relacionado

com a formacao dos codons nas sequencias biologicas analisadas.

Apos a configuracao dos grafos, foram extraıdas as metricas de redes complexas:

proximidade, grau, grau maximo, grau mınimo, intermediacao, coeficiente de clustering,

caminho mınimo medio, desvio padrao e motifs. Entre as metricas citadas, a de caminho

mınimo medio e a de intermediacao proporcionaram resultados mais eficientes para

identificacao das sequencias biologicas de RNAs, visto que a estrutura interna da rede e a

posicao de conexao dos vertices sao caracterısticas importantes para a classificacao.

Na sequencia, foram realizados thresholds de modo a diminuir a quantidade de

arestas menos densas e extrair novamente as metricas ja descritas. Gerou-se, assim, um vetor

de caracterısticas que revelou propriedades significativas para compreensao, caracterizacao

e identificacao dos RNAs.

Page 73: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

72

Para a validacao da ferramenta desenvolvida, os resultados encontrados foram

comparados as principais ferramentas presentes no mercado, CNCI, PLEK e CPC2. Os

ındices de acuracia obtidos comprovaram a viabilidade do metodo, visto que apresentaram

notoria superioridade media.

Com relacao ao primeiro conjunto de dados, composto por nove especies selecionadas

pelo artigo Predictor of long non-coding RNAs and messenger RNAs based on an improved

k-mer scheme, os resultados obtidos evidenciaram a eficiencia da BASiNET, uma vez que

ela apresentou uma media de identificacao de RNAs codificantes superior em 7,5% com

relacao a CNCI; 10,3% com relacao a PLEK e 5,2% com relacao a CPC2. A proposito da

identificacao dos RNAs nao-codificantes, a media obtida foi superior em 1,7%, 2,0%, 0,5%

com relacao a CNCI, PLEK e CPC2, respectivamente. Conclui-se que a BASiNET obteve

resultados medios superiores tanto na identificacao de RNAs codificantes quanto na de

RNAs nao-codificantes.

No segundo conjunto de dados com finalidade comparativa, constituıda por seis

especies selecionadas pelo artigo CPC2: a fast and accurate coding potential calculator

based on sequence intrinsic features, a BASiNET tambem obteve resultados medios

superiores. Quanto a identificacao de RNAs codificantes, melhor acuracia em todas as

especies, sendo em media 9,6%, 12,4% e 3,6% superior a CNCI, a PLEK e a CPC2,

respectivamente. A proposito dos RNAs nao-codificantes (lncRNAs e sncRNAs), observou-

se que, mesmo tendo alcancado nıveis individuais menores, a BASiNET demonstrou maior

media geral de acuracia, fato que reforca a estabilidade e a homogeneidade da ferramenta

BASiNET quando considerada a totalidade das sequencias.

Portanto, considerando os dois conjuntos de dados, os ındices gerais de acuracia

foram superiores em 8,6% com relacao a CNCI; 11,4% com relacao a PLEK e 4,4%

com relacao a CPC2. A proposito da identificacao dos RNAs nao-codificantes, a media

geral obtida foi superior em 2,2%, 2,6%, 1,5% com relacao a CNCI, PLEK e CPC2,

respectivamente.

Por fim, convem destacar que a BASiNET usa recursos de codigo aberto e pode ser

executada em um computador com configuracoes basicas, sendo extensıvel a classificacao

de outras sequencias como as de DNA e aminoacidos. Para trabalhos futuros, o metodo

poderia ser testado em sequencias de outros organismos de modo a ampliar a validacao do

metodo para um maior numero de sequencias, evidenciando a compreensao em rede e a

observacao e extracao de metricas topologicas recorrentes. Desse modo, abre-se as portas

Page 74: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

73

para novas pesquisas voltadas ao desafio da Bioinformatica de encontrar informacoes

significativas em meio a avalanche de dados produzidos.

Page 75: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

74

Apendice A

Tabela 10 – BASiNET aplicada ao primeiro conjunto de dados com as medidas de avaliacao:verdadeiros positivos (TP), verdadeiros negativos (TN), precisao e F-measure,com o classificador Random Forest (RF)

Especies Tipo de RNA Sequencias TP TN Precisao F-measureMus musculus mRNA 26090 26090 - 100,0 100,0

ncRNA 2951 - 2946 99,8 99,9Danio rerio mRNA 14493 14493 - 100,0 100,0

ncRNA 419 - 412 100,0 99,2Xenopus tropicalis mRNA 8874 8873 - 100,0 100,0

ncRNA 279 - 275 99,64 99,1Bos taurus mRNA 13190 13190 - 100,0 100,0

ncRNA 182 - 179 100,0 99,2Pan troglodytes mRNA 1906 1906 - 99,7 99,9

ncRNA 1164 - 1159 100,0 99,8Sus scrofa mRNA 3978 3978 - 99,9 100,0

ncRNA 241 - 239 100,0 99,6Macaca mulatta mRNA 5709 5709 - 99,9 100,0

ncRNA 359 - 355 100,0 99,4Gorilla gorilla mRNA 33025 33025 - 100,0 100,0

ncRNA 367 - 363 100,0 99,5Pongo abelii mRNA 3401 3399 - 99,8 99,9

ncRNA 392 - 386 99,5 99,0

Fonte: Autoria propria.

Tabela 11 – BASiNET aplicada ao primeiro conjunto de dados com as medidas de avaliacao:verdadeiros positivos (TP), verdadeiros negativos (TN), precisao e F-measure,com o classificador J48

Especies Tipo de RNA Sequencias TP TN Precisao F-measureMus musculus mRNA 26090 26089 - 100,0 100,0

ncRNA 2951 - 2948 100,0 99,9Danio rerio mRNA 14493 14485 - 100,0 100,0

ncRNA 419 - 417 98,1 98,8Xenopus tropicalis mRNA 8874 8874 - 100,0 100,0

ncRNA 279 - 279 100,0 100,0Bos taurus mRNA 13190 13187 - 100,0 100,0

ncRNA 182 - 180 98,4 98,6Pan troglodytes mRNA 1906 1906 - 99,9 99,9

ncRNA 1164 - 1162 100,0 99,9Sus scrofa mRNA 3978 3975 - 100,0 99,9

ncRNA 241 - 240 98,8 99,2Macaca mulatta mRNA 5709 5708 - 100,0 100,0

ncRNA 359 - 359 99,7 99,9Gorilla gorilla mRNA 33025 33024 - 100,0 100,0

ncRNA 367 - 367 99,7 99,9Pongo abelii mRNA 3401 3401 - 99,9 100,0

ncRNA 392 - 389 100,0 99,6

Fonte: Autoria propria.

Page 76: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

75

Apendice B

Tabela 12 – BASiNET aplicada ao segundo conjunto de dados com as medidas de avaliacao:verdadeiros positivos (TP), verdadeiros negativos (TN), precisao e F-measure,com o classificador J48.

Especies Tipo de RNA Sequencias TP TN Precisao F-measureHomo sapiens mRNA 6142 6142 - 100,0 100,0

long RNA 7485 7483 - 100,0 100,0small RNA 4534 - 4534 100,0 100,0

Mus musculus mRNA 10638 10634 - 100,0 100,0long RNA 6460 6455 - 99,9 99,9small RNA 5791 - 5787 99,9 99,9

Danio rerio mRNA 2344 2333 - 99,3 99,4long RNA 1163 1148 - 99,0 98,8small RNA 365 - 361 99,7 99,3

Drosophila melanogaster mRNA 3680 3623 - 98,0 98,2long RNA 2776 2700 - 98,0 97,6small RNA 780 - 778 99,5 99,6

Caenorhabditis elegans mRNA 3551 3550 - 99,9 99,9long RNA 1582 1572 - 99,6 99,5small RNA 7888 - 7877 99,9 99,9

Arabidopsis thaliana mRNA 13986 13984 - 99,9 100,0long RNA 2562 2554 - 99,8 99,7small RNA 1291 - 1287 99,9 99,8

Fonte: Autoria propria.

Tabela 13 – BASiNET aplicada ao segundo conjunto de dados com as medidas de avaliacao:verdadeiros positivos (TP), verdadeiros negativos (TN), precisao e F-measure,com o classificador Random Forest (RF)

Especies Tipo de RNA Sequencias TP TN Precisao F-measureHomo sapiens mRNA 6142 6125 - 99,8 99,8

long RNA 7485 7475 - 99,8 99,8small RNA 4534 - 4532 100,0 100,0

Mus musculus mRNA 10638 10618 - 99,9 99,8long RNA 6460 6449 - 99,7 99,8small RNA 5791 - 5790 100,0 100,0

Danio rerio mRNA 2344 2323 - 98,9 99,0long RNA 1163 1139 - 98,2 98,1small RNA 365 - 362 100,0 99,6

Drosophila melanogaster mRNA 3680 3456 - 91,8 92,8long RNA 2776 2466 - 91,7 90,2small RNA 780 - 779 99,9 99,9

Caenorhabditis elegans mRNA 3551 3550 - 100,0 100,0long RNA 1582 1570 - 99,9 99,6small RNA 7888 - 7886 99,8 99,9

Arabidopsis thaliana mRNA 13986 13986 - 100,0 100,0long RNA 2562 2558 - 99,8 99,8small RNA 1291 - 1286 100,0 99,8

Fonte: Autoria propria.

Page 77: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

76

Referˆ

ADAMS, M. D. et al. The genome sequence of drosophila melanogaster. Science, AmericanAssociation for the Advancement of Science, v. 287, n. 5461, p. 2185–2195, 2000. Citadona pagina 21.

ADLER, D.; NENADIC, O.; ZUCCHINI, W. Rgl: A r-library for 3d visualization withopengl. In: Proceedings of the 35th Symposium of the Interface: Computing Science andStatistics, Salt Lake City. [S.l.: s.n.], 2003. v. 35. Citado na pagina 53.

ALBERT, R. Scale-free networks in cell biology. Journal of cell science, The Company ofBiologists Ltd, v. 118, n. 21, p. 4947–4957, 2005. Citado 7 vezes nas paginas 16, 17, 18,30, 33, 35 e 48.

ALBERT, R.; BARABASI, A. L. Statistical mechanics of complex networks. Reviews ofModern Physics, v. 74, n. 1, p. 47–97, 2002. ISSN 00346861. Citado na pagina 18.

ALBERTS, B. et al. Biologia Molecular da Celula. 5a edicao. Porto Alegre: ArtmedEditora. [S.l.: s.n.], 2010. v. 15. 879–964 p. Citado 4 vezes nas paginas 22, 23, 24 e 25.

ASHBURNER, M. et al. Gene ontology: tool for the unification of biology. Naturegenetics, Nature Publishing Group, v. 25, n. 1, p. 25–29, 2000. Citado na pagina 28.

BARABASI, A.-l. Linked: a nova ciencia dos networks. Sao Paulo: Leopardo, p. 131, 2009.Citado 6 vezes nas paginas 16, 17, 29, 30, 31 e 35.

BARABASI, A.-L.; ALBERT, R. Emergence of scaling in random networks. science,American Association for the Advancement of Science, v. 286, n. 5439, p. 509–512, 1999.Citado 3 vezes nas paginas 34, 35 e 48.

BARABASI, A.-L.; GULBAHCE, N.; LOSCALZO, J. Network medicine: a network-basedapproach to human disease. Nature Reviews Genetics, Nature Publishing Group, v. 12,n. 1, p. 56–68, 2011. Citado na pagina 18.

BARABASI, A.-L. et al. Evolution of the social network of scientific collaborations.Physica A: Statistical mechanics and its applications, Elsevier, v. 311, n. 3, p. 590–614,2002. Citado 2 vezes nas paginas 16 e 17.

BARABASI, A.-L.; OLTVAI, Z. N. Network biology: understanding the cell’s functionalorganization. Nature reviews genetics, Nature Publishing Group, v. 5, n. 2, p. 101–113,2004. Citado na pagina 18.

BASGALUPP, M. P.; CARVALHO, A. C. de; FREITAS, A. A. Legal-tree: Um algoritmogenetico multi-objetivo lexicografico para inducao de arvores de decisao. 2010. Citado napagina 42.

BENSON, D.; LIPMAN, D. J.; OSTELL, J. Genbank. Nucleic Acids Research, OxfordUniv Press, v. 21, n. 13, p. 2963–2965, 1993. Citado na pagina 21.

BENSON, D. A. et al. Genbank. Nucleic Acids Research, Oxford University Press, v. 45,n. Database issue, p. D37, 2017. Citado na pagina 28.

encias

Page 78: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

77

BERG, J.; LASSIG, M. Local graph alignment and motif search in biological networks.Proceedings of the National Academy of Sciences of the United States of America, NationalAcad Sciences, v. 101, n. 41, p. 14689–14694, 2004. Citado 2 vezes nas paginas 37 e 39.

BHARGAVA, N. et al. Decision tree analysis on j48 algorithm for data mining. Proceedingsof International Journal of Advanced Research in Computer Science and SoftwareEngineering, v. 3, n. 6, 2013. Citado na pagina 41.

BIOLOGICAL, T.; RETRIEVAL, S. Package ‘seqinr’. 2017. Citado na pagina 53.

BIOLOGY, I. F. S. What is Systems Biology. 2017. Disponıvel em: 〈https://www.systemsbiology.org/〉. Citado na pagina 17.

BIONFORMATICS. IUPAC Codes. 2017. Disponıvel em: 〈Fonte:https://www.bioinformatics.org/sms/iupac.html〉. Citado na pagina 29.

BISHOP, C. M. Neural networks for pattern recognition. [S.l.]: Oxford university press,1995. Citado na pagina 39.

BISHOP, C. M. Pattern recognition and machine learning. [S.l.]: springer, 2006. Citadona pagina 45.

BOCCALETTI, S. et al. Complex networks: Structure and dynamics. Physics reports,Elsevier, v. 424, n. 4, p. 175–308, 2006. Citado 5 vezes nas paginas 17, 18, 33, 37 e 48.

BOECKMANN, B. et al. The swiss-prot protein knowledgebase and its supplement tremblin 2003. Nucleic acids research, Oxford University Press, v. 31, n. 1, p. 365–370, 2003.Citado na pagina 45.

CAMILO, C. O.; SILVA, J. C. d. Mineracao de dados: Conceitos, tarefas, metodos eferramentas. Universidade Federal de Goias (UFC), p. 1–29, 2009. Citado 3 vezes naspaginas 16, 36 e 40.

CAMPOS, T. E. de. Tecnicas de selecao de caracterısticas com aplicacoes emreconhecimento de faces. Tese (Doutorado) — Universidade de Sao Paulo, 2001. Citadona pagina 39.

CHEN, G. et al. Lncrnadisease: a database for long-non-coding rna-associated diseases.Nucleic acids research, Oxford University Press, v. 41, n. D1, p. D983–D986, 2012. Citadona pagina 25.

CHEN, L. et al. Analysis of protein pathway networks using hybrid properties. Molecules,v. 15, n. 11, p. 8177–8192, 2010. ISSN 14203049. Citado na pagina 17.

CLINE, M. S. et al. Integration of biological networks and gene expression data usingcytoscape. Nature protocols, Nature Publishing Group, v. 2, n. 10, p. 2366–2382, 2007.Citado 2 vezes nas paginas 16 e 35.

COCHRANE, G. et al. The international nucleotide sequence database collaboration.Nucleic Acids Research, Oxford Univ Press, v. 44, n. D1, p. D48–D50, 2016. Citado napagina 28.

Page 79: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

78

CONQUE, B. M.; KASHIWABARA, A. Y.; LOPES, F. M. A feature extraction approachbased on complex networks for genomic sequences recognition. In: IEEE. Image andSignal Processing, BioMedical Engineering and Informatics (CISP-BMEI), InternationalCongress on. [S.l.], 2016. p. 1803–1807. Citado na pagina 18.

CONQUE, B. M. M.; KASHIWABARA, A. Y.; LOPES, F. M. Feature extraction fromcomplex networks: A case of study in genomic sequences classification. arXiv preprintarXiv:1412.5627, 2014. Citado 4 vezes nas paginas 18, 25, 45 e 48.

CONSORTIUM, S. et al. Genome sequence of the nematode c. elegans: A platform forinvestigating biology. Science, v. 282, p. 2012–2018, 1998. Citado na pagina 21.

COSTA, L. d. F. et al. Characterization of complex networks: A survey of measurements.Advances in physics, Taylor & Francis, v. 56, n. 1, p. 167–242, 2007. Citado 11 vezes naspaginas 18, 30, 32, 33, 34, 35, 36, 37, 39, 48 e 58.

CSARDI, G.; NEPUSZ, T. The igraph software package for complex network research.InterJournal, Complex Systems, v. 1695, n. 5, p. 1–9, 2006. Citado na pagina 53.

CUZZOCREA, A.; SONG, I.-Y.; DAVIS, K. C. Analytics over large-scale multidimensionaldata: the big data revolution! In: ACM. Proceedings of the ACM 14th internationalworkshop on Data Warehousing and OLAP. [S.l.], 2011. p. 101–104. Citado na pagina 16.

DIESTEL, R. Graph theory. [S.l.]: Springer-Verlag Berlin and Heidelberg GmbH & amp,2000. Citado na pagina 30.

DOOLITTLE, R. F. The roots of bioinformatics in protein evolution. PLoS ComputationalBiology, v. 6, n. 7, p. 1, 2010. ISSN 1553734X. Citado na pagina 25.

DOROGOVTSEV, S. N.; GOLTSEV, A. V.; MENDES, J. F. F. Pseudofractal scale-freeweb. Physical review E, APS, v. 65, n. 6, p. 066122, 2002. Citado na pagina 30.

DREES, B. L. et al. Derivation of genetic interaction networks from quantitativephenotype data. Genome biology, BioMed Central, v. 6, n. 4, p. R38, 2005. Citado napagina 39.

ERDOS, P.; RENYI, A. On random graphs, i. Publicationes Mathematicae (Debrecen),v. 6, p. 290–297, 1959. Citado na pagina 33.

FLEISCHMANN, R. D. et al. Whole-genome random sequencing and assembly ofhaemophilus influenzae rd. Science, The American Association for the Advancement ofScience, v. 269, n. 5223, p. 496, 1995. Citado na pagina 21.

FONSECA, R. R. da et al. Next-generation biology: Sequencing and data analysisapproaches for non-model organisms. Marine genomics, Elsevier, v. 30, p. 3–13, 2016.Citado 2 vezes nas paginas 16 e 22.

GALPERIN, M. Y.; FERNANDEZ-SUAREZ, X. M.; RIGDEN, D. J. The 24th annualnucleic acids research database issue: a look back and upcoming changes. Nucleic AcidsResearch, Oxford Univ Press, v. 45, n. D1, p. D1–D11, 2017. Citado 2 vezes nas paginas27 e 29.

Page 80: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

79

GENTLEMAN, R. C. et al. Bioconductor: open software development for computationalbiology and bioinformatics. Genome biology, BioMed Central, v. 5, n. 10, p. R80, 2004.Citado na pagina 53.

GIBBS, R. A. et al. The international hapmap project. Nature, Nature Publishing Group,v. 426, n. 6968, p. 789–796, 2003. Citado na pagina 21.

GOFFEAU, A. et al. Life with 6000 genes. Science, The American Association for theAdvancement of Science, v. 274, n. 5287, p. 546, 1996. Citado na pagina 21.

GOLDBARG, M.; GOLDBARG, E. Grafos: Conceitos, algoritmos e aplicacoes. [S.l.]:Elsevier, 2012. Citado na pagina 31.

GOLLO, L. L.; BREAKSPEAR, M. The frustrated brain: from dynamics on motifs tocommunities and networks. Philosophical Transactions of the Royal Society B: BiologicalSciences, v. 369, n. 1653, p. 20130532–20130532, 2014. ISSN 0962-8436. Citado 2 vezesnas paginas 17 e 38.

GONG, M. K. L. W. W.; HAN, S. C. J. Generalization and gong1997generalizationdecisiontree induction: Efficient classification in data mining. In: CITESEER. Proceedings,...International Workshop on Research Issues in Data Engineering. [S.l.], 1997. p. 111.Citado 2 vezes nas paginas 40 e 41.

GOODWIN, S.; MCPHERSON, J. D.; MCCOMBIE, W. R. Coming of age: ten years ofnext-generation sequencing technologies. Nature Reviews Genetics, Nature PublishingGroup, v. 17, n. 6, p. 333–351, 2016. Citado 4 vezes nas paginas 16, 17, 21 e 22.

GUTTMAN, M.; RINN, J. L. Modular regulatory principles of large non-coding rnas.Nature, Nature Research, v. 482, n. 7385, p. 339–346, 2012. Citado 3 vezes nas paginas16, 23 e 25.

HALL, M. et al. The weka data mining software: an update. ACM SIGKDD explorationsnewsletter, ACM, v. 11, n. 1, p. 10–18, 2009. Citado na pagina 53.

HAO, D. et al. Identification of single nucleotide polymorphisms and haplotypes associatedwith yield and yield components in soybean (glycine max) landraces across multipleenvironments. Theoretical and Applied Genetics, Springer, v. 124, n. 3, p. 447–458, 2012.Citado na pagina 17.

HORGAN, R. P.; KENNY, L. C. Omic technologies: genomics, transcriptomics, proteomicsand metabolomics. The Obstetrician & Gynaecologist, Wiley Online Library, v. 13, n. 3, p.189–195, 2011. Citado 2 vezes nas paginas 16 e 17.

HORNIK, K.; BUCHTA, C.; ZEILEIS, A. Open-source machine learning: R meets weka.Computational Statistics, Springer, v. 24, n. 2, p. 225–232, 2009. Citado na pagina 53.

IDEKER, T.; GALITSKI, T.; HOOD, L. A new approach to decoding life: systemsbiology. Annual review of genomics and human genetics, Annual Reviews 4139 El CaminoWay, PO Box 10139, Palo Alto, CA 94303-0139, USA, v. 2, n. 1, p. 343–372, 2001. Citadona pagina 17.

INTERNATIONAL, T.; CONSORTIUM, H. The International HapMap Project. Nature,v. 426, n. 6968, p. 789–796, 2003. ISSN 1476-4687 (Electronic)\r0028-0836 (Linking).Citado na pagina 21.

Page 81: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

80

ITZKOVITZ, S. et al. Subgraphs in random networks. Physical review E, APS, v. 68, n. 2,p. 026127, 2003. Citado na pagina 16.

JIA, S. et al. Exploring triad-rich substructures by graph-theoretic characterizations incomplex networks. Physica A: Statistical Mechanics and its Applications, Elsevier, v. 468,p. 53–69, 2017. Citado na pagina 17.

KANEHISA, M. et al. Kegg: new perspectives on genomes, pathways, diseases and drugs.Nucleic Acids Research, Oxford Univ Press, v. 45, n. D1, p. D353–D361, 2017. Citado napagina 28.

KANG, Y.-J. et al. Cpc2: a fast and accurate coding potential calculator based onsequence intrinsic features. Nucleic Acids Research, 2017. Citado 7 vezes nas paginas 25,45, 46, 48, 51, 65 e 67.

KAPRANOV, P. et al. Rna maps reveal new rna classes and a possible function forpervasive transcription. Science, American Association for the Advancement of Science,v. 316, n. 5830, p. 1484–1488, 2007. Citado na pagina 25.

KAUL, S. et al. Analysis of the genome sequence of the flowering plant arabidopsisthaliana. Nature, v. 408, n. 6814, p. 796–815, 2000. Citado na pagina 21.

KAUR, G.; CHHABRA, A. Improved j48 classification algorithm for the prediction ofdiabetes. International Journal of Computer Applications, Foundation of ComputerScience, v. 98, n. 22, 2014. Citado na pagina 40.

KITANO, H. Systems biology: a brief overview. Science, American Association for theAdvancement of Science, v. 295, n. 5560, p. 1662–1664, 2002. Citado na pagina 17.

KOHAVI, R. et al. A study of cross-validation and bootstrap for accuracy estimation andmodel selection. In: STANFORD, CA. Ijcai. [S.l.], 1995. v. 14, n. 2, p. 1137–1145. Citadona pagina 44.

KONG, L. et al. Cpc: assess the protein-coding potential of transcripts using sequencefeatures and support vector machine. Nucleic acids research, Oxford University Press,v. 35, n. suppl 2, p. W345–W349, 2007. Citado 4 vezes nas paginas 25, 45, 46 e 48.

KOTSIANTIS, S. B.; ZAHARAKIS, I.; PINTELAS, P. Supervised machine learning:A review of classification techniques. Emerging artificial intelligence applications incomputer engineering, v. 160, p. 3–24, 2007. Citado na pagina 40.

LANDER, E. S. et al. Initial sequencing and analysis of the human genome. Nature,Nature Publishing Group, v. 409, n. 6822, p. 860–921, 2001. Citado na pagina 21.

LEE, R. C.; AMBROS, V. An extensive class of small rnas in caenorhabditis elegans.Science, American Association for the Advancement of Science, v. 294, n. 5543, p. 862–864,2001. Citado na pagina 25.

LETOUZE, E. Big data for development: Opportunities & challenges. [S.l.]: May, 2011.Citado na pagina 16.

LEWIN, B. genes IX. 2008. [S.l.: s.n.], 2008. Citado na pagina 24.

Page 82: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

81

LI, A.; ZHANG, J.; ZHOU, Z. Plek: a tool for predicting long non-coding rnas andmessenger rnas based on an improved k-mer scheme. BMC bioinformatics, BioMedCentral, v. 15, n. 1, p. 311, 2014. Citado 7 vezes nas paginas 18, 25, 45, 47, 48, 49 e 60.

LIBBRECHT, M. W.; NOBLE, W. S. Machine learning applications in genetics andgenomics. Nature Reviews Genetics, Nature Research, v. 16, n. 6, p. 321–332, 2015.Citado na pagina 40.

LIU, J.; GOUGH, J.; ROST, B. Distinguishing protein-coding from non-coding rnasthrough support vector machines. PLoS genetics, Public Library of Science, v. 2, n. 4,p. e29, 2006. Citado 3 vezes nas paginas 25, 45 e 48.

LOPES, F. et al. SFFS-MR: a floating search strategy for grns inference. PatternRecognition in Bioinformatics, Springer, p. 407–418, 2010. Citado na pagina 18.

LOPES, F. M. Redes complexas de expressao genica: sıntese, identificacao, analise eaplicacoes. Tese (Doutorado) — Universidade de Sao Paulo, 2011. Citado na pagina 30.

LOPES, F. M.; CESAR, J. R. M.; COSTA, L. D. F. Gene expression complex networks:synthesis, identification, and analysis. Journal of Computational Biology, Mary AnnLiebert, Inc. 140 Huguenot Street, 3rd Floor New Rochelle, NY 10801 USA, v. 18, n. 10,p. 1353–1367, 2011a. Citado 5 vezes nas paginas 17, 18, 30, 35 e 48.

LOPES, F. M. et al. A feature selection technique for inference of graphs from theirknown topological properties: Revealing scale-free gene regulatory networks. InformationSciences, Elsevier, v. 272, p. 1–15, 2014. Citado 4 vezes nas paginas 17, 18, 30 e 48.

LOPES, F. M.; MARTINS, D. C.; CESAR, R. M. Feature selection environment forgenomic applications. BMC bioinformatics, BioMed Central, v. 9, n. 1, p. 451, 2008.Citado 2 vezes nas paginas 18 e 48.

LOPES, F. M.; OLIVEIRA, E. A. de; CESAR, R. M. Inference of gene regulatorynetworks from time series by Tsallis entropy. BMC systems biology, BioMed Central, v. 5,n. 1, p. 61, 2011b. Citado 3 vezes nas paginas 17, 23 e 48.

MARGULIES, M. et al. Genome sequencing in microfabricated high-density picolitrereactors. Nature, Nature Publishing Group, v. 437, n. 7057, p. 376–380, 2005. Citado napagina 22.

MEGHANATHAN, N. Maximal assortative matching for real-world network graphs,random network graphs and scale-free network graphs. Vietnam Journal of ComputerScience, King Saud University, v. 28, n. 2, p. 230–246, 2016. ISSN 2196-8888. Disponıvelem: 〈http://link.springer.com/10.1007/s40595-016-0066-0〉. Citado na pagina 17.

MEIRA, C. A. et al. Analysis of coffee leaf rust epidemics with decision tree [analise daepidemia da ferrugem do cafeeiro com arvore de decisao]. Tropical Plant Pathology, 2008.Citado na pagina 40.

MICHIGAN, U. of. What is FASTA format? FASTA. 2017. Disponıvel em:〈http://zhanglab.ccmb.med.umich.edu/FASTA/〉. Citado na pagina 29.

MILO, R. et al. Network motifs: simple building blocks of complex networks. Science,American Association for the Advancement of Science, v. 298, n. 5594, p. 824–827, 2002.Citado 5 vezes nas paginas 18, 30, 37, 38 e 39.

Page 83: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

82

MITCHELL, T. M. et al. Machine learning. 1997. Burr Ridge, IL: McGraw Hill, v. 45,n. 37, p. 870–877, 1997. Citado na pagina 41.

MONARD, M. C.; BARANAUSKAS, J. A. Inducao de regras e arvores de decisao.Sistemas Inteligentes. Rezende, SO Editora Manole Ltda, p. 115–140, 2003. Citado napagina 41.

MUHAMMAD, S. A. et al. Cellular signaling pathways in insulin resistance-systemsbiology analyses of microarray dataset reveals new drug target gene signatures of type 2diabetes mellitus. Frontiers in Physiology, Frontiers Media SA, v. 8, 2017. Citado napagina 17.

MURTHY, S. K. Automatic construction of decision trees from data: A multi-disciplinarysurvey. Data Mining and Knowledge Discovery, v. 2, p. 345–389, 1998. Citado na pagina40.

NEWMAN, M. E. The structure and function of complex networks. SIAM review, SIAM,v. 45, n. 2, p. 167–256, 2003. Citado 3 vezes nas paginas 18, 32 e 36.

NIRENBERG, M. Historical review: Deciphering the genetic code–a personal account.Trends in biochemical sciences, Elsevier, v. 29, n. 1, p. 46–54, 2004. Citado na pagina 26.

OSHIRO, T. M.; PEREZ, P. S. How Many Trees in a Random Forest? p. 154–168, 2012.Citado na pagina 42.

PANG-NING, T.; STEINBACH, M.; KUMAR, V. Introduction to Data Mining. [S.l.: s.n.],2014. 732 p. ISSN 00224405. ISBN 9789332518650. Citado 2 vezes nas paginas 16 e 44.

PAVLOPOULOS, G. A. et al. Using graph theory to analyze biological networks. BioDatamining, BioMed Central, v. 4, n. 1, p. 10, 2011. Citado na pagina 18.

PIRES, J. G. Biologia Sistemica : um novo paradigma para as ciencias biologicas e exatas.2014. Citado na pagina 17.

RIPLEY, B. D. The r project in statistical computing. MSOR Connections. Thenewsletter of the LTSN Maths, Stats & OR Network, Citeseer, v. 1, n. 1, p. 23–25, 2001.Citado na pagina 53.

ROSE, P. W. et al. The rcsb protein data bank: integrative view of protein, gene and3d structural information. Nucleic Acids Research, Oxford Univ Press, v. 45, n. D1, p.D271–D281, 2017. Citado na pagina 28.

SAID, M. R. et al. Global network analysis of phenotypic effects: protein networks andtoxicity modulation in Saccharomyces cerevisiae. Proceedings of the National Academy ofSciences of the United States of America, v. 101, n. 52, p. 18006–11, 2004. ISSN 0027-8424.Disponıvel em: 〈http://www.pnas.org/content/101/52/18006.full〉. Citado 2 vezes naspaginas 16 e 21.

SANGER, F.; NICKLEN, S.; COULSON, A. R. Dna sequencing with chain-terminatinginhibitors. Proceedings of the national academy of sciences, National Acad Sciences, v. 74,n. 12, p. 5463–5467, 1977. Citado na pagina 21.

Page 84: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

83

SCHOEBERL, B. et al. Systems biology driving drug development: from design to theclinical testing of the anti-erbb3 antibody seribantumab (mm-121). npj Systems Biologyand Applications, Nature Publishing Group, v. 3, p. 16034, 2017. Citado na pagina 16.

SIMPSON, A. J. G. et al. The genome sequence of the plant pathogen xylella fastidiosa.Nature, Nature Publishing Group, v. 406, n. 6792, p. 151–157, 2000. Citado na pagina 22.

SING, T. et al. Rocr: visualizing classifier performance in r. Bioinformatics, Oxford UnivPress, v. 21, n. 20, p. 3940–3941, 2005. Citado na pagina 53.

SMOOT, M. E. et al. Cytoscape 2.8: new features for data integration and networkvisualization. Bioinformatics, Oxford Univ Press, v. 27, n. 3, p. 431–432, 2011. Citado napagina 30.

SNUSTAD, D. P. Principles of genetics. [S.l.]: New York: John Wiley And Sons, Inc.,1999., 2011. Citado 5 vezes nas paginas 22, 23, 25, 26 e 27.

SOKOLOVA, M.; JAPKOWICZ, N.; SZPAKOWICZ, S. Beyond accuracy, f-score androc: a family of discriminant measures for performance evaluation. In: SPRINGER.Australasian Joint Conference on Artificial Intelligence. [S.l.], 2006. p. 1015–1021. Citadona pagina 42.

SPIZZO, R. et al. Long non-coding rnas and cancer: a new frontier of translationalresearch? Oncogene, Nature Publishing Group, v. 31, n. 43, p. 4577–4587, 2012. Citadona pagina 25.

STALLMAN, R. Free software, free society: Selected essays of Richard M. Stallman. [S.l.]:Lulu. com, 2002. Citado na pagina 54.

STOESSER, G. et al. The embl nucleotide sequence database. Nucleic acids research,Oxford Univ Press, v. 30, n. 1, p. 21–26, 2002. Citado na pagina 27.

SUN, L. et al. Utilizing sequence intrinsic composition to classify protein-coding andlong non-coding transcripts. Nucleic acids research, Oxford Univ Press, p. gkt646, 2013.Citado 3 vezes nas paginas 23, 46 e 47.

TAYLOR, R. J.; SIEGEL, A. F.; GALITSKI, T. Network motif analysis of a multi-modegenetic-interaction network. Genome biology, v. 8, n. 8, p. R160, 2007. ISSN 1465-6914.Disponıvel em: 〈http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=2374991&tool=pmcentrez&rendertype=ab〉. Citado 2 vezes nas paginas 23 e 38.

THEODORIDIS, S. et al. Introduction to pattern recognition: a matlab approach. [S.l.]:Academic Press, 2010. Citado na pagina 39.

TORIBIO, A. L. et al. European nucleotide archive in 2016. Nucleic acids research,Oxford Univ Press, v. 45, n. D1, p. D32–D36, 2017. Citado na pagina 28.

TRAVERS, J.; MILGRAM, S. The small world problem. Phychology Today, JSTOR, v. 1,p. 61–67, 1967. Citado na pagina 34.

VAZQUEZ, A. et al. The topological relationship between the large-scale attributes andlocal interaction patterns of complex networks. Proceedings of the National Academy ofSciences, National Acad Sciences, v. 101, n. 52, p. 17940–17945, 2004. Citado na pagina18.

Page 85: Reconhecimento de padrões utilizando métricas de redes ...paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/pesquisa/... · da rede. Posteriormente, cada sub-rede e submetida

84

VICENTE, F. F. da R.; LOPES, F. M. SFFS-SW: A feature selection algorithm exploringthe small-world properties of GRN’s. In: SPRINGER. IAPR International Conference onPattern Recognition in Bioinformatics. [S.l.], 2014. p. 60–71. Citado na pagina 18.

WALKER, J. Frederick Sanger (1918-2013). [S.l.]: Nature Research, 2014. Citado napagina 21.

WANG, K. C.; CHANG, H. Y. Molecular mechanisms of long noncoding rnas. Molecularcell, Elsevier, v. 43, n. 6, p. 904–914, 2011. Citado 2 vezes nas paginas 17 e 25.

WANG, Z.; GERSTEIN, M.; SNYDER, M. Rna-seq: a revolutionary tool fortranscriptomics. Nature reviews genetics, Nature Publishing Group, v. 10, n. 1, p. 57–63,2009. Citado na pagina 44.

WATSON, J. D.; CRICK, F. H. The structure of DNA. [S.l.], 1953. v. 18. 123–131 p.Citado 2 vezes nas paginas 22 e 23.

WATTS, D. J.; STROGATZ, S. H. Collective dynamics of ‘small-world’networks. nature,Nature Publishing Group, v. 393, n. 6684, p. 440–442, 1998. Citado na pagina 34.

WEBB, A. R.; COPSEY, K. D. Statistical pattern recognition. John Wiley and Sons Ltd,2011. Citado 3 vezes nas paginas 36, 40 e 42.

WESTERHOFF, H. V.; PALSSON, B. O. The evolution of molecular biology into systemsbiology. Nature biotechnology, Nature Publishing Group, v. 22, n. 10, p. 1249–1252, 2004.Citado na pagina 17.

XIA, S.-y. et al. Relative density-based classification noise detection. Optik-InternationalJournal for Light and Electron Optics, Elsevier, v. 125, n. 22, p. 6829–6834, 2014. Citadona pagina 44.

YEGER-LOTEM, E. et al. Network motifs in integrated cellular networks oftranscription–regulation and protein–protein interaction. Proceedings of the NationalAcademy of Sciences of the United States of America, National Acad Sciences, v. 101,n. 16, p. 5934–5939, 2004. Citado na pagina 17.

ZAHA, A.; FERREIRA, H. B.; PASSAGLIA, L. M. Biologia Molecular Basica-5. [S.l.]:Artmed Editora, 2014. Citado 5 vezes nas paginas 22, 23, 24, 25 e 26.

ZHANG, Y. et al. A review on recent computational methods for predicting noncodingrnas. BioMed research international, Hindawi Publishing Corporation, v. 2017, 2017.Citado na pagina 45.

ZHAO, Y. et al. Noncode 2016: an informative and valuable data source of long non-codingrnas. Nucleic acids research, Oxford Univ Press, p. gkv1252, 2015. Citado 2 vezes naspaginas 17 e 25.

ZHU, W. et al. Sensitivity, specificity, accuracy, associated confidence interval and rocanalysis with practical sas implementations. NESUG proceedings: health care and lifesciences, Baltimore, Maryland, p. 1–9, 2010. Citado na pagina 42.

ZHU, X. Semi-Supervised Learning with Graphs. n. May, 2005. Citado na pagina 40.