mineraÇÃoderegrasparaclassificaÇÃo ......genéticos[11,3,12,13,14,15,16,17,18]....
Post on 15-Jul-2020
1 Views
Preview:
TRANSCRIPT
MINERAÇÃO DE REGRAS PARA CLASSIFICAÇÃODE ONCOGENES MEDIDOS POR MICROARRAY
UTILIZANDO ALGORITMOS GENÉTICOS
Por
Laurence Rodrigues do Amaral
DISSERTAÇÃO APRESENTADA ÀUNIVERSIDADE FEDERAL DE UBERLÂNDIA, MINAS GERAIS,
COMO PARTE DOS REQUISITOS EXIGIDOSPARA OBTENÇÃO DO TÍTULO DE MESTRE
EM CIÊNCIA DA COMPUTAÇÃO
AGOSTO DE 2007
UNIVERSIDADE FEDERAL DE UBERLÂNDIA
FACULDADE DE COMPUTAÇÃO
Os abaixo assinados, por meio deste, certi�cam que leram e recomendam para a Facul-dade de Computação a aceitação da dissertação intitulada �MINERAÇÃO DE RE-GRAS PARA CLASSIFICAÇÃO DE ONCOGENESMEDIDOS POR MICRO-ARRAY UTILIZANDO ALGORITMOS GENÉTICOS� por Laurence Rodri-gues do Amaral como parte dos requisitos exigidos para a obtenção do título deMestreem Ciência da Computação.
Uberlândia, 13 de Agosto de 2007
Orientadora:Profa. Dra. Gina Maira Barbosa de Oliveira
Universidade Federal de Uberlândia UFU/MG
Banca Examinadora:Profa. Dra. Denise Guliato
Universidade Federal de Uberlândia UFU/MG
Prof. Dr. Alexandre Cláudio Botazzo DelbemUniversidade de São Paulo USP/SP
ii
UNIVERSIDADE FEDERAL DE UBERLÂNDIA
Data: Agosto, 2007
Autor: Laurence Rodrigues do AmaralTítulo: MINERAÇÃO DE REGRAS PARA CLASSIFICAÇÃO DE
ONCOGENES MEDIDOS POR MICROARRAYUTILIZANDO ALGORITMOS GENÉTICOS
Faculdade: Faculdade de ComputaçãoGrau: Mestrado
Fica garantido à Universidade Federal de Uberlândia o direito de circulação e impressãode cópias deste documento para propósitos exclusivamente acadêmicos, desde que o autorseja devidamente informado.
Autor
iii
Dedicatória
À minha esposa Kyara, meus pais Ademir e Laurita e a meu irmão Lucas
iv
Agradecimentos
Agradeço primeiramente a Deus por ter me agraciado com a oportunidade de estudar,oportunidade esta, tão rara e difícil nos dias atuais, e saúde para ter completado maiseste passo nesta longa caminhada que é o saber.
A minha esposa Kyara, companheira de todas as horas, que soube entender que estaconquista não é apenas minha, mas sim de toda a nossa família e esteve a meu lado nashoras boas e principalmente nas horas ruins.
A toda minha família pelo apoio, incentivo e por terem acreditado em mim.A minha orientadora Gina, pessoa pelo qual tenho profundo respeito, por ter me
ajudado a chegar até aqui, pessoa esta, exemplo de responsabilidade e competência.A todos os amigos do Unicerp, que direta ou indiretamente, tiveram participação nesta
conquista.A todos vocês, o meu muito obrigado.
v
Resumo
Técnicas de Inteligência Arti�cial (IA) têm se tornado cada vez mais importantes nasolução de problemas biológicos. Nesta dissertação, utilizamos um Algoritmo Genético(AG) na busca de regras de alto nível do tipo IF-THEN. Este AG foi aplicado na mineraçãode regras de classi�cação em uma base de dados de expressão gênica de células cancerígenas(NCI60), advindas de experimentos demicroarray. O objetivo dessa mineração é descobrirrelações entre os níveis de expressões gênicas e os nove tipos de classes de câncer analisadosneste trabalho.
Palavras chave: Bioinformática, expressão gênica, algoritmos genéticos, oncogenes,data mining.
vi
Abstract
Arti�cial Intelligence techniques are increasing their role in the solution of biologicalproblems. The present study use a Genetic Algorithm (GA) in the search for high levelIF-THEN rules. This GA was applied to miner classi�cation rules from a gene expressiondatabase named NCI60. This database was developed using cancer cells measured bymicroarray. The goal of this mining is the discovery of relations among gene expressionlevel and the nine types of cancer classes analyzed in this work.
Keywords: Bioinformatic, gene expression, genetic algorithms, oncogenes, data mi-ning.
vii
Sumário
1 Introdução 11.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Biologia Molecular e Bioinformática 42.1 Biologia Molecular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.2 Experimentos de microarrays e bases de expressão gênica . . . . . . . . . . 62.3 Bioinformática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.4 Análise de Expressão Gênica . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3 Algoritmos Genéticos (AGs) 133.1 Visão Geral do Método . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.1.1 Representação do Indivíduo e Geração da População Individual . . 163.1.2 Função de Avaliação ou Aptidão (FA) . . . . . . . . . . . . . . . . . 173.1.3 Operadores Genéticos . . . . . . . . . . . . . . . . . . . . . . . . . . 173.1.4 Critério de Parada e Parâmetros Genéticos . . . . . . . . . . . . . . 23
3.2 Variações do AG Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.3 Aplicações de Algoritmos Genéticos em Data Mining . . . . . . . . . . . . 253.4 Aplicações de Algoritmos Genéticos na análise de Expressão Gênica . . . . 27
4 Ambiente Evolutivo 344.1 Descrição do Ambiente Evolutivo . . . . . . . . . . . . . . . . . . . . . . . 34
4.1.1 Codi�cação do Indivíduo . . . . . . . . . . . . . . . . . . . . . . . . 354.1.2 Função de Avaliação ou Aptidão (FA) (Fitness Function) . . . . . . 37
viii
4.1.3 Operadores Genéticos . . . . . . . . . . . . . . . . . . . . . . . . . . 384.1.4 Parâmetros Genéticos . . . . . . . . . . . . . . . . . . . . . . . . . 394.1.5 Bases de Dados investigadas . . . . . . . . . . . . . . . . . . . . . . 39
4.2 Ajuste do Ambiente Evolutivo . . . . . . . . . . . . . . . . . . . . . . . . . 42
5 Resultados 445.1 Experimentos com a mineração das bases reduzidas individuais . . . . . . . 455.2 Experimentos com a mineração das bases compostas . . . . . . . . . . . . . 525.3 Análise das melhores regras e dos melhores conjuntos . . . . . . . . . . . . 56
6 Conclusões e trabalhos futuros 68
ix
Lista de Figuras
2.1 Esquema de microarray de cDNA [1] . . . . . . . . . . . . . . . . . . . . . . . . 7
3.1 Computação Evolutiva: interseção entre a Inteligência Arti�cial e a Biologia Evolutiva . 143.2 Ciclo de Execução Básico de um AG . . . . . . . . . . . . . . . . . . . . . . . . 153.3 Roleta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.4 Torneio Estocástico de tamanho 3, empregando a roleta da Figura 3.3 . . . . . . . . . 193.5 Crossover Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.6 Crossover Múltiplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.7 Crossover Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.8 Mutação Binária . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.9 Mutação Real . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.10 Mutação Permutação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.1 Cromossomo ou Indivíduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.2 Exemplo de cromossomo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.3 Mutação aplicada no campo P . . . . . . . . . . . . . . . . . . . . . . . . . . . 384.4 Mutação aplicada no campo O . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.5 Mutação aplicada no campo V . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
1 Exemplo que ilustra várias opções de compra de automóvel (1-5), considerando o seu
custo e conforto [2] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
x
Lista de Tabelas
2.1 Visão geral da base NCI60 reduzida e utilizada nos experimentos de Ooi e Tan [3] . . . 8
5.1 Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B1 . . 465.2 Melhores regras encontradas na base de dados B1 . . . . . . . . . . . . . . . . . . 465.3 Melhores regras encontradas na base de dados B2 . . . . . . . . . . . . . . . . . . 485.4 Melhores regras encontradas na base de dados B3 . . . . . . . . . . . . . . . . . . 495.5 Melhores regras encontradas na base de dados B4 . . . . . . . . . . . . . . . . . . 505.6 Melhores regras encontradas para o conjunto de bases B1, B2, B3 e B4 . . . . . . . . 515.7 Conjunto de regras do classi�cador . . . . . . . . . . . . . . . . . . . . . . . . . 525.8 Resultados encontrados para as bases de dados individuais e para todas as composições 535.9 Classes que obtiveram ótimos/bons e ruins resultados para todas as bases . . . . . . . 545.10 Análise AECD para todas as combinações de bases . . . . . . . . . . . . . . . . . . 555.11 Melhores regras encontradas em todas as bases analisadas . . . . . . . . . . . . . . 565.12 Resultado do cross validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 615.13 Conjunto K1: regras com os maiores valores de aptidão segundo a equação 4.3 . . . . . 635.14 Conjunto K2: regras com o maior número de acertos na análise AECD . . . . . . . . 635.15 Sensibilidade e Especi�cidade das regras dos conjuntos K1 e K2 . . . . . . . . . . . 655.16 Comparativo dos erros encontrados em K1 e K2 e de outros trabalhos, utilizando 2/3
da base em treinamento e 1/3 em teste . . . . . . . . . . . . . . . . . . . . . . . 665.17 Comparativo dos erros encontrados em K1 e K2 e de outros trabalhos, utilizando todas
as amostras da base NCI60 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
1 Fragmento da base NCI60 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 872 Códigos e expressão gênica dos genes da base de dados B1 . . . . . . . . . . . . . . 90
xi
3 Códigos e expressão gênica dos dez primeiros genes da base de dados B2 . . . . . . . 924 Códigos e expressão gênica dos dez últimos genes da base de dados B2 . . . . . . . . 945 Códigos e expressão gênica dos nove primeiros genes da base de dados B3 . . . . . . . 966 Códigos e expressão gênica dos oito últimos genes da base de dados B3 . . . . . . . . 987 Códigos e expressão gênica dos genes da base de dados B4 . . . . . . . . . . . . . . 1008 Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B2 . . 1069 Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B3 . . 10610 Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B4 . . 10711 Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B1B2 10712 Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B1B3 10713 Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B1B4 10814 Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B2B3 10815 Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B2B4 10816 Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B3B4 10917 Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B1B2B310918 Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B1B2B410919 Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B1B3B411020 Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B2B3B411021 Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B1B2B3B411022 Melhores regras encontradas na base de dados B1B2 . . . . . . . . . . . . . . . . . 11125 Melhores regras encontradas na base de dados B2B3 . . . . . . . . . . . . . . . . . 11227 Melhores regras encontradas na base de dados B1B2B3 . . . . . . . . . . . . . . . . 11330 Melhores regras encontradas na base de dados B2B3B4 . . . . . . . . . . . . . . . . 11431 Melhores regras encontradas na base de dados B1B2B3B4 . . . . . . . . . . . . . . 11623 Melhores regras encontradas na base de dados B1B3 . . . . . . . . . . . . . . . . . 11824 Melhores regras encontradas na base de dados B1B4 . . . . . . . . . . . . . . . . . 11926 Melhores regras encontradas na base de dados B2B4 . . . . . . . . . . . . . . . . . 12028 Melhores regras encontradas na base de dados B1B2B4 . . . . . . . . . . . . . . . . 12129 Melhores regras encontradas na base de dados B1B3B4 . . . . . . . . . . . . . . . . 122
xii
Capítulo 1
Introdução
Atualmente, a bioinformática é imprescindível para a manipulação dos dados biológicos.Ela pode ser de�nida como uma modalidade que abrange todos os aspectos de aquisição,processamento, armazenamento, distribuição, análise e interpretação da informação bio-lógica. Através da combinação de procedimentos e técnicas advindos da matemática, daestatística e da ciência da computação, são elaboradas várias ferramentas que auxiliama compreender o signi�cado biológico representado nos dados genômicos [4]. Uma dasáreas em que a aplicação de técnicas computacionais tem se mostrado mais promissoraé a Biologia Molecular [5]. O termo expressão gênica refere-se ao processo em que ainformação codi�cada por um determinado gene é decodi�cada em uma proteína, ma-nisfestando assim, características particulares àquele gene. As células e tecidos têm suasfunções normais quando os genes são expressos de forma regulada. A expressão alteradade um gene pode alterar o equilíbrio do organismo, podendo vir a gerar uma doença.Assim, a seleção de genes relevantes a uma determinada doença torna-se uma tarefa im-portantíssima, podendo num futuro próximo, ser aplicada no diagnóstico médico. Nabusca destes pequenos conjuntos de genes preditores, técnicas advindas da InteligênciaArti�cial (IA), tais como, os algoritmos genéticos e as redes neurais arti�ciais, são cadavez mais empregados, devido a sua capacidade de aprender automaticamente a partir degrandes volumes de dados e produzir hipóteses úteis [6].
Diferentes técnicas de IA foram aplicadas na análise de dados de expressão gênica, taiscomo, as redes neurais arti�ciais [7, 8], as support vector machines [9, 10] e os algoritmos
1
genéticos [11, 3, 12, 13, 14, 15, 16, 17, 18]. Em todos os projetos citados anteriormente,o objetivo é encontrar conjuntos de genes (clusters) que possam ser utilizados como clas-si�cadores con�áveis, com uma elevada taxa de classi�cação e um bom desempenho degeneralização. Dessa forma, os conjuntos minerados podem auxiliar na classi�cação denovos casos, facilitando o diagnóstico e o tratamento de doenças. Entretanto, somente em[16, 17, 18], encontramos classi�cadores baseados em regras de alto nível, por exemplo,regras do tipo IF-THEN. Nos demais, os classi�cadores obtidos são do tipo caixa-preta,onde a entrada são os dados de expressão de uma determinada amostra de células e asaída é a classe à qual essa amostra provavelmente pertence, podendo esta saída estar as-sociada, por exemplo, a uma classe de doença. Assim, a partir de um conjunto de dadosde milhares de genes chega-se a um pequeno conjunto de poucas dezenas de genes quesejam discriminantes para o problema.
1.1 Objetivos
O enfoque desse trabalho foi na busca (mineração) de regras de alto nível, que não sóestivessem associadas a cada classe individualmente, reduzindo o problema a poucos ge-nes por classe, mas também associando o nível de expressão gênica a cada gene quecompõe a regra. Acreditamos que esse tipo de informação possa ser de grande utilidadeaos especialistas que buscam entender o mecanismo responsável pelas alterações nos pa-drões de expressão gênica associadas ao aparecimento de determinadas doenças. Para tal,elaborou-se um algoritmo genético (AG) para a obtenção de regras do tipo IF-THEN apartir de bases de dados de expressões gênicas. O AG foi fortemente inspirado no modeloproposto por Fidelis e colaboradores [19] para a mineração de regras de classi�cação. Oambiente evolutivo implementado foi aplicado na classi�cação de uma base de dados deexpressões gênicas de células cancerígenas, advindas de experimentos de microarray. Estabase é de domínio público e é conhecida como NCI60 [20]. O principal objetivo do nossotrabalho é a busca das relações entre os níveis de expressões gênicas de nove classes decâncer: mama, sistema nervoso central, cólon, leucemia, melanoma, pulmão, ovário, renale células reprodutivas. Na base NCI60 [20] foram obtidas expressões de mais de 8.000
2
genes para 61 amostras de células. Diversos trabalhos aplicaram diferentes técnicas nabusca de conjuntos de genes preditores para esta base [21, 3, 13, 22, 23, 24, 25]. Nessetrabalho, como ponto de partida, utilizamos quatro conjuntos reduzidos de genes queforam minerados por Ooi e Tan [3] a partir da NCI60, totalizando 55 genes.
1.2 Organização do Trabalho
Esta dissertação está dividida em 6 capítulos, sendo o primeiro uma introdução sobre otrabalho e os objetivos propostos pelo mesmo.
O segundo capítulo apresenta alguns conceitos sobre biologia molecular, microarraysde DNA, bioinformática, trazendo também a descrição de alguns trabalhos aplicados àbase NCI60.
O terceiro capítulo apresenta informações a respeito dos algoritmos genéticos, taiscomo: visão geral do método, representacão do indivíduo, operadores genéticos, seleçãode pais, crossover, reinserção, dentre outros. Além destes tópicos relatados anteriormente,o capítulo 3 também aborda aplicações de algoritmos genéticos em tarefas de datamininge também na análise de dados advindos de expressão gênica.
O quarto capítulo descreve o ambiente evolutivo utilizado neste trabalho, ajustes queforam necessários para se chegar neste ambiente e as bases de dados que foram investiga-das.
O quinto capítulo contempla os resultados obtidos no ambiente evolutivo proposto.O sexto capítulo apresenta as conclusões do trabalho e as propostas de trabalhos
futuros.
3
Capítulo 2
Biologia Molecular e Bioinformática
2.1 Biologia Molecular
Genética é o nome dado ao estudo da hereditariedade, o processo pelo qual as caracterís-ticas são passadas dos genitores para a prole de modo que todos os organismos, inclusiveos seres humanos, assemelhem-se a seus ancestrais. O conceito central da genética é que ahereditariedade é controlada por um grande número de fatores, os genes, que são pequenaspartículas físicas presentes em todos os organismos vivos [10].
Os primeiros geneticistas estavam interessados principalmente em como os genes sãotransmitidos dos genitores à sua prole durante a reprodução e em características variáveis,tais como altura e cor dos olhos. Durante a década de 1930, a pesquisa tomou novos ru-mos ao reconhecer que se os genes são entidades físicas, assim como outros componentesda célula, eles devem ser feitos de moléculas e, portanto, deve ser possível estudá-los di-retamente por métodos biofísicos e bioquímicos. Isso levou a um novo ramo da genética,chamado Biologia Molecular, que tinha como um de seus objetivos iniciais a identi�caçãoda natureza química do gene. Este novo enfoque levou a novos conceitos e os biólogosdeixaram de considerar os genes simplesmente como unidades de herança, passando aencará-los como unidades de informação biológica, possuindo a quantidade total de infor-mações necessárias para a construção de um exemplo vivo e funcional daquele organismo[10].
A compreenção cientí�ca nos dias de hoje da complexidade e do dinamismo celular
4
apóia-se nos trabalhos de milhares de cientistas nos últimos 150 anos. Os pesquisadoresmodernos fundiram conceitos e técnicas experimentais da bioquímica, da genética e da bi-ologia molecular com aqueles da biologia celular clássica para produzirem uma concepçãodinâmica da vida celular [26].
Os conhecimentos sobre as células progridem paralelamente ao aperfeiçoamento dosmétodos de investigação. Inicialmente, o microscópio óptico possibitou o descobrimentodas células e a elaboração da teoria de que todos os seres vivos são constituídos por células.Posteriormente, foram descobertas técnicas citoquímicas que possibitaram a identi�caçãoe localização de diversas moléculas constituintes das células. Com o advento dos micros-cópios eletrônicos, que têm grande poder de resolução, foram observados pormenores daestrutura celular que não poderiam sequer ser imaginados pelos estudos feitos com osmicroscópios ópticos. Com o uso dos microscópios eletrônicos, foram aperfeiçoados méto-dos para a separação de organelas celulares e para o estudo in vitro de suas moléculas erespectivas funções. A análise de organelas isoladas em grande quantidade, a cultura decélulas, a possibilidade de manipular o genoma através da adição ou supressão de genese o aparecimento de numerosas técnicas de uso comum aos diversos ramos da pesquisabiológica levaram ao surgimento da biologia celular e molecular, que é o estudo integradodas células, através de todo o arsenal técnico disponível [27].
Um fragmento de DNA pode conter diversos genes. A propriedade mais importantedos genes está no fato de que eles contêm o código genético para a expressão do mRNA(RNA mensageiro) que será traduzido em proteínas, componentes estes, essenciais a todoser vivo [28]. As proteínas são polipeptídeos compostos por conjuntos de aminoácidos.Estes aminoácidos são representados por trincas (códons) de nucleotídeos (Adenina - A,Uracila - U, Citosina - C e Guanina - G) no DNA. O processo pelo qual as seqüências denucleotídeos dos genes são interpretados na produção de proteínas é denominado expressãogênica [28]. Mensurar e analisar informações de expressão gênica é de grande interesse paraas Ciências Biológicas. Esse tipo de análise pode fornecer informações importantes sobreas funções de uma célula, uma vez que as mudanças na �siologia de um organismo sãogeralmente acompanhadas por mudanças nos padrões de expressão dos genes [29]. Umadas técnicas mais difundidas para esta medição são osMicroarrays de DNA [30, 31, 32, 33].
5
2.2 Experimentos de microarrays e bases de expressãogênica
O microarray de DNA é uma metodologia utilizada para comparar a expressão de umgrande número de genes simultaneamente. Essa técnica emprega arranjos (arrays), quecontêm um grande número de genes distribuídos por um braço robótico de forma ordenada(spots) sobre placas de vidro. A quanti�cação dos níveis de expressão gênica na tecnologiade microarray é baseada em experimentos onde os milhares de clones de cDNA 1 sãohibridizados 2 com duas sondas marcadas com diferentes �uorecências (geralmente umaemite cor vermelha (Cy5) e outra verde (Cy3)). As sondas podem ser conjuntos de cDNAsgerados a partir de células ou tecidos em duas cituações diferentes, que se deseja comparar.Os resultados são produzidos sob forma de diferentes intensidades de �uorescência que sãocaptadas por microscopia a laser em função dos diferentes níveis de expressão de cada gene.A imagem dos pontos �uorescentes é processada por meio de métodos computacionais como objetivo de calcular a intensidade obtida para cada mRNA [34]. A Figura 2.1 ilustratodo o processo.
A tecnologia de microarrays não fornece apenas informações sobre a função de genesanônimos mas também constitui uma ferramenta indispensável para estudos globais deexpressão gênica, com grande aplicabilidade nos estudos de biologia molecular e �siologiavegetal [34].
Como exemplo do resultado obtido por essa técnica, podemos citar a base NCI60[20] utilizada em nossa mineração de regras. Essa base de dados faz parte do NCI60Cancer Microarray Project, projeto este, advindo da colaboração entre o laboratórioBrown/Bolstein do grupo John Weinstien's do Laboratory of Molecular Pharmacologye do Laboratory of Developmental Therapeutics, ambos pertencentes ao National CancerInstitute, nos EUA.
Para a construção desta base, foram utilizados microarrays de cDNA na busca de1Molécula de DNA produzida a partir de um mRNA e, portanto, sem íntrons [29].2A hibridização de ácidos nucléicos baseia-se na capacidade destas moléculas, quando em cadeias
simples, poderem associar com seqüências complementares formando cadeias duplas mais estáveis.
6
Figura 2.1: Esquema de microarray de cDNA [1]
expressões gênicas de aproximadamente 8.000 genes distintos. Estes genes, oriundos de61 linhagens celulares, foram classi�cados em 9 (nove) classes de câncer: (1) mama, (2)sistema nervoso central, (3) cólon, (4) leucemia, (5) melanoma, (6) pulmão, (7) ovário,(8) renal e (9) células reprodutivas. Os números entre parênteses referem-se ao númeroutilizado para representar cada classe na base de dados. O número de ocorrências de cadaclasse é dado a seguir: mama (7), sistema nervoso central (6), cólom (7), leucemia (6),melanoma (8), pulmão (9), ovário (6), renal (8) e células reprodutivas (4), totalizando 61amostras. Dentre os 8.000 genes, 3700 foram previamente caracterizados em proteínashumanas, 1900 advindos de genes homólogos de outros organismos e os 2400 restantesforam identi�cados somente por EST's 3 (expressed sequences tags).
No trabalho de Ooi e Tan [3] foi realizado um pré-processamento, no qual foramexcluídos genes que estavam em spots inválidos, de controle e vazios, levando a 6176genes. Para cada array, a expressão gênica de cada spot foi normalizado, subtraindo amédia das razões de Cy5/Cy3 dos spots de controle e dividindo este resultado pelo desviopadrão da razão Cy5/Cy3 dos spots de controle. Finalmente, partindo dos 6176 genes pré-
3Os EST's são sequencias parciais de clones de cDNA
7
Tabela 2.1: Visão geral da base NCI60 reduzida e utilizada nos experimentos de Ooi e Tan [3]Expressão Expressão Expressão ... Expressão Expressão
Amostra Gene 1 Gene 2 Gene 3 Gene 999 Gene 1000 Classi�cação1 ...2 ...3 ...... ... ... ... ... ... ... ...60 ...61 ...
processados, Ooi e Tan chegaram a um dataset reduzido contendo 1000 genes, os quais,apresentaram os maiores valores de desvio padrão na base NCI60. Estes genes foramindexados de 1 a 1000.
A Tabela 2.1 apresenta uma visão geral da base NCI60 reduzida em [3], composta pelaexpressão de 1000 genes (colunas), medida para 61 amostras de células (linhas), sendoque cada amostra é classi�cada em uma das nove classes de câncer citadas anteriormente(última coluna). O apêndice A apresenta um fragmento desta base, com a expressão de8 genes (os 4 primeiros e os 4 últimos) nas 61 amostras.
O apêndice B apresenta outros quatro fragmentos dessa base, que foram utilizados nosexperimentos dessa dissertação. O primeiro, chamado de base B1, contém a expressãogênica de 13 dos 1000 genes da base NCI60 usados por Ooi e Tan [3]. De forma similar, asbases B2, B3 e B4 apresentam a expressão de 20, 17 e 12 genes, respectivamente, da baseNCI60. Na seção 4.1.5, será detalhada a forma como esses fragmentos foram obtidos ecomo eles foram utilizados neste trabalho.
2.3 Bioinformática
A utilização de técnicas e ferramentas de computação na resolução de problemas da Bi-ologia é chamada de Bioinformática ou Biologia Computacional. Essa área de pesquisavem se tornando cada vez mais importante [6]. A computação pode ser aplicada na reso-lução de problemas como comparação de sequências (DNA, RNA e proteínas), montagemde fragmentos, reconhecimento de genes, identi�cação e análise da expressão de genes e
8
determinação da estrutura de proteínas [5, 6, 28].O emprego de métodos computacionais na Biologia iniciou-se na década de 80, quando
biólogos experimentais, em conjunto com cientistas da computação, físicos e matemáti-cos, começaram a aplicar esses métodos na modelagem de sistemas biológicos [28]. Nasegunda metade de década de 90, com o surgimento dos seqüenciadores automáticos deDNA, houve uma explosão na quantidade de seqüências a serem armazenadas, exigindorecursos computacionais cada vez mais e�cientes. Além do armazenamento ocorria, para-lelamente, a necessidade da análise desses dados, o que tornava indispensável a utilizaçãode plataformas computacionais e�cientes para a interpretação dos resultados obtidos. As-sim, a Bioinformática surgiu para tentar dar signi�cado a essa enorme quantidade dedados [35]. Durante esse período, ferramentas computacionais foram desenvolvidas paraanálise dos dados, utilizando algoritmos convencionais da Ciência da Computação [28].
Devido à grande quantidade e a complexidade da informação, as ferramentas basea-das na computação convencional têm se mostrado limitadas na abordagem de problemasbiológicos complexos. Isto vem ocorrendo, entre outras razões, devido à ausência de umateoria fundamental em nível molecular. Outra razão para essa di�culdade é a ine�ciênciadas ferramentas convencionais em lidar com grandes quantidades de dados [28]. Técni-cas de Inteligência Arti�cial (IA) [36], tais como, Algoritmos Genéticos, Redes NeuraisArti�ciais, dentre outros, são assim cada vez mais empregadas para tratar problemas emBiologia Molecular, por sua capacidade de aprender automaticamente a partir de grandesvolumes de dados e produzir hipóteses úteis [6]. Um dos principais exemplos de aplicaçãode técnicas de bioinformática reside na análise de dados de expressão gênica.
2.4 Análise de Expressão Gênica
Devido ao avanço das tecnologias utilizadas na obtenção de dados de expressão gênica,o volume desses dados vem aumentando exponencialmente. Assim, uma das áreas maisproeminentes da Bioinformática nos dias atuais, reside na aplicação de técnicas compu-tacionais para a análise dos dados gerados em experimentos de microarray. Diferentestécnicas de Inteligência Arti�cial foram aplicados na análise de dados de expressão gê-
9
nica, tais como: Redes Neurais Arti�ciais em [7, 8], Support Vector Machines em [10, 9]e Algoritmos Genéticos em [3, 11, 12, 13, 14, 15].
Um exemplo de aplicação de diferentes técnicas de bioinformática na análise de dadosde expressão gênica é a diversidade de trabalhos envolvendo a base NCI60 [20], desde asua publicação em 2000, descrevendo os experimentos de microarray.
Dudoit e colegas (2002) utilizaram a base NCI60 para a comparação de performanceentre diferentes métodos de classi�cação [21]. Os métodos avaliados incluem os classi�ca-dores baseados no vizinho mais próximo (nearest-neighbor), análise de discriminante linear(linear discriminant) e árvores de decisão. Neste trabalho, das 9 classes existentes na baseNCI60 foram utilizadas 8, não inserindo na análise a classe 9 (células reprodutivas). Fo-ram obtidos conjuntos preditores formados por 30 genes. Os resultados encontrados paraestes conjuntos foram validados utilizando 1/3 das amostras (21), isto é, os classi�cado-res foram treinados utilizando 2/3 de todas as amostras da base (40). Os três ambientesforam executados 200 vezes e os resultados apresentam a média do número de erros encon-trados nestas 200 execuções. Para o método que utilizou análise de discriminante linearforam encontrados 9 erros em 21 amostras, isto é, ele classi�cou corretamente 12 amos-tras (57,14%). No método baseado em árvores de decisão, foram encontrados 10 erros em21 amostras, totalizando 52,38% de acertos e os classi�cadores baseados no vizinho maispróximo erraram 8 amostras em 21 possíveis, totalizando 61,9% de acerto.
Deb e Reddy (2003) buscaram identi�car pequenos conjuntos de genes a partir deamostras de câncer que possuem duas ou mais classes [12]. Na busca destes conjuntos,o método NSGA-II (Nondominated Sorting Genetic Algorithm II) foi aplicado na otimi-zação de classi�cadores baseados no método WN/OVA (weigthed voting/one-versus-allbinary pair-wise). Neste trabalho, a base NCI60, composta por 61 amostras, foi divididaem dois conjuntos, treinamento, contendo 41 amostras, e teste, contendo 20 amostras.Foram encontrados conjuntos formados por 12 genes que obtiveram 92,68% de acuráciaem treinamento e 90% em teste.
Ooi e Tan (2003) também identi�caram conjutos de genes preditivos a partir da baseNCI60, utilizando para isso um AG e um classi�cador MLHD [3]. Na busca deste conjunto,os pesquisadores partiram de um fragmento da NCI60 formada por 61 amostras de 1000
10
genes. Estas bases foram divididas em dois conjuntos, treinamento e teste, tendo 2/3 e1/3 das 61 amostras, respectivamente. Neste trabalho foi obtido um conjunto preditivocom 13 genes com taxa de erro de 14,63% (6 erros em treinamento) no método leave-one-out cross validation (LOOCV) e 5% (1 erro em teste) utilizando um conjunto deteste independente. Uma outra análise foi feita neste trabalho retirando-se da funçãode avaliação a segunda taxa de erro. Para este ambiente, foi encontrado um conjuntopreditivo com 12 genes com taxa de erro de 9,76% (4 erros em treinamento) no métodocross validation e 20% (4 erros em teste) utilizando um conjunto de teste independente.
Liu e colaboradores (2005) [13], utilizaram algoritmos genéticos (AG) combinado asupport vector machines (SVM) na busca de pequenos conjuntos de genes que fossemclassi�cadores con�áveis em bases multiclasses. O AG foi usado como seletor de genese a SVM na categorização das classes analisadas. Foi utilizado o método leave-one-out cross-validations (LOOCV) na validação dos resultados, obtendo 88,52% de acertos,considerando a base completa (61 amostras), com um conjunto preditor composto por 40genes para a base NCI60.
Em [22], Umpai e Aitken (2005) encontraram conjuntos de genes preditores utilizadosna classi�cação da base NCI60. Antes de executar a classi�cação, foi feita uma seleção degenes utilizando o software RankGene [37], onde foram selecionados os top 100 genes. Oambiente utilizado na busca destes conjuntos é formado por um AG padrão combinadoa um classi�cador k nearest neighbour (KNN) [38]. Devido ao baixo número de amostrasda base NCI60, os autores não consideraram adequado dividí-la em treinamento e teste.A avaliação deste conjunto preditivo foi feita utilizando LOOCV aplicado à base inteira.O melhor resultado encontrado para a base NCI60 foi 76,23% de acertos e um conjuntopreditor de 30 genes.
No trabalho de Uriarte e Andrés (2006) [23], buscou-se a construção de pequenosconjuntos preditores de genes e�cazes na classi�cação multiclasse. Para tal, eles buscaramidenti�car conjuntos com o menor número de genes possível e bons níveis de predição.Neste trabalho foi investigado o uso de algoritmos de random forest [39] na classi�caçãode dados multiclasse advindos de experimentos de microarray. Este método é formadopor conjuntos de árvores de decisão [40, 41, 42], que segundo os autores, possuem um
11
bom poder de predição em dados com ruído. Neste trabalho, a base NCI60 foi divididaem dois conjuntos chamados de treinamento e teste. As taxas de erros obtidas utilizandoo método .632+ bootstrap [43] foi de 25,2%. Esse valor foi comparado com o obtido poroutros métodos [44, 38, 42, 45, 46], também utilizando o método de avaliação bootstrap,nos quais resultados similares foram obtidos.
No trabalho de Lin e seus colaboradores (2006) [24] foi utilizado um algoritmo genéticocombinado com uma função discriminante silhouete statistics [47] (GASS) para seleçãogênica e reconhecimento de padrões. Este AG é utilizado na identi�cação de um conjuntode características correlatas e então evolui-se este conjunto utilizando silhouette statisticscom distâncias métricas distintas para �ltrar as características chaves para a classi�cação.Na pré-seleção dos genes que seriam analisados, usou-se o método BSS/WSS [21] pararankear os genes que são fortemente correlacionados à uma determinada classe e que nãoestão correlacionados às outras analisadas. Bons resultados foram encontrados. Para abase NCI60 foram obtidos 87,8% de acertos em treinamento e 85% em teste.
12
Capítulo 3
Algoritmos Genéticos (AGs)
3.1 Visão Geral do Método
Constantemente, o homem tem se servido das características e princípios existentes nanatureza para a criação de máquinas, métodos e técnicas. Alguns exemplos típicos destainspiração foram as seguintes invenções: aviões baseados nas características de pássaros,submarinos com sistemas de imersão semelhantes ao dos peixes, sonares baseados nosmorcegos, dentre vários outros [48]. Em meados do século XIX, surgiu um dos mais im-portantes princípios no campo da evolução da vida, a Teoria da Evolução de Darwin, quedefende a idéia de que na natureza, os seres vivos com as melhores características tendema sobreviver frente aos demais. Baseada nesta teoria, a medicina e suas ciências a�nsbuscam mapear toda a informação genética humana, relacionando deste modo, cada genede cada cromossomo às características que eles representam nos indivíduos: hereditárias,físicas e funcionais [48]. Busca-se assim, elucidar quais genes e características promovema disparidade entre os indíviduos. A ciência da computação inspirou-se também nestesprincípios para a resolução de outros problemas. Surgiu então, a técnica de inteligênciaarti�cial conhecida por Algoritmo Genético [49, 50, 51], que teve seu marco inicial notrabalho de John Holland, na década de 60 [52].
Algoritmos Genéticos são métodos computacionais de busca baseados nos mecanismosda evolução natural e na genética, simulando a teoria da seleção natural de Darwin [50].
Os AGs fazem parte da Computação Evolutiva, área da Inteligência Arti�cial pro-
13
veniente da interseção entre a Biologia Evolutiva e a Ciência da Computação, sendoconstituída de procedimentos de busca e otimização, em que o espaço de busca das solu-ções de um problema é explorado a partir de uma amostragem aleatória de seus pontos,utilizando um mecanismo inspirado na evolução biológica. Estes pontos sofrem operações,análogas às operações genéticas, de forma a guiar a busca para regiões mais promissorasdesse espaço de soluções. A Figura 3.1 ilustra a relação entre essas três áreas.
Figura 3.1: Computação Evolutiva: interseção entre a Inteligência Arti�cial e a Biologia Evolutiva
AGs são métodos computacionais de busca, baseados nos mecanismos da evoluçãonatural e na genética natural. Eles combinam a sobrevivência do melhor adaptado dentreestruturas formadas por sequências de bits, com uma troca de informação aleatória eestruturada para formar um algoritmo computacional com algum faro inovador da buscahumana. Apesar de não serem determinísticos, os Algoritmos Genéticos não são umasimples caminhada aleatória. Eles exploram e�cientemente informações históricas paraespecular novos pontos de busca com um aumento esperado de performance [50].
O AG é um algoritmo que manipula, em paralelo, um conjunto de indivíduos (cha-mado de população), tipicamente constituído por cadeias de símbolos de tamanho �xo,que representam os cromossomos. A cada indivíduo é associada uma avaliação. O AGtransforma a população corrente em uma nova população usando operações de reproduçãoe sobrevivência, segundo critérios baseados em uma determinada função de avaliação [53].
Em AGs, uma população de possíveis soluções para o problema em questão evoluide acordo com operadores probabilísticos concebidos a partir de metáforas biológicas, demodo que haja uma tendência de que, na média, os indivíduos representem soluções cadavez melhores à medida que o processo evolutivo continua [54]. O ciclo básico de execuçãode um AG é ilustrado na Figura 3.2 [55].
14
Figura 3.2: Ciclo de Execução Básico de um AG
Como é possível perceber na Figura 3.2, os AGs manipulam uma população de in-díviduos, sendo que cada indivíduo na população representa uma possível solução paraum dado problema. A cada indivíduo é associado um valor de adaptabilidade, chamadode aptidão. A tarefa do AG é procurar uma solução ótima para o problema ou umasolução que satisfaça um determinado critério de qualidade. A cada iteração do AGuma nova geração de indivíduos é criada, usando os princípios Darwianos de reproduçãoe sobrevivência dos mais aptos, através da aplicação de operações genéticas tais comorecombinação (crossover) e mutação [48].
Vários aspectos do projeto devem ser cuidadosamente analisados e especi�cados paraque se possa trabalhar com AGs e�cientemente. Dentre esses aspectos podemos citarcomo principais: [50]:
1. Representação do indivíduo (ou codi�cação do cromossomo).
2. De�nição de uma estratégica para a geração da população inicial.
3. De�nição da função de avaliação ou aptidão (�tness function).
15
4. Especi�cação dos operadores genéticos:
• Operadores de seleção de indivíduos que serão utilizados na reprodução (pais);
• Operadores de cruzamento ou crossover;
• Operadores de mutação;
• Operadores de reinserção da população ao �nal de cada geração.
5. De�nição de um critério de parada.
6. Especi�cação dos parâmetros genéticos:
• Tamanho da população (Tp);
• Taxa de crossover (Tc);
• Taxa de mutação (Tm);
• Número de gerações (Nger).
Nas seções a seguir, detalharemos alguns desses aspectos.
3.1.1 Representação do Indivíduo e Geração da População Indi-vidual
Os AGs manipulam simultaneamente um conjunto de soluções chamado de população.Cada elemento desse conjunto de soluções, ou cada ponto no espaço de busca, é deno-minado indivíduo ou cromossomo. Cada indivíduo representa uma possível solução doproblema que se deseja resolver. Um indivíduo é normalmente representado por umacadeia de símbolos, podendo esta cadeia ser estática ou dinâmica. As cadeias estáticaspodem ser representadas por um vetor (ou por um conjunto de vetores), cujos elementospodem ser binários, inteiros ou reais. As cadeias dinâmicas são geralmente representadaspor vetores dinâmicos ou árvores. As cadeias dinâmicas podem, ao longo da execução doAG, diminuir ou aumentar de tamanho. O mesmo não ocorre com as cadeias estáticas,onde o tamanho é �xado no início da execução do AG.
16
Os AGs iniciam a busca da melhor solução a partir de um conjunto inicial de soluções.Na maioria das aplicações, a geração da população inicial é feita de forma aleatória.Entretanto, em problemas de difícil convergência, a geração da população pode ser feitade forma tendenciosa, utilizando-se algum conhecimento prévio do problema nesta escolha.
3.1.2 Função de Avaliação ou Aptidão (FA)
A Aptidão refere-se ao grau de contribuição de uma determinada solução candidata para aconvergência do AG na busca da melhor solução dentro do espaço de busca. Para mensuraresta grandeza utiliza-se uma Função de Avaliação ou Aptidão (Fitness Function), cujoobjetivo é estabelecer uma medida de qualidade para cada indivíduo da população. Porisso, a de�nição dessa função decorre diretamente da modelagem do problema onde sedeseja utilizar o AG.
Segundo estimativas, o cálculo da função de avaliação consome a maior parte do tempode processamento de um AG, podendo chegar a até 95% deste tempo de processamento[56]. Devido a este fato, a de�nição da função de avaliação torna-se um fator crítico e umdos pontos mais importantes no projeto dos AGs.
3.1.3 Operadores Genéticos
O princípio básico dos operadores genéticos é transformar a população (conjunto de so-luções candidatas) através de sucessivas gerações, realizando a busca pela melhor soluçãoaté que seja alcançado um resultado satisfatório. Os operadores genéticos são necessáriospara que a população se diversi�que mas que também mantenha as boas características deadaptação adquiridas pelas gerações anteriores. Os principais operadores genéticos são:seleção dos pais para a reprodução, cruzamento ou recombinação (crossover), mutação ereinserção da população. A seleção seleciona quais serão os pais que passarão seu materialgenético para a próxima geração. O cruzamento ou crossover cria novos indivíduos quepossuem em sua carga genética genes vindos dos pais selecionados. A mutação alteraum indivíduo para produzir uma nova solução, um pouco diferente de outra já existentena população. A reinserção seleciona quais indivíduos, entre pais e �lhos, farão parte da
17
próxima geração.
Seleção dos Pais
De acordo com a teoria de Darwin, o princípio da seleção natural privilegia os indivíduosmais aptos e com maior longevidade e, portanto, com maior probabilidade de reprodução.Indivíduos com mais descendentes têm mais chance de perpetuarem seus códigos genéti-cos nas próximas gerações. A maioria dos métodos de seleção de pais são projetados paraescolher preferencialmente indivíduos com maiores valores de aptidão, embora não exclu-sivamente, a �m de manter a diversidade da população. Com base na teoria Darwiniana,foram construídos vários métodos de seleção, dentre os quais podemos citar: trunca-mento (Truncation Selection), ranking (Rank Based Fitness Assigment), roleta (RouleteWheel Selection), amostragem estocástica (Stochastic Universal Sampling), torneio sim-ples (Simple Tournament) e torneio estocástico (Stochastic Tournament). Detalharemosos métodos conhecidos por roleta e torneio estocástico por serem os métodos investigadosneste trabalho.
O método de seleção de pais mais clássico, proposto no trabalho pioneiro de Holland[52], é conhecido por método da roleta, onde os indivíduos de uma geração são escolhidospara fazer parte da próxima geração, através de um sorteio de roleta. Neste método,cada indivíduo da população é representado na roleta proporcionalmente ao seu índicede aptidão. Assim, aos indivíduos com alta aptidão é dada uma porção maior da roleta,enquanto aos de aptidão mais baixa é dada uma porção relativamente menor. Finalmente,a roleta é girada um determinado número de vezes, dependendo do número de pais queserão selecionados para o crossover. Os indivíduos selecionados pela roleta fornecemmaterial genético para a construção de novos indivíduos, chamados �lhos. A Figura3.3 apresenta um exemplo de construção da roleta para seleção dos pais, indicando adistribuição das aptidões relativas para uma população �ctícia de 4 indivíduos. A aptidãodo indíviduo 1 é igual a 3 e representa 18,75% da soma de todas as aptidões da população.A aptidão do indivíduo 2 é igual a 7 (43,75%) e as aptidões dos indivíduos 3 e 4 iguais a 2(12,5%) e 4 (25%), respectivamente. Assim, estes percentuais de�nem as probabilidadesde cada indivíduo da população ser sorteado para a formacão dos pais para o crossover.
18
Por exemplo, ao sortearmos um pai para realizar o crossover, qualquer um dos quatroindivíduos pode ser sorteado, mas o indivíduo 2, que é o melhor da população, tem umaprobabilidade acima de 40% de ser sorteado. Por outro lado, o indivíduo 3, que é o pior,tem uma probabilidade de sorteio abaixo de 15%.
Figura 3.3: Roleta
No método de seleção torneio estocástico [50], n indivíduos que irão participar dotorneio são selecionados utilizando uma roleta, elaborada da mesma forma que a explicadaanteriormente. A esse número n damos o nome de tour. Para que se possa montar umtorneio estocástico com tour de tamanho 3 (três), por exemplo, teremos que rodar aroleta três vezes, e o vencedor do torneio é aquele indivíduo que tiver a maior aptidãoentre os três competidores. Por exemplo, suponha a mesma população de 4 indivíduoscujas avaliações são retratadas na roleta da Figura 3.3. A Figura 3.4 ilustra 2 torneiosentre os quatro indivíduos. No primeiro torneio, a roleta foi girada 3 vezes e ocorre adisputa entre os indivíduos 1, 2 e 3. Ao �nal, temos a vitória do indivíduo 2 por possuirmaior valor de aptidão (igual a 7). No segundo torneio, concorrem os indivíduos 1 e 4sendo que o indivíduo 1 foi sorteado duas vezes. Nesse caso, o indivíduo 4 é o vencedorcom uma avaliação de 4.
Figura 3.4: Torneio Estocástico de tamanho 3, empregando a roleta da Figura 3.3
Comparando-se os dois métodos, é possível perceber que o torneio estocástico é bem
19
mais seletivo do que a roleta. Embora todos os indivíduos possam ser sorteados, comopode ser observado no exemplo da população na Figura 3.3, a probabilidade do indivíduo3 (o pior da população) ser sorteado é bem menor no torneio estocástico. Na roleta, bastaum único sorteio com probabilidade de 12,5% (2 casas em 16 possíveis) para que ele sejasorteado. No torneio estocástico, a única forma do indivíduo 3 ser vencedor é se a roletafor girada 3 vezes e nas três ele for sorteado. Caso contrário, qualquer outro indivíduosorteado será o vencedor em relação ao 3. Assim, a probabilidade do indivíduo 3 sersorteado por torneio estocástico cai de 12,5% para 0,195%.
Cruzamento ou Crossover
Os indivíduos sorteados pelo método de seleção dos pais são recombinados através dooperador genético crossover. O operador de crossover é considerado a característica fun-damental dos AGs [57], simulando a reprodução sexuada na natureza.
Este operador gera novas soluções (�lhos) a partir de soluções escolhidas da lista desoluções já existentes (pais). O operador de crossover possui diferentes variações, muitasdelas especí�cas a um determinado problema. Alguns exemplos de métodos de crossoversão: o crossover simples, o crossover múltiplo e o crossover uniforme.
No crossover simples, ocorre o sorteio de um único ponto de corte no cromossomo.Dois �lhos são gerados, cada um formado com uma parte do material genético de cadaprogenitor. O primeiro �lho repete os genes do cromossomo do primeiro pai até o pontode crossover. A partir deste ponto, ele repete os genes do segundo pai. O segundo �lhorepete os genes do segundo pai até o ponto de crossover e a partir deste ponto, ele repeteos genes do primeiro pai. A Figura 3.5 ilustra como é feita a troca de carga genética emindivíduos binários, através do crossover simples.
O crossover múltiplo segue a mesma idéia do crossover simples. A diferença está nonúmero de pontos de crossover sorteados. Enquanto que no crossover simples há apenasum sorteio, no crossover múltiplo há ao menos dois sorteios. A Figura 3.6 ilustra a trocade carga genética com dois pontos de crossover.
O crossover uniforme é um tipo de crossover múltiplo levado ao extremo, onde aoinvés de serem sorteados pontos de crossover, sorteia-se uma máscara que possui o mesmo
20
Figura 3.5: Crossover Simples
Figura 3.6: Crossover Múltiplo
tamanho do cromossomo, que indica qual cromossomo pai fornecerá cada gene do primeiro�lho. O segundo �lho é gerado pelo complemento desta máscara. O crossover uniforme éexempli�cado na Figura 3.7.
Figura 3.7: Crossover Uniforme
Mutação
O operador genético de mutação é aplicado para que seja feita a manutenção da diversi-dade genética da população, alterando-se arbitrariamente um ou mais genes do cromos-
21
somo. Dessa forma, a mutação fornece meios para a introdução de novos indivíduos napopulação assegurando que existe a possibilidade de se chegar a qualquer ponto do es-paço de busca. Além disso, ele pode contornar o problema de ótimos locais, alterandolevemente a direção da busca.
A operação de mutação muda aleatoriamente a descendência criada pelo crossover.Este operador é aplicado aos indivíduos com uma probabilidade dada pela taxa de mutaçãoTm, fornecida como parâmetro de entrada do AG. Esta taxa de mutação pode ser dadapor indivíduo ou por gene.
Os tipos de mutação são diretamente in�uenciados pela estrutura do indivíduo. Ostipos mais comuns de mutações são: mutação binária, mutação real e permutação.
A mutação binária é aplicada a cromossomos binários. Neste operador troca-se um oumais bits do cromossomo, modi�cando-o(s) pelo seu complemento binário. A Figura 3.8ilustra este operador.
Figura 3.8: Mutação Binária
Amutação real altera o valor original contido no gene através do sorteio de um pequenovalor de incremento ou decremento. Após este sorteio, este valor é incrementado oudecrementado ao valor original. A Figura 3.9 ilustra este tipo de mutação. Neste exemplofoi sorteado um decremento de 0,7.
Figura 3.9: Mutação Real
Na permutação, ocorre a troca de lugar entre dois genes ou mais genes. A Figura 3.10
22
ilustra esta operação.
Figura 3.10: Mutação Permutação
Reinserção
O operador genético de reinserção é responsável pela seleção dos indivíduos que farãoparte da população de pais para a próxima geração. Os principais métodos de reinserçãosão: reinserção pura, reinserção uniforme, elitismo e melhores pais e �lhos.
No método de reinserção pura, ocorre a substituição de toda a população antiga pelanova população gerada (�lhos). Na reinserção uniforme, a seleção dos indivíduos é feitautilizando-se algum método de sorteio, como a roleta e o torneio estocástico, aplicado àunião da população de pais e �lhos. No método melhores pais e �lhos, todos os pais e�lhos são colocados numa mesma população e os Tp melhores indivíduos são selecionadospara a próxima geração. A escolha destes Tp melhores indivíduos é feita exclusivamentebaseada nas suas aptidões. O operador de elitismo garante que os n (fornecido comoparâmetro de entrada do AG) melhores indivíduos encontrados na geração são passadospara a nova população, de forma que as melhores soluções possam sobreviver às sucessivasgerações.
3.1.4 Critério de Parada e Parâmetros Genéticos
Dependendo das características de cada projeto, os critérios de parada adotados podemvariar. Eles podem estar correlacionados a um determinado número de gerações, se o AGencontrou ou não a solução ótima (isso se a mesma for conhecida), perda de diversidade
23
das soluções ou pode estar correlacionda à convergência nas últimas k gerações, isto é,quando não ocorre melhoria na aptidão média e máxima.
Os parâmetros genéticos in�uenciam diretamente no comportamento dos AGs. Devidoa este fato, devemos estabelecê-los conforme as necessidades do problema em questão edos recursos disponíveis. Os principais parâmetros genéticos que devemos ajustar são:tamanho da população, taxa de crossover, taxa de mutação e o número de gerações.
O tamanho da população afeta diretamente o desempenho global e a e�ciência dosAGs. Com uma população pequena o desempenho pode cair, pois deste modo, a popula-ção fornece uma pequena cobertura do espaço de busca do problema. Por outro lado, umagrande população fornece uma cobertura representativa do domínio do problema, além deprevenir convergências prematuras para soluções locais ao invés de globais. No entanto,para se trabalhar com grandes populações, são necessários maiores recursos computacio-nais ou que o AG trabalhe por um período de tempo muito maior.
A taxa de crossover representa o número de pais presentes na população atual que serãoselecionados para a geração dos indivíduos que irão compor uma nova população. Quantomaior for esta taxa, mais rapidamente novos indivíduos são introduzidos na população,mas também maior é o custo computacional.
A taxa de mutação representa a probabilidade de cada gene do indivíduo ter o seu valoralterado por outro valor válido. A taxa de mutação deve ser o su�ciente para assegurara diversidade dos cromossomos na população. Uma taxa de mutação baixa previne queuma dada população �que estagnada em um valor, além de possibilitar que se chegue aqualquer ponto do espaço de busca. Por outro lado, com uma taxa muito alta, a busca setorna essencialmente aleatória.
O número de gerações corresponde ao número de iterações completas que o AG deveráexecutar. O número de gerações deve ser analisado cuidadosamente para que se tenha ummelhor aproveitamento das execuções.
24
3.2 Variações do AG Padrão
O modelo de AG discutido na seção 3.1 é conhecido por AG Padrão. Esse modelo éfortemente baseado no modelo original de Holland [52] e foi extensamente difundido einvestigado nas décadas de 80 e 90. Recentemente, novos modelos surgiram incorporandocaracterísticas que melhor se adaptavam a algumas classes de problemas. Podemos citarcomo exemplos desses novos modelos os AGs Coevolutivos [58] e os AGs Multi-Objetivos[59]. O apêndice C apresenta uma visão geral dos AGs Multi-Objetivos.
3.3 Aplicações de Algoritmos Genéticos em Data Mining
Data Mining é um conjunto de técnicas e ferramentas aplicado para a descoberta doconhecimento em bases de dados. A tarefa de classi�cação é uma das várias estudadasem data mining. Em essência, o problema consiste em atribuir valores para os registrospertencentes a um pequeno conjunto de classes, e assim, descobrir algum relacionamentoentre estes atributos. Cada registro é composto de um conjunto de atributos preditivose um atributo objetivo [60, 61]. Um algoritmo de data mining é aplicado ao conjunto detreinamento, contrapondo-os a uma classe conhecida, na busca de algumas relações entreos atributos preditivos e o atributo objetivo. Estes relacionamentos são então usados parapredizer a classe (o valor do atributo objetivo) de amostras cuja classe é desconhecida [19].
O conhecimento descoberto pode ser representado na forma de regras de classi�caçãodo tipo IF-THEN. Este tipo de regra se destaca devido ao seu alto nível de entendimentoe pela representação do conhecimento simbólico, contribuindo para compreensibilidadedas informações descobertas. As regras descobertas podem ser construídas de acordo comvários critérios, tais como: grau de con�ança da predição, taxa de acerto da classi�caçãopara amostras de classes desconhecidas, compreensibilidade, dentre outros [19].
Como exemplo de aplicação de AGs em data mining, podemos citar o trabalho deFidelis e colaboradores [19], no qual um modelo de AG foi elaborado para a obtenção deregras de classi�cação em bases de dados clínicos. Esse AG foi implementado através doGALOPPS 3.2 [62], ferramenta esta de domínio público que incorpora várias caracterís-ticas propostas pelos AGs. Deste modelo, várias características são importantes elucidar,
25
tais como: codi�cação do indivíduo, operadores genéticos e função de avaliação.O indivíduo é composto por n genes e cada gene é dividido em três partes, peso,
operador e valor. Cada gene corresponde a uma condição da parte IF da regra, e oindivíduo corresponde à toda parte conseqüente da regra. A parte ENTÃO é omitida noindivíduo. A cada execução do AG, todas as regras são evoluídas para uma mesma parteconseqüente. Assim, por exemplo, se o atributo objetivo possui 5 valores C1, C2, C3, C4
e C5, o AG deve ser executado pelo menos 5 vezes: a primeira execução para minerar asregras com conseqüente atributo-objetivo = C1, a segunda para atributo objetivo = C2 eassim sucessivamente.
Os operadores genéticos de seleção, crossover e reinserção aplicados em [19] foramos tradicionais: torneio estocástico, crossover ponto-simples e elitismo respectivamente.Foram desenvolvidos três operadores de mutação, especí�cos para os campos de peso,operador e valor.
A função de avaliação avalia a qualidade de cada regra ou indivíduo. Foi utilizado nestetrabalho a função de avaliação empregada em [63], combinando indicadores comumenteutilizados em domínios médicos, chamados de sensibilidade e especi�cidade.
Dados sobre domínios dermatológicos e de câncer de mama compunham as bases dedados, extraídas do UCI Machine Learning Repository (University of California at Irvine)que podem ser obtidas em www.ics.uci.edu. Os resultados obtidos neste trabalho foramsatisfatórios. Para a base dermatológica foram encontrados regras simples, variando deduas a seis condições na parte IF, resultando em aptidões de treinamento variando entre85,5% a 100% e aptidões de teste de 78,3% a 100%. Os resultados obtidos para a basede câncer de mama foram um pouco piores. Foram obtidas regras com três condições naparte IF com aptidões de treinamento variando de 49,7% a 56,4% e aptidões de teste de36,5% a 39,3%.
Além deste trabalho [19], vários outros foram desenvolvidos utilizando-se AGs na so-lução de tarefas de classi�cação [64, 65, 19, 66, 67, 68, 69, 12, 3, 70, 71, 72, 73, 13, 15].Os AGs também foram utilizados em outras tarefas de datamining, tais como: associação[74, 75], modelo de dependência [76], clusterização [11, 14], dentre outros.
Existem duas abordagens na aplicação de AGs, para a obtenção de regras de classi�ca-
26
ção chamadas Michigan e Pittsburgh. A abordagem Michigan, proveniente dos trabalhosde Holland e Reitman, na década de 70, na Universidade de Michigan, emprega umaforma de representação que �cou conhecida como Michigan em referência ao nome dauniversidade de origem. Nessa abordagem, a população como um todo é a solução para oproblema, isto é uma parte da solução candidata é composta por todas as regras (popula-ção) [77]. A abordagem Pittsburgh é proveniente dos trabalhos desenvolvidos por De Jonge Smith na Universidade de Pittsburgh. Esta abordagem emprega outra abordagem narepresentação dos indivíduos. Diferentemente da abordagem Michigan, nessa abordagemcada indivíduo da população representa uma solução do problema. Dessa forma, a popu-lação contém vários conjuntos de regras, sendo que cada indivíduo (conjunto de regras)representa uma solução homogênea do problema. Comparativamente com a abordagemMichigan, a abordagem Pittsburgh requer um esforço computacional menor para obtera solução, embora o cálculo da aptidão dos indivíduos seja mais complexa que na outraabordagem [78].
No nosso trabalho, utilizamos a abordagem Pittsburgh, onde cada indivíduo da popu-lação é uma regra de alto nível do tipo IF-THEN e esta regra corresponde a uma soluçãodo problema para uma determinada classe de câncer, contida na base de dados avaliada.
3.4 Aplicações de Algoritmos Genéticos na análise deExpressão Gênica
Alguns dos principais projetos desenvolvidos aplicando-se AGs na análise dos dados deexpressão gênica são revisados a seguir. Vários deles utilizaram a base de dados NCI60investigada também nessa dissertação. Essa base foi apresentada na seção 2.2 e o apêndiceA apresenta um fragmento da mesma.
No trabalho de Deb e Reddy (2003) [12], o objetivo foi estabelecer pequenos conjuntosde genes preditores que tiveram suas expressões medidas a partir de amostras de câncerque possuem duas ou mais classes. Neste trabalho, foi utilizado o AG multi-objetivosconhecido por NSGA-II (Nondominated Sorting Genetic Algorithm II) na busca de classi-�cadores. Foram estudadas bases de dados de classi�cação binária e multiclasse. Para as
27
bases de classi�cação binária, um método de classi�cação por ranking chamado weigthedvoting (WV) [79] foi empregado. Para a classi�cação multiclasse, além da abordagemWV,foi utilizado o método de classi�cação one-versus-all (OVA) binary pair-wise [79]. Cincobases de dados de domínio público foram analisadas neste trabalho: leukemia [79], di�uselarge B-cell lymphoma [80], Colon [81], GCM [82] e NCI60 [20], sendo as três primeiras declassi�cação binária e as duas últimas multiclasses. A base de dados leukemia foi divididaem dois conjuntos de dados, chamados de treinamento e teste, sendo constituídos por 38amostras e 34 amostras, respectivamente. Para esta base, foi obtido 91,4% de acerto nas72 amostras. A base de dados di�use large B-cell lymphoma é constituída de 96 amostrassendo sendo 42 amostras de lymphoma e 54 de outros câncers. As amostras desta baseforam divididas em quantidades iguais em treinamento e teste (50% para cada conjunto)obtendo conjuntos classi�cadores compostos por 8 genes que classi�caram corretamente100% das amostras em treinamento e 97,91% das amostras em teste. A base de dadosGCM é composta por 198 amostras que foram divididas em 144 amostras para treina-mento e 54 amostras para teste. Foi obtido um conjunto de 37 genes que obteve 86% deacerto em treinamento e 80% em teste. A última base de dados analisada foi a NCI60.Esta base é composta por 61 amostras divididas em 41 amostras de treinamento e 20amostras de teste, sendo encontrado 92,68% de acurácia em treinamento e 90% em teste.
O trabalho de Ooi e Tan (2003) [3] foi fundamental para o desenvolvimento dessadissertação. Os autores buscaram identi�car um conjunto de genes preditivos em relaçãoa nove classes de câncer, a partir de uma base reduzida da NCI60, contendo as expres-sões gênicas de 1000 genes. Foi utilizado como estratégia de classi�cação um classi�cadorMLHD e um AG que otimiza a entrada do MLHD. O AG determina automaticamenteos membros do grupo de genes preditivos, assim como o tamanho ótimo deste conjunto,usando para isto, um método de classi�cação de máxima verossimilhança (MLHD), utili-zado na avaliação da a�nidade destes genes selecionados. Neste trabalho foram invetigadasas bases GCM [82] e NCI60 [20]. A partir da NCI60, 4 conjuntos de genes preditores fo-ram gerados, dois deles utilizando o método AG/MLHD investigado no trabalho e doisdeles empregando técnicas de ranking para comparação. A seção 4.1.5 discute como essesconjuntos foram obtidos. Foram encontrados bons resultados para ambas as bases anali-
28
sadas. Estas bases foram divididas em dois conjuntos, treinamento e teste, tendo 2/3 e1/3 de todas as amostras de 1000 genes, respectivamente. Para a base GCM, formada por198 amostras divididas em 14 classes, foram obtidos conjuntos preditivos formados por 32genes e com taxa de erro de 20,14% no método leave-one-out cross validation (LOOCV) e14,81% utilizando um conjunto de teste independente. Para a base NCI60, composta de 61amostras divididas em 9 classes, foi obtido um conjunto preditivo com 13 genes com taxade erro de 14,63% no método LOOCV e 5% utilizando um conjunto de teste independente.É importante salientar que para se chegar nos resultados apresentados anteriormente, es-tas duas taxas de erro foram utilizadas na evolução do AG. Vários pesquisadores [13, 25]questionaram os resultados obtidos com essa aptidão. Neste cálculo, foi utilizada umainformação vinculada à base de teste (a taxa de erro de teste independente). Assim, o AGutiliza, de uma certa forma, a base de teste em sua evolução. Portanto, a base de testenão pode ser considerada "independente"(blind test). Uma segunda evolução foi realizadaem [3] sem a inserção da taxa de erro de teste, encontrando um conjunto preditivo com12 genes com taxa de erro de 9,76% no método LOOCV e 20% utilizando um conjuntode teste independente; resultado este, inferior ao encontrado com as duas taxas de erro.
Em [13], o objetivo de Liu e colaboradores (2005) foi encontrar pequenos conjuntos degenes preditivos que sejam classi�cadores con�áveis em bases multiclasse. Neste trabalho,foram combinados algoritmos genéticos, usados como seletores de genes, e support vectormachines (SVM), na categorização das classes analisadas. As SVM's necessitam estarintegradas a outros algoritmos para proverem classi�cações multiclasse, tais como one-vs.-all ou all-paired (AP). Neste trabalho foi utilizado o método AP. O AG foi utilizado paraevoluir o ambiente AP-SVM na busca dos melhores classi�cadores para as bases NCI60[20] e Brown [83]. Para a validação dos resultados encontrados neste trabalho, tambémfoi utilizado o método leave-one-out cross-validation (LOOCV). Porém, nesse caso, osautores não dividiram a base em treinamento e teste, realizando a validação LOOCV em100% das amostras. Bons resultados foram encontrados para ambas as bases. Para a baseNCI60 foi alcançado 88,52% de acertos com um conjunto preditor composto por 40 genes.Na base Brown os resultados foram um pouco piores, alcançando 81,23% de acerto.
Mitra e Banka (2006) [14] utilizaram AGs multi-objetivos na busca de clusters com
29
altos valores de relação intra-class e baixos valores de relação inter-class. Altos valoresintra-class signi�ca alta a�nidade entre os genes de um determinado cluster, enquantoque, baixos valores inter-class denota uma independência (ou especi�cidade) entre estesclusters. Neste trabalho foram utilizados bases de dados de leveduras e de humam B-celllymphoma advindos de experimentos de microarray. Estas bases podem ser encontradasno endereço http://aprep.med.harvard.edu. Também foi utilizada neste trabalho, o AGmulti-objetivos NSGA-II (Nondominated Sorting Genetic Algorithm II), que se mostrouefetivo na construção de clusters com qualidade. A Biclusterização tem sido aplicadaem análises de expresão gênica envolvendo dados cancerígenos, sendo utilizada principal-mente na identi�cação de genes correlatos, anotação de funções gênicas e classi�cação deamostras. A validação biológica dos genes selecionados nos biclusters foi realizada peloGO Consortium.
Na busca de conjuntos de genes preditivos e seus respectivos coe�cientes de correlaçãoao câncer de mama [84], Wahde e Szallassi [15], utilizaram uma pequena variação doalgoritmo genético padrão na evolução de classi�cadores simples. Neste trabalho, há acriação de uma lista de elite dos genes (top genes) construída utilizando-se uma versão deranking muito parecida com o método threshold number of misclasi�cation score (TNoM)[85]. Após construída esta lista, o AG é utilizado na evolução de classi�cadores do tipolinear, single-threshold, que selecionam os genes dentre a elite. A base de dados utilizadaera composta por 97 amostras de 5.277 genes com apenas duas classes, divididos em 78amostras para treinamento e 19 amostras para teste. Nesta classi�cação binária, foramformados conjuntos de 7 genes que obtiveram bons resultados de classi�cação. Nas basesdestinadas ao treinamento e teste, foram obtidas regras com 97,4% e 89,5% de acertos,respectivamente.
Em todos os trabalhos citados anteriormente, os AGs foram empregados com o objetivode ajustar algum outro modelo de classi�cador. Por exemplo, em [3], o AG selecionao conjunto de genes que deve ser utilizado como entrada de um classi�cador MLHD.Em [13], os AGs são utilizados para otimizar as SVMs, que são os classi�cadores defato. Entretanto, todos esses classi�cadores são do tipo "caixa-preta"e não explicam oconhecimento utilizado na classi�cação. Poucos trabalhos foram encontrados nos quais os
30
AGs são empregados para encontrar regras de classi�cação de alto nível do tipo IF-THEN.Esses trabalhos são revisados a seguir.
Hvidsten e colaboradores (2003) [16] utilizaram uma abordagem de aprendizagem su-pervisionada na predição de processos biológicos advindos de experimentos de microarray,buscando características ou per�s de expressão que possam ser discriminantes na formaçãode regras de decisão. Foi utilizado o sistema Rosetta [86], ambiente este, utilizado paradata mining e knowledge discovery. Este ambiente emprega um AG padrão na construçãoe adaptação dos modelos preditivos [87]. Cada regra IF-THEN identi�ca um conjunto mí-nimo de características discriminantes de uma determinada classe de doença. O conjuntode regras de todas as classes analisadas constituem um classi�cador que pode ser aplicadoem novas amostras de genes. Na avaliação destes classi�cadores é utilizado uma curvachamada receiver operating characteristics (ROC), contrapondo sensibilidade e especi�-cidade. A base utilizada neste trabalho foi extraída do The Gene Ontology Consortium2000, sendo dividida em dois conjuntos, um de treinamento e um de teste, divididos em27 classes. Os classi�cadores evoluídos no conjunto de treinamento foram avaliados emteste utilizando 50-fold cross validation e obtiveram, em média, no melhor resultado, 65%de acertos.
Em 2005, Viterbo e colaboradores [17] investigaram a performance de classi�cadoresbaseados em regras fuzzy em cinco bases de dados distintas. O objetivo dos autores eraa geração de regras pequenas e simples, conseguida através de 2 tipos de algoritmos. Umalgoritmo para fazer a categorização dos valores contínuos dos níveis de expressão, e umsegundo algoritmo, responsável pela descoberta das regras. Estes algoritmos combinamdiscretização fuzzy, responsável pela discretização de valores contínuos em valores taiscomo: baixo, médio e alto ou benigno e maligno, e operadores fuzzy responsáveis pelageração das regras. O ambiente é composto principalmente por quatro partes, pré-seleçãodos genes, apredizado fuzzy, construção das regras e �ltragem destas regras. Para cadagene selecionado, ocorre a discretização do seu nível de expressão em um dos três valorespossíveis (baixo, médio ou alto). Após feita a discretização de todos os genes selecionados,este conjunto de dados é utilizado na construção das regras. O último passo consiste emretirar regras redundantes. Como citado no trabalho [16], na �ltragem das regras foi
31
utilizado o ambiente Rosetta [86] por ser simples e e�ciente. Assim, este conjunto �nalde regras pode ser utilizado para determinar a classe de qualquer novo ou desconhecidoelemento. Foram utilizadas cinco bases de dados, quatro delas encontradas em [88, 89,79, 82] e a base NCBI-NLM 2004 (http://ncbi.nlm.nih.gov/geo), sendo pré-selecionados200 genes de cada base de dados, divididos em treinamento e teste. Neste trabalho foiutilizado a mesma forma de avaliação de [16], a curva ROC, alcançando 99,81% de acertosem treinamento e 96,62% em teste de média para todas as 5 bases, utilizando na validaçãodos resultados obtidos em teste um 5 × 2 cross-validation test proposto por [90].
Ho e seus colaboradores (2006) [18], construiram classi�cadores interpretáveis baseadosem regras IF-THEN fuzzy precisas e compactas formadas por um pequeno número de genesrelevantes para dados advindos de análises de microarray. Neste trabalho foi construídoum classi�cador, chamado de iGEC, que busca otimizar três objetivos: precisão máximade classi�cação, número mínimo de regras e número mínimo de genes utilizados. Umdos módulos deste ambiente é uma variação do AG encontrado em [91]. Este método,chamado de IGA, é utlizado para resolver e�cientemente o ajuste do AG. Este ambientefoi aplicado em oito bases de dados. Os dados extraídos de [92, 93] contêm níveis deexpressão gênica de tumores cerebrais, agrupados em 5 e 4 classes, respectivamente. Osdados encontrados em [94] possuem informações sobre di�use large b-cell lymphomas andfollicular lymphoma, agrupados em duas classes. Em [79, 95] foram obtidos níveis deexpressão de leucemia, agrupados em 3 classes, em [88] de pulmão agrupados em 5 classes,[89] de tumores de próstata, agrupados em 2 classes, e em [8] de small, round blue celltumors of childhood agrupados em 4 classes. O ambiente conseguiu uma precisão médiade classi�cação de 87,9%, com média de 3,9 regras para cada base, e cada regra formadapor 5 genes em média. Para validação destes resultados, foi utilizado uma validaçãocruzada com 10-dobras (10-fold cross validation). Este ambiente se mostrou mais efetivona classi�cação do que os classi�cadores baseados em regras fuzzy existentes [17] e tambéma outros classi�cadores não baseados em regras, considerando todos os três objetivos.
Em nenhum dos trabalhos citados anteriormente [3, 17, 18], que �zeram a busca deregras de classi�cação de alto nível (IF-THEN), foi utilizada a base NCI60, investigadana presente dissertação. Segundo Xu (2007), é muito difícil propôr regras ou critérios
32
na determinação de um conjunto de genes que seja discriminantes no diagnóstico dedoenças, especialmente quando as bases de dados estudadas possuem um elevado númerode classes, tais como a complexa NCI60 [25]. A base NCI60 é conisderada um desa�o paraos algoritmos de classi�cação por suas características peculiares: um número relativamentealto de classes (9) para um número relativamente baixo de amostras (61), resultando emnúmero baixo de amostras por classe, variando de 4 a 9 amostras por classe.
33
Capítulo 4
Ambiente Evolutivo
O ambiente evolutivo implementado neste trabalho foi baseado, principalmente, no traba-lho de Fidelis e colaboradores [19] e no trabalho de Ooi e Tan [3]. Em relação ao trabalhode Fidelis e colaboradores, adaptamos o modelo do AG existente neste trabalho para mi-nerarmos dados advindos de expressão gênica, além de alterarmos os operadores genéticosde crossover e de reinserção. Em relação ao trabalho de Ooi e Tan, ao invés de forne-cermos um conjunto de genes preditores, que funciona como um classi�cador caixa-preta,construimos regras de classi�cação do tipo IF-THEN, representando o conhecimento emalto nível.
4.1 Descrição do Ambiente Evolutivo
O modelo do AG empregado no nosso ambiente evolutivo foi adaptado a partir do modeloproposto em [19] por se tratar de um ambiente voltado à mineração de regras do tipo IF-THEN. O AG foi elaborado em [19] com o objetivo de obter regras de classi�cação em basesde dados clínicos de pacientes e suas principais características foram revisadas na seção3.3. As bases de dados onde o ambiente de Fidelis e colaboradores foram aplicadas eramformadas por registros que se caracterizavam por dados do paciente, no caso, a idade epresença da doença em histórico familiar e por dados relacionados a sintomas do paciente.As características que se relacionavam aos sintomas, que eram a maioria, foram todasdiscretizadas em: 0 - ausente, 1 - ocorrência leve, 2 - ocorrência moderada e 3 - ocorrência
34
severa. O ambiente evolutivo proposto nesta dissertação foi implementado na linguagemDelphi R© e precisou ser adaptado para trabalhar com bases de dados de expressão gênica,onde os registros apresentam os níveis de expressão de dezenas ou centenas de genes,que são valores contínuos e com precisão variável (números reais). Para se chegar noambiente evolutivo utilizado neste trabalho, partimos dos parâmetros propostos em [19]e fomos, experimentalmente, ajustando-os para a nossa aplicação. Vários aspectos foramabordados, tais como: melhores métodos de seleção e reinserção, tamanho da população,número de gerações, peso, tamanho do tour e precisão (número de casas após a vírgula).A seguir, as principais características de nosso modelo de AG são detalhadas: codi�caçãodo indivíduo, operadores genéticos, função de avaliação e parâmetros genéticos.
Antes de prosseguirmos, estabeleceremos a seguinte convenção: tanto no domínio doproblema abordado, expressão gênica, como na descrição da técnica utilizada, algoritmogenético (AG), a palavra gene é utilizada, podendo surgir dúvidas em relação ao termo.Assim, convencionaremos que gene (em itálico) se refere ao gene do indivíduo do AG egene (sem itálico) se refere ao gene humano.
4.1.1 Codi�cação do Indivíduo
O indivíduo ou cromossomo do AG proposto é composto por n genes, onde n correspondeao número de genes encontrados na base de expressão gênica avaliada. Cada i-ésimaposição do indivíduo é subdividida em quatro campos: I (índice), P (peso), O (operador)e V (valor), como ilustrado na Figura 4.1. Cada gene corresponde a um termo da condiçãona parte IF da regra e o indivíduo (cromossomo) representa todo o antecedente da regra.
Figura 4.1: Cromossomo ou Indivíduo
O campo I corresponde ao índice do gene correspondente na base de expressão gênicautilizada. O campo P é uma variável do tipo inteira e o seu valor está compreendido entreos valores 0 (zero) e 10 (dez). É importante dizer que este campo P é o responsável pela
35
inserção ou exclusão de um termo na condição. Caso este valor seja menor do que umvalor limite para este gene (e o gene correspondente na base) não fará parte da regra; casocontrário, o mesmo fará. Neste trabalho, na maioria das execuções do AG, foi utilizadocomo limite o valor 8 (oito). Isso signi�ca que uma condição referente ao Genei só estarápresente efetivamente na regra se o valor do campo Pi for 8, 9 ou 10. Para todos os outrosvalores (0 a 7), a condição não estará presente na regra, independentemente dos valoresdos outros campos Oi e Vi.
Figura 4.2: Exemplo de cromossomo
Por exemplo, consideremos o indivíduo dado pela Figura 4.2, onde todos os outrosgenes omitidos têm o campo P < 7 e o indivíduo representa uma regra que pode ter nomáximo 20 condições. Ou seja, o AG é aplicado sobre uma base com níveis de expressãogênica de 20 genes. O antecedente da regra equivalente a esse indivíduo é dado por:
SE (Gene_11 ≥ 0,4) E (Gene_289 < 0,5)
Ou seja, apenas o gene 2 e o gene 15, que se referem às expressões dos genes de índice11 e 289 da base, respectivamente, estão presentes no antecedente. O conseqüente não érepresentado explicitamente na regra. Ao contrário, a cada execução o AG busca regrasde classi�cação para uma classe pré-especi�cada. Assim, suponha que o indivíduo daFigura 4.2 represente uma regra de uma execução do AG especi�cada para a classe 2.Dessa forma, a regra resultante é dada por:
SE (Gene_11 ≥ 0,4) E (Gene_289 < 0,5) ENTÃO Classe = 2
O campo O pode variar entre os operadores < (menor) e ≥ (maior ou igual). O campode V é uma variável do tipo ponto �utuante que pode variar entre o menor e o maior valorencontrados na base de expressão gênica avaliada e a precisão (número de casas decimais)utilizada nesse campo é um parâmetro de execução do AG, que se mostrou bastanteimportante para a convergência de nossos experimentos.
36
4.1.2 Função de Avaliação ou Aptidão (FA) (Fitness Function)
A Aptidão (ou �tness) refere-se ao grau de contribuição de uma determinada soluçãocandidata para a convergência do AG, na pesquisa da melhor solução dentro do espaçode busca, avaliando a qualidade de cada regra (indivíduo). A FA aplicada foi baseada em[63]. Para o entendimento da FA aqui aplicada, alguns conceitos precisam ser elucida-dos. Quando aplicamos uma regra na classi�cação sobre os dados de uma amostra (umregistro da base de expressão gênica), quatro diferentes resultados podem ser observados,dependendo da classe predita pela regra e a da verdadeira classe da amostra. São eles:
• True Positive (tp) - A regra classi�ca a amostra em uma determinada classe e aamostra de fato pertence a essa classe;
• False Positive (fp) - A regra classi�ca a amostra em uma determinada classe, mas amesma não pertence a essa classe;
• True Negative (tn) - A regra classi�ca a amostra como não pertencente a umadeterminada classe e a amostra é de fato de outra classe;
• False Negative (fn) - A regra classi�ca a amostra como não pertencente a umadeterminada classe, mas a amostra pertence à classe em questão;
A FA utiliza dois indicadores comumente utilizados em domínios médicos, chamadosde sensibilidade (Se) e especi�cidade (Sp). Se e Sp são de�nidos abaixo:
Se =tp
(tp + fn)(4.1)
Sp =tn
(tn + fp)(4.2)
A FA utilizada é de�nida como o produto destes dois indicadores, Se e Sp, como segueabaixo:
Aptidao = Se× Sp (4.3)
37
O objetivo do AG é maximizar ao mesmo tempo Se e Sp e, conseqüentemente, o valorde Aptidão, utilizando-se para isso, as equações 4.1, 4.2 e 4.3. Em cada execução, oAG trabalha com um problema de classi�cação de duas classes, isto é, quando regras deuma dada classe C estão sendo mineradas, todas as outras classes são agrupadas em umasegunda classe (not C).
4.1.3 Operadores Genéticos
Na seleção dos pais para o crossover, na maioria das execuções do AG, aplicamos o métododo torneio estocástico utilizando tour de tamanho 3 (três). Este método foi revisado naseção 3.1.3. Sobre os pais selecionados, aplicamos crossover múltiplo com dois pontosde corte, gerando dois novos �lhos com taxa de crossover de 100%. Nestes dois �lhosgerados, aplicamos o operador de mutação. Os operadores de mutação utilizados nestetrabalho variam com o tipo do gene avaliado e foram aplicados a uma taxa de mutaçãopor gene no valor de 30%.
Para o campo P do gene o novo valor é dado sorteando o incremento ou o decrementode uma unidade do valor corrente. A Figura 4.3 ilustra uma mutação aplicada ao campoP onde foi sorteado o incremento de uma unidade ao valor original. Para o campo Odo gene ocorre a troca do operador corrente: se o operador for <, troca-se por ≥, evice-versa. A Figura 4.4 demonstra como é feita a mutação no campo O trocando-se ooperador ≥ por <. A mutação do campo V do gene é feita sorteando-se um incrementoou um decremento de 0,1 no valor corrente. Na Figura 4.5 foi sorteado o decremento de0,1, que foi aplicado ao valor original deste campo. Na composição dos indivíduos queirão participar da próxima geração do AG, selecionamos os melhores pais e �lhos.
Figura 4.3: Mutação aplicada no campo P
38
Figura 4.4: Mutação aplicada no campo O
Figura 4.5: Mutação aplicada no campo V
4.1.4 Parâmetros Genéticos
Neste trabalho, após os ajustes que serão descritos na seção 4.2, utilizamos uma populaçãoformada por 400 indivíduos, taxa de crossover de 100%, taxa de mutação de 30% porgene e executamos o AG por 100 gerações. Embora essa taxa de mutação não seja usualem trabalhos que envolvem AGs, esse valor foi originalmente utilizado por Fidelis em[19]. Após avaliações experimentais, constatamos a importância de se usar essa taxarelativamente alta para uma boa convergência do AG.
4.1.5 Bases de Dados investigadas
A base de dados NCI60 descrita na seção 2.2 e apresentada no Apêndice A, foi obtida apartir de experimentos de microarray aplicados sobre 61 amostras de células cancerígenasresultando nos níveis de expressão de mais de 8.000 genes. Essa base foi obtida nosexperimentos descritos na referência [20]. Posteriormente, Ooi e Tan [3] aplicaram algunsprocedimentos simples de �ltragem, excluindo os genes mais ruidosos, chegando a uma
39
base com a expressão de 1.000 genes. A partir dessa base, diferentes técnicas foramaplicadas para se chegar a conjuntos reduzidos de genes que fossem bons preditores dasnove classes de câncer.
Nessa dissertação, utilizamos quatro conjuntos reduzidos de genes obtidos em [3].Segundo Lin (2006) [24], a preleção gênica é necessária quando se trabalha com dadosadvindos de experimentos de microarray [24] e diversos outros trabalhos realizam algumtipo de pré-processamento antes de realizar o data mining propriamente dito [21, 12, 3,13, 22, 23, 24].
O primeiro conjunto, chamado de G1, foi minerado em [3] utilizando-se um AG e umclassi�cador de máxima verossimilhança (MLHD) [96]. O conjunto AG/MLHD determinaautomaticamente quais genes farão parte do conjunto preditor. O melhor conjunto encon-trado é formado por 13 genes preditivos. Estes genes são identi�cados pela sua posiçãodentro da base de 1000 genes que foi minerada. São eles: 11, 50, 97, 127, 194, 242, 289,348, 366, 828, 839, 863 e 881.
O segundo conjunto, chamado de G2, foi minerado utilizando ummétodo B/W (between-group/within-group) empregado em [21] onde os genes são rankeados baseados na somados quadrados das relações entre between-groups e within-groups. Esta técnica foi propostaanteriormente em [21]. Após calcular o valor desta relação para cada gene, os mesmosforam rankeados decrescentemente e selecionados os top 20 genes. São eles: 2, 17, 18, 19,28, 75, 97, 141, 224, 231, 235, 246, 280, 292, 302, 409, 499, 526, 637 e 843.
O terceiro conjunto, chamado de G3, foi minerado utilizando-se uma adaptação dométodo descrito em [79], chamada S2N/OVA (signal-to-noise/one-vs.-all), podendo assim,ser aplicado em cenários multiclasse. Na formação deste conjunto, para cada classe, umconjunto de genes positivamente correlacionados (altos valores positivos para S2N) e outro,formado por genes negativamente correlacionados (pequenos valores negativos para S2N)são formados. Para cada classe foi selecionado o gene que possui o maior valor de relaçãoS2N positivo e o gene que possui o menor valor de relação negativa para S2N, totalizando18 genes. São eles: 2, 2, 41, 63, 97, 229, 379, 456, 475, 485, 525, 531, 637, 721, 786,870, 890 e 929. Uma observação importante a ser colocada com relação ao conjunto B3
refere-se à presença em duplicidade do gene 2. Em nossos experimentos retiramos todas
40
as duplicidades existentes; devido a este fato, o conjunto G3 é composto por 17 e não por18 genes. São eles: 2, 41, 63, 97, 229, 379, 456, 475, 485, 525, 531, 637, 721, 786, 870, 890e 929.
O método empregado na construção do quarto conjunto, chamado de G4, é uma va-riação do método empregado na construção do conjunto G1. Foi empregado um AG emconjunto com um classi�cador MLHD [3], utilizando uma função de aptidão simpli�cada,ignorando uma das duas taxas de erro que compõem a função de aptidão original, utili-zada na obtenção do conjunto G1. O conjunto G4 é composto por 12 genes: 11, 46, 177,289, 306, 336, 380, 499, 661, 783, 865 e 950.
O objetivo da obtenção dos conjuntos G2 e G3 em [3], gerados a partir de técnicasde ranking, foi de compará-los com os genes preditivos obtidos pela técnica AG/MLHD.Uma das conclusões do trabalho é que os conjuntos reduzidos por técnicas diferentes nãose sobreporam na maioria dos genes. Entretanto alguns genes aparecem em dois ou maisconjuntos. São eles:
• 2 (G2 e G3)
• 11 (G1 e G4)
• 97 (G1, G2 e G3)
• 289 (G1 e G4)
• 499 (G2 e G4)
• 637 (G2 e G3)
A partir da composição dos quatro grupos G1, G2, G3 e G4, excluindo-se os genesduplicados, chegou-se a um total de 55 genes distintos, cujos níveis de expressão estãorepresentados nas Tabelas 2, 3, 4, 5, 6 e 7 do apêndice B. Realizamos experimen-tos de mineração utilizando-se sub-conjuntos obtidos a partir desses 55 genes, que serãodiscutidos nas seções 5.1 e 5.2.
O objetivo dessa mineração é partir de um conjunto reduzido de genes, construídosa partir de outras técnicas de data mining, e chegar em regras de alto nível, do tipo IF-THEN que não só sejam associadas a cada classe individualmente, reduzindo o problema
41
a poucos genes por classe, mas também associando o nível de expressão gênica a cadagene que compõe a regra.
4.2 Ajuste do Ambiente Evolutivo
O ajuste do ambiente foi realizado em três etapas e partiu da con�guração dos parâmetrosutilizados em [19]. Na primeira etapa foram ajustados os operadores genéticos. A segundaetapa contemplou o ajuste dos parâmetros genéticos e a terceira analisou a precisão docampo O do gene.
1a etapa: Escolha dos métodos de seleção e reinserção.A primeira etapa consistiu em avaliar os métodos de seleção de pais para o crossover
e reinserção. Dentre os métodos de seleção existentes, analisamos o métodos conhecidoscomo roleta e torneio estocástico, que foram revisados na seção 3.1.3. Os métodos dereinserção avaliados foram o elitismo e os melhores pais e �lhos (steady-state), que tambémforam revisados na seção 3.1.3.
Para essa avaliação, os valores do tamanho da população e do número de geraçõesforam �xados em Tp = 50 e Nger = 50. Avaliamos as seguintes combinações: roleta +elitismo, roleta + melhores pais e �lhos, torneio estocástico + elitismo e torneio estocástico+ melhores pais e �lhos. Como principal conclusão dessa etapa, temos que os melhoresresultados foram encontrados com a combinação torneio estocástico + melhores pais e�lhos.
2a etapa: Ajuste dos parâmetros genéticosA segunda etapa consistiu em ajustar os parâmetros genéticos do AG. Para este ajuste,
foram avaliados os valores 100, 200 e 400 para o tamanho da população (Tp); 50, 100 e200 para o número de gerações (Nger); e 2, 3 e 4 para o tamanho do tour do torneioestocástico.
Fixamos o método de seleção (torneio estocástico) e o método de reinserção (melhorespais e �lhos), ajustados na etapa anterior, e avaliamos os resultados encontrados com acombinação de três valores para Tp (100, 200 e 400), três valores para Nger (50, 100 e 200)e três valores para o tour do método torneio estocástico (2, 3 e 4). Os melhores resultados
42
foram encontrados com Tp = 400, Nger = 100 e tour = 3. É importante salientar quemesmo ao aumentar o Nger para 200 gerações, não houve uma melhoria signi�cativa nosvalores encontrados que justi�casse a opção por este valor, visto que, a escolha de Nger
= 200 levaria a um aumento signi�cativo no tempo de processamento do AG. Assim,utilizamos Nger = 100;
3a etapa: Precisão do campo Operador do geneNa terceira etapa foi utilizado os valores 1, 2 e 3 para o número de casas decimais após
a vírgula para o campo O do cromossomo.Fixando o método de seleção (torneio estocástico), o método de reinserção (melhores
pais e �lhos), Tp = 400, Nger = 100 e tour = 3, �zemos experimentos utilizando 1, 2 e3 casas após a vírgula no campo O. A convergência para boas regras de classi�cação foisigni�cativamente superior utilizando apenas 1 casa após a vírgula. Após esclarecimentosjunto aos especialistas, que con�rmaram ser essa precisão ideal para a interpretação dasregras obtidas, resolvemos manter a precisão em apenas uma casa decimal.
Após todas as etapas de ajuste, chegamos a um ambiente cuja especi�cação foi utili-zada em todos os experimentos descritos nas próximas seções.
• Método de seleção: torneio estocástico
• Método de reinserção: melhores pais e �lhos
• Tp = 400
• Nger = 100
• tour = 3
• Número de casas após a vírgula: 1
43
Capítulo 5
Resultados
Neste capítulo, serão apresentados os resultados dos principais experimentos conduzidosna mineração de bases de dados extraídas a partir da base NCI60 [20].
Inicialmente, o ambiente evolutivo construído para a mineração das regras foi aplicadosobre quatro bases de dados criadas a partir dos quatro conjuntos de genes obtidos emOoi e Tan [3], citados na seção 4.1.5, chamadas nesta dissertação de B1, B2, B3 e B4. Osresultados obtidos em casa base individual foram analisados e comparados. A seção 5.1apresenta estes resultados.
Numa segunda etapa, na tentativa de obter resultados ainda melhores que os obtidosnas bases individuais, novas bases foram criadas a partir das composição (2 a 2, 3 a 3 ecompleta) das bases B1, B2, B3 e B4. Os principais resultados obtidos nesta etapa sãodiscutidos na seção 5.2.
Finalmente, a seção 5.3 faz uma análise mais detalhada dos melhores resultados obtidosnas duas etapas de experimentos. Dessa análise, dois conjuntos de regras denominadosK1 e K2 foram extraídos dentre as melhores regras. Análises comparativas entre essesconjuntos e os principais classi�cadores encontrados na literatura para a base NCI60 sãoapresentados onde é possível constatar que os resultados obtidos nessa dissertação sãobastante competitivos com os publicados por outros autores.
44
5.1 Experimentos com a mineração das bases reduzidasindividuais
Quatro bases de dados reduzidas foram criadas a partir da base de 1.000 genes disponibi-lizada por Ooi e Tan [3]. Os genes utilizados nessas 4 bases correspondem aos conjuntosreduzidos também em [3], que chamamos de G1, G2, G3 e G4, resultando nas bases B1,B2, B3 e B4.
Inicialmente, o AG foi aplicado em cada uma dessas quatro bases individualmente.Conforme mencionado na seção 2.2, a base NCI60 é composta por 61 amostras catego-rizadas em 9 classes de câncer. Portanto, o objetivo da mineração é obter regras declassi�cação para essas nove classes. A avaliação da qualidade das regras mineradas foifeita inicialmente por classe.
Na avaliação por classe, cada base composta por 61 amostras foi dividida em 3 par-tições de tamanhos semelhantes, guardando sempre a proporcionalidade entre o númerode amostras de cada classe. Duas partições foram utilizadas em treinamento e a terceirapartição, chamada de teste, foi utilizada para a avaliação do nível de generalização dasregras obtidas em treinamento. Isto é, as regras que foram evoluídas pelo AG, usando ajunção das partições 1 e 2, posteriormente foram testadas na partição 3 (12->3). O mesmoprocedimento foi realizado para as demais combinações: partições 1 e 3 em treinamentoe a partição 2 em teste (13->2) e as partições 2 e 3 em treinamento e a partição 1 emteste (23->1). Cada um desses experimentos (12->3, 13->2 e 23->1) foi composto por50 execuções para cada uma das nove classes possíveis do atributo objetivo. A avaliaçãode cada regra obtida é dada pela AptidaoTrein e AptidaoTeste (equações 4.1, 4.2 e 4.3).Como cada base é formada por 61 amostras, buscou-se manter a proporcionalidade entreas classes em cada partição. Assim, cada partição possui aproximadamente 20 amostrasda base.
A Tabela 5.1 apresenta os resultados de AptidaoTrein e AptidaoTeste das melhores regrasobtidas para a base B1, a partir de 50 execuções do AG, para cada uma das 9 classes epara cada experimento de teste (12->3, 13->2 e 23->1).
Para estabelecermos um conjunto de regras de classi�cação, as melhores regras encon-
45
Tabela 5.1: Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B1
Experimento 12->3 Experimento 13->2 Experimento 23->1Classes AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste
1 0,8 0 0,812 0 0,971 0,3172 1 1 1 1 1 13 1 0,5 1 1 1 14 1 1 1 0,938 1 0,55 1 1 1 1 1 16 1 0 1 0,667 1 0,3337 1 0 1 0,5 1 0,4768 1 0,667 1 1 1 0,959 1 0,895 1 0 1 0,857
tradas nos experimentos da base B1, independentemente do experimento de teste utilizado(12->3, 13->2 ou 23->1), foram agrupadas e são apresentadas na Tabela 5.2. Os valoresde AptidaoTrein e AptidaoTeste dessas regras também são apresentados nesta tabela.
Tabela 5.2: Melhores regras encontradas na base de dados B1
Classe Regra AptidaoTrein AptidaoTeste
1 if(127<0,6) and (289<0,1) and (348<-0,2) and (366≥-0,1) and (839<0,9) 0,971 0,3172 if(11≥0,4) and (289<-0,5) 1 13 if(50<-2,3) and (194<-1,1) and (289≥-0,3) 1 1
if(50<-2,3) and (194<-1,1) and (839≥-0,8)4 if(11<-2,3) and (50≥-2,1) and (366<-0,1) 1 1
if(50≥-2,1) and (127<-0,7) and (366<-0,1)if(50≥-2,1) and (194<-0,7) and (366<-0,1)if(50≥-2,1) and (348<0,2) and (366<-0,1)if(50≥-2,2) and (366<-0,1) and (881<-0,2)
5 if(11≥-1,5) and (97<0,1) and (348<-1,5) 1 16 if(97≥-1,4) and (242<0,3) and (828<0,1) and (839≥-0,5) and (863≥-0,3) 1 0,6677 if(97<1,4) and (194≥0,2) and (839<-0,2) 1 0,5
if(194≥0,2) and (242≥-0,1) and (839<-0,2)8 if(97≥0,7) and (127≥0,3) and (863<0,7) 1 1
if(97≥0,7) and (348<-0,8) and (863<0,7)if(97≥0,7) and (863<0,8) and (881≥-0,3)
9 if(50<-2,1) and (289<-0,3) and (839≥-1,3) 1 0,895
Para a base B1, foram encontrados ótimos resultados (100% em treinamento e emteste) para 5 das 9 classes existentes (2, 3, 4, 5 e 8). Resultados razoáveis foram encon-trados para a classe 9 (100% em treinamento e 89,5% em teste). Resultados inferiores
46
foram encontrados para as demais classes. O melhor resultado para a classe 1 foi 97,1%em treinamento e 31,7% em teste e para as classes 6 e 7 foram encontrados 100% emtreinamento e 66,7% e 50% em teste, respectivamente. Assim, obtivemos bons resultadosem 6 das 9 classes mineradas. Para algumas dessas classes (3, 4, 7 e 8), mais de umaregra foi obtida com o maior valor de aptidão.
O mesmo procedimento foi realizado utilizando-se as bases B2, B3 e B4. As tabelasdetalhadas por partição para estas bases são apresentados no apêndice D. As Tabelas 5.3,5.4 e 5.5 apresentam as melhores regras obtidas (considerando-se os 3 experimentos deteste) e os valores de aptidão associados a elas. Em relação à base B2, foram encontradosótimos resultados (100% em treinamento e em teste) para 3 das 9 classes existentes (4, 5e 8) e bons resultados para outras 4 classes (2, 3, 7 e 9). Para as demais classes, 1 e 6,não foram encontrados resultados satisfatórios. Assim, obtivemos bons resultados em 7das 9 classes mineradas.
Em relação à base B3, foram encontrados ótimos resultados (100% em treinamento eem teste) para 4 das 9 classes existentes (2, 4, 5 e 9) e bons resultados para as classes3 e 8. Para as demais classes (1, 6 e 7) não foram encontrados resultados satisfatórios.Assim, obtivemos bons resultados em 6 das 9 classes mineradas.
Para a base B4, foram encontrados ótimos resultados (100% em treinamento e emteste) para 3 das 9 classes existentes (2, 3 e 5) e bons resultados para as classes 4, 8 e9. Para as demais classes (1, 6 e 7), foram encontrados resultados insatisfatórios. Assim,obtivemos bons resultados em 6 das 9 classes mineradas.
Assim, independentemente da base utilizada na mineração, foi possível encontrar re-gras perfeitas (100% em treinamento e em teste) ou e�cazes (acima de 90% de média entreAptidaoTrein e AptidaoTeste) em 6 das 9 classes analisadas: 2, 3, 4, 5, 8 e 9. Com relaçãoà classe 7, apenas o experimento com a base B2 foi capaz de encontrar uma regra e�caz.Para as classes 1 e 6, nenhum experimento conseguiu evoluir regras com e�cácia razoável.
Uma análise conjunta desses experimentos com as bases individuais foi feita agrupando-se as melhores regras obtidas para cada classe, independentemente da base utilizada. ATabela 5.6 apresenta essas regras assim como a AptidaoTrein e AptidaoTeste, representandoassim a qualidade de cada regra separadamente. Com exceção da classe 9, em todas as
47
Tabela 5.3: Melhores regras encontradas na base de dados B2
Classe Regras AptidaoTrein AptidaoTeste
1 if(28<1,4) and (97<0,8) and (409≥-0,4) and (499<0,2) and (526≥-0,1) 0,944 0,4722 if(17≥-0,4) and (97≥0,1) and (637<0,5) 1 0,952
if(235<1) and (246≥0,8) and (302≥0,1)3 if(75≥-0,7) and (246<-0,4) 1 0,8754 if(19<-0,4) and (526<-0,9) 1 1
if(19<-0,4) and (843<-1)if(224<-2,2) and (843<-1)if(409≥-1,8) and (843<-1)
5 if(2<-2,4) and (18<0,2) and (28≥-0,3) and (97<0,1) 1 1if(2<-2,4) and (18<0,1) and (97<0,1) and (224≥-0,6)if(2<-1,5) and (18<0,8) and (97<0,2) and (246≥-0,7)if(2<-1,8) and (18≥-2,6) and (97<0,2) and(292<0,8)if(2<-2,5) and (28≥-0,3) and (97<0,1) and (292<0,5)if(2<-2,4) and (28≥-0,3) and (97<0,1) and (302<0,1)if(2<-2,4) and (97<0,1) and (224≥-0,6) and (292<0,5)if(2<-2,4) and (97<0,1) and (224≥-0,6) and (302<0,1)if(2<-2,5) and (97<0,1) and (246≥-0,7) and (292<0,5)if(2<-1,5) and (97<0,1) and (246≥-0,7) and (302<0,1)if(2<-2,4) and (97<0,2) and (292<0,5) and (409≥-0,9)if(2<-2,4) and (97<0,1) and (302<0,1) and (409≥-1)if(18<0,4) and (19<-1,5) and (28≥-0,7) and (97<0,1)if(18<0,5) and (19<-1,8) and (97<0,1) and (224≥-0,8)if(18<0,5) and (19<-1,8) and (97<0,1) and (246≥-0,6)if(18<0,5) and (19<-2,4) and (97<0,1) and (409≥-1,2)if(19<-2,6) and (28≥-0,4) and (97<0,1) and (292<0,6)if(19<-2,6) and (28≥-0,3) and (97<0,1) and (302<0,1)if(19<-2,4) and (28≥-0,4) and (97<0,1) and (637≥-0,3)if(19<-2,5) and (97<0,1) and (224≥-0,6) and 292<0,5)if(19<-2,5) and (97<0,1) and (224≥-0,6) and (302<0,1)if(19<-2,5) and (97<0,1) and (224≥-0,6) and (637≥-0,5)if(19<-2,6) and (97<0,1) and (246≥-0,7) and (292<0,5)if(19<-2,6) and (97<0,1) and (246≥-0,5) and (302<0,1)if(19<-2,6) and (97<0,2) and (246≥-0,7) and (637≥-0,7)if(19<-2,4) and (97<0,1) and (302<0,1) and (409≥-0,9)if19<-2,4) and (97<0,1) and (409≥-1,2) and (637≥-0,9)
6 if(17<1,8) and (28<1,1) and (235≥-0,2) and (409<2,3) and (637≥0,4) 1 0,4317 if(2≥-2,1) and (97<1,4) and (224≥-0,2) 0,971 18 if(18<1,5) and (97≥0,7) and (280≥0,1) and (409≥0,4) 1 1
if(97≥0,7) and (246<1) and (280≥0,1) and (409≥0,4)9 if(19≥-0,2) and (231<-1,4) 1 0,952
if(19≥-0,3) and (499<-1,1)if(224≥-2,2) and (231<-1)
48
Tabela 5.4: Melhores regras encontradas na base de dados B3
Classe Regras AptidaoTrein AptidaoTeste
1 if(531≥0,2) and (*70≥0) an d(929<0,2) 1 0,32 if(229≥1,1) and (456≥-0,9) 1 13 if(2≥-0,4) and (379≥0,10 and ( 475<0,1) and (485<0,1) 1 0,938
if(2≥-0,4) and (379≥0) and (475<0,1) and (929≥-1,2)if(63≥-0,3) and (97<0) and (379≥0,1) and (475≥-2,8)if(63≥-0,2) and (97<-0,2) and (379≥0,1) and (485<0)if(63≥-0,3) and (475<0,2) and 485<0,2) and (637<0,7)
4 if(63<-0,3) and 485≥0,7) 1 1if(229≥-1,6) and (485≥0,7)if(456<1,2) and (485≥0,7)if(485≥0,7) and (525≥-1,1)if(485≥0,7) and (929≥-0,3)
5 if(41≥-2,1) and (97<0,1) and (721≥1) 1 1if(97<0,1) and (379<0,1) and (721≥1)if(97<0,1) and (475≥-0,5) and (721≥1)
6 if(2<-1,3) and (379≥0,2) and (456≥-1,2) and (637≥0,4) 1 0,6677 if(63≥0,9) and (97≥-1) 1 0,472
if(63≥0,9) and (379<0,7)if(63≥0,9) and (475≥-0,2)if(63≥0,9) and (890<-0,6)
8 if(63<-0,4) and (97≥0,7) and (870<0,4) 1 0,8759 if(2≥-0,5) and (485≥-1,5) and (786<-0,6) 1 1
classes para as quais foi possível encontrar regras perfeitas (100% em treinamento e teste),também foi possível encontrar mais de uma regra.
Uma outra forma de análise foi feita sobre este conjunto de regras, na qual foi elaboradoum classi�cador composto de uma regra de cada classe, para posteriormente, veri�car-mos sua taxa de acertos na base completa (61 amostras). Para realizar esta análise, foinecessário selecionar apenas uma regra de cada classe, sendo que o critério adotado paraa seleção destas regras foi pegar a primeira ocorrência para cada classe. De posse das 9regras, aplicamos estas regras no conjunto de dados compreendido por 1000 genes e 61amostras da base NCI60 [20]. O conjunto de regras do classi�cador avaliado é apresentadona Tabela 5.7.
Denominamos esse procedimento de análise AECD (Acerto | Erro Grave | Confusão| Desconhecimento). Este método consiste em analisar um registro da base de cada vez,
49
Tabela 5.5: Melhores regras encontradas na base de dados B4
Classe Regras AptidaoTrein AptidaoTeste
1 if(46<1,8) and (289<0,5) and (306<0,3) and (783<0,1) and (865≥-1,2) 0,917 0,4442 if(11≥0,4) and (289<-0,5) 1 13 if(46<-0,7) and (289≥-0,5) and (306≥-0,6) and (336<-0,3) 1 14 if(11<-2,7) and (289≥-0,9) and (865≥0,1) 1 0,952
if(11<-2,8) and 856≥0,1) and (950≥0)if(289≥-0,9) and (499<-0,8) and (865≥0,1)if(499<-0,8) and (865≥0,1) and (950≥0)
5 if(11≥-1,5) and (289≥-1,3) and (380<-0,7) 1 1if(177≥-1,4) and (289≥-1,3) and (380<-0,7)if(289≥-1,3) and (306<-1) and (380<-0,7)if(289≥-1,3) and (336≥-0,7) and (380<-0,7)if(289≥-1,5) and (380<-0,7) and (661≥-1,2)if(289≥-1,3) and (380<-0,7) and (865≥-0,9)if(289≥-1,3) and (380<-0,7) and (950≥0)
6 if(306≥-0,9) and (380<0,2) and (661≥-0,4) 1 0,3147 if(46≥-0,7) and (306≥-0,5) and (499<0,3) 1 0,58 if(46≥0,8) and (865<-0,4) 1 0,9389 if(11≥-3,6) and (177<-2) 0,974 1
if(177<-2,2) and (783≥-0,5)
correspondente a uma amostra de célula, e este registro pode ser interpretado como acerto,erro grave, confusão ou um desconhecimento, dependendo do resultado de classi�cação.Um acerto ocorre quando somente a regra que possui a mesma classe do registro é dispa-rada. Por exemplo, se o registro avaliado é da classe 1 somente a regra da classe 1 disparana classi�cação deste registro. Um erro grave ocorre quando a regra correspondente à suaclasse não é disparada na classi�cação do registro e uma outra regra de classe diferenteé disparada. Por exemplo, o registro é da classe 1 e na classi�cação a regra da classe 1não dispara enquanto que a regra da classe 2 dispara. Uma confusão acontece quandoo registro é classi�cado pela regra da sua classe e por uma outra regra de outra classe.Por exemplo, o registro é da classe 1 e as regras da classe 1 e da classe 2 disparam. Umdesconhecimento ocorre quando nenhuma regra é disparada na classi�cação do registro,nem da mesma classe e nem de outras classes.
O resultado da análise AECD utilizando as regras da Tabela 5.7 como um classi�cadorda base NCI60 retornou um percentual de acerto de de 90,16% nos 61 registros da base,
50
Tabela 5.6: Melhores regras encontradas para o conjunto de bases B1, B2, B3 e B4
Classes Regras AptidaoTrein AptidaoTeste
1 if(28<1,4) and (97<0,8) and (409≥-0,4) and (499<0,2) and (526≥-0,1) 0,944 0,4722 if(11≥0,4) and (289<-0,5) 1 1
if(229≥1,1) and (456≥-0,9)3 if(50<-2,3) and (194<-1,1) and (289≥-0,3) 1 1
if(50<-2,3) and (194<-1,1) and (839≥-0,8)4 if(19<-0,4) and (526<-0,9) 1 1
if(19<-0,4) and (843<-1)if(63<-0,3) and (485≥0,7)if(224<-2,2) and (843<-1)if(229≥-1,6) and (485≥0,7)if(409≥-1,8) and (843<-1)if(456<1,2) and (485≥0,7)if(485≥0,7) and (525≥-1,1)if(485≥0,7) and (929≥-0,3)
5 if(11≥-1,5) and (97<0,1) and (348<-1,5) 1 1if(11≥-1,5) and (289≥-1,3) and 380<-0,7)if(41≥-2,1) and (97<0,1) and (721≥1)if(97<0,1) and (379<0,1) and (721≥1)if(97<0,1) and (475≥-0,5) and (721≥1)if(177≥-1,4) and (289≥-1,3) and (380<0,7)if(289≥-1,3) and (306<-1) and (380<-0,7)if(289≥-1,3) and (336≥-0,7) and (380<-0,7)if(289≥-1,5) and (380<-0,7) and (661≥-1,2)if(289≥-1,3) and (380<-0,7) and (865≥-0,9)if(289≥-1,3) and 380<-0,7) and (950≥0)
6 if(2<-1,3) and (379≥0,2) and (456≥-1,2) and (637≥0,4) 1 0,6677 if(2≥-2,1) and (97<1,4) and (224≥-0,2) 0,971 18 if(97≥0,7) and (127≥0,3) and (863<0,7) 1 1
if(97≥0,7) and (348<-0,8) and (863<0,7)if(97≥0,7) and (863<0,8) and (881≥-0,3)
9 if(2≥-0,5) and (485≥-1,5) and (786<-0,6) 1 1
sendo 55 acertos, nenhum erro grave, 4 confusões e 2 desconhecimentos.Os resultados obtidos nas análises efetuadas nas bases individuais geraram dois artigos
que foram submetidos e aprovados em dois congressos, SBAI 2007 (Simpósio Brasileirode Automação Inteligente) e BIBE 2007 (IEEE 7th International Symposium on Bioin-formatics and Bioengeneering), sendo que no primeiro o artigo foi aceito completo e nosegundo como resumo expandido. O artigo completo [97] é apresentado no apêndice F.
51
Tabela 5.7: Conjunto de regras do classi�cadorClasses Regras AptidaoTrein AptidaoTeste
1 if(28<1,4) and (97<0,8) and (409≥-0,4) and (499<0,2) and (526≥-0,1) 0,944 0,4722 if(11≥0,4) and (289<-0,5) 1 13 if(50<-2,3) and (194<-1,1) and (289≥-0,3) 1 14 if(19<-0,4) and (526<-0,9) 1 15 if(11≥-1,5) and (97<0,1) and (348<-1,5) 1 16 if(2<-1,3) and (379≥0,2) and (456≥-1,2) and (637≥0,4) 1 0,6677 if(2≥-2,1) and (97<1,4) and (224≥-0,2) 0,971 18 if(97≥0,7) and (127≥0,3) and (863<0,7) 1 19 if(2≥-0,5) and (485≥-1,5) and (786<-0,6) 1 1
5.2 Experimentos com a mineração das bases compos-tas
Conforme apresentado na seção anterior (5.1), a mineração de regras realizada pelo AGsobre as bases individuais retornou resultados bons para 7 das 9 classes envolvidas na baseNCI60. Entretanto, para as classes 1 e 6 o resultado foi insatisfatório. Cabe ressaltar queessa mesma di�culdade nas classes 1 e 6 da base NCI60 foi observada por Dudoit e cola-boradores em [21]. Assim, partimos para uma nova etapa de experimentos, na qual basescom um número maior de genes foram utilizadas durante a fase de treinamento realizadapelo AG. Esperávamos ser possível melhorar os resultados para essas duas classes, semdecair a e�cácia das outras sete. Assim, foram realizadas diferentes composições das qua-tro bases B1 (13 genes), B2 (20 genes), B3 (17 genes) e B4 (12 genes), associadas 2 a 2, 3a 3 e 4 a 4, excluindo-se os genes repetidos, gerando outras 11 bases. São elas: B1B2 (32genes), B1B3 (29 genes), B1B4 (23 genes), B2B3 (34 genes), B2B4 (31 genes), B3B4 (29genes), B1B2B3 (46 genes), B1B2B4 (41 genes), B1B3B4 (39 genes), B2B3B4 (45 genes) eB1B2B3B4 (55 genes). Nos experimentos envolvendo as 11 bases compostas, foi utilizadoo mesmo procedimento empregado no caso das bases individuais: a base completa foidividida em 3 partições contendo aproximadamente 1/3 das amostras. Depois o AG foievoluído em três experimentos diferentes: 12->3, 13->2 e 23->1. Os resultados completosdesses experimentos são apresentados por partição no apêndice D. As melhores regras ob-tidas em cada experimento são apresentadas no apêndice E. Na Tabela 5.8, apresentamos
52
os valores de aptidão de treinamento e de teste para as melhores regras evoluídas emcada experimento, independentemente do experimento de teste (partições) em que forammineradas. Na tabela também reproduzimos os valores das melhores aptidões obtidas nasbases individuais B1, B2, B3 e B4, para facilitar a comparação com os novos experimentos.
Tabela 5.8: Resultados encontrados para as bases de dados individuais e para todas as composiçõesBases B1 B2 B3 B4
Classes AptT rein AptT este AptT rein AptT este AptT rein AptT este AptT rein AptT este
1 0,971 0,317 0,944 0,472 1 0,3 0,917 0,4442 1 1 1 0,952 1 1 1 13 1 1 1 0,875 1 0,938 1 14 1 1 1 1 1 1 1 0,9525 1 1 1 1 1 1 1 16 1 0,667 1 0,431 1 0,667 1 0,3147 1 0,5 0,971 1 1 0,472 1 0,58 1 1 1 1 1 0,875 1 0,9389 1 0,895 1 0,952 1 1 0,974 1
Bases B1B2 B1B3 B1B4 B2B3
Classes AptT rein AptT este AptT rein AptT este AptT rein AptT este AptT rein AptT este
1 1 0,333 1 0,533 1 0,317 0,947 0,3752 1 1 1 1 1 1 1 13 1 0,633 1 0,938 1 1 1 0,8754 1 1 1 1 1 0,5 1 15 1 1 1 1 1 1 1 16 1 0,667 1 0,627 1 0,333 0,973 0,9337 1 0,5 1 0,952 1 0,938 1 0,9448 1 1 1 1 1 0,95 1 0,959 1 0,952 1 0,952 1 1 1 1
Bases B2B4 B3B4 B1B2B3 B1B2B4
Classes AptT rein AptT este AptT rein AptT este AptT rein AptT este AptT rein AptT este
1 1 0,283 1 0,3 1 0,3 0,972 0,3892 1 1 1 1 1 1 1 13 1 0,875 1 1 1 0,938 1 0,8754 1 1 1 1 1 1 1 15 1 1 1 1 1 1 1 16 1 0,333 1 0,633 1 0,622 1 0,5337 1 0,944 1 0,944 1 0,952 1 0,9388 1 0,875 1 0,938 1 1 1 0,9389 1 1 1 0,952 1 0,952 1 0,952
Bases B1B3B4 B2B3B4 B1B2B3B4
Classes AptT rein AptT este AptT rein AptT este AptT rein AptT este
1 1 0,3 0,972 0,444 0,972 0,52 1 1 1 1 1 13 1 0,938 1 0,875 1 0,9384 1 1 1 1 1 15 1 1 1 1 1 16 1 0,333 1 0,588 1 0,5497 1 0,952 1 0,938 1 0,9528 1 0,938 1 0,938 1 0,6679 1 0,952 1 1 1 1
53
A Tabela 5.9 apresenta os resultados obtidos para cada classe analisada, em todosos experimentos. Foi considerado um resultado satisfatório se foi encontrada uma regraperfeita (100% em treinamento e teste) ou uma regra com pelo menos 90% de treinamentoe 85% de teste. O valor encontrado entre parênteses, refere-se ao número de genes presentenas bases de dados. O melhor resultado foi obtido na mineração da base composta B2B3,na qual foi obtido um resultado insatisfatório apenas para a classe 1. Em seguida, podemosdestacar os resultados das bases B2, B1B3, B2B4, B3B4, B1B2B3, B1B2B4, B1B3B4 eB2B3B4; que retornaram resultados insatisfatórios apenas para as classes 1 e 6. Quandocomparamos os resultados obtidos pelas bases individuais e os resultados obtidos pelascomposições de bases, percebemos que apenas a base B2B3 conseguiu superar os resultadosencontrados para as bases individuais, que retornaram resultados insatisfatórios em duasou três classes. Um outro ponto a ser destacado, refere-se aos resultados obtidos pelacomposição das quatro bases (B1B2B3B4) que retornou resultados inferiores aos obtidospelas bases individuais. Exceto no experimento com essa base "completa", o nosso AGse manteve robusto, não decaindo o desempenho com o aumento de genes nas bases e atésuperando os resultados obtidos nas bases individuais em algumas das bases analisadas.
Tabela 5.9: Classes que obtiveram ótimos/bons e ruins resultados para todas as basesBases Classes com resultados satisfatórios Classes com resultados insatisfatóriosB1 (13) 2, 3, 4, 5 e 9 1, 6 e 7B2 (20) 2, 3, 4, 5, 7, 8 e 9 1 e 6B3 (17) 2, 3, 4, 5, 8 e 9 1, 6 e 7B4 (12) 2, 3, 4, 5, 8 e 9 1, 6 e 7
B1B2 (32) 2, 4, 5 e 8 e 9 1, 3, 6 e 7B1B3 (29) 2, 3, 4, 5, 7, 8 e 9 1 e 6B1B4 (23) 2, 3, 5, 7, 8 e 9 1, 4 e 6B2B3 (34) 2, 3, 4, 5, 6, 7, 8 e 9 1B2B4 (31) 2, 3, 4, 5, 7, 8 e 9 1 e 6B3B4 (29) 2, 3, 4, 5, 7, 8 e 9 1 e 6
B1B2B3 (46) 2, 3, 4, 5, 7, 8 e 9 1 e 6B1B2B4 (41) 2, 3, 4, 5, 7, 8 e 9 1 e 6B1B3B4 (39) 2, 3, 4, 5, 7, 8 e 9 1 e 6B2B3B4 (45) 2, 3, 4, 5, 7, 8 e 9 1 e 6
B1B2B3B4 (55) 2, 3, 4, 5, 7 e 9 1, 6 e 8
Por outro lado, essa base contempla todos os 55 genes utilizados nos outros 14 ex-
54
perimentos. Portanto, potencialmente, a base B1B2B3B4 contém todas as informaçõesutilizadas nos outros experimentos. Assim, o AG não foi capaz de convergir para regrase�cazes. Esse fato pode sinalizar que o ajuste realizado para nosso AG começou a de-cair o desempenho com o aumento do número de genes manipulados. Outro fato quecorrobora essa observação é que algumas bases compostas por duas individuais (B1B3 eB2B3) retornaram melhores resultados do que as bases compostas por três individuais.Assim, observamos que a convergência do AG para regras e�cazes começa a decair quandoanalisamos conjuntos maiores que aproximadamente 40 genes.
A análise AECD também foi aplicada às regras mineradas a partir de cada composiçãode base. A Tabela 5.10 ilustra os resultados encontrados para todas as combinações dasbases individuais B1, B2, B3 e B4. O melhor resultado foi encontrado para as regrasmineradas a partir da base B1B2 atingindo 90,16% de acertos, ou seja, o mesmo resultadoalcançado pelo conjunto de regras das melhores regras obtidas nas bases individuais,apresentado na Tabela 5.7. O segundo melhor resultado foi obtido pelas regras mineradasa partir da base B1B4 e a partir da base B1B2B3, atingindo 86,89% de acertos.
Tabela 5.10: Análise AECD para todas as combinações de basesBase Acerto Erro Grave Confusão Desconhecimento Taxa de AcertoB1B2 55 1 1 4 90,16%B1B3 52 1 7 1 85,25%B1B4 53 0 3 5 86,89%B2B3 49 0 11 1 80,33%B2B4 50 0 7 4 81,97%B3B4 52 0 6 3 85,25%
B1B2B3 53 1 5 3 86,89%B1B2B4 49 1 10 1 80,33%B1B3B4 52 1 5 3 85,25%B2B3B4 50 0 9 2 81,97%
B1B2B3B4 47 1 10 3 77,05%
55
5.3 Análise das melhores regras e dos melhores conjun-tos
A Tabela 5.11 ilustra as melhores regras, e seus respectivos valores de aptidão, obtidasem todo o conjunto de bases, independentemente das bases utilizadas na mineração e dapartição utilizada como teste. Foi possível encontrar regras perfeitas (100% em treina-mento e em teste) ou e�cazes (acima de 90% de média entre AptidaoTrein e AptidaoTeste)em oito das nove classes analisadas: 2, 3, 4, 5, 6, 7, 8 e 9. Apenas a aptidão da melhorregra encontrada para a classe 1 foi abaixo do desejado: 76,65% em média (treinamentoe teste). Quando comparamos este resultado com o encontrado para as bases individuais,constatamos uma melhoria signi�cativa para a classe 6 e uma melhoria pouco signifcativapara a classe 1. Na classe 6, o melhor resultado encontrado, utilizando-se apenas umabase individual, foi igual a 83,35% de aptidão em média, resultado este, minerado na baseB1. Com a composição de bases, conseguimos elevar este valor para 95,3%, valor esteencontrado na base B2B3. Para a classe 1, a melhoria foi menos signi�cativa: o melhorresultado em base individual foi igual a 70,8% de média, minerada na base B2, e na basecomposta, foi igual a 76,65% em média (B1B3). Assim, com a composição das bases in-dividuais conseguimos efetivamente melhorar os valores de aptidão somente para a classe6. Entretanto, mesmo nas outras classes onde o desempenho já havia sido satisfatóriona mineração das bases individuais, foi possível encontrar um número maior de regrasperfeitas.
Tabela 5.11: Melhores regras encontradas em todas as bases analisa-das
Classes Regras AptidaoTrein AptidaoTeste
1 if(289<0,5) and (531≥0,2) and (721≥0,1) and (870≥-0,2) 1 0,533if(289<0,5) and (839<1,9) and (531≥0,2) and (721≥0,2)if(289<0,5) and (863<1) and (531≥0,2) and (870≥0)
2 if(11≥0,4) and (289<-0,5) 1 1if(11≥0,4) and (637<0,4)if(141<1,3) and (229≥1,1)if(229≥1,1) and (177<0,9)if(229≥1,1) and (289<-0,5)if(229≥1,1) and (456≥-0,9)
56
if(235<1) and (229≥1,1)if(289<-0,5) and (229≥1,1)if(637<0,4) and (11≥0,4)if(839≥0,5) and (637<0,4)
3 if(50<-2,3) and (194<-1,1) and (289≥-0,3) 1 1if(2≥-0,4) and (46<-0,7) and (289≥-0,3)if(50<-2,3) and (194<-1,1) and (839≥-0,8)if(50<-2,3) and (242<0,6) and (289≥-0,7)if(50<-2,3) and (289≥-0,4) and (306≥-0,9)
4 if(2<-0,2) and (485≥0,7) 1 1if(11<-2,8) and (485≥0,7)if(19<-0,4) and (485≥0,7)if(19<-0,4) and (526<-0,9)if(19<-0,4) and (843<-1)if(50≥-2) and (280<-0,7)if(50≥-2) and (485≥0,7)if(50≥-2) and (526<-0,8)if(50≥-2) and (843<-1)if(63<-0,3) and (485≥0,7)if(194<-0,8) and (485≥0,7)if(224<-2,2) and (380≥-0,2)if(224<-2,2) and (485≥0,7)if(224<-2,2) and (843<-1)if(224<-2,2) and (865≥0,1)if(224<-2,1) and (950≥0)if(229≥-1,6) and (485≥0,7)if(235≥-2,9) and (485≥0,7)if(235≥-3,1) and (843<-1)if(366≥-0,9) and (485≥0,7)if(366≥-0,9) and (526<-0,9)if(366≥-0,9) and (843<-1)if(409≥-1,7) and (485≥0,7)if(409≥-1,8) and (843<-1)if(456<1,2) and (485≥0,7)if(475≥-2,5) and (485≥0,5)if(485≥0,6) and (11<-2,4)if(485≥0,7) and (525≥-1,1)if(485≥0,7) and (661<-0,3)if(485≥0,7) and (783<0,4)if(485≥0,7) and (865<1,5)if(485≥0,7) and (929≥-0,3)if(526<-0,7) and (63<-0,3)if(526<-0,9) and (929≥-0,3)if(839<-0,4) and (224<-2,2)if(839<-0,5) and (485≥0,7)if(843<-1) and (63<-0,3)
57
if(843<-1) and (525≥-1,1)if(843<-1) and (783<0,4)if(843<-0,9) and (929≥-0,3)if(881<-0,2) and (485≥0,6)
5 if(2<-1,9) and (289≥-1,3) and (380<-0,7) 1 1if(2<-1,8) and (17≥-0,8) and (229<-0,8)if(11≥-1,5) and (97<0,2) and (18<0,1)if(11≥-1,5) and (97<0,1) and (46<-0,4)if(11≥-1,5) and (97<0,1) and (229<-0,7)if(11≥-1,5) and (97<0,1) and (292<0,6)if(11≥-1,5) and (97<0,1) and (302<0,1)if(11≥-1,5) and (97<0,1) and (348<-1,5)if(11≥-1,6) and (97<0,1) and (379<0,1)if(11≥-1,7) and (97<0,1) and (380<-0,6)if(11≥-1,5) and (289≥-1,3) and (380<-0,7)if(17≥-0,8) and (19<-2,6) and (229<-0,8)if(17≥-0,9) and (46<-0,3) and (306<-1)if(17≥-0,9) and (46<-0,2) and (661<0,1)if(17≥-0,8) and (229<-0,8) and (306<-1)if(17≥-0,9) and (229<-0,8) and (380<-0,6)if(17≥-0,9) and (289≥-1,3) and (380<-0,7)if(18<0,1) and (41≥-2,2) and (721≥0,5)if(18<0,2) and (97<0,1) and (11≥-1,5)if(19<-2,9) and (41≥-2,2) and (721≥0,8)if(19<-2,6) and (229<-0,7) and (890≥-0,1)if(19<-0,9) and (289≥-1,3) and (380<-0,7)if(28≥-0,7) and (97<0,1) and (380<-0,7)if(28≥-0,8) and (97<0,2) and (721≥1)if(28≥-0,5) and (289≥-1,3) and (380<-0,7)if(41≥-2) and (46<-0,4) and (380<-0,7)if(41≥-2,1) and (97<0,1) and (721≥1)if(41≥-2) and (229<-0,8) and (380<-0,7)if(41≥-2,3) and (289≥-1,4) and (380<-0,7)if(41≥-2,3) and (456<-0,5) and (380<-0,5)if(41≥-2) and (721≥0,9) and (46<-0,4)if(41≥-2) and (721≥0,9) and (380<-0,7)if(41≥-2,3) and (721≥0,9) and (783<0,1)if(97<0,4) and (11≥-1,6) and (46<-0,2)if(97<0,1) and (11≥-1,7) and (380<-0,7)if(97<0,5) and (28≥-0,6) and (721≥1)if(97<0,1) and (41≥-2) and (380<-0,7)if(97<0,1) and (41≥-2,3) and (721≥1)if(97<0,1) and (721≥1) and (306<-1)if(97<0,1) and (194≥-1,4) and (380<-0,6)if(97<0,1) and (194≥-1,3) and (721≥1)if(97<0,1) and (224≥-0,6) and (380<-0,6)
58
if(97<0,1) and (231≥-0,3) and (306<-0,8)if(97<0,1) and (242≥0,3) and (380<-0,7)if(97<0,1) and (246≥-0,4) and (380<-0,7)if(97<0,1) and (246≥-0,4) and (721≥1)if(97≥-0,7) and (289≥-1,3) and (380<-0,7)if(97<0,1) and (292<0,9) and (11≥-1,5)if(97<0,1) and (302<0,1) and (11≥-1,5)if(97<0,1) and (306<-1) and (380<-0,6)if(97<0,1) and (379<0,1) and (380<-0,7)if(97<0,1) and (379<0,1) and (721≥1)if(97<0,1) and (380<-0,6) and (950≥0)if(97<0,1) and (475≥-0,5) and (721≥1)if(97<0,1) and (637≥0,1) and (306<-1)if(97<0,2) and (721≥1) and (11≥-1,9)if(97<0,1) and (721≥1) and (870≥-0,5)if(97<0,1) and (870≥-0,9) and (380<-0,6)if(97<0,4) and (881≥-0,9) and (721≥1)if(97<0,1) and (890≥-0,8) and (380<-0,6)if(141≥-1,4) and (289≥-1,6) and (380<-0,7)if(177≥-1,4) and (289≥-1,3) and (380<-0,7)if(194≥-1,3) and (229<-0,8) and (380<-0,5)if(224≥-0,6) and (289≥-1,3) and (380<-0,7)if(229<-0,8) and (890≥-0,1) and (306<-1)if(229<-0,8) and (890≥-0,1) and (380<-0,6)if(242≥0,3) and (41≥-2) and (46<-0,3)if(242≥0,3) and (289≥-1,3) and (380<-0,7)if(242≥0,1) and (302<0,1) and (41≥-2)if(289≥-1,3) and (2<-1,1) and (380<-0,7)if(289≥-1,3) and (17≥-1,6) and (380<-0,7)if(289≥-1,3) and (19<-1) and (380<-0,7)if(289≥-1,5) and (380<-0,7) and (661≥-1,2)if(289≥-1,4) and (28≥-0,6) and (380<-0,6)if(289≥-1,3) and (177≥-1,4) and (380<-0,7)if(289≥-1,3) and (224≥-0,6) and (380<-0,7)if(289≥-1,3) and (246≥-0,4) and (380<-0,7)if(289≥-1,3) and (306<-1) and (380<-0,7)if(289≥-1,3) and (336≥-0,5) and (380<-0,7)if(289≥-1,3) and (366≥-0,6) and (380<-0,7)if(289≥-1,3) and (380<-0,7) and (865≥-0,9)if(289≥-1,3) and (380<-0,7) and (950≥0)if(289≥-1,4) and (637≥0,2) and (380<-0,6)if(289≥-1,4) and (721≥0,9) and (380<-0,6)if(289≥-1,4) and (828≥-0,8) and (380<-0,6)if(289≥-1,4) and (881≥-0,9) and (380<-0,6)if(289≥-1,5) and (890≥-0,2) and (380<-0,4)if(292<0,5) and (41≥-2) and (721≥1)
59
if(302<0,1) and (41≥-2) and (11≥-1,8)if(302<0,1) and (41≥-2) and (380<-0,4)if(302<0,1) and (41≥-2) and (721≥1)if(348<-1,2) and (17≥-0,8) and (229<-0,7)if(348<-1,5) and (41≥-2,1) and (229<0,2)if(348<-1,5) and (41≥-2) and (721≥0,8)if(475≥-0,6) and (289≥-1,3) and (380<-0,5)if(485≥-1,9) and (289≥-1,4) and (380<-0,7)if(525≥-0,9) and (289≥-1,3) and (380<-0,7)if(526≥-0,4) and (289≥-1,3) and (380<-0,7)if(531≥-0,4) and (289≥-1,4) and (380<-0,7)if(637≥0,2) and (289≥-1,3) and (380<-0,7)if(721≥1) and (289≥-1,3) and (380<-0,7)if(870≥-0,6) and (289≥-1,4) and (380<-0,7)if(881<0,9) and (41≥-2) and (721≥1)if(890≥-0,1) and (46<-0,3) and (306<-1)if(890≥-0,1) and (289≥-1,3) and (380<-0,7)
6 if(2<1) and (17<0,4) and (637≥-0,1) and (379≥-0,1) and (456≥-1,2) 0,973 0,9337 if (2≥-2,1) and (97<1,4) and (224≥-0,2) 0,971 18 if(97≥0,7) and (348<-0,8) and (863<0,7) 1 1
if(97≥0,7) and (127≥0,3) and (863<0,7)if(97≥0,7) and (863<0,8) and (63<-0,4)if(97≥0,7) and (863<0,8) and (881≥0,1)if(127≥0,3) and (348<-0,7) and (863<0,7)
9 if(18<-3,2) and (292≥-1,4) 1 1if(18<-3,1) and (19≥-0,2)if(18<-3) and (46<-0,5)if(18<-3,2) and (637≥-1,5)
Todas as regras apresentadas anteriormente foram avaliadas segundo o valor de apti-dão que elas retornaram no experimento em que foram evoluídas, tanto em treinamentoquanto em teste. Entretanto, essa avaliação é melhor estimada pelo procedimento devalidação cruzada 2:1, que é realizado através da média das melhores regras obtidas nosexperimentos com as três partições de teste distintas.
A Tabela 5.12 apresenta os melhores resultados encontrados em cada uma das trêspartições de teste analisadas. Para cada classe, apresentamos o valor da melhor aptidão,que reproduz os valores fornecidos anteriormente para as melhores regras e a aptidãomédia nas três partições. Assim, embora todas as regras da Tabela 5.11 tenham sidoapresentadas com suas aptidões reais calculadas nos experimentos em que as mesmas
60
foram evoluídas, os valores apresentados na Tabela 5.12, como aptidão média, fazem umamelhor estimativa do desempenho das mesmas. A tabela também fornece a média nasnove classes para a melhor aptidão e para a aptidão média. É importante ressaltar que, emtreinamento, os valores médios encontrados são os mesmos, tanto para a aptidão média,quanto para a melhor aptidão, mostrando que em qualquer uma das três partições osvalores de treinamento obtidos foram bem próximos. Quando avaliamos os resultadosmédios nas nove classes em teste, há uma diferença de aproximadamente de 5% entre amédia entre os melhores resultados e a aptidão média (0,9406 e 0,889, respectivamente).Isso demostra que existe uma queda na e�cácia das regras obtidas, em função da partiçãoescolhida, para algumas classes. Essa queda pode ser percebida principalmente nas classes6 e 8. Entretanto, de uma forma geral, podemos dizer que independentemente da partiçãoescolhida, o resultado médio está muito próximo ao resultado obtido na melhor partição.
Tabela 5.12: Resultado do cross validationExp. 12->3 Exp. 13->2 Exp. 23->1
Classes AptTrein/Teste AptTrein/Teste AptTrein/Teste Melhor Aptidao Aptidao Media1 0,972/0,444 0,921/0,406 1/0,533 1/0,533 0,964/0,4612 1/1 1/1 1/1 1/1 1/13 1/0,889 1/1 1/1 1/1 1/0,9634 1/1 1/1 1/1 1/1 1/15 1/1 1/1 1/1 1/1 1/16 1/0,667 0,973/0,935 1/0,633 0,973/0,935 0,991/0,7457 1/0,944 1/0,938 0,971/1 0,971/1 0,99/0,968 1/0,667 1/1 1/0,95 1/1 1/0,8729 1/1 1/1 1/1 1/1 1/1
Médias 0,9938/0,9406 0,9938/0,8990
As aptidões obtidas nas melhores regras apresentadas na Tabela 5.11, seja pela aptidãoabsoluta obtida no experimento em que as mesmas foram evoluídas, seja pela aptidãomédia nas três partições, nos fornecem avaliações da e�cácia dessas regras em relação acada classe analisada.
Entretanto, para que pudéssemos ter uma avaliação geral do conjunto de regras comoum todo, na classi�cação de todas as amostras da base NCI60, realizamos novamente aanálise AECD, onde um conjunto de 9 regras (uma para cada classe) é empregado como
61
um classi�cador caixa-preta na avaliação das 61 amostras. Essa avaliação é importante,sobretudo, para compararmos os resultados de classi�cação das regras com outros clas-si�cadores disponíveis na literatura, que não realizam uma avaliação por classe. Esseconjunto foi obtido selecionando a primeira regra de cada classe da Tabela 5.11, mas ou-tros conjuntos/classi�cadores poderiam ser elaborados com as demais regras. Aplicandoa análise AECD neste conjunto, foi obtido 86,88% de classi�cações corretas, sendo 53acertos, nenhum erro grave, 7 confusões e um desconhecimento.
Resultados melhores que os 86,88%, citados anteriormente, já haviam sido obtidosutilizando-se o conjunto classi�cador mostrado na Tabela 5.7, elaborado a partir das regrasobtidas nos experimentos com bases individuais e também pelo classi�cador construído apartir das regras mineradas da base B1B2, cujo resultado foi apresentado na Tabela 5.10.Nos dois casos, a análise AECD retornou uma taxa de 90,16% de classi�cações corretas.
Esse resultado, a princípio, nos pareceu inconsistente. Como seria possível obter umvalor mais baixo na análise AECD com o conjunto das melhores regras, se na seleçãodessas regras, todas as outras são consideradas? Após uma análise, registro a registro,dos erros de classi�cação, foi possível esclarecer a situação, conforme a explicação a seguir.
A métrica que utilizamos na avaliação das regras por classe, relaciona-se à sensibilidadee especi�cidade das regras evoluídas, e não simplesmente ao número de acertos da regra,que é a medida efetivamente utilizada na avaliação AECD. Assim, na análise simples deacertos, um erro de classi�cação por falso positivo ou por falso negativo não faz diferença.Por outro lado, na avaliação efetuada pelas equações 4.1 e 4.2, um falso negativo temum peso muito maior no valor de aptidão do que um falso positivo, pois o denominadorda sensibilidade, que contém o número de amostras da classe em questão, é tipicamentemenor que o denominador da especi�cidade, que contém o número de amostras de todasas outras classes.
Dessa forma, não necessariamente o mesmo conjunto que retorna os maiores valoresde aptidão, segundo a equação 4.3, retornarão o maior valor na análise de AECD. Poroutro lado, nos outros trabalhos que �zeram a mineração da base NCI60, a análise é feitapuramente em cima do número de acertos. Assim, realizamos novamente uma busca,considerando-se todas as melhores regras evoluídas em cada execução do AG (para todas
62
as bases e todas as partições de teste) e selecionamos um segundo conjunto de regras, queretornou a melhor análise AECD. Chamamos esse conjunto de K2 e o conjunto anterior,formado pelas melhores regras segundo a aptidão, de K1. As Tabelas 5.13 e 5.14 apre-sentam os dois conjuntos, com suas respectivas avaliações de aptidão, além dos erros declassi�cação por classe. As tabelas também apresentam os valores totais de erros paratreinamento e teste.
Tabela 5.13: Conjunto K1: regras com os maiores valores de aptidão segundo a equação 4.3Classes Regras AptTrein AptTeste ErrosTrein ErrosTeste
1 if(289< 0,5) and (531≥0,2) and 1 0,533 0 5(721≥0,1) and (870≥-0,2)
2 if(11≥0,4) and (289<-0,5) 1 1 0 03 if (49<-2,3) and (193<-1,1) and (289≥-0,3) 1 1 0 04 if (2<-0,2) and (485≥0,7) 1 1 0 05 if (2<-1,8) and (289≥-1,3) and (380<-0,7) 1 1 0 06 if (2<1) and (17<0,4) and (637≥-0,1) and 0,973 0,933 1 1
(379≥-0,1) and (456≥-1,2)7 if (97≥0,7) and (348<1,4) and (224≥-0,2) 0,971 1 1 08 if (97≥0,7) and (348<-0,8) and (863<0,7) 1 1 0 09 if (18<-3,2) and (291≥-1,4) 1 1 0 0
Total 2 6
Tabela 5.14: Conjunto K2: regras com o maior número de acertos na análise AECDClasses Regras AptTrein AptTeste ErrosTrein ErrosTeste
1 if(28<0,8) and (75≥0,2) and (280≥-0,3) and 1 0,333 0 2(498<0,1) and (843≥0)
2 if(11≥0,4) and (289<-0,5) 1 1 0 03 if (49<-2,3) and (193<-1,1) and (289≥-0,3) 1 1 0 04 if (2<-0,2) and (485≥0,7) 1 1 0 05 if (2<-1,8) and (289≥-1,3) and (380<-0,7) 1 1 0 06 if(17≥-1,6) and (242<0,3) and 1 0,667 0 1
(637≥0,4) and (881<1)7 if (97≥0,7) and (348<1,4) and (224≥-0,2) 0,971 1 1 08 if (97≥0,7) and (348<-0,8) and (863<0,7) 1 1 0 09 if (18<-3,2) and (291≥-1,4) 1 1 0 0
Total 1 3
A Tabela 5.15 apresenta os resultados de sensibilidade (Se, calculado pela equação 4.1)e especi�cidade (Sp calculado pela equação 4.2) para os conjuntos K1 e K2. O que difere o
63
conjunto K1 e K2 são as regras utilizadas como classi�cadores para as classes 1 e 6. Paraa classe 1, apesar do valor de aptidão encontrado para o conjunto K1 (0,533) ser maiordo que o encontrado para o conjunto K2 (0,333), o número de erros encontrados para oprimeiro conjunto é maior do que o encontrado para o segundo (5 e 2, respectivamente).Estes erros são apresentados na Tabela 5.13 para o conjunto K1 e na Tabela 5.14 para oconjunto K2. Na composição do valor de aptidão, uma classi�cação errada encontrada nocálculo da sensiblidade (Se) é mais severa do que uma classi�cação errada encontrada nocálculo da especi�cidade (Sp). Isso acontece devido ao tamanho do conjunto de amostrasutilizado no cálculo de Se e Sp. Para o cálculo de Se, utilizam-se apenas as amostras deuma determinada classe. Por outro lado, no cálculo de Sp, utilizam-se as demais amostrasda base. Consideremos, por exemplo, o cálculo de Se e Sp para a classe 1 da base NCI60.Para o cálculo do Se, serão avaliados apenas 7 amostras, ao passo que, ao calcular Sp,serão utilizadas as 54 amostras restantes da base. Um erro encontrado no cálculo de Se,diminuirá de 1/7 o valor de aptidão, enquanto que um erro encontrado no cálculo de Sp,diminuirá de 1/54 essa aptidão. Para a análise AECD, diferentemente do que acontecepara o cálculo da aptidão, erros encontrados em Se ou Sp (falso negativo ou falso positivo)possuem o mesmo peso. Assim, a regra da classe 1 encontrada no conjunto K1 possuiaptidão maior do que a regra encontrada no conjunto K2, mas possui uma quantidade deerros maior (5 ao invés de 2). Para a classe 6, o número de erros encontrados do conjuntoK1 para o conjunto K2 decaiu de uma unidade. No conjunto K1, foram encontradosdois erros, um na base de treinamento e outro na base de teste, ambos no cálculo da Sp,causando um pequeno decréscimo ao valor da aptidão. Para o conjunto K2, foi encontradoapenas um erro na base de teste, mas este erro aconteceu no cálculo da Se, causando umgrande decréscimo no valor da aptidão.
A partir dos resultados dos erros absolutos obtidos pelos conjuntos de regras K1 e K2,é possível comparar o desempenho desses classi�cadores com outros da literatura, queforam elaborados para a base NCI60 [21, 12, 3, 13, 22, 23, 24] e que tiveram sua taxa deacertos divulgada. Alguns desses trabalhos também �zeram duas partições, uma contendo2/3 das amostras utilizadas no treinamento, e outra, contendo 1/3 das amostras utilizadasno teste. Estas partições são apresentadas na Tabela 5.16. Outros trabalhos divulgaram
64
Tabela 5.15: Sensibilidade e Especi�cidade das regras dos conjuntos K1 e K2
K1
Treinamento Teste Base CompletaClasses Se Sp Se Sp Se Sp
1 1 1 0,6666 0,8 0,8571 0,92592 1 1 1 1 1 13 1 1 1 1 1 14 1 1 1 1 1 15 1 1 1 1 1 16 1 0,9729 1 0,9333 1 0,96157 1 0,9705 1 1 1 0,98188 1 1 1 1 1 19 1 1 1 1 1 1
K2
Treinamento Teste Base CompletaClasses Se Sp Se Sp Se Sp
1 1 1 0,3333 1 0,7142 12 1 1 1 1 1 13 1 1 1 1 1 14 1 1 1 1 1 15 1 1 1 1 1 16 1 1 0,6666 1 0,8888 17 1 1 1 0,9705 1 0,98188 1 1 1 1 1 19 1 1 1 1 1 1
apenas a taxa de acertos em relação à base total e são apresentados na Tabela 5.17. Oresultado obtido por Umpai [22] é uma média encontrada em 5 experimentos. O trabalhode Ooi e colaboradores [3] e o de Lin e colaboradores [24] possuem duas ocorrências,uma em cada tabela, devido ao uso das duas abordagens nestes trabalhos. É importantedizer que os resultados obtidos em Ooi1 [3] não utilizam métodos tradicionais de teste,conforme discutido na seção 3.4. Assim, estes resultados não foram utilizados na análisede treinamento e teste, apenas na análise com base completa. O símbolo (*) encontradona Tabela 5.17 refere-se à média do número de erros encontrados em cinco execuções doambiente proposto por Umpai et al. [22].
Na análise comparativa considerando-se o número total de erros do conjunto de re-gras K1, podemos observar que esse conjunto obteve resultados comparáveis com diversos
65
Tabela 5.16: Comparativo dos erros encontrados em K1 e K2 e de outros trabalhos, utilizando 2/3 dabase em treinamento e 1/3 em teste
Base Particionada: 2/3 Treinamento e 1/3 TesteReferencia Nro de Genes ErrosTrein ErrosTeste ErrosTotal
Dudoit [21] 30 - 8 ≥8Deb [12] 12 3 2 5Ooi2 [3] 12 4 4 8Lin1 [24] 15 5 4 9K1 20 2 6 8K2 22 1 3 4
Tabela 5.17: Comparativo dos erros encontrados em K1 e K2 e de outros trabalhos, utilizando todasas amostras da base NCI60
Base TotalReferencia Nro de Genes Nro de ErrosLiu [13] 40 7Umpai [22] 30 14,5 (*)Lin2 [24] 15 3Ooi1 [3] 13 7K1 20 8K2 22 4
outros classi�cadores (Dudoit, Ooi2 e Lin1) que também �zeram a partição 2/3 de trei-namento e 1/3 de teste, sendo superado signi�cativamente apenas pelo classi�cador deDeb. Com relação aos classi�cadores que foram ajustados utilizando-se a base completa,portanto com maiores chances de encontrar um baixo número de erros, mas com um re-sultado de generalização questionável, também é possível dizer que o conjunto K1 obteveresultados comparáveis aos classi�cadores de Liu e Ooi1, superou o classi�cador de Umpaie foi superado apenas por Lin2. Com relação ao desempenho de erros na base de teste,o conjunto K1 superou apenas o classi�cador de Dudoit, sendo superado pelos demaisclassi�cadores (Deb, Ooi2 e Lin1). Entretanto, devemos salientar que o conjunto K1 foiobtido considerando-se os valores de sensibilidade e especi�cidade das regras em suas res-pectivas classes, tanto na evolução do AG quanto na seleção das melhores regras, sem serdirecionado diretamente à taxa de acertos. Dessa forma, consideramos bom o desempenhodo conjunto K1 uma vez que esse classi�cador elaborado para a base NCI60, diferente-
66
mente dos demais, possui um conhecimento de alto nível e detalhado por classe, semapresentar um decaimento signi�cativo de taxa de acerto, em relação aos classi�cadorestipo caixa-preta, publicados na literatura.
Na análise comparativa considerando-se o conjunto K2, em relação aos classi�cadoresobtidos por meio de particionamento treinamento/teste, é possível observar que ele só ésuperado pelo classi�cador de Deb, na taxa de acertos na base de teste, por um lado, masK2 supera esse mesmo classi�cador na taxa de acertos total, assim como os classi�cadoresde Dudoit, Ooi2 e Lin1. Com relação aos classi�cadores que usaram a base completa, oconjunto K2 só é superado por Lin2, lembrando que o classi�cador Lin2 foi obtido usandoa base completa, enquanto que cada regra de K2 foi evoluída utilizando-se apenas 2/3 dabase. Assim, embora na evolução do AG a taxa de acertos não seja utilizada diretamente,a seleção posterior das melhores regras utilizando-se a análise AECD, resultou em um con-junto/classi�cador competitivo com os demais do tipo caixa-preta, superando a maioriados resultados publicados.
Concluindo, o conjunto K1 é o que apresenta os resultados individuais por classe maisexpressivos considerando-se a sensibilidade e especi�cidade, com uma razoável taxa deacertos em relação aos classi�cadores já publicados. Entretanto, o AG também foi capazde evoluir regras e�cazes em relação à taxa de acertos, sendo possível construir o conjuntoK2, que supera a maioria dos classi�cadores já publicados, em relação à taxa de acertos.Uma informação importante, é que na constituição dos conjuntos K1 e K2 nenhum esforçofoi gasto na busca de conjuntos que tivessem a mesma perfomance e um número menorde genes, já que o método de seleção adotado foi a de buscar a primeira regra de cadaclasse. Assim, pode-se buscar conjuntos que utilizam um menor número de genes e quetenham o mesmo desempenho dos conjuntos K1 e K2 apresentados.
67
Capítulo 6
Conclusões e trabalhos futuros
Em nossos experimentos, foi possível observar que embora a obtenção de regras com altoíndice de treinamento seja relativamente fácil de se conseguir, a qualidade dessas regrasé logo diminuída em algumas classes pelo desempenho das mesmas na base de testes.Acreditamos que tal comportamento possa ser justi�cado pelo baixo número de amostraspor classe, inerente ao problema. Para compensar essa di�culdade, procuramos efetuarum grande número de execuções do AG, para obtenção de um maior número de regras porclasse, com alta taxa de desempenho na base de treinamento. Dessa forma, conseguimosobter regras e�cazes em oito das nove classes.
Embora a base NCI60 tenha sido extensivamente investigada, em nenhum dos tra-balhos analisados foram encontrados conjuntos de genes preditivos para cada classe, esim, um único conjunto preditivo para todas as classes. Selecionar um conjunto de genesrelacionados a uma determinada classe de câncer é relevante para o entendimento dasinterações moleculares (molecular pathways) e também para encontrar novos alvos quesejam úteis no desenvolvimento de novas drogas [23]. Outro ponto importante refere-seao fato de nenhum dos trabalhos analisados apresentarem conhecimento de alto nível paraa base NCI60. O nosso trabalho apresenta um conjunto reduzido de genes por classe (va-riando de 2 a 5 genes), conjunto este, apresentado na forma de regras do tipo IF-THEN,relacionando genes, intervalos de níveis de expressão e sua classe. Um outro ponto forte doprojeto refere-se à avaliação de sensibilidade e especi�cidade de cada classe, não realizadoem nenhum outro trabalho (de que tenhamos notícia) na base NCI60.
68
Para a validação �nal do ambiente foi utilizado o método de cross validation 2:1, queobteve em média para as 9 classes avaliadas, 99,38% de acertos em treinamento e 88,9%em teste.
Um conjunto formado por representantes das regras que apresentaram o melhor de-sempenho treinamento/teste, chamado K1, além de apresentar um conhecimento de altonível e valores aceitáveis de sensibilidade e especi�cidade, também apresenta um númerode acertos total. Esse conjunto retornou as aptidões médias de 99,38% em treinamento e94,06% em teste, medidos pela equação 4.3, que combina a sensibilidade e a especi�cidade.
Um segundo conjunto, chamado K2, também foi elaborado a partir das melhores re-gras evoluídas. Embora o resultado de sensibilidade e especi�cidade seja inferior ao K1,o conjunto K2 possui uma taxa de acertos total igual a 93,44%, superando diversos mé-todos publicados e sendo inferior apenas ao resultado obtido por Lin e colaboradores [24](95,08%). Entretanto, os autores usaram a base completa na evolução do AG, enquantoas regras do conjunto K2 foram evoluídas usando 2/3 da base (para cada classe) paraencontrar esse valor. Em termos do número de erros na base de teste obtido pelo K2 (3),esse valor só é superado pelo trabalho de Deb e Reddy (2) [12].
Além dos dois conjuntos citados anteriormente, nos quais realizamos uma análise com-parativa com os principais classi�cadores publicados na base NCI60, a Tabela 5.11 apre-senta um número maior de regras por classe. Todas as regras da tabela representam omelhor desempenho obtido, com o menor número de genes possível, para cada classe cor-respondente. De posse dessas regras, diversos outros conjuntos/classi�cadores podem serelaborados e avaliados. Além disso, essa pluralidade de regras pode fornecer mais infor-mações aos biólogos sobre as relações entre os genes e a existência de genes homólogos(genes distintos que possuem a mesma função). Por exemplo, poderíamos construir umaregra mais complexa para a classe 4, da seguinte forma:
SE (Gene_50 ≥ -2 OU Gene_224 < -2,2 OU Gene_235 ≥ -2,9)E (Gene_485 ≥ 0,7 OU Gene_843 < -1)
ENTÃO Classe = leucemia
Esste tipo de conhecimento pode ser utilizado pelos biólogos para investigar as relaçõesentre os conjuntos de genes {50, 224, 235} e {485, 843} (homólogos?) e a leucemia.
69
Conseguimos delimitar genes relacionados a cada classe de câncer e seus respectivosníveis de expressão. Desta forma, obtemos uma associação gene/câncer e gene/gene queesperamos que possa contribuir para o diagnóstico deste tipo de câncer limitando assimo número de genes a serem analisados na busca de novos tratamentos.
Como trabalho futuro, sugerimos a construção de um AG multi-objetivo, que trabalhecom várias métricas de forma simultânea, porém isoladas. Um resumo dos AGs multi-objetivos é apresentado no apêndice C. Diferentes métricas podem ser aplicadas comoobjetivos, tais como: sensibilidade, especi�cidade, precisão, cobertura, dentre outros.
Uma outra extensão para este trabalho seria a utilização de bases com um númeromaior de genes. Por exemplo, na base NCI60, diversos trabalhos divulgaram conjuntosreduzidos de genes [21, 12, 3, 13, 22, 23, 24], que aplicados a algum modelo de classi�cador(RNA, SVM, MLHD, dentre outros), retornaram uma taxa de acertos razoável. Em nossotrabalho, partimos apenas dos genes extraídos no trabalho de Ooi e Tan [3], chegando a 55genes na base completa (B1B2B3B4). Os genes extraídos em outros trabalhos poderiamser incorporados a essa base, aumentando a disponibilidade de informações para o AGevoluir regras e�cazes.
Entretanto, antes de mais nada, será necessário realizar experimentos com o objetivode ajustar o ambiente evolutivo na manipulação de bases com um número maior de genes.Conforme ressaltamos no capítulo anterior, um resultado que nos chamou a atenção foiobtido na base completa B1B2B3B4 que, embora use todo o potencial de informação dasexpressões gênicas, retornou resultados inferiores se comparado às evoluções das basesindividuais. Esse resultado mostra que o AG teve di�culdades de convergência pararegras e�cazes, com o aumento do número de genes. Acreditamos que tal ajuste tem forterelação com o valor limite do parâmetro peso (o valor que decide se uma condição estarápresente ou não em uma regra) e o tamanho da população (quanto maior o tamanhodo cromossomo, maior a necessidade de amostragem do espaço de busca). Experimentosincluindo ruído na base B1B2B3B4 (genes extraídos aleatoriamente dos 1000 genes dabase NCI60) podem auxiliar neste ajuste.
Aplicar o ambiente em outras bases de dados públicas de expressão gênica. Estasbases de dados podem ser binárias ou multiclasse. As binárias podem ser encontradas em
70
[79, 95] (leucemia), [80, 94] ( di�use large B-cell lymphoma), [81] (Cólon), [89] (Próstata),[84] (mama). As multiclasses pode ser encontradas em [82] (GCM), [83] (Brown) e [8](small, round blue cell tumors of childhood).
A partir da leitura de trabalhos publicados, foi possível observar uma diversidade demétodos aplicados pelos pesquisadores para validação dos seus resultados. Diversidadeessa que prejudica inclusive a comparação do desempenho entre os diversos classi�cdores.Propomos como continuidade a esse trabalho, a aplicação de outras estratégias de valida-ção, tais como: o leave-one-out cross validation, a técnica mais empregada e o bootstrap,uma técnica que vem sendo aplicada nos trabalhos mais recentes e que nos parece con-tornar melhor os problemas inerentes aos experimentos de microarrays (baixo número deamostras com um elevado número de genes).
71
Referências Bibliográ�cas
[1] D. J. Duggan, M. Bittner, Y. Chen, P. Meltzer, and J. M. Trent. Expression pro�lingusing cdna microarrays. Nature Genetics, 21, 1999.
[2] W. G. C. Ticona. Aplicação de Algoritmos Genéticos Multi-Objetivo para Alinha-mento de Sequências Biológicas. PhD thesis, Universidade de São Paulo, 2003.
[3] C. H. Ooi and P. Tan. Genetic algorithms applied to multi-class prediction for theanalysis of gene expression data. Bioinformatics, 19(1):37�44, 2003.
[4] A. Borém, M. Giúcide, and T. Sedyiama. Melhoramento Genômico. UniversidadeFederal de Viçosa, 2003.
[5] J. C. Setúbal and J. Meidanis. Introduction to Computacional Molecular Biology.PWS Publishing Company, Boston, 1997.
[6] P. Baldi and S. Brunak. Bioinformatics: the Machine Learning approach. MITPress, 2 edition, 2001.
[7] Y. Xu, F. M. Selaru, J. Yin, T. T. Zou, V. Shustova, Y. Mori, F. Sato, T. C. Liu,A. Olaru, S. Wang, M. C. Kimos, K. Perry, K. Desai, B. D. Greenwald, M. J. Krasna,D. Shibata, J. M. Abraham, and S. J. Meltzer. Arti�cial neural networks and gene�ltering distinguish between global gene expression pro�les of barret's esophagusand esophageal cancer. Cancer Research, 2002.
[8] J. Khan, J. S. Wei, M. Ringnér, L. H. Saal, M. Ladanyi, F. Westermann, F. Berthold,M. Schwab, C. R. Antonescu, C. Peterson, and P. S. Meltzer. Classi�ction and
72
diagnostic prediction of cancers using gene expression pro�ling and arti�cial neuralnetworks. Nature Medicine, 2001.
[9] T. S. Furey, N. Cristianini, N. Du�y, D. W. Bednarski, M. Schummer, and D. Haus-sler. Support vector machine classi�cation and validation of cancer tissue samplesusing microarray expression data. Bioinformatics, 2000.
[10] T. A. Brown. Genética: Um enfoque molecular. Guanabara Koogan, Rio de Janeiro,3 edition, 1999.
[11] I. Zwir, R. R. Zaliz, and E. H. Ruspini. Automated biological sequence descriptionby genetic multiobjective generalized clustering. New York Academy of Sciences,(980):65�82, 2002.
[12] K. Deb and A. R. Reddy. Classi�cation of two and multi-class cancer data reliablyusing multi-objective evolutionary algorithms. KanGAL Report, 2003.
[13] J. J. Liu, G. Culter, W. Li, Z. Pan, S. Peng, T. Hoey, L. Chen, and X. Ling.Multiclass cancer classi�cation and biomarker discovery using ga-based algorithms.Bioinformatics, 21(11):2691�2697, 2005.
[14] S. Mitra and H. Banka. Multi-objective evolutionary biclustering of gene expressiondata. Pattern Recognition, 2006.
[15] M. Wahde and Z. Szallasi. Improving the prediction of the clinical outcome of breastcancer using evolutionary algorithms. Soft Comput, 2006.
[16] T. R. Hvidsten, A. Laegreid, and J. Komorowski. Learning rule-based models ofbiological process from gene expression time pro�les using gene ontology. Bioinfor-matics, 19(9), 2003.
[17] S. A. Vinterbo, E. Kim, and L. Ohno-Machado. Small, fuzzy and interpretable geneexpression based classi�ers. Bioinformatics, 21(9), 2005.
73
[18] S. Ho, C. Hsieh, H. Chenc, and H. Huangd. Interpretable gene expression clas-si�er with an accurate and compact fuzzy rule base for microarray data analysis.BioSystems, 85, 2006.
[19] M. V. Fidelis, H. S. Lopes, and A. A. Freitas. Discovery comprehensible classi�cationrules with a genetic algorithm. In Congress on Evolutionary Computation - (CEC-2000), pages 805�810. La Jolla, CA, USA, 2000.
[20] D. T. Ross, U. Scherf, M. B. Eisen, C. M. Perou, C. Rees, P. Spellman, V. Iyer,S. S. Je�rey, M. Van de Rijn, M. Waltham, A. Pergamenschikov, J. C. F. Lee,D. Lashkari, D. Shalon, T. G. Myers, J. N. Weinstein, D. Botstein, and P. O.Brown. Systematic variation in gene expression patterns in human cancer cell lines.Nature Genetics, 2000.
[21] S. Dudoit, J. Fridlyand, and T. Speed. Comparison of discrimination methods forthe classi�cation of tumors using gene expression data. Journal of the AmericanStatistical Association, 97(457), March 2002.
[22] T. J. Umpai and S. Aitken. Feature selection and classi�cation microarray dataanalysis: Evolutionary methods for identifying predictive genes. BMC Bioinforma-tics, 6(148), 2005.
[23] R. D. Uriarte and S. A. Andrés. Gene selecion and classi�cation of microarray datausing random forest. BMC Bioinformatics, 7(3), 2006.
[24] T. C. Lin, R. S. Liu, C. Y. Chen, Y. T. Chao, and S. Y. Chen. Pattern classi�cationin dna microarray data of multiple tumor types. Pattern Recognition, 39:2426�2438,2006.
[25] R. Xu, G. C. Anagnostopoulos, and D. C. Wunsch II. Multiclass cancer classi�-cation using semisupervised ellipsoid artmap and particle swarm optimization withgene expression data. IEEE/ACM Transactions on Computational Biology and Bi-oinformatics, 4(1), 2007.
[26] Lodish. Biologia Celular e Molecular. Revinter, Rio de Janeiro, 4 edition, 2002.
74
[27] L. C. Junqueira and J. Carneiro. Biologia Celular e Molecular. Guanabara Koogan,Rio de Janeiro, 6 edition, 1997.
[28] M. C. P. de Souto, A. C. Lorena, A. C. B. Delbem, and A. C. P. L. F. de Carva-lho. Técnicas de aprendizado de máquina para problemas de biologia molecular.Porto Alegre, 2003. Sociedade Brasileira de Computação, Sociedade Brasileira deComputação.
[29] B. Alberts, D. Bray, and J. Lewis. Biolgia Molecular da Célula. Artes Médicas, 3edition, 1997.
[30] S. Brenner, M. Johnson, J. Bridgham, G. Golda, D. H. Lloyd, D. Johnson, S. Mc-Curdy S. Luo, M. Foy, M. Ewan, R. Roth, D. George, S. Eletr, G. Albrecht, E. Ver-maas, S. R. Williams, T. B. K. Moon, R. B. M. Pallas, J. Kirchner, K. Fearon,J. Mao, and K. Corcoran. Gene expression analysis by massive parallel signaturesequencing (mpss) on microbead array. Nature Biotechnology, 18(10):630�640, 2000.
[31] V. E. Velculescu, L. Zhang, B. Vogelstein, and K. W. Kinzler. Serial analysis ofgene expression. Science, 270:484�487, 1995.
[32] W. M. Freeman, S. J. Walker, and K. E. Vrana. Quantitative rt-pcr: pitfalls andpotentials. Biotechniques, 26:112�122, 1999.
[33] C. A. Harrington, C. Rosenow, and J. Retief. Monitoring gene expression using dnamicroarrays. Curr. Opin. Microbiol., 3:285�291, 2000.
[34] N. P. Carneiro and A. A. Carneiro. A Era Genômica - Desvendando o CódigoGenético. UFLA, 2002.
[35] L. R. Amaral. Bioinformática, surge uma nova ciência. Especialização, UniversidadeFederal de Lavras, Lavras, 2005.
[36] T. Mitchell. Machine Learning. McGraw Hill, New York, 1997.
[37] Y. Su, T. Murali, V. Pavlovic, M. Scha�er, and S. Kasif. Rankgene: identi�cation ofdiagnostic genes bases on expression data. Bioinformatics, 19(12):1578�1579, 2003.
75
[38] E. Fix and J. Hodges. Discriminatory analysis, noparametric discrimination: Con-sistency properties. Technical report, Escola de AviaçãoForça Aérea Americana,1951.
[39] L. Breiman. Random forests. Machine Learning, 45:5�32, 2001.
[40] L. Breiman, J. Friedman, and R. Olshen. C: Classi�cation and regression trees.Chapman & Hall, New York, 1984.
[41] B. D. Ripley. Pattern recognition and neural networks. Cambrigde University Press,Cambridge, 1996.
[42] T. Hastie, R. Tibshirani, and J. Friedman. The elements of statistical learning.Springer, New Tork, 2001.
[43] B. Efron. Estimating the error rate of a prediction rule: improvement on cross-validation. Jounal of the American Statistical Association, 78:316�331, 1983.
[44] M. Barnard. The secular variations of skull characters in four series of egyptianskulls. Annals of Eugenics, 6:352�371, 1935.
[45] R. Tibshirani, T. Hastie, B. Narasimhan, and G. Chu. Diagnosis of multiple can-cer types by shrunken centroids of gene expression. Proc Natl Acad Sci USA,99(10):6567�6572, 2002.
[46] P. Roepman, L. F. Wessels, N. Kettelarij, P. Kemmeren, A. J. Miles, P. Lijnzaad,M. G. Tilanus, R. Koole, G. J. Hordijk, P. C. van der Vliet, M. J. Reinders, P. J.Slootweg, and F. C. Holstege. An expression pro�le for diagnosis of lymph nodemetastases from primary head and neck squamous cell carcinomas. Nature Genetics,37:182�186, 2005.
[47] L. Kaufman and P. J. Rousseeuw. Finding Groups in Data: An Introduction toCluster Analysis. Wiley, New York.
[48] R. E. Castro. Otimização de Estrutura com Multi-Objetivos via ALgoritmos Gené-ticos. PhD thesis, Universidade Federal do Rio de Janeiro, AGOSTO 2001.
76
[49] L. Davis. Handbook of Genetic Algorithms. Van Nostrand Reinhold, New York,1991.
[50] D. E. Goldberg. Genetic Algorithms in Search, Optimization and Machine Learning.Adison-Wesley, USA, 1989.
[51] M. Mitchell. An Introduction to Genetic Algorithms: Complex Adapative Systems.MIT Press, MA, 1996.
[52] J. H. Holland. Adaptation in Natural and Arti�cial Systems. MIT Press, 1975.
[53] J. R. Koza. Genetic Programming. On the Programming of Computers by Means ofNatural Selection. MIT Press, USA, 1992.
[54] J. Tanomaru. Motivação, fundamentos e aplicações de algoritmos genéticos. InCongresso Brasileiro de Redes Neurais, Curitiba, 1995. III Escola de Redes Neurais.
[55] S. Austin. An introduction to genetic algorithms. AI Expert, 3, 1990.
[56] S. A. Oliveira. Metaheurísticas Aplicadas ao Planejamento da Expansão da Trans-missão de Energia Elétrica em Ambiente de Processamento Distribuído. PhD thesis,UNICAMP, outubro 2004.
[57] M. A. C. Pacheco. Algoritmos genéticos: Princípios e aplicações. In INTERCON99:V Congreso Internacional de Ingeniería Electrónica, Elétrica Y Sistemas, pages 11�16, Lima, 1999.
[58] M. A. Potter and K. A. Jong. Cooperative coevolution: An architeture for evolvingcoadapted subcomponents. Evolutionary Computation, 8(1):1�29, 2000.
[59] D. A. Van Veldhuizen C. A. C. Coello and G.B. Lamont. Evolutionary Algorithmsfor Solving Multi-Objective Problems. Kluwer Academic, New York, March 2002.
[60] D. Hand. Construction and Assessment If Classi�cation Rules. John Wiley andSons, Chichester, 1997.
77
[61] A. A. Freitas and S. H. Lavington. Mining Very Large Databases with ParallelProcessing. Kluwer Academic Publishers, London, 1998.
[62] E. D. Goodman. An introduction to gallops - the genetic algorithms optimized forportability and parallelism system. Technical report, Departament od ComputerScience - Michigan State University, 1996.
[63] H. S. Lopes, M. S. Coutinho, and W. C. Lima. An evolutionary approach to simulatecognitive feedback learning in medical domain. In E. Sanchez, T. Shibata, and L. A.Zadeh, editors, Genetic Algorithms and Fuzzy Logic Systems, pages 193�207. WorldScienti�c, 1997.
[64] D. L. A. Araujo, H. S. Lopes, and A. A. Freitas. A parallel genetic algorithm for rulediscovery in large databases. In Systems, Man and Cybernetics, volume 3, pages940 � 945, Tokyo, October 1999. IEEE.
[65] D. R. Carvalho and A. A. Freitas. A hybrid decision tree/genetic algorithm forcoping with the problem of small disjuncts in data mining. In Genetic and Evoluti-onary Computation (GECCO-2000), pages 1061�1068, Las Vegas, NV, USA, Jully2000.
[66] D. R. Carvalho and A. A. Freitas. A genetic algorithm-based solution for the pro-blem of small disjuncts. In Springer-Verlag, editor, Principles of Data Mining andKnowledge Discovery, volume 1910, pages 345�352, 2000.
[67] A. A. Freitas. Advances in Evolutionary Computation, chapter A Survey of Evo-lutionary Algorithms for Data Mining and Knowledge Discovery. Springer-Verlag,2002.
[68] W. Romao, A. A. Freitas, and R. C. S. Pacheco. A genetic algorithm for discoveringinteresting fuzzy prediction rules: applications to science and technology data. InGenetic and Evolutionary Computation (GECCO-2002), New York, July 2002.
[69] K. C. Tan, Q. Yu, C. M. Heng, and T. H. Lee. Evolutionary computing for knowledgedicovery in medical diagnosis. Arti�cial Intelligence in Medicine, (27):129�154, 2003.
78
[70] C. R. S. Miranda, G. M. B. Oliveira, and J. B. Santos. Algoritmos genéticos apli-cados em data mining para obtenção de regras simples e precisas. In Anais doSBAI2003, pages 638�643, 2003.
[71] H. Ishibuchi and T. Yamamoto. Fuzzy rule selection by multi-objective geneticlocal search algorithms and rule evaluation measures in data mining. Fuzzy Setsand Systems, (141):59�88, 2004.
[72] Daniel C. Weaver. Applying data mining techniques to library design, lead genera-tion and lead optimization. Science Direct, 2004.
[73] Y. Kim and W. N. Street. An intelligent system for customer targeting: a datamining approach. Decision Support Systems, (37):215�228, 2004.
[74] A. Ghosh and B. Nath. Multi-objective rule mining using genetic algorithms. In-formation Sciences, 163, 2004.
[75] M. A. C. Pacheco, M. M. R. Vellasco, C. H. P. Lopes, and E. P. L. Passos. Extraçãode regras de associação em bases de dados por algoritmos genéticos. In Anais doXIII Congresso Brasileiro de Automática (CBA 2000), Floarianópolis, Setembro2000.
[76] M. C. S. Takiguti. Utilização de algoritmos genéticos multi-objetivos na mineraçãode regras precisas e interessantes. Dissertação de mestrado em engenharia elétrica,Universidade Presbiteriana Mackenzie, 2003.
[77] Z. Michalewicz. Genetic Algorithms + Data Structures = Evolution Programs. IE-Springer-Verlag, 1997.
[78] A. A. Freitas. Data Mining and Knowledge Discovery with Evolutionary Algorithms.2002.
[79] T. R. Golub, D. K. Slonim, P. Tamayo, C. Huard, M. Gaasenbeek, J. P. Mesirov,H. Coller, M. L. Loh, J. R. Downing, M. A. Caligiuri, C. D. Bloom�eld, and E. S.Lander. Molecular classi�cation of cancer: class discovery and class prediction.Science, 286, October 1999.
79
[80] A. A. Alizadeh, M. B. Eisen, R. E. Davis, C. Ma, I. S. Lossos, A. Rosenwald, J. C.Boldrick, H. Sabet, T. Tran, X. Yu, J. I. Powell, L. Yang, G. E. Marti, T. Moore,J. Hudson, L. Lu, D. B. Lewis, R. Tibshirani, G. Sherlock, W. C. Chan, T. C.Greiner, D. D. Weisenburger, J. O. Armitage, R. Warnke, R. Levy, W. Wilson,M. R. Grever, J. C. Byrd, D. Botstein, P. O. Brown, and L. M. Staudt. Distincttypes of di�use large b-cell lymphoma identi�ed by gene expression pro�ling. Nature,403:503�511, 2000.
[81] U. Alon, N. Barkai, D. D. Notterman, K. Gish, S. Ibarra, D. Mack, and A. J.Levine. Broad patterns of gene expression revealed by clustering analysis of tumorand normal colon tissues probed by oligonucleotide arrays. Proceedings of NationalAcademy of Science, Cell Biology, 96:6745�6750, 1999.
[82] S. Ramaswamy, P. Tamayo, R. Rifkin, S. Mukherjee, C. H. Yeang, M. Angelo,C. Ladd, M. Reich, E. Latulippe, J. P. Mesirov, T. Poggio, W. Gerald, M. Loda, E. S.Lander, and T. R. Golub. Multiclass cancer diagnosis using tumor gene expressionsignatures. Proceedings of the National Academy of Science, 98(26):15149�15154,2001.
[83] K. Munagala, R. Tibshirani, and P. O. Brown. Cancer characterization and featureset extraction by discriminative margin clustering. BMC Bioinformatics, 5(21),2004.
[84] L. J. van 't Veer, H. Dai, M. J. van de Vijver, Y. D. He, A. A. M. Hart, M. Mao,H. L. Peterse, K. van der Kooy, M. J. Marton, A. T. Witteveen, G. J. Schreiber,R. M. Kerkhoven, C. Roberts, P. S. Linsley, R. Bernards, and S. H. Friend. Geneexpression pro�ling predicts clinical outcome of breast cancer. Nature, 415:530�536,2002.
[85] N. Friedman I. Nachman M. Schummer A. Ben-Dor, L. Bruhn and Z. Yakhini.Tissue classi�cation with gene expression pro�les. J. Computational Biology, 7:559�584, 2000.
80
[86] J. Komorowski, A. Øhrn, and A. Skowron. Handbook of Data Mining and KnowledgeDiscovery, chapter The ROSETTA rough set software system, pages 554�559. Ox-ford University Press, 2002.
[87] S. Vinterbo and A. Ohrn. Minimal approximate hitting sets and rule templates.International Journal of Approximate Reasoning, 25(2):123�143, Outubro 2000.
[88] A. Bhattacharjee, W. G. RichardsDagger, J. Stauntondagger, C. Li, S. Monti,P. Vasa, C. Ladd, J. Beheshti, R. BuenoDagger, M. Gillette, M. Loda, G. We-ber, E. J. Markdagger, E. S. Lander, W. Wong, B. E. Johnson, T. R. Golub, D. J.Sugarbaker, and M. Meyerson. Classi�cation of human lung carcinomas by mrnaexpression pro�ling reveals distinct adenocarcinoma subclasses. Proc. Natl Acad.Sci, 98:13790�13795, 2001.
[89] D. Singh, P. G. Febbo, K. Ross, D. G. Jackson, J. Manola, C. Ladd, P. Tamayo,A. A. Renshaw, A. V. D'Amico, J. P. Richie, E. S. Lander, M. Loda P. W. Kanto�,T. R. Golub, and W. R. Sellers. Gene expression correlates of clinical prostatecancer behavior. Cancer Cell, 1:203�209, 2002.
[90] E. Alpaydin. Combined 5 × 2 cv f test for comparing supervised classi�cationlearning algorithms. Neural Computation, 11:1885�1982, 1999.
[91] S. Ho, L. Shu, and J. Chen. Intelligent evolutionary algorithms for large parameteroptimization problems. IEEE Transactions on Evolutionary Computation, 8(6):522�541, 2004.
[92] S. L. Pomeroy, P. Tamayo, M. Gaasenbeek, L. M. Sturla, M. Angelo, M. E.McLaughlin, J. Y. H. Kim, L. C. Goumnerova, P. M. Black, C. Lau, J. C. Allen,D. Zagzag, J. M. Olson, T. Curran, C. Wetmore, J. A. Biegel, T. Poggio, R. RifkinS. Mukherjee and, A. Califano, G. Stolovitzky, D. N. Louis, J. P. Mesirov, E. S.Lander, and T. R. Golub. Prediction of central nervous system embryonal tumouroutcome based on gene expression. Nature, 415(6870):436�442, 2002.
81
[93] C. L. Nutt, D. R. Mani, R. A. Betensky, P. Tamayo, J. G. Cairncross, C. Ladd,U. Pohl, C. Hartmann, M. E. McLaughlin, T. T. Batchelor, P. M. Black, A. vonDeimling, S. L. Pomeroy, T. R. Golub, and D. N. Loui. Gene expression-basedclassi�cation of malignant gliomas correlates better with survival than histologicalclassi�cation. Cancer Research, 63(7):1602�1607, 2003.
[94] M. A. Shipp, K. N. Ross, P. Tamayo, A. P. Weng, J. L. Kutok, R. C. T. Aguiar,M. Gaasenbeek, M. Angelo, M. Reich, G. S. Pinkus, T. S. Ray, M. A. Koval, K. W.Last, A. Norton, T. A. Lister, J. Mesirov, D. S. Neuberg, E. S. Lander, J. C.Aster, and T. R. Golub. Di�use large b-cell lymphoma outcome prediction by gene-expression pro�ling and supervised machine learning. Nature Medicine, 2002.
[95] S. A. Armstrong, J. E. Staunton, L. B. Silverman, R. Pieters, M. L. den Boer,M. D. Minden, S. E. Sallan, E. S. Lander, T. R. Golub, and S. J. Korsmeyer.Mll translocations specify a distinct gene expression pro�le, distinguishing a uniqueleukemia. Nature Genetics, 30(1):41�47, 2002.
[96] M. James. Classi�cation algorithms. Wiley-Interscience, New York.
[97] L. R. Amaral, G. Sadoyama, F. S. Espindola, and G. M. B. Oliveira. Classi�caçãode oncogenes medidos por microarray utilizando algoritmos genéticos. Anais doSimpósio Brasileiro de Automação Inteligente, 2007.
[98] G. W. Burns and P. J. Bottino. Genética. Guanabara Koogan, Rio de Janeiro, 6edition, 1991.
[99] N. Srinivas and K. Deb. Multiobjective optimization using non dominated sortingin genetic algorithms. Evolutionary Computation, 2(3):221�248, 1994.
[100] J. W. Hartmann. Low-thurst Trajectory Optimization Using Stochastic OptimizationMethods. PhD thesis, University of Illinois-Champaign, 1999.
[101] C. M. Fonseca and P. J. Fleming. Genetics algorithms for multi-objective opti-mization: Formulation, discussion and generalization. In Stephanie Forrest editor,
82
San Mateo California, 1993. Proceedings of the Fifth International Conference onGenetic Algorithms.
[102] J. C. Bortot. Otimização evolutiva multi-objetivos na busca parametrizada de autô-matos celulares unidimensionais. Master's thesis, Universidade Presbiteriana Mac-kenzie, São Paulo, 2003.
[103] I. Anciutti, A. L. Gonçalves, F. A. Siqueira, and P. S. S. Borges. Uma aplicação dedata mining sobre circuitos elétricos de baixa tensão utilizando algoritmos genéticos.1o Workshop de Ciências da Computação e Sistemas da Informação da Região Sul(WorkComp Sul), Maio 2004.
[104] R. Lewis. Human Genetics - Concepts and Applications. McGraw Hill, London, 4edition, 2001.
[105] J. D. Scha�er. Multiple Objective Optimization with Vector Evaluated Genetic Al-gorithms. PhD thesis, Vanderbilt University, 1884.
[106] P. Hajela and C. Y. Lin. Genetic search strategies in multicriterion optimal design.Structural Optimization, 1992.
[107] J. Horn and N. Nafpliotis. Multiobjective optimization using the niched paretogenetic algorithm. IlliGAL Report Illinois Gentic Algorithms Laboratory, 1993.
[108] E. Zitzler and L. Thiele. Multiobjective optimization using evolutionary algorithms- a comparative case study. Computer Engineering and Communication NetworksLab (TIK), 1998.
[109] H. Ding, L. Benyoucef, and X. Xie. A simulation-based multi-objective genetic al-gorithm approach for networked enterprises optimization. Engineering Applicationsof Arti�cial Intelligence, 2005.
[110] J. D. Knowles and D. W. Corne. The pareto archived evolution strategy: A newbaseline algorithm for multi-objective optimization. IEEE Proceedings of the 1999congress on evolutionary computation, pages 98�105, 1999.
83
[111] K. Deb, S. Agarwal, A. Pratap, and T. Meyarian. A fast and elitism multiobjectivegenetic algorithm: Nsga ii. IEEE Trans. Evol. Comput., 6:182�197, 2002.
[112] D. Corne, J. Knowles, and M. Oates. The pareto envelope-based selection algorithmfor multi-objective optimization. In The Proceedings of The Sixth InternationalConference on Parallel Problem Solving from Nature, pages 839�848, 2000.
[113] E. Zitzler, M. Laumanns, and L. Thiele. Spea2: Improving the strength paretoevolutinary algorithm. Technical Repor 103, Computer Engineering and NetworksLaboratory, 2001.
[114] M. J. van de Vijver, Y. D. He, L. J. van't Veer, H. Dai, A. A. Hart, D. W. Voskuil,G. J. Schreiber, J. L. Peterse, C. Roberts, M. J. Marton, M. Parrish, D. Atsma,A. Witteveen, A. Glas, L. Delahaye, T. van der Velde, H. Bartelink, S. Rodenhuis,E. T. Rutgers, S. H. Friend, and R. Bernards. A gene-expression signature asa predictor of survival in breast cancer. The New England Journal of Medicine,347(25):1999�2009, December 2002.
[115] J. Li, H. Liu, J. R. Downing, A. E. Yeoh, and L. Won. Simple rules underlying geneexpression pro�les of more than six subtypes of acute lymphoblastic leukemia (all)patients. Bioinformatics, 19(1), 2003.
[116] S. Ramaswamy, K. N. Ross, E. S. Lander, and T. R. Golub. A molecular signatureof metastasis in primary solid tumors. Nature Genetics, 33:49�54, 2003.
[117] G. Dong and J. Li. E�cient mining of emerging patterns: discovering trends anddi�erences. In Proceedings of the �fth ACM SIGKDD international conference onKnowledge discovery and data mining, pages 43�52, San Diego, CA, USA, 1999.
[118] C. Ambroise and G. J. McLachlan. Selection bias in gene extraction on the basis ofmicroarray gene-expression data. Proc Natl Acad Sci, 99(10):6562�6566, 2002.
[119] B. Efron and R. J. Tibshirani. Improvements on cross-validation: the .632+ boots-trap method. J Americam Statistical Association, 92:548�560, 1997.
84
[120] Camillo Jorge Santos Oliveira. Classi�cação de imagens coletadas na web. Master'sthesis, Universidade Federal de Minas Gerais, 2001.
[121] R. Kohavi. A study of cross-validation and bootstrap for accuracy estimation andmodel selection. In International Joint Conference on Arti�cial Intelligence (IJ-CAI), 1995.
[122] Carolina Baldisserotto. Técnicas de aprendizagem de máquina para previsão desucesso em implantes dentários. Trabalho de Conclusão de Curso de Engenharia daComputação (UFPE), 2005.
85
APÊNDICE A
A Tabela 1 ilustra alguns genes pertencentes à base NCI60 [20], trazendos os quatroprimeiros e os quatros últimos genes presentes nesta base, além de seus níveis de expressãoe sua classi�cação.
86
Tabe
la1:Frag
mento
daba
seNCI
60
Amostra
Gen
esesuas
expressões
gênicas
Classe
0001
0002
0003
0004
...09
9709
9809
9910
001
-0,164
161
-4,884
82,09
63-0,534
775
...0,45
7161
0,19
1355
-0,611
755
0,08
3932
91
2-3,875
9-3,769
182,01
063
3,11
975
...0,18
6854
0,96
2579
-0,401
814
1,78
893
13
-4,349
990,41
0967
-2,923
01-4,350
91...
-0,774
644
-1,071
191,40
315
-1,835
911
4-5,294
56-3,097
17-3,228
42-2,185
53...
-0,248
217
0,08
5849
6-0,989
704
-0,437
588
15
-5,190
37-4,508
513,82
538
-3,148
46...
-0,963
794
1,57
446
0,34
804
-0,787
848
16
-6,655
17-6,197
364,41
931
-4,256
2...
-1,136
681,42
771
-0,146
111
-0,488
786
17
-3,926
520,26
7668
-2,365
13-3,616
12...
0,41
846
-0,069
5651
1,64
288
-0,244
977
18
0,65
6287
-4,927
440,60
5895
0,86
8257
...0,28
0724
1,29
956
-0,201
284
-0,506
502
29
0,32
7138
-3,713
342,10
391
-1,517
99...
-1,301
690,33
943
-0,318
589
0,58
3541
210
-2,182
71-4,898
470,44
5682
0,86
4383
...-0,488
053
1,81
960,28
8936
-0,281
444
211
1,53
62-4,250
940,77
2748
-3,029
59...
-0,112
368
0,83
3978
-0,387
631
-0,311
587
212
1,74
647
-3,939
921,81
068
-2,464
32...
0,10
2225
0,58
7927
-0,281
781
1,51
905
213
-2,045
92-4,649
783,09
726
1,34
988
...-0,001
6290
30,00
4519
77-0,048
8471
0,54
3234
214
-4,584
042,24
431
-2,081
76-4,952
83...
-0,438
279
0,03
5922
41,91
293
0,37
7864
315
-1,745
581,50
375
-0,533
707
-3,223
61...
-0,331
04-0,603
297
-0,353
551
0,18
0887
316
-4,205
19-0,338
11-0,354
664
-4,749
61...
-1,317
52-0,904
932
-0,742
56-1,008
993
17-3,722
421,41
686
-2,205
11-3,516
61...
0,12
2766
-0,937
280,67
5619
-0,668
483
318
-3,408
151,79
236
0,16
0562
-3,447
27...
-0,125
658
-0,307
894
1,23
935
1,24
733
19-4,555
1,07
009
-3,538
16-4,212
84...
-0,732
19-0,389
328
-0,323
507
-1,717
483
20-3,922
331,26
645
-0,071
9507
-3,856
31...
0,03
5864
6-0,160
007
0,14
8397
0,02
9083
83
21-5,322
91-4,017
98-2,142
45-5,241
12...
-0,474
868
0,16
9888
-1,661
33-0,682
513
422
-3,766
92-3,515
77-1,261
89-3,012
23...
-0,219
042
-0,136
43-1,537
48-1,352
384
23-3,510
8-0,515
63-3,679
7-2,724
06...
1,69
96-0,391
022
-1,149
11-0,837
641
424
-4,110
77-4,076
27-0,855
212
-4,178
87...
-0,044
8836
0,60
0618
-1,754
16-1,029
734
25-3,126
99-0,250
697
-1,149
480,61
2616
...-0,365
96-0,581
312
-0,278
901
-0,459
154
426
-4,389
22-4,381
12-2,796
97-4,803
41...
-1,826
-0,090
1879
-1,478
450,36
4429
427
-3,906
06-2,852
82-1,944
3-0,661
495
...0,32
868
0,38
5334
-0,468
209
-0,299
772
528
-4,047
12-3,814
343,92
145
-0,093
3891
...-0,867
585
1,13
333
0,19
2118
-1,142
065
29-2,934
64-3,219
172,88
026
-0,662
403
...-0,243
017
1,10
976
-0,425
754
-0,698
014
530
-4,581
45-4,387
63,84
132
-1,092
15...
0,45
6843
1,11
968
-0,592
796
-0,213
937
531
-2,625
31-3,602
262,80
123
1,80
131
...-0,495
891
2,00
023
-0,316
130,60
9825
532
-6,047
59-5,433
410,73
5293
-2,529
52...
-0,513
214
2,34
576
-0,847
313
-0,557
261
533
-3,264
77-3,292
382,05
958
0,16
7136
...-0,376
271
1,37
391
-0,649
388
-0,273
737
534
-4,219
2-4,448
254,03
66-0,966
085
...-0,582
756
1,13
634
0,10
6253
-0,377
676
535
0,71
9652
-2,220
660,14
9834
-1,753
18...
0,08
9064
90,61
7618
0,04
0766
1-0,863
616
636
-2,775
15-1,386
29-0,942
618
-1,970
52...
0,43
488
0,21
6116
-0,023
2552
-0,045
2224
637
1,42
846
-2,435
930,08
5281
3-0,139
468
...0,37
6792
1,34
191
0,33
6734
0,99
7303
6
87
38-6,605
47-2,557
37-1,581
750,38
433
...1,10
781
0,92
2406
-0,371
142
0,51
9772
639
1,43
531
-3,072
890,45
8781
-3,962
17...
-0,164
157
0,42
3992
-0,392
538
0,32
2683
640
1,10
256
-2,669
950,69
1393
-3,507
32...
0,78
9153
0,63
3915
0,58
8746
1,56
927
641
-3,047
750,75
296
-0,676
708
-3,111
58...
-0,252
044
-0,862
433
0,19
2085
-0,232
298
642
1,45
398
-3,500
063,47
098
0,86
778
...-2,213
28-0,392
764
0,78
8429
0,86
7195
643
0,71
6666
-3,850
22-1,023
66-4,836
64...
-0,825
387
0,77
0405
-0,330
002
-1,154
796
44-3,743
9-1,045
24-2,468
5-4,115
3...
-0,380
604
-0,371
351
-1,321
620,11
7363
745
0,64
9325
0,80
3413
-1,151
37-4,025
77...
0,01
1550
80,00
7489
4-0,061
7476
0,20
1552
746
-1,784
311,09
893
-1,340
46-2,987
38...
0,16
1457
0,78
973
-0,229
251
0,65
1669
747
-3,713
13-0,152
521
1,17
82-2,592
09...
0,17
1932
-0,586
802
0,18
7039
0,12
7809
748
1,11
499
-2,040
7-0,287
684
-0,098
9378
...0,29
2568
0,52
8733
1,02
933
0,18
7235
749
-2,954
440,09
0369
2,42
615
-2,402
44...
0,13
1778
1,21
708
0,43
8408
0,74
2201
750
-0,767
671
-2,483
72-0,032
4988
0,39
4634
...-0,685
856
0,25
8114
-0,077
6372
0,58
38
51-0,554
984
-3,296
860,73
0205
-3,838
09...
0,18
8504
-0,083
3314
-0,150
136
0,08
0560
98
52-3,439
41-0,805
609
-0,001
6690
9-0,098
7586
...-1,282
97-0,147
9-0,731
87-0,449
098
853
1,71
796
-2,992
90,94
1972
-0,418
864
...0,58
1641
1,02
023
-0,516
387
0,62
146
854
-0,785
637
-3,100
340,48
0331
0,60
5166
...-0,412
405
-0,486
664
-0,416
042
0,74
3273
855
1,74
548
-4,702
77-0,270
924
-4,275
18...
-2,508
580,83
920,94
3643
0,62
1112
856
-0,164
802
-0,757
720,87
2185
1,04
158
...-0,608
374
0,22
955
-0,563
887
0,23
8201
857
1,43
745
-0,347
051,05
609
-0,096
4912
...-0,604
294
0,57
5899
0,26
7507
1,37
224
858
-3,122
65-0,000
7763
01-0,969
465
-2,891
94...
2,41
071
-0,241
9-1,169
87-1,158
69
59-3,405
92-0,495
942
-2,531
51-3,704
48...
0,82
8309
-0,632
215
-1,117
93-0,952
129
960
-4,451
130,24
414
-1,591
87-4,007
39...
-1,224
35-1,311
781,40
53-1,125
449
61-3,246
250,53
8351
-2,282
88-3,610
45...
-0,082
2695
-0,674
677
1,40
586
-0,547
719
9
88
APÊNDICE B
As tabelas abaixo ilustram os genes, seus níveis de expressão gênica e sua classi�cação,dentre as 9 classes possíveis (Tabelas 2, 3, 4 5, 6 e 7).
89
Tabe
la2:Có
digo
seexpressãogênica
dosg
enes
daba
sede
dado
sB1
Cód
igos
eexpressãogênica
dosgene
sda
base
deda
dosB
1
Amostra
0011
0050
0097
0127
0194
0242
0289
0348
0366
0828
0839
0863
0881
Classe
1-0,103
522
0,07
4919
90,77
4746
-1,716
29-0,732
035
1,35
166
-2,074
22-2,047
330,46
645
-0,364
501
-0,733
991
0,83
4798
0,15
6616
12
-2,214
18-2,278
82-2,412
330,46
2524
-2,056
25-0,541
687
-2,208
3-0,564
796
0,31
0698
-0,278
658
-0,023
6491
-0,001
3386
40,40
6395
13
-0,829
12-0,629
544
0,60
3895
-2,355
66-1,529
581,03
772
-3,260
92-3,008
94-0,087
3521
-0,758
008
-1,145
560,93
9854
-0,736
931
14
-3,513
911,65
066
0,38
0296
0,28
0169
0,04
1092
5-1,217
63-0,954
262
-1,007
470,58
3922
0,41
2475
-0,301
249
0,65
2274
-0,465
053
15
2,02
585
0,88
2851
0,60
1008
-0,086
2014
-0,076
2004
0,61
535
0,05
3392
6-2,197
360,51
6784
1,02
590,77
6571
0,58
0852
0,84
7398
16
0,33
6447
-0,169
524
-0,704
792
1,32
164
-0,272
202
0,62
2776
0,49
1263
-0,684
165
0,30
4506
-0,724
929
0,32
339
0,13
3891
0,22
2303
17
-3,807
93-3,030
94-3,109
15-2,000
82-2,254
24-1,359
33-1,305
18-1,118
02-1,121
14-1,316
43-1,337
91-1,247
76-0,715
655
18
1,40
794
1,61
487
0,17
9707
-0,404
795
-0,554
994
-0,359
214
-1,626
07-2,201
061,38
448
0,41
2437
1,33
742
1,13
253
1,57
853
29
0,58
6283
0,98
0219
0,52
0937
0,89
8916
-0,216
614
1,27
262
-1,250
22-1,578
640,23
6351
0,14
1967
0,94
3141
1,13
712
0,95
4878
210
2,00
007
0,13
0301
0,29
7864
-0,448
922
-0,116
546
0,30
9864
-1,906
2-2,223
740,07
1138
-0,664
907
1,50
146
0,67
1309
1,15
145
211
0,49
241
0,78
6922
0,36
7203
0,72
829
0,45
7588
-0,304
991
-0,615
864
-0,729
053
0,53
7549
0,60
5988
0,56
2647
0,73
2964
1,17
502
212
0,47
1609
1,48
882
0,84
7666
0,30
918
-0,307
932
0,92
5249
-2,517
1-2,647
110,29
2831
-0,213
347
1,04
789
1,08
715
0,70
6803
213
2,18
319
0,89
6251
0,28
5514
0,73
0159
-0,292
397
0,14
2945
-0,598
794
-0,010
3232
0,56
9385
0,67
578
0,53
1138
0,53
1094
1,57
358
214
-2,692
13-2,412
28-0,590
777
-1,735
79-1,189
640,54
3226
0,48
4663
-0,618
737
0,36
123
-0,614
338
-0,010
8392
0,59
7166
-0,465
481
315
-2,292
05-2,304
48-2,806
79-1,872
27-2,188
09-0,913
112
-0,217
442
-1,622
05-0,572
95-1,530
81-0,696
569
-2,379
72-1,541
853
16-4,292
16-2,801
98-1,967
33-1,946
96-1,857
85-1,796
810,15
7092
-2,184
78-1,471
46-2,061
76-0,391
953
1,11
249
-1,312
453
17-2,035
7-2,889
37-1,619
38-1,815
46-1,782
42-0,269
746
0,40
6382
-1,295
520,00
2198
04-1,172
16-0,734
569
-0,983
874
-0,772
641
318
-3,388
21-3,119
57-2,896
18-2,827
73-2,060
260,38
5011
0,16
7933
-1,009
650,10
8283
-0,720
46-0,723
643
-1,417
91-1,283
293
19-2,844
01-2,796
49-2,434
53-1,910
15-1,814
970,43
657
0,60
8268
-1,538
360,12
3147
-1,113
790,06
8236
-0,280
746
-0,607
476
320
-3,689
07-4,645
72-2,426
95-0,626
419
-1,787
39-0,452
533
0,09
7480
8-1,212
19-0,419
689
-0,328
80,34
7022
-1,195
81-0,896
939
321
-2,879
48-0,742
572
-0,407
514
-2,048
75-2,414
12-0,595
085
-0,586
813
-0,354
366
-0,852
477
-0,819
172
-1,292
540,17
3609
-0,692
541
422
-6,158
681,13
220,28
3168
-3,266
54-4,016
84-2,519
712,39
585
-1,995
33-0,240
053
0,24
4785
-1,290
96-0,033
4306
-0,736
428
423
-3,762
53-1,129
04-1,340
95-1,706
78-3,426
090,12
2901
0,63
1448
-2,100
76-0,417
069
-1,424
28-0,662
854
-0,100
966
-0,860
344
424
-4,142
991,39
347
-0,527
461
-3,204
84-5,163
98-2,084
391,04
189
-2,958
8-0,173
309
-1,807
35-2,203
922,07
077
-1,019
064
25-3,287
051,23
160,71
5167
-2,812
73-3,133
02-0,695
066
1,63
402
-2,530
46-0,440
182
-2,068
4-1,795
031,05
069
-0,794
289
426
-3,089
38-1,967
79-3,071
2-0,720
666
-0,826
02-1,918
35-0,831
813
-1,630
9-0,737
671
-0,565
236
-0,578
867
-0,900
492
-0,269
402
427
1,17
806
-0,645
115
0,04
6769
2-0,776
113
-0,460
068
1,15
558
1,99
245
-1,869
310,37
2313
0,22
3906
-0,364
876
0,69
686
-0,517
255
528
-0,410
018
-2,269
390,08
5187
8-1,511
3-0,444
469
0,33
6779
-1,238
46-1,608
14-0,558
132
-0,096
6399
-0,866
592
0,92
2814
-0,530
827
529
-1,493
99-4,239
730,09
0547
1-1,458
46-0,868
005
0,95
2073
2,54
113
-1,969
41-0,387
58-0,796
449
-0,514
040,30
5297
-0,508
335
300,39
3862
-0,765
177
-0,040
5467
-1,973
91-1,103
041,68
784
0,29
2586
-1,828
220,67
8946
-0,162
251
-1,649
110,84
1132
-0,150
524
531
0,92
3374
-2,014
37-0,192
461
-1,868
-0,527
787
2,15
467
1,25
614
-1,837
160,65
9145
0,21
2095
-0,312
122
1,26
541
0,62
0948
532
0,08
5504
6-2,823
76-0,664
243
-1,613
34-1,045
31,08
286
0,39
5048
-1,521
670,03
0976
3-0,482
929
-0,673
715
-0,125
413
0,28
1064
533
-1,055
591,10
612
-0,535
704
0,64
1826
0,86
2049
0,73
7617
0,71
7859
-3,220
70,58
7051
-0,203
198
-0,043
0824
0,88
6055
-0,722
265
34-0,384
449
-1,224
56-0,170
168
-2,230
68-1,285
530,58
6728
-0,733
935
-2,542
510,49
3198
0,21
6003
-0,638
189
0,87
5273
0,04
6113
45
350,31
306
0,61
4041
0,82
009
0,51
3128
0,69
8346
-0,331
419
0,73
4916
0,72
6677
1,11
414
-0,014
5314
1,15
386
0,92
0167
0,88
3913
636
-2,507
61-0,238
344
1,07
764
-0,035
4999
0,54
1246
-1,086
19-0,464
893
0,47
1643
0,59
3036
0,04
8467
10,18
921
0,82
0677
-0,097
9766
637
-2,425
24-1,445
091,75
240,05
3924
5-0,218
165
-0,636
298
0,58
409
1,15
336
0,14
2132
-0,446
367
-0,474
743
0,11
9492
-0,541
702
6
90
38-2,413
94-0,071
8925
-1,218
7-1,076
79-1,358
4-1,095
22-1,221
450,16
2176
-0,080
729
-0,226
777
-0,063
9266
-0,286
434
-1,300
176
39-2,673
37-0,147
557
0,97
0814
-1,078
19-1,529
43-0,783
347
0,57
0793
0,97
9778
2,32
308
-0,527
892
-0,282
687
0,91
6263
-0,801
252
640
-3,246
140,17
4114
-0,302
184
-1,644
22-1,868
95-3,455
58-1,994
76-2,540
920,17
8187
-1,060
272,10
983
-0,052
8301
-1,362
096
41-0,199
181
1,06
124
-1,336
86-0,099
0531
-0,335
269
-1,945
10,63
5635
-1,245
671,28
469
0,67
1287
-0,506
219
-0,577
277
0,94
2283
642
1,87
582
1,29
876
0,45
6242
1,52
092
0,82
5242
0,28
7893
-0,440
944
1,95
797
0,28
9187
-0,119
422
0,74
5059
1,11
234
0,09
0140
46
43-2,334
44-2,283
790,76
3652
-0,619
977
-0,289
064
-0,732
774
1,41
52-1,038
171,58
669
-0,119
221,70
361
0,84
011
0,60
7704
644
0,26
2613
3,01
561
1,31
018
1,40
401
0,55
978
1,00
650,78
6736
0,71
8503
1,33
121
0,89
6285
-0,393
228
1,05
361
0,90
7079
745
0,53
0779
0,47
7625
0,41
2877
1,83
338
0,95
7326
-0,067
8755
1,57
048
0,76
5237
0,05
1733
0,32
3563
-0,510
282
0,49
8072
1,06
657
746
-2,103
920,63
8376
-0,079
1271
0,60
5212
1,40
616
0,45
3661
-0,066
5868
0,50
9037
-0,197
069
-0,535
656
-0,263
124
-0,038
4527
0,18
6147
747
-4,057
49-1,511
220,04
4917
30,10
6034
1,26
553
1,02
371
-0,990
445
1,10
968
0,73
9371
1,17
027
-0,201
468
-0,868
864
0,95
7581
748
-3,162
290,42
0312
-0,738
013
-0,375
574
-0,727
247
0,36
9401
0,58
8803
-0,863
161,02
351
-0,138
821
-0,088
6083
0,25
6372
0,13
3302
749
-3,393
431,08
845
-0,831
538
-1,253
410,21
0505
-0,055
4015
-0,076
3907
-1,903
750,02
5112
-0,942
-0,280
944
-0,886
571
-0,552
479
750
1,19
139
1,22
537
1,73
514
1,78
471
0,99
3739
0,79
0705
0,88
1833
-0,814
253
1,38
997
1,99
828
0,62
4905
0,68
9459
1,64
018
851
-2,323
1-1,184
632,59
287
1,33
982
0,27
0411
-0,592
037
-0,758
778
-1,457
670,21
315
0,96
8477
-1,668
190,10
7753
0,84
7117
852
1,23
518
-0,152
463
0,75
911,58
115
0,42
5561
-4,039
470,64
5642
-1,201
610,51
7934
1,14
885
-0,189
698
-1,314
591,37
064
853
-0,154
612
-1,301
481,67
287
0,32
6719
0,28
034
-0,360
302
0,69
9735
-1,814
280,93
1002
-0,570
926
-0,819
902
0,25
560,38
8869
854
1,44
623
-0,590
017
2,18
464
1,48
30,40
5446
-0,040
4916
1,16
946
-1,043
150,85
6753
2,16
557
0,48
2948
0,31
8704
1,17
886
855
-0,269
493
0,27
1419
2,12
176
0,73
4052
-0,333
213
-0,229
171,04
013
-2,234
340,17
8397
0,12
7597
-0,426
538
0,34
4658
0,96
6374
856
0,23
8757
-0,899
222
2,32
858
1,12
464
0,85
3164
0,82
8158
0,54
2677
-1,108
330,45
591
0,07
7686
70,01
1962
40,39
5237
0,67
8021
857
-0,440
923
-0,019
8836
1,74
694
1,14
677
-0,224
056
-0,083
6071
-0,789
598
-1,355
140,54
7858
0,59
3202
-0,998
126
-0,111
460,21
8254
858
-3,546
53-3,087
79-3,625
45-1,640
65-2,112
45-1,638
71-1,030
34-1,625
91-0,585
83-1,471
36-1,169
89-0,836
162
-0,149
909
959
-3,502
23-2,337
92-2,524
27-1,033
33-1,586
14-1,072
98-1,164
99-0,369
161
-0,607
675
-1,042
61-0,978
751
-0,674
263
-0,125
554
960
-2,248
22-2,173
69-2,177
27-1,995
02-0,232
019
-2,283
49-0,387
918
-0,851
332
-3,146
75-0,345
106
-0,428
909
-0,966
665
-0,196
995
961
-3,545
28-3,086
4-2,525
07-2,607
18-1,001
57-2,723
77-0,953
137
-1,519
44-5,952
47-0,695
914
-0,699
754
-1,225
13-0,799
339
9
91
Tabe
la3:Có
digo
seexpressãogênica
dosd
ezprim
eiros
gene
sdaba
sede
dado
sB2
Gen
esesuas
expressões
gênicas
Amostras
0002
0017
0018
0019
0028
0075
0097
0141
0224
0231
Classe
1-4,508
51-0,337
059
-0,116
572
-3,513
51,26
755
0,48
7778
0,77
4746
-0,601
873
0,31
5961
0,46
8817
12
0,26
7668
-2,600
75-2,432
950,34
3207
-0,438
180,37
5522
-2,412
33-0,440
962
-0,910
274
-0,411
599
13
-6,197
36-1,004
59-0,523
421
-4,025
360,79
0664
0,42
316
0,60
3895
-1,109
87-0,358
966
0,55
3991
14
-3,097
17-1,099
761,47
741
-2,546
87-0,961
194
1,95
633
0,38
0296
0,80
071
-0,164
686
1,29
704
15
-3,769
181,90
559
1,66
304
-3,590
620,45
1119
0,48
9401
0,60
1008
1,75
136
1,10
089
0,40
6921
16
-4,884
8-0,371
121
1,73
563
-4,307
540,10
7885
0,27
7914
-0,704
792
1,40
622
-0,111
332
-0,497
452
17
0,41
0967
-4,702
41-2,917
120,67
6599
-2,451
78-1,827
78-3,109
15-0,853
595
-0,998
001
-1,871
131
8-4,649
781,05
331,31
886
-3,366
850,82
4513
1,36
745
0,17
9707
-0,332
799
1,13
079
0,94
1352
29
-3,939
920,18
646
1,05
696
-3,020
711,23
568
1,42
367
0,52
0937
0,94
428
0,34
3336
0,78
9843
210
-3,713
340,01
1359
22,02
081
-3,013
91-0,541
978
0,34
5248
0,29
7864
0,50
5982
0,98
5056
-0,838
194
211
-4,927
440,66
4066
1,63
741
-2,452
24-1,502
781,01
785
0,36
7203
1,28
713
-0,827
346
0,78
5339
212
-4,250
94-0,372
414
1,69
849
-3,925
81,02
431,25
030,84
7666
0,34
651
-0,664
20,40
8859
213
-4,898
470,40
8468
-0,229
39-3,375
65-0,184
535
0,58
102
0,28
5514
0,45
4732
-0,239
393
0,74
6571
214
1,26
645
-0,733
324
-1,472
071,43
666
-1,756
720,01
0556
5-0,590
777
0,29
7345
-1,208
50,07
6980
23
151,07
009
-4,704
19-1,440
961,04
022
-1,323
562,07
231
-2,806
79-2,394
3-0,666
840,58
5915
316
-0,338
11-2,620
27-0,236
484
-0,245
908
-0,986
45-0,255
764
-1,967
33-1,715
35-2,569
73-0,091
623
171,50
375
-3,917
24-2,923
731,50
194
-2,485
020,25
7606
-1,619
38-0,780
028
-0,542
577
0,20
4203
318
2,24
431
-4,341
5-2,945
592,23
819
-1,327
561,65
542
-2,896
180,87
8451
-0,801
437
-0,149
849
319
1,41
686
-3,976
08-2,016
461,50
591
-1,968
89-0,694
375
-2,434
53-1,397
34-0,705
848
0,23
6278
320
1,79
236
-4,611
55-3,041
381,61
087
-4,910
521,94
995
-2,426
950,16
0983
-0,678
181,15
541
321
-0,250
697
-2,715
82-0,796
259
-0,419
231
-2,127
61-0,826
22-0,407
514
-0,012
4978
-2,273
84-1,954
944
22-4,381
12-5,066
32-2,798
15-3,202
75-4,460
210,92
5874
0,28
3168
-0,165
052
-2,737
720,58
795
423
-3,515
77-3,537
22-3,260
23-3,355
46-2,402
25-2,642
49-1,340
95-1,520
68-2,769
37-2,633
174
24-4,017
98-4,588
58-4,311
09-3,142
21-3,931
66-3,643
05-0,527
461
-3,671
23-3,371
01-3,641
494
25-4,076
27-4,300
51-3,316
91-3,735
68-3,518
28-3,453
850,71
5167
-2,857
85-3,126
45-2,925
954
26-0,515
63-4,411
76-3,485
74-0,538
944
-1,654
69-3,991
63-3,071
2-4,373
96-2,494
94-3,028
454
27-4,448
25-0,070
5998
-0,590
805
-3,965
552,13
124
0,68
1558
0,04
6769
20,02
0018
51,12
187
0,20
1523
528
-3,292
38-0,793
769
-2,541
99-3,194
30,39
4608
-0,618
114
0,08
5187
80,17
9949
-0,541
336
-0,028
039
529
-5,433
41-0,121
207
-1,927
93-3,529
751,35
325
-3,486
290,09
0547
11,36
791
-0,298
023
-0,036
9958
530
-4,387
6-0,481
043
-0,300
642
-3,714
141,45
413
-0,402
383
-0,040
5467
-0,686
775
0,05
1411
2-0,215
646
531
-3,602
260,50
6947
-1,129
72-3,26
1,86
334
-1,635
09-0,192
461
-0,010
832
0,26
4951
0,90
3693
532
-3,219
170,06
4611
4-0,169
651
-3,299
611,14
384
0,70
4115
-0,664
243
-0,440
671
0,23
7503
0,12
7389
533
-2,852
82-0,508
199
0,09
0946
3-3,629
85-0,223
02-0,933
449
-0,535
704
0,70
8899
0,38
5015
1,13
853
534
-3,814
34-0,210
048
0,04
8828
5-3,324
610,78
0449
-0,179
484
-0,170
168
-1,274
550,23
1756
0,35
137
535
-2,435
930,28
2223
1,52
297
-1,788
810,31
4759
-0,253
444
0,82
009
2,21
143
1,13
973
0,94
7879
6
92
36-1,386
29-0,612
974
-0,189
354
-1,589
09-0,224
662
1,01
911
1,07
764
0,40
9918
0,00
4748
830,47
1709
637
-2,220
66-0,859
775
0,34
4879
-1,910
981,01
039
0,50
5603
1,75
24-0,099
5294
0,71
8602
0,23
3168
638
0,75
296
-2,920
49-0,751
447
0,92
8465
-0,459
217
-2,750
17-1,218
7-0,333
738
-0,917
84-0,066
136
39-3,500
06-1,171
76-0,846
374
-4,310
560,20
9739
0,70
2584
0,97
0814
0,47
3076
0,69
259
1,35
516
640
-3,850
22-0,419
221
-2,895
-3,387
18-2,555
19-3,399
45-0,302
184
-0,055
3295
-4,358
40,92
9327
641
-2,557
37-0,544
937
1,71
558
-2,221
520,25
8625
1,86
874
-1,336
861,21
499
0,91
8059
0,50
8529
642
-3,072
89-0,922
308
0,10
3946
-3,267
66-0,357
875
0,26
4378
0,45
6242
0,84
0762
-0,381
537
0,91
5253
643
-2,669
95-0,593
702
0,52
8374
-2,246
880,24
4994
1,02
921
0,76
3652
0,77
6011
1,35
472
1,11
443
644
0,09
0369
-1,546
221,82
909
0,29
9648
2,15
323
2,47
786
1,31
018
0,94
0882
-0,000
4249
021,61
928
745
-2,040
7-0,025
6595
0,28
7134
-1,664
94-1,030
34-0,225
040,41
2877
1,55
535
-0,136
178
1,85
885
746
0,80
3413
-0,397
069
-0,796
434
0,81
7594
0,00
0907
711
0,72
2143
-0,079
1271
-0,275
441
0,08
7368
5-0,402
553
747
1,09
893
2,18
631
-1,234
111,33
306
-0,161
957
-0,815
032
0,04
4917
30,20
689
0,72
9631
0,74
1929
748
-0,152
521
-2,683
87-0,122
63-0,237
039
0,89
5815
0,43
8666
-0,738
013
-0,110
954
1,23
254
0,80
8001
749
-1,045
24-1,132
58-1,422
09-0,958
473
1,03
653
-0,689
701
-0,831
538
-0,642
301
-0,186
687
0,32
4727
750
-0,347
050,92
0139
1,20
869
-0,195
479
2,04
715
0,25
0675
1,73
514
1,53
571
1,81
311
1,34
029
851
-0,757
72-1,917
98-0,265
394
-0,710
911,06
212
0,39
7646
2,59
287
-0,229
233
-0,096
7748
0,72
6098
852
-4,702
77-2,840
481,45
396
-3,075
6-0,016
0491
0,13
0352
0,75
912,11
516
-0,450
487
1,37
938
853
-2,483
72-0,918
659
0,78
9364
-2,489
1,77
544
-0,096
5556
1,67
287
0,94
6485
-0,371
652
-0,084
9264
854
-2,992
9-0,321
648
1,35
242
-2,642
011,85
912
0,77
2677
2,18
464
1,23
691
1,15
106
0,75
8469
855
-3,100
340,15
8647
0,97
3178
-2,623
791,56
061
0,57
0008
2,12
176
0,67
0583
0,45
1686
0,43
378
856
-3,296
860,12
611
1,34
305
-3,438
221,26
926
0,61
6999
2,32
858
0,79
5452
-0,075
7759
0,58
3863
857
-0,805
609
-1,697
131,05
458
-0,645
084
1,19
090,76
5307
1,74
694
0,29
2051
0,42
9605
0,82
6174
858
0,24
414
-4,500
53-5,350
130,37
2298
-2,309
05-2,473
39-3,625
45-1,248
74-0,621
853
-1,572
749
590,53
8351
-3,673
87-3,293
060,45
3264
-1,759
37-1,576
28-2,524
27-0,625
486
-0,467
699
-1,439
549
60-0,000
7763
01-4,038
-3,310
190,16
0958
-3,270
65-2,347
85-2,177
27-2,879
-1,517
53-2,174
969
61-0,495
942
-4,640
65-5,037
25-0,143
366
-4,838
51-2,872
58-2,525
07-3,706
94-2,141
93-3,350
039
93
Tabe
la4:Có
digo
seexpressãogênica
dosde
zúltim
osgene
sda
base
deda
dosB
2
Gen
esesuas
expressões
gênicas
Amostra
0235
0246
0280
0292
0302
0409
0499
0526
0637
0843
Classe
1-0,515
733
0,92
1301
-0,040
1955
-0,183
671
0,09
9616
31,26
979
0,17
9124
0,77
547
0,86
4763
0,64
7987
12
-0,514
945
-0,122
969
0,35
8636
-2,189
12-1,502
35-0,957
949
-0,741
93-0,353
981,39
079
1,11
175
13
-1,138
051,10
688
-0,222
135
-0,532
276
-0,538
659
1,62
18-0,385
338
0,69
4388
1,11
697
0,27
0405
14
0,61
3584
0,50
2628
0,59
7919
1,17
556
1,46
077
-0,274
920,00
0975
853
1,53
539
-0,024
048
0,03
2452
81
51,57
028
2,06
523
0,67
0213
1,31
194
1,54
360,19
1686
-0,076
5836
0,53
7336
0,56
749
1,07
641
16
1,17
388
1,36
603
0,36
5911
1,42
796
1,43
696
0,40
482
-0,748
932
0,81
097
-1,156
990,61
5342
17
-1,018
37-1,489
72-1,619
5-1,568
51-1,353
6-0,360
527
-2,625
18-0,095
4974
0,58
1828
-0,192
222
18
-0,206
956
1,51
256
0,52
2783
1,20
790,91
0651
1,00
432
0,03
5480
80,57
7905
-0,951
725
1,41
272
90,73
5171
1,05
532
0,45
5076
0,93
1361
0,86
5049
0,53
5273
0,97
5584
0,51
2237
0,19
4887
0,98
2211
210
0,34
9158
0,84
9092
-0,282
803
1,49
248
1,75
127
-0,505
967
-0,138
112
0,28
0999
0,38
4641
-0,094
8019
211
0,90
1404
1,14
948
0,93
913
1,42
787
1,69
294
-0,159
616
0,65
1218
0,99
4903
0,38
2547
0,46
3685
212
0,29
231
1,04
147
0,25
9673
1,51
549
1,60
014
0,14
6323
0,57
0392
0,75
2681
-0,073
9046
1,13
354
213
0,44
4304
1,18
875
0,70
9836
0,43
3777
0,43
4897
-0,184
408
0,39
1723
1,10
974
0,25
1034
0,48
8672
214
0,17
4037
-0,433
162
0,27
555
-1,040
93-0,425
406
-0,721
133
-1,032
18-0,358
862
0,55
7731
-0,526
954
315
-1,185
34-2,331
45-1,198
83-1,622
37-1,251
17-1,392
29-0,348
718
-0,096
4686
-1,005
57-0,951
923
16-1,690
09-0,536
451
-1,084
72-0,380
437
-0,328
425
-0,848
24-0,915
682
-1,326
330,03
1729
2-0,570
794
317
-0,558
247
-2,462
83-1,324
1-1,818
61-1,635
76-0,705
241
-0,326
291
-0,829
957
0,48
2984
-0,157
082
318
0,94
0425
-1,204
44-0,202
131
-2,429
48-1,943
96-0,788
282
-0,134
581,03
244
0,19
4685
-0,157
463
19-0,577
635
-2,261
64-0,046
8545
-1,435
87-1,345
97-1,308
86-0,791
337
0,04
5774
20,39
6511
0,35
7897
320
-0,479
448
-1,832
720,26
3095
-1,171
36-1,249
6-0,283
526
0,65
8042
0,61
5285
0,61
3426
0,11
3116
321
0,04
2984
2-0,672
263
-1,055
13-0,844
333
-0,576
423
-0,313
843
-1,478
12-0,926
148
-1,376
04-1,090
164
22-0,150
066
0,83
1934
-4,373
71-1,851
19-1,685
56-1,315
49-0,815
91-1,306
770,89
2716
-1,756
184
23-1,218
56-2,409
49-1,478
57-1,881
68-1,944
08-1,536
47-2,750
69-2,304
37-1,588
67-1,837
264
24-2,863
55-1,494
15-2,681
45-1,855
01-1,869
11-1,641
62-2,433
04-2,602
34-2,340
61-1,482
984
25-2,730
31-2,782
64-1,977
88-1,650
72-0,265
489
-0,840
606
-3,164
52-2,283
18-1,923
05-1,399
114
26-2,647
58-1,394
17-2,225
38-2,114
34-1,548
39-1,495
12-1,596
26-2,285
3-2,857
7-1,822
44
27-0,137
071,25
712
-0,001
2978
8-0,550
194
-0,539
786
1,73
343
-0,173
191
-0,012
7347
1,29
602
0,47
8424
528
0,22
0008
-0,292
395
-0,401
752
-1,777
23-1,824
310,87
0253
-0,572
574
-0,202
331
1,45
603
-0,414
298
529
1,24
733
0,52
6358
-1,538
67-1,797
38-1,415
99-0,809
556
-1,810
07-0,228
377
1,29
602
0,58
9857
530
-1,098
450,72
1852
-0,039
0497
0,07
1329
-0,074
9881
0,33
696
-0,441
043
1,00
939
0,35
7202
0,34
3044
531
-0,088
1586
1,68
473
0,43
3627
-0,303
109
-0,852
309
-0,173
336
0,22
3922
0,18
4095
1,15
226
0,93
3484
532
-0,521
074
0,90
0311
0,30
1705
-0,324
231
-0,224
173
0,53
3193
-0,272
054
-0,241
965
0,24
597
1,07
669
533
0,67
8049
0,48
8721
0,37
144
0,01
2411
3-0,098
7403
2,40
047
0,23
4297
0,72
9877
0,62
5644
-0,584
566
534
-1,287
540,85
7237
-0,274
175
0,43
4505
0,00
7420
461,15
413
-0,219
753
0,16
4703
0,89
8542
1,00
901
535
2,20
137
1,58
049
1,67
931
1,44
773
1,39
261
1,10
752
0,60
7226
1,93
184
1,11
067
0,72
4547
6
94
360,44
3835
0,20
2692
0,31
4256
-0,094
8575
-0,067
2807
0,09
1974
60,28
6794
0,19
2691
1,18
658
0,64
2552
637
0,07
9956
70,09
9310
2-0,361
401
0,26
3231
0,39
1199
0,43
6611
0,85
9523
-0,092
6942
0,79
9958
-0,017
8569
638
-0,206
69-2,084
62-0,483
935
-0,781
14-0,651
463
-1,212
58-0,396
336
-0,422
318
-0,099
1803
-0,109
373
639
0,01
3988
5-0,030
5028
0,78
4135
-0,868
35-0,568
267
-1,294
730,33
3106
0,07
6106
20,77
7935
0,08
7926
66
400,00
3092
37-2,509
730,01
7437
9-1,570
34-1,896
59-1,441
53-0,720
087
0,10
558
0,85
8501
-0,379
475
641
1,25
358
0,64
6247
0,41
2215
1,40
206
1,63
481
0,68
4364
0,94
1268
1,37
442
0,55
2731
0,61
3798
642
1,06
917
0,78
0539
1,15
764
0,06
0678
50,05
2400
1-0,668
131,37
872
0,56
802
0,98
0727
1,21
556
430,69
9917
-0,119
836
0,50
0983
0,60
2303
0,87
3755
0,20
443
0,56
920,47
0464
1,58
602
0,97
7005
644
1,15
069
1,11
158
1,60
627
1,88
111
1,72
065
0,37
1542
0,26
3784
1,62
342
0,24
0454
0,70
2232
745
1,22
695
1,07
920,01
6269
0,68
7002
0,38
7864
0,93
8265
0,89
4085
1,60
876
1,30
805
0,94
5032
746
0,00
6737
33-1,558
31-0,313
856
-0,757
684
-0,464
091
-0,407
693
-0,176
819
-0,726
978
-0,191
607
0,57
2707
747
0,44
8488
0,53
3118
-0,035
4362
-1,025
27-0,723
791
-0,433
021
0,03
4400
30,37
3211
-0,274
207
0,28
6855
748
-0,218
801
-0,480
561
0,86
3039
-0,090
101
-0,093
5466
0,00
3102
46-0,057
3801
-0,297
245
0,86
006
-0,343
652
749
-0,638
59-0,217
089
-0,220
408
-1,360
38-1,195
980,44
7424
-0,503
265
0,43
3422
0,24
5934
0,06
0884
77
501,44
175
0,68
7947
1,67
851,07
952
1,10
036
1,17
539
1,26
264
-0,154
571
1,42
497
0,79
5398
851
-0,014
4558
0,74
5998
1,04
923
-0,154
444
-0,346
267
0,77
2124
-0,037
6131
0,60
5829
0,38
5668
-0,386
962
852
2,01
045
0,52
5438
0,32
4409
1,19
664
1,34
072
0,42
9513
1,01
812
0,38
5935
0,68
9491
1,38
688
853
0,96
1054
0,92
634
1,09
664
0,65
1677
0,70
6478
1,34
541
-0,152
585
0,06
5711
90,06
6410
1-0,678
707
854
1,01
441
0,56
6964
1,44
021,07
258
1,10
136
0,90
853
0,73
3709
0,70
4871
0,64
0853
0,51
2456
855
0,26
0542
0,50
0643
0,41
7555
0,72
6732
0,88
5937
1,46
527
-0,143
604
0,25
1878
-0,034
5037
-0,354
784
856
0,49
4335
0,41
1906
0,18
915
0,97
1616
0,90
2151
1,93
853
-1,414
86-0,211
052
0,73
5241
0,06
1296
38
570,16
4695
0,04
5330
60,89
0685
0,95
6029
0,94
6043
0,61
9726
-0,184
181
-0,024
4084
0,93
5621
-0,528
28
58-1,439
64-1,757
54-1,836
03-1,111
22-1,994
39-1,306
37-2,468
38-0,164
288
0,36
8978
-0,245
405
959
0,00
0376
812
-0,789
906
-0,991
365
-0,461
935
-1,350
75-0,667
448
-1,860
020,33
3864
0,72
217
0,33
0521
960
-3,748
75-0,419
895
-2,513
29-0,983
59-1,879
3-3,095
97-1,145
17-2,143
24-0,671
-1,392
49
61-3,976
87-0,776
504
-3,175
69-1,387
51-1,977
72-2,151
-1,659
68-2,023
53-1,489
07-2,052
699
95
Tabe
la5:
Código
seexpressãogênica
dosno
veprim
eiros
gene
sda
base
deda
dosB
3
Gen
esesuas
expressões
gênicas
Amostra
0002
0041
0063
0097
0229
0379
0456
0475
0485
Classe
1-4,508
51-2,528
32-1,104
530,77
4746
-0,683
17-2,301
62-1,133
070,25
3977
-1,302
71
20,26
7668
-3,087
241,29
74-2,412
33-0,693
557
-0,883
685
2,53
544
-0,788
185
-0,854
117
13
-6,197
36-2,668
6-1,506
480,60
3895
-1,404
03-1,967
3-1,730
29-0,482
072
-2,064
461
4-3,097
17-2,152
46-1,827
980,38
0296
-1,908
560,86
8439
-1,353
65-0,148
024
-2,201
091
5-3,769
183,13
381
-1,834
260,60
1008
1,50
088
0,38
2379
-1,221
490,24
1089
-0,317
325
16
-4,884
8-0,342
498
-1,338
07-0,704
792
2,13
738
1,50
46-1,035
190,02
0658
6-0,865
357
17
0,41
0967
-3,470
07-2,270
14-3,109
15-2,165
59-0,420
848
0,68
51-1,528
05-1,962
871
8-4,649
781,29
692
-1,729
170,17
9707
1,18
536
-0,165
679
-0,028
420,25
6157
-1,537
42
9-3,939
92-1,720
83-0,500
528
0,52
0937
1,54
418
-0,763
413
1,21
861
0,70
2087
-0,638
692
210
-3,713
34-1,343
78-4,575
140,29
7864
1,23
02-0,815
058
0,07
1912
7-0,561
465
-1,808
472
11-4,927
44-0,060
8777
-1,999
410,36
7203
1,59
903
1,55
635
-0,772
605
0,30
0259
-0,014
546
212
-4,250
94-3,290
4-1,360
560,84
7666
2,01
684
-1,400
60,87
5864
0,00
5607
26-1,220
242
13-4,898
470,35
57-1,036
060,28
5514
1,35
518
0,06
3419
2-0,868
488
0,40
7251
-0,229
996
214
1,26
645
-2,870
560,05
6438
-0,590
777
-1,139
081,42
038
0,89
1777
0,00
9687
17-0,793
581
315
1,07
009
-3,544
7-0,180
16-2,806
79-2,070
750,33
4916
-1,480
9-1,466
42-1,291
893
16-0,338
11-3,941
17-0,198
896
-1,967
33-2,707
280,10
0886
-1,471
18-1,734
25-1,936
373
171,50
375
-3,273
320,16
4072
-1,619
38-1,447
210,89
6244
-0,585
318
-0,209
419
-1,034
793
182,24
431
-3,525
060,34
5721
-2,896
18-1,734
991,45
138
1,69
596
-1,650
7-0,714
454
319
1,41
686
-2,817
41-0,024
7991
-2,434
53-0,935
801
0,95
5075
-0,310
487
-2,707
6-0,893
618
320
1,79
236
-3,891
771,97
558
-2,426
95-2,999
051,33
129
-0,399
999
-0,277
586
-0,063
8095
321
-0,250
697
0,07
1937
5-2,763
06-0,407
514
-1,055
65-0,750
952
1,16
672
-0,792
581
0,80
9274
422
-4,381
12-3,836
13-1,416
450,28
3168
0,37
7106
-1,205
33-0,594
881,21
572
2,10
007
423
-3,515
77-3,489
03-0,338
194
-1,340
95-1,453
560,08
1743
20,64
4299
-0,552
416
2,31
652
424
-4,017
98-2,233
79-1,210
51-0,527
461
-0,683
611
1,66
608
-1,283
510,59
5915
2,58
904
425
-4,076
27-3,358
38-1,835
60,71
5167
-1,047
571,41
301
-1,016
71-0,069
9641
2,17
194
26-0,515
63-4,144
01-0,375
54-3,071
2-1,326
951,13
343
0,55
5626
-2,243
370,78
4443
427
-4,448
25-0,648
502
-1,763
190,04
6769
2-1,697
23-1,405
71-0,891
902
0,94
26-0,684
821
528
-3,292
380,24
2232
-2,298
740,08
5187
8-1,556
61-1,301
19-0,980
360,32
4644
-1,019
675
29-5,433
41-1,936
87-0,809
961
0,09
0547
1-1,093
580,05
9666
4-1,225
76-0,084
0419
-1,820
335
30-4,387
6-1,073
74-1,982
35-0,040
5467
-1,422
95-1,046
07-1,400
23-0,029
1383
-0,637
698
531
-3,602
261,57
608
-0,336
561
-0,192
461
-1,441
13-0,107
695
-1,014
860,16
7182
-0,468
927
532
-3,219
17-0,598
032
-1,484
73-0,664
243
-1,724
1-0,859
252
-0,994
975
-0,006
7568
6-1,042
675
33-2,852
82-0,758
641
-4,464
72-0,535
704
-0,967
703
-0,470
282
-1,355
131,27
071
-0,240
15
34-3,814
34-1,677
27-1,476
96-0,170
168
-0,883
976
-1,235
16-1,223
46-0,436
748
-1,668
585
35-2,435
93-0,436
431
-0,515
188
0,82
009
0,98
5526
1,66
317
-1,174
910,80
4229
-0,347
734
6
96
36-1,386
29-1,767
37-1,333
051,07
764
-0,211
299
0,79
1063
-0,598
743
0,32
0321
-1,153
946
37-2,220
66-2,054
28-0,144
939
1,75
24-0,406
675
1,14
683
-0,968
743
-0,090
7589
-0,758
136
638
0,75
296
-2,762
27-2,658
54-1,218
7-0,706
613
0,39
5961
-0,344
097
0,29
2664
-0,921
065
639
-3,500
060,92
4406
4,51
673
0,97
0814
-3,076
152,49
773
1,84
698
-0,057
1699
-0,553
393
640
-3,850
22-3,775
11-1,461
91-0,302
184
0,17
3081
1,51
156
-0,971
103
-0,600
641
-1,484
896
41-2,557
370,30
7192
-3,676
32-1,336
86-0,480
241
0,26
8793
-0,071
3054
-0,262
824
-1,063
916
42-3,072
89-2,938
76-1,837
230,45
6242
-0,144
715
0,45
8751
-1,038
521,39
474
-0,921
014
643
-2,669
95-2,726
910,82
4269
0,76
3652
0,89
9415
0,99
9218
-0,440
553
0,92
4992
-0,187
128
644
0,09
0369
-2,163
742,67
404
1,31
018
-0,670
896
0,67
1503
-0,399
219
1,00
723
-0,077
8896
745
-2,040
7-0,998
101
0,32
451
0,41
2877
0,22
2206
0,79
3046
-1,960
620,94
3491
-0,944
933
746
0,80
3413
-3,392
590,90
3812
-0,079
1271
-1,289
7-0,446
136
-0,145
526
-0,025
3096
-1,166
517
471,09
893
-2,795
071,54
208
0,04
4917
3-0,761
665
-0,595
433
-0,727
845
0,37
3393
-0,766
875
748
-0,152
521
-2,577
561,70
697
-0,738
013
-1,113
290,30
0915
-1,216
19-0,128
055
-1,283
337
49-1,045
24-3,324
761,53
542
-0,831
538
-1,343
760,00
6076
64-1,325
570,41
5411
-1,176
37
50-0,347
050,12
6747
-0,587
027
1,73
514
-1,113
920,66
8416
-0,411
544
0,41
2843
-0,647
733
851
-0,757
721,11
612
-0,510
696
2,59
287
-1,295
5-1,858
66-2,552
550,52
4935
-1,343
38
52-4,702
77-2,438
03-1,226
220,75
911,43
544
2,01
47-1,359
850,06
6686
1-1,080
548
53-2,483
720,16
8968
-2,711
161,67
287
0,94
4128
-1,400
27-1,840
6-0,498
949
-1,433
988
54-2,992
90,00
1329
52-1,557
082,18
464
0,74
6293
0,08
0575
10,21
4438
0,23
8967
-0,422
169
855
-3,100
340,92
6016
-1,731
792,12
176
0,38
0485
-0,997
61-1,289
980,49
072
-0,989
493
856
-3,296
86-3,665
08-0,453
838
2,32
858
-0,520
676
-1,459
7-1,242
56-0,114
044
-1,073
168
57-0,805
609
-0,509
364
-1,539
391,74
694
-1,972
210,29
6118
-1,702
720,22
0399
-1,222
228
580,24
414
-4,190
64-1,854
19-3,625
45-2,033
89-0,858
030,98
2003
-1,252
92-1,406
539
590,53
8351
-3,189
97-3,020
91-2,524
27-1,742
69-0,153
515
0,68
4054
-0,413
168
-0,652
202
960
-0,000
7763
01-2,909
50,70
997
-2,177
27-1,757
211,30
706
1,25
025
-3,232
331,22
267
961
-0,495
942
-3,670
04-0,034
1226
-2,525
07-1,053
131,06
761,09
423
-4,188
60,50
919
9
97
Tabe
la6:Có
digo
seexpressãogênica
dosoito
últim
osgene
sda
base
deda
dosB
3
Gen
esesuas
expressões
gênicas
Amostra
0525
0531
0637
0721
0786
0870
0890
0929
Classe
1-0,342
740,22
6085
0,86
4763
1,50
271
0,71
234
1,15
217
0,40
4458
-0,486
982
12
-0,075
1498
0,24
8734
1,39
079
0,26
6416
-0,050
0898
0,00
2839
3-0,306
922
0,14
3486
13
-0,742
543
0,41
9914
1,11
697
1,68
135
0,51
6872
1,12
689
-0,650
673
-0,567
731
4-0,849
267
0,87
4263
-0,024
048
0,32
5731
0,29
8347
0,83
0463
1,15
90,08
838
15
0,91
0028
1,35
653
0,56
749
0,76
8198
1,50
777
0,48
8041
0,67
8679
0,09
0946
21
60,77
2914
0,29
5314
-1,156
990,30
9573
1,54
846
1,12
688
1,29
196
0,61
2791
17
-1,167
93-1,260
330,58
1828
-0,874
761
-1,054
24-0,708
219
0,22
7464
-0,752
572
18
0,72
8028
2,97
911
-0,951
725
-0,350
192
0,24
2187
2,07
317
0,78
7704
0,49
9288
29
0,80
4104
0,81
3123
0,19
4887
-0,403
697
-0,876
943
1,99
649
0,93
556
0,21
8734
210
-0,627
531
-1,346
020,38
4641
-0,589
293
0,96
8493
0,24
069
-0,368
826
0,39
3078
211
0,47
8564
2,00
909
0,38
2547
0,02
3364
-0,651
698
0,72
531
-0,026
0698
0,48
2588
212
0,61
9733
0,27
9664
-0,073
9046
-0,384
601
-1,744
381,64
153
1,32
416
0,31
967
213
0,86
5112
1,19
911
0,25
1034
0,32
9994
-0,430
974
1,31
909
0,02
0805
90,34
5522
214
-0,222
525
0,52
4755
0,55
7731
-0,338
098
0,06
6861
3-0,461
642
0,94
3419
0,81
1608
315
-0,740
761
-0,420
995
-1,005
57-0,680
318
1,29
371
-1,135
670,08
2206
1-1,018
823
16-1,470
44-0,991
887
0,03
1729
2-0,471
803
-0,794
357
-1,632
2-1,195
27-0,638
073
317
-0,476
278
-0,159
554
0,48
2984
-0,189
103
0,46
9378
-0,190
227
-0,489
558
-0,269
691
318
-0,363
043
0,25
1814
0,19
4685
1,48
121
0,01
2759
5-0,665
707
1,39
130,20
0639
319
0,09
0949
40,50
2212
0,39
6511
-0,611
977
-0,325
317
-0,754
419
-1,051
49-0,148
307
320
0,58
5554
1,25
937
0,61
3426
0,17
1295
1,21
783
0,09
1149
5-0,488
017
0,33
498
321
-0,994
972
-0,047
5314
-1,376
04-1,403
380,04
9823
6-0,482
63-0,681
265
-0,173
116
422
-0,040
3817
0,19
3005
0,89
2716
-0,839
313
0,97
5476
-0,314
582
-1,976
320,68
6159
423
-1,073
53-0,271
704
-1,588
67-0,079
441
0,20
3455
0,00
3367
86-1,121
960,27
9146
424
-0,637
169
-0,059
5157
-2,340
610,76
2345
-1,236
19-0,389
625
-0,733
183
-0,214
183
425
0,02
7684
0,28
6907
-1,923
050,27
2856
-1,494
18-0,817
086
-0,541
836
0,06
7315
44
26-1,083
540,14
0835
-2,857
70,22
31-0,915
117
-0,851
546
-1,012
610,01
7415
74
270,08
2674
30,14
6953
1,29
602
1,73
229
1,29
134
0,70
6108
0,74
0924
0,61
5231
528
-0,395
351
-0,122
192
1,45
603
1,86
567
0,10
062
0,18
0805
0,64
7504
-0,319
451
529
-0,278
504
0,36
6459
1,29
602
2,55
948
0,14
013
0,97
713
0,29
1277
0,65
8379
530
-0,222
466
-0,008
9293
50,35
7202
1,75
981
0,37
1587
2,06
302
0,03
5574
1-1,410
935
310,02
6961
10,42
3546
1,15
226
1,88
030,12
5448
1,80
607
-0,064
4408
-0,822
778
532
-0,215
317
0,25
9296
0,24
597
1,62
243
-0,429
031
0,52
4412
0,10
0622
-0,168
547
533
-0,596
783
0,31
7561
0,62
5644
1,09
604
-0,207
13-0,403
128
-0,092
2052
0,42
7898
534
-0,746
354
0,15
1035
0,89
8542
1,91
113
0,69
9588
1,01
546
0,44
2522
-1,204
455
350,24
4216
2,37
495
1,11
067
0,29
8101
0,99
684
1,17
266
1,26
811,35
781
6
98
36-0,621
673
0,49
9473
1,18
658
0,19
6106
0,98
067
-0,314
285
-1,488
460,25
4491
637
-0,952
280,14
6302
0,79
9958
0,13
2907
0,13
6013
-0,441
987
-0,939
279
1,26
553
638
-0,550
086
0,30
0122
-0,099
1803
-0,970
357
0,90
0778
-0,500
487
-1,122
69-0,597
517
639
-5,501
2-2,077
780,77
7935
0,48
3952
0,04
7671
20,01
6806
9-0,713
809
0,32
0174
640
1,53
309
0,48
4279
0,85
8501
1,59
887
-1,944
47-1,415
23-0,828
002
1,02
142
641
-0,208
807
1,33
170,55
2731
0,94
7681
0,92
6666
0,97
5643
-0,709
232,23
521
642
-0,302
731
0,71
5826
0,98
0727
0,26
3438
-0,008
4857
40,19
6704
-1,396
340,74
4581
643
1,20
451
1,46
404
1,58
602
1,04
283
2,18
708
0,53
3722
-0,875
466
1,12
093
644
0,64
2603
1,39
770,24
0454
1,15
181
0,84
9571
-0,225
222
-0,769
242,60
042
745
-1,126
970,57
5814
1,30
805
1,48
436
-0,174
304
-0,109
13-0,614
419
0,65
8237
746
0,77
4201
-0,014
5072
-0,191
607
-0,102
460,21
5837
-0,118
28-0,691
352
-0,487
457
747
1,43
953
0,10
6395
-0,274
207
-0,817
699
0,20
8731
0,21
093
-0,728
166
-0,034
0787
748
-1,225
80,56
1699
0,86
006
-0,428
225
1,55
31-0,445
368
-0,929
281
-0,145
585
749
-0,279
961
-0,338
307
0,24
5934
-0,432
619
-0,965
539
-0,581
884
-1,377
41-0,289
138
750
0,57
5231
4,96
096
1,42
497
1,05
185
0,95
1399
0,32
5106
0,28
1058
1,01
376
851
-1,478
2-0,234
988
0,38
5668
0,15
1716
-0,104
245
-0,130
42-1,650
96-1,137
678
52-0,319
569
1,25
405
0,68
9491
1,47
288
-0,465
439
0,29
5017
0,02
2364
71,04
232
853
-0,711
824
-0,139
605
0,06
6410
1-0,191
405
-0,052
3665
0,22
2589
-1,062
72-0,352
899
854
0,23
7857
0,71
673
0,64
0853
1,45
947
1,28
062
0,19
5471
-0,651
795
1,00
524
855
-0,490
034
0,19
8918
-0,034
5037
0,45
4319
0,19
6879
0,29
7011
-0,564
416
0,25
1085
856
0,00
9713
88-0,139
301
0,73
5241
0,40
8146
0,13
4313
-0,002
9957
1-0,990
56-0,355
118
857
-1,092
050,13
9997
0,93
5621
0,97
2988
-0,383
086
-1,109
21-1,131
120,34
4182
858
-0,924
537
-0,212
501
0,36
8978
-1,087
86-1,146
11-0,340
339
0,59
33-1,514
519
59-0,809
208
-0,029
5062
0,72
217
-0,286
489
-0,677
789
-0,397
545
0,89
9428
0,37
6444
960
-1,564
96-0,147
492
-0,671
0,43
0535
-0,712
466
-0,456
266
-0,725
124
-2,130
249
61-1,594
69-0,565
252
-1,489
07-0,101
767
-1,247
92-0,735
205
-1,387
96-0,578
589
9
99
Tabe
la7:Có
digo
seexpressãogênica
dosg
enes
daba
sede
dado
sB4
Gen
esesuas
expressões
gênicas
Amostra
0011
0046
0177
0289
0306
0336
0380
0499
0661
0783
0865
0950
Classe
1-0,103
522
-2,488
380,17
6967
-2,074
22-0,924
886
0,95
9412
-1,915
270,17
9124
0,15
0177
-0,479
867
0,32
9944
0,31
6965
12
-2,214
18-1,306
46-0,888
01-2,208
30,55
5071
-1,024
170,25
2388
-0,741
930,90
1572
0,25
0217
0,66
6481
0,88
1566
13
-0,829
12-2,648
21-0,319
92-3,260
92-1,385
750,51
3009
-3,313
15-0,385
338
-0,438
888
-0,928
142
-0,052
4833
0,15
5949
14
-3,513
91-2,366
971,18
908
-0,954
262
-0,735
781
0,33
4405
0,11
7847
0,00
0975
853
-1,465
590,04
3204
4-0,734
477
-0,040
1793
15
2,02
585
1,73
176
1,97
470,05
3392
6-1,305
940,58
0403
-0,280
089
-0,076
5836
0,37
2751
-0,682
724
0,63
2387
0,54
9099
16
0,33
6447
-0,014
0956
1,22
492
0,49
1263
-2,670
64-0,429
315
0,16
5418
-0,748
932
0,31
4684
-0,083
4582
-0,122
622
0,49
0055
17
-3,807
93-2,017
08-2,573
59-1,305
18-0,139
116
-1,515
980,35
6728
-2,625
18-1,481
54-0,795
396
-1,085
43-0,109
984
18
1,40
794
2,70
436
0,40
8334
-1,626
07-3,102
080,58
7364
-2,178
830,03
5480
8-0,174
667
0,11
7736
0,08
8305
0,13
5017
29
0,58
6283
1,06
841
-1,125
26-1,250
22-0,289
796
0,68
5389
0,17
4856
0,97
5584
-1,172
610,74
6857
0,33
530,49
1329
210
2,00
007
2,00
387
-0,381
004
-1,906
2-2,987
320,33
4627
-0,725
257
-0,138
112
-1,131
35-1,187
42-0,232
572
-0,278
412
110,49
241
2,27
148
0,74
5534
-0,615
864
-1,688
010,40
0118
0,26
8942
0,65
1218
-0,230
067
0,61
9998
0,73
2934
0,92
0534
212
0,47
1609
0,96
2593
-1,557
39-2,517
1-1,095
250,76
577
-0,939
498
0,57
0392
-0,431
971
0,48
9305
-0,495
295
0,46
5243
213
2,18
319
2,60
307
0,88
0008
-0,598
794
-1,716
490,09
7407
10,60
3713
0,39
1723
-0,554
770,37
3359
1,16
762
5,38
997
214
-2,692
13-0,793
645
-1,103
740,48
4663
1,47
899
-0,457
014
1,13
982
-1,032
180,12
4446
0,28
3804
0,02
0558
60,52
1259
315
-2,292
05-1,343
81-0,882
882
-0,217
442
1,12
258
-2,539
590,44
6929
-0,348
718
-1,612
94-0,199
066
-1,235
63-0,526
895
316
-4,292
16-2,255
07-2,492
460,15
7092
-0,504
88-1,658
77-0,872
941
-0,915
682
-1,255
7-1,097
91-2,012
37-0,969
143
317
-2,035
7-1,080
97-0,786
041
0,40
6382
0,25
9164
-1,317
150,33
3941
-0,326
291
0,84
8475
0,53
774
-0,862
668
0,22
7918
318
-3,388
21-1,122
64-0,219
609
0,16
7933
1,22
098
-1,666
790,53
1316
-0,134
580,79
5706
-0,236
675
0,36
8894
0,88
1061
319
-2,844
01-1,152
93-1,030
540,60
8268
0,48
2787
-2,135
640,01
9836
4-0,791
337
-0,587
042
0,42
4831
-1,347
990,36
0368
320
-3,689
07-4,190
630,22
7054
0,09
7480
82,10
709
-0,881
080,49
6236
0,65
8042
-1,256
111,52
144
-0,919
440,54
0566
321
-2,879
48-0,621
942
-1,624
67-0,586
813
-1,076
3-0,357
629
-0,101
685
-1,478
12-0,408
847
-0,849
783
0,29
4804
0,05
6072
24
22-6,158
68-1,798
96-0,558
465
2,39
585
-1,291
140,21
6313
0,81
8326
-0,815
91-0,984
011
-0,463
078
0,46
2982
0,68
6806
423
-3,762
53-0,938
614
-3,258
910,63
1448
-2,360
1-0,944
374
0,39
111
-2,750
69-1,404
8-1,023
960,19
5634
0,10
6811
424
-4,142
99-0,538
856
-1,773
291,04
189
-0,703
71-0,363
397
0,74
3707
-2,433
04-1,341
930,35
585
0,64
798
0,51
2498
425
-3,287
05-1,370
7-1,950
251,63
402
0,22
9056
0,69
2486
0,87
6797
-3,164
52-1,725
12-0,415
365
0,19
4832
0,71
4595
426
-3,089
38-1,422
15-2,920
28-0,831
813
-1,448
95-1,372
630,00
2834
97-1,596
26-0,376
525
0,38
9742
1,46
650,22
8567
427
1,17
806
-1,132
68-0,212
427
1,99
245
-2,922
4-0,119
626
-2,566
29-0,173
191
-0,791
282
-1,636
450,74
6923
0,72
0839
528
-0,410
018
-0,411
902
-1,104
28-1,238
46-2,526
930,27
0167
-2,979
11-0,572
574
-0,317
532
-0,103
838
-0,025
4608
0,56
4717
529
-1,493
99-2,397
73-0,650
742
2,54
113
-2,576
630,70
3971
-3,286
49-1,810
07-0,226
765
-0,915
591
-0,676
565
0,21
5229
530
0,39
3862
-1,365
44-0,341
117
0,29
2586
-1,187
58-0,047
1184
-1,396
94-0,441
043
0,05
5679
-0,125
704
-0,456
401
0,39
3523
531
0,92
3374
-0,996
664
0,13
8396
1,25
614
-1,428
64-0,166
603
-1,484
790,22
3922
-0,039
8563
-0,020
5932
0,36
8428
1,05
965
532
0,08
5504
6-0,739
171
-0,269
847
0,39
5048
-1,641
37-0,401
288
-2,650
5-0,272
054
-1,094
16-1,155
19-0,896
413
0,17
9421
533
-1,055
59-0,863
154
0,67
3953
0,71
7859
-1,316
97-0,346
321
-0,756
546
0,23
4297
-0,645
9-0,002
5834
60,08
3739
70,08
3673
45
34-0,384
449
-0,416
057
-1,211
53-0,733
935
-1,020
140,45
6665
-2,251
05-0,219
753
-0,799
929
-0,408
618
-0,318
20,03
5387
535
0,31
306
0,69
7408
1,72
724
0,73
4916
0,62
7948
0,74
885
-0,344
213
0,60
7226
-0,318
526
-0,236
7-0,232
541,45
546
36-2,507
61-0,120
982
-0,486
662
-0,464
893
-0,783
659
0,95
3878
-0,387
236
0,28
6794
-0,312
372
1,27
622
-0,667
667
0,58
0942
637
-2,425
24-0,164
986
-0,601
221
0,58
409
-0,893
132
1,59
602
-0,404
837
0,85
9523
-0,393
439
1,16
599
-1,035
350,59
2844
6
100
38-2,413
94-1,141
52-1,178
27-1,221
45-0,510
174
-1,099
05-0,286
842
-0,396
336
-1,527
03-0,460
737
-1,464
65-0,753
949
639
-2,673
37-4,851
06-0,434
891
0,57
0793
-0,091
4322
1,29
077
0,57
3653
0,33
3106
-1,496
28-0,843
176
-1,210
340,14
602
640
-3,246
14-1,079
68-0,831
468
-1,994
760,53
1332
-0,249
754
-0,799
438
-0,720
087
0,23
0159
-0,235
537
-0,851
123
-0,097
7335
641
-0,199
181
2,27
561
1,02
125
0,63
5635
-0,255
267
-1,844
84-0,195
853
0,94
1268
-0,238
748
0,22
2077
-0,206
601
-0,153
513
642
1,87
582
-1,314
430,35
9139
-0,440
944
-0,717
543
0,39
9384
-0,435
952
1,37
872
-0,174
989
-1,287
54-1,588
5-0,061
5455
643
-2,334
440,71
6273
0,74
4879
1,41
52-0,424
991
0,85
7202
0,10
7447
0,56
920,65
671
1,23
678
0,00
9292
231,11
083
644
0,26
2613
1,95
457
0,95
9328
0,78
6736
0,61
9025
1,06
336
0,28
7557
0,26
3784
1,52
805
0,69
0394
0,15
2091
1,51
547
450,53
0779
2,10
995
2,22
554
1,57
048
0,06
8261
40,36
0342
-0,312
103
0,89
4085
1,01
768
0,66
4355
-0,397
782
0,66
7135
746
-2,103
92-0,344
371
0,48
3867
-0,066
5868
0,62
1992
-0,515
484
0,70
9341
-0,176
819
0,64
3673
0,06
9631
7-0,776
344
-0,330
831
747
-4,057
490,57
678
-0,264
026
-0,990
445
0,36
0804
0,17
2254
1,17
078
0,03
4400
31,99
257
0,46
818
-0,604
145
0,96
6317
748
-3,162
290,70
144
0,66
4467
0,58
8803
0,00
5108
69-0,683
513
-0,113
256
-0,057
3801
-0,837
996
-2,379
3-1,572
85-0,085
6573
749
-3,393
43-0,656
646
-0,137
477
-0,076
3907
-0,411
465
-0,744
654
0,29
2118
-0,503
265
-0,594
271
0,26
0469
-1,477
53-0,041
6137
750
1,19
139
2,48
906
1,78
815
0,88
1833
-0,101
481,57
285
0,94
5307
1,26
264
0,24
8347
2,04
276
-1,099
250,76
1662
851
-2,323
11,21
790,32
6187
-0,758
778
-1,101
942,43
630,07
9893
3-0,037
6131
1,22
505
0,86
6978
-1,370
84-0,357
101
852
1,23
518
3,27
244
1,34
967
0,64
5642
-3,212
90,75
9319
-0,023
826
1,01
812
-0,118
074
-0,347
821
-0,916
156
0,17
3905
853
-0,154
612
0,80
9561
0,63
9092
0,69
9735
-2,687
451,28
848
-0,494
016
-0,152
585
-0,713
812
1,85
276
-1,181
89-0,284
966
854
1,44
623
1,26
268
1,45
025
1,16
946
-0,199
099
1,74
010,34
2975
0,73
3709
1,27
224
1,71
161
-0,496
770,12
6953
855
-0,269
493
1,69
096
1,23
719
1,04
013
-1,806
721,66
425
0,09
7234
7-0,143
604
0,74
9387
0,76
6306
-0,866
869
0,38
0299
856
0,23
8757
1,09
746
0,27
1356
0,54
2677
-0,804
326
2,06
999
0,23
0407
-1,414
86-1,098
251,28
228
-1,084
95-0,263
232
857
-0,440
923
1,45
720,29
5587
-0,789
598
-1,043
641,35
565
0,40
2032
-0,184
181
0,39
1813
1,28
835
-2,274
81-0,345
308
858
-3,546
53-1,784
67-2,616
57-1,030
340,11
0498
-2,430
661,24
889
-2,468
38-3,487
37-0,495
359
-1,201
-0,384
081
959
-3,502
23-1,250
66-2,265
39-1,164
990,37
8708
-1,811
021,06
597
-1,860
02-0,858
616
-0,278
594
-1,050
760,11
2206
960
-2,248
22-1,103
86-2,571
93-0,387
918
-0,634
427
-1,164
50,58
0011
-1,145
170,11
9495
0,79
5191
1,79
798
0,30
6238
961
-3,545
28-1,234
43-3,078
56-0,953
137
-1,523
16-1,386
22-0,020
8435
-1,659
68-0,663
206
0,53
0379
0,95
5755
-0,395
708
9
101
APÊNDICE C
Algorimos Genéticos Multi-Objetivos
Devido a sua forma de trabalhar com uma gama de soluções a cada geração, os AGs sãocapazes de encontrar várias soluções não dominadas ao longo do processo de otimização.Essa propriedade aliada a sua adaptabilidade a diferentes tipos de problemas, tornam osAGs importantes ferramentas de otimização multiobjetivo.
Muitos problemas do mundo real envolvem uma otimização simultânea de múltiplosobjetivos [48], isto é, existem vários critérios que devem ser balanceados. Na otimizaçãode um único objetivo, tenta-se obter o melhor resultado, ou a melhor decisão, o queusualmente é o mínimo ou o máximo global. No caso de múltiplos objetivos, pode nãohaver uma melhor solução (ótimo global) com respeito a todos os objetivos. Em umproblema de otimização multi-objetivos, existe um conjunto de soluções que são superioresàs demais dentro de um espaço de busca onde todas as possíveis soluções são consideradas[99]. Esse conjunto de soluções é conhecido como o Ótimo de Pareto ou soluções nãodominadas [102].
Ótimo de ParetoO Ótimo de Pareto foi formulado pelo sociólogo e economista Vilfredo Pareto (1848 -
1923) e tornou-se o princípio de otimização quando há a competição de múltiplos objetivos.A solução ótima de Pareto não é única, mas sim, um conjunto de pontos os quais são
considerados igualmente bons em função do vetor objetivo. Esse espaço pode ser vistocomo um espaço de busca de soluções, no qual cada objetivo poderia ser aperfeiçoado,mas seria melhorado às custas de pelo menos outro objetivo [100].
Não dominância versus dominânciaA busca pelo ótimo de Pareto tem sido conhecida como otimização simultânea de
múltiplos objetivos. Uma conceituação alternativa seria pensar que uma solução é a ótimade Pareto se, para um dado conjunto de objetivos, não exista nenhuma outra solução queseja superior a ela, considerando-se todos os objetivos [102]. Para elucidar este conceitoserá utilizado como exemplo a compra de um automóvel, onde várias decisões precisam
102
ser tomadas, priorizando custo ou conforto, fatores estes con�itantes. A �gura 1 ilustravárias opções de escolha [2].
Figura 1: Exemplo que ilustra várias opções de compra de automóvel (1-5), considerando o seu custo econforto [2]
Neste exemplo, o objetivo é minimizar o custo e maximizar o conforto. Neste caso,existem cinco opções de compra. Intuitivamente, descarta-se a solução 1, já que a solução5 oferece mais conforto pelo mesmo custo. A solução 2 também é descartada pela mesmarazão. Restam então três boas alternativas de compras: 3, 4 e 5. Em termos quantitativosnenhuma solução é melhor que a outra, pois o acréscimo no nível de conforto do automóveltraz consigo um aumento no custo do mesmo. Em raciocínio análogo, ao diminuir o custodo automóvel, diminui-se também o nível de conforto do mesmo [2].
Em outras palavras, a solução ótima de Pareto seria aquela para a qual não existaoutra no espaço de busca que a domine. Similarmente, uma solução não é consideradauma solução ótima de Pareto se ela for categoricamente dominada por, pelo menos, umasolução do conjunto de candidatas. Quando consideramos soluções dominadas, devemospensar que diferentes níveis de dominância são possíveis. Uma solução dominada serásempre categoricamente inferior às soluções não dominadas do conjunto de soluções doótimo de Pareto. Entretanto, uma solução dominada pode também dominar outra solução.Por exemplo, a solução 1 é dominada pela solução 5 e domina a solução 2. Esses níveis dedominância permitem caracterizar totalmente o grupo de soluções, separando-as dentro defronteiras de não dominância, que inclui a fronteira correspondente aos ótimos de Pareto.
103
Esse aspecto do paradigma é muito importante no projeto de um Algoritmos Genético paraProblemas Multi-objetivos (AGMO). Usando o conceito de não doninância e dominância,a análise de Pareto pode ser simpli�cada como a busca da não dominância. A buscaconsiste em classi�car as soluções candidatas em grupos de soluções não dominadas, poissão elas as favoritas. Dessa forma, a otimização de Pareto pode ser vista como umaotimização clássica, onde a dominância global é o atributo desejado [100]. Se os pontosnão dominados estão em um espaço contínuo, pode-se desenhar uma curva. Todos ospontos contidos na curva formam a Frente de Pareto ou Fronteira de Pareto [2].
O AG requer uma informação de avaliação escalar para poder trabalhar. Isso signi-�ca dizer que, para a solução de problemas envolvendo múltiplos critérios, necessitamosescalonar um vetor de objetivos. Um dos problemas, é que nem sempre é possível deri-var um critério global baseado na formulação do problema. Na ausência de informação,os objetivos tendem a ter uma importância equivalente. Por outro lado, quando temosuma certa compreensão do problema, podemos combiná-los de acordo com a informaçãoexistente, provavelmente atribuindo maior importância a alguns objetivos. Otimizar umacombinação de objetivos tem a vantagem de produzir apenas uma solução simples, nãoexigindo uma iteração posterior para a tomada de decisão [101].
A utilização de AGs como método de otimização permite que uma abordagem efeti-vamente multi-objetivos, levando-se em consideração os conceitos de dominância e ótimode Pareto, seja utilizada sem a necessidade de se combinar os objetivos através de pe-sos de importância relativa. Nos últimos anos muitos pesquisadores têm modi�cado asidéias iniciais propostas por Goldberg em seu livro [50] para tratamento de problemasmulti-objetivos. Podemos citar alguns desses principais métodos:
• VEGA (Vector Evaluated Genetic Algorithms) [105]
• Agregação dos objetivos por pesos variáveis [106]
• MOGA (Multi-objective Optimization Genetic Algorithm) [101]
• NPGA (Niched Pareto Genetic Algorithm) [107]
• NSGA (Nondominated Sorting Genetic Algorithm) [99]
104
• SPEA (Strength Pareto Evolutionary Algorithm) [108]
• PAES (Pareto Archieved Evolution Strategy) [110]
• NSGA-II (Nondominated Sorting Genetic Algorithm II) [111]
• PESA (Pareto Enveloped-based Selection Algorithm) [112]
• SPEA2 (Strength Pareto Evolutionary Algorithm 2) [113]
• PMOGA (Pareto Multiobjective Genetic Algorithm) [48]
105
APÊNDICE D
Tabela 8: Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B2
Experimento 12->3 Experimento 13->2 Experimento 23->1Classes AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste
1 0,944 0,472 0,921 0,406 1 02 1 0 1 0,5 1 0,9523 1 0,5 1 0,875 1 0,6334 1 0 1 1 1 15 1 0,941 1 1 1 0,2836 1 0,431 0,892 0,489 0,969 0,2837 1 0,5 1 0,938 0,971 18 1 0,667 1 1 1 0,859 1 0,947 1 0,941 1 0,952
Tabela 9: Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B3
Experimento 12->3 Experimento 13->2 Experimento 23->1Classes AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste
1 1 0 0,947 0 1 0,32 1 1 1 1 1 13 1 0,472 1 0,938 1 0,6334 1 0 1 1 1 0,9525 1 1 1 1 1 0,3336 1 0,667 0,973 0,622 1 0,3177 1 0,472 1 0 1 0,4528 1 0,667 1 0,875 1 0,69 1 0 1 1 1 0,905
106
Tabela 10: Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B4
Experimento 12->3 Experimento 13->1 Experimento 23->1Classes AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste
1 0,917 0,444 0,812 0 0,971 0,32 1 1 1 1 1 13 1 0,778 1 1 1 0,3334 1 0,444 1 0,438 1 0,9525 1 1 1 1 1 0,956 1 0,314 0,973 0,267 0,937 07 1 0,5 1 0,469 1 0,4768 1 0,667 1 0,938 1 0,6679 0,974 1 1 0 1 0,952
Tabela 11: Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B1B2
Experimento 12->3 Experimento 13->2 Experimento 23->1Classes AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste
1 0,861 0,417 1 0 1 0,3332 1 1 1 1 1 13 1 0,5 1 0,438 1 0,6334 1 0 1 1 1 0,55 1 1 1 1 1 0,2836 1 0,667 0,973 0,667 1 0,3337 1 0,5 1 0,5 1 0,58 1 0,667 1 1 1 0,959 1 0,947 1 0 1 0,952
Tabela 12: Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B1B3
Experimento 12->3 Experimento 13->2 Experimento 23->1Classes AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste
1 1 0 0,921 0 1 0,5332 1 1 1 1 1 13 1 0,889 1 0,938 1 0,6334 1 0 1 1 1 0,9525 1 0,549 1 1 1 0,3336 1 0,627 1 0,622 1 0,3177 1 0,5 1 0,5 1 0,9528 1 0,667 1 1 1 0,5679 1 0 1 0 1 0,952
107
Tabela 13: Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B1B4
Experimento 12->3 Experimento 13->2 Experimento 23->1Classes AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste
1 0,944 0 0,921 0,375 1 0,3172 1 1 1 1 1 13 1 0,5 1 1 1 14 1 0,444 1 0,438 1 0,55 1 1 1 1 1 0,956 1 0,275 1 0,222 1 0,3337 1 0,5 1 0,938 1 0,4768 1 0,667 1 0,875 1 0,959 1 1 1 0 1 0,905
Tabela 14: Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B2B3
Experimento 12->3 Experimento 13->1 Experimento 23->1Classes AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste
1 1 0 0,947 0,375 1 0,3172 1 1 1 1 1 13 1 0,5 1 0,875 1 0,6334 1 0 1 1 1 0,9525 1 0,549 1 1 1 0,3336 1 0,275 0,973 0,933 1 0,3337 1 0,944 1 0 1 0,4528 1 0,667 1 0,875 1 0,959 1 0 1 1 1 1
Tabela 15: Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B2B4
Experimento 12->3 Experimento 13->2 Experimento 23->1Classes AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste
1 0,972 0 0,974 0 1 0,2832 1 1 1 1 1 13 1 0,5 1 0,875 1 0,6334 1 0 1 1 1 15 1 1 1 1 1 0,956 1 0,275 1 0,289 1 0,3337 1 0,944 1 0,938 1 0,4768 1 0,667 1 0,875 1 0,859 1 1 1 1 1 0,952
108
Tabela 16: Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B3B4
Experimento 12->3 Experimento 13->2 Experimento 23->1Classes AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste
1 1 0 0,947 0,344 1 0,32 1 1 1 1 1 13 1 0,5 1 1 1 0,6334 1 0 1 1 1 0,9525 1 0,882 1 1 1 0,3336 1 0,588 1 0,578 1 0,6337 1 0,944 1 0,938 1 0,4768 1 0,667 1 0,938 1 0,6679 1 0 1 0 1 0,952
Tabela 17: Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B1B2B3
Experimento 12->3 Experimento 13->2 Experimento 23->1Classes AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste
1 0,972 0 0,974 0 1 0,32 1 1 1 1 1 13 1 0,5 1 0,938 1 0,6334 1 0 1 1 1 0,9525 1 0,549 1 1 1 0,3336 1 0,314 1 0,622 1 0,3337 1 0,944 1 0,5 1 0,9528 1 0,667 1 1 1 0,859 1 0 1 0 1 0,952
Tabela 18: Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B1B2B4
Experimento 12->3 Experimento 13->1 Experimento 23->1Classes AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste
1 0,972 0,389 0,947 0,344 1 0,3172 1 1 1 1 1 13 1 0,5 1 0,875 1 0,6334 1 0 1 1 1 0,55 1 1 1 1 1 0,956 1 0,51 1 0,533 1 0,3337 1 0,833 1 0,938 1 0,4768 1 0,667 1 0,938 1 0,859 1 0 1 0 1 0,952
109
Tabela 19: Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B1B3B4
Experimento 12->3 Experimento 13->1 Experimento 23->1Classes AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste
1 1 0 0,947 0 1 0,32 1 1 1 1 1 13 1 0,889 1 0,938 1 0,6334 1 0 1 1 1 0,9525 1 0,882 1 1 1 0,3336 1 0,275 1 0,289 1 0,3337 1 0,5 1 0,938 1 0,9528 1 0,667 1 0,938 1 0,3339 1 0 1 0 1 0,952
Tabela 20: Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B2B3B4
Experimento 12->3 Experimento 13->2 Experimento 23->1Classes AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste
1 0,972 0,444 1 0 1 0,2672 1 1 1 1 1 13 1 0,5 1 0,875 1 0,6334 1 0 1 1 1 0,9525 1 0,882 1 1 1 0,3336 1 0,588 1 0,578 1 0,37 1 0,5 1 0,938 1 0,4768 1 0,667 1 0,938 1 0,859 1 0 1 1 1 0,952
Tabela 21: Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B1B2B3B4
Experimento 12->3 Experimento 13->2 Experimento 23->1Classes AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste
1 1 0 0,974 0 1 0,52 1 1 1 1 1 13 1 0,472 1 0,938 1 0,6334 1 0 1 1 1 0,9525 1 0,667 1 1 1 0,3336 1 0,549 1 0,289 1 0,3337 1 0,389 1 0,938 1 0,9528 1 0,667 1 0,5 1 0,6679 1 1 1 0 1 1
110
APÊNDICE E
Tabela 22: Melhores regras encontradas na base de dados B1B2
Classe Regras AptTrein AptTeste
1 if(28<0,8) and (75≥0,2) and (280≥-0,3) and (499<0,1) and (843≥0) 1 0,3332 if(11≥0,4) and (289<-0,5) 1 1
if(11≥0,4) and (637<0,4)if(839≥0,5) and (637<0,4)
3 if(2≥1) 1 0,633if(19≥1)
4 if(19<-0,4) and (526<-0,8) 1 1if(19<-0,4) and (843<-1)if(50≥-2) and (843<-0,9)if(224<-2,2) and (843<-0,8)if(366≥-0,9) and (526<-0,9)if(366≥-0,9) and (843<-1)if(409≥-1,8) and (843<-1)if(839<-0,4) and (224<-2,2)
5 if(11≥-1,5) and (97<0,2) and (18<0,2) 1 1if(11≥-1,6) and (97<0,1) and (292<0,6)if(11≥-1,5) and (97<0,3) and (302<0,1)
6 if(242<0,3) and (881<1) and (17≥-1,6) and (637≥0,4) 1 0,6677 if(2≥-1,4) and (28≥-0,2) and (409<0,6) 1 0,5
if(2≥-1,3) and (224≥-0,4) and (409<0,6)if(19≥-1,3) and (224≥-0,2) and (409<0,5)if(50≥0,4) and (2≥-2,4) and (17<0,5)if(50≥0,2) and (2≥-2,2) and (224<1,7)if(50≥0,1) and (2≥-2,4) and (409<1)if(50≥0,1) and (2≥-2,4) and (499<1,2)if(50≥0,2) and (2≥-2,1) and (637<1,4)if(50≥0,4) and (17<0,1) and (19≥-1,7)if(50≥0,1) and (19≥-1,9) and (235<1,4)if(50≥0,2) and (97<1,4) and (19≥-1,7)if(50≥0,2) and (828<0,9) and (2≥-2,2)if(50≥0,2) and (828<1) and (19≥-1,7)if(50≥0,4) and (839<0,1) and (2≥-2,1)if(50≥0,4) and (839<0,2) and (19≥-1,7)if(50≥0,4) and (881<1,5) and (19≥-1,7)if(97<1,5) and (19≥-1,1) and (224≥-0,3)if(97<1,6) and (194≥0,2) and (839<-0,2)if(194≥0,2) and (242≥-0,1) and (839<-0,2)if(194≥0,2) and (839<-0,2) and (843≥-0,1)
8 if(97≥0,5) and (127≥0,3) and (863<0,9) 1 1
111
if(97≥0,7) and (348<0,1) and (863<0,8)if(97≥0,7) and (863<0,8) and (881≥0,1)
9 if(18<-2,1) and (292≥-1,5) 1 0,952if(19≥-0,3) and (231<-1,4)if(289<-0,3) and (18<-3)if(366<-0,5) and (18<-3)
Tabela 25: Melhores regras encontradas na base de dados B2B3
Classes Regras AptTrein AptTeste
1 if(17<-0,3) and (224<0,4) and (843≥-0,2) and (531<0,9) and (890≥-1) 0,947 0,3752 if(141<1,3) and (229≥1,1) 1 1
if(229≥1,1) and (456≥-0,9)if(235<1) and (229≥1,1)
3 if(75≥-0,7) and (246<-0,3) 1 0,8754 if(2<-0,2) and (485≥0,7) 1 1
if(19<-0,4) and (485≥0,7)if(19<-0,4) and (526<-0,7)if(19<-0,4) and (843<-1)if(63<-0,3) and (485≥0,7)if(224<-2,2) and (485≥0,7)if(229≥-1,7) and (485≥0,6)if(235≥-2,9) and (485≥0,6)if(409≥-1,7) and (485≥0,7)if(485≥0,5) and (525≥-1,3)if(485≥0,7) and (929≥-0,4)if(526<-0,9) and (929≥-0,5)if(843<-1) and (525≥-1,4)if(843<-0,8) and (929≥-0,3)
5 if(2<-1,8) and (17≥-0,9) and (229<-0,8) 1 1if(17≥-0,9) and (19<-2,6) and (229<-0,8)if(19<-2,6) and (229<-0,7) and (890≥-0,1)if(28≥-0,8) and (97<0,2) and (721≥1)if(97<0,2) and (246≥-0,4) and (721≥1)if(97<0,2) and (379<0,1) and (721≥1)if(97<0,2) and (475≥-0,6) and (721≥1)if(97<0,2) and (721≥1) and (870≥-0,6)if(292<0,5) and (41≥-2) and (721≥1)
6 if(2<1) and (17<0,4) and (637≥-0,1) and (379≥-0,1) and (456≥-1,2) 0,973 0,9337 if(63≥0,1) and (379<0,8) 1 0,9448 if(75≥-0,1) and (409≥0,4) and (870<0,5) 1 0,95
if(97≥0,6) and (280≥0,1) and (409≥0,4)
112
if(97≥0,6) and (409≥0,4) and (870<0,4)if(280≥0,1) and (409≥0,4) and (870<0,4)
9 if(17<-3,6) and (75<-1,2) and (292≥-1,5) 1 1if(17<-3,6) and (231<-0,5) and (292≥-1,5)if(17<-3,4) and (292≥-1,4) and (499<-1,1)if(17<-3,6) and (292≥-1,4) and (525<-0,7)if(18<-2,5) and (231<-0,3) and (292≥-1,4)if(18<-3,2) and (292≥-1,4) and (499<-1,1)if(19≥-0,2) and (231<-1,3) and (409<-0,5)if(19≥-0,2) and (231<-0,9) and (485≥-1,6)if(19≥-0,3) and (231<-0,9) and (499≥-2,6)if(19≥-0,2) and (231<-1,4) and (531≥-0,6)if(19≥-0,2) and (292≥-1,4) and (499<-1,1)if(19≥-0,2) and (499<-1,1) and (531≥-1,1)if(19≥-0,4) and (531≥-0,6) and (786<-0,6)if(75<-1,2) and (141<-0,5) and (292≥-1,5)if(75<-1,2) and (231<-1) and (292≥-1,5)if(75<-1) and (292≥-1,5) and (456≥0,6)if(75<-1,2) and (292≥-1,5) and (475<-0,1)if(75<-1,3) and (292≥-1,4) and (499<-1,1)if(75<-1,2) and (292≥-1,5) and (525<-0,7)if(75<-1,2) and (292≥-1,5) and (786<-0,6)if(75<-1,1) and (499≥-2,6) and (456≥0,6)if(231<-0,5) and (292≥-1,5) and (302<-0,8)if(231<-0,2) and (292≥-1,5) and (786<-0,6)if(292≥-1,5) and (302<-0,8) and (525<-0,7)if(409<-0,6) and (456≥0,6) and (786<-0,6)
Tabela 27: Melhores regras encontradas na base de dados B1B2B3
Classes Regras AptTrein AptTeste
1 if(246≥-0,4) and (531≥0,2) and (929<0,2) 1 0,32 if(11≥0,4) and (289<-0,5) 1 1
if(141<1,4) and (229≥1,1)if(289<-0,5) and (229≥1,1)if(839≥0,5) and (637<0,4)
3 if(50<-2,3) and (63≥-0,4) 1 0,9384 if(2<-0,1) and (485≥0,7) 1 1
if(19<-0,3) and (485≥0,7)if(19<-0,4) and (526<-0,9)if(19<-0,2) and (843<-1)if(63<-0,3) and (485≥0,7)if(224<-2,2) and (485≥0,1)
113
if(235≥-3) and (485≥0,3)if(235≥-3,1) and (843<-1)if(366≥-0,9) and (485≥0,7)if(366≥-0,9) and (526<-0,9)if(409≥-1,8) and (485≥0,3)if(475≥-3,1) and (485≥0,1)if(485≥0,4) and (525≥-1,1)if(485≥0,6) and (929≥-0,3)if(526<-0,7) and (63<-0,3)if(843<-1) and (63<-0,2)if(843<-1) and (525≥-1,1)if(843<-0,6) and (929≥-0,3)
5 if(2<-1) and (17≥-0,8) and (229<-0,7) 1 1if(11≥-1,8) and (97<0,2) and (18<0,1)if(11≥-1,5) and (97<0,2) and (292<0,7)if(11≥-1,7) and (97<0,1) and (302<0,2)if(17≥-0,8) and (19<-0,8) and (229<-0,7)if(97<0,5) and (28≥-0,6) and (721≥1)if(97<0,1) and (41≥-2,5) and (721≥1)if(97<0,1) and (194≥-1,3) and (721≥1)if(97<0,1) and (246≥-0,4) and (721≥1)if(97<0,1) and (379<0,1) and (721≥1)if(97<0,1) and (721≥1) and (870≥-0,5)if(242≥-0,1) and (302<0,1) and (41≥-2)if(302<0,1) and (41≥-2) and (721≥1)if(348<-1,2) and (17≥-0,8) and (229<-0,7)if(348<-1,5) and (41≥-2) and (721≥0,8)if(881<0,9) and (41≥-2) and (721≥1)
6 if(828<0,3) and (2<0,9) and (637≥-0,4) and (379≥0,2) 1 0,622if(828<0,3) and (19<1) and (637≥-0,4) and (379≥0,2)
7 if(242≥-0,1) and (63≥0,3) 1 0,9528 if(97≥0,7) and (348<-0,2) and (863<0,7) 1 19 if(18<-3,2) and (19≥-2,2) 1 0,952
if(18<-3,2) and (485<1,7)if(19≥-0,2) and (231<-1,3)if(19≥-0,2) and (525<-0,8)if(19≥-0,2) and (786<-0,5)if(50<-1,7) and (18<-3,2)if(289<-0,2) and (18<-3,2)
Tabela 30: Melhores regras encontradas na base de dados B2B3B4
114
Classes Regras AptTrein AptTeste
1 if(409≥-0,4) and (929≥-0,8) and (289<0,5) and (783<0,1) 0,972 0,4442 if(11≥0,3) and (289<-0,5) 1 1
if(141<1,4) and (229≥1,1)if(229≥1,1) and (177<1)if(229≥1,1) and (289<-0,5)if(229≥1,1) and (456≥-0,9)if(235<1) and (229≥1)
3 if(75≥-0,8) and (246<-0,4) 1 0,8754 if(2<-0,2) and (485≥0,7) 1 1
if(19<-0,4) and (485≥0,7)if(19<-0,4) and (843<-1)if(63<0,2) and (485≥0,7)if(224<-2,2) and (380≥-0,3)if(224<-2,2) and (485≥0,7)if(224<-2,2) and (865≥0,1)if(235≥-3,7) and (485≥0,7)if(409≥-1,7) and (485≥0,6)if(475≥-2,7) and (485≥0,4)if(485≥0,5) and (525≥-1,1)if(485≥0,7) and (661<-0,1)if(485≥0,7) and (783<0,4)if(485≥0,7) and (929≥-0,3)if(526<-0,6) and (63<-0,3)if(843<-0,7) and (63<-0,3)if(843<-0,9) and (929≥-0,3)
5 if(2<-0,8) and (17≥-0,8) and (229<-0,8) 1 1if(2<-1,3) and (289≥-1,4) and (380<-0,7)if(11≥-2) and (289≥-1,4) and (380<-0,7)if(17≥-0,8) and (19<-2,5) and (229<-0,8)if(17≥-0,9) and (229<-0,7) and (380<-0,6)if(17≥-0,9) and (289≥-1,4) and (380<-0,7)if(18<0,1) and (41≥-2,2) and (721≥0,5)if(18<0,2) and (97<0,1) and (11≥-1,6)if(19<-2,9) and (41≥-2,2) and (721≥0,8)if(19<-0,9) and (289≥-1,4) and (380<-0,7)if(28≥-1) and (97<0,6) and (721≥1)if(41≥-2) and (46<-0,3) and (380<-0,4)if(41≥-2,2) and (721≥0,5) and (46<-0,1)if(97<0,1) and (41≥-2) and (380<-0,7)if(97<0,1) and (246≥-0,4) and (380<-0,7)if(97<0,1) and (292<1) and (11≥-1,5)if(97<0,1) and (379<0,1) and (380<-0,7)if(97<0,2) and (379<0,1) and (721≥1)if(97<0,1) and (637≥-0,3) and (306<-0,9)
115
if(97<0,2) and (721≥1) and (306<-1)if(224≥-0,6) and (289≥-1,4) and (380<-0,7)if(229<-0,8) and (890≥-0,3) and (306<-1)if(229<-0,8) and (890≥-0,2) and (380<-0,6)if(289≥-1,4) and (306<-0,8) and (380<-0,7)if(289≥-1,6) and (336≥-1,5) and (380<-0,7)if(289≥-1,4) and (380<-0,7) and (865≥-1,4)if(289≥-1,4) and (380<-0,7) and (950≥-0,6)if(302<0,1) and (41≥-2) and (11≥-1,8)if(302<0,1) and (41≥-2) and (380<-0,4)if(485≥-1,9) and (289≥-1,4) and (380<-0,7)if(525≥-0,9) and (289≥-1,4) and (380<-0,7)if(531≥-0,4) and (289≥-1,4) and (380<-0,7)if(637≥0,1) and (289≥-1,6) and (380<-0,7)if(721≥0,8) and (289≥-1,6) and (380<-0,7)if(870≥-1) and (289≥-1,6) and (380<-0,7)if(890≥-0,3) and (46<-0,3) and (306<-1)if(890≥-0,2) and (289≥-1,3) and (380<-0,7)
6 if(2<-0,2) and (637≥0,1) and (379≥0,1) and (306≥-1) 1 0,5887 if(63≥0,3) and (46≥-0,7) 1 0,9388 if(46≥0,8) and (865<-0,4) 1 0,9389 if(18<-3,1) and (19≥-0,3) 1 1
Tabela 31: Melhores regras encontradas na base de dados B1B2B3B4
Classe Regras AptTrein AptTeste
1 if(289<0,5) and (75≥0,1) and (721≥0,2) 1 0,52 if(11≥0,4) and (289<-0,5) 1 1
if(289<-0,5) and (229≥1,1)if(839≥0,5) and (637<0,5)
3 if(50<-2,3) and (63≥-0,5) 1 0,9384 if(19<-0,3) and (485≥0,6) 1 1
if(19<-0,3) and (526<-0,9)if(50≥-2) and (280<-0,7)if(50≥-2) and (485≥0,2)if(63<-0,3) and (485≥0,6)if(194<-0,8) and (485≥0,7)if(224<-1,7) and (950≥0)if(366≥-0,9) and (485≥0,7)if(409≥-1,8) and (485≥0,3)if(485≥0,5) and (525≥-1,1)if(485≥0,3) and (783<0,4)if(485≥0,7) and (929≥-0,3)
116
if(526<-0,7) and (63<-0,3)if(526<-0,9) and (929≥-0,3)if(843<-0,9) and (63<-0,3)if(843<-1) and (783<0,4)if(843<-0,8) and (929≥-0,4)
5 if(17≥-0,8) and (19<-2,1) and (229<-0,7) 1 1if(17≥-0,8) and (229<-0,8) and (306<-1)if(17≥-0,9) and (229<-0,8) and (380<-0,3)if(41≥-2) and (721≥0,6) and (46<0,8)if(41≥-2,3) and (721≥0,9) and (783<0,1)if(97<0,1) and (306<-0,8) and (380<-0,3)if(97<0,1) and (379<0,1) and (380<-0,4)if(97<0,1) and (379<0,2) and (721≥0,3)if(97<0,5) and (721≥0,7) and (306<-0,8)if(229<-0,7) and (890≥-0,1) and (380<-0,5)if(242≥0,1) and (41≥-2,4) and (46<-0,3)if(242≥0,1) and (302<0,2) and (41≥-2,4)if(289≥-1,4) and (2<-1,1) and (380<-0,6)if(289≥-1,4) and (224≥-1,4) and (380<-0,6)if(289≥-1,4) and (637≥0,2) and (380<-0,6)if(289≥-1,4) and (721≥0,9) and (380<-0,6)if(890≥-0,1) and (46<-0,3) and (306<-1)
6 if(242<0,3) and (637≥0,5) and (661<0,3) 1 0,5497 if(242≥-0,1) and (63≥0,3) 1 0,9528 if(46≥1) and (865<-0,4) 1 0,667
if(97≥1,5) and (177≥0,2)if(97≥1,6) and (280≥-0,3)if(97≥1,6) and (348<-0,1)if(97≥1,2) and (409≥0,6)if(97≥1,6) and (881≥0,2)
9 if(18<-3) and (46<-0,5) 1 1if(18<-3,1) and (292≥-1,6)if(18<-3,2) and (637≥-1,5)
117
Tabela 23: Melhores regras encontradas na base de dados B1B3
Classes Regras AptTrein AptTeste
1 if(289<0,5) and (531≥0,2) and (721≥0,1) and (870≥-0,2) 1 0,533if(289<0,5) and (839<1,9) and (531≥0,2) and (721≥0,2)if(289<0,5) and (863<1) and (531≥0,2) and (870≥0)
2 if(11≥0,1) and (289<-0,5) 1 1if(11≥0,4) and (637<0,5)if(229≥1,1) and (456≥-0,9)if(289<-0,5) and (229≥1,1)if(839≥0,5) and (637<0,4)
3 if(50<-2,3) and (63≥-0,2) 1 0,9384 if(2<-0,1) and (485≥0,6) 1 1
if(11<-2,7) and (485≥0,6)if(50≥-2,1) and (485≥0,7)if(63<-0,3) and (485≥0,7)if(194<-0,8) and (485≥0,7)if(366≥-0,9) and (485≥0,7)if(475≥-2,8) and (485≥0,5)if(485≥0,7) and (525≥-1,1)if(485≥0,7) and (929≥-0,4)if(839<-0,5) and (485≥0,6)if(881<-0,2) and (485≥0,6)
5 if(11≥-1,6) and (97<0,1) and (229<-0,7) 1 1if(11≥-1,6) and (97<0,1) and (379<0,1)if(97<0,4) and (41≥-2,3) and (721≥1)if(97<0,3) and (194≥-1,6) and (721≥1)if(97<0,1) and (379<0,1) and (721≥1)if(97<0,4) and (881≥-0,9) and (721≥1)if(348<-1,5) and (41≥-2,1) and (229<0,2)
6 if(242<0,3) and (881<1) and (2<-1,2) and (637≥0,5) 1 0,627if(828<0,7) and (2<-1,1) and (379≥0,2) and (637≥0,4)
7 if(242≥-0,1) and (63≥0,3) 1 0,9528 if(97≥0,7) and (127≥0,1) and (863<0,7) 1 1
if(97≥0,7) and (348<-0,8) and (863<0,7)if(97≥0,7) and (863<0,8) and (63<-0,4)if(97≥0,7) and (863<0,8) and (881≥0,1)if(127≥0,3) and (348<-0,7) and (863<0,7)
9 if(242<-0,9) and (456≥0,6) 1 0,952
118
Tabela 24: Melhores regras encontradas na base de dados B1B4
Classes Regras AptTrein AptTeste
1 if(194<0,2) and (289<0,1) and (839<0,8) and (177≥-1,1) and (865≥-0,9) 1 0,3172 if(11≥0,4) and (289<-0,5) 1 13 if(50<-2,3) and (194<-1,1) and (289≥-0,3) 1 1
if(50<-2,3) and (242<0,6) and (289≥-0,7)if(50<-2,3) and (289≥-0,4) and (306≥-0,9)
4 if(194<-2,4) 1 0,55 if(11≥-1,5) and (97<0,1) and (46<-0,3) 1 1
if(11≥-1,7) and (97<0,1) and (348<-1,4)if(11≥-1,7) and (97<0,1) and (380<-0,6)if(11≥-1,5) and (289≥-1,3) and (380<-0,7)if(97<0,1) and (194≥-1,4) and (380<-0,6)if(97<0,1) and (242≥0,3) and (380<-0,7)if(97≥-1,2) and (289≥-1,6) and (380<-0,6)if(97<0,1) and (306<-0,9) and (380<-0,6)if(242≥0,3) and (289≥-1,3) and (380<-0,7)if(289≥-1,5) and (177≥-1,8) and (380<-0,6)if(289≥-1,3) and (306<-1) and (380<-0,6)if(289≥-1,3) and (336≥-0,6) and (380<-0,7)if(289≥-1,4) and (366≥-0,6) and (380<-0,5)if(289≥-1,6) and (380<-0,6) and (661≥-1,2)if(289≥-1,3) and (380<-0,7) and (865≥-0,9)if(289≥-1,3) and (380<-0,7) and (950≥-0,5)if(289≥-1,4) and (828≥-0,8) and (380<-0,6)if(289≥-1,6) and (881≥-1) and (380<-0,5)
6 if(127<0,1) and (242<-0,6) and (366≥-0,1) 1 0,333if(242<-0,6) and (366≥-0,1) and (177<1,1)
7 if(839<0,4) and (46≥-0,7) and (306≥-0,6) 1 0,9388 if(97≥0,7) and (863<0,8) 1 0,959 if(50<-2,1) and (177<-1,9) and (783≥-0,7) 1 1
119
Tabela 26: Melhores regras encontradas na base de dados B2B4
Classes Regras AptTrein AptTeste
1 if(97<0,8) and (246≥-0,2) and (177≥-1) and (289<0,2) and (306≥-1,7) 1 0,2832 if(11≥0,4) and (289<-0,5) 1 1
if(637<0,4) and (11≥0,4)3 if(75≥-0,7) and (246<-0,3) 1 0,8754 if(19<-0,4) and (526<-0,9) 1 1
if(19<-0,4) and (843<-1)if(224<-2,2) and (380≥-0,2)if(224<-2,2) and (843<-0,9)if(224<-2,2) and (865≥0,1)if(224<-1,8) and (950≥0)if(409≥-1,9) and (843<-1)if(843<-1) and (783<0,4)
5 if(2<-1,9) and (289≥-1,3) and (380<-0,7) 1 1if(17≥-0,9) and (46<-0,2) and (306<-1)if(17≥-0,9) and (289≥-1,3) and (380<-0,7)if(18<0,7) and (97<0,2) and (11≥-1,5)if(19<-0,7) and (289≥-1,3) and (380<-0,7)if(28≥-0,7) and (97<0,1) and (380<-0,7)if(28≥-0,5) and (289≥-1,3) and (380<-0,7)if(97<0,4) and (11≥-1,6) and (46<-0,2)if(97<0,1) and (11≥-1,7) and (380<-0,7)if(97<0,1) and (224≥-0,6) and (380<-0,6)if(97<0,1) and (246≥-0,4) and (380<-0,6)if(97≥-0,7) and (289≥-1,3) and (380<-0,7)if(97<0,2) and (292<0,9) and (11≥-1,5)if(97<0,1) and (302<0,1) and (11≥-1,5)if(97<0,1) and (306<-1) and (380<-0,5)if(97<0,1) and (380<-0,6) and (950≥0)if(97<0,1) and (637≥0,1) and (306<-0,5)if(141≥-1,4) and (289≥-1,6) and (380<-0,7)if(224≥-0,7) and (289≥-1,3) and (380<-0,7)if(289≥-1,6) and (336≥-0,5) and (380<-0,5)if(289≥-1,3) and (380<-0,7) and (865≥-1)if(289≥-1,3) and (380<-0,7) and (950≥-0,8)if(526≥-0,4) and (289≥-1,3) and (380<-0,7)
6 if(2<0,8) and (28<0,6) and (141≥-0,4) and (499≥-1) and (177<1,1) and (306≥-1) 1 0,3337 if(19≥-1,7) and (224≥-0,2) and (306≥-0,5) 1 0,9448 if(46≥0,7) and (865<-0,4) 1 0,8759 if(18<-3,1) and (19≥-0,2) 1 1
if(18<-3,1) and (637≥-1,5)
120
Tabela 28: Melhores regras encontradas na base de dados B1B2B4
Classes Regras AptidaoTrein AptidaoTeste
1 if(242<1,5) and (348<1,8) and (366<0,9) and (19<1,3) and 0,972 0,389(75<2,2) and (235≥-1,2) and (843≥-0,3) and (783<0,2) and (950≥-0,2)
2 if(11≥0,4) and (289<-0,5) 1 1if(839≥0,5) and (637<0,4)
3 if(75≥-0,7) and (246<-0,3) 1 0,8754 if(19<-0,4) and (526<-0,8) 1 1
if(19<-0,4) and (843<-1)if(50≥-2) and (280<-0,7)if(50≥-2) and (526<-0,8)if(50≥-2) and (843<-1)if(224<-2,1) and (950≥0)if(366≥-0,9) and (526<-0,9)if(366≥-0,9) and (843<-1)
5 if(11≥-2,2) and (289≥-1,3) and (380<-0,5) 1 1if(17≥-1) and (46<-0,3) and (306<-1)if(17≥-0,9) and (46<-0,2) and (661<0,1)if(97<0,1) and (224≥-0,6) and (380<-0,2)if(97<0,1) and (231≥-0,3) and (306<-0,8)if(97<0,1) and (242≥0,1) and (380<-0,2)if(97≥-1,6) and (289≥-1,3) and (380<-0,5)if(242≥0,3) and (289≥-1,3) and (380<-0,7)if(289≥-1,3) and (2<-1) and (380<-0,7)if(289≥-1,3) and (17≥-1,6) and (380<-0,7)if(289≥-1,3) and (19<-1) and (380<-0,7)if(289≥-1,4) and (28≥-0,6) and (380<-0,6)if(289≥-1,3) and (224≥-0,6) and (380<-0,7)if(289≥-1,3) and (246≥-0,4) and (380<-0,7)if(289≥-1,3) and (366≥-1,2) and (380<-0,7)if(289≥-1,3) and (380<-0,7) and (865≥-1,2)if(289≥-1,3) and (380<-0,7) and (950≥-0,1)if(289≥-1,4) and (881≥-0,9) and (380<-0,6)
6 if(828<0,1) and (19<1,1) and (141≥-0,4) and (306≥-1) 1 0,5337 if(2≥-2,3) and (224≥-0,4) and (336<1,1) 1 0,938
if(194≥-1) and (839<0,1) and (306≥-0,5)8 if(46≥0,8) and (865<-0,4) 1 0,9389 if(18<-3,1) and (19≥-0,6) 1 0,952
if(19≥-0,2) and (231<-1,2)
121
Tabela 29: Melhores regras encontradas na base de dados B1B3B4
Classes Regras AptTrein AptTeste
1 if(531≥0,2) and (870≥0) and (929<0,2) 1 0,32 if(11≥0,2) and (289<-0,5) 1 1
if(11≥0,4) and (637<0,4)if(229≥1) and (177<1)if(229≥1,1) and (456≥-0,9)if(289<-0,5) and (229≥1,1)if(839≥0,5) and (637<0,4)
3 if(50<-2,3) and (63≥-0,5) 1 0,9384 if(2<-0,2) and (485≥0,6) 1 1
if(11<-2,8) and (485≥0,7)if(63<-0,3) and (485≥0,7)if(194<-0,8) and (485≥0,7)if(366≥-0,9) and (485≥0,6)if(475≥-2,5) and (485≥0,1)if(485≥0,7) and (661<-0,3)if(485≥0,6) and (783<0,4)if(485≥0,7) and (865<1,5)if(485≥0,7) and (929≥-0,3)if(839<-0,5) and (485≥0,7)if(881<-0,2) and (485≥0,6)
5 if(11≥-1,5) and (97<0,1) and (46<-0,4) 1 1if(11≥-1,5) and (97<0,1) and (229<-0,5)if(41≥-2,2) and (46<0,8) and (380<-0,6)if(41≥-2,1) and (229<0,1) and (380<-0,6)if(41≥-2,1) and (721≥0,6) and (380<-0,6)if(97<0,1) and (41≥-3) and (380<-0,6)if(97<0,1) and (306<-0,9) and (380<-0,6)if(97<0,1) and (379<0,1) and (380<-0,6)if(97<0,3) and (379<0,2) and (721≥1)if(97<0,1) and (637≥0,1) and (306<-0,8)if(97<0,1) and (721≥1) and (306<-1)if(97<0,1) and (870≥-0,9) and (380<-0,6)if(97<0,1) and (890≥-0,8) and (380<-0,6)if(194≥-1,3) and (229<-0,8) and (380<-0,5)if(229<-0,7) and (890≥-0,4) and (306<-1)if(242≥0,3) and (41≥-2) and (46<-0,1)if(289≥-1,3) and (177≥-1,4) and (380<-0,7)if(289≥-1,5) and (721≥0,9) and (380<-0,4)if(289≥-1,5) and (890≥-0,2) and (380<-0,4)
6 if(242<-0,6) and (366≥-0,1) and (890<-0,7) 1 0,333if(242<-0,6) and (890<-0,1) and (499≥-0,8)
7 if(242≥-0,1) and (63≥0,3) 1 0,9528 if(46≥0,8) and (865<-0,4) 1 0,9389 if(242<-1) and (456≥0,6) 1 0,952
122
APÊNDICE E
123
Classificacao de Oncogenes medidos por Microarray utilizando AlgoritmosGeneticos
Laurence Rodrigues do AmaralUniversidade Federal de UberlandiaLaboratorio de Inteligencia Artificial
Av. Joao Naves de Avila, 2160 Uberlandia, Brasillramaral@pos.facom.ufu.br
Centro Universitario do Cerrado-Patrocınio
Gina Maira B. OliveiraUniversidade Federal de UberlandiaLaboratorio de Inteligencia Artificial
Av. Joao Naves de Avila, 2160 Bloco B Uberlandia, Brasilgina@facom.ufu.br
Foued Salmen EspindolaUniversidade Federal de UberlandiaInstituto de Genetica e Bioquımica
Laboratorio de Bioquımica e Biologia MolecularAv. Para, 1720 Bloco 2E39A Uberlandia, Brasil
foued@ufu.br
Geraldo Sadoyama LealCentro Universitario do Cerrado-Patrocınio
Laboratorio de Imunologia, Genetica e MicrobiologiaAv. Arthur Botelho, S/N Patrocınio, Brasil
geraldosadoyama@unicerp.edu.br
Abstract
Tecnicas de Inteligencia Artificial (IA) tem se tor-nado cada vez mais importantes na solucao de problemasbiologicos. Neste artigo, utilizamos um Algoritmo Genetico(AG) na busca de regras de alto nıvel do tipo IF-THEN. EsteAG foi aplicado na classificacao de uma base de dados deexpressao genica de celulas cancerıgenas advindas de ex-perimentos de microarray, buscando assim, relacoes entreos nıveis de expressoes genicas e os nove tipos de classesde cancer analisados.
1. Introducao
Uma das areas em que a aplicacao de tecnicas compu-tacionais inteligentes tem se mostrado mais promissora e aBiologia Molecular [35].
Devido a grande quantidade e complexidade dainformacao, as ferramentas baseadas na computacao con-vencional tem se mostrado limitadas na abordagem de pro-blemas biologicos complexos. Uma das explicacoes paraessa dificuldade e a ineficiencia das ferramentas convenci-onais em lidar com grandes volumes de dados. Tecnicasadvindas da Inteligencia Artificial (IA), tais como, os algo-ritmos geneticos e as redes neurais artificiais, sao cada vezmais empregadas para tratar problemas em Biologia Mole-cular. A aplicabilidade dessas tecnicas advem de sua ca-pacidade de aprender automaticamente a partir de grandes
volumes de dados e produzir hipoteses uteis [4].Um fragmento de DNA pode conter diversos genes. A
propriedade mais importante dos genes esta no fato de queeles contem o codigo genetico para a expressao do mRNA(RNA mensageiro) que sera traduzido em proteınas, com-ponentes estes, essenciais a todo ser vivo [9]. As proteınassao polipeptıdeos compostas por conjuntos de aminoacidos.Estes aminoacidos sao representados por trincas (codons)de nucleotıdeos (Adenina - A, Uracila - U, Citosina - C eGuanina - G) no DNA. O processo pelo qual as sequenciasde nucleotıdeos dos genes sao interpretados na producao deproteınas e denominado expressao genica [9]. Mensurar eanalisar informacoes de expressao genica e de grande inte-resse para as Ciencias Biologicas. Esse tipo de analise podefornecer informacoes importantes sobre as funcoes de umacelula, uma vez que as mudancas na fisiologia de um or-ganismo sao geralmente acompanhadas por mudancas nospadroes de expressao dos genes [1]. Uma das tecnicas maisdifundidas para esta medicao sao os Microarrays de DNA[5] [38] [15] [23].
Diferentes tecnicas de IA foram aplicadas na analise dedados de expressao genica, tais como: redes neurais arti-ficiais [41] [25], Support Vector Machines [18] [6] e al-goritmos geneticos [42] [31] [10] [28] [30] [39]. Em to-dos os projetos citados anteriormente, o objetivo e encon-trar conjuntos de genes (clusters) que possam ser utiliza-dos como classificadores confiaveis, com uma elevada taxade classificacao e um bom desempenho de generalizacao.Dessa forma, os conjuntos minerados podem auxiliar naclassificacao de novos casos, facilitando o diagnostico e otratamento de doencas. Entretanto, em nenhum desses tra-balhos, encontramos classificadores baseados em regras dealto nıvel, como por exemplo, regras do tipo IF-THEN. Aocontrario, os classificadores obtidos sao do tipo caixa-preta,onde a entrada sao os dados de expressao de uma deter-minada amostra de celulas e a saıda e a classe a qual essaamostra provavelmente pertence. Por exemplo, essa saıdaassociada pode ser uma classe de doenca. Assim, a partirde um conjunto de dados de milhares de genes chega-se aum pequeno conjunto de poucas dezenas de genes que se-jam discriminantes para o problema.
Neste trabalho o enfoque sera a busca (mineracao) deregras de alto nıvel, que nao so sejam associadas a cadaclasse individualmente, reduzindo o problema a poucos ge-nes por classe, mas tambem associando o nıvel de expressaogenica a cada gene que compoe a regra. Acreditamos queesse tipo de informacao possa ser de grande utilidade aosespecialistas que buscam entender o mecanismo por detrasde alteracoes nos padroes de expressao genica associadas aoaparecimento de determinadas doencas. Para tal, elaborou-se um Algoritmo Genetico para a obtencao de regras do tipoIF-THEN a partir de bases de dados de expressoes genicas.Este ambiente evolutivo foi aplicado na classificacao de
uma base de dados de expressoes genicas de celulas can-cerıgenas, advindas de experimentos de microarray [34]. Oprincipal objetivo e a busca das relacoes entre os nıveis deexpressoes genicas e nove classes de cancer: mama, sis-tema nervoso central, colom, leucemia, melanoma, pulmao,ovario, renal e reprodutivas. Como ponto de partida, utili-zamos conjuntos reduzidos de genes que foram mineradosa partir de trabalhos anteriores nessa mesma base de dados[31] [13] e [20].
2. Algoritmos Geneticos (AGs)
AGs sao metodos computacionais de busca baseados nosmecanismos da evolucao natural e na genetica, simulando ateoria da selecao natural de Darwin [19]. Os AGs fazemparte da Computacao Evolutiva, area da Inteligencia Arti-ficial baseada nas Ciencias Biologicas e que se baseia nateoria da evolucao das especies de Charles Darwin.
O AG e um algoritmo que manipula, em paralelo, umconjunto de indivıduos (populacao), tipicamente cadeias desımbolos de tamanho fixo, que representam cromossomos.A cada indivıduo esta associada uma avaliacao. O AG trans-forma a populacao corrente em uma nova populacao usandooperacoes de reproducao e sobrevivencia, segundo criteriosbaseados na funcao de avaliacao [27].
Em AGs, uma populacao de possıveis solucoes para oproblema em questao evolui de acordo com operadores pro-babilısticos concebidos a partir de metaforas biologicas, demodo que ha uma tendencia de que, na media, os indivıduosrepresentem solucoes cada vez melhores a medida que oprocesso evolutivo continua [37].
2.1. Aplicacoes de Algoritmos Geneticos emData Mining e em Expressao Genica
Data Mining e um conjunto de tecnicas e ferramentasaplicado para a descoberta do conhecimento em bases dedados. O conhecimento minerado e utilizado em nıvel es-trategico, para a tomada de decisao. As aplicacoes de datamining encontram em outras areas de estudo a construcao deabordagens mistas, isto e, solucoes multidisciplinares queobtenham melhores resultados, acrescentando desempenho,confiabilidade e permitindo a otimizacao do processo demineracao de dados [2].
A tarefa de classificacao e uma das varias estudadas emdata mining. Em essencia, o problema consiste em atribuirvalores para os registros pertencentes a um pequeno con-junto de classes, e assim, descobrir algum relacionamentoentre estes atributos. Cada registro e composto de um con-junto de atributos preditos e um atributo objetivo [22] [17].
O conhecimento descoberto e usualmente representadona forma de regras de predicao do tipo IF-THEN. Este
2
tipo de regra se destaca devido ao seu alto nıvel de enten-dimento e pela representacao do conhecimento simbolico,contribuindo para compreensibilidade das informacoes des-cobertas. As regras descobertas podem ser construıdas deacordo com varios criterios, tais como: grau de confiancada predicao, taxa de acerto da classificacao para amostrasde classes desconhecidas, compreensibilidade, dentre ou-tros [14].
Dentre os varios trabalhos que foram desenvolvidos uti-lizando AGs na solucao de tarefas de data mining podemoscitar [14] [40] [26] [24] [11] [12] [36] [16] [3] [8] [7] [33][32].
Uma outra area onde os AGs estao contribuindo para adescoberta de conhecimento e a area de expressao genica.Na maioria destes projetos, buscamos clusterizar conjun-tos de genes na busca de relacoes entre estes genes, objeti-vando assim, encontrar conjuntos de genes que sao classifi-cadores confiaveis, que auxiliam na classificacao de novoscasos, facilitando o diagnostico e o tratamento de tumorescancerıgenos. Podemos citar [42] [30] [10] [31], [28]. [39],
3 Ambiente Evolutivo
O modelo do AG empregado em nosso ambiente evolu-tivo foi adaptado a partir do modelo de AG proposto em[14]. O AG em [14] foi desenvolvido na ferramenta GA-LOPPS [21] e foi elaborado com o objetivo de obter re-gras de classificacao do tipo IF-THEN em bases de dadosclınicos de pacientes. Dessa forma, as bases de dados ondeo ambiente de Fidelis e colaboradores ([21]) foram aplica-das eram formadas por registros que se caracterizavam pordados do paciente, no caso, a idade e presenca da doenca emhistorico familiar e por dados relacionados a sintomas dapaciente, tal como, presenca abundante de manchas bran-cas na face. As caracterısticas que se relacionavam aos sin-tomas, que eram a maioria, foram todas discretizadas em:0-ausente, 1-ocorrencia leve, 2- ocorrencia moderada e 4-ocorrencia severa. Nosso ambiente evolutivo, implemen-tado na linguagem Delphi R©, precisou ser adaptado paratrabalhar com bases de dados de expressao genica, ondeos registros apresentam os nıveis de expressao de dezenas(centenas ou milhares) de genes, que sao valores contınuose com precisao variavel (numeros reais). A seguir as princi-pais caracterısticas de nosso modelo de AG sao detalhadas:codificacao do indivıduo, operadores geneticos e funcao deavaliacao.
3.1 Cromossomo ou Indivıduo
O indivıduo ou cromossomo do nosso AG e compostopor N genes, onde cada gene do indivıduo esta relacionadoa uma condicao envolvendo um atributo (um gene do da-taset), onde N e o numero de genes encontrados na base
de expressao genica. A primeira posicao do indivıduo cor-responde ao primeiro gene encontrado na base de dados eassim sucessivamente ate que todos os genes de cada data-set estejam representados. O indıviduo e ilustrado na figura1
Figura 1. Cromossomo ou Individuo
Cada i-esima posicao do indivıduo e subdividida em trescampos: Peso, Operador e Valor, como ilustrado acima.Cada gene corresponde a uma condicao na parte SE da re-gra e o individuo (cromossomo) a toda a parte SE da regra.O campo Peso e uma variavel do tipo inteira e o seu valoresta compreendido entre os valores 0 (zero) e 10 (dez). Eimportante dizer que este campo Peso e o responsavel pelainsercao ou exclusao do gene na regra. Caso este valor sejamenor do que um valor limite este gene nao fara parte daregra, caso contrario o mesmo fara. Neste trabalho foi utili-zado como limite o valor 8 (oito). O campo Operador podevariar entre as operacoes < (menor) e ≥ (maior ou igual).O campo de Valor e uma variavel do tipo ponto flutuanteque pode variar entre o menor e o maior valor encontradosna base de expressao genica avaliada.
3.2 Operadores Geneticos
Na selecao dos pais para crossover aplicamos o metododo Torneio Estocastico utilizando tour de tamanho 3 (tres).Nestes pais selecionados, aplicamos crossover multiplocom dois pontos de corte, gerando dois novos filhos comtaxa de crossover de 100%. Nestes dois filhos gerados, apli-camos o operador de mutacao. Os operadores de mutacaoutilizados neste trabalho variam com o tipo do gene avaliadoe possui taxa de mutacao por gene no valor de 30%. Parao gene Peso o novo valor e dado sorteando o incrementoou o decremento de um (1) ao valor original. Para o geneOperador ocorre o sorteio de um novo operador dentre ospossıveis excluindo o encontrado originalmente. Neste tra-balho foi utilizado apenas dois operadores (≥ e <), levandoa troca de um pelo outro quando aplica-se o operador demutacao ao gene Operador. Na composicao dos individuosque irao participar da proxima geracao do AG, seleciona-mos os melhores pais e filhos.
3.3 Funcao de Avaliacao ou Aptidao (FA)(Fitness Function)
A Aptidao (ou fitness) refere-se ao grau de contribuicaode uma determinada solucao candidata para a convergencia
3
do AG na busca da melhor solucao dentro do espaco debusca.
Neste trabalho a FA avalia a qualidade de cada regra (in-divıduo). A FA aqui aplicada pode ser encontrada em [29].Para o perfeito entendimento da FA aqui aplicada, algunsconceitos precisam ser reforcados. Quando utilizamos umadeterminada regra na classificacao de um exemplo, quatrodiferentes tipos de resultados podem ser observados, depen-dendo da classe predita pela regra e a verdadeira regra doexemplo. Sao eles:
• True Positive (tp) - A regra prediz que o exemplo per-tence a uma determinada classe e o mesmo pertence;
• False Positive (fp) - A regra prediz que o exemplo per-tence a uma determinada classe mas o mesmo nao per-tence;
• True Negative (tn) - A regra prediz que o exemplo naopertence a uma determinada classe e o mesmo nao per-tence;
• False Negative (fn) - A regra prediz que o exemplonao pertence a uma determinada classe mas o mesmopertence;
A FA utiliza dois indicadores comumente utilizados emdomınios medicos, chamados de sensibilidade (Se) e espe-cificidade (Sp). Se e Sp sao definidos abaixo:
Se =tp
(tp + fn)(1)
Sp =tn
(tn + fp)(2)
Finalmente, a FA utilizada e definida como o produtodestes dois indicadores, Se e Sp, como segue abaixo:
Aptidao = Se ∗ Sp (3)
O objetivo do trabalho e maximizar ao mesmo tempo See Sp e consequentemente Aptidao, utilizando para isso, asequacoes 1, 2 e 3. Em cada execucao, o nosso AG traba-lha com um problema de classificacao de duas classes, istoe, quando o AG esta procurando por regras de uma dadaclasse, todas as outras classes sao agrupadas em uma unicaclasse.
3.4 Bases de dados
As bases utilizadas no nosso trabalho, foram extraıdasdos trabalhos [31], [13] e [20]. Cada um destes trabalhospartiram de conjuntos de genes extraıdos da base NCI60[34] composta por dados de expressao genica, advindosde experimentos de microarray, contendo informacoes so-bre celulas cancerıgenas de 9 (nove) classes. Sao elas:
mama, sistema nervoso central, colom, leucemia, mela-noma, pulmao, ovario, renal e reprodutivas. Cada um destestrabalhos chegaram a um conjunto de genes preditores paratodas as classes de cancer citadas acima. No trabalho [31]foi obtido um conjunto preditor, chamado no trabalho deB1, constituıdo de 13 genes respectivamente.
No trabalho [13] o conjunto preditor, chamado de B2, econstituıdo por 20 genes e no trabalho [20] por 17 genes(B3).
4 Resultados
Na obtencao destes resultados utilizamos, comoparametros do AG, populacao inicial de 400 indivıduos eo executamos por 100 geracoes.
Como e possıvel observar na Tabela 1, embora o resul-tado de treinamento seja quase sempre 100% nas tres ba-ses avaliadas, o resultado de generalizacao dessas regrasnao e tao bom, pois ao aplicarmos as mesmas sobre a ter-ceira particao dos registros que ficaram de fora da evolucaodo AG, o resultado de classificacao das regras cai bastante.Acreditamos que esse desempenho se deva ao baixo numerode amostras por classe que, em alguns casos chega a apenas3 (tres) registros por classe. Entretanto, essa e uma carac-terıstica peculiar aos experimentos de microarray, devidoao seu alto custo e dificuldade de execucao. Assim, reali-zamos varias execucoes do AG na esperanca de que ao ob-termos uma variedade de regras com 100% de treinamentopara cada classe, pelo menos uma delas tivesse uma boa ca-pacidade de generalizacao (alto valor de teste).
Tabela 1. Media geralMedia Geral
Base Treinamento TesteB1 0,996481 0,433B2 1 0,386852B3 1 0,304148
A Tabela 2 traz os melhores resultados obtidos nessabusca, apresentando as melhores regras descobertas pelonosso AG. Para cada cada classe, nosso ambiente evolu-tivo foi executado 50 (cinquenta) vezes, variando a se-mente randomica utilizada na geracao da populacao inicial.A melhor regra encontrada nas 50 execucoes, levando emconsideracao seu valor de treinamento em dois tercos dosregistros (e usando o menor numero de genes como criteriode desempate) foi selecionada como a regra preditora daclasse. Cada uma destas regras foi aplicada separadamenteem uma nova amostra de teste (1/3 dos registros), para ava-liar o do nıvel de generalizacao de cada regra obtida emtreinamento.
4
Tabela 2. Melhrores Resultados
C Regra Trein Teste Base1 if(Gene 28<0,7) and 1 0.5 B2
(Gene 409≥0,4) and(Gene 499<0,2)if(Gene 63<-1) and 1 0.5 B3(Gene 379≥-0,5) and(Gene 890≥0,1)
2 if(Gene 289<-0,5) and 1 1 B1(Gene 839≥-0,2)
3 if(Gene 97<-1,4) and 1 1 B2(Gene 231≥-0,4)
4 if(Gene 485≥0,7) 1 0.5 B35 if(Gene 97<0,6) and 1 1 B1
(Gene 242≥0,5) and(Gene 348<-1,1)
6 if(Gene 2≥-3,1) and 1 0.933 B3(Gene 229≥-0,7)
7 if(Gene 63≥0) and 1 1 B3(Gene 379<0,5)
8 if(Gene 97≥0,9) and 1 1 B1(Gene 348<-0,2)if(Gene 97≥1) and 1 1 B2(Gene 292≥0,5)
9 if(Gene 366<-0,6) 1 0 B1if(Gene 409<-1,7) 1 0 B2if(Gene 525<-1,3) 1 0 B3
Para cada regra encontrada na tabela 2 mostramosinformacoes do seu desempenho em um conjunto de trei-namento e teste, obtidos atraves da equacao 3, alem de qualbase de dados a regra provem.
Das nove classes avaliadas, em cinco delas (classes 2, 3,5, 7 e 8) foi possıvel atingir 100% de classificacao, tantoem treinamento quanto em teste. Na classe 6 o resultadotambem foi bom, pois encontramos uma regra que obteve100% de acertos em treinamento e 93,3% em teste. Infe-lizmente, nas tres classes restantes, embora a regra tenhaatingido 100% em treinamento, o desempenho em teste naofoi bom: 50% para as classes 1 e 4 e 0% para a classe 9.Assim, consideramos que o desempenho foi muito bom emseis das nove classes, mas bem abaixo do satisfatorio nasoutras tres.
5 Conclusao e Trabalhos Futuros
Com nossos experimentos de crossvalidation, foipossıvel observar que embora a obtencao de regras comalto ındice de treinamento seja relativamente facil, a qua-lidade dessas regras e logo descartada pelo desempenhodas mesmas na base de testes. Tal comportamento, acre-ditamos que possa ser justificado pelo baixo numero deamostras por classe, inerente ao problema. Para com-
pensar essa dificuldade, procuramos executar um grandenumero de execucoes do AG, para obtencao de um maiornumero de regras por classe, com alta taxa de desempe-nho na base de treinamento. Dessa forma, conseguimos ob-ter excelentes regras em seis das nove classes. Entretanto,em tres classes nao foi possıvel obter regras satisfatorias.Animados com os resultados promissores desse trabalho,pretendemos dar continuidade ao mesmo com os seguin-tes passos: (i) analise de uma quarta base (B4) tambemextraıda de [31] que tambem provocou uma reducao dabase de dados de expressoes genicas em [34], obtendoum conjunto de 11 genes; (ii) aplicar a metodologia ado-tada nesse trabalho em novas bases criadas a partir dacomposicao das quatro bases ja existentes na literatura [31],[13] e [20], obtendo-se 11 novas bases (B1+B2, B1+B3,B1+B4, B2+B3, B2+B4, B3+B4, B1+B2+B3, B1+B2+B4,B2+B3+B4, B1+B3+B4, B1+B2+B3+B4). Esses experi-mentos ja se encontram em andamento e ate o momentoconseguimos regras com pelo menos 75% de desempenhona base de testes. Com as regras de alto nıvel obtidas, ecom as que ainda serao obtidas em novos experimentos,conseguimos delimitar possıveis genes relacionados a cadaclasse de cancer e seus respectivos nıveis de expressao, con-seguindo assim, uma associacao gene/cancer e gene/geneque esperamos que possa contribuir para o diagnostico destetipo de cancer limitando assim o numero de genes a seremanalisados na busca de novos tratamentos.
Referencias
[1] B. Alberts, D. Bray, and J. Lewis. Biolgia Molecular daCelula. Artes Medicas, 3 edition, 1997.
[2] I. Anciutti, A. L. Goncalves, F. A. Siqueira, and P. S. S.Borges. Uma aplicacao de data mining sobre circuitoseletricos de baixa tensao utilizando algoritmos geneticos.1o Workshop de Ciencias da Computacao e Sistemas daInformacao da Regiao Sul (WorkComp Sul), Maio 2004.
[3] D. Araujo, H. Lopes, and A. Freitas. A parallel genetic al-gorithm for rule discovery in large databases. In Systems,Man and Cybernetics, volume 3, pages 940 – 945, Tokyo,October 1999. IEEE.
[4] P. Baldi and S. Brunak. Bioinformatics: the Machine Lear-ning approach. MIT Press, 2 edition, 2001.
[5] S. Brenner, M. Johnson, J. Bridgham, G. Golda, D. H.Lloyd, D. Johnson, S. M. S. Luo, M. Foy, M. Ewan, R. Roth,D. George, S. Eletr, G. Albrecht, E. Vermaas, S. R. Willi-ams, T. B. K. Moon, R. B. M. Pallas, J. Kirchner, K. Fea-ron, J. Mao, and K. Corcoran. Gene expression analysis bymassive parallel signature sequencing (mpss) on microbeadarray. Nature Biotechnology, 18(10):630–640, 2000.
[6] M. P. S. Brown, W. N. Grundy, D. Lin, N. Cristianini, C. W.Sugnet, T. S. Furey, M. Ares, and D. Haussler. Knowledge-based analysis of microarray gene expression data by usingsupport vector machines. Stanford University of Medicine,1999.
5
[7] D. Carvalho and A. Freitas. A genetic algorithm-based solu-tion for the problem of small disjuncts. In Springer-Verlag,editor, Principles of Data Mining and Knowledge Disco-very, volume 1910, pages 345–352, Lyon, France, 2000. 4thEuropean, Lecture Notes in Artificial Intelligence.
[8] D. Carvalho and A. Freitas. A hybrid decision tree/geneticalgorithm for coping with the problem of small disjunctsin data mining. In Genetic and Evolutionary Computation(GECCO-2000), pages 1061–1068, Las Vegas, NV, USA,Jully 2000.
[9] M. C. P. de Souto, A. C. Lorena, A. C. B. Delbem, and A. C.P. L. F. de Carvalho. Tecnicas de aprendizado de maquinapara problemas de biologia molecular. Sociedade Brasileirade Computacao, 2003.
[10] K. Deb and A. R. Reddy. Classification of two and multi-class cancer data reliably using multi-objective evolutionaryalgorithms. KanGAL Report, 2003.
[11] H. Ding, L. Benyoucef, and X. Xie. A simulation-basedmulti-objective genetic algorithm approach for networkedenterprises optimization. Engineering Applications of Ar-tificial Intelligence, 2005.
[12] C. R. dos Santos Miranda, G. M. B. de Oliveira, and J. B.dos Santos. Algoritmos geneticos aplicados em data mi-ning para obtencao de regras simples e precisas. In Anaisdo SBAI2003, pages 638–643, 2003.
[13] S. Dudoit, J. Fridlyand, and T. Speed. Comparison of discri-mination methods for the classification of tumors using geneexpression data. in press 576, Berkeley Stat. Dept. TechnicalReport, JASA, 2000.
[14] M. V. Fidelis, H. S. Lopes, and A. A. Freitas. Discoverycomprehensible classification rules with a genetic algorithm.In Congress on Evolutionary Computation - (CEC-2000),pages 805–810. La Jolla, CA, USA, 2000.
[15] W. M. Freeman, S. J. Walker, and K. E. Vrana. Quantitativert-pcr: pitfalls and potentials. Biotechniques, 26:112–122,1999.
[16] A. A. Freitas. Advances in Evolutionary Computation, chap-ter A Survey of Evolutionary Algorithms for Data Miningand Knowledge Discovery. Springer-Verlag, 2002.
[17] A. A. Freitas and S. H. Lavington. Mining Very Large Da-tabases with Parallel Processing. Kluwer Academic Pu-blishers, London, 1998.
[18] T. S. Furey, N. Cristianini, N. Duffy, D. W. Bednarski,M. Schummer, and D. Haussler. Support vector machineclassification and validation of cancer tissue samples usingmicroarray expression data. Oxford University Press, 2000.
[19] D. E. Goldberg. Genetic Algorithms in Search, Optimizationand Machine Learning. Adison-Wesley, USA, 1989.
[20] T. R. Golub, D. K. Slonim, P. Tamayo, C. Huard, M. Ga-asenbeek, J. P. Mesirov, H. Coller, M. L. Loh, J. R. Dow-ning, M. A. Caligiuri, C. D. Bloomfield, and E. S. Lander.Molecular classification of cancer: class discovery and classprediction. Science, 286, October 1999.
[21] E. D. Goodman. An introduction to gallops - the geneticalgorithms optimized for portability and parallelism system.Technical report, Departament od Computer Science - Mi-chigan State University, 1996.
[22] D. Hand. Construction and Assessment If Classification Ru-les. John Wiley and Sons, Chichester, 1997.
[23] C. A. Harrington, C. Rosenow, and J. Retief. Monitoringgene expression using dna microarrays. Curr. Opin. Micro-biol., 3:285–291, 2000.
[24] H. Ishibuchi and T. Yamamoto. Fuzzy rule selection bymulti-objective genetic local search algorithms and rule eva-luation measures in data mining. Fuzzy Sets and Systems,(141):59–88, 2004.
[25] J. Khan, J. S. Wei, M. Ringner, L. H. Saal, M. Ladanyi,F. Westermann, F. Berthold, M. Schwab, C. R. Antonescu,C. Peterson, and P. S. Meltzer. Classifiction and diagnos-tic prediction of cancers using gene expression profiling andartificial neural networks. Nature Medicine, 2001.
[26] Y. Kim and W. N. Street. An intelligent system for custo-mer targeting: a data mining approach. Decision SupportSystems, (37):215–228, 2004.
[27] J. R. Koza. Genetic Programming. On the Programming ofComputers by Means of Natural Selection. MIT Press, USA,1992.
[28] J. J. Liu, G. Culter, W. Li, Z. Pan, S. Peng, T. Hoey, L. Chen,and X. Ling. Genetic algorithms applied to multi-class pre-diction for the analysis of gene expression data. Oxford Uni-versity Press, 21(11 2005):2691–2697, 2005.
[29] H. S. Lopes, M. S. Coutinho, and W. C. Lima. An evolu-tionary approach to simulate cognitive feedback learning inmedical domain. In E. Sanchez, T. Shibata, and L. A. Zadeh,editors, Genetic Algorithms and Fuzzy Logic Systems, pages193–207. World Scientific, 1997.
[30] S. Mitra and H. Banka. Multi-objective evolutionary biclus-tering of gene expression data. Pattern Recognition, 2006.
[31] C. H. Ooi and P. Tan. Genetic algorithms applied to multi-class prediction for the analysis of gene expression data. Bi-oinformatic, 19(1):37–44, 2003.
[32] M. A. C. Pacheco, M. M. R. Vellasco, C. H. P. Lopes, andE. P. L. Passos. Extracao de regras de associacao em bases dedados por algoritmos geneticos. In Anais do XIII CongressoBrasileiro de Automatica (CBA 2000), Floarianopolis, Se-tembro 2000.
[33] W. Romao, A. A. Freitas, and R. C. S. Pacheco. A geneticalgorithm for discovering interesting fuzzy prediction rules:applications to science and technology data. In Genetic andEvolutionary Computation (GECCO-2002), New York, July2002.
[34] D. T. Ross, U. Scherf, M. B. Eisen, C. M. Perou,C. Rees, P. Spellman, V. Iyer, S. S. Jeffrey, M. V. de Rijn,M. Waltham, A. Pergamenschikov, J. C. F. Lee, D. Lash-kari, D. Shalon, T. G. Myers, J. N. Weinstein, D. Botstein,and P. O. Brown. Systematic variation in gene expressionpatterns in human cancer cell lines. Nature Genetics, 2000.
[35] J. C. Setubal and J. Meidanis. Introduction to Computacio-nal Molecular Biology. PWS Publishing Company, Boston,1997.
[36] K. C. Tan, Q. Yu, C. M. Heng, and T. H. Lee. Evolutionarycomputing for knowledge dicovery in medical diagnosis. Ar-tificial Intelligence in Medicine, (27):129–154, 2003.
[37] J. Tanomaru. Motivacao, fundamentos e aplicacoes de algo-ritmos geneticos. In Congresso Brasileiro de Redes Neurais,Curitiba, 1995. III Escola de Redes Neurais.
[38] V. E. Velculescu, L. Zhang, B. Vogelstein, and K. W. Kinz-ler. Serial analysis of gene expression. Science, 270:484–487, 1995.
6
[39] M. Wahde and Z. Szallasi. Improving the prediction of theclinical outcome of breast cancer using evolutionary algo-rithms. Soft Comput, 2006.
[40] D. C. Weaver. Applying data mining techniques to librarydesign, lead generation and lead optimization. Science Di-rect, 2004.
[41] Y. Xu, F. M. Selaru, J. Yin, T. T. Zou, V. Shustova, Y. Mori,F. Sato, T. C. Liu, A. Olaru, S. Wang, M. C. Kimos, K. Perry,K. Desai, B. D. Greenwald, M. J. Krasna, D. Shibata, J. M.Abraham, and S. J. Meltzer. Artificial neural networks andgene filtering distinguish between global gene expressionprofiles of barret’s esophagus and esophageal cancer. Can-cer Research, 2002.
[42] I. Zwir, R. R. Zaliz, and E. H. Ruspini. Automated biologicalsequence description by genetic multiobjective generalizedclustering. New York Academy of Sciences, (980):65–82,2002.
7
top related