classificador hierÁrquico multirrÓtulo usando … · helyane bronoski borges classificador...

HELYANE BRONOSKI BORGES

CLASSIFICADOR HIERÁRQUICO

MULTIRRÓTULO USANDO UMA REDE

NEURAL COMPETITIVA

Tese de Doutorado apresentado ao Programa de

Pós-Graduação em Informática da Pontifícia

Universidade Católica do Paraná, como requisito

parcial para obtenção do título de Doutor em

Informática.

CURITIBA

HELYANE BRONOSKI BORGES

CLASSIFICADOR HIERÁRQUICO

MULTIRRÓTULO USANDO UMA REDE

NEURAL COMPETITIVA

Tese de Doutorado apresentado ao Programa de

Pós-Graduação em Informática da Pontifícia

Universidade Católica do Paraná, como requisito

parcial para obtenção do título de Doutor em

Informática.

Área de Concentração: Ciência da Computação

Orientador: Prof. Dr. Júlio Cesar Nievola

CURITIBA

Dados da Catalogação na Publicação

Pontifícia Universidade Católica do Paraná

Sistema Integrado de Bibliotecas – SIBI/PUCPR

Biblioteca Central

Borges, Helyane Bronoski

B732c Classificador hierárquico multirrótulo usando uma rede neural competitiva /

2012 Helyane Bronoski Borges ; orientador, Júlio César Nievola. -- 2012.

165 f. : il. ; 30 cm

Tese (doutorado) – Pontifícia Universidade Católica do Paraná, Curitiba,

Bibliografia: f. 132-140

1. Redes neurais (computação). 2. Computação evolucionária. 3. Biologia

computacional. 4. Informática. I. Nievola, Júlio César. II. Pontifícia

Universidade

do Paraná. Programa de Pós-Graduação em Informática. III. Título.

CDD 20. ed. – 004

Dedicatória

Aos meus pais pela dedicação e

constante apoio.

AGRADECIMENTOS

Primeiramente agradeço a Deus que meu deu saúde e sabedoria para vencer todos os

obstáculos pelos quais passei durante a realização deste trabalho.

Ao meu pai João D. Borges que não pode estar pessoalmente compartilhando este

momento comigo, mas que no tempo que passamos juntos sempre me incentivou e me apoiou

nas decisões. Sei que, ao lado de Deus, ele está feliz e orgulhoso comigo.

A minha mãe Dilma B. Borges, pela força que me deu durante esses anos de estudo,

principalmente na hora mais difícil da minha vida, em que o mundo parecia desabar em minha

cabeça.

Ao meu orientador, Júlio Cesar Nievola, pela confiança, incentivo, paciência e pelos

ensinamentos passados ao longo do desenvolvimento deste trabalho. Espero poder continuar

pesquisando com esse grande Mestre.

A minha irmã Gilyane B. Borges que acompanhou todo o sacrifício durante esses

quatro anos de pesquisa.

Ao meu namorado Fábio Junior Alves Batista por ter entrado na minha vida em um

momento difícil e estar ao meu lado sempre.

A minha querida amiga Simone Nasser Matos que tinha sempre uma palavra amiga

nos momentos difíceis e de desânimo.

A minha amiga Regiane A. Siqueira que nunca negou esforços em me auxiliar nas

frequentes dúvidas em matemática e estatística.

Aos colegas de pesquisa Ricardo Cerri e Mauri Ferrandin pela auxilio e pela troca de

conhecimentos.

Aos colegas de trabalho do departamento de informática da UTFPR, Câmpus Ponta

Grossa, em especial ao Prof. Flávio Vieira.

E a todos aqueles que de alguma maneira contribuíram para que esse trabalho fosse

realizado.

PUBLICAÇÕES

BORGES, Helyane Bronoski; NIEVOLA, J. C. Hierarchical Classification using a

Competitive Neural Network. In: 8th International Conference on Natural Computation

(ICNC'12), 2012, Chongqing, China. 8th International Conference on Natural Computation

(ICNC'12). Piscataway, NJ: IEEE Press, 2012. v. 1. p. 172-177.

BORGES, Helyane Bronoski; NIEVOLA, J. C. Hierarchical Classification Using a

Competitive Neural Network for Protein Function Prediction. In: 14th International

Conference on Artificial Intelligence (ICAI'12), 2012, Las Vegas. 14th International

Conference on Artificial Intelligence (ICAI'12). USA: CSREA Press, 2012. v. 1. p. 1-7.

BORGES, Helyane Bronoski; NIEVOLA, J. C. Multi-Label Hierarchical Classification using

a Competitive Neural Network for Protein Function Prediction. In: 2012 International Joint

Conference on Neural Networks (IJCNN 2012), 2012, Brisbane, Austrália. 2012 International

Joint Conference on Neural Networks (IJCNN 2012). Piscataway, NJ: IEEE Press, 2012. v. 1.

p. 1-8.

BORGES, Helyane Bronoski; NIEVOLA, Julio Cesar. Classificador Hierárquico Multi-

Classe usando uma Rede Neural Competitiva. In: XIX SEMIC. Seminário de Iniciação

Científica. XII Mostra de Pesquisa da Pós-Graduação, 2011, Curitiba. Caderno de Resumos

do XIX Seminário de Iniciação Científica. XIII Mostra de Pesquisa da Pós-Graduação.

Curitiba: Champagnat, 2011. v. 1. p. 137-137.

BORGES, Helyane Bronoski; NIEVOLA, J. C. Classificador Hierárquico Multiclasses

usando uma Rede Neural Competitiva para Predição Funcional de Proteínas. In: XVIII

SEMIC. Seminário de Iniciação Científica. XII Mostra de Pesquisa da Pós-Graduação, 2010,

Curitiba. Caderno de Resumos do XVIII Seminário de Iniciação Científica. XII Mostra de

Pesquisa da Pós-Graduação. Curitiba: Champagnat, 2010. v. 1. p. 281-281.

RESUMO

Esta tese propõe um novo algoritmo baseado em Redes Neurais Artificiais (RNA)

Competitivas para classificação hierárquica multirrótulo usando a abordagem de classificação

global, no qual o classificador processa e avalia todas as classes da hierárquica em uma única

vez. Esse tipo de abordagem, juntamente com a predição multirrótulo aplicada em estruturas

hierárquicas do tipo grafo acíclico dirigido é considerada complexa e desafiadora, visto que

um exemplo está associado a uma ou mais classes da hierarquia de classes. Além disso, uma

segunda versão do classificador é desenvolvida no qual é modificada a forma de treinamento

da rede neural que será por meio da técnica de estratégia evolucionária. Dados biológicos de

10 bases de dados da Ontologia Gênica são usados para a realização de experimentos

computacionais. Os critérios utilizados para a avaliação dos algoritmos são a correção

preditiva através da medida de distância dependente de profundidade e a medida hierárquica

baseada na ancestralidade. Para poderem ser comparados com outros classificadores da

literatura, tal qual o Clus-HMC e Clus-HSC, os classificadores são adaptados para serem

avaliados por meio da curva de precisão e revocação. Os resultados mostram que quando

comparado às duas propostas desenvolvidas, a primeira apresenta resultados superiores. Já

quando comparado com o Clus-HMC e Clus-HSC às abordagens propostas obtiveram

resultados equivalentes.

Palavras-chave: Classificação Hierárquica Multirrótulo, Abordagem de Classificação Global,

Rede Neural Artificial Competitiva, Estratégia Evolucionária.

ABSTRACT

This thesis proposes a new algorithm based on Competitive Artificial Neural Networks for

multi-label hierarchical classification using the global approach, in which the classifier

processes and evaluates all classes in the hierarchy once. This approach, together with the

multi-label prediction applied hierarchical directed acyclic graph is complex and challenging,

since an example is associated with one or more classes of the class hierarchy. Also, the

second version of the classifier is developed which is modified in the form of training the

neural network will be using the evolutionary strategy approach. Biological data from ten

databases of Gene Ontology is used to conduct computational experiments. The criteria used

to assess the predictive correction algorithms were the distance-dependent depth and measures

based on hierarchical ancestry. To be comparable with other classifiers from the literature,

like the Clus-HMC and Clus-HSC, classifiers are adapted to be evaluated by the curve

precision recall. The results showed that compared to two proposals developed, the first

displays superior results. Already compared to Clus-HMC and Clus-HSC obtained similar

results.

Keywords: Hierarchical Classification Multi-label, Global Approach, Competitive Artificial

Neural Network, Evolutionary Strategical.

LISTA DE ABREVIATURAS E SIGLAS

AM Aprendizagem de Máquina

ART Adaptive Resonance Theory

AUC Area Under the ROC Curve

AUCPR Area Under the ROC Curve Precision Recall

CSSA Condensing Sort and Select Algorithm

CSSAG Condensing Sort and Select Algorithm for GraphsHMC-LMLP

DAG Directed Acyclic Graph

E Especificidade

EC Enzyme Commission

EE Estratégia Evolucionária

FP Falso Positivo

FN Falso Negativo

GO Gene Ontology

HIER-BFS Breadth-First Search Graphs

HIER-MB Markov Blanket Graphs

HMC Hierarchical multi-label classification

HSC Hierarchical single-label classification

LVQ Learning Vector Quantization

k-NN k-Nearest Neighbor

MHCAIS Multi-Label Hierarchical Classification with an Artificial Immune System

MHC-CNN Multi-label Hierarchical Classification using a Competitive Neural Network

MHC-ES Multi-label Hierarchical Classification usinga Strategical Evolutionary

P Precisão

PCT Predictive Clustering Trees

RGOW Random GO Walk

RNA Redes Neurais Artificiais

ROC Receiver Operating Characteristics

S Sensibilidade

SC Single-label Classification

SOM Self-organizing Map

SVM Support Vector Machines

TA Taxa de Acerto

TDIDT Top-down induction of decision trees

TE Taxa de Erro

VN Verdadeiro Negativo

VP Verdadeiro Positivo

LISTA DE EQUAÇÕES

Equação 1 - Definição de Neurônio - Saída do Combinador Linear (HAYKIN, 2001) .......... 11

Equação 2 - Definição de Neurônio - Sinal de Saída do Neurônio (HAYKIN, 2001) ............. 11

Equação 3 - Definição de Neurônio - Transformação da Saída do Combinador Linear

(HAYKIN, 2001) ...................................................................................................................... 11

Equação 4 - Atualização dos Pesos dos Neurônios utilizando a versão LVQ1

(KOHONEN, 1995) .................................................................................................................. 18

Equação 7 - Mutação do Algoritmo de Eestratégia Evolucionária (BÄCK, et. al., 2000) ....... 20

Equação 10 - Taxa de Acerto ................................................................................................... 22

Equação 11 - Taxa de Erro ....................................................................................................... 22

Equação 12 - Medida de Sensibilidade/Revocação .................................................................. 23

Equação 13 - Medida de Especificidade................................................................................... 23

Equação 14 - Medida de Precisão............................................................................................. 23

Equação 15 - Medida-F ............................................................................................................ 23

Equação 16 - Contribuição de Falsos Positivos (SUN & LIM, 2001) ..................................... 39

Equação 17 - Contribuição Refinada de Falsos Positivos (SUN & LIM, 2001) ...................... 39

Equação 18 - Contribuição de Falsos Positivos para cada Classe (SUN & LIM, 2001) .......... 40

Equação 19 - Contribuição de Falsos Negativos (SUN & LIM, 2001) .................................... 40

Equação 20- Contribuição Refinada de Falsos Negativos (SUN & LIM, 2001) .................... 40

Equação 21 - Contribuição de Falsos Negativos para cada Classe (SUN & LIM, 2001) ........ 40

Equação 22 - Taxa de Acerto utilizando a Contribuição de Falsos Positivos e Falsos

Negativos (SUN & LIM, 2001) ................................................................................................ 40

Equação 23 - Taxa de Erro utilizando a Contribuição de Falsos Positivos e Falsos Negativos

(SUN & LIM, 2001) ................................................................................................................. 40

Equação 24 - Medida de Sensibilidade utilizando a Contribuição de Falsos Positivos e Falsos

Equação 25 - Medida de Precisão utilizando a Contribuição de Falsos Positivos e Falsos

Equação 26 - Distância Normalizada (SUN & LIM, 2001) ..................................................... 40

Equação 27 - Taxa de Acerto (SUN & LIM, 2001) ................................................................. 41

Equação 28 - Medida de Precisão Hierárquica (IPEIROTIS, et. al., 2001) ............................. 43

Equação 29 - Medida de Sensibilidade Hierárquica (IPEIROTIS, et. al., 2001) ..................... 43

Equação 30 - Medida-F Hierárquica (IPEIROTIS, et. al., 2001) ............................................. 43

Equação 31 - Medida de Precisão Hierarquica (KIRITCHENKO et. al., 2004) ...................... 43

Equação 32 - Medida de Sensibilidade Hierarquica (KIRITCHENKO et. al., 2004) .............. 43

Equação 33 - Medida de Precisão para Curva PR (Vens, et. al., 2008) ................................... 44

Equação 34 - Medida de Revocação para Curva PR (Vens, et. al., 2008) ............................... 44

Equação 35 - Média Ponderada das Àreas Abaixo da Curva PR (Vens, et. al., 2008) ............ 44

Equação 36 - Soma das Diferenças Positivas do Teste de Wilcoxon (DESMAR, 2006) ........ 46

Equação 37 - Soma das Diferenças Negativas do Teste de Wilcoxon (DESMAR, 2006) ....... 46

Equação 38 - Cálculo T (DESMAR, 2006) .............................................................................. 46

Equação 39 - Cálculo da Estatística z (DESMAR, 2006) ........................................................ 46

Equação 40 - Cálculo da Média dos Postos Médios (DESMAR, 2006) .................................. 47

Equação 41 - Cálculo da Estatística F (DESMAR, 2006) ........................................................ 47

Equação 42 - Distância Crítica para o Teste de Neyemi (DESMAR, 2006) ............................ 47

Equação 43 - Distância Euclidiana ........................................................................................... 67

Equação 44 - Argumento da Menor Distância Euclidiana ....................................................... 68

Equação 45 - Atualização dos Pesos do Neurônio do MHC-CNN .......................................... 69

Equação 46 - Atualização da Taxa de Aprendizagem do MHC-CNN ..................................... 69

Equação 47 - Atualização da Distância do MHC-CNN ........................................................... 69

Equação 48 - Cálculo para Predição Parcialmente Correta ...................................................... 73

Equação 49 - Recombinação do MHC-ES ............................................................................... 76

Equação 50 - Normalização Min Max ...................................................................................... 82

LISTA DE FIGURAS

Figura 1 – Exemplo de Hierarquia para Classificação de Textos............................................... 3

Figura 2 - Processo de Classificação (REZENDE, 2005). ......................................................... 8

Figura 3 – Etapa de Treinamento e Teste de um Classificador. ................................................. 9

Figura 4 – Modelo Não-Linear de um Neurônio (HAYKIN, 2001). ....................................... 10

Figura 5 – Exemplo de uma RNA de Uma Camada (HAYKIN, 2001). .................................. 12

Figura 6 – Esquema de classificação adaptativa de padrões (HAYKIN, 2001). ...................... 17

Figura 7 - Atualização dos vetores de Voronoi nas redes LVQ (HAYKIN, 2001). ................. 17

Figura 8 – Exemplos de Curva ROC (PRATI et al. 2008) ....................................................... 24

Figura 9 - Exemplo de um Grafo Acíclico Dirigido. ................................................................ 26

Figura 10 – Exemplo de uma árvore. ....................................................................................... 27

Figura 11 - Exemplo de do Processo de Classificação Hierárquica. ........................................ 28

Figura 12 - Exemplo de hierarquia de classe estruturada em árvore e em DAG. .................... 28

Figura 13 - Exemplo de predição obrigatória em nós-folha. .................................................... 29

Figura 14 - Exemplo de predição opcional em nós-folha. ........................................................ 30

Figura 15 - Exemplo de classificação plana multirrótulo. ........................................................ 31

Figura 16 - Exemplo de classificação hierárquica local por nó. ............................................... 32

Figura 17 - Exemplo de classificação local por pais. ............................................................... 33

Figura 18 - Exemplo de classificação local por nível. .............................................................. 34

Figura 19 - Exemplo de classificação global. ........................................................................... 35

Figura 20 - Exemplo Medida de Distância Independente de Profundidade em Árvores. ........ 37

Figura 21 - Exemplo Medida de Distância Independente de Profundidade em DAG. ............ 37

Figura 22 - Exemplo de Predição de Classe em Estrutura de Árvore usando a Medida de

Distância Dependente de Profundidade. ................................................................................... 38

Figura 23 - Exemplo de Predição de Classe em Estrutura de Arvore usando a Medida de

Distância Dependente de Profundidade com Atribuição de Pesos. .......................................... 39

Figura 24 - Exemplo de Predição Hierárquica usando Medida de Avaliação baseada na Matriz

de Custo. ................................................................................................................................... 41

Figura 25 - Exemplo de Predição Hierárquica usando Medida de Avaliação baseada na Matriz

de Custo juntamente com a medida baseada em Distância. ..................................................... 42

Figura 26 – Modelo do MHC-CNN. ........................................................................................ 66

Figura 27 – Topologia de Saída do MHC-CNN. ...................................................................... 66

Figura 28 – Transformação da Hierarquia de Classes em Indivíduo da ES. ............................ 72

Figura 29 – Modelo do MHC-ES. ............................................................................................ 73

Figura 28 - Exemplo de Predição Correta – 1ª Possibilidade. .................................................. 74

Figura 29 - Exemplo de Predição Correta – 2ª Possibilidade. .................................................. 75

Figura 30 - Exemplo de Predição Parcialmente Correta. ......................................................... 76

Figura 31 - Exemplo de Predição Incorreta. ............................................................................. 77

Figura 32 – Exemplo de Medida baseada na Hierarquia. ......................................................... 78

Figura 35 – Metodologia para Realização dos Experimentos. ................................................. 81

Figura 36 – Etapa de Pré-Processamento. ................................................................................ 81

Figura 37 – Etapa de Classificação Hierárquica ....................................................................... 85

Figura 38 – Resultados do MHC-CNN na Base de Dados Completa. ..................................... 86

Figura 39 - Resultados do MHC-ES na Base de Dados Completa. .......................................... 87

Figura 40 – Resultado do MHC-CNN na Base de Dados com Limiar 300.............................. 87

Figura 41 - Resultado do MHC-ES na Base de Dados com Limiar 300. ................................. 88

Figura 42 – Resultados do MHC-CNN na Ontologia Componente Celular. ........................... 89

Figura 43 – Resultados do MHC-CNN na Ontologia Função Molecular. ............................... 89

Figura 44 – Resultados do MHC-CNN na Ontologia Processo Biológico. ............................. 90

Figura 45 - Resultados do MHC-ES na Ontologia Componente Celular. ................................ 90

Figura 46 - Resultados do MHC-ES na Ontologia Função Molecular. .................................... 91

Figura 47 - Resultados do MHC-ES na Ontologia Processo Biológico. .................................. 91

Figura 48 – Comparativo Geral da Medida de Revocação na Base de Dados Completa

Church. ..................................................................................................................................... 99

Figura 49 – Comparativo Geral da Medida de Revocação na Base de Dados Completa Derisi.

................................................................................................................................................ 100

Figura 50 – Comparativo da Medida de Revocação entre o MHC-CNN e o Clus-HMC na

Base de Dados Completa. ....................................................................................................... 100

Figura 51 – Comparativo da Medida de Revocação entre o MHC-CNN e o Clus-HSC na Base

de Dados Completa. ................................................................................................................ 101

Figura 52 – Comparativo Geral da Medida de Revocação na Base de Dados Church com

Limiar igual a 300. ................................................................................................................. 104

Figura 53 – Comparativo Geral da Medida de Revocação na Base de Dados Derisi com

Limiar igual a 300. ................................................................................................................. 105

Base com Limiar igual a 300. ................................................................................................. 105

Figura 55 – Comparativo da Medida de Revocação entre o MHC-CNN e o Clus-HSC na Base

de Dados com Limiar igual a 300. .......................................................................................... 106

Figura 56 – Comparativo Geral da Medida de Revocação na Base de Dados Church da

Ontologia Componente Celular. ............................................................................................. 109

Figura 57 – Comparativo Geral da Medida de Revocação na Base de Dados Derisi da

Figura 59 – Comparativo da Medida de Revocação entre o MHC-CNN e o Clus-HSC na

Figura 60 – Comparativo Geral da Medida de Revocação na Base de Dados Church

Completa. ................................................................................................................................ 114

Figura 61 – Comparativo Geral da Medida de Revocação na Base de Dados Derisi Completa.

................................................................................................................................................ 115

Figura 62 – Comparativo da Medida de Revocação entre o MHC-ES e o Clus-HMC. ......... 115

Figura 63 – Comparativo da Medida de Revocação entre o MHC-ES e o Clus-HSC na Base

de Dados Completa. ................................................................................................................ 116

Limiar igual a 300. ................................................................................................................. 119

Limiar igual a 300. ................................................................................................................. 120

Figura 66 – Comparativo da Medida de Revocação entre o MHC-ES e o Clus-HMC na Base

Figura 67 – Comparativo da Medida de Revocação entre o MHC-ES e o Clus-HSC na Base

Figura 70 – Comparativo da Medida de Revocação entre o MHC-ES e o Clus-HMC na

Figura 71 – Comparativo da Medida de Revocação entre o MHC-ES e o Clus-HSC na

Ontologia Função Molecular. ................................................................................................. 148

Figura 74 – Comparação Geral da Medida de Revocação entre o MHC-CNN e o Clus-HMC

na Ontologia Função Molecular. ............................................................................................ 149

Figura 75 – Comparação Geral da Medida de Revocação entre o MHC-CNN e o Clus-HSC na

Ontologia Processo Biológico. ............................................................................................... 159

na Ontologia Processo Biológico. .......................................................................................... 160

LISTA DE TABELAS

Tabela 1 – Passos do Algoritmo SOM (HAYKIN, 2001). ....................................................... 16

Tabela 2 – Passos do Algoritmo de Estratégia Evolucionária (RECHENBERG, 1973). ........ 21

Tabela 3 – Matriz de Confusão para Classificação Convencional Binária .............................. 22

Tabela 4 - Trabalhos desenvolvidos e aplicados em estruturas do tipo árvore. ....................... 49

Tabela 5 - Trabalhos desenvolvidos e aplicados em estruturas do tipo DAG. ......................... 51

Tabela 6 – Passo para o treinamento do algoritmo MHC-CNN. .............................................. 70

Tabela 7 – Passos para o teste do algoritmo MHC-CNN. ........................................................ 71

Tabela 8 – Características das Bases de Dados GO. ................................................................ 80

Tabela 9 – Informações sobre as Bases de Dados GO. ............................................................ 80

Tabela 10 – Características das Bases de Dados Separadas por Ontologias. ........................... 83

Tabela 11 – Características das Bases de Dados GO conforme o Limiar. ............................... 84

Tabela 12 – Comparativo entre o MHC-CNN e o MHC-ES usando a medida de distância. ... 92

Tabela 13 – Comparativo entre o MHC-CNN e o MHC-ES usando a medida-Fh. ................. 93

Tabela 14 - Comparativo entre o MHC-CNN e o MHC-ES usando a medida de distância. ... 94

Tabela 15 - Comparativo entre o MHC-CNN e o MHC-ES usando a medida-Fh. .................. 94

Tabela 16 – Comparativo entre o MHC-CNN e o MHC-ES usando a medida de distância na

Ontologia Componente Celular. ............................................................................................... 95

Tabela 17 – Comparativo entre o MHC-CNN e o MHC-ES usando a medida-Fh na Ontologia

Componente Celular. ................................................................................................................ 96

Tabela 18 – Comparativo da Medida AUPRC entre o MHC-CNN e o Clus-HMC e Clus-HSC

na Base de Dados Completa. .................................................................................................... 97

Tabela 19 – Comparativo da Medida de Precisão e Revocação com 50 épocas na Base de

Dados Completa. ...................................................................................................................... 98

Dados Completa. ...................................................................................................................... 99

Tabela 22 – Comparativo da Medida AUPRC entre o MHC-CNN e o Clus- HMC e Clus-HSC

na Base de Dados com Limiar igual a 300. ............................................................................ 102

Dados com Limiar igual a 300. .............................................................................................. 103

na Ontologia Componente Celular. ........................................................................................ 107

Tabela 27 – Comparativo da Medida de Precisão e Revocação com 50 épocas na Ontologia

Componente Celular. .............................................................................................................. 108

Tabela 30 – Comparativo da Medida AUPRC entre o MHC-ES e o Clus-HMC e Clus-HSC na

Base de Dados Completa. ....................................................................................................... 112

Tabela 31 – Comparativo da Medida de Precisão e Revocação com 20 gerações na Base de

Dados Completa. .................................................................................................................... 113

Dados Completa. .................................................................................................................... 114

Base de Dados com Limiar igual a 300. ................................................................................. 117

Tabela 39 – Comparativo da Medida de Precisão e Revocação com 20 gerações na Ontologia

Tabela 42 – Características das bases de dados do Funcat. .................................................... 141

Tabela 43 – Resultados obtidos pelo HC-CNN nas Bases de Dados do Funcat. ................... 142

Tabela 44 - Resultados obtidos pelo HC-ES nas Bases de Dados do Funcat. ........................ 142

Tabela 45 – Comparação entre HC-CNN e HC-ES usando a Medida de Distância. ............. 142

Tabela 46 – Comparação entre HC-CNN e HC-ES usando a Medida-Fh.............................. 143

Função Molecular. .................................................................................................................. 145

Processo Biológico. ................................................................................................................ 156

Tabela 61 – Comparativo da Medida de Precisão e Revocação com 500 épocas na ............. 158

SUMÁRIO

1 INTRODUÇÃO............................................................................................................... 1

1.1 MOTIVAÇÃO E CONTEXTO .................................................................................... 2

1.2 OBJETIVO DA PESQUISA ........................................................................................ 4

1.3 ORIGINALIDADE ...................................................................................................... 5

1.4 CONTRIBUIÇÕES ...................................................................................................... 5

1.5 ORGANIZAÇÃO DO TRABALHO ........................................................................... 6

2 REFERENCIAL TEÓRICO ......................................................................................... 7

2.1 PRINCIPAIS CONCEITOS DE CLASSIFICAÇÃO .................................................. 7

2.2 TÉCNICAS DE APRENDIZAGEM DE MÁQUINA PARA A CLASSIFICAÇÃO DE

DADOS ............................................................................................................................... 8

2.2.1 Redes Neurais Artificiais ........................................................................................... 9

2.2.2 Aprendizagem Competitiva ....................................................................................... 13

2.2.2.1 Rede Self-Organizing Map .................................................................................... 14

2.2.2.2 Rede Learning Vector Quantization ...................................................................... 16

2.2.3 Estratégias Evolucionárias ......................................................................................... 19

2.3 AVALIAÇÃO DOS CLASSIFICADORES ................................................................ 22

3 CLASSIFICAÇÃO HIERÁRQUICA ........................................................................... 25

3.1 DEFINIÇÕES ............................................................................................................... 25

3.2 CONCEITOS FUNDAMENTAIS DE CLASSIFICAÇÃO HIERÁRQUICA ............ 27

3.3 ABORDAGENS PARA TRATAR PROBLEMAS DE CLASSIFICAÇÃO

HIERÁRQUICA .................................................................................................................. 30

3.3.1 Classificação Hierárquica Plana ................................................................................. 30

3.3.2 Classificação Hierárquica Local ................................................................................ 31

3.3.2.1 Classificação Hierárquica Local para cada nó ....................................................... 31

3.3.2.2 Classificação Hierárquica Local em nós Pais ........................................................ 32

3.3.2.3 Classificação Hierárquica Local por Nível ............................................................ 33

3.3.3 Classificação Global ou Big-Bang ............................................................................. 35

3.4 AVALIAÇÃO DOS CLASSIFICADORES HIERÁRQUICOS.................................. 35

3.4.1 Medidas Baseada em Distância .................................................................................. 36

3.4.1.1 Medida Independente da Profundidade ................................................................. 36

3.4.1.2 Medida Dependente da Profundidade .................................................................... 38

3.4.2 Medida Baseada em Matriz de Custo......................................................................... 41

3.4.3 Medidas Baseada na Relação de Ancestralidade e Descendência ............................. 42

3.4.4 Medida Baseada na Curva de Precisão e Revocação ................................................. 44

3.5 TESTES ESTATÍSTICOS PARA VALIDAÇÃO DOS RESULTADOS ................... 45

3.5.1 Teste de Wilcoxon...................................................................................................... 45

3.5.2 Teste de Friedman ...................................................................................................... 46

4 TRABALHOS CORRELATOS .................................................................................... 48

4.1 PANORAMA DOS TRABALHOS QUE UTILIZAM A CLASSIFICAÇÃO

HIERÁRQUICA .................................................................................................................. 48

4.2 TRABALHOS ESTRUTURADOS NA FORMA DE DAG........................................ 50

4.2.1 Trabalhos utilizando a Abordagem de Classificação Hierárquica Plana ................... 51

4.2.2 Trabalhos Utilizando a Abordagem Classificação Hierárquica Local ....................... 54

4.2.2.1 Classificação Local para cada Nó .......................................................................... 54

4.2.3 Trabalhos Utilizando a Abordagem Classificação Hierárquica Global ..................... 56

4.3 TRABALHOS QUE USAM COMO TÉCNICA REDES NEURAIS E ESTRATÉGIA

EVOLUCIONÁRIA ............................................................................................................ 61

4.4 CONSIDERAÇÕES SOBRE TRABALHOS UTILIZANDO CLASSIFICAÇÃO

GLOBAL APLICADO EM ESTRUTURAS DAG ............................................................ 62

5 CLASSIFICADOR HIERÁRQUICO MULTIRRÓTULO USANDO UMA REDE

NEURAL COMPETITIVA (MHC-CNN) ....................................................................... 65

5.1 DESCRIÇÃO DO ALGORITMO MHC-CNN ............................................................ 65

5.2 DESCRIÇÃO DO ALGORITMO MHC-ES................................................................ 71

5.3 MEDIDAS DE AVALIAÇÃO ..................................................................................... 73

5.3.1 Medida Baseada em Distância Dependente de Profundidade .................................... 73

5.3.2 Medida Baseada na Relação de Ancestralidade ......................................................... 77

5.3.3 Medida Baseada na Curva de Precisão e Revocação ................................................. 78

6 EXPERIMENTOS .......................................................................................................... 79

6.1 EXPERIMENTOS INICIAIS ....................................................................................... 79

6.2 BASES DE DADOS..................................................................................................... 79

6.3 METODOLOGIA UTILIZADA PARA A REALIZAÇÃO DOS EXPERIMENTOS80

6.3.1 Pré-Processamento das Bases de Dados .................................................................... 81

6.3.2 Classificação Hierárquica........................................................................................... 84

6.3.3 Avaliação Estatística .................................................................................................. 85

6.4 RESULTADOS EXPERIMENTAIS ........................................................................... 85

6.4.1 Resultados Bases de Dados Completa ....................................................................... 86

6.4.2 Resultados Bases de Dados com Exemplos Removidos conforme Limiar................ 87

6.4.3 Resultados Bases de Dados Separadas por Ontologias .............................................. 88

6.5 COMPARAÇÃO DOS RESULTADOS ...................................................................... 91

6.5.1 Comparativo entre MHC-CNN e MHC-ES ............................................................... 92

6.5.1.1 Base de Dados Completa ....................................................................................... 92

6.5.1.2 Base de Dados com Limiar igual a 300 ................................................................. 93

6.5.1.3 Bases de Dados Separadas por Ontologias ............................................................ 95

6.5.2 Comparativo entre MHC-CNN e o Clus ................................................................... 96

6.5.2.1 Base de Dados Completa ....................................................................................... 97

6.5.2.2 Base de Dados com Limiar igual a 300................................................................102

6.5.2.3 Base de Dados Separadas por Ontologias............................................................106

6.5.3 Comparativo entre MHC-ES e o Clus……………………………………………..111

6.5.3.1 Base de Dados Completa......................................................................................112

6.5.3.2 Base de Dados com Limiar igual a 300................................................................116

6.5.3.3 Base de Dados Separadas por Ontologias............................................................121

6.6 COMPARAÇÃO GERAL DOS RESULTADOS......................................................126

6.6.1 Resultados obtidos em estruturas em Árvore………………………………………127

6.6.2 Resultados obtidos em estruturas DAG....................................................................127

7 CONCLUSÃO…………………………………………………………………………129

7.1 TRABALHOS FUTUROS..........................................................................................130

REFERÊNCIAS………………………………………………………………………...132

APÊNDICE A – EXPERIMENTOS REALIZADOS COM BASES DE DADOS

ESTRUTURADAS EM ÁRVORE.................................................................................141

APÊNDICE B – RESULTADOS OBTIDOS NAS BASES DE DADOS SEPARADAS

POR ONTOLOGIAS.......................................................................................................144

1 INTRODUÇÃO

Os algoritmos de aprendizagem de máquina (AM) podem ser classificados em duas

categorias: aprendizado supervisionado e não supervisionado. A diferença entre ambos diz

respeito à forma de como é feito o processo de aprendizagem. No aprendizado não

supervisionado não existe conhecimento sobre o domínio. Já no aprendizado supervisionado,

uma das tarefas mais utilizada é a classificação. O objetivo dessa tarefa é a construção de um

modelo que descreve um conjunto pré-determinado de classes de dados. Essa construção é

feita analisando-se as amostras de uma base de dados, que são descritas por atributos e cada

uma delas pertence a uma classe pré-definida, identificada por um dos atributos, chamado

atributo rótulo da classe ou, simplesmente, classe.

Há dois tipos de classificação de dados denominados de classificação plana e

classificação hierárquica. A maioria dos trabalhos citados na literatura envolve o tipo de

classificação plana na qual uma instância do conjunto de treinamento está relacionada a uma

determinada classe. Há casos ainda em que deseja-se determinar uma classe para cada

instância de um total de N classes em que N>2. Dessa maneira, a classificação acaba sendo

denominada de classificação multiclasses. Além disso, existem casos em que uma instância

pode estar associada a mais de uma classe. Este tipo de classificação é chamada de

classificação multirrótulo.

Na classificação hierárquica as classes estão dispostas em uma hierarquia. Nesse tipo

de classificação ao associar uma classe da hierarquia para uma instância automaticamente

estará associando todas as suas classes ancestrais. Além disso, a classificação hierárquica

também podem ser multirrótulo. Entre alguns exemplos, em que se utiliza a classificação

hierárquica pode-se citar a predição de proteínas em dados de bioinformática, de textos, de

gêneros musicais entre outros.

Existem algumas técnicas para tratar problemas hierárquicos. Dentre elas, podem-se

citar os trabalhos dos seguintes autores, entre outros: Clare & King (2001), Blockeel (2002),

Jensen et. al (2002), Clare & King (2003), Holden & Freitas (2005), Holden & Freitas (2006),

para estruturas hierárquicas do tipo árvore e Laegreid et. al (2003), King et. al (2003), Tu

(2004), Barutcuoglu et. al (2006), Vens et. al (2008) para estruturas do tipo DAG, o qual será

o foco dessa tese. O desenvolvimento de classificadores hierárquicos pode fazer uso de duas

abordagens principais: Classificador Local e Classificador Global. A principal diferença entre

essas abordagens é a maneira de como o modelo de classificação é criado. O primeiro avalia

cada nó do conjunto de dados hierárquico independentemente. Já o segundo leva em

consideração toda a hierarquia de classes do conjunto ao predizer uma instância.

A grande maioria dos trabalhos de classificação hierárquica para estruturas do tipo

grafo acíclico dirigido, (Directed Acyclic Graph – DAG) utiliza a abordagem de classificação

local. Isso ocorre porque classificadores dessa abordagem são mais simples de ser construídos

e podem fazer uso de algoritmos usados na classificação plana. Já o desenvolvimento de

classificadores globais é mais complexo, pois a estrutura hierárquica deve ser respeitada.

Sendo assim, algoritmos de classificação plana não podem ser utilizados sem que haja uma

mudança na sua estrutura.

Nesta tese são propostos dois algoritmos para a classificação hierárquica multirrótulo

para estruturas do tipo DAG, utilizando a abordagem de classificador global. O primeiro

algoritmo proposto utiliza uma Rede Neural Artificial (RNA) Competitiva treinado com o uso

de um algoritmo semelhante ao proposto na rede Self-organizing Map (SOM). Já o segundo

utilizada a computação evolutiva por meio da técnica de Estratégia Evolucionária (EE) para

realizar o treinamento da mesma rede neural.

1.1 MOTIVAÇÃO E CONTEXTO

A classificação hierárquica vem sendo bastante utilizada em diversas áreas, como na

categorização de textos, predição de proteínas, classificação de gêneros musicais e imagens

entre outras.

A categorização de texto é um processo de atribuir automaticamente uma ou mais

categorias a documentos textuais (SUM & LIN, 2001). Com o surgimento de bibliotecas

digitais e a grande diversidade de textos que esses repositórios possuem, pesquisa nessa área

tem sido motivada. Entre os principais objetivos está em melhorar o processo de recuperação

de informações, pois a classificação manual ou a utilização de métodos computacionais

simples torna-se inviável.

Na classificação hierárquica, cada nó da hierarquia é representado por uma classe. Um

exemplo típico de uma hierarquia de classe estruturada em uma árvore, em problemas de

categorização de textos é apresentado na Figura 1.

A classificação de imagens, como por exemplo, imagens médicas, e a classificação de

gêneros musicais também são áreas que se utilizada a classificação hierárquica.

Natação

Esportes Informática Finanças

VoleiFutebol

Software Hardware

NegóciosEmpregos

Técnico Engenheiro

Figura 1 – Exemplo de Hierarquia para Classificação de Textos.

Outra área que motiva a pesquisa com classificação hierárquica é a bioinformática.

Um dos principais objetivos dessa área é a predição da função que uma proteína exerce em

uma célula (BALDI & POLLASTRI, 2002). Realizar experiências para determinar como as

proteínas funcionam não é uma tarefa fácil, isso porque proteínas de estruturas semelhantes, e

até mesmo de sequências semelhantes, podem ser classificadas como exercendo diferentes

funções. Além disso, assim como muitas sequências diferentes são compatíveis com uma

mesma estrutura, proteínas de diferentes formas podem ter a mesma função (LESK, 2008). É

neste contexto que a informática com a aplicação das tarefas de mineração de dados, como é o

caso da classificação hierárquica, pode auxiliar no processo de classificação funcional de

proteínas.

Um exemplo típico de uma hierarquia de classe estruturada, como uma árvore, é a

classificação funcional de enzimas. Cada enzima é nomeada como uma classe de acordo com

seu código EC (Enzyme Commission). Os códigos EC são um esquema de classificação

numérica para as enzimas, baseado nas reações químicas que catalisam. Cada número EC está

associado a um nome recomendado para a referida enzima. O código de EC consiste de uma

série de quatro dígitos onde o primeiro dígito especifica a classe mais geral de enzimas e o

quarto dígito o mais específico. Por exemplo, o código EC 1.1.1.1 especifica a classe Álcool

Dehydrogenase. Já um exemplo de classificação funcional de proteína estruturada como um

DAG é a Gene Ontology (GO). A GO consiste de três categorias de funções denominadas de:

processo biológico, função molecular e componente celular que são implementadas em três

ontologias independentes (GENE ONTOLOGY, 1998).

Nessa área, uma grande motivação da utilização da classificação hierárquica é o

diagnóstico e tratamento de doenças e o desenvolvimento de medicamentos através do

conhecimento descoberto.

Como se podem observar vários são os problemas onde a classificação hierárquica é

usada. Porém, a maioria dos algoritmos para esse tipo de classificação foi desenvolvida para a

estrutura do tipo árvore. Esse tipo de estrutura é mais simples, pois um nó filho tem apenas

um nó pai, comparado com a estrutura DAG, em que um nó pode ter múltiplos pais. Dessa

maneira, o desenvolvimento de algoritmos para essa estrutura torna-se mais complexo, pois a

hierarquia de classes deve ser preservada. Com isso os resultados obtidos podem ser mais

condizentes.

Outra motivação diz respeito a classificação multirrótulo. Esse tipo de problema ainda

é pouco explorado e consequentemente classificadores que sejam capazes de predizer várias

classes para uma mesma instância são poucos na literatura. Sendo assim, pesquisas nessa área

são importantes, pois vários são os problemas que precisam ser tratados dessa maneira.

1.2 OBJETIVO DA PESQUISA

A maioria dos algoritmos para tratar problemas de classificação hierárquica foram

desenvolvidos para a estrutura do tipo árvore. Os algoritmos desenvolvidos para suportar

estruturas do tipo DAG, normalmente, não avaliam o modelo hierárquico como um todo

(abordagem classificador global ou big-bang). Na abordagem de classificação global apenas

um classificador é construído para distinguir entre todas as classes da hierarquia e por isso o

seu desenvolvimento torna-se mais complexo em estruturas DAG. Além disso, problemas

hierárquicos também podem ser multirrótulos o que acaba se tornando ainda mais difícil a

construção de um modelo para a predição dos dados.

Desta forma, o objetivo principal deste trabalho é o desenvolvimento de um algoritmo

para a classificação hierárquica multirrótulo, para problemas estruturados em DAG,

utilizando a abordagem de classificação global. Para isso será utilizado uma rede neural

artificial competitiva. A utilização de redes neurais é motivada pela sua capacidade em

trabalhar com dados ruidosos e a sua alta adaptabilidade, que fornecem muitos dos requisitos

necessários na área de bioinformática.

1.3 ORIGINALIDADE

A maioria dos trabalhos da literatura de classificação hierárquica são desenvolvidos

para tratar de problemas estruturados em árvore. São poucos os trabalhos que tratam

problemas estruturados em DAG, utilizando a abordagem de classificação global. Além disso,

existe o problema da classificação multirrótulo, na qual uma instância pode ser predita como

pertencente a mais de uma classe simultaneamente.

Dessa maneira, esta pesquisa busca desenvolver um classificador hierárquico

multirrótulo para estrutura DAG que utiliza como técnica da aprendizagem uma rede neural

artificial. Redes neurais já foram utilizadas para tratar de problemas hierárquicos estruturados

em árvore, mas não em DAG.

Esse classificador utiliza a abordagem de classificação global capaz de avaliar a

hierarquia em um único passo preditivo a qual poderá ocorrer em qualquer nó da hierarquia,

seja em nós folha ou não.

Outra questão refere-se ao tipo de aprendizagem da rede neural que será utilizado. A

aprendizagem será realizada usando uma rede neural competitiva baseada no algoritmo LVQ

(Learning Vector Quantization).

Apesar de o classificador ter sido desenvolvido para estrutura DAG, nada impede que

seja utilizado em dados estruturados na forma de árvore.

Além da utilização da técnica neural para o treinamento na rede também será utilizada

a técnica de estratégia evolucionária.

1.4 CONTRIBUIÇÕES

Uma das importantes contribuições desta tese é o desenvolvimento de um classificador

multirrótulo hierárquico baseado em uma rede neural competitiva, chamado de MHC-CNN

(Multi-label Hierarchical Classification using a Competitive Neural Network).

Até onde se sabe, alguns classificadores usando redes neurais foram desenvolvidos

para tratar de problemas hierárquicos, porém todos destinados a classificação estruturada em

árvore. Sendo assim, o MHC-CNN pode ser considerado o primeiro classificador hierárquico

que utiliza uma rede neural para tratar problemas do tipo DAG.

Além disso, também é o primeiro classificador hierárquico que utiliza como técnica de

aprendizagem da rede neural a aprendizagem competitiva.

Outra grande contribuição é o fato de se utilizar a abordagem de classificação global

no desenvolvimento do classificador hierárquico, o qual discrimina todas as classes do

domínio em um único passo preditivo.

Um detalhe a ser observado e considerado é que o classificador MHC-CNN pode ser

utilizado também em estruturas em árvore.

Uma segunda versão do classificador MHC-CNN, denominada de MHC-ES é

desenvolvida a qual utiliza como técnica de aprendizagem da rede neural a estratégia

evolucionária.

1.5 ORGANIZAÇÃO DO TRABALHO

Este documento está organizado em oito capítulos. O Capítulo 2 apresenta o

embasamento teórico sobre a classificação de dados. O Capitulo 3 descreve a classificação

hierárquica bem como a contextualização em que esse trabalho se insere. O Capítulo 4

apresenta os trabalhos correlatos referentes ao tema desta tese. O Capítulo 5 apresenta o

algoritmo proposto, MHC-CNN, para tratar problemas de classificação hierárquica

multirrótulo, bem com uma segunda versão do algoritmo MHC-CNN, denominada de MHC-

ES, o qual utiliza uma técnica alternativa para o treinamento do classificador. O Capítulo 6

apresenta os experimentos e os resultados obtidos. E por fim, o Capítulo 7 relata as

conclusões obtidas e trabalhos futuros.

2 REFERENCIAL TEÓRICO

Neste Capítulo, são apresentadas informações sobre a tarefa de classificação. Na

Seção 2.1 citam-se os principais conceitos referentes à classificação de dados. Na Seção 2.2

são descritas algumas técnicas utilizadas na classificação de dados, tais como redes neurais

artificiais e estratégias evolucionárias, cujas técnicas são utilizadas neste trabalho. Por fim, a

Seção 2.3 descreve as principais medidas utilizadas para a avaliação dos classificadores.

2.1 PRINCIPAIS CONCEITOS DE CLASSIFICAÇÃO

A classificação é um processo que consiste em associar uma determinada instância

(exemplo) a uma ou mais classes, dentre um conjunto de classes previamente definidas. Essa

associação de um exemplo a uma determinada classe ocorre conforme as características

(atributos) de cada instância.

Em aprendizagem de máquina, a classificação faz parte de um tipo aprendizagem

denominada de aprendizagem supervisionada (MITCHELL, 1997), a qual consiste em

construir um algoritmo de indução capaz de encontrar um bom classificador a partir de um

conjunto de exemplos rotulados. A Figura 2 ilustra esse processo de classificação.

Primeiramente, os dados brutos são preparados em um conjunto de exemplos para que possam

ser processados. Um conjunto de exemplos é composto por valores de atributos, que são

características do exemplo, e pelo atributo classe. Nessa figura é mostrado o formato padrão

de um conjunto de exemplos T com m exemplos e n atributos. A linha i refere-se ao i -

ésimo exemplo onde ni ,...,2,1 e a entrada ijx refere-se ao valor do j -ésimo atributo jX do

exemplo i , onde mj ,...,2,1 (REZENDE, 2005).

Após o processamento dos dados, esse conjunto de exemplos será submetido à entrada

do algoritmo de indução para que seja feito o treinamento do classificador. O objetivo do

treinamento é encontrar uma função que mapeie cada exemplo iT com a sua classe iy

correspondente.

Xm. . .

Especificação

do Problema

Aprendizagem

de Máquina

Avaliação

EspecialistaConhecimento

do Domínio

Conhecimento

do Domínio

Variáveis Independentes

(atributos)

Variável Dependente

(classe)

Classificador

Dados Brutos

Figura 2 - Processo de Classificação (REZENDE, 2005).

Após a etapa de treinamento tem-se um classificador que deve ser capaz de predizer

corretamente o rótulo de novos exemplos, que ainda não foram rotulados (REZENDE, 2005).

Um exemplo dessa etapa é mostrado na Figura 3. Observa-se o conjunto de dados formado

por 8 amostras as quais são submetidas a um algoritmo de aprendizagem baseado em árvore

de decisão. Ao final desse treinamento um modelo que descreve o conjunto de classes é

gerado pelo algoritmo. Esse modelo será utilizado na etapa de teste, onde amostras

desconhecidas são submetidas ao modelo e esse deverá ser capaz de predizer as classes dessas

amostras. Os dados usados para exemplificar a etapa de treinamento e de teste foram retirados

da base de dados Iris, disponível com o software WEKA, e o algoritmo de classificação

utilizado foi J48.

Em geral, a classificação pode ser dividida em dois tipos: a classificação plana

(convencional) e a classificação hierárquica.

2.2 TÉCNICAS DE APRENDIZAGEM DE MÁQUINA PARA A CLASSIFICAÇÃO DE

Diversos são os paradigmas de aprendizado que determinam a abordagem a ser

utilizada pela técnica de AM para a realização do processo de indução. Dentre elas tem-se o

paradigma Conexionista, cuja principal técnica são as Redes Neurais Artificiais e o paradigma

Evolutivo, tendo como uma das técnicas as Estratégias Evolucionárias.

5.0 3.5 1.6 0.6 Iris-setosa

5.4 3.4 1.7 0.2 Iris-setosa

5.2 2.7 3.9 1.4 Iris-versicolor

5.7 2.5 5.0 2.0 Iris-virginica

... ... ... ... ...................

CONJUNTO DE TREINAMENTO

Legenda:

Atrib1 = Comprimento da sépala

Atrib2 = Largura da sépala

Atrib3 = Comprimento da pétala

Atrib4 = Largura da pétala

Atrib1 Atrib2 Atrib3 Atrib4 Classe

Algoritmo de

Aprendizagem

MODELO

Atrib4 <= 0.6: Iris-setosa

Atrib4 > 0.6

| Atrib4 <= 1.7

| | Atrib3<= 4.9: Iris-versicolor

| | Atrib3> 4.9

| | | Atrib4 <= 1.5: Iris-virginica

| | | Atrib4 > 1.5: Iris-versicolor

| Atrib4 > 1.7: Iris-virginica

6.1 2.8 4.7 1.2 ?

4.5 2.3 1.3 0.2 ?

6.6 3.0 4.4 1.4 ?

6.4 2.8 5.6 2.2 ?

CONJUNTO DE TESTE

Legenda:

Atrib1 = Comprimento da sépala

Atrib2 = Largura da sépala

Atrib3 = Comprimento da pétala

Atrib4 = Largura da pétala

Atrib1 Atrib2 Atrib3 Atrib4 Classe

4.5 2.3 1.3 0.2 Iris-setosa

Amostra Classificada

Figura 3 – Etapa de Treinamento e Teste de um Classificador.

2.2.1 Redes Neurais Artificiais

Redes Neurais Artificiais (RNA) são modelos matemáticos inspirados nas estruturas

biológicas que compõe o cérebro humano e que possuem a capacidade computacional

adquirida por meio de aprendizado e generalização (HAYKIN, 2001).

Uma das definições mais clássicas para RNA foi proposta por Haykin (2001),

conceituando-as da seguinte forma:

“Uma Rede Neural é um processador maciçamente paralelamente

distribuído de unidades de processamento simples, que têm a

propensão natural para armazenar conhecimento experimental e

torná-lo disponível para o uso”.

Também segundo Haykin (2001), uma RNA se assemelha ao cérebro em dois

aspectos:

“1- O conhecimento adquirido pela rede, a partir de seu ambiente,

através de um processo de aprendizagem. 2- Forças de conexão

entre neurônios, conhecidas como pesos sinápticos, são utilizados

para armazenar o conhecimento adquirido”.

Para que ocorra o aprendizado em uma rede neural faz-se necessário o uso de um

algoritmo de aprendizagem, o qual terá a função de adaptar os pesos sinápticos da rede de

uma forma ordenada.

Uma RNA é formada por diversos neurônios que interagem entre si através de

unidades estruturais e funcionais denominadas de sinapses.

Um neurônio é uma unidade de processamento de informação que é fundamental para

a operação de uma RNA. A Figura 4 ilustra o modelo de um neurônio.

Sinais de

Entrada

Função de

Ativação

Saída

Combinador

Linear

Sinápticos

Figura 4 – Modelo Não-Linear de um Neurônio (HAYKIN, 2001).

Esse modelo consiste de:

1º - Um conjunto de sinapses, cada uma caracterizada por um peso próprio.

Especificamente, um sinal de entrada ix na entrada da sinapse j conectada ao neurônio k é

multiplicado pelo peso sináptico kjw .

2º - Um combinador linear para somar os sinais de entrada, ponderados pela respectiva

sinapse do neurônio.

3º - Uma função de ativação para restringir a amplitude da saída de um neurônio. Essa

função limita a faixa de amplitude permitida, a qual, normalmente, é limitada ao intervalo

fechado de [0,1] ou, alternativamente de [-1,1].

Além desses três itens, um modelo neuronal inclui também um bias aplicado

externamente por kb . Esse bias tem como objetivo aumentar (se for positivo) ou diminuir (se

for negativo) a entrada total da função de ativação.

Matematicamente, pode-se definir um neurônio k através da Equação 1 e Equação 2.

jkjk xwu0

Equação 1

)( kkk buy Equação 2

em que mxxx ,...,, 21 são os atributos de entrada, kmwk www ,...,, 21 são os pesos sinápticos do

neurônio k , ku é a saída do combinador linear, kb é o peso ligado ao bias, (.) é a função de

ativação e ky é o sinal de saída do neurônio.

O uso do bias tem o efeito de aplicar uma transformação à saída ku do combinador

linear, conforma mostra a Equação 3.

kkk buv Equação 3

Arquitetura das RNA

A maneira como os neurônios estão estruturados está intimamente ligada com o

algoritmo de aprendizagem usado para treinar a rede. Conforme Haykin (2001) existem três

classes funcionais de arquitetura de rede neural, que são: Rede Neural de Uma Camada

(Single-Layer Feedforward), Rede Neural Multicamadas (Multi-Layer Feedforward) e Redes

Recorrentes (Recurrent Network). Como o foco desse trabalho é a utilização de uma Rede

Neural de uma Camada na sequência são apresentados maiores detalhes desta arquitetura.

A arquitetura de uma rede neural de uma camada é a forma mais simples de camadas

de redes em que os neurônios estão organizados em camadas (HAYKIN, 2001). Nessa

arquitetura tem-se a camada de entrada, constituída de atributos de entrada, a qual nem

sempre é contada como uma camada, pois os neurônios não executam nenhuma função,

porém ela está conectada com a camada de saída ou de processamento, formada por

neurônios.

A Figura 5 ilustra um exemplo dessa arquitetura de rede. Observa-se nesta figura que

há cinco atributos de entrada representados por 521 ,...,, xxx na camada de entrada, e três

neurônios na saída, representados por 321 ,, nnn . Cada atributo (neurônio) de entrada está

conectado com cada neurônio da camada de saída. Para cada ligação existe um peso kjw

associado.

Camada de

Entrada Camada de Saída ou

de Processamento

Figura 5 – Exemplo de uma RNA de Uma Camada (HAYKIN, 2001).

Nota-se ainda nessa arquitetura que não há conexões no sentido da camada de saída

para a camada de entrada.

Métodos de Aprendizagem das RNA

O aprendizado de uma RNA ocorre através de um processo iterativo de ajustes de

pesos sinápticos através de alguma função pré-estabelecida.

De acordo com Haykin (2001), a aprendizagem de uma RNA pode ser definida como:

“Aprendizagem é um processo pelo qual os parâmetros livres de

uma rede neural são adaptados através de um processo de

estimulação pelo ambiente no qual a rede está inserida. O tipo de

aprendizagem é determinado pela maneira pela qual as

modificações dos parâmetros ocorrem”.

Sendo assim, o processo de aprendizagem implica em uma sequência de eventos, no

qual a RNA precisa ser estimulada por um ambiente, sofrer modificações nos seus

parâmetros, e responder de uma maneira nova ao ambiente, devido às modificações ocorrida

na sua estrutura interna (HAYKIN, 2001). Esses eventos são implementados em um algoritmo

de aprendizagem, o qual deve seguir algumas regras de aprendizagem.

Existem diversos métodos desenvolvidos para o treinamento das redes, podendo ser

agrupados em dois tipos: aprendizado supervisionado e aprendizado não supervisionado.

No aprendizado supervisionado há a presença de um supervisor que realiza o papel de

monitorar a resposta da rede. Nesse tipo de aprendizagem, o conjunto de treinamento é

formado por pares de entrada e saída ),( d

ii yx , em que ix representada um padrão de entrada e

iy representa a saída desejada para o padrão fornecido. O ajuste dos pesos kjw é feito de

maneira que a resposta iy da rede para o padrão ix se aproxime da saída d

iy desejada.

No aprendizado não supervisionado não existe a presença do supervisor. O

treinamento é formado pelos padrões de entrada ix e o ajuste dos pesos kjw é obtido através

de valores do padrão de entrada.

Haykin (2001) apresenta cinco regras básicas de aprendizagem de RNA:

Aprendizagem por Correção de Erro, Aprendizagem Baseada em Memória, Aprendizagem

Hebbiana, Aprendizagem Competitiva e Aprendizagem Boltzmann. O classificador

desenvolvido utiliza como técnica para o treinamento da rede neural a aprendizagem

competitiva, por isso, será detalhado o funcionamento deste tipo de aprendizagem.

2.2.2 Aprendizagem Competitiva

A aprendizagem competitiva, como o próprio nome sugere, consiste em uma disputa

(competição) entre os neurônios da camada de saída, da qual apenas um neurônio sairá como

vencedor.

A rede básica do aprendizado competitivo tem uma camada de neurônios de saída,

também chamada de camada competitiva ou de processamento, onde cada neurônio dessa

camada está totalmente conectado aos nós de entrada. Cada neurônio da camada de entrada

está conectado com todos os neurônios na camada competitiva. A saída com maior ativação

inicial terá maior chance de vencer a disputa com as outras saídas e estas perderão o poder de

inibição ao longo do tempo sobre a saída de maior ativação, fazendo com que fiquem

completamente inativas, exceto a vencedora. Este método é conhecido como Winner-Takes-

O objetivo da aprendizagem competitiva é fazer com que neurônios se especializem

em estímulos apresentados de forma não supervisionada, isto é, nenhuma informação sobre a

classe do estímulo apresentado é usada no processo de ajuste dos pesos sinápticos. Todos os

neurônios recebem o mesmo conjunto de entradas e competem, através de uma dinâmica que

usa conexões laterais, com todos os outros neurônios. Estas conexões laterais podem ser

positivas (no caso da auto-realimentação) ou inibitórias (negativas) (HAYKIN, 2001).

Na camada competitiva, os neurônios competem pela oportunidade de responder aos

padrões de entrada. O neurônio vencedor representa a categoria de classificação para o padrão

de entrada selecionado.

Entre as redes que utilizam a aprendizagem competitiva no processo de aprendizagem

podem-se citar as rede auto-organizáveis e as redes com quantização do vetor de

aprendizagem (LVQ – Learning Vector Quantization). Os modelos de redes auto-organizáveis

conhecidos que utilizam o aprendizado competitivo são os modelos da família Adaptive

Resonance Theory (ART) e o modelo Self-organizing Map (SOM) que são utilizados para o

agrupamento de dados. Já a LVQ é utilizada para a classificação de dados. Na sequência será

explicado o funcionamento das redes SOM e LVQ.

2.2.2.1 Rede Self-Organizing Map

A rede Self-Organizing Map (SOM), também chamada de rede de Kohonen, foi

desenvolvida por Teuvo Kohonen em 1982 (KOHONEN, 1990) e o objetivo principal é

transformar um padrão de sinal incidente de dimensão arbitrária em um mapa discreto uni- ou

bidimensional e realizar esta transformação adaptativamente de uma maneira topologicamente

ordenada (HAYKIN, 2001).

O algoritmo de aprendizagem tem natureza local e as modificações dos pesos

sinápticos são confinadas à vizinhança do neurônio ativado. A ordem global, ou seja, o

equilíbrio da rede surge de interações locais. Os neurônios de saída competem entre si para

serem ativados, de forma que apenas um neurônio de saída seja considerado “vencedor”.

Os neurônios em uma rede de Kohonen são colocados nos nós de uma grade (que

apresenta uma topologia particular, que pode ser retangular, hexagonal etc.) que é usualmente

de uma ou duas dimensões. Mapas de dimensões maiores são também possíveis, porém de

mais difícil aplicação e compreensão. Cada neurônio na grade é completamente conectado a

todos os neurônios da camada de entrada (HAYKIN, 2001). São apresentados os padrões de

entrada à rede, e a cada padrão apresentado tem-se uma região de atividade na grade. A

localização e natureza de uma determinada região variam de um padrão de entrada para outro.

Assim sendo, todos os neurônios da rede devem ser expostos a um número suficiente de

diferentes padrões de entrada, garantindo assim que o processo de auto-organização ocorra de

forma apropriada.

Serão considerados “vencedores” os neurônios que mais se assemelharem ao padrão

de entrada, sendo que para esta comparação são utilizadas medidas de distâncias

(normalmente utiliza-se a distância euclidiana).

Primeiramente, deve-se determinar a taxa de aprendizagem e o tamanho do raio

topológico que decrescem conforme o treinamento é executado, bem como a topologia da

camada de saída, ou seja, o critério a ser utilizado para determinar quais neurônios pertencem

a vizinhança do neurônio vencedor (por exemplo: hexagonal, retangular etc.).

O algoritmo responsável pela formação do mapa de Kohonen primeiramente inicializa

os pesos sinápticos da rede. Este procedimento pode ser feito atribuindo pequenos valores

aleatórios, de igual grandeza aos padrões de entrada; fazendo desta forma, nenhuma

organização prévia é imposta ao mapa de características (HAYKIN, 2001).

Após as inicializações, o algoritmo, em sua fase de treinamento, passa por três etapas

básicas: competição, cooperação e adaptação sináptica.

Na primeira fase, competição, para cada padrão de entrada, os neurônios do mapa

calculam seus respectivos valores de uma função discriminante. Esta função fornece a base

para a competição entre os neurônios. O neurônio com o maior valor da função discriminante

é declarado vencedor da competição.

Na fase seguinte, cooperação, o neurônio vencedor determina a localização espacial de

uma vizinhança topológica de neurônios excitados que cooperarão entre si.

A última fase, adaptação sináptica, os neurônios excitados aumentam seus valores

individuais da função discriminante em relação ao padrão de entrada através de ajustes

adequados aplicados a seus pesos sinápticos. Os ajustes feitos são tais que a resposta do

neurônio vencedor à aplicação subsequente de um padrão de entrada similar é melhorada. A

Tabela 1 apresenta a descrição do algoritmo SOM.

Tabela 1 – Passos do Algoritmo SOM (HAYKIN, 2001).

Entrada de Dados

Conjunto de exemplos de entrada, em que cada exemplo é dado por

],...,,[ 21 mi aaax

Passo 1: Inicialização

Taxa de Aprendizagem

Definir a topologia de rede t

Raio Topológico

Número de Épocas e

Criar a Rede Neural RN de tamanho cxl onde l representa a quantidade de

linhas e c a quantidade de colunas do mapa. A RN é constituída por neurônios

ijw , onde ],...,,[ 21 kij bbbw . Cada elemento de ijw normalmente é gerado com

valores aleatórios entre 0 e 1 e mk .

Passo 2: Critério de Parada

Comparar o número máximo de épocas e/ou a alteração dos pesos da rede neural.

Passo 3: Treinamento

Para cada exemplo de entrada ix

Fase Competitiva

o Calcular as distâncias para cada exemplo de entrada com cada neurônio da

rede neural. Um exemplo de distância que pode ser usada é a distância

Euclidiana

k wxd1

o Definir o neurônio que apresentar a menor distância como vencedor:

)min()( 1

Fase Cooperativa

o Localizar os vizinhos do neurônio vencedor )(vn conforme t e . Se o

neurônio analisado fizer parte da vizinhança 1)( lz , caso contrário

0)( lz ( )(lz guardará os vizinhos que deverão ser atualizados).

Fase Adaptativa

o Atualizar a rede neural conforme: )(*))((*)()1( lztwxatwtw ijiijij .

Retornar ao Passo 2 e se esse continuar sendo válido repetir o Passo 3 e o Passo 4.

Passo 4: Atualização

Atualizar a Taxa de Aprendizagem usando uma função linear, exponencial ou

geométrica em função do número de épocas e .

Atualizar o Raio Topológico (definido como uma função monotonicamente

decrescente em função das épocas).

Saída de Dados

Conjunto de Pesos Considerado Adequado.

2.2.2.2 Rede Learning Vector Quantization

A quantização vetorial por aprendizagem (LVQ) é uma técnica de aprendizagem

supervisionada que usa a informação das classes para mover ligeiramente os vetores de

Voronoi (também chamados de vizinhos mais próximos baseada na métrica euclidiana). No

caso da rede neural serão os vetores de pesos sinápticos dos neurônios, a fim de melhorar a

qualidade das regiões de decisão do classificador.

O algoritmo SOM fornece um método aproximado para calcular os vetores de

Voronoi, de uma maneira não-supervisionada, com a aproximação sendo especificada pelos

vetores de pesos sinápticos dos neurônios no mapa de características (HAYKIN, 2001). Dessa

forma, o cálculo do mapa de característica pode ser visto como uma de duas etapas (ver

Figura 6) para resolver de forma adaptativa o problema de classificação de padrões. A

segunda etapa é feita pela quantização vetorial por aprendizagem, a qual fornece um

mecanismo para o ajuste fino do mapa de características.

SOM LVQ.

Entrada

Supervisor

Rótulos

de Classe

Figura 6 – Esquema de classificação adaptativa de padrões (HAYKIN, 2001).

Suponha que t

jijw 1}{ representa o conjunto de vetores de Voronoi e que N

iix 1}{

representa o conjunto de vetores de entrada. O algoritmo LVQ funciona da seguinte maneira:

1º - Um vetor de entrada ix é selecionado aleatoriamente. Se os rótulos de classe do

vetor de entrada ix e de um vetor de Voronoi ijw concordarem, ou seja, as classes forem

iguais, o vetor de Voronoi ijw é movido em direção ao vetor de entrada ix (Figura 7a), caso

contrário, se eles discordarem, ou seja, as classes forem diferentes, o vetor de Voronoi ijw é

afastado do vetor de entrada ix (Figura 7b).

2º - Através da comparação feita no item anterior será possível atualizar os vetores de

Voronoi, ou seja, os pesos sinápticos do neurônio vencedor.

Figura 7 - Atualização dos vetores de Voronoi nas redes LVQ (HAYKIN, 2001).

3º - É necessário que a constante de aprendizagem )(ta decresça monotonicamente

com o número de iterações t .

Kohonen apresentou três versões diferentes do algoritmo LVQ, que chamou de LVQ1,

LVQ2 e LVQ3.

Na versão LVQ1 procura-se encontrar um conjunto de pesos que minimize o erro de

classificação para o classificador k-Nearest Neighbor (k-NN) com k=1. A Equação 4 mostra o

cálculo para o ajuste dos pesos desta versão.

contráriocasotwtxtatw

corretaforclasseasetwtxtatwtw

ij)),()(()()(

)),()(()()()1(

Equação 4

em que )(ta é a taxa de aprendizagem.

Já a versão LVQ2 a decisão de classificação é parecida com a versão anterior, porém

baseia-se na ideia de deslocamento dos vetores utilizando conceitos Bayesianos. Nesta versão

consideram-se dois vetores jiw 1 e jiw 2 (neurônios) que são os vizinhos mais próximos do

exemplo ix , e que serão atualizados simultaneamente. Um dos vetores deve pertencer a classe

correta e o outro a uma classe incorreta. Além disso, ix deve cair em uma zona de valores

denominada de janela que é definida em torno dos dois vetores. Então ix é definido a cair

na janela se '́

d, em que 1id e 2id representam as distâncias do exemplo

ix com os vetores jiw 1 e jiw 2 . Assim, as atualizações dos pesos dos neurônios na iteração t

são mostradas na Equação 5 (KOHONEN, 1995).

corretaforclasseasetwtxtatwtw

incorretaforclasseasetwtxtatwtw

jiijiji

)),()(()()()1(

Equação 5

Na versão LVQ3 foi inserida uma correção na versão LVQ2, correção essa que

assegura que ijw continue se aproximando das distribuições de classes (KOHONEN, 1995).

Assim, além das verificações feitas na versão LVQ2 e as atualizações apresentadas através da

Equação 5 faz-se outro teste. Enquanto ix não estiver dentro da janela , a atualização dos

pesos dos neurônios se dará pela fórmula mostrada na Equação 6.

corretasforemclassesastodasejisetwtxtatwtw ikjiikjikj },{)),()(()()()1( Equação 6

Os valores recomendados de devem estar compreendidos entre 0.2 e 0.3, e de

deve situar-se entre 0.1 e 0.5 (KOHONEN, 1995).

2.2.3 Estratégias Evolucionárias

As Estratégias Evolucionárias (EEs) são uma das técnicas da Computação

Evolucionária que propõe um paradigma para a solução de problemas inspirado na seleção

natural (DARWIN, 1859).

As EEs foram desenvolvidas por RECHENBERG (1965), SCHWEFEL (1975) na

Universidade Técnica de Berlim por volta de 1964. É um algoritmo em que indivíduos

(soluções potenciais) são codificados por um conjunto de variáveis de valores reais, o

“genoma” (KUSIAK, 2000). As EEs foram inicialmente desenvolvidas com o propósito de

otimização de parâmetros.

As EE utilizam mutações normalmente distribuídas para modificar valores reais. Os

principais operadores são mutação e cruzamento. Já o operador de seleção utilizado é

determinístico e o tamanho da população de pais geralmente difere do tamanho da população

de filhos.

Há quatro tipos de estratégias evolutivas tais como: Dois-membros: (1 + 1)-EE,

Multimembros: (µ + 1)-EE, Multimembros: (µ + λ)-EE e Multimembros: (µ , λ)-EE.

A primeira versão algoritmo de EE utilizava um esquema mutação e seleção

conhecido como Dois-membros (two-membered) EE ou (1 + 1)-EE. Já população é

formada por dois indivíduos, um pai e um descendente ou filho. O descendente é gerado por

meio da mutação e o melhor dos dois se torna pai na próxima geração. O operador de mutação

adiciona valores gerados conforme uma distribuição com média zero e desvio padrão definido

para cada atributo do vetor pai.

A segunda versão do algoritmo denominada de (µ + 1)-EE, proposta por Rechenberg

(1973), permite que mais de um pai participe da geração de um filho. Com a introdução de m

pais, a reprodução sexuada torna-se possível via um operador de recombinação r que é

aplicado aos dois vetores que compõem um indivíduo da população. Este operador é

denominado de operador de recombinação discreto e é equivalente ao crossover uniforme em

algoritmos genéticos (BÄCK et al., 2000). Dessa forma, todos os pais da população possuem

a mesma probabilidade de reprodução. O operador de seleção remove o indivíduo menos apto

(com menor fitness) dentre os pais e o filho gerado e os demais formam a população da

próxima geração.

Uma terceira versão denominada de (µ + λ)-EE foi proposta inicialmente, onde λ pais

produzem λ filhos e a população µ + λ é posteriormente reduzida para µ indivíduos. A seleção

opera no conjunto união de pais e filhos. Assim, os pais sobrevivem até que filhos com fitness

superiores a eles sejam gerados.

Conforme Schwefeel (1975) esta característica pode levar a alguns problemas, tais

como: em problemas com superfície de fitness dinâmicas (que variam ao longo do tempo) a

estratégia pode ficar presa em um ótimo que não é mais um ótimo da superfície de fitness

atual. Isso também pode ocorrer na presença de ruído.

Para tentar solucionar esse problema Schwefeel (1995) criou uma estratégia

denominada de (µ , λ)-EE, onde somente os filhos sofrem seleção, restringindo o período de

vida de cada indivíduo a uma geração.

Em resumo, as duas últimas estratégias, (µ + λ)-EE e (µ , λ)-EE, possuem a mesma

estrutura. A principal diferença entre as diversas variantes das estratégias evolutivas está na

forma de atualização do vetor de parâmetros .

Uma das características mais importantes das Estratégias Evolucionárias é a auto-

adaptação de parâmetros da estratégia (BÄCK et al 2000). Esse termo refere-se a parâmetros

que controlam o processo de busca evolucionário, tais como taxas de mutação, variâncias de

mutação e probabilidades de recombinação.

No caso mais geral de uma estratégia evolutiva (µ , λ), um indivíduo ),,( xv pode

ser composto por três componentes: x é o vetor de atributos onde lx , é o vetor de

desvios padrões das mutações onde l e é o vetor dos ângulos de rotação

onde l]2,0( , l é a dimensão de x , },...,1{ ll , e }2/)1)(2(,0{ llll (BÄCK et

al 2000).

O operador de mutação trabalha adicionando uma variável randômica X de dimensão

n , com distribuição normal de acordo com cada um dos parâmetros de estratégia ' e ' do

indivíduo (BÄCK et al 2000).

Dependendo do número de parâmetros da estratégia incorporados na representação de

um indivíduo, os seguintes tipos de mutação podem ser citados:

a) Único ' para todos os atributos iv do indivíduo (BÄCK et al 2000) conforme

ilustrada a Equação 7.

))1,0(exp( 0

' N , sendo 21

)1,0(' Nvv ii

Equação 7

na qual n é o número de atributos e 0 é uma taxa de aprendizado configurável.

b) Cada atributo iv do indivíduo tem seu i (BÄCK et al 2000) conforme ilustrada a

Equação 8 .

))1,0()1,0('exp(' NN , sendo 21' )2( n e 2121 )2( n

)1,0('

iii Nvv

Equação 8

em que n é o número de atributos e ' e é são as taxas de aprendizagem.

c) Cada atributo iv do indivíduo tem seu i e ângulos de rotação j as rotações de

coordenada necessárias para transformar um vetor de mutação não correlacionado em um

correlacionado. Conforme BÄCK et al (2000) a mutação é realizada conforme a ilustração da

Equação 9.

))1,0()1,0('exp('

iii NN , sendo 21' )2( n e 2121 )2( n

)1,0('

jjj N , sendo )º5(0873.0

)),(,0( '''CNvv iii

Equação 9

com n sendo o número de atributos e ' e as taxas de aprendizagem.

Em resumo, uma estratégia evolutiva pode ser implementada empregando-se a

sequência de passos apresentada na Tabela 2.

Tabela 2 – Passos do Algoritmo de Estratégia Evolucionária (RECHENBERG, 1973).

Entrada de Dados

)(][ EEP

Quantidade de Gerações G

Passo 1: Inicialização

indivíduos do tipo: ),,( xv

Passo 2: Critério de Parada

Comparar o número máximo gerações.

Passo 3: Treinamento

selecionar 2p pais aleatoriamente

recombinar os indivíduos

mutar os indivíduos

avaliar os indivíduos gerados (filhos)

repetir o Passo 3 vezes

repetir o Passo 3

Saída de Dados

melhores indivíduos de ou

2.3 AVALIAÇÃO DOS CLASSIFICADORES

Uma importante etapa no processo classificação é a avaliação dos algoritmos de

classificação.

Para se obter a taxa de acerto e/ou a taxa de erro de um algoritmo é necessária medir a

qualidade da classificação. Essas medidas são calculadas a partir dos exemplos que foram

classificados corretamente e incorretamente, os quais são armazenados em uma matriz de

confusão. Em um problema de classificação convencional binária quatro situações podem

ocorrer. São:

1º – Verdadeiro Positivo (VP): O exemplo é predito corretamente como pertencendo a

classe positiva.

2º – Falso Positivo (FP): O exemplo é predito como pertencendo à classe positiva, mas

pertence à classe negativa.

3º – Verdadeiro Negativo (VN): O exemplo é predito corretamente como pertencente à

classe negativa.

4º – Falso Negativo (FN): O exemplo é predito como pertencente à classe negativa,

mas pertence à classe positiva.

A Tabela 3 ilustra a distribuição dessas quatro situações em uma matriz de confusão.

Tabela 3 – Matriz de Confusão para Classificação Convencional Binária

Classe Predita

Classe Verdadeira Positiva Negativa

Positiva VP FN

Negativa FP VN

Assim, a taxa de acerto (TA) e a taxa de erro (TE) de um classificador são obtidas

conforme pode ser visualizada na Equação 10 e Equação 11, respectivamente (SUN & LIM,

2001).

FNFPVPVN

VPVNTA

Equação 10

FNFPVPVN

FPFNTE

ou TATE 1

Equação 11

Para avaliar a efetividade de um classificador para cada classe de um problema de

classificação binária foram criadas as medidas de Sensibilidade (S), Especificidade (E) e

Precisão (P).

A Sensibilidade (Equação 12) mede a capacidade de se predizer uma classe positiva

cuja predição está correta, ou seja, ela indica quantos exemplos positivos foram previstos do

total de exemplos. Essa medida também é conhecida como Revocação (recall) ou taxa de VP.

Equação 12

A medida de Especificidade (Equação 13) mede a capacidade de se predizer uma

classe negativa cuja predição está correta, ou seja, quantos exemplos negativos foram preditos

do total de exemplos.

Equação 13

A medida de Precisão (Equação 14) calcula a probabilidade da predição positiva estar

correta em relação a todas as amostras.

Equação 14

A medida de Precisão combinada com a medida de Sensibilidade origina a Medida-F

(Equação 15). Essa realiza uma combinação balanceada das medidas de Precisão e

Sensibilidade. Para esse balanceamento utiliza-se uma constante que geralmente recebe

valor 1 (SUN & LIM, 2001).

SPFMedida

Equação 15

A relação entre as medidas de Sensibilidade e Especificidade pode ser representada

através da curva ROC (Receiver Operating Characteristics). A análise ROC teve a sua

origem na teoria de detecção de sinais, para avaliar a qualidade de transmissão de sinal em um

canal com ruído. Hoje é muito utilizada em técnicas de aprendizagem de máquina e

mineração de dados como uma ferramenta para avaliação de modelos (FAWCETT, 2006).

Geometricamente, a curva é representada em um gráfico de pares de valores

correspondentes a taxa de FP (1-E) e a taxa de VP (Sensibilidade), retratando a relação entre

custo e beneficio, respectivamente, da predição de um exemplo classificado como positivo

(FAWCETT, 2006).

Algoritmos que fornecem um valor contínuo, entre 0 e 1, para as suas predições, tal

qual como as RNA, podem ser estabelecido um limiar para decidir se o exemplo pertence ou

não a uma determinada classes. Assim, predições com valores acima do limiar são atribuídas

a uma classe, caso contrário à outra. Cada limiar produzirá um conjunto distinto de pontos no

espaço ROC. A Figura 8 mostra exemplos de curva ROC.

Figura 8 – Exemplos de Curva ROC (PRATI et al. 2008)

Nesse gráfico, a área abaixo da curva ROC é chamada de AUC (Area Under the ROC

Curve). Essa área corresponde a uma medida quantitativa usada na comparação entre dois

classificadores. Quanto mais próximo de 1 o valor da AUC, melhor é o desempenho do

classificador.

3 CLASSIFICAÇÃO HIERÁRQUICA

Este Capítulo apresenta informações sobre a classificação hierárquica de dados. Na

Seção 3.1 são apresentadas algumas definições sobre hierarquia. Na Seção 3.2 os conceitos

fundamentais sobre classificação hierárquica são introduzidos, enquanto na Seção 3.3 são

apresentadas as abordagens utilizadas para tratar problemas de classificação hierárquica. Já na

Seção 3.4 são mostradas as medidas de avaliação utilizadas para avaliar modelos hierárquicos

e por fim, na Seção 3.5 há uma breve descrição sobre as medidas estatísticas usadas na

avaliação dos resultados.

3.1 DEFINIÇÕES

Uma hierarquia pode ser definida como ordenação de elementos seguindo a sua função

ou importância. Geralmente uma forma de representar a hierarquia é através de um Grafo

Acíclico Dirigido (Directed Acyclic Graph - DAG) conforme ilustra a Figura 9.

Definição de Grafo: Um grafo é uma estrutura ),( AVG onde V é um conjunto não

vazio de objetos denominados vértices ou nós e A é um conjunto de pares V não ordenados

chamado arestas.

Definição de Grafo Acíclico Dirigido: Um grafo acíclico dirigido é um grafo

dirigido, ou seja, cada aresta tem um sentido, sem ciclos.

Uma classe em uma hierarquia é representada como um vértice no grafo acíclico

dirigido. As arestas do grafo mostram o relacionamento entre pai-filho: se p é pai de

f , então existe uma aresta Afp ),( . Em geral, costuma-se omitir a direção das arestas em

um grafo assumindo que ele é top-down.

Caminho em Grafo Acíclico Dirigido: Um caminho de um vértice v a um vértice y

em um grafo ),( AVG é uma sequência de vértices nvvvv ,...,,, 210 tal que 0vv e nvy . O

comprimento de um caminho é o número de arestas percorrido no caminho.

Nível de um Vértice em Grafo Acíclico Dirigido: O nível de um vértice em um grafo

acíclico dirigido é o comprimento do menor caminho do vértice v até a raiz. Por exemplo, o

nível do vértice I da Figura 9 é igual a 3.

Profundidade de Grafo Acíclico Dirigido: A profundidade de um grafo acíclico

dirigido é a profundidade máxima de todos os vértices do grafo. No grafo da Figura 9, pode-

se observar que a sua profundidade é igual a 5.

Relacionamento Hierárquico: Há vários tipos de relações entre os vértices da

hierárquica, entre os mais conhecidos e utilizados pode-se citar: é-um, parte-de.

Ancestrais e Descendentes de um Vértice: O ancestral de um vertice nv são todos os

vértices pelos quais se passou quando percorrido um caminho, onde esse caminho pode ser

representado por nvvvv ,...,,, 210 . Como exemplo, os nós ancestrais do nó J, na Figura 9, são os

nós F, B e C. Já os descendentes de um vértice iv são todos os nós, a partir dele, que estão

conectados, até o seu nó folha. Como descendente do vértice J têm-se os nós O e N.

qualquer

Figura 9 - Exemplo de um Grafo Acíclico Dirigido.

Um caso particular na teoria dos grafos são as árvores. Uma árvore ),( AVT é um

grafo simples conexo com 1n arestas, em que n é o número de vértices. Em uma árvore

um vértice está conectado com apenas um nó ancestral, conforme pode ser observado na

Figura 10.

qualquer

Figura 10 – Exemplo de uma árvore.

3.2 CONCEITOS FUNDAMENTAIS DE CLASSIFICAÇÃO HIERÁRQUICA

A classificação hierárquica, que é o tipo de classificação usada neste trabalho, difere

da classificação convencional pelo fato das classes estarem dispostas em uma estrutura de

hierarquia tal como um DAG ou uma árvore.

No processo de classificação hierárquica, como mostrado na Figura 11, deve-se ter o

conjunto de dados, que será utilizado para treinamento do classificador e a hierarquia de

classes que conterá as informações de ancestralidade e descendência das classes que serão

preditas.

Neste tipo de classificação uma classe é um vértice dessa hierarquia. Assim, quando

um exemplo de entrada prediz como sendo de uma determinada classe, automaticamente esse

exemplo também será classificado como pertencentes a todas as suas classes ancestrais.

A classificação hierárquica difere da classificação convencional pelo fato das classes

estarem dispostas em uma estrutura hierárquica. Em geral, as classes dessa estrutura podem

estar dispostas na forma de uma árvore ou de um DAG. Essas estruturas são ilustradas nas

Figura 12a e Figura 12b respectivamente. Nestas figuras, cada nó representa uma classe

identificada por um número dentro do nó e as arestas (ligações entre os nós) representam as

relações entre a classe ancestral e a classe descendente. Em ambas as figuras, o nó raiz

corresponde a “qualquer classe”, denotando uma ausência total de conhecimento sobre a

classe de um objeto.

Xm. . .

Atributos classe

Hierarquia de Classes

Avaliação

Aprendizagem

de Máquina

Classificador

Figura 11 - Exemplo de do Processo de Classificação Hierárquica.

qualquer

2.1 2.1 3.1 3.2

qualquer

2.1 2-3.1 3.1 3.2

Figura 12 - Exemplo de hierarquia de classe estruturada em árvore e em DAG.

A principal diferença entre a estrutura de árvore e a estrutura de DAG é que na

estrutura de árvore cada nó de classe, exceto o nó raiz, tem apenas um pai, enquanto que na

estrutura de DAG cada nó de classe pode ter um ou mais nós pai.

Na estrutura de árvore, Figura 12a, cada nó é rotulado com o número da sua classe

correspondente. Considera-se que o nó raiz está no nível 0 e o nível de qualquer outro nó é

determinado pelo número de arestas que unem aquele nó ao nó raiz. Nota-se que os nós do

primeiro nível têm um dígito, enquanto que nós do segundo nível têm dois dígitos: o primeiro

dígito identifica a classe pai (ao primeiro nível) e o segundo dígito identifica a subdivisão de

classe ao segundo nível (FREITAS & CARVALHO, 2007).

A anotação para os rótulos dos nós de classe na Figura 12b é semelhante à anotação da

Figura 12a. A diferença principal acontece para nós com múltiplos pais, isto é os nós, 1-2.1 e

2-3.1 no segundo nível da hierarquia de classe. Nesta notação, as classes ancestrais (pais) não

são especificadas por um único dígito, mas por dois dígitos antes de delimitar o nível da

classe com “.”, por exemplo, um dígito para cada uma das classes pai. Consequentemente, na

classe número 1-2.1, a anotação “1-2” indica que este nodo tem como pai as classes 1 e 2, e o

“1” depois do “.” indica que esta é a primeira classe descendente (filha) dessas duas classes

ancestrais considerando como um todo (em lugar de cada classe ancestral individualmente)

(FREITAS & CARVALHO, 2007).

Outra característica que difere a classificação hierárquica da classificação

convencional refere-se ao tipo de predição das classes na hierarquia, as quais podem ser

distinguidas em duas categorias: predição obrigatória em nós-folha e predição opcional em

nós-folha.

Na primeira categoria, todos os exemplos devem ser associados com classes

representadas por nós-folha. Assim, ao predizer uma classe que está em um determinado nível

estará também predizendo as classes que estão nos níveis acima, ou seja, as suas classes

ancestrais. A Figura 13 ilustra um exemplo deste tipo de predição onde somente as classes

denominadas de H, I, E, F, e G devem ser preditas.

qualquer

Figura 13 - Exemplo de predição obrigatória em nós-folha.

Já na segunda categoria não existe a obrigatoriedade de que a predição ocorra em nós-

folha. Dessa forma, os exemplos podem ser associados a classes que são representadas por

qualquer nó interno da hierarquia de classes e seus ancestrais. A Figura 14 ilustra esse tipo de

predição onde qualquer nó da hierarquia pode ser predito.

qualquer

Figura 14 - Exemplo de predição opcional em nós-folha.

3.3 ABORDAGENS PARA TRATAR PROBLEMAS DE CLASSIFICAÇÃO

HIERÁRQUICA

Para explorar problemas de classificação hierárquica algumas soluções têm sido

propostas, as quais podem ser divididas em três abordagens principais denominadas de

classificação hierárquica plana, classificação hierárquica local e classificação hierárquica

global (FREITAS & CARVALHO, 2007). Essas abordagens indicam como os classificadores

são construídos e não um método de classificação, como o método top-down que muitas vezes

é citado na literatura como sendo uma das abordagens (SILLA & FREITAS, 2011).

3.3.1 Classificação Hierárquica Plana

A classificação hierárquica plana tem o mesmo comportamento de um algoritmo de

classificação convencional na fase de treinamento e teste. Esta abordagem considera que um

problema de classificação hierárquica pode ser transformado em um problema de

classificação plana desconsiderando o conceito de ancestral e descendente, ou seja, ignora-se

a hierarquia de classe, predizendo apenas os nós-folha. Está técnica é parecida com a

classificação plana convencional e pode ser aplicada em estruturas do tipo árvore e do tipo

Um exemplo desse tipo de predição pode ser observado na Figura 15. Utilizando o

exemplo de hierarquia mostrado nesta figura pode-se definir que as classes a serem previstas

são: D, H, I, F e G.

qualquer

D E GJ L

qualquer

F G H I

Figura 15 - Exemplo de classificação plana multirrótulo.

3.3.2 Classificação Hierárquica Local

Conforme Silla & Freitas (2010) essa abordagem pode ser divida em três técnicas de

classificação. São elas: classificação hierárquica local para cada nó, classificação hierárquica

local em nós pais e classificação hierárquica local por nível.

3.3.2.1 Classificação Hierárquica Local para cada nó

Essa é uma das técnicas mais usada na literatura (Xue et al., 2008), (Valentini, 2009),

(Barutcuoglu et al., 2006), (Guan et al., 2008), (Jin et. al., 2008). Ela consiste em treinar um

classificador binário para cada nó da hierarquia de classes (Figura 16), ou seja, consiste em

usar M classificadores locais independentes, um para cada classe ( M é o número total de

nós na hierarquia de classe). Consequentemente, o número de classificadores que devem ser

treinados poderá ser enorme em situações onde há muitas classes. Além disso, um problema

crucial que essa técnica pode apresentar é que os resultados poderão ser incompatíveis, pois

não há nenhuma garantia que a hierarquia de classes será respeitada.

qualquer

F G H I

Figura 16 - Exemplo de classificação hierárquica local por nó.

Há várias maneiras de definir o conjunto de amostras positivas e negativas para o

classificador binário como citado por Silla & Freitas (2010).

Essa técnica tem a vantagem que cada modelo de classificação é construído utilizando

um processo de modularização. Porém, a classificação errada de uma classe em um

determinado nível tende a se propagar para os níveis mais profundos da hierarquia, o que

representa uma desvantagem para esta abordagem.

3.3.2.2 Classificação Hierárquica Local em nós Pais

Essa técnica consiste em treinar para cada nó pai da hierarquia de classes um

classificador multirrótulo. A Figura 17 ilustra um exemplo de classificação local em nós pais.

Por exemplo, supondo que no primeiro nível o classificador prediz a classe como sendo B. Na

sequência o classificador é treinado com as classes filhas da classe predita anteriormente, no

exemplo às classes F e G, evitando o problema de predições inconsistentes e respeitando o

relacionamento entre as classes.

Essa técnica não pode ser utilizada em estruturas do tipo DAG sem que haja alguma

estratégia para criação dos classificadores pais, visto que um nó filho pode ter mais de um nó

qualquer

F G H I

Figura 17 - Exemplo de classificação local por pais.

Uma extensão deste tipo de classificador local é o classificador seletivo proposto por

Secker et al. (2007). Ao contrário da classificação local convencional o classificador seletivo

permite que mais de uma técnica de aprendizagem de máquina seja utilizada (SECKER et al.,

2007). Esse método utiliza um procedimento seletivo para decidir qual técnica será usada em

cada iteração da fase de treinamento do classificador. Quando aplicado juntamente com o

método top-down, ele consiste em dividir o conjunto de treinamento em duas partições, sendo

uma delas destinada ao treinamento do classificador para cada técnica de aprendizagem de

máquina que está sendo usada e a outra para a validação dos classificadores. Assim, a técnica

que gerar o classificador com maior taxa de acerto no conjunto de validação é selecionada

para a indução do classificador para o nó em questão. No caso de empate, entre duas ou mais

técnicas, deve ser utilizado algum mecanismo de desempate. Após a seleção da técnica, essa é

utilizada novamente para o treinamento de um classificador usando todo o conjunto de

treinamento. Esse processo é repetido para todos os nós em que o classificador deve ser

utilizado. Ao final da fase de treinamento tem-se uma árvore de classificadores de diferentes

técnicas de aprendizagem de máquina.

3.3.2.3 Classificação Hierárquica Local por Nível

Esta técnica consiste em criar um classificador multirrótulo para cada nível da

hierarquia. A Figura 18 ilustra um exemplo de classificação usando essa técnica. Observa-se

que seriam criados três classificadores, um para cada nível da hierarquia.

qualquer

F G H I

Figura 18 - Exemplo de classificação local por nível.

Esta técnica pode ser usada em estruturas em árvore e em DAG. Em um DAG a

aplicação desta técnica é mais complexa, visto que pode existir mais de um caminho nesse

tipo de estrutura. Assim, uma classe pode pertencer a mais de um nível na hierarquia o que

pode trazer redundância entre os classificadores.

Essa técnica também tem a vantagem que cada modelo de classificação é construído

utilizando um processo de modularização como na técnica de classificação hierárquica local

para cada nó. O mesmo problema pode ocorrer caso um nó classe tenha sido classificado

errado propagando-se para os níveis abaixo da hierarquia.

Em geral, para a avaliação dos classificadores hierárquicos locais pode ser usado o

método top-down como já comentado anteriormente. Assim, primeiramente, uma amostra é

classificada como pertencente a uma ou mais classes no primeiro nível da hierarquia. Na

sequência, essa amostra é submetida ao(s) classificador(es) do segundo nível, que são os

filhos das classes previstas no primeiro nível, para predizer a qual das subclasses ela pertence.

Esse processo é repetido para as classes de nível mais profundo (FREITAS & CARVALHO,

2007).

No trabalho de Xue et al (2008), em que os autores trabalhavam com texto, foi

proposta uma estratégia de poda da hierarquia. Assim, quando um documento novo vai ser

classificado ele pode ser relacionado com algumas classes da hierarquia. Esse método

computa a semelhança entre o documento novo e todos os outros documentos, e realiza a

poda da hierarquia. Apenas as classes que permaneceram na hierarquia serão usadas na

próxima fase para a classificação do documento usando o método top-down (SILLA &

FREITAS, 2010).

3.3.3 Classificação Global ou Big-Bang

A abordagem de classificação hierárquica global ou Big-Bang, que é o foco deste

trabalho, consiste em construir um único modelo de classificação levando em consideração a

hierarquia de classes de todo o conjunto de treinamento, conforme pode ser visualizado na

Figura 19. Nessa abordagem, a predição pode ocorrer em qualquer nível da hierarquia. Dessa

maneira, nenhuma das técnicas utilizadas na classificação plana poderá ser utilizada, sem que

sejam feitas alterações no classificador.

As vantagens principais dessa abordagem são que não há necessidade de treinar um

número grande de classificadores e a manipulação automática da inconsistência de predição

de classe. Sua desvantagem principal é a maior complexidade do classificador global.

qualquer

F G H I

Figura 19 - Exemplo de classificação global.

3.4 AVALIAÇÃO DOS CLASSIFICADORES HIERÁRQUICOS

Sabe-se que as medidas de avaliação de desempenho convencionais foram

desenvolvidas para modelos de classificação onde não existe um relacionamento hierárquico

entre as classes.

Para os problemas de classificação hierárquica essas medidas precisam ser adaptadas

para o tipo de avaliação que se deseja fazer. Não existe um consenso geral para avaliar

modelos hierárquicos.

Uma questão que deve ser levada em consideração antes de avaliar qualquer modelo é

a maneira como será obtido o resultado, podendo ser obtido uma taxa de desempenho para

todo o modelo ou uma taxa de desempenho para cada nível ou para cada classe.

Algumas medidas para avaliar o desempenho de modelos hierárquicos foram

propostas, as quais podem ser agrupadas em categorias tais como: medidas baseadas em

distância, medidas baseada em semântica, medidas baseada em matriz de custo, medidas

baseadas na relação de ancestralidade e descendência entre outras.

3.4.1 Medidas Baseada em Distância

Essa medida de desempenho consiste em atribuir um custo que é proporcional à

distância entre o exemplo da classe predita e a classe verdadeira. Essa distância é definida

como o número de ligações entre os nós pertencentes ao menor caminho que liga a classe

verdadeira e a classe predita. Essa categoria pode ser dividida em duas subcategorias: medida

independente da profundidade e medida dependente da profundidade.

3.4.1.1 Medida Independente da Profundidade

Nessa categoria, a medida de distância é calculada sem levar em consideração o nível

das duas classes na hierarquia. A distância entre dois nós na hierarquia é definida como o

número de extremidades no caminho mais curto que os conecta.

Na estrutura hierárquica em árvore o cálculo da distância é simples. Um exemplo

dessa medida é mostrado na Figura 20. Observa-se que a distância entre classes M e G na

hierarquia nessa estrutura é igual a três.

qualquer

Figura 20 - Exemplo Medida de Distância Independente de Profundidade em Árvores.

A situação é mais complexa em um DAG onde pode haver múltiplos caminhos entre

um par de nós, ou seja, entre o nó verdadeiro e o nó predito. Por exemplo, há dois caminhos

entre o nó de classe O e o nó F, sendo mostrados na Figura 21.

Neste caso, faz-se necessário a escolha de algum critério para selecionar o caminho

entre o nó de classe verdadeira e o nó de classe predito. Um critério que pode ser usado é o do

menor caminho. Nesse exemplo, segundo este critério o exemplo selecionado seria o da

Figura 21b cuja distância é igual a dois.

qualquer

Figura 21 - Exemplo Medida de Distância Independente de Profundidade em DAG.

3.4.1.2 Medida Dependente da Profundidade

Essa medida tem como objetivo considerar o nível de hierarquia no cálculo da

distância entre as duas classes. Para isso, considera-se o número de ligações entre as duas

classes e a profundidade das classes na hierarquia.

Essa medida pode ser aplicada em problemas de predição obrigatória em nós folha ou

em problemas de predição opcional em nós folha. Além disso, as penalizações para os erros

de predição nos níveis superiores tende a ser maiores que nos níveis mais profundos.

Por exemplo, suponha um exemplo de uma estrutura em árvore que tem 4 níveis,

conforme a Figura 22. A distância entre o nó folha 1.1.1.1 e a classe predita 1.1.1.2 é igual a

dois como pode ser observado na Figura 22a. Nota-se que ambos os nós são irmãos, filhos do

nó 1.1.1 e estão separados por uma extremidade. Suponha-se a predição em um nó interno da

hierarquia no segundo nível (problema de predição de nó folha opcional), por exemplo, o nó

1.2 cuja classe verdadeira é 1.1 como pode ser observado na Figura 22b. A distância entre a

classe verdadeira e a classe predita também é igual a dois. Apesar de ambas as distâncias

calculadas apresentarem o mesmo valor, um erro na predição do segundo nível (mais geral) é

considerado mais grave que o erro na predição do quarto nível (mais específico).

1.2 2.1 2.2

1.1.1 1.1.2 1.2.1 2.1.1 2.1.2 2.2.21.2.2 2.2.1

1.2.1.1 1.2.1.21.1.1.1 1.1.1.2 2.1.1.1 2.1.1.2 2.2.1.1 2.2.1.2 2.2.2.1

1.2 2.1 2.2

1.1.1 1.1.2 1.2.1 2.1.1 2.1.2 2.2.21.2.2 2.2.1

1.2.1.1 1.2.1.21.1.1.1 1.1.1.2 2.1.1.1 2.1.1.2 2.2.1.1 2.2.1.2 2.2.2.1

Figura 22 - Exemplo de Predição de Classe em Estrutura de Árvore usando a Medida de

Distância Dependente de Profundidade.

Para tratar essa diferenciação entre os níveis pode-se atribuir custos para cada nível de

predição na hierarquia de classe. O critério proposto Blockeel et al (2002) foi atribuir pesos

nas ligações. As ligações que estão em um nível mais profundo recebem um peso menor das

que estão em níveis menos profundos. Assim, ao computar a distância de um caminho da

hierarquia utilizam-se os pesos das ligações e calcula-se a distância ponderada entre as

classes. Um exemplo pode ser visualizado na Figura 23 que mostra a atribuição de pesos para

as ligações. Observa-se que os pesos no quarto nível são menores que os pesos do primeiro

nível da hierarquia.

1.2 2.1 2.2

1.1.1 1.1.2 1.2.1 2.1.1 2.1.2 2.2.21.2.2 2.2.1

1.2.1.1 1.2.1.21.1.1.1 1.1.1.2 2.1.1.1 2.1.1.2 2.2.1.1 2.2.1.2 2.2.2.1

1.2 2.1 2.2

1.1.1 1.1.2 1.2.1 2.1.1 2.1.2 2.2.21.2.2 2.2.1

1.2.1.1 1.2.1.21.1.1.1 1.1.1.2 2.1.1.1 2.1.1.2 2.2.1.1 2.2.1.2 2.2.2.1

1 11 1 1 1 11

2222 2222

111 1 1 1 1

2222 2222

Figura 23 - Exemplo de Predição de Classe em Estrutura de Arvore usando a Medida de

Distância Dependente de Profundidade com Atribuição de Pesos.

Com isso, o erro da predição para as classes que estão em um nível mais alto da

hierarquia (mais próximas da raiz) será considerado mais grave do que as que estão em um

nível mais profundo.

Para a estrutura do tipo DAG, onde pode haver múltiplos caminhos, devem-se seguir

os mesmos passos usados na medida independente de profundidade, porém incluindo o peso

das ligações das classes.

Uma maneira de se obter a taxa de acerto (TA), taxa de erro (TE), sensibilidade (S) e

precisão (P) para a classificação hierárquica, proposta por Sun & Lim (2001), é considerar os

erros de predição baseada na distância. Para isso é calculada a contribuição de falsos positivo

ipConF para cada classe iC da hierarquia através da Equação 16.

pi CdRConFpCon Equação 16

em que d é um exemplo de entrada, pC a classe predita, vC a classe verdadeira e RCon é a

contribuição refinada, que serve para normalizar a contribuição de cada exemplo no intervalo

de ]1,1[ . Essa é obtida pela Equação 17.

))),(,1max(,1min(),( vp CdConCdRCon Equação 17

Para que seja possível calcular a RCon faz-se necessário calcular a contribuição de

falsos positivos Con para cada classe. Esse cálculo é obtido pela fórmula mostrada na

Equação 18.

CCDisCdCon

),(0.1),(

Equação 18

em que ),( vp CCDis é a distancia entre a classe predita pC e a classe verdadeira vC , e Dis é

a distância aceitável, especificada pelo usuário e devendo ser maior do que zero.

Já a contribuição de falsos negativos iFnCon é obtida de maneira semelhante como

pode ser observado na Equação 19, Equação 20 e Equação 21.

vi CdRConFnCon Equação 19

))),(,1max(,1min(),( pv CdConCdRCon Equação 20

CCDisCdCon

),(0.1),(

Equação 21

Calculando o valor de iFpCon e iFnCon a TA é obtida na Equação 22, a TE pela

Equação 23, a P na Equação 24 e a S Equação 25 (SUN & LIM, 2001).

FNFPVPVN

FnConFpConVPVNTA

Equação 22

FNFPVPVN

FnConFpConFPFNTE

Equação 23

FpConFNVP

FnConFpConTPS

),0max( Equação 24

FnConFPVP

FnConFpConVPP

),0max(

Equação 25

Outra maneira de utilizar a distância no cálculo da TE consiste em calcular o erro de

predição de cada exemplo predito. A TE é obtida através da média do erro medido para todas

as amostras. Para cada exemplo classificado, é calculada a distância entre a classe predita e a

classe verdadeira. Na sequência essa distância é normalizada NDist como mostra a Equação

26, em que dC é a classe mais distante da classe verdadeira.

NCCDis

CCDisDist

Equação 26

Após calcula-se a TE que é obtida pelo somatório da distância normalizada de todos

os exemplos que foram preditos (os exemplos que foram preditos corretamente terão o valor

de distância igual a zero) dividido pela quantidade total de exemplos preditos NTotal

(Equação 27).

NTotal

N iDistTE1

Equação 27

Obtida a TE a TApode ser então deduzida como mostra a Equação 11.

3.4.2 Medida Baseada em Matriz de Custo

Essa categoria consiste em especificar o custo para cada erro de classificação usando

uma matriz de custo (FREITAS & CARVALHO, 2007). Essa matriz é uma generalização da

matriz de custos de erro de classificação para problemas de classificação plana (WITTEN &

FRANK, 2005).

Há diferentes maneiras de fazer essa generalização. Uma delas consiste em determinar

o custo associado a cada erro de classificação. Por exemplo, para um problema de predição

obrigatória em nó folha uma matriz de custos em uma estrutura hierárquica com dois níveis é

mostrada na Figura 24.

1.1 1.2 2.22.1

1.1.1 1.1.2 2.1.1 2.1.2 2.2.22.2.1

Classe Verdadeira

1.1 1.2 2.1 2.2

1.1.1 1.1.2 1.2 2.1.1 2.1.2 2.2.1 2.2.2

1.1.1 0 a b e e E E

1.1.2 A 0 b e e E E

1.2 1.2 B b 0 d d D D

2.1 2.1.1 E e d 0 a C C

2.1.2 E e d a 0 C C

2.2 2.2.1 E e d c c 0 A

2.2.2 E e d c c A 0

Figura 24 - Exemplo de Predição Hierárquica usando Medida de Avaliação baseada na

Matriz de Custo.

Observa-se que, nas células da diagonal principal da tabela foi atribuído o valor zero.

Isso significa que não houve erro de classificação. Para as outras células o custo variou de

ea,..., e que os valores de cada um desses custos são maiores que zero.

Assim, ao se fazer uma predição errada como, por exemplo, para a classe 1.2 cuja

classe verdadeira desse exemplo é 1.1.1 atribui-se um custo para essa predição, nesse caso o

custo atribuído foi b .

Conforme Freitas & Carvalho (2007) pode-se utilizar essa medida juntamente com as

medidas descritas anteriormente.

Para obter o erro de classificação em uma estrutura de árvore baseada na distância,

onde o custo é obtido conforme o número de ligações, basta atribuir um custo para os nós

irmãos de uma subárvore e outro custo para os nós primos desta subárvore.

Seguindo o mesmo exemplo de predição descrito anteriormente, o custo atribuído para

as classes 1.1.1 e 1.1.2 (que são nós irmãos) é igual a dois conforme pode ser observado na

Figura 25.

No caso de predição opcional em nó folha basta estender a matriz de custo para as

classes internas da hierarquia (FREITAS & CARVALHO, 2007).

1.1 1.2 2.22.1

1.1.1 1.1.2 2.1.1 2.1.2 2.2.22.2.1

Classe Verdadeira

1.1 1.2 2.1 2.2

1.1.1 1.1.2 1.2 2.1.1 2.1.2 2.2.1 2.2.2

1.1.1 0 2 3 6 6 6 6

1.1.2 2 0 3 6 6 6 6

1.2 1.2 3 3 0 5 5 5 5

2.1 2.1.1 6 6 5 0 2 4 4

2.1.2 6 6 5 2 0 4 4

2.2 2.2.1 6 6 5 4 4 0 2

2.2.2 6 6 5 4 4 2 0

Figura 25 - Exemplo de Predição Hierárquica usando Medida de Avaliação baseada na

Matriz de Custo juntamente com a medida baseada em Distância.

3.4.3 Medidas Baseada na Relação de Ancestralidade e Descendência

Um exemplo dessa medida foi utilizado por Ipeirotis et al (2001). Neste trabalho, foi

utilizado o conceito de classes descendentes, considerando as subárvores enraizadas na classe

predita e na classe verdadeira. Cada subárvore é formada pela classe em si e pelas classes

descendentes, ou seja, as suas subclasses.

Segundo Ipeirotis et al (2001) as medidas de precisão e sensibilidade da hierarquia

podem ser calculadas através da intersecção dessas subárvores.

A medida de Precisão Hierárquica Ph , como mostrada na Equação 28, é obtida pela

divisão do número de descendentes comuns pelo número de descendentes da classe predita.

A medida de Sensibilidade Hierárquica Sh , como pode ser observada na Equação 29,

é obtida pela divisão do número de descendentes comuns pelo número de descendentes da

classe verdadeira.

CDescCDescPh

Equação 28

CDescCDescSh

Equação 29

em que )( vCDesc e )( pCDesc representa as classes contidas na subárvore em que C é a

classe raiz (incluindo C ) da classe verdadeira e da classe predita, respectivamente. Essas

medidas são então utilizadas no cálculo de uma extensão hierárquica da Medida-F como

mostra a Equação 30.

ShPhFhMedida

**)1( 2

Equação 30

em que geralmente recebe o valor igual a 1.

O problema dessa medida é que ela assume que a classe predita é uma classe

descendente ou uma classe ancestral da classe verdadeira. Quando essas classes estão no

mesmo nível, a intersecção é um conjunto vazio.

Outro exemplo de medida pertencente a essa categoria pode ser encontrado em

Kiritchenko et al (2004) onde é usado o conceito de ancestralidade. Assim, a medida de

precisão (Equação 31) é obtida pela divisão do número de ancestrais comuns pelo número de

ancestrais da classe predita. Já a medida de sensibilidade (Equação 32) é obtida pela divisão

do número de ancestrais comuns pelo número de ancestrais da classe verdadeira. Em ambas as

medidas, o nó raiz não é considerado ancestral da classe C .

CAncCAncPh

Equação 31

CAncCAncSh

Equação 32

em que )( vCAnc e )( pCAnc são as classes ancestrais da classe verdadeira e predita, incluindo

a própria classe C , respectivamente.

3.4.4 Medida Baseada na Curva de Precisão e Revocação

Vens et. al. (2008) propôs uma medida baseada na análise de curvas de precisão e

revocação (curvas PR). Tal medida funciona da seguinte maneira: um conjunto de limiares

entre 0 e 1 são selecionados. Cada limiar corresponde a um ponto no espaço da curva PR e

variando esses limiares obtêm-se a curva PR. Entretanto, para um cálculo mais real possível

da área da curva, o uso de algum método de interpolação deve ser utilizado, como por

exemplo, o método de interpolação não-linear (DAVIS & GOADRICH, 2006).

Para um determinado limiar um ponto de Precisão e Revocação )Re,Pr( vec no espaço

da curva PR são obtidos através da Equação 33 e da Equação 34, respectivamente, em que i

representa as classes.

i ii i

VPecPr

Equação 33

i ii i

Equação 34

Essa medida funciona apenas para classificadores que possuem em sua saída um valor

contínuo. Dessa maneira, avalia-se a saída desse classificador e compara com um determinado

limiar. Assim, se uma saída é maior que o limiar então se atribui a instância à classe, caso

contrario a instância não é atribuída a classe.

Quanto menor for o valor do limiar mais exemplos são atribuídos a uma classe

aumentando a medida de revocação.

Outra questão levantada pelos autores é que as curvas PR podem ser construídas

individualmente para cada classe em um problema multirrótulo, obtendo como positivos os

exemplos pertencente à classe e como negativo os outros exemplos. Para combinar os

desempenhos individuais em cada classe de forma a obter o desempenho geral, dois métodos

podem ser utilizados: a área abaixo da curva PR )(AUPRC e a área média abaixo da curva

PR (Vens et al., 2008).

A área média abaixo da curva é descrita por )(PRCAU . Nessa medida é calculada a

média ponderada das áreas abaixo da curva PR individuais. A Equação 35 mostra como é

calculada essa abordagem.

iCww AUPRCwAUPPC *||,...,1 Equação 35

Os autores utilizaram essa abordagem de duas maneiras. A primeira, denominada de

AUPRC , os pesos iw são inicializados com o valor de ||1 C , em que C representa todas as

classes. A segunda abordagem, denominada de wAUPRC , consiste em atribuir um peso para

uma classe conforme a sua frequência. Essa frequência é calculada por j jii vvw , em que

iv é a frequência de classe ic do conjunto de dados. Nesse caso, segundo os autores é que em

alguns problemas de classificação hierárquica, classes que são mais frequentes podem ser

mais importantes.

3.5 TESTES ESTATÍSTICOS PARA VALIDAÇÃO DOS RESULTADOS

A análise estatística dos resultados obtidos de um determinado estudo é uma

ferramenta muito importante na validação desses dados.

Os testes estatísticos são fundamentalmente utilizados em pesquisas que tem como

objetivo comparar condições experimentais. Existe uma série de testes estatísticos que podem

auxiliar as pesquisas. Os testes estatísticos fornecem um respaldo científico às pesquisas para

que estas tenham validade e tenham aceitabilidade no meio científico.

Os testes podem ser divididos em paramétricos e não-paramétricos. A diferença entre

ambos os testes refere-se ao tipo de valores da variável estudada. Nos testes paramétricos os

valores da variável devem ter distribuição normal ou aproximação normal. Já os testes não-

paramétricos não têm exigências quanto ao conhecimento da distribuição da variável na

população.

Devido ao não conhecimento da distribuição dos dados, experimentos realizados para

tratar de problemas hierárquicos são utilizados testes não-paramétricos, tal qual o teste de

Wilcoxon (Wilcoxon Signed Rank Test) e o teste de Friedman.

3.5.1 Teste de Wilcoxon

O teste de Wilcoxon (1945) é aplicado quando estão em comparação dois grupos

relacionados e a variável deve ser de mensuração ordinal. O teste classifica em postos a

diferença entre os algoritmos sobre cada base usada para avaliação de desempenho. Em

seguida, soma as diferenças positivas (Equação 36) e as negativas (Equação 37).

irW Equação 36

irW Equação 37

em que ir é o posto (ranking) da i-ésima base avaliada considerando as diferenças entre os

algoritmos comparados.

Na sequência calcula-se o valor T que representa a menor das somas de postos de

mesmo sinal (Equação 38) (DESMAR, 2006).

);min( WWT Equação 38

Em seguida determina-se o valor de N que é o total das diferenças com sinal. Se

25N , os valores críticos de T são tabelados, onde N representa o número de base de dados

avaliadas, descontados o número de empates )0( id . Já para os valores em que 25N

utiliza-se a estatística z (Equação 39) pois se considera que a distribuição dos dados é

aproximadamente normal.

)12)(1(24

Equação 39

A hipótese nula assume que a diferença de desempenho entre algoritmos não é

significativa. Com nível de confiança 05,0 , a hipótese nula não pode ser rejeitada se

96,196,1 z .

3.5.2 Teste de Friedman

O teste de Friedman é um teste não paramétrico (FRIEDMAN, 1937, 1940)

recomendado para comparar o desempenho de vários algoritmos sobre diferentes bases de

dados (DESMAR, 2006).

Neste teste, os algoritmos são organizados por postos (ranking), de acordo com o

desempenho obtido, sobre cada base de dados, atribuindo-se 1 ao primeiro colocado, 2 ao

segundo, e assim sucessivamente. Na sequência, calcula-se a média dos postos obtidos pelos

algoritmos sobre todos os conjuntos de dados usados nos experimentos.

Após o calculo da média dos postos médios dos classificadores é necessário calcular a

diferença estatística existente entre eles. Este calculo é feito através da aplicação da Equação

22 Equação 40

em que n é a quantidade de bases de dados, k é a quantidade de algoritmos e jr é o posto

médio para o j-ésimo algoritmo.

Segundo Iman e Davenport (1980) apud (DESMAR, 2006) o teste de Friedman é

considerado muito conservador, e por isso, sugere a utilização da estatística FF mostrada na

Equação 41 distribuída de acordo com a distribuição F de Snedcor com 1k e )1()1( nk

graus de liberdade.

Equação 41

Se a hipótese nula é rejeitada Demsar (2006) sugere o teste de Nemenyi, que calcula a

distância crítica (CD - critical distance) entre desempenhos através da Equação 42.

kkqCD a

Equação 42

em que os valores de aq são tabelados conforme o nível de significância. Logo, um algoritmo

é considerado estatisticamente superior a outro se a diferença entre os postos médio de cada

um for maior que a distância critica calculada.

4 TRABALHOS CORRELATOS

Este Capítulo trata sobre os trabalhos relacionados à classificação hierárquica. Como o

objetivo do trabalho é o desenvolvimento de um algoritmo global para a classificação

hierárquica de estruturas do tipo DAG, dar-se-á mais detalhes aos trabalhos que estão

diretamente relacionados a este tema.

Na Seção 4.1 mostra-se um panorama dos trabalhos desenvolvidos que utilizam a

classificação hierárquica. Na Seção 4.2 são descritos os principais trabalhos desenvolvidos

para estruturas hierárquicas do tipo DAG. A Seção 4.3 cita os trabalhos cujo classificador

utilizado é uma rede neural artificial e estratégia evolucionária e por fim, na Seção 4.4 são

feitas algumas considerações sobre os trabalhos citados.

4.1 PANORAMA DOS TRABALHOS QUE UTILIZAM A CLASSIFICAÇÃO

HIERÁRQUICA

A classificação hierárquica é uma técnica que vem sendo bastante utilizada na área de

mineração de textos desde a década de 90. Entre os trabalhos desenvolvidos neste contexto

pode-se citar Koller & Sahami (1997), Sun & Lim (2001), Sun et al (2003), Kiritchenko et al

(2005), Kiritchenko et al (2006).

Entre as motivações para as pesquisas nesta área está o grande número de documentos

eletrônicos, os quais, virtualmente, podem ser organizados hierarquicamente, como por

exemplo, as páginas web, bibliotecas digitais, correio eletrônico, entre outros

(CHAKRABARTI et al, 1998) com o objetivo de facilitar a busca e a recuperação de

informações.

Outra área em que a classificação hierárquica vem sendo utilizada é na organização e

recuperação de gêneros musicais. Alguns dos trabalhos que usaram hierarquias de classe neste

domínio de aplicação são: Burred & Lerch (2003), Barbedo & Lopes (2007), DeCoro et al

(2007), Silla & Freitas (2009).

Existem alguns trabalhos de classificação hierárquica sendo aplicados em imagens,

como, por exemplo, o trabalho desenvolvido por Dimitrovski et al (2008), que utilizou o

método de classificação hierárquica desenvolvido por Vens et al (2008) para a classificação

de imagens médicas.

Já na bioinformática cuja área apresenta vários problemas a serem resolvidos por meio

da classificação hierárquica, como por exemplo, a predição de função de proteínas, é ainda,

relativamente, pouco explorada. Alguns trabalhos têm sido publicados utilizando esta técnica

tais como: Clare & King (2003), Vens et al (2008), Silla & Freitas (2009a) entre outros.

Como o foco desta tese não é o desenvolvimento e a aplicação de algoritmo,

especificamente, para estrutura hierárquica do tipo árvore e sim para estrutura, mais

complexa, do tipo DAG, apenas é citado, na Tabela 4, alguns trabalhos aplicados em estrutura

hierárquica do tipo árvore, citando a abordagem utilizada, o algoritmo base e a aplicação.

Tabela 4 - Trabalhos desenvolvidos e aplicados em estruturas do tipo árvore.

Trabalhos Abordagem Algoritmo Base Aplicação

Barbedo & Lopes (2007) Classificação Plana Baseado em Vetores

summary features

Classificação de Gênero

Musical

D’ Alessio et al (2000)

Classificação

Por Nós

Classificador Heurístico

Linear Categorização de Texto

Dumais & Chen (2000) SVM Categorização de Texto

Sun & Lim (2001) SVM Categorização de Texto

Sun et al (2003) SVM e Naïve Bayes Categorização de Texto

Liu et al (2005) SVM Categorização de Texto

Cesa-Bianchi et al (2006a,b) Bayes e SVM Categorização de Texto

Cesa-Bianchi &

Valentini (2009) Ensembles Bayesianas Predição de Função de Proteína

Esuli et al (2008) AdaBoost Categorização de Texto

Xue et al (2008) SVM Categorização de Texto

Bennett & Nguyen (2009) SVM Categorização de Texto

Binder et al (2009) SVM Classificação de Imagem

Valentini (2009) Combinação de

Classificadores Predição de Função de Proteína

Valentini & Re (2009) SVM Predição de Função de Proteína

Koller & Sahami (1997)

Por Nós

Classificadores

Bayesianos Categorização de Texto

Chakrabarti et al (1998) Naive Bayes Categorização de Texto

McCallum et al (1998) Naive Bayes Categorização de Texto

Weigend et al (1999) Rede Neural Categorização de Texto

Ruiz & Srinivasan (2002) Rede Neural MLP Categorização de Texto

Burred & Lerch (2003) 3-component Gaussian

Mixture Model

Musical

McKay & Fujinaga (2004) Rede Neural (para

frente) e KNN

Musical

Li & Ogihara (2005) SVM Classificação de Gênero

Musical

Brecheisen et al (2006) SVM Classificação de Gênero

Musical

Holden & Freitas (2005,

2006, 2008, 2009) PSO/ACO Predição de Função de Proteína

\Xiao et al (2007)

Rede Neural MLP Classificação de Discurso

Emocional

Secker et al (2007)

Selective Top-Down

utilizando várias

técnicas de AM

Predição de Função de Proteína

Costa (2008)

Árvore de Decisão,

Ripper, SVM, K-NN e

Rede Bayesiana

Silla & Freitas (2009b) Naïve Bayes Classificação de Gênero

Musical

Gauch et al (2009) Rocchio, k-NN, SVM e

Naïve Bayes Categorização de Texto

Jensen et al. (2002)

Por Nível

Rede Neural Predição de Função de Proteína

Clare & King (2003) Árvore de Decisão Predição de Função de Proteína

Weinert & Lopes (2004) Rede Neural Predição de Função de Proteína

Cerri & Carvalho (2010) Rede Neural MLP Predição de Função de Proteína

Labrou & Finin (1999)

Classificador Global

Rocchio Categorização de Texto

Wang et al (1999) SVM/Associação de

Regras Categorização de Texto

Clare & King (2003) Árvore de Decisão Predição de Função de Proteína

Blockeel et al (2006) Arvore de Decisão

baseada em PCT Predição de Função de Proteína

Cai & Hofmann (2004, 2007) SVM Categorização de Texto

Dekel et al (2004a,b) SVM Classificação de Fonema

Peng & Choi (2005) Naïve Bayes Categorização de Texto

Rousu et al (2005, 2006) Classificador baseado

em Kernels Categorização de Texto

Astikainen et al (2008)

Hierarchical Max-

Margin Markov

algorithm (HM3) and

the Maximum Margin

Regression algorithm

Seeger (2008) SVM Categorização de Texto

Silla & Freitas (2009a) Naive Bayes Predição de Função de Proteína

Qiu et al (2009) SVM Categorização de Texto

Cerri & Carvalho (2011) Rede Neural MLP Predição de Função de Proteína

4.2 TRABALHOS ESTRUTURADOS NA FORMA DE DAG

Nesta Seção serão descritos os trabalhos mais relevantes aplicados em estruturas

hierárquica do tipo DAG. A Tabela 5 cita os principais trabalhos envolvendo este tipo de

hierarquia.

Tabela 5 - Trabalhos desenvolvidos e aplicados em estruturas do tipo DAG.

Trabalhos Abordagem Algoritmo Base Aplicação

Jensen et al. (2003)

Classificação Plana

Rede Neural MLP Predição de Função de Proteína

Laegreid et al. (2003)

Indução de regras

baseada na teoria de

Rough Set

Tu et al. (2004) Rede Neural Predição de Função de Proteína

Hayete & Bienkowska (2005) Árvore de Decisão Predição de Função de Proteína

Barutcuoglu & DeCoro

(2006)

Classificação

Local Por Nós

Redes Bayesianas

com k-NN Classificação de Imagens 3D

Barutcuoglu et al (2006) SVM e Framework

Bayesiano Predição de Função de Proteína

DeCoro et al (2007) Framework Bayesiano Classificação de Gênero

Musical

Guan et al (2008) SVM com Rede

Bayes Predição de Função de Proteína

Jin et al (2008) SVM, Naive Bayes Predição de Função de Proteína

Kiritchenko et al (2005,

Classificação Global

AdaBoost Categorização de Texto

Vens et al (2008) Árvore de Decisão

Alves et al (2008)

Sistema Imunológico

Artificial e Extração

de Regras

Dimitrovski et al (2008) Arvore de Decisão

baseada em PCT Classificação de Imagem

Aleksovski et al (2009) Árvore de Decisão

Otero et al (2009) Colônia de Formiga Predição de Função de Proteína

Wang et al (2009) SVM Predição de Função de Proteína

Otero et al (2010) Colônia de Formiga Predição de Função de Proteína

Bi & Kwok (2011)

Condensing Sort and

Select Algorithm

(CSSA)

4.2.1 Trabalhos utilizando a Abordagem de Classificação Hierárquica Plana

Jensen et al (2003) utilizaram os dados provenientes do repositório universal de

sequências de proteínas InterPro (Universal Protein Resource), no qual famílias de proteínas

tem sido anotadas seguindo o esquema hierárquico da GO. O conjunto de dados utilizado nos

experimentos é formado por 16 atributos, 12501 amostras, as quais foram particionadas em 5

subconjuntos usando o método de validação cruzada e 347 categorias de classes.

Os autores utilizaram a abordagem de classificação plana para a predição hierárquica.

Para isso, uma Rede Neural Artificial multicamada, com uma camada de neurônios escondida,

foi usada para treinar cada classe.

Várias combinações de atributos foram utilizadas para treinar a rede cuja saída

consistia em determinar se a amostra pertencia (valor 1) ou não (valor 0) a classe predita. Da

mesma forma, foram feitas combinações de cinco redes neurais, com um único atributo de

entrada, para o treinamento dos classificadores. Com isso, a maioria das categorias de classes

acabou sendo descartada resultando em 26 classes.

Para cada classe resultante, novas combinações de redes neurais foram treinadas.

Primeiramente, fez-se o treinamento utilizando um atributo de entrada e os que eram

consideráveis piores foram descartados. Na sequência, fizeram-se combinações de tipos e

quantidades de atributos de maneira a obter a melhor combinação de atributos para a

arquitetura da rede. Para evitar redundâncias na predição, outra seleção de categorias foi

realizada resultando em 14 classes da GO.

Para a avaliação de desempenho do modelo os autores usaram as medidas de

sensibilidade e a taxa de falsos positivos.

Nota-se que neste trabalho os autores não levaram em consideração a hierarquia das

classes, apesar de estarem utilizando dados que apresentam esta estrutura, pois durante a fase

de treinamento apenas a classe atual era tratada como sendo positiva e as demais como

negativas ignorando a hierarquia de classes.

O trabalho desenvolvido por Laegreid et al. (2003) também utilizou o esquema de

classes do GO. O objetivo do trabalho era construir um modelo capaz de representar o

relacionamento entre a expressão dos genes em função do tempo e o seu envolvimento com os

processos biológicos, e usar este modelo para predizer a função biológica dos genes não

conhecidos.

Para a construção do modelo os autores utilizaram um conjunto de regras do tipo se-

então usando um algoritmo de indução de regras baseado na teoria de Rough Set e um

Algoritmo Genético. O método desenvolvido consiste em obter regras que representem as

relações entre expressão gênica em função do tempo e o envolvimento de um gene em

processos biológicos. Dessa forma, ao utilizar este modelo de classificação pode-se predizer

os papeis biológicos de genes desconhecidos.

O conjunto de dados de treinamento era constituído de informações do perfil de 497

genes. Desses 497 genes, 284 genes eram conhecidos, ou seja, tinham seus termos

categorizados na GO, o restante (213 genes) eram desconhecidos.

Dos 284 genes conhecidos 273 deles pertenciam a uma das 23 classes e por isso foram

agrupados. Os 273 genes agrupados nas 23 classes deram origem a 549 amostras de

treinamento constituídas por 55 atributos. Isso se deve ao fato de que para 167 genes havia

mais de um processo biológico.

Após esta fase de pré-processamento dos dados, o algoritmo de aprendizagem foi

aplicado para a geração de um conjunto de regras para cada uma das 23 classes de processos

biológicos da GO.

Na fase de treinamento foi utilizada a validação cruzada com 10 partições. O modelo

de treinamento foi constituído por 18064 regras. Em média 3 dos 55 atributos foi usado em

cada regra. Essa redução no número de atributos deve-se a aplicação do algoritmo genético.

Para 211 genes dos 213 desconhecidos ou não categorizados foram obtidos 548

classificações de possíveis processos biológicos. Como medida de avaliação, os autores

usaram a AUC.

Nota-se que neste trabalho os autores também utilizaram a abordagem de classificação

plana para a predição hierárquica. Além disso, a hierarquia de classes DAG da GO foi usada

apenas na fase de pré-processamento para a construção do conjunto de dados de treinamento.

Observa-se que nos dois trabalhos descritos anteriormente foi desenvolvido um

classificador para predizer cada classe da GO. Quando uma nova amostra precisa ser

classificada todos os classificadores são testados. O classificador que apresentar melhor

medida de confiança em seu resultado é que será utilizado para predizer a classe a qual

pertence a amostra (FREITAS & CARVALHO, 2007).

O trabalho desenvolvido por Tu et al. (2004) também utiliza o esquema de hierarquia

de classes do GO e a abordagem de predição hierárquica usando um algoritmo de

classificação plana assim como nos trabalhos de Jensen et al. (2003) e Laegreid et al. (2003).

Nesse trabalho é proposto um framework de predição baseada na capacidade de

aprender (learnability-based predicition), cujo conceito baseia-se no fato de que nem todas as

classes da hierarquia podem ser preditas com a taxa de acerto necessária e que, portanto,

deve-se focar naquelas que podem ser preditas com maior confiança.

Assim como no trabalho de Jensen et al. (2003) os autores usaram uma Rede Neural

Artificial para a construção do modelo de predição, porém levando em consideração o

relacionamento entre as classes ancestrais e descendentes da hierarquia.

Um conjunto com classes ancestrais da GO e suas classes descendentes foi

denominado pelos autores de espaço de classificação. A cada espaço de classificação, uma

rede neural artificial plana foi treinada para predizer a classe filha para um exemplo que já

havia sido predito como pertencer a classe pai. O objetivo disso era fazer uma predição

adicional que fosse capaz de fazer anotações para as classes mais específicas a partir das

anotações conhecidas para suas classes ancestrais.

Os autores utilizaram 44 espaços de classificação com um total de 131 classes. Para a

avaliação da precisão do modelo de predição foi usado o índice de ATI (Averaged Tanimoto

Index) de cada classe. Assim, as classes que tiveram um índice menor que um determinado

limite foram eliminadas e as restantes foram utilizadas para fazer as predições adicionais para

os espaços de classificação. Ao final foram obtidos 14 espaços de classificação contendo 45

classes.

Observa-se que, como no trabalho desenvolvido por Laegreid et al (2003), a estrutura

de hierarquia das classes foi usada apenas na fase de pré-processamento para a criação do

conjunto de dados de treinamento. Após essa etapa, para cada espaço de classificação é usado

um algoritmo de classificação plana (FREITAS & CARVALHO, 2007).

Hayete e Bienkowska (2005) construíram uma árvore de decisão para cada termo do

GO do mesmo domínio funcional. Para a avaliação do classificador, os autores utilizaram as

medidas de sensibilidade e precisão. Nota-se, que o modelo criado tem como desvantagem a

criação de várias árvores de decisão, o que pode tornar os resultados menos precisos

comparados com o algoritmo que gera uma única árvore para o modelo.

4.2.2 Trabalhos Utilizando a Abordagem Classificação Hierárquica Local

Nesta seção serão apresentados alguns trabalhos envolvendo a estrutura hierárquica do

tipo DAG utilizando a abordagem de classificação local. A Seção 3.2.2.1 descreve-se sobre os

trabalhos envolvendo a abordagem de classificação local para cada nó. Já a Seção está

dividida em 3.2.2.1 relata sobre os trabalhos categorizados na abordagem de classificação

local em nós pais. Vale ressaltar que, até o conhecimento que se tem, nenhum trabalho foi

desenvolvido utilizando a abordagem de classificação local por nível da hierarquia.

4.2.2.1 Classificação Local para cada Nó

Barutcuoglu et al (2006) utilizou o esquema hierárquico do GO para o

desenvolvimento do trabalho. O conjunto de dados era formado por 105 nós e 1059 genes

desconhecidos. Neste trabalho os autores treinaram um classificador (binário)

individualmente para cada classe da hierarquia usando o algoritmo SVM. Nesta fase, os

autores não levaram em consideração a hierarquia das classes. Na sequência, para auxiliar na

correção de erros entre todos os nós, os autores desenvolveram um framework hierárquico

Bayesiano. Este framework tem com o objetivo combinar os classificadores baseados nos

limites da hierarquia funcional de modo a corrigir predições incompatíveis na hierarquia de

classe e melhorar o desempenho. Além disso, foi implementado de forma que as predições

não fossem obrigatoriamente em nó folha.

A avaliação das predições foi medida através do cálculo da AUC. Os autores

comparam os resultados obtidos pelo classificador SVM independentemente e quando

combinado com o corretor Bayesiano. Nessa comparação concluíram que o framework

Bayesiano ofereceu melhor resultado, mesmo para dados ruidosos em que o SVM pode causar

predições incorretas.

Em Guan et al (2008) foi desenvolvido uma técnica que consiste de três

classificadores, a saber: um único SVM, um SVM com correção hierárquica (para corrigir as

predições baseadas no relacionamento hierárquico entre os termos do GO), e um classificador

SVM combinado com uma rede Bayesiana.

Para fazer a correção hierárquica os autores usaram dois métodos: Markov Blanket

Graphs (HIER-MB), e Breadth-First Search Graphs (HIER-BFS). Para avaliar os resultados

os autores utilizaram a curva AUC. Em geral, para conjuntos de dados com menor quantidade

de termos da GO o classificador único SVM e o SVM com correção hierárquica tiveram

resultado superiores. Já para quantidades maiores de termos da GO a integração com a rede

bayesiana apresentou melhores resultados que os outros dois métodos.

Em Jin et al (2008), os autores estudaram três algoritmos de classificação multiclasse

baseado na abordagem de classificação, sendo dois deles locais utilizando os algoritmos SVM

e Naïve Bayes, ambos utilizando a técnica top-down, e o outro classificador segue um

mecanismo estocástico denominado de Random GO Walk (RGOW). A motivação para o

desenvolvimento do RGOW é suavizar o problema de máximo local. O método desenvolvido

RGOW transforma a estrutura hierárquica na forma de grafo direcionado em um grafo não

direcionado. Assim, de acordo os autores, o algoritmo faz uma busca neste grafo e segue o

caminho mais provável.

RGOW executa uma busca estocástica para encontrar as melhores classes baseada no

algoritmo Metropolis Hastings com o procedimento recozimento simulado (Simulated

Annealing).

Os autores desenvolveram o RGOW para explorar se procedimentos estocásticos

podem ser usados para melhorar o problema de máximo local na busca top-down feita pelos

classificadores SVM e Naïve Bayes. Além disso, o sistema também produz uma distribuição

probabilística nos rótulos folha.

Como medidas de avaliação, os autores utilizaram a medida baseada na distância

semântica entre um par de termos da estrutura hierárquica. Além disso, utilizaram-se as

medidas de precisão, revocação e a medida-F. Os autores fizeram a avaliação dos resultados

baseado no gráfico, considerando o caminho de predição. Assim, caso uma classe fosse

predita incorretamente, do ponto vista das medidas de avaliação anteriores, mais a predição

estivesse acontecido no caminho válido essa seria considerada correta ou parcialmente

correta.

Os autores avaliaram o método desenvolvido com a abordagem de classificação plana

convencional, a qual apresentou resultados inferiores ao método desenvolvido.

4.2.3 Trabalhos Utilizando a Abordagem Classificação Hierárquica Global

Vens et al. (2008) desenvolveram um modelo de classificação hierárquica para a

estrutura do tipo DAG usando a abordagem de classificação global.

Neste trabalho os autores abordam três técnicas de classificação: a classificação de

uma única classe SC (single-label classification), a classificação hierárquica de uma única

classe HSC (hierarchical single-label classification) e a classificação hierárquica de múltiplas

classes HMC (hierarchical multi-label classification). Para o desenvolvimento destas técnicas

os autores usam a indução de árvores de decisão e mostram como esse modelo poderá ser

modificado para aplicação em estruturas hierárquica do tipo DAG.

Estas técnicas estão implementadas no sistema CLUS e consistem em gerar uma única

árvore de decisão para toda a hierarquia. Esse algoritmo de indução da árvore de decisão é

baseado no framework Predictive Clustering Trees (PCT).

Neste framework, uma árvore é vista como uma hierarquia de grupos, onde o nó raiz é

um grupo que contém todos os dados e que de maneira recursiva e top-down é particionado

em grupos menores. Este framework foi construído usando um algoritmo TDIDT (Top-down

induction of decision trees). A ideia geral consiste em particionar recursivamente o conjunto

de dados de forma a reduzir a variância intra-cluster, maximizar a homogeneidade do

agrupamento e melhorar o desempenho da predição. Mais detalhes sobre esse framework pode

ser encontrado em Blockeel et al (2006).

Para a aplicação do PCT para a tarefa de classificação hierárquica multirrótulo, as

classes das amostras são representadas através de vetores com valores booleanos (o i-ésimo

valor da classe é 1 se a amostra pertencer a classe ic caso contrário será 0).

Vens et al (2008) fizeram vários experimentos com as técnicas desenvolvidas. Para

isso, 12 conjuntos de dados do organismo Saccharomyces cerevisiae foram usados. Foram

feitas duas versões destes conjuntos, um usando o esquema de classificação MIPS’s FunCat

(estrutura de árvore) e a outra usando o esquema do GO (estrutura do DAG). Desta maneira,

totalizou 24 conjuntos de dados. Vale ressaltar que os dados de entrada são os mesmos para

ambas as versões, o que difere são os rótulos das classes.

Os resultados foram avaliados através das medidas de precisão e sensibilidade e pela

curva AUC. Conforme os autores, o Clus-HMC teve um desempenho preditivo melhor

comparado com as outras técnicas tanto para as estruturas de árvore como para DAG. Além

disso, o tamanho da hierarquia quando usado o HCM é muito menor.

Em Aleksovski et al (2009), os autores estenderam o Clus HMLC desenvolvido por

Vens et al (2008), utilizando outras medidas de distância. As medidas utilizadas pelos autores

foram distância de Jaccard, SimGIC e ImageCLEF. Tais medidas foram implementadas no

CLUS e aplicadas em dezesseis conjuntos de dados de genoma funcional, sendo doze desses

seguindo o esquema de anotação FunCat (estruturados em árvore) e os quatro restantes no

esquema GO (estruturados em DAG). Para avaliar o desempenho preditivo, os autores usaram

as medidas de precisão e revocação juntamente com a curva precisão e revocação. Já para

avaliar a significância desses resultados foi usado o teste estatístico de Friedman, o qual,

conforme os autores não revelaram nenhuma diferença significativa nas duas medidas

utilizadas. No que se refere os resultados obtidos pelas diferentes medidas, em relação à área

abaixo da média da curva de precisão e revocação, a medida SimGIC teve o melhor resultado,

seguida da distância euclidiana e na sequência da distância ImageCLEF. A distância de

Jaccard teve o pior resultado. Já na avaliação da área média abaixo da curva de precisão e

revocação a distância euclidiana teve o melhor resultado, seguida da medida SimGIC.

Alves et al. (2008) e Alves (2010) construíram um modelo de classificação hierárquica

denominado de Multi-Label Hierarchical Classification with an Artificial Immune System

(MHCAIS) o qual utiliza conceitos de um Sistema Imunológico Artificial (SAI). Este

classificador hierárquico tem como objetivo descobrir conhecimento compreensível

representado na forma de regras do tipo se-então.

O autor apresenta duas versões do MHCAIS: global e local. Na versão local é

construído um classificador para cada classe do domínio. Neste classificador, o consequente

das regras descobertas apenas diferencia se um exemplo (instância) pode ou não ser associado

à classe para a qual aquele classificador foi treinado, ou seja, para cada nó da estrutura

hierárquica. Já na versão global um único classificador é gerado para distinguir todas as

classes do domínio da aplicação tratada. Nesta versão, uma ou mais classes são representadas

no consequente.

O algoritmo MHCAIS possui dois procedimentos fundamentais, um para Extração

Sequencial de Regras (Sequential Covering) e outro para Evolução das Regras (Rule

Evolution).

O primeiro procedimento, Extração Sequencial de Regras, é usado em algoritmos de

indução de regras para tratar problemas de predição de uma única classe. O autor, em seu

trabalho, fez modificações no procedimento tradicional para poder ser utilizado na

classificação hierárquica multiclasse.

O segundo procedimento, Evolução das Regras, é específico para algoritmos

evolutivos ou relacionados, incluindo os SIAs baseados no princípio de seleção clonal. Este

procedimento inicia com um conjunto vazio de regras, onde o mecanismo de Evolução de

regras é iterativamente executado. Os anticorpos participam de um processo iterativo

(evolução), cujo objetivo é encontrar as melhores regras (anticorpos) que formarão a solução

(classificador) para o problema. Durante este processo, cada anticorpo é continuamente

avaliado de acordo com sua capacidade de reconhecimento (classificação) dos antígenos da

base de treinamento. Os melhores anticorpos são selecionados e adicionados ao conjunto de

regras descobertas. Em seguida, os exemplos corretamente classificados pelas regras

descobertas na iteração corrente são removidos. A versão global remove exemplos da base de

dados de forma diferente da versão local. A construção do classificador termina quando o

MHCAIS descobre o número de regras necessárias para classificar os exemplos da base de

dados (ALVES, 2010).

No trabalho desenvolvido, o autor compara-se as abordagens propostas (MHCAIS

global e local) com dois algoritmos: PART e Clus, ambos baseados em árvores de decisão que

podem ser transformadas em regras se-então.

Para os experimentos computacionais foram utilizadas 10 bases de dados biológicos,

sendo uma dela construída especificamente para os experimentos apresentados no trabalho. Já

as bases restantes são de domínio público oriundas da GO. Os conjuntos de dados passaram

por uma etapa de pré-processamento onde foram removidos termos da GO pouco frequentes

na base de dados. Este procedimento tem a finalidade de garantir um mínino de suporte

estatístico no treinamento do algoritmo.

Os resultados são apresentados e analisados sob os critérios de correção preditiva com

base na medida-F ou área da curva precisão e revocação e a simplicidade do conjunto de

regras descobertas.

A correção preditiva (taxa de acerto) foi calculada considerando-se a base de teste

(contendo exemplos não vistos durante a fase de treinamento).

Foram avaliadas duas funções de fitness: sensibilidade/especificicade e medida-F. Nos

experimentos realizados o uso da função de fitness medida-F obteve melhor desempenho

preditivo para a versão local e global do MHCAIS.

A avaliação dos resultados dos algoritmos MHCAIS Global/Local com o PART foi

feita considerando o desvio-padrão, testes estatísticos de hipóteses de Wilcoxon. Já entre os

algoritmos MHCAIS global, local e o Clus os critérios considerados para comparação foram a

área da curva de AUPRC, número de regras descobertas e número total de condições

presentes no conjunto de regras, além das análises estatísticas feitas através dos testes de

Friedman e Wilcoxon.

Na comparação entre os resultados obtidos pelo algoritmo nos experimentos, o

MHCAIS global e local foram superior ao algoritmo PART nos critérios de desempenho

preditivo e simplicidade do conhecimento descoberto. Segundo os critérios estatísticos

(desvio-padrão e teste de Wilcoxon) utilizados para análise, a diferença de desempenho foi

significativa, principalmente no critério de simplicidade do conhecimento descoberto.

No comparativo com o algoritmo Clus, as duas versões do MHCAIS foram superadas

no critério de desempenho preditivo (área da curva AUPRC). Porém, segundo o teste de

hipóteses de Friedman, a diferença entre o Clus e o MHCAIS-global não foi significativa.

Já o resultado obtido pelo teste hipóteses de Wilcoxon, a diferença entre MHCAIS e

Clus foi estatisticamente significativa. Considerando o critério do número de regras

descobertas, o MHCAIS global não foi significativamente superior ao Clus segundo os testes

de hipóteses de Friedman, porém o de acordo com teste de Wilcoxon existe diferença

significativa de desempenho.

Em termos de número de condições, o MHCAIS global apresentou resultados

significativamente superiores ao Clus-HMC, de acordo com o teste de Friedman e Wilcoxon.

Porém, apresentou uma perda de desempenho preditivo em relação a simplicidade do

conhecimento extraído dos dados.

Nos experimentos comparativos entre o MHCAIS e Clus-HMC Alves (2010) observou

que possivelmente o modelo desenvolvido é sensível aos atributos previsores contínuos. Esta

hipótese foi cogitada pelo autor uma vez que a única base de dados (dentre 10 bases usadas)

que o MHCAIS foi ligeiramente superior ao Clus, visto que essa é formada por atributos

categóricos (discretos). Deste modo, acredita-se que o método de busca local usado no

trabalho não foi eficiente, embora tenha obtidos melhores resultados do que a versão do

MHCAIS sem busca local. Além disso, de acordo com o autor, observou-se que o Clus-HMC

tem um desempenho melhor com atributos contínuos pela sua capacidade de permitir que um

mesmo atributo previsor ocorra múltiplas vezes na árvore construída. O MHCAIS não permite

tal flexibilidade, pois cada atributo previsor ocorre uma única vez na regra descoberta pelo

Schietgat et al (2010) estenderam o trabalho de Vens et al(2008) construindo um

classificador hierárquico multirrótulo denominado de Clus-HMC-ENS. O algoritmo

desenvolvido por Vens et al (2008) gera uma única árvore que prevê, para um determinado

gene, suas funções biológicas a partir de uma função de classificação. Já o Clus-HMC-ENS

gera um conjunto de árvores. Através dos experimentos pode-se obter um resultado melhor

comparado com o classificador Clus-HMC.

Otero et al. (2009) propôs um classificador hierárquico baseado no algoritmo de

Colônia de Formigas denominado de hant-Miner (hierarchical classification Ant-Miner). A

desvantagem do modelo é que ele não trabalha com classificação hierárquica multirrótulo.

Otero et al (2010) propôs uma extensão do classificador hant-Miner para tratar de

problemas multiclasses denominado hmAnt-Miner (Hierarchical Multi-Label Classification

Ant-Miner). Esse algoritmo descobre um único modelo de classificação global, através de

uma lista de regras se-então, que pode prever todas as classes a partir da hierarquia de uma só

vez. A fim de ter em conta as informações da hierarquia de classes o hmAnt-Miner emprega

uma medida de distância baseada no procedimento de discretização dinâmica dos atributos

contínuos e uma informação heurística na construção do grafo. Assim, a medida de entropia

usada no hant-Miner é substituída pela medida de distância no hmAnt-Miner, que é uma

medida mais adequada para a classificação hierárquica multirrótulo.

Bi & Kwok (2011) desenvolveram um classificador hierárquico que utiliza uma

abordagem de estimativa de dependência de kernel (KDE) para reduzir a quantidade de

classes e transformar o problema multirrótulo em um único rótulo. A estrutura hierárquica é

preservada utilizando um algoritmo chamado de CSSA (Condensing Sort and Select

Algorithm) o qual visa encontrar uma subárvore em uma árvore. Para tratar de problemas

estruturados em DAG os autores criaram o algoritmo CSSAG (CSSA for Graphs), que gera

um subgrafo de um grafo. Assim, nos casos em que um nó tem mais de um nó ancestral é

gerado um subgrafo replicando o nó filho.

4.3 TRABALHOS QUE USAM COMO TÉCNICA REDES NEURAIS E ESTRATÉGIA

EVOLUCIONÁRIA

Jensen et al (2002) utilizaram várias Rede Neurais com uma camada escondida. O

método foi aplicado no esquema de Riley e no esquema de Enzyme Commission (EC), cujas

classes da hierarquia estão distribuídas na forma de árvore. O método desenvolvido utilizava

apenas o primeiro nível da hierarquia, ou seja, o classificador desenvolvido é considerado

plano, pois a hierarquia de classes não foi considerada. Para cada categoria funcional foram

treinadas redes neurais. A avaliação do classificador foi feita utilizando a relação entre

medida de sensibilidade e a taxa de falsos positivos.

Weinert & Lopes (2004) desenvolveram um classificador baseado em uma rede neural

artificial MLP. O classificador foi aplicado em estrutura em árvore definida pela EC, porém,

apenas no primeiro nível da hierarquia. Nesse trabalho, as classes foram consideradas como

um problema de classificação plana, ou seja, a hierarquia de classes não foi considerada. Para

avaliar o modelo os autores utilizaram como medidas a taxa de acerto e precisão e revocação.

Xiao et al. (2007) os autores construíram um classificador hierárquico local, usando

uma rede neural (MLP) para classificar expressão emocional utilizando uma hierarquia com

três níveis de e com 6 classes folhas (que são os tipos de emoção): raiva, tédio, medo, tristeza

alegria e neutro.

Cerri & Carvalho (2011) criaram um classificador local denominado de HMC-LMLP

(Hierarchical Multilabel Classification with Local Multi-Layer Perceptron) que treina uma

rede neural perceptron multi-camadas (MLP), utilizando o algoritmo back-propagation, cada

nível da hierarquia. Essa rede tem uma camada de entrada, uma camada escondida e uma

camada de saída (classes). Após o treinamento de primeira rede, uma nova rede é criada para

o segundo nível hierárquico. Os nós da camada de saída da rede anterior tornam-se a camada

de entrada para esta nova rede, que será responsável para as previsões do segundo nível. Este

procedimento é repetido para todos os níveis hierárquicos. Quando a rede está sendo treinada

para um nível hierárquico, os pesos sinápticos das camadas utilizadas nos níveis anteriores

não são ajustados, porque a sua adaptação já ocorreu anteriormente. Na fase de teste, para

classificar uma nova instância, um limiar é associado a cada camada de saída da rede na

hierarquia. Cada saída (classe) cujo valor é maior ou igual ao seu limiar recebe o valor 1 e 0

caso contrário.

Vale ressaltar que, após a classificação é realizada uma correção de inconsistências

que possam ter ocorrido durante o treinamento. Uma inconsistência ocorre quando uma classe

em um determinado nível é predita, porém o mesmo não ocorre com a sua classe ancestral.

Nessa fase, então, são removidas essas classes preditas, garantindo que apenas predições

consistentes sejam feitas. De acordo com os autores, o HMC-LMLP pode sem aplicado em

problemas multirrótulo. Foram feitos experimentos em 10 bases de dados estruturas em

árvore, conforme o esquema do Funcat. Os resultados foram comparados com os algoritmos

Clus-HMC, Clus-HSC e Clus-SC. Já a avaliação foi feita utilizando curvas de precisão e

revocação e para verificar a significância dos resultados teste de Friedman e Nemenyi foram

aplicados. Os resultados mostram que o HMC-LMLP apresentou resultados superiores aos

classificadores Clus-HSC e Clus-SC em 80% dos casos.

No que se refere a algoritmos de classificação hierárquica usando a estratégia

evolucionária não se encontrou, até o desenvolvimento do trabalho, nenhum algoritmo

utilizando esta técnica, para tratar de problemas estruturados na forma de um DAG.

4.4 CONSIDERAÇÕES SOBRE TRABALHOS UTILIZANDO CLASSIFICAÇÃO

GLOBAL APLICADO EM ESTRUTURAS DAG

Todos os trabalhos comentados, distribuídos nas abordagens de classificação, possuem

suas particularidades, vantagens e desvantagens.

Os trabalhos desenvolvidos por Jensen et al. (2003), Laegreid et al. (2003) e Tu et al.

(2004) os autores desconsideraram a hierarquia das classes, ou seja, o conceito de ancestral e

descendente não foi aplicado. Dessa forma, pode-se dizer que o problema de classificação

hierárquica foi transformado em problema de classificação plana, na qual foram utilizados

algoritmos da classificação convencional.

Já os trabalhos de Barutcuoglu et al (2006), Guan et al (2008) e Jin et al (2008), os

autores criaram um classificador local binário para cada nó. Nos dois primeiros trabalhos, os

autores utilizaram uma rede bayesiana para garantir a hierarquia de classes. Porém, no

contexto de classificação hierárquica local para cada nó, não há nenhuma garantia de que seja

mantida a hierarquia de classes o que pode apresentar resultados não condizentes. Além disso,

se ocorrer um erro em uma classe em um determinado nível, esse pode se propagar para as

classes que estão nos níveis abaixo.

As técnicas de classificação hierárquica Clus-HMC e Clus-HSC desenvolvida por

Vens et al (2008) e o MHCAIS desenvolvida por Alves (2010) apresentam algumas vantagens

sobre as utilizadas por Jensen et al. (2003), Laegreid et al. (2003), Tu et al. (2004) e

Barutcuoglu, Z. et al. (2006), Jin et al 2008 e Guan et al 2008. Primeiro, por se tratar de uma

técnica que implementa a abordagem de classificação hierárquica global onde a hierarquia de

classes é considerada como um todo. Dessa maneira, o modelo de predição construído

considera, simultaneamente, todas as classes da hierarquia.

O algoritmo Clus (VENS et al, 2008), até onde se sabe, foi o primeiro algoritmo de

classificação global, para estruturas do tipo DAG, desenvolvido especificamente para tratar

problemas na área de bioinformática. Por ter sido desenvolvido baseado em uma árvore de

decisão tem como vantagem a produção de modelos que podem ser interpretados por

humanos.

Porém, o método de avaliação desenvolvido pelos autores, curvas AUCPR, utiliza de

N limiares para a sua construção. Esses limiares são definidos em um intervalo de 0 e 1 e são

comparados com a saída do classificador. Se a saída do classificador for maior ou igual ao

valor do limiar considera-se que a classe foi predita. Quanto maior o limiar, maior será o valor

obtido pela medida de precisão e menor o valor obtido pela medida de revocação (menos

classes preditas) e assim, quanto menor o limiar, menor a precisão e maior a revocação (mais

classes preditas).

Realizando este procedimento para cada limiar tem-se N predições e a obtenção do

calculo da medida de precisão e revocação que ao serem interpolados geram a curva. Sendo

assim, generalizando, pode-se dizer que se para obter uma resposta do Clus é necessário

escolher um limiar.

Já o MHCAIS (ALVES, 2010) foi construído utilizando conceitos de um SIA e

extração de regras do tipo se-então.

Comparando as duas técnicas de classificação global observa-se que o Clus-HMC

apresenta melhores resultados, pois através dos experimentos feitos pelos autores, esse foi

capaz de trabalhar melhor com atributos contínuos do que o algoritmo MHCAIS.

O classificador hierárquico desenvolvido por Otero et al (2010) também utiliza regras

se-então utilizando a técnica de colônia de formigas e emprega uma medida de distância para

avaliar o modelo.

Bi & Kowk transformam o problema de classificação hierárquica multirrótulo em um

único rótulo. A hierarquia de classes, de acordo com os autores, é preservada, a classificação

deixa ser multirrótulo o que pode melhorar os resultados dos experimentos. Para avaliar o

resultado do modelo os autores também utilizam as curvas AUCPR e comparam com o Clus-

Embora, particularmente, discorde-se do método de avaliação utilizado pelo algoritmo

Clus, nesta tese será utilizado o mesmo para fazer as comparações com o algoritmo

desenvolvido. Essa escolha deve-se por ser, atualmente, o classificador hierárquico

multirrótulo mais utilizado no estado da arte na comparação de classificadores.

5 CLASSIFICADOR HIERÁRQUICO MULTIRRÓTULO USANDO

UMA REDE NEURAL COMPETITIVA (MHC-CNN)

Neste Capítulo apresenta-se o algoritmo MHC-CNN que tem como objetivo auxiliar

na tarefa de classificação de dados hierárquicos estruturados, principalmente, na forma de um

DAG. Para tal, a Seção 5.1 descreve o algoritmo proposto seguindo os conceitos de uma rede

neural competitiva. Já a Seção 5.2 apresenta uma variação do algoritmo MHC-CNN, no que

se refere ao treinamento da rede neural, denominada de Multilabel Hierarchical Classification

using a Evolutionary Strategical (MHC-ES). Já a Seção 5.3 apresenta as medidas utilizadas

para avaliar o classificador.

5.1 DESCRIÇÃO DO ALGORITMO MHC-CNN

Uma das características de uma rede neural artificial competitiva é a sua habilidade de

realizar mapeamentos que preservam a topologia entre os espaços de entrada e de saída. O

processo de aprendizagem é baseado no aprendizado competitivo, onde os neurônios da

camada de saída competem entre si para serem ativados de forma que apenas um neurônio de

saída será o “vencedor”. Os ajustes dos pesos sinápticos são feitos pelo neurônio que foi

ativado e seus vizinhos.

O algoritmo MHC-CNN (BORGES & NIEVOLA, 2010), (BORGES & NIEVOLA,

2011), (BORGES & NIEVOLA, 20012c) é baseado em uma Rede Neural Artificial

Competitiva. A Figura 26 mostra o modelo da rede neural. Essa rede consiste de duas

camadas de neurônios. A camada de entrada é conectada a um vetor de entrada do conjunto de

dados. O termo “Neurônios de Entrada” definido nesta figura representa todas as instâncias de

entrada.

Cada neurônio na grade é conectado com todos os neurônios da camada de entrada.

São apresentadas as instâncias de entrada à rede, e a cada instância apresentada tem-se uma

região que é atualizada na grade a qual varia de uma instância apresentada para outra. Esses

neurônios (camada de saída) da rede são criados conforme o número de classes que a base de

dados possui.

Os neurônios são estimulados pelos exemplos de entrada durante o processo

competitivo. Dessa maneira, serão considerados “vencedores” aqueles que mais se

assemelham a instância de entrada selecionada. Essa semelhança é feita através da utilização

de medidas de distância.

Assim como em uma rede competitiva tradicional, como por exemplo, a rede de

Kohonen, os neurônios da camada de saída são dispostos em uma grade, a qual pode ser

retangular, hexagonal, entre outras, e que tem como objetivo apresentar a topologia da rede.

No algoritmo MHC-CNN esta topologia tem a estrutura de um grafo acíclico dirigido como

mostra a Figura 27, onde cada neurônio está conectado com seus neurônios ancestrais (pais) e

descendentes (filhos).

Neurônio =

Classe

Camada de Saída

Instâ

Figura 26 – Modelo do MHC-CNN.

Neurônio Vencedor

Neurônio Vizinho

(Ascendente)

Figura 27 – Topologia de Saída do MHC-CNN.

Primeiramente, deve-se determinar a quantidade de épocas ep para o treinamento da

rede neural e a taxa de aprendizagem (inicial i e final f ) a qual irá decrescer

exponencialmente ao longo desse treinamento.

O conjunto de pesos sinápticos é inicializado aleatoriamente. O processo de

treinamento da rede é dividido em três fases, assim como em uma rede competitiva

tradicional: Competição, Cooperação e Adaptação.

Competição

Uma instância ie do conjunto de dados de entrada ]...[ 321 qtrein eeeeBD de

dimensão m é selecionada. Cada elemento de treinBD é formado por atributos,

],...,,[ 21 liiii aaav em que jka é o j -ésimo atributo, lj 1 , 1l é o número de atributos

de entrada e qii 1: , lia representa o atributo classe. Em um problema multirrótulo o

atributo lia é composto por vários rótulos (classes).

A rede neural é criada conforme as informações obtidas nos dados de entrada. Tem-se,

então, a rede neural formada por uma camada. O número de neurônios de entrada é igual ao

número de atributos de entrada. Os neurônios da camada de saída são representados por

]...[ 321 bnnnnRN onde b é o número de classes que existe na hierarquia de classes. Cada

neurônio da camada de saída é constituído de pesos sinápticos ],...,,[ )1(21 iliii pppn em que

)1(1: lii , )1( l é o número de atributos de entrada das instâncias.

Para encontrar o vetor de entrada ie que mais se aproxima do vetor de pesos

sinápticos jn , são utilizadas medidas de distâncias. A medida de distância escolhida foi a

Euclidiana (Equação 43).

A distância Euclidiana é a raiz quadrada da soma dos quadrados das diferenças de

valores para cada atributo.

ijkijik ned Equação 43

em que ie é uma instância de entrada, ijkn é o k-ésimo neurônio da camada de saída, )1( l é

o número de atributos previsores de entrada e k é quantidade de neurônios da camada de

saída.

O próximo passo do algoritmo é identificar o(s) neurônio(s) de saída que apresenta(m)

a(s) menor(es) distância(s) conforme a quantidade de classes alvo que a instância ie possui

(Equação 44). Por exemplo, se ie tem três classes objetivos deve-se identificar os três

neurônios que apresentaram as menores distâncias, pois o objetivo é encontrar o conjunto de

pesos sinápticos que mais se aproxima da instância de entrada selecionada. Dessa forma, tem-

se o(s) neurônio(s) vencedor(s) do processo de competição da época considerada.

)min(arg idnv Equação 44

Considerando que no processo de competição tem-se uma região de vizinhança é

necessário atualizar os pesos sinápticos do neurônio vencedor e de seus vizinhos. No

algoritmo MHC-CNN, o critério de vizinhança é determinado a partir da relação existente

entre o neurônio vencedor e seus ancestrais (pais do neurônio vencedor) e descendentes

(filhos do neurônio vencedor). Estas informações são obtidas por meio do relacionamento

existente na hierarquia de classes.

Assim, o neurônio da rede RN que apresentar a menor distância em relação a

instância de entrada selecionada será considerado o vencedor e estimulará a sua vizinhança

conforme a topologia da rede.

Cooperação

O neurônio vencedor é o neurônio filho na vizinhança topológica o qual tende a

excitar os seus neurônios ancestrais que estão mais próximos do que aqueles que estão mais

distantes. Sendo assim, nessa fase localiza-se a região da vizinhança topológica que terá os

pesos dos neurônios atualizados.

Adaptação

A terceira fase tem como objetivo o processo adaptativo dos pesos sinápticos. Como o

objetivo do treinamento é deixar os vetores de pesos mais próximos das instâncias de entrada,

os pesos dos neurônios precisam ser ajustados para que, posteriormente, haja uma melhor

classificação da instância. Sendo assim, se os rótulos de classe da instância de entrada ie

forem iguais ao do neurônio vencedor os pesos desse serão ajustados de maneira que fiquem

mais próximos da instância ie . Neste caso, tem-se uma predição correta. Já se os rótulos de

classe da instância ie forem diferentes do neurônio vencedor, os pesos desse serão atualizados

para ficarem mais afastados desta instância, pois a classe predita está incorreta. Ou seja,

durante o treinamento, o algoritmo ajusta os pesos do neurônio vencedor e de seus ancestrais,

fazendo a comparação pelo identificador do rótulo de cada instância de entrada com a saída

desejada.

A Equação 45 mostra o cálculo para a atualização dos pesos do neurônio verdadeiro e

do falso vencedor.

contráriocasotDisttAptnten

corretaforclasseasetDisttAptntentn

ijiijk

ijk,))(*)(*))()(((

)),(*)(*))()((()1(

Equação 45

em que ijkn é o peso do atributo do neurônio da camada de saída na iteração )(t entre o

neurônio de entrada (instância) )(tei e o neurônio k .

)(tAp é a taxa de aprendizagem para o instante de tempo )1( t a qual é obtida pela

fórmula apresentada na Equação 46.

*)()( Equação 46

em que i é a taxa de aprendizagem inicial, f é a taxa de aprendizagem final, atualt é a

iteração atual e C é uma constante definida para que a função exponencial decresça

lentamente.

)(tDist é a distância do neurônio vencedor até o seu ancestral que está sendo

atualizado e é obtida pela fórmula mostrada na Equação 47.

)1/(1)( ktDist Equação 47

sendo k a distância (ligações em nós) entre o(s) neurônio(s) vencedor(es) e o(s) neurônio(s)

que terá(ão) seus pesos ajustados.

A atualização dos pesos dos neurônios ancestrais referentes aos neurônios pertencentes

a classe correta e incorreta se dará da mesma maneira apresentada nas equações anteriores

(Equação 45, Equação 46 e Equação 47).

Após as atualizações dos pesos dos neurônios, uma nova instância é selecionada e todo

o procedimento descrito anteriormente se repete até que todas as instâncias sejam

selecionadas. Ao final, tem-se concluído a primeira época da etapa de treinamento.

Novamente, todo o procedimento descrito é repetido até a execução de todas as épocas. Tem-

se então a fase de treinamento concluída.

Na última iteração desta fase obtêm-se o conjunto de pesos sinápticos dos neurônios

que será utilizado na fase de teste do algoritmo. A Tabela 6 apresenta o algoritmo MHC-CNN

de forma simplificada.

O teste do algoritmo é feito de maneira semelhante ao treinamento. Da mesma maneira

que a base de dados de treinamento, a base de dados de teste é formada por instâncias testBD ,

representadas por ]...[ 321 gtest xxxxBD onde g é o total de instâncias de teste. Cada

instância ix é formada por atributos, ],...,,[ 21 liiii aaax em que gii 1: , lia

representa o atributo classe e l é o total de atributos.

Tabela 6 – Passo para o treinamento do algoritmo MHC-CNN.

ENTRADA DO ALGORITMO

- Conjunto de dados de treinamento ]...[ 321 qtrein eeeeBD de dimensão m .

PASSO 1: INICIALIZAÇÃO

- Inicializar a taxa de aprendizagem inicial i e a final f .

- Determinar o número de épocas ep .

- Inicializar os pesos sinápticos da rede: ][ 321 bnnnnRN onde b é o número de

classes que existe na hierarquia de classes.

PASSO 2: CRITÉRIO DE PARADA

- Número de épocas.

PASSO 3: TREINAMENTO

- Selecionar uma instância ie do conjunto de dados de entrada ]...[ 321 qtrein eeeeBD .

FASE COMPETIVA:

- Calcular a distância entre a instância iv com os neurônios da rede ][ 321 bnnnnRN .

- Encontrar o(s) neurônio(s) jn que apresentaram a(s) menor(es) distância(s), os quais

serão considerados vencedores.

FASE COOPERAÇÃO:

- Encontrar os ancestrais do neurônio j .

FASE ADAPTAÇÃO:

- Atualizar os pesos sinápticos do neurônio(s) vencedor(es) e de seus ancestrais:

contráriocasoemtDisttAptntvn

corretaforclasseasetDisttAptntvntn

ijiijk

ijk,))(*)(*))()(((

)),(*)(*))()((()1(

- 1)( tDist se a classe verdadeira for igual a classe predita.

- Calcular a taxa de aprendizagem C

*)()( em que atualt é a iteração

atual e C é uma constante definida para que a função exponencial decresça

lentamente.

PASSO 4: ATUALIZAÇÃO

- Atualizar a taxa de aprendizagem )(tAp .

- Inicia o PASSO 1.

SAÌDA DO ALGORITMO

- Conjunto de pesos considerado adequado.

A Tabela 7 mostra o procedimento de teste do algoritmo. Observa-se que esse é

parecido com o treinamento do algoritmo. A principal diferença é que nesta fase os pesos dos

neurônios da camada de saída são fixos, provenientes da última época da fase de treinamento.

O algoritmo apenas precisa utilizar este conjunto de pesos para testar com a base de dados de

teste.

Tabela 7 – Passos para o teste do algoritmo MHC-CNN.

ENTRADA DE DADOS

- Conjunto de dados de teste testBD , representadas por ]...[ 321 gtest xxxxBD onde g

é o total de instâncias de teste.

PASSO 1: CRITÉRIO DE PARADA

- Até que todas as instâncias tenham sido selecionadas e testadas.

PASSO 3: TESTE

- Selecionar uma instância ix do conjunto de dados de entrada

]...[ 321 gtest xxxxBD .

- Calcular a distância entre a instância ix com os neurônios da rede

][ 321 bnnnnRN .

- Encontrar o(s) neurônio(s) jn que apresentaram a(s) menor(es) distância(s), os quais

serão considerados vencedores.

- Encontrar os ancestrais do neurônio j .

- Comparar predição.

- Atribuir resultado para a matriz de confusão.

SAÍDA DO ALGORITMO

- Taxa de acerto obtido pelo algoritmo.

O procedimento Comparar Predição, no PASSO 3, é o mais complexo desta fase, pois

é a partir desse que se obtém a taxa de acerto do algoritmo. Detalhes sobre como foi feita a

avaliação são descritos na Seção 5.2.

5.2 DESCRIÇÃO DO ALGORITMO MHC-ES

O algoritmo MHC-ES é uma versão modificada do algoritmo MHC-CNN o qual

consiste em treinar a rede neural usando a estratégia evolucionária utilizando a técnica (µ +

A ideia geral desse classificador é utilizar os passos da estratégia evolucionária para a

atualização dos pesos da rede neural, ou seja a mudança de classificador se encontra na fase

de treinamento. Já a fase de teste do algoritmo permanecerá igual ao do classificador MHC-

Ao invés de ser criada uma rede neural, aqui serão criadas N redes o qual chamar-se-á

de indivíduos ou cromossomos conforme o nome usado na técnica original. A Figura 28

mostra um exemplo de um indivíduo criado a partir da hierarquia de classes. O modelo do

algoritmo MHC-ES, formado por N indivíduos é mostrado na

Figura 29.

... ... ... ... ... ... ... ... ...à

Figura 28 – Transformação da Hierarquia de Classes em Indivíduo da ES.

Assim como no MHC-CNN, devem-se determinar alguns parâmetros de entrada. No

MHC-ES determina-se o tamanho da população P , a qual têm seus valores inicializados

aleatoriamente, e a quantidade de gerações G .

Instâ

... ... ... ... ... ... ... ... ...

... ... ... ... ...

... ... ... ... ... ... ... ... ...

... ... ... ...

Indivíduo

Figura 29 – Modelo do MHC-ES.

A população de indivíduos é criada conforme o parâmetro de entrada P bem como a

quantidade de gerações G . Já o tamanho do indivíduo é conforme a quantidade de classes

existentes na hierarquia de classes.

O próximo passo é calcular a distância euclidiana (Equação 43) entre cada instância

de entrada com todos os indivíduos da população. Na sequência, assim como no algoritmo

MHC-ES, obtêm-se a taxa de acerto de cada individuo, ou seja, o fitness de cada indivíduo.

Baseado no fitness, os indivíduos são selecionados através do método da roleta, para

que na sequência possam sofrer a recombinação e a mutação.

A recombinação é calculada da seguinte maneira: dois indivíduos são selecionados

1pai e 2pai . Esses dois indivíduos darão origem a dois indivíduos descendentes 1filho e

2filho . O cálculo da recombinação é mostrado na Equação 48.

))1(*2(*11 cpaicpaifilho

cpaicpaifilho *2))1(*1(2

Equação 48

em que c é uma constante.

Posteriormente, esses indivíduos sofrerão a mutação. O tipo de mutação utilizado foi

mostrado na Equação 7 na Seção 2.2.2.

5.3 MEDIDAS DE AVALIAÇÃO

Três abordagens de medidas de avaliação foram utilizadas para reportar o desempenho

preditivo das amostras: medida de distância dependente de profundidade, medida baseada nas

relações de ancestralidade e descendência e a curva de precisão e revocação. A escolha por

essas medidas está em avaliar o resultado da classificação de diferentes maneiras.

5.3.1 Medida Baseada em Distância Dependente de Profundidade

Quando se avalia o resultado de uma predição hierárquica três situações podem

ocorrer: a predição pode ser correta, parcialmente correta ou incorreta.

Para um melhor entendimento de cada destas situações, de como foi feita a avaliação e

quais foram o critérios adotados, até o presente momento, será exemplificado cada uma das

situações.

i) Predição Correta

Considera-se como correta duas possibilidades de predição. A primeira possibilidade

ocorre em casos onde o algoritmo acerta totalmente o caminho de predição e a classe predita é

igual à classe verdadeira como mostrada na Figura 30.

6 7 8 9

11 1210

Classe verdadeira

Classe predita

Figura 30 - Exemplo de Predição Correta – 1ª Possibilidade.

A segunda possibilidade de predição ocorre quando o algoritmo ao predizer uma

determinada classe se torna muito específico. A Figura 31 mostra esta possibilidade em que a

classe verdadeira é representada pelo nó “9” no DAG, porém, o algoritmo faz a predição

como sendo a classe representada pelo nó “15”. Neste caso também considera-se como

predição correta.

ii) Predição Parcialmente Correta

Um exemplo de predição parcialmente correta é mostrado na Figura 32. Neste caso, a

classe verdadeira é representada pelo nó “14” no DAG, porém, o algoritmo faz a predição

como sendo a classe representada pelo nó “2”. Observa-se que o nó predito é pai do nó

verdadeiro. Embora o algoritmo esteja no caminho correto de predição essa ocorre antes de

encontrar a classe verdadeira no grafo. Sendo assim, pode dizer que a predição foi

parcialmente correta, pois o algoritmo estava no caminho correto de predição apenas essa

ocorreu antes.

Para a avaliação deste tipo de situação, atribui-se um acerto parcial baseado na

distância em nós da classe predita até a classe verdadeira em relação a máxima distância

possível.

6 7 8 9

11 1210

Classe verdadeira

Classe predita

Figura 31 - Exemplo de Predição Correta – 2ª Possibilidade.

Uma instância predita cuja classe está em níveis mais altos tende a ser mais fácil a sua

classificação do que uma classe que está em níveis mais profundos. Dessa maneira, para

avaliar o algoritmo atribui-se pesos para a predição. Esses pesos são gerados de forma linear

baseado no nível da classe, ou seja, classes em níveis mais próximos da raiz terão pesos

maiores do que as classes em níveis mais profundos.

6 7 8 9

11 1210

Classe verdadeira

Classe predita

Caminhos

Menor Caminho

Figura 32 - Exemplo de Predição Parcialmente Correta.

Como uma hierarquia, em seu caso mais complexo, é um grafo acíclico dirigido em

que um nó pode ter vários nós ancestrais, adotou-se o critério de menor caminho para avaliar

o resultado da predição. Para a avaliação parcial dessa predição, primeiramente, verifica-se

quais os caminhos possíveis entre a classe predita e a classe verdadeira, pois em um grafo

pode existir vários caminhos de um nó a outro. Utilizando o critério de menor caminho

define-se qual caminho será avaliado e atribuído pesos para as classes, baseado em seus

níveis. Assim, o menor caminho no exemplo é entre as classes 2à6à14. Considerando que,

neste caminho, a classe predita está no primeiro nível e a verdadeira no terceiro nível atribui-

se pesos inversamente proporcionais aos níveis das classes, ou seja, a classe “2” passa a ter

um peso 3 vezes maior que a classe “14”. A Equação 49 mostra o calculo que é feito nessa

etapa.

1...21 nppp Equação 49

em que p é o peso e n é a quantidade de níveis existentes no menor caminho. A taxa de acerto

da predição é a soma dos pesos das classes preditas corretamente, ou seja, a classe predita e a

as suas classes ancestrais. Aplicando na fórmula tem-se 16,0p . Assim, o peso da classe

“14” é 0,16, da classe “6” é 0,33 e da classe “2” 0,5. Logo, a taxa de acerto dessa amostra será

iii) Predição Incorreta

Uma predição é considerada incorreta nos casos onde o algoritmo erra o caminho de

predição como mostrado na Figura 33. Observa-se que a classe verdadeira está representada

pelo nó “13” no DAG, porém, o algoritmo prediz incorretamente como sendo o nó “7”.

6 7 8 9

11 1210

Classe verdadeira

Classe predita

Figura 33 - Exemplo de Predição Incorreta.

5.3.2 Medida Baseada na Relação de Ancestralidade

A medida utilizada baseada nas relações de ancestralidade utilizada foi desenvolvida

por Kiritchenko et.al. (2004) é citada na Seção 3.4.3 através da Equação 31 e Equação 32.

Considerando o exemplo de hierarquia mostrado na Figura 34, obtêm os seguintes dados:

Ancestrais da Classe Predita (incluindo a própria classe): 7, 2, 3.

Ancestrais da Classe Verdadeira (incluindo a própria classe): 14, 4, 1, 6, 2, 11, 7,

12, 8, 3.

Intersecção das Classes Predita e Verdadeira: 7,2, 3.

Assim, a medida de sensibilidade hierárquica será igual a 3,0Sh e a medida e

precisão hierárquica será igual a 1Ph .

6 7 8 9

11 1210

Classe verdadeira

Classe predita

Figura 34 – Exemplo de Medida baseada na Hierarquia.

5.3.3 Medida Baseada na Curva de Precisão e Revocação

Esta medida funciona conforme citado na Seção 3.4.4, em que um conjunto de

limiares entre 0 e 1 são selecionados. Cada limiar corresponde a um ponto no espaço da curva

PR e variando esses limiares obtêm-se a curva PR.

Os resultados fornecidos pelos scripts do algoritmo Clus utilizam a seguinte sintaxe:

T(valor), em que valor é um número inteiro como, por exemplo, T(20) que corresponde ao

limiar 0.2.

Os limiares definidos como padrão do script iniciam em 0 e tem um incremento de

0,02 até o último limiar que é igual a 1, totalizando assim 51 limiares.

Para facilitar a comparação entre os resultados dos algoritmos será padronizando a

representação do limiar conforme o exemplo apresentado.

6 EXPERIMENTOS

Neste Capítulo são apresentados os experimentos realizados e os resultados obtidos

com os classificadores propostos, MHC-CNN e HMC-ES, investigando sua eficiência em

relação a outros algoritmos da literatura. A Seção 6.1 faz uma breve descrição sobre os

experimentos iniciais que foram feitos utilizando conjunto de dados estruturados na forma de

árvore. A Seção 6.2 descreve as bases de dados utilizadas para a realização dos experimentos.

A Seção 6.2 apresenta a metodologia usada para o desenvolvimento dos experimentos. Na

Seção 6.3 são apresentados os resultados obtidos com os experimentos realizados. Por fim, a

Seção 6.4 apresenta um comparativo geral dos resultados obtidos.

6.1 EXPERIMENTOS INICIAIS

Para a realização dos experimentos iniciais foram utilizadas 8 bases de dados do

Funcat, as mesmas utilizadas por Holden & Freitas (2009). Essas são bases de dados

estruturadas em árvore e possuem apenas um atributo meta. Devido a está característica, os

classificadores foram primeiramente desenvolvidos para tratar de problema simples rótulo os

quais foram denominados de Hierarchical Classification using a Competitive Neural Network

(HC-CNN) (BORGES & NIEVOLA, 2012a), (BORGES & NIEVOLA, 2012b) e Hierarchical

Classification using Evolutionary Strategical (HC-ES).

Como o objetivo do trabalho é utilizar bases de dados estruturados em DAG, a

metodologia dos experimentos bem como os resultados e comparações com outros algoritmos

são apresentados no Apêndice A.

6.2 BASES DE DADOS

Para a realização dos experimentos foram utilizadas dez bases de dados GO. Essas

bases são as mesmas utilizadas por Vens et. al (2008), Alves et. al (2010), Otero et al. (2011).

A Tabela 8 apresenta algumas características dessas bases as quais podem ser encontradas em

http://www.cs.kuleuven.be/~dtai/clus/hmcdatasets.

Com o objetivo de melhor descrever a origem dos dados das bases de dados, a Tabela

9 faz uma breve descrição apresentando tais informações.

Tabela 8 – Características das Bases de Dados GO.

Base de Dados Quant.

Amostras

Quant.

Atributos

Quant.

Classes

Quant.

Níveis

Quant.

Min/Max

Classes por

Amostras

Quant.

Min/Max

Amostras

por Classe

Cellcycle (SPELLMAN et al., 1998) 3751 77 4125 13 3/28 0/785

Church (ROTH et al., 1998) 3749 27 4125 13 3/28 0/786

Derisi (DERISI et al, 1997) 3719 63 4119 13 3/28 0/781

Eisen (EISEN et al., 1998) 2418 79 3573 13 3/28 0/492

Expr (CLARE, 2003) 3773 551 4131 13 3/28 0/789

Gasch1 (GASCH et al., 2000) 3758 173 4125 13 3/28 0/786

Gasch2 (GASCH et al., 2001) 3773 52 4131 13 3/28 0/789

Pheno (CLARE, 2003) 1586 69 3127 13 3/21 0/388

Seq (CLARE, 2003) 3900 478 4133 13 3/28 0/791

Spo (CHU et al., 1998) 3697 80 4119 13 3/28 0/775

Tabela 9 – Informações sobre as Bases de Dados GO.

Base de Dados Origem dos Dados Tipos de Dados

Cellcycle

Dados biológicos de expressão gênica,

obtidos pela técnica de microarranjo.

Atributos numéricos e alguns faltantes.

Church Atributos numéricos, um categórico e

alguns faltantes.

Derisi Atributos numéricos.

Eisen Atributos numéricos e alguns faltantes.

Gasch1 Atributos numéricos e alguns faltantes.

Gasch2 Atributos numéricos e alguns faltantes.

Spo Atributos numéricos e alguns faltantes.

Concatenação das bases de dados de

expressão gênica, obtidas pela técnica de

microarranjo.

Atributos numéricos e alguns faltantes.

Informações referentes ao fenótipo de

leveduras mutantes. Certos genes são

desativados ou removidos para que se possa

avaliar o comportamento do organismo a

este procedimento. Os dados foram

extraídos das fontes EUROFAN (OLIVER,

1996), MIPS (MEWES et al., 1999) e

TRIPLES (KUMAR et al., 2000).

Atributos categóricos.

Dados estatísticos da sequência de

aminoácidos na construção dos atributos

previsores. Dentre as características, pode-se

citar: taxa de aminoácidos, tamanho da

sequência, peso molecular. Alguns dos

atributos foram obtidos através do programa

ProtParam e outros do MIPS.

Atributos numéricos, discretos e alguns

faltantes.

6.3 METODOLOGIA UTILIZADA PARA A REALIZAÇÃO DOS EXPERIMENTOS

Basicamente a metodologia utilizada para a realização dos experimentos é formada

por três etapas principais: pré-processamento, classificação hierárquica e a avaliação dos

resultados obtidos conforme pode ser visualizado na Figura 35. Na sequência é descrita

detalhadamente cada umas dessas etapas.

6.3.1 Pré-Processamento das Bases de Dados

Nesta etapa vários ajustes foram feitos para que fosse possível a utilização das bases

de dados no classificador hierárquico proposto. Os passos realizados nesta etapa são

mostrados na Figura 36.

Processamento

Classificação

HierárquicaAvaliação

Base de

Metodologia

Figura 35 – Metodologia para Realização dos Experimentos.

Pré-Processamento

Imputação de Valores

Transformação de Valores

Normalização dos Dados

Conjuntos de Dados

Completa

TreinamentoOntologia

Por Limiar

Figura 36 – Etapa de Pré-Processamento.

Transformação dos Valores

Esse passo consiste na transformação dos valores dos atributos das bases de dados de

categóricos para valores contínuos. Isto é necessário porque redes neurais não trabalham com

dados categóricos. Essa transformação foi feita atribuindo valores sequências (1, 2, 3,...) para

os atributos categóricos.

Imputação dos Valores

Várias amostras dos conjuntos de dados possuem valores faltantes. Sendo assim, foi

necessária a imputação desses valores.

A imputação de valores pode permitir uma melhor eficiência do algoritmo. Porém,

uma imputação errada pode gerar mais problemas do que os resolver. Para isso, existem

várias técnicas que podem ser usadas nesse processo, tais como: substituir os valores faltantes

por uma constante, substituir os valores faltantes pela média, pelo valor mais comum, entre

vários outros.

O critério usado para imputar os valores ausentes foi calcular a média aritmética de

todos os ancestrais mais próximos da classe à qual pertence a amostra. Nas amostras

multirrótulos é feita a média aritmética também sobre a quantidade de rótulos da amostra.

Normalização dos Dados

Após a transformação e a imputação dos valores foi feita a normalização desses dados.

A técnica utilizada foi a Min-Max, Equação 50. Essa técnica faz a transformação linear dos

valores v de um atributo a de modo a mapear os valores mínimo e máximo originais, amin e

amax para valores mínimo e máximo da nova escala.

minmax

Equação 50

Conjuntos de Dados

Vários experimentos foram feitos com diferentes formatações das bases de dados.

Todas as bases de dados foram divididas entre conjunto de treinamento e teste. Para isso

dividiu-se todas as bases de dados criadas no passo anterior em 2/3 do conjunto para o

treinamento do algoritmo e 1/3 para o teste.

Base de Dados Completa

Essa formatação refere-se as bases de dados com originais, apenas com os valores

faltantes imputados. Vale ressaltar que a hierarquia com todas as classes foram usadas.

Base de Dados Separadas por Ontologias

Nesse tipo de formatação, para cada um dos dez conjuntos de dados foram divididos

nas três ontologias: componente celular, função molecular e processo biológico. A Tabela 10

mostra as características das bases de dados após essa divisão.

Base de Dados com Exemplos Removidos conforme um Limiar

Foi feita uma análise da quantidade de exemplos que cada classe da hierarquia possui,

visto que se uma determinada classe tiver poucos exemplos esses poderão atrapalhar o

processo de aprendizagem do algoritmo. Observou-se que nas bases de dados havia classes

com poucas quantidades de instâncias. Sendo assim, foram estabelecidos limiares referentes à

quantidade mínima de instâncias que cada classe deveria ter levando em consideração

também as suas classes ancestrais. A partir desses limiares foram removidos classes dos

exemplos que estivesse abaixo desses valores.

Tabela 10 – Características das Bases de Dados Separadas por Ontologias.

Bases de

Dados Ontologias

Quant.

Amostras

Quant.

Classes

Quant.

Níveis

Quant. Min/Max

Classes por Amostras

Quant. Min/Max

Amostras por Classes

Cellcycle

CC 3751 547 9 1/9 0/785

FM 3751 1544 13 1/8 0/603

PB 3751 2034 13 1/20 0/263

Church

CC 3749 547 9 1/9 0/786

FM 3749 1544 13 1/8 0/602

PB 3749 2034 13 1/20 0/264

Derisi

CC 3719 547 9 1/9 0/781

FM 3719 1539 13 1/8 0/591

PB 3719 2033 13 1/20 0/259

CC 2418 517 9 1/9 0/492

FM 2418 1283 13 1/8 0/220

PB 2418 1773 13 1/20 0/212

CC 3773 547 9 1/9 0/789

FM 3344 1546 13 1/8 0/608

PB 3773 2038 13 1/20 0/264

Gasch1

CC 93 547 9 1/2 0/786

FM 3758 1544 13 1/8 0/604

PB 3758 2034 13 1/20 0/264

Gasch2

CC 3773 547 9 1/9 0/789

FM 3773 1544 13 1/8 0/608

PB 3773 2038 13 1/20 0/264

CC 1586 462 9 1/7 0/388

FM 1586 1047 13 1/5 0/258

PB 1586 1618 12 1/14 0/112

CC 3900 547 9 1/9 0/791

FM 3900 1546 13 1/8 0/615

PB 3900 2040 13 1/20 0/269

CC 3697 547 9 1/9 0/775

FM 3697 1539 13 1/8 0/590

PB 3697 2033 13 1/20 0/258

Fizeram-se experimentos com vários limiares tais como 150, 200, 300 entre outros.

Após uma análise das características desses novos conjuntos, observou que com limiares

iguais a 150 e a 200 havia pouca diferença na característica dos conjuntos. Dessa maneira,

optou-se por fazer o treinamento nos conjuntos de dados com o limiar igual a 300.

A Tabela 11 mostra a características desses novos conjuntos de dados que tiveram

alterações após esse pré-processamento. Observa-se que houve uma diminuição na quantidade

de amostras nas Bases de dados Eisen e Pheno. Além disso, em todos os conjuntos de dados

houve uma grande redução na quantidade mínima e máxima de classes por amostra. As outras

características que foram apresentadas na Tabela 8 não serão mostradas nesta tabela porque os

dados permaneceram os mesmos. Essas bases estão disponíveis

http://www.ppgia.pucpr.br/~nievola/BasesDadosHelyane/.

Tabela 11 – Características das Bases de Dados GO conforme o Limiar.

Base de Dados Quant.

Amostras

Quant. Min/Max

Classes por Amostras

Cellcycle (SPELLMAN et al., 1998) 3751 1/15

Church (ROTH et al., 1998) 3749 1/15

Derisi (DERISI et al, 1997) 3719 1/13

Eisen (EISEN et al., 1998) 1485 1/4

Expr (CLARE, 2003) 3773 1/15

Gasch1 (GASCH et al., 2000) 3758 1/15

Gasch2 (GASCH et al., 2001) 3773 1/15

Pheno (CLARE, 2003) 984 1/4

Seq (CLARE, 2003) 3900 1/16

Spo (CHU et al., 1998) 3697 1/13

6.3.2 Classificação Hierárquica

Os algoritmos de classificação hierárquica que foram selecionados para a realização

dos experimentos estão citados na Figura 37. Todos os conjuntos de dados foram submetidos

as esses classificadores. Os parâmetros do MHC-CNN foram a taxa de aprendizagem inicial

)( i igual 0,1, a taxa de aprendizagem final )( f igual a 0,001 e a constante C igual a 100. Já

para o MHC-ES foi estabelecida uma população )(P com 50 indivíduos e a constante c com

valor igual a 0,7. Quanto aos classificadores Clus-HSC e Clus-HMC foram utilizados os

parâmetros padrões dos algoritmos.

6.3.3 Avaliação Estatística

A avaliação dos resultados obtidos pelos classificadores foi feita utilizando o teste de

hipótese de Friedman (FRIEDMAN, 1937, 1940). Esse teste é indicado para comparar o

desempenho de vários algoritmos em diferentes bases de dados. O teste é sugerido por ser não

paramétrico, haja vista a dificuldade de se conhecer a distribuição dos dados.

Segundo os autores Iman e Davenport (1980) o teste de Friedman é considerado

muito conservador, e por tal motivo, sugere o uso da estatística FF distribuída de acordo com

a distribuição F de Snedecor.

Classificação Hierárquica

MHC-CNN

MHC-ES

Clus-HSC e

1.0i01.0f

P = 50

Figura 37 – Etapa de Classificação Hierárquica

Para a análise de quais algoritmos têm diferença significativa de desempenho,

Demsar (2006) sugere o teste de Nemenyi, que calcula a distância crítica entre os

desempenhos, o qual foi usado nestas situações dentro desta tese.

6.4 RESULTADOS EXPERIMENTAIS

Esta Seção será dividida conforme foi feito o processamento das bases de dados, ou

seja, serão apresentados os resultados obtidos com a base de dados completa, a base separada

nas três ontologias e por fim as bases com as instâncias removidas conforme o limiar

estabelecido.

6.4.1 Resultados Bases de Dados Completa

Nesta Seção serão apresentados os resultados obtidos pelos classificadores MHC-CNN

e MHC-ES. A Figura 38 apresenta os resultados obtidos com a execução do MHC-CNN, com

50, 500 e 1000 épocas, nas dez bases de dados usando duas medidas de avaliação: distância e

Medida-Fh, conforme citadas nas seções 3.4.1.2 e 3.4.3, respectivamente. Observa-se um

resultado maior usando a medida de distância em todas as bases de dados. Uma possível causa

da medida de distância apresentar resultados melhores deve-se ao grande número de predições

ocorridas em níveis mais próximos da raiz.

A Figura 39 apresenta os resultados obtidos com o algoritmo MHC-ES. Nota-se que a

medida de distância também apresentou resultados superiores que a medida-Fh. Embora

tenham sido feito experimentos com diversos valores para a geração de indivíduos, apenas

serão apresentados resultados das execuções com 20, 60 e 100 gerações.

Figura 38 – Resultados do MHC-CNN na Base de Dados Completa.

Figura 39 - Resultados do MHC-ES na Base de Dados Completa.

6.4.2 Resultados Bases de Dados com Exemplos Removidos conforme Limiar

A Figura 40 apresenta o resultado obtido com o MHC-CNN em três diferentes épocas

nas bases de dados com Limiar igual a 300.

Figura 40 – Resultado do MHC-CNN na Base de Dados com Limiar 300.

A Figura 41 apresenta o resultado obtido com o MHC-ES nas bases de dados com

Limiar igual a 300 com 20, 60 e 100 gerações.

Figura 41 - Resultado do MHC-ES na Base de Dados com Limiar 300.

6.4.3 Resultados Bases de Dados Separadas por Ontologias

Nesta Seção serão apresentados os resultados obtidos pelos classificadores MHC-CNN,

MHC-ES, Clus-HMC e Clus-HSC nas três ontologias. Apesar de terem sido feitos diversos

experimentos serão mostrados apenas os resultados obtidos com a execução de 50, 500 e 1000

épocas.

A Figura 42 apresenta os resultados obtidos na base de dados da ontologia Componente

Celular. Nota-se que a medida de distância obteve uma taxa de acerto maior que a medida-Fh

em ambas as épocas.

A Figura 43 mostra os resultados obtidos na base de dados da ontologia Função

Molecular. Observa-se que as taxas de acerto de ambas as medidas foram inferiores do

resultado comentado anteriormente. O mesmo ocorreu nos resultados obtidos na base de

dados da ontologia Processo Biológico, conforme pode ser visualizado na Figura 44.

Uma das causas dessa variação entre as bases de dados das três ontologias deve-se à

quantidade de classes. Observa-se que todas as dez bases de dados pertencentes à ontologia

Componente Celular possuem uma quantidade de classes inferior às demais ontologias. Além

disso, a quantidade máxima de classes que uma instância possui nessa ontologia são nove

classes. As duas observações feitas facilitam o treinamento do modelo fazendo com que o

classificador consiga predizer melhor os dados.

Figura 42 – Resultados do MHC-CNN na Ontologia Componente Celular.

Figura 43 – Resultados do MHC-CNN na Ontologia Função Molecular.

Figura 44 – Resultados do MHC-CNN na Ontologia Processo Biológico.

Para a execução de experimentos com o algoritmo MHC-ES foram selecionandos

vários valores para as gerações. Aqui serão apresentados os resultados de três diferentes

gerações, tais quais iguais a 20, 60 e 100.

A Figura 45 apresenta o resultado obtido na base de dados da ontologia Componente

Celular. Observa-se que os resultados obtidos foram próximos aos obtidos pelo MHC-CNN.

A Figura 46 mostra os resultados obtidos na base de dados da ontologia Função

Molecular. A Figura 47 mostra os resultados obtidos na base de dados da ontologia Processo

Biológico.

Figura 45 - Resultados do MHC-ES na Ontologia Componente Celular.

Figura 46 - Resultados do MHC-ES na Ontologia Função Molecular.

Figura 47 - Resultados do MHC-ES na Ontologia Processo Biológico.

6.5 COMPARAÇÃO DOS RESULTADOS

Nesta Seção serão apresentadas as comparações dos resultados obtidos pelos

classificadores desenvolvidos: MHC-CNN e MHC-ES e os classificadores desenvolvidos por

Vens et. al (2008): Clus-HMC e Clus-HSC.

6.5.1 Comparativo entre MHC-CNN e MHC-ES

Nesta seção serão apresentados os comparativos feitos entre os algoritmos MHC-

CNN e MHC-ES utilizando o teste de Friedman para avaliar estatisticamente os resultados

obtidos através da medida de distância e da medida-Fh da base de dados completa, da base de

dados com limiar 300 e das bases separadas por ontologias.

6.5.1.1 Base de Dados Completa

A Tabela 12 mostra os resultados dos dois algoritmos, já ilustrados na Seção 6.4.1

quando utilizado a medida de distância. Após o cálculo dos postos médio e aplicando nesses

dados a Equação 40, têm-se 96,62 FX . Em seguida, usando a estatística FF para a correção

FX , conforme a Equação 41, tem-se como resultado 5,1FF .

Para os graus de liberdade 1k e )1(*)1( nk em que 10k e 6n , encontra-se

o seguinte valor tabelado na distribuição F de Snedecor tem-se 09,2)45;9( F . Assim,

)45;9(FFF logo a hipótese nula não pode ser rejeitada, indicando que não há diferença

estatística entre os resultados dos algoritmos comparados.

Tabela 12 – Comparativo entre o MHC-CNN e o MHC-ES usando a medida de

distância.

MHC-CNN (em épocas) MHC-ES (em gerações)

50 500 1000 20 60 100

Cellcycle 26,5% 27,3% 27,5% 17,8% 17,2% 17,3%

Church 28,2% 26,8% 23,7% 27,1% 24,8% 29,5%

Derisi 24,3% 25,1% 24,5% 22,0% 23,6% 25,5%

Eisen 27,8% 28,1% 26,8% 16,0% 19,1% 17,6%

Expr 31,9% 31,9% 31,8% 19,8% 19,9% 17,0%

Gasch1 30,0% 29,0% 29,6% 15,5% 15,7% 22,2%

Gasch2 26,6% 25,6% 26,1% 22,1% 15,8% 17,1%

Pheno 21,5% 23,7% 24,9% 35,6% 25,9% 25,4%

Seq 21,5% 30,8% 31,2% 21,6% 20,7% 21,5%

Spo 24,6% 24,8% 24,4% 27,1% 25,8% 32,5%

Os resultado referentes a medida-Fh, em ambos os algoritmos, também já ilustrados

na Seção 6.4.1, são mostrados na Tabela 13. Após o cálculo dos postos médio têm-se

7,282 FX e 1,12FF .

Para os mesmos graus de liberdade tem-se 09,2)45;9( F do resultado anterior

determina-se que a hipótese nula pode ser rejeitada, indicando que há diferença estatística

entre os resultados dos algoritmos.

Tabela 13 – Comparativo entre o MHC-CNN e o MHC-ES usando a medida-Fh.

50 500 1000 20 60 100

Cellcycle 19,0% 18,8% 19,2% 9,6% 7,9% 8,2%

Church 21,6% 18,2% 16,6% 14,9% 13,6% 14,1%

Derisi 16,1% 17,0% 17,5% 11,8% 12,2% 14,9%

Eisen 21,0% 21,0% 20,8% 8,1% 10,9% 10,3%

Expr 24,8% 25,0% 25,2% 10,8% 11,1% 9,3%

Gasch1 22,4% 21,9% 22,1% 7,9% 8,0% 12,4%

Gasch2 18,8% 18,3% 18,6% 13,4% 8,7% 8,8%

Pheno 13,9% 15,7% 15,2% 21,7% 14,2% 13,7%

Seq 13,9% 24,3% 24,6% 12,7% 11,6% 12,0%

Spo 17,2% 17,6% 17,6% 13,6% 13,3% 18,4%

Rejeitada a hipótese nula, deve-se identificar quais algoritmos possuem diferenças

significativas de desempenho considerando a distância crítica (CD), calculada através da

Equação 42.

Considerando o nível de significância de 95% tem-se o valor de 1,12CD .

Considerando os dados da Tabela 13, o algoritmo MHC-CNN, nos três casos selecionados

(50, 500 e 1000 épocas) é estatisticamente superior aos resultados do algoritmo MHC-ES

apenas com a seleção de 20 e 60 gerações.

6.5.1.2 Base de Dados com Limiar igual a 300

A Tabela 14 apresenta um comparativo entre os algoritmos MHC-CNN e MHC-ES

quando aplicado nas bases de dados com limiar igual a 300.

Analisando estatisticamente através do Teste de Friedman e aplicando nesses dados a

Equação 40, têm-se 53,32 FX , 7,0FF e 09,2)45;9( F graus de liberdade. Como,

)45;9(FFF a hipótese nula não pode ser rejeitada, indicando que não há diferença estatística

entre os resultados dos algoritmos comparados.

Tabela 14 - Comparativo entre o MHC-CNN e o MHC-ES usando a medida de

distância.

50 500 1000 20 60 100

Cellcycle 26,4% 26,1% 27,2% 10,9% 33,3% 11,7%

Church 26,0% 28,5% 27,2% 31,1% 32,3% 31,4%

Derisi 24,4% 24,8% 26,9% 30,8% 26,7% 26,4%

Eisen 57,3% 59,1% 63,9% 17,3% 32,8% 27,6%

Expr 30,5% 31,6% 32,5% 19,8% 19,9% 17,0%

Gasch1 28,6% 29,1% 29,2% 28,0% 18,6% 27,4%

Gasch2 25,9% 25,8% 26,6% 12,8% 14,4% 28,1%

Pheno 53,9% 55,1% 38,6% 44,2% 41,9% 52,7%

Seq 31,5% 31,6% 31,5% 21,6% 20,7% 21,5%

Spo 28,2% 28,9% 28,0% 34,5% 32,3% 34,0%

Realizando o mesmo procedimento dos resultados obtidos pela medida-Fh, em

ambos os algoritmos, tem-se a comparação ilustrada na Tabela 15.

Nesse caso observa-se que existe diferença estatística entre os resultados dos dois

algoritmos. Para os mesmos graus de liberdade tem-se 09,2)45;9( F , 2,382 FX e 0,29FF .

Assim, )45;9(FFF indicando que a hipótese nula deve ser rejeitada.

Tabela 15 - Comparativo entre o MHC-CNN e o MHC-ES usando a medida-Fh.

50 500 1000 20 60 100

Cellcycle 19,8% 19,0% 19,9% 5,8% 17,2% 6,6%

Church 18,3% 20,2% 20,6% 15,3% 17,8% 14,9%

Derisi 17,1% 17,5% 18,4% 16,6% 13,6% 15,9%

Eisen 52,8% 55,1% 58,4% 9,6% 15,3% 12,1%

Expr 24,6% 25,1% 26,1% 10,8% 11,1% 9,3%

Gasch1 19,7% 18,6% 19,3% 14,0% 9,7% 14,9%

Gasch2 19,6% 18,6% 19,3% 6,8% 7,2% 18,6%

Pheno 45,6% 48,6% 32,9% 24,5% 25,8% 25,8%

Seq 26,2% 26,2% 25,9% 12,7% 11,6% 11,7%

Spo 21,6% 22,5% 20,7% 18,3% 17,6% 19,5%

Rejeitada a hipótese nula, identificam-se quais algoritmos possuem diferenças

significativas de desempenho considerando a distância crítica (CD) cujo resultado é

38,2CD , considerando o nível de significância de 95%. Considerando os resultados

apresentados nota-se que o algoritmo MHC-CNN (nas três épocas selecionadas) é superior ao

algoritmo MHC-ES em todas as gerações.

6.5.1.3 Bases de Dados Separadas por Ontologias

Como sabe-se as base de dados GO são formadas por três ontologias e é dessa

maneira que os resultados obtidos serão mostrados. Nesta Seção serão apresentados os

resultados obtidos da ontologia Componente Celular. Os resultados das duas outras

ontologias: Função Molecular e Processo Biológico serão mostrados no Apêndice B.

A Tabela 16 mostra os resultados dos dois algoritmos, já ilustrados na Seção 6.4.3

quando utilizada a medida de distância.

Recalculando os valores para as equações utilizadas no teste de Friedman tem-se

66,102 FX e 4,2FF . Conforme o valor tabelado para os graus de liberdade 9 e 45 na

distribuição F de Snedecor encontra-se o valor crítico de 09,2)45;9( F . Deste modo a

hipótese nula é rejeitada, )45;9(FFF indicando que há diferença significativa entre os

resultados dos algoritmos.

Tabela 16 – Comparativo entre o MHC-CNN e o MHC-ES usando a medida de distância

na Ontologia Componente Celular.

50 500 1000 20 60 100

Cellcycle 80,5% 79,8% 80,6% 71,3% 80,0% 81,4%

Church 73,7% 73,8% 73,8% 85,6% 86,2% 85,4%

Derisi 82,4% 83,5% 81,7% 84,6% 85,1% 84,8%

Eisen 84,7% 82,0% 82,5% 82,8% 78,3% 73,8%

Expr 85,7% 83,4% 83,7% 72,9% 85,5% 83,5%

Gasch1 74,9% 72,5% 82,3% 82,2% 83,6% 79,9%

Gasch2 79,0% 80,5% 80,6% 85,4% 82,4% 86,7%

Pheno 69,5% 80,7% 76,5% 86,2% 86,0% 84,9%

Seq 85,9% 81,3% 82,3% 85,0% 85,0% 84,9%

Spo 78,3% 77,1% 82,5% 86,0% 85,5% 58,6%

Rejeitada a hipótese nula, identificam-se quais algoritmos possuem diferenças

significativas de desempenho considerando a distância crítica (CD), calculada através da

Equação 42.

Considerando os dados da Tabela 16, o algoritmo MHC-ES, com 60 gerações, é

estatisticamente superior aos resultados do algoritmo MHC-CNN com a execução de 500

épocas.

A Tabela 17 mostra os resultados dos dois algoritmos, também já ilustrados na Seção

7.3.3 quando utilizado a medida-Fh.

Calculando os valores para as equações utilizadas no teste de Friedman tem-se

)45;9(FFF logo a hipótese nula pode ser rejeitada, indicando que há diferença estatística

Considerando os dados da Tabela 17, o algoritmo MHC-CNN, nos três casos selecionados

(50, 500 e 1000 épocas) é estatisticamente superior aos resultados do algoritmo MHC-ES

também nos três casos selecionados: 20, 60 e 100 gerações.

Tabela 17 – Comparativo entre o MHC-CNN e o MHC-ES usando a medida-Fh na

Ontologia Componente Celular.

50 500 1000 20 60 100

Cellcycle 55,8% 55,3% 55,4% 41,5% 53,0% 43,6%

Church 52,3% 53,6% 53,7% 46,2% 39,6% 47,0%

Derisi 50,9% 51,1% 51,3% 48,4% 46,5% 48,2%

Eisen 50,9% 56,1% 55,6% 44,1% 43,2% 44,1%

Expr 60,4% 60,4% 60,4% 45,7% 52,5% 53,9%

Gasch1 60,9% 57,2% 63,3% 49,5% 57,6% 53,8%

Gasch2 54,8% 54,6% 54,2% 52,1% 51,9% 49,4%

Pheno 51,0% 52,8% 52,2% 49,6% 45,2% 44,9%

Seq 59,8% 59,6% 60,1% 47,2% 45,6% 45,4%

Spo 53,7% 54,8% 55,3% 49,7% 49,3% 28,2%

6.5.2 Comparativo entre MHC-CNN e o Clus

Devido a medida de avaliação AUPRC que o algoritmo Clus-HMC e Clus-HSC

utiliza, o algoritmo MHC-CNN teve que ser avaliado da mesma maneira para que fosse

possível a comparação entre os algoritmos. Dessa maneira, avaliou-se a medida AUPRC com

diferentes épocas. Por questões de espaço são mostrados os resultados obtidos com 50, 500 e

1000 épocas.

A Tabela 18 apresenta os resultados apresentados na base de dados completa.

Analisando estatisticamente esses resultados através do teste de Friedman têm-se 56,322 FX e

4,39FF . De acordo com o valor tabelado para os graus de liberdade 9 e 36 na distribuição

F de Snedecor encontra-se o valor crítico de 15,2)36;9( F . Desse modo a hipótese nula é

rejeitada, pois )36;9(FFF indicando que há diferença significativa entre os resultados dos

algoritmos.

Rejeitada a hipótese nula e considerando o nível de significância de 95% tem-se o

valor de 93,1CD . Através do valor obtido pela CD e verificando o resultado dos algoritmos

observa-se que o algoritmo Clus-HMC e Clus-HSC foi estatisticamente superior ao MHC-

CNN com 50 e 500 épocas. Já o resultado do MHC-CNN com 1000 épocas foi

estatisticamente inferior apenas ao Clus-HMC.

Tabela 18 – Comparativo da Medida AUPRC entre o MHC-CNN e o Clus-HMC e Clus-

HSC na Base de Dados Completa.

MHC-CNN (em épocas) Clus

50 500 1000 HMC HSC

Cellcycle 0,09 0,09 0,10 0,44 0,32

Church 0,13 0,13 0,12 0,45 0,38

Derisi 0,12 0,12 0,14 0,44 0,35

Eisen 0,09 0,11 0,11 0,46 0,35

Expr 0,15 0,13 0,14 0,47 0,28

Gasch1 0,11 0,08 0,08 0,46 0,31

Gasch2 0,10 0,11 0,11 0,44 0,34

Pheno 0,12 0,10 0,10 0,42 0,39

Seq 0,09 0,09 0,10 0,47 0,28

Spo 0,09 0,11 0,12 0,47 0,36

Também, avaliaram-se as duas medidas que dão origem à medida AUPRC: precisão

e revocação nas 10 bases de dados.

Para fins de demonstração, selecionaram-se duas bases de dados para apresentar os

resultados obtidos com 50, 500 e 1000 épocas. As bases de dados selecionadas foram a

Church e Derisi. A primeira foi selecionada por ser uma das bases que possui atributos

faltantes, os quais foram imputados na etapa pré-processamento. Já a segunda base de dados

nenhuma alteração foi feita, pois essa possuía todos os dados.

Tabela 19 apresenta os resultados obtidos nas duas bases de dados com a execução

de 50 épocas. Observa-se que em todos os limiares o resultado da medida de revocação foi

superior, identificados em negrito, comparado com os dois outros algoritmos. O mesmo

ocorre na execução com 500 épocas conforme mostra a Tabela 20.

Dados Completa.

Church Derisi

Limiares MHC-CNN Clus-HMC Clus-HSC MHC-CNN Clus-HMC Clus-HSC

Prec. Rev. Prec. Rev. Prec. Rev. Prec. Rev. Prec. Rev. Prec. Rev.

T(0) 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00

T(10) 0,01 0,89 0,32 0,55 0,34 0,46 0,01 0,86 0,32 0,54 0,30 0,44

T(20) 0,01 0,86 0,49 0,44 0,49 0,38 0,01 0,83 0,49 0,43 0,43 0,37

T(30) 0,01 0,84 0,59 0,38 0,60 0,31 0,02 0,82 0,61 0,36 0,53 0,30

T(40) 0,01 0,82 0,67 0,33 0,67 0,27 0,02 0,81 0,67 0,31 0,62 0,27

T(50) 0,02 0,80 0,80 0,25 0,75 0,23 0,02 0,79 0,79 0,24 0,70 0,23

T(60) 0,02 0,75 0,89 0,20 0,83 0,20 0,02 0,77 0,86 0,20 0,78 0,20

T(70) 0,05 0,60 0,92 0,19 0,86 0,19 0,03 0,73 0,92 0,17 0,83 0,18

T(80) 0,15 0,40 0,94 0,17 0,89 0,16 0,07 0,53 0,93 0,16 0,87 0,17

T(90) 0,23 0,19 0,98 0,13 0,93 0,14 0,39 0,14 0,97 0,12 0,92 0,14

T(100) 0,36 0,10 0,99 0,10 0,95 0,10 0,40 0,14 1,00 0,09 0,96 0,09

Tabela 20 – Comparativo da Medida de Precisão e Revocação com 500 épocas na Base

de Dados Completa.

Church Derisi

T(0,0) 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00

T(10,0) 0,01 0,88 0,32 0,55 0,34 0,46 0,02 0,81 0,32 0,54 0,30 0,44

T(20,0) 0,01 0,84 0,49 0,44 0,49 0,38 0,02 0,79 0,49 0,43 0,43 0,37

T(30,0) 0,01 0,82 0,59 0,38 0,60 0,31 0,02 0,78 0,61 0,36 0,53 0,30

T(40,0) 0,02 0,81 0,67 0,33 0,67 0,27 0,02 0,78 0,67 0,31 0,62 0,27

T(50,0) 0,02 0,79 0,80 0,25 0,75 0,23 0,02 0,76 0,79 0,24 0,70 0,23

T(60,0) 0,03 0,73 0,89 0,20 0,83 0,20 0,04 0,69 0,86 0,20 0,78 0,20

T(70,0) 0,04 0,67 0,92 0,19 0,86 0,19 0,08 0,53 0,92 0,17 0,83 0,18

T(80,0) 0,06 0,62 0,94 0,17 0,89 0,16 0,08 0,50 0,93 0,16 0,87 0,17

T(90,0) 0,09 0,53 0,98 0,13 0,93 0,14 0,12 0,44 0,97 0,12 0,92 0,14

T(100,0) 0,32 0,11 0,99 0,10 0,95 0,10 0,31 0,11 1,00 0,09 0,96 0,09

Já na execução com 1000 épocas apenas no limiar T(100) a medida foi inferior aos

outros dois algoritmos conforme mostra a Tabela 21.

de Dados Completa.

Church Derisi

T(0) 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00

T(10) 0,01 0,87 0,32 0,55 0,34 0,46 0,02 0,81 0,32 0,54 0,30 0,44

T(20) 0,01 0,84 0,49 0,44 0,49 0,38 0,02 0,79 0,49 0,43 0,43 0,37

T(30) 0,01 0,82 0,59 0,38 0,60 0,31 0,02 0,78 0,61 0,36 0,53 0,30

T(40) 0,02 0,81 0,67 0,33 0,67 0,27 0,02 0,78 0,67 0,31 0,62 0,27

T(50) 0,02 0,79 0,80 0,25 0,75 0,23 0,02 0,77 0,79 0,24 0,70 0,23

T(60) 0,03 0,74 0,89 0,20 0,83 0,20 0,04 0,69 0,86 0,20 0,78 0,20

T(70) 0,04 0,70 0,92 0,19 0,86 0,19 0,07 0,55 0,92 0,17 0,83 0,18

T(80) 0,05 0,63 0,94 0,17 0,89 0,16 0,08 0,53 0,93 0,16 0,87 0,17

T(90) 0,08 0,56 0,98 0,13 0,93 0,14 0,10 0,46 0,97 0,12 0,92 0,14

T(100) 0,34 0,08 0,99 0,10 0,95 0,10 0,33 0,13 1,00 0,09 0,96 0,09

Com objetivo de comparar os resultados obtidos e mostrados nas três tabelas

anteriores, a Figura 48 apresenta os resultados da base de dados Church e a Figura 49 os

resultados obtidos da base de dados Derisi.

Church.

Derisi.

Analisando a medida de revocação, em todas bases de dados e com todos os limiares,

o algoritmo MHC-CNN comparado como o Clus-HMC foi superior na maioria dos casos

conforme mostra a Figura 50. Nota-se ainda que com o aumento do número de épocas o

percentual da diferença entre os algoritmos também aumenta.

A mesma comparação é feita entre o algoritmo MHC-CNN e o Clus-HSC, conforme

mostra a Figura 51, em que o mesmo processo ocorre.

Figura 50 – Comparativo da Medida de Revocação entre o MHC-CNN e o Clus-HMC

na Base de Dados Completa.

Base de Dados Completa.

Aplicado o teste de Wilcoxon com os resultados obtidos pelo algoritmo MHC-CNN

com 50 épocas e o Clus-HMC e substituindo os valores na Equação 36 e na Equação 37 tem-

se 0W e 126W . Aplicando na Equação 38 tem-se 0)126;0min( T . Considerando que

o valor de )2510( n é tabelado para pequenas amostras, os valores críticos com nível de

confiança 05,0 a hipótese nula deve ser rejeitada assumindo que há diferença estatística

entre os algoritmos.

O mesmo resultado foi obtido quando aplicado o teste de Wilcoxon com os

resultados obtidos pelo algoritmo MHC-CNN com 500 épocas e o Clus-HMC. Este resultado

indica que a hipótese nula deve ser rejeitada assumindo que a há diferença estatística entre os

algoritmos.

Aplicando o teste de Wilcoxon com os resultados obtidos pelo algoritmo MHC-CNN

com 1000 épocas e o Clus-HMC, obtêm-se 0W e 54W e 0)54;0min( T . Nesse caso

também a hipótese nula deve ser rejeitada assumindo que a há diferença significativa entre os

algoritmos, pois os valores de W e W estão fora do intervalo dado pelos valores do limite

inferior e limite superior que são 8 e 47, respectivamente.

A Tabela 22 apresenta os resultados apresentados na base de dados com limiar igual

a 300. Analisando estatisticamente esses resultados através do teste de Friedman 78,322 FX e

9,40FF .

Tabela 22 – Comparativo da Medida AUPRC entre o MHC-CNN e o Clus- HMC e Clus-

HSC na Base de Dados com Limiar igual a 300.

50 500 1000 HMC HSC

Cellcycle 0,12 0,07 0,06 0,37 0,25

Church 0,07 0,08 0,07 0,39 0,33

Derisi 0,05 0,07 0,06 0,37 0,31

Eisen 0,02 0,02 0,02 0,74 0,63

Expr 0,07 0,07 0,07 0,42 0,24

Gasch1 0,08 0,06 0,06 0,38 0,23

Gasch2 0,12 0,08 0,07 0,38 0,29

Pheno 0,02 0,03 0,03 0,66 0,38

Seq 0,06 0,05 0,05 0,41 0,24

Spo 0,06 0,05 0,05 0,41 0,31

De acordo com o valor tabelado para os graus de liberdade 9 e 36 na distribuição F

de Snedecor encontra-se o valor crítico de 15,2)36;9( F . Desse modo a hipótese nula é

algoritmos.

Considerando o nível de significância de 95% tem-se o valor de 93,1CD . Através

do valor obtido pela CD e verificando o resultado dos algoritmos observa-se que o algoritmo

Clus-HMC foi estatisticamente superior ao MHC-CNN, nas três épocas. Já o algoritmo Clus-

HSC foi estatisticamente superior ao resultado do MHC-CNN apenas na execução com 1000

épocas.

Assim como nos resultados apresentados anteriormente, também avaliaram-se as

duas medidas que dão origem a medida AUPRC: precisão e revocação nas 10 bases de dados

com limiar igual a 300.

Serão apresentados os resultados obtidos com 50, 500 e 1000 épocas. As bases de

dados selecionadas também foram a Church e Derisi para seguir o padrão já estabelecido. A

Tabela 23 apresenta os resultados obtidos nas duas bases de dados com a execução de 50

épocas. Observa-se que apenas no limiar T(100) o Clus-HMC foi superior ao MHC-CNN. Já

na execução com 500 (Tabela 24) e 1000 épocas (Tabela 25) o MHC-CNN foi superior em

todos os limiares considerando a medida de revocação.

Dados com Limiar igual a 300.

Church Derisi

T(0) 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00

T(10) 0,01 0,90 0,27 0,54 0,29 0,46 0,01 0,88 0,30 0,51 0,26 0,45

T(20) 0,01 0,87 0,41 0,43 0,41 0,35 0,01 0,86 0,45 0,39 0,38 0,35

T(30) 0,01 0,86 0,49 0,36 0,48 0,31 0,01 0,85 0,53 0,33 0,48 0,29

T(40) 0,01 0,85 0,63 0,25 0,58 0,23 0,01 0,85 0,59 0,26 0,56 0,22

T(50) 0,01 0,84 0,67 0,22 0,64 0,21 0,01 0,83 0,69 0,18 0,63 0,18

T(60) 0,01 0,81 0,75 0,16 0,73 0,14 0,01 0,82 0,74 0,14 0,71 0,13

T(70) 0,01 0,75 0,85 0,11 0,80 0,11 0,01 0,81 0,83 0,09 0,79 0,09

T(80) 0,04 0,57 0,91 0,09 0,88 0,08 0,01 0,76 0,90 0,07 0,92 0,05

T(90) 0,13 0,27 0,97 0,07 0,93 0,06 0,05 0,54 0,93 0,06 0,95 0,05

T(100) 0,19 0,06 0,98 0,07 0,94 0,06 0,10 0,06 0,93 0,06 0,99 0,04

de Dados com Limiar igual a 300.

Church Derisi

T(0) 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00

T(10) 0,01 0,88 0,27 0,54 0,29 0,46 0,01 0,84 0,30 0,51 0,26 0,45

T(20) 0,01 0,86 0,41 0,43 0,41 0,35 0,01 0,83 0,45 0,39 0,38 0,35

T(30) 0,01 0,85 0,49 0,36 0,48 0,31 0,01 0,82 0,53 0,33 0,48 0,29

T(40) 0,01 0,84 0,63 0,25 0,58 0,23 0,01 0,82 0,59 0,26 0,56 0,22

T(50) 0,01 0,82 0,67 0,22 0,64 0,21 0,01 0,81 0,69 0,18 0,63 0,18

T(60) 0,02 0,73 0,75 0,16 0,73 0,14 0,01 0,71 0,74 0,14 0,71 0,13

T(70) 0,04 0,59 0,85 0,11 0,80 0,11 0,10 0,34 0,83 0,09 0,79 0,09

T(80) 0,05 0,51 0,91 0,09 0,88 0,08 0,11 0,21 0,90 0,07 0,92 0,05

T(90) 0,07 0,39 0,97 0,07 0,93 0,06 0,14 0,19 0,93 0,06 0,95 0,05

T(100) 0,23 0,10 0,98 0,07 0,94 0,06 0,18 0,10 0,93 0,06 0,99 0,04

Church Derisi

T(0) 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00

T(10) 0,01 0,88 0,27 0,54 0,29 0,46 0,01 0,84 0,30 0,51 0,26 0,45

T(20) 0,01 0,86 0,41 0,43 0,41 0,35 0,01 0,82 0,45 0,39 0,38 0,35

T(30) 0,01 0,84 0,49 0,36 0,48 0,31 0,01 0,82 0,53 0,33 0,48 0,29

T(40) 0,01 0,84 0,63 0,25 0,58 0,23 0,01 0,82 0,59 0,26 0,56 0,22

T(50) 0,01 0,82 0,67 0,22 0,64 0,21 0,01 0,81 0,69 0,18 0,63 0,18

T(60) 0,02 0,74 0,75 0,16 0,73 0,14 0,02 0,66 0,74 0,14 0,71 0,13

T(70) 0,04 0,62 0,85 0,11 0,80 0,11 0,12 0,30 0,83 0,09 0,79 0,09

T(80) 0,04 0,55 0,91 0,09 0,88 0,08 0,11 0,22 0,90 0,07 0,92 0,05

T(90) 0,06 0,42 0,97 0,07 0,93 0,06 0,11 0,20 0,93 0,06 0,95 0,05

T(100) 0,23 0,08 0,98 0,07 0,94 0,06 0,18 0,10 0,93 0,06 0,99 0,04

Para melhor visualização dos resultados mostrados nas três tabelas anteriores a Figura

52 apresenta os resultados da base de dados Church e a Figura 53 os resultados obtidos da

base de dados Derisi.

Limiar igual a 300.

Analisando a medida de revocação, em todas bases de dados e com todos os limiares,

o algoritmo MHC-CNN comparado com o Clus-HMC foi superior em mais de 94% dos casos

conforme mostra a Figura 54.

mostra a Figura 55. Nota-se, que neste caso, que como o aumento do número de épocas a

quantidade avaliada da medida de revocação também aumenta.

na Base com Limiar igual a 300.

Base de Dados com Limiar igual a 300.

com 50 épocas e o Clus HMC e substituindo os valores nas Equação 36 e Equação 37Equação

38 têm-se 0W e 55W . Aplicando na Equação 37 tem-se 0)55;0min( T .

Considerando que o valor de )2510( n é tabelado para pequenas amostras, os

valores críticos com nível de confiança 05,0 a hipótese nula deve ser rejeitada, pois está

fora do intervalo dado pelos valores do limite inferior e limite superior que são 8 e 47,

respectivamente, assumindo que há diferença entre os algoritmos.

resultados obtidos pelo algoritmo MHC-CNN com 500 épocas e 1000 épocas.

6.5.2.3 Base de Dados Separadas por Ontologias

Assim como na comparação entre os algoritmos MHC-CNN e MHC-ES serão

apresentados os resultados obtidos da ontologia Componente Celular. Os resultados das duas

outras ontologias: Função Molecular e Processo Biológico serão mostrados no Apêndice B.

A Tabela 26 mostra os resultados dos algoritmos utilizando a medida AUPRC com

50, 500 e 1000 épocas. Analisando estatisticamente esses resultados e recalculando os valores

para as equações utilizadas no teste de Friedman, como os dados apresentados têm-se

0,322 FX e 1,36FF .

HSC na Ontologia Componente Celular.

50 500 1000 HMC HSC

Cellcycle 0,41 0,30 0,27 0,62 0,53

Church 0,27 0,28 0,27 0,63 0,57

Derisi 0,27 0,27 0,30 0,62 0,55

Eisen 0,28 0,28 0,29 0,64 0,54

Expr 0,26 0,27 0,26 0,68 0,48

Gasch1 0,12 0,12 0,12 0,76 0,69

Gasch2 0,39 0,29 0,29 0,63 0,55

Pheno 0,23 0,23 0,26 0,61 0,58

Seq 0,26 0,26 0,26 0,66 0,46

Spo 0,26 0,26 0,26 0,67 0,56

algoritmos.

Clus-HMC e Clus-HSC foi estatisticamente superior ao MHC-CNN nas três épocas (50, 500 e

1000).

Também, avaliaram-se as duas medidas que dão origem a medida AUPRC: precisão

e revocação nas 10 bases de dados do domínio Componente Celular.

épocas. Observa-se que em todos os limiares o resultado da medida de revocação foi superior,

identificados em negrito, comparado com os dois outros algoritmos. O mesmo ocorre na

execução com 500 épocas conforme mostra a Tabela 28 e na execução com 1000 épocas

como mostra a Tabela 29.

Tabela 27 – Comparativo da Medida de Precisão e Revocação com 50 épocas na

Church Derisi

T(0) 0,02 1,00 0,02 1,00 0,02 1,00 0,02 1,00 0,02 1,00 0,02 1,00

T(10) 0,03 0,85 0,43 0,75 0,47 0,66 0,04 0,84 0,43 0,75 0,46 0,65

T(20) 0,04 0,83 0,51 0,68 0,57 0,57 0,05 0,82 0,51 0,68 0,54 0,56

T(30) 0,05 0,82 0,60 0,60 0,63 0,48 0,05 0,81 0,58 0,62 0,60 0,47

T(40) 0,05 0,82 0,63 0,56 0,71 0,41 0,06 0,80 0,63 0,53 0,66 0,42

T(50) 0,06 0,80 0,82 0,35 0,81 0,34 0,07 0,79 0,73 0,41 0,72 0,37

T(60) 0,09 0,76 0,89 0,31 0,85 0,32 0,09 0,78 0,91 0,28 0,85 0,29

T(70) 0,14 0,72 0,92 0,30 0,88 0,30 0,11 0,77 0,93 0,27 0,88 0,27

T(80) 0,28 0,58 0,93 0,28 0,89 0,28 0,19 0,70 0,93 0,27 0,89 0,26

T(90) 0,33 0,55 0,95 0,22 0,92 0,23 0,40 0,47 0,97 0,19 0,92 0,23

T(100) 0,41 0,46 0,99 0,11 0,96 0,11 0,40 0,46 1,00 0,10 0,96 0,17

Church Derisi

T(0) 0,02 1,00 0,02 1,00 0,02 1,00 0,02 1,00 0,02 1,00 0,02 1,00

T(10) 0,03 0,84 0,43 0,75 0,47 0,66 0,06 0,80 0,43 0,75 0,46 0,65

T(20) 0,04 0,82 0,51 0,68 0,57 0,57 0,09 0,78 0,51 0,68 0,54 0,56

T(30) 0,05 0,81 0,60 0,60 0,63 0,48 0,10 0,77 0,58 0,62 0,60 0,47

T(40) 0,05 0,81 0,63 0,56 0,71 0,41 0,10 0,77 0,63 0,53 0,66 0,42

T(50) 0,06 0,81 0,82 0,35 0,81 0,34 0,11 0,77 0,73 0,41 0,72 0,37

T(60) 0,07 0,79 0,89 0,31 0,85 0,32 0,15 0,73 0,91 0,28 0,85 0,29

T(70) 0,09 0,68 0,92 0,30 0,88 0,30 0,34 0,52 0,93 0,27 0,88 0,27

T(80) 0,12 0,66 0,93 0,28 0,89 0,28 0,36 0,52 0,93 0,27 0,89 0,26

T(90) 0,19 0,59 0,95 0,22 0,92 0,23 0,39 0,48 0,97 0,19 0,92 0,23

T(100) 0,46 0,45 0,99 0,11 0,96 0,11 0,40 0,46 1,00 0,10 0,96 0,17

anteriores a Figura 56 apresenta os resultados da base de dados Church e a Figura 57 os

Church Derisi

T(0) 0,02 1,00 0,02 1,00 0,02 1,00 0,02 1,00 0,02 1,00 0,02 1,00

T(10) 0,03 0,83 0,43 0,75 0,47 0,66 0,07 0,79 0,43 0,75 0,46 0,65

T(20) 0,05 0,81 0,51 0,68 0,57 0,57 0,09 0,77 0,51 0,68 0,54 0,56

T(30) 0,05 0,81 0,60 0,60 0,63 0,48 0,10 0,77 0,58 0,62 0,60 0,47

T(40) 0,06 0,80 0,63 0,56 0,71 0,41 0,11 0,77 0,63 0,53 0,66 0,42

T(50) 0,06 0,80 0,82 0,35 0,81 0,34 0,11 0,76 0,73 0,41 0,72 0,37

T(60) 0,07 0,78 0,89 0,31 0,85 0,32 0,11 0,75 0,91 0,28 0,85 0,29

T(70) 0,09 0,68 0,92 0,30 0,88 0,30 0,21 0,64 0,93 0,27 0,88 0,27

T(80) 0,11 0,66 0,93 0,28 0,89 0,28 0,56 0,33 0,93 0,27 0,89 0,26

T(90) 0,16 0,62 0,95 0,22 0,92 0,23 0,56 0,33 0,97 0,19 0,92 0,23

T(100) 0,44 0,43 0,99 0,11 0,96 0,11 0,56 0,33 1,00 0,10 0,96 0,17

Analisando a medida de revocação, em todas as bases de dados da ontologia

Componente Celular e com todos os limiares, o algoritmo MHC-CNN comparado como o

Clus-HMC foi superior na maioria dos casos conforme mostra a Figura 58. Nota-se, neste

caso que com o aumento do número de épocas o percentual da diferença entre os algoritmos

diminuiu.

mostra a Figura 59, porém, neste caso com o aumento do número de épocas o percentual da

diferença entre os algoritmos também aumenta.

na Ontologia Componente Celular.

com 50 épocas e o Clus-HMC e substituindo os valores nas Equação 36 e Equação 37 têm-se

0W e 55W . Aplicando na Equação 38 tem-se 0)55;0min( T .

Considerando que o valor de )2510( n é tabelado para pequenas amostras, os

valores críticos com nível de confiança 05,0 a hipótese nula deve ser rejeitada, pois está

fora do intervalo dado pelos valores do limite inferior e limite superior que são 8 e 47,

respectivamente, assumindo que há diferença entre os algoritmos.

6.5.3 Comparativo entre MHC-ES e o Clus

Da mesma maneira que foi avaliada a comparação entre os algoritmos MHC-CNN e

o Clus-HMC e Clus-HSC será feita a comparação entre os algoritmos MHC-ES e o Clus-

HMC e Clus-HSC. Por questões de espaço são mostrados os resultados obtidos com 20, 60 e

100 gerações.

A Tabela 30 apresenta os resultados apresentados na base de dados completa.

Analisando estatisticamente esses resultados e substituindo os valores para as equações

utilizadas no teste de Friedman têm-se 26,322 FX e 5,37FF .

Tabela 30 – Comparativo da Medida AUPRC entre o MHC-ES e o Clus-HMC e Clus-

HSC na Base de Dados Completa.

MHC-ES (em gerações) Clus

20 60 100 HMC HSC

Cellcycle 0,06 0,07 0,06 0,44 0,32

Church 0,03 0,03 0,03 0,45 0,38

Derisi 0,06 0,06 0,07 0,44 0,35

Eisen 0,06 0,05 0,04 0,46 0,35

Expr 0,03 0,03 0,03 0,47 0,28

Gasch1 0,04 0,03 0,04 0,46 0,31

Gasch2 0,03 0,03 0,03 0,44 0,34

Pheno 0,08 0,08 0,12 0,42 0,39

Seq 0,06 0,06 0,12 0,47 0,28

Spo 0,06 0,08 0,07 0,47 0,36

algoritmos.

Clus-HMC foi estatisticamente superior ao MHC-CNN nas três épocas selecionadas (50, 500

e 1000). Já o algoritmo Clus-HSC foi estatisticamente superior ao MHC-CNN com 50 e 1000

épocas.

Para fins de demonstração, selecionaram-se duas bases de dados para apresentar os

resultados obtidos com 20, 60 e 100 gerações. As bases de dados selecionadas foram as

mesmas selecionadas para a comparação dos algoritmos MHC-CNN e Clus: Church e Derisi.

A Tabela 31 apresenta os resultados obtidos nas duas bases de dados com a execução

de 20 gerações. Observa-se que nos limiares de T(0) a T(60) os resultados da medida de

revocação do algoritmo MHC-ES foi superior, identificados em negrito, comparado com os

dois outros algoritmos na base de dados Church. No que se refere à base de dados Derisi nos

limiares de T(0) a T(70) os resultados da medida de revocação do algoritmo MHC-ES foi

superior.

Tabela 31 – Comparativo da Medida de Precisão e Revocação com 20 gerações na Base

de Dados Completa.

Church Derisi

Limiares MHC-ES Clus-HMC Clus-HSC MHC-ES Clus-HMC Clus-HSC

T(0) 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00

T(10) 0,01 1,00 0,32 0,55 0,34 0,46 0,02 0,86 0,32 0,54 0,30 0,44

T(20) 0,01 0,99 0,49 0,44 0,49 0,38 0,02 0,81 0,49 0,43 0,43 0,37

T(30) 0,01 0,94 0,59 0,38 0,60 0,31 0,02 0,79 0,61 0,36 0,53 0,30

T(40) 0,01 0,82 0,67 0,33 0,67 0,27 0,04 0,71 0,67 0,31 0,62 0,27

T(50) 0,02 0,61 0,80 0,25 0,75 0,23 0,06 0,62 0,79 0,24 0,70 0,23

T(60) 0,02 0,32 0,89 0,20 0,83 0,20 0,07 0,46 0,86 0,20 0,78 0,20

T(70) 0,06 0,05 0,92 0,19 0,86 0,19 0,07 0,19 0,92 0,17 0,83 0,18

T(80) 0,08 0,04 0,94 0,17 0,89 0,16 0,04 0,06 0,93 0,16 0,87 0,17

T(90) 0,13 0,04 0,98 0,13 0,93 0,14 0,07 0,05 0,97 0,12 0,92 0,14

T(100) 0,20 0,03 0,99 0,10 0,95 0,10 0,24 0,03 1,00 0,09 0,96 0,09

Já na execução do algoritmo MHC-ES com 60 gerações, conforme mostra a

Tabela 32 os resultados nas duas bases de dados, foi superior aos demais algoritmos

nos limiares T(0) a T(60).

de Dados Completa.

Church Derisi

T(0) 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00

T(10) 0,01 1,00 0,32 0,55 0,34 0,46 0,02 0,84 0,32 0,54 0,30 0,44

T(20) 0,01 0,99 0,49 0,44 0,49 0,38 0,02 0,80 0,49 0,43 0,43 0,37

T(30) 0,01 0,94 0,59 0,38 0,60 0,31 0,03 0,75 0,61 0,36 0,53 0,30

T(40) 0,01 0,82 0,67 0,33 0,67 0,27 0,04 0,58 0,67 0,31 0,62 0,27

T(50) 0,02 0,59 0,80 0,25 0,75 0,23 0,07 0,41 0,79 0,24 0,70 0,23

T(60) 0,02 0,30 0,89 0,20 0,83 0,20 0,08 0,23 0,86 0,20 0,78 0,20

T(70) 0,06 0,06 0,92 0,19 0,86 0,19 0,09 0,06 0,92 0,17 0,83 0,18

T(80) 0,09 0,04 0,94 0,17 0,89 0,16 0,13 0,04 0,93 0,16 0,87 0,17

T(90) 0,13 0,04 0,98 0,13 0,93 0,14 0,17 0,04 0,97 0,12 0,92 0,14

T(100) 0,20 0,03 0,99 0,10 0,95 0,10 0,20 0,03 1,00 0,09 0,96 0,09

O mesmo ocorre na execução com a execução do algoritmo com 100 gerações

conforme mostra a Tabela 33.

de Dados Completa.

Church Derisi

T(0) 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00

T(10) 0,01 1,00 0,32 0,55 0,34 0,46 0,02 0,85 0,32 0,54 0,30 0,44

T(20) 0,01 0,99 0,49 0,44 0,49 0,38 0,02 0,82 0,49 0,43 0,43 0,37

T(30) 0,01 0,96 0,59 0,38 0,60 0,31 0,03 0,79 0,61 0,36 0,53 0,30

T(40) 0,01 0,86 0,67 0,33 0,67 0,27 0,04 0,67 0,67 0,31 0,62 0,27

T(50) 0,01 0,62 0,80 0,25 0,75 0,23 0,07 0,48 0,79 0,24 0,70 0,23

T(60) 0,02 0,30 0,89 0,20 0,83 0,20 0,08 0,23 0,86 0,20 0,78 0,20

T(70) 0,07 0,07 0,92 0,19 0,86 0,19 0,16 0,11 0,92 0,17 0,83 0,18

T(80) 0,09 0,04 0,94 0,17 0,89 0,16 0,10 0,04 0,93 0,16 0,87 0,17

T(90) 0,13 0,04 0,98 0,13 0,93 0,14 0,17 0,04 0,97 0,12 0,92 0,14

T(100) 0,20 0,03 0,99 0,10 0,95 0,10 0,20 0,03 1,00 0,09 0,96 0,09

anteriores a Figura 60 apresenta os resultados da base de dados Church e a Figura 61 os

Figura 60 – Comparativo Geral da Medida de Revocação na Base de Dados Church

Completa.

Figura 61 – Comparativo Geral da Medida de Revocação na Base de Dados Derisi

Completa.

Analisando a medida de revocação, em todas as bases de dados e com todos os

limiares, o algoritmo MHC-ES comparado como o Clus-HMC foi inferior na maioria dos

casos conforme mostra a Figura 62.

A mesma comparação é feita entre o algoritmo MHC-ES e o Clus-HSC, conforme

mostra a Figura 63, em que o mesmo processo ocorre.

Figura 62 – Comparativo da Medida de Revocação entre o MHC-ES e o Clus-HMC.

Base de Dados Completa.

Aplicado o teste de Wilcoxon com os resultados obtidos pelo algoritmo MHC-ES

com 20 gerações e o Clus-HMC, obtêm 0W e 56W . Logo se tem 0)56;0min( T .

Considerando que o valor de )2510( n é tabelado para pequenas amostras, os valores críticos

com nível de confiança 05,0 a hipótese nula deve ser rejeitada, pois está fora do intervalo

dado pelos valores do limite inferior e limite superior de 8 e 47, respectivamente.

O resultado obtido pelo algoritmo MHC-ES, com 60 e 100 gerações, quando

aplicado o teste de Wilcoxon tiveram o mesmo resultado, sendo 0W e 55W . Aplicando

na Equação 39 tem-se 0)55;0min( T . Considerando que o valor de )2510( n é tabelado

para pequenas amostras, os valores críticos com nível de confiança 05,0 a hipótese nula

também deve ser rejeitada, pois está fora do intervalo dado pelos valores do limite inferior e

limite superior de 8 e 47, respectivamente.

A Tabela 34 apresenta os resultados apresentados com a base de dados com limiar

igual a 300. Analisando estatisticamente esses resultados e recalculando os valores para as

equações utilizadas no teste de Friedman têm-se 18,322 FX e 0,37FF .

HSC na Base de Dados com Limiar igual a 300.

20 60 100 HMC HSC

Cellcycle 0,06 0,04 0,05 0,37 0,25

Church 0,02 0,02 0,02 0,39 0,33

Derisi 0,04 0,05 0,05 0,37 0,31

Eisen 0,01 0,01 0,01 0,74 0,63

Expr 0,03 0,03 0,03 0,42 0,24

Gasch1 0,05 0,03 0,02 0,38 0,23

Gasch2 0,03 0,02 0,03 0,38 0,29

Pheno 0,01 0,02 0,01 0,66 0,38

Seq 0,06 0,06 0,12 0,41 0,24

Spo 0,06 0,05 0,05 0,41 0,31

algoritmos.

Através do valor obtido pela 93,1CD , considerando o nível de significância de

95%, observa-se que o algoritmo Clus-HMC foi estatisticamente superior ao MHC-CNN nas

três épocas selecionadas (50, 500 e 1000). Já o algoritmo Clus-HSC foi estatisticamente

superior ao MHC-CNN com 500 e 1000 épocas.

Também foram selecionadas duas bases de dados para apresentar os resultados

obtidos com 20, 60 e 100 gerações. As bases de dados selecionadas foram as mesmas

selecionadas para a comparação dos algoritmos MHC-ES e Clus: Church e Derisi.

A Tabela 35 apresenta os resultados obtidos nas duas bases de dados com a execução

de 20 gerações. Observa-se que, na base de dados Church, nos limiares de T(0) a T(60) os

resultados da medida de revocação do algoritmo MHC-ES foi superior, identificados em

negrito, comparado com os dois outros algoritmos. No que se refere a base de dados Derisi

nos limiares de T(0) a T(90) os resultados da medida de revocação do algoritmo MHC-ES foi

superior.

Church Derisi

T(0) 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00

T(10) 0,01 1,00 0,27 0,54 0,29 0,46 0,01 0,87 0,30 0,51 0,26 0,45

T(20) 0,01 0,99 0,41 0,43 0,41 0,35 0,01 0,82 0,45 0,39 0,38 0,35

T(30) 0,01 0,94 0,49 0,36 0,48 0,31 0,02 0,80 0,53 0,33 0,48 0,29

T(40) 0,01 0,84 0,63 0,25 0,58 0,23 0,02 0,70 0,59 0,26 0,56 0,22

T(50) 0,01 0,63 0,67 0,22 0,64 0,21 0,04 0,58 0,69 0,18 0,63 0,18

T(60) 0,01 0,31 0,75 0,16 0,73 0,14 0,05 0,39 0,74 0,14 0,71 0,13

T(70) 0,03 0,05 0,85 0,11 0,80 0,11 0,08 0,26 0,83 0,09 0,79 0,09

T(80) 0,04 0,03 0,91 0,09 0,88 0,08 0,05 0,07 0,90 0,07 0,92 0,05

T(90) 0,06 0,03 0,97 0,07 0,93 0,06 0,07 0,06 0,93 0,06 0,95 0,05

T(100) 0,08 0,03 0,98 0,07 0,94 0,06 0,10 0,03 0,93 0,06 0,99 0,04

Já na execução do algoritmo MHC-ES com 60 gerações, conforme mostra a Tabela

36 os resultados da base de dados Church foi igual o que acorreu na execução com 20

gerações, enquanto que na base de dados Derisi a medida de revocação teve resultado superior

aos demais algoritmos até o limiar T(50) como mostra a Tabela 36. O mesmo resultado foi

obtido com a execução do algoritmo MHC-ES com 100 gerações. Isto pode ser visualizado na

Tabela 37.

Church Derisi

T(0) 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00

T(10) 0,01 1,00 0,27 0,54 0,29 0,46 0,01 0,85 0,30 0,51 0,26 0,45

T(20) 0,01 0,99 0,41 0,43 0,41 0,35 0,02 0,82 0,45 0,39 0,38 0,35

T(30) 0,01 0,94 0,49 0,36 0,48 0,31 0,02 0,75 0,53 0,33 0,48 0,29

T(40) 0,01 0,85 0,63 0,25 0,58 0,23 0,04 0,61 0,59 0,26 0,56 0,22

T(50) 0,01 0,59 0,67 0,22 0,64 0,21 0,06 0,27 0,69 0,18 0,63 0,18

T(60) 0,01 0,32 0,75 0,16 0,73 0,14 0,14 0,07 0,74 0,14 0,71 0,13

T(70) 0,03 0,04 0,85 0,11 0,80 0,11 0,12 0,03 0,83 0,09 0,79 0,09

T(80) 0,05 0,04 0,91 0,09 0,88 0,08 0,12 0,03 0,90 0,07 0,92 0,05

T(90) 0,10 0,03 0,97 0,07 0,93 0,06 0,12 0,03 0,93 0,06 0,95 0,05

T(100) 0,13 0,03 0,98 0,07 0,94 0,06 0,12 0,03 0,93 0,06 0,99 0,04

Church Derisi

T(0) 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00 0,01 1,00

T(10) 0,01 1,00 0,27 0,54 0,29 0,46 0,01 0,85 0,30 0,51 0,26 0,45

T(20) 0,01 0,99 0,41 0,43 0,41 0,35 0,02 0,81 0,45 0,39 0,38 0,35

T(30) 0,01 0,95 0,49 0,36 0,48 0,31 0,02 0,71 0,53 0,33 0,48 0,29

T(40) 0,01 0,85 0,63 0,25 0,58 0,23 0,05 0,49 0,59 0,26 0,56 0,22

T(50) 0,01 0,64 0,67 0,22 0,64 0,21 0,08 0,23 0,69 0,18 0,63 0,18

T(60) 0,01 0,27 0,75 0,16 0,73 0,14 0,07 0,05 0,74 0,14 0,71 0,13

T(70) 0,04 0,05 0,85 0,11 0,80 0,11 0,12 0,03 0,83 0,09 0,79 0,09

T(80) 0,05 0,04 0,91 0,09 0,88 0,08 0,12 0,03 0,90 0,07 0,92 0,05

T(90) 0,09 0,03 0,97 0,07 0,93 0,06 0,12 0,03 0,93 0,06 0,95 0,05

T(100) 0,13 0,03 0,98 0,07 0,94 0,06 0,12 0,03 0,93 0,06 0,99 0,04

Analisando e comparando os resultados obtidos e mostrados na Tabela 35, na Tabela

36 e na Tabela 37 a Figura 64 apresenta os resultados da base de dados Church e a Figura 65

os resultados obtidos da base de dados Derisi.

Limiar igual a 300.

Analisando a medida de revocação, em todas as bases de dados e com todos os

limiares, o algoritmo MHC-ES comparado como o Clus-HMC foi inferior na maioria dos

casos conforme mostra a Figura 66. A mesma comparação é feita entre o algoritmo MHC-ES

e o Clus-HSC, conforme mostra a Figura 67, em que o mesmo processo ocorre.

com 20 gerações e o Clus-HMC, obtêm 0W e 55W . Logo, tem-se 0)55;0min( T .

Neste caso, a hipótese nula deve ser rejeitada, pois está fora do intervalo dado pelos valores

do limite inferior e limite superior que são 8 e 47, respectivamente.

O mesmo resultado foi obtido pelo algoritmo MHC-ES, com 60 e 100 gerações,

quando aplicado o teste de Wilcoxon.

6.5.3.3 Base de Dados Separadas por Ontologias

Assim como nas comparações anteriores serão apresentados os resultados obtidos da

ontologia Componente Celular. Os resultados das duas outras ontologias: Função Molecular e

Processo Biológico serão mostrados no Apêndice B.

A Tabela 38 mostra os resultados dos algoritmos utilizando a medida AUPRC com

20, 60 e 100 gerações.

Calculando os valores para as equações utilizadas no teste de Friedman, como os

dados apresentados na Tabela 38, têm-se 98,322 FX e 3,42FF . De acordo com o valor

tabelado para os graus de liberdade 9 e 36 na distribuição F de Snedecor encontra-se o valor

crítico de 15,2)36;9( F . Desse modo a hipótese nula é rejeitada, pois )36;9(FFF indicando

que há diferença significativa entre os resultados dos algoritmos.

HSC na Ontologia Componente Celular.

20 60 100 HMC HSC

Cellcycle 0,28 0,17 0,25 0,62 0,53

Church 0,26 0,20 0,16 0,63 0,57

Derisi 0,25 0,25 0,21 0,62 0,55

Eisen 0,21 0,21 0,19 0,64 0,54

Expr 0,17 0,14 0,15 0,68 0,48

Gasch1 0,17 0,24 0,18 0,76 0,69

Gasch2 0,15 0,17 0,16 0,63 0,55

Pheno 0,24 0,23 0,21 0,61 0,58

Seq 0,27 0,27 0,21 0,66 0,46

Spo 0,22 0,26 0,28 0,67 0,56

Rejeitada a hipótese nula e considerando o nível de significância de 95% tem-se o

valor de 93,1CD . Através do valor obtido pela CD e verificando o resultado dos algoritmos

observa-se que o algoritmo Clus-HMC foi estatisticamente superior ao MHC-ES nas três

gerações (20, 60 e 100). Já comparando o resultado com o Clus-HSC esse foi estatisticamente

superior apenas ao MHC-ES com 100 gerações.

e revocação nas 10 bases de dados do domínio Componente Celular.

Serão apresentados os resultados obtidos com 20, 60 e 100 gerações. As bases de

dados selecionadas também foram as mesmas selecionadas anteriormente (Church e Derisi).

A Tabela 39 apresenta os resultados obtidos nas duas bases de dados com a execução de 20

gerações. Observa-se que em todos os limiares o resultado da medida de revocação foi

superior, identificados em negrito, comparado com os dois outros algoritmos. O mesmo

ocorre na execução com 60 gerações conforme mostra a Tabela 40 e na execução com 100

gerações como mostra a Tabela 41.

Comparando os resultados, mostrados nas Tabelas 39, 40 e 41, a Figura 68 apresenta

os resultados da base de dados Church e os resultados obtidos na base de dados Derisi são

mostrados na Figura 69.

Tabela 39 – Comparativo da Medida de Precisão e Revocação com 20 gerações na

Church Derisi

T(0) 0,02 1,00 0,02 1,00 0,02 1,00 0,02 1,00 0,02 1,00 0,02 1,00

T(10) 0,02 1,00 0,43 0,75 0,47 0,66 0,04 0,85 0,43 0,75 0,46 0,65

T(20) 0,02 0,99 0,51 0,68 0,57 0,57 0,06 0,82 0,51 0,68 0,54 0,56

T(30) 0,02 0,95 0,60 0,60 0,63 0,48 0,07 0,78 0,58 0,62 0,60 0,47

T(40) 0,03 0,89 0,63 0,56 0,71 0,41 0,13 0,70 0,63 0,53 0,66 0,42

T(50) 0,04 0,79 0,82 0,35 0,81 0,34 0,22 0,58 0,73 0,41 0,72 0,37

T(60) 0,05 0,68 0,89 0,31 0,85 0,32 0,31 0,44 0,91 0,28 0,85 0,29

T(70) 0,08 0,54 0,92 0,30 0,88 0,30 0,41 0,19 0,93 0,27 0,88 0,27

T(80) 0,13 0,45 0,93 0,28 0,89 0,28 0,43 0,19 0,93 0,27 0,89 0,26

T(90) 0,43 0,32 0,95 0,22 0,92 0,23 0,45 0,19 0,97 0,19 0,92 0,23

T(100) 0,64 0,20 0,99 0,11 0,96 0,11 0,49 0,19 1,00 0,10 0,96 0,17

Church Derisi

T(0) 0,02 1,00 0,02 1,00 0,02 1,00 0,02 1,00 0,02 1,00 0,02 1,00

T(10) 0,02 0,99 0,43 0,75 0,47 0,66 0,04 0,84 0,43 0,75 0,46 0,65

T(20) 0,02 0,96 0,51 0,68 0,57 0,57 0,06 0,79 0,51 0,68 0,54 0,56

T(30) 0,03 0,90 0,60 0,60 0,63 0,48 0,07 0,77 0,58 0,62 0,60 0,47

T(40) 0,04 0,80 0,63 0,56 0,71 0,41 0,10 0,73 0,63 0,53 0,66 0,42

T(50) 0,08 0,59 0,82 0,35 0,81 0,34 0,14 0,72 0,73 0,41 0,72 0,37

T(60) 0,19 0,45 0,89 0,31 0,85 0,32 0,19 0,69 0,91 0,28 0,85 0,29

T(70) 0,42 0,19 0,92 0,30 0,88 0,30 0,28 0,52 0,93 0,27 0,88 0,27

T(80) 0,49 0,19 0,93 0,28 0,89 0,28 0,27 0,20 0,93 0,27 0,89 0,26

T(90) 0,49 0,19 0,95 0,22 0,92 0,23 0,46 0,19 0,97 0,19 0,92 0,23

T(100) 0,49 0,19 0,99 0,11 0,96 0,11 0,49 0,19 1,00 0,10 0,96 0,17

Church Derisi

T(0) 0,02 1,00 0,02 1,00 0,02 1,00 0,02 1,00 0,02 1,00 0,02 1,00

T(10) 0,02 0,99 0,43 0,75 0,47 0,66 0,05 0,86 0,43 0,75 0,46 0,65

T(20) 0,02 0,93 0,51 0,68 0,57 0,57 0,06 0,82 0,51 0,68 0,54 0,56

T(30) 0,03 0,86 0,60 0,60 0,63 0,48 0,08 0,76 0,58 0,62 0,60 0,47

T(40) 0,06 0,76 0,63 0,56 0,71 0,41 0,13 0,59 0,63 0,53 0,66 0,42

T(50) 0,09 0,46 0,82 0,35 0,81 0,34 0,20 0,49 0,73 0,41 0,72 0,37

T(60) 0,20 0,25 0,89 0,31 0,85 0,32 0,22 0,46 0,91 0,28 0,85 0,29

T(70) 0,22 0,20 0,92 0,30 0,88 0,30 0,28 0,31 0,93 0,27 0,88 0,27

T(80) 0,28 0,19 0,93 0,28 0,89 0,28 0,26 0,19 0,93 0,27 0,89 0,26

T(90) 0,31 0,19 0,95 0,22 0,92 0,23 0,27 0,19 0,97 0,19 0,92 0,23

T(100) 0,49 0,19 0,99 0,11 0,96 0,11 0,49 0,19 1,00 0,10 0,96 0,17

Analisando a medida de revocação, em todas as bases de dados da ontologia

Componente Celular e com todos os limiares, o algoritmo MHC-ES comparado como o Clus-

HMC foi superior na maioria dos casos conforme mostra a Figura 70. A mesma comparação é

feita entre o algoritmo MHC-ES e o Clus-HSC, conforme mostra a Figura 71.

com 20 gerações e o Clus-HMC, e substituindo os valores nas Equação 36 e Equação 37 têm-

se 0W e 55W . Aplicando na Equação 38 tem-se 0)55;0min( T . Considerando que o

valor de )2510( n é tabelado para pequenas amostras, os valores críticos com nível de

confiança 05,0 . Sendo assim, a hipótese nula deve ser rejeitada assumindo que a há

diferença estatística entre os algoritmos.

resultados obtidos pelo algoritmo MHC-ES com 60 gerações e 100 gerações.

6.6 COMPARAÇÃO GERAL DOS RESULTADOS

Nesta Seção destacam-se os resultados gerais dos experimentos feitos nas bases de

dados estruturadas em árvore (Funcat) e estruturadas em DAG (GO). Vale ressaltar que os

experimentos realizados em estruturas na forma de árvore foram os experimentos iniciais em

que apenas um rótulo da instância é avaliado, visto que tais bases utilizadas apresentam esta

característica.

6.6.1 Resultados obtidos em estruturas em Árvore

Analisando os resultados apresentados no Apêndice A, observa-se que o algoritmo

HC-CNN (BORGES & NIEVOLA, 2012a), (BORGES & NIEVOLA, 2012b), teve resultados

significativos em ambas as medidas, distância e medida-Fh, chegando a alguns casos obter

resultados superiores a 90%. No que se refere a quantidade de épocas, nota-se que houve

pouca variação no resultado.

Já o algoritmo HC-ES teve resultados estatisticamente inferiores quando comparado

ao HC-CNN. Esta observação fica clara ao observar a Tabela 45 e a Tabela 46 do Apêndice

Outros experimentos com o classificador HC-ES devem ser feitos, com parâmetros

diferentes tal qual a quantidade de indivíduos e a quantidade de gerações a fim de verificar se

o desempenho preditivo permanece o mesmo ou há melhoras significativas nos resultados.

Comparando ambos os classificadores desenvolvidos, HC-CNN e HC-ES, com o

Clus-HSC através da medida AUCPR (Erro! Fonte de referência não encontrada.) notam-

se resultados estatisticamente inferiores na maioria dos resultados exceto na execução do HC-

CNN com 500 e 1000 épocas, que no teste de Friedman mostrou que não diferença estatística.

6.6.2 Resultados obtidos em estruturas DAG

Como se pode observar através dos experimentos realizados, com os classificadores

desenvolvidos, o algoritmo MHC-CNN obteve resultados estatisticamente superiores ao

MHC-ES.

Na base de dados completa, quando usado o algoritmo MHC-CNN, a medida de

distância teve resultados estatisticamente melhores que a medida-Fh. Uma possível causa

deve-se ao fato da utilização da medida de distância dependente de profundidade na qual foi

atribuído pesos aos níveis da hierarquia. Assim, predições em níveis mais próximos da raiz

tiveram um peso maior na avaliação, e as predições em níveis mais específicos pesos

menores.

No que se refere à comparação dos resultados com o Clus-HMC e Clus-HSC, os dois

algoritmos desenvolvidos (MHC-CNN e MHC-ES) tiveram desempenho preditivo

estatisticamente inferior utilizando a curva precision-recall. Talvez, uma das possíveis causas

do fato ocorrido foi adaptação dos classificadores, MHC-CNN e MHC-ES, para utilizar como

medida de avaliação AUCPR. Ambos os algoritmos utilizaram a medida de distância

euclidiana, entre o neurônio de entrada com cada neurônio da camada de saída, visto que para

a utilização da medida AUCPR a saída do classificador precisava ser um vetor de valores

contínuos.

No que se refere aos resultados obtidos nas bases de dados com limiar igual a 300

nota-se que houve pouca melhora nos resultados comparados com a base de dados completa.

Porém, devido à redução de instâncias houve um ganho no desempenho computacional.

Em se tratando das bases de dados separadas por ontologias observa-se que a

ontologia Componente Celular teve resultados significativos principalmente quando utilizado

a medida de distância. Uma possível causa desses resultados deve-se a características das

bases de dados como mostrado na Tabela 10. Nota-se que as bases de dados desse domínio

possuem uma quantidade de classes muito menor comparada com as outras ontologias. Além

disso, há uma diminuição na quantidade de níveis da hierarquia e também na quantidade de

classes que cada instância possui.

Nas ontologias Função Molecular e Processo Biológico o resultado preditivo foi

inferior comparada a da ontologia Componente Celular. Uma das possíveis causas deve-se a

características das bases de dados pertencentes as este domínio.

Porém, em se tratando do resultado obtido pelas medidas de avaliação a medida de

distância também teve resultados estatisticamente melhores que a medida-Fh em ambos os

classificadores, MHC-CNN e MHC-ES. No que se refere à comparação com o Clus-HMC e

Clus-HSC, usando a media AUCPR, os resultados dos classificadores MHC-CNN e MHC-ES

foram estatisticamente inferiores.

Analisando os resultados obtidos pela medida AUCPR observa-se que em todos os

experimentos, nas diferentes bases de dados, essa teve resultado estatisticamente muito baixo.

Porém, avaliando isoladamente cada medida precisão e revocação, medidas essas que dão

origem a medida AUCPR, observa-se que em mais 90% dos resultados dos experimentos a

medida de revocação, dos classificadores desenvolvidos, foi superior a medida de revocação

do Clus-HMC e Clus-HSC.

7 CONCLUSÃO

A construção de um classificador hierárquico, multirrótulo, e utilizando a abordagem

de classificação hierárquica global é apontada como uma das mais complexas abordagens.

Isto porque algoritmos utilizados na classificação convencional não podem ser aplicados em

problemas hierárquicos, na abordagem global, sem que haja modificações no algoritmo.

Esta tese apresentou um classificador usando a abordagem global para problemas de

classificação hierárquica multirrótulo, utilizando uma rede neural artificial competitiva. O

algoritmo proposto, denominado de MHC-CNN, treina uma rede neural competitiva baseada

no algoritmo LVQ1.

Os resultados dos experimentos sugerem que o algoritmo MHC-CNN obtém

desempenho preditivo competitivo quando utilizado as medidas de avaliação de distância,

dependente de profundidade, e a hierárquica baseada na ancestralidade (medida-Fh). Esses

resultados são encorajadores, visto que foi utilizado algoritmo LVQ1 convencional e que não

foram feitas tentativas de otimização dos parâmetros de execução da rede neural.

Além disso, foi desenvolvido outro classificador, denominado de MHC-ES, que

utiliza a estratégia evolucionária para o treinamento da rede neural.

Ademais, deve ser destacado que ambos os classificadores podem ser considerados

os primeiros algoritmos que utilizam redes neurais para tratar de problemas hierárquicos

estruturados em DAG e que utilizam a abordagem de classificação hierárquica global.

Comparando os resultados obtidos dos classificadores MHC-CNN e MHC-ES

observa-se que o primeiro teve desempenho preditivo superior na maioria dos experimentos.

Houve grande dificuldade em comparar os resultados obtidos com outros algoritmos

da literatura, pois não se encontrou nenhum que utilizasse as mesmas medidas de avaliação,

medida de distância dependente de profundidade e medida-Fh, para que pudesse ser feita uma

comparação equivalente, visto que essas foram as medidas selecionadas para avaliar o

desempenho dos algoritmos propostos.

Assim, os classificadores desenvolvidos tiveram que ser adaptados para serem

comparados com os algoritmos Clus-HMC e Clus-HSC, usando a medida de avaliação

AUCPR.

Vale destacar que, além dos experimentos feitos nas bases de dados hierárquicas

multirrótulo da GO, os experimentos iniciais foram feitos em bases de dados do Funcat

estruturadas em árvore, em que uma instância apenas possui um rótulo/classe. Dessa maneira,

o primeiro classificador desenvolvido foi HC-CNN o qual tratava apenas de instâncias

formadas por um único rótulo. Uma segunda versão do classificador HC-CNN foi

denominada de HC-ES que utilizava a estratégia evolucionária para treinar a rede neural

artificial.

Dessa maneira, pode-se dizer que este trabalho apresentou 4 versões de

classificadores hierárquicos globais, sendo 2 deles para estrutura em árvore com instância

possuindo apenas um único rótulo e os outros dois para problemas hierárquicos multirrótulos

que podem ser utilizados em dados estruturados em DAG com em árvore.

7.1 TRABALHOS FUTUROS

Muitas pesquisas podem ser feitas envolvendo a classificação hierárquica

multirrótulo estruturado em DAG. Primeiramente, no que se refere ao tratamento dos dados

pode-se remover alguns níveis da hierarquia e como consequência algumas classes da

hierarquia de classes. Isso irá diminuir a dificuldade que classificador ao predizer uma

determinada classe. Como consequência disso, o custo computacional do classificador

também irá diminuir proporcionalmente.

No que se refere ao classificador MHC-CNN, pode ser adaptada ao algoritmo às

outras versões do algoritmo LVQ, tal qual a LVQ2, LVQ3, entre outras, e assim comparar os

resultados, visto que na literatura sabe-se que essas versões apresentam resultados melhores

na classificação convencional. Por isso, vale a pena testar na classificação hierárquica.

Outros experimentos podem ser feitos otimizando os parâmetros da rede neural,

como a taxa de aprendizagem e a quantidade de épocas.

Uma versão local do classificador pode ser desenvolvida. Isso poderá facilitar na

comparação do resultado do algoritmo selecionado como base, neste caso o LVQ, verificando

assim o desempenho em ambas as abordagens: local e global.

Tratando do classificador MHC-ES, o qual apresentou resultados inferiores ao MHC-

CNN, podem ser feitos outros experimentos com maior quantidade de indivíduos e gerações e

assim também verificar o seu desempenho preditivo.

Em se tratando da avaliação feita na medida de revocação obtida a partir da medida

AUCPR, cujos resultados foram na maioria dos casos muito superiores ao Clus, um estudo

pode ser feito para avaliar se a curva ROC não fornece melhores resultados que a curva PR,

visto que a medida AUCPR tem sido utilizada frequentemente para avaliar os resultados dos

classificadores que têm sido desenvolvidos, porém sem um consenso comum de que esta seja

uma boa medida.

REFERÊNCIAS

ALEKSOVKI, D.; KOCEV, D.; DZEROSKI, S. Evaluation of distance measures for

hierarchical multi-label classification in functional genomics. In Proc. of the 1st Workshop on

Learning from Multi-Label Data (MLD). p. 5-16. 2009.

ALVES, R. T.; DELGADO, M. R., FREITAS, A. A. Multi-label hierarchical classification of

protein functions with artificial immune systems. In Proc. Advances in Bioinformatics and

Computational Biology. v. 5167, p.1-12. 2008.

ALVES, R. T. Um Sistema Imunológico Artificial para Classificação Hierárquica e

Multi-Label de Funções de Proteínas. Curitiba, 2010. 219 p. Tese (Doutorado) - Programa

de Pós-graduação em Engenharia Elétrica e Informática Industrial. Universidade Tecnológica

Federal do Paraná (UTFPR), Curitiba, Paraná, 2010.

ASTIKAINEN, K.; HOLMAND, L.; PITHANEN, E.; SZEDMAK, S.; ROUSU, J. Towards

structured output prediction of enzyme function. BMC Proc 2(Suppl 4). 2008.

BÄCK, T.; FOGEL, D.B.; MICHALEWICZ, Z. Evolutionary computation 2: advanced

algorithms and operators. Bristol and Philadelphia: Institute of Physics Publishing, 2000.

BARBEDO, J. G. A.; LOPES, A. Automatic genre classification of musical signals.

EURASIP Journal on Advances in Signal Processing. v. 2007, n. 1, p. 157-168. 2007.

BALDI, P.; POLLASTRI, G. A Machine-Learning Strategy for Protein Analysis. IEEE

Intelligent Systems. v.17, n. 2, p.28-35. 2002.

BARUTCUOGLU, Z.; SCHAPIRE, R. E.; TROYANSKAYA, O. G. Hierarchical multi-label

prediction of gene function. Bioinformatics. v. 22 n. 7, p. 830-836. 2006.

BENNETT, P. N.; NGUYEN, N. Refined experts: improving classification in large

taxonomies. In Proc. of the 32nd Int. ACM SIGIR conf. on Research and development in

information retrieval, Boston, MA, USA. p. 11-18. 2009.

BRECHEISEN, S.; KRIEGEL, H. P.; KUNATH P.; PRYAKHIN, A. Hierarchical genre

classification for large music collections. In: Proceedings of the IEEE 7th international

conference on Multimedia&Expo. p. 1385–1388. 2006.

BI, W.; KWOK, J. T. Multi-label classification on tree- and DAG-structured hierarchies.

Proceedings of the Twenty-Eighth International Conference on Machine Learning (ICML),

Bellevue, WA, USA, June 2011.

BINDER, A.; KAWANABE, M.; BREFELD, U. Efficient classification of images with

taxonomies. In: Proceedings of the 9th Asian conference on computer vision. 2009.

BLOCKELL, H.; BRUYNOOGHE, M.; DZEROSKI, S.; RAMON, J.; STRUYF, J.

Hierarchical multi-classification. In Proc. of the First SIGKDD Workshop on Multi-

Relational Data Mining (MRDM-2002), Edmonton, Canada, July. p. 21-35. 2002.

BLOCKELL, H.; SCHIETGAT, L.; STRUYF, J.; DZEROSKI, S.; CLARE, A. Decision trees

for hierarchical multilabel classification: A case study in functional genomics. In Proc. of the

10th European Conf. on Principles and Practice of Knowledge Discovery in Databases. p. 18-

29. 2006.