aumentando o poder preditivo de classificadores …tiago/papers/ntt-eniac17.pdfclassiÞca o...

12
Aumentando o poder preditivo de classificadores lineares através de particionamento por classe Nahim A. Souza, Tiago A. Almeida, Tiemi C. Sakata 1 Departamento de Computação – Universidade Federal de São Carlos (UFSCar) Rod. João Leme dos Santos, Km 110 – Bairro do Itinga - Sorocaba, SP - Brasil [email protected], {talmeida,tiemi}@ufscar.br Abstract. This work describes a new approach to achieving good classification performances using linear prediction methods, even on datasets with non-linear separable data. The proposed approach, inspired by the division-and-conquer strategy, applies a clustering method to each subset of samples of the same class, defining groups by class. Subsequently, the intersection of these groups is cal- culated, creating a single partition, where each group can contain linearly se- parable samples. Then, one or more linear classifiers are trained. Experiments performed using datasets with different structural and complexity level indicate the overall performance of the prediction is similar or superior to well-known non-linear classification methods. The main advantages of this approach are (i) the need for much less effort and computational resources, especially in large databases, and (ii) the possibility of parallelization. Resumo. Este trabalho descreve uma nova abordagem para obter bons desem- penhos de classificação usando métodos de predição lineares, mesmo em bases com dados não separáveis linearmente. A abordagem proposta, inspirada na estratégia de divisão-e-conquista, aplica um método de agrupamento em cada subconjunto de amostras de mesma classe, definindo grupos por classe. Poste- riormente, a interseção desses grupos é realizada, criando uma única partição, onde cada grupo pode conter amostras separáveis linearmente. Em seguida, um ou mais classificadores lineares são treinados. Experimentos realizados com bases de dados que possuem diferentes estruturas e níveis de complexidade demonstram que o desempenho geral da predição é muitas vezes semelhante ou superior aos métodos de classificação não-lineares. As principais vanta- gens dessa abordagem são (i) a necessidade de muito menor esforço e recursos computacionais, principalmente em bases de dados de grande porte, e (ii) a possibilidade de paralelização. 1. Introdução Nos últimos anos, diversos trabalhos têm surgido com o objetivo de oferecer métodos de classificação cada vez mais robustos para lidar com bases de dados complexas. A adoção de métodos de classificação não-lineares, tal como deep learning, vem tornando-se uma tendência, pois eles normalmente conseguem gerar modelos de predição extremamente sofisticados, robustos e com alto poder preditivo. Todavia, a desvantagem desses métodos é que a construção do modelo pode demandar muitos recursos computacionais e tempo de processamento [Britto et al. 2014]. No mesmo cenário de classificação, outras abordagens também têm recebido des- taque nesse período, como por exemplo, a fusão e a seleção de classificadores [Britto et al. 2014, Kuncheva 2000, Almeida and Galvão 2016]. Muitas delas são baseadas no XIV Encontro Nacional de Inteligˆ encia Artificial e Computacional SBC ENIAC-2017 Uberlˆ andia - MG 97

Upload: others

Post on 20-May-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Aumentando o poder preditivo de classificadores linearesatravés de particionamento por classe

Nahim A. Souza, Tiago A. Almeida, Tiemi C. Sakata

1 Departamento de Computação – Universidade Federal de São Carlos (UFSCar)Rod. João Leme dos Santos, Km 110 – Bairro do Itinga - Sorocaba, SP - Brasil

[email protected], {talmeida,tiemi}@ufscar.br

Abstract. This work describes a new approach to achieving good classification

performances using linear prediction methods, even on datasets with non-linear

separable data. The proposed approach, inspired by the division-and-conquer

strategy, applies a clustering method to each subset of samples of the same class,

defining groups by class. Subsequently, the intersection of these groups is cal-

culated, creating a single partition, where each group can contain linearly se-

parable samples. Then, one or more linear classifiers are trained. Experiments

performed using datasets with different structural and complexity level indicate

the overall performance of the prediction is similar or superior to well-known

non-linear classification methods. The main advantages of this approach are (i)

the need for much less effort and computational resources, especially in large

databases, and (ii) the possibility of parallelization.

Resumo. Este trabalho descreve uma nova abordagem para obter bons desem-

penhos de classificação usando métodos de predição lineares, mesmo em bases

com dados não separáveis linearmente. A abordagem proposta, inspirada na

estratégia de divisão-e-conquista, aplica um método de agrupamento em cada

subconjunto de amostras de mesma classe, definindo grupos por classe. Poste-

riormente, a interseção desses grupos é realizada, criando uma única partição,

onde cada grupo pode conter amostras separáveis linearmente. Em seguida,

um ou mais classificadores lineares são treinados. Experimentos realizados

com bases de dados que possuem diferentes estruturas e níveis de complexidade

demonstram que o desempenho geral da predição é muitas vezes semelhante

ou superior aos métodos de classificação não-lineares. As principais vanta-

gens dessa abordagem são (i) a necessidade de muito menor esforço e recursos

computacionais, principalmente em bases de dados de grande porte, e (ii) a

possibilidade de paralelização.

1. IntroduçãoNos últimos anos, diversos trabalhos têm surgido com o objetivo de oferecer métodos declassificação cada vez mais robustos para lidar com bases de dados complexas. A adoçãode métodos de classificação não-lineares, tal como deep learning, vem tornando-se umatendência, pois eles normalmente conseguem gerar modelos de predição extremamentesofisticados, robustos e com alto poder preditivo. Todavia, a desvantagem desses métodosé que a construção do modelo pode demandar muitos recursos computacionais e tempode processamento [Britto et al. 2014].

No mesmo cenário de classificação, outras abordagens também têm recebido des-taque nesse período, como por exemplo, a fusão e a seleção de classificadores [Brittoet al. 2014, Kuncheva 2000, Almeida and Galvão 2016]. Muitas delas são baseadas no

XIV Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2017 Uberlandia - MG 97

princípio de divisão-e-conquista, através do particionamento da base de dados em váriosgrupos e do treinamento de classificadores especializados para cada um deles. Nesse es-copo, [Almeida and Galvão 2016] demonstraram que a combinação de vários métodos declassificação “fracos”, por meio de um ensemble, pode ser uma boa solução para aumen-tar consideravelmente o poder preditivo da classificação sem necessariamente aumentarmuito o esforço computacional.

Em geral, para uma mesma base de dados, métodos de classificação linearessão treinados muito mais rapidamente do que métodos não-lineares [Joachims 2006],pois possuem uma complexidade menor em relação ao número de operações realiza-das [Zhouyu Fu et al. 2010, Fradkin 2008]. Consequentemente, a implementação demétodos lineares é mais simples e costuma ser menos custosa computacionalmente. Poroutro lado, dependendo das características da base de dados, um modelo de prediçãolinear pode apresentar desempenho insatisfatório na tarefa de classificação, pois as amos-tras podem ser inseparáveis linearmente. Neste cenário, este trabalho assume a hipótesede que, em alguns casos, é possível obter uma combinação de métodos lineares capaz deobter desempenho próximo ou superior a dos métodos de classificação não-lineares.

Para ilustrar, a Figura 1(a) apresenta uma base de dados com duas classes (verdee amarelo). Nenhum classificador linear seria capaz de separar corretamente as amos-tras das diferentes classes. Provavelmente, um classificador linear qualquer geraria umahipótese ilustrada pela Figura 1(b). Neste caso, cerca de metade das amostras seria classi-ficada corretamente. Entretanto, separando essas mesmas amostras em dois grupos, seriapossível treinar dois classificadores lineares que, combinados, poderiam ser capazes declassificar corretamente um número muito maior de amostras (Figura 1(c)).

Figura 1. (a) Representação de uma base de dados com amostras de duas clas-

ses não separáveis linearmente. (b) A linha vermelha ilustra um classificador

linear treinado sobre a base original. (c) As duas linhas vermelhas ilustram dois

classificadores lineares obtidos a partir da divisão da base em dois grupos.

Este trabalho propõe uma abordagem baseada na estratégia de divisão-e-conquistapara encontrar grupos compostos por amostras que tenham maior possibilidade de seremlinearmente separáveis. Inicialmente, as amostras de uma mesma classe são particionadase os grupos das diferentes classes tornam-se candidatos à união. Nesta etapa, os gruposcom amostras muito próximas ou sobrepostas são mesclados para construir uma partiçãoúnica. Em seguida, para cada grupo da partição final, um classificador linear é treinado e,posteriormente, combinado com os demais com o intuito de obter melhor poder preditivona tarefa de classificação.

Uma das vantagens dessa abordagem está no fato de que a formação desses sub-conjuntos menores permite que a etapa de treinamento seja muito menos custosa dentrode cada grupo. Com isso, como será demonstrado, é possível construir um classificador

XIV Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2017 Uberlandia - MG 98

robusto, a partir de classificadores lineares, com uma eficiência superior ou equivalenteà obtida pelos métodos de classificação não-lineares. Além disso, é possível que a etapade treinamento seja totalmente paralelizada, permitindo um enorme ganho de desempe-nho [Fradkin 2008, Zhouyu Fu et al. 2010].

O restante deste trabalho está dividido da seguinte forma: a Seção 2 apresenta osprincipais trabalhos relacionados. Na Seção 3, a abordagem proposta é detalhada. Osexperimentos e resultados são apresentados na Seção 4. Por fim, a Seção 5 conclui otrabalho e apresenta direcionamentos para trabalhos futuros.

2. Trabalhos relacionadosA combinação de métodos que oferecem aprendizado supervisionado e não-supervisionado para melhorar o desempenho na tarefa de classificação não é uma ideianova. Nos últimos anos, diversos trabalhos têm aperfeiçoado essa ideia e mostradoque ela pode trazer resultados promissores nos mais diversos contextos [Jacobs et al.1991, Kuncheva 2000, Chih-Wei Hsu and Chih-Jen Lin 2002, Kyriakopoulou and Kalam-boukis 2008, Coletta et al. 2014]. Uma das principais motivações reside no fato de que, aconstrução de um classificador único e com alto poder preditivo para uma base de dadoscomplexa, geralmente é computacionalmente custosa [Britto et al. 2014, Almeida andGalvão 2016].

O particionamento da base de dados e o tratamento dos seus subconjuntos comoinstâncias menores do problema de classificação são exemplos de uso da abordagem dedivisão-e-conquista [Zhouyu Fu et al. 2010, Fradkin 2008, Britto et al. 2014, Almeidaand Galvão 2016]. O trabalho de [Kuncheva 2000], por exemplo, demonstrou que umalgoritmo de agrupamento pode ser utilizado para produzir uma partição da base dados,onde podem ser gerados classificadores especializados para cada grupo. Essa abordagemapresentou bons resultados e foi adotada em diversas outras pesquisas subsequentes que, apartir dos classificadores especializados, propuseram métodos de seleção dinâmica [Brittoet al. 2014, Kyriakopoulou and Kalamboukis 2008] e ensembles [Ruta and Gabrys 2005]para construir soluções robustas.

[Fradkin 2008] observou que a maior parte das propostas presentes na literaturanão considera que o rótulo das amostras pode ser uma informação útil para gerar gruposmelhores na etapa de agrupamento, ou seja, grupos com características que podem serúteis na etapa de classificação. Com isso em mente, ele aplicou agrupamento dentrode cada conjunto de amostras separadas por classe. Essa proposta trouxe vantagens emrelação a ideia de [Kuncheva 2000], visto que a aplicação do agrupamento interno nasclasses, usando o algoritmo k-médias, permitiu uma melhor identificação da estrutura dasclasses a partir da geração de grupos convexos [Fradkin 2008].

Para realizar as etapas de treinamento e classificação dos dados, [Fradkin 2008]emprega grupos gerados na etapa de agrupamento para rotular as amostras. A partir disso,para K classes, com k grupos gerados em cada uma delas, um único classificador R é trei-nado para toda a base de dados, de modo que ele seja capaz de identificar todos os k⇥Knovos rótulos. Seus experimentos demonstraram que esses rótulos foram identificadoscom maior acurácia pelos classificadores lineares do que com os rótulos originais, melho-rando, portanto, o desempenho geral da classificação.

O resultado positivo apresentado por [Fradkin 2008] foi uma das motivações paraa adoção de uma abordagem semelhante proposta neste trabalho. Contudo, é necessárioressaltar que a técnica proposta pelo autor utiliza toda a base de dados como entrada únicapara o treinamento de um método capaz de lidar com múltiplas classes. Assim, com um

XIV Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2017 Uberlandia - MG 99

método de classificação linear (no caso, o SVM Linear), múltiplos classificadores sãogerados e combinados através da técnica one-vs-all. No final, é obtido um classificadorpara cada classe da base de dados [Zhouyu Fu et al. 2010].

Apesar da abordagem proposta neste trabalho também empregar a estratégia dedivisão-e-conquista através do agrupamento dentro das classes, os grupos formados nãosão utilizados para rotular as amostras. Ao invés disso, a etapa posterior ao agrupamentorealiza a interseção entre os grupos das partições formadas, mantendo os rótulos originaise produzindo uma única partição final com diversos subconjuntos da base completa. Otreinamento é realizado em cada subconjunto gerando classificadores lineares especializa-dos. A abordagem proposta ainda produz vários classificadores no final, entretanto, comoa quantidade de amostras em cada subconjunto é substancialmente reduzida, a etapa detreinamento tende a ser muita mais rápida [Fradkin 2008, Boley and Cao 2004]. Alémdisso, tanto a etapa de treinamento quanto de interseção podem ser paralelizadas paraassegurar maior eficiência.

A proposta deste trabalho, portanto, incorpora as principais vantagens presentesnos trabalhos correlatos existentes na literatura, uma vez que a estratégia de agrupamentodentro das classes é utilizada em conjunto com as estratégias de geração de classifica-dores especializados e seleção de modelos [Kuncheva 2000, Britto et al. 2014]. Comisso, espera-se que classificadores lineares treinados com diferentes visões localizadasdas amostras possam, em conjunto, oferecer desempenho similar ao de um classificadornão-linear, com a vantagem de ser muito mais eficiente em termos de complexidade com-putacional, além da possibilidade de paralelizar as etapas mais custosas.

3. Abordagem propostaA abordagem proposta neste trabalho é dividida em quatro etapas: (i) particionamento porclasse, (ii) interseção dos grupos, (iii) treinamento local e (iv) classificação. Cada umadelas é detalhada a seguir.

3.1. Particionamento por classeA primeira etapa consiste na separação das amostras de acordo com os seus rótulos e, emseguida, na aplicação de um algoritmo de agrupamento sobre os dados. O objetivo desseprocedimento é tentar identificar estruturas particulares de cada classe, que não seriamencontradas caso o agrupamento fosse aplicado sobre a base toda. A Figura 2 ilustra oresultado da aplicação de um algoritmo de agrupamento por densidade nas duas classesda base de dados ilustrada na Figura 1(a).

O algoritmo de agrupamento escolhido para esta etapa foi o tradicional k-médias,por ser simples e normalmente apresentar bom desempenho, além de ser um dos maisindicados e utilizados na literatura [Arthur and Vassilvitskii 2007,Fradkin 2008]. Por nãoser determinístico, o k-médias pode ser executado várias vezes e o resultado selecionadoserá aquele que apresentar o menor erro quadrático médio da distância das amostras emrelação ao centroide mais próximo [Arthur and Vassilvitskii 2007]. O parâmetro k (quan-tidade de grupos) pode ser determinado pelo método do cotovelo, que consiste em variaro valor de k em um intervalo e em seguida, escolher o valor que minimiza significativa-mente a soma do erro quadrático médio, ou seja, o maior valor de k que adiciona no erromédio uma variância maior que um certo limiar.

Após a aplicação do algoritmo de agrupamento, é possível que existam gruposcom um número muito pequeno de amostras, que precisam ser tratados para evitar odesbalanceamento na etapa de treinamento. Um limite mínimo de amostras por grupo foi

XIV Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2017 Uberlandia - MG 100

Figura 2. Particionamento por classe da base de dados ilustrada na Figura 1(a).

Cada círculo representa um grupo de amostras encontrado pelo algoritmo de

agrupamento baseado em densidade. Neste exemplo, foram encontrados dois

grupos em cada uma das classes (partições).

definido como um parâmetro para evitar esse problema. Assim, os grupos consideradospequenos são unidos aos grupos mais próximos, de acordo com a distância euclidianaentre seus respectivos centroides.

3.2. Interseção dos grupos

Seja K o número de classes em uma determinada base de dados. Após a aplicação doalgoritmo de agrupamento sobre as amostras de cada classe, são produzidas K partiçõesP = {p1, . . . , pK}. Uma partição pi possui k grupos disjuntos {gi1 , . . . , gik}. A etapa deinterseção tem o objetivo de identificar e unir grupos de diferentes classes cujas amostrasestejam sobrepostas, para comporem o conjunto de treinamento de um mesmo classifi-cador. Com isso, espera-se obter um classificador linear especializado na predição deamostras que estão localizadas em uma região de difícil separação (com sobreposição).

A interseção entre os grupos de partições de cada classe é feita em pares, compa-rando todos os grupos de uma partição com os grupos de outra. A união de dois gruposgij 2 pi, j 2 1 . . . ki com glm 2 pl,m 2 1 . . . kl, sendo que i 6= l e pi, pl 2 P , é re-alizada de acordo com um fator de interseção L que depende dos valores obtidos pelasobreposição S e proporção P entre cada par de grupos gij e glm.

A sobreposição (S) entre dois grupos quaisquer gi e gl corresponde à razão entrea quantidade de amostras sobrepostas e o total de amostras |gi [ gj| (Equação 1). Paradeterminar a quantidade de amostras sobrepostas, utiliza-se o raio de maior comprimentode cada grupo, isto é, a distância euclidiana entre o centroide e a amostra do grupo queestá mais distante dele. Isto quer dizer que, cada uma das amostras de gi que esteja dentrodo raio de maior comprimento de gl é contada como sobreposta, e vice-versa.

Sgi,gl =no de amostras sobrepostas

|gi [ gj|(1)

A proporção (P ) entre dois grupos quaisquer corresponde à razão entre a den-sidade do grupo menor (com menos amostras) pelo grupo maior (com mais amostras)(Equação 2). A densidade de um grupo se refere ao número de amostras do grupo, nor-malizado entre 0 e 1, de modo que o grupo com mais amostras possua densidade igual a 1.Com isso, se os grupos comparados forem proporcionais, o resultado de P será próximode 1, caso contrário tenderá a 0.

XIV Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2017 Uberlandia - MG 101

Pgi,gl =densidade de |gi|densidade de |gl|

, sendo |gi| |gl| (2)

O fator de interseção Lgi,gl entre dois grupos gi e gl é calculado pela divisão dovalor da sobreposição (Sgi,gl) pela proporção (Pgi,gl), conforme a Equação 3.

Lgi,gl =Sgi,gl

Pgi,gl

, com Pgi,gl 6= 0 (3)

A Tabela 1 analisa todas as possibilidades de resultados para o fator de interseçãoe apresenta os casos considerados para união de gi e gl, sendo que 0 Sgi,gl 1 e0 < Pgi,gl 1. Valores de Sgi,gl tendendo a 1, indicam que há muita sobreposição entreas amostras, e valores tendendo a 0 indicam pouca sobreposição. Analogamente, valoresPgi,gl tendendo a 1 indicam que os grupos são proporcionais e valores tendendo a 0, queos grupos são desproporcionais.

Sgi,gl Pgi,gl Lgi,gl União

Sgi,gl = 0 Pgi,gl > 0 Lgi,gl = 0 NãoSgi,gl ! 0 Pgi,gl ! 1 Lgi,gl ! 0 NãoSgi,gl ! 0 Pgi,gl ! 0 Lgi,gl ! 1 SimSgi,gl ! 1 Pgi,gl ! 1 Lgi,gl ! 1 SimSgi,gl ! 1 Pgi,gl ! 0 Lgi,gl ! +1 Sim

Tabela 1. Possíveis valores para o limiar de interseção. A última coluna indica

os casos em que a união é aplicada.

É possível observar que a união é aplicada sempre que há sobreposição de muitasamostras, ou ainda, quando há alguma sobreposição e o tamanho dos grupos é despropor-cional (um deles muito maior que o outro). Em todos os casos, o critério para união édefinido por meio de um parâmetro de entrada (�), que define um limiar de decisão paradeterminar se a união deverá ou não ser aplicada, Lgi,gl � �.

A Figura 3 ilustra um exemplo no qual dois grupos foram formados após a etapa deinterseção aplicada entre os grupos das duas partições ilustradas na Figura 2. Nota-se que,como neste caso os grupos são proporcionais, a interseção foi definida pela sobreposiçãoe, no final, dois grupos distintos compuseram a partição resultante.

3.3. TreinamentoNa etapa de treinamento, um método de classificação é utilizado para gerar um classi-ficador para cada um dos grupos da partição final resultante da etapa de interseção. Oobjetivo é produzir um classificador especializado nas amostras de cada grupo, e assim,poder oferecer melhor desempenho na predição das classes.

É possível que alguns dos grupos encontrados sejam constituídos por amostras deuma única classe. Neste caso, o próprio grupo torna-se em um classificador óbvio. Assim,se uma nova amostra de teste pertencer a algum desses grupos, ela é classificada comosendo da mesma classe de todas as amostras do grupo.

Caso existam grupos claramente desbalanceados, um algoritmo de balanceamentoé aplicado para adicionar ou remover amostras e assim, balancear o grupo de modo que

XIV Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2017 Uberlandia - MG 102

Figura 3. Resultado da interseção aplicada nos grupos das partições ilustradas

na Figura 2. A partição final é formada por dois grandes grupos representados

pelos retângulos.

o treinamento não seja impactado negativamente. Para realizar esse balanceamento, foiutilizada a biblioteca imbalanced-learn

1 [Lemaitre et al. 2016]. Contudo, caso existamgrupos extremamente desbalanceados, de modo que o algoritmo de balanceamento nãoconsiga tratá-los, nenhum classificador é treinado e a classe majoritária do grupo é atri-buída para as novas amostras de teste pertencentes a ele.

3.4. ClassificaçãoA fase de treinamento faz com que cada grupo da partição final seja associado a um meca-nismo de classificação das amostras de teste que porventura sejam atribuídas a ele. Essemecanismo pode ser a atribuição direta da classe do grupo ou o emprego de um classi-ficador especializado para o grupo. Para classificar uma nova amostra, primeiramente, énecessário identificar a qual grupo ela pertence. Isto é feito a partir do cálculo da dis-tância euclidiana da amostra em relação aos centroides de cada grupo. Ao encontrar ocentroide mais próximo, o mecanismo de classificação associado àquele grupo é utilizadopara classificar a nova amostra.

A Figura 4 ilustra os mecanismos de classificação definidos para a partição final,resultante do treinamento aplicado na partição apresentada na Figura 3. É possível no-tar que existem dois grupos, indicados pelos seus respectivos centroides (indicados por‘⇥’). Para cada um deles, um classificador linear foi treinado, de modo que cada novaamostra de teste é associada ao centroide mais próximo e, consequentemente, a um dosclassificadores especializados.

4. Experimentos e resultadosOs experimentos foram conduzidos com dois objetivos distintos:

1. Comparar o desempenho dos métodos lineares de classificação com e sem o usoda abordagem proposta neste trabalho, quando aplicados em bases de dados com-postas por amostras não separáveis linearmente; e

2. Verificar se a abordagem proposta pode conduzir à combinação de classificadoreslineares que ofereça desempenho de predição similar a de um classificador não-linear.

A seguir, são oferecidos detalhes sobre a metodologia experimental e os resultadosobtidos.

1A implementação da biblioteca imbalanced-learn está disponível em: https://goo.gl/nfjZMX.Acesso em 29/05/2017.

XIV Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2017 Uberlandia - MG 103

Figura 4. Modelo de classificação resultante da aplicação da abordagem pro-

posta. A linha vertical representa a divisão entre os grupos da partição (indica-

dos pelos centroides ‘⇥’) e as linhas vermelhas representam os classificadores

lineares treinados para cada grupo. Cada amostra nova de teste é classificada a

partir do preditor correspondente ao grupo a que ela pertencer.

4.1. Bases de dadosPara assegurar uma avaliação robusta da abordagem proposta, foram realizados testescom 7 bases de dados artificiais, heterogêneas, multi-classe, com diferentes estruturas degrupos e com dados não separáveis linearmente2. A Figura 5 ilustra cada uma dessasbases, sendo que cada cor representa uma classe distinta.

4.2. Metodologia experimentalOs métodos lineares de classificação utilizados foram: Logistic Regression (LR) e Linear

SVM (LSVM). Além desses, o método probabilístico Bernoulli Naïve Bayes (BNB) tam-bém foi avaliado. Os resultados obtidos com a abordagem proposta foram comparadoscom o desempenho do método Radial SVM (RSVM).

Para a implementação dos métodos de classificação, foi utilizada a bibliotecascikit-learn

3 [Pedregosa et al. 2011], sendo que os meta-parâmetros foram ajustados atra-vés de grid-search e validação cruzada com 5 fold: o método BNB foi treinado variandoo limiar de suavização no intervalo entre 10�7 e 107 e o limiar de binarização no intervalono entre 10�7 e 107; os métodos LR e LSVM foram avaliados variando o parâmetro deregularização (C) no intervalo entre 10�3 e 103; já o método RSVM foi avaliado variandoos parâmetros C e gamma no intervalo de 10�3 a 103.

Para a etapa de agrupamento, o k-médias foi executado 50 vezes, variando o nú-mero de grupos no intervalo entre 1 e 20. O limiar de variância empregado no método docotovelo foi de 10%. Cada grupo resultante possui um número mínimo de 20 amostras,valor definido empiricamente, a fim de evitar a insuficiência de amostras durante o proce-dimento de validação cruzada no treinamento dos métodos de classificação. O parâmetrode entrada do método referente ao limiar de interseção foi empiricamente definido como� = 0, 5.

A base de dados foi divida em 5 fold, de modo que, o experimento fosse repetido 5vezes e em cada repetição do experimento, 80% fosse utilizado para o treinamento e 20%

2Todas as bases de dados estão disponíveis em: https://bitbucket.org/nahimsouza/mestrado. Acesso em 29/05/2017.

3A biblioteca scikit-learn está disponível em: http://scikit-learn.org/stable/. Acessoem 29/05/2017.

XIV Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2017 Uberlandia - MG 104

Figura 5. Bases de dados utilizadas nos experimentos.

para testes (Figura 6). O objetivo de abordagem foi garantir que as amostras utilizadasdurante o treinamento e o teste dos classificadores fossem as mesmas, para permitir umamelhor comparação entre os resultados. É importante notar que a validação cruzada érealizada em dois momentos: (1) externamente, para avaliar o desempenho dos métodose (2) internamente, para o treinamento dos classificadores.

Figura 6. Metodologia experimental. CLF corresponde ao método de classifica-

ção tradicional. Part+CLF representa a abordagem proposta neste trabalho.

4.3. Análise dos resultadosA Tabela 2 apresenta a comparação de desempenho obtido pelos métodos de classificaçãocom e sem o uso da abordagem de particionamento proposta neste trabalho. Para essa

XIV Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2017 Uberlandia - MG 105

avaliação a métrica utilizada foi a F-medida, calculada a partir da média obtida em cadauma das partições de teste da validação cruzada (Figura 6). As primeiras três linhasindicam os resultados da macro F-medida média obtida pelos métodos tracionais. Astrês linhas seguintes apresentam a macro F-medida média obtida pelos mesmos métodosutilizando a abordagem de particionamento proposta (‘Part’). A última linha da tabelaapresenta a macro F-medida média obtida pelo método SVM com kernel radial.

monkey4 13cls 2blob 4bl2cl 2glob gaussian4 2bl4cl

BNB 0,58 0,09 0,50 0,41 0,41 0,18 0,24LR 0,61 0,45 0,88 0,54 0,60 0,23 0,61LSVM 0,66 0,88 0,88 0,62 0,41 0,31 0,57

Part+BNB 0,96 0,52 0,65 0,88 0,51 0,35 0,44Part+LR 1,00 0,96 0,91 0,90 0,86 0,62 0,62Part+LSVM 1,00 0,96 0,93 0,89 0,85 0,60 0,59

RSVM 1,00 0,97 0,90 0,91 0,92 0,67 0,59

Tabela 2. Macro F-medida média obtida pelos métodos de classificação avali-

ados. Os melhores resultados para cada base de dados estão destacados em

negrito.

É possível observar que, comparando o desempenho dos métodos avaliados, acombinação dos classificadores por grupo após o particionamento por classe conduziu auma melhoria significativa no desempenho dos métodos em todas as bases de dados utili-zadas. Além disso, na maioria dos testes executados, a abordagem proposta proporcionouque os métodos oferecessem resultados próximos ou até mesmo superior ao do métodonão-linear (RSVM).

Para analisar o quanto a abordagem proposta favoreceu o desempenho dos méto-dos avaliados, a Tabela 3 apresenta o ganho em %, dado pela diferença percentual entrea macro F-medida média obtida pelos métodos com e sem o emprego da abordagem departicionamento.

monkey4 13cls 2blob 4bl2cl 2glob gaussian4 2bl4cl

Part+BNB - BNB 65,5 477,8 30,0 114,6 24,4 94,4 83,3Part+LR - LR 63,9 113,3 3,4 66,7 43,3 169,6 1,6Part+LSVM - LSVM 51,5 9,1 5,7 43,5 107,3 93,6 3,5

Tabela 3. Diferença de desempenho (em %) entre a macro F-medida média obtida

pelos métodos de classificação avaliados com e sem o emprego da abordagem

de particionamento proposta.

É evidente que os três métodos de classificação avaliados obtiveram ganhos con-sideráveis ao serem combinados com o particionamento por classe. Em vários casos, acapacidade de predição chegou a dobrar. Outro destaque é o desempenho do métodoBNB, que embora não tenha alcançado os melhores resultados, a aplicação do particio-namento por classe fez com que a macro F-medida média aumentasse significativamenteem todas as bases de dados.

Para garantir que os resultados não foram obtidos ao acaso, foi realizada umaanálise estatística seguindo cuidadosamente os passos descritos por [Demšar 2006]. Pri-meiramente, foi efetuado um teste de hipótese que avalia a probabilidade de se cometer

XIV Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2017 Uberlandia - MG 106

um erro tipo I (rejeição da hipótese nula quando ela é verdadeira). A hipótese nula, nestecaso, assume que o aumento no desempenho dos métodos foi obtido ao acaso e não devidoà aplicação da abordagem proposta.

Para realizar o teste de hipótese, primeiramente, é necessário estabelecer um ní-vel de significância (↵), que corresponde à probabilidade de se cometer um erro tipo I.Em seguida, a estatística do teste e o p-valor são calculados. O p-valor representa a pro-babilidade de significância e, caso o p-valor seja menor que o valor de ↵, o resultado éconsiderado como significativo e a hipótese nula é rejeitada.

Neste trabalho, foram utilizados o Teste-T e o Teste de Friedman. O Teste-T foiutilizado para comparar a variação do desempenho aos pares, usando os resultados com esem a aplicação do particionamento por classe em cada um dos métodos de classificaçãoavaliados. O Teste de Friedman, por sua vez, foi utilizado para avaliar a variabilidadeentre os resultados obtidos.

Para ambos os testes, o nível de significância estabelecido foi de 5%, isto é,↵ = 0, 05. O aumento médio no desempenho reportado na Tabela 3 foi de 0,25. Tantoo Teste-T quanto o Teste de Friedman indicam que esse aumento no desempenho foiestatisticamente significante, com p-valor < 0, 05, e portanto, a hipótese nula pode serseguramente rejeitada. Assim, de acordo com a análise realizada, há 95% de chance dese obter um aumento médio de 0,25 no desempenho (macro F-medida média), a partir daaplicação da abordagem de agrupamento proposta neste trabalho.

5. ConclusãoNeste trabalho, foi proposta uma nova abordagem baseada na estratégia de divisão-e-conquista para melhorar o desempenho de métodos de classificação lineares. A partirdos resultados, verificou-se que a aplicação da proposta conseguiu aumentar significati-vamente o poder preditivo desses métodos de classificação, mesmo em bases de dadosmulti-classe compostas por amostras não separáveis linearmente.

Os resultados experimentais evidenciam que o emprego da abordagem propostapermitiu que os métodos avaliados atingissem resultados de predição similares ou atémesmo superiores aos do SVM radial nas bases de dados investigadas. A melhoria no de-sempenho foi muitas vezes significativo e comprovado através da análise estatística dosresultados. Além dos benefícios proporcionados à capacidade de predição, vale ressaltarque a abordagem proposta oferece a possibilidade de paralelização das etapas de treina-mento para cada grupo encontrado na partição final. Com isso, aliado à menor quantidadede amostras por grupo, o treinamento de cada método linear além de ser acelerado, podeser massivamente paralelizado. Tais características são altamente desejáveis em aplica-ções reais, nas quais muitas vezes os métodos de predição não-lineares são computacio-nalmente custosos.

Atualmente, estão sendo realizados testes com bases de dados reais e de grandeporte, além de estudos relacionados à paralelização das etapas de interseção e treina-mento. Para trabalhos futuros, outros métodos de classificação devem ser avaliados como objetivo de aprofundar a comparação com o método proposto.

ReferênciasAlmeida, L. M. e Galvão, P. S. (2016). Ensembles with clustering-and-selection model

using evolutionary algorithms. In Proceedings of the 5th Brazilian Conference on

Intelligent Systems (BRACIS’16), Recife, Brazil.

XIV Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2017 Uberlandia - MG 107

Arthur, D. e Vassilvitskii, S. (2007). k-means++: The advantages of careful seeding.In Proceedings of the 18th Annual ACM-SIAM symposium on Discrete algorithms

(SODA’07), volume 8, pages 1027–1035, Philadelphia, PA, USA. Society for Indus-trial and Applied Mathematics.

Boley, D. e Cao, D. (2004). Training Support Vector Machine using Adaptive Clustering.In Proceedings of the 4th SIAM International Conference on Data Mining (SDM’04),pages 126–137, Philadelphia, PA. Society for Industrial and Applied Mathematics.

Britto, A. S., Sabourin, R., e Oliveira, L. E. (2014). Dynamic selection of classifiers—Acomprehensive review. Pattern Recognition, 47(11):3665–3680.

Chih-Wei Hsu e Chih-Jen Lin (2002). A comparison of methods for multiclass supportvector machines. IEEE Transactions on Neural Networks, 13(2):415–425.

Coletta, L. F. S., Silva, N. F. F. D., Hruschka, E. R., e Hruschka, E. R. (2014). CombiningClassification and Clustering for Tweet Sentiment Analysis. In Proceedings of the

Brazilian Conference on Intelligent Systems (BRACIS’14), pages 210–215. IEEE.

Demšar, J. (2006). Statistical Comparisons of Classifiers over Multiple Data Sets. Journal

of Machine Learning Research, 7:1–30.

Fradkin, D. (2008). Clustering Inside Classes Improves Performance of Linear Classifi-ers. In Proceedings of the 20th IEEE International Conference on Tools with Artificial

Intelligence (ICTAI08), volume 2, pages 439–442. IEEE.

Jacobs, R. A., Jordan, M. I., Nowlan, S. J., e Hinton, G. E. (1991). Adaptive Mixtures ofLocal Experts. Neural Computation, 3(1):79–87.

Joachims, T. (2006). Training linear SVMs in linear time. In Proceedings of the 12th

ACM SIGKDD International Conference on Knowledge Discovery and Data Mining

KDD ’06, pages 217–226, Philadelphia, PA, USA. ACM Press.

Kuncheva, L. (2000). Clustering-and-selection model for classifier combination. In Pro-

ceedings of the 4th International Conference on Knowledge-Based Intelligent Engine-

ering Systems and Allied Technologies (KES’00), volume 1, pages 185–188, Brightom,UK. IEEE.

Kyriakopoulou, A. e Kalamboukis, T. (2008). Combining Clustering with Classificationfor Spam Detection in Social Bookmarking Systems. In Proceedings of the European

Conference on Machine Learning and Principles and Practice of Knowledge Disco-

very in Databases (ECML PKDD’08), pages 47–54, Antwerp, Belgium.

Lemaitre, G., Nogueira, F., e Aridas, C. K. (2016). Imbalanced-learn: A Python Toolboxto Tackle the Curse of Imbalanced Datasets in Machine Learning. Journal of Machine

Learning Research, 18:1–5.

Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel,M., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J., Passos, A., Cournapeau,D., Brucher, M., Perrot, M., e Duchesnay, E. (2011). Scikit-learn: Machine learning inPython. Journal of Machine Learning Research, 12:2825–2830.

Ruta, D. e Gabrys, B. (2005). Classifier selection for majority voting. Information Fusion,6(1):63–81.

Zhouyu Fu, Robles-Kelly, A., e Jun Zhou (2010). Mixing Linear SVMs for NonlinearClassification. Journal of IEEE Transactions on Neural Networks, 21(12):1963–1975.

XIV Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2017 Uberlandia - MG 108