giovani frondana 59 datasets - unicamp€¦ · giovani rondaf na comparação empírica de 16...

Universidade Estadual de Campinas

Instituto de ComputaçãoINSTITUTO DECOMPUTAÇÃO

Giovani Frondana

Comparação empírica de 16 algoritmos de regressão em

59 datasets

CAMPINAS

2017

Giovani Frondana

Comparação empírica de 16 algoritmos de regressão em 59

datasets

Dissertação apresentada ao Instituto deComputação da Universidade Estadual deCampinas como parte dos requisitos para aobtenção do título de Mestre em Ciência daComputação.

Orientador: Prof. Dr. Jacques Wainer

Este exemplar corresponde à versão �nal daDissertação defendida por Giovani Frondanae orientada pelo Prof. Dr. Jacques Wainer.

CAMPINAS

2017

Agência(s) de fomento e nº(s) de processo(s): Não se aplica.

Ficha catalográficaUniversidade Estadual de Campinas

Biblioteca do Instituto de Matemática, Estatística e Computação CientíficaMaria Fabiana Bezerra Muller - CRB 8/6162

Frondana, Giovani, 1981- F928c FroComparação empírica de 16 algoritmos de regressão em 59 datasets /

Giovani Frondana. – Campinas, SP : [s.n.], 2017.

FroOrientador: Jacques Wainer. FroDissertação (mestrado) – Universidade Estadual de Campinas, Instituto de

Computação.

Fro1. Comparações múltiplas (Estatística). 2. Análise de regressão. 3. Análise

de algoritmos. 4. Aprendizado de máquina. I. Wainer, Jacques,1958-. II.Universidade Estadual de Campinas. Instituto de Computação. III. Título.

Informações para Biblioteca Digital

Título em outro idioma: Empirical comparison of 16 regression algorithms on 59 datasetsPalavras-chave em inglês:Multiple comparisons (Statistics)Regression analysisAlgorithm analysisMachine learningÁrea de concentração: Ciência da ComputaçãoTitulação: Mestre em Ciência da ComputaçãoBanca examinadora:Jacques Wainer [Orientador]Gustavo Enrique de Almeida Prado Alves BatistaGerberth Adín Ramírez RiveraData de defesa: 16-03-2017Programa de Pós-Graduação: Ciência da Computação

Powered by TCPDF (www.tcpdf.org)

Universidade Estadual de Campinas

Instituto de ComputaçãoINSTITUTO DECOMPUTAÇÃO

Giovani Frondana

Comparação empírica de 16 algoritmos de regressão em 59

datasets

Banca Examinadora:

• Prof. Dr. Jacques WainerIC/UNICAMP

• Prof. Dr. Gustavo Enrique de Almeida Prado Alves BatistaICMC/USP

• Prof. Dr. Gerberth Adín Ramírez RiveraIC/UNICAMP

A ata da defesa com as respectivas assinaturas dos membros da banca encontra-se noprocesso de vida acadêmica do aluno.

Campinas, 16 de março de 2017

Resumo

Foram testados 16 algoritmos de regressão (random forest, support vector machines linear,polinomial e radial, 1-hidden-layer neural network, gradient boosting machine, k-nearestneighbor, generalized linear model com regularização lasso ou elasticnet, multivariateadaptive regression splines, cubist, relevance vector machine, partial least squares, prin-cipal component regression, extreme learning machine, RBF network e gaussian process)em 59 datasets reais, com as métricas MAE e MSE. Os algoritmos foram comparadossegundo os testes de Friedman com post-hoc Nemenyi e Wilcoxon corrigido por Hommel epor meio de análise bayesiana. Os resultados sugerem que o melhor algoritmo de regressãoé o cubist, ainda que para �ns práticos, em datasets muito grandes, a melhor opção sejao gradient boosting machine.

Abstract

We evaluated 16 regression algorithms (random forest, linear, polynomial and radial sup-port vector machines, 1-hidden-layer neural network, gradient boosting machine, k-nearestneighbor, generalized linear model with regularization lasso or elasticnet, multivariateadaptive regression splines, cubist, relevance vector machine, partial least squares, prin-cipal component regression, extreme learning machine, RBF network e gaussian process)on 59 real datasets with MAE and MSE metrics. For comparisons, we followed Fried-man test with Nemenyi post-hoc, Wilcoxon corrected by Hommel procedure and Bayesiananalysis. The results suggest that the best regression algorithm is cubist, although forpractical purposes, in very large datasets, the best option is gradient boosting machine.

Lista de Figuras

3.1 Tamanho × tempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.2 Tamanho × êxito no processamento . . . . . . . . . . . . . . . . . . . . . . 243.3 Desempenhos relativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.4 Grafos de resultados � Friedman com post-hoc Nemenyi . . . . . . . . . . 273.5 Grafos de resultados � Wilcoxon pareado com correção Hommel . . . . . . 293.6 Distribuições preditivas posteriores � exemplo . . . . . . . . . . . . . . . . 303.7 Distribuições posteriores das comparações � exemplos . . . . . . . . . . . 313.8 Grafos de resultados � análise bayesiana . . . . . . . . . . . . . . . . . . . 32

B.1 Distribuições preditivas posteriores � MAE � parte 1 . . . . . . . . . . . 51B.2 Distribuições preditivas posteriores � MAE � parte 2 . . . . . . . . . . . 52B.3 Distribuições preditivas posteriores � MAE � parte 3 . . . . . . . . . . . 53B.4 Distribuições preditivas posteriores � MSE � parte 1 . . . . . . . . . . . 54B.5 Distribuições preditivas posteriores � MSE � parte 2 . . . . . . . . . . . 55B.6 Distribuições preditivas posteriores � MSE � parte 3 . . . . . . . . . . . 56

Lista de Tabelas

2.1 Datasets utilizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.1 Valores p � Nemenyi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.2 Valores p � Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283.3 Probabilidades de equivalência . . . . . . . . . . . . . . . . . . . . . . . . . 33

C.1 Sumário da análise bayesiana � MAE � parte 1 . . . . . . . . . . . . . . 58C.2 Sumário da análise bayesiana � MAE � parte 2 . . . . . . . . . . . . . . 59C.3 Sumário da análise bayesiana � MAE � parte 3 . . . . . . . . . . . . . . 60C.4 Sumário da análise bayesiana � MSE � parte 1 . . . . . . . . . . . . . . . 61C.5 Sumário da análise bayesiana � MSE � parte 2 . . . . . . . . . . . . . . . 62C.6 Sumário da análise bayesiana � MSE � parte 3 . . . . . . . . . . . . . . . 63

Sumário

1 Introdução 10

2 Materiais e métodos 12

2.1 Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.2 Algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.3 Procedimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3 Resultados e discussão 23

3.1 Análise de testes de hipótese . . . . . . . . . . . . . . . . . . . . . . . . . . 253.2 Análise bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.3 Considerações �nais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4 Conclusão 35

A Adaptações nos datasets originais 43

B Distribuições preditivas posteriores 50

C Sumário de comparações � análise bayesiana 57

Capítulo 1

Introdução

Um amplo e recente trabalho de avaliação de algoritmos classi�cadores foi realizado porFernández-Delgado et al. [1], no qual 179 algoritmos classi�cadores pertencentes a 17diferentes famílias e implementados em diferentes tecnologias foram avaliados em 121diferentes datasets disponíveis no repositório da UCI [2], além de outros datasets refe-rentes a problemas reais, de modo a serem derivadas conclusões acerca dos algoritmosde maneira independente dos dados utilizados. No citado trabalho, os algoritmos maisprováveis de obterem melhor desempenho foram versões do random forest. Um trabalhoanterior realizado por King et al. [3] também comparou o desempenho de classi�cadoresutilizando-se vários datasets. Neste caso, nenhum algoritmo apresentou um desempenhouniformemente superior em todos os conjuntos de dados. Em outro trabalho [4] foi feitaavaliação similar, incluindo outros algoritmos classi�cadores e considerando também otempo de treinamento na avaliação dos mesmos. Posteriormente, Caruana e Niculescu-Mizil [5] realizaram um estudo similar incluindo novos algoritmos e avaliando os mesmosem 8 diferentes métricas, sendo que os algoritmos boosted trees com calibração e randomforest obtiveram desempenho destacado em todas as 8 métricas. Além disso, foi observadasigni�cante variabilidade de resultados entre problemas e métricas, sendo que mesmo osmelhores modelos, na média, podem obter mau desempenho e os piores modelos podematingir desempenho excelente, para alguns casos.

Outros diversos estudos avaliaram o desempenho de algoritmos classi�cadores em do-mínios especí�cos, como o realizado por Dreiseitl et al. [6], no qual foram avaliados algunsclassi�cadores para a determinação de tipo de lesão pigmentada na pele de pacientes. Oestudo de Liu et al. [7] mostra que o algoritmo random forest obteve o melhor desem-penho como classi�cador para o uso em língua eletrônica na diferenciação de sabores emarcas de suco de laranja e vinagre chinês. Outro estudo [8] conclui que, para a prediçãopré-operatória de morbidade cirúrgica de 30 dias para pacientes pediátricos, nenhum dosalgoritmos dentre support vector machine, random forest ou boosted trees apresentouresultados superiores aos apresentados pela aplicação de regressão logística. Em outrocaso, avaliou-se o desempenho de diversos classi�cadores na predição da direção do valorde ações de empresas, conforme descrito por Ballings et al. [9]. Nesse caso, concluiu-seque métodos ensemble apresentam resultados superiores a outros algoritmos mais ampla-mente utilizados pelo mercado, como regressão logística. Um trabalho que analisa o usode classi�cadores para a tarefa de se encontrar função de transferência para a renderização

10

CAPÍTULO 1. INTRODUÇÃO 11

de volumes complexos foi feito por Soundararajan e Schultz [10], concluindo que, apesarde não ser possível esperar que algum dos classi�cadores avaliados seja sempre claramentesuperior aos outros sob todas as métricas, o uso do random forest é recomendado comouma solução de pronto emprego. No contexto de análise de crédito, Brown e Mues [11]comparam diversas técnicas de classi�cação com o uso de conjuntos de dados desbalance-ados entre bons e maus pagadores, concluindo-se pela superioridade do random forest egradient boosting machine. Um estudo comparativo entre classi�cadores para a prediçãode genes associados a doenças foi realizado por Le et al. [12], concluindo-se pelo melhordesempenho do random forest dentre os algoritmos comparados.

Quanto ao modo de teste dos algoritmos, Dem²ar [13] recomenda métodos de com-paração múltipla de classi�cadores em múltiplos datasets. Trawi«ski et al. [14] realizamtrabalho similar para algoritmos regressores, tendo sido conduzidos experimentos paracomparações 1×N e N×N com 6 diferentes algoritmos neurais em 29 datasets de regres-são, concluindo-se sobre a relevância de procedimentos de comparação estatística múltiplapara a análise e seleção de algoritmos de aprendizado de máquina. Análises mais geraisde algoritmos regressores não são tão fartamente disponíveis quanto para classi�cadoresna literatura. Uma análise mais recente e bastante especí�ca foi realizada por Rodriguez-Galiano et al. [15]. No referido estudo, são analisados e comparados os algoritmos redesneurais arti�ciais, regression trees, random forest e support vector machine na prediçãode prospectividade mineral. Foram analisados aspectos como o desempenho dos algorit-mos e sua sensibilidade aos respectivos hiperparâmetros, com random forest obtendo, emgeral, os melhores resultados. Rousu et al. [16] concluem que o partial least squares éo melhor regressor para predição de qualidade em processos industriais de pani�cação.Alguns estudos tratam exclusivamente das técnicas para a seleção dos hiperparâmetros,como os feitos por Soares et al. [17], Cherkassky e Ma [18] e Chalimourda et al. [19] nocaso do support vector machine para regressão.

Tomando-se o universo dos estudos que apresentam algum tipo de análise compara-tiva entre algoritmos de aprendizado de máquina, observa-se que a grande maioria trataprincipalmente do uso e avaliação de algoritmos de classi�cação para resolver problemasde domínios especí�cos. Em menor escala, encontram-se alguns estudos mais recentescomparando-se o uso de algoritmos regressores, também para problemas especí�cos. Háainda alguns poucos estudos mais abrangentes abordando classi�cação, que se utilizamde conjuntos de dados de diversas origens e que possuem o intuito de avaliar os principaisalgoritmos disponíveis de modo menos dependente do domínio do problema. Observa-se que há carência de estudos de abrangência similar a estes últimos porém referentesa algoritmos de regressão. Deste modo, procurando suprir essa lacuna, este trabalhotem por objetivo realizar a comparação empírica de 16 algoritmos em 59 datasets reais,derivando-se das relações entre os mesmos quais são os melhores algoritmos de regressão.

Capítulo 2

Materiais e métodos

Neste capítulo são apresentados os datasets utilizados nos experimentos e os algoritmosselecionados para a análise comparativa. O conjunto avaliado varia de algoritmos con-sagrados pelo uso e com reconhecido desempenho, conforme apresentado na introdução,como random forest e variações do support vector machine, assim como outros menoscomuns, como gaussian process e cubist. Também, são apresentados os procedimentosrealizados para a obtenção dos desempenhos dos algoritmos e os métodos estatísticosutilizados para a análise.

2.1 Datasets

Os seguintes datasets foram utilizados nos experimentos, todos extraídos do repositório daUCI [2]: 3d-spatial-network [20], air-quality-c6h6 [21], air-quality-co [21], airfoil-self-noi-se, auto-mpg, automobile, bike-sharing-dataset-day [22], bike-sharing-dataset-hour [22],blog-feedback [23], buzz-in-social-media-toms-hardware [24], buzz-in-social-media-twitter[24], coil-1999-competition-1, coil-1999-competition-2, combined-cycle-power-plant [25,26], communities-and-crime-1 [27�30], communities-and-crime-2 [27�30], communities-and-crime-unnormalized-nonviolent [27�29], communities-and-crime-unnormalized-viole-nt [27�29], computer-hardware, concrete-slump-test-slump [31], concrete-compressive-s-trength [32], condition-based-maintenance-of-naval-propulsion-plants [33], educational-process-mining-epm-a-learning-analytics-data-set [34], energy-e�ciency-cooling [35], en-ergy-e�ciency-heating [35], fertility [36], forest-�res [37] gas-sensor-array-drift-dataset-at-different-concentrations [38, 39], gas-sensor-array-under-dynamic-gas-mixtures-ethylene[40], gas-sensor-array-under-dynamic-gas-mixtures-methane [40], geographical-original-of-music-longitude [41], geographical-original-of-music-plus-chromatic-latitude [41], green-house-gas-observing-network [42], heart-disease-data-set-cleveland, heart-disease-data-set-hungarian-switzerland-va, housing, istambul-stock-exchange [43, 44], kegg-metabolic-reac-tion-network-undirected, kegg-metabolic-relation-network-directed, liver-disorders, onli-ne-news-popularity [45], online-video-characteristics-and-transcoding-time-dataset-umem[46], online-video-characteristics-and-transcoding-time-dataset-utime [46], parkinson-spee-ch-dataset-with-multiple-types-of-sound-recordings [47], parkinsons-telemonitoring [48],physicochemical-properties-of-protein-tertiary-structure, poker-hand, relative-location-of-

12

CAPÍTULO 2. MATERIAIS E MÉTODOS 13

Tabela 2.1: Datasets utilizados como problemas e extraídos da base de dados da UCI. Atabela mostra o número de linhas e o número de colunas do formato �nal. São exibidasa primeira e a última palavra dos nomes originais.

Dataset Linhas Colunas Dataset Linhas Colunas

3d-network 434.874 2 geographical-longitude 1.059 68air-c6h6 8.991 5 geographical-latitude 1.059 116air-co 7.344 5 greenhouse-network 955.167 15airfoil-noise 1.503 5 heart-cleveland 297 13auto-mpg 392 13 heart-va 437 10automobile 193 65 housing 506 13bike-day 731 11 istambul-exchange 536 7bike-hour 17.379 12 kegg-undirected 64.607 27blog-feedback 52.397 280 kegg-directed 53.413 22buzz-hardware 28.179 96 liver-disorders 345 5buzz-twitter 583.250 77 onlinepopularity 39.644 58coil-1 282 18 online-umem 68.784 25coil-2 282 18 online-utime 68.784 25combined-plant 9.568 4 parkinson-recordings 1.040 26communities-1 1.993 100 parkinsons-telemonitoring 5.875 16communities-2 319 122 physicochemical-structure 45.730 9communities-nonviolent 2.117 102 poker-hand 25.010 25communities-violent 1.993 102 relative-axis 53.500 384computer-hardware 209 6 servo 167 12concrete-slump 103 7 skill-dataset 3.338 18concrete-strength 1.030 8 sml2010 4.137 18condition-plants 11.934 15 solar-�are 1.389 27educational-set 558 72 student-performance 1.044 44energy-cooling 767 8 uji-latitude 19.937 520energy-heating 768 8 uji-longitude 19.937 520fertility 100 9 wine-red 1.599 11forest-�res 517 29 wine-white 4.898 11gas-concentrations 13.910 134 yacht-hydrodynamics 308 6gas-ethylene 83.867 16 year-msd 515.345 90gas-methane 41.785 16

ct-slices-on-axial-axis, servo, skill-craft1-master-table-dataset, sml2010 [49], solar-�are,student-performance [50], uji-indoor-loc-latitude [51], uji-indoor-loc-longitude [51], wine-quality-red [52], wine-quality-white [52], yacht-hydrodynamics, year-prediction-msd.

Os datasets originais tiveram sua formatação padronizada para a realização dos ex-perimentos, assim como, quando foi o caso, tiveram linhas com valores faltantes (NA)removidas. Desse modo, nenhum dataset no presente experimento possui qualquer valorNA. Também, alguns dos datasets originais deram origem a 2 datasets diferentes e, emoutros casos, mais adaptações foram feitas de modo a se possibilitar a realização dos ex-perimentos. A relação completa das adaptações aplicadas aos datasets originais constano Apêndice A.

Alguns dos algoritmos avaliados funcionam com valores nominais enquanto outrosfuncionam apenas com valores numéricos. Por isso, os datasets adaptados deram origem


a 2 versões do dataset, sendo a primeira com as colunas nominais mantidas, quandoas possuam, para uso quando o algoritmo possibilitar, e uma segunda versão com essascolunas nominais transformadas em n colunas binárias, em que n é o número de classesdiferentes da respectiva coluna, para os casos em que o algoritmo apenas aceite valoresnuméricos. As duas versões dos datasets então tiveram suas colunas padronizadas commédia igual a 0 e desvio padrão igual a 1. São estas últimas versões dos datasets asutilizadas para o processamento dos experimentos.

Foram coletados todos os datasets disponíveis no repositório de origem em que fossepossível a aplicação de tarefas de regressão. Em muitos casos, pouca adaptação se feznecessária; porém, conforme descrito, em alguns casos foi preciso uma quantidade maiorde manipulação nos dados para que o experimento pudesse ser realizado. A opção pelainclusão de todos os datasets, mesmo daqueles em que fossem necessárias adaptaçõescomo exclusão de linhas ou colunas, em vez da seleção de datasets com con�guração maispróxima do desejável, se deveu à intenção de se obter um conjunto de datasets que me-lhor representasse a realidade, considerando-se como realidade todo e qualquer possíveldataset que possa ser utilizado em tarefas de regressão. Desse modo, considera-se aquicomo premissa que o processo natural de formação do universo de datasets disponível norepositório fonte representa melhor a realidade que um subconjunto desse mesmo reposi-tório selecionado com base em detalhes de formato ou conveniência para a realização dosexperimentos. A relação �nal dos 59 datasets utilizados e algumas de suas característicaspode ser vista na Tabela 2.1.

2.2 Algoritmos

Foram avaliados 16 algoritmos, todos representados por implementações em R [53]. Nasequência, são enumerados os algoritmos e respectivos detalhes de implementação oucon�guração, assim como seleção dos hiperparâmetros a serem ajustados ou alterados emrelação ao valor padrão da implementação, conforme detalhado na Seção 2.3, e a respectivafaixa de valores utilizada na busca dos mesmos, quando aplicável.

1. rf, algoritmo random forest, com o uso da função randomForest do pacote random-Forest [54].

• mtry: [30;min(5.000;max(50; floor(nLinha1/2)))] (inteiro)

• ntree: [2;min(ceiling(4× sqrt(ncol(dt2)− 1));ncol(dt)− 1)] (inteiro)

2. svmL, algoritmo support vector machines (SVM) linear, com o uso da função svmdo pacote e1071 [55].

• kernel: �linear�

• epsilon: [0; 0,5] (decimal)

• cost: 2[−5;15] (decimal)

1Número de linhas total do conjunto de dados de treinamento.2Subconjunto de dados utilizado na busca de hiperparâmetros (limitado 5.000 linhas).


3. svmR, algoritmo SVM radial, com o uso da função svm do pacote e1071 [55].

• kernel: �radial�



• gamma: 2[−15;3] (decimal)

4. svmP, algoritmo SVM polinomial, com o uso da função svm do pacote e1071 [55].

• kernel: �polynomial�



• degree: [2; 6] (inteiro)

5. nn, algoritmo 1-hidden-layer neural network, com o uso da função nnet do pacotennet [56].

• size: [3;min(150;max(4; ceiling(2× (ncol(dt)− 1)/3)))] (inteiro)

• decay: [0,01; 0,3] (decimal)

• MaxNWts: 10.000

6. gbm, algoritmo gradient boosting machine, com o uso da função gbm do pacotegbm [57].

• distribution: �gaussian�

• n.trees: [10; 500] (inteiro)

• interaction.depth: [1; 5] (inteiro)

• shrinkage: [0,01; 0,1] (decimal)

7. knn, algoritmo k-nearest-neighbor regression, com o uso da função kknn do pacotekknn [58].

• k: [1, f loor(sqrt(nLinha))] (inteiro)

• distance: 2 (inteiro)

8. enet, algoritmo GLM (Generalized Linear Model) with lasso or enet regularization,com o uso da função glmnet do pacote glmnet [59].

• family: �gaussian�

• alpha: {0; 1; ]0; 1[ (decimal)}

9. mars, algoritmo multivariate adaptive regression splines (MARS), com o uso dafunção earth do pacote earth [60].

• degree: [1; 5] (inteiro)


10. cubist, algoritmo cubist, com o uso da função cubist do pacote Cubist [61].

• committees: [5; 100] (inteiro)

• neighbors: [0; 9] (inteiro)

11. rvm, algoritmo relevance vector machine, com o uso da função rvm do pacotekernlab [62].

• kernel: �rbfdot�

• sigma: valor determinado pela função sigest do pacote kernlab

12. pls, algoritmo partial least squares regression, com o uso da função mvr pacote pls[63].

• method: �oscorespls�

• ncomp: [floor((ncol(dt)− 1)/2);min(floor(nrow(dt)× 2/3)− 1;ncol(dt)− 1)]

(inteiro)

13. pcr, algoritmo principal component regression, com o uso da função mvr do pacotepls [63].

• method: �svdpc�

• ncomp: [floor((ncol(dt)− 1)/2);min(floor(nrow(dt)× 2/3)− 1;ncol(dt)− 1)]

(inteiro)

14. elm, algoritmo extreme learning machine for single hidden layer feedforward neuralnetworks, com o uso da função elmtrain do pacote elmNN [64].

• actfun: �sig�

• nhid: [3; 2× (ncol(dt)− 1)] (inteiro)

15. rbf, algoritmo radial basis function (RBF) network, com o uso da função rbf dopacote RSNNS [65].

• size: [3;max(4; ceiling(2× (ncol(dt)− 1)/3))] (inteiro)

16. gp, algoritmo gaussian process, com o uso da função gausspr do pacote kernlab [62].

• kernel: �rbfdot�

• sigma: valor determinado pela função sigest do pacote kernlab

Nos casos em que os hiperparâmetros são ajustados, isso ocorre através da seleçãodos valores com melhor desempenho para o algoritmo no dataset, conforme detalhado naseção seguinte.


2.3 Procedimentos

As métricas utilizadas para a de�nição do desempenho dos algoritmos foram o erro médioabsoluto (MAE) e o erro quadrático médio (MSE), tendo sido realizadas análises estatís-ticas independentes para cada uma das referidas métricas. Para a obtenção dos valoresa serem utilizados como desempenho de cada algoritmo nos datasets, para cada uma dasmétricas, os procedimentos descritos a seguir foram adotados.

Cada dataset di foi dividido aleatoriamente com o uso da semente s em 3 subcon-juntos (subsets) com número de linhas similar, d1i, d2i e d3i. Então, para cada subsetd−ji,5k, em que o subscrito −ji denota o subset formado por di − dji e o subscrito nkdenota que o número de linhas do subset é limitado a n × 1.000, escolhidas aleatoria-mente quando for o caso, um procedimento de validação cruzada (CV) 3-fold foi reali-zado para a seleção do melhor conjunto de hiperparâmetros θj dentre um máximo de 50combinações de valores possíveis, geradas aleatoriamente dentro das faixas descritas naSeção 2.2, para cada algoritmo a. O algoritmo a foi então sucessivamente treinado comos hiperparâmetros θj no subset d−ji e nos subsets d−ji,nk, para cada valor de n tal quen ⊂ {3; 5; 10; 20; 30; 50; 70; 100; 150; 200; 300; 500; 800} e n× 1.000 < nrow(d−ji) e testadono subset dji, em cada vez resultando no valor de erro ε(i; a; j; s;n), em que n denota onúmero de linhas do subset utilizado no treinamento. O procedimento descrito foi exe-cutado para 2 valores diferentes de sementes, resultando em até, idealmente, 6 possíveisvalores de erros para cada combinação de algoritmo, dataset, métrica e número de linhasdo treinamento.

Na execução dos experimentos, em alguns casos, fatores de ordem prática, como lenti-dão ou quebra apresentados por alguns dos algoritmos, impediram a obtenção de todos osvalores de erros para todas as combinações de algoritmos e datasets utilizando o conjuntocompleto de dados dos datasets com número de linhas elevado, acarretando em indese-jáveis valores faltantes (NA) nas tabelas de desempenho dos algoritmos a serem usadasna posterior análise comparativa. Desse modo, optou-se, pelas mesmas razões práticasque levaram à limitação no tamanho do conjunto de dados utilizado para a seleção doshiperparâmetros (5.000 linhas, conforme procedimento descrito anteriormente), pela exe-cução do treinamento dos algoritmos em subconjuntos dos datasets originais de tamanhocrescente, até o limite das possibilidades das implementações utilizadas e dos recursoscomputacionais disponíveis, possibilitando-se assim maior �exibilidade nas posterioresanálises estatísticas dos desempenhos.

Um dos problemas a ser contornado na análise comparativa de múltiplos algoritmos so-bre múltiplos datasets é o tratamento dado aos prováveis valores NA existentes após seremgeradas as respectivas tabelas de desempenhos. Diversas abordagens têm sido utilizadas,como a imputação de algum valor absoluto, a exemplo do realizado por Fernández-Delgadoet al. [1], imputação de valor médio ou outra estimativa ou mesmo a exclusão da linha,correspondente ao dataset, que contenha o valor NA. A imputação de valor possivelmentesempre é tendenciosa, ao passo que a exclusão de linhas reduz o poder dos testes aomesmo tempo em que provavelmente diminui a verossimilhança do universo de datasetsutilizado com a realidade. Desse modo, dados um algoritmo a e um dataset d, os valoresdos desempenhos dos algoritmos para o presente teste foi dado, inicialmente, por ε1(d; a),


sendo que

ε1(d; a) =ε(d; a; f1; s2;n) + ε(d; a; f2; s2;n) + ε(d; a; f3; s2;n)

3, (2.1)

em que fi é um dos 3 folds, s2 é a segunda das 2 sementes processadas e n é o maior valor emque nenhum dos erros dos 3 respectivos folds seja NA. O procedimento equivale a imputaros valores que seriam NA para o algoritmo processado no dataset completo com o valorobtido do processamento do mesmo algoritmo no mesmo dataset, porém treinado em umsubconjunto deste com o maior número de linhas praticável. Com isso, esperou-se obtermenor quantidade de valores NA do que seria obtida no caso da tentativa de processamentodos algoritmos apenas nos datasets completos, apesar de o procedimento ainda permitira existência de valores NA nos casos de algoritmos e datasets em que nenhum tamanhode subset resulte em valores válidos para os 3 respectivos folds, considerando-se a mesmasemente.

Obtidas as tabelas de desempenhos, procedeu-se às análises dos algoritmos. O métodoinicial utilizado para a comparação visual dos mesmos foi o cálculo e ordenação de seusrankings médios de desempenho por dataset. Os valores absolutos dos erros de�nidos naEquação 2.1 foram substituídos por valores relativos, na forma

εrelativo(d; a) =min ε(d)

ε1(d; a), (2.2)

em que ε(d) é o conjunto dos erros ε1 de todos os algoritmos no dataset d.Com isso, o melhor algoritmo em cada dataset, ou seja, o algoritmo com o menor valor

de erro, recebe o valor 1 e os demais algoritmos recebem valores tão próximos a 1 quantomenores forem seus erros. Também, as diferenças entre valores relativos são maiores paravalores mais próximos ao melhor valor para o dataset, o que guarda relação com a intuiçãode que quanto mais próximo de um virtual desempenho ideal, mais difícil é a consequenteaproximação ao mesmo e maior peso deveria ter a respectiva distância. Ainda, os valoressão resilientes a outliers, com os valores relativos tendendo a 0 para valores absolutos deerros muito grandes. Por �m, o método apresenta solução neutra para casos de NA, poisao desconsiderá-los não altera os valores relativos dos outros algoritmos, ao contrário dosmétodos baseados em ranking, em que a existência de um valor NA invariavelmente iráalterar para melhor os valores de rankings de algoritmos com possível pior desempenho emrelação ao valor ausente. Os valores resultantes foram plotados de modo a se possibilitar avisualização dos resultados. Procedeu-se, então, aos métodos estatísticos de comparação,sendo que foram realizados duas análises do tipo teste de hipótese e uma análise bayesiana.

O primeiro dos testes de hipótese utilizados para a comparação múltipla dos algoritmosnos datasets foi o recomendado por Dem²ar [13], através da aplicação inicial do teste deFriedman corrigido pela estatística de Iman e Davenport para veri�cação se há evidênciasigni�cante de que a hipótese nula � de que todos os erros dos algoritmos provêm damesma distribuição � deva ser rejeitada. Esse é o caso quando o teste resulta no valorp < 0,05, quando então deve ser aplicado um teste post-hoc como o teste de Nemenyi, quecalcula o valor p de todas as comparações par a par entre os algoritmos. Quando se obtémum valor p < 0,05, rejeita-se a hipótese nula, permitindo-se a�rmar que as diferenças entre


os algoritmos são estatisticamente signi�cantes. A tabela de desempenhos utilizada, paracada métrica, foi obtida pela aplicação da Equação 2.1, com posterior exclusão das linhasem que algum valor tenha sido NA. A aplicação do teste permitiu a obtenção de todosos valores p correspondentes a 120 comparações dos possíveis pares formados pelos 16algoritmos, com o que se procedeu à análise do correspondente resultado.

Um segundo teste foi aplicado, conforme proposto por Benavoli et al. [66]. O mé-todo propõe a execução da comparação dos valores absolutos dos erros de cada par dealgoritmos pelo teste de Wilcoxon pareado seguido pela correção de Hommel dos valoresp obtidos para o controle do erro em família. A tabela de desempenhos utilizada, paracada métrica, também foi obtida pela aplicação da Equação 2.1, porém com o tratamentode NA feito no momento da comparação de cada par de algoritmos, com a exclusão daseventuais linhas pareadas que contenham algum valor NA para algum dos dois algoritmos.Desse modo, uma quantidade maior de dados foi utilizada neste teste em relação ao testeanterior, que poderia excluir dados de uma linha completa mesmo no caso da ocorrênciade apenas 1 NA na linha, inutilizando-se os valores dos erros dos demais algoritmos na-quela linha. A aplicação deste teste também originou todos os valores p correspondentesàs 120 mesmas comparações dos possíveis pares de algoritmos, permitindo a análise doresultado.

O terceiro teste realizado foi uma análise bayesiana para obtenção de inferências sobreos dados, permitindo-se a comparação dos algoritmos de modo análogo aos testes anterio-res, conforme apresentado por Kruschke [67, 68]. Uma das vantagens desse tipo de análiseé a possibilidade de se construir os modelos baseados nas características dos próprios dadosa serem analisados, no lugar das aproximações sobre características dos mesmos exigidasem testes como os de Friedman e Wilcoxon pareado utilizados anteriormente. Além disso,também é possível inferências análogas à rejeição de hipótese nula dos testes de hipótese,sendo possível até mesmo a con�rmação de hipótese nula. A estrutura de dados da tabelade desempenhos dos algoritmos utilizada nesse caso consiste em 1 preditor métrico, que éo valor numérico do desempenho do algoritmos, e 2 preditores nominais, que são o algo-ritmo e o dataset correspondentes. O teste adequado a esta estrutura, conforme descritopor Kruschke [68, Capítulo 20], corresponde a uma generalização bayesiana hierárquicado teste tradicional 2-way ANOVA. Observe que o teste de Fridman com post-hoc cor-responde a uma versão não paramétrica do ANOVA. A análise também permite o usode uma tabela de desempenhos dos algoritmos mais completa que a utilizada nos testesanteriores, sendo que em cada célula da tabela, correspondente a uma combinação de al-goritmo e dataset, é possível existirem tantos valores quanto se queira, inclusive nenhum(NA). Desse modo, os valores de erros atribuídos à célula correspondente ao algoritmo ae dataset d foram formados pelo conjunto

ε2(d; a) = log10 ε(d; a; j; k;n), (2.3)

em que n é o maior valor em que houve processamento bem sucedido de algum dos 6 folds,correspondentes a 3 folds para cada uma das 2 sementes diferentes, e j e k correspondemàs combinações de fold e semente em que o resultado é não nulo. A transformação dodado bruto para seu logaritmo faz com que as diferenças entre os valores de erros conside-


radas pelo modelo representem as proporções entre os mesmos e permite a não exclusãode valores extremos que impediriam o processamento do modelo, possibilitando o uso detoda a massa de dados disponível, proporcionando resultados que representem a realidadetanto quanto possível. Assim, em cada célula podem existir até 6 valores diferentes, ouNA no caso em que nenhum processamento tenha sido bem sucedido para nenhum númerode linhas. Cada um dos 6 folds corresponde a um subconjunto de seu dataset, podendoaqueles compartilharem entre si 50% dos dados, no caso de folds distintos gerados coma mesma semente, ou um valor de 0% até 44,44% dos dados, conforme a porção do da-taset processada com êxito, no caso dos folds gerados com sementes diferentes, o que seconsiderou como aproximadamente equivalente, em termos de similaridade entre os sub-conjuntos, a até 6 extrações aleatórias, com sementes diferentes entre si, de subconjuntosformado por até 2

3das linhas totais do dataset.

Note a diferença do descrito acima para o teste de Friedman com post-hoc Nemenyi,em que além de não ser possível valores NA nas células, também não é possível mais que1 valor nas mesmas, além de não ser adequado a utilização dos folds ao invés dos datasetspara se aumentar o número de linhas de uma tabela de desempenhos e o correspondentepoder do teste, já que o teste não permite dependência entre as linhas. Desse modo, aanálise bayesiana processa um número de informações maior sobre as relações subjacentesaos dados, por não sofrer as limitações causadas pelas aproximações e condições sobre osdados dos testes de hipótese. Some-se a isso outras limitações discutidas no Capítulo 3 ese conclui que o uso da análise bayesiana para a comparação de múltiplos algoritmos emmúltiplos datasets apresenta-se como uma alternativa a ser considerada.

O modelo hierárquico completo utilizado foi de�nido nos seguintes termos:

yi ∼ N(µi;σ[j;k](i)

)(2.4)

µi = β0 +∑j

β1[j]x1[j] (i) +∑k

β2[k]x2[k] (i) +∑j;k

β1×2[j;k]x1×2[j;k] (i) (2.5)

σ[j;k](i) ∼ Γ (ω;σσ) (2.6)

ω ∼ Γ(σyi

2;σyi × 2

)(2.7)

σσ ∼ Γ(σyi

2;σyi × 2

)(2.8)

β0 ∼ N (µyi ;σyi × 5) (2.9)

β1[j] ∼ N (0;σβ1) (2.10)

β2[k] ∼ N (0;σβ2) (2.11)


σβ1 ∼ Γ(σyi

2;σyi × 2

)(2.12)

σβ2 ∼ Γ(σyi

2;σyi × 2

)(2.13)

β1×2[j;k] ∼ t(0;σβ1×2 ; ν

)(2.14)

σβ1×2 ∼ Γ(σyi

2;σyi × 2

)(2.15)

ν = ν ′ + 1 (2.16)

ν ′ ∼ Exp

(1

29

)(2.17)

No modelo acima, o valor médio predito do erro, µi, corresponde a um valor base β0mais uma de�exão β1[j] para cada algoritmo j, mais uma de�exão β2[k] para cada datasetk, mais uma de�exão β1×2[j;k] para cada combinação entre algoritmo j e dataset k, devidaà interação entre ambos, conforme Equação 2.5. Os erros dos algoritmos, yi, seguem umadistribuição intra célula normal com média µi e desvio padrão σ[j;k](i), conforme Equa-ção 2.4. O desvio padrão intra célula é variável, de modo que cada combinação entrealgoritmo j e dataset k possui um desvio padrão próprio para a dispersão dos erros den-tro da mesma, e recebe a distribuição a priori gamma da Equação 2.6. Esta, por suavez, recebe para seus parâmetros moda ω e desvio padrão σσ também distribuições apriori gamma, conforme Equações 2.7 e 2.8, nas quais σyi é o desvio padrão de todo oconjunto yi. O parâmetro base β0 recebe uma distribuição a priori normal, conforme aEquação 2.9, em que µyi é a média de todo o conjunto yi. Os parâmetros de de�exãodos algoritmos e datasets seguem distribuição normal, respectivamente conforme Equa-ções 2.10 e 2.11, cujos desvios padrão recebem distribuições a priori gamma, conformeEquações 2.12 e 2.13, em que os parâmetros da distribuição representam a moda e o des-vio padrão, respectivamente. A Equação 2.14 de�ne o parâmetro de de�exão da interaçãoentre algoritmo e dataset como uma distribuição t de Student com média 0, parâmetro deescala σβ1×2 (Equação 2.15) e parâmetro de normalidade ν (Equações 2.16 e 2.17, em queExp (λ) representa a distribuição exponencial com taxa λ). O uso da distribuição robustaa outliers t de Student como a priori para a de�exão relativa à interação se deve à crença,oriunda da observação dos dados, no fato de que alguns resultados extremos que podemser produzidos em algumas combinações especí�cas de algoritmos e datasets se devemà respectiva interação entre ambos, possibilitando assim que o modelo possa acomodaresses outliers neste parâmetro, sem afetar o valor dos desvios padrão intra célula σ[j;k](i),que de outra maneira poderiam ser superestimados.

Os resultados da análise bayesiana realizada foram utilizados como subsídio para abusca de 2 objetivos, a seguir de�nidos, similarmente ao realizado por Kruschke [67].O objetivo 1 é mostrar, para cada par de algoritmos, que um deles é signi�cativamentemelhor que o outro. O objetivo é considerado atingido em cada caso se 95% do HDI


(intervalo de máxima densidade) das médias das diferenças entre ambos excluir a ROPE(região de equivalência prática) de�nida. O objetivo 2 é aceitar a hipótese de que ambosos algoritmos são equivalentes quanto ao desempenho, o que ocorre nos casos em que aROPE englobe completamente a região de 95% do HDI. Além disso, nos casos em que nãofor atingido nenhum dos objetivos, será apresentado o quão credível é a a�rmação de queambos os algoritmos são equivalentes. A ROPE utilizada, para cada par de algoritmos a1e a2, foi de�nida pela equação

ROPE = mediana (δa1 ∪ δa2) , (2.18)

em que

δa = |log10 ε(di; a; s1)− log10 ε(di; a; s2)| ,∀i (2.19)

é o conjunto das diferenças absolutas dos erros de um algoritmo a de�nidos conforme aEquação 2.1, porém para cada semente s1 e s2. A ideia dessa de�nição é que a ROPErepresente um valor típico de variação no erro, considerando-se ambos os algoritmos com-parados, devida apenas à variação na amostragem dos dados.

Capítulo 3

Resultados e discussão

Um total de 29.180 experimentos foram bem sucedidos, cada um correspondendo a umvalor diferente de ε, conforme descrito na Seção 2.3, considerando-se as duas métricasa serem avaliadas, sendo 14.508 resultantes da semente s1 e 14.672 da semente s2. Otempo máximo de treinamento foi de aproximadamente 29,6 dias no processamento doalgoritmo svmP para um subset de greenhouse-network com 636.778 linhas e o tempomáximo de teste foi de aproximadamente 2,7 dias no processamento do algoritmo cubistem um subset de buzz-twitter com 20.000 linhas. O comportamento dos logaritmos base10 dos tempos de treinamento e teste versus o tamanho do dataset (número de linhas dosubset) pode ser visto na Figura 3.1.

Observa-se que os algoritmos gp e rvm apresentaram o maior aumento do tempo deprocessamento proporcionalmente ao aumento do tamanho do dataset, sendo que essesalgoritmos não apresentaram resultados a partir de determinado tamanho de dataset. Oalgoritmo rf apresentou comportamento similar, porém foi capaz de processar datasetsmaiores, mas também apenas até determinado ponto. O cubist foi mais lento que o rf nosdatasets menores, até aproximadamente 103,3, a partir de onde o tempo de processamentoevoluiu mais lentamente que o do rf, o que sugere que aquele é mais viável que estepara datasets maiores. Destaca-se que, no referido ponto, os tempos de processamento

Figura 3.1: Tamanho do conjunto de treinamento (log10 do número de linhas) × tempogasto no treinamento e teste (log10 do tempo em segundos).

23

CAPÍTULO 3. RESULTADOS E DISCUSSÃO 24

Figura 3.2: Tamanho do conjunto de treinamento (log10 do número de linhas) × númerode tarefas bem sucedidas (log10 do número de tarefas).

correspondem a aproximadamente 2 minutos. Destacam-se também, o comportamentodas 3 variações do svm, cujos tempos evoluíram de forma constante e ultrapassaramtodos os demais para os grandes datasets. Do lado direito do grá�co, para os maioresdatasets, destacam-se os algoritmos com processamento abaixo de 103,12 segundos, emmédia (aprox. 22 minutos): gbm, mars, nn, pcr, pls, elm e enet. Os algoritmos rbf, knn ecubist, para o mesmo caso, levaram, na média, de 3 horas até 11 horas no processamento.Os demais algoritmos, que são os 3 svm, rf, gp e rvm, para os datasets de tamanhomáximo, parecem ser inviáveis para �ns práticos. Deve-se considerar que os referidostempos de processamento não incluem o tempo de seleção de hiperparâmetros, além deserem os tempos tomados com a utilização dos hiperparâmetros de melhor desempenho(menor erro), ou seja, a seleção de hiperparâmetros utilizada não levou em consideraçãoo tempo de processamento do respectivo algoritmo com o uso do conjunto selecionado.Desse modo, é possível que algoritmos aqui apresentados como inviáveis ou lentos possamter tempo de processamento menor se escolhido outro conjunto de hiperparâmetros, comperda ou não de desempenho.

Na Figura 3.2 é possível visualizar como o êxito no processamento das tarefas variouconforme o tamanho do dataset. Nota-se que até aproximadamente 2.500 (103,4) linhasos algoritmos processaram todas as tarefas com sucesso. A partir deste ponto, a taxa detarefas bem sucedidas do rvm caíram, até que não houve mais êxito no processamento apartir de 12.500 (104,1) linhas. Comportamento similar apresentou o algoritmo gp, entre4.000 (103,6) e 20.000 (104,3) linhas, e o rf, entre 4.000 (103,6) e 300.000 (105,5) linhas. Apartir de 30.000 (104,5) linhas, as taxas de sucesso dos demais algoritmos começou a sediferenciar de maneira notável e de maneira crescente até o tamanho máximo dos datasets,ponto em que os algoritmos com melhor taxa de sucesso no processamento foram enet enn, seguidos por um grupo com taxa semelhante, formado por rbf, pcr, pls, mars e cubist,em seguida gbm, na sequência svmL e elm em conjunto, e os demais knn, svmR e svmPcom taxas inferiores a mais afastados entre si.

O resultado da comparação dos rankings relativos dos algoritmos é sintetizado naFigura 3.3, em que os algoritmos são ordenados da esquerda para a direita pela médiados desempenhos. Nota-se que, para a métrica MAE, o algoritmo cubist apresentou o


(a) MAE (b) MSE

Figura 3.3: Medianas, intervalos interquartis e densidades de probabilidade dos desempe-nhos relativos. Os algoritmos estão ordenados pelas médias, da esquerda para a direita,e seus índices seguem numeração da Seção 2.2.

melhor desempenho médio, seguido por rf, svmR, knn e gbm. Repare que os desempenhosrelativos obtidos pelo gbm possuem melhor mediana, apesar de pior média, em relaçãoao knn. Para a métrica MSE, os desempenhos relativos dos algoritmos cubist, rf e gbmparecem superiores aos dos demais. Porém, a análise visual não nos permite a�rmar se hádiferença estatística entre estes aparentemente melhores algoritmos e os demais, ou entresi, ou mesmo se eles possuem desempenho equivalente ou se o cubist é realmente o melhordos algoritmos, como parece ser o caso, dada sua média relativa alta e pouca dispersão,o que indica desempenho relativo consistentemente próximo a 1, que é o valor máximoobtido para aquele dataset.

Na sequência, serão apresentados resultados de testes estatísticos que permitem me-lhores conclusões sobre o desempenho dos algoritmos nos múltiplos datasets. Serão apre-sentados resultados da aplicação dos 2 testes baseados em teste de hipótese e 1 testebayesiano descritos na Seção 2.3.

3.1 Análise de testes de hipótese

Para ambas as métricas, a aplicação do teste de Friedman com a extensão Iman e Da-venport resultou em um valor p = 2,2 × 10−16, o que levou à rejeição a hipótese nula eaplicação do teste post-hoc de Nemenyi para veri�cação da signi�cância das diferenças.Os valores p resultantes deste teste para ambas as métricas podem ser consultados naTabela 3.1, na qual um valor p < 0,05 signi�ca que os algoritmos correspondentes sãoestatisticamente diferentes quanto ao seus desempenhos.

Na Figura 3.4, para cada métrica, um grafo sintetiza os resultados do teste. No casoda métrica MAE, o algoritmo cubist é o mais acima, o que indica que é aquele que obtevemelhor ranking médio, seguido por rf, svmR e gbm e então os demais. As linhas queligam o cubist a estes 3 indica que não há evidência de que há diferença estatisticamentesigni�cante entre seus desempenhos. Por outro lado, pode-se a�rmar que o cubist émelhor que os demais algoritmos. Assim, pode-se concluir que na métrica MAE o cubisté o melhor algoritmo, juntamente com rf, gbm e svmR. A imagem também sugere, combase apenas nos rankings, que há ainda um grupo de desempenho intermediário, formadopelos algoritmos knn, nn, gp, mars, svmL e rvm e outro grupo com desempenho inferior,


Tabela 3.1: Valores p correspondentes aos resultados do teste pos-hoc Nemenyi. Os valoresforam arredondados para a casa decimal inferior. Em negrito, os valores p < 0,05 Acimada diagonal: MSE, abaixo: MAE.

cubist elm enet gbm gp knn mars nn pcr pls rbf rf rvm svmL svmP svmR

cubist 0 0 1 0,06 0,02 0 0 0 0 0 1 0 0 0 0,98elm 0 0,61 0 0 0 0,02 0,61 0,98 0,94 0,99 0 0,04 1 0,91 0

enet 0 0,98 0 0,58 0,82 0,99 1 0,99 0,99 0,18 0 0,99 0,56 0 0

gbm 0,9 0 0 0,06 0,02 0 0 0 0 0 1 0 0 0 0,98gp 0 0 0,03 0,08 0,99 0,99 0,58 0,09 0,18 0 0,05 0,99 0 0 0,87knn 0 0 0 0,68 0,99 0,99 0,82 0,23 0,4 0 0,01 0,99 0 0 0,65mars 0 0 0,38 0 0,99 0,82 0,99 0,68 0,85 0 0 1 0,01 0 0,2nn 0 0,06 0,9 0 0,94 0,28 0,99 0,99 0,99 0,18 0 0,99 0,56 0 0

pcr 0 0,99 0,99 0 0 0 0,06 0,42 0,99 0,77 0 0,79 0,98 0,08 0

pls 0 0,99 0,99 0 0 0 0,04 0,33 1 0,58 0 0,91 0,92 0,03 0

rbf 0 0,99 0,65 0 0 0 0 0 0,97 0,99 0 0 0,99 0,99 0

rf 0,98 0 0 0,99 0,02 0,38 0 0 0 0 0 0 0 0 0,98rvm 0 0 0,52 0 0,99 0,71 1 0,99 0,11 0,07 0 0 0,03 0 0,14svmL 0 0,06 0,88 0 0,95 0,31 0,99 1 0,39 0,3 0 0 0,99 0,93 0

svmP 0 0,99 1 0 0,01 0 0,28 0,82 0,99 0,99 0,76 0 0,4 0,8 0

svmR 0,97 0 0 0,99 0,03 0,47 0 0 0 0 0 1 0 0 0

formado pelos algoritmos enet, svmP, pcr, pls, elm, rbf, porém o teste não possui podersu�ciente para se concluir se uma divisão desse tipo é estatisticamente signi�cante, dado oalto número de hipóteses nulas não rejeitadas, como indicam as arestas do grafo. Outrasconclusões podem ser derivadas da imagem, como o fato de que o knn deve ser consideradotambém como um bom algoritmo, dado que a despeito de seu ranking médio obtido serinferior aos rankings obtidos pelos algoritmos gbm, rf e svmR, não é possível diferenciá-los através do teste. Analogamente, para a métrica MSE, percebe-se que em termos deranking médio, os algoritmos cubist, gbm e rf são os melhores, com valor próximo. Aoserem considerados os valores p da Tabela 3.1, porém, constata-se que não se pode excluiro svmR do grupo dos melhores algoritmos. Constata-se, também, conforme sugerem aslinhas �nas do grafo e con�rmam os valores da Tabela 3.1, valores limítrofes de p poréminsu�cientes para se excluir do grupo dos melhores o algoritmo gp, apesar de seu rankingmédio obtido ser claramente inferior.

O grande número de pares comparados tem como consequência o poder do teste menorque o desejável, em relação à diferenciação de cada um desses pares, devido à necessidadedo controle de erros em família, já que para o teste cada uma das comparações efetuadasé igualmente importante, o que na prática não necessariamente é verdade pois, se a�nalidade for apenas a determinação dos melhores algoritmos, grande parte das hipótesesnulas não rejeitadas não se revestem de importância e, virtualmente, sem as mesmasseria possível uma correção menor dos valores p com o �m de se controlar aquele tipo deerro. Essa ideia �ca mais clara ao se observar nos grafos a grande quantidade de linhasindicativas de hipóteses nulas não rejeitadas nos grupos de desempenho inferior e quepossuem baixo signi�cado prático, pois a importância da determinação se um algoritmo ésigni�cantemente diferente de outro decresce rapidamente com o desempenho do algoritmoem relação aos demais.

A aplicação do teste de Wilcoxon pareado com correção por Hommel resultou nosvalores p mostrados na Tabela 3.2. A Figura 3.5 apresenta os grafos análogos aos apre-


(a) MAE (b) MSE

Figura 3.4: Grafos representando resultados obtidos no teste Friedman e pos-hoc Nemenyipara as métricas MAE e MSE. O eixo vertical é proporcional ao ranking do algoritmo. Aslinhas representam valores p ≥ 0,05 e suas espessuras são proporcionais aos respectivosvalores. O eixo horizontal não possui signi�cado.

sentados no teste anterior e também ordenados pelos rankings médios dos algoritmos. Aprimeira diferença em relação aos grafos do teste anterior é um número maior de hipótesesnulas rejeitadas. Também, vê-se que, para a métrica MAE, o cubist é signi�cantementediferente de todos os demais, ao passo que no caso da métrica MSE os algoritmos rf, cubiste gbm formam o grupo dos melhores, sendo que não foi possível rejeitar a hipótese nulaentre os algoritmos svmR e gbm. Em ambas as métricas, aparentemente o algoritmo knnde�ne o limite entre os melhores algoritmos e os demais.

Conforme apresentado, os testes de hipótese para a comparação de múltiplos algorit-mos em múltiplos datasets geram como resultado múltiplas conclusões especí�cas unáriascom uma única certeza possível, dentro dos parâmetros que a de�nem, na forma não, quecorresponde a uma rejeição de hipótese nula, ou com a ausência de resposta, não havendouma possível resposta sim. A única certeza geral sempre existente, que não é sequer resul-tado dos referidos testes e sim uma condição inerente aos mesmos, é o controle do erro emfamília do tipo I. A tradução das certezas especí�cas em certezas gerais, mais adequadasà derivação de conclusões sobre os algoritmos como um conjunto, é apenas eventual. Atítulo de exemplo, tome-se o resultado do teste de Wilcoxon apresentado para a métricaMAE. Um total de 120 comparações de pares para os 16 algoritmos foram realizadas, dasquais 90 geraram resposta, ou seja, rejeitaram a hipótese nula. Dessas 90 certezas especí-�cas, quais certezas gerais acerca do conjunto de algo rimos é possível derivar? Conformejá mencionado, pode ser visto na Figura 3.5a que o algoritmo cubist é certamente dife-rente e melhor que todos os demais, e para essa certeza geral foram necessárias 15 certezasespecí�cas, correspondentes a todas as comparações do cubist com os demais algoritmos.Para além dessa, como se vê, outras conclusões gerais se tornam menos evidentes. Umadas razões dessa limitação na tradução de certezas especí�cas em certezas gerais é o fatode os testes de hipótese só poderem fornecer a resposta não, quando o �zerem, além do


Tabela 3.2: Valores p correspondentes aos resultados do teste de Wilcoxon corrigidos porHommel. Os valores foram arredondados para a casa decimal inferior. Em negrito, osvalores p < 0,05 Acima da diagonal: MSE, abaixo: MAE.

cubist elm enet gbm gp knn mars nn pcr pls rbf rf rvm svmL svmP svmR

cubist 0 0 0,83 0 0 0 0 0 0 0 0,83 0 0 0 0

elm 0 0,83 0 0 0 0 0,25 0,83 0,83 0 0 0 0,83 0 0

enet 0 0,98 0 0 0,01 0,02 0,77 0,83 0,83 0,01 0 0,43 0 0,02 0

gbm 0 0 0 0 0 0 0 0 0 0 0,83 0 0 0 0,15gp 0 0 0 0 0,78 0,83 0,83 0 0 0 0 0,83 0 0 0

knn 0 0 0 0,98 0 0,83 0,27 0 0 0 0 0,83 0 0 0,07mars 0 0 0 0 0,98 0,27 0,45 0,02 0 0 0 0,83 0 0 0,03

nn 0 0 0,09 0 0,98 0,07 0,98 0,83 0,43 0,04 0 0,83 0,23 0 0

pcr 0 0,94 0,98 0 0 0 0 0,17 0,83 0 0 0,24 0 0 0

pls 0 0,98 0,98 0 0 0 0 0,04 0,98 0,2 0 0,19 0,05 0,02 0

rbf 0 0,01 0 0 0 0 0 0 0 0 0 0 0,64 0,51 0

rf 0,03 0 0 0,49 0 0 0 0 0 0 0 0 0 0 0

rvm 0 0 0,01 0 0,98 0,03 0,98 0,98 0 0 0 0 0,02 0 0

svmL 0 0,02 0 0 0,09 0 0,04 0,58 0 0 0 0 0,32 0,01 0

svmP 0 0,98 0,98 0 0,01 0 0 0,01 0,98 0,98 0,14 0 0,02 0,83 0

svmR 0 0 0 0,98 0 0,47 0 0 0 0 0 0,98 0 0 0

fato de que o número de comparações cresce muito rapidamente com o número de algo-ritmos, sendo a força correção aplicada aos valores p proporcional àquele número. Ouseja, para mais algoritmos sendo comparados, potencialmente menos hipóteses nulas se-rão rejeitadas, di�cultando-se a derivação de conclusões gerais. Poder-se-ia simplesmenterealizar comparações entre alguns poucos algoritmos reconhecidamente melhores ou maisutilizados, aumentando-se a força do teste na rejeição das hipóteses nulas e na conse-quente obtenção de conclusões gerais sobre os mesmos, como a possibilidade de se a�rmarque determinado algoritmo é o melhor do grupo. Porém, em testes como o de Friedmancom post-hoc Nemenyi, o desempenho de um algoritmo, medido em ranking, in�uenciano desempenho de outro algoritmo, de modo que não há garantia de que conclusões ge-rais sobre um subconjunto de algoritmos testados isoladamente valham para este mesmosubconjunto testado em conjunto com os demais algoritmos. Além disso, a ideia de setestar apenas os melhores algoritmos parte da premissa que os mesmos algoritmos são defato os melhores. A possibilidade de se realizar testes sem dependência de valores p quevariam conforme as intenções do analista, conforme exposto por Kruschke [67], além dapossibilidade de se obter o equivalente a respostas do tipo sim � a aceitação de hipótesenula �, são algumas das motivações para a aplicação de testes bayesianos, conforme serádiscutido na seção seguinte.

Ainda, como se depreende das conclusões de ambos os testes realizados, a obtençãode conclusões de caráter geral sobre o conjunto de algoritmos através do uso de testes dehipótese percorre o caminho dados

1−→ certezas especí�cas2−→ conclusões gerais. A trans-

formação 1 é o próprio teste de hipótese e suas conclusões são as certezas já discutidas,obtidas com o uso de uma de�nição prévia do que é ou não uma certeza. Nesse processohá perda de informação no momento em que se de�nem os limiares da certeza em troca dapossibilidade de se obter as respostas unárias não na forma de hipóteses nulas rejeitadas.Não há dúvidas aqui quanto a aplicabilidade dos consagrados testes de hipótese até esteponto. Porém, a transformação 2, conforme já explicado, gera certezas gerais, que são as


(a) MAE (b) MSE

Figura 3.5: Grafos representando resultados obtidos no teste de Wilcoxon pareado paraas métricas MAE e MSE. O eixo vertical é proporcional ao ranking do algoritmo. Aslinhas representam valores p ≥ 0,05 e suas espessuras são proporcionais aos respectivosvalores. O eixo horizontal não possui signi�cado.

desejadas no contexto em questão, de forma apenas eventual. Desse modo, dependendodo conjunto de certezas obtido na transformação 1, as únicas conclusões gerais possivel-mente obtidas podem não ser certezas na mesma forma das primeiras, caso em que asconclusões dos resultados do teste em questão não diferem em essência daquelas obtidasquando se faz a análise visual da Figura 3.3. O caminho dados

1−→ conclusões gerais, emque a transformação 1 corresponde à análise bayesiana, evita a perda de informação emetapas intermediárias e, ainda que não na forma de certeza como no caso anterior, permitea tomada de conclusões gerais mais fortes, conforme será apresentado na seção seguinte.

3.2 Análise bayesiana

O processamento da análise com o modelo bayesiano descrito na Seção 2.3, para ambasas métricas, atingiu níveis adequados de convergência do MCMC (Markov chain MonteCarlo). A veri�cação das distribuições preditivas posteriores sobreposta aos dados tam-bém mostra que as mesmas correspondem a uma boa representação da realidade pelomodelo, conforme exemplo da Figura 3.6, para o dataset online-umem na métrica MAE,no qual se veri�ca a correspondência aos dados reais das variâncias intra célula e dasde�exões em relação à linha base. As demais distribuições preditivas posteriores podemser veri�cadas no Apêndice B.

Os histogramas na Figura 3.7 ilustram 2 exemplos de comparações realizadas entrepares de algoritmos para a métrica MSE e representam os valores credíveis das diferençasentre ambos, considerando-se os dados existentes. A Figura 3.7a mostra que os erros doalgoritmo cubist são aproximadamente 0,053 menores que os do algoritmo rf, na média.A largura do HDI mostra a incerteza da estimativa, considerando-se os dados utilizados.Veri�ca-se, também, que o objetivo 1 foi atingido, já que o HDI e a ROPE não se sobre-


Figura 3.6: Distribuições preditivas posteriores, dataset online-umem, métrica MAE.

põem, ou seja, pode-se a�rmar que a diferença entre os algoritmos é signi�cativa. Nessecaso, equivale-se a a�rmar que o algoritmo cubist é melhor que o rf. Já a Figura 3.7bmostra que os erros do algoritmo svmP são aproximadamente 0,058 menores que os doalgoritmo enet, na média. Veri�ca-se maior incerteza que no caso anterior, haja vista amaior largura do HDI. Além disso, nesse caso o objetivo 1 não foi atingido, já que o HDI ea ROPE se sobrepõem, e por isso não se pode a�rmar que a diferença entre os algoritmosé signi�cativa. Observe que o objetivo 1 não foi atingido mesmo sendo a média das dife-renças maior nesse caso que no caso anterior. Também, nesse caso o objetivo 1 não seriaatingido, independentemente de quão pequena fosse a ROPE, pois o HDI inclui o valor 0,que signi�ca que uma diferença de 0 está entre os valores credíveis. O objetivo 2 não foiatingido, pois a ROPE não engloba o HDI. Então, apesar de não se poder a�rmar que osalgoritmos são diferentes, também não se pode a�rmar que são equivalentes por meio doobjetivo 2. Por �m, a ROPE engloba 40,9% dos valores credíveis, podendo isso ser inter-pretado como a probabilidade de que ambos sejam de fato equivalentes, considerando-seos dados e a ROPE.

Utilizando-se os valores resultantes das comparações dos 120 possíveis pares de al-goritmos para cada métrica (Apêndice C), foram elaborados os respectivos grafos dedesempenho da Figura 3.8, analogamente ao realizado nos 2 testes anteriores, de modo ase condensar as informações gerais sobre os desempenhos dos algoritmos nas �guras. Nosgrafos, as distâncias verticais entre 2 algoritmos consecutivos são proporcionais às distân-cias entre o ponto central do HDI de ambos os algoritmos, de modo que os algoritmosmais acima possuem erros potencialmente menores se comparados com os mais abaixo.A inexistência de arestas indica que o objetivo 1 foi atingido, para cada par, ao passoque a existência dos mesmos indica o oposto. A espessura das arestas é proporcional àprobabilidade de equivalência entre ambos, na medida da proporção do HDI sobrepostopela ROPE, conforme já descrito. Não há indicação nos grafos se o objetivo 2 foi ou nãoatingido.

Conforme se depreende da referida �gura, em ambas as métricas, veri�ca-se que ocubist de fato é o melhor algoritmo e que o rf é o segundo melhor algoritmo. Para a métricaMSE, o gbm é o terceiro melhor, seguido pelos svmR e knn. A aresta ligando estes 2últimos indica que não foi atingido o objetivo 1, não sendo possível a�rmar que a diferençaentre ambos é signi�cativa. A espessura da aresta indica que há alta probabilidade deque ambos sejam equivalentes. Para a métrica MAE, também estes 3 últimos algoritmosseguem os 2 primeiros, não tendo sido possível distinguir o knn do svmR e este do gbm.Os desempenhos e relações entre os demais algoritmos podem ser veri�cados nos grafos.

O objetivo 2 foi atingido em apenas 1 caso, na comparação entre enet e elm na mé-


(a) cubist × rf (b) enet × svmP

Figura 3.7: Distribuições posteriores de comparações � exemplos (MSE).

trica MAE (Tabela C.1), podendo-se a�rmar que ambos possuem de fato desempenhoequivalente, considerando-se os dados disponíveis e a atual de�nição de ROPE. Para to-dos demais casos em que o objetivo 1 não foi atingido, a probabilidade de equivalência,na forma de sobreposição da ROPE sobre os valores credíveis, é mostrada na Tabela 3.3.Nota-se que a maior probabilidade é a referente à dupla de algoritmos que atingiu oobjetivo 2, como poderia ser esperado. Outras 2 duplas de algoritmos possuem alta pro-babilidade de equivalência, considerando-se seus desempenhos: gbm e svmR na métricaMAE e knn e svmR na métrica MSE, com valores de 0,94 e 0,93 respectivamente. Nes-ses casos, consultando-se as tabelas no Apêndice C, veri�ca-se que a ROPE não englobatotalmente o HDI, motivo pelo qual não se atingiu o objetivo 2 � de se a�rmar equiva-lência entre os pares � conforme critério estabelecido. Ainda, nota-se que outras duplasde algoritmos possuem probabilidade relevante de equivalência, em torno de 0,5. Tam-bém, percebe-se a existência de duplas de algoritmos com probabilidade de equivalênciapróxima a 0, mesmo não tendo sido atingido o objetivo 1 na respectiva comparação.

3.3 Considerações �nais

Os procedimentos adotados neste trabalho e, por conseguinte, as conclusões derivadas dosresultados alcançados pelo mesmo, têm como premissas diversas assunções que se �zeramnecessárias, além de originarem algumas questões relacionadas, conforme se discute nasequência.

Um ponto relevante é a medida de comparação utilizada nos testes realizados, ou seja,a de�nição do signi�cado da ideia de quando e quanto um algoritmo é melhor que outro.No teste de Friedman com post-hoc Nemenyi, os algoritmos são comparados com base emseus rankings por dataset, de modo que os desempenhos dos algoritmos, representadospelos respectivos erros, são transformados em inteiros sequenciais. Desse modo, a orde-nação preexistente é mantida, mas a informação sobre as distâncias entre os erros dosalgoritmos sequenciais é perdida, sendo padronizada para 1. Suponha, por exemplo, queum algoritmo a1 seja o segundo melhor em ambos os datasets d1 e d2, sendo, a despeitode sua posição relativa, seu desempenho considerado empiricamente bom no dataset d1(próximo de um possível primeiro colocado ideal) e ruim no dataset d2 (distante de um


(a) MAE (b) MSE

Figura 3.8: Grafo representando resultados obtidos na análise bayesiana para as métricasMAE e MSE. O eixo vertical é proporcional às distâncias entre os centros dos HDI 95%dos algoritmos. As linhas representam os casos em que o objetivo 1 não foi atingido e suasespessuras são proporcionais às probabilidades de que os algoritmos sejam equivalentes.O eixo horizontal não possui signi�cado.

possível primeiro colocado ideal). Em ambos os casos, a informação sobre o desempe-nho naquele contexto será perdida e o ranking será 2. Desse modo, o teste de Fridmancom post-hoc Nemenyi assume, implicitamente, que o desempenho é dado exclusivamentepelos rankings obtidos, o que pode ser desejável ou não. Algumas outras consideraçõessão apresentadas por Benavoli et al. [66], como o fato de que o desempenho do algoritmodepende dos outros algoritmos do grupo sendo comparado. Suponha, dessa vez, que oalgoritmo a2 seja empiricamente ruim em ambos os datasets d1 e d2, sendo que, no pri-meiro caso, outros 10 algoritmos existentes sejam um pouco piores que o algoritmo a2 eno segundo caso um pouco melhores mas ainda ruins, na prática. Dessa vez, apesar deo algoritmo a2 apresentar desempenho similar em ambos os datasets, receberá o ranking2 no primeiro caso e 12 no segundo caso. Perceba que, nessa situação, o possível pontoindesejável é a perda de informação sobre as distâncias. O fato de que é possível queo algoritmo a2 possua rankings tão diferentes mesmo com valores de erros iguais é umacaracterística diferente da discutida e possivelmente desejável, pois considera como im-portante o desempenho relativo do algoritmo, ou seja, como o algoritmo desempenha emrelação aos demais.

No teste de Wilcoxon pareado, foram comparados os desempenhos absolutos entre cadapar de algoritmos conforme descrito por Benavoli et al. [66]. Nesse caso, cada comparaçãorealizada desconhece o desempenho dos demais algoritmos e essa é a informação perdida.Ou seja, o contexto geral dos algoritmos é formado por uma soma de informações isoladas edescontextualizadas. Por exemplo, pode-se imaginar um caso em que o teste de Wilcoxonpareado rejeite a hipótese nula para um par de algoritmos a1 e a2 sendo comparado (jáse considerando o valor p corrigido) e que outro teste, como o de Friedman com post-hocNemenyi, considerando, também, um terceiro algoritmo a3 e os desempenhos relativos


Tabela 3.3: Probabilidades de equivalência das duplas de algoritmos em que não se atingiuo objetivo 1, para as métricas MAE (coluna esquerda) e MSE (coluna direita).

Comparação Prob. Comparação Prob.

enet × elm 0,98 enet × rbf 0,24enet × rbf 0,1 enet × svmP 0,41elm × rbf 0,02 elm × pls 0,53gbm × svmR 0,94 elm × svmL 0,56gp × nn 0,01 elm × svmP 0,41gp × rvm 0,28 gp × rvm 0,12knn × svmR 0,52 knn × svmR 0,93nn × rvm 0,32 mars × nn 0,05pcr × pls 0,11 nn × rvm 0,03pcr × svmP 0,11 pcr × pls 0,05pls × svmP 0,08 pcr × svmL 0,18rvm × svmP 0,01 pls × svmL 0,23svmL × svmP 0,48 pls × svmP 0,06

rbf × svmP 0,55svmL × svmP 0,09

entre os 3 algoritmos, não consiga rejeitar a hipótese de que a1 e a2 sejam equivalentes.Em outras palavras, o teste de Wilcoxon pode, baseado nos valores absolutos, mostrarque a1 é melhor que a2. Porém, a inclusão de um terceiro algoritmo a3 ao universo alteraas relações entre os 3 em cada dataset de modo a se concluir, no contexto total, queagora a1 não é tão diferente de a2. O oposto também pode ocorrer, com a1 e a2 sendoindistinguíveis pelos valores absolutos e Wilcoxon e sendo considerados signi�cativamentediferentes com a inclusão de a3 no teste de Friedman. Ressalta-se que, no caso da supostaaplicação do teste de Wilcoxon entre a1 e a2, isso ocorre em um contexto maior em que a3existe e também será comparado com a1 e a2, individualmente. Uma maneira possível de secontextualizar os desempenhos dos algoritmos no teste de Wilcoxon pareado seria utilizar,no lugar de valores absolutos, os valores relativos na forma da fórmula 2.2. Observe que,nos testes realizados neste trabalho, o teste de Wilcoxon rejeita mais hipóteses nulas que oteste de Friedman com post-hoc Nemenyi e ambos os resultados foram considerados paraas conclusões �nais.

No caso da análise bayesiana, o equivalente às rejeições de hipótese nula (objetivo1 de�nido) ou sua con�rmação (objetivo 2 de�nido) dependem da de�nição prévia daROPE. Perceba que valores menores de ROPE favorecem o objetivo 1 e di�cultam oobjetivo 2, e vice-versa. Desse modo, além da de�nição e execução adequadas do modeloaos dados existentes, a de�nição da ROPE (equações 2.18 e 2.19) possui impacto diretonos resultados obtidos pela análise bayesiana.

Na formação das tabelas de desempenho, os procedimentos realizados, conforme des-crito na Seção 2.3, assumem implicitamente que o melhor valor candidato para a impu-tação de valores ausentes relativos ao processamento de um algoritmo a em um datasetd é o valor do processamento de a em um subconjunto de d tão grande quanto seja pos-sível. Também, a busca dos hiperparâmetros foi feita em um subconjunto do conjunto


de treinamento com no máximo 5.000 linhas. Nesse caso, assume-se que os melhoreshiperparâmetros encontrados nesse conjunto con�guram uma adequada aproximação doque seria possível utilizando-se o dataset completo nesse processo. Também, conformejá mencionado, os hiperparâmetros foram selecionados com base apenas no desempenhoobtido na validação e não se levou em consideração o tempo de processamento. Assim,é possível que alguns algoritmos possam apresentar melhora neste último quesito com apossível inclusão deste tipo de critério na busca dos hiperparâmetros, com perda ou nãode desempenho. Por �m, um estudo à parte seria necessário para a determinação da formade busca de hiperparâmetros mais adequada a cada algoritmo.

Por �m, além dos aspectos discutidos na Seção 2.1 sobre a representação da realidadepelo conjunto de datasets utilizado, considerou-se cada um deles, processados na formadescrita na Seção 2.3, como um representante adequado de um problema real daquelepróprio domínio. Em outras palavras, os datasets foram processados da forma descrita,independentemente do que seria feito para o processamento do problema real relacionadoao dataset.

Capítulo 4

Conclusão

A análise bayesiana permitiu a derivação de conclusões mais relevantes sobre o conjuntode algoritmos em relação à quantidade de pares declarados como signi�cativamente dife-rentes. Considerando-se os resultados dessa análise, para ambas as métricas, tem-se que oconjunto dos 5 melhores algoritmos é formado por cubist, rf, gbm, svmR e knn. Para esteconjunto, veri�ca-se que as hipóteses nulas não rejeitadas também não foram rejeitadaspelos outros 2 testes, apesar de as tabelas de desempenho terem sido montadas de maneiradiferente e de os critérios utilizados para de�nir quando e quanto um algoritmo é melhorque outro terem sido diferentes entre os testes. Além disso, há probabilidade considerávelde que os algoritmos knn e svmR apresentem, de fato, desempenhos equivalentes. Assim,os resultados mostram que, em geral, o melhor algoritmo para regressão é o cubist, se-guido pelo rf, seguidos pelo grupo gbm, svmR e knn, considerando-se ambas as métricas.Observe-se que os resultados dos testes de hipótese não discordam do aspecto geral dessaconclusão. Veja, também, que os desempenhos relativos dos algoritmos mostrados na Fi-gura 3.3, considerando-se ambas as métricas em conjunto, também sugerem que o cubistpossui desempenho superior, seguido por rf e gbm.

Para �ns práticos, além do desempenho, pode ser desejável levar em consideração as-pectos computacionais discutidos no Capítulo 3, mais especi�camente a capacidade deo algoritmo processar o treinamento e teste com sucesso em tempo aceitável. Conformejá discutido, destacou-se negativamente o algoritmo rf, que começou a apresentar falhasno processamento para datasets médios (na casa de 10.000 linhas) e não funcionou paradatasets grandes (a partir de 100.000 linhas), sendo que seu desempenho em relação aotempo de processamento também foi baixo para datasets médios e grandes. Os resultadostambém indicam que, para datasets grandes, o algoritmo svmR pode ser praticamenteinviável e que os algoritmos cubist e knn, apesar de viáveis, podem apresentar tempos deprocessamento maiores que o praticável para aplicações em que diversos ciclos de treina-mento e teste sejam necessários. O algoritmo gbm apresentou tempo de processamento,na média, consideravelmente inferior aos demais. Assim, conclui-se que para datasetspequenos e médios o cubist é o melhor algoritmo, ao passo que para datasets grandesa melhor opção é o algoritmo gbm, considerando-se os respectivos desempenhos gerais,possibilidades de falhas e viabilidade prática dos tempos de processamento esperados.

Quanto aos testes em si, a análise bayesiana, conforme já mencionado, foi capaz defornecer subsídios para mais conclusões gerais, em relação aos outros testes, sobre o con-

35

CAPÍTULO 4. CONCLUSÃO 36

junto de algoritmos. Isso se deve, principalmente, à elevada capacidade demonstrada derejeitar que pares de algoritmos sejam equivalentes e, nos casos em que isso não tenha sidopossível, à capacidade de estimar as respectivas probabilidades de equivalência. Também,para os dados considerados, o teste de Wilcoxon pareado com os valores p corrigidos porHommel, conforme procedimentos sugeridos por Benavoli et al. [66], foi capaz de rejeitarum número maior de hipóteses nulas que o usual teste de Friedman com post-hoc Nemenyirecomendado por Dem²ar [13].

Referências Bibliográ�cas

[1] M. Fernández-Delgado, E. Cernadas, S. Barro, e D. Amorim. Do we need hundredsof classi�ers to solve real world classi�cation problems? Journal of Machine LearningResearch, 15:3133�3181, 2014.

[2] M. Lichman. UCI Machine Learning Repository, 2013. URL http://archive.ics.

uci.edu/ml.

[3] R. D. King, C. Feng, e A. Sutherland. StatLog: comparison of classi�cation algo-rithms on large real-world problems. Applied Arti�cial Intelligence, 9(3):289�333,1995.

[4] T. S. Lim, W. Y. Loh, e Y. S. Shih. Comparison of prediction accuracy, complexity,and training time of thirty-three old and new classi�cation algorithms. MachineLearning, 40(3):203�228, set 2000.

[5] R. Caruana e A. Niculescu-Mizil. An Empirical Comparison of Supervised LearningAlgorithms. In Proceedings of the 23rd international conference on Machine learning,ICML '06, pp. 161�168, New York, NY, USA, 2006. ACM.

[6] S. Dreiseitl, L. Ohno-Machado, H. Kittler, S. Vinterbo, H. Billhardt, e M. Binder.A Comparison of Machine Learning Methods for the Diagnosis of Pigmented SkinLesions. Journal of Biomedical Informatics, 34(1):28�36, fev 2001.

[7] M. Liu, M. Wang, J. Wang, e D. Li. Comparison of random forest, support vectormachine and back propagation neural network for electronic tongue data classi�ca-tion: Application to the recognition of orange beverage and Chinese vinegar. Sensorsand Actuators B: Chemical, 177:970�980, fev 2013.

[8] J. N. Cooper, L. Wei, S. A. Fernandez, P. C. Minneci, e K. J. Deans. Pre-operativeprediction of surgical morbidity in children: Comparison of �ve statistical models.Computers in biology and medicine, 57:54�65, feb 2015.

[9] M. Ballings, D. Van Den Poel, N. Hespeels, e R. Gryp. Evaluating multiple classi�ersfor stock price direction prediction. Expert Systems with Applications, 42(20):7046�7056, nov 2015.

[10] K. P. Soundararajan e T. Schultz. Learning Probabilistic Transfer Functions: AComparative Study of Classi�ers. Computer Graphics Forum, 34(3):111�120, jun2015.

37

http://archive.ics.uci.edu/ml

http://archive.ics.uci.edu/ml

REFERÊNCIAS BIBLIOGRÁFICAS 38

[11] I. Brown e C. Mues. An experimental comparison of classi�cation algorithms forimbalanced credit scoring data sets. Expert Systems with Applications, 39(3):3446�3453, fev 2012.

[12] D.-H. Le, N. Xuan Hoai, e Y.-K. Kwon. A Comparative Study of Classi�cation-BasedMachine Learning Methods for Novel Disease Gene Prediction, pp. 577�588. SpringerInternational Publishing, Cham, 2015.

[13] J. Dem²ar. Statistical Comparisons of Classi�ers over Multiple Data Sets. Journalof Machine Learning Research, 7:1�30, 2006.

[14] B. Trawi«ski, M. Sm¦tek, Z. Telec, e T. Lasota. Nonparametric statistical analysisfor multiple comparison of machine learning regression algorithms. InternationalJournal of Applied Mathematics and Computer Science, 22(4):867�881, dez 2012.

[15] V. Rodriguez-Galiano, M. Sanchez-Castillo, M. Chica-Olmo, e M. Chica-Rivas. Ma-chine learning predictive models for mineral prospectivity: An evaluation of neuralnetworks, random forest, regression trees and support vector machines. Ore GeologyReviews, 71:804�818, dez 2015.

[16] J. Rousu, L. Flander, M. Suutarinen, K. Autio, P. Kontkanen, e A. Rantanen. Novelcomputational tools in bakery process data analysis: a comparative study. Journalof Food Engineering, 57(1):45�56, mar 2003.

[17] C. Soares, P. B. Brazdil, e P. Kuba. A Meta-Learning Method to Select the KernelWidth in Support Vector Regression. Machine Learning, 54(3):195�209, mar 2004.

[18] V. Cherkassky e Y. Ma. Practical selection of SVM parameters and noise estimationfor SVM regression. Neural Networks, 17(1):113�126, jan 2004.

[19] A. Chalimourda, B. Schölkopf, e A. J. Smola. Experimentally optimal ν in supportvector regression for di�erent noise models and parameter settings. Neural Networks,17(1):127�141, jan 2004.

[20] M. Kaul, B. Yang, e C. S. Jensen. Building Accurate 3D Spatial Networks to EnableNext Generation Intelligent Transportation Systems. In 2013 IEEE 14th Internati-onal Conference on Mobile Data Management, volume 1, pp. 137�146, jun 2013.

[21] S. De Vito, E. Massera, M. Piga, L. Martinotto, e G. Di Francia. On �eld calibra-tion of an electronic nose for benzene estimation in an urban pollution monitoringscenario. Sensors and Actuators B: Chemical, 129(2):750�757, maio 2008.

[22] H. Fanaee-T e J. Gama. Event labeling combining ensemble detectors and backgroundknowledge. Progress in Arti�cial Intelligence, 2(2):113�127, jun 2014.

[23] K. Buza. Feedback prediction for blogs, pp. 145�152. Springer International Pu-blishing, Cham, 2014.


[24] F. Kawala, A. Douzal-Chouakria, E. Gaussier, e E. Dimert. Prédictions d'activitédans les réseaux sociaux en ligne. In 4ième conférence sur les modèles et l'analysedes réseaux : Approches mathématiques et informatiques, p. 16, França, out 2013.

[25] P. Tüfekci. Prediction of full load electrical power output of a base load operatedcombined cycle power plant using machine learning methods. International Journalof Electrical Power & Energy Systems, 60:126�140, set 2014.

[26] H. Kaya, P. Tüfekci, e S. F. Gürgen. Local and global learning methods for pre-dicting power of a combined gas & steam turbine. In International Conference onEmerging Trends in Computer and Electronics Engineering (ICETCEE 2012), pp.13�18, Dubai, mar 2012.

[27] U. S. Department of Commerce, Bureau of the Census. Census Of Population AndHousing 1990 United States: Summary Tape File 1a & 3a (Computer Files). U.S.Department Of Commerce, Bureau Of The Census Producer, Washington, DC andInter-university Consortium for Political and Social Research Ann Arbor, Michigan,1992.

[28] U.S. Department of Justice, Bureau of Justice Statistics. Law Enforcement Mana-gement And Administrative Statistics (Computer File). U.S. Department Of Com-merce, Bureau Of The Census Producer, Washington, DC and Inter-university Con-sortium for Political and Social Research Ann Arbor, Michigan, 1992.

[29] U.S. Department of Justice, Federal Bureau of Investigation. Crime in the UnitedStates (Computer File), 1995.

[30] M. Redmond e A. Baveja. A data-driven software tool for enabling cooperativeinformation sharing among police departments. European Journal of OperationalResearch, 141(3):660�678, set 2002.

[31] I-Cheng Yeh. Modeling slump �ow of concrete using second-order regressions andarti�cial neural networks. Cement and Concrete Composites, 29(6):474�480, 2007.

[32] I.-C. Yeh. Modeling of strength of high-performance concrete using arti�cial neuralnetworks. Cement and Concrete Research, 28(12):1797�1808, dez 1998.

[33] A. Coraddu, L. Oneto, A. Ghio, S. Savio, D. Anguita, e M. Figari. Machine Lear-ning Approaches for Improving Condition-Based Maintenance of Naval PropulsionPlants. Proceedings of the Institution of Mechanical Engineers, Part M: Journal ofEngineering for the Maritime Environment, 230(1):136�153, 2016.

[34] M. Vahdat, L. Oneto, D. Anguita, M. Funk, e M. Rauterberg. A Learning Analy-tics Approach to Correlate the Academic Achievements of Students with InteractionData from an Educational Simulator, pp. 352�366. Springer International Publishing,Cham, 2015.


[35] A. Tsanas e A. Xifara. Accurate quantitative estimation of energy performance ofresidential buildings using statistical machine learning tools. Energy and Buildings,49:560�567, jun 2012.

[36] D. Gil, J. L. Girela, J. D. Juan, M. J. Gomez-Torres, e M. Johnsson. Predictingseminal quality with arti�cial intelligence methods. Expert Systems with Applications,39(16):12564�12573, 2012.

[37] P. Cortez e A. Morais. A Data Mining Approach to Predict Forest Fires usingMeteorological Data. New trends in arti�cial intelligence : proceedings of the 13thPortuguese Conference on Arti�cial Intelligence (EPIA 2007), Guimarães, Portugal,2007, pp. 512�523, dez 2007.

[38] A. Vergara, S. Vembu, T. Ayhan, M. A. Ryan, M. L. Homer, e R. Huerta. Chemicalgas sensor drift compensation using classi�er ensembles. Sensors and Actuators B:Chemical, 166�167:320�329, maio 2012.

[39] I. Rodriguez-Lujan, J. Fonollosa, A. Vergara, M. Homer, e R. Huerta. On the calibra-tion of sensor arrays for pattern recognition using the minimal number of experiments.Chemometrics and Intelligent Laboratory Systems, 130:123�134, jan 2014.

[40] J. Fonollosa, S. Sheik, R. Huerta, e S. Marco. Reservoir computing compensatesslow response of chemosensor arrays exposed to fast varying gas concentrations incontinuous monitoring. Sensors and Actuators B: Chemical, 215:618�629, ago 2015.

[41] F. Zhou, Q. Claire, e R. D. King. Predicting the Geographical Origin of Music. In2014 IEEE International Conference on Data Mining, pp. 1115�1120, dez 2014.

[42] D. D. Lucas, C. Yver Kwok, P. Cameron-Smith, H. Graven, D. Bergmann, T. P.Guilderson, R. Weiss, e R. Keeling. Designing optimal greenhouse gas observingnetworks that consider performance and cost. Geoscienti�c Instrumentation, Methodsand Data Systems, 4(1):121�137, 2015.

[43] O. Akbilgic, H. Bozdogan, e M. E. Balaban. A novel Hybrid RBF Neural Networksmodel as a forecaster. Statistics and Computing, 24(3):365�375, maio 2014.

[44] O. Akbilgic. Hibrit Radyal Tabanl� Fonksiyon A§lar� ile De§i³ken Seçimi ve Tahmin-leme: Menkul K�ymet Yat�r�m Kararlar�na �li³kin Bir Uygulama. Tese de doutorado,2011.

[45] K. Fernandes, P. Vinagre, e P. Cortez. A Proactive Intelligent Decision Support Sys-tem for Predicting the Popularity of Online News, pp. 535�546. Springer InternationalPublishing, Cham, 2015.

[46] T. Deneke, H. Haile, S. Lafond, e J. Lilius. Video transcoding time prediction forproactive load balancing. In 2014 IEEE International Conference on Multimedia andExpo (ICME), pp. 1�6, jul 2014.


[47] B. E. Sakar, M. E. Isenkul, C. O. Sakar, A. Sertbas, F. Gurgen, S. Delil, H. Apaydin,e O. Kursun. Collection and Analysis of a Parkinson Speech Dataset With MultipleTypes of Sound Recordings. IEEE Journal of Biomedical and Health Informatics, 17(4):828�834, jul 2013.

[48] A. Tsanas, M. A. Little, P. E. McSharry, e L. O. Ramig. Accurate Telemonitoringof Parkinson's Disease Progression by Noninvasive Speech Tests. IEEE Transactionson Biomedical Engineering, 57(4):884�893, abr 2010.

[49] F. Zamora-Martínez, P. Romeu, P. Botella-Rocamora, e J. Pardo. On-line learningof indoor temperature forecasting models towards energy e�ciency. Energy andBuildings, 83:162�172, nov 2014.

[50] P. Cortez e A. Silva. Using data mining to predict secondary school student perfor-mance. Proceedings of 5th Annual Future Business Technology Conference, pp. 5�12,abr 2008.

[51] J. Torres-Sospedra, R. Montoliu, A. Martínez-Usó, J. P. Avariento, T. J. Arnau,M. Benedito-Bordonau, e J. Huerta. UJIIndoorLoc: A new multi-building and multi-�oor database for WLAN �ngerprint-based indoor localization problems. In 2014International Conference on Indoor Positioning and Indoor Navigation (IPIN), pp.261�270, out 2014.

[52] P. Cortez, A. Cerdeira, F. Almeida, T. Matos, e J. Reis. Modeling wine preferencesby data mining from physicochemical properties. Decision Support Systems, 47(4):547�553, 2009.

[53] R Core Team. R: A Language and Environment for Statistical Computing. R Founda-tion for Statistical Computing, Viena, Áustria, 2016. URL https://www.r-project.

org/.

[54] A. Liaw e M. Wiener. Classi�cation and Regression by randomForest. R News, 2(3):18�22, 2002.

[55] D. Meyer, E. Dimitriadou, K. Hornik, A. Weingessel, e F. Leisch. e1071: Misc Func-tions of the Department of Statistics, Probability Theory Group (Formerly: E1071),TU Wien, 2015. URL https://cran.r-project.org/package=e1071.

[56] W. N. Venables e B. D. Ripley. Modern Applied Statistics with S. Springer, NewYork, 4a edição, 2002.

[57] G. Ridgeway With contributions from others. gbm: Generalized Boosted RegressionModels, 2015. URL https://cran.r-project.org/package=gbm.

[58] K. Schliep e K. Hechenbichler. kknn: Weighted k-Nearest Neighbors, 2016. URLhttps://cran.r-project.org/package=kknn.

[59] J. Friedman, T. Hastie, e R. Tibshirani. Regularization Paths for Generalized LinearModels via Coordinate Descent. Journal of Statistical Software, 33(1):1�22, 2010.

https://www.r-project.org/

https://www.r-project.org/

https://cran.r-project.org/package=e1071

https://cran.r-project.org/package=gbm

https://cran.r-project.org/package=kknn


[60] S. Milborrow. earth: Multivariate Adaptive Regression Splines, 2016. URL https:

//cran.r-project.org/package=earth.

[61] M. Kuhn, S. Weston, C. Keefer, e N. Coulter. C code for Cubist by R. Quinlan.Cubist: Rule- and Instance-Based Regression Modeling, 2014. URL https://cran.

r-project.org/package=Cubist.

[62] A. Karatzoglou, A. Smola, K. Hornik, e A. Zeileis. kernlab - An S4 Package forKernel Methods in R. Journal of Statistical Software, 11(9):1�20, 2004.

[63] B.-H. Mevik, R. Wehrens, e K. H. Liland. pls: Partial Least Squares and PrincipalComponent Regression, 2015. URL https://cran.r-project.org/package=pls.

[64] A. Gosso. elmNN: Implementation of ELM (Extreme Learning Machine ) algorithmfor SLFN ( Single Hidden Layer Feedforward Neural Networks ), 2012. URL https:

//cran.r-project.org/package=elmNN.

[65] C. Bergmeir e J.M. Benitez. Neural Networks in R Using the Stuttgart NeuralNetwork Simulator: RSNNS. Journal of Statistical Software, 46(7):1�26, 2012.

[66] A. Benavoli, G. Corani, e F. Mangili. Should We Really Use Post-hoc Tests Basedon Mean-ranks? Journal of Machine Learning Research, 17(5):1�10, 2016.

[67] J. Kruschke. Bayesian data analysis. Wiley Interdisciplinary Reviews: CognitiveScience, 1(5):658�676, 2010.

[68] J. Kruschke. Doing Bayesian data analysis: A tutorial with R, JAGS, and Stan.Academic Press, 2014.

https://cran.r-project.org/package=earth

https://cran.r-project.org/package=earth

https://cran.r-project.org/package=Cubist

https://cran.r-project.org/package=Cubist

https://cran.r-project.org/package=pls

https://cran.r-project.org/package=elmNN

https://cran.r-project.org/package=elmNN

Apêndice A

Adaptações nos datasets originais

1. 3d-network

• Excluído atributo 1 original: OSM_ID.

2. air-c6h6

• Excluídas 9 colunas de leituras do sensor e das medidas reais, exceto C6H6(GT).

• Excluídas 366 linhas com NA.

• Excluída coluna Date e adicionada coluna DayOfWeek do tipo Inteiro.

• Coluna Time alterada do tipo Hora para o tipo Inteiro.

3. air-co

• Excluídas 9 colunas de leituras do sensor e das medidas reais, exceto CO(GT).

• Excluídas 2.013 linhas com NA.

• Excluída coluna Date e adicionada coluna DayOfWeek do tipo Inteiro.

• Coluna Time alterada do tipo Hora para o tipo Inteiro.

4. airfoil-noise

• Trocados separadores de tab para vírgula.

5. auto-mpg

• Atributo Nome foi excluído.

• O atributo ModelYear foi substituído por um atributo Age, subtraindo-se oano de 82.


6. automobile

• Excluída a original coluna 2 (normalized-losses) por possuir 41/206 NAs.

• Excluídas 12 linhas com missing values.

43

APÊNDICE A. ADAPTAÇÕES NOS DATASETS ORIGINAIS 44

7. bike-day

• Excluídos os atributos instant e dteday.

• Excluídos os targets casual e registered, sendo usado apenas o target cnt, queé a soma dos 2 anteriores.

8. bike-hour

• Excluídos os atributos instant e dteday.

• Excluídos os targets casual e registered, sendo usado apenas o target cnt, queé a soma dos 2 anteriores.

9. blog-feedback

• Utilizado apenas o dataset de treinamento fornecido e eliminados os de teste,ignorando assim o problema de sobreposição de tempo.

10. buzz-hardware

• Sem alteração.

11. buzz-twitter


12. coil-1

• Foram uni�cados os dados dos arquivos analysis.data e results.data.

• Foram excluídas 34 linhas com NA.

• Foram excluídas 24 linhas com dados corrompidos.

• Foram excluídas 6 colunas de concentração de algas, exceto a primeira (1 de7).

13. coil-2

• Foram uni�cados os dados dos arquivos analysis.data e results.data.

• Foram excluídas 34 linhas com NA.

• Foram excluídas 24 linhas com dados corrompidos.

• Foram excluídas 6 colunas de concentração de algas, exceto a primeira (segundade 7).

14. combined-plant

• Utilizada a primeira aba da planilha original (1 shu�e de 5).

15. communities-1

• Eliminadas as colunas de 1 a 5 por serem não preditivas.


• Excluídas as colunas originais 98 a 118, 122 a 125 e 127, por excesso de NAs.

• Excluída 1 linha por possuir NA.

16. communities-2

• Eliminadas as colunas de 1 a 5 por serem não preditivas.

• Excluídas 1.675 linhas com NA, restando 319.

17. communities-nonviolent

• Excluídas as colunas 1 a 5 por serem não preditivas.

• Excluídas as colunas seguintes por excesso de NA: 104 a 120, 124 a 127, 129.


• Utilizado como target taxa de crimes não violentos.

18. communities-violent

• Excluídas as colunas 1 a 5 por serem não preditivas.

• Excluídas as colunas seguintes por excesso de NA: 104 a 120, 124 a 127, 129.


• Utilizada como target o número de crimes violentos.

19. computer-hardware

• Foram utilizados os atributos originais 3 a 9.

20. concrete-slump

• Utilizado como target apenas a coluna Slump(cm).

21. concrete-strength


22. condition-plants

• Excluída coluna 17 original (GT Compressor decay state coe�cient.)

• Excluída coluna com todos valores iguais.

23. educational-set

• Todos os arquivos de todas as sessions foram consolidados em apenas 1.

• Os atributos start_time e end_time foram substituídos pela diferença entre os2, em segundos.

• O atributo activity foi modi�cado de modo a se obter 9 atividades únicas.

• O atributo exercise foi excluído.


• Os valores dos atributos foram somados por coluna, agrupados por session,student_Id e activity.

• Para cada dupla (session, student) foram criados os atributos originais paracada atividade.

• Para estudantes que realizaram dois exames, foi considerado apenas o primeiroresultado.

• Valores de atributos faltantes foram considerados como valor 0, por ser o tempoutilizado naquela atividade.

• As notas �nais de 0 a 10 de cada aluno para cada session é o target.

• Foram excluídas 132 linhas de alunos que não realizaram o exame �nal.

24. energy-cooling

• Utilizado como target a coluna cooling.

• Excluída última linha (erro: singular �t, com mars).

25. energy-heating

• Utilizado como target a coluna heating.

26. fertility

• O target será o número de horas sentado e o resultado do exame um atributo(output original).

27. forest-�res


28. gas-concentrations

• Os 10 arquivos foram consolidados em apenas 1.

• Foram substituídos os códigos das substâncias pelos nomes.

• A concentração passa a ser a última coluna.

29. gas-ethylene

• Foram extraídas as linhas múltiplas de 100 do arquivo ethylene_methane eethylene_CO.

• Foi excluída o tempo e a concentração methane/CO de ambos os arquivos, queforam unidos em 1, e considerada a concentração de ethylene como target.

30. gas-methane

• Foram extraídas as linhas múltiplas de 100 do arquivo ethylene_methane.

• Foi excluída o tempo e a concentração ethylene e considerada a concentraçãode methane como target.


31. geographical-longitude

• Foi utilizado o arquivo default (sem escala cromática).

• usado como target apenas longitude.

32. geographical-latitude

• Foi utilizado o com escala cromática.

• Usado como target apenas latitude.

33. greenhouse-network

• Os 2.921 arquivos foram consolidados em 1.

• Os dados foram transpostos dentro de cada arquivo, de modo que cada colunaanterior se torna uma linha, com a última coluna (16) sendo o target (GHGconcentrations of synthetic observations).

34. heart-cleveland

• Utilizado o arquivo processed.cleveland.data.


35. heart-va

• Utilizados os arquivos processed.hungarian.data, processed.switzerland.data eprocessed.va.data.

• Excluídas as colunas slope, ca e thal.


36. housing

• Alterados os separadores para �,�.

37. istambul-exchange

• Utilizado como target os retornos ISE TL Based.

38. kegg-undirected

• Eliminado primeiro atributo original e considerado o último como target.

• 947 linhas com NA deletadas.

39. kegg-directed

• Eliminado primeiro atributo original e considerado o último como target.

40. liver-disorders

• Foi utilizado o dataset do arquivo bupa.data com a última coluna excluída.


41. online-popularity

• Excluídas as 2 primeiras colunas originais (não-preditivas).

42. online-umem

• Excluído coluna ID.

• Excluído target utime.

43. online-utime

• Excluído coluna ID.

• Excluído target umem.

44. parkinson-recordings

• Excluída primeira coluna (ID) e última coluna (Classe).

• Utilizado apenas o arquivo de treinamento fornecido, pois apenas este contémo score (target).

45. parkinsons-telemonitoring

• Eliminadas as colunas ID, Age, Sex e test_time.

• Utilizado como target total_UPDRS.

46. physicochemical-structure

• Considerada RMSD como target.

47. poker-hand

• Utilizado apenas o arquivo de treinamento.

48. relative-axis

• Excluída coluna ID do paciente.

49. servo


50. skill-dataset

• Excluída coluna game id.

• Target utilizado: leagueIndex.

• Excluídas 57 linhas com missing values.

51. sml2010

• Excluídas colunas Date, Time, Enthalpic motor 1, 0 or 1 (on-o�), Enthalpicmotor 2, 0 or 1 (on-o�) e Enthalpic motor turbo, 0 or 1 (on-o�).


• Usado como target a temperatura exterior.

52. solar-�are

• Foram unidos os dados dos 2 arquivos fornecidos em um arquivo único.

• Foi usado como target apenas �ares do tipo C (Comum).

53. student-performance

• Os arquivos das notas de português e matemática foram unidos em um sóarquivo, com o acréscimo de 1 atributo para representar a disciplina.

• Foram excluídos os targets das notas dos 1 e 2 semestre, �cando apenas a nota�nal.

54. uji-latitude

• Excluídas as colunas BUILDINGID, SPACEID, RELATIVEPOSITION, USE-RID, PHONEID e TIMESTAMP.

• Utilizado como target Longitude (excluídos longitude e �oor).

• Valores de sinais substituídos de dBm para mW. No caso de sinal não detectado(valor 100), substituído por 0.

55. uji-longitude

• Excluídas as colunas BUILDINGID, SPACEID, RELATIVEPOSITION, USE-RID, PHONEID e TIMESTAMP.

• Utilizado como target Longitude (excluídos latitude e �oor).

• Valores de sinais substituídos de dBm para mW. No caso de sinal não detectado(valor 100), substituído por 0.

56. wine-red

• Substituídos os separadores de �;� para �,�.

57. wine-white

• Substituídos os separadores de �;� para �,�.

58. yacht-hydrodynamics

• Alterado separador de � � para �,�.

59. year-msd

• Coluna year alterada da 1 posição para a última.

Apêndice B

Distribuições preditivas posteriores

50

APÊNDICE B. DISTRIBUIÇÕES PREDITIVAS POSTERIORES 51

Figura B.1: Distribuições preditivas posteriores � MAE � parte 1


Figura B.4: Distribuições preditivas posteriores � MSE � parte 1

Apêndice C

Sumário de comparações � análise

bayesiana

57

APÊNDICE C. SUMÁRIO DE COMPARAÇÕES � ANÁLISE BAYESIANA 58

Tabela C.1: Comparações � métrica MAE� parte 1. HDIc: centro do HDI; HDIl: limiteinferior do HDI; HDIh: limite superior do HDI; ROPEi: limite inferior da ROPE; ROPEh:limite superior da ROPE; Prob.: probabilidade de equivalência, dada pela sobreposiçãoda ROPE nos valores credíveis.

Comparação HDIc HDIl HDIh ROPEl ROPEh Prob. Obj. 1 Obj. 2

cubist × enet -0,365 -0,382 -0,348 -0,014 0,014 0,000 ×cubist × elm -0,359 -0,365 -0,353 -0,012 0,012 0,000 ×cubist × gbm -0,122 -0,129 -0,116 -0,006 0,006 0,000 ×cubist × gp -0,266 -0,274 -0,257 -0,005 0,005 0,000 ×cubist × knn -0,105 -0,112 -0,098 -0,008 0,008 0,000 ×cubist × mars -0,197 -0,205 -0,190 -0,005 0,005 0,000 ×cubist × nn -0,238 -0,259 -0,217 -0,009 0,009 0,000 ×cubist × pcr -0,325 -0,330 -0,320 -0,003 0,003 0,000 ×cubist × pls -0,330 -0,336 -0,324 -0,003 0,003 0,000 ×cubist × rbf -0,395 -0,422 -0,368 -0,007 0,007 0,000 ×cubist × rf -0,037 -0,048 -0,026 -0,005 0,005 0,000 ×cubist × rvm -0,256 -0,277 -0,234 -0,008 0,008 0,000 ×cubist × svmL -0,294 -0,303 -0,285 -0,004 0,004 0,000 ×cubist × svmP -0,304 -0,332 -0,277 -0,011 0,011 0,000 ×cubist × svmR -0,119 -0,126 -0,111 -0,010 0,010 0,000 ×enet × elm 0,006 -0,011 0,023 -0,023 0,023 0,975 ×enet × gbm 0,242 0,225 0,259 -0,012 0,012 0,000 ×enet × gp 0,099 0,081 0,117 -0,012 0,012 0,000 ×enet × knn 0,260 0,243 0,277 -0,019 0,019 0,000 ×enet × mars 0,168 0,150 0,185 -0,014 0,014 0,000 ×enet × nn 0,126 0,100 0,152 -0,019 0,019 0,001 ×enet × pcr 0,039 0,023 0,056 -0,007 0,007 0,000 ×enet × pls 0,034 0,017 0,051 -0,009 0,009 0,001 ×enet × rbf -0,030 -0,061 0,000 -0,017 0,017 0,103enet × rf 0,328 0,308 0,348 -0,013 0,013 0,000 ×enet × rvm 0,110 0,083 0,136 -0,016 0,016 0,002 ×enet × svmL 0,071 0,052 0,089 -0,013 0,013 0,000 ×enet × svmP 0,060 0,027 0,092 -0,025 0,025 0,021 ×enet × svmR 0,246 0,229 0,264 -0,019 0,019 0,000 ×elm × gbm 0,236 0,230 0,242 -0,011 0,011 0,000 ×elm × gp 0,093 0,085 0,101 -0,010 0,010 0,000 ×elm × knn 0,254 0,248 0,260 -0,018 0,018 0,000 ×elm × mars 0,161 0,154 0,168 -0,012 0,012 0,000 ×elm × nn 0,120 0,099 0,141 -0,018 0,018 0,001 ×elm × pcr 0,033 0,029 0,038 -0,007 0,007 0,000 ×elm × pls 0,028 0,023 0,034 -0,007 0,007 0,000 ×elm × rbf -0,037 -0,064 -0,009 -0,016 0,016 0,021elm × rf 0,321 0,311 0,332 -0,011 0,011 0,000 ×elm × rvm 0,103 0,082 0,125 -0,014 0,014 0,002 ×elm × svmL 0,065 0,056 0,073 -0,012 0,012 0,000 ×




elm × svmP 0,055 0,028 0,083 -0,026 0,026 0,031 ×elm × svmR 0,240 0,233 0,248 -0,018 0,018 0,000 ×gbm × gp -0,143 -0,152 -0,135 -0,006 0,006 0,000 ×gbm × knn 0,018 0,011 0,025 -0,008 0,008 0,004 ×gbm × mars -0,075 -0,082 -0,067 -0,007 0,007 0,000 ×gbm × nn -0,117 -0,138 -0,096 -0,009 0,009 0,001 ×gbm × pcr -0,203 -0,208 -0,197 -0,004 0,004 0,000 ×gbm × pls -0,208 -0,214 -0,201 -0,004 0,004 0,000 ×gbm × rbf -0,273 -0,300 -0,245 -0,008 0,008 0,000 ×gbm × rf 0,085 0,074 0,096 -0,006 0,006 0,000 ×gbm × rvm -0,132 -0,154 -0,111 -0,009 0,009 0,000 ×gbm × svmL -0,171 -0,180 -0,162 -0,005 0,005 0,000 ×gbm × svmP -0,181 -0,209 -0,153 -0,011 0,011 0,000 ×gbm × svmR 0,004 -0,004 0,012 -0,010 0,010 0,943gp × knn 0,161 0,152 0,170 -0,006 0,006 0,000 ×gp × mars 0,068 0,059 0,078 -0,006 0,006 0,000 ×gp × nn 0,026 0,004 0,048 -0,008 0,008 0,014gp × pcr -0,060 -0,067 -0,052 -0,004 0,004 0,000 ×gp × pls -0,065 -0,073 -0,057 -0,004 0,004 0,000 ×gp × rbf -0,130 -0,158 -0,103 -0,006 0,006 0,001 ×gp × rf 0,229 0,216 0,241 -0,005 0,005 0,000 ×gp × rvm 0,010 -0,011 0,032 -0,007 0,007 0,283gp × svmL -0,028 -0,039 -0,018 -0,004 0,004 0,000 ×gp × svmP -0,038 -0,067 -0,010 -0,010 0,010 0,015 ×gp × svmR 0,147 0,138 0,156 -0,010 0,010 0,000 ×knn × mars -0,092 -0,100 -0,084 -0,008 0,008 0,000 ×knn × nn -0,134 -0,155 -0,113 -0,013 0,013 0,001 ×knn × pcr -0,221 -0,226 -0,215 -0,005 0,005 0,000 ×knn × pls -0,226 -0,232 -0,219 -0,005 0,005 0,000 ×knn × rbf -0,291 -0,318 -0,263 -0,009 0,009 0,000 ×knn × rf 0,068 0,057 0,079 -0,008 0,008 0,000 ×knn × rvm -0,151 -0,172 -0,129 -0,010 0,010 0,000 ×knn × svmL -0,189 -0,198 -0,180 -0,006 0,006 0,000 ×knn × svmP -0,199 -0,227 -0,171 -0,020 0,020 0,000 ×knn × svmR -0,014 -0,022 -0,006 -0,014 0,014 0,523mars × nn -0,041 -0,063 -0,020 -0,010 0,010 0,007 ×mars × pcr -0,128 -0,135 -0,122 -0,004 0,004 0,000 ×mars × pls -0,133 -0,140 -0,126 -0,004 0,004 0,000 ×mars × rbf -0,197 -0,225 -0,170 -0,008 0,008 0,000 ×mars × rf 0,160 0,148 0,172 -0,006 0,006 0,000 ×




mars × rvm -0,058 -0,079 -0,036 -0,009 0,009 0,003 ×mars × svmL -0,097 -0,106 -0,087 -0,005 0,005 0,000 ×mars × svmP -0,107 -0,135 -0,079 -0,013 0,013 0,000 ×mars × svmR 0,079 0,070 0,087 -0,011 0,011 0,000 ×nn × pcr -0,086 -0,107 -0,065 -0,005 0,005 0,000 ×nn × pls -0,091 -0,112 -0,070 -0,005 0,005 0,001 ×nn × rbf -0,157 -0,203 -0,110 -0,013 0,013 0,001 ×nn × rf 0,201 0,179 0,224 -0,009 0,009 0,000 ×nn × rvm -0,016 -0,056 0,024 -0,013 0,013 0,325nn × svmL -0,056 -0,078 -0,034 -0,008 0,008 0,003 ×nn × svmP -0,067 -0,102 -0,032 -0,019 0,019 0,006 ×nn × svmR 0,120 0,098 0,141 -0,016 0,016 0,001 ×pcr × pls -0,005 -0,010 0,000 -0,002 0,002 0,113pcr × rbf -0,070 -0,097 -0,043 -0,005 0,005 0,002 ×pcr × rf 0,288 0,278 0,298 -0,004 0,004 0,000 ×pcr × rvm 0,070 0,049 0,091 -0,005 0,005 0,001 ×pcr × svmL 0,031 0,023 0,039 -0,003 0,003 0,000 ×pcr × svmP 0,022 -0,006 0,049 -0,007 0,007 0,114pcr × svmR 0,207 0,200 0,213 -0,007 0,007 0,000 ×pls × rbf -0,064 -0,092 -0,037 -0,005 0,005 0,002 ×pls × rf 0,293 0,282 0,304 -0,004 0,004 0,000 ×pls × rvm 0,075 0,054 0,096 -0,005 0,005 0,001 ×pls × svmL 0,036 0,028 0,045 -0,003 0,003 0,000 ×pls × svmP 0,026 -0,001 0,054 -0,007 0,007 0,076pls × svmR 0,212 0,204 0,219 -0,007 0,007 0,000 ×rbf × rf 0,357 0,329 0,386 -0,007 0,007 0,000 ×rbf × rvm 0,140 0,094 0,187 -0,010 0,010 0,001 ×rbf × svmL 0,102 0,074 0,129 -0,006 0,006 0,001 ×rbf × svmP 0,089 0,050 0,128 -0,016 0,016 0,003 ×rbf × svmR 0,276 0,248 0,303 -0,013 0,013 0,000 ×rf × rvm -0,218 -0,241 -0,194 -0,009 0,009 0,000 ×rf × svmL -0,257 -0,269 -0,244 -0,005 0,005 0,000 ×rf × svmP -0,268 -0,298 -0,238 -0,011 0,011 0,000 ×rf × svmR -0,081 -0,093 -0,070 -0,010 0,010 0,000 ×rvm × svmL -0,039 -0,061 -0,017 -0,006 0,006 0,005 ×rvm × svmP -0,050 -0,085 -0,014 -0,014 0,014 0,014rvm × svmR 0,136 0,115 0,158 -0,014 0,014 0,001 ×svmL × svmP -0,010 -0,039 0,018 -0,011 0,011 0,476svmL × svmR 0,176 0,166 0,185 -0,010 0,010 0,000 ×svmP × svmR 0,186 0,157 0,214 -0,018 0,018 0,000 ×


Tabela C.4: Comparações � métrica MSE � parte 1. HDIc: centro do HDI; HDIl: limiteinferior do HDI; HDIh: limite superior do HDI; ROPEi: limite inferior da ROPE; ROPEh:limite superior da ROPE; Prob.: probabilidade de equivalência, dada pela sobreposiçãoda ROPE nos valores credíveis.


cubist × enet -0,643 -0,699 -0,586 -0,024 0,024 0,000 ×cubist × elm -0,516 -0,532 -0,500 -0,023 0,023 0,000 ×cubist × gbm -0,128 -0,146 -0,110 -0,013 0,013 0,000 ×cubist × gp -0,410 -0,441 -0,379 -0,012 0,012 0,000 ×cubist × knn -0,193 -0,210 -0,176 -0,015 0,015 0,000 ×cubist × mars -0,268 -0,291 -0,245 -0,016 0,016 0,000 ×cubist × nn -0,315 -0,346 -0,284 -0,019 0,019 0,000 ×cubist × pcr -0,477 -0,493 -0,460 -0,009 0,009 0,000 ×cubist × pls -0,505 -0,538 -0,472 -0,009 0,009 0,000 ×cubist × rbf -0,589 -0,627 -0,550 -0,016 0,016 0,000 ×cubist × rf -0,077 -0,113 -0,041 -0,014 0,014 0,001 ×cubist × rvm -0,375 -0,411 -0,339 -0,020 0,020 0,000 ×cubist × svmL -0,500 -0,535 -0,465 -0,012 0,012 0,000 ×cubist × svmP -0,577 -0,655 -0,499 -0,028 0,028 0,000 ×cubist × svmR -0,184 -0,201 -0,166 -0,020 0,020 0,000 ×enet × elm 0,126 0,070 0,181 -0,042 0,042 0,001 ×enet × gbm 0,515 0,459 0,571 -0,020 0,020 0,000 ×enet × gp 0,232 0,170 0,294 -0,019 0,019 0,000 ×enet × knn 0,447 0,391 0,504 -0,028 0,028 0,000 ×enet × mars 0,374 0,315 0,432 -0,028 0,028 0,000 ×enet × nn 0,328 0,264 0,392 -0,029 0,029 0,000 ×enet × pcr 0,165 0,109 0,221 -0,013 0,013 0,000 ×enet × pls 0,136 0,072 0,199 -0,013 0,013 0,000 ×enet × rbf 0,054 -0,014 0,123 -0,029 0,029 0,245enet × rf 0,568 0,502 0,634 -0,025 0,025 0,000 ×enet × rvm 0,266 0,199 0,334 -0,030 0,030 0,001 ×enet × svmL 0,142 0,076 0,207 -0,022 0,022 0,000 ×enet × svmP 0,062 -0,033 0,156 -0,050 0,050 0,409enet × svmR 0,459 0,402 0,515 -0,028 0,028 0,000 ×elm × gbm 0,388 0,372 0,405 -0,020 0,020 0,000 ×elm × gp 0,107 0,077 0,137 -0,019 0,019 0,000 ×elm × knn 0,323 0,308 0,338 -0,029 0,029 0,000 ×elm × mars 0,248 0,226 0,270 -0,032 0,032 0,000 ×elm × nn 0,201 0,171 0,230 -0,032 0,032 0,001 ×elm × pcr 0,039 0,025 0,054 -0,015 0,015 0,002 ×elm × pls 0,012 -0,020 0,045 -0,015 0,015 0,531elm × rbf -0,073 -0,111 -0,035 -0,030 0,030 0,013 ×elm × rf 0,439 0,404 0,474 -0,023 0,023 0,000 ×elm × rvm 0,140 0,105 0,175 -0,031 0,031 0,003 ×elm × svmL 0,016 -0,018 0,049 -0,022 0,022 0,564




elm × svmP -0,063 -0,141 0,016 -0,055 0,055 0,415elm × svmR 0,332 0,316 0,348 -0,030 0,030 0,000 ×gbm × gp -0,281 -0,312 -0,250 -0,010 0,010 0,000 ×gbm × knn -0,065 -0,083 -0,048 -0,013 0,013 0,000 ×gbm × mars -0,141 -0,164 -0,117 -0,013 0,013 0,000 ×gbm × nn -0,186 -0,217 -0,155 -0,015 0,015 0,001 ×gbm × pcr -0,349 -0,366 -0,332 -0,009 0,009 0,000 ×gbm × pls -0,376 -0,410 -0,343 -0,009 0,009 0,000 ×gbm × rbf -0,460 -0,499 -0,421 -0,013 0,013 0,000 ×gbm × rf 0,051 0,015 0,087 -0,012 0,012 0,019 ×gbm × rvm -0,248 -0,284 -0,212 -0,015 0,015 0,001 ×gbm × svmL -0,373 -0,408 -0,338 -0,010 0,010 0,000 ×gbm × svmP -0,451 -0,530 -0,373 -0,020 0,020 0,000 ×gbm × svmR -0,056 -0,074 -0,038 -0,016 0,016 0,000 ×gp × knn 0,216 0,186 0,247 -0,012 0,012 0,000 ×gp × mars 0,142 0,107 0,176 -0,012 0,012 0,000 ×gp × nn 0,093 0,052 0,134 -0,014 0,014 0,002 ×gp × pcr -0,067 -0,098 -0,037 -0,008 0,008 0,000 ×gp × pls -0,094 -0,136 -0,052 -0,008 0,008 0,000 ×gp × rbf -0,179 -0,226 -0,133 -0,012 0,012 0,001 ×gp × rf 0,334 0,289 0,379 -0,012 0,012 0,000 ×gp × rvm 0,032 -0,013 0,077 -0,013 0,013 0,122gp × svmL -0,089 -0,133 -0,046 -0,009 0,009 0,000 ×gp × svmP -0,170 -0,252 -0,087 -0,019 0,019 0,000 ×gp × svmR 0,226 0,195 0,256 -0,015 0,015 0,000 ×knn × mars -0,074 -0,097 -0,052 -0,019 0,019 0,000 ×knn × nn -0,121 -0,151 -0,091 -0,020 0,020 0,002 ×knn × pcr -0,283 -0,299 -0,268 -0,009 0,009 0,000 ×knn × pls -0,311 -0,344 -0,278 -0,009 0,009 0,000 ×knn × rbf -0,396 -0,434 -0,357 -0,017 0,017 0,000 ×knn × rf 0,117 0,081 0,153 -0,015 0,015 0,001 ×knn × rvm -0,183 -0,219 -0,148 -0,022 0,022 0,001 ×knn × svmL -0,307 -0,342 -0,273 -0,012 0,012 0,000 ×knn × svmP -0,385 -0,464 -0,307 -0,032 0,032 0,000 ×knn × svmR 0,010 -0,007 0,027 -0,022 0,022 0,929mars × nn -0,046 -0,080 -0,012 -0,024 0,024 0,052mars × pcr -0,209 -0,231 -0,187 -0,009 0,009 0,000 ×mars × pls -0,237 -0,274 -0,201 -0,009 0,009 0,000 ×mars × rbf -0,319 -0,360 -0,277 -0,019 0,019 0,000 ×mars × rf 0,192 0,153 0,231 -0,016 0,016 0,000 ×




mars × rvm -0,107 -0,146 -0,068 -0,023 0,023 0,003 ×mars × svmL -0,233 -0,271 -0,195 -0,012 0,012 0,000 ×mars × svmP -0,310 -0,389 -0,230 -0,034 0,034 0,000 ×mars × svmR 0,084 0,062 0,107 -0,023 0,023 0,000 ×nn × pcr -0,161 -0,191 -0,131 -0,011 0,011 0,001 ×nn × pls -0,190 -0,233 -0,147 -0,010 0,010 0,001 ×nn × rbf -0,274 -0,337 -0,212 -0,023 0,023 0,001 ×nn × rf 0,238 0,190 0,285 -0,016 0,016 0,001 ×nn × rvm -0,060 -0,117 -0,004 -0,024 0,024 0,027nn × svmL -0,188 -0,232 -0,144 -0,015 0,015 0,001 ×nn × svmP -0,264 -0,351 -0,178 -0,034 0,034 0,001 ×nn × svmR 0,133 0,102 0,163 -0,024 0,024 0,002 ×pcr × pls -0,028 -0,060 0,005 -0,004 0,004 0,048pcr × rbf -0,111 -0,150 -0,073 -0,009 0,009 0,001 ×pcr × rf 0,400 0,364 0,435 -0,009 0,009 0,000 ×pcr × rvm 0,101 0,066 0,136 -0,011 0,011 0,001 ×pcr × svmL -0,024 -0,058 0,009 -0,007 0,007 0,182pcr × svmP -0,101 -0,179 -0,023 -0,015 0,015 0,010 ×pcr × svmR 0,293 0,277 0,309 -0,010 0,010 0,000 ×pls × rbf -0,084 -0,132 -0,036 -0,009 0,009 0,003 ×pls × rf 0,428 0,382 0,475 -0,009 0,009 0,000 ×pls × rvm 0,128 0,081 0,175 -0,010 0,010 0,001 ×pls × svmL 0,004 -0,041 0,050 -0,007 0,007 0,227pls × svmP -0,075 -0,158 0,008 -0,015 0,015 0,062pls × svmR 0,321 0,288 0,354 -0,010 0,010 0,000 ×rbf × rf 0,511 0,457 0,566 -0,016 0,016 0,000 ×rbf × rvm 0,215 0,148 0,281 -0,023 0,023 0,002 ×rbf × svmL 0,085 0,036 0,135 -0,012 0,012 0,003 ×rbf × svmP 0,008 -0,081 0,098 -0,032 0,032 0,552rbf × svmR 0,405 0,367 0,444 -0,023 0,023 0,000 ×rf × rvm -0,299 -0,351 -0,248 -0,019 0,019 0,000 ×rf × svmL -0,426 -0,474 -0,377 -0,012 0,012 0,000 ×rf × svmP -0,505 -0,591 -0,419 -0,030 0,030 0,000 ×rf × svmR -0,107 -0,143 -0,071 -0,018 0,018 0,001 ×rvm × svmL -0,126 -0,174 -0,078 -0,018 0,018 0,002 ×rvm × svmP -0,202 -0,291 -0,113 -0,033 0,033 0,001 ×rvm × svmR 0,192 0,156 0,227 -0,023 0,023 0,001 ×svmL × svmP -0,079 -0,164 0,005 -0,023 0,023 0,086svmL × svmR 0,317 0,283 0,351 -0,017 0,017 0,000 ×svmP × svmR 0,395 0,317 0,474 -0,032 0,032 0,000 ×

giovani frondana 59 datasets - unicamp€¦ · giovani rondaf na comparação empírica de 16...

Documents