valter eduardo da silva jnior - .valter eduardo da silva jnior uma nova abordagem do real adaboost

Download Valter Eduardo da Silva Jnior - .Valter Eduardo da Silva Jnior UMA NOVA ABORDAGEM DO REAL ADABOOST

Post on 23-Nov-2018

217 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

  • Valter Eduardo da Silva Jnior

    UMA NOVA ABORDAGEM DO REAL ADABOOST RESISTENTE A

    OVERFITTING PARA CLASSIFICAO DE DADOS BINRIOS

    Dissertao de Mestrado

    Universidade Federal de Pernambucoposgraduacao@cin.ufpe.br

    www.cin.ufpe.br/~posgraduacao

    RECIFE2016

    www.cin.ufpe.br/~posgraduacao

  • Valter Eduardo da Silva Jnior

    UMA NOVA ABORDAGEM DO REAL ADABOOST RESISTENTE AOVERFITTING PARA CLASSIFICAO DE DADOS BINRIOS

    Trabalho apresentado ao Programa de Ps-graduao em

    Cincia da Computao do Centro de Informtica da Univer-

    sidade Federal de Pernambuco como requisito parcial para

    obteno do grau de Mestre em Cincia da Computao.

    Orientador: Renata Maria Cardoso Rodrigues de SouzaCo-Orientador: Getlio Jos Amorim do Amaral

    RECIFE2016

  • Catalogao na fonteBibliotecrio Jefferson Luiz Alves Nazareno CRB 4-1758

    S586n Silva Jnior, Valter Eduardo da. Uma nova abordagem do real adaboost resistente a overfitting para

    classificao de dados binrios / Valter Eduardo da Silva Jnior 2016. 58f.: fig., tab.

    Orientadora: Renata Maria Cardoso Rodrigues de Souza Dissertao (Mestrado) Universidade Federal de Pernambuco. CIn.

    Cincia da Computao, Recife, 2016. Inclui referncias.

    1. Inteligncia artificial. 2. Algortimos computacionais. 3. Classificao.I. Souza, Renata Maria Cardoso Rodrigues de. (Orientadora). II. Titulo.

    006.3 CDD (22. ed.) UFPE-MEI 2016-160

  • Valter Eduardo da Silva Jnior

    Uma nova abordagem do Real AdaBoost resistente a overfitting para classificao de dados binrios

    Dissertao apresentada ao Programa de Ps-Graduao em Cincia da Computao da Universidade Federal de Pernambuco, como requisito parcial para a obteno do ttulo de Mestre em Cincia da Computao.

    Aprovado em: 26/08/2016

    BANCA EXAMINADORA

    __________________________________________________

    Prof. Dr. Sergio Ricardo de Melo Queiroz Centro de Informtica / UFPE

    ___________________________________________________ Profa. Dra. Cludia Regina Oliveira de Paiva Lima

    Departamento de Estatstica/UFPE

    ___________________________________________________ Profa. Dra. Renata Maria Cardoso Rodrigues de Souza

    Centro de Informtica /UFPE (Orientadora)

  • Dedico esta dissertao a toda minha famlia,

    companheiros de estudo e professores que me deram apoio

    durante esta caminhada.

  • Agradecimentos

    Muitas foram as pessoas que estiveram comigo e contribuiram de forma direta e indiretapara a realizaes deste trabalho. A todas elas, muito obrigado.

    Obrigado a Profa. Dra. Renata Maria Cardoso Rodrigues de Souza, por toda dedicaoe comprometimento como orientadora, sempre disposta a ajudar, e tambem pela confiana eamizade do coorientador Prof.Dr. Getlio Jos Amorim do Amaral pelas ajudas nas contribuiesque este trabalho fosse concluido com xito.

    Agradeo Universidade Federal de Pernambuco por me proporcionar a oportunidadede desenvolver parte dessa pesquisa em sua universidade.

    Agradeo tambm ao meu colega de laboratrio, Daniel Bion Barreiros, pelas valiosasajudas durante as etapas experimentais e pelos conhecimentos compartilhados.

    Aos meus pais Valter Eduardo da Silva e Valria Maria de Luna e irmos pela educao,carinho e apoio de sempre.

    minha esposa Cinthia Fernandes Alves e Silva pelo carinho e compreenso no dia adia.

    A especialmente a minha filha Sophia Fernandes Alves e Silva, que me deu maismotivao, animo e felicidade na minha vida.

    Por fim, ao CNPq (Conselho Nacional de Desenvolvimento CIentfico e Tecnolgico)pelo apoio financeiro deste trabalho, por meio da bolsa de mestrado concedida.

  • s vezes, quando voc inova, voc comete erros. melhor admiti-los

    rapidamente, e continuar a melhorar as suas outras inovaes.

    STEVE JOBS

  • Resumo

    O estudo da Inteligncia Artificial (IA) e de suas tcnicas tem trazido grandes resultados para aevoluo da tecnologia em diversas reas. Tcnicas j conhecidas como as Redes Neurais (RN)e rvores de Deciso (AD) vm sendo aprimoradas por tcnicas de Boosting como o AdaptiveBoosting (AdaBoost). Esta tcnica uma das que apresenta maior perspectiva de crescimentodevido a seu potencial, flexibilidade e simplicidade para ser implementada em diferentes cenrios,como por exemplo, no tratamento para reconhecimento de padres. Desde o seu surgimentosurgiram vrias variantes do AdaBoost, as mais conhecidas so o Real AdaBoost (RAb) e GentleAdaBoost (GAb), no intuito de obter um melhor desempenho. Um problema peculiar do RealAdaBoost relacionado a base de dados com rudo. Vrios artigos sugerem que o Real AdaBoost sensvel a um nvel alto de rudo. A partir desse problema ser proposto uma nova variantedo Real AdaBoost com o objetivo de reduzir esta sensibilidade ao rudo visto ao aparecimentode overfitting nas bases de testes dos problemas com rudo. A nova variante do Real Adaboostser chamada de Noise Real AdaBoost (NRAb), onde ser aplicada em base de dados simuladase reais e ser utilizado Real AdaBoost e Gentle AdaBoost para comparar o desempenho emrelao a nova variante proposta nesta dissertao.

    Palavras-chave: Algoritmos de Boosting. Classificao. Overfitting. Aprendizado de mquinas.Erros fragmentrios. Arvores de Deciso

  • Abstract

    The study of Artificial Intelligence (AI) and its techniques have brought great results for theevolution of technology in various fields. Known techniques such as Neural Networks (RN) andDecision Trees (AD) have been enhanced by Boosting techniques such as Adaptive Boosting(AdaBoost). This technique is one that has greater prospect of growth potential due to itsflexibility and simplicity to be implemented in different scenarios, such as in treatment forpattern recognition. Since its inception AdaBoost were several variants, the best known arethe Real AdaBoost (RAB) and Gentle AdaBoost (GAB) in order to get better performance. Apeculiar problem of Real AdaBoost is related to noise with database. Several articles suggestthat Real AdaBoost is sensitive to a high noise level. From this problem a new variant of RealAdaBoost in order to reduce this sensitivity to noise seen the emergence of overfitting in theproblems with noise test bases will be proposed. The new variant of the Real AdaBoost willbe called Noise Real AdaBoost (NRAb), which will be applied to simulated and real data baseand will be used Real AdaBoost and Gentle AdaBoost to compare performance against the newvariant proposed in this dissertation.

    Keywords: Boosting Algorithms. Classification. Overfitting. Learning Machines. FragmentaryErrors. Decision Trees

  • Lista de Figuras

    2.1 Modelo conceitual do aprendizado ensemble: vrios conjuntos de dados so cria-dos, para cada conjunto um classificador treinado e ento eles so combinadosgerando um novo classificador. . . . . . . . . . . . . . . . . . . . . . . . . . . 15

    2.2 Representao de um neurnio artificial. . . . . . . . . . . . . . . . . . . . . . 182.3 Estrutura Multilayer Perceptron (Multiplas Camadas). . . . . . . . . . . . . . . 192.4 Modelo de rvore de deciso. . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.5 Modelo decision stump. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.6 Amostras de Treinamento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.7 Primeira curva de separao. . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.8 Vista Geral do treinamento do algoritmo AdaBoost. . . . . . . . . . . . . . . . 272.9 Combinao linear dos classificadores fracos, no final do treinamento do AdaBoost. 28

    4.1 Conjunto de dados gerado artificialmente BREIMAN. (1998). . . . . . . . . . 374.2 Curvas de treinamento e de teste para o conjunto de dados RingNorm. . . . . . 374.3 Curvas de treinamento e de teste para o conjunto de dados RingNorm. . . . . . 394.4 Dados gerados artificialmente, Espiral. . . . . . . . . . . . . . . . . . . . . . . 404.5 Curvas do treinamento e teste para o conjunto de dados Espiral . . . . . . . . . 424.6 Curvas do treinamento e teste para o conjunto de dados do UCI. . . . . . . . . 44

  • Lista de Tabelas

    4.1 Resultado de Gentle Adaboost (GAb), Noise Real AdaBoost (NRAb) e RealAdaboost (RAb) usando CART como classificador fraco. Conjunto de DadosRingNorm. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

    4.2 Resultado de Gentle Adaboost (GAb), Noise Real AdaBoost (NRAb) e RealAdaboost (RAb) usando CART como classificador fraco. Conjunto de DadosTwoNorm. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

    4.3 Resultado de Gentle Adaboost (GAd), Noise Robust AdaBoost (NRAb) e RealAdaboost (RAb) usando CART. Conjunto de dados Espiral. . . . . . . . . . . . 41

    4.4 Descrio do conjunto de dados UCI. . . . . . . . . . . . . . . . . . . . . . . 424.5 Resultado de GentleBoost (GAb), Real AdaBoost (RAb) e Noise Real AdaBoost

    (NRAb). Conjuntos de Dados do UCI. . . . . . . . . . . . . . . . . . . . . . . 434.6 Validao Cruzada com os resultados de GentleBoost (GAb), Real AdaBoost

    (RAb) e Noise Real AdaBoost (NRAb) no conjuntos de dados Australian. . . . 464.7 Validao Cruzada com os resultados de GentleBoost (GAb), Real AdaBoost

    (RAb) e Noise Real AdaBoost (NRAb) no conjuntos de dados b-cancer. . . . . 474.8 Validao Cruzada com os resultados de GentleBoost (GAb), Real AdaBoost

    (RAb) e Noise Real AdaBoost (NRAb) no conjuntos de dados bank. . . . . . . 484.9 Tabela de Validao Cruzada com os resultados de GentleBoost (GAb), Real

    AdaBoost (RAb) e Noise Real AdaBoost (NRAb) no conjuntos de dados io-nosphere. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49