uma proposta para detecção automática de câncer de pele

83
UNIVERSIDADE FEDERAL RURAL DO SEMI-ÁRIDO UNIVERSIDADE DO ESTADO DO RIO GRANDE DO NORTE PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO HUGO WENDELL MAIA UMA PROPOSTAPARA DETECÇÃO AUTOMÁTICA DE CÂNCER DE PELE BASEANDO-SE EM CARACTERÍSTICAS DE FORMA, COR E TEXTURA MOSSORÓ - RN 2015

Upload: phamquynh

Post on 08-Jan-2017

232 views

Category:

Documents


1 download

TRANSCRIPT

  • UNIVERSIDADE FEDERAL RURAL DO SEMI-RIDOUNIVERSIDADE DO ESTADO DO RIO GRANDE DO NORTE

    PROGRAMA DE PS-GRADUAO EM CINCIA DACOMPUTAO

    HUGO WENDELL MAIA

    UMA PROPOSTA PARA DETECO AUTOMTICA DECNCER DE PELE BASEANDO-SE EM

    CARACTERSTICAS DE FORMA, COR E TEXTURA

    MOSSOR - RN2015

  • HUGO WENDELL MAIA

    UMA PROPOSTA PARA DETECO AUTOMTICA DECNCER DE PELE BASEANDO-SE EM

    CARACTERSTICAS DE FORMA, COR E TEXTURA

    Dissertao apresentada ao Programa de Ps-Graduaoem Cincia da Computao - associao ampla entrea Universidade do Estado do Rio Grande do Norte ea Universidade Federal Rural do Semi-rido, para aobteno do ttulo de Mestre em Cincia da Computao.

    Orientador: Profo. Marcos Evandro Cintra, D.Sc.

    MOSSOR - RN2015

  • Todos os direitos esto reservados a Universidade Federal Rural doSemi-rido. O contedo desta obra de inteira responsabilidade do(a)autor(a), sendo o mesmo, passvel de sanes administrativas ou penais,caso sejam infringidas as leis que regulamentam a Propriedade Intelectual,respectivamente, Patentes: Lei n 9.279/1996, e Direitos Autorais Lei n9.610/1998. O contedo desta obra tomar-se- de domnio publico aps adata da defesa e homologao da sua respectiva ata. A mesma poderservir de base literria para novas pesquisas, desde que a obra e seu(a)respectivo(a) autor(a) sejam devidamente citados e mencionados os seuscrditos bibliogrficos.

    Dados Internacionais de Catalogao na Publicao (CIP)BIBLIOTECA CENTRAL ORLANDO TEIXEIRA - CAMPUS MOSSOR

    Setor de Informao e Referncia

    Uma proposta para deteco automtica de cncer de pele baseando-se em caractersticas de forma, cor e textura / Hugo Wendell Maia. -Mossor, 2016. 84f: il.

    Orientador:Dr. Marcos Evandro Cintra

    Dissertao (MESTRADO EM CINCIA DA COMPUTAO) -Universidade Federal Rural do Semi-rido. Pr-Reitoria de Pesquisa ePs-Graduao

    1. Processamento digital de imagens. 2. Melanoma. 3. SistemaFuzzy. I. Ttulo

    M217p Maia, Hugo Wendell.

    RN/UFERSA//BOT/009 CDD 621.367

  • AGRADECIMENTOS

    A Deus por ter me dado me dado sade e fora para superar as dificuldades.

    Aos meus pais Miguel Minervino Maia e Lenilda dos Santos Maia e ao meuirmo Jos Wellington Maia, pelo apoio e amor incondicional.

    Ao meu orientador D.Sc. Marcos Evandro Cintra, por toda ajuda no desenvolvi-mento do trabalho.

  • RESUMO

    O cncer de pele o mais comum entre todos os cnceres. O melanoma um tipo decncer de pele maligno, responsvel por muitas mortes em todo o mundo. O diagnsticoprecoce desse tipo de cncer aumentam as chances de cura do paciente. Uma das formasde realizar esse diagnstico por meio da dermatoscopia. A dermatoscopia uma tcnicaque consiste no reconhecimento de estruturas presentes na pele, no visveis a olho nu.Com o auxlio de um dermatoscpio, equipamento que amplia a imagem, o mdico fazo reconhecimento dessas estruturas e obtm o diagnstico da leso. Porm, apesar deanalisar a imagem de forma ampliada, diversos fatores influenciam negativamente nodiagnstico. Na literatura, possvel encontrar diversas propostas para classificaoautomtica de leso de pele, algumas utilizando caractersticas de forma, cor e texturaseparadamente. Assim, visando auxiliar o uso da dermatoscopia por profissionais darea da sade, este trabalho apresenta uma proposta para classificao automtica deleses de pele utilizando o algoritmo FuzzyDT, fundamentando-se em caractersticasde forma, cor e textura, analisadas pelos dermatologistas. A contribuio principaldeste trabalho a proposta da seleo de caractersticas com o uso do FuzzyDT, naqual obteve 100% de acurcia com o uso das seguintes caractersticas: Homogeneidade,Correlao, Energia, Rede de Pigmentos, Estrias, Branco, Vermelho, Marrom Escuro,Azulado e Preto.

    Palavras-chave: Aprendizado de Mquina, rvores de Deciso, Cncer de pele, Classi-ficao, Dermatoscopia, FuzzyDT, Sistemas Fuzzy.

  • ABSTRACT

    Skin cancer is the most common of all cancers. Melanoma is one type of malignantskin cancer, responsible for many deaths worldwide. Early diagnosis of this cancerincrease the chances of curing the patient. One way to perform this diagnosis is bydermoscopy. Dermoscopy is a technique that consists of the recognition of structurespresent in the skin, not visible to the naked eye. With the aid of a dermatoscope, whichis an equipment that enlarges the image, the doctor makes the recognition of thesestructures and obtains the diagnosis of the lesion. But despite analyze the image on abroader scale, many factors influence negatively in the diagnosis. In the literature, onecan find several proposals for automatic skin lesion classification, using separately somefeatures of shape, color and texture. Thus, aiming to support the use of dermoscopyby health professionals, this work presents a proposal for automatic classification ofskin lesions using FuzzyDT algorithm, basing on characteristics of shape, color andtexture, examined by dermatologists. The main contribution of this work is the proposalof feature selection using the FuzzyDT, which had 100% accuracy with the use of thefollowing: homogeneity, correlation, Energy, Pigments Network, Streaks, White, Red,Dark Brown, Bluish and Black.

    Key-words: Machine Learning, Decision Trees, Skin cancer, Classification, Dermoscopy,FuzzyDT, Fuzzy Systems.

  • LISTA DE FIGURAS

    Figura 1 Processo Geral da Proposta para Deteco Automtica de Cncer dePele. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

    Figura 2 Exemplo de Rudos (pelos) em Imagem de Leso de Pele. (A) Antesdo pr-processamento. (B) Depois do pr-processamento . . . . . . . 18

    Figura 3 Segmentao em Imagem de Leso de Pele. (A) Antes da segmentao.(B) Depois da segmentao. . . . . . . . . . . . . . . . . . . . . . . . . 20

    Figura 4 Processo de construo de uma matriz GLCM a partir da imagem. . 25Figura 5 rvore de Deciso, exemplo da financeira. . . . . . . . . . . . . . . . 28Figura 6 rvores de deciso clssica e fuzzy para o conjunto de dados Iris. . . 32Figura 7 Conjuntos fuzzy dos atributos de definio Comprimento da Ptala e

    Largura da Ptala. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32Figura 8 Exemplo de classificao segundo o K-nn. . . . . . . . . . . . . . . . . 34Figura 9 Representao de um Neurnio Artificial. . . . . . . . . . . . . . . . . 37Figura 10 Exemplos de funes de ativao. . . . . . . . . . . . . . . . . . . . . 38Figura 11 RNA Multicamadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38Figura 12 Comparao entre os principais mtodos. . . . . . . . . . . . . . . . . 41Figura 13 Imagens disponibilizadas no conjunto. (A) Original. (B) Mscara. . . 47Figura 14 Converso de imagem RGB para tons de cinza. . . . . . . . . . . . . . 48Figura 15 Segmentao da imagem em tons de cinza. . . . . . . . . . . . . . . . 49Figura 16 Extrao da matriz GLCM. . . . . . . . . . . . . . . . . . . . . . . . . 50Figura 17 Extrao da matriz GLCM. . . . . . . . . . . . . . . . . . . . . . . . . 50Figura 18 Arquitetura geral da classificao em dois nveis. . . . . . . . . . . . . 52Figura 19 Vetor de Caractersticas. . . . . . . . . . . . . . . . . . . . . . . . . . . 53Figura 20 Vetor de caractersticas utilizando trs caractersticas. . . . . . . . . . 54Figura 21 Interao dos laos com o vetor de caractersticas. . . . . . . . . . . . 54Figura 22 Gerao do conjunto de dados I. . . . . . . . . . . . . . . . . . . . . . 55Figura 23 Gerao do conjunto de dados II. . . . . . . . . . . . . . . . . . . . . . 56Figura 24 Comparao dos resultados obtidos pelos 21 algoritmos utilizando

    os trs conjuntos de dados diferentes. . . . . . . . . . . . . . . . . . . 60Figura 25 Comparao dos resultados obtidos na classificao em trs classes

    utilizando todas as caractersticas de forma e cor, com a utilizao daseleo de caractersticas. . . . . . . . . . . . . . . . . . . . . . . . . . 63

    Figura 26 Comparao entre resultados obtidos na classificao em trs classesutilizando todas as caractersticas de texturas e utilizando a melhorcombinao delas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

  • Figura 27 Comparao entre resultados obtidos na classificao em trs classesutilizando todas as caractersticas e utilizando a melhor combinaodelas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

    Figura 28 Comparao dos resultados obtidos na primeira etapa da classificao,quando utilizadas todas as caractersticas e apenas as selecionadas. . 70

    Figura 29 Comparao dos resultados obtidos na segunda etapa da classificao,quando utilizadas todas as caractersticas e apenas as selecionadas. . 72

    Figura 30 Comparao dos resultados obtidos na classificao geral em duasetapas utilizando todas as caractersticas e apenas as caractersticasselecionadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

    Figura 31 Comparao geral dos resultados. . . . . . . . . . . . . . . . . . . . . 75

  • LISTA DE TABELAS

    Tabela 1 rvore de deciso: exemplo de uso. . . . . . . . . . . . . . . . . . . . 29Tabela 2 Classificador Bayes: exemplo. . . . . . . . . . . . . . . . . . . . . . . . 35Tabela 3 Resultados da classificao utilizando caractersticas de forma e cor. . 58Tabela 4 Resultados da classificao utilizando caractersticas de textura. . . . 59Tabela 5 Resultados da classificao utilizando caractersticas de forma, cor e

    textura. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60Tabela 6 Melhores combinaes de caractersticas de forma e cor. . . . . . . . . 61Tabela 7 Resultados obtidos na classificao utilizando as caractersticas seleci-

    onadas de forma e cor descritas na Tabela 6. . . . . . . . . . . . . . . . 62Tabela 8 Melhores combinaes de caractersticas para classificao em trs

    classes utilizando caractersticas de textura. . . . . . . . . . . . . . . . 64Tabela 9 Resultados obtidos na classificao em trs classes utilizando as

    melhores caractersticas de textura. . . . . . . . . . . . . . . . . . . . . 64Tabela 10 Melhores combinaes de caractersticas para classificao em trs

    classes utilizando caractersticas de forma, cor e textura. . . . . . . . 66Tabela 11 Resultados obtidos na classificao em trs classes utilizando as

    melhores caractersticas de forma, cor e textura. . . . . . . . . . . . . 66Tabela 12 Resultados obtidos na classificao em duas classes (nevo comum e

    nevo no comum) da primeira etapa da classificao, utilizando todasas caractersticas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

    Tabela 13 Resultados da classificao em duas classes (nevo atpico e melanoma),utilizando todas as caractersticas de forma, cor e textura. . . . . . . . 68

    Tabela 14 Melhores combinaes de caractersticas para a primeira etapa daclassificao com seleao de caractersticas. . . . . . . . . . . . . . . . 69

    Tabela 15 Resultado da classificao na primeira etapa utilizando as caracters-ticas selecionadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

    Tabela 16 Resultados obtidos na segunda etapa da classificao em duas classes,utilizando as caractersticas selecionadas. . . . . . . . . . . . . . . . . 71

    Tabela 17 Resultados obtidos na classificao em duas classes (nevo atpico emelanoma) utilizando as caracterstica selecionadas. . . . . . . . . . . 72

    Tabela 18 Resultados obtidos na classificao geral feita em duas etapas. . . . . 73

  • LISTA DE ABREVIATURAS E SIGLAS

    AM Aprendizado de Mquina

    FDT FuzzyDT

    GLCM Gray-Level Co-Occurrence Matrix

    INCA Instituto Nacional de Cncer

    IA Inteligncia Artificial

    K-nn K Vizinhos Mais Prximos

    MLP Multi Layer Peceptron

    NB Naive Bayes

    PDI Processamento Digital de Imagens

    RNA Redes Neurais Artificiais

    RGB Red, Green e Blue

    WEKA Waikato Environment for Knowledge Analysis

  • SUMRIO

    1 INTRODUO . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    2 PROCESSAMENTO DIGITAL DE IMAGENS . . . . . . . . . 17

    2.1 Pr-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.1.0.1 Filtro de Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.1.0.2 Filtro de Difuso Anisotrpica . . . . . . . . . . . . . . . . . . . . . . . . . 182.1.0.3 Filtragem Morfolgica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.2 Segmentao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.2.0.4 Descontinuidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.2.0.5 Similaridade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.3 Extrao de Caractersticas de Forma e Cor . . . . . . . . . . . 222.3.0.6 Regra ABCD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.3.0.7 Anlise de Padres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.3.0.8 Lista de Sete Pontos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.4 Extrao de Caractersticas de Textura . . . . . . . . . . . . . . 242.5 Concluso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

    3 APRENDIZADO SUPERVISIONADO . . . . . . . . . . . . . . 26

    3.1 rvores de Deciso . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.2 FuzzyDT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.3 K Vizinhos Mais Prximos (K-nn) . . . . . . . . . . . . . . . . . 333.4 Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.5 Redes Neurais Articiais . . . . . . . . . . . . . . . . . . . . . . . 363.6 Consideraes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . 39

    4 TRABALHOS RELACIONADOS . . . . . . . . . . . . . . . . . 40

    4.1 Abordagens para Processamento de Imagens . . . . . . . . . . 404.2 Abordagens que Usam Caractersticas de Forma e Cor . . . . 424.3 Abordagens que Usam Caractersticas de Textura . . . . . . . 434.4 Outros Trabalhos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.5 Consideraes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . 45

    5 PROPOSTA PARA CLASSIFICAO DE IMAGENS DE

    LESES DE PELE . . . . . . . . . . . . . . . . . . . . . . . . . . 46

    5.1 Escolha de uma Base de Imagens . . . . . . . . . . . . . . . . . . 465.2 Extrao da Imagem em Tons de Cinza . . . . . . . . . . . . . . 475.3 Segmentao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

  • SUMRIO 12

    5.4 Extrao das Caractersticas . . . . . . . . . . . . . . . . . . . . . 485.5 Uso do Algoritmo FuzzyDT para a Classicao . . . . . . . . 495.5.1 Descrio dos Modelos de Classicao . . . . . . . . . . . . . . 495.5.2 Proposta de Clasicao em Duas Etapas . . . . . . . . . . . . . . 515.6 Consideraes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . 52

    6 EXPERIMENTOS E ANLISE DOS RESULTADOS . . . . . 53

    6.1 Seleo de Caractersticas . . . . . . . . . . . . . . . . . . . . . . . 536.2 Classicao em Duas Etapas . . . . . . . . . . . . . . . . . . . . 556.2.1 Experimentos de Classicao . . . . . . . . . . . . . . . . . . . . 566.3 Experimentos de Classicao Usando as Trs Classes Origi-

    nais (nevo comum, nevo atpico e melanoma) . . . . . . . . . . 576.3.1 Experimentos com Todos os Atributos de Forma e Cor. . . . 586.3.2 Experimentos com Todos os Atributos de Textura. . . . . . . . 586.3.3 Experimentos com Todos os Atributos de Forma, Cor e Textura. 59

    6.3.4 Experimentos com Seleo de Atributos de Forma e Cor. . . . 616.3.5 Experimentos com combinao de atributos de textura. . . . 626.3.6 Experimentos com seleo de atributos de forma, cor e textura. 63

    6.4 Classicao em Duas Etapas . . . . . . . . . . . . . . . . . . . . 656.4.1 Experimentos com classicao em duas classes (nevo comum

    e nevo no comum) com todos os atributos. . . . . . . . . . . . 656.4.2 Experimentos com classicao em duas classes (nevo atpico

    e melanoma) com todos os atributos. . . . . . . . . . . . . . . . . 676.4.3 1a etapa - experimentos com classicao em duas classes

    (nevo comum e nevo no comum) com seleo de atributos. . 676.4.4 2a etapa - experimentos com classicao em duas classes

    (nevo atpico e melanoma) com seleo de atributos. . . . . . . . 716.5 Anlise Geral dos Resultados . . . . . . . . . . . . . . . . . . . . . 746.6 Consideraes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . 75

    7 CONSIDERAES FINAIS . . . . . . . . . . . . . . . . . . . . 76

    7.1 contribuies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 767.2 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . 777.3 Publicaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

    REFERNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

  • 13

    1 INTRODUO

    O cncer de pele um dos tipos de cncer com maior crescimento nos ltimosanos. De acordo com a Organizao Mundial de Sade (OMS)1, em torno de 132mil novos casos de melanoma (leso de pele maligna) ocorrem globalmente a cadaano. No Brasil, segundo o INCA (Instituto Nacional de Cncer) 2, o cncer de pele o de maior incidncia, sendo responsvel por cerca de 25% de todos os casosde cncer diagnosticados. As estatsticas em outros pases so similares e bastantepreocupantes. Nos EUA, por exemplo, ocorrem cerca de 10.000 mortes dos 40.000 a50.000 casos diagnosticados por ano 3. E em Portugal, segundo a Liga PortuguesaContra o Cancro LPCC (2015), esse nmero chega a representar um tero de todos oscnceres diagnosticado no pas.

    Dentre os tipos de cncer de pele existente, o melanoma o de menor incidncia,porm com as maiores taxas de mortalidade. Segundo o INCA, de todos os cnceres depele estimados no Brasil em 2016, apenas 4% so do tipo melanoma, sendo que dessetotal, em 70% dos casos os pacientes chegam a bito.

    Apesar da grande taxa de mortalidade ligada ao melanoma, o diagnstico precoceda doena desempenha um papel essencial na diminuio desses nmeros, j que apercentagem de sucesso na cura deste tipo de cncer elevada, caso este seja detectadodurante as etapas iniciais do seu desenvolvimento. relatado na literatura (FRANGE;ARRUDA; DALDON, 2009) que a taxa de sobrevida do melanoma diagnosticadoprecocemente de 90-97% em dez anos, e diminui para 10-15% quando diagnosticadoem um estgio mais avanado.

    Existem duas maneiras de realizar esse diagnstico, atravs dos mtodos invasivos oudos no invasivos.

    Forma invasiva: executada por meio de uma biopsia, procedimento que consistena anlise laboratorial de um pedao de tecido que retirado da pele do paciente.

    Forma no invasiva: consiste da anlise visual da leso, no qual o profissionalanalisa algumas caractersticas que so comuns nesse tipo de leso.

    O primeiro mtodo feito por meio de uma biopsia, sendo assim custoso financeira-mente e gerando incmodo ao paciente, pois necessita da retirada de um pedao de pelepara que seja feita uma anlise laboratorial. Dado comprovado no trabalho realizado

    1 Disponvel em: 2 Disponvel em: 3 Disponvel em:

    http:www.who.int/en/http:www2.inca.gov.brhttp:www.melresproj.com/net/02001.html

  • Captulo 1. Introduo 14

    por Naser (2011), que fez um levantamento dos gastos relacionados ao tratamentode cncer de pele no estado de so em 30 anos (1980 - 2009), onde constatou que dototal de gastos destinados para o tratamento desse tipo de doena, apenas 4,2% sousados no tratamento de leses em estado inicial, sendo todo o restante para os casosem estgios avanados.

    O diagnstico no invasivo pode ser feito de diferentes formas. Entre estas esta dermatoscopia, uma tcnica introduzida por Soyer et al. (1987), que consiste noreconhecimento de estruturas morfolgicas no visveis a olho nu. Na prtica mdica, oaparelho mais utilizado para realizar a dermatoscopia o dermatoscpio (instrumentoque proporciona um aumento da imagem das leses para uma melhor vsualizao).

    Na dermatoscopia, o mdico tem o auxlio do dermatoscpio para analisar as lesesbaseando-se em algumas caractersticas. Apesar de analisar a leso de forma ampliadae das caractersticas extradas serem bem fundamentadas, esse diagnstico subjetivo,pois sofre interferncia de alguns fatores, como:

    Cansao e inexperincia do dermatologista;

    Iluminao irregular do ambiente;

    Leses em estgios iniciais.

    Inexperincia do mdico.

    Visando diminuir a margem de erro dos diagnsticos no invasivos, e assim aumentara sua preciso, pesquisadores de todo o mundo vm desenvolvendo metodologias paraautomatizar a anlise dessas leses baseando-se nas mesmas caractersticas analisadaspor profissionais da sade, porm com o auxlio do computador.

    Essa automatizao baseia-se em programas de computadores que analisam imagensdas leses de pele. Para executar a anlise automtica preciso seguir uma sequnciade passos, como mostra a Figura1.

    Inicialmente a imagem da leso capturada com o auxlio de um dermatoscpio(instrumento que proporciona o aumento das leses cutneas) (FRANGE; ARRUDA;DALDON, 2009). O segundo passo o processamento da imagem, para extrair ascaractersticas. Esse processo subdividido em: pr-processamento, segmentao eextrao de caractersticas, ambas definidas no Captulo 2. O terceiro passo classificara leso, de acordo com as caractersticas retiradas na fase anterior. As tcnicas utilizadasnessas fases so detalhadas no Captulo 3.

    Apesar do grande nmero de trabalhos desenvolvidos para automatizao da classi-ficao de leses de pele, os resultados obtidos em uma comparao entre mtodosde aprendizado de mquina mais utilizados para classificar essas leses apontam

  • Captulo 1. Introduo 15

    Figura 1 Processo Geral da Proposta para Deteco Automtica de Cncer de Pele.

    Fonte: Autoria Prpria

    que, apesar de uma taxa de acurcia em torno 89%, esses classificadores ainda pre-cisam melhorar quanto ao reconhecimento das leses malignas, visto que as taxasde especificidades obtidas no tem sido satisfatrias. Assim, visando auxiliar o usoda dermatoscopia por profissionais da rea da sade, o presente trabalho props odesenvolvimento de uma metodologia baseada na utilizao do algoritmo FuzzyDT,um algoritmo para classificao que combina o poder das rvores de deciso com acapacidade de representao do conhecimento humano da lgica fuzzy, para automati-zar a classificao de leses de pele, fundamentando-se em caractersticas de forma,cor e textura.

    A principal contribuio desse trabalho a extrao de novas caractersticas, juntamentecom a seleo de caractersticas, o que possibilitou o alagoritmo FuzzyDT obter melhoresresultados. Outra contribuio desse trabalho a listagem de quais caractersticasgeram melhores resultados em outros 20 algoritmos diferentes, possibilitando o usodos algoritmos extraindo suas melhores classificaes.

    Este trabalho encontra-se dividido da seguinte forma: no Captulo 2 exposta afundamentao terica relacionada ao processamento digital de imagens. O Captulo 3traz definies de tcnicas de aprendizado de mquina supervisionado estudadas

  • Captulo 1. Introduo 16

    neste trabalho. No Captulo 4 so citados alguns trabalhos relacionados. No Captulo 5, detalhado o desenvolvimento deste trabalho para classificao de imagens de lesesde pele. No Captulo 6 so detalhados todos os experimentos realizados, bem como aanlise dos resultados obtidos. Por fim, o Captulo 7 traz as consideraes finais.

  • 17

    2 PROCESSAMENTO DIGITAL DE IMAGENS

    A manipulao de uma imagem por um computador, no qual tem-se como entrada esada uma imagem, chamada de Processamento Digital de Imagens. O objetivo de seusar esse processamento melhorar o aspecto visual das imagens possibilitando umamelhor interpretao, facilitando a extrao de informaes das mesmas (GONZALEZ;WOODS, 2010). O processamento composto por:

    Pr-processamento

    Segmentao

    Extrao de caractersticas

    2.1 PR-PROCESSAMENTO

    Imagens de leses de pele so variadas, com diferentes formas e intensidades de rudo,como pelos, sombra, linhas da pele e diferentes tipos de iluminao, podendo gerardistores na definio da leso e consequentemente, na classificao, tornando assim,o pr-processamento, uma etapa importante no processamento de imagens. Essesrudos podem ser amenizados ou at mesmo removidos com a aplicao de filtros desuavizao (GONZALEZ; WOODS, 2010). Alguns filtros tm sido bastante utilizadosnas propostas encontradas na literatura, como o de mediana e o difuso anisotrpica(PERONA; MALIK, 1990). A aplicao desses filtros pode ser feita individualmente oucombinados, tentando extrair o melhor de cada mtodo.

    A Figura2(a) mostra um exemplo de imagem com rudo (plos), e a Figura2(b) mostraa mesma imagem aps a remoo dos rudos. No processamento dessa imagemfoi usado o sistema DullRazor, proposto por Lee et al. (1997), para executar o pr-processamento de imagens. A seguir so descritos alguns dos filtros encontrados emtrabalhos relacionados a classificao de leses de pele.

    2.1.0.1 Filtro de Mediana

    O filtro de mediana um filtro no linear, bastante usado para eliminar rudos emimagens. Ele reduz satisfatoriamente os rudos, preservando os traos originais das

  • Captulo 2. Processamento Digital de Imagens 18

    Figura 2 Exemplo de Rudos (pelos) em Imagem de Leso de Pele. (A) Antes dopr-processamento. (B) Depois do pr-processamento

    Fonte: (SUPOT, 2014)

    imagens. Ao contrrio dos filtros lineares, como o filtro de mdia, que borra a imagem,ele suaviza a mesma sem perder suas bordas e detalhes finos (GONZALEZ; WOODS,2010). Por essa razo, o filtro de mediana frequentemente aplicado para suavizaode imagens de leses de pele, uma vez que a preservao da borda original daimagem importante para o processo seguinte, o de segmentao da leso ((CELEBI;ASLANDOGAN; BERGSTRESSER, 2005); (CELEBI et al., 2008); (CHIEM; AL-JUMAILY;KHUSHABA, 2007); (LAU; AL-JUMAILY, 2009)).

    A caracterizao desse filtro se d pelo uso de mscaras, que consite na troca do valordo pixel pelo valor da mediana de sua vizinhana. A vizinhana estabelecida pelotamanho da mscara que foi definida (CHIEM; AL-JUMAILY; KHUSHABA, 2007). Naliteratura, possvel encontrar trabalhos voltados para definio das mscaras, comoem Lau e Al-Jumaily (2009) e Celebi et al. (2008).

    2.1.0.2 Filtro de Difuso Anisotrpica

    Usado para suavizao de imagens, o filtro de difuso anisotrpica tambm utilizadoem imagens de leses de pele para eliminao de rudos. um filtro no linear, e suaaplicao se d por meio de iteraes, que so definidas de acordo com a quantidadede rudos presentes na imagem; Seu uso resulta numa suavizao seletiva. Contudo,quando aplicado em excesso, esse filtro pode eliminar as bordas da leso.

    O filtro de difuso anisotrpica para suavizao de leses de pele foi usado por Pires

  • Captulo 2. Processamento Digital de Imagens 19

    e Barcelos (2007), que utilizaram o mtodo que prope uma complementao noalgoritmo inicialmente apresentado por Perona e Malik (1990). O algoritmo alm depermitir a eliminao dos rudos presentes na imagem, reala a borda, que umacaracterstica importante para a definio do contorno da leso. Esse algoritmo tambmtem por objetivo suavizar imagens muito ruidosas, sem eliminar a borda.

    2.1.0.3 Filtragem Morfolgica

    A filtragem morfolgica (FACON, 1996) caracterizada por resultar de uma operaono-linear entre a imagem e um elemento estruturante. Segundo Gonzalez e Woods(2010), essa filtragem bastante usada para suavizao de imagens e remoo de rudos,nos quais so usados os operadores morfolgicos de abertura e fechamento.

    2.2 SEGMENTAO

    A segmentao a etapa que subdivide uma imagem em regies ou objetos que acompe. Para que um mtodo computacional de auxlio a diagnstico de leses de peleseja eficiente, o contorno extrado deve preservar as caractersticas de irregularidadeda fronteira da leso (MA et al., 2010). A aplicao do mtodo de segmentao ocorreat que o objeto de interesse, neste caso a leso de pele, seja isolado do restante daimagem.

    Alguns rudos, como pelos, sardas e manchas, influenciam no resultado de sua aplicao,tornando-a uma tarefa complexa. Dessa forma, as tcnicas de pr-processamento deimagens podem ser utilizadas anteriormente, objetivando melhorar o desempenho naetapa de segmentao.

    Geralmente, a segmentao baseada nas propriedades de descontinuidade e similari-dade, explicadas a seguir. A Figura 3(b) mostra um exemplo de segmentao em daFigura 3(a).

    2.2.0.4 Descontinuidade

    Tcnicas baseadas em descontinuidades podem localizar objetos de trs tipos (NEVES;PELAES, 2001):

    pontos;

    linhas;

    bordas.

  • Captulo 2. Processamento Digital de Imagens 20

    Figura 3 Segmentao em Imagem de Leso de Pele. (A) Antes da segmentao. (B)Depois da segmentao.

    A descontinuidade se baseia nas mudanas abruptas de intensidades dos pixels,interligando-os quando esto prximos, como os detectores de borda. Em geral, osdetectores de borda, como Prewitt, Sobel e Roberts, podem apresentar problemas como:determinar bordas em locais que no existe fronteira; no determinar bordas quandorealmente existe fronteira; detectar bordas duplas ((SONKA; HLAVAC; BOYLE, 1998)(GONZALEZ; WOODS, 2010) (CANNY, 1986)).

    2.2.0.5 Similaridade

    As principais abordagens de similaridade so baseadas em limiares (thresholding) ecrescimento de regies (region growing) (GONZALEZ; WOODS, 2010). Em imagensde leses de pele, a segmentao usando critrio de similaridade baseia-se em carac-tersticas como cor e textura. A seguir so detalhados os mtodos de limiarizao ecrescimento de regio, que adotam essa metodologia.

    Limiarizao

    As metodologias de segmentao baseadas em limiares tentam separar as regiesde interesse do fundo da imagem, usando valores como classificadores de umacaracterstica particular ((GONZALEZ; WOODS, 2010); (YUKSEL; BORLU, 2009);(CUDEK; GRZYMALA-BUSSE; HIPPE, 2010); (BEUREN et al., 2012)). Esta tcnicatem como resultado uma imagem binria, na qual a cor preta pode representara leso e a branca a pele. A sua aplicao consiste na escolha de limiar ou

  • Captulo 2. Processamento Digital de Imagens 21

    mltiplos limiares, para fazer a separao dos nveis de cinza da imagem, queso representados em um histograma.

    No mtodo de limiarizao um passo muito importante a definio do limiar,no qual definido o limite de separao entre os pixels, assim, devido a suaimportncia, existem trabalhos destinados apenas na definio do limiar, como ocaso de Otsu (1978), que se baseia no histograma normalizado para definir o valordo limiar timo que separa os pixels de uma determinada imagem em duas classeshomogneas com varincia mnima entre as classes. Observando que a bordadefinida pelo mtodo de Otsu tende a ser menor do que o tamanho correto da lesona maioria das imagens, bem como pelo fato de apresentar uma borda bastanteirregular, Yuksel e Borlu (2009) apresentaram uma abordagem utilizando tcnicasde lgica fuzzy do tipo-2 (MENDEL; JOHN, 2002) que determina um limiarautomtico para segmentar imagens. Est tcnica apresenta bom desempenhoem lidar com valores incertos para definir se um determinado nvel de cinzapertence leso ou pertence pele.

    Outro mtodo para definio do limiar o de entropia de Renyi (SAHOO;WILKINS; YEAGER, 1997), considerando que o processo de limiarizao maiseficiente, uma vez que evita modificar a geometria e forma da leso.

    Crescimento de Regies

    A outra tcnica baseada em similaridade, cuja utilizao voltada para segmen-tao de leses de pele, a por crescimento de regio (CELEBI; ASLANDOGAN;BERGSTRESSER, 2005). Na tentativa de unir o maior nmero possvel de pixelsem regies homogneas, tm sido propostos mtodos baseados em crescimentode regies ((LEE et al., 1997) (CELEBI et al., 2008)).

    Uma abordagem frequentemente usada de dividir a imagem de entrada emconjuntos de regies disjuntas, esta tcnica um processo que agrupa pixelsvizinhos semelhantes ou sub-regies em regies maiores (homogneas) de acordocom um critrio de crescimento.

    Esse processo inicia com um conjunto de pontos, no qual cada ponto que possuipropriedades semelhantes em uma determinada regio, tais como, nvel de cinza,textura ou cor, so agrupados, causando o crescimento da mesma. Depois deobtida a regio de crescimento pode ser aplicado uma operao de fuso deregio (merging) para obter a imagem final segmentada. O merging permite queas regies sejam fundidas, ou seja, definida a mesma intensidade para todosos pixels que possuam intensidades semelhantes de acordo com o parmetro decrescimento.

  • Captulo 2. Processamento Digital de Imagens 22

    2.3 EXTRAO DE CARACTERSTICAS DE FORMA E COR

    Para ser realizada a classificao das leses de pele necessrio algumas informaesreferentes s mesmas, e a partir da classific-las. Alguns mtodos utilizados so: regraABCD, anlise de padro e lista de sete pontos. Tais tcnicas so descritas a seguir.

    2.3.0.6 Regra ABCD

    Para o diagnstico das leses de pele, algumas caractersticas como assimetria, ir-regularidade da borda, variao da cor interna e o dimetro so analisadas. Essascaractersticas so conhecidas como ABCD das leses de pele (ou regra ABCD). Segueo detalhamento das mesmas:

    Assimetria (A) Simtrica: leses que geralmente so no cancerosas e/ou nomalignas, sendo mais arredondadas. Assimtrica: leses que possuem grandesprobabilidades de serem cancerosas malignas.

    Borda (B) Lisa: leses no malignas possuem bordas lisas e suaves. Rugosa oucortada: frequentemente leses malignas possuem bordas irregulares.

    Cor (C) Regular: leses com cor interna homognea que, na maioria das vezes,no so malignas. Irregular: geralmente os melanomas possuem colorao internacom grande variao das intensidades marrom e preta, podendo ter regies embranco.

    Dimetro (D) Menor que 6mm: leses no malignas geralmente possuem dimetroinferior a 6 mm e no variam de tamanho. Maior que 6mm: frequentemente osmelanomas so maiores do que 6 mm de dimetro, crescem e mudam de formarapidamente.

    De acordo com Pires e Barcelos (2007) vem sendo avaliada a adio da caractersticaevoluo essa regra, que consiste na avaliao na modificao das caractersticas daleso ao longo do tempo. O que est motivando essa adio, o fato das leses estaremevoluindo bem rpido em pouco tempo.

    Segundo Smith (1996) os profissionais da rea mdica enfatizam estas caractersticasquando analisam as imagens de leses, principalmente as de contorno. Esta regra per-mite ao dermatologista fazer uma anlise prvia da leso, definindo os procedimentosa serem seguidos at que exames mais detalhados sejam feitos.

    Indo mais alm, Muller et al. (2009) propuseram uma avaliao do aprendizado daregra ABCD por pacientes atendidos em centros dermatolgicos na regio Sul do Brasil.

  • Captulo 2. Processamento Digital de Imagens 23

    Sua pesquisa foi realizada em 80 pacientes, de ambos os sexos, com faixa etria acimade 12 anos. Concluram que essa regra pode ser usada para capacitar pacientes acimade 17 anos e identificar alteraes sugestivas nas leses, favorecendo, assim, a detecoprecoce do cncer.

    2.3.0.7 Anlise de Padres

    O mtodo de anlise de padres foi descrito inicialmente por Pehamberger, Steiner eWolff (1987). Essa metodologia definiu padres dermatoscpicos caractersticos dasleses pigmentadas da pele e, em 2000, foi atualizada pelo Consensus Net Meeting(REZZE; S; NEVES, 2006).

    As leses de pele so caracterizadas por padres, tais como: globular, homogneo ereticular, que podem ser identificados nas imagens de exame de pele obtidas pelaanlise de padro, para definir se a leso benigna ou maligna. O tamanho, forma edistribuio dos padres tornam-se desiguais no interior da leso maligna, contraria-mente leso benigna onde os padres so uniformes em toda a regio. Essa anlisefoi aplicada por Mendoza, Serrano e Acha (2009) para identificar o tipo de padro,para que ento possa ser utilizada para a identificao em melanoma ou nevo. Extra-ram caractersticas baseando-se no histograma de intensidade, estatstica diferencial,fourier, matrix run-length e matrizes de co-ocorrncia, como tambm utilizaram anliseestatstica para definir o padro da leso.

    2.3.0.8 Lista de Sete Pontos

    Este mtodo utilizado para anlise computacional de leses de pele em imagensdermatoscpicas em Leo et al. (2009) e Leo et al. (2010). So sete critrios estabelecidose divididos em maiores (2 pontos) e menores (1 ponto), se a soma total for menor doque trs, a leso considerada benigna, caso seja igual ou maior que trs, a leso considerada maligna. A seguir so listados os sete critrios ordinalmente (PROCIANOY,2009):

    Os critrios maiores representam:

    1. Presena de pigmentao atpica;

    2. Vu branco azulado;

    3. Padro de vascularizao no-tpica.

    Os critrios menores so compostos por:

    4. Estrias irregulares;

  • Captulo 2. Processamento Digital de Imagens 24

    5. Pigmentao irregular;

    6. Pontos ou glbulos irregulares;

    7. Estruturas de regresso.

    2.4 EXTRAO DE CARACTERSTICAS DE TEXTURA

    A GLCM (Matriz de Co-Ocorrncia de Nvel de Cinza) uma tcnica utilizada dentroda rea de anlise de texturas, que foi desenvolvida na dcada de 70 pelo pesquisadorHaralick (1979). Baseando-se em estatsticas, so analisadas as co-cocorrncias existentesentre pares de pixels, levando em considerao tambm a distancia entre os pixels emquesto, bem como a direo de encontro dos mesmos.

    Uma GLCM uma matriz sempre quadrada que mantm informaes das intensidadesrelativas dos pixels em uma dada imagem. Ela calcula as probabilidades de co-ocorrncias entre dois nveis de cinza i e j, dada uma certa distncia s e uma orientaoQ (tetha), que pode assumir os valores de 0o, 45o, 90o, 135o, 180o, 225o, 270o e 315o

    (HARALICK, 1979). Existe uma matriz de co-ocorrncia para cada relacionamentoespacial possvel (combinaes da distncia s e da orientao Q). Todas as informaessobre a textura de uma imagem estaro contidas nessa matriz.

    Um exemplo de uma matriz GLCM obtida a partir dos pixels de uma imagem pode servisto na Figura 4. Observe que o relacionamento estabelecido (1,1), ou seja, um pixeladjacente horizontalmente a uma distncia unitria. O elemento na linha 1 e coluna1 da matriz GLCM tem o valor 1, o que indica que existe apenas uma nica situaona imagem onde um pixel de nvel de intensidade 1 adjacente horizontalmente aum outro pixel de nvel de intensidade 1. O elemento na linha 1 e coluna 2 da matrizGLCM tem o valor 2, o que indica que existem duas ocorrncias na imagem onde umpixel de nvel de intensidade 1 adjacente horizontalmente a um pixel de nvel deintensidade 2. Esse processo repetido at que a matriz GLCM esteja completa.

    Variando o vetor usado para se obter a matriz de co-ocorrencia, permitiu-se encontrardiferentes caractersticas de textura. Dentre as pesquisadas, as caractersticas maisutilizadas em trabalhos dessa natureza so: contraste, homogeneidade, energia ecorrelao, de acordo com as Equaes de 2.1 a 2.4 respectivamente.

    Contraste =n1i, j=0

    Pi, j(i j)2 (2.1)

  • Captulo 2. Processamento Digital de Imagens 25

    Figura 4 Processo de construo de uma matriz GLCM a partir da imagem.

    Fonte: mathworks 1

    Homegeneidade =n1i, j=0

    Pi, j1 + (i j)2 (2.2)

    Energia =n1i, j=0

    (Pi, j)2 (2.3)

    Correlao =n1i, j=0

    Pi, j(i )( j )

    2(2.4)

    onde P(i,j) a posio na matriz GLCM, sendo i o nmero da linha e o j a coluna.

    2.5 CONCLUSO

    Neste captulo, foram apresentados alguns conceitos sobre as fases de processamentodigital de imagens necessrias em trabalhos de classificao de leses de pele, sendoessas divididas em: Pr-processamento - responsvel por remover os rudos presentesnas imagens, segmentao - fase em que a leso separada do restante da imagem eextrao das caractersticas - responsvel por extrair as caractersticas que sero usadascomo entrada para a classificao.

    No prximo, so apresentados os conceitos bsicos sobre os algoritmos de aprendizadode mquina supervisionado, ou de classificao, usados no desenvolvimento destetrabalho.

  • 26

    3 APRENDIZADO SUPERVISIONADO

    Alguns problemas so facilmente resolvidos por humanos, como reconhecer pessoaspela fisionomia ou fala. Para isso, adquirido um conhecimento prvio, que possibilitea diferenciao entre os padres existentes. Um bom mdico consegue, baseado em umconjunto de sintomas (caractersticas) e de exames clnicos, estabelecer um diagnsticoem relao a um paciente. Para isso, ele utiliza o conhecimento adquirido durante suaformao, bem como a experincia do dia-a-dia.

    Para que um computador consiga reconhecer padres, como por exemplo, diferenciarentre pessoas usando imagens dos seu rostos, necessrio a utilizao de algumatcnica computacional que auxilie a deciso. Tcnicas de Inteligncia Artificial (IA), emespecial, de Aprendizado de Mquina (AM), vem sendo utilizadas na resoluo dessesproblemas. Inteligncia Artificial, segundo Winston (1992), o estudo das computaesque tornam possvel perceber, raciocinar e agir. Aprendizado de mquina umasubrea de IA. Segundo Mitchell (1997) a capacidade de melhorar o desempenho narealizao de alguma tarefa por meio da experincia.

    Algoritmos de AM tm sido utilizados em diversas tarefas, como diagnsticos mdicos,reconhecimento de padres, viso computacional, dentre outros, que podem serorganizadas de acordo com diferentes critrios. Um deles diz respeito ao paradigmade aprendizado a ser adotado para lidar com a tarefa. De acordo com esse critrio, astarefas de aprendizado de mquina podem ser divididas em (CARVALHO, 2011):

    Aprendizado Supervisionado: tem como meta encontrar uma funo a partirdos dados de treinamento que possa ser utilizado para prever um rtulo ouum valor que caracterize um novo exemplo. Os algoritmos ou mtodos de AMutilizados nessa tarefa induzem modelos preditivos. Fazem parte do paradigmasupervisionado.

    Aprendizado no Supervisionado: tem como meta explorar ou descrever umconjunto de dados. Os algoritmos de AM utilizados nessa tarefa no fazemuso do atributo de sada. Por isso seguem o paradigma de aprendizado nosupervisionado.

    Nas sees a seguir so definidos alguns mtodos de aprendizado de mquinasupervisionado utilizados na classificao de leses de pele, sendo eles: rvores dedeciso, FuzzyDT, K vizinhos mais prximos, naive bayes e redes neurais.

  • Captulo 3. Aprendizado Supervisionado 27

    3.1 RVORES DE DECISO

    As rvores de deciso usam a estratgia de dividir para conquistar para resolverproblemas de deciso. Os problemas complexos so divididos em problemas de menorcomplexidade, que por sua vez tambm so divididos. Os subproblemas so resolvidose a combinao de suas solues produzem a soluo final. Algoritmos como ID3(QUINLAN, 1979), CART (BREIMAN et al., 1984) e C4.5 (QUINLAN, 1993), usam essaideia em suas fundamentaes. A Figura 5 representa uma rvore de deciso, na qualcada n interno (Renda e Bens) contm um teste condicional baseado em valores dosatributos, e os ns folha (Baixo, Mdio, e Alto) representam uma classe especfica.

    Uma rvore de deciso pode predizer qualquer tipo de entrada, pois todo o espaode instncias esto presentes na mesma. Para classificar instncias, so analisados umconjunto de condies presentes no percurso da raiz at uma das folhas da rvore,ou seja, em cada n interno contm um condio, que ao ser avaliada, decide qual oprximo n que aquela instncia deve seguir, assim ao fim do percurso, a instnciaestar na folha que representa a classe que a mesma faz parte (RUSSELL; NORVIG,2004).

    A Figura 5 demonstra um exemplo do uso de uma rvore de deciso para a anlisede crdito. Baseando-se nas informaes de renda e bens do cliente, a rvore informao risco ao qual a financeira ser submetida caso libere o financiamento para aquelecliente. Nesse exemplo foi levado em considerao trs tipos de riscos diferentes: alto,mdio e baixo.

    A seguir so detalhadas as etapas mais gerais de criao de rvores de deciso.

    Induo

    A fase em que a rvore construda chamada de induo. Nessa fase definidoqual atributo ser usado em cada n. Existem diferentes critrios para selecionaros atributos, sendo essa a principal diferena entre os algoritmos existentes.

    O principal conceito nessa proposta o de entropia (H). A entropia consiste emmedir a aleatoriedade (dificuldade de predizer) de uma varivel. Suponha umavarivel aleatria discreta A, cujo o domnio a1, a2, ..., an e a probabilidade dese observar cada uma p(a1), p(a2), ..., p(an). O clculo da entropia de A (H(A)) mostrada na Equao 3.1.

    H (H(A)) =n

    i=1

    P(ai) log2 P(ai) (3.1)

  • Captulo 3. Aprendizado Supervisionado 28

    Figura 5 rvore de Deciso, exemplo da financeira.

    Fonte: autoria prpria

    Para verificar a Equao 3.1, no caso do lanamento de uma moeda imparcial,obtm-se:

    H(12,

    12

    )= 1

    2log2

    12 1

    2log2

    12

    = 1 (3.2)

    No caso de uma moeda adulterada para dar 99% de cara, o valor da entropia :

    H( 1100

    ,99

    100

    )= 1

    100log2

    1100 99

    100log2

    99100

    = 0, 08 (3.3)

    Logo, como possvel perceber, quanto mais equilibrada for a diviso entre osramos, mais prximo de 1 (um)ser a entropia, como o caso da moeda honesta,e quanto mais esse valor se aproximar de 0 (zero), mais desbalanceada ser arvore, como o caso da moeda desonesta.

    A medida de ganho de informao (IG) verifica a reduo na entropia nasparties obtidas de acordo com os valores do atributo. O ganho de informao dado pela diferena entre a entropia do conjunto de exemplos e a soma ponderadadas entropias das parties, como mostrado na Equao 3.4. A construo darvore de deciso guiada pelo objetivo de reduzir a entropia, isto , reduzira aleatoriedade da varivel alvo. Frmula do clculo do ganho de informao(CARVALHO, 2011).

  • Captulo 3. Aprendizado Supervisionado 29

    IG(A, p, q

    )= I

    (p, q

    ) E (A, p, q) (3.4)Suponha o conjunto de treinamento apresentado na Tabela 1. O problema dedeciso decidir quando algum joga ou no algum esporte dadas as condiesdo tempo. O problema definido por quatro atributos de entrada: tempo,temperatura, umidade e vento.

    Tabela 1 rvore de deciso: exemplo de uso.

    Tempo Temperatura Umidade Vento JogaChuvoso 71 91 Sim no

    Ensolarado 69 70 no SimEnsolarado 80 90 Sim no

    Nublado 83 86 no SimChuvoso 70 96 no SimChuvoso 65 70 Sim noNublado 64 65 Sim SimNublado 72 90 Sim Sim

    Ensolarado 75 70 Sim SimChuvoso 68 80 no SimNublado 81 75 no Sim

    Ensolarado 85 85 no noEnsolarado 72 95 no no

    Chuvoso 75 80 no no

    Fonte: Autoria Prpria

    De acordo com esses dados, baseando-se no clculo de entropia e ganho deinformao, qual atributo seria melhor para ficar na raiz da rvore ?

    Clculo da entropia (H) geral:

    P( joga = sim) = 9/14

    P( joga = nao) = 5/14

    H( joga) = 9/14 log2(9/14) 5/14 log2(5/14) = 0, 940Clculo da entropia (H) de cada partio:

    P( joga = sim | Tempo = Ensolarado) = 2/5P( joga = nao | Tempo = Ensolarado) = 3/5H( joga | Tempo = Ensolarado) = 2/5 log2(2/5) 3/5 log2(3/5) = 0, 971Similarmente para as outras parties do atributo tempo:

    H( joga | Tempo = Nublado) = 0, 0H( joga | Tempo = Chuvoso) = 0, 971A entropia ponderada para o atributo tempo :

    H(Tempo) = 5/14 0, 971 + 4/14 0, 0 + 5/14 0, 971 = 0, 693Logo, o ganho de informao obtido pelo atributo tempo :

  • Captulo 3. Aprendizado Supervisionado 30

    IG(Tempo) = H( joga) H(Tempo) = 0, 940 0, 693 = 0, 247Sabendo que os demais atributos obtiveram um ganho de informao menor queo do tempo, esse atributo escolhido para ficar na raiz da rvore.

    Poda

    Em domnios com rudos, um processo muito importante em relao as rvores dedeciso o de poda. Esse processo consiste na troca dos ns profundos por folhas.Dados ruidosos levantam dois problemas. O primeiro que as rvores induzidaspor esses dados classificam novos objetos de uma maneira no confivel. Eo segundo que a rvore induzida tende a ser grande, assim dificultando oentendemento da soluo. Logo, a poda ajuda a minimizar esses problemas.

    Mtodos de poda podem ser divididos em dois grupos principais. Primeiro,mtodos que param a construo da rvore quando algum conceito satisfeito,chamados de pr-poda. Essa tcnica conta com regras de parada que previnem aconstruo de ramos que no parecem melhorar a preciso preditiva da rvore,tendo como vantagem a minimizao do tempo na construo. O segundo grupo composto por mtodos que constroem a rvore completa e depois executama poda, chamados de ps-poda. Esse caso baseado em algumas medidas,entre elas o erro estatstico e o erro de backed-up. O erro estatstico o nmero declassificaes incorretas considerando que todos os exemplos que chegam nessen so classificados usando a classe majoritria da distribuio de classes desse n.O erro de backed-up a soma das classificaes incorretas de todas as subrvoresdo n corrente (CARVALHO, 2011).

    Na literatura possvel encontrar alguns trabalhos que realizam a classificao deleses de pele utilizando rvores de deciso, como em Celebi et al. (2008), que usamuma rvore de deciso para classificar os pixels da imagem em duas classes: vu e novu, e a partir da classificar a leso.

    3.2 FUZZYDT

    O FuzzyDT1, algoritmo proposto por Cintra e Camargo (2010), usa as mesmas medidasdo algoritmo clssico C4.5 (QUINLAN, 1993) (entropia e ganho de informao) paradecidir a importncia das caractersticas. Contudo, para o FuzzyDT, caractersticascontnuas so definidas em termos de conjuntos fuzzy antes da induo na rvore.Deste modo, o processo de induzir uma rvore usando FuzzyDT pega um conjunto de

    1 Disponvel em

    https://dl.dropboxusercontent.com/u/16102646/FuzzyDT.zip

  • Captulo 3. Aprendizado Supervisionado 31

    caractersticas discretizadas, uma vez que as caractersticas contnuas so definidas emtermos de conjuntos fuzzy e o conjunto de treinamento fuzzificado antes que ocorraa induo da rvore de deciso. O Algoritmo a seguir descreve FuzzyDT.

    O Algoritmo FuzzyDT:

    1. Definir a base dados fuzzy, isto , a granulao fuzzy para os domnios dascaractersticas contnuas;

    2. Substituir os atributos contnuos para o conjunto de treinamento usando osrtulos lingusticos dos conjuntos fuzzy com os valores de entrada de maiorcompatibilidade;

    3. Calcular a entropia e o ganho de informao de cada caracterstica para dividiro conjunto de treinamento e define os ns de teste da rvore at que todasas caractersticas sejam usadas ou todos os exemplos de treinamento sejamclassificados;

    4. Aplicar um processamento ps-poda, similarmente ao C4.5, usando 25% delimites de confiana como padro.

    Como a fuzzificao dos dados de treinamento feita antes da induo da rvore,o terceiro passo do algoritmo FuzzyDT corresponde ao mesmo passo do algoritmoclssico da rvore de deciso C4.5.

    Como estabelecido anteriormente, uma questo especial que diz respeito s rvores dedeciso o fato de que elas podem ser vistas como um conjunto de regras disjuntas nasquais apenas uma regra acionada para classificar um novo exemplo. Contudo, emborauma rvore de deciso fuzzy possa ser vista como um conjunto de regras, diferentementedo modelo clssico, muitas dessas regras so acionadas simultaneamente, cada umacom um grau de compatibilidade com um exemplo de entrada, na inteno de classificaresse novo exemplo. A Figura 6 ilustra essa caracterstica especial das rvores de decisodifusas com um exemplo hipottico baseado no conjunto de dados Iris disponibilizadopor Lichman (2013). Esse exemplo usa apenas dois atributos para classificar as novasentradas em trs tipos de plantas iris: Setosa, Versicolor e Virginica. A rvore de decisodo lado esquerdo da Figura 6 a clssica, enquanto a sua verso fuzzy similar a dadireita. No intuito de ser capaz de interpretar as variveis lingusticas fuzzy e os termoslingusticos da rvore de deciso fuzzy, a Figura 7 apresenta os conjuntos fuzzy dosatributos de definio Comprimento da Ptala e Largura da Ptala usados na Figura 6.Para simplificao, apenas dois conjuntos de formas triangulares (pequeno e grande)eventualmente distribudos nas parties so usados. A Figura 7 mostra as funesassociativas para o Comprimento da Ptala e a Largura da Ptala (CINTRA, 2012).

  • Captulo 3. Aprendizado Supervisionado 32

    Figura 6 rvores de deciso clssica e fuzzy para o conjunto de dados Iris.

    Fonte: (CINTRA, 2012)

    Figura 7 Conjuntos fuzzy dos atributos de definio Comprimento da Ptala e Largurada Ptala.

    Fonte: (CINTRA, 2012)

    O processo de deduo da rvore de deciso clssica bastante direto: se Largurada Ptala

  • Captulo 3. Aprendizado Supervisionado 33

    Contudo, para a rvore de deciso fuzzy, os graus associativos do exemplo de entrada,mostrados na Figura 5.3 (Comprimento da Ptala Pequeno = 0.66; Comprimento daPtala Grande = 0.34; Largura da Ptala Pequena = 0.79; Largura da Ptala Grande =0.21) so usados para calcular o grau de compatibilidade do exemplo de entrada comcada regra. Para esse exemplo particular, usando o mnimo como t-norm, os graus decompatibilidade das regras fuzzy so (em parnteses):

    1. SE Largura da Ptala Pequeno ENTO Classe Virginica (0.79)

    2. SE Largura da Ptala Grande E Comprimento da Ptala Pequeno ENTOClasse Versicolor (0.21)

    3. SE Largura da Ptala Grande E Comprimento da Ptala Grande ENTOClasse Setosa (0.21)

    Para esse exemplo, usando o mtodo clssico de raciocnio fuzzy (melhor regra), aclasse da primeira regra usada para classificar o exemplo como Virginica, a qual a mesma classe definida pela rvore de deciso clssica. Agora, assumindo que aLargura da Ptala do exemplo de entrada seja 0.61, enquanto o Comprimento da Ptalacontinua o mesmo. Note que a diferena na Largura da Ptala entre esse exemploe o ltimo exemplo no significante (0.01). Desse modo, a classe de tais exemplossimilares deveria ser a mesma. No obstante, a rvore de deciso clssica classificaesse novo exemplo como pertencente classe Versicolor. A rvore de deciso fuzzy,em outra via, uma vez que ela usa os graus de compatibilidade dos valores de entradacom os conjuntos difusos definindo os testes da rvore, ainda classifica esse novoexemplo na mesma classe, Virginica. Note que a mesma situao pode ocorrer parao Comprimento da Ptala, bem como com qualquer atributo contnuo com umadiscretizao quebradia. Essa robustez das rvores de deciso difusas altamentedesejvel.

    Nesta seo foram apresentados os principais conceitos sobre Conjuntos Fuzzy, LgicaFuzzy e Sistemas Fuzzy, em especial os Sistemas Fuzzy de Classificao, alvo de estudodeste trabalho. Todos os conceitos detalhados nesse captulo podem ser encontradosna integra em (CINTRA, 2007; CINTRA; CAMARGO, 2010; CINTRA, 2012).

    3.3 K VIZINHOS MAIS PRXIMOS (K-NN)

    Baseando-se na hiptese de que dados similares tendem a estar concentrados emuma mesma regio do espao de entrada, os mtodos baseados em distncia levam

  • Captulo 3. Aprendizado Supervisionado 34

    em considerao a proximidade entre os dados na realizao das predies. Umdos algoritmos baseados em distncia mais utilizados o K-nn (K nearest neighbors)(CARVALHO, 2011).

    Sucintamente, essa tcnica compara o exemplo de entrada com os exemplos do conjuntode treino e determina os k exemplos de treino mais prximos do exemplo de entrada.Com o conjunto Tr = a1, a2, ..., an. Para classificar um novo elemento x, calcula-se asdistncias de x a todos os elementos de Tr e determina-se os k mais prximos de x.Dentre os k mais prximos verifica-se qual a classe que aparece com mais frequncia,sendo o elemento x classificado dentro da classe mais frequente. Fazendo uma analogiaa Figura 8, o conjunto de entrada seria os quadrados azuis e os tringulos vermelhos, eo elemento que se deseja classificar seria o crculo verde. Logo, se k = 1, o crculo verdepertence a classe dos quadrados, porm se k = 3, o crculo passa a pertencer a classedos tringulos.

    Figura 8 Exemplo de classificao segundo o K-nn.

    Fonte: autoria prpria

    Em alguns casos o valor de k interfere diretamente na escolha da classe, como vistona figura acima, na qual quando o k = 1, o exemplo foi classificado em uma classe, equando o k = 3, a classificao apontou outra classe. A escolha do melhor valor de kdepende do exemplo, assim o valor de k geralmente determinado experimentalmente.Para tal, comea-se escolhendo uma gama de valor de k, e para cada um desses valores estimada uma taxa de erro do classificador, sendo escolhido o valor que retornar amenor taxa de erro (RUSSELL; NORVIG, 2004).

    possvel encontrar alguns trabalhos que utilizam o K-nn para classificar leses depele, como em Ruiz et al. (2011) que usou o K-nn para classificar leses de pele e

  • Captulo 3. Aprendizado Supervisionado 35

    mostrou que em comparao com outros mtodos mais complexos, ele, apesar desimples, obteve resultados similares.

    3.4 NAIVE BAYES

    Outro algoritmo de aprendizado de mquina usado para classificar leses de pele o Naive Bayes. Os classificadores de Bayes so classificadores estatsticos queclassificam um objeto numa determinada classe baseando-se na probabilidade desseobjeto pertencer a essa classe. Esse mtodo utiliza dois conceitos de probabilidade paraclassificar. O primeiro a probabilidade a priori P(c), que consiste na observao dafrequncia com que o evento c ocorre, antes de verificar a evidncia. E o segundo aprobabilidade a posteriori, que consiste na observao da frequncia com que o eventoc ocorre, aps verificar a evidncia.

    Em outras palavras, a observao x classificada numa classe c para a qual a proba-bilidade a posteriori P(c | x) for a mais alta possvel. Essa probabilidade conhecidapor probabilidade a posteriori da classe c porque calculada depois de ser observadoo vetor x. As probabilidades a posteriori so calculadas usando o teorema de Bayes,conforme definido pela Equao 3.5 (MITCHELL, 1997):

    P(c | x) = P(c | x)P(c)P(x)

    (3.5)

    Tabela 2 Classificador Bayes: exemplo.

    Idade Renda Aluno Crdito Classe 40 baixa sim normal sim> 40 baixa sim excelente no

    31...40 baixa sim excelente sim

  • Captulo 3. Aprendizado Supervisionado 36

    P(Ci) :

    P(compraComputador = sim) = 9/14 = 0.643

    P(compraComputador = nao) = 5/14 = 0.357

    Calculo de P(X|Ci) para cada classe:P(Idade = = 30 | compraComputador = sim) = 2/9 = 0.222P(Idade = = 30 | compraComputador = nao) = 3/5 = 0.6P(Renda = media | compraComputador = sim) = 4/9 = 0.444P(Renda = media | compraComputador = nao) = 2/5 = 0.4P(Aluno = sim | compraComputador = sim) = 6/9 = 0.667P(Aluno = sim | compraComputer = nao) = 1/5 = 0.2P(Credito = normal | compraComputador = sim) = 6/9 = 0.667P(Credito = normal | compraComputador = nao) = 2/5 = 0.4Para o exemplo X = (Idade =30", Renda = "media", Aluno = "sim", Crdito = "normal"),obtem-se:

    P(X | Ci) :P(X | compraComputador = sim) = 0.222 0.444 0.667 0.667 = 0.044P(X | compraComputador = nao) = 0.6 0.4 0.2 0.4 = 0.019P(X | Ci) P(Ci) :P(X | compraComputador = sim) P(compraComputador = sim) = 0.028P(X | compraComputador = nao) P(compraComputador = nao) = 0.007Logo, o exemplo X pertence classe ("compraComputador = sim")

    Usando-se o Algoritmo Naive Bayes, todos os atributos da base de dados so consi-derados independentes entre si. Portanto, embora seja admitida a no existncia dedependncias condicionais entre os atributos, o naive, ainda assim, apresenta resultadosconfiveis e fiis a base de dados (VIANA, 2014). O Naive Bayes se destaca entre osmtodos de aprendizado existentes, como um dos mais simples e, computacionalmenteeficientes, sendo robusto contra rudos nos dados e atributos irrelevantes (MITCHELL,1997).

    3.5 REDES NEURAIS ARTIFICIAIS

    As Redes Neurais Artificiais (RNA) so algoritmos computacionais, cuja meta interpretar e resolver problemas computacionais baseando seu funcionamento no do

  • Captulo 3. Aprendizado Supervisionado 37

    crebro humano (HAYKIN, 1998). Elas so capazes de adquirir conhecimento utilizandoum conjunto de neurnios artificiais, que so unidades de processamento interligadasentre si. Essa estrutura fornece s RNAs uma capacidade de processamento paralelo edistribudo, conferindo adaptabilidade, capacidade de aprendizado, generalizao,tolerncia a falhas, possibilidade de armazenamento distribudo e facilidade deprototipagem (RUSSELL; NORVIG, 2004).

    Essas unidades de processamento desempenham um papel muito simples, comomostra a Figura 9. Cada terminal de entrada do neurnio recebe um valor. Os valoresrecebidos so ponderados e combinados por uma funo matemtica F(a). A sada dafuno a resposta do neurnio.

    Figura 9 Representao de um Neurnio Artificial.

    Fonte: autoria prpria

    Vrias funes tm sido propostas na literatura. A Figura 10 mostra o formato dequatro dessas funes, as funes linear, limiar, sigmoidal e Tangente Hiperblica.

    Em uma RNA, os neurnios podem estar dispostos em uma ou mais camadas. Quandomais de uma camada utilizada, um neurnio pode receber em uma de suas entradasvalores de sada de outros neurnios que esto em camadas anteriores como tambmenviar seus resultados para entradas de outros neurnios (CARVALHO, 2011). AFigura 11 mostra um exemplo de RNA com trs camadas. Nesse exemplo, so passadosinicialmente quatro valores de entrada e geram valores de sada que serviro comoentradas para os neurnios das camadas intermedirias (ou ocultas), que por sua vez,geram dois valores de sada.

    A utilizao de mtodos de RNA incluem vantagens como:

    Facilidade de otimizao, resultando numa modelagem rentvel e flexvel mesmocom um grande conjunto de dados;

    Acurcia para inferncia preditiva, com potencial para apoiar a tomada dedecises clnicas;

  • Captulo 3. Aprendizado Supervisionado 38

    Figura 10 Exemplos de funes de ativao.

    Fonte: autoria prpria

    Figura 11 RNA Multicamadas.

    Fonte: autoria prpria

    As RNA j foram utilizadas na rea de classificao de leses de pele como Hintz-Madsen et al. (2001), que fizeram um framework para deteco de melanoma maligno

  • Captulo 3. Aprendizado Supervisionado 39

    utilizando uma rede neural artificial probabilstica e Rubegni et al. (2002) que utilizaramredes neurais para diferenciao entre melanoma de outras leses benignas e obtiveramuma acurcia mxima de 93%.

    3.6 CONSIDERAES FINAIS

    Neste captulo, foram apresentados os principais conceitos sobre rvores de deciso,K-nn, Naive Bayes e redes neurais. Tambm foram mostrados exemplos de utilizaodesses algoritmos para facilitar o entendimento dos mesmos.

    No prximo captulo, sero apresentadas algumas pesquisas relacionadas com opresente trabalho, detalhando algumas caractersticas das mesmas.

  • 40

    4 TRABALHOS RELACIONADOS

    Na literatura, possvel encontrar vrios trabalhos relacionados deteco automticade leses de pele, desde estudos que tratam apenas do aprimoramento do processa-mento de imagens, trabalhos completos que utilizam caractersticas de forma e cor,fazendo referncia Regra ABCD, trabalhos que utilizam somente caractersticas detextura, at trabalhos que comparam a qualidade dos sistemas existentes.

    A seguir so descritas proposta desenvolvidas com o objetivo de melhorar a classificaode leses de pele. Sendo estes trabalhos divididos da seguinte forma: relacionados aoprocessamento de imagens, trabalhos utilizando caractersticas de forma e cor; trabalhosutilizando caractersticas de textura; trabalhos utilizando caractersticas de forma, core textura; E por fim, pesquisas que avaliaram alguns sistemas j desenvolvidos.

    4.1 ABORDAGENS PARA PROCESSAMENTO DE IMAGENS

    A primeira fase de um sistema de diagnstico automtico de leses de pele o proces-samento das imagens. Em geral, essa fase composta por trs subfases (CAVALCANTI;SCHARCANSKI, 2013):

    1. Pr-processamento, na qual a imagem de entrada processada de modo que osseus rudos sejam eliminados a fim de facilitar o passo seguinte;

    2. Segmentao, para a delimitao da fronteira da leso, no qual a leso separadado resto da imagem;

    3. Extrao de caractersticas, no qual so extradas das imagens as informaesrelevantes que serviro como entrada para a fase seguinte, de classificao.

    No trabalho de Masood e Al-Jumaily (2014) proposto um mtodo para processarimagens, que unifica as vantagens de alguns algoritmos j existentes, tentando almde uma boa segmentao, reduzir a complexidade computacional. De acordo com ostestes feitos pelos autores, comparando os resultados obtidos com os resultados dealgoritmos conhecidos, o mtodo atingiu uma melhora significativa na segmentao,alm de um melhor desempenho. Na verificao experimental, foi utilizado um grandeconjunto de imagens de leses de pele, com quase todos os tipos de rudos esperados,

  • Captulo 4. Trabalhos Relacionados 41

    que podem afetar gravemente os resultados da segmentao. A avaliao de precisofoi feita por meio da comparao de resultados obtidos pelo mtodo proposto comos mtodos ditos pelo autor como do estado da arte, como mostra a Figura 12, queexibe a imagem original e as imagens segmentadas utilizando diferentes tcnicas. Osresultados mostram que a abordagem proposta executa bem, quando comparado comos demais, e pode formar uma base de processamento de imagens para ser usada emsistemas automticos de diagnstico para o cncer de pele.

    Figura 12 Comparao entre os principais mtodos.

    Fonte: Adaptado de (MASOOD; AL-JUMAILY, 2014)

    No trabalho de Beuren et al. (2012), foi proposta uma abordagem para segmentaode leses de pele, que filtra a imagem da leso usando operadoress morfolgicos emcor, que em seguida segmentada por binarizao. Nenhum conhecimento a priorisobre o tipo de melanoma empregado. Os experimentos realizados a partir de duasbases de imagens de melanoma benigno e maligno mostraram as potencialidades daabordagem no que diz respeito segmentao.

  • Captulo 4. Trabalhos Relacionados 42

    4.2 ABORDAGENS QUE USAM CARACTERSTICAS DE FORMA E COR

    Alm dos trabalhos voltados para o processamento das imagens, tambm possvelencontrar trabalhos que propem solues para todas as fases, como em Celebi (2014)que apresentou uma abordagem de aprendizagem de mquina para a quantificaoautomtica de cores clinicamente significativas em imagens dermatoscpicas. Dadauma imagem feita por um dermoscpio, primeiro reduzido o nmero de coresda imagem a um pequeno conjunto dessas, usando o algoritmo de agrupoamentoK-means, que incorpora um termo espacial. O nmero de cores ideal para a imagem estimado. Ento o algoritmo de regresso simblica treinado, usando as estimativasapresentadas, que so calculados em um conjunto de 617 imagens. Finalmente, aequao matemtica dada pelo algoritmo de regresso usada para duas classes declassificao (benignos e malignos). A abordagem proposta produz uma sensibilidadede 62% e uma especificidade de 76% em um conjunto de teste independente de 297imagens.

    Outro trabalho que tambm prope a anlise completa das imagens o de Abuzaghleh,Barkana e Faezipour (2014), que desenvolveu um sistema de anlise de imagem emtempo real para ajudar na preveno de melanoma maligno e deteco precoce. apresentada uma tcnica de reconhecimento de imagem, na qual o usurio capaz decapturar imagens de diferentes tipos de leses de pele. O sistema proposto por eles,analisa e processa as imagens e alerta o usurio, em tempo real, para procurar ajudamdica, se for o caso. Este trabalho introduziu medidas convenientes para automatizaro processo de preveno e deteco de melanoma. Os resultados experimentais em umbanco de dados de imagens dermatoscpicas confirma a eficincia do sistema.

    A proposta de Oliveira et al. (2012), mostrou o passo a passo da extrao de caracters-ticas. Eles retiraram informaes sobre formato da borda. Foi utilizado o SVM (supportvector machines) para caracterizar as leses em simtricas ou assimtricas, e em lisaou rugosa. Aps a caracterizao, as informaes so passadas para o dermatologistaafim de que o mesmo diagnostique a leso. A preciso mxima obtida utilizando essametodologia foi de 73%.

    O trabalho de Ganzeli et al. (2011) tambm prope um sistema para diagnstico deleses de pele. Na fase do processamento das imagens, foi utilizado o detector de bordade Canny (1986). Na fase de classificador, eles propuseram uma rvore de decisoadaptativa, que se diferencia das rvores tradicionais pelo fato de ser modificada,baseando-se em correes feitas pelos usurios. Segundo os autores, a rvore inicialobteve 65% de acertos, tendo esse nmero aumentado para 90%, quando realizada aadaptao.

  • Captulo 4. Trabalhos Relacionados 43

    Fazendo referncia s caractersticas da regra ABCD, que retratam as formas e as corespresentes nas leses, (RUIZ et al., 2011) desenvolveram uma metodologia para detecoautomtica de leses de pele. Eles extraram 24 caractersticas referentes a regra ABCD.Com esse vetor de caractersticas, eles fizeram teste e encontraram duas combinaes decaractersticas. A primeira combinao foi escolhida usando a tcnica Sequential FloatingForward Selection (SFFS), que parte da melhor caracterstica individual, depois escolhe asegunda melhor e assim por diante. A segunda tcnica utilizada foi a Sequential FloatingBackward Selection (SFBS), que consiste no inverso da anterior, ou seja, partindo de todasas caractersticas vai sendo retirada a pior, depois a segunda pior, e assim por diante.Em comparao, a tcnica que obteve o melhor resultado foi a SFFS, com as seguintescaractersticas: fator de forma, simetria, extenso e as mdias de tom, saturao e levezado modelo de cor HSL. Usando a tcnica de amostragem 10-folds cross validation, osautores fizeram testes em trs algoritmos diferentes: KNN, classificador Bayesiano,MLP e uma combinao dos trs. Os resultados obtidos foram: 73,47%, 80,61%, 86,73%e 87,76%, para os algoritmos citados acima, respectivamente.

    4.3 ABORDAGENS QUE USAM CARACTERSTICAS DE TEXTURA

    Alm dos trabalhos utilizando caractersticas de forma e cor, existem trabalhos queutilizam apenas caractersticas de textura, como o proposto por (MAURYA et al., 2014).A metodologia usada nessa pesquisa consistiu das seguintes fases: pr-processamento,extrao de caractersticas, seleo de caractersticas, classificao e por ltimo avaliao.Na primeira fase a imagem foi inicialmente redimensionada para um padro de 512x 512 pixels, e depois convertida para nveis de cinza. Feito isso, foram retiradas 23caractersticas das leses tendo por base a matriz de co-ocorrncia (GLCM). Com oobjetivo de selecionar s as melhores, foram realizados testes com as 23, verificandoque os resultados eram melhores quando usadas apenas 12 delas. Para a classificao,foi utilizada a rede neural Multi Layer Perceptrom (MPL), sendo obtido uma acurciade 92,0%. Foram utilizadas 102 imagens, sendo 51 retiradas de Dermquest1 e 51 deDermnet2, e a tcnica de amostragem utilizada foi a Holdout com 75% para treino e25% para teste.

    Utilizando caractersticas de textura, (RANJAN, 2012) desenvolveu um sistema paraautomatizar a deteco de leses de pele. Baseados nas matrizes GLCM e WDM eleextraiu as caractersticas necessrias para classificao dessas leses. Com relao pri-meira, foram retiradas cinco caractersticas: contraste, homogeneidade, energia, mdia

    1 Disponvel em 2 Disponvel em

    http://www.dermquest.com http://www.dermnet.com

  • Captulo 4. Trabalhos Relacionados 44

    e varincia. E relacionadas WDM foram extradas cinco caractersticas, relacionadasaos nveis diferentes. Aps a extrao dessas caractersticas, foram feitos testes visandoa combinao que retornasse a melhor preciso, sendo escolhida as caractersticas dehomogeneidade e mdia, que chegaram a 83,30% de preciso. O algoritmo utilizado naobteno desse resultado foi o K vizinhos mais prximos, com k = 7. Na tentativa demelhorar esse resultado, o autor testou as caractersticas com uma RNA, e descobriramque a caracterstica de homogeneidade era suficiente, obtendo uma preciso de 88,60%.

    4.4 OUTROS TRABALHOS

    Diante do nmero de propostas existentes, Chadwick et al. (2014) resolveram analisaralguns j desenvolvidos. Foram testados 5 aplicativos relevantes, utilizando 15 imagensde leses e comparando os graus de risco dos aplicativos para o diagnstico conhecidodas leses. Dois dos aplicativos no identificaram nenhum dos melanomas. Os 3restantes obtiveram 80% de sensibilidade para identificao de risco de melanoma.J para a especificidade, os 5 aplicativos variaram de 20% a 100%. Cada aplicativo,desde a sua prpria classificao e recomendao, incluiu um aviso recomendandoavaliao do dermatologista regularmente, independentemente do resultado da anlise.Os resultados indicam que a anlise da leso automtica ainda no est pronta paraser utilizada como uma ferramenta de triagem. E o autor chama a ateno em relao afalta de restries e regulamentos para estas aplicaes.

    A revista Exame Informtica3, em janeiro de 2015, apresenta uma matria intituladacomo as novas tecnologias. Em seu texto falou sobre o avano da tecnologia em apoio rea mdica, citando vrias metodologias que foram desenvolvidas visando esseapoio. Entre as tecnologias citadas pela revista, encontra-se o melanoma detection, umaplicativo criado no instituto Fraunhofer Portugual, para deteco de melanoma. Esteaplicativo visa o auto-monitoramento que coleta, processa e armazena informaesde leses de pele por meio de sua classificao automtica. A classificao feita poresse sistema baseia-se na regra do ABCD, que consiste em 4 caractersticas visuaisrelevantes para a deteco de cncer de pele, e para os quais foram desenvolvidosalgoritmos para medir e quantifica-los.

    3 Disponvel em

    http://exameinformatica.sapo.pt/videos/reporterei/2013-04-13-app-criada-em-portugal-para-detetar-o-cancro-na-pelehttp://exameinformatica.sapo.pt/videos/reporterei/2013-04-13-app-criada-em-portugal-para-detetar-o-cancro-na-pele

  • Captulo 4. Trabalhos Relacionados 45

    4.5 CONSIDERAES FINAIS

    Neste captulo so apresentados alguns trabalhos relacionados com a presente pesquisa,sendo estes divididos em: processamento de imagens, utilizando caractersticas deforma e cor, utilizando caractersticas de textura e outros trabalhos, incluindo algumaspropostas do estado da arte.

    No prximo captulo, apresentada a proposta para o classificador automtico deleses de pele.

  • 46

    5 PROPOSTA PARA CLASSIFICAO DE IMAGENS DE LESES DE PELE

    O presente trabalho apresenta uma proposta para classificao de leses de pele deforma automtica, baseando-se em caractersticas selecionadas de forma, cor e textura.Os passos principais desta proposta so:

    1. Escolha de uma base de imagens;

    2. Extrao da imagem em tons de cinza;

    3. Segmentao;

    4. Extrao das caractersticas;

    5. Uso do algoritmo FuzzyDT para a classificao;

    A seguir, so detalhados esses passos.

    5.1 ESCOLHA DE UMA BASE DE IMAGENS

    Para o desenvolvimento deste trabalho foi adotada a base de imagens PH1 (MEN-DONA et al., 2013). Alguns fatores influenciaram na escolha desse conjnto de imagens,entre eles:

    Bastante utilizada na literatura

    Feita por profissionais da rea da sade

    Composta por 200 imagens de boa qualidade

    Os exemplos contemplam todas as classes, com 80 nevo comum, 80 nevo atpicoe 40 melanoma.

    Foram utilizadas todas as imagens, sendo essas disponveis no formato RGB (Red, Greene Blue), com resoluo padro de 767 x 576 pixels. Alm das 200 imagens originais,a base tambm disponibiliza as mscaras das mesmas, como mostra a Figura 13. AFigura 13(a) mostra uma imagem original e a Figura 13(b) sua respectiva mscara.

    1 Disponvel em

    http://www.fc.up.pt/addi/ph2%20database.html

  • Captulo 5. Proposta para Classificao de Imagens de Leses de Pele 47

    Figura 13 Imagens disponibilizadas no conjunto. (A) Original. (B) Mscara.

    Fonte: Autoria Prpria

    5.2 EXTRAO DA IMAGEM EM TONS DE CINZA

    Para a extrao da imagem em tons de cinza, o presente trabalho utilizou a seguintesequncia de passos. Inicialmente, a imagem original foi separada em suas primitivas(Red, Gree e Blue). Cada primitiva multiplicada por um valor, sendo 0.30, 0.59 e0.11, que so valores relacionados aos termos R, G e B, respectivamente. Aps amultiplicao, foram somados os trs valores e o resultado foi o valor do pixel daimagem em tons de cinza. Para este processamento, foi utilizado o software MATLAB(VIEIRA, 2013). A Figura 14 ilustra essa extrao.

    5.3 SEGMENTAO

    A segmentao da leso, foi feita da seguinte forma: Em paralelo, foram percorridas,pixels a pixel, as imagens (original e mscara), e baseado no valor (0 ou 1) encontradona mscara, uma terceira imagem foi gerada, sendo esta a imagem segmentada. AFigura 15 retrata esse procedimento.

  • Captulo 5. Proposta para Classificao de Imagens de Leses de Pele 48

    Figura 14 Converso de imagem RGB para tons de cinza.

    Fonte: Autoria Prpria

    5.4 EXTRAO DAS CARACTERSTICAS

    O segundo passo da proposta para classificao automtica e leses de pele foi aextrao de caractersticas. De posse da imagem segmentada e em tons de cinza,iniciou-se a extrao de matriz de co-ocorrncia (GLCM). Visando a obteno deinformaes mais precisas, foram extradas 8 matrizes GLCM de cada imagem, cadauma retratando uma direo diferente, sendo elas: 0o, 45o, 90o, 135o, 180o, 225o, 270o e315o. Aps extradas, foi feito a soma, posio a posio, das 8 matrizes, resultandoapenas em uma matriz para cada imagem, como ilustrado na Figura 16.

    Da matriz resultante, foram retiradas as quatro informaes que caracterizam a leso,contraste, homogeneidade, correlao e energia, baseando-se em textura. A Figura 17mostra essa fase do processo. Em todo o processo de extrao de caractersticas detextura, foi utilizado o software MATLAB (VIEIRA, 2013).

  • Captulo 5. Proposta para Classificao de Imagens de Leses de Pele 49

    Figura 15 Segmentao da imagem em tons de cinza.

    Fonte: Autoria Prpria

    5.5 USO DO ALGORITMO FUZZYDT PARA A CLASSIFICAO

    Aps a execuo de alguns experimentos foi proposto o uso do Algoritmo FuzzyDTfundamentando-se em caractersticas selecionadas de forma, cor e textura.

    A proposta deste trabalho usar o algoritmo FuzzyDT com a seguinte combinao decaractersticas: homogeneidade, correlao, energia, rede de pigmentos, estrias, branco,vermelho, marrom escuro, azulado e preto.

    5.5.1 Descrio dos Modelos de Classicao

    Utilizando como entrada as caractersticas selecionadas, o algoritmo treinado e gerado o seguinte conjunto com 13 regras:

    1. SE correlacao baixa E rede de pigmentos baixa ento MELANOMA

    2. SE correlacao mdia E rede de pigmentos baixa ento MELANOMA

  • Captulo 5. Proposta para Classificao de Imagens de Leses de Pele 50

    Figura 16 Extrao da matriz GLCM.

    GLCM 0

    GLCM 45

    GLCM 90

    GLCM 135

    GLCM 180

    GLCM 225

    GLCM 270

    GLCM 315

    MdiaAritimtica GLCMFinal

    Fonte: Autoria Prpria

    Figura 17 Extrao da matriz GLCM.

    Fonte: Autoria Prpria

  • Captulo 5. Proposta para Classificao de Imagens de Leses de Pele 51

    3. SE correlacao alta E rede de pigmentos baixa E azulado baixa ento NEVOATPICO

    4. SE correlacao alta E rede de pigmentos baixa E azulado mdia ento NEVOATPICO

    5. SE homogeneidade baixa E correlacao alta E rede de pigmentos baixa Eazulado alta E preto baixa ento NEVO ATPICO

    6. SE homogeneidade mdia E correlacao alta E rede de pigmentos baixa Eazulado alta E preto baixa ento MELANOMA

    7. SE homogeneidade alta E correlacao alta E rede de pigmentos baixa E braco baixa E azulado alta e preto baixa ento NEVO ATPICO

    8. SE homogeneidade alta E correlacao alta E rede de pigmentos baixa E braco mdia E azulado alta E preto baixa ento NEVO ATPICO

    9. SE homogeneidade alta E correlacao alta E rede de pigmentos baixa E braco alta E azulado alta E preto baixa ento MELANOMA

    10. SE correlacao alta E rede de pigmentos baixa E azulado alta E preto mdiaento MELANOMA

    11. SE correlacao alta E rede de pigmentos baixa E azulado alta E preto altaento MELANOMA

    12. SE rede de pigmentos mdia ento NEVO COMUM

    13. SE rede de pigmentos alta ento NEVO COMUM

    Por fim, baseando-se nessas regras, os exemplos so rotulados em trs grupos diferentes:nevo comum, nevo atpico ou melanoma. Os experimentos realizados mostram quecom essa combinao de caractersticas o algoritmo FuzzyDT obtm 100% de preciso.

    5.5.2 Proposta de Clasicao em Duas Etapas

    Apesar da classificao direta das imagens ter obtido preciso mxima (100%) foramtestadas a classificao em 2 etapas. N 1a etapa os exemplos so rotulados em nevocomum e nevo no comum e o FDT usado. Na segunda etapa, os exemplos sorotulados como nevo no comum so classificados entre nevo atpico ou melanoma. AFigura 18 o processo de classificao em duas etapas.

    Essa proposta se baseia na hiptese de que os atributos mais adequados para secassificar exemplos nevo comum e nevo no comum podem ser diferentes dos que

  • Captulo 5. Proposta para Classificao de Imagens de Leses de Pele 52

    Figura 18 Arquitetura geral da classificao em dois nveis.

    Fonte: Autoria Prpria

    conseguem classificar entre nevo atpico ou melanoma. Assim, dois exemplos diferentesso gerados. Os experimentos realizados so descritos no prximo captulo.

    5.6 CONSIDERAES FINAIS

    Neste captulo, foi apresentada a proposta para a classificao de leses de pele, usandocaractersticas de forma, cor e textura com o algoritmo FuzzyDT.

    No prximo captulo, so mostrados os experimentos realizados, e uma anlisecomparativa dos resultados, por meio de grficos e tabelas.

  • 53

    6 EXPERIMENTOS E ANLISE DOS RESULTADOS

    Neste captulo so apresentados todos os experimentos realizados, bem como a tcnicautilizada para a seleo de caractersticas.

    6.1 SELEO DE CARACTERSTICAS

    O presente trabalho prope um algoritmo para selecionar caractersticas, verificandodentre todas as combinaes de caractersticas possveis, o classificador obtem o melhorresultado. Essa proposta se baseia no uso de um Wrapper (CARVALHO, 2011), quetesta todas as combinaes de atributos com base nos resultados do algoritmo declassificao usado. Logo, por se tratar de um conjunto de dados composto por 16caractersticas, com cada classificador, esse algoritmo compara 65.536 combinaes decaractersticas.

    Para isso, foi criado um vetor de 16 posies para representar o conjunto de caracters-ticas, sendo a primeira caracterstica representada pela primeira posio do vetor, asegunda pela segunda posio, e assim por diante, at a dcima sexta posio, comorepresentado na Figura 19.

    Figura 19 Vetor de Caractersticas.

    Fonte: Autoria Prpria

    Esse vetor binrio, sendo que o valor 0 (zero), indica a ausncia da caracterstica, e ovalor 1 (um), a presena da caracterstica, como ilustra a Figura 20.

    Na Figura 20, a primeira, a quinta e a ltima posio esto com valor 1 e as demaisposies com 0, logo, quando utilizada a combinao mostrada na figura, sero usadasas seguintes caractersticas: contraste, assimetria e preto.

  • Captulo 6. Experimentos e Anlise dos Resultados 54

    Figura 20 Vetor de caractersticas utilizando trs caractersticas.

    Fonte: Autoria Prpria

    Ainda com relao a implementao do wrapper, para executar todas as possibilidadespossveis, foram feitos 16 laos for aninhados, todos variando de um a dois. Dessaforma, as instrues contidas no lao mais interno iro executar 65.536 vezes (nmerode combinaes de caractersticas possveis). A Figura 21 ilustra a interao dos laoscom o vetor de caractersticas, na qual o vetor varia da posio 000...001, usando apenasuma caracterstica, at a posio 111...111, usando todas as caractersticas.

    Figura 21 Interao dos laos com o vetor de caractersticas.

    Para A1 = 0 at 1

    Para A2 = 0 at 1. . .

    Para A16 = 0 at 1

    A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 A14 A15 A16

    0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1

    0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0

    1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

    . . .

    Fonte: Autoria Prpria

    Dessa forma, no lao mais interno, basta executar trs aes: i) carregar o conjunto dedados com todas as caractersticas, ii) atualiz-lo de acordo com o vetor de caractersticas

  • Captulo 6. Experimentos e Anlise dos Resultados 55

    e, por fim, iii) executar o classificador com o conjunto de dados atualizado.

    6.2 CLASSIFICAO EM DUAS ETAPAS

    Na classificao em duas etapas, ou seja, classificao da primeira etapa entre exemploscom rtulos nevo comum e nevo no comum, e na segunda etapa, classificao dosexemplos, rotulados como nevo comum na primeira etapa, como nevo atpico oumelanoma.

    Por ser utilizada no primeiro nvel, o conjunto de dados I foi gerado levando emconsiderao apenas duas classes: nevo comum e nevo no comum. Para isso, osexemplos cujos rtulos so nevo comum, so mantidos sem alterao, porm, aosexemplos rotulados como nevo atpico ou melanoma, foi atribuda uma nova classe,chamada de nevo no comum, como ilustrado na Figura 22.

    Figura 22 Gerao do conjunto de dados I.

    Fonte: Autoria Prpria

    A Figura 22 mostra que, partindo do conjunto de dados original, cujo os exemplosso classificados como nevo comum, nevo atpico ou melanoma, os exemplos soanalisados, e se for nevo comum, mantida a rotulao e o exemplo adicionado base de conhecimento. Caso contrrio, se o exemplo for nevo atpico ou melanoma,a rotulao alterada para nevo no comum e os exemplos so adicionados basede conhecimento. Logo, como originalmente o conjunto de dados formado por 200

  • Captulo 6. Experimentos e Anlise dos Resultados 56

    imagens, sendo divididas em 80 nevo comum, 80 nevo atpico e 40 melanoma, oconjunto de dados I ficou com 80 nevo comum e 120 nevo no comum.

    Como na classificao do segundo nvel so analisados apenas os exemplos de nevono comum, ou seja nevo atpico ou melanoma, a nica alterao feita no conjuntode dados original foi a eliminao dos exemplos de nevo comum, pois os mesmos jso classificados no primeiro nvel. Assim, a gerao do conjunto de dados II, foi feitacomo ilustrado na Figura 23.

    Figura 23 Gerao do conjunto de dados II.

    Fonte: Autoria Prpria

    Com relao quantidade de exemplos, esse conjunto de dados reduziu a quantidadede imagens para 120, sendo 80 nevos atpicos e 40 melanomas.

    6.2.1 Experimentos de Classicao

    Nos experimentos realizados foram utilizados o algoritmo FuzzyDT, disponibilizadopor (CINTRA; CAMARGO, 2010), e outros 20 disponveis no WEKA (WEKA, 2015),sendo estes: BayesNet, NaiveBayes, NaiveBayesUpdateable, MultiLayerPeceptron(MLP), SMO, Logistic, SimpleLogistic, IBK, KStar, LWL, DecisionStump, J48, LMT,RandomForest, RandomTree, REPTree, DecisionTable, JRip, OneR e PART.

    Com relao execuo desses algoritmos, para os algoritmos disponveis no WEKA,foram usadas as cofiguraes padro dos mesmos. Para o FuzzyDT foi tambmutilizadas as configuraes padro que so: trs conjuntos fuzzy definindo cadaatributo e poda com 25% de confiana. Foi utilizada a tcnica de amostragem 10-foldcross validation.

  • Captulo 6. Experimentos e Anlise dos Resultados 57

    Para a seleo de atributos, foi desenvolvido um algoritmo que gera os conjuntos dedados com as possveis combinaes de atributos.

    Os experimentos realizados so listados a seguir.

    1. Classificao usando trs classes (nevo comum, nevo atpico e melanoma)

    Experimentos com todos os atributos de forma e cor; Experimentos com todos os atributos de textura; Experimentos com todos os atributos de forma, cor e textura; Experimentos com seleo de atributos de forma e cor; Experimentos com seleo de atributos de textura; Experimentos com seleo de atributos de forma, cor e textura.

    2. Classificao em duas etapas

    1a etapa - experimentos com classificao em duas classes (nevo comum enevo no comum) com todos os atributos.

    2a etapa - experimentos com classificao em duas classes (nevo atpico emelanoma) com todos os atributos.

    1a etapa - experimentos com classificao em duas classes (nevo comum enevo no comum) com seleo de atributos.

    2a etapa - experimentos com classificao em duas classes (nevo atpico emelanoma) com seleo de atributos.

    Nas sees a seguir, so descritos experimentos.

    6.3 EXPERIMENTOS DE CLASSIFICAO USANDO AS TRS CLASSES ORIGI-

    NAIS (NEVO COMUM, NEVO ATPICO E MELANOMA)

    O primeiro conjunto de experimentos usou os conjuntos de exemplos rotulados comonevo comum, nevo atpico e melanoma. Para permitir uma anlise do poder daclassificao dos atributos, foram testados apenas o uso de atributos de forma e cor, detextura e de forma, cor e textura.

  • Captulo 6. Experimentos e Anlise dos Resultados 58

    6.3.1 Experimentos com Todos os Atributos de Forma e Cor.

    Os primeiros experimentos foram feitos utilizando todas as 12 caractersticas de formae cor (assimetria, rede de pigmentos, reas de regrasso, azul esbranquiado, pontos,estrias, branco, vermelho, marrom claro, marrom escuro, azulado e preto), com os 21algoritmos, c