classificac¸ao de esp˜ ecies vegetais por atributos de ... · esta sec¸ao apresenta os...

6
Classificac ¸˜ ao de esp´ ecies vegetais por atributos de forma e textura das folhas Francisco G. Medeiros Neto 1 , Al ˆ anio F. de Lima 1 ,F´ atima N. S. de Medeiros 2 , Marcelo M. S. de Souza 2 ,I´ alis C. de Paula J ´ unior 1 1 Universidade Federal do Cear´ a (UFC) – Campus de Sobral Sobral – CE – Brasil 2 Departamento de Teleinform´ atica – LABVIS – Universidade Federal do Cear´ a (UFC) Fortaleza – CE – Brasil {fcogmneto,allanio007,fsombraufc,marcelo.mssouza}@gmail.com, [email protected] Abstract. Endangered plant species due to climate changes have driven research and development of efficient systems for plant cataloging. In fact, machine learning and computer vision tools can be used for plant cataloging. Here, we have implemented an algorithm for feature extraction of plant leaf images based on shape and texture. Thus, we performed data classification by using the regularized random forest and support-vector machine methods. The performance evaluation results of the classifiers showed that the regularized random forest method outperformed, in terms of accuracy, the support-vector machine with the raw data. Resumo. Esp´ ecies de plantas ameac ¸adas pelas mudanc ¸as clim´ aticas tˆ em impulsionado pesquisa e desenvolvimento de sistemas eficientes de catalogac ¸˜ ao vegetal. De fato, as ferramentas de aprendizado de m´ aquina e de vis˜ ao computacional podem ser utilizadas para catalogac ¸˜ ao vegetal. Neste trabalho, implementamos um algoritmo para extrac ¸˜ ao de caracter´ ısticas de imagens de folha de planta com base na forma e textura. Foi realizada a classificac ¸˜ ao de dados usando os m´ etodos florestas aleat´ orias regularizadas e m´ aquina de vetor de suporte. Os resultados da avaliac ¸˜ ao de desempenho dos classificadores mostraram que o m´ etodo floresta aleat´ oria regularizada superou, em termos de acur´ acia, m´ aquina de vetor de suporte com os dados brutos. 1. Introduc ¸˜ ao Pesquisas atuais mostram que o aquecimento global tem afetado todo o ecossistema do planeta. Esse risco de extinc ¸˜ ao gerou a necessidade de catalogac ¸˜ ao de esp´ ecies de plantas por parte de especialistas, taxonomistas e bi´ ologos [Tsolakidis et al. 2014]. Para auxiliar esses especialistas nesta tarefa, ´ e poss´ ıvel desenvolver sistemas computacionais que classifiquem eficientemente esp´ ecies vegetais segundo atributos oriundos do processamento de imagens digitais de folhas [Wang e Gao 2013, Tsolakidis et al. 2014]. Para esse prop´ osito, t´ ecnicas de vis˜ ao computacional podem ser empregadas para extrair informac ¸˜ oes ´ uteis a partir de imagens de um conjunto de folhas que representem esp´ ecies vegetais. Assim, atributos de forma, tais como momentos de Hu e Zernike [S¨ oderkvist 2001, Tsolakidis et al. 2014], podem ser extra´ ıdos dessas imagens. Ademais,

Upload: buicong

Post on 11-Dec-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

Classificacao de especies vegetais por atributos de forma etextura das folhas

Francisco G. Medeiros Neto1, Alanio F. de Lima1, Fatima N. S. de Medeiros2,Marcelo M. S. de Souza2, Ialis C. de Paula Junior1

1Universidade Federal do Ceara (UFC) – Campus de SobralSobral – CE – Brasil

2Departamento de Teleinformatica – LABVIS – Universidade Federal do Ceara (UFC)Fortaleza – CE – Brasil

{fcogmneto,allanio007,fsombraufc,marcelo.mssouza}@gmail.com,[email protected]

Abstract. Endangered plant species due to climate changes have drivenresearch and development of efficient systems for plant cataloging. In fact,machine learning and computer vision tools can be used for plant cataloging.Here, we have implemented an algorithm for feature extraction of plant leafimages based on shape and texture. Thus, we performed data classification byusing the regularized random forest and support-vector machine methods. Theperformance evaluation results of the classifiers showed that the regularizedrandom forest method outperformed, in terms of accuracy, the support-vectormachine with the raw data.

Resumo. Especies de plantas ameacadas pelas mudancas climaticas temimpulsionado pesquisa e desenvolvimento de sistemas eficientes de catalogacaovegetal. De fato, as ferramentas de aprendizado de maquina e de visaocomputacional podem ser utilizadas para catalogacao vegetal. Neste trabalho,implementamos um algoritmo para extracao de caracterısticas de imagens defolha de planta com base na forma e textura. Foi realizada a classificacaode dados usando os metodos florestas aleatorias regularizadas e maquina devetor de suporte. Os resultados da avaliacao de desempenho dos classificadoresmostraram que o metodo floresta aleatoria regularizada superou, em termos deacuracia, maquina de vetor de suporte com os dados brutos.

1. IntroducaoPesquisas atuais mostram que o aquecimento global tem afetado todo o ecossistemado planeta. Esse risco de extincao gerou a necessidade de catalogacao de especies deplantas por parte de especialistas, taxonomistas e biologos [Tsolakidis et al. 2014]. Paraauxiliar esses especialistas nesta tarefa, e possıvel desenvolver sistemas computacionaisque classifiquem eficientemente especies vegetais segundo atributos oriundos doprocessamento de imagens digitais de folhas [Wang e Gao 2013, Tsolakidis et al. 2014].

Para esse proposito, tecnicas de visao computacional podem ser empregadas paraextrair informacoes uteis a partir de imagens de um conjunto de folhas que representemespecies vegetais. Assim, atributos de forma, tais como momentos de Hu e Zernike[Soderkvist 2001, Tsolakidis et al. 2014], podem ser extraıdos dessas imagens. Ademais,

a variacao da forma das folhas de uma mesma especie, devido a propriedade deplasticidade das mesmas, adiciona uma complexidade ao problema [Wang e Gao 2013],como mostra a Figura 1. Este problema pode ser solucionado por classificadoresdisponıveis na literatura, como as tecnicas de rede neural [Soderkvist 2001] e SVM(Support-Vector Machine, Maquina de Vetor de Suporte) [Tsolakidis et al. 2014].

(a) (b) (c) (d) (e) (f)

Figura 1. Exemplos de plasticidade das folhas. (a) Sorbus aucuparia; (b) Fagussilvatica; (c) Salix sinerea; (d) Salix aurita; (e-f) Ulmus glabra [Soderkvist 2001].

Este trabalho introduz um algoritmo que extrai caracterısticas de forma etextura de imagens de folhas de plantas. A metodologia proposta avalia ainda acapacidade discriminatoria dos atributos utilizados (ver Secoes 2.1 e 2.2), combinadosaos classificadores de padroes (ver Secao 2.3), e compara os resultados com os obtidosem outros trabalhos correlacionados (ver Tabela 3).

2. Materiais e MetodosEsta secao apresenta os descritores de forma e textura de imagens, alem de tecnicas declassificacao que processam imagens de especies de folhas. A base de folhas Swedishfoi adotada nos testes, porque apresenta uma alta variabilidade de especies intra e extra-classe [Soderkvist 2001]. Esta base possui imagens de 15 especies de plantas sendo quepara cada classe existem 75 imagens.

2.1. Descritores de textura

Este trabalho avalia a textura das folhas a partir da caracterıstica de entropia dos nıveisde cinza da imagem. A entropia mede o grau de desordem de uma informacao e nestetrabalho avalia a variabilidade dos tons de cinza que remetem a informacao de textura. ATabela 1 apresenta 4 formulacoes para entropia as quais sao utilizadas na metodologiaproposta. Na Tabela 1 a variavel pi representa a probabilidade de ocorrencia de umvalor de nıvel i de cinza; α e a ordem da entropia; k e a constante da termodinamicade Boltzmann na entropia de Boltzmann-Gibbs e uma constante positiva na entropia de[Tsallis 1988] e q e uma constante real arbitraria e W e o conjunto de pixels.

2.2. Descritores de forma

As imagens de folhas podem ser analisadas por descritores de forma[Costa e Cesar Jr. 2009] assim como de textura. A Tabela 2 exibe os descritoresde contorno utilizados neste trabalho, onde destacamos area (A), perımetro (P )os lados do mınimo retangulo envolvente (Dmaior e Dmenor), regiao de interesse

Tabela 1. Entropias utilizadas na metodologia proposta.

Autores Formula Autores Formula

[Haralick et al. 1973] −∑pi log2 pi [Renyi 1960] 1

1−a log2 (∑nk=1 p

αk )

Boltzmann-Gibbs [Tsallis 1988] −k∑Wi=1 pi ln pi [Tsallis 1988] k

1−∑W

i=1pqi

q−1

(ROI, Region Of Interest) e maior e menor eixo (Emaior e Emenor, respectivamente)[Du et al. 2007, Ferreira e Rasband 2012, Pau et al. 2014]. Outras caracterısticas deforma adotadas foram area, perımetro, maior eixo, menor eixo, raio maior, raio menor,raio medio, desvio padrao do raio medio, coordenadas x e y do centro de massa e angulodo objeto em radianos [Pau et al. 2014].

Tabela 2. Descritores baseados no contorno da forma.

Descritor Formula Descritor Formula

Relacao de aspecto Emaior

EmenorRetangularidade AROI

Dmaior×Dmenor

Circularidade 4πAROI

P 2ROI

Excentricidade√1− E2

menor

E2maior

Esfericidade 4AROI

πE2maior

2.3. Tecnicas de classificacaoA metodologia proposta neste trabalho aplica as tecnicas de classificacao de dadosconhecidas por florestas aleatorias regularizadas (RRF, Regularized Random Forest)[Deng e Runger 2012]. Esse metodo se diferencia de arvores aleatorias pela estrutura deregularizacao que consiste em penalizar uma variavel, caso esta nao seja mais importanteque as demais variaveis da lista de selecao [Deng e Runger 2012].

O segundo classificador aplicado foi o SVM, que tenta separar linearmenteum conjunto de dados por um hiperplano [Cortes e Vapnik 1995, Chang e Lin 2011].SVM produz classificadores com altas taxas de precisao e sao robustos a ruıdo esuperajustamento, embora tenha um custo computacional elevado [Tomuro 2009].

2.4. Reducao de dimensionalidadeA correlacao quantifica a influencia entre variaveis, de modo que a remocao de umavariavel com alta correlacao nao afeta o resultado da classificacao. Essa remocaodiminui o custo computacional, reduzindo a quantidade de variaveis para classificacao.Outra estrategia adotada para diminuir a alta dimensionalidade do problema e atravesdo uso da analise por componentes principais (PCA, Principal Component Analysis)[Richards e Jia 2006]. A analise por componentes principais consiste em calcular asdirecoes nas quais os dados estao mais dispersos (correlacionados) e gerar um novosistema de eixos de coordenadas (componentes principais) . Dessa forma, PCA preservaa informacao relevante dos dados, descorrelacionando-os. Usualmente, os primeiroscomponentes acumulam o teor discriminatorio dos dados. Na metodologia proposta,selecionamos 3 e 6 componentes para analisar a sua capacidade de discriminatoria.

2.5. Metodologia Proposta

A metodologia proposta envolve tres fases, a saber, pre-processamento das imagensda base de folhas, extracao de caracterısticas e a classificacao das imagens. O pre-processamento das imagens trata as mesmas antes da classificacao de modo que removaruıdos e artefatos que possam influenciar no resultado. Esse processamento consiste dosseguintes passos: (I) Extracao da banda azul da imagem e inversao dos nıveis de cinza.Vale observar que durante os testes, essa banda obteve melhor resultado na binarizacaodos dados; (II) Reducao das dimensoes das imagens (800 pixels de largura maxima parafotos em modo paisagem ou 600 pixels, em modo retrato). Imagens sao matrizes de pixelse quanto maior a resolucao, maior o custo computacional para calculos de caracterısticas.(III) Binarizacao da imagem a partir de um limiar de 0,5; (IV) Preenchimento dos“buracos” (regioes vazias no interior das formas) da imagem binaria e remocao do ruıdo(apenas o objeto com area maxima e mantido) [Pau et al. 2014]; (V) Remocao das linhase colunas sem pixels da forma na imagem binaria e da original em nıvel de cinza (reducaoa ROI). Um exemplo desse pre-processamento e mostrado na Figura 2.

(a) (b) (c)

Figura 2. Pre-processamento de imagem de folha Fagus silvatica; (a) Imagemoriginal [Soderkvist 2001]; (b) Inversao do nıvel de cinza da banda azul e reducaoa regiao de interesse de (a); (c) Limiarizacao de (b).

A segunda etapa da metodologia trata da extracao dos atributos de forma etextura das imagens com base nos descritores apresentados anteriormente. Finalmente,a classificacao dos dados envolve as seguintes tarefas:

1. Normalizar os dados de entrada;2. Dividir aleatoriamente os dados em 20% para teste e 80% para treinamento,

aumentando a porcentagem de teste gradativamente em 10% ate o valor de 80%(alcancando 20% para treino), totalizando sete grupos;

3. Classificar cada grupo utilizando RRF e SVM;4. Remover os atributos com correlacao absoluta maior que 0, 90 e repetir os passos

2 e 3 com as variaveis descorrelacionadas;5. Calcular o PCA dos dados de entrada, selecionando 3 e 6 componentes principais,

e repetir os passos 2 e 3.

3. Resultados e discussaoO classificador RRF obteve os melhores resultados nos testes realizados, alcancando92,56 % de Acuracia (Acc) com os dados brutos. A tecnica SVM obteve Acuracia de92,46 % com os dados descorrelacionados. Na Tabela 3 comparamos a taxa de acerto

de trabalhos na literatura e a metodologia proposta, a qual alcancou um desempenhorelevante dentre as demais.

O algoritmo de RRF cria um subconjunto de atributos que mais contribuem paraa classificacao [Deng e Runger 2012]. Os atributos que apareceram nesses subconjuntosem menos de quatro dos sete testes foram: entropias de [Renyi 1960] e [Tsallis 1988],area, eixos maior e menor, desvio padrao do raio, raio medio, raio maximo, relacao deaspecto e excentricidade. Os que apareceram em todos os os testes foram: Entropiade Boltzmann-Gibbs [Tsallis 1988], raio mınimo, coordenada y do centro de massa,circularidade e retangularidade. Os seguintes atributos foram removidos pela altacorrelacao: entropias de [Haralick et al. 1973] e [Tsallis 1988], desvio padrao do raio,coordenada y do centro de massa, eixo maior, relacao de aspecto e circularidade. Essaremocao nao afetou de forma significativa a taxa de acerto (ver Tabela 3).

Tabela 3. Analise comparativa da taxa de acerto dos metodos de classificacao

Metodo Descritores Classificador Acerto (%)[Soderkvist 2001] Forma, CSS e momentos de Hu Rede neural 82,4%[Wang e Gao 2013] Forma e MLCSM Bullseye 88,65%[Tsolakidis et al. 2014] Momentos de Zernike e HOG SVM 98,13%

Proposto (taxa deacerto maxima entreos sete grupos deteste)

Forma e textura (Dados brutos)SVM 90,67%RRF 92,56%

Forma e textura (Dadosdescorrelacionados)

SVM 92,46%RRF 90,78%

Forma e textura (3 Componentesprincipais)

SVM 78,84%RRF 73,56%

Forma e textura (6 Componentesprincipais)

SVM 87,11%RRF 84,1%

Neste trabalho foi possıvel analisar que existem objetos de classes distintas (folhasde especies diferentes) que apresentam similaridade e isto causa erros na classificacao.Ainda assim, objetos de mesma classe (mesma especie) podem diferir e portanto, naocompartilhar do mesmo grau de similaridade devido a fenomenos como a plasticidadefenotıpica que leva algumas amostras a diferirem visualmente.

4. Conclusao

Este trabalho propos uma metodologia de classificacao de especies vegetais a partir deatributos de forma e textura extraıdos de imagens da base Swedish. Dentre os metodos declassificacao avaliados, a medida Acuracia indicou que o RRF foi o mais robusto com osdados brutos, sendo que os resultados obtidos sao compatıveis com aqueles reportados poroutros trabalhos da literatura considerados. O metodo SVM obteve melhor desempenhocom os dados reduzidos (descorrelacionados e componentes principais).Os descritores utilizados sao computacionalmente mais simples comparados comcurvatura espaco escala (CSS, Curvature Scale Space), momentos de Hu e Zernikee histogramas de gradientes orientados (HOG, Histogram of Oriented Gradients)[Soderkvist 2001, Tsolakidis et al. 2014], porem alcancaram Acuracia superior a 90%.

5. AgradecimentosOs autores agradecem a CAPES pelo apoio financeiro no presente trabalho e pela bolsade mestrado.

ReferenciasChang, C.-C. e Lin, C.-J. (2011). LIBSVM: A library for support vector machines. ACM

Transactions on Intelligent Systems and Technology, 2:27:1–27:27.

Cortes, C. e Vapnik, V. (1995). Support-vector networks. Machine learning, 20(3):273–297.

Costa, L. d. F. e Cesar Jr., R. M. (2009). Shape Classification and Analysis: Theory andPractice. CRC Press, Inc., Boca Raton, FL, EUA, 2 ed.

Deng, H. e Runger, G. C. (2012). Feature selection via regularized trees. CoRR,abs/1201.1587.

Du, J.-X., Wang, X.-F., e Zhang, G.-J. (2007). Leaf shape based plant species recognition.Applied Mathematics and Computation, 185(2):883 – 893. Special Issue on IntelligentComputing Theory and Methodology.

Ferreira, T. e Rasband, W. S. (2010–2012). Imagej user guide — ij 1.46. Disponıvel emhttp://imagej.nih.gov/ij/docs/guide/.

Haralick, R., Shanmugam, K., e Dinstein, I. (1973). Textural features for imageclassification. IEEE Transactions on Systems, Man and Cybernetics, 3(6):610–621.

Pau, G., Oles, A., Smith, M., Sklyar, O., e Huber, W. (2014). EBImage: Image processingtoolbox for R. R package version 4.4.0.

Renyi, A. (1960). On Measures Of Entropy And Information. Em Proceedings of the 4thBerkeley Symposium on Mathematics, Statistics and Probability, pp. 547–561.

Richards, J. A. e Jia, X. (2006). Remote sensing digital image analysis - an introduction.Springer, Berlin, 4 ed.

Soderkvist, O. J. O. (2001). Computer Vision Classification of Leaves from SwedishTrees. Dissertacao de Mestrado, Linkoping University, SE-581 83 Linkoping, Suecia.

Tomuro, N. (2009). Brief Introduction to Support Vector Machines. DePaulUniversity. Notas de aula. Disponıvel em http://condor.depaul.edu/ntomuro/courses/578/notes/SVM-overview.pdf.

Tsallis, C. (1988). Possible generalization of Boltzmann-Gibbs statistics. Journal ofStatistical Physics, 52(1-2):479–487.

Tsolakidis, D., Kosmopoulos, D., e Papadourakis, G. (2014). Plant Leaf RecognitionUsing Zernike Moments and Histogram of Oriented Gradients, volume 8445 deLecture Notes in Computer Science, pp. 406–417. Springer International Publishing.

Wang, B. e Gao, Y. (2013). Computer Vision – ACCV 2012: 11th Asian Conference onComputer Vision, Daejeon, Korea, November 5-9, 2012, Revised Selected Papers, PartII, capıtulo Fast and Effective Retrieval of Plant Leaf Shapes, pp. 475–486. SpringerBerlin Heidelberg, Berlin, Heidelberg.