engenharia eletrotécnica e computadores€¦ · v agradecimentos esta dissertação simboliza o...

106
Deteção de minas em imagens multi-espetrais Ivo Fernando Fontes Linhas Guerra Dissertação para obtenção do Grau de Mestre em Engenharia Eletrotécnica e Computadores Orientadores: Professor Doutor José Manuel Bioucas Dias Professor Doutor José Silvestre Serra da Silva Júri Presidente: Professor Doutor José Eduardo Charters Ribeiro da Cunha Sanguino Orientador: Professor Doutor José Silvestre Serra da Silva Vogais: Professor Doutor Jacinto Carlos Marques Peixoto do Nascimento Cap Tm (Eng) Luis Filipe Xavier Cavaco Mendonça Dias Dezembro de 2018

Upload: others

Post on 05-Jul-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

Deteção de minas em imagens multi-espetrais

Ivo Fernando Fontes Linhas Guerra

Dissertação para obtenção do Grau de Mestre em

Engenharia Eletrotécnica e Computadores

Orientadores:

Professor Doutor José Manuel Bioucas Dias

Professor Doutor José Silvestre Serra da Silva

Júri

Presidente: Professor Doutor José Eduardo Charters Ribeiro da Cunha Sanguino

Orientador: Professor Doutor José Silvestre Serra da Silva

Vogais: Professor Doutor Jacinto Carlos Marques Peixoto do Nascimento

Cap Tm (Eng) Luis Filipe Xavier Cavaco Mendonça Dias

Dezembro de 2018

Page 2: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

ii

Page 3: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

iii

Declaração

Declaro que o presente documento é um trabalho original da minha autoria e que cumpre todos os

requisitos do Código de Conduta e Boas Práticas da Universidade de Lisboa.

Page 4: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

iv

Page 5: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

v

Agradecimentos

Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível

graças ao contributo, direto ou indireto de várias pessoas e instituições que me ensinaram e apoiaram,

às quais dirijo algumas palavras de agradecimento e reconhecimento, particularmente:

À minha família, em especial aos meus pais e irmão, que sempre me apoiaram nas decisões mais

difíceis e me deram força e coragem para trilhar este longo e árduo percurso;

À Academia Militar pelo contributo que teve na minha formação e no meu desenvolvimento enquanto

pessoa e soldado e pela disponibilidade em garantir as melhores condições possíveis ao

desenvolvimento deste trabalho;

Aos meus orientadores, Professor José Bioucas-Dias e Professor José Silvestre Silva, pela

disponibilidade permanente para esclarecer dúvidas, pela prontidão para ensinar, pela dedicação e

empenho irrepreensíveis, pelo constante entusiasmo que transmitiram ao longo de todo o trabalho e

pelas pormenorizadas correções durante a escrita da dissertação;

Aos meus camaradas da Academia Militar, ao Paulo Barbosa, Flávio Duarte, Romeu Carvalho, Tiago

Zão, João Tavares, Álvaro Rodrigues e ao curso de Transmissões, André Ferreira, João Pinto, Hélder

Reia, João Félix, pela amizade e espírito de corpo e pelo inestimável apoio ao longo destes anos;

Por último, e não menos importante queria agradecer à minha namorada pelo incansável apoio que

me deu ao longo de todos estes anos, fundamental para ultrapassar os momentos de maior dificuldade

e sacrifício.

Page 6: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

vi

Page 7: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

vii

Resumo

Este trabalho explora a deteção de minas terrestres usando imagens multi-espetrais adquiridas em

contexto militar. As condições em que as imagens são obtidas influenciam diretamente os métodos

usados para realizar a deteção automática de minas terrestres através de técnicas de processamento

de imagens.

Duas metodologias são propostas, uma usando classificadores tradicionais e outra utilizando

métodos de aprendizagem profunda, nomeadamente, uma Rede Neuronal Convolucional (CNN). Na

primeira metodologia, as técnicas de fusão de classificadores também são usadas para entender as

suas potencialidades. O desempenho foi avaliado de acordo com o número de características, do tipo

de minas, o ambiente e a profundidade da mina. Na CNN, foi realizado um estudo em função do mapa

de características, do tipo de minas terrestres e do meio.

Uma análise quantitativa mostra que o uso de classificadores tradicionais dá uma precisão geral

acima de 97% em ambientes internos e externos, até uma determinada profundidade testada. Foi

demonstrado que a robustez de alguns classificadores, quando expostos a padrões específicos (ou

seja, apenas minas enterradas), tem um desempenho reduzido, no entanto, a fusão de classificadores

é constante, 97,9% para 0 [mm] e 96,0% para 1-50 [mm], suprimindo esse facto. Os métodos de

aprendizagem profunda adotados apresentam um aumento desses valores para as minas maiores e

uma diminuição para as menores. Esses resultados experimentais esclarecem os fatores que

influenciam a deteção de minas e os méritos e deméritos da classificação baseada na CNN em

comparação com os métodos clássicos.

Palavras Chave— minas terrestres, deteção, combinação classificadores, aprendizagem profunda,

Rede Neuronal Convolucional

Page 8: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

viii

Page 9: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

ix

Abstract

This thesis explores the detection of landmines using multispectral images acquired in military

context. The conditions in which the images are obtained have a direct influence on the methods used

to perform the automatic detection of landmines through image processing techniques.

Two methods are proposed, one using traditional classifiers and the other using Deep Learning

methods, namely a Convolutional Neuronal Network (CNN). In the first methodology, classifier fusion

techniques are also used to understand their potentialities. The performance was evaluated according

to the number of features the type of landmine, the environment and the depth of the mine. In deep

learning, a study was carried out according to the feature map and regarding the type of landmine and

the environment.

A quantitative analysis shows that using traditional classifiers gives overall accuracy (OA) above 97%

in indoor and outdoor environments for the detection of land mines up to a given depth tested. It has

been shown that the robustness of some classifiers, when exposed to specific standards (ie. only buried

mines), has a decreased performance, however, the fusion of classifiers is constant, 97.9% for 0 [mm]

and 96.0% for 1- 50 [mm], suppressing this fact. The adopted deep learning methods present an

increase in these values for larger mines and a decrease for smaller ones. These experimental results

shed light into the factors that influence the detection of mines and into the merits and demerits of CNN

based classification compared with classical methods.

Index Terms— landmine, detection, classifier combination, deep learning, Convolutional Neuronal

Network

Page 10: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

x

Page 11: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

xi

Índice

Agradecimentos ........................................................................................................................................v

Resumo .................................................................................................................................................. vii

Abstract.................................................................................................................................................... ix

Índice ....................................................................................................................................................... xi

Índice de Tabelas ................................................................................................................................... xiii

Índice de Figuras .................................................................................................................................... xv

Lista de siglas e acrónimos ................................................................................................................... xix

1. Introdução ........................................................................................................................................ 1

1.1. Enquadramento e Motivação ........................................................................................... 1

1.2. Objetivos .......................................................................................................................... 1

1.3. Estrutura da Dissertação ................................................................................................. 2

1.4. Contribuições Científicas ................................................................................................. 2

2. Estado da Arte ................................................................................................................................. 3

2.1. Tecnologia Eletromagnética ............................................................................................ 3

2.2. Tecnologia Acústica/ Sísmica .......................................................................................... 6

2.3. Tecnologia Baseada na Deteção dos Explosivos Constituintes das Minas .................... 8

2.4. Tecnologias com Contacto Físico .................................................................................... 9

3. Minas e Solos ................................................................................................................................. 11

3.1. Campos de Minas ........................................................................................................... 11

3.2. Tipos de Minas .............................................................................................................. 12

3.2.1. Minas Reais ....................................................................................................... 12

3.2.2. Minas Simuladas e de Instrução ....................................................................... 14

3.2.3. Minas utilizadas no presente trabalho ............................................................... 14

3.3. Tipos de Solos ............................................................................................................... 16

4. Metodologia ................................................................................................................................... 19

4.1. Procedimentos Iniciais ................................................................................................... 19

4.2. Extração e Seleção de Características ......................................................................... 20

4.2.1. Estatística de Níveis de Cinzento de Primeira Ordem ...................................... 20

4.2.2. Estatística de Níveis de Cinzento de Segunda Ordem ..................................... 21

4.2.3. Estatísticas de ordem superior .......................................................................... 23

4.2.4. Método das diferenças de níveis de cinzento e Lacunaridade Diferencial ....... 24

4.2.5. Seleção e Normalização de Características ..................................................... 25

4.3. Classificação .................................................................................................................. 26

4.3.1. Aprendizagem Automática ................................................................................ 26

4.3.2. Redes Neuronais Artificiais ............................................................................... 27

4.3.3. Classificador SVM ............................................................................................. 28

4.3.4. Classificador KNN ............................................................................................. 29

4.3.5. Árvores de Decisão ........................................................................................... 30

Page 12: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

xii

4.3.6. Análise de Componentes Principais ................................................................. 31

4.4. Fusão de Classificadores .............................................................................................. 32

4.4.1. Voto por Maioria ................................................................................................ 32

4.4.2. Voto Pesado ...................................................................................................... 32

4.5. Medidas de desempenho do sistema ............................................................................ 33

4.6. Aprendizagem Profunda ................................................................................................ 34

5. Resultados e Discussão ................................................................................................................ 37

5.1. Processo de Aquisição de Imagens .............................................................................. 37

5.2. Aquisição de Dados ....................................................................................................... 41

5.2.1. Aquisição de Dados via FLIR T440bx ............................................................... 41

5.2.2. Aquisição de Dados via Quest Condor3 VNN-618 ........................................... 42

5.2.3. Resultados qualitativos em função do tempo ................................................... 44

5.2.4. Conjunto de Dados ............................................................................................ 45

5.3. Extração e Seleção de Características ......................................................................... 49

5.4. Classificação .................................................................................................................. 53

5.4.1. Avaliação desempenho em ambiente indoor .................................................... 55

5.4.2. Avaliação desempenho em ambiente outdoor .................................................. 56

5.4.3. Avaliação desempenho em função da profundidade, comparativamente com

multi-classificação. .............................................................................................................. 58

5.5. Aprendizagem Profunda ................................................................................................ 62

6. Conclusões .................................................................................................................................... 67

Bibliografia ............................................................................................................................................. 73

Apêndice A ............................................................................................................................................ 77

Apêndice B ............................................................................................................................................ 81

Apêndice C ............................................................................................................................................ 83

Apêndice D ............................................................................................................................................ 85

Page 13: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

xiii

Índice de Tabelas

Tabela 3.1: Especificações principais das minas AP representadas na figura 3.3 (tabela adaptada de

[12] [13])................................................................................................................................................. 14

Tabela 3.2: Especificações principais dos Objetos utilizados ao longo da dissertação ........................ 15

Tabela 4.1 Características de 1.ª ordem. .............................................................................................. 21

Tabela 4.2 Características de 2.ª ordem. .............................................................................................. 22

Tabela 4.3: Características de ordem superior. ..................................................................................... 24

Tabela 4.4: Exemplo método voto por maioria ...................................................................................... 32

Tabela 4.5: Matriz de confusão para classificação binária .................................................................... 33

Tabela 4.6: Métricas de avaliação de desempenho .............................................................................. 34

Tabela 5.1 Especificações dos equipamentos de imagem pertencentes à Academia Militar ............... 37

Tabela 5.1: Valores da escala de temperatura usada na obtenção das imagens do infravermelho térmico

para ambiente indoor e outdoor. ........................................................................................................... 41

Tabela 5.2: Valores das configurações manuais a efetuar na câmara multi-espetral para os ensaios em

ambiente indoor ..................................................................................................................................... 42

Tabela 5.3: Valores das configurações manuais a efetuar na câmara multi-espetral para os ensaios em

ambiente outdoor ................................................................................................................................... 42

Tabela 5.4: Valores da totalidade de aquisições por parte dos dois equipamentos em função do

ambiente, do diagrama dos objetos e da profundidade. ....................................................................... 46

Tabela 5.5: Bandas espetrais de cada uma das componentes da imagem multi-espetral construída. 46

Tabela 5.4: Valores da totalidade de ROIs obtidas para cada um dos ambientes e respetivo diagrama

constituindo assim o conjunto de dados total obtidos. .......................................................................... 49

Tabela 5.5: Valores totais das características usadas na metodologia bem como a sua posição relativa

no ficheiro de características feature.mat ............................................................................................. 50

Tabela 5.6: Valores dos pesos médios atribuídos pelo algoritmo ReliefF a cada um dos tipos de

características. ...................................................................................................................................... 52

Tabela 5.7: Valores dos pesos médios atribuídos pelo algoritmo ReliefF a cada um dos tipos de

dimensões (espetros) ............................................................................................................................ 53

Tabela 5.8: Conjunto de dados utilizado para o treino e a validação dos classificadores .................... 54

Tabela 5.9: Resumo dos classificadores usadas nesta metodologia, o seu tipo e os parâmetros usados

em cada. ................................................................................................................................................ 54

Tabela 5.10: Resultados dos diferentes classificadores para ambiente indoor e diagrama AP ........... 55

Tabela 5.11: Resultados dos diferentes classificadores para ambiente indoor e diagrama AC ........... 55

Tabela 5.12: Resultados dos diferentes classificadores para ambiente outdoor e diagrama AP ......... 57

Tabela 5.13: Resultados dos diferentes classificadores para ambiente outdoor e diagrama AC ......... 57

Tabela 5.14: Resultados da OA para cada um dos classificadores em função da profundidade das

minas. .................................................................................................................................................... 58

Tabela 5.15: Resultados da OA dos dois métodos de fusão de classificadores aplicados. ................. 59

Tabela 5.16: Tipologia da CNN de 15 camadas utilizada neste estudo, construída a partir da Deep

Learning toolbox.. .................................................................................................................................. 63

Page 14: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

xiv

Tabela 5.17: Resultados da OA em função dos diferentes números de filtros utilizados nas camadas de

convolução obtidos para o estudo da CNN nos diferentes ambientes e diagramas.. .......................... 64

Tabela 5.18: Tempo de processamento necessário ao treino das diferentes CNNs ............................ 65

Tabela A.1: Resumos dos artigos referentes ao estado da arte da dissertação (Parte 1). ................... 77

Tabela A.2: Resumos dos artigos referentes ao estado da arte da dissertação (Parte 2). ................... 78

Tabela A.3: Resumos dos artigos referentes ao estado da arte da dissertação (Parte 3). ................... 79

Tabela A.4: Resumos dos artigos referentes ao estado da arte da dissertação (Parte 4). ................... 80

Tabela B.1: Resumo de projetos que fazem uso de imagens multi-espetrias/ hiper-espetrais ............ 81

Page 15: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

xv

Índice de Figuras

Figura 2.1: Fotografias de infravermelho térmico obtido num terreno com vegetação esparsa e rasteira

onde se encontram dispostos cinco objetos ........................................................................................... 4

Figura 2.2: Princípio de funcionamento da técnica de indução eletromagnética.................................... 6

Figura 2.3: Princípio de funcionamento do método GPR. ....................................................................... 7

Figura 2.4: Princípio de funcionamento do método Acoustic Seismic Reflection ................................... 7

Figura 2.5: Geometria do esquema experimental elaborado por Krilov para o método de dispersão de

ondas Rayleigh ........................................................................................................................................ 8

Figura 2.6: Princípio de funcionamento do método NQR ....................................................................... 8

Figura 3.1: Esquema de uma mina terrestre real tipo ........................................................................... 12

Figura 3.2: Minas Anticarro modelo TM-62M ........................................................................................ 13

Figura 3.3: Minas AP típicas .................................................................................................................. 13

Figura 3.4: Minas AP real inerte ............................................................................................................ 15

Figura 3.5: Objeto B, C e D respetivamente utilizados para simular mina AP ...................................... 15

Figura 3.6: Objeto E e F respetivamente utilizados para simular minas AC genéricas ........................ 15

Figura 3.7: Areia do Rio ......................................................................................................................... 16

Figura 3.8: Terra Batida ......................................................................................................................... 16

Figura 3.9: Areia do Mar ........................................................................................................................ 16

Figura 3.10: Brita Nr.º 0 ......................................................................................................................... 16

Figura 3.11: Brita Nr.º 1 ......................................................................................................................... 16

Figura 3.12: Brita Nr.º 2 ......................................................................................................................... 16

Figura 3.13: Mistura de Solos de forma a simular uma estrada de baixo tráfego tipo U1 .................... 17

Figura 4.1 Fluxograma com a metodologia clássica implementada ..................................................... 19

Figura 4.2 Exemplo do cálculo do histograma normalizado da ROI 𝐼(𝑥, 𝑦). ......................................... 20

Figura 4.3 Matrizes Ω1, 0° e Ω1, 45°, correspondentes à ROI 𝐼𝑥, 𝑦 ....................................................... 22

Figura 4.4 Matrizes de primitivas run lenght ......................................................................................... 23

Figura 4.5: Representação de um neurónio artificial ............................................................................ 28

Figura 4.6: a) Solução para um problema de dados linear. b) Hiperplano do separador ótimo ........... 28

Figura 4.7: Exemplo de uma árvore de decisão ................................................................................... 31

Figura 4.8: Exemplo de um Deep learning workflow fazendo uso de CNN .......................................... 35

Figura 4.9: Exemplo da tarefa de classificação na deteção de mina segundo um esquema de CNN.. 35

Figura 4.10: Fase de Feature Learning.de uma CNN genérica ............................................................ 36

Figura 4.11: Fase de classificação de uma CNN genérica ................................................................... 36

Figura 5.1: Processo cronológico (da esquerda para a direita) de montagem dos recipientes usados

para a colocação dos solos e respetiva inserção do material isolante térmico. ................................... 38

Figura 5.2: Estrutura metálica, em ambiente indoor utilizada para suportar os equipamentos

necessários à aquisição de imagens .................................................................................................... 38

Figura 5.3: Estrutura metálica, em ambiente outdoor utilizada para suportar os equipamentos

necessários à aquisição de imagens .................................................................................................... 38

Page 16: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

xvi

Figura 5.4: (a) Posicionamento dos equipamentos de aquisição de imagem com câmara FLIR esquerda

e câmara multi-espetral direita. (b) Imagem da perspetiva das câmaras vista do topo da estrutura

metálica. ................................................................................................................................................ 39

Figura 5.5: Diagrama dos campos de minas construídos para a realização da aquisição de imagens. À

esquerda, o diagrama para as minas AP. À direita o diagrama para as minas AC. .............................. 40

Figura 5.6: Representação prática do diagrama dos campos de minas com os respetivos objetos à

superfície. À esquerda, o diagrama para as minas AP. À direita o diagrama para as minas AC. ........ 40

Figura 5.7: Representação do diagrama dos campos de minas para a experiência em função do tempo.

À esquerda o diagrama. À direita a disposição prática dos objetos à superfície. ................................. 40

Figura 5.8: Exemplo da aquisição de imagem via câmara FLIR. À esquerda imagem do espetro visível

e à direita imagem do infravermelho térmico. ....................................................................................... 42

Figura 5.9: Exemplo da aquisição de imagem via câmara multi-espetral em ambiente indoor

representando, da esquerda para a direita o canal 0, 1 e 2 ................................................................. 43

Figura 5.10: Amostra com zoom ≈ 1500 [%] da imagem original do canal 2 em que se verifica o

fenómeno supramencionado ................................................................................................................. 43

Figura 5.11: Exemplo da aquisição de imagem via câmara multi-espetral em ambiente outdoor e em

escala de cinzento. Da esquerda para a direita o canal 0, 1 e 2. ......................................................... 44

Figura 5.12: Terceiro Diagrama utilizado. a) objetos à superfície, b) alguns objetos enterrados a

elevadas profundidades ........................................................................................................................ 44

Figura 5.13: Resultados para imagens TIR. a) obtenção às 10h00, b) obtenção às 19h00 ................ 44

Figura 5.14: Resultados para imagens obtidas a partir da câmara Quest Condor 3 VNN-618 a) obtenção

às 10h00, b) obtenção às 19h00 ........................................................................................................... 45

Figura 5.15: Exemplo da imagem multi-espetral, para Areia do mar, em ambiente indoor, com os objetos

à superfície, e diagrama AP, construída para o conjunto de dados. ..................................................... 47

Figura 5.16: Exemplo da imagem multi-espetral, para Areia do rio, em ambiente indoor, com os objetos

enterrados à profundidade 1mm, e diagrama AC, construída para o conjunto de dados. ................... 47

Figura 5.17: Exemplo da imagem multi-espetral, para mistura de solos em ambiente outdoor, com os

objetos enterrados, com a superfície descoberta, e diagrama AP........................................................ 47

Figura 5.18: Exemplo da imagem multi-espetral, para terra batida (orgânico), em ambiente outdoor,

com os objetos enterrados, com a superfície descoberta, e diagrama AC. .......................................... 48

Figura 5.19: Exemplo da imagem binária de target representando respetivamente, da esquerda para a

direita a imagem multi-espetral da Figura 5.15 e 5.16 .......................................................................... 48

Figura 5.20: Exemplo de duas ROIs multi-espetrais constituintes do conjunto de dados. ................... 49

Figura 5.21: Gráficos do ranking de importância das características para ambiente indoor ................ 51

Figura 5.22: Gráficos do ranking de importância das características para ambiente outdoor .............. 52

Figura 5.23: Esquema da rede neuronal usada .................................................................................... 54

Figura 5.24: Gráfico dos valores da precisão para novos padrões de cada um dos classificadores (cor

azul) em comparação com a fusão de classificadores (cor verde) para objetos à superfície. ............. 60

Figura 5.25: Gráfico dos valores da precisão para novos padrões de cada um dos classificadores (cor

azul) em comparação com a fusão de classificadores (cor verde) para objetos enterrados. ............... 60

Page 17: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

xvii

Figura 5.26: Gráfico dos valores da precisão para novos padrões de a) árvore de decisão e b) Gaussian

svm (cor azul) em comparação os resultados obtidos no treino (cor verde). ....................................... 61

Figura 5.27: Gráfico dos valores da precisão para os classificadores a) árvore de decisão, b) Cubic

SVM e c) Ensemble ............................................................................................................................... 61

Figura C.1: Figura representativas da profundidade limite de 5 [mm] para a deteção do sistema para

campos indoor e diagrama AP............................................................................................................... 83

Figura C.2: Figura representativas da profundidade limite de 5 [mm] para a deteção do sistema para

campos indoor e diagrama AP............................................................................................................... 83

Figura C.3: Figura representativas da profundidade limite de 10 [mm] para a deteção do sistema para

campos indoor e diagrama AC .............................................................................................................. 84

Figura C.4: Figura representativas da profundidade limite de 100 [mm] para a deteção do sistema para

campos indoor e diagrama AC .............................................................................................................. 84

Figura D.1: Processo de treino da CNN referente a indoor AP para 64/128/256 Filtros ...................... 85

Figura D.2: Processo de treino da CNN referente a indoor AC para 16/32/64 Filtros .......................... 85

Figura D.3: Processo de treino da CNN referente a outdoor AP para 64/128/256 Filtros .................... 85

Figura D.4: Processo de treino da CNN referente a outdoor AC para 64/128/256 Filtros .................... 86

Figura D.5: Legenda dos gráficos dos processos de treino das CNNs ................................................ 86

Page 18: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

xviii

Page 19: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

xix

Lista de siglas e acrónimos

14N Isótopo de Nitrogénio

AAMA Aquartelamento da Academia Militar Amadora

AC Anticarro

AP Antipessoais

CINAMIL Centro de Investigação e Inovação da Academia Militar

CNN Convolutional neural network

DRDC Defence Research & Development Canada

EUA Estado Unidos da América

FOS First Order Statistics

GLDM Gray Level Difference Method

GLMC Gray Level Co-occurrence Matrix

GLRLM Gray Level Run-Lengh Method

GPR Ground Penetration Radar

GPU Graphic Processing Unit

HMX High Melting point eXplosive, ciclotetrametileno tetranitramina

IR Infra-Red

KNN K-nearest neighbors

LADAR Laser Detection and Ranging

LCC Linear Cross Correlation

LWIR Long Wave Infrared

MAD Magnetic Anomaly Method

MLP Multilayer Perceptons

MVM Método Voto por Maioria

MVP Método Voto por Peso

MWIR Mid Wave Infrared Radiation

NATO Organização do Tratado Atlântico Norte

NQR Nuclear Quadrupole Resonance

NSO Nato Standardization Office

OSP Orthogonal subspace projection

PCA Principal Component Analysis

PETN Tetranitrato de Pentaeritritol

RDX Research Department X, ciclotrimetileno trinitramina

RECPAD Conferência Anual Portuguesa de Reconhecimento de Padrões

RELU Rectified Linear Unit

ROI Region of Interess

SGLDM Spatial Gray Level Dependence Method

SV Support Vector

Page 20: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

xx

SVM Support Vector Machine

SWIR Short Wave Infra-Red

TNT Trinitrotolueno

VNIR Visible-near Infra-Red

Page 21: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

1

1. Introdução

1.1. Enquadramento e Motivação

O problema da desminagem é atual, complexo e exigente devido a uma multiplicidade de

fatores a considerar no momento da deteção. Devido ao crescente número de zonas de guerra e

conflitos no mundo, a ameaça de minas terrestres e munições não detonadas continua a ser um

problema muito grave que afetará os países empenhados nestas questões, nos próximos anos [1]. De

forma a solucionar este problema, nas últimas décadas têm sido desenvolvidas diversas tecnologias

com o objetivo de efetuar uma deteção o mais fidedigna possível independentemente do local, do tipo

de mina e da disposição das mesmas no solo.

Segundo o Nato Standardization Office (NSO) [2], existem dois tipos de desminagem. O

primeiro, durante operações militares que visa o objetivo do comandante militar, nomeadamente atingir

o princípio da liberdade de movimentos. Nestas circunstâncias, um grau de risco moderado é aceitável.

O segundo tipo de desminagem aparece em operações fora do artigo quinto1 (em tempo de paz), onde

as operações de desminagem requerem maior precisão e um risco mínimo aceitável.

No contexto operacional e durante operações militares, o desenvolvimento de uma metodologia

para a deteção de minas a partir de sensores multiespectrais facilita a deteção das minas, pela

utilização de sensores leves, de reduzidas dimensões e pequenos consumos energéticos [3] [4]. No

entanto, Florez [3] na sua análise aos sensores usados nos métodos de desminagem refere que é

necessária uma maior investigação acerca dos custos, velocidade de deteção e processamento destes

sensores, referindo ainda que são sensores bastantes promissores. No contexto humanitário, as

vantagens prendem-se essencialmente com o risco mínimo que este método apresenta, ou seja a

capacidade de ser usada remotamente sem risco para o operador, a possibilidade do seu uso nas mais

variadas operações humanitárias e de apoio à paz.

Surge assim, a motivação para desenvolver uma solução que vá ao encontro das necessidades

existentes, recorrendo à utilização de novas tecnologias e ao desenvolvimento de novas metodologias

tanto para o bem-estar das populações civis como para o aumento da proficiência do exército português

no âmbito desta matéria.

1.2. Objetivos

Para a resolução do problema indicado, propõe-se o desenvolvimento de um ou mais métodos

que permitam detetar a existência de minas terrestres a partir de imagens multi-espetrais de várias

fontes, com a aplicação de classificadores e métodos afins. É também objetivo deste trabalho a

construção de uma base dados/conjunto de dados de imagens multi-espetrais com minas terrestres

enterradas e à superfície.

1O artigo 5.º do Tratado Atlântico Norte requer que os Estados-Membros auxiliem qualquer membro que esteja sujeito a um ataque armado.

Page 22: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

2

1.3. Estrutura da Dissertação

A presente dissertação encontra-se dividido em 6 capítulos, de acordo com a seguinte

estrutura:

• Capítulo 1 – Introdução: neste capítulo é descrita a definição do problema em estudo bem

como definidas as motivações que originam a escrita da dissertação sendo ainda definidos

os objetivos e a estrutura da dissertação.

• Capítulo 2 – Estado da Arte: neste capítulo é feito o estudo do estado da arte dos métodos

de deteção de minas terrestres, sendo proposto um possível agrupamento dos métodos

existentes segundo as características fundamentais consideradas como as mais relevantes.

• Capítulo 3 – Minas e Solos: neste capítulo são explanados conceitos referentes às minas

terrestres, referenciados segundo a doutrina NATO, essenciais à correta compreensão do

objeto de estudo. São também descritos os vários tipos de solos usados para as

experiências do trabalho

• Capítulo 4 – Metodologia: neste capítulo são definidas as metodologias a usar com vista à

consecução dos objetivos da dissertação.

• Capítulo 5 – Resultados e Discussão: neste capítulo são indicados os resultados obtidos

por ambas as metodologias e a sua respetiva análise e discussão.

• Capítulo 6 – Conclusões: neste capítulo são apresentadas as conclusões deste trabalho,

consolidando assim os objetivos propostos. São também apresentados os possíveis

trabalhos futuros.

1.4. Contribuições Científicas

O presente trabalho resultou em dois artigos científicos, o primeiro apresentado nas jornadas

da engenharia da Academia Militar, realizada em 6 de dezembro de 2017 denominado,

Ivo Guerra, José Silva e José Bioucas-Dias. “Deteção de minas em imagens

multiespectrais”, Jornadas das Engenharias da Academia Militar, pag 90-94, 2017

e o segundo foi aceite para publicação na 24ª Conferência Anual Portuguesa de

Reconhecimento de Padrões (RECPAD), a ser realizada em 26 de outubro de 2018 denominada:

Ivo Guerra, José Silva e José Bioucas-Dias. “Deep Learning versus Classical Machine

Learning in Landmine Detection from IR images”, 2 pag. RECAPAD 2018, Universidade de

Coimbra

Page 23: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

3

2. Estado da Arte

Neste capítulo apresenta-se o estado da arte referente aos trabalhos de investigação na área

desta dissertação. A pesquisa centrou-se nas diferentes abordagens existentes que visam a deteção

de minas terrestres. Estas técnicas foram agrupadas em cinco grupos / famílias segundo as suas

características básicas de funcionamento, que contempla, a tecnologia eletromagnética, tecnologia

acústica / sísmica, tecnologia baseada nos explosivos constituintes das minas, e tecnologias com

contacto físico. No estado da arte foram realçados os métodos que usam tecnologia eletromagnética

nomeadamente as imagens multi-espetrais (onde estão inseridas as imagens do infravermelho

térmico), a sua metodologia, os métodos de extração de características, o método de classificação e

avaliação do desempenho do sistema. Foi ainda produzido o apêndice A referente a um resumo

bibliográfico dos artigos considerados relevante agrupados por ano de publicação e projetos que

usaram imagens multi-espetrais/híper-espetrais respetivamente. A revisão bibliográfica dos vários

métodos utilizados teve por base estas tabelas consideradas bastante úteis a quem necessite de uma

informação mais abrangente sobre este assunto.

2.1. Tecnologia Eletromagnética

A tecnologia eletromagnética corresponde aos métodos que usam como base o

eletromagnetismo, o espetro eletromagnético, ou a indução eletromagnética como ferramentas de

deteção. Nesta secção estão presentes os métodos associados às imagens multi-espetrais, os quais

possuem um maior enfase na sua descrição.

As imagens na banda do infravermelho2 são usadas frequentemente na deteção de objetos

enterrados. Krilov [5] afirma que este método baseia-se em diferentes taxas de libertação de calor pelos

objetos enterrados, em comparação com o seu meio envolvente, ao longo do dia. Usando câmaras de

infravermelho é possível recolher o contraste entre os objetos e a sua vizinhança, conforme ilustrado

na figura 2.1, onde se mostram uma imagem a cores (RGB3) do lado esquerdo e uma imagem de

infravermelho térmico da mesma superfície no lado direito. Uma fotografia de infravermelho térmico é

uma imagem obtida por um dispositivo optoelectrónico de forma a converter imagens na faixa do

infravermelho para faixa do visível usando pseudo-cor [6].

2 Neste caso concreto estas imagens são também conhecidas por imagens térmicas. 3 Abreviatura do sistema de cores vermelho (Red), verde (Green), azul (Blue), responsável pela

reprodução de cores em dispositivos eletrónicos de vídeo ou fotografia.

Page 24: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

4

Figura 2.1: Fotografias de infravermelho térmico obtido num terreno com vegetação esparsa e rasteira onde se encontram

dispostos cinco objetos. À esquerda figura a imagem real dos objetos e à direita o contraste da taxa de libertação de calor entre

os objetos e o meio envolvente, (figura retirada de [6]).

A metodologia apresentada por Suganthi [7] baseia-se numa rede neural de retro-propagação

em que na entrada são usadas características de textura baseadas na matriz de co-ocorrência dos

níveis de cinzento, Gray Level Co-occurrence Matrix (GLMC). O processamento efetuado engloba

realce de contraste, filtragem, segmentação, extração de características e classificação. Assim sendo,

numa fase inicial é efetuado um pré processamento com equalização do histograma e o filtro de Wiener

para efetuar realce do contraste e remoção de ruido, respetivamente. De salientar que o filtro de Wiener

é eficiente quando a distribuição do ruído na imagem é gaussiana [7]. Se for necessário efetuar uma

suavização da imagem recorre-se à utilização do filtro da média. Posterior a esta fase, é efetuada a

segmentação para selecionar as zonas de interesse na imagem através da aplicação de limiares

baseados em crescimento de regiões posterior reconhecimento e classificação das zonas segmentadas

recorre-se à extração de características dessas regiões. Foram extraídas características de textura

baseadas em GLCM’s, nomeadamente contraste, correlação, energia e homogeneidade [7]. A

classificação é efetuada através de uma rede neural artificial com retro propagação (back propagation)

utilizando uma topologia de perceção em multicamada (Multilayer Perceptron - MLP). Esta rede neural

artificial foi treinada para duas classes (existência ou não de mina). Os resultados obtidos seguiram

uma métrica de qualidade baseada no erro quadrático médio. A classificação dos objetos ou regiões

segmentadas permitiu identificar 100% dos objetos correspondentes a minas e os objetos que não

correspondiam a minas também foram igualmente bem identificados, tendo sido obtido um valor de 0%

de falso alarme.

Utilizando um método similar, Makki [8] descreve um método cujo objetivo é diferenciar uma

mina terrestre da sua vizinhança numa imagem multi-espetral usando as bandas Visible-Near Infra-Red

(VNIR), Short Wave IR (SWIR) e Thermal IR (TIR). Este autor faz ainda uma revisão precisa de projetos

passados que usaram imagens multi-espectrais / híper-espetrais [1]. Destes projetos destacam-se os

seguintes:

• Projetos de investigação e desenvolvimento no âmbito da defesa do Canadá – um dos

primeiros países a fazerem investigação na deteção de minas terrestres usando imagens

multi-espetrais. Com o desenvolvimento da imagens multi-espetrais (com comprimentos de

onda da ordem dos 400-1000 [nm]) na banda do visível e do infravermelho próximo (VNIR)

várias experiências mostraram compatibilidade com a deteção de minas terrestres.

Investigações mais recentes usando duas câmaras multiespectrais (uma recolhendo

imagens TIR e a outra VNIR) mostram correlações sendo que a câmara TIR é responsável

Page 25: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

5

pela deteção do contraste térmico entre a mina e as suas redondezas e a câmara VNIR é

responsável pela deteção das diferenças de contraste espetral entre o solo remexido e o

solo inalterado e/ou a presença de fios de ligação à mina [1].

• Equinox corporation fusion test – A empresa Equinox4, descrita como líder na solução para

a fusão de imagens teve como clientes governamentais o Departamento da Defesa dos

EUA e o US Army Night and Electronics Sensors Directorate5. A investigação desta empresa

confirma que uma fusão básica entre duas bandas do espetro produz uma aceitável

segmentação de objetos em relação ao seu fundo. Assim, selecionando duas ou três

imagens espetrais de bandas diferentes, é realizada a diferenciação entre objetos e o fundo.

Esta fusão tem o potencial de detetar objetos como minas terrestres numa imagem obtida

por uma câmara que integra sensores da banda do visível, da banda SWIR, e ainda usando

algoritmos de classificação.

• Defense Science and Technology Laboratory DSTL Countermine Project – Projeto realizado

no Reino Unido apelidado de DSTL Countermine Project fez uso de câmaras hiperespetrais

(banda VNIR) recolhendo imagens de alta resolução. Estes dados foram usados para o

desenvolvimento de técnicas de processamento, nomeadamente Principal Component

Analysis (PCA) para a redução da dimensionalidade.

• Projeto NATO – Realizado na Holanda, este projeto em parceria com a NATO tinha como

propósito a realização de um detetor de minas terrestres remoto. O principal objetivo foi a

deteção de um CM em tempo real durante um conflito, usando para isso um UAV a uma

altitude média de 100m. O resultado permitiu extrair recomendações para trabalhos futuros.

No apêndice B encontra-se uma tabela adaptada de Makki [1] com um resumo pormenorizado

de todos os projetos analisados por este autor. A partir da mesma é possível extrair conclusões sobre

quais tipos de dados a utilizar, que bandas do espetro usar, quais as técnicas que obtiveram melhores

resultados e alguns comentários preponderantes de cada projeto.

Passando para uma banda espetral diferente, o método difração de raios X utiliza um processo

em que são emitidos raios-X para o solo a ser analisado estimulando a cobertura exterior da mina.

Através de um detetor de raios-X é recolhida o resultado desta estimulação. Possui pouca penetração,

não distingue múltiplos alvos e tem pouca precisão [9].

Um método baseado na impedância elétrica dos materiais (Eletrical Impedance Tomography6)

usa correntes elétricas para representar a distribuição da condutividade do meio que se pretende

investigar. As implementações atuais usam uma disposição matricial bidimensional de elétrodos

colocados no solo, obtendo-se a informação da condutividade a partir de estímulos de combinações de

elétrodos emparelhados [9] .

4 Mais informações consultar http://www.equinoxsensors.com/company/ 5 Desenvolvedores de sensores tecnologicamente avançados destinados ao exército norte

americano. Mais informações consultar https://www.cerdec.army.mil/inside_cerdec/nvesd/ 6 Do português Tomografia de impedância elétrica.

Page 26: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

6

Os campos magnéticos (Magnetic Anomaly Method, MAD7) também são usados na deteção de

minas terrestres. O método baseado na deteção de mudanças no campo magnético de um objeto, com

características ferromagnéticas, quando exposto a um campo magnético externo [4]. Qualquer variação

na densidade do fluxo da região onde o objeto magnético existe dá origem a uma alteração elétrica no

sensor magnético. Analisando estes dados é possível obter a localização, dimensão e outras

características do objeto [4]. Qualquer variação na densidade do fluxo da região onde o objeto

magnético existe dá origem a uma alteração elétrica no sensor magnético.

A indução eletromagnética assenta no facto de que quando um campo magnético variável no

tempo é estabelecido nas proximidades de um objeto condutor, um campo elétrico é induzido no objeto

condutor que provoca uma variação do fluxo de carga dentro do objeto (figura 3.3). Esta corrente

induzida (corrente de Faucault8) no objeto, devido ao fluxo de carga, produz um campo magnético

secundário. A análise deste campo magnético secundário permite obter um sinal específico e definido

do objeto [4].

Figura 2.2: Princípio de funcionamento da técnica de indução eletromagnética (figura adaptada de [4]).

2.2. Tecnologia Acústica/ Sísmica

Estes métodos são baseados nas ondas sonoras, os fenómenos da sua reflexão e nas ondas

sísmicas provenientes do interior da terra. Os principais métodos acústicos/sísmicos são – Ground

Penetration Radar (GPR), Acoustic Seismic Reflection e a Dispersão de ondas Rayleigh9.

O método Ground Penetration Radar, deteta objetos enterrados por emissão de ondas rádio na

direção do solo e posterior análise do sinal que é retornado [4]. Uma vez que cada objeto possui a sua

frequência de ressonância natural, que são diferentes das frequências de ressonância do local onde o

objeto está enterrado, as ondas refletidas a partir da superfície do objeto e as ondas refletidas a partir

7 Do português Método da anomalia magnética. 8 Corrente de Foucault também conhecidas por Eddy currents são ciclos de corrente elétrica

induzida por campos magnéticos variáveis. 9 Do Inglês Scattering of Rayleigh waves by land mines. Ondas Rayleigh são um tipo de ondas

acústicas de superfície que se propagam ao longo de sólidos. São constituintes das ondas sísmicas produzidas na terra.

Page 27: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

7

da sua vizinhança, apresentaram no recetor uma diferença relativa à quantidade de ondas radio

absorvidas por cada um destes elementos. De salientar que a largura de banda dos sinais do radar

deve ser ajustada de modo a que a frequência ressonância natural do objeto possa ser extraída. Este

método apresenta como desvantagens a penetração relativamente baixa de ondas eletromagnéticas

de alta frequência (banda dos Giga Hertz) e o alto custo comparado com os tradicionais detetores de

metais. Na figura 2.3 verifica-se principio de funcionamento deste método.

Figura 2.3: Princípio de funcionamento do método GPR. Um feixe de ondas rádio é enviada e, ao encontrar uma mina

terrestre é refletida e posteriormente recebida e analisada num recetor rádio (figura adaptada de [4]).

Segundo Ege [4], a abordagem sísmica acústica baseia-se no princípio de que as ondas

sonoras emitidas por uma fonte sob o solo são refletidas a partir dos limites de estruturas e objetos.

Conforme a figura 2.4, são emitidas ondas sonoras de baixa frequência (inferiores a 1 Khz) para o solo,

recolhidas posteriormente por sensores e analisadas quanto às anomalias no seu período. Apresenta

um número elevado de falsos positivos quando usado em áreas húmidas e com alta condutividade, é

um método lento (2 a 15 minutos/m2) quando comparado com outros métodos e requer um elevado

número de passos computacionais no desenvolvimento do seu software.

Figura 2.4: Princípio de funcionamento do método Acoustic Seismic Reflection. Emissão de ondas sonoras para o solo, que

posteriormente são recolhidas por um Vibrômetro laser Dopler que analisa as anomalias no período das ondas sonoras

recebidas (figura adaptada de [4])

A dispersão de ondas Rayleigh pelas minas terrestres é um novo método explorado por

Krylov [5]. Este autor afirma que o facto de estas ondas serem eficientemente dispersas por

irregularidades de qualquer superfície faz com que estas propriedades sejam aproveitadas da deteção

Page 28: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

8

de minas terrestres. Na figura 2.5 está representado o esquema experimental realizado por Krilov [5],

implementando este efeito para a deteção de minas terrestres. Os impulsos de ondas Rayleight com

uma frequência central f são gerados por um Eletromgnetic shaker que aplica uma força vertical F0

concentrada no solo. É assumido que uma mina terrestre está localizada a uma distância horizontal r0

do shaker e a uma dada profundidade. Do ponto de observação são recolhidas as ondas de Rayleight

dispersas, sendo estas analisadas posteriormente.

Figura 2.5: Geometria do esquema experimental elaborado por Krilov para o método de dispersão de ondas Rayleigh numa

mina terrestre (figura retirada de [8])

2.3. Tecnologia Baseada na Deteção dos Explosivos Constituintes

das Minas

Nestes métodos, a existência de explosivos como RDX (baseado em nitrogénio),

ciclotetrametileno tetranitramina (HMX, High Melting point eXplosive), tetranitrato de pentaeritritol,

(PETN) e TNT (à base de nitrogênio-hidrogênio), são determinantes para o funcionamento da deteção

das minas. Note-se que nestes métodos não são analisadas as restantes partes constituintes das

minas.

Figura 2.6: Princípio de funcionamento do método NQR. A partir da excitação do isótopo de Nitrogénio (14N), é recebido o

chamado sinal NQR a partir da radiação emitida por este elemento. A partir deste sinal obtido, é possível confirmar a presença

de explosivos, constituídos por nitrogénio, numa dada área (figura adaptada de [4])

Page 29: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

9

A metodologia proposta por Ege [4] dá-se pelo nome de Nuclear Quadrupole Resonance

(NQR)10. Este método é descrito com sendo uma técnica especial de rádio frequência baseada na

deteção do isótopo de Nitrogénio (14N), encontrado na estrutura de muitos explosivos e drogas. As

frequências NQR observadas são obtidas com a interação entre o quadrupolo elétrico do núcleo do

isótopo e as mudanças de campo elétrico formadas a partir do exterior, em volta do núcleo (figura 2.6).

Uma metodologia diferente, proposta por MacDonald [9], usa um feixe de neutrões e envolve

a distinção do explosivo constituinte da mina em relação ao solo. Para isso, são enviados para o solo

neutrões que posteriormente irão induzir o núcleo atómico do explosivo. As diferenças de intensidade

da radiação recebida poderão assim indicar a presença de explosivo.

Outra abordagem é a deteção dos vapores libertados pelos explosivos. Estes métodos

baseiam-se essencialmente no facto de que os explosivos constituídos por TNT e RDX libertarem

vapores cuja deteção é possível usando métodos biológicos ou químicos.

A deteção biológica (usando cães, ratos, bactérias, entre outros) envolve o uso de mamíferos,

insetos ou microrganismos na deteção dos explosivos constituintes da mina. Estes métodos têm a

potencialidade de reduzir falsos alarmes referentes a aglomerados metálicos. Mahoney [10], na sua

pesquisa de deteção de minas terrestres com o uso de ratos afirma que existem, no entanto,

dificuldades inerentes ao treino dos animais. No caso das bactérias e outros microrganismos, subsiste

ainda falta de investigação e pesquisa de forma a obter resultados concisos e aceitáveis pela

comunidade científica [9].

A deteção por métodos químicos, que dependem da libertação dos vapores dos explosivos em

questão. Estes métodos podem ser denominados de Fluorescentes, Eletroquímicos, Piezoelétricos.

Todos estes métodos baseiam-se na excitação dos vapores libertados pelos componentes explosivos

das minas terrestres. A tecnologia Fluorescente mede alterações na fluorescência de um polímero na

presença dos vapores referidos. A Eletroquímica mede alterações na resistência elétrica de um

polímero na presença dos vapores referidos. A Piezoelétrica mede a alteração de frequência de

ressonância de vários materiais na presença também dos vapores referidos. Estes modelos

apresentam limitações quando usados em ambientes secos [11].

2.4. Tecnologias com Contacto Físico

O último passo na deteção de minas é a sonda manual. O operador da sonda, chamado

sapador, através de anos de treino e experiência aprende a distinguir entre uma mina e outro tipo de

objeto enterrado. Estes métodos colocam em risco vidas humanas, dependem da experiência do

operador e têm de ser rigorosos para serem aprovados pela comunidade.

No contexto operacional e em operações militares, segundo o exército dos Estados Unidos da

América e a doutrina NATO [12] as Clearing Operations ou Operações de limpeza/desminagem

operacional são designadas para limpar / neutralizar todas as minas ou obstáculos de uma dada rota

ou área. Para este fim, são utilizados equipamentos de abertura de brechas (explosivos, ou

10 Do português Ressonância Nuclear em Quadrupolo.

Page 30: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

10

equipamentos de desminagem mecânicos) que, fisicamente desimpedem a área desejada. Estes

métodos exigem custos elevados e uma deteção prévia da existência de minas terrestres o que faz

com que métodos referidos anteriormente possam ser conjugados também com a desminagem

operacional.

Page 31: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

11

3. Minas e Solos

Este capítulo explica de uma forma um pouco mais técnica e doutrinária os engenhos

explosivos em questão, quais os mais comuns, os seus tipos, as suas empregabilidades e,

seguidamente, os tipos de solos em que, maioritariamente se encontram presentes. De realçar que,

toda a informação presente foi retirada de documentação não confidencial sendo esta disponível para

trabalhos de investigação.

Tendo por base a doutrina NATO e a escola de engenharia do exército dos Estados Unidos da

América (EUA) [12], uma mina é um engenho explosivo usado para destruir ou incapacitar pessoas ou

veículos terrestres, barcos ou aeronaves. Pode ser detonada pela ação das suas vítimas, pela

passagem do tempo ou por meios controlados. Uma área do terreno contendo minas terrestres

dispostas segundo padrões ou aleatoriamente é dado o nome de campos de minas.

O emprego de campos de minas no campo de batalha destina-se, juntamente com os restantes

obstáculos do plano de barragens militares, a conseguir os efeitos de deter, retardar, canalizar ou

desorganizar o inimigo. As minas são excelentes obstáculos artificiais, facilmente transportadas e

instaladas no terreno, e constituem-se sempre como um perigo para o inimigo. Constroem-se campos

de minas nas seguintes circunstâncias: proteção local, economia de forças, reforço de posições

defensivas e para perturbar o avanço do inimigo [12].

3.1. Campos de Minas

Os campos de minas são planeados para desorganizar, canalizar, retardar ou deter o inimigo

e podem ser empregues de três modos: orientados para o terreno, para a situação e para o alvo. É

importante distinguir claramente os tipos de campos de minas dos seus métodos de lançamento. O

método de lançamento refere-se apenas ao modo como são colocadas/dispersadas as minas na sua

posição. O tipo de campos de minas está associado ao efeito pretendido no campo de batalha e

distinguem-se os seguintes tipos: de proteção, tático, pontual e simulado [13].

Os campos de minas de proteção são de natureza temporária e são utilizados como parte de

um perímetro defensivo de uma unidade, destinando-se à proteção próxima de unidades estacionadas.

São usados para proteger pessoal, material, equipamentos e infraestruturas de ataques e

ameaças [13]. Os campos de minas táticos são empregues de modo a interferirem diretamente com a

manobra do inimigo, devem para isso ser sincronizados em tempo, espaço, intenção tática, e devem

ser devidamente integrados com os planos da manobra. Os campos de minas pontuais podem incluir

todo o tipo de minas: anti-pessoal e anti-carro. Podem ser lançados para reforçar obstáculos existentes,

para conferir proteção rápida contra-ataques do inimigo ao longo de um flanco, lançados no interior do

dispositivo inimigo ou deixados em terrenos que o inimigo irá controlar [13]. Um campo de minas

simulado é desprovido de minas reais, mas pretende-se iludir o inimigo quanto à sua existência efetiva.

É normalmente utilizado quando existe escassez de recursos humanos, materiais e de tempo, sendo

empregue como medida de ilusão [13].

Page 32: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

12

3.2. Tipos de Minas

Existe uma elevada categorização dos tipos de minas, dependendo da finalidade perspetivada

para cada mina. Assim, as minas podem dividir-se em três tipos diferentes: reais, simuladas e de

instrução.

3.2.1. Minas Reais

Uma mina terrestre real, é essencialmente composta por mecanismo de disparo, corpo, carga

principal, reforçador e detonador, tal como ilustrado na figura 3.1.

Figura 3.1: Esquema de uma mina terrestre real tipo. 1 - Espoleta, 2 - Detonador, 3 - Reforçador, 4 - Carga Principal, 5 –

Corpo/ Invólucro da mina (figura adaptada de [13]).

As minas reais podem ser classificadas de acordo com o corpo da mina, forma, carga principal,

ação iniciadora, facilidade em ser detetada e finalidade. Os corpos das minas podem ser de muitos

materiais como plástico, aço, cerâmica, vidro e madeira. Quanto à forma, as minas podem ser

essencialmente retangulares, cilíndricas e cúbicas. As cargas principais podem ser explosivas,

incendiárias ou químicas.

A cadeia de fogo é iniciada através de uma ação sobre a espoleta (e.g. movimento, pressão,

vibração ou magnetismo) que por libertação de energia térmica, cinética ou elétrica, iniciará o

detonador, e provocará o rebentamento da carga principal. Caso a energia necessária para ativar a

carga principal seja elevada, poderá existir um reforçador no mecanismo de fogo, nomeadamente entre

o detonador e a carga principal. O rebentamento da mina só ocorrerá se nenhuma das etapas da cadeia

de fogo for interrompida.

Quanto à facilidade de deteção, as minas podem ser metálicas ou não metálicas. Por fim, de

acordo com a finalidade, as minas podem ser classificadas em minas anticarro (AC) e minas

antipessoais (AP).

A generalidade das minas AC possui corpo metálico e o seu tamanho e pressão de detonação

é superior relativamente às minas AP. No entanto, já existem minas AC com corpo de madeira e

plástico. Possuem formas variadas (discos, cilindros, entre outros) e possuem cargas até 15 kg com

tendência a diminuir. O material explosivo é tipicamente Trinitrotolueno (TNT), Composto B ou RDX.

São ainda caracterizadas por gerar grandes estilhaços metálicos após a explosão.

Os principais alvos deste tipo de minas são veículos e a ação iniciadora pode ser por pressão,

devida ao peso do veículo, por comando à distância, por alterações magnéticas devidas à passagem

de um veículo, entre outros. Na figura 3.2 é apresentado um exemplo de uma mina anticarro.

Page 33: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

13

Figura 3.2: Minas Anticarro modelo TM-62M [13]

Relativamente às minas AP, esta é concebida para explodir pela proximidade ou contacto e

destina-se a incapacitar, ferir ou matar pessoas. As minas AP são normalmente detonadas quando é

efetuada uma pressão sobre a espoleta ou quando um arame de tropeçar é tracionado. No entanto,

podem ser iniciadas por controlo remoto. Podem ser encontradas na superfície ou enterradas,

geralmente são caracterizadas por pequenos dispositivos com diferentes formatos. Muitas vezes estão

camufladas no ambiente em que são instaladas e podem ser fabricadas com plástico, madeira ou metal.

As minas AP causam baixas humanas essencialmente devidas aos efeitos de sopro de fragmentação.

As minas AP de sopro são normalmente acionadas por pressão, em particular pelo contacto

físico com a própria vítima. Estas minas são concebidas para provocar ferimentos graves, normalmente

a amputação de um ou mais membros ou até a morte. Possuem geralmente um formato cilíndrico e

medem entre 7 a 16 [cm] de diâmetro e entre 5 a 10 [cm] de altura, possuindo uma pequena quantidade

de explosivo (por norma inferior a 100 gramas).

As minas AP de fragmentação visam afetar um elevado número de pessoas, nomeadamente

pelos fragmentos expelidos pela carga explosiva e pelo corpo da mina. A maioria destas minas possui

objetos metálicos que se tornam projéteis quando ocorre a detonação da mina. Existem três tipos de

minas de fragmentação: minas de salto, direcionais e estáticas [12]. Na figura 3.3 são apresentados

alguns exemplos dos tipos de minas supramencionados

(a) (b) (c) (d) (e)

Figura 3.3: Minas AP típicas. (a) PRB-MR35, (b) PMN, (c) VALMARA-69, (d) MON-100 [6], (e) M15 [12]

Page 34: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

14

Modelo Tipo Diâmetro

(mm)

Altura

(mm)

Massa

(kg)

Corpo da

mina Sensibilidade

Alcance

letal

PRB-

MR358 Sopro 58 64 0.158 Plástico 8 kg -

PMN Sopro 56 112 0.6 Plástico e

borracha 8 kg -

VALMARA-

59

Salto e

fragmentação 105 130 3.3 Plástico

10.8 kg

pressão 6 kg

tração

Raio 27m

MON-100 Direcional e

fragmentação 82 236 5 Aço -

100*9.5m

em arco

M14 Sopro 56 40 0.108 Plástico e

metal 9 -16 kg -

Tabela 3.1: Especificações principais das minas AP representadas na figura 3.3 (tabela adaptada de [12] [13])

Na tabela 3.1 estão descritas as especificações principais das minas AP representadas na

figura 3.3. Destas, é importante realçar o modelo M14, que atualmente é usado pelo exército Norte

Americano na península da Coreia [12] e encontrado em inúmeros países que estiveram em conflitos

nas últimas décadas. O modelo PMN, desenhado e construído pela União Soviética, atualmente de

fabrico russo possui diversas variantes sendo as atuais, PMN-4 encontradas na Ucrânia e na Síria.

3.2.2. Minas Simuladas e de Instrução

As minas simuladas são objetos que imitam minas reais. Estas minas têm o objetivo de iludir

acerca da existência de minas apenas quando o inimigo já está alertado para a possibilidade de

existência de minas instaladas no terreno. Este tipo de minas é usado geralmente quando existe

limitação nos recursos disponíveis. Estas minas são usadas em campos simulados.

As minas de instrução são utilizadas no treino / instrução e subdividem-se em minas de prática,

inertes e treino. São minas que se armam e desarmam como as minas reais, mas que substituem o

efeito destas pelo lançamento de fumos ou som quando acionadas. As minas inertes são idênticas às

minas reais, mas não possuem nenhum componente explosivo. São usadas em sala didática para

explicar o funcionamento e o manuseamento das minas reais. As minas de treino são cópias de baixo

custo de minas reais, usadas para a instrução com lançadores de minas.

3.2.3. Minas utilizadas no presente trabalho

Para a realização dos ensaios necessários foram utilizadas quatro minas AP distintas e duas

minas AC. Devido ao elevado grau de complexidade e de perigo apenas foram utilizadas duas variantes

de uma mina AP real inerte, disponibilizada pela Academia Militar e três objetos que simulam as

restantes minas (figura 3.4 e figura 3.5). Já para as minas AC foram utilizadas duas variantes de minas

AC reais inertes também disponibilizadas pela Academia Militar (figura 3.4).

Page 35: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

15

Figura 3.4: Minas AP real inerte (objeto A), variação do modelo Valmara, sendo o seu acionamento (tração) por cordão de

tropeçar e material de metal.

Figura 3.5: Objeto B, C e D respetivamente utilizados para simular mina AP modelo Valmara, M14 e PMN

Figura 3.6: Objeto E e F respetivamente utilizados para simular minas AC genéricas

Os objetos utilizados para o desenvolvimento das experiências foram escolhidos de forma a

que as suas dimensões e materiais constituintes fossem o mais semelhante às minas mais comuns

existentes atualmente. Na tabela seguinte estão presentes as especificações principais destes objetos

e a qual das minas AP descritas na secção anterior estas têm o propósito de serem simuladas.

Objeto A B C D E F

Modelo ou

Tipo a

simular

Modelos de

acionamento

por tração

VALMARA,

entre outras M14 PMN

Mina AC

genérica

Mina AC

genérica

Diâmetro

[mm] 20 85 45 43 212 104

Altura

[mm] 95 44 33 83 212 102

Corpo do

Objeto Metal Plástico

Plástico e

metal

Plástico e

borracha

Metal e

madeira

Metal e

madeira

Imagem

vista de

cima

Tabela 3.2: Especificações principais dos Objetos utilizados ao longo da dissertação

Page 36: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

16

3.3. Tipos de Solos

A assinatura térmica de minas terrestres depende de um conjunto de condições ambientais,

sendo que as propriedades do solo assumem um papel determinante na deteção das minas. De forma

a comparar a influência dos diferentes tipos de solos e a sua composição, e ainda, de maior importância,

permitir que o sistema implementado seja o mais generalizado possível (aspeto importante em

problemas de machine learning) foram utilizados vários tipos de solos, o mais diferenciados possível

de forma a tentar abranger todos os ambientes onde as minas podem ser utilizadas. Assim foi elaborada

uma pesquisa de forma a adquirir solos que fossem mais propícios à existência de minas terrestres.

Foram utilizados solos genéricos de simples composição e ainda uma mistura de solos de

forma a simular as estradas de baixo tráfego (as chamada estradas de terra batida, não alcatroadas)

muito comuns em países11 subdesenvolvido e com propensões para estarem em conflito ou terem saído

de um conflito recentemente [14]. Foram atribuídos nomes comuns de fácil compreensão aos diferentes

tipos de solos de forma a que seja feita uma divisão eficiente entre os mesmos. As figuras seguintes

representam os solos usados e as suas principais características.

Figura 3.7: Areia do Rio Figura 3.8: Terra Batida Figura 3.9: Areia do Mar

Figura 3.10: Brita Nr.º 0 Figura 3.11: Brita Nr.º 1 Figura 3.12: Brita Nr.º 2

No que concerne às características de cada solo, a figura 3.7, que representa a areia do rio é

o material, por exemplo que se utiliza para o fabrico do cimento. Este tipo de solo é frequentemente

encontrado à beira rio ou em caminhos rurais pedonais. A figura 3.8 representa a terra batida também

chamada de terra orgânica encontrada em terrenos agrícolas ou de cultivo e pode também ser

referenciada como terra de jardim. A figura 3.9 é a areia do mar encontrada nas praias e está presente

neste estudo com o intuito generalista já apresentado. No que respeita a tipos de solo mais específicos

e usados em aplicações mais profissionais temos as figuras 3.10, 3.11 e 3.12 que representam

materiais granulares usados maioritariamente na constituição de estradas de baixo tráfego [14]. Esta

brita dividida em três grupos consoante as dimensões dos seus grânulos possui respetivamente as

dimensões: 3-8mm para Brita Nr.º 0; 16-30mm para Brita Nr.º 1; 25-50mm para Brita Nr.º 2.

11 Exemplos destes países: Afeganistão, Síria, República Centro Africada, Kosovo, Mali.

Page 37: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

17

Figura 3.13: Mistura de Solos de forma a simular uma estrada de baixo tráfego tipo U1.

Com base nos estudos de Fernandes [14] foi ainda elaborado um solo específico (Mistura de

Solos) com vista a simular uma estrada de baixo tráfego tipo U112 sendo utilizados para este fim Brita

Nr.º 0, Nr.º 1 e Nr.º 2 nas proporções aproximadas de 25/37.5/37.5% obtendo assim o solo representado

de duas perspetivas na figura 3.13.

12 Tipos das estradas de baixo tráfego variam entre U1-U5 consoante o esquema da sua composição sendo que as estradas tipo U1 possuem uma mistura de camadas de materiais granulares (brita) de dimensões 5mm – 10mm/ 15mm – 40mm/ 50 – 55mm na proporção 25/037.5/37.5% sendo aquelas que são mais usadas para o tráfego de pessoas e veículos em países subdesenvolvidos. Já as estradas tipo U4/U5 possuem apenas uma camada de desgaste de base granular com dimensões 50-55mm onde apenas se faz a remoção da vegetação existente [14].

Page 38: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

18

Page 39: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

19

4. Metodologia

Neste capítulo explicam-se os procedimentos adotados para a implementação de uma solução

para o problema formulado. Foram aplicadas duas metodologias, uma clássica (figura 4.1) que segue,

de uma forma geral, as fases de um problema de reconhecimento de padrões e uma outra, apresentada

na secção 4.5, que usa técnicas de aprendizagem profunda, como ferramenta essencial.

Atendendo à primeira metodologia, a construção da solução num problema de reconhecimento

de padrões inicia-se normalmente na obtenção dos dados a utilizar na implementação da solução,

secção 4.1, sendo que o tipo de dados e a informação que contêm é determinante para a definição de

uma estratégia de resolução do problema. Obtidos os dados é realizada uma análise aos mesmos no

sentido de escolher que características podem ser extraídas a partir destes.

A fase de extração de características, apresentada na secção 4.2, é uma das mais importantes

para a construção de uma boa solução, sendo por norma seguida da aplicação de algoritmos de

seleção de características, para que sejam escolhidas as que mais contribuem para a solução do

problema. Na fase seguinte realiza-se a classificação, secção 4.3, onde a escolha do classificador a

utilizar é fulcral na obtenção de bons resultados [15]. De seguida optou-se pela realização de uma fusão

de classificadores de forma a otimizar os resultados obtidos.

Como método de validação para este problema em concreto, utilizou-se o holdout Validation,

sendo este recomendado apenas para grandes conjuntos de dados e assenta na reserva de uma

percentagem do conjunto de dados como conjunto de teste (conjunto de teste).

De forma a complementar esta investigação e seguindo o estado de arte atual em problemas

de processamento/classificação de imagens, foi iniciado o estudo deste problema fazendo uso de

ferramentas de aprendizagem profunda criando assim uma rede neuronal convolucional (CNN) sendo

estas particularmente uteis e promissoras em problemas de classificação de imagens.

Figura 4.1 Fluxograma com a metodologia clássica implementada

4.1. Procedimentos Iniciais

Nesta fase são adquiridas imagens multi-espetrais. A obtenção destas imagens pode ser realizada

por vários equipamentos de imagem ou por um equipamento de imagem capaz de obter imagens em

vários intervalos espetrais. A obtenção destas imagens é feita em função de certos parâmetros de

acordo com o próprio equipamento, o ambiente em que são obtidas as imagens, ou dos objetos a serem

detetados. De seguida é comum efetuar-se o alinhamento das imagens, caso estas estejam

desalinhadas ou sejam obtidas por diferentes equipamentos com campos de visão diferente ou

resolução diferente. Este alinhamento é executado manualmente, destacando-se a necessidade do uso

de marcas/alvos de material visível nos diferentes espetros das imagens obtidas de forma a balizar o

campo minado, por exemplo, utilizando marcas construídas em alumínio, capazes de serem facilmente

identificados nas diferentes imagens recolhidas.

1. Aquisição de Imagens

2. Extração e seleção de

características3. Classificação

4. Fusão de Classificadores

Page 40: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

20

4.2. Extração e Seleção de Características

Nesta fase é efetuada a definição das regiões de interesse (ROI). Esta definição é feita

automaticamente a partir de parâmetros obtidos na própria imagem ou definida manualmente.

A definição e respetiva extração de características (features) para os requisitos de um problema

é uma etapa fundamental em tarefas de aprendizagem automática, como a classificação de padrões,

assim nesta fase realiza-se uma análise aos dados obtidos na identificação das ROIs no sentido de

escolher que características que possam ser extraídas a partir das ROIs.

Uma imagem consiste em vários pixels com diferentes valores de intensidade de níveis de

cinzento. A textura é definida pela distribuição espacial dos níveis de cinzento, pelo que a sua análise

pode ser efetuada recorrendo ao uso de propriedades estatísticas, que analisam a distribuição espacial

dos níveis de cinzento, calculando características locais em cada ponto da imagem e deduzem um

conjunto de estatísticas [16].

4.2.1. Estatística de Níveis de Cinzento de Primeira Ordem

Segundo Gonzalez [17] a análise com o recurso a estatística de primeira ordem (FOS) tem

como base o histograma de níveis de cinzento. Admitindo que 𝑛𝑝 é o número de pixels de uma região

de interesse e 𝐿 o número de níveis de cinzento dessa ROI, o histograma normalizado de primeira

ordem é dado pela função de distribuição de probabilidades (4.1).

ℎ(𝑖) =#(𝑥, 𝑦) ∈ 𝐼(𝑥, 𝑦) = 𝑖

𝑛𝑝

, 0 ≤ 𝑖 ≤ 𝐿 (4.1)

No exemplo seguinte é analisado cada pixel individualmente, sem existir qualquer relação com

o valor de pixels vizinhos.

2 1 1 0

0 1 2 1

3 3 2 0

𝐼(𝑥, 𝑦)

𝑖 = 0 1 2 3

ℎ(𝑖) = 2/12 4/12 3/12 2/12

ℎ(𝑖), 0 ≤ 𝑖 ≤ 3

Figura 4.2 Exemplo do cálculo do histograma normalizado da ROI 𝐼(𝑥, 𝑦).

A partir do histograma normalizado, são propostas as várias características de primeira ordem,

sintetizadas na tabela seguinte.

Page 41: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

21

Característica Equação Descrição

Média 𝜇 = ∑ 𝑖ℎ(𝑖)

𝐿−1

𝑖=0

Média dos níveis de cinzento de uma ROI. (4.2)

Desvio Padrão 𝜎 = √∑ ℎ(𝑖)(𝑖 − 𝜇)2

𝐿−1

𝑖=0

Máximo de dispersão dos níveis de cinzento em relação ao valor médio.

(4.3)

Variância 𝑣𝑎𝑟 = 𝜎2 = ∑ ℎ(𝑖)(𝑖 − 𝜇)2

𝐿−1

𝑖=0

Medida de largura do histograma, mede a

dispersão dos níveis de cinzento relativamente à média.

(4.4)

Entropia 𝐸𝑁𝑇 = − ∑ ℎ(𝑖) log2(ℎ(𝑖))

𝐿−1

𝑖=0

Medida estatística de aleatoriedade (incerteza) usada para dar informação sobre

a textura da imagem. Mede a não uniformidade da ROI, quanto mais uniforme for a ROI menor será a entropia, 0 ≤ 𝐸𝑁𝑇 ≤

log2 𝐿.

(4.5)

Simetria 𝑆𝐼𝑀 =1

𝜎3∑ ℎ(𝑖)(𝑖 − 𝜇)3

𝐿−1

𝑖=0

Medida do grau de simetria da distribuição de probabilidades.

(4.6)

Curtose (Kustosis)

𝐶𝑈𝑅 =1

𝜎4∑ ℎ(𝑖)(𝑖 − 𝜇)4 − 3

𝐿−1

𝑖=0

Medida do grau de achatamento da

distribuição de probabilidades relativamente à distribuição normal.

(4.7)

Energia 𝐸𝑁𝐸 = ∑ ℎ2(𝑖)

𝐿−1

𝑖=0

Medida da variação da intensidade na imagem. Se a imagem possui apena um

nível de cinzento (ENE = 1), por outro lado se tiver histograma uniforme, (ENE = 1/L).

(4.8)

Tabela 4.1 Características de 1.ª ordem.

4.2.2. Estatística de Níveis de Cinzento de Segunda Ordem

As estatísticas de primeira ordem refletem características que não têm em conta a distribuição

espacial de níveis de cinzento na imagem, pelo que podem apresentar-se como métricas limitadas. As

estatísticas de segunda ordem têm em conta a distribuição espacial de níveis de cinzento na imagem.

O método da dependência de níveis de cinzento (SGLDM) ajuda a extrair a matriz de coocorrência de

níveis de cinzento (GLCM) [18] [19]. O método, proposto por Haralick [20] descreve a dependência da

distribuição de níveis de cinzento entre pixels vizinhos que pode ser expressa através de uma matriz e

coocorrência (GLCM) que, segundo Priya [19] é baseada na função de densidade de probabilidade

condicional de segunda ordem 𝑝(𝑖, 𝑗 |𝑑, 𝜃) que pode ser estimada em várias direções 𝜃 e várias

distâncias 𝑑. Assim 𝑝(𝑖, 𝑗 |𝑑, 𝜃) é descrita como a probabilidade de dois pixels colineares segundo

(sabendo) a direção 𝜃 e a distância 𝑑 possuírem o nível de cinzento 𝑖 e 𝑗. Podem ser consideradas

várias direções, sendo as mais habituais correspondentes aos ângulos 𝜃 = 0°, 45°, 90°, 135°, pois os

pares obtidos por um ângulo de 0° serão similares aos pares obtidos por um ângulo de 180°,

estendendo-se este conceito aos restantes ângulos (𝜃 = 180°, 225°, 270°, 315°)

As funções 𝑝(𝑖, 𝑗 |𝑑, 𝜃) podem ser representadas na forma de matrizes da dependência espacial

dos níveis de cinzento/ GLCM como descrito pela equação:

Ω(𝑑, 𝜃) = 𝑝(𝑖, 𝑗 |𝑑, 𝜃), 0 ≤ 𝑖, 𝑗 < 𝐿 (4.9)

Estas matrizes são quadradas 𝐿 × 𝐿 sendo 𝐿 o nível de cinzento máximo da ROI e simétrica

pois 𝑝(𝑖, 𝑗 |𝑑, 𝜃) = 𝑝(𝑗, 𝑖 |𝑑, 𝜃). A análise desta matriz permite compreender a textura da região da

Page 42: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

22

imagem em análise. Considere-se o seguinte exemplo do cálculo da matriz Ω(𝑑, 𝜃) segundo as direções

𝜃 = 0°, 45° e para 𝑑 = 1

0 0 1 1

1 2 1 3

1 0 3 0

2 0 3 1

𝐼(𝑥, 𝑦)

0 1 2 3

0 2/24 2/24 1/24 3/24

1 2/24 2/24 2/24 2/24

2 1/24 2/24 0/24 0/24

3 3/24 2/24 0/24 0/24

Ω(1, 0°)

0 1 2 3

0 0/18 2/18 1/18 2/18

1 2/18 2/18 2/18 0/18

2 1/18 2/18 0/18 0/18

3 2/18 0/18 0/18 2/18

Ω(1, 45°)

Figura 4.3 Matrizes Ω(1, 0°) e Ω(1, 45°), correspondentes à ROI 𝐼(𝑥, 𝑦)

As matrizes Ω(𝑑, 𝜃) são a base para o cálculo de diversas medidas estatísticas, sendo que para

cada par (𝑑, 𝜃) é calculada uma matriz Ω(𝑑, 𝜃) e um conjunto de descritores de textura, presentes na

tabela seguinte (extraídos de [19] [20]).

Descritor Equação Descrição

Contraste 𝐶𝑂𝑁 = ∑ ∑ 𝑝(𝑖, 𝑗)(𝑖 − 𝑗)2

𝐿−1

𝑖=0

𝐿−1

𝑖=0

Variação local dos níveis de cinzento na matriz de

coocorrência. Se os pixels vizinhos forem similares no valor dos níveis de cinzento, então o contraste da

imagem é baixo.

(4.10)

Correlação

𝐶𝑂𝑅

= ∑ ∑ 𝑝(𝑖, 𝑗) [(𝑖 − 𝜇𝑖)(𝑗 − 𝜇𝑗)

𝜎𝑖𝜎𝑗

]

𝐿−1

𝑖=0

𝐿−1

𝑖=0

Valor de correlação entre um pixel e os seus vizinhos. Valores

elevados indicam uma certa ordem local entre os níveis de cinzento.

(4.11)

Energia ou Segundo Momento

Angular

𝐸𝑁𝐸 𝑜𝑢 𝑆𝑀𝐴 = ∑ ∑ 𝑝2(𝑖, 𝑗)

𝐿−1

𝑖=0

𝐿−1

𝑖=0

Indicador do quão uniforme é a

textura na imagem. Mede o grau de Uniformidade.

(4.12)

Entropia 𝐸𝑁𝑇 = − ∑ ∑ 𝑝(𝑖, 𝑗) log2(𝑝(𝑖, 𝑗))

𝐿−1

𝑖=0

𝐿−1

𝑖=0

Medida de Aleatoriedade. (4.13)

Homogeneidade ou Momento Inverso da Diferença

𝐻𝑂𝑀 = ∑ ∑𝑝(𝑖, 𝑗)

1 + (𝑖 − 𝑗)2

𝐿−1

𝑖=0

𝐿−1

𝑖=0

Medida de homogeneidade local. (4.13)

Tabela 4.2 Características de 2.ª ordem.

Na expressão do cálculo da correlação, a média e o desvio padrão (segundo a coluna 𝑖) são

dados por:

Média 𝜇𝑖 = ∑ ∑ 𝑝(𝑖, 𝑗)𝑖

𝐿−1

𝑖=0

𝐿−1

𝑖=0

(4.14)

Page 43: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

23

Desvio padrão 𝜎𝑖 = √∑ ∑ 𝑝(𝑖, 𝑗)(𝑖 − 𝜇𝑖)

2

𝐿−1

𝑖=0

𝐿−1

𝑖=0

(4.15)

Existem ainda outras características possíveis de extração não enunciadas na tabela, mas que

poderão ser utilizadas neste processo. Destas destacam-se a Variância, a Média da Soma, a Entropia

da Soma, a Variância da Soma, a Variância da Diferença, a Entropia da Diferença, e Medidas de

Informação de Correlações [20].

4.2.3. Estatísticas de ordem superior

O método do Comprimento de Primitivas dos Níveis de Cinzento (GLRLM) consiste na

contagem do número de sequências de pixels com a mesma intensidade numa dada direção.

Originalmente proposto por Galloway [21], baseia-se no cálculo de primitivas run length, que

correspondem a conjuntos consecutivos de pixels colineares com o mesmo nível de cinzento, numa

dada direção. Numa primeira fase são calculadas as matrizes de primitivas Ψ(𝜃) a partir das quais é

possível extrair descritores de textura.

Ψ(𝜃) = 𝑀(𝑎, 𝑟|𝜃), 0 ≤ 𝑎 ≤ 𝐿, 0 < 𝑟 ≤ 𝑁𝑟 (4.16)

Cada elemento da matriz 𝑀(𝑎, 𝑟|𝜃) representa o número de vezes que ocorrem na ROI

primitivas com nível de cinzento 𝑎 e comprimento 𝑟 segundo a direção 𝜃. Esta matriz possui dimensão

𝐿 × 𝑁𝑟, sendo 𝐿 o número de níveis de cinzento e 𝑁𝑟 o número de primitivas com comprimentos

distintos. O cálculo da matriz de primitivas 𝑀(𝑎, 𝑟|𝜃), segundo as direções 0° e 90°, encontra-se

ilustrado na figura 4.4.

0 0 1 1

1 2 1 3

1 0 3 0

2 0 3 1

𝐼(𝑥, 𝑦)

1 2 3 4

0 3 1 0 0

1 4 1 0 0

2 2 0 0 0

3 3 0 0 0

Ψ(0°)

1 2 3 4

0 3 1 0 0

1 2 2 0 0

2 2 0 0 0

3 1 1 0 0

Ψ(90°)

Figura 4.4 Matrizes de primitivas run lenght para as direções 0° e 90°, correspondentes à ROI 𝐼(𝑥, 𝑦)

Após este cálculo é possível extrair um conjunto de propriedades, Galloway [21] foi o primeiro

autor a propor um conjunto de cinco métricas, sendo que todas estas fazem uso de um fator de

normalização 𝑛𝑟 que expressa o número total de primitivas existentes na matriz e é dado por:

Page 44: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

24

𝑛𝑟 = ∑ ∑ 𝑀(𝑎, 𝑟)

𝑁𝑟

𝑟=1

𝐿

𝑎=1

(4.17)

Na tabela seguinte estão expressos o conjunto de descritores proposto pelo autor e que

demonstram as propriedades da textura.

Descritor Equação Descrição

Ênfase em Primitivas Curtas

𝐸𝑃𝐶 = 1

𝑛𝑟

∑ ∑𝑀(𝑎, 𝑟)

𝑟2

𝑁𝑟

𝑟=1

𝐿

𝑎=1

Mede a predominância das primitivas curtas.

(4.18)

Ênfase em Primitivas Longas

𝐸𝑃𝐿 = 1

𝑛𝑟

∑ ∑ 𝑀(𝑎, 𝑟)𝑟2

𝑁𝑟

𝑟=1

𝐿

𝑎=1

Mede a predominância das primitivas longas.

(4.19)

Não Uniformidade dos Níveis de

Cinzento

𝑁𝑈𝑁𝐶 = 1

𝑛𝑟

∑ (∑ 𝑀(𝑎, 𝑟)

𝑁𝑟

𝑟=1

)

2𝐿

𝑎=1

Mede a não uniformidade dos níveis de cinzento da ROI.

(4.20)

Não Uniformidade do Comprimento

das Primitivas

𝑁𝑈𝑁𝑃 = 1

𝑛𝑟

∑ (∑ 𝑀(𝑎, 𝑟)

𝐿

𝑟=1

)

2𝑁𝑟

𝑎=1

Mede a não uniformidade do das primitivas run length.

(4.21)

Percentagem de Primitivas

𝑃𝑃 = 𝑛𝑟

𝑛𝑝

= 1

𝑛𝑝

∑ ∑ 𝑀(𝑎, 𝑟)

𝑁𝑟

𝑟=1

𝐿

𝑎=1

Relação entre o número total de

primitivas e o número total de primitivas possíveis.

(4.22)

Tabela 4.3: Características de ordem superior.

Posteriormente, outras características que aprofundam os descritores enunciado na tabela

anterior, foram introduzidas por outros autores [22] [23] das quais se destacam Ênfase em Primitivas

com Níveis de Cinzentos Baixos/ Altos, Ênfase em Primitivas Curtas/ Longas com Níveis de Cinzento

Alto/ Baixo.

4.2.4. Método das diferenças de níveis de cinzento e Lacunaridade Diferencial

Existem ainda outras características/descritores que, embora não tenham sido usados neste

trabalho, é importante defini-los. Destacam-se assim o método das diferenças de níveis de cinzento

(GLDM) e a Lacunaridade Diferencial.

O primeiro, abordado por Unser [24] e por Khelifi [25] baseia-se na coocorrência de pares de

pixels que possuem uma determinada diferença absoluta em termos do nível e cinzento e se

encontrarem a uma distância 𝑑 na direção 𝜃. Cria-se assim o histograma normalizado que indica a

probabilidade de ocorrência da diferença de níveis de cinzento 𝑖 entre dois pixels distancia e direção

(𝑑, 𝜃). Partindo de cada histograma é possível extrair diversos descritores: Segundo Momento Angular,

Entropia, Momento Inverso da Diferença, Variância, Contraste e a Correlação.

A Lacunaridade Diferencial assenta na terminologia fractal que significa fragmentado, foi

introduzida pelo matemático Benoit Mandelbrot [26] para descrever superfícies não euclidianas que se

apresentam autossemelhantes em diferentes escalas, isto é, o conjunto total é constituído por réplicas

dele próprio qualquer que seja a escala de visualização. No entanto a dimensão fractal por si só não

caracteriza um fractal, é necessário a introdução da lacunaridade de forma a distinguir situações em

que alguns objetos fractais com aspeto substancialmente diferentes possuem uma dimensão fractal

Page 45: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

25

igual. Enquanto a dimensão fractal mede o quão preenchido se encontra o espaço Euclidiano, a

lacunaridade quantifica a forma como esse espaço está ocupado. Esta propriedade é altamente

dependente da escala. Padrões homogéneos observados em escalas pequenas podem apresentar-se

bastante heterogéneos se observados em escalas maiores e vice-versa. Portanto, a lacunaridade pode

ser considerada uma medida da heterogeneidade em múltiplas escalas [27]. Valores baixos de

lacunaridade estão relacionados com padrões espaciais homogéneos, enquanto valores altos de

lacunaridade estão associados a padrões heterogéneos. Em geral, quanto maior for a dispersão do

tamanho das lacunas na textura mais alta será a lacunaridade calculada, e vice-versa.

Foram propostos métodos para o cálculo da lacunaridade em imagens binárias, dos quais se

destacam gliding-box [28] e métodos para datasets não binários sendo estes uma conjugação do

método gliding box com o método differential box-couting [29].

4.2.5. Seleção e Normalização de Características

Em problemas de classificação, após a etapa de extração de características é comum ocorrer

um processo de seleção de características que visa reduzir a dimensão do conjunto de dados. Com o

objetivo de encontrar o subconjunto ótimo de características é necessário adotar uma estratégia de

pesquisa que permita, a partir da totalidade das características, escolher apenas algumas e um critério

que avalia a qualidade do subconjunto gerado. Este processo tem como propósito detetar as

características estatisticamente relevantes e descartar as irrelevantes e/ou redundantes [30].

Na prática e segundo a literatura a seleção de características reduz o efeito do Curse of

dimensionality13, identifica as características que aumentam a compreensão do problema, melhorando,

muitas vezes, a visualização dos dados e reduz os custos de processamento de futuras análises de

dados ou predição [31].

Neste contexto, segundo Hira [32] e Guyon [31] os algoritmos de seleção de características

estão separados em três categorias:

• Métodos Filters – Extraem características do conjunto de dados sem terem em consideração

a classificação ou qualquer outro método de aprendizagem como critério. Faz deles

eficientes ao nível computacional. Estão ainda divididos em multivariate (têm como critério

relações entre as características) e univariate (consideram cada característica

separadamente).

• Métodos Wrappers – Usam classificadores/técnicas de aprendizagem para avaliar que

características são estatisticamente relevantes. Menos eficientes ao nível computacional,

especialmente quando usados em problemas com multi-classificação, em que existe

variação nos parâmetros dos classificadores e principalmente quando se trabalha com um

grande conjunto de características. No que respeita à performance estes métodos são

13 O número de características determina a dimensão do espaço das hipóteses, que contém todas as hipóteses que podem ser inferidas a partir dos dados, e que permitem a predição das classes. Quanto maior o número de características maior será a dimensão do espaço das hipóteses. A um aumento linear do número de características corresponde um aumento exponencial do espaço das hipóteses.

Page 46: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

26

melhores que os anteriores visto que têm em consideração os resultados e as hipóteses

das técnicas de aprendizagem como critério.

• Métodos Embedded – Têm com objetivo conjugar as vantagens dos dois métodos

anteriores. Possui maior eficiência computacional em relação aos métodos wrapper mas

tem como principal desvantagem o facto de serem dependentes da classificação ou seja a

seleção efetuada por este método pode ser a óptima para um dado classificador, mas não

resultar num outro classificador.

Os métodos Filters, realizam o processo de seleção de características como uma etapa de pré-

processamento sem existir introdução de algoritmos de indução. As características gerais do conjunto

de treino são utilizadas para selecionar as características (por exemplo, distâncias entre classes,

dependências estatísticas). Estes modelos são mais rápidos do que a abordagem Wrapper e resulta

numa melhor generalização pois atuam independentemente dos algoritmos de classificação usados,

no entanto tende a selecionar grandes subconjuntos de características sendo assim necessário

estabelecer limites (thresholds) à dimensão do subconjunto a selecionar. Um dos algoritmos deste tipo

de métodos, bastante utilizado é o algoritmo Relief. [33]

O algoritmo Relief original estima a qualidade das características de acordo com o quão bem

os seus valores se distinguem entre padrões que estão próximos uns dos outros. Assim, dado um

padrão aleatório 𝑥𝑖 de 𝑚 características, o Relief pesquisa aleatoriamente dois vizinhos mais próximos,

um para a mesma classe, chamado de nearest hit H e o outro para a classe diferente, chamado de

nearest miss M. De seguida, atualiza a qualidade das 𝑚 características dependendo dos valores de 𝑥𝑖,

M e H. O Relief original pode lidar com características discretas e contínuas, no entanto é limitado a

problemas binários (duas classes). Foram propostas várias extensões deste algoritmo de forma a poder

não só lidar com problemas multiclasse mas também para torná-lo mais robusto e apto a processar

dados incompletos e com ruído. Destes destacam-se o ReliefF e o RReliefF, o primeiro para lidar com

problemas multicalsse e o segundo para adaptado a problemas de regressão (continuous class

problems). A família destes algoritmos é especialmente atrativa pois podem ser aplicados em todas as

situações, é de fácil implementação em problemas em que se utilizam vários classificadores, inclui

interações entre características e pode captar dependências locais entre as mesmas que outros

métodos não conseguem. [33]

4.3. Classificação

Na classificação, são analisadas as propriedades numéricas das várias características e

organizando a informação em categorias. O problema de discriminar minas terrestres em relação ao

plano de fundo, verifica-se que é um problema binário. Para a sua resolução são propostas várias

técnicas de classificação: Redes Neurais, Classificador SVM, Árvores de Decisão, Classificador KNN

e Classificador linear usando PCA.

4.3.1. Aprendizagem Automática

A aprendizagem automática requer algoritmos de classificação, também denominados de

classificadores, que possuem a capacidade de aprender relações complexas de dados, para tomarem

decisões precisas na presença de novos dados. Pode-se dividir estes algoritmos em três categorias:

Page 47: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

27

aprendizagem supervisionada, aprendizagem não supervisionada e aprendizagem por reforço

(Reinforcement learning). Na aprendizagem não supervisionada, os novos objetos não possuem

classificação à prior. Este tipo de classificação não permite obter resultados precisos, pelo que para a

resolução deste problema propõem-se o uso de aprendizagem supervisionada [34]. A aprendizagem

reforçada visa aprender o comportamento de agentes de software ou robôs baseando-se no feedback

do ambiente. Numa abordagem de aprendizagem supervisionada, usada neste problema, é necessário

um conjunto de padrões (exemplos, dados ou instâncias) de treino e respetivas classes. Consideremos

o conjunto de treino 𝑇 constituído por 𝑛 padrões:

(𝑥1, … , 𝑥𝑖) 𝑐𝑜𝑚 𝑥𝑖 ∈ ℜ𝑚 , ∀𝑖 = 1, … , 𝑛 (4.23)

E respetivas classes binárias:

(𝑦1, … , 𝑦𝑖) 𝑐𝑜𝑚 𝑦𝑖 ∈ +1, −1, ∀𝑖 = 1, … , 𝑛 (4.24)

Cada padrão de treino 𝑖 é caracterizado por um vetor 𝑥𝑖 de 𝑚 características. No caso presente,

cada vetor é constituído por descritores de textura extraídos das ROI. A cada padrão 𝑖 encontra-se

associada uma classe 𝑦𝑖 que, dado o problema ser binário, toma o valor de +1 ou -1, sendo que a

classe +1 corresponde à mina e a classe -1 ao plano de fundo. O algoritmo de aprendizagem deve

aprender a reconhecer as principais características associadas à classe +1 e associadas à classe -

1 e ajustar os seus parâmetros aos padrões que lhe são apresentados. Finalmente a sua capacidade

de generalização é avaliada no conjunto de teste, constituído por um novo conjunto de padrões cuja

classe é conhecida, mas que não integravam o conjunto de treino 𝑇.

4.3.2. Redes Neuronais Artificiais

As Redes Neuronais Artificiais são modelos matemáticos regidos pelo princípio das redes

neuronais biológicas. A escolha da quantidade de neurónios que constituem a rede irá depender do

processo de classificação a realizar. Existem várias formas de ligar os neurónios artificiais de modo a

criar uma rede neuronal, mas o mais comum é a rede feedforward. Cada dado de entrada no neurónio

possui um peso, este representa simplesmente um número flutuante que é ajustado quando se treina

a rede, assumindo valores positivos ou negativos, de modo a providenciar influências ativadoras ou

não ativadoras a cada dado de entrada. À medida que cada dado (de entrada) entra no núcleo, é

multiplicado pelo seu peso. O núcleo soma todos os valores, que despoletam a ativação. Se a ativação

for maior do que um valor threshold, o neurónio produz um sinal de saída diferente de zero. Caso

contrário, o neurónio produz um sinal de saída igual a zero [35].

A figura seguinte ilustra um neurónio artificial para os diferentes dados de entrada, neste caso

concreto serão as características 𝑚 de cada padrão 𝑥𝑖 , os pesos a elas associadas 𝑚𝑗 e o valor de

ativação, resultante do somatório do produto do dado de entrada pelo seu peso correspondente.

Page 48: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

28

Figura 4.5: Representação de um neurónio artificial, considerando diferentes dados de entrada com diferentes pesos

Para potenciar estas redes neuronais, foram propostas duas importantes extensões, uma delas

é o uso de redes neuronais com múltiplas unidades, geralmente organizadas em camadas, a chamada

multilayer percepton (MLP) e a outra extensão foi a introdução de funções de ativação diferenciais e

continuas [36].

4.3.3. Classificador SVM

O algoritmo Support Vector Machines (SVM) consiste numa metodologia de aprendizagem

supervisionada, usada para a classificação estatística e análise de regressão. Representa um

classificador de objetos de acordo com as suas características, baseando-se no conceito de planos que

definem fronteiras de decisão. Um plano de decisão faz a separação de conjuntos de objetos de

diferentes categorias. Para um determinado conjunto de dados de treino, o SVM constrói de modo

iterativo um modelo que irá prever corretamente se um novo objeto pertence a uma categoria ou a

outra. O SVM constrói um hiperplano entre os objetos de diferentes classes, que maximize a distância

entre os pontos de dados de treino. Quanto maior for a distância entre as classes, mais baixo será o

erro da classificação. O número de hiperplanos pode variar, consoante o número de classes [35].

A situação mais simples corresponde a um conjunto de treino em que os dados são linearmente

separáveis. Considere-se o conjunto 𝑇 de 𝑛 padrões, cada um descrito através de 𝑚 características,

definido por:

(𝑥𝑖 , 𝑦𝑖) 𝑥𝑖 ∈ ℜ𝑚 , 𝑦𝑖 ∈ +1, −1, ∀𝑖 = 1, … , 𝑛 (4.25)

O conjunto 𝑇 é linearmente separável se existir pelo menos um hiperplano que permita separar

completamente os padrões correspondentes às duas classes.

a) b)

Figura 4.6: a) Possível solução para um problema de dados linearmente separáveis. b) Hiperplano do separador ótimo.

Page 49: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

29

Como ilustrado na figura 4.6 a), existem vários hiperplanos que permitem a separação das

duas classes. O objetivo deste classificador é encontrar o hiperplano de separação ótimo que maximize

o valor da margem. A margem é a distância entre os padrões das duas classes mais próximos do

hiperplano de separação (figura 4.6 b)). Esse hiperplano é formado pelos pontos 𝑥 que satisfazem a

seguinte equação:

𝑤. 𝑥 + 𝑏 = 0 (4.26)

Sendo 𝑤 um vetor normal ao hiperplano e |𝑏|/||𝑤|| a distância do hiperplano à origem, com

𝑏 ∈ ℜ. O espaço de características fica dividido em duas regiões 𝑤. 𝑥 + 𝑏 > 0 para a classe +1 e 𝑤. 𝑥 +

𝑏 < 0 para a classe -1. Define-se o hiperplano canónico a 𝑇 de modo a que os padrões mais próximos

do hiperplano, satisfaçam a condição:

|𝑤. 𝑥𝑖 + 𝑏| = 1 (4.27)

Considerando a figura 4.6 b), sendo 𝑥1 um ponto do hiperplano 𝐻1, definido pelos pontos que

verificam a igualdade 𝐻1: 𝑤. 𝑥 + 𝑏 = +1 e 𝑥2 um ponto do hiperplano 𝐻2, definido pelos pontos que

verificam a igualdade 𝐻2: 𝑤. 𝑥 + 𝑏 = −1. Se 𝑤. 𝑥1 = +1 − 𝑏 e 𝑤. 𝑥2 = −1 − 𝑏, considerando a distância

𝑥1 e 𝑥2, obtemos a distância 𝐻1 𝑒 𝐻2, isto é a largura da margem, demostrada na equação 4.28.

(𝑤

||𝑤||. (𝑥1 − 𝑥2)) = (

𝑤. 𝑥1

||𝑤||−

𝑤. 𝑥2

||𝑤||) =

2

||𝑤|| (4.28)

Seguidamente é possível obter a maximização da margem com alguma manipulação

matemática, esta maximização é aquela que assegura o menor erro esperado.

É importante referir que em alguns problemas de classificação a distribuição dos dados não

permite uma separação linear entre as classes. Este problema é muitas vezes solucionado se

mapearmos estes dados num espaço com maior dimensionalidade chamado feature space,

segundo: 𝑥 = 𝜙(𝑥𝑖) onde os dados 𝑥𝑖, convertidos em 𝑥, possam ser separados por um hiperplano.

O algoritmo SVM não precisa de saber 𝑥𝑖 apenas precisa de saber o produto interno entre 𝑥𝑖 . 𝑥𝑗, assim

não é necessário calcular os feature vectors 𝑥 = 𝜙(𝑥𝑖) mas apenas os seus produtos internos

𝜙(𝑥𝑖) . 𝜙(𝑥𝑗). Estes produtos internos podem ser calculados usando funções de kernel da

forma 𝑘(𝑥𝑖 , 𝑥𝑗) = 𝜙(𝑥𝑖) . 𝜙(𝑥𝑗). As funções de kernel mais comuns são a linear, a Radial Basis Function

e Polinomial.

4.3.4. Classificador KNN

O classificador k-nearest neighbors (KNN) é um dos classificadores mais simples, mais

utilizados e que apresenta bons resultados na resolução de problemas de classificação [37]. Dada uma

amostra de teste, este classificador atribui-lhe uma classe com base no cálculo da distância da amostra

às 𝑘 amostras do conjunto de treino mais próximas. Analisada a classe das 𝑘 mostras escolhidas,

através de um sistema de votação, verifica-se qual a classe com maior frequência absoluta [37]. Uma

característica que distingue este classificador dos restantes é a necessidade de utilizar todo o conjunto

de treino durante a fase de testes. Na fase de treino as amostras (vetores de características

multidimensionais) e a respectiva classe associada são guardadas. Na fase de teste o valor de 𝑘 é

Page 50: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

30

definido pelo utilizador e para a nova entrada de teste realiza-se uma comparação com as amostras de

treino guardadas, sendo essa amostra classificada com a classe das amostras que estiverem mais

próximas e que venceram o sistema de votação. [38].

O desempenho deste classificador depende essencialmente do número de vizinhos a

considerar (𝑘) e a métrica de cálculo de distâncias escolhidas. Em relação às métricas de distâncias

escolhidas habitualmente, estas podem ser: Euclidiana, correlação, cityblock, chebycebv [38].

4.3.5. Árvores de Decisão

As árvores de decisão14 são um dos modelos mais práticos e mais usados nomeadamente em

operações de pesquisa e na análise de decisões. Segundo Mitchell [39], este método apresenta-se

com sendo um método robusto ao ruído e capaz de ser utilizado como uma ferramenta útil à

aprendizagem. O mesmo autor refere que as árvores de decisão dividem o conjunto de dados de treino

em subconjuntos menores de uma forma a que as variáveis presentes em cada subconjunto sejam as

mais homogéneas possíveis.

Numa linguagem leiga, o classificador Árvores de Decisão efetua uma série de questões/

comparações matemáticas, acerca das características de um conjunto de dados. Cada vez que recebe

uma resposta, é feita uma nova questão até à obtenção da classificação dos dados. O classificador

organiza a série de questões e condições numa estrutura em árvore. Pode-se considerar que as árvores

de decisão possuem três tipos de nós, as raízes, que são os nós iniciais das árvores, os nós terminais,

que se encontram no final das árvores e os nós internos, que se encontram entre as raízes e os nós

terminais. As raízes e os nós internos contêm condições de teste para separar os dados que possuem

diferentes características. A todos os nós terminais é atribuída uma classificação. A árvore começa com

todos os dados de treino no primeiro nodo. Uma divisão inicial é feita usando uma variável de previsão,

segmentando os dados em 2 ou mais nós. A divisão sucessiva resulta em vários nós terminais, estes

apresentam a classificação final [39].

Uma vez construída a Árvore de Decisão, procede-se à classificação dos dados de teste.

Começando pelo nodo da raiz, aplicam-se as condições de teste aos dados e segue-se pelo ramo

apropriado, baseando-se no resultado dessa condição. Quando é alcançado o nodo terminal, a

classificação associada a esse nodo é atribuída aos dados de teste [39].

A figura seguinte apresenta um simples exemplo genérico de uma árvore de decisão para

classificação de dados para um problema de duas classes, sendo que para efeitos exemplificativos

consideremos o padrão 𝑥1 = 𝑚1, 𝑚2, 𝑚3 com as respetivas 3 características de forma a simplificar a

visualização do algoritmo.

14 Do inglês Decision Trees

Page 51: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

31

Figura 4.7: Exemplo de uma árvore de decisão para problema de três características e duas classes.

Explicando o fluxo das árvores de decisão, neste exemplo concreto, o padrão a ser analisado,

é questionado, na raiz (Nó 1), se a sua característica 𝑚1 é maior ou menor que o valor 0.5. A partir da

sua resposta avança para o nodo interno (Nó 2) ou para o nodo terminal classificando este padrão

(𝑦1 = 1 (𝑀𝑖𝑛𝑎)) e assim sucessivamente até atingir um nodo terminal.

4.3.6. Análise de Componentes Principais

Segundo Almeida [40] quando existe um conjunto de dados com um número elevado de

dimensões, por vezes é aconselhável ter a capacidade de reduzir o número de dimensões mantendo a

mesma quantidade de informação, sendo assim possível facilitar a análise de dados com alta

dimensionalidade. Esta técnica designada por Principal Component Analysis (PCA) encontra uma

função linear que permite a separação das diferentes classes do conjunto de treino realizando a

projeção dos dados nos primeiros 𝑁 vetores próprios. O número de vetores próprios a utilizar é o

parâmetro que pode ser estimado para obter os melhores resultados.

A aplicação desta técnica tem como objetivo extrair dos dados de treino apenas a informação

importante, utilizando esta para a constituição de novas variáveis ortogonais entre si denominadas

componentes principais Este processo inicia-se na procura da direção que maximiza a variância nos

dados e ao mesmo tempo minimiza a raiz quadrada da soma da distância entre os dados e a reta que

materializa a direção principal.

A vantagens da utilização de métodos de redução de dimensionalidade é a diminuição do

tamanho de dados, e a diminuição do tempo de processamento. O tamanho das dimensões das

características é determinado por cada classificador com a melhor performance ao nível da

classificação [41].

Com esta técnica é possível utilizar classificadores lineares tais como PCLDC (Linear Classifier

using Principal Component expansion on the joint data) que procura uma função linear que permita a

separação das diferentes classes do conjunto de treino realizando a projeção dos dados nos primeiros

𝑁 vetores próprios extraídos da técnica PCA [38].

Nó 1

Nó 2

𝒚𝟏 = −𝟏 (𝑵ã𝒐 𝑴𝒊𝒏𝒂)Nó 3

𝒚𝟏 = −𝟏 (𝑵ã𝒐 𝑴𝒊𝒏𝒂)𝒚𝟏 = 𝟏 (𝑴𝒊𝒏𝒂)

𝒚𝟏 = 𝟏 (𝑴𝒊𝒏𝒂)

𝑚1 < 0.5 𝑚1 ≥ 0.5

𝑚2 ≥ 0.8 𝑚2 < 0.8

𝑚3 ≥ 0.6 𝑚3 < 0.4

Page 52: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

32

4.4. Fusão de Classificadores

Uma estratégia que permite melhorar o desempenho global da classificação consiste em

combinar vários classificadores num único classificador (multiclassificador) em função da saída de

todos os classificadores utilizados. Consideram-se assim dois métodos plausíveis de serem usados

nesta etapa: os métodos de voto por maioria e os métodos de voto pesado.

4.4.1. Voto por Maioria

Os métodos de voto por maioria (MVM) têm em conta a classificação obtidas para cada

classificador utilizado. Em seguida, recorre-se a um voto, que consiste na constatação de qual das

classificações ocorre com maior frequência, atribuindo-a ao multiclassificador [42]. Na tabela seguinte

é apresentado um exemplo de forma a demonstrar o funcionamento deste método. As colunas

representam os diferentes classificadores, e as linhas correspondem às ROIs consideradas neste

exemplo. A classificação de 0 é dada aos casos em que não existe mina (pertencentes à classe -1) e

a classificação de 1 aos casos onde existe mina (pertencentes à classe +1).

nº da ROI Bayes KNN Árvore de

decisão SVM

Redes

Neurais Multiclassificdor

1 0 0 0 1 1 0

2 0 1 0 1 0 0

3 1 1 0 1 1 1

4 0 0 1 1 1 1

Tabela 4.4: Exemplo método voto por maioria.

Devido à simplicidade que o método de voto por maioria apresenta, não é considerado o

desempenho de cada classificador individual, assim os resultados do multiclassificador poderão ser

afetados, quando se considera que o resultado da saída de cada classificador possui um peso igual.

4.4.2. Voto Pesado

De forma a melhorar o desempenho do multiclassificador, existe um método de combinação de

classificadores que atribui um peso dinâmico (MVP), sendo este proporcional a cinco medidas de

desempenho (apresentadas na secção 4.5): sensibilidade (𝑆), especificidade (𝐸), precisão (𝑃),

exatidão (𝑂𝐴) e F-score (𝐹). Assim pode ser definida uma medida de 𝐷𝑒𝑠𝑒𝑚𝑝𝑒𝑛ℎ𝑜 𝐺𝑙𝑜𝑏𝑎𝑙𝑖 dada por:

𝐷𝑒𝑠𝑒𝑚𝑝𝑒𝑛ℎ𝑜 𝐺𝑙𝑜𝑏𝑎𝑙𝑖 = 𝑆 + 𝐸 + 𝑃 + 𝑂𝐴 + 𝐹

5 (4.29)

Considerando 𝑇 como a soma de todos os valores de desempenho global, pode ser definido o

seguinte peso dinâmico para o classificador 𝑖:

𝑃𝑒𝑠𝑜 𝐷𝑖𝑛â𝑚𝑖𝑐𝑜𝑖 = 𝐷𝑒𝑠𝑒𝑚𝑝𝑒𝑛ℎ𝑜 𝐺𝑙𝑜𝑏𝑎𝑙𝑖

𝑇 (4.30)

Assim, classificadores que apresentam um comportamento individual de baixo desempenho

possuem menor peso e consequente menor importância na classificação global [42].

Page 53: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

33

4.5. Medidas de desempenho do sistema

A qualidade do algoritmo pode ser calculadas a partir de uma matriz de confusão (Confusion

Matrix) permitindo a visualização da performance de um algoritmo15 de aprendizagem numa tabela

específica onde se encontra informação sobre as classificações reais e as previstas segundo um

algoritmo de classificação. [35]. A tabela seguinte representa de forma genérica e exemplificativa uma

matriz de confusão para o problema binário em questão.

Classificação Real

Mina (1) Não Mina (0)

Classificação predita pelo

algoritmo

Mina (1) TP FP

Não Mina (0) FN TN

Tabela 4.5: Matriz de confusão para classificação binária.

Onde, os valores de cada elemento da matriz correspondem a:

• TP (True Positives) – Número de previsões corretamente classificadas como sendo casos

positivos

• TN (True Negatives) - Número de previsões corretamente classificadas como sendo casos

negativos.

• FP (False Positives) - Número de previsões incorretamente classificadas como sendo casos

positivos.

• FN (False Negatives) - Número de previsões incorretamente classificadas como sendo

casos negativos.

O objetivo do algoritmo será de maximizar a diagonal principal da matriz (elementos TP e TN)

e minimizar as previsões FP e FN. Com o auxílio desta matriz é possível calcular medidas que

caracterizam o desempenho dos diferentes algoritmos, sendo estas, a sensibilidade, especificidade,

precisão, exatidão16, F-Score entre outras. Denote-se que consoante as diferentes especificidades de

cada problema de classificações, poderá não ser eficiente, nem útil, utilizar/ calcular todas estas

medidas de avaliação de desempenho, sendo que existem ainda outras que não foram referidas [15]

[35]. Na tabela seguinte estão representadas as medidas referidas bem como uma breve descrição das

mesmas.

15 Matriz de Confusão é normalmente usada em algoritmos de aprendizagem supervisionada e pode ser chamada de matriz de erros (error matrix). Em aprendizagem não supervisionada é chamada de matching matrix

16 Retratada na literatura estrangeira como Overall Accuracy (OA)

Page 54: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

34

Medida Equação Descrição

Sensibilidade 𝑆 = 𝑇𝑃

𝑇𝑃 + 𝐹𝑁 Mede a capacidade do algoritmo em

classificar corretamente os casos positivos. (4.31)

Especificidade 𝐸 = 𝑇𝑁

𝑇𝑁 + 𝐹𝑃 Mede a capacidade do algoritmo em

classificar corretamente os casos negativos. (4.32)

Precisão 𝑆 = 𝑇𝑃

𝑇𝑃 + 𝐹𝑃

Mede a proporção de resultados TP em relação a todos os resultados

positivos

(4.33)

Exatidão (OA) 𝑂𝐴 = 𝑇𝑃 + 𝑇𝑁

𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁

Medida de desempenho global, frequentemente usada, que mede a

proporção de resultados verdadeiros em relação a todos os resultados.

(4.34)

F-Score 𝐹 = 2 × 𝑃 × 𝑆

𝑃 + 𝑆 Medida de desempenho global também

encontrada e usada na literatura (4.35)

Tabela 4.6: Métricas de avaliação de desempenho.

4.6. Aprendizagem Profunda

A aprendizagem profunda (deep learning) é uma tendência atual no que concerne à análise de

dados e a técnicas de aprendizagem. Esta técnica é um tipo de aprendizagem automática que realiza

tarefas de classificação diretamente de imagens, vídeo, textos ou sons. Na literatura, a aprendizagem

profunda é caracterizada como sendo uma melhoria às redes neuronais artificiais, explicadas na secção

4.3, consistindo num aumento significativo de camadas, o que proporciona um nível de abstração maior

e melhorias nos dados preditos. É assim considerada como a principal ferramenta de aprendizagem

automática nos domínios gerais da visão computacional e do processamento de imagem [43] [44].

Segundo Xiaorui [44] as redes profundas são uma variação/upgrade das redes neuronais e têm

sido usadas com sucesso em campos como a visão computacional, nomeadamente na aprendizagem

de características híper-espetrais ou multi-espetrais e na classificação das imagens deste tipo. Não

existe na literatura trabalhos da aplicação da aprendizagem profunda na deteção de minas em imagens

multi-espetrais. No campo da aprendizagem profunda, a maioria dos algoritmos usa as CNNs [45].

A razão pela qual as CNNs são atualmente dos algoritmos de machine learning mais

investigados é que estas preservam as relações espaciais quando as imagens de entrada são filtradas.

Estas relações espaciais possuem importância crucial na deteção de diferenças nas imagens, por

exemplo na análise de imagens médicas esta informação é usada para distinguir, entre outras coisas,

um tecido pulmonar de um tecido cancerígena [43].

Outros aspetos que fazem as CNNs especialmente úteis são o facto de eliminarem a

necessidade da extração de características manualmente, as características são aprendidas

diretamente da rede e estas redes podem ser retreinadas para novas/diferentes tarefas de

reconhecimento permitindo construir/acrescentar em redes pré-existentes. As CNNs oferecem uma

arquitetura ótima para reconhecimento de imagens e deteção de padrões o que combinado com os

avanços nas Graphic Procesing Units (GPUs)17 e na computação paralela torna esta tecnologia

17 As ferramentas em aprendizagem profunda particularmente as CNNs necessitam de um grande poder de processamento, fazem uso das GPUs da máquina, para a realização do seu processamento.

Page 55: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

35

bastante promissora [46]. A figura seguinte retrata de forma simplista o diagrama usado pelas CNNs,

para um problema muti classe de reconhecimento de veículos.

Figura 4.8: Exemplo de um Deep learning workflow fazendo uso de CNN. (figura adaptada de [46])

As redes utilizadas em Aprendizagem profunda possuem mais camadas em relação as redes

neuronais clássicas, particularmente as CNNs podem ser constituídas por dezenas ou centenas de

camadas, em que cada uma é treinada e responsável por detetar diferentes características numa dada

imagem. Na prática o que acontece é que são aplicados filtros, em diferentes resoluções, a cada

imagem de treino sendo que a saída de cada imagem convolvida é usada como entrada para a próxima

camada. Estes filtros começam a produzir características bastante simples como brilho ou cantos/

linhas e vão aumentando a complexidade para características únicas que definem o objeto [45] [46].

Como se verifica na figura 4.9, o fluxo de uma CNN é iniciado com a entrada de uma imagem sendo

esta exposta a camadas de extração de características via camadas de convoluções (Convolutinal

layers), camadas Rectified Linear Unit (RELU) e camadas de Pooling. A saída desta transformação,

alimenta posteriormente uma camada final chamada de Fully Connected Layer que atribui os valores

ou as probabilidades, classificando assim a imagem de entrada na classe com maior valor ou

probabilidade.

Figura 4.9: Exemplo da tarefa de classificação na deteção de mina segundo um esquema de CNN. (figura adaptada de

[45])

Esta tipologia de redes é genericamente separada em duas fases principais, a primeira de

aprendizagem das características (feature learning) e a segunda a parte da classificação. Na figura

4.10 está representada a componente do feature learning numa CNN genérica. As camadas presentes

nesta parte realizam operações que alteram os dados de forma a aprender características específicas.

Page 56: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

36

Figura 4.10: Fase de Feature Learning.de uma CNN genérica (figura retirada de [46])

As camadas mais comuns nesta fase são: convolução, ativação ou RELU, e pooling, sendo

que, de uma forma resumida, cada camada diz respeito a:

• Convolution – Realiza um conjunto de filtros de convolução nas imagens de entrada, em

que cada um destes filtros ativa/ descobre certas características das imagens.

• Rectified linear unit – Torna o processo de treino mais rápido e eficiente mapeando os

valores negativos a zero e mantendo os valores positivos. Esta camada é frequentemente

referenciada como de ativação, pois apenas as características ativadas são levadas para a

próxima camada

• Pooling – Simplifica a saída fazendo uma downsampling não linear, reduzindo assim o

número de parâmetros que a rede necessita de aprender.

Como se verifica na figura anterior, estas operações não ocorrem apenas uma vez, são

repetidas dezenas a centenas de vezes de forma a identificar características os mais particulares e

individualizadas possível [46]. De seguida à fase de aprendizagem de características a arquitetura das

CNNs genéricas passa para a classificação (figura 4.11).

Figura 4.11: Fase de classificação de uma CNN genérica (figura retirada de [46])

A primeira camada desta fase é a fully connected layer (na literatura, a camada flatten é omitida

ou fundida com a fully connected layer) que tem como output um vetor de dimensão k onde k é o

número de classes que a rede terá de prever. Este vetor irá conter os scores ou probabilidades de uma

dada imagem pertencer a cada uma das classes (valores estes provenientes da camada flatten quando

existente). A camada final desta estrutura usa uma camada de classificação fazendo uso de uma função

softmax (cuja atribui probabilidades decimais a cada classe num problema multiclasse) que aplicada

ao vetor anterior fornece o output da classificação [46].

Classificação

Page 57: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

37

5. Resultados e Discussão

Neste capítulo são apresentados os resultados das duas metodologias aplicadas à deteção de

minas terrestres. Primeiramente são descritos os procedimentos de aquisição das imagens multi-

espetrais. Seguidamente são apresentados os resultados qualitativos e quantitativos da classificação

para as imagens obtidas nos campos construídos em laboratório (indoor) e nos campos (outdoor)

construídos no Aquartelamento da Academia Militar na Amadora (AAMA). São comparados os

resultados segundo as profundidades a que as minas foram enterradas, o tipo de solo em que as

mesmas foram enterradas, o tempo em que estiveram enterradas e o tipo de classificador. No final do

capítulo são ainda apresentados os resultados do estudo em aprendizagem profunda da rede CNN e

analisado o desempenho obtido por este método em relação a uma metodologia clássica.

5.1. Processo de Aquisição de Imagens

A obtenção destas imagens foi efetuada, recorrendo a equipamentos de imagem da Academia

Militar, adquiridos durante a execução dos projetos FUSIMIL e FIVE, cujas especificações estão

presentes na tabela 5.1.

Nome do equipamento Resolução [pixéis] Banda Espetral [nm] Sensor

Quest Condor3 VNN-618

(Câmara multi-espetral) 640 × 494

(400-670); (670-850);

(850-1000)

Sony ICX-618 CCD,

1/4’’, 4.08 [µm]

FLIR T440bx (Câmara de

infravermelho térmico) 320 × 240

RGB18 + 7500-13000

-20º C até 650º C Integrado

Tabela 5.1 Especificações dos equipamentos de imagem pertencentes à Academia Militar

O processo de aquisição de imagens está subjacente a condições experimentais necessárias

para ser possível cobrir todas as conjunturas práticas que ocorrem neste tipo de problemas. Foram

construídos para a realização desta dissertação, dois tipos de experiências principais. A primeira, em

ambiente (indoor) dentro de uma sala disponibilizada pela Academia Militar que funcionou como um

laboratório para os ensaios iniciais. A segunda, em ambiente outdoor sem controlo das condições

ambientais, nos terrenos de exercícios militares do Aquartelamento da Academia Militar na Amadora.

Para a realização de ambas as experiências, foi necessário a construção de uma estrutura

metálica que fizesse suporte às duas câmaras de aquisição de imagens a uma altura fixa e pré-

determinada, de forma a se obter um conjunto de dados uniforme, e ainda de recipientes, neste caso

em plástico, para a colocação dos diferentes tipos de solos, indicados no capítulo 3. Foi ainda

necessário a colocação de um isolante térmico entre os solos e a caixa de forma a preservar o mais

possível as diferenças térmicas entre solo e a caixa de suporte ao solo. Nas figuras seguintes, de forma

cronológica, está representado o processo de montagem dos recipientes de plástico com uso do

respetivo isolante térmico, e ainda a colocação dos diferentes tipos de solos.

18 RGB corresponde aos canais: B=450-520nm, G=515-600nm, R=600-690nm

Page 58: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

38

Figura 5.1: Processo cronológico (da esquerda para a direita) de montagem dos recipientes usados para a colocação dos

solos e respetiva inserção do material isolante térmico.

De seguida foi realizado o processo de construção da estrutura metálica, representada em

ambiente indoor e outdoor nas figuras seguintes.

Figura 5.2: Estrutura metálica, em ambiente indoor utilizada para suportar os equipamentos necessários à aquisição de

imagens

Figura 5.3: Estrutura metálica, em ambiente outdoor utilizada para suportar os equipamentos necessários à aquisição de

imagens

A estrutura metálica e os recipientes de plástico, como se verifica nas figuras anteriores, foram

utilizados para os dois ambientes distintos tornando as condições iniciais de posicionamento das

câmaras iguais para os dois casos.

De seguida procedeu-se ao posicionamento das câmaras na parte superior da estrutura

metálica. Este processo é de extrema importância para a aquisição de imagens pois todo o conjunto

Page 59: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

39

de imagens utilizado neste trabalho foi obtido a partir da posição onde as câmaras se encontram. Na

figura seguinte está representado a disposição dos equipamentos de aquisição de imagem na estrutura

metálica, e respetiva imagem da perspetiva das câmaras.

a) b)

Figura 5.4: (a) Posicionamento dos equipamentos de aquisição de imagem com câmara FLIR esquerda e câmara multi-

espetral direita. (b) Imagem da perspetiva das câmaras vista do topo da estrutura metálica.

Denote-se a importância de ambas as câmaras estarem centradas com a parte inferior da

estrutura (onde são colocados os recipientes com os solos), estarem o mais alinhadas possível (de

forma a facilitar o processo de alinhamento das imagens nos vários espetros possíveis), possuírem a

mesma orientação e de existir um método de comunicação remoto com as câmaras de forma a evitar

possíveis alteração do foco das câmaras. Para este último ponto foi utilizado o módulo wi-fi da câmara

FLIR que permite a comunicação remota dos controlos/display da câmara por um smartphone ou

computador via aplicação FLIR Tools19. A câmara multi-espetral Quest Condor3 representa a

necessidade da instalação de drives fornecidos pelo fabricante de forma a utilizar o mecanismo de

comunicação, via Local Area Network (LAN). Foi utilizado o software Architector Vision Studio de forma

obter as imagens recolhidas pela câmara multi-espetral, bem como aceder às configurações manuais

desta câmara e ajustar o tempo de exposição20 (exposure time) e o ganho21 (gain) dependendo da

quantidade de luz presente (parâmetros diferentes para indoor/ outdoor, ambiente com Sol ou nublado).

Verifica-se que esta câmara não possui uma automatização destes parâmetros o que tornou a aquisição

destas imagens mais complexa.

Após as câmaras estarem posicionadas e os sistemas de comunicação remota estarem

operacionais foram introduzidos os diferentes tipos de solos nos diversos recipientes de forma a que o

processo de aquisição de imagens não alterasse a posição da estrutura. A troca dos solos foi feita

exclusivamente com a movimentação dos recipientes para o centro da parte inferior da estrutura (figura

19 Aplicação grátis disponível na PlayStore/AppleStore para smartphone e para computador na website oficial da FLIR em https://www.flir.com/products/flir-tools/

20 O tempo de exposição é o tempo em que o sensor de uma câmara está exposto à luz, em termos leigos é o tempo desde que o sensor abre até que fecha

21 O ganho é uma configuração digital presente nos equipamentos de aquisição de imagem, que controla a amplificação do sinal proveniente do sensor da câmara.

Page 60: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

40

5.2, à direta). Este processo foi efetuado também em ambiente outdoor sempre com a preocupação de

garantir que as imagens obtidas fossem adquiridas da mesma posição.

Findo este processo, foi possível iniciar a construção dos campos de minas dentro dos

recipientes. O manuseamento dos objetos foi efetuado com o recurso a luvas isolantes de forma a que

não haja transferência de energia entre as mãos do operador e os objetos. Este simples procedimento

garante um maior rigor nos dados obtidos. Foram elaborados dois diagramas principais para a

construção dos campos de minas, e um terceiro diagrama elaborado para a experiência da deteção de

minas em função do tempo em que estão enterradas. O primeiro diagrama principal foi utilizado para

os ensaios das minas AP e o segundo para os ensaios com minas AC. Para a experiência da deteção

em função do tempo, foi utilizado um terceiro diagrama onde figuram minas AP e minas AC. As figuras

seguintes representam os três diagramas indicados

Figura 5.5: Diagrama dos campos de minas construídos para a realização da aquisição de imagens. À esquerda, o

diagrama para as minas AP. À direita o diagrama para as minas AC.

Figura 5.6: Representação prática do diagrama dos campos de minas com os respetivos objetos à superfície. À esquerda,

o diagrama para as minas AP. À direita o diagrama para as minas AC.

Figura 5.7: Representação do diagrama dos campos de minas para a experiência em função do tempo. À esquerda o

diagrama. À direita a disposição prática dos objetos à superfície.

Objeto B

Objeto D Objeto A

Objeto C

90 [cm]

68

[cm

]

Objeto E

Objeto F

90 [cm]

68

[cm

]

Objeto B

Objeto D Objeto A

Objeto C

90 [cm]

68

[cm

]

Objeto B

Objeto A

Objeto C

Page 61: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

41

De realçar que os diagramas da figura 5.5 foram utilizados para os ensaios de minas AP e AC

quer em ambientes indoor e outdoor. O terceiro diagrama foi utilizado apenas outdoor. Após a execução

da criação dos campos de minas, foi iniciada a aquisição das imagens.

5.2. Aquisição de Dados

O processo de aquisição de dados corresponde a utilizar dois equipamentos indicados na

secção 5.1. As imagens obtidas do topo da estrutura metálica, a uma altura de 2.3 [metros] mostram

todo o conteúdo (solo e objetos enterrados) dentro do recipiente.

5.2.1. Aquisição de Dados via FLIR T440bx

As imagens obtidas a partir da câmara de infravermelhos possuem uma resolução de imagem

de 320×240 [pixéis], em que cada aquisição corresponde a uma imagem do espetro visível e a imagem

correspondente no infravermelho térmico. Esta última possui ainda uma escala de temperatura

correspondendo a falsa cor sendo que cores quentes22 correspondem a uma maior temperatura e cores

frias a uma menor temperatura. Para as imagens indoor e outdoor a escala de temperaturas foi sempre

fixa consoante o tipo de solo a utilizar. Na tabela seguinte estão presentes os valores das escalas de

temperatura usadas.

Tipo de Solo Escala de Temperatura indoor [ºC] Escala de Temperatura outdoor [ºC]

1. Areia do Rio 15.5 – 20.5 19.5 – 35.6

2. Terra Batida 16.5 – 23.6 22.0 – 35.0

3. Areia do Mar 17.5 – 22.0 22.2 – 39.6

4. Brita Nr.º 0 17.5 – 22.9 –

5. Brita Nr.º 1 17.0 – 22.0 –

6. Brita Nr.º 2 17.0 – 23.5 –

7. Estrada de baixo

Tráfego 17.0 – 23.5

16.9 – 25.4

Tabela 5.1: Valores da escala de temperatura usada na obtenção das imagens do infravermelho térmico para ambiente

indoor e outdoor.

A escolha dos valores enunciados na tabela anterior foi feita principalmente em função das

condições gerais do ambiente em que se inseriam as imagens. Em ambiente indoor, sendo este um

ambiente controlado, o parâmetro que alterava esta escolha foi a temperatura ambiente, em ambiente

outdoor a temperatura ambiente aliada às condições meteorológicas foram fatores que influenciaram

esta escala.

22 As cores quentes são psicologicamente dinâmicas e estimulantes já as cores frias são psicologicamente calmantes e transmitem a sensação de frio. Exemplo de cores do mais quente para o mais frio: amarelo, laranja, vermelho, rosa, roxo, azul.

Page 62: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

42

Na figura seguinte encontra-se um exemplo que um conjunto de duas imagens (uma visível e

a outra térmica) adquirida diretamente pela FLIR T440 do diagrama de mina AP enterradas com a parte

superior descoberta.

Figura 5.8: Exemplo da aquisição de imagem via câmara FLIR. À esquerda imagem do espetro visível e à direita imagem

do infravermelho térmico.

5.2.2. Aquisição de Dados via Quest Condor3 VNN-618

As imagens obtidas a partir da câmara multi-espetral possuem uma resolução de imagem de

640×494 [pixéis] sendo que cada aquisição deste equipamento corresponde a três diferentes imagens.

A primeira (Canal 0) correspondem a uma imagem do espetro do visível em níveis de cinzento, com

comprimentos de onda no intervalo 400 – 670 [nm], as duas últimas imagens (canal 1 e canal 2)

correspondem a dois espetros pertencentes ao VNIR/infravermelho próximo sendo que o canal 1

pertence ao intervalo 670 – 850 [nm] e o canal 3 ao intervalo 850 – 1000 [nm]. Estas imagens são

convertidas automaticamente, pelo software, para escala de cinzento. As configurações efetuadas

nesta câmara, para cada canal e para cada ambiente estão presentes nas seguintes tabelas.

Canal tempo de exposição [ms] Ganho [db]

0 80000 3

1 200000 7.2

2 800000 7.2

Tabela 5.2: Valores das configurações manuais a efetuar na câmara multi-espetral para os ensaios em ambiente indoor

Canal Tempo de exposição [ms] Ganho [db]

0 60000 3

1 150000 7

2 400000 7

Tabela 5.3: Valores das configurações manuais a efetuar na câmara multi-espetral para os ensaios em ambiente outdoor

No que concerne ao ambiente em laboratório indoor, como se verifica na tabela 5.2, existe a

necessidade de configurar valores altos no tempo de exposição devido à baixa luminosidade presente

na sala. Este aumento do tempo de exposição e consequência ganho alto, correspondem a um

aumento do ruído presente, principalmente na imagem do canal 2 tendo como consequência a

diminuição de informação útil presente nesta banda espetral. A vantagem do ambiente indoor prende-

se com o facto de os valores considerados ideais para as configurações, permanecerem inalterados

durante todos os ensaios. As figuras seguintes representam um exemplo da aquisição de dados para

ambiente indoor com diagrama minas AP enterradas com a parte superior descoberta.

Page 63: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

43

Figura 5.9: Exemplo da aquisição de imagem via câmara multi-espetral em ambiente indoor representando, da esquerda

para a direita o canal 0, 1 e 2

Observando as imagens da figura 5.9 verifica-se o aparecimento do ruído (pixéis com valores

elevados de intensidade ao longo da imagem). A figura 5.10 representa uma amostra com zoom ≈ 1500

[%] da imagem original do canal 2 em que se verifica um pixel de elevada intensidade (255), não

correspondendo à informação real do recipiente.

Figura 5.10: Amostra com zoom ≈ 1500 [%] da imagem original do canal 2 em que se verifica o fenómeno

supramencionado. À esquerda a zona de pixéis a analisar e à direita os valores de intensidade de escala de cinzento

respetivos.

Relativamente ao ambiente outdoor, verifica-se a atribuição de valores mais baixos nas

configurações devido ao aumento da luminosidade em comparação com o interior da sala. Considera-

se uma redução efetiva do ruído especialmente no canal 2. No entanto em ambiente outdoor existe a

necessidade de uma alteração constante destes valores relativamente às condições meteorológicas

presentes no momento. As configurações representadas na tabela 5.3 são as configurações médias

fixadas na câmara ao longo da maior parte dos ensaios outdoor (efetuados nas condições de

aproximadamente 18 [ºC], céu nublado com poucas abertas). Nas condições em que existem abertas

ou céu limpo, estes valores são diminuídos na ordem dos 40-50 [%]. A figura seguinte representa um

exemplo da aquisição usando a câmara Quest Condor 3 VNN-618.

Page 64: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

44

Figura 5.11: Exemplo da aquisição de imagem via câmara multi-espetral em ambiente outdoor e em escala de cinzento. Da

esquerda para a direita o canal 0, 1 e 2.

5.2.3. Resultados qualitativos em função do tempo

Antes da constituição do conjunto de dados final, a experiência resultante do terceiro diagrama,

permitiu a retirada de alguns resultados em função do tempo. A experiência em questão consistiu em

enterrar os objetos às 10 horas e adquirir imagens a parir dos equipamentos referidos, num intervalo

de uma hora até às 19 horas. O objetivo desta experiência foi perceber se a energia libertada pelos

objetos enterrados aumentava em função do tempo. Na figura seguinte está disposto o diagrama

utilizado. Para a experiência em questão, as imagens obtidas pelos diferentes equipamentos

representam a realidade da figura 5.12 b).

a) b)

Figura 5.12: Terceiro Diagrama utilizado. a) objetos à superfície, b) alguns objetos enterrados a elevadas profundidades

a) b)

Figura 5.13: Resultados para imagens TIR. a) aquisição obtida às 10h00, b) aquisição obtida às 19h00

A partir da Figura 5.13, verifica-se que no intervalo de tempo da experiência (sete horas), por

inspeção visual não existe melhoria no sinal transmitido pelos objetos enterrados no espetro TIR.

Passsando para os espetros dos canais 0,1 e 2 da câmara Quest Condor 3 VNN-618, a partir da figura

5.14 verifica-se que, à semelhança do espetro TIR, não existem melhorias visuais que auxiliem a

deteção.

Page 65: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

45

a)

b)

Figura 5.14: Resultados para imagens obtidas a partir da câmara Quest Condor 3 VNN-618 a) aquisição obtida às 10h00,

b) aquisição obtida às 19h00

Dados estes resultados preliminares, pode-se afirmar que no intervalo de tempo de sete horas,

não existem alterações significativas à energia libertada por objetos enterrados. Deve-se assim

ponderar a consideração de um intervalo de tempo maior tal como acontece em ambiente real em que

por vezes as minas terrestres ficam enterradas durante meses ou anos. A partir deste momento, este

diagrama não foi mais utilizado para a constituição do conjunto de dados final.

5.2.4. Conjunto de Dados

Após a aquisição de todas as imagens pelos equipamentos indicados na secção anterior, foi

necessário efetuar um pré processamento nas mesmas, de forma a constituir o conjunto de dados. Este

pré-processamento, consistiu na eliminação, por inspeção visual, das imagens a que a uma dada

profundidade, deixam de possuir informação térmica relevante à deteção de minas, na rotação das

imagens (caso estas não tivessem a mesma orientação), na transformação de todas as imagens para

a mesma resolução, no recorte das imagens e alinhamento das diferentes imagens dos diferentes

espetros, na junção de todas as imagens de cada espetro numa imagem de multi-dimensão (multi-

espetral) e finalmente na execução do sliding window com o objetivo da extração de Rois.

A tabela seguinte representa a quantidade de aquisições obtidas em função das profundidades

a que os objetos estão enterrados, para os diferentes ambientes, diagramas e tipos de solos já

enunciados.

Page 66: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

46

Ambiente Diagrama Tipo de Solo Profundidade [mm] Imagens

TIR

Imagens

VNIR

indoor AP Areia Rio, mar, orgânico 0, 1, 2 ,5 ,10 62 142

Britas 0, 3-6, 6-16, 16-30, 30-50

AC Areia Rio, mar, orgânico 0, 1, 2 ,5 ,10 82 170

Britas 0, 3-6, 6-16, 16-30, 30-50

outdoor AP Areia Rio, mar, orgânico 0, 1, 2, 5 62 161

Estrada de baixo tráfego 0, 3-8, 6-16

AC Areia Rio, Mar, orgânico 0, 1, 2, 2-5, 10 42 100

Estrada de baixo tráfego 0, 3-8, 6-16

Tabela 5.4: Valores da totalidade de aquisições por parte dos dois equipamentos em função do ambiente, do diagrama dos

objetos e da profundidade.

Os valores quantitativos das imagens indicados na tabela 5.4 dizem respeito a todas as

aquisições efetuadas ao longo do trabalho, incluindo casos pontuais de repetições. As imagens TIR

incluem uma imagem do visível e uma imagem do infravermelho térmico. As imagens VNIR incluem

três imagens correspondentes às bandas indicadas anteriormente.

Posteriormente, por inspeção visual verificou-se que a partir de uma dada profundidade, nestes

ensaios, não era possível detetar objetos enterrados em nenhum dos diferentes espetros testados,

sendo que as imagens adquiridas a partir dessa profundidade limite foram retiradas do conjunto de

dados, partindo do pressuposto que a partir dessas profundidades o sistema não deteta objetos

enterrados. No apêndice C estão as imagens obtidas à profundidade limite de cada caso. Estas são,

respetivamente, para cada caso:

• Campos indoor/ outdoor diagrama AP: 5 [mm] para todos os tipos de solos.

• Campos indoor/ outdoor diagrama AC: 10 [mm] para areia do rio, areia do mar e terra batida

e 100 [mm] para as britas.

Para a criação da imagem multi-espetral, foram selecionadas as imagens do espetro visível e

infravermelho térmico obtidas pela câmara FLIR T440, a imagem do espetro visível em níveis de

cinzento do canal 0, a imagem do canal 1 e a imagem do canal 2, da câmara Quest Condor3 VNN-618

obtendo assim uma imagem de 7-dimensões, explicada na tabela seguinte, em que a terceira coluna

representa se a dimensão ou dimensões são usadas na fases de extração de características.

Dimensão N.º Tipo de Imagem Entrada/Processamento

1, 2, 3 Visível (RGB) Não

4 TIR (gray scale) Sim

5 Visível (gray scale) Sim

6 VNIR (670 – 850 [nm]) Sim

7 VNIR (850 – 1000 [nm]) Sim

Tabela 5.5: Bandas espetrais de cada uma das componentes da imagem multi-espetral construída.

Como conjunto de dados de entrada na metodologia, a dimensão 1, 2 e 3 não entra no

processamento, estando apenas presente como imagem de controlo e de comparação com a

Page 67: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

47

quantidade de informação que os restantes espetros oferecem. O facto de se inserir a dimensão

número 5 no processamento corrobora a não introdução da imagem do visível e tem como razão a

grande quantidade de informação obtida por estas imagens na deteção de minas parcialmente

enterradas (devido às condições ambientais algumas minas poderão ser descobertas com o passar do

tempo) e minas com a sua superfície ao descoberto. Solos remexidos também inserem informação

neste tipo de imagens. As restantes componentes 4, 6 e 7 (a dimensão 4 é convertida para escala de

cinzento e as restantes, como já fora indicado são convertidas para escala de cinzento

automaticamente pelo software) foram introduzidas devido às razões enumeradas na literatura.

Seguidamente foi efetuada a rotação das imagens que não possuíam a mesma orientação, foi

efetuado o processo de downscale, diminuindo a resolução das imagens obtidas pela câmara multi-

espetral, passando de uma resolução de 640×494 [pixéis] para 320×147 [pixéis]. De forma a evitar a

presença dos limites do recipiente bem como da escala de temperatura nas imagens, foi feito um

recorte e posteriormente o alinhamento de todas as imagens obtendo como conjunto de dados final

uma imagem multi-espetral de 7 dimensões (Tabela 5.5) em que todas as dimensões estão alinhadas

e com uma resolução final de 240×180 [pixéis] para ambiente indoor e de 210×180 [pixéis] para

ambiente outdoor. As figuras seguintes representam exemplos da imagem multi-espetral final

construída.

Figura 5.15: Exemplo da imagem multi-espetral, para Areia do mar, em ambiente indoor, com os objetos à superfície, e

diagrama AP, construída para o conjunto de dados.

Figura 5.16: Exemplo da imagem multi-espetral, para Areia do rio, em ambiente indoor, com os objetos enterrados à

profundidade 1mm, e diagrama AC, construída para o conjunto de dados.

Figura 5.17: Exemplo da imagem multi-espetral, para mistura de solos em ambiente outdoor, com os objetos enterrados e a

superfície descoberta, e diagrama AP, construída para o conjunto de dados.

Page 68: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

48

Figura 5.18: Exemplo da imagem multi-espetral, para terra batida (orgânico), em ambiente outdoor, com os objetos

enterrados, com a superfície descoberta, e diagrama AC, construída para o conjunto de dados.

A aquisição do número de imagens de cada espetro presentes na tabela 5.4 possibilitou a

construção de um total de 19 imagens multi-espetrais para indoor AP, 24 imagens multi-espetrais para

indoor AC, 14 imagens multi-espetrais para outdoor AP, 12 imagens multi-espetrais para outdoor AC e

12 imagens para o teste da deteção de minas enterradas em função do tempo. Para cada uma destas

imagens multi-espetrais foi construída uma imagem binária (composta por branco onde a mina se

encontra e preto onde não existe mina) que funcionará como referência ao conjunto de treino.

Figura 5.19: Exemplo da imagem binária de target representando respetivamente, da esquerda para a direita a imagem

multi-espetral da Figura 5.15 e 5.16

A partir do conjunto de dados apresentado, foi desenvolvido um conjunto de algoritmos na

forma de scripts usando para esse fim o software de programação Matlab. Como produto desta

dissertação, todos os scripts elaborados estão publicados em repositório púbico, na plataforma github23

de forma a que qualquer um possa aceder e usar no seu projeto de processamento de imagem. No

entanto a disponibilidade, das imagens obtidas, poderá necessitar de autorização superior.

Quanto maior e mais generalizado o conjunto de dados for, melhor será a performance de um

algoritmo de machine learning, desta forma implementou-se um algoritmo de sliding window (sliding

box) que consiste na extração de ROIs de uma dada imagem de forma a obter múltiplas imagens em

que a extração de característica seja efetuada a cada uma das ROIs. As ROIs multi-espetrais extraídas

de cada uma das imagens multi-espetrais construídas formam o conjunto de dados usado nesta

dissertação. Para este processo é necessário a definição de dois parâmetros, o tamanho da ROI e a

distância, em pixéis, entre ROIs consecutivas.

Para o diagrama AP foi definido como tamanho da ROI o valor de 10 pixéis e foram extraídas

ROIs de 2 em 2 pixéis produzindo 9755 ROIs multi-espetrais em ambiente indoor e 8500 ROIs multi-

espetrais em ambiente outdoor para cada uma das imagens multi-espetrais construída. Para o

diagrama AC foi definido como tamanho da ROI o valor de 80 pixéis e foram extraídas ROIs de 2 em 2

23 Repositórios públicos na conta do autor em: https://github.com/GuerraIFFL. Repositório 1, metodologia clássica em: https://github.com/GuerraIFFL/Mine-Detection-Machine-Learning-Algorithm. Repositório 2, estudo em aprendizagem profunda usando CNN em: https://github.com/GuerraIFFL/Mine-Detection-Deep-Learning-CNN.

Page 69: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

49

pixéis produzindo 4000 ROIs multi-espetrais em ambiente indoor e 3250 ROIs multi-espetrais em

ambiente outdoor para as imagens AC. A tabela seguinte representa os valores totais do número de

ROIs totais obtidos, bem como os parâmetros definidos. As figuras seguintes representam alguns

exemplos de ROIs extraídas pelo algoritmo, sendo que a linha divide a imagem do espetro do visível

(3 dimensões RGB) e as dimensões (número 4, 5, 6 e 7) usadas na extração de características e

restante processamento

Ambiente Diagrama Imagens multi-

espetrais

Tamanho

ROI [pixéis]

Distância

ROI [pixéis]

ROIs multi-

espetrais

indoor AP 20 10 2 195 100

AC 25 80 2 243 875

outdoor AP 11 10 2 107 305

AC 10 80 2 97 550

Tabela 5.4: Valores da totalidade de ROIs obtidas para cada um dos ambientes e respetivo diagrama constituindo assim o

conjunto de dados total obtidos.

Figura 5.20: Exemplo de duas ROIs multi-espetrais constituintes do conjunto de dados. Em cima está representada uma

ROI classificada como não mina e em baixo uma ROI classificada com tendo mina.

5.3. Extração e Seleção de Características

A etapa seguinte é a extração e seleção de características, etapa esta já fundamentada no

capítulo metodologia, como uma das etapas mais importantes em problemas de machine learning. Para

esta extração, como já foi referido anteriormente, foram utilizadas as 4 últimas dimensões da ROI multi-

espetral deixando de fora as dimensões RGB da imagem do visível.

As características extraídas das ROIs foram aquelas apresentadas no capítulo 4, metodologias

secção 4.2, extraídas a cada uma das dimensões a processar, sendo que os parâmetros utilizados e o

respetivo número total de características são respetivamente:

• Características de 1.ª Ordem: Encontradas na tabela 4.2

• Características de 2.ª Ordem (SGLDM): As encontradas na tabela 4.3 sendo as matrizes

Ω(𝑑, 𝜃) segundo os parâmetros 𝑑 = 1 [𝑝𝑖𝑥𝑒𝑙] e para os ângulos 𝜃 = 0°, 45°, 90° 𝑒 135° sendo

estes cálculos efetuados recorrendo às funções graycomatrix() e graycoprops() presentes

na image processing toolbox.

Page 70: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

50

• Características de ordem superior (Método de primitivas dos Níveis de Cinzento): As

encontradas na secção 4.2.3., sendo as matrizes Ψ(𝜃) = 𝑀(𝑎, 𝑟|𝜃) segundo os

ângulos 𝜃 = 0°, 45°, 90° 𝑒 135°sendo 𝑎 = 256 [𝑛í𝑣𝑒𝑖𝑠 𝑑𝑒 𝑐𝑖𝑛𝑧𝑒𝑛𝑡𝑜] e 𝑟 = número de

primitivas com comprimentos distintos. Para o cálculo destas características recorreu-se à

Gray Level Run Lenght Matrix Toolbox24 desenvolvida por Wei [47].

Todas estas características foram extraídas às 4 dimensões da ROI multi-espetral sendo que

os números totais das características usadas nesta metodologia estão presentes na seguinte tabela.

Características Dimensão

(Espetro)

ROI uni-espetral ROI multi-

espetral

Posição no

feature.mat

1.ª Ordem 4 (TIR) 6 24 [1 – 6]

5 (RGB) [7 – 12]

6 (VNIR) [13 – 18]

7 (VNIR) [19 – 24]

2.ª Ordem 4 (TIR) 4×4=16 64 [25 – 40]

5 (RGB) [41 – 56]

6 (VNIR) [57 – 72]

7 (VNIR) [73 – 88]

Ordem Superior 4 (TIR) 11×4=44 176 [89 – 132]

5 (RGB) [133 – 176]

6 (VNIR) [177 – 220]

7 (VNIR) [221 – 264]

Total 66 264 [1 – 264]

Tabela 5.5: Valores totais das características usadas na metodologia bem como a sua posição relativa no ficheiro de

características feature.mat

Como se verifica na tabela 5.5, à medida que as características foram sendo extraídas, estas

eram guardadas em matrizes segundo ficheiros do tipo feature.mat. Considerando a teoria

apresentada em 4.3.1 Aprendizagem automática, estas matrizes correspondem ao conjunto de

dados 𝑇 constituído por 𝑛 padrões, sendo os padrões compostos por o conjunto de características

𝑚 de cada ROI. Por outras palavras obteve-se uma matriz com o número de ROIs como linhas e o

número de características (264) como colunas. A este conjunto é necessário adicionar as respetivas

classes binárias. Este processo foi realizado, adicionando na coluna 265 o valor de +1 caso a ROI

tenha mina ou 0 caso a ROI não tenha mina.

Foram extraídas as 264 características para todos os tipos de solos, ambientes, diagramas e

verificou-se que o conjunto de dados obtidos não se encontra balanceado. Isto significa que obtive-

se um maior número de ROIs da classe 0 em detrimento de ROIs da classe +1. Assim o conjunto

de treino final foi constituído por o número total de ROIs da classe +1 e o número igual a este,

24 Toolbox retirada e posteriormente adaptada aos objetivos propostos.

Page 71: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

51

aleatoriamente obtido, de padrões da classe 0. Obteve-se assim um conjunto de dados com a

mesma quantidade de padrões para ambas as classes.

De seguida, o conjunto de dados foi sujeito à normalização dos seus valores de forma que os

valores das características sejam centrados num intervalo de valores. Como este processo não é de

importância crucial para o objetivo da metodologia, optou-se por uma normalização de dados simples

segundo a qual o valor máximo é 1 e o mínimo é 0 segundo a expressão:

𝑦′ = 𝑦 − 𝑚𝑖𝑛

𝑚𝑎𝑥 − 𝑚𝑖𝑛, 𝑦′𝜖[0,1] (5.1)

Obtendo os dados normalizados, a próxima etapa foi a realização de uma experiência de

seleção de caraterísticas fazendo uso de um método filter. Devido ao facto de que esta metodologia se

apoiar em múltiplos classificadores, o uso de outros tipos de métodos que têm por base os valores da

performance dos classificadores, tornaria o processo significativamente mais demorado, complexo e

requereria um tempo poder de processamento maior. Com este tipo de métodos foi possível realizar

um estudo da seleção de características sem ser necessário realizar múltiplos treinos nos

classificadores. Utilizou-se primeiramente o algoritmo ReliefF que calcula o ranking e respetivos pesos

das características por ordem de importância. Assim foram obtidos os seguintes rankings para indoor

e outdoor respetivamente.

a) b)

Figura 5.21: Gráficos do ranking de importância das características para ambiente indoor. a) diagrama AP e b) diagrama

AC

Page 72: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

52

a) b)

Figura 5.22: Gráficos do ranking de importância das características para ambiente outdoor. a) diagrama AP e b) diagrama

AC

A partir destes resultados é possível fazer-se um estudo de redução de dimensionalidade

selecionando o número de características por ordem de importância. Da análise destes resultados é

possível fazer-se duas observações, a primeira em relação a quais as características (1.ª, 2.ª ou ordem

superior), o algoritmo ReliefF dá mais importância e a segunda, em quais espetros as características

são mais importantes. A tabela 5.6 representa a relação entre o peso médio (quociente entre o valor

dos pesos de cada uma das características e o número de características de cada tipo e de cada

espetro) e o respetivo tipo de característica para os diferentes casos, a tabela 5.7 faz uma análise

referente ao tipo de espetro usado.

Ambiente Diagrama Característica Peso Médio Peso Médio [%]

Indoor AP 1.ª Ordem 0.0070 40.70

2.ª Ordem 0.0038 22.09

Ordem Superior 0.0064 37.21

AC 1.ª Ordem 0.0006 42.86

2.ª Ordem -0.0004 0

Ordem Superior 0.0008 57.14

Outdoor AP 1.ª Ordem 0.0060 30.77

2.ª Ordem 0.0093 47.69

Ordem Superior 0.0042 21.54

AC 1.ª Ordem 0.0005 27.78

2.ª Ordem 0.0006 33.33

Ordem Superior 0.0007 38.89

Tabela 5.6: Valores dos pesos médios atribuídos pelo algoritmo ReliefF a cada um dos tipos de características.

Page 73: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

53

Ambiente Diagrama Espetro Peso Médio Peso Médio [%]

Indoor AP 4 (TIR) 0.0062 26.50

5 (Visível) 0.0053 22.65

6 (VNIR) 0.0059 25.21

7 (VNIR) 0.0060 25.64

AC 4 (TIR) 0.0020 88.50

5 (Visível) 0.00006 2.65

6 (VNIR) -0.00007 0

7 (VNIR) 0.0002 8.85

Outdoor AP 4 (TIR) 0.0078 35.14

5 (Visível) 0.0053 23.87

6 (VNIR) 0.0038 17.12

7 (VNIR) 0.0053 23.87

AC 4 (TIR) 0.0020 74.07

5 (Visível) 0.00025 9.26

6 (VNIR) 0.00029 10.74

7 (VNIR) 0.00016 5.93

Tabela 5.7: Valores dos pesos médios atribuídos pelo algoritmo ReliefF a cada um dos tipos de dimensões (espetros)

Para a primeira análise verifica-se que não existe uma uniformidade no tipo de características

que possui maior peso de importância. Consegue-se observar que as características de ordem superior

assumem um peso de importância maior no caso de minas AC. A segunda análise já demonstra e

comprova o facto de que o espetro com maior importância segundo este algoritmo é o infravermelho

térmico. Em todos os casos, este espetro foi aquele que obteve maior peso médio em relação aos

restantes espetros sendo que esta análise é confirmada por inspeção visual, das diferentes dimensões

da imagem multi-espetral construída. Denote-se que esta análise produz resultados preliminares tendo

em conta as relações entre as características. O objetivo fulcral desta etapa é obter o ranking de

características para ser possível selecionar um menor número de características a usar no treino dos

classificadores.

5.4. Classificação

Para efeitos de avaliação de desempenho dos sistemas de classificação, é necessário a

constituição de um conjunto de dados. A partir da totalidade de ROIs multi-espetrais obtidas presentes

na tabela 5.4 e da necessidade da constituição de um conjunto de dados balanceado explicado na

secção anterior foi possível obter um conjunto de dados final. Dado o grande conjunto de dados e

número de ROIs como método de validação foi utilizado o holdout validation usando 15% do conjunto

de dados como conjunto de teste sendo o restante, 85%, reservado ao conjunto de treino. Na tabela

seguinte estão presentes o número de padrões usados para esta etapa.

Page 74: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

54

Ambiente Diagrama Conjunto

de dados

Conjunto

de treino

Conjunto

de teste

indoor AP 10262 8723 1539

AC 29984 25487 4497

outdoor AP 7056 5998 1058

AC 11694 9940 1754

Tabela 5.8: Conjunto de dados utilizado para o treino e a validação dos classificadores

A partir destes conjuntos de dados foram treinados vários classificadores, sendo aqueles que,

em testes preliminares e fazendo uso da toolbox classification learner obtiveram valores de OA mais

elevados. Estes classificadores são, SVM com núcleo Cúbico, SVM com núcleo Gaussiano, Fine KNN,

Medium KNN, Fine Tree (Árvore de Decisão) e Bagged Tree (Conjunto de árvores de decisão)25. Foi

ainda utilizada uma rede neuronal simples com duas camadas, em que as entradas são as

características. Este tipo de rede, por definição, de todo o conjunto de dados,utiliza 70% para treino,

15% para validação e 15% para teste. Os parâmetros de configuração de cada um dos processos de

classificação, encontram-se na seguinte tabela.

Classificador Tipo Parâmetros

Árvore de Decisão Fine Tree Divisões máximas: 100 Critério: diversidade de Gini

SVM Cubic SVM Kernel: Cúbico Escala: Automática

Gaussian SVM Kernel: Gaussiano Escala: 4.1

KNN Fine KNN Vizinhos: 1 Métrica de distância: Euclidiana

Medium KNN Vizinhos: 10 Métrica de distância: Euclidiana

Ensemble Bagged Trees Tipo de aprendizagem: Tree Número de Trees: 30

Rede Neuronal Figura 5.23 Input: 264 características Hidden Layer: 10 neurónios Output layer: 1 neurónio Output: 2 classes

Tabela 5.9: Resumo dos classificadores usadas nesta metodologia, o seu tipo e os parâmetros usados em cada.

Figura 5.23: Esquema da rede neuronal usada construída a partir da Neural Pattern Recognition toolbox

25 Aos conjuntos de classificadores, do mesmo tipo ou de tipos diferentes, na toolbox utilizada dá-se o nome de Ensemble

Page 75: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

55

Depois de todos os classificadores estarem configurados corretamente, e o treino dos mesmos

estar terminado, procedeu-se a avaliação do desempenho dos mesmos com base nas medidas de

avaliação de desempenho explanadas no capítulo 4 secção 4.5. Esta avaliação foi realizada em função

do ambiente e do diagrama utilizado. Foi ainda efetuada uma avaliação em função do número de

características fazendo para isso uma seleção de 10/25/50/75/100% do número total de características

(26/66/132/198/264 características respetivamente) a partir do ranking de relliefF. Denote-se que, para

uma análise mais eficiente foi utilizada a métrica Precisão/Overall Accuracy de forma a simplificar a

análise dos resultados em cada um dos casos. Cada um dos classificadores é treinado a partir do

conjunto de treino (85%), e de seguida é avaliados o seu desempenho pelo conjunto de teste (15%)

obtendo assim a OA. Depois da obtenção dos valores da OA, o modelo final de cada um dos

classificadores é treinado com a totalidade do conjunto de dados, ou seja, conjunto de treino mais o

conjunto de teste, e guardado para possíveis novas predições de padrões. Características

5.4.1. Avaliação desempenho em ambiente indoor

Para o ambiente indoor foram obtidos resultados para a deteção de minas AP e para minas AC.

Para o diagrama AP, a partir de um conjunto de dados constituído por 10262 ROIs multi-espetrais foram

obtidos os seguintes resultados.

Classificador Tipo Precisão (OA) [%]

26 features 66 features 132 features 198 features 264 features

Árvore Fine Tree 84.4 84.2 85.8 86.1 87.0

SVM Cubic SVM 90.4 95.0 94.9 94.9 96.4

Gaussian SVM 92.3 96.5 96.4 94.9 97.6

KNN Fine KNN 89.7 93.7 92.6 93.8 94.1

Medium KNN 88.5 91.9 91.5 92.3 92.6

Ensemble Bagged Trees 94.1 95.6 95.1 95.8 96.4

Rede Neuronal 75.0 87.9 89.4 86.6 90.4

Tabela 5.10: Resultados dos diferentes classificadores para ambiente indoor e diagrama AP

Para o diagrama AC, a partir de um conjunto de dados constituído por 29984 ROIs multi-

espetrais foram obtidos os seguintes resultados.

Classificador Tipo Precisão (OA) [%]

26 features 66 features 132 features 198 features 264 features

Árvores Fine Tree 91.9 91.5 94.4 94.1 93.8

SVM Cubic SVM 98.4 98.8 98.8 99.0 99.0

Gaussian SVM 97.2 97.6 97.9 98.0 98.4

KNN Fine KNN 97.9 98.0 98.3 98.3 98.4

Medium KNN 97.3 97.1 97.8 97.1 97.9

Ensemble Bagged Trees 98.5 98.7 98.8 99.1 99.1

Rede Neuronal 94.6 97.3 97.4 97.9 97.8

Tabela 5.11: Resultados dos diferentes classificadores para ambiente indoor e diagrama AC

Page 76: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

56

Da análise dos resultados apresentados nas tabelas 5.10 e 5.11 observa-se que usando

apenas um único classificador, obtêm-se resultados bastantes promissores ao nível da deteção e da

possibilidade de efetuar uma redução da dimensionalidade do conjunto de dados. Verifica-se que, em

termos comparativos gerais, obtêm-se maiores valores de precisão na deteção de minas AC em relação

às minas AP. No geral verifica-se que o classificador Ensemble Bagged Tree foi dos classificadores que

obtiveram melhores resultados, com as Árvores de decisão a obterem o pior desempenho. Isto poderá

explicar-se com o facto de que métodos ensemble utilizam técnicas que combinam várias árvores de

decisão de forma a produzir melhores resultados, com uma performance mais elevada do que utilizar

apenas uma única árvore de decisão.

Para o diagrama AP, em termos quantitativos obtiveram-se resultados máximos de precisão de

97.6% para o classificador SVM Gaussiano com um vetor de características de 264, no entanto prova-

se a possibilidade de uma redução de dimensionalidade com a obtenção de valores de precisão de

96.5% e de 95.6% para o classificador SVM Gaussiano e para classificador Ensemble respetivamente,

ambos com as 66 características mais importantes segundo o algoritmo de feature selection utilizado

na secção 5.3. O classificador ensemble utiliza 30 árvores de decisão diferentes, que combinadas

obtiveram aumentos da OA na ordem dos 4.4 % – 6.6 % quando comparados com o Fine Tree. Para o

diagrama AC obtiveram-se resultados muito próximos da deteção total, com resultados máximos de

precisão de 99.1% e de 99.0% para classificador Ensemble e SVM Cúbico respetivamente e para um

vetor de características de 264. Curiosamente diminuindo o número de características em 50% obteve-

se exatamente os mesmos resultados máximos descritos anteriormente. Tal com no caso de minas AP,

a redução de dimensionalidade é também bastante promissora sendo que neste caso a diminuição de

90% do número de características apenas diminui em média aproximadamente 1.2% no valor da

precisão.

Realizando uma análise comparativa entre as duas variantes dos classificadores SVM e KNN,

verifica-se que, considerando os classificadores SVM, estes apresentam ambos resultados bastantes

similares, visto que ambos utilizam separações não linear, nomeadamente utilizando funções de kernel

polinomial cúbica para o Cubic SVM e função de kernel Radial Basis para o Gaussian SVM.

Relativamente aos classificadores KNN, o Fine KNN foi aquele que obteve melhores resultados em

ambos os diagramas. Visto que ambos utilizam a mesma métrica de cálculo de distâncias (euclidiana),

o aumento do número de vizinhos (de 1 para 10) diminui o desempenho deste classificador para o

problema em questão.

5.4.2. Avaliação desempenho em ambiente outdoor

Para o ambiente outdoor foram obtidos resultados para a deteção de minas AP e para minas

AC. Para o diagrama AP, a partir de um conjunto de dados constituído por 7056 ROIs multi-espetrais

foram obtidos os seguintes resultados.

Page 77: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

57

Classificador Tipo Precisão (OA) [%]

26 features 66 features 132 features 198 features 264 features

Árvores Fine Tree 86.7 86.7 85.0 84.3 85.4

SVM Cubic SVM 94.8 93.9 97.0 96.0 94.0

Gaussian SVM 95.7 94.9 97.5 97.3 97.1

KNN Fine KNN 93.3 93.2 94.9 95.1 94.7

Medium KNN 92.3 91.5 92.5 92.5 93.3

Ensemble Bagged Trees 94.5 93.9 95.4 94.7 95.1

Rede Neuronal 74.0 89.6 84.4 84.4 81.8

Tabela 5.12: Resultados dos diferentes classificadores para ambiente outdoor e diagrama AP

Para o diagrama AC, a partir de um conjunto de dados constituído por 11694 ROIs multi-

espetrais foram obtidos os seguintes resultados.

Classificador Tipo Precisão (OA) [%]

26 features 66 features 132 features 198 features 264 features

Árvores Fine Tree 90.5 92.4 90.9 93.9 92.3

SVM Cubic SVM 98.3 98.5 97.9 98.5 98.7

Gaussian SVM 97.2 96.8 96.7 97.0 97.0

KNN Fine KNN 97.5 97.9 97.9 97.6 97.4

Medium KNN 95.9 96.0 96.3 95.9 96.1

Ensemble Bagged Trees 98.2 98.2 98.4 98.2 98.2

Rede Neuronal 93.6 93.8 96.3 96.8 95.4

Tabela 5.13: Resultados dos diferentes classificadores para ambiente outdoor e diagrama AC

Da análise dos resultados apresentados nas tabelas 5.12 e 5.13 observa-se que estes

comprovam e corroboram os resultados obtidos em ambiente indoor, obtendo-se, no entanto, uma

diminuição geral nos valores de precisão. Este facto deve-se principalmente à diminuição do conjunto

de dados, em indoor foram utilizadas 40246 ROIs provenientes de 45 imagens multi-espetrais e em

outdoor foram utilizadas 18750 ROIs (cerca de 46.5% do número utilizado em indoor) provenientes de

21 imagens multi-espetrais. Tal como em ambiente indoor verifica-se valores maiores de precisão para

a deteção de minas AC em relação às minas AP.

Para o diagrama AP obtiveram-se resultados máximos de precisão de 97.5% para o

classificador SVM Gaussiano com um vetor de características de 132. Este resultado poderá

demonstrar que, algumas das características extraídas em ambiente outdoor não possuem valor

estatístico/ informação sendo que poderão estar a prejudicar a deteção por parte dos classificadores.

Em termos de redução de dimensionalidade esta, tal como em ambiente indoor poderá também ser

realizado pois como já referido, muitos valores de precisão são maiores com menos características do

que com a totalidade das mesmas. Para o diagrama AC obtiveram-se resultados gerais máximos de

precisão maiores do que em diagrama AP, com resultados máximos de 98.7% para SVM Cúbico com

um vetor de características de 264. No geral, diminuindo a dimensionalidade, os valores da precisão

não sofrem grandes alteração sendo estes muito próximos em relação aos diferentes classificadores.

Page 78: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

58

5.4.3. Avaliação desempenho em função da profundidade, comparativamente

com multi-classificação.

Usando os modelos de classificação anteriormente indicados foi elaborado um estudo do

desempenho dos mesmos em função da profundidade e comparados com os resultados de uma

multiclassificação de voto por maioria (MVM) e voto de peso proporcional (MVP) ao desempenho do

classificador indicados no capítulo 4 secção 4.4. Para a realização deste estudo foram selecionadas

ROIs aleatórias provenientes de imagens multi-espetrais com objetos a 0 [mm] e objetos enterrados

entre a profundidade mínima de 1 [mm] e máxima 50 [mm]. Como conjunto de teste, foram

consideradas 8512 ROIs multi-espetrais, não utlizadas no treino e teste da secção anterior,

aleatoriamente escolhidas de ambos os diagramas e de ambos os ambientes, para objetos à superfície

e para objetos enterrados. Sendo que o objetivo desta experiência é avaliar o desempenho em função

de os objetos estão ou não enterrados, foram utilizados os classificadores treinados com a totalidade

das características (265) para realizar as predições. A não utilização da rede neuronal de duas camadas

deveu-se a várias razões. A primeira, devido aos baixos valores da OA obtidos na secção anterior, a

segunda devido à complexidade de, utilizando o modelo treinado anteriormente, conciliar novas

predições com o mesmo e associa-las às predições dos restantes classificadores (atente-se ao facto

do uso de diferentes toolboxes para a rede neuronal e para os classificadores tradicionais) e finalmente

a terceira razão, o estudo realizado na próxima secção, em aprendizagem profunda de uma CNN sendo

esta uma rede neuronal mais complexa. Salienta-se que devido à dificuldade de colocar os objetos a

uma dada profundidade optou-se pela realização deste tipo de estudo em detrimento de avaliar o

desempenho dos classificadores para cada uma das profundidades separadamente

Classificador Tipo Precisão (OA) [%]

0 [mm] 1-50 [mm]

Árvore de Decisão Fine Tree 87.4 73.6

SVM Cubic SVM 96.5 92.0

Gaussian SVM 89.4 87.2

KNN Fine KNN 95.3 92.5

Medium KNN 94.6 90.1

Ensemble Bagged Trees 93.4 92.7

Tabela 5.14: Resultados da OA para cada um dos classificadores em função da profundidade das minas.

A tabela 5.14 representa os valores da precisão obtida para cada um dos classificadores

treinados com o conjunto de dados apresentado na tabela 5.8 em função de as minas estarem

enterradas (1-50 [mm]) ou à superfície (0 [mm]). Da análise dos resultados verifica-se que, como

esperado, a deteção dos objetos à superfície obtém melhores resultados do que a deteção dos objetos

enterrados. Isto deve-se principalmente à maior quantidade de informação, recolhida pelas

características, nas ROIs multi-espetrais a 0 [mm]. Como indicado anteriormente, quando os objetos

estão à superfície, todos os diferentes espetros/ dimensões das ROIs multi-espetrais construídas

possuem informação relevante à deteção, à medida que os objetos vão sendo enterrados é coerente

afirmar-se que a deteção se torna mais difícil, no entanto os valores obtidos na tabela 5.14 confirmam

Page 79: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

59

a possibilidade da deteção deste objetos até à profundidade limite definida nos anexos da dissertação.

A estratégia que, segundo a literatura, permite melhorar o desempenho global da classificação é a

combinação de vários classificadores. Assim consideraram-se dois tipos de métodos apresentados no

capítulo 4 secção 4.4. Na tabela seguinte estão representados os resultados obtidos pelos dois

métodos de fusão de classificadores, o método de voto por maioria e o método de voto proporcional ao

desempenho do classificador.

Classificador Tipo Precisão (OA) [%]

0 [mm] 1-50 [mm]

Fusão MVM 97.2 95.9

Fusão MVP 97.9 96.0

Tabela 5.15: Resultados da OA dos dois métodos de fusão de classificadores aplicados.

Para o MVM, considerando um novo padrão 𝑥𝑖, aplicando este padrão a cada modelo de

classificação já treinado, obtemos as predições 𝑦1𝑖 , 𝑦2𝑖 , 𝑦3𝑖 , 𝑦4𝑖 , 𝑦5𝑖 , 𝑦6𝑖. Considerando um número

par de classificadores (seis) e a soma de cada uma das predições realizada segundo 𝑦𝐴𝑢𝑥𝑖 = 𝑦1𝑖 +

𝑦2𝑖 + 𝑦3𝑖 + 𝑦4𝑖 + 𝑦5𝑖 + 𝑦6𝑖, foi definido que caso 𝑦𝐴𝑢𝑥𝑖 ≥ 3 a predição do MVM seria 𝑦𝑀𝑉𝑀𝑖 = 1

caso contrário 𝑦𝑀𝑉𝑀𝑖 = 0. A justificação de se atribuir classe 1 para o caso de empate (𝑦𝐴𝑢𝑥𝑖 = 3)

deve-se ao facto de que neste problema concreto é preferível ter mais casos de existência de mina,

mesmo que falsos (falsos positivos), do que falhar uma possível deteção. Para o MVP considerando

como Desempenho global (equação 4.29 capítulo 4) apenas o valores de OA obtido na tabela 5.14 e 𝑇

como a soma de todos os valores de OA obtemos os pesos dinâmicos a aplicar a cada uma das

predições 𝑦1𝑖 , 𝑦2𝑖 , 𝑦3𝑖 , 𝑦4𝑖 , 𝑦5𝑖 , 𝑦6𝑖. Atente-se no pormenor de que como foram definidas as classes

𝑦𝑖 ∈ 1 , 0, aplicando o peso dinâmico a uma predição de 0, esta multiplicação dará sempre 0

perdendo assim o interesse estatístico do uso de pesos na fusão. De forma a ultrapassar este facto,

aos valores das predições 𝑦1𝑖 , 𝑦2𝑖 , 𝑦3𝑖 , 𝑦4𝑖 , 𝑦5𝑖 , 𝑦6𝑖.foi somado +1, passando assim as classes

𝑦𝑖 ∈ 1 , 0 para 𝑦𝑖 ∈ 2 , 1. De seguida aplicaram-se os pesos dinâmicos a cada uma das predições e

a respetiva soma na forma da equação 5.1

𝑦𝐴𝑢𝑥𝑖 = 𝑃𝑇𝑟𝑒𝑒 × 𝑦1𝑖 + 𝑃𝑆𝑣𝑚𝐶 × 𝑦2𝑖 + 𝑃𝑆𝑣𝑚𝑄 × 𝑦3𝑖 + 𝑃𝐾𝑛𝑛𝐹 × 𝑦4𝑖

+ 𝑃𝐾𝑛𝑛𝑀 × 𝑦5𝑖 + 𝑃𝐸𝑠𝑒𝑚𝑏𝑙𝑒 × 𝑦6𝑖 (5.1)

Para este método, caso a variável auxiliar 𝑦𝐴𝑢𝑥𝑖 ≥ 1.5, (devido a adição do valor de +1, o valor

intermédio das duas classes é +1.5 ) a predição do MVP seria 𝑦𝑀𝑉𝑃𝑖 = 1 caso contrário 𝑦𝑀𝑉𝑃𝑖 =

0. Calculando a OA para os valores de 𝑦𝑀𝑉𝑀𝑖 e 𝑦𝑀𝑉𝑃𝑖, obtêm-se os resultados apresentados na

tabela 5.15.

O gráfico das figuras seguintes representa uma comparação visual entre os resultados obtidos

para os padrões dos vários classificadores e os resultados da fusão de classificadores.

Page 80: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

60

Figura 5.24: Gráfico dos valores da precisão para novos padrões de cada um dos classificadores (cor azul) em

comparação com a fusão de classificadores (cor verde) para objetos à superfície.

Figura 5.25: Gráfico dos valores da precisão para novos padrões de cada um dos classificadores (cor azul) em

comparação com a fusão de classificadores (cor verde) para objetos enterrados.

A análise dos resultados obtidos nesta secção, permitem retirar várias elações nomeadamente

sobre a robustez e a generalização de cada classificador, bem como sobre as vantagens numéricas de

performance que a fusão apresenta. Irá ser feita uma análise dos resultados dos novos padrões em

função dos resultados obtidos em 5.4.1 / 5.4.2, de seguida uma análise da robustez dos classificadores

no que concerne à comparação entre objetos à superfície e objetos enterrados e finalmente uma análise

das vantagens do uso da multiclassificação.

Atendendo, numa primeira fase, à análise dos resultados obtidos para os novos padrões, no

geral estes são ligeiramente inferiores aos obtidos pelo conjunto de teste utilizado na secção

5.4.1 / 5.4.2. Este facto está mais evidenciado no classificador árvore de decisão (figura 5.26 alínea a)

) e no SVM com kernel Gaussiano (figura 5.26, alínea b) ). Na classificação por árvore de decisão e

como já foi afirmado, dada a sua instabilidade (alta variância) e muitas vezes imprecisas predições,

pequenas variações nos dados de treino podem resultar em árvores completamente distintas, assim é

recomendado o uso de conjuntos de árvores de decisão tal como o classificador Emsemble usado.

Para o SVM com kernel gaussiano, a diferença entre os resultados dos novos padrões e aqueles

obtidos no treino é bastante acentuada na ordem dos 10%. Assim poderemos afirmar que em SVM, o

72

76

80

84

88

92

96

100

Fine Tree CubicSVM

GaussianSVM

Fine KNN MediumKNN

BaggedTrees

MVM MVP

Classificadores vs Fusão de Classificadores (0[mm])

72

76

80

84

88

92

96

100

Fine Tree CubicSVM

GaussianSVM

Fine KNN MediumKNN

BaggedTrees

MVM MVP

Classificadores vs Fusão de Classificadores (1-50[mm])

Page 81: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

61

kernel mais indicado para a predição de novos padrões poderá ser o polinomial cúbico cujo obteve

resultados muito próximos daqueles obtidos no treino.

a) b)

Figura 5.26: Gráfico dos valores da precisão para novos padrões de a) árvore de decisão e b) Gaussian svm (cor azul) em

comparação os resultados obtidos no treino (cor verde).

Os dados obtidos nesta seção permitem realizar uma análise sobre a robustez dos

classificadores no que concerne à profundidade e à deteção de objetos. O classificador árvore de

decisão (Figura 5.27, alínea a) ) é aquele que obtém maior discrepância entre os dois casos, na ordem

dos 13,8% de diferença. O classificador SVM com kernel polinomial cúbico (Figura 5.27, alínea b) ) é

aquele que obtém os melhores resultados para a média dos dois casos, no entanto apresenta menor

robustez quando aplicado a ROIs provenientes de imagens com objetos enterrados. Verifica-se ainda

que o classificador Ensemble (Figura 5.27, alínea c) ), embora não seja aquele que obtém maior

precisão geral, comporta-se de forma bastante eficaz e robusta aos subconjuntos selecionados de

diferentes ROIs, apresentando apenas uma diminuição de 0.7% na OA quando comparadas as

profundidades.

a) b) c)

Figura 5.27: Gráfico dos valores da precisão para os classificadores a) árvore de decisão, b) Cubic SVM e c) Ensemble

Como demonstrado nas figuras 5.24 e 5.25, a implementação de métodos de fusão de

classificadores potencia resultados bastante promissores sendo que, este aumento é mais significativo,

no caso dos objetos enterrados. Dado que a maior parte dos classificadores não apresenta a robustez

necessária quando expostos a padrões exclusivos de minas enterradas, a fusão de classificadores

suprime esta dificuldade apresentando valores igualmente altos para padrões exclusivamente de minas

enterradas. Realça-se também o facto de que estes métodos são de fácil implementação, consomem

muito poucos recursos e possuem um tempo de processamento irrelevante. Dada a atribuição de pesos

proporcionais aos resultados de OA obtidos por cada um dos classificadores, o MVP obtém ligeiramente

melhores resultados do que o MVM, este facto poderá dever-se a que como os resultados de cada

87,4

73,6

8793,8 93,8 92,3

Árvore de Decisão

0 [mm] 1-50 [mm] Indoor AP Indoor AC Outdoor AP Outdoor AC

89,4

87,2

97,698,4 98,4

97

Gaussian SVM

0 [mm] 1-50 [mm] Indoor AP Indoor AC Outdoor AP Outdoor AC

87,4

73,6

Árvore de Decisão

0 [mm] 1-50 [mm]

96,592

Cubic SVM

0 [mm] 1-50 [mm]

93,4 92,7

Ensemble

0 [mm] 1-50 [mm]

Page 82: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

62

classificador já são elevados e sem diferenças consideráveis, exceto as árvores de decisão, o MVM irá

excluir automaticamente as predições erradas deste classificador sem necessitar de possuir pesos

associados.

5.5. Aprendizagem Profunda

A implementação de um método em aprendizagem profunda, para a deteção de minas,

apresenta-se como um estudo inovador ainda não abordado pela literatura. Assim a metodologia e os

parâmetros usados neste método e na construção da própria CNN sofreram várias alterações e

experimentações empíricas de forma a obter-se os melhores resultados possíveis. Para a obtenção

dos resultados, a construção da CNN foi obtida a partir da Neural Network Toolbox, sendo que o uso

desta toolbox tem algumas particularidades tais como a necessidade de agrupar as imagens em

diretorias segundo a classe a que pertencem, o uso da estrutura de dados imageDatastore, e o recurso

à GPU da máquina para a realização do treino.

O procedimento experimental deste estudo iniciou-se com a obtenção do conjunto de dados,

sendo este constituído pelas imagens multi-espetrais construídas na secção 5.2. A partir destas

imagens foram extraídas as ROIs presentes na tabela 5.4 sendo estas que serão a entrada da CNN.

As CNN construídas usando a toolbox indicada, só aceitam como entrada da rede imagens de uma

dimensão (gray scale) ou imagens em três dimensões (RGB). Dados os resultados obtidos na secção

da seleção de características e na classificação, optou-se por selecionar apenas o espetro TIR, em

gray scale. Assim o conjunto de dados usado é constituído pelas ROIs da tabela 5.4 com apenas 1

dimensão do infravermelho térmico. Agrupando as ROIs nas respetivas diretorias (procedeu-se também

ao balanceamento do conjunto de dados de forma a existir o mesmo número de ROIs para cada classe),

dividiu-se o conjunto de treino e validation set. A proporção, tal como na classificação da metodologia

anterior foi de 85% para o treino e 15% para a validação (funciona como conjunto de teste).

A construção da CNN partiu de uma rede genérica, apresentada no capítulo 4, metodologia, na

secção 4.6.1 sendo que os parâmetros de algumas das camadas foram alterados várias vezes de forma

a realizar um estudo comparativo da performance em função destas variações. Na tabela 5.16 está

representada a tipologia da rede (neste caso concreto para ROIs do diagrama AC de tamanho 80x80x1

[pixéis]), com todas as suas camadas constituintes, acompanhadas pelo nome atribuído, o tipo da

camada e ainda os parâmetros e detalhes de configuração de cada uma das camadas usadas nesta

CNN.

Page 83: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

63

Número Camada

Nome Atribuído Tipo Argumentos/ detalhes

1 'Camada_Entrada' Image Input 80x80x1 images with 'zero center' normalization

2 'Camada_Convolução_1' Convolution 8 3x3 convolutions with stride [1 1] and padding [1 1 1 1]

3 'BN_1' Batch Normalization

Batch normalization

4 'relu_1' ReLU ReLU

5 'Pooling_1' Max Pooling 2x2 max pooling with stride [2 2] and padding [0 0 0 0]

6 'Camada_Convolução_2' Convolution 16 3x3 convolutions with stride [1 1] and padding [1 1 1 1]

7 'BN_2' Batch Normalization

Batch normalization

8 'relu_2' ReLU ReLU

9 'pooling_2' Max Pooling 2x2 max pooling with stride [2 2] and padding [0 0 0 0]

10 'Camada_Convolução_3' Convolution 32 3x3 convolutions with stride [1 1] and padding [1 1 1 1]

11 'BN_3' Batch Normalization

Batch normalization

12 'relu_3' ReLU ReLU

13 'FC' Fully Connected 2 fully connected layer

14 'softmax' Softmax softmax

15 'Camada_Saída' Classification Output

crossentropyex

Tabela 5.16: Tipologia da CNN de 15 camadas utilizada neste estudo, construída a partir da Deep Learning toolbox.

Camadas retiradas na integra da rede construída bem como os parâmetros e argumentos.

A configuração da rede construída para a experiência é construída por duas partes, a parte de

aprendizagem de características (camada 1-12) e a parte de classificação (camada 13-15). A primeira

parte é constituída por uma camada de entrada (camada 1) com o tamanho da ROI e a dimensão

(80x80x1 [pixéis] para AC e 10x10x1 [pixéis] para AP) como argumentos e três conjuntos constituídos

por: três camadas de convolução (camadas 2,6,10) com tamanho do filtro e número de filtros como

argumentos, três normalizadores de Batch (camadas 3,4,11) usados para normalizar as ativações e as

propagações na rede, três camadas ReLU (camadas 4,8,12) e duas camadas pooling (camadas 5,9)

utilizadas para a realização de operações de down-sampling. A parte da classificação é constituída por

uma camada Fully Connected (camada 13) responsável por ligar/conectar todos os neurónios

responsáveis pelas features de forma a classificar, segundo 2 classes, a imagem/ROI, uma camada

Soft max (camada 14) para normalizar a saída e finalmente a camada de saída (camada 15)

responsável pela exibição do valor da classificação.

Atendendo a esta configuração, fixando o primeiro argumento da camada de convolução

(tamanho do filtro) com o valor de 3x3 [pixéis], o segundo argumento, número de filtros, cujo está

diretamente ligado ao número de neurónios ligados a mesma região de entrada e assim determina o

número/ tamanho do nosso conjunto de características (feature map) pode ser variado várias vezes de

forma a realizar um estudo comparativo da performance, medida em OA, como função do feature map.

Assim foram estudadas quatro configurações possíveis de diferentes números de filtros para cada uma

das três camadas de convolução (8/16/32; 16/32/64; 64/128/256, 256/512/1024 respetivamente para

cada configuração. Como opções de treino foi definido método stochastic gradient descent com

momento para a minimização da função de erro, prática comum neste tipo de problemas, selecionado

Page 84: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

64

como número máximo de épocas 50 (uma época é um ciclo de treino completo em todo o conjunto de

dados. Uma época possui um certo número de iterações em função do tamanho dos filtros, das ROIs

e do número de filtros), sendo que o processo de treino termina em muitos casos antes das 50 épocas,

foi feito o monitoramento da precisão da rede ao longo do treino sendo que foram especificados

anteriormente dados exclusivos para o treino e para a validação. A cada época os dados são

aleatoriamente misturados. O software usado, treina a rede com os dados do conjunto de treino e

cálcula a Overall Accuracy com base nos dados do conjunto de validação em intervalos regulares,

definido nas 60 iterações. Os dados do conjunto de validação não são utilizados para a atualização dos

pesos da rede. Dado estas especificações, o treino de cada uma das configurações da CNN, para cada

ambiente e diagrama foi acompanhado pelo recurso Monitor Deep Learning Progress onde é

apresentado ao longo das epochs as perdas e a precisão do conjunto de treino e as perdas e precisão

do conjunto de validação. Os resultados da precisão, segundo a OA, em função dos diferentes números

de filtros utilizados nas camadas de convolução obtidos nos diferentes ambientes e diagramas

encontram-se na tabela 5.17, sendo que o processo de treino dos melhores resultados para cada um

dos ambientes e diagramas encontra-se explanado nos gráficos presentes no apêndice D.

Aprendizagem Profunda (CNN)

1.ª camada 8 filtros 16 filtros 64 filtros 256 filtros

2.ª camada 16 filtros 32 filtros 128 filtros 512 filtros

3.ª camada 32 filtros 64 filtros 256 filtros 1024filtros

Overall Accuracy [%]

Indoor AP 82.4 82.7 84.7 86.1

Indoor AC 95.5 97.8 96.7 n/calculado

Outdoor AP 79.6 82.0 83.4 82.0

Outdoor AC 99.0 99.1 99.1 n/calculado

Tabela 5.17: Resultados da OA em função dos diferentes números de filtros utilizados nas camadas de convolução obtidos

para o estudo da CNN nos diferentes ambientes e diagramas. O “n/calculado” significa que o tempo necessário para o treino e

validação é muito elevado.

Da análise dos resultados obtidos e do processo de treino das diferentes CNNs verifica-se que

no geral os melhores resultados, à semelhança do que foi obtido nos métodos tradicionais, estão

relacionados com a deteção de minas AC. Neste caso concreto, e ainda analisando muito

superficialmente os resultados, podemos assumir que o número ideal de filtros/características a ser

implementado é a configuração 64/128/256 respetivamente para cada uma das camadas de

convolução. Atendendo mais pormenorizadamente aos resultados obtidos, é demonstrado que existe

uma diferença de aproximadamente 12-20% de OA entre a deteção de minas AP e AC. Este facto

poderá ser justificado com base no tamanho das minas e consequente tamanho da ROI pois, numa

ROI com mina AC é possível extrair maior informação textual do que numa ROI com mina AP.

Relativamente ao tempo de processamento, na tabela seguinte estão representados os valores de

tempo obtidos para o treino das diferentes CNNs deste estudo.

Page 85: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

65

Aprendizagem Profunda (CNN)

1.ª camada 8 filtros 16 filtros 64 filtros 256 filtros

2.ª camada 16 filtros 32 filtros 128 filtros 512 filtros

3.ª camada 32 filtros 64 filtros 256 filtros 1024filtros

Tempo de Processamento [h:m:s]

Indoor AP 00:00:51 00:00:54 00:01:14 00:06:20

Indoor AT 00:04:46 00:09:31 00:29:37 05:15:0026

Outdoor AP 00:00:46 00:00:25 00:00:32 00:01:39

Outdoor AT 00:05:36 00:04:34 00:18:37 05:15:0027

Tabela 5.18: Tempo de processamento necessário ao treino das diferentes CNNs

Como as ROIs das minas AC possuem um tamanho de 80x80 [pixéis] e as ROIs das minas AP

um tamanho de 10x10 [pixéis], foi apurado que o tempo de processamento dos casos com diagrama

AC foi aproximadamente 5 vezes superior do que para diagrama AP na primeira configuração, 5 a 10

vezes superior na segunda configuração e 30 a 40 vezes superior na terceira configuração e uma

estimativa aproximado de 50 a 300 vezes superior na quarta configuração, como demonstrado nos

valores da tabela. Isto verifica-se devido ao facto de como é definido e fixado o tamanho do filtro (3x3

[pixéis]) para as ROIs de entrada, é de fácil compreensão que é mais demorado calcular as convoluções

deste filtro sobre uma imagem AC de 80x80 [pixéis] do que uma imagem AP de 10x10 [pixéis]. Verifica-

se ainda que existe a necessidade de ter em atenção e otimizar as configurações das camadas,

nomeadamente o número de filtros de forma a que não seja possível deparar com casos como os

obtidos na quarta configuração do diagrama AC. Nesta configuração, dado a definição do número de

filtros para um número superlativamente grande, a rede, quando sujeita a ROIs de tamanho

80x80 [pixéis], evolui para um número de iterações muito elevado e por consequência um tempo de

processamento enorme, podendo provocar o crash do algoritmo de treino.

Da análise dos gráficos do apêndice D, verifica-se que o número de epochs máximo poderia

ser reduzido, mesmo que o sistema de treino não utilize todas as epochs disponíveis, é de prática

comum definir um número de epochs que possibilite a execução de um treino completo. É demonstrado

que o número de iterações por epoch aumenta consideravelmente de minas AP para minas AC,

devendo-se principalmente ao maior número de convoluções executas nos cálculos de um filtro 3x3

[pixéis] numa ROI maior, o que confirma as elações obtidas em função do tempo de processamento

presente na tabela 5.18.

26 Tempo aproximado e estimado para o treino da CNN, com base no tempo obtido no treino (02:37:30) até à interrupção do mesmo na 6 epoch. Visto que o número médio de epochs que estas configurações necessitam, com base nas anteriores, é entre 11-15 epochs, estimou-se que aproximadamente o treino desta CNN iria demorar o dobro do valor obtido até à interrupção.

Page 86: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

66

Page 87: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

67

6. Conclusões

A questão da desminagem continua atualmente a ser complexa e exigente, dados os inúmeros

fatores a considerar no momento da deteção, sendo que aliada a esta complexidade, ainda existe a

vertente do perigo constante a que o sapador responsável pela inativação e remoção das minas. Em

conjugação com os teatros de operações aos quais o exército português, integrando a NATO, possui a

responsabilidade de estar presente, estes teatros encontram-se ou já se encontraram recentemente

em conflito armado, sendo necessário, quer do ponto de vista humanitário, quer do ponto de vista

operacional estudar uma metodologia capaz de detetar, de forma segura e eficaz, as minas terrestres.

A informação fornecida pelas imagens térmicas/ multi-espetrais tornou-se atualmente uma

ferramenta poderosa na resolução de diversos problemas em que o processamento de imagem e a

visão computacional em conjugação com algoritmos de aprendizagem automática procuram resolver.

A utilização deste tipo de ferramentas, num contexto da desminagem, poderá auxiliar o

desenvolvimento de um método que permita detetar a existência de minas terrestres a partir de imagens

multi-espetrais de várias fontes, com a aplicação de procedimentos de machine learning

nomeadamente o uso de classificação, multi-classificação, e o uso de metodologias inovadoras

baseadas na aprendizagem profunda mais precisamente as CNN.

Neste trabalho foram estudados da literatura os vários projetos/ técnicas/ métodos relacionados

com a deteção de minas terrestres, chegando à conclusão de que estes poderão ser agrupados em

cinco grupos/ famílias segundo as suas características básicas de funcionamento. No que concerne às

imagens multi-espetrais / híper-espetrais, ao longo dos últimos anos, vários projetos foram

desenvolvidos, ligados à defesa e efetuados por organizações militares de vários países e por

empresas privadas cujos principais objetivos são o desenvolvimento e construção de tecnologia militar.

De forma a que o leitor, que não possua conhecimentos técnicos no âmbito dos engenhos

explosivos e minas terrestres, posso corretamente compreender o problema ao qual esta dissertação

se debate, foi elaborado um estudo um pouco mais técnico e doutrinário sobre os mesmos, os seus

tipos e empregabilidade. Para complementar esta informação e numa forma de introdução nas

experiências efetuadas, foram explanados os diferentes tipos de solos a serem utilizados ao longo da

investigação, juntamente com a sua justificação e composição. Verificou-se que existe uma enorme

diversidade de solos sendo que foi elaborada uma tentativa de globalização de terrenos de forma a que

a metodologia efetuada pudesse ser o mais robusta possível.

A componente laboratorial deste trabalho iniciou-se com a construção de dois tipos de

experiências, a primeira em ambiente indoor, ambiente este controlado, sem grandes variações de

temperatura numa sala disponibilizada pela Academia Militar, e a segunda, em ambiente outdoor sem

controlo das condições ambientais, nos terrenos de exercícios militares do Aquartelamento da

Academia Militar na Amadora. Para a realização de ambas as experiências, foi necessário a construção

de uma estrutura metálica de forma a suportar os equipamentos de aquisição de imagem e recipientes

de plástico com o respetivo isolante térmico com o intuito da inserção dos diferentes tipos de solos.

Verificou-se que o uso da estrutura metálica permitiu que todas as imagens fossem obtidas a partir da

mesma altura criando assim um conjunto de dados uniforme. O uso de isolante térmico permitiu que

alterações de temperatura dos recipientes e de outros agentes externos à experiência não interferissem

Page 88: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

68

de forma significativa na temperatura dos solos e por consequência no sinal térmico transmitido pelos

objetos enterrados.

A aquisição de dados foi realizada utilizando dois equipamentos de imagem, uma câmara de

infravermelho térmico e uma câmara multi-espetral de três canais. Verificou-se que em relação à

câmara de infravermelhos, a configuração da escala de temperatura assume um papel bastante

importante sendo que as repercussões de uma errada configuração se centram na não deteção do

sinal transmitido por parte das minas. As imagens obtidas a partir da câmara multi-espetral necessitam

de uma configuração manual dos parâmetros tempo de exposição e ganho. Nos testes indoor devido

aos grandes valores do tempo de exposição e ganho (dada a baixa luminosidade da sala) verificou-se

a ocorrência e o aumento do ruído, principalmente no canal 2, tendo como consequência a diminuição

da informação útil desta banda espetral. Conclui-se assim que existe a necessidade de, aquando da

realização dos testes em laboratório, estes serem feitos num ambiente de maior luminosidade.

A constituição do conjunto de dados foi efetuada segundo um conjunto de procedimentos

necessários, sendo estes efetuados de forma manual o que tem como consequência um grande tempo

despendido nesta tarefa. Dada esta limitação, a realização de um pré-processamento automático, faria

esta processo mais rápido, deixando mais tempo para outras questões de maior preponderância. De

realçar neste processo, a verificação de que, a uma dada profundidade e por inspeção visual, já não é

possível detetar objetos enterrados em nenhuma das diferentes profundidades. Foi dado como dogma

no início desta dissertação que, partir deste limite, inclusive, estas imagens multiespectrais não seriam

utilizadas no processamento seguinte, no entanto e dado os resultados obtidos para as restantes

profundidades, faria sentido inserir também estas imagens de forma a perceber se, mesmo que

visualmente não se perceba em nenhum dos espetros, as metodologias conseguissem detetar com

valores de precisão aceitáveis os objetos enterrados. Independentemente deste facto, foi feita a

construção das imagens multi-espetrais para posterior extração das regiões de interesse de forma a

obter-se um conjunto de dados o mais diversificado e robusto possível dado as dificuldades já

enumeradas.

Na fase seguinte foram extraídas, normalizadas e selecionadas as características, sendo estas

de primeira, segunda e de ordem superior. Realizada a normalização dos dados, foi efetuada a seleção

de características usando o algoritmo ReliefF. que permitiu retirar algumas conclusões, das quais se

destacam o facto de não existir uma uniformidade no tipo de características que possui a maior

relevância, poderendo-se considerar que para as minas AC as características de ordem superior

assumem um papel de maior importância e que o espetro que produz os melhores resultados é o

infravermelho térmico, como esperado pela literatura.

Na execução da classificação foram utilizados seis classificadores e uma rede neuronal simples

de duas camadas em que as entradas da mesma são as características obtidas e selecionadas. Para

uma análise mais eficaz e eficiente em termos de tempo, e dada a complexidade do uso de múltiplos

classificadores optou-se pelo uso da métrica de Precisão/ Overall Accuracy como única métrica de

avaliação de desempenho. Este aspeto poderá não representar corretamente a avaliação do

desempenho em todas as sus vertentes, no entanto, para um estudo introdutório e de análise de

possibilidades, a OA apresentou-se como ideal para a análise dos resultados. Os resultados obtidos

Page 89: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

69

demonstram uma performance geral superior dos classificadores SVMs em relação aos demais, sendo

que este tipo de classificador é largamente usado em problemas binários dado a sua capacidade de

utilizar um grande número de características, utiliza fronteiras relativamente simples (mesmo em

funções de kernel não lineares), sendo que existem menor probabilidade de overfitting. Assim a maior

vantagem deste tipo de classificadores prende-se efetivamente com o chamado kernel trick cujo, se

explorado e afinado poderá criar espaços de características apropriadas, onde uma classificação linear

é capaz de executar a classificação com a maior performance possível.

A partir dos resultados no ambiente indoor conclui-se que existe uma dicotomia relevante que

se prende com o classificador Ensemble Bagged Trees que obteve melhor performance e a árvore de

decisão que obteve a pior performance. Conclui-se assim que para problemas de duas classes e dada

a variedade de características, os métodos ensemble, que utilizam técnicas que combinam várias

árvores de decisão, produzem melhores resultados do que a utilização de apenas uma árvore de

decisão. Relativamente ao ambiente outdoor, conclui-se que os testes feitos em laboratório corroboram

os resultados obtidos no outdoor, no entanto estes são ligeiramente inferiores, justificada pela

diminuição de 46.6% do conjunto de dados utilizado. Ainda sobre a classificação, verificam-se maiores

valores de precisão na deteção de minas AC do que de minas AP, devido ao tamanho das minas AC e

consequente aumento de ROI, que contêm maior informação útil nas ROIs AC do que nas ROIs AP.

Foi elaborado um estudo do desempenho dos classificadores, perante padrões aleatórios, em

função da profundidade e uma comparação destes resultados com os resultados obtidos por um

multiclassificação. Em relação ao estudo em função da profundidade, verificaram-se melhores

resultados na deteção de objetos à superfície/ parcialmente enterrados (0 [mm]) do que na deteção de

objetos enterrados até às profundidades limites. Numa primeira análise aos resultados obtidos para os

novos padrões, estes são ligeiramente inferiores aos obtidos pelo conjunto de teste utilizado na fase

de treino. Este facto é mais evidenciado em dois classificadores, as árvores de decisão e o SVM com

função de kernel Gaussiana. Em relação ao primeiro, conclui-se que dado a sua instabilidade,

pequenas variações nos dados resultam em árvores completamente diferentes o que pode explicar os

resultados obtidos, já no SVM conclui-se que este tipo de função de kernel poderá não ser o mais

indicado e robusto neste tipo de problemas. A implementação de métodos de fusão de classificadores

potencia o desempenho do uso de classificadores tradicionais, verificando-se que aqueles que foram

aplicados ao longo desta investigação, são de fácil implementação, consomem poucos recursos e um

tempo de processamento irrelevante.

Foi implementado um método em aprendizagem profunda para a deteção de minas. A CNN

construída assentou numa configuração genérica com a alteração de certos parâmetros de forma a

elaborar um estudo em função dos mesmos. Verifica-se que a abordagem, de variar o número de filtros

na camada de convolução, teve a vantagem de perceber qual o conjunto de características (feature

map) indicado aquando da resolução de um dado problema. Na prática apurou-se que um número

elevado de filtros para minas AC faz a rede ineficaz no que concerne ao tempo e performance da

mesma, devido ao enorme número de características que esta rede iria gerar. Existe assim a

necessidade de um balanceamento do número de filtros para cada problema específico de modo a

evitar configurações de redes que levem a tempos de processamento elevados, impossíveis de tratar

Page 90: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

70

com o poder computacional tradicional. Os resultados da OA obtidos para a configuração 64/128/256

filtros são os mais promissores sendo que existe uma diferença considerável entre a deteção de minas

AP e AC. Esta diferença obtida entre o diagrama AP e AC, que se deve maioritariamente ao tamanho

reduzido da ROI AP, mostra que esta configuração é ótima para ROIs de dimensão 80×80 [pixéis] mas

não para ROIs de dimensão 10×10 [pixéis] sendo aconselhável a obtenção de ROIs maiores,

aumentando a resolução ou diminuindo a distância da câmara ao solo. Em relação ao processo de

treino da rede conclui-se que uma otimização do número máximo de epochs poderia ser realizado e,

dado o tamanho do filtro 3×3 [pixéis] é de fácil conclusão (e dado a operação de convulsão de um filtro

com uma imagem) que o número de iterações em ROIs 80×80 [pixéis] é maior do que em ROIs 10×10

[pixéis] o que corrobora as conclusões retiradas acerca do tempo de processamento.

Em jeito de considerações finais, os resultados obtidos são bastante promissores, para ambas

as metodologias, verifica-se que existe a potencialidade prática do uso da fusão de classificadores caso

o problema em questão assim o justifique, pois, o mesmo que a implementação desta fusão consuma

poucos recursos, não podemos esquecer que existe a necessidade do treino de vários classificadores

cujos carecem de bastantes recursos computacionais. Foi demonstrado que o uso de uma CNN neste

tipo de problemas necessita de ser bem ajustada ao problema, ao tamanho da imagem/ ROI de entrada,

ao número de filtros e especial atenção ao tamanho do mesmo. Verificou-se ainda no âmbito da CNN

que é possível encontrar uma configuração ótima para a resolução do problema em diagrama AC.

Comparando as duas abordagem e considerando apenas a configuração ótima, diagrama AC, pode-se

afirmar que os resultados da CNN são equiparados ao resultados dos classificadores tradicionais com

a vantagem de que, estes últimos apresentam o seu auge ao nível da configuração e otimização,

enquanto que a rede CNN não foi estudada em função do número de camadas ou conjuntos de

camadas; tamanho do filtro; utilização ou não de camadas intermédias de normalização, Relu, entre

outras.

Apesar dos resultados obtidos é importante referir que, dada a complexidade do problema, é

ainda cedo para generalizar e partir para a implementação de um sistema numa destas metodologias.

Isto deve-se principalmente à origem do conjunto de dados, sendo esta efetuado num ambiente

controlado. Assim existe a necessidade de aumentar o conjunto de dados com uma maior diversidade

de campos de minas sendo que estes devem ser montados em ambiente operacional/ treino e por

indivíduos formados e especializados neste âmbito. Atente-se para que, como se verifica na literatura,

o mais importante nestes problemas não é a quantidade do conjunto de dados, mas sim a qualidade e

a diversidade dos mesmos, sendo este o principal desafio no futuro para este tipo de problemas.

Após o términus de um trabalho de investigação, há sempre caminhos que não foram trilhados

assim como ideias que surgem no decorrer do mesmo. Neste projeto, em que as áreas do saber

abrangentes vão desde a componente militar, até ao processamento de imagem, desde a constituição

de um novo tipo de conjunto de dados até ao machine learning, as hipóteses de trabalho futuro são

muitas. Assim destacam-se algumas que são consideradas exequíveis a médio/longo prazo:

Aumentar e diversificar o número de imagens de minas terrestres quer enterradas quer à

superfície e a obtenção dos mesmos em contexto operacional, e se possível em situações reais. Este

aspeto permitiria consolidar e generalizar os resultados obtidos e tornar mais robustos os sistemas.

Page 91: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

71

Testar o sistema para todas as profundidades, mesmo que, por inspeção visual não seja

possível verificar diferenças entre o sinal transmitido pelos objetos e pelo solo.

Efetuar um estudo focado principalmente e exclusivamente no espetro do infravermelho

térmico, explorando também outros espetros de maior comprimento de onda, superior aos utilizados

neste trabalho, permitindo assim melhorar o sistema no espetro que obteve melhores resultados, como

testar influência do aumento do comprimento de onda para a deteção dos objetos.

No nível, prático e operacional, testar estas metodologias integradas num sistema UAV de

vigilância em cooperação com a Força Aérea Portuguesa, e com as aeronaves não tripuladas

pertencentes a este ramo das Forças Armadas Portuguesas. Seria assim necessário a aquisição de

equipamentos de imagem de menores dimensões e a utilização de um sistema de comunicação capaz

de transmitir os dados obtidos para a unidade de processamento. Esta hipótese de trabalho futuro

poderia não só ser utilizada para a deteção de minas, como também para a deteção de combatentes,

viaturas, aeronaves militares em ambiente noturno ou cujas condições ambientais não permitem a

deteção no espetro do visível.

Por fim, e de forma a auxiliar à deteção, a integração deste sistema com outro método de

deteção de minas terrestres, tal como o GPR, de forma a que ambos os sistemas se complementem e

superem as lacunas de ambos.

Page 92: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

72

Page 93: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

73

Bibliografia

[1] I. Makki, R. Younes, C. Francis e M. Zucchetti, “A survey of landmine detection using

hyperspectral imaging,” ISPRS Journal of Photogrammetry and Remote Sensing, vol. 124, pp.

40-53, 2017.

[2] J. H. Eriksen, “Standardization Agreement, Countermine Operations in Land Warfare,” Nato

Standardization Agency, Brussels, Belgium, 2002.

[3] J. Florez e C. Parra, “Review of sensors used in robotics for humanitarian demining

application,” em IEEE Columbian Conference on Robotics and Automation, Colombia, 2016.

[4] Y. Ege, A. Kakilli, O. Kılıç, H. Çalık, H. Çıtak, S. Nazlıbilek e O. Kalender, “Performance

Analysis of Techniques Used for Determining Land Mines,” International Journal of

Geosciences, 2014.

[5] V. Krylov, “Detection of buried land mines using scattering of Rayleigh waves,” em 27th

International Conference onNoise and Vibration Engineering (ISMA 2016), Leuven, Belgium,

2016.

[6] J. Pimenta, “Identificação de minas terrestres em imagens de infravermelho térmico,”

Dissertação de Mestrado Instituto Superior Técnico, U. Lisboa, Lisboa, 2015.

[7] G. Siganthi e D. R. Korah, “Discrimination of Mine-Like Objects in Infrared Images Using

Artificial Neural Network,” Indian Journal of applied Research, vol. 4, pp. 206-208, 2014.

[8] I. Makki, R. Younes, C. Francis e M. Zucchetti, “Mathematical Methods for Hyperspectral

Imaging in Landmine Detection,” em Transactions of the American Nuclear Society, vol. 112,

San Antonio, Texas, 2015.

[9] J. MacDonald, “Alternatives for Landmine Detetion,” RAND, Santa Mónica, Califórnia, 2013.

[10] A. Mahoney, C. Cox e B. Weetjens, “Reinforcement for Operational Mine Detection Rats,”

the Journal of Conventional Wepons Destruction, vol. 17, pp. 58-62, 2013.

[11] L. Robledo, M. Carrasco e D. Mery, “A survey of land mine detection technology,”

International Journal of Remote Sensing, vol. 30, pp. 2399-2410, 2009.

[12] Deportment of US Army, “Explosive Hazard Operations,” US Army Enginneer School, EUA,

pp. 2.1-2.11, 2007.

[13] Regimento de Engenharia N. 1 do Exército Portguês, “Manual escolar do curso de

explosivos, destruições, minas e armadilhas,” Regimento de Engenharia Nº1 - Centro de Treino

em Explosivos e Contramedidas, Espinho, 2001.

[14] A. C. Fernades, “Pavimentos para estradas de baixo tráfego,” Dissertação de Mestrado

Instituto Superior Técnico, U. Lisboa, Lisboa, 2016.

[15] A. R. Webb e K. D. Cospsey, “Statistical pattern recognition,” Chichester: John Wiley &

Sons, 2011.

Page 94: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

74

[16] S. Selvarajah e S. R. Kodituwakku, “Analysis and Comparison of Texture Features for

Content Based Image Retrieval,” International Journal of Latest Trends in Computing, vol. 2,

pp. 108-113, 2011.

[17] W. Gonzalez e R. Woods, “Digital Image Processing,” Prentice Hall, New Jersey, 2008.

[18] B. Pathak e D. Barooah, “Texture Analysis based on the gray-level co-occurence matrix,”

International Journal of Advanced Research in Electrical, vol. 3, pp. 4206-4212, 2013.

[19] M. S. Priya e G. M. Nawaz, “Matlab Based Feature Extration and Clustering Images using

K-Nearest Neighbour Algorithm,” iJact, vol. 2, pp. 1121-1126, 2016.

[20] R. M. Haralick, “Statical and structural approches to texture,” Proceedings of the IEEE, vol.

67, pp. 786-804, 1979.

[21] M. M. Galloway, “Texture analysis using gray level run lenghts,” Computer graphics and

image processing, Maryland, EUA, pp. 172-179, 1975.

[22] A. Chu, C. M. Sehgal e J. F. Greenleaf, “Use of gray value distribution of run lengths for

texture analysis,” Pattern Recognition Letters, pp. 415-419, 1990.

[23] B. V. Dasarathy e E. B. Holder, “Image characterizations based on joint gray level—run

length distributions,” Pattern Recognition Letters, pp. 497-502, 1991.

[24] M. Unser, “Sum and difference histograms for texture classification,” IEEE Transactions on

Pattern Analysis and Machine, vol. 1, pp. 118-125, 1986.

[25] R. Khelifi, M. Adel e S. Bourennane, “Texture classification for multi-spectral images using

spatial and spectral Gray Level Differences,” em 2nd International Conference on Images

Processing Theory, Tools and Application, Paris, France, 2010.

[26] B. Mandelbrot, “The Fractal geometry of nature,” W. H. Freeman, New Yorl, USA, 1982.

[27] R. E. Plotnick, R. H. Grdner, R. H. Hargrove, W. W. Prestegaard e M. Perlmutter, “Lacunarity

analysis: a general technique for the analysis,” Physical review E, pp. 53-55, 1996.

[28] C. Allain e M. Cloitre, “Characterizing the lacunarity of random and deterministic fractal sets,”

Physical review A, pp. 44-46, 1991.

[29] P. Dong, “ Test of a new lacunarity estimation method for image texture analysis,”

International Journal of Remote Sensing, vol. 21, nº 17, pp. 3369-3373, 2000.

[30] h. Liu e H. Motoda, “Computational methods of feature selection,” CRC Press, 2007.

[31] A. Guyon e G. Isabelle, “Feature Extraction Foundations and Applications,” Pattern

Recognition, 2006.

[32] Z. M. Hira e D. F. Gillies, “A review of feature selection and feature extraction methods

applied on microarray data,” Advances in bioinformatics, 2015.

[33] N. Morono e A. Betanzos, “Filter Methods for Feature Selection – A Comparative Study,” em

Intelligent Data Enginneering and Automated Learning - IDEAL, 8th International Conference,

Birmingham, UK, pp. 178-187, 2017.

Page 95: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

75

[34] Y. Jin e B. Sendhoff, “Pareto-Based Multiobjective Machine Learning: An Overview and

Case Studies,” IEEE Transactions os Systems, Man, and Cybernetics, Part C: Applications and

Reviews, vol. 38, pp. 397-415, 2008.

[35] N. Macari, “Analysis of a machine learning algorithm and corpus as a tool for managing the

ambiguity problem of search engines,” Master of Science, Fakultat Informatik, Technische

Universitat Dresden, 2010.

[36] E. Fiesler e R. Beale, “Multilayer Perceptrons,” Handbook of Neural Computation, Institute

of Physics, Oxford, pp. C1.2.1-C.1.2.8, 1997.

[37] C. Romero, M. Valdez e A. Alanis, “A comparative study of machine learning techniques in

blog comments spam filtering,” em Neural Networks (IJCNN), The 2010 International Joint

Conference, 2010.

[38] M. F. Gonçalves, “Classificação do Coberto Vegetal em Ambiente Militar,” Dissertação de

Mestrado, Instituto Superior Técnico, U. Lisboa, Lisboa, 2014.

[39] T. Mitchell, “Decision Trees Learning,” Machine Learning, McGraw-Hill Education, 1 ed, pp

52-79, 1997.

[40] L. Almeida, “PCA-Notes An introduction to principal components analysis,” Instituto Superior

Técnico, U. Lisboa, Lisboa, 2015.

[41] S. Kaya, “Buried and Surface Mine Detection from thermal Image,” Dissertação de

Mestrado, Middle East Technical University, 2016.

[42] C. Orrite, M. Rodriguez, F. Mart e M. Fairhurst, “Classifier Ensemble Generation for the

Majority Vote Rule,” em 13th Iberoamerican congress on Pattern Recognition: Progress in

Pattern Recognition, Image Analysis and Applications, Havana, Cuba, pp. 340-347, 2008.

[43] H. Greenspan, B. Ginneken e R. Summers, “Guest Editorial Deep Learning in Medical

Imaging: Overview and Future Promise of an Exciting New Technique,” IEEE Transactions on

Medical Imaging, vol. 35, nº 5, pp. 1153-1159, 2016.

[44] M. Xiaorui, H. Wang e J. Wang, “Semisupervised classification for hyperspectral image

based on multi-decision labeling and deep feature learning,” ISPRS Journal of Photogrammetry

and Remote Sensing, nº 120, pp. 99-107, 2016.

[45] J. Ker, L. Wang, J. Rao e T. Lim, “Deep Learning Applications in Medical Image Analysis,”

Special Section on fodt Computing Techniques for image analysis in the medical industry

current trends, challenges and solutions, vol. 6, pp. 9375-9389, 2018.

[46] MathWorks, “Deep Learning,” MathWorks, 2017. [Online]. Available:

https://www.mathworks.com/solutions/deep-learning/convolutional-neural-network.html.

[Acedido em 24 Fevereiro 2018].

[47] X. Wei, “Gray Level Run Length Matrix Toolbox v1.0,” Software, Beijing Aeronautical

Technology Research Center, 2007.

Page 96: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

76

Page 97: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

77

Apêndice A

Tabela A.1 – Resumos dos artigos referentes ao estado da arte da dissertação (Parte 1).

Ano Autor Método usado Dataset/ Sample Resultados Qualitativos Referência

Necessidade de fi ltragem de possíveis outros objetos

enterrados no solo.

Método deverá ser complementado por outros métodos de

deteção

1999 Collins L. Indução eletromagnética

Dados recolhidos usando 4 tipos

de sensores: GPR, EMI,

Magnetômetro e IR sendo

provenientes de 4 locais

distribuídos por duas

localizações

Uma análise teórica de deteção de sinal Bayesiana

rigorosa pode ser usada para a deteção, usando sensores

EMI

SR

Falsos

Positivos

(db) na

recepção

Falsos

Positivos

(db) na

recepção

Falsos

Positivos

(db) na

recepção

Falsos

Positivos

(db) na

recepção

20 1,8 E-0,3 -27 2,2 E-04 -37 5,0 E-06 -53 1,9 E-02 -17

15 3,5 E-06 -55 5,0 E-03 -23 1,8 E-06 -57 1,2 E-03 -29

10 2,5 E-03 -26 7,0 E-05 -42 6,5 E-05 -42 1,1 E-04 -40

Multilook 9,5 E-09 -80 4,0 E-07 -64 1,8 E-09 -87 5,0 E-07 -63

Minas plásticas ainda terão de ser testadas 26 22 30 23

5 cm de profundidade10 cm de

Profundidade

15 cm de

Profundidade

SR

Resultados obtidos apenas para minas de metal TM-62M,

enterradas a uma profundidade de 5, 10 e 15 centímetros,

em três locais, dois previamente preparados, l impos e

planos e um outro com as condições naturais.

Melhoramentos

comparativamente

com single look

Taxa de deteção na ordem dos 94%, taxa de falsos alarmes

muito baixa.

2002 Kositsky, J. Ground Penetretion Radar

Varrimentos de 4m de Aberturas

sintéticas de radar (synthetic

aperture radar) em intervalos de

2 a 5 metros de distância. Este

varrimento produziu centenas de

ficheiros de dados contendo

dados de polarização HH, VV,

HV e VH na banda dos 0,3 a 3,0

GHz em solo seco, húmido e

molha

Distância

ao solo(m)

Mina parcialmente

enterrada

Resultados Quantitativos

1998 Ivashov S.

Reconhecimento de

campo de minas com o

uso de um broad size

detector e sensores de

ondas rádio

Série de detetores envolvendo

transdutores de ondas de rádio.

Cada sinal recebido pelos

detetores corresponde a um certo

nível de densidade de pixel na

imagem.

Sem resultados quantitativos SR

Sem resultados quantitativos

2002 Donskoy, D.

Nonlinear seismo-

accoustic land mine

detection and

discrimination

Vibrações da superfície da terra

medidas a partir de vibrômetros

de laser ou micro-ondas

Deteção linear –Deteção linear ótima quando existe o

contraste máximo entre a vibração do solo superior à

mina e a vibração do solo inferior à mina (chamado on/off

contrast ). O contraste máximo é ainda proporcional ao

contraste da rigidez entre o solo e a mina que é maior

consoante maior seja o on/off contrast .

Deteção de mina VS1.6 AT a 0mm e a 25mm

Deteção não linear – baseada na interação das ondas

sísmicas recolhidas, com frequências diferentes no caso

das interfaces do solo e da mina. Restantes resultados

inconclusivos e não testados na prática.

Sem resultados quantitativos SR

Tabela A.1: Resumos dos artigos referentes ao estado da arte da dissertação (Parte 1).

Page 98: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

78

Tabela A.2 – Resumos dos artigos referentes ao estado da arte da dissertação (Parte 2).

Ano Autor Método usado Dataset/ Sample Resultados Qualitativos Referência

Métodos

Usados

Fusão 3

métodos21 Minas 7 Objetos

IR 21 Minas 7 Objetos

detetor

metal21 Minas 7 Objetos

GPR 21 Minas 7 Objetos

Resultados numéricos teóricos para a reconstrução do

scattered field associado a um condutor perfeito.

Resultados para a taxa de convergência de forma a testar a

qualidade desta reconstrução (erros menores de 1%)

Depois de 25 iterações (Green’s Matrix) obtém-se a

reconstrução bastante aproximada da true scatter

1,5 3 5 8

81,2 86,6 98,9 95,3

97,2 50,5 63,8 77,7

44,4 33,3 44,4 77,7

60 83,3 80 73,3

66,6 70 83,3 70

6,6 13,3 23,3 33,3

Imagens obtidas na banda do

visível

3

Parcialmente

Visíveis

1

5

6

2013 Sem resultado quantitativos SR

2013

Latas de metal simulando minas

antipessoais.Melhores resultados quando UAV voa a altitude de 1m.

Resultados mais estáveis a uma velocidade média de

8Km/h (2.2m/s)

ExperienciaAltitude(m)

Resultados(%)

SRVisíveis

1

2Castiblanco, C.

Deteção minas vísseis e/

ou parcialmente

enterradas (Visual

Recognition)

Velociadade(Km/h)

SR

Shimoi, N.Imagens infravermelho

térmico

Imagens infravermelho térmico

convertidas em imagens 768 por

600 pixeis

Deteçaõ apenas de 3 das 6 minas enterradas

Erro Localização x x x

Cenário 2Falsos Positivos 3 1 0

Erro Localização 1 cm x

2007 Delbary F.

Inverse electromagnetic

scattering num meio de

duas camadas

/* dúvida pois diz no artigo

inducted voiltage Campo

eletromagético medido sobre

uma grelha rectangular

Sem resultado quantitativos

1,5 cm

Cenário 3Falsos Positivos 2 0 0

2004 Prado J.

Fusão de sensores:

Detetor de metal (triple

coil ) e sensor de gás

3 cenários diferentes coda um

com uma área de 0,75 metros por

0,85 metros de terra contendo um

ou mais objetos enterrados.

Um fusão Baysiana proposta reduz significativamente a

taxa de falsos alarmes, normalmente alta. Foram obtidas

taxas de deteção de 100% e um erro médio absoluto para

a localização de 3 cm. (Ver resultados Quantitativos)

Detetor Metal Sensor Gás Fusão

Cenário 1Falsos Positivos 1 2 0

Erro Localização 1 cm x 3 cm

Resultados Quantitativos

2003 Milisavljevic, N.

Fusão de sensores:

Detetor de metal, camera

térmica e GPR

Dados reais fornecidos pelo TNO

Physics and Electronics Laboratory

referentes ao projeto Dutch HOM-

2000

Modelo de dois níveis, o primeiro determina se o objeto em

análise é constituido por metal e o segundo analisa se

estamos na presença de uma mina ou de um objeto que

não apresenta perigo.

Dados Reias Detetados Falsos Positivos

SR

19 Minas 1 Mina

15 Minas 2 Minas

18 Minas 4 Minas

19 Minas 5 Minas

SR

Tabela A.2: Resumos dos artigos referentes ao estado da arte da dissertação (Parte 2).

Page 99: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

79

Tabela A.3 – Resumos dos artigos referentes ao estado da arte da dissertação (Parte 3).

Ano Autor Método usado Dataset/ Sample Resultados Qualitativos Referência

2015 Ali, A. M.Neutron Backscattering

Technique

Imagens recolhidas por um

detetor constituido por 16

posições sensiveis ao neutrão

Hélio 3 sendo a resolução igual

ao comprimento do detetor

dividido pelo númeor de

posições, 500mm/16 = 31mm

Deteção até profundidade 10cm. Intensidade do fluxo igual

a 4,59% quando a mina é encontrada nas extremidades do

sistema de deteção e igual a 1,49% quando é detetada no

canto do sistema

SR

TV

L1 norm

SAR

TV-SAR

L1-SAR

Resultados referentes aos métodos matemáticos usados no

processamento das imagens.

Em VNIR obteve-se a deteção de minas à superfície usando

assinaturas espetrais, no entanto não existem muitas

características espetrais distintas comparando com

imagens SWIR. SWIR tendo mais características espetrais

faz com que aumente a sua taxa de deteção. Imagens na

banda do TIR mostram-se como bastante promissoras na

deteção de minas enterradas.

2015 Makki I. Imagens Multi espetrais

Imagens multi espetrais nas

bandas do Infravermelho

estreino visível (Visible Narrow

Infra-Red), infravermelho de onda

curta (Short Wave IR) e

infravermelho térmico (Thermal

IR)

[8]

PSNR

Sem resultado quantitativos

0,0016

800 minas

0,002

0,002

0,006

0,0021

0,002

MSR

600 minas

0,0014

0,015

0,0031

0,0016

800 minas

26,8

26,9

22,4

SR

0cm - fluxo 100% (3,458e-4n/cm2)

5cm - fluxo 26,8%

10cm - fluxo 7,5%

15cm -fluxo 3,7% (Imp. deteçao)

2015 Elkazaz S.Imagens Infravermelho

térmico

Simulação de imagens tipo

satélite de baixa resolução (100

metros por pixel) constituídas

com a mesma participação por

pixel de um típico campo de

minas anti-tank

Geração de uma imagem térmica realística, de alta

resolução de um campo de minas, derivada de muitas

imagens de satélite simuladas de baixa resolução.

Necessário existência de maior quantidade de imagens de

satélite para o desenvolvimento de melhores algoritmos de

super-resolução. Performance melhor do que um palpite

aleatório.

Técnica

Resultados Quantitativos

2014 Esposito S. Deteção Térmica

Variações de Temperatura,

recolhidas aquando o

aquecimento segundo infrared

heaters

Duas alternativas para o processamento dos dados

obtidos:

Análise Contraste da Temperatura - Problemas derivados

às propriedades de diferentes objetos e solos

Deteção dinâmica - Deteção mais robusta e melhor

contraste.

Sem resultado quantitativos

27,8

29,9

SR

26,6

26,4

600

minas

28,3

28,2

25,7

Tabela A.3: Resumos dos artigos referentes ao estado da arte da dissertação (Parte 3).

Page 100: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

80

Tabela A.4 – Resumos dos artigos referentes ao estado da arte da dissertação (Parte 4).

Ano Autor Método usado Dataset/ Sample Resultados Qualitativos Referência

Intensidade luminescente definida por um sinal

normalizado a 100% no tempo inicial, diminuindo

aproximadamente 6% no final de 200 segundos para

polímero Super Yellow e 4,5% para o polímero de

polifluoreno.

0 50 100 150 200

100 99 97,5 95,5 94

100 99 97,8 96,5 95,5

2016 Krylov V.

Difusão de ondas de

Rayleigh (scattering of

Rayleigh waves)

Análise da difusão de ondas de

Rayleight quando interagidas

com irregularidades à superfície

ou enterradas.

Resultados teóricos baseados na estimação das

amplitudes na difusão das ondas de Rayleigh. Mostra-se

ainda que estas amplitudes dependem da profundidade a

que as minas estão enterradas

[5]

0,7

0,74

Taxa de Deteção (%)

77

89

90

94

Tempo de Deteção (%)

209

197

202

198

[1]

Sem resultado quantitativos

2017 Makki I. Imagens Multi-espetrais

Revisão de projetos que usaram

imagens multi-espetrais para

deteção de minas

De forma a obter uma deteção rigorasa e fidedigna um

estudo comparativo entre algoritmos de classificação em

condiçoes diferentes terá de ser feito.

A ter em consideração: Altura das imagens, número de

pixeis em cada frame, velocidade da camera.

Sem resultado quantitativos

SR

Camaras CMOS como sistemas adequados na deteção

ótica de vapores de explosivos. Sistema leve e barato para

a sua sensibilidade.

2016 Kaya S.Imagens infravermelho

térmico

Imgens na banda do

infravermelho térmico de quatro

conjuntos de dados provenientes

de dois campos de minas

O período em que se obtiveram melhore resultados na

deteção prende-se aproximadamente ao intervalo de tempo

de duas horas antes e depois do pôr-do-sol/ amanhecer.

Aumentanto do training set , diminuimos a taxa de falsos

positivos em todos os algorítmos testados.

Necessidade futuros testes em ambientes reias, terrenos

rugosos com vegetação, chuva, neve, entre outros.

[41]

Periodo das Imagens

4:45 – 7:45

(3 horas)

4:00-7:15

(3 horas 15 minutos)

21:00 – 06.45

(9 horas 45 minutos)

17:00-20:00

(3 horas 15 minutos)

Taxa de falsos

alarmes (%)

0,62

0,88

Resultados Quantitativos

2016 Gillanders R.

Monotorização do efeito

de excitação aos vapores

libertados por uma

camara CMOS

Polímeros conjugados de

polifluorenos e Super Yellow,

preparados em laboratório para

detetar dinitrobenzeno (DNB)

Tempo (s)

Intensidade Super Yellow (%)

Intensidade Polifluoreno (%)

Tabela A.4: Resumos dos artigos referentes ao estado da arte da dissertação (Parte 4).

Page 101: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

81

Apêndice B

Tabela B.1 - Resumo dos projetos que usaram imagens multi-espetrias/ híper-espetrais como

técnica de deteção de minas terrestres. Adaptada de [1]

Projeto Tipos de dados Método Usado Comentários

Deteção de minas à superfície

usando algoritmos de

processamento de imagem

hierárquico (DRDC)

Imagens

Monocromáticas

de Infravermelho

Processamento de

imagem Hierárquico

Método útil como fase posterior ao processamento de imagens híper-

espetrais de alta altitude, após o pré-processamento a fim de reduzir a

imagem híper-espetral a uma única banda.

Deteção de minas à superfície

usando VNIR (DRDC) VNIR

Linear Cross

Correlation (LCC) &

Linear Unmixing

Minas à superfície apresentam uma forma consistentes na banda VNIR;

LCC funciona bem em caso de imagens de alta resolução; Técnicas de

Unmixing têm maior probabilidade de deteção à custa de uma maior

taxa de falsos positivos.

Deteção de minas enterradas

usando VNIR (DRDC) VNIR LCC

Usando a banda VNIR, as minas enterradas não são detetadas

diretamente, no entanto é possível detetar mudanças no solo e na

vegetação devido à colocação das mesmas.

O Efeito da Spatial Resolution

na deteção de minas (DRDC) VNIR

LCC & Orthogonal

subspace projection

(OSP)

LCC é melhor quando o tamanho do pixel é menor do que o tamanho da

mina; OSP é melhor quando o tamanho da mina é menor do que o

tamanho do pixel. Melhores resultados quando ambos são combinados.

Deteção de minas à superfície

em tempo real usando VNIR

(DRDC)

VNIR Processamento de

imagem em pipeline

Os algoritmos apresentados e propostos, provam a possibilidade da

deteção de minas terrestres em quasi real time usando uma plataforma

aerotransportada.

Deteção de minas usando

SWIR (DRDC) SWIR LCC

Á semelhança de VNIR, o uso de SWIR auxilia a deteção de minas à

superfície ou recentemente enterradas.

Múltiplos sensores colocados

num robot (DRDC)

Fusão de VNIR,

SWIR, IR térmico

e outros sensores

Detetor dinâmico de

proximidade e

aprimoramento de

contraste

Sistema proposto usando imagens híper-espetrais para um detetor de

minas AP de proximidade.

Imagens híper-espetrais ativas

(DRDC/Itres) VNIR

Casi imager com

intensificador

Com o uso de iluminação externa, a taxa de falsos alarmes aumenta

consonante o aumento da refletividade do fundo.

Projeto Equinox Fusão de SWIR e

Visível

Índice de vegetação

com tresholded ratio

Maior número de bandas usando diferentes técnicas podem melhorar os

resultados.

Projeto DARPA

Mid-wave IR

(MWIR) e Long-

wave IR (LWIR)

Comparação espetral LWIR e MWIR são bastantes promissores para detetar minas

enterradas.

Programa de Sensor multi-

espetral conjunto

VNIR, SWIR,

MWIR, LWIR

Transformada de

Fourier

Sensores térmicos beneficiam a deteção em ambiente noturno. A banda

LWIR é mais eficaz do que a MWIR.

Projeto DSTL VNIR PCA Maior número de testes e aplicação de outros algoritmos devem ser

testados de forma a classificar a eficácia da banda VNIR.

Teste Indiano para detetar

minas usando imagens IR IR

Processamento de

imagem Hierárquico

Um maior número de imagens é necessário para treinar a rede neural.

Um classificador mais complexo poderá ser usado.

Projeto NATO VNIR, SWIR,

MWIR, LWIR

Processamento de

imagem Hierárquico

Os Radares aerotransportados são menos suscetíveis para a deteção

de minas. Combinação de várias bandas é necessária para ultrapassar

problemas relacionados com a meteorologia. Paralelamente, o

melhoramento dos algoritmos e técnicas é necessário.

FOI (MOMS)

VNIR, SWIR,

MWIR, LWIR, 3D

LADAR

Deteção de anomalias

e SVM

Imagens híper-espetrais são úteis para a deteção automática de minas

descobertas ou parcialmente enterradas. A escolha do sensor e dos

algoritmos usados deve depender das condições ambientais e

operacionais

TELOPS LWIR

Separação da

Emissividade de

temperatura, Linear

Unmixing

O solo por cima da mina está a uma temperatura superior em relação ao

restante solo. Informação complementar é necessária de forma a reduzir

a taxa de falsos positivos

Tabela B.1: Resumo de projetos que fazem uso de imagens multi-espetrias/ hiper-espetrais

Page 102: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

82

Page 103: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

83

Apêndice C

Exemplos de figuras relativas à profundidade limite à deteção de objetos enterrados pelo

sistema divididos nos dois diagramas/ tipos de minas. De forma a rentabilizar o tempo e as experiências

outdoor, considerou-se que não seriam obtidas imagens outdoor de objetos enterrados a partir das

profundidades limites obtidos em indoor

Campos indoor/ outdoor; diagrama AP – Limite = 5 [mm]

• Areia do Rio 5 [mm]

Figura C.1: Figura representativas da profundidade limite de 5 [mm] para a deteção do sistema para campos indoor e

diagrama AP. Em cima da esquerda para a direita, Canal 1, 2 e 3. Em baixo, à esquerda espetro visível, à direita TIR

• Areia do Mar 5 [mm]

Figura C.2: Figura representativas da profundidade limite de 5 [mm] para a deteção do sistema para campos indoor e

diagrama AP. Em cima da esquerda para a direita, Canal 1, 2 e 3. Em baixo, à esquerda espetro visível, à direita TIR

Page 104: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

84

Campos indoor/outdoor; diagrama AC – Limite = 10 [mm] para areia do rio, areia do

mar e terra batida/ Limite = 100 [mm] para as britas

• Terra Batida 10 [mm]

Figura C.3: Figura representativas da profundidade limite de 10 [mm] para a deteção do sistema para campos indoor e

diagrama AC. Em cima da esquerda para a direita, Canal 0, 1 e 2. Em baixo, à esquerda espetro visível, à direita TIR

• Mistura de solos (britas) 100 [mm]

Figura C.4: Figura representativas da profundidade limite de 100 [mm] para a deteção do sistema para campos indoor e

diagrama AC. Em cima da esquerda para a direita, Canal 0, 1 e 2. Em baixo, à esquerda espetro visível, à direita TIR

Page 105: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

85

Apêndice D

Gráficos referentes ao processo de treino dos melhores resultados obtidos para cada um dos

ambientes e diagramas (Figura C.1-4) e respetiva legenda (Figura C.5). Gráficos retirados da

ferramenta Monitor Deep Learning Progress.

Figura D.1: Processo de treino da CNN referente a indoor AP para 64/128/256 Filtros

Figura D.2: Processo de treino da CNN referente a indoor AC para 16/32/64 Filtros

Figura D.3: Processo de treino da CNN referente a outdoor AP para 64/128/256 Filtros

Page 106: Engenharia Eletrotécnica e Computadores€¦ · v Agradecimentos Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível graças ao

86

Figura D.4: Processo de treino da CNN referente a outdoor AC para 64/128/256 Filtros

Figura D.5: Legenda dos gráficos dos processos de treino das CNNs