p e d r o v i t o r b a p t i s t a d e m o u r a r e c ...tg/2019-1/tg_ec/pedro_victor...s u már i...

UNIVERSIDADE FEDERAL DE PERNAMBUCO

CENTRO DE INFORMÁTICA

CURSO DE BACHARELADO EM ENGENHARIA DA COMPUTAÇÃO

PEDRO VITOR BAPTISTA DE MOURA

RECONHECIMENTO DE GESTOS REAIS E IMAGINÁRIOS A

PARTIR DE SINAIS ELETROENCEFALOGRÁFICOS UTILIZANDO

METACLASSIFICADORES

RECIFE

2019

UNIVERSIDADE FEDERAL DE PERNAMBUCO

CENTRO DE INFORMÁTICA

CURSO DE BACHARELADO EM ENGENHARIA DA COMPUTAÇÃO

PEDRO VITOR BAPTISTA DE MOURA

RECONHECIMENTO DE GESTOS REAIS E IMAGINÁRIOS A

PARTIR DE SINAIS ELETROENCEFALOGRÁFICOS UTILIZANDO

METACLASSIFICADORES

1

AGRADECIMENTOS

Agradeço a esta universidade pela oportunidade de estudar e me proporcionar um

ambiente de crescimento não só intelectual, mas como pessoal.

Ao professor Wellington Pinheiro dos Santos pela atenção, dedicação, além de uma

extrema competência no que faz, e como meu orientador. Por ter tido paciência e me guiado

por todo o processo, fazendo com que o período não fosse estressante.

Agradeço aos meus amigos Fernando Castelo Branco, Antônio Padilha e Gabriella

Caldas por me aguentarem por todos esses anos, e estarem sempre a disposição para qualquer

problema.

À Ingrid Nunes, que fez parte da minha vida durante bons e maus momentos, que

mesmo após o fim do nosso relacionamento esteve me ajudando a me tornar uma pessoa

melhor. Também agradeço por ter me apresentado ao professor Wellington, pois caso

contrário este trabalho não teria sido realizado.

Por fim, agradeço a minha família, pois sem o apoio e amor incondicional deles, eu

não estaria mais vivo para poder finalizar este capítulo da minha jornada. Em especial minha

mãe, por ter me guiado e puxado meu pé quando necessário para eu não perder o foco, além

de me ensinar o valor da palavra sacrifício.

3

RESUMO

Interfaces cérebro-máquina vêm sendo cada vez mais utilizadas para tratamentos de

reabilitação de movimentos perdidos parciais, e totais, como uma alternativa para a

fisioterapia. Algoritmos de aprendizagem de máquina são utilizados para garantir uma

classificação do sinal de uma forma simples e elegante. Neste trabalho de graduação serão

investigados e implementados diferentes formas de classificadores como árvores de decisão,

utilizando de comitês, stacking e bagging para reconhecimento de sinais

eletroencefalográficos.

Palavras-chave: Interfaces cérebro-máquina, eletroencefalograma, redes neurais, florestas

aleatórias, metaclassificadores.

4

Sumário

1. Introdução 9

1.1. Motivação 9

1.2. Estado da Arte 10

1.3 Objetivos 11

2. Conceitos Básicos 12

2.1. Sinal Eletroencefalográfico 12

2.2 Aprendizagem de Máquina 19

3. Metodologia 28

3.1 Banco de Dados 28

3.2 Experimento 30

3.3 Ambiente 45

4. Resultados 46

4.1 Acurácia 46

4.2 Tempo de Execução 50

4.3 Kappa 58

4.4 Raiz-Quadrada do Erro Médio e Número de Falsos Positivos 63

5. Conclusão 68

5.1 Trabalhos Futuros 68

6. Referências Bibliográficas 70

5

Lista de Figuras

Figura 2.1: Exemplos de diferentes ritmos de atividade elétrica cerebral. 18 Figura 2.2: EEG de um adulto com olhos abertos e depois fechados. 18 Figura 2.3: Diferentes EEG mostrando anormalidades nas suas formas de ondas em adultos com diferentes tipos de epilepsia. 19 Figura 2.4: O sistema recomendado pela Federação Internacional das Sociedades EEG. 20 Figura 2.5: Desenho de um perceptron. 21 Figura 2.6: Exemplo de MLP. 22 Figura 2.7: Exemplo de SVM. 23 Figura 2.8: Exemplo de uma árvore de decisão. 25 Figura 2.9: Grafo representando a rede do ladrão 27 Figura 3.1: Representação da saída de um EEG. 30 Figura 3.2: Configuração de uma MLP utilizando o WEKA. 31 Figura 3.3: Planilha resultado da classificação através de um MLP com 50 neurônios. 33 Figura 3.4: Exemplo das configurações de uma SVM no WEKA. 34 Figura 3.5: Saídas geradas por uma SVM Linear no WEKA. 35 Figura 3.6: Configuração de uma Random Tree no WEKA. 36 Figura 3.7: Planilha contendo as saídas da árvore aleatória no WEKA. 37 Figura 3.8: Configurações de uma floresta aleatória no WEKA. 38 Figura 3.9: Planilha com algumas saídas de uma Random Forest com 10 árvores no WEKA. 39 Figura 3.10: Configurações aplicada a uma Rede Bayesiana no WEKA. 40 Figura 3.11: Planilha contendo os resultados de uma Rede Bayesiana no WEKA. 41 Figura 3.12: Configurações do Bagging no WEKA. 42 Figura 3.13: Configurações do Stacking no WEKA. 43 Figura 3.14: Configurações do Voting no WEKA. 44 Figura 3.15: Exemplo do ambiente experimental do WEKA. 45 Figura 4.1: Resultados gráficos da acurácia das SVMs. 47 Figura 4.2: Diagramas de caixa das florestas aleatórias de 10 a 50 árvores. 48 Figura 4.3: Diagrama de caixa das florestas aleatórias de 60 a 100 árvores. 48 Figura 4.4: Representação gráfica das MLPs e da rede bayesiana. 49 Figura 4.5: Resultados da árvore aleatória e dos metaclassificadores aplicados. 50 Figura 4.6: Diagrama de caixas para florestas aleatórias com 10 a 50 árvores. 52 Figura 4.7: Diagrama de caixas para florestas aleatórias com 60 a 100 árvores. 53 Figura 4.8: Diagrama de caixas para SVMs de grau 3 e RBF, rede bayesiana e árvore aleatória. 54 Figura 4.9: Diagrama de caixas das MLPs e SVMs de grau 2 e linear. 56 Figura 4.10: Diagrama de caixas dos metaclassificadores. 57 Figura 4.11: Diagrama de caixas dos kappas das SVMs. 58 Figura 4.12: Diagrama de caixas dos kappas das florestas aleatórias com 10 a 50 árvores. 59 Figura 4.13: Diagrama de caixas dos kappas das florestas aleatórias com 60 a 100 árvores. 59 Figura 4.14: Diagrama de caixas dos kappas das MLPs e rede bayesiana. 60 Figura 4.15: Diagrama de caixas dos kappas dos metaclassificadores e da árvore aleatória. 61

6

LISTA DE TABELAS

Tabela 1 - Valores dos RMSEs dos metaclassifcadores e árvore aleatória 62 Tabela 2 - Valores dos RMSEs das MLPs e rede bayesiana 62 Tabela 3 - Valores dos RMSEs das SVMs. 62 Tabela 4 - Valores dos RMSEs das florestas aleatórias de 10 a 50 árvores. 63 Tabela 5 - Valores dos RMSEs das florestas aleatórias de 60 a 100 árvores. 63 Tabela 6 - Número de falsos positivos dos metaclassificadores e árvore aleatória. 64 Tabela 7 - Número de falsos positivos das MLPs e rede bayesiana. 64 Tabela 8 - Número de falsos positivos das SVMs. 64 Tabela 9 - Número de falsos positivos das florestas aleatórias de 10 a 50 árvores. 65 Tabela 10 - Número de falsos positivos das florestas aleatórias de 60 a 100 árvores. 65

7

TABELA DE SIGLAS

Sigla Significado Página

ICM Interface cérebro-máquina 11

AM Aprendizagem de Máquina 11

EEG Eletroencefalograma 12

LDA Linear Discriminant Analysis 12

SMU Unidade Motora Singular 15

EMG Eletromiograma 15

ECG Eletrocardiograma 15

EOG Eletrooculograma 16

AI Inteligência Artificial 20

MLP Multilayer Perceptron 20

SVM Máquina de Vetor Suporte 23

RBF Função de Base Radial 24

8

1. Introdução

1.1. Motivação

Um problema constante e atual, é a perda de movimentos, tanto parciais, vítimas de

derrames por exemplo, ou totais, como pacientes com membros amputados, paraplégicos e

tetraplégicos.

Para a maioria dos casos de perda de movimentos, o tratamento recomendado é ainda

a fisioterapia, porém por se tratar de um trabalho repetitivo, onde o paciente precisa participar

de várias sessões e o resultado vem de forma lenta, causando desestímulo por parte dos

pacientes a continuar pois acreditam que não irão progredir [1]. Com o desenvolvimento de

tecnologias, surge um novo ramo para reabilitação de pacientes que sofrem com perda de

movimentos que são as interfaces cérebro-máquina (ICM).

Nos últimos anos as aplicações voltadas para as interfaces cérebro-máquina se

expandiram [2] e dentre as possíveis aplicações, o comando de próteses, de exoesqueletos e

de jogos digitais, possuem um papel importante. Para jogos digitais, é uma realidade que irá

se expandir em breve com o desenvolvimento de headsets capazes de realizar a leitura, o que

muda completamente a visão de lazer de hoje [3]. O comando de próteses e exoesqueletos,

permite aos pacientes que sofreram algum tipo de perda de movimento uma alternativa para

fisioterapia, com isso eles conseguem obter a reabilitação do movimento perdido sem a

exaustão causada pelo tratamento fisioterápico.

Como a proposta de uma ICM é fazer a transmissão dos sinais cerebrais à máquina, o

desempenho é diretamente ligado a uma boa captura e reconhecimento da atividade cerebral,

especialmente o eletroencefalograma (EEG), onde os eletrodos têm função de captar a

atividade e transmitir o sinal. Para garantir um melhor desempenho, algoritmos são usados

para interpretação dos sinais capturados, e uma maneira que vem sendo bastante utilizada é

aprendizagem de máquina (AM) [4]. A vantagem de utilizar AM é poder utilizar de conjuntos

de testes e treinamento para as amostras provenientes do EEG, e utilizar de métodos

classificatórios para poder determinar o valor da informação medida.

9

O número de algoritmos de AM que podem ser utilizados para o reconhecimento de

sinais eletroencefalográficos é cada vez maior, e cada um possui suas particularidades; como

tempo de execução, taxa de acerto, por exemplo. No meio de tantas abordagens diferentes,

achar um método ideal para aplicar a uma ICM, deve ser prioridade.

1.2. Estado da Arte Para este problema, muitos autores decidiram propor uma solução ideal para o

treinamento e captura do sinal. Os trabalhos têm como foco, apontar melhorias criadas pela

proposta dos mesmos.

Sagee (Sagee, e Hema, 2017), comenta da correlação entre as diferentes áreas do

cérebro, e leva em consideração essa premissa para realização do seu experimento. Para isso,

ele realiza o treinamento e classificação das amostras utilizando rede bayesiana e redes

neurais artificiais (RNA).[5] O problema dessa abordagem é o escopo limitado de algoritmos

utilizados para classificação dos sinais, outro ponto é que os autores levam em consideração a

acurácia como um ponto de melhoria e não analisa outros parâmetros chaves para determinar

uma melhor abordagem.

O trabalho de Nicolas-Alonso (Nicolas-Alonso, Corralejo, Gómez-Pilar, Álvarez, e

Hornero, 2014), cita a problemática em classificar sinais provenientes de um

eletroencefalograma e propõe um framework de classificação utilizando um modelo de

aprendizagem ensemble, modelo este, que garante uma melhoria no kappa em 0.04,

superando a classificação por análise de discriminantes lineares (LDA).[6] Apesar da

melhoria do resultado comparado à outro classificador, por se tratar de uma classificação

utilizando metaclassificadores não há uma base de informações grande o suficiente para

garantir que é o melhor resultado, além disso, o parâmetro foco pelo trabalho foi o kappa,

deixando de lado parâmetros como tempo de execução.

Também proposta por Nicolas-Alonso (Nicolas-Alonso, Corralejo, Gómez-Pilar,

Álvarez, e Hornero, 2015), um novo algoritmo chamado de stacked regularized linear

discriminant analysis (SRLDA), que garante uma melhora da classificação por LDA.[7]

Apesar dos bons resultados, este trabalho sofre dos mesmos problemas do anterior.

10

A proposta de Rahimi (Rahimi, Zarei, Nazerfard, e Moradi, 2016), utiliza de

metaclassificadores para uma melhoria da acurácia [8], e assim como Nicolas-Alonso, o

trabalho utiliza de um número limitado de algoritmos para propor uma solução ideal, além de

ter como foco apenas o parâmetro da acurácia.

Donovan (Donovan, e Yu, 2018), Wu (Wu, Liu, Chou, et al, 2016) e Herman

(Herman, Prasad, e McGinnity, 2017), propuseram diferentes tipos de sistemas fuzzy para

melhoria na classificação dos sinais. Donovan propõe utilizar transformada discreta nas

formas de onda capturadas, em conjunto com sistema fuzzy tipo TSK (i.e.

Tagaki-Sugeno-Kang). [9] A proposta do trabalho é lidar com inconsistências nas

informações medidas e apesar de satisfatórios, o trabalho não prever o melhor método. Já Wu,

utiliza de análise de discriminantes lineares múltipla (MLDA) em conjunto com o sistema

fuzzy que utiliza inteligência de enxame para optimização, com isso obtendo uma melhoria na

área sob a curva ROC. [10] Como outros trabalhos citados nesta seção, o método proposto

foca na melhoria em apenas um parâmetro, não avaliando outros parâmetros de mesma

importância. Finalmente, o trabalho de Herman propõe um sistema tipo-2 fuzzy, e assim como

o modelo de Donovan, garante lidar com inconsistências provenientes do sinal

eletroencefalográfico, além disso, cita uma melhoria quando comparado à utilização de uma

LDA. [11]

1.3. Objetivos

O objetivo deste trabalho é fazer o reconhecimento de gestos provenientes de sinais

eletroencefalográficos e classificar, utilizando diferentes abordagens, com o propósito de

realizar uma comparação estatística e obter uma melhor abordagem. Os métodos escolhidos

foram: máquinas de vetor suporte, multilayer perceptrons, florestas aleatórias, árvore

aleatória, rede bayesiana, além dos metaclassificadores, bagging, stacking e voting.

1.3.1. Objetivos Específicos

● Realizar o treinamento da máquina utilizando os algoritmos citados acima.

● Analisar os resultados através de diagramas de caixa e tabelas para quantificar

a melhor solução.

11

2. Conceitos Básicos

Neste capítulo, são introduzidos alguns termos e conceitos utilizados ao longo deste

trabalho. Na Seção 2.1, será descrito o tipo de sinal utilizado, assim como o aparelho utilizado

para captura e geração dos dados do banco. A Seção 2.2 traz os conceitos relacionados à

aprendizagem de máquina, redes neurais e outros classificadores, além de conceitos

relacionados aos metaclassificadores.

2.1. Sinal Eletroencefalográfico 2.1.1 Sinal Biológico

Para entender o que é um sinal eletroencefalográfico e como este pode ser capturado, é

necessário uma discussão sobre o que são sinais biológicos. Sinais biológicos, ou biosinais,

são uma coleção de registros em função do espaço-tempo de um evento biológico [12] tal

como o evento de piscar os olhos. As atividades elétricas, químicas e mecânicas que ocorrem

durante esses eventos podem ser medidas e analisadas utilizando uma grande variedade de

maneiras dependendo do tipo específico do sinal [12].

Os sinais biológicos podem ser categorizados de 6 formas: Sinais biomagnéticos,

sinais biomecânicos, sinais bioquímicos, sinais bioacústicos, sinais bióticos e sinais

bioelétricos. [12]

● Sinal Biomagnético: Alguns tipos de órgãos, como coração, cérebro e pulmão,

conseguem produzir campos magnéticos de uma magnitude menor que a dos

sinais elétricos produzidos pelos mesmos. O biomagnetismo é a medida desses

sinais que são geralmente conectados com o campo elétrico de um determinado

tecido ou órgão.

● Sinal Biomecânico: São sinais que são gerados a partir de qualquer função

mecânica de um sistema biológico. Movimento, tensão, pressão, força e fluxo

12

são exemplos dessas funções. Mudanças na pressão do sangue e da expansão

do pulmão no ato de inspirar/expirar podem ser medidos e analisados.

● Sinal Bioquímico: A informação contida com a mudança na concentração de

íons como sódio e cálcio no sangue pode ser encontrada nos sinais

bioquímicos. A mudança na pressão parcial do oxigênio no sistema respiratório

também podem ser analisados através dos sinais. Em geral, os sinais

bioquímicos contém informação sobre mudança na concentração de agentes

químicos no corpo, e podem ser medidos e analisados para poder determinar

níveis de glicose, lactose, colesterol em um corpo.

● Sinal Bioacústico: Envolve a produção sonora, a dispersão no meio ambiente

e a recepção através de um sistema auditivo.

● Sinal Biótico: Sinais gerados a partir da indução de luz nos atributos óticos de

um sistema biológico.

● Sinal Bioelétrico: Mudanças eletroquímicas entre células resultam em

produzir sinais bioelétricos. Células nervosas e musculares são tipos de células

que produzem este tipo de sinal caso haja um estímulo forte o suficiente para

atingir a janela necessária. Potencial de ação representa o fluxo de íons através

de uma membrana celular e pode ser transmitido de uma célula para as suas

adjacentes através seu axônio. Quando muitas células estão ativas é gerado um

campo elétrico que é propagado por todo o tecido biológico.

2.1.2 Sinal Bioelétrico

Como visto na seção anterior, sinal bioelétrico é uma subdivisão dos sinais biológicos

e são produzidos como resultado de atividades eletroquímicas em células excitáveis, que são

componentes de tecidos nervoso, muscular ou glandular. Essas células produzem um

potencial de repouso e, quando estimuladas, um potencial de ação.

No estado de repouso, é mantido uma diferença de potencial elétrico entre -40 e

-90mV entre as regiões internas e externas. Para manter esse estado estável iônico entre as

partes internas e externas, é necessário um transporte ativo contínuo de íons. Esse mecanismo

de transporte pode ser encontrado na membrana.

O outro estado é o ativo, e este tem a habilidade de conduzir um potencial de ação

quando propriamente estimulado. Para ser considerado adequado, o estímulo precisa causar

13

uma despolarização na membrana celular que seja o suficiente para exceder o seu potencial

limite e assim criando o potencial de ação. O potencial viaja a uma velocidade constante por

toda a membrana. No estado de repouso a membrana celular está polarizada, por causa do seu

potencial de repouso estável, uma diminuição na magnitude da polarização é uma

despolarização e um aumento é chamado de hiperpolarização. [13]

Um sinal bioelétrico pode ser dividido em categorias como: Eletromiográfico,

eletrocardiográfico, eletrooculográfico e eletroencefalográfico.

● Eletromiograma (EMG): É o estudo de uma atividade elétrica, seja essa

normal ou anormal, do músculo. Exemplos são contrações musculares. Fibras

musculares ativas de uma unidade motora singular (SMU) constitui em uma

fonte elétrica distribuída localizada em um condutor que possui todas as outras

fibras do músculo, sejam essas ativas ou inativas. O campo potencial criado

por fibras ativas de um SMU tem uma variação de amplitude entre 20 e

2000µV. O potencial de ação nervoso, que se propaga sobre o nervo motor e

inervações do músculo, causa a ativação de um potencial de ação muscular,

este causa a liberação de íons de cálcio na fibra muscular, que acarreta em um

aumento do nível o que gera a contração.

● Eletrocardiograma (ECG): O ECG consiste no monitoramento da atividade

elétrica do coração relacionada aos seus movimentos de contração e

relaxamento, ou sístole e diástole. O coração é um tipo especial de músculo

que possui dois compartimentos superiores chamados de átrios, e dois

inferiores chamados de ventrículos, e a comunicação entre eles impulsiona o

sangue pelos vasos. O coração compreende diversos tipos diferentes de

tecidos, células representativas de cada um desses tecidos diferem

anatomicamente em um certo ponto e essas células são todas eletricamente

excitáveis. Antes da excitação o potencial de repouso da célula é de

aproximadamente -85mV, então vem a fase inicial de rápida despolarização

que tem uma taxa de crescimento de 150V/s, seguido então da fase inicial de

rápida repolarização, em um ciclo que dura aproximadamente entre 200 e

300ms. A repolarização restaura o potencial da membrana para o seu nível de

repouso. A duração da forma de onda do potencial de ação é conhecido como

sístole elétrica, enquanto que da fase de repouso é diástole elétrica. Doenças

14

cardiovasculares podem causar uma despolarização tardia do miocárdio e isso

pode ser observado em um dos segmentos do ECG.

● Eletrooculograma (EOG): Ao redor da órbita ocular existem pequenos

músculos e os movimentos relativos às suas atividades criam um potencial

elétrico e este pode ser medido através de pares de eletrodos localizados acima

e abaixo a cada olho para movimentos verticais e nas laterais para movimentos

horizontais. Os movimentos causam potenciais complementares formando um

dipolo elétrico. Diferente dos outros sinais bioelétricos, o EOG necessita de um

amplificador para poder ser medido, além disso ele sofre de falta de precisão

nas extremidades. Algumas de suas aplicações são reconhecimento de fases do

sono, auxilia no reconhecimento das fases através da relação com os

movimentos oculares durante o sono, e movimentos para estabilizar a imagem

na retina durante uma rotação da cabeça.

● Eletroencefalograma (EEG): O EEG é o registro da atividade elétrica criadas

pelas células nervosas do cérebro. Ao posicionar eletrodos no escalpo e

amplificando a atividade elétrica é possível medir o sinal. A variação de níveis

elétricos são chamadas de ondas cerebrais. Quando em uma área pequena do

córtex cerebral tem muita de suas células em atividade, gera o potencial

elétrico. Quando os potenciais em muitos neurônios se modificam de forma

síncrona, criam os ritmos do sinal. O ritmo alfa é o mais se destaca, foi o

primeiro ritmo a ser descrito e tomou esse nome pelo seu observador Berger,

geralmente varia entre 8 a 13Hz. Berger também observou ondas de baixa

amplitude e tensão, onde as atividades são em torno de 13 e 30Hz, e foram

chamadas de ondas Beta. Atividades cerebrais de frequência superiores a 30Hz

são chamadas de ondas Gama. Já ondas com frequência de 4 a 8Hz são

chamadas de ondas Teta. Atividades entre 0.5 e 4Hz, apesar de raras em

adulto, podem ocorrer, e as ondas foram denominadas Delta por Walter e

Dovey. Essa mudança de frequência está diretamente relacionado com a

atividade cerebral, onde ondas Delta são frequentemente encontradas em

pessoas que receberam anestesia cirúrgica, por exemplo. Em adultos saudáveis,

mudanças nos sinais eletroencefalográficos ocorrem de maneira regular com os

níveis de consciência. Exemplo disso é um adulto com olhos fechados,

15

relaxado e acordado, irá apresentar na sua maioria ondas Alfa, ao abrir os

olhos, a amplitude do sinal deverá cair, e isso ocorre por causa da estimulação

visual. Mais sobre o sinal eletroencefalográfico e como ele pode ser capturado

irá ser discutido na próxima seção.

2.1.3 Sinal Eletroencefalográfico

Apesar da atividade elétrica cerebral ser descrita desde o século 19, foi só com Hans

Berger que o termo eletroencefalograma foi introduzido. Há três tipos de eletrodos para a

captura das variações de potenciais: escapular, cortical e intracranial, porém por ser menos

invasivo o mais utilizado é o no escalpo. [13]

O sinal eletroencefalográfico representa a superposição dos campos potenciais

produzidos pela a atividade neuronal. Como visto na seção anterior, os registros elétricos da

superfície cerebral demonstram certos tipos de padrões de oscilação contínua na atividade

elétrica, gerando assim certos ritmos que variam tanto na amplitude, como na frequência. Na

Figura 2.1 pode observar que os diferentes padrões das ondas estão diretamente ligados ao

estado de relaxamento do ser observado, onde um adulto saudável excitado vai ter uma

predominância de ondas Gama, enquanto se estiver relaxado a maioria será Alfa, dormindo o

adulto irá apresentar ondas Teta e quando está em sono profundo pode encontrar padrões de

ondas Delta. Já na Figura 2.2 há uma comparação entre os padrões de atividades em um

adulto saudável, apenas com o ato de abrir e fechar os olhos. A amplitude da onda muda

instantaneamente com o fechar dos olhos e isso ocorre pela diminuição da intensidade da luz

na retina. O EEG dentre suas aplicações, pode ser usado para diagnosticar certos tipos de

enfermidades neurológicas, devido a alterações no comportamento das ondas, como é

observado na Figura 2.3, onde ondas podem apresentar uma amplitude maior do que o normal

50µV, como também podem apresentar padrões diferentes no comportamento da frequência.

16

Figura 2.1: Exemplos de diferentes ritmos de atividade elétrica cerebral.

Fonte: Muse, acessado em Mai 2019, https://choosemuse.com/blog/a-deep-dive-

into-brainwaves-brainwave-frequencies-explained-2/

Figura 2.2: EEG de um adulto com olhos abertos e depois fechados.

Fonte: Thinking Cap, acessado em Mai 2019, http://produceconsumerobot.com/thinkingcap/

17

https://choosemuse.com/blog/a-deep-dive-into-brainwaves-brainwave-frequencies-explained-2/https://choosemuse.com/blog/a-deep-dive-into-brainwaves-brainwave-frequencies-explained-2/http://produceconsumerobot.com/thinkingcap/

Figura 2.3: Diferentes EEG mostrando anormalidades nas suas formas de ondas em adultos

com diferentes tipos de epilepsia.

Fonte: A. C. Guyton, Structure and Function of the Nervous System, 2nd ed., Philadelphia:

W.B. Saunders, 1972.

Existem vários procedimentos para adquirir os sinais eletroencefalográficos, porém o

mais utilizado é o escapular, pois não exige cirurgia para abrir a cabeça do paciente, apenas o

posicionamento dos eletrodos ao redor do escalpo. Na Figura 2.4 demonstra o padrão

recomendado para obter uma boa aquisição do EEG, porém o número de eletrodos

posicionados ao redor do escalpo, pode variar para mais ou para menos, dependendo do

intuito da medição. Mesmo o escapular há diferentes formas de aplicar os eletrodos, onde uma

das formas é aplicando eletrodo por eletrodo nos pontos chave para obtenção do sinal, o que

requer abrasão da pele para melhor condutividade do sinal, além de um maior tempo para

dispor de todos os eletrodos conectados. Outra forma são tocas que já vêm com os eletrodos

conectados e não requer tricotomia, que às vezes é necessária para a primeira forma.

18

Figura 2.4: O sistema recomendado pela Federação Internacional das Sociedades EEG.

Fonte: H. H. Jasper, “The ten-twenty electrode system of the International Federation in

Electroencephalography and Clinical Neurophysiology.” EEG Journal, 1958, 10 (Appendix),

371-375.

2.2. Aprendizagem de Máquina

Para um melhor entendimento do experimento realizado, esta seção irá explicar sobre

os algoritmos de inteligência artificial utilizados, categorizando em classificadores e

metaclassificadores.

2.2.1 Multilayer Perceptrons

Para compreender sobre como funciona o modelo Multilayer Perceptrons (MLP), é

necessário entender antes o que é um perceptron. Do mesmo jeito que o cérebro humano

consiste em uma rede de neurônios, uma rede neural consiste em um conjunto de neurônios

artificiais , onde um único neurônio é conhecido como Perceptron.

O perceptron é construído em cima de um neurônio não-linear, conhecido como

neurônio de McCulloch-Pitts. A Figura 2.5 descreve o modelo de perceptron de Rosenblat,

onde um conjunto de entradas combinadas aos seus respectivos pesos são classificadas em 1

ou 0, ou -1 e 1, dependendo da função de ativação que esteja usando. A fórmula 2.1 mostra a

19

equação de um perceptron levando em consideração o seu bias, enquanto na equação 2.2

mostra a função de ativação do neurônio.

Figura 2.5: Desenho de um perceptron.

Fonte: Towards Data Science, acessado em Mai 2019,

https://towardsdatascience.com/what-the-hell-is-perceptron-626217814f53

(2.1)

(2.2)

O problema desse modelo, é que ele é extremamente simples e com isso é limitado

para resolver uma certa classe de problemas menos complexos. Para poder resolver problemas

com um alto grau de complexidade, e da mesma forma que um cérebro humano é composto

por bilhões de neurônios, existe um modelo que é composto por vários perceptrons, e este

modelo é o MLP.

O MLP consiste em um conjunto de unidades sensoriais, essas que são uma camada de

entrada, uma ou mais camadas intermediárias e uma camada de saída, cada camada pode

20

https://towardsdatascience.com/what-the-hell-is-perceptron-626217814f53

conter um ou mais perceptrons. O sinal de entrada se propaga pela rede indo em frente,

baseando-se nas camadas. Por esse motivo, MLPs são consideradas redes neurais do tipo

feedforward.[14]

Diferente dos Perceptrons, Multilayer Perceptrons obtiveram sucesso em solucionar

problemas difíceis do mundo real, utilizando de treinamento de maneira supervisionada e

aplicando um algoritmo popular conhecido como gradiente descendente (backpropagation).

Este algoritmo é composto por duas fases, a primeira fase é a ida, onde o vetor de entrada é

aplicado às unidades sensoriais e seu efeito se propaga pelas camadas até gerar o conjunto de

saídas correspondente. Na ida os pesos sinápticos das redes são fixos, enquanto que na

segunda fase, a volta, os pesos são ajustados de acordo com o erro da camada. O sinal de erro

é propagado da camada de saída até a camada de entrada, ajustando os pesos de acordo, por

isso é chamado de backpropagation. [14]

A Figura 2.6 mostra um exemplo de MLP, com duas camadas intermediárias, uma

com 4 e a outra com 3 neurônios, e a camada de saída com um neurônio.

Figura 2.6: Exemplo de MLP.

Fonte: Multilayer perceptron example, acessado Mai 2019,

https://github.com/rcassani/mlp-example

21

https://github.com/rcassani/mlp-example

2.2.2 Support Vector Machines

Support vector machines (SVM) são um tipo de rede feedforward, proposta por

Vapnik (Boser, Guyon, e Vapnik, 1992; Cortes e Vapnik, 1995; Vapnik, 1995, 1998), que

assim como MLPs, servem para classificação de padrões e regressão não-linear.

Ao pegar certos tipos de padrões separáveis, por exemplo, a SVM age de forma que

ela constrói um hiperplano como uma superfície de decisão de forma que a margem de

separação entre positivo e negativo são maximizados. Pode se dizer que SVMs são uma

implementação aproximada do método de minimização de risco estrutural. O princípio de

indução é baseado no que a taxa de erro de um conjunto de teste é limitado pela taxa de erro

de treinamento somado ao termo que depende da dimensão Vapnik-Chervonenkis (VC), onde

no caso de padrões separáveis a SVM retorna valor zero para o primeiro termo e minimiza o

segundo termo.[14]

Na Figura 2.7 é ilustrada a idéia de um hiperplano ótimo para separar linearmente os

padrões. No gráfico os vetores suporte cortam o plano para criar o hiperplano responsável

para a separação.

Figura 2.7: Exemplo de SVM.

Fonte: S. Haykin, Neural Networks: A Comprehensive Foundation, 2nd ed., Prince Hall

International, 1999.

22

SVMs podem ser classificadas de várias maneiras, essas maneiras são: SVMs

Lineares, SVMs Polinomiais e SVMs Função de base radial (RBF). No próximo capítulo será

detalhado mais a diferença entre os três tipos e a sua aplicação.

2.2.3 Árvores de Decisão

Árvores de decisão utilizam de classificação supervisionada. São construídas a partir

da estrutura de dados árvore, onde um nó superior é chamado de raiz, que gera segmentações

(i.e. ramos) conectando a nós intermediários, e desce até chegar aos nós sem filhos (i.e. nós

que não possuem nenhum ramo de saída) que são as folhas. Um nó representa uma

característica, enquanto que um ramo representa uma variedade de valores, essa variedade

serve de ponto de partição para um determinado nó.

Uma árvore de decisão é composta de dados pré classificados, a divisão em diferentes

classes é decidida pelas características que melhor dividem os dados. Dessa forma, os dados

podem ser separados de acordo com as características para os nós filhos, onde o processo será

repetido até que todos os nós possuam apenas dados da mesma classe.[15]

Inicialmente o nó raiz conterá todos os dados do conjunto de teste, cada um portando

determinadas características, após a primeira separação, cada um dos nós filhos irá conter

dados similares, após a n-ésima separação todas as folhas da árvore irão conter apenas

elementos da mesma classe, assim como é visto na Figura 2.8.

23

Figura 2.8: Exemplo de uma árvore de decisão.

Fonte: What is a decision tree?, acessado em Mai 2019,

https://www.displayr.com/how-is-splitting-decided-for-decision-trees/

Árvores de decisão podem ser categorizadas em diversas formas, para este trabalho,

apenas duas categorias serão discutidas: Random Trees e Random Forest.

● Random Tree: Árvores aleatórias, como o nome diz, são construídas

aleatoriamente a partir de um conjunto de possíveis árvores contendo um

número X de características aleatórias para cada nó. Cada árvore no conjunto

de possíveis respostas têm uma chance de ser escolhida igual às outras. Ou

seja, possuem uma distribuição uniforme. A combinação de um conjunto

grande de árvores aleatórias geralmente garante em modelos com uma alta

acurácia.[15]

● Random Forest: Foi desenvolvida por Leo Breiman [15]. Basicamente ao

selecionar de maneira aleatória amostras do conjunto de dados de teste, se cria

um grupo de árvores de regressão ou árvores de classificação sem podas.

Características aleatórias são selecionadas no processo indutivo, além disso,

predição é feita na grande maioria através de voto para classificação. Floresta

aleatória possui uma melhoria de performance comparado a classificadores de

24

https://www.displayr.com/how-is-splitting-decided-for-decision-trees/

árvores únicas e a taxa de erro é favorável contra outros algoritmos. Floresta

aleatória cresce de tais formas: Primeiro, construindo a base de N amostras de

maneira aleatória, e caso o tamanho do conjunto de treinamento seja N porém

possua uma substituição vinda dos dados originais, a amostra será usada como

conjunto de treinamento para crescimento da árvore. Segundo, para M

variáveis de entrada, uma variável m é selecionada de tal forma que m seja

muito menor a M, m variáveis são selecionadas de maneira aleatória de M e a

melhor divisão é usada para dividir o nó. Terceiro, cada árvore cresce até o

maior tamanho possível, nenhuma poda é aplicada.[18]

2.2.4 Redes Bayesianas

As redes bayesianas são modelos que utilizam do Teorema de Bayes (Thomas Bayes,

1763) para solucionar problemas envolvendo conhecimento probabilístico.[16] Redes

bayesianas são conhecidas também por gráficos de dependência probabilística, onde os nós

representam as variáveis, sejam essas discretas ou contínuas, e as arestas representam as

ligações entre os nós. Uma restrição importante para este modelo é que não pode haver ciclos

(i.e. grafos acíclicos), pois precisam existir nós pais e nós filhos (i.e. nós que referenciam e

nós que são referenciados).[17]

Para entender melhor como funciona, será apresentado o problema da rede do ladrão.

Você possui um novo alarme contra ladrões em casa. Este alarme é muito confiável na

detecção de ladrões, entretanto, ele também pode disparar caso ocorra um terremoto. Você

tem dois vizinhos, João e Maria, os quais prometeram telefonar-lhe no trabalho caso o alarme

dispare. João sempre liga quando ouve o alarme, entretanto, algumas vezes confunde o alarme

com o telefone e também liga nestes casos. Maria, por outro lado, gosta de ouvir música alta e

às vezes não escuta o alarme. Condicionalmente podemos admitir que caso Maria tenha

ligado, o alarme provavelmente tocou e com isso João provavelmente ligou, também caso

tenha ladrão a probabilidade de ter tido um terremoto diminui, com isso pode ser criado o

grafo visto na Figura 2.9.[19]

25

Figura 2.9: Grafo representando a rede do ladrão

Com o grafo pode-se aplicar o Teorema de Bayes para resolver uma série de

questionamentos, como por exemplo, se João ligou, qual a probabilidade de ter um ladrão na

casa ? A fórmula para cálculo das probabilidades é dada pelo produto sobre todos os nós do

grafo, da distribuição condicionada às variáveis correspondentes aos pais de cada nó do grafo.

Para K nós, a probabilidade de junção é:

(2.3)

Onde pa representa o conjunto de nós pais de x.

2.2.5 Metaclassificadores

Os metaclassificadores utilizam da abordagem ensemble para classificação de padrões.

Logo eles agem em cima de modelos de classificadores já existentes para determinar a classe

26

do elemento. Para este trabalho foram visto três tipos de metaclassficadores: Bagging,

Stacking, Voting.

● Bagging: O nome Bagging vem da abreviação para Bootstrap AGGregatING

(Breinman, 1996), onde é composto por 2 etapas principais bootstrap e

agregação. O algoritmo parte do princípio que por maior que seja o conjunto

de treinamento, o número de amostras representativas produzidas será pequeno

e não representará o ideal. Para obter o conjunto de amostras de treinamento,

Bagging aplica bootstrapping (Efron e Tibshirani, 1993), já para a etapa de

agregação das saídas é utilizada votação para classificação e média para

regressão. A predição funciona de tal forma: Na classificação, o algoritmo

alimenta os classificadores para colecionarem suas saídas e então vota para

escolher um vencedor.[20]

● Stacking: Stacking (Wolpert, 1992, Breinman, 1996b, Smyth and Wolpert,

1998) é um procedimento que combina amostras individuais de aprendizes

para formar o aprendiz. A ideia é treinar os aprendizes individuais utilizando o

conjunto original de treinamento para então gerar um novo conjunto de dados

de treinamento, conhecido como meta-aprendizes. Os aprendizes individuais

são gerados a partir de classificadores comuns, como árvores de decisão.

Apesar de poder construir abordagens de stacking homogêneas, geralmente

elas serão heterogêneas.[20]

● Voting: Voting (i.e. votação) é o método combinacional mais popular para

saídas nominais, na sua grande maioria utiliza da abordagem de votação

majoritária. A abordagem por majoritariedade é bem simples, dado um

conjunto de classificadores, cada um irá votar em uma classe, a classe de saída

final será aquela que receber mais da metade dos votos. Caso nenhuma classe

receba mais da metade dos votos, o classificador combinado não fará nenhuma

predição e uma opção de rejeição será dada. A acurácia desse modo aumenta

ou decai de acordo com a probabilidade das amostras.[20]

27

3. Metodologia

Para este capítulo, serão abordadas as etapas necessárias para a execução do

experimento, assim como toda fundamentação para o entendimento do mesmo. Na primeira

parte do capítulo, será descrito o banco de dados utilizado, apresentando os dados coletados,

assim como a construção. Na segunda parte haverá o detalhamento dos algoritmos utilizados

para este experimento, detalhando a aplicação e as configurações utilizadas. Por fim será

apresentado o ambiente utilizado para a execução.

3.1.Banco de Dados

O banco de dados foi construído a partir dos sinais eletroencefalográficos medidos

pelo departamento de neurologia da Universidade Federal de Pernambuco (i.e. UFPE). O

banco consiste em 300 amostras capturadas através de oito eletrodos em um paciente treinado

para a tarefa.

Cada uma das amostras contêm 56 atributos numéricos e um atributo da classe em que

ela se enquadra. Para os 56 atributos, pode-se dividir em 7 atributos numéricos para cada

wavelet (i.e. forma de onda capturada por cada eletrodo), sendo esses o coeficiente da

amostra, energia, entropia, a média, o alcance dela, a assimetria, para saber a curvatura, e por

fim o desvio padrão. Para o conjunto das classes, a amostra pode se enquadrar em um dos três

tipos: direita, esquerda e pé, que representam ações que o paciente pensou para executar.

Os dados foram construídos sequencialmente a partir das instruções passadas pela

equipe do departamento, onde o piloto (i.e. paciente treinado para execução da tarefa) recebia

comandos em que ele teria que focar, inicialmente foi dada a ele a tarefa de pensar em ir para

a direita, depois de 100 amostras a tarefa passou ir para esquerda e, após um outro intervalo

de 100 amostras, o comando passado foi pé, comando esse com o significado de parar.

Como a proposta do banco é classificar os gestos reais e imaginários a partir de sinais

eletroencefalográficos, a ideia do departamento é enriquecer o banco com amostras gravadas

por vários pacientes, alguns saudáveis, e alguns deficientes motores. Neste banco, as amostras

foram gravadas a partir de um paciente saudável.

28

Um exemplo de sinal eletroencefalográfico pode ser visto na Figura 3.1, onde o sinal é

construído a partir de 6 wavelets sendo cada uma representada em um canal para melhor

visualização.

Figura 3.1: Representação da saída de um EEG.

Fonte: Sharmila Ashok,

https://www.researchgate.net/figure/Wavelet-output-for-normal-EEG-signal_fig3_304672140

29

https://www.researchgate.net/figure/Wavelet-output-for-normal-EEG-signal_fig3_304672140

3.2.Experimento

Para este experimento, foram utilizados 22 algoritmos para o treinamento e

classificação das amostras provenientes do banco de dados. Os algoritmos podem ser

classificados em três MLPs, variando o número de neurônios da camada intermediária; quatro

tipos de SVMs, uma linear, duas polinomiais (grau 2 e grau 3) e uma RBF; dois tipos de

árvores de decisão, random tree e random forest, onde esta última foram configuradas 10 tipos

diferentes mudando a quantidade de árvores; por fim uma rede bayesiana também foi aplicada

como classificador. Para os três algoritmos restantes, foi utilizada a abordagem ensemble com

os metaclassificadores: bagging, stacking e voting aplicados a árvore aleatória.

Para todos os algoritmos a classificação foi feita utilizando validação cruzada com 10

folds e foram usadas 30 repetições. Os dados gerados foram exportados para um CSV e

posteriormente convertido para XLS para uma melhor visualização da informação.

A seguir, os algoritmos citados acima, têm suas configurações específicas detalhadas,

seguindo o mesmo roteiro do capítulo dois.

3.2.1 MLPs

Para a execução das MLPs, foram utilizadas as configurações padrões da ferramenta

weka, apenas variando o parâmetro da quantidade de neurônios da camada intermediária. Os

valores escolhidos para os outros parâmetros podem ser vistos na Figura 3.2.

30

Figura 3.2: Configuração de uma MLP utilizando o WEKA.

Fonte: Autor.

O parâmetro hiddenLayers determina a quantidade de neurônios da camada

intermediária, e como mencionado acima, foram escolhidos os valores 50, 100 e 150. Para os

outros parâmetros foram usados o da Figura 3.2. GUI False, pois para o propósito do

experimento não havia a necessidade de uma interação com o usuário. AutoBuild garante que

os nós da camada intermediária sejam adicionados e conectados à rede neural. Para

31

treinamento da rede os parâmetros batchSize e trainingTime são escolhidos como 100 e 500,

para determinar o conjunto de dados em treino. Debug, decay e doNotCheckCapabilities

foram escolhidos como false pois não há a necessidade de informações adicionais dos

classificadores na saída, para não prejudicar a taxa de aprendizado e para poder checar as

capacidades dos classificadores antes da classificação (afeta o tempo de execução). A taxa de

aprendizado e o momentum foram escolhidas como 0.3 e 0.2 respectivamente, o termo

momentum é adicionado como uma constante que determina o efeito das mudanças nos pesos,

com isso pode maximizar a taxa de aprendizado sem que haja oscilações e com isso a rede

conseguir um aprendizado mais rápido. O parâmetro reset é verdadeiro para a rede poder

recomeçar o treinamento em casos de divergência da resposta, ao ser recomeçado a rede

tentará com uma taxa de aprendizado inferior à escolhida. Finalmente, validationThreshold é

o número máximo de erros aceitáveis antes da terminação da validação de teste.

A Figura 3.3 contém as respostas dadas através da execução do algoritmo para 50

neurônios na camada intermediária.

Figura 3.3: Planilha resultado da classificação através de um MLP com 50 neurônios.

Fonte: Autor.

32

3.2.2 SVMs

Foram escolhidas quatro tipos de SVMs para este experimento, como citado na

introdução deste capítulo. Os parâmetros foram utilizados igual aos padrões, mudando apenas

o kernelType responsável pela equação utilizada, variando em linear, polinomial e radial. E o

parâmetro do grau, para quando o tipo da SVM for polinomial, variando de grau 2 e 3.

A Figura 3.4 pode avaliar os parâmetros possíveis de uma SVM, diferente dos outros

tipos de algoritmos utilizados no experimento, foi necessário a instalação da biblioteca

LibSVM para realização do experimento. [21]

Os parâmetros batchSize, debug, doNotCheckCapabilities, numDecimalPlaces,

normalize e seed, são os mesmos para uma MLP.

33

Figura 3.4: Exemplo das configurações de uma SVM no WEKA.

Fonte: Autor.

O tipo da SVM é escolhido entre três opções para classificação e duas para regressão,

para o experimento, nos quatro casos foram adotados o tipo C-SVC, que utiliza do custo para

fazer a superfície de decisão do hiperplano. O custo é escolhido como 1, um valor menor

suaviza a superfície, enquanto um maior permite que o modelo tenha liberdade para

34

selecionar mais amostras como vetores suporte. O coef0 é o coeficiente utilizado para SVMs

polinomiais, onde a equação é dada através da fórmula:

(3.1) gamma oef0)p = ( * u * v + c degree

O gamma foi escolhido como 1 dividido pelo índice máximo, o valor dele afeta

diretamente as SVMs polinomiais e radiais. O épsilon foi escolhido como 0.001 e reflete a

tolerância para finalização. O parâmetro de perda e o nu não são utilizados, por fazerem parte

de outros tipos de SVMs.

As outras fórmulas utilizadas foram linear:

(3.2) u l = * v

E radial:

(3.3) er = (−gamma |u−v| )* 2

Exemplo de saída de uma SVM Linear pode ser visto na Figura 3.5.

Figura 3.5: Saídas geradas por uma SVM Linear no WEKA.

Fonte: Autor.

35

3.2.3 Árvores de Decisão

Como vistas no capítulo anterior, foram utilizadas dois modelos de árvores: árvore

aleatória, e floresta aleatória. Por serem algoritmos diferentes, a explicação da configuração

dos parâmetros será dada para um e depois ao outro.

Figura 3.6: Configuração de uma Random Tree no WEKA.

Fonte: Autor.

36

Os parâmetros em comum com os outros tipos de classificadores não serão citados.

KValue escolhe o número para atributos escolhidos aleatoriamente, para o padrão 0 o valor

assumido é o logaritmo na base 2 do número previsto mais um. O allowUnclassifiedInstances

determina se é pra permitir ou não instâncias que não foram classificadas, nesse caso não

permite. Os parâmetros minNum, maxDepth e minVarianceProp são respectivamente: O peso

mínimo para as instâncias de uma folha, a profundidade máxima da árvore, onde o valor 0

significa que não tem limite, e, o número mínimo de proporção das variâncias dos dados

presentes em um nó para que haja a divisão em árvores filhos. Por fim, breakTiesRandomly

divide a árvore aleatoriamente caso vários atributos estejam parecendo igualmente bons, para

o experimento foi definido como falso.

Exemplo da planilha contendo as respostas é vista na Figura 3.7.

Figura 3.7: Planilha contendo as saídas da árvore aleatória no WEKA.

Fonte: Autor.

Foram executadas dez vezes o classificador floresta aleatória, para cada uma das vezes

foi alterado o parâmetro numIterations que define a quantidade de árvores pertencentes à

floresta, os números escolhidos foram 10, 20, 30, 40, 50, 60, 70, 80, 90 e 100. Esse parâmetro

e outros, podem ser vistos na Figura 3.8.

37

Figura 3.8: Configurações de uma floresta aleatória no WEKA.

Fonte: Autor.

Em relação aos demais atributos: calcOutOfBag é relacionado ao erro out-of-bag, no

experimento ele não será computado, assim como o atributo computeAttributeImportance que

utiliza do decremento das impurezas da média para calcular a importância do atributo. O

38

atributo storeOutOfBagPredictions também será falso uma vez que o erro não será calculado,

não será possivel o armazenamento do mesmo, assim como

outputOutOfBagComplexityStatistics pois também é relacionado ao erro out-of-bag que não

será calculado. O parâmetro numExecutionSlots é utilizado para o método ensemble, logo é

indiferente para este caso.

Igualmente aos outros classificadores, a planilha contendo algumas respostas pode ser

observada abaixo.

Figura 3.9: Planilha com algumas saídas de uma Random Forest com 10 árvores no WEKA.

Fonte: Autor.

3.2.4 Rede Bayesiana

Diferente dos outros classificadores usados neste trabalho, o algoritmo de rede

bayesiana foi o único que não teve variações das configurações, sendo aplicado uma única vez

utilizando todas as configurações padrões vistas na Figura 3.10.

39

Figura 3.10: Configurações aplicada a uma Rede Bayesiana no WEKA.

Fonte: Autor

Por ser um classificador que possui uma complexidade menor, o número de

parâmetros é inferior aos outros exemplos. Para os três atributos específicos desse

classificador tem o estimator, que seleciona o algoritmo de estimação para achar a

probabilidade condicional da rede, por padrão é selecionado o estimador simples que possui

um alfa responsável para estimar as tabelas de probabilidades e possui um valor padrão de

0.5. O parâmetro searchAlgorithm decide o algoritmo de busca das estruturas da rede, que é

definido inicialmente como o K2, este algoritmo de busca usa o método Subida de Encosta

para otimização dos pontos selecionados. Para finalizar, o useADTree permite a possibilidade

de usar árvores de decisão para auxiliar na criação da rede bayesiana, para o experimento é

40

escolhido não utilizar, isso faz com que o algoritmo possua um tempo de execução maior,

porém evite problemas de memória, o que pode ocorrer caso opte por essa opção.

Figura 3.11: Planilha contendo os resultados de uma Rede Bayesiana no WEKA.

Fonte: Autor.

3.2.5 Metaclassificadores

O primeiro metaclassificador a ser analisado é o bagging, onde seus parâmetros

podem ser vistos na Figura 3.12.

Os parâmetros, como podem ser observados, são os mesmos que já foram

apresentados antes, com exceção de um único: classifier, este atributo é o que determina qual

classificador o bagging usará o método ensemble. Como padrão o classificador escolhido é

uma árvore de decisão REP, entretanto para os três metaclassificadores mostrados nesta

seção, será utilizado o classificador árvore aleatória.

41

Figura 3.12: Configurações do Bagging no WEKA.

Fonte: Autor.

O segundo metaclassificador a ser estudado é o stacking, que assim como o algoritmo

anterior, a maioria dos seus parâmetros já foi descrito neste capítulo. Para os atributos

específicos deste algoritmo, o classifiers determina de onde é retirada a base de

classificadores para escolha do método ensemble. Como a ferramenta utilizada é o WEKA,

assim como todos os classificadores fazem parte da ferramenta, essa opção aponta para o

endereço da base. O numExecutionSlots define o número de threads para a construção do

conjunto, neste caso é usado uma. O outro parâmetro é o metaClassifier e este é o que decide

qual classificador o stacking será aplicado, que por padrão é escolhido o ZeroR, porém como

falado anteriormente, neste experimento foi utilizado árvore aleatória.

42

A Figura 3.13 mostra os parâmetros comentado acima.

Figura 3.13: Configurações do Stacking no WEKA.

Fonte: Autor.

O terceiro e último metaclassificador analisado neste trabalho foi o voting, que possui

dois parâmetros específicos. O primeiro parâmetro é o mesmo do stacking, o classifier, porém

este é utilizado para definir especificamente o algoritmo de classificação, e assim como o

stacking o padrão é o ZeroR. O segundo parâmetro é o combinationRule que como o nome

diz, representa a regra de combinação utilizada pelo algoritmo, é definida como a média das

probabilidades, mas as outras opções seriam: produto das probabilidades, votação da maioria,

43

probabilidade mínima, probabilidade máxima e mediana. Para o experimento foi usada a

média das probabilidades.

Estes atributos são vistos na Figura 3.14.

Figura 3.14: Configurações do Voting no WEKA.

Fonte: Autor.

44

3.3. Ambiente

O ambiente utilizado na execução dos experimentos foi: Windows 10 (64 bits), um

CPU Intel Core I7 Haswell (3.6GHz), 32 GB de Memória RAM, e uma GPU NVIDIA

GeForce GTX 980M. Para treinamento e classificação dos dados foi utilizado o ambiente para

análise de conhecimento Waikato (WEKA), desenvolvido pela The University of Waikato,

Hamilton, Nova Zelândia. O WEKA possui diferentes aplicações, a escolhida para este

trabalho foi a parte experimental dela, como pode ser vista na Figura 3.15.

Figura 3.15: Exemplo do ambiente experimental do WEKA.

Fonte: Autor.

Com os dados exportados em CSVs e convertidos, foi usada a ferramenta SciDavis

para geração dos diagramas de caixas para análise estatística, que serão discutidos no Capítulo

4.

45

4 Resultados

Para este capítulo, serão discutidos os resultados obtidos no experimento. Inicialmente

serão discutidos os resultados dos algoritmos em termo da acurácia, próxima etapa será a

análise dos tempos de treino e por último uma análise gráfica do kappa. A última seção será

reservada para discutir outros parâmetros nas tabelas.

As três primeiras seções possui os gráficos divididos em cinco subconjuntos, e a

discussão será feita primeiro nos algoritmos do subconjunto para então a conclusão de uma

possível escolha melhor.

4.1 Acurácia

A Figura 4.1 contém os diagramas de caixa correspondentes às 300 amostras

analisadas pelos algoritmos das SVMs. Os resultados mostram que apesar das SVMs de grau

3 e RBF possuírem uma menor variância, uma vez que suas caixas estão mais achatadas, elas

apresentam valores baixos, em torno de 33% e 34% de acerto, logo não apresentaram bons

resultados qualitativos. O limite superior das duas SVMs citadas estão alinhados com o

primeiro quartil da SVM de grau 2, essa que tem a caixa com o primeiro quartil em 34% e o

terceiro quartil em 50% com a mediana em 43%, logo essa apresenta resultados com uma

melhor acurácia que as SVMs anteriores porém por ter a caixa mais larga, a variabilidade dos

valores é maior, além disso como a mediana é superior à média, a maioria das amostras terão

a acurácia entre o primeiro quartil e a mediana. Por último a SVM linear, esta possui a caixa

com a área interquartil um pouco menor que a da SVM grau 2, onde o primeiro e terceiro

quartil possuem os valores 46% e 60% respectivamente, logo apresenta uma variação de

valores menor que a grau 2 porém maior que a RBF e grau 3, contudo compensa possuindo os

valores da acurácia melhores, além disso a mediana se encontra nos 53% mostrando uma

distribuição dos valores amostrados equivalentemente. Com a análise pôde afirmar que a

SVM linear é a que apresenta os melhores resultados em termo de precisão.

A Figura 4.2 e a Figura 4.3 contêm os resultados da acurácia medidas pelos

classificadores floresta aleatória com 10 a 50 árvores e 60 a 100 respectivamente. Diferente da

análise feita nos gráficos das SVMs as florestas aleatórias possuem caixas com a mesma área

interquartil, logo uma análise do primeiro e terceiro quartil e a mediana não dariam para

46

classificar os melhores resultados. Porém, estes algoritmos apresentam outros valores

diferentes nas caixas. Primeiro são os limites inferiores, segundo a média das amostras e por

último os outliers. As médias variam de 98% a 98.8%, onde a floresta com 10 árvores

apresenta a menor média e a com 100 árvores a maior, vale ressaltar que as médias atingiram

98.8% de acurácia a partir de 80 árvores, enquanto de 30 a 70 árvores a média foi de 98.7%, e

20 árvores apresentou uma média de 98.6%. Analisando os limites inferiores, diferente das

médias eles não apresentaram melhorias com o aumento do número de árvores da floresta, 50,

70, 90 e 100 apresentaram valores menores e o 90 árvores apresentou o melhor resultado com

o limite em 96.5% de acurácia. E por fim, os outliers foram ou 89.6% ou 86.6%. Com as

informações, apesar de todos os desempenhos das florestas aleatórias tenham sido bons, 100

árvores apresentou um resultado estatístico geral melhor, pois possui uma maior média, logo

possui mais valores próximos ao limite superior, possui um limite inferior pequeno, o que

quer dizer que a dispersão não é muito grande e por fim seu outlier não apresentou uma

discrepância muito grande com os resultados avaliados.

Figura 4.1: Resultados gráficos da acurácia das SVMs.

Fonte: Autor.

47

Figura 4.2: Diagramas de caixa das florestas aleatórias de 10 a 50 árvores.

Fonte: Autor.

Figura 4.3: Diagrama de caixa das florestas aleatórias de 60 a 100 árvores.

Fonte: Autor.

A Figura 4.4 mostra a comparação das acurácias entre as MLPs e a rede bayesiana. A

rede bayesiana apresenta os piores resultados deste grupo, a caixa além de possuir uma área

48

interquartil maior que as das MLPs (terceiro quartil em 93.3% e primeiro quartil em 86.6%),

possui a distribuição dos resultados com valores menores de acurácia, onde o limite superior é

96.7%. A rede bayesiana contudo, apresenta bons resultados se comparada às SVMs, porém

inferior se comparada com as florestas aleatórias. A média da rede é de 90.7% enquanto a

mediana é 90% com isso a distribuição será mais próxima ao limite superior, apresentando

mais resultados com uma melhor acurácia. As três MLPs entretanto, apresentaram resultados

muito superiores, mesmo comparado aos classificadores já discutidos nesta seção, pois as

caixas apresentaram uma variabilidade pequena por serem achatadas, além de apresentarem

altos valores de acurácia, além de médias em torno de 99%. Em geral não é possível

determinar qual das MLPs possui o melhor resultado avaliando apenas a acurácia, pois as três

apresentaram se não iguais, com uma variação insignificante.

Figura 4.4: Representação gráfica das MLPs e da rede bayesiana.

Fonte: Autor.

Por fim, temos o grupo 5 que constitui no classificador árvore aleatória e nos

metaclassifcadores bagging, stacking e voting, aplicados na árvore. A Figura 4.5 traz o

diagrama de caixa da acurácia medida pelos mesmos.

Dos quatro, stacking apresentou os piores resultados, sendo inferior ao classificador

puro, apesar de possuir a média superior a mediana. Já o voting não apresentou uma melhora

49

significativa se comparado a árvore aleatória, ambos tiveram a média em 95%, mediana em

96.8% além da mesma área interquartil. Contudo o bagging dentre os quatro, possui os

melhores resultados de acurácia. A caixa mostrou uma menor variabilidade, além de possuir

uma média de 98.5% e mesmo o outlier inferior apresentou uma porcentagem alta de acerto,

sendo 89.7%.

Figura 4.5: Resultados da árvore aleatória e dos metaclassificadores aplicados.

Fonte: Autor.

Com a análise de todos os diagramas de caixa, pode se afirmar que as MLPs possuem

as melhores taxas de acerto seguidas pelo bagging, florestas aleatórias de 10 a 100, árvore

aleatória e voting, stacking, rede bayesiana e por fim as SVMs.

4.2 Tempo de Execução

O mesmo procedimento realizado na seção anterior é repetido para esta seção, onde

todos os algoritmos utilizados são divididos em cinco grupos para a impressão dos diagramas

de caixas, porém desta vez a variável a ser analisada é o tempo de execução.

50

A escala do tempo de execução é em milissegundos para todos os gráficos desta seção.

Ao contrário da seção anterior onde quanto maiores os valores, melhor o resultado, pois

implica numa melhor taxa de acerto. Para esta variável, quanto menores os valores, melhor o

resultado, uma vez que implica num algoritmo mais rápido.

A Figura 4.6 e 4.7 mostra os diagramas das florestas aleatórias de 10 a 100 árvores,

assim como na seção anterior. A primeira diferença na Figura 4.6 é que a média dos

diagramas cresce de maneira linear ao aumentar o número de árvores. Para 10 árvores a média

é 4.8 ms, para 20 árvores a média aumenta para 9.5 ms, para 30, o valor vai para 13.2 ms,

depois 18.6 ms e 22.9 ms para 40 e 50 árvores respectivamente. Outra diferença é o formato

das caixas; para os diagramas com 10 e 20 árvores os limites superior e inferior são iguais ao

terceiro e primeiro quartil respectivamente e com a mesma área interquartil, ao subir o

número para 30 árvores a caixa é achatada no valor de 15.6 ms, o mesmo valor do limite

superior para 10 e 20 árvores, e apenas possui o limite inferior em 0 ms. Para 40 este formato

é invertido, a caixa continua com a área interquartil 0 pois possui os valores do primeiro e

terceiro quartil iguais em 15.6 ms, mas ao invés de possui um limite inferior diferente, esta

possui um limite superior em 31.2 ms, valor este do terceiro quartil para 50 árvores que volta

a repetir o formato de 10 e 20 árvores. Na Figura 4.7 os valores da média continuam

crescendo linearmente de acordo com o aumento da quantidade de árvores da floresta,

variando em 28.2 ms, 31.8 ms, 36.5 ms, 41.4 ms, 46.2 ms para 60 a 100 árvores. O formato

das caixas também seguem o mesmo padrão da Fig 4.6, onde para 60 árvores a área

interquartil é 0 com os valores do primeiro e terceiro quartil em 31.2 ms e o limite inferior em

15.6 ms, para 70 a área permanece 0 e possui um outlier inferior com o valor de 15.6 ms e um

superior com o valor de 46.9 ms, valor este que é o do terceiro quartil para 80 e 90 árvores.

Em geral, apesar de possuir uma variabilidade maior do que o diagrama de uma floresta com

30 árvores, por exemplo, o classificador de uma floresta com 10 árvores apresenta o melhor

resultado, pois uma vez que possui uma menor média, o algoritmo irá executar em um menor

tempo.

51

Figura 4.6: Diagrama de caixas para florestas aleatórias com 10 a 50 árvores.

Fonte: Autor.

52

Figura 4.7: Diagrama de caixas para florestas aleatórias com 60 a 100 árvores.

Fonte: Autor.

A Figura 4.8 apresenta os resultados dos classificadores: árvore aleatória, rede

bayesiana, e SVMs de grau 3 e RBF. O pior algoritmo neste quesito, fica a SVM RBF que

apresenta o primeiro e terceiro quartil com o valor de 46.9 ms e limite superior em 62.5 ms e

inferior em 31.3 ms, com uma média de 48.5 ms, resultados estes superiores aos dos demais.

Os classificadores árvore aleatória e SVM grau 3 possuem a mesma área interquartil

com o primeiro e terceiro quartil com valor 0 ms, porém SVM grau 3 possui um limite

superior de valor 15.8 ms e um outlier 31.5 ms, além da média 1.5 ms, enquanto árvore

aleatória possui o outlier em 15.8 ms e média 0.8 ms. Por fim a rede bayesiana mostra uma

variabilidade maior, pois destes algoritmos é a única que não apresenta uma área interquartil

igual a zero. O primeiro quartil possui valor 0 ms e o terceiro 15.8 ms, com uma média 3.9

53

ms. Com isso, a conclusão é que a árvore aleatória apresenta os melhores resultados, possui

uma baixa variabilidade, além da média ser o menor dos valores.

Figura 4.8: Diagrama de caixas para SVMs de grau 3 e RBF, rede bayesiana e árvore

aleatória.

Fonte: Autor.

A Figura 4.9 traz os resultados das MLPs e das outras duas SVMs (grau 2 e linear).

Diferente dos outros gráficos, para estes classificadores o tempo de execução foram grandes e

por isso serão citados no formato de segundos.

A MLP de 50 neurônios apresenta o primeiro quartil em 5.4 s, terceiro quartil em 6.5

s, mediana 5.76 s e média em 6.07 s. Resultados estes que são piores do que os resultados dos

outros classificadores já comentados nesta seção. Da mesma forma que há uma relação entre

54

as médias com o número de árvores no classificador floresta aleatória, há uma relação das

médias com a quantidade de neurônios em uma MLP, a diferença é que enquanto na floresta o

valor da média cresce linearmente com o aumento da quantidade de árvores, para as MLPs o

aumento da quantidade de neurônios resulta em um aumento exponencial no tempo de

execução. Para MLP com 100 neurônios a média vai para 10.9 s com 150 neurônios, a média

é 20.6 s. Para efeito de comparação as médias das SVMs de grau 2 e linear são 15 s e 10 s

respectivamente. A MLP com 100 neurônios apresenta a menor variabilidade dos 5

classificadores em questão e mesmo os outliers apresentam valores próximos aos limites

superior e inferior, entre 10.6 s e 11.2 s. A MLP com 150 neurônios possui a maior

variabilidade dos 5, com o terceiro quartil em 23.7 s e o primeiro em 16.3 s, além do limite

superior medido em 27.4 s. A SVM linear possui resultado melhor que a SVM com grau 2,

ambas possuem a área interquartil com valores aproximados, o que quer dizer que possuem

uma variabilidade praticamente igual, porém os tempos de execução da SVM linear são em

geral menores que os da SVM de grau 2. Para efeito de comparação, o outlier da SVM linear

é 21 s, este valor é inferior ao limite superior da SVM grau 2 (22.2 s), enquanto seu outlier é

medido em 29.2 s, maior que o outlier da MLP com 150 neurônios.

Finalizando a MLP com 50 neurônios possui o melhor resultado dentre os 5, e a MLP

com 150 o pior. A MLP com 100 entretanto possui a menor variabilidade, logo há uma

confiabilidade maior. Todos os 5 algoritmos apresentam piores resultados comparados a

qualquer outro desta seção.

55

Figura 4.9: Diagrama de caixas das MLPs e SVMs de grau 2 e linear.

Fonte: Autor.

Para finalizar esta seção, a Figura 4.10 traz os resultados gráficos dos

metaclassificadores. Bagging e stacking possuem a mesma área interquartil, com primeiro

quartil em 0 ms e terceiro em 15.6 ms, entretanto a média dos dois diferem, onde a do

primeiro é 8.4 ms e a do segundo 7.5 ms. Além disso o outlier do bagging possui um valor

superior, medido em 47 ms, enquanto o do stacking foi medido em 31.3 ms. O voting possui

os melhores tempos de execução comparado aos dois. O primeiro e terceiro quartil têm valor

0, com o limite superior em 15.6 ms, além de possuir a média em 1 ms. Vale comentar que

por causa da média superior e do outlier, o bagging possui o pior resultado dentre os três.

56

Figura 4.10: Diagrama de caixas dos metaclassificadores.

Fonte: Autor.

Como conclusão desta seção o melhor método é a árvore aleatória, pois possui os

menores tempo de execução, seguida dos metaclassificadores. Vale ressaltar que os

metaclassificadores foram aplicados em cima da árvore aleatória, logo o tempo de execução

precisa ser maior ou igual ao tempo do classificador em questão.

57

4.3 Kappa

A Figura 4.11 traz os resultados gráficos para o kappa das SVMs. Para esta variável é

adotado que quanto mais próximo de um, melhor são os resultados. Assim como no diagrama

de caixas da acurácia, as SVMs de grau 3 e RBF apresentam piores resultados, têm uma área

interquartil zero, logo uma baixa variabilidade, porém com seu primeiro, terceiro quartil e

média em zero. Uma outra forma de interpretar estes dados é que a probabilidade observada é

igual à probabilidade aleatória do classificador retornar a saída correta. [22]

SVM de grau 2 apresentou uma média de 0.13, com o terceiro quartil em 0.25 e o

primeiro em 0.03, porém seu limite inferior foi em -0.1, o que significa que houve amostras

que a probabilidade observada foi inferior à probabilidade aleatória, a mediana deste

classificador foi superior à média. Já a SVM linear possui uma variabilidade um pouco menor

que a SVM grau 2, com terceiro e primeiro quartil em 0.4 e 0.2 respectivamente. Média em

0.3, valor este maior que a mediana. Em geral, SVM linear apresentou o melhor resultado, o

que pode ser esperado, já que a mesma apresentou a melhor acurácia dentre as SVMs.

Figura 4.11: Diagrama de caixas dos kappas das SVMs.

Fonte: Autor.

58

A Figura 4.12 e Figura 4.13 trazem os diagramas das florestas aleatórias. Assim como

para as SVMs, o resultado foi de acordo com os discutidos na primeira seção, onde há uma

melhoria no valor da média de acordo com o aumento do número de árvores da floresta (entre

0.97 e 0.98). A área interquartil para todas as caixas é a mesma, com terceiro quartil em 1 e

primeiro em 0.95. Logo, assim como na acurácia, o classificador com melhor resultado foi a

floresta com 100 árvores.

Figura 4.12: Diagrama de caixas dos kappas das florestas aleatórias com 10 a 50 árvores.

Fonte: Autor.

59

Figura 4.13: Diagrama de caixas dos kappas das florestas aleatórias com 60 a 100 árvores.

Fonte: Autor.

A Figura 4.14 traz os diagramas das MLPs e da rede bayesiana, e assim como todos os

outros classificadores desta seção, apresentaram resultados iguais aos da primeira seção. As

três MLPs possuem uma baixa variabilidade com o primeiro e terceiro quartil em 1, além de

uma alta média de 0.987. E assim como na seção da acurácia, as MLPs apresentam um melhor

resultado geral dos kappas.

60

Figura 4.14: Diagrama de caixas dos kappas das MLPs e rede bayesiana.

Fonte: Autor.

Finalmente, para o classificador árvore aleatória e os metaclassifcadores, a Figura 4.15

ilustra o diagrama dos kappas medidos. Diferente dos outros algoritmos desta seção, estes

métodos apresentaram discordâncias com a representação gráfica da acurácia. Em geral, as

mudanças do bagging, voting, e árvore aleatória são o incremento na variabilidade, por

possuírem uma área interquartil maior. Analisando o stacking, a primeira diferença é que

enquanto a média na acurácia se encontra entre a mediana e o terceiro quartil, para o kappa

ela fica entre a mediana e o primeiro quartil. Outro ponto é que a distância entre o terceiro

quartil e a mediana é quase zero, com o terceiro quartil medido em 0.95 e a mediana em

0.948. Contudo, o bagging dentre estes algoritmos é o que apresenta o melhor resultado,

porém pior que o resultado das MLPs.

61

Figura 4.15: Diagrama de caixas dos kappas dos metaclassificadores e da árvore aleatória.

Fonte: Autor.

62

4.4 Raiz-Quadrada do Erro Médio e Número de Falsos Positivos

Como uma última métrica de avaliação dos classificadores e metaclassificadores deste

experimento, foram construídas algumas tabelas com outros parâmetros diferentes dos citados

nas seções anteriores, a fim de determinar qual a melhor abordagem. As variáveis escolhidas

para as tabelas foram: raiz-quadrada do erro médio (RMSE) e número de falsos positivos.

Assim como nas seções anteriores, para uma melhor visualização, os classificadores e

metaclassificadores deste experimento foram divididos em 5 grupos. Da Tabela 1 a Tabela 5,

os resultados contidos serão os 5 menores e 5 maiores valores da raiz-quadrada do erro médio.

Da Tabela 6 a Tabela 10, de forma semelhante, conterá os 5 menores e 5 maiores números de

falsos positivos.

Tabela 1: Valores dos RMSEs dos metaclassifcadores e árvore aleatória. Fonte: Autor.

Tabela 2: Valores dos RMSEs das MLPs e rede bayesiana. Fonte: Autor.

63

Tabela 3: Valores dos RMSEs das SVMs. Fonte: Autor.

Tabela 4: Valores dos RMSEs das florestas aleatórias de 10 a 50 árvores. Fonte: Autor.

Tabela 5: Valores dos RMSEs das florestas aleatórias de 60 a 100 árvores. Fonte: Autor.

64

Fica claro, que as MLPs possuem os melhores valores de RMSE, seguidas pelo

bagging, que apresentou uma melhoria em comparação à árvore aleatória, depois as florestas

aleatórias, com a com 10 e 20 árvores apresentando um resultado superior. Os piores

resultados foram as SVMs.

Tabela 6: Número de falsos positivos dos metaclassificadores e árvore aleatória. Fonte:

Autor.

Tabela 7: Número de falsos positivos das MLPs e rede bayesiana. Fonte: Autor.

65

Tabela 8: Número de falsos positivos das SVMs. Fonte: Autor.

Tabela 9: Número de falsos positivos das florestas aleatórias de 10 a 50 árvores. Fonte:

Autor.

Tabela 10: Número de falsos positivos das florestas aleatórias de 60 a 100 árvores. Fonte:

Autor.

66

Como o banco de dados possui 300 amostras, e para todos os classificadores e

metaclassificadores foram utilizados 30 iterações com 10 folds, cada fold ficou com 30

amostras, onde 20 são parte do conjunto dos negativos (falsos positivos e verdadeiros

negativos) e 10 no conjunto dos positivos (falsos negativos e verdadeiros positivos).

Analisando as Tabelas 6 a 10, apesar de todos os métodos possuírem os cinco menores

números iguais a zero, a diferença é notada quando analisado os 5 maiores. As SVMs

novamente obtiveram os piores resultados, com a SVM com grau 3 e a RBF sendo as piores,

pois os cinco maiores valores de falsos positivos foram 20, o que quer dizer que para aquele

fold daquela iteração, todas as amostras foram classificadas incorretamente. As outras duas

SVMs tiveram números melhores, com a linear tendo seu pior caso 17 amostras classificadas

erradas. Para as florestas aleatórias, o incremento no número de árvores apresenta uma

melhoria nos três primeiros casos (10, 20 e 30 árvores), onde 10 árvores tendo os piores casos

p e d r o v i t o r b a p t i s t a d e m o u r a r e c ...tg/2019-1/tg_ec/pedro_victor...s u már i...

Documents