máquina de vetores-suporte intervalar...as máquinas de vetores suporte (svm - support vector...

72
UNIVERSIDADE DO RIO GRANDE DO NORTE FEDERAL UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE TECNOLOGIA PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA Máquina de Vetores-Suporte Intervalar Adriana Takahashi Orientador: Prof. Dr. Adrião Duarte Dória Neto Co-orientador: Prof. Dr. Benjamín René Callejas Bedregal Tese de Doutorado apresentada ao Pro- grama de Pós-Graduação em Engenharia Elétrica da UFRN, área de concentração: Engenharia de Computação como parte dos requisitos para obtenção do título de Doutor em Ciências. Natal/RN, 2012

Upload: others

Post on 27-Jun-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

UNIVERSIDADE DO RIO GRANDE DO NORTEFEDERAL

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE

CENTRO DE TECNOLOGIA

PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA

Máquina de Vetores-Suporte Intervalar

Adriana Takahashi

Orientador: Prof. Dr. Adrião Duarte Dória Neto

Co-orientador: Prof. Dr. Benjamín René Callejas Bedregal

Tese de Doutorado apresentada ao Pro-grama de Pós-Graduação em EngenhariaElétrica da UFRN, área de concentração:Engenharia de Computação como parte dosrequisitos para obtenção do título de Doutorem Ciências.

Natal/RN, 2012

Máquinas de Vetores Suporte Intervalar

Adriana Takahashi

Tese de Doutorado

Prof. Dr. Adrião Duarte Dória Neto (orientador) . . . . . . . . . .. . . . . . UFRN/DCA

Prof. Dr. Benjamín René Callejas Bedregal (co-orientador). . . UFRN/DIMAp

Prof. Dr. Jorge Dantas de Melo . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . UFRN/DCA

Prof. Dr. Aarão Lyra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . UnP

Prof. Dra. Renata Hax Sander Reiser . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . UFPel

Prof. Dr. Tiago Alessandro Espínola Ferreira . . . . . . . . . . . .. . . . . . . . . . . UFRPE

A minha família, e a Deus.

Agradecimentos

Aos meus orientadores, professores Adrião e Benjamin, sou grata pela orientação e paciên-cia.

Aos colegas do departamento.

Aos demais colegas de pós-graduação, pelas críticas e sugestões.

À minha família pelo apoio durante esta jornada.

Resumo

As máquinas de vetores suporte (SVM -Support Vector Machines) têm atraído muitaatenção na área de aprendizagem de máquinas, em especial em classificação e reconhe-cimento de padrões, porém, em alguns casos nem sempre é fácilclassificar com precisãodeterminados padrões entre classes distintas. Este trabalho envolve a construção de umclassificador de padrões intervalar, utilizando a SVM associada com a teoria intervalar,de modo a modelar com uma precisão controlada a separação entre classes distintas deum conjunto de padrões, com o objetivo de obter uma separaçãootimizada tratando deimprecisões contidas nas informações do conjunto de padrões, sejam nos dados iniciaisou erros computacionais.

A SVM é uma máquina linear, e para que ela possa resolver problemas do mundoreal, geralmente problemas não lineares, é necessário tratar o conjunto de padrões, maisconhecido como conjunto de entrada, de natureza não linear para um problema linear, asmáquinas kernels são responsáveis por esse mapeamento. Para a extensão intervalar daSVM, tanto para problemas lineares quanto não lineares, este trabalho introduz a definiçãode kernel intervalar, bem como estabelece o teorema que valida uma função ser um kernel,o teorema de Mercer para funções intervalares.

Palavras-chave: máquinas de vetores suporte, intervalar, kernel

Abstract

The Support Vector Machines (SVM) has attracted increasingattention in machinelearning area, particularly on classification and patternsrecognition. However, in somecases it is not easy to determinate accurately the class which given pattern belongs. Thisthesis involves the construction of a intervalar pattern classifier using SVM in associationwith intervalar theory, in order to model the separation of apattern set between distinctclasses with precision, aiming to obtain an optimized separation capable to treat impreci-sions contained in the initial data and generated during thecomputational processing.

The SVM is a linear machine. In order to allow it to solve real-world problems (usu-ally nonlinear problems), it is necessary to treat the pattern set, know as input set, trans-forming from nonlinear nature to linear problem. The kernelmachines are responsible todo this mapping. To create the intervalar extension of SVM, both for linear and nonlin-ear problems, it was necessary define intervalar kernel and the Mercer’s theorem (whichcaracterize a kernel function) to intervalar function.

Keywords: support vector machine, interval, kernel

Sumário

Sumário i

Lista de Figuras iii

Lista de Tabelas iv

1 Introdução 1

1.1 Apresentação e motivação . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.3 Trabalhos relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . .2

1.4 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 Máquinas de Vetores-Suporte 5

2.1 Máquina de Vetores-Suporte Linearmente Separável . . . .. . . . . . . . 6

2.1.1 Hiperplano Ótimo para Classes Linearmente Separáveis . . . . . 10

2.2 Máquina de Vetor de Suporte Não Lineares . . . . . . . . . . . . . .. . 12

2.2.1 Hiperplano Ótimo para Classes Não Linearmente Separáveis . . . 12

2.2.2 FunçãoKernel . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.3 Considerações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3 Matemática Intervalar 18

3.1 Representação de Intervalos . . . . . . . . . . . . . . . . . . . . . . .. 19

3.2 Operações Aritméticas Intervalares . . . . . . . . . . . . . . . .. . . . . 19

3.3 Propriedades Algébricas Intervalares . . . . . . . . . . . . . .. . . . . . 20

3.4 Ordem Intervalar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.5 Função Intervalar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.5.1 Metrica intervalar emIRn . . . . . . . . . . . . . . . . . . . . . 21

3.5.2 Integral Interval . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.6 R-vetoide e espaço R-vetoide intervalar . . . . . . . . . . . . .. . . . . 23

3.6.1 Produto interno intervalar . . . . . . . . . . . . . . . . . . . . . 24

i

3.6.2 Autovetoide intervalar . . . . . . . . . . . . . . . . . . . . . . . 25

4 Otimização usando Análise Intervalar 26

4.1 Otimização Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4.1.1 Funcional de Lagrange . . . . . . . . . . . . . . . . . . . . . . . 27

4.1.2 Condições de Kuhn-Tucker . . . . . . . . . . . . . . . . . . . . . 28

4.2 Otimização Linear usando Computação Intervalar . . . . . .. . . . . . . 28

4.2.1 Otimização com restrições . . . . . . . . . . . . . . . . . . . . . 29

4.2.2 Condições de John . . . . . . . . . . . . . . . . . . . . . . . . . 30

5 Kernel Intervalar 31

5.1 Mapeamento Função Kernel Intervalar . . . . . . . . . . . . . . . .. . . 33

5.2 Construção de Kernel Intervalar . . . . . . . . . . . . . . . . . . . .. . 34

5.2.1 Fazendo Kernels de kernels . . . . . . . . . . . . . . . . . . . . 36

5.3 Alguns Kernels Intervalares . . . . . . . . . . . . . . . . . . . . . . .. . 37

5.3.1 Extensão Intervalar doKernelGaussiano . . . . . . . . . . . . . 37

5.3.2 Extensão intervalar doKernelPolinomial . . . . . . . . . . . . . 38

6 Máquina de Vetores-Suporte Intervalar 39

6.1 Máquina de Vetores-Suporte Intervalares Linearmente Separáveis . . . . 39

6.2 Máquina de Vetor de Suporte Intervalares Não Separáveis. . . . . . . . . 44

7 Implementações Computacionais e Resultados 48

7.1 Implementações Computacionais e Resultados . . . . . . . . .. . . . . . 48

7.1.1 Método Intervalar: Gradiente . . . . . . . . . . . . . . . . . . . 50

7.1.2 Algumas variações: . . . . . . . . . . . . . . . . . . . . . . . . . 50

7.1.3 Método Intervalar: Adatron . . . . . . . . . . . . . . . . . . . . 50

7.1.4 Método Intervalar: Perceptron Dual . . . . . . . . . . . . . . .. 51

7.2 Resultados de testes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

7.2.1 Resultados da SVMI . . . . . . . . . . . . . . . . . . . . . . . . 53

7.2.2 Conjunto de treinamento intervalar . . . . . . . . . . . . . . .. 54

8 Conclusões 57

8.1 Possibilidades de trabalhos futuros . . . . . . . . . . . . . . . .. . . . . 58

Referências bibliográficas 59

Lista de Figuras

2.1 Hiperplano de separação(w,b) para um conjunto de treinamento bidi-

mensional. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.2 Hiperplano ótimo com máxima margemρo de separação dos padrões lin-

earmente separáveis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.3 Interpretação gráfica da distânciax até o hiperplano ótimo para o caso

bidimensional. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.4 Mapeamento de características. . . . . . . . . . . . . . . . . . . . .. . . 12

2.5 (a) O ponto(xi ,di) se encontra na região de separação, mas do lado cor-

reto. (b) O ponto(xi,di) se encontra na região de separação, mas do lado

incorreto. (c) O ponto(xi,di) se encontra fora da região de separação,

mas do lado incorreto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

6.1 Ilustração do hiperplano ótimo intervalar. . . . . . . . . . .. . . . . . . 40

6.2 Interpretação da distância deX atép hiperplano ótimo. . . . . . . . . . . 41

7.1 Treimanento de uma SVMI . . . . . . . . . . . . . . . . . . . . . . . . . 49

7.2 Topologia da SVMI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

iii

Lista de Tabelas

2.1 Principaiskernelsutilizados nas SVMs . . . . . . . . . . . . . . . . . . . 16

7.1 Tabela de resultados da SVMI . . . . . . . . . . . . . . . . . . . . . . . 53

7.2 Tabela de resultados da SVMI . . . . . . . . . . . . . . . . . . . . . . . 54

7.3 Problema das espirais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

7.4 Problema das espirais intervalar . . . . . . . . . . . . . . . . . . .. . . 54

7.5 Matriz intervalar do problema das espirais intervalar para okernellinear . 55

7.6 Matriz intervalar do problema das espirais intervalar para okernellinear . 55

7.7 Matriz kernel do problema das espirais para okernelpolinomial . . . . . 55

7.8 Matriz intervalar do problema das espirais intervalar para okernelpoli-

nomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

7.9 Matriz kernel do problema das espirais para okernelgaussiano . . . . . . 56

7.10 Matriz intervalar do problema das espirais intervalarpara okernelgaussiano 56

iv

Capítulo 1

Introdução

1.1 Apresentação e motivação

As máquinas de vetores suporte (SVM - Support Vector Machines) têm atraído muita

atenção nos últimos anos devido a sua eficiência, comparada com outros tipos de redes

neurais, em aplicações que requerem aprendizado de máquinae por estar bem fundamen-

tado na teoria de aprendizado estatístico [Stitson et al. 1996, Pontil & Verri 1997]. A

SVM pode ser usada para resolver problemas de classificação eregressão linear. Burges

[Burges 1998] apresenta um tutorial sobre a SVM que trata de problemas de classificação

de padrões, e em [Stitson et al. 1996, Hearst 1998], mostram-se problemas de regressão,

fazendo da SVM uma abordagem abrangente para diversas aplicações que envolvem prob-

lemas de modelagem de dados empíricos.

Uma propriedade especial da SVM é a minimização do risco estrutural, proveniente

da teoria do aprendizado estatístico, cujo princípio se baseia no fato de que o erro de uma

máquina de aprendizagem sobre os dados de teste (erro de generalização) é limitado pelo

erro de treinamento mais um termo que depende da dimensão deVapnik-Chervonenkis

(dimensão VC), que é uma medida da capacidade de expressão deuma família de funções.

O objetivo da SVM é a construção de um hiperplano ótimo que minimiza o risco empírico

e a dimensão VC conjuntamente, e que ao maximizar a margem de separação das classes

implica na minimização da dimensão VC, satisfazendo a minimização do risco estrutural.

Um modelo de uma SVM pode ser descrito em simples palavras. Considerando um

problema linearmente separável cujo conjunto de treinamento pode ser classificado por

duas classes, uma SVM mapeia o espaço de entrada e encontra o hiperplano ótimo que

maximiza a margem de separação das classes, ou duas vezes a distância mínima de cada

classe ao hiperplano ótimo, cujos pontos situados sobre os extremos da máxima margem

do hiperplano ótimo são denominados devetores-suporte. Em casos reais, nem sempre os

problemas são linearmente separáveis e tanto o hiperplano quanto os vetores-suporte são

CAPÍTULO 1. INTRODUÇÃO 2

obtidos através de um problema de otimização com restrições. Uma generalização deste

conceito é utilizado para o caso não linear.

O problema de classificação de padrões, que originou a formulação da SVM, pode

ser resolvido por muitos outros classificadores, porém, a grande vantagem da SVM sobre

outros classificadores está no hiperplano ótimo que consegue obter uma máxima margem

de separação entre classes. Entretanto, mesmo com todas as vantagens e eficiência da

SVM como um classificador, existem alguns casos onde não é tãosimples determinar oti-

mamente a separação entre classes distintas através de um hiperplano, seja por utilizar um

conjunto de treinamento com informações imprecisas ou inconsistentes, ou por problemas

de erros de arredondamentos de valores durante a execução damáquina para encontrar o

hiperplano, ou por problemas de truncamento ou aproximaçãode procedimentos.

1.2 Objetivos

Ojetivando a diversidade e os pontos fortes da SVM, o desenvolvimento deste es-

tudo está focado na construção de uma teoria intervalar aplicada à SVM, abordando os

princípios teóricos da SVM e da teoria intervalar sob a nova modelagem da SVM inter-

valar, que será chamado resumidamente de SVMI. Essa nova modelagem tende a oferecer

uma precisão, herdada de conceitos da matemática intervalar, para controlar erros com-

putacionais, que poderá advir de ruídos durante a aquisiçãodos dados de treinamento,

imprecisão e informações faltosas nos dados de entrada.

A contribuição científica desde estudo está em oferecer uma formalização deste novo

modelo para o mundo científico, tanto de Redes Neurais, quando de qualquer outra área,

que pretende obter um controle de erros computacionais, ou analisar o desempenho de

métodos que gerem resultados com uma dada precisão, utilizando como classificador uma

SVMI.

1.3 Trabalhos relacionados

As áreas mais comuns de aplicações da SVM estão em: reconhecimento de caracteres,

reconhecimento de imagens, detecção de faces em imagens e categorização de textos

[Boser et al. 1992, Burges 1998, Ganapathiraju 2002, Hearst1998, Joachims 1998, Lima

2004, Pontil & Verri 1997, Stitson et al. 1996], e entre diversos problemas de regressão

[Stitson et al. 1996, Hearst 1998].

A SVM também é encontrada na literatura em problemas de multi-classificação, clas-

CAPÍTULO 1. INTRODUÇÃO 3

sificação de duas ou mais classes [Hsu & Lin 2002], ou estudos unindo SVMs a outras

teorias, como lógicaFuzzy, máquinas de vetores de suportefuzzy(MVSF) ou do inglês

Fuzzy Support Vector Machines(FSVM) [Lin & Wang 2002].

Pesquisas mostram a SVM utilizando análise intervalar. Zhao [Zhao et al. 2005] de-

senvolveu uma extensão intervalar da SVM para classificaçãode padrões que estivessem

incompletos. Através de experimentos e análises de resultados, Zhao, concluiu que o

método proposto classifica novos padrões mesmo com informações incompletas, e com

a utilização do conhecimento à priori pode ser reduzido os atributos em relação ao custo

durante o processo de classificação.

Existe também um outro estudo na teoria de aproximação, onde, Lingras [Lingras &

Butz 2004] propõe o uso de duas técnicas de classificação, a SVM e teoriaRough Set,

onde, busca-se interpretar o resultado da classificação da SVM em termos intervalares

ou rough setse explora-se tais vantagens. Hong [Hong & Hwang 2005] propõeutilizar

SVM para regressão intervalar, partindo de uma análise de regressãofuzzy. Em [Do &

Poulet n.d.] propõe-se uma análise de dados intervalares para métodos baseados noker-

nel. Angulo e autores [Angulo et al. 2007] utilizam análise intervalar sobre a SVM para

o caso linear. A SVM desenvolvida neste trabalho consiste emuma extensão (essen-

cialmente intervalar), caracterizando-se entre outros aspectos, pelo uso de uma métrica

caracterizando-se do usual para tratamento intervalar dosdados.

1.4 Organização do Trabalho

Este trabalho está organizado em capítulos da seguinte forma:

• Capítulo 1: traz uma breve introdução da SVM, bem como a motivação de realizar

este estudo, os objetivos juntamente com as contribuições que se pretende alcançar

e alguns trabalhos relacionados na área e nesta proposta.

• Capítulo 2: mostra a fundamentação teórica da SVM para os casos de classes linear-

mente separáveis e não linearmente separáveis, com o objetivo de um embasamento

teórico bem esclarecido para um melhor entendimento da proposta deste estudo.

• Capítulo 3: apresenta a fundamentação teórica da abordagemintervalar, objeti-

vando apresentar os conceitos básicos da matemática intervalar que serão utilizados

na construção de uma máquina SVM intervalar.

• Capítulo 4: fornece os fundamentos básicos de conceitos de otimização, produto

internokernele da teoria do aprendizado estatístico. Conceitos utilizados na SVM

para encontrar o hiperplano ótimo calculado a partir da resolução de problemas de

CAPÍTULO 1. INTRODUÇÃO 4

otimização com restrições. Será mostrado também os fundamentos da otimização

com uso da análise intervalar, necessário para encontrar o hiperplano que satisfaça

as condições de otimização intervalar e as propriedades da SVM.

• Capítulo 5: formalismo da extensão intervalar de kernels, bem como o teorema que

valida funções a serem consideradas válidas para serem kernels.

• Capítulo 6: este capítulo descreve os aspectos teóricos baseados nos capítulos an-

teriores, e uma definição inicial para o caso linearmente separável, detalhando com

um algoritmo e a aplicação de exemplos para apresentar alguns resultados já obti-

dos.

• Capítulo 7: implementações de métodos iterativos intervalares para o treinamento

de uma SVMI.

• Capítulo 8: considerações gerais e possibilidades de trabalhos futuros.

Capítulo 2

Máquinas de Vetores-Suporte

As máquinas de vetores suporte, referenciado em inglês comoSupport Vector Ma-

chines(SVM), constituem numa técnica fundamentada na Teoria de Aprendizado Estatís-

tico visando a proposição de técnicas de aprendizado de máquina que buscam a maximiza-

ção da capacidade de generalização e a minimização do risco estrutural [Haykin 2001].

A maximização da capacidade de generalização em técnicas deaprendizado de máquina

é a capacidade da máquina na classificação eficiente perante oconjunto de treinamento,

e a minimização do risco estrutural é a probabilidade de classificação errônea de padrões

ainda não apresentados à máquina.

Na literatura é encontrado o termo máquinas de vetor de suporte ligado a proble-

mas de classificação e regressão [Hearst 1998, Lima 2004, Stitson et al. 1996], e o termo

vetores-suporte ou ainda, vetores de suporte utilizado para encontrar um hiperplano ótimo

de separação, responsável pela separação de classes, ou umafunção de separação com

margem máxima entre classes distintas. A teoria que define rigososamente os conceitos

e demonstrações matemática da função do hiperplano ótimo é ateoria de aprendizado

estatístico, tratado por Vapnik como dimensão Vapnik-Chervonenkis, ou simplemente di-

mensão VC [Haykin 2001, Lorena & Carvalho 2003, Semolini 2002]. Essa dimensão é de

fundamental importância, pois, sua estimativa correta garante o aprendizado de maneira

confiável, em outras palavras, a dimensão VC engloba o princípio de minimização de

risco estrutural, que envolve a minimização de um limite superior sobre o erro de general-

ização, tornando a máquina com uma habilidade alta para generalizar padrões ainda não

apresentados.

Neste capítulo será descrito uma formulação básica da SVM, apresentando a SVM

para classificação do caso linearmente separável e do caso não linearmente separável.

CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 6

2.1 Máquina de Vetores-Suporte Linearmente Separável

O problema de classificação binária, problema de classificação inicial tratado pela

SVM, trata da classificação de duas classes, sem perda de generalidade, através de um

hiperplano ótimo à partir de um conjunto de treinamento linearmente separável. Um

conjunto de treinamento é dito linearmente separável se forpossível separar os padrões

de classes diferentes contidos no mesmo por pelo menos um hiperplano [Haykin 2001,

Semolini 2002].

Considere o conjunto de treinamento(xi ,di)Ni=1, ondexi é o padrão de entrada para

o i-ésimo exemplo edi é a resposta desejada,di = +1,−1, que representa as classes

linearmente separáveis.

A equação que separa os padrões através de hiperplanos pode ser definida por:

wT ·x+b= 0 (2.1)

onde,wT · x é o produto escalar entre os vetoresw e x, em quex é um vetor de entrada

que representa os padrões de entrada do conjunto de treinamento, w é o vetor de pesos

ajustáveis eb é um limiar também conhecido como bias.

A Figura 2.1 mostra o hiperplano de separação(w,b) em um espaço bidimensional

para um conjunto de treinamento linearmente separável.

Figura 2.1: Hiperplano de separação(w,b) para um conjunto de treinamento bidimen-sional.

CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 7

A equação (2.1) pode ser reescrita por:

wT ·xi +b≥ 0, sedi =+1

wT ·xi +b< 0, sedi =−1(2.2)

A margem de separação, distância entre o hiperplano definidona equação (2.1) e o

ponto mais próximo de ambas as classes, é representado porρ. O objetivo de uma SVM

é encontrar um hiperplano que separe o conjunto de treinamento sem erro e maximize

a margem de separação, sobre essa condição, o hiperplano é referido como hiperplano

ótimo. A Figura 2.2 ilustra o hiperplano ótimo para um espaçode entrada bidimensional.

Figura 2.2: Hiperplano ótimo com máxima margemρo de separação dos padrões linear-mente separáveis.

Considerando quewo e bo representam os valores ótimos do vetor peso e do bias,

respectivamente, a equação (2.1) do hiperplano pode ser reescrita para o hiperplano como:

wTo ·xo+bo = 0 (2.3)

A função discriminante

g(x) = wTo ·xo+bo (2.4)

CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 8

fornece uma medida algébrica de distânciar entrex e o hiperplano(wo,bo) que pode ser

representado por:

x = xp+xn (2.5)

onde,xp é a projeção normal dex sobre o hiperplano ótimo exn é o vetor normal com

distânciar, onde,

xn = r · wo

‖ wo ‖(2.6)

A Figura 2.3 ilustra a distânciar entrex e o hiperplano(wo,bo), onde,r é positivo se

x estiver no lado positivo do hiperplano ótimo caso contrárioserá negativo.

Figura 2.3: Interpretação gráfica da distânciax até o hiperplano ótimo para o caso bidi-mensional.

Considerandog(xp) = 0

g(x) = wTo ·xo+bo

= r· ‖ wo ‖(2.7)

onde, através da equação (2.7) é obtido a distânciar

r =| g(x) |‖ wo ‖

(2.8)

CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 9

O conjunto de treinamento é linearmente separável sewo ebo satisfazer a restrição

wTo ·xi +bo ≥+1, sedi =+1

wTo ·xi +bo ≤−1, sedi =−1

(2.9)

onde, os parâmetroswo ebo são obtidos somente através do conjunto de treinamento.

A equação (2.9) pode ser reescrita por:

di(wTo ·xi +bo)≥ 1 (2.10)

O pontos(x,d), onde a equação (2.10) é satisfeita para o sinal de igualdadesão deno-

minados devetores-suporte, e são esses pontos que influenciam diretamente na localiza-

ção do hiperplano ótimo de máxima margem, pois, esses pontosestão mais próximos da

superfície de decisão.

Considerando um pontox(s) vetor-suporte de classe positivad(s) = +1, então por

definição:

g(x(s)) = wTo ·x(s)+bo−1 paradi =+1 (2.11)

Da equação (2.8), a distância do vetor de suportex(s) até o hiperplano ótimo é dado

por:

r = wTo ·x(s)+bo‖wo‖ =

+ 1‖wo‖ sed(s) =+1

− 1‖wo‖ sed(s) =−1

(2.12)

onde, o sinal positivo indica quex(s) pertence ao lado positivo do hiperplano ótimo e o

sinal negativo o contrário. Considerandoρ a margem de separação máxima entre duas

classes de um conjunto de treinamento, então:

ρ = 2r = 2‖wo‖ (2.13)

Logo, a equação (2.13) mede a distância entre os hiperplanosda equação (2.10), da

mesma forma que a distância entre os hiperplanoswT · x+ b = 0 e wT · x+ b = 1 ou

wT · x+b= −1 é dado por 1‖w‖ . Como é suposto que a margem de separação é sempre

maior que esta última distância, a minimização de‖ w ‖ leva a uma maximização da

margem.

CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 10

2.1.1 Hiperplano Ótimo para Classes Linearmente Separáveis

O hiperplano ótimo definido para os parâmetrosw eb que satisfaçam as desigualdades

da equação (2.10), pode ser reescrito como:

di(wT ·xi +b)≥ 1 (2.14)

O objetivo da SVM é encontrar um procedimento computacionalque, utilizando o

conjunto de treinamento(xi,di)Ni=1 encontra o hiperplano ótimo sujeito às restrições da

equação (2.14). Este problema pode ser resolvido através doproblema de otimização com

restrições, minimizando a função custoΦ em relação ao vetor de pesow e satisfazendo

as restrições da equação (2.14)

Φ(w) =12

wT ·w (2.15)

A partir da função custoΦ da equação (2.15) pode ser formulado o problema de

otimização com restrições, denominado de problema primal:

Minimizar: 12wT ·w

Sujeito as restrições: di(wT ·xi +b)≥ 1, parai = 1, ...,n(2.16)

Este é um problema clássico em otimização de programação quadrática [Hearst 1998]

sob o aspecto de aprendizado de máquina. O problema de otimização analisado sob o

ponto de vista de otimização de função quadrática pode ser resolvido introduzindo uma

função lagrangiana, definida em termos dew eb:

J(w,b,α) =12‖ w ‖2 −

N

∑i=1

αi(di(wT ·x+b)−1) (2.17)

onde, osαi são denominados demultiplicadores de Lagrangenão-negativos.

O problema passa a ser então a minimização da equação (2.17) em relação aw e b e

maximização deαi , comαi ≥ 0. Os pontos ótimos desta esquação são obtidos diferen-

ciando a equação (2.17) em relação aw e b e igualando os resultados a zero, obtendo as

condições de otimização:

Condição 1: ∂J(w,b,α)∂w = 0

Condição 2: ∂J(w,b,α)∂b = 0

(2.18)

A aplicação das condições de (2.18) à função lagrangiana da equação (2.17) levam ao

CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 11

resultado:w = ∑N

i=1 αidixi

∑Ni=1αidi = 0

(2.19)

Substituindo a equação (2.19) em (2.17), obtém-se o problema dual de otimização:

Maximizar: ∑Ni=1 αi − 1

2 ∑Ni=1∑N

j=1 αiα jdid jxTi ·x j

Sujeito as restrições:

(1) αi ≥ 0, i = 1, ...,N

(2) ∑Ni=1 αidi = 0

(2.20)

Tendo encontrado os multiplicadores de Lagrange ótimos, representados porαoi , pode-

se calcular o vetor de peso ótimowo através da equação (2.19):

wo =N

∑i=1

αoi dixi (2.21)

O valor do bias ótimobo é encontrado utilizando os pesos ótimoswo encontrados na

equação (2.21) e descrito como:

bo = 1−wTo ·x(s) parad(s) = 1 (2.22)

O problema dual (2.20) é formulado totalmente em termos dos padrões de treina-

mento, além disso, a equação a ser maximizada da equação (2.20) depende somente dos

padrões de entrada. O hiperplano ótimo depende somente dos vetores de suporte, consi-

derados os padrões mais significativos do conjunto de treinamento. Os multiplicadores de

Lagrangeαo > 0 (diferentes de zero) são justamente os padrões de entrada com margem

igual a 1, chamados de vetores de suporte.

O hiperplano ótimo é expresso em termos do conjunto de vetores de suporte descrito

pela função sinal como:

f (x) = sgn(NSV

∑i=1

diαoixT ·x+bo) (2.23)

Os padrões de entrada que não são vetores de suporte não influenciam na função de

decisão da escolha do hiperplano ótimo pela da SVM.

Um ponto importante para este problema de otimização é que fornece solução única

encontrado eficientemente, diferente de outras técnicas.

CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 12

2.2 Máquina de Vetor de Suporte Não Lineares

O problema de classificação binária, onde, classes distintas são não linearmente se-

paráveis no espaço original, mas, com um mapeamento não linear através de um produto

internokerneltransforma o espaço original em um espaço de características de dimensão

maior, e, o problema que era não linearmente separável no espaço original passa-se a ser

linearmente separável no espaço de características é representado pela SVM não linear-

mente separável ou SVM para classes linearmente separáveisno espaço de características.

O espaço de características, mencionado acima, corresponde a uma representação

do conjunto de treinamento, um mapeamento do espaço de entrada original em um novo

espaço utilizando funções reaisϕi , ...,ϕM. A Figura 2.4 ilustra esse conceito.

Figura 2.4: Mapeamento de características.

Para a construção da SVM no caso não linear, a idéia depende deduas operações

matemáticas. Primeiro: o mapeamento não linear do vetor de entrada para um espaço de

características de alta dimensionalidade. O teorema que trata dessa operação é o teorema

de Cover [Haykin 2001], onde, as funçõesϕi são não lineares e a dimensionalidade do

espaço de característicasM é suficientemente alta. Segundo: a construção de um hiper-

plano ótimo para separação das características descobertas no primeiro, uma vez que o

teorema de Cover não procura o hiperplamo ótimo de separação. A fundamentação desta

última operação está na teoria da dimensão VC que busca o princípio da minimização do

risco estrutural [Haykin 2001, Lorena & Carvalho 2003, Semolini 2002].

2.2.1 Hiperplano Ótimo para Classes Não Linearmente Separáveis

Considerando, em uma visão geral, o problema de classificação, onde, as classes são

não linearmente separáveis, a construção do hiperplano de separação, dado os padrões de

CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 13

treinamento, possivelmente gerará erros de classificação.O objetivo da SVM neste caso é

encontrar um hiperplano que minimiza a probabilidade de erro de classificação junto com

o conjunto de treinamento.

Existem alguns casos onde, não é necessário fazer um mapeamento de características

no conjunto de treinamento. Esses casos são tratados pela SVM linear com margens de

separação entre classes suaves ou flexíveis (soft), pois, poderão existir pontos(xi ,di) que

violarão a equação (2.14).

Esta violação pode ocorrer em três diferentes situações descritas a seguir:

• O ponto(xi,di) se encontra dentro da região de separação e no lado correto da

superfície de decisão, ilustrado na Figura 2.5 (a). Neste caso, houve uma escolha

incorreta do hiperplano.

• O ponto(xi,di) se encontra dentro da região de separação e no lado incorretoda

superfície de decisão, ilustrado na Figura 2.5 (b). Neste caso, houve uma escolha

incorreta do hiperplano de margem maior.

• O ponto(xi ,di) se encontra fora da região de separação e no lado incorreto da

superfície de decisão, ilustrado na Figura 2.5 (c).

Figura 2.5: (a) O ponto(xi,di) se encontra na região de separação, mas do lado correto.(b) O ponto(xi ,di) se encontra na região de separação, mas do lado incorreto. (c) O ponto(xi,di) se encontra fora da região de separação, mas do lado incorreto.

Para tratar desses problemas introduz-se uma variável não negativaξi1≤i≤N na

definição do hiperplano de separação:

di(wT ·xi +b)≥ 1−ξi (2.24)

CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 14

As variáveisξi são denominadas devariáveis soltas, e medem os desvios dos pontos

(xi,di) para a condição ideal de separação de classes. Quandoξi satisfazer 0≤ ξi ≤ 1

o ponto encontra-se dentro da região de separação mas do ladocorreto da superfície de

decisão. Quandoξi > 1 o ponto encontra-se do lado incorreto do hiperplano de separação.

Os vetores-suporte são os pontos que o resultado da equação (2.24) é igual a 1− ξi

mesmo queξi > 0. Ao retirar um padrão do conjunto de treinamento em queξi > 0 a

superfície de decisão tem possibilidade de mudança, porém,ao retirar um padrão em que

ξi = 0 e o resultado da equação (2.24) for maior que 1 a superfície de decisão permanecerá

inalterada.

O objetivo é encontrar um hiperplano de separação onde o errode classificação in-

correta seja mínimo perante o conjunto de treinamento, podendo ser feito minimizando a

equação:

Φ(ξ) =N

∑i=1

I(ξi −1) (2.25)

em relação ao vetor pesow, sujeito à restrição da equação do hiperplano de separação

da equação (2.24) e a restrição sobrewTw. A funçãoI(ξ−1) é uma função indicadora,

definida por:

I(ξ−1) =

0 seξ ≤ 0

1 seξ > 0(2.26)

A minimização deΦ(ξ) é um problema de otimização não convexo de classe NP-

completo não determinístico em tempo polinomial. Para fazer este problema de otimiza-

ção matematicamente tratável, aproxima-se a funçãoΦ(ξ) por:

Φ(ξ) =N

∑i=1

ξi (2.27)

Para a simplificação de cálculos computacionais a função a ser minimizada em relação

ao vetor pesow segue:

Φ(w,ξ) =12

wT ·w+CN

∑i=1

ξi (2.28)

onde, o parâmetroC controla a relação entre a complexidade do algoritmo e o número de

amostras do conjunto de treinamento classificados incorretamente, sendo denominado de

parâmetro de penalização.

A minimização do primeiro termo da equação (2.28) está relacionada à minimização

da dimensão VC da SVM. O segundo termo pode ser visto como um limitante supe-

rior para o número de erros no padrão de treinamento apresentados à máquina. Logo, a

CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 15

equação (2.28) satisfaz os princípios de minimização do risco estrutural.

O problema de otimização em sua representação primal para encontrar o hiperplano

ótimo de separação para classes não linearmente separáveispode ser escrito como:

Minimizar: 12wT ·w+C∑N

i=1 ξi

Sujeito as restrições:

(1) di(wT ·xi +b)≥ 1−ξi , parai = 1, ...,N

(2) ξi ≥ 0,∀i = 1, ...,N

(2.29)

Utilizando o método dos multiplicadores de Lagrange, pode-se formular o problema

de otimização primal em seu correspondente problema dual demaneira similar à descrita

na seção 2.1.

Maximizar: ∑Ni=1 αi − 1

2 ∑Ni=1∑N

j=1 αiα jdid jxTi ·x j

Sujeito as restrições:

(1) ∑Ni=1diαi

(2) 0≤ αi ≤C parai = 1, ...,N

(2.30)

onde,C> 0 é especificado pelo usuário.

A principal diferença entre o caso de classes linearmente separáveis, seção 2.1, e o

caso de classes não linearmente separáveis é qua a restriçãoαi ≥ 0 é substituída por uma

mais forte 0≤ αi ≤C.

O vetor de pesos ótimoswo é calculado da mesma maneira do caso de classes linear-

mente separáveis, equação (2.21). O bias ótimob também segue um procedimento similar

ao descrito anteriormente, equação (2.22).

Existem casos também onde, é necessário mapear o espaço de entrada não linear para

um espaço de características. Para realizar esse mapeamento, as funçõeskernelou pro-

duto do núcleo interno são utilizadas e que serão apresentados a seguir.

2.2.2 FunçãoKernel

Existem muitos casos onde não é possível dividir satisfatoriamente os padrões do

conjunto de treinamento através de um hiperplano, mesmo observando as variáveis soltas.

Para a realização desta tarefa é feito um mapeamento no domínio do espaço de entrada do

conjunto de treinamento para um novo espaço, o espaço de características, usando uma

funçãokernelapropriada.

Um kernel ké uma função que recebe dois pontosxi e x j do espaço de entrada e

computa o produto escalarϕT(xi) ·ϕ(x j) no espaço de características.

O termoϕT(xi) ·ϕ(x j) representa o produto interno dos vetoresxi ex j , sendo okernel

CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 16

representado por:

k(xix j) = ϕT(xi) ·ϕ(x j) (2.31)

Adaptando a equação (2.21) envolvendo um espaço de características, pode ser rees-

crito como:

w =N

∑i, j=1

αidiϕT(xi) ·ϕ(x j) (2.32)

onde, o vetor de característicasϕ(xi) corresponde ao padrão de entradaxi no i-ésimo

exemplo.

Dessa forma, pode ser usado o produto internok(xi,x j) para construir um hiperplano

ótimo no espaço de características sem ter que considerar o próprio espaço de caracterís-

ticas de forma explícita, observe a equação (2.32) em (5.1):

N

∑i, j=1

αidik(xi ,x j) (2.33)

A utilização dekernelsestá na simplicidade de cálculos e na capacidade de representar

espaços muito abstratos.

As funçõesϕ devem pertencer a um domínio em que seja possível o cálculo depro-

dutos internos. No geral, utiliza-se oteorema de Mercerpara satisfazê-las. Segundo o

teorema, oskernelsdevem ser matrizes positivamente definidas, isto é,ki j = k(xi,x j),

para todoi, j = 1, ...,N, deve ter auto-vetores maiores que 0.

Alguns kernelsmais utilizados são: os polinomiais, os gaussianos ou RBF (Radial

Basis Function) e o sigmoidais.

Kernel Funçãok(xi,x j) ComentáriosPolinomial (xT

i ·x j +1)p p é especificadoa priori pelo usuário

RBF e(−1

2σ2‖xi−x j‖2) a largura deσ2 é especificadaa priori pelo usuárioSigmoidal tanh(β0xT

i ·x j +β1) teorema de Mercer satisfeito somente paraβ0 e β1

Tabela 2.1: Principaiskernelsutilizados nas SVMs

A obtenção de um classificador por meio do uso de SVMs envolve aescolha de uma

funçãokernelapropriada, além de parâmetros desta função e do algoritmo de determi-

nação do hiperplano ótimo. A escolha dokernele de seus parâmetros afetam o desem-

penho do classificador através da superfície de decisão.

CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 17

2.3 Considerações

Algumas considerações deste capítulo.

Para a SVM linear existem algumas particularidades:

• O problema dual é formulado somente com os padrões de treinamento.

• O hiperplano ótimo é definido somente pelos vetores de suporte, que são os padrões

mais significativos.

• Os vetores de suporte são os multiplicadores de Lagrange diferentes de zero para

α > 0.

• Os padrões de entrada que não são vetores de suporte não influenciam a definição

do hiperplano ótimo.

• Essa máquina oferece solução única e ótima, ao contrário de outras máquinas.

Algumas particularidades para o caso não linear:

• No caso de classes não linearmente separáveis a restriçãoαi ≤ 0 é substituída por

uma mais forte 0≤ αi ≤C.

• O vetor de pesos ótimoswo é calculado da mesma maneira do caso de classes

linearmente separáveis,wo = ∑Ni=1αoidixi .

• Para o caso onde é necessário mapear o espaço de entrada para um espaço de ca-

racterística é utilizado funções de núcleo interno, as funções kernel, que devem

satisfazer um teorema, chamado de teorema de Mercer.

Capítulo 3

Matemática Intervalar

A matemática intervalar, assim como a matemática “clássica”, é uma ciência que es-

tuda medidas, relações de quantidade e grandezas e possui diversos ramos, por exemplo,

a aritmética intervalar, que estuda as propriedades dos números intervalares (intervalos)

e suas operações. O histórico do desenvolvimento da matemática intervalar não é muito

recente, possuindo diversos estudos realizados a mais de cinco décadas atrás. Norbert

Wiener, considerado o “pai” da cibernética, em 1914, introduziu a análise de medida de

aproximações [Kreinovich et al. 1998]. Na década de 30, Young publicou um estudo

[Young 1931] em que dava regras para cálculos com intervalose outros conjuntos de

números reais. Outras publicações foram feitas nas décadasposteriores, mas foi com Ra-

mon E. Moore [Moore 1966], na década de 60, que a matemática intervalar ficou mais

difundida na computação, devido principalmente à sua abordagem de computação inter-

valar, e das técnicas para problemas computacionais.

Sistemas computacionais podem ser descritos como um conjunto finito de processos

que envolvem operações matemáticas para uma determinada função. O uso da matemática

intervalar em sistemas computacionais consiste em buscar soluções mais eficientes para

problemas computacionais, como a criação de modelos computacionais que reflitam de

forma fidedigna a realidade, e também a escolha de técnicas deprogramação adequadas

para desenvolvimento de softwares científicos a fim de minimizar erros do resultado.

A qualidade do resultado computacional está diretamente associada ao conhecimento

e controle do erro, que pode ocorrer no processo computacional. Esses erros são fre-

quentemente gerados pela, propagação dos mesmos nos dados eparâmetros iniciais, trun-

camento e/ou arredondamento da informação. A precisão do resultado consiste então

na estimativa e análise do erro, que geralmente é uma tarefa extensa, dispendiosa e nem

sempre viável. O uso da matemática intervalar na computaçãobusca garantir que no pro-

cessamento, o tratamento do erro se torne o menor possível e conhecido. O processo dos

métodos que fazem uso da computação intervalar, consiste namanipulação de dados ini-

CAPÍTULO 3. MATEMÁTICA INTERVALAR 19

ciais na forma de intervalos, computando-os, onde, cada intervalo contém um indicativo

máximo de erro, antes de ser introduzido na computação.

A seguir, serão abordado alguns conceitos fundamentais da aritmética intervalar en-

contrados na literatura em [Acióly 1991, Santos 2001, Hayes2003, Kreinovich et al. 1998,

Kulisch 1982, Kulisch & Miranker 1981, Lyra 2003, Moore 1966, Young 1931].

3.1 Representação de Intervalos

A motivação de pesquisas computacionais no desenvolvimento do campo intervalar

vem da impossibilidade de representar uma informação computacional igual à informação

original. Por exemplo, informações do tipo imagem, como discutida anteriomente, são

representadas por funções contínuas, e na discretização, existe uma perda de informações,

e a utilização intervalar possibilitará uma maior manipulação dos erros na aquisição da

imagem.

A noção de intervalos foi traçada inicialmente por Arquimedes quando estimou dois

valores paraπ, e que garantia que esseintervalocontinha o valor deπ.

A representação de intervalos no conjunto dos números reaisR é denotado pelo par

ordenado de números reaisX = [x1;x2] (ouX = [x,x]), tal quex1 ≤ x2, ex1 ex2 ∈ R, e se

R representa o conjunto de todos os números reais, então,X = x∈ R | x1 ≤ x≤ x2.

Considerem as descrições deste estudo as letras maiúsculascomo pontos do conjunto

de intervalos reais, por exemplo, seguindo a definição acima, a letraX representa o ponto

do conjunto dos intervalos de reais ex1 é denominado de ínfimo ex2 denominado de

supremo. O conjunto intervalar dos números reais será denotado comoIR.

A representação de um número real exato é dado comoX = [x1;x2], em que,x1 =

x2, ou seja, sejaX = 4, logo, 4= [4;4]. Este tipo de intervalo é chamado de intervalo

degenerado.

3.2 Operações Aritméticas Intervalares

SejamX = [x1;x2] e Y = [y1;y2], onde,X e Y ∈ IR. As operações aritméticas, tais

como,adição, subtração, multiplicaçãoe divisãoemIR são definidas sobre os extremos

de seus intervalos.

1. Adição Intervalar:

X+Y = [x1+y1;x2+y2]

CAPÍTULO 3. MATEMÁTICA INTERVALAR 20

2. Pseudo Inverso Aditivo Intervalar:

−X = [−x2;−x1]

3. Subtração Intervalar:

X−Y = [x1−y2;x2−y1]

4. Multiplicação Intervalar:

X ∗Y = [minx1y1;x2y1;x1y2;x2y2; maxx1y1;x2y1;x1y2;x2y2]5. Pseudo Inverso Multiplicativo Intervalar: 0/∈ X

X−1 = 1/X = [1/x2;1/x1]

6. Divisão Intervalar: 0/∈Y

X/Y = [minx1/y2;x2/y2;x1/y1;x2/y1; maxx1/y2;x2/y2;x1/y1;x2/y1]7. Quadrado Intervalar:

X2 =

[x21;x2

2], se 0≤ x1

[x22;x2

1], sex2 ≤ 0

[0,maxx21;x2

2], senão

3.3 Propriedades Algébricas Intervalares

SejamX, Y, Z ∈ IR. As propriedades algébricas para as operações anteriores são,

fechamento, comutativa, associativa, elemento neutro, subdistributiva, emonotônica.

1. Fechamento:

• SeX, Y ∈ IR, entãoX+Y ∈ IR

• SeX, Y ∈ IR, entãoX ∗Y ∈ IR

2. Comutativa:

• X+Y =Y+X

• X ∗Y =Y ∗X

3. Associativa:

• X+(Y+Z) = (X+Y)+Z

• X ∗ (Y ∗Z) = (X ∗Y)∗Z

4. Elemento Neutro:

• X+[0;0] = [0;0]+X = X

• X ∗ [1;1] = [1;1]∗X = X

5. Subdistributiva:

X ∗ (Y+Z)⊆ (X ∗Y)+(X ∗Z)

CAPÍTULO 3. MATEMÁTICA INTERVALAR 21

6. Inclusão Monotônica:

SejamX, Y, Z eW ∈ IR, tais que,X ⊆ Z eY ⊆W.

• X+Y ⊆ Z+W

• −X ⊆−Z

• X−Y ⊆ Z−W

• X ∗Y ⊆ Z∗W.

• 1/X ⊆ 1/Z, se 06∈ Z

• X/Y ⊆ Z/W, se 06∈W

3.4 Ordem Intervalar

Na literatura encontramos diversas formas de definição de ordens (parciais) para in-

tervalos. As mais conhecidas são, ordem de Moore [Moore 1966], ordem de Kulisch &

Miranker [Kulisch & Miranker 1981], ordem da Informação [Acióly 1991] e ordem da

Teoria dos Conjuntos.

ParaX,Y ∈ IR, tem-se que:

1. Ordem de Moore:X <Y = [x1;x2]< [y1;y2]⇔ x2 < y1

2. Ordem de Kulisch-Miranker:X ≤Y = [x1;x2]≤ [y1;y2]⇔ x1 ≤ y1 ex2 ≤ y2

3. Ordem da Teoria dos Conjuntos:X <Y = [x1;x2] ≤ [y1;y2]⇔ [x1;x2]⊆ [y1;y2]⇔y1 ≤ x1 ex2 ≤ y2. Logo [x1;x2]≤ [y1;y2].

4. Ordem da Informação:X ≤ Y = [x1;x2] ≤ [y1;y2] ⇔ [y1;y2] ⊆ [x1;x2] ⇔ x1 ≤y1 ey2 ≤ x2. Logo,[x1;x2]≤ [y1;y2].

3.5 Função Intervalar

SejamF : IR→ IR e f :R→R. Dizemos queF representaf ou quef é representado

porF , denotado porf ⊆ F, se:

∀X ∈ IR,∀x∈ X temos quef (x) ∈ F(X)

A extensão dessa definição de função paraX ⊂ IRm eY⊂ IR

n é feita de forma natural.

3.5.1 Metrica intervalar em IRn

A definição de distância entre dois pontos é formalizado utilizando o conceito de

espaço métrico e onde existe uma distância ou conjunto métrica é chamado um espaço

CAPÍTULO 3. MATEMÁTICA INTERVALAR 22

métrico. A distância mais utilizada é a distância Euclidiana. Para o caso intervalar, pode

ser visto como subconjunto deR2 suas métricas naturais seguindo:

Definição 1 (Metrica de Moore) [Moore 1979] Seja DM : IRn×IRn→R, definido, para

cadaX = (X1, . . . ,Xn),Y = (Y1, . . . ,Yn) ∈ IRn como:

DM(X,Y) =

n

∑i=1

max((Xi −Yi)2,(Xi −Yi)2).

Paran = 1, DM(X,Y) = max(|X −Y|, |X −Y|). Como cada métrica, esta definição

determina a noção de continuidade para funções intervalares [Acióly & Bedregal 1997].

Essa métrica não é estritamente intervalar, ou seja, a distância entre dois intervalos

não é um intervalo, mas um número real, o que não parecem ser natural quando visto

intervalos como representação de um número desconhecido real. Por exemplo, se só

sabermos que um objeto A está em uma cidade C e uma pessoa B estáem uma cidade D,

mas não saber a sua posição exata nas cidades, não é realista que nós podemos fornecer a

real distância entre A e B, mas apenas um intervalo. Isto motivou [Trindade et al. 2008]

introduzir a noção de métricas intervalares e, particularmente, métrica intervalar para

IR, chamado de distância essencialmente intervalar, que não perde as características da

métrica Euclidiana quando se trata de números reais ou intervalos degenerados. Este

trabalho usará essa extensão intervalar de distância paraIRn.

A distância essencialmente intervalar é uma funçãoDTB : IRn× IRn → IR definido

por

DTB(X,Y) = [mind(x,y) | x ∈ X andy ∈ Y,maxd(x,y) | x ∈ X andy ∈ Y]1

Definição 2 (Norma vetorial intervalar) Seja a norma de um número real a distância

entre o ponto e a origem, a norma para um intervalo2, X ∈ IR é definido por

‖ X ‖=

[X,X], if X > 0

[| X |, | X |], if X < 0

[0,max| X |, | X |], senão

A definição geral da norma intervalar baseada na distância essencialmente intervalar

é

1A distância d : Rn × Rn → R é a distância Euclidiana, i.e.d(x,y) =

n∑

i=1‖ xi − yi ‖, ∀x =

(x1, . . . ,xn),y = (y1, . . . ,yn) ∈ Rn.

2Note que essa definição de norma intervalar é diferente da definição usual de norma intervalar, eg.: anorma intervalar de Moore [Moore 1979].

CAPÍTULO 3. MATEMÁTICA INTERVALAR 23

‖ X ‖=√

DTB(X1, [0,0])2+ ...+DTB(Xn, [0,0])2

=√

‖ X1 ‖2 +...+ ‖ Xn ‖2

3.5.2 Integral Interval

Definição 3 (Integral Interval) Seja F: R→ IR uma função intervalar contínua e X∈IR. Para integral intervalar F limitado em[X,X] é definido [Moore 1966, Moore 1979,

Moore et al. 2009] ∫ X

XF(t)dt = [

∫ X

XF(t)dt,

∫ X

XF(t)dt]

onde, F(t) = F(t) eF = F(t).

3.6 R-vetoide e espaço R-vetoide intervalar

Uma vez que, operação aritmética intervalar não é um campo, então também não é um

espaço vetorial. A fim de considerar as propriedades do espaço vectorial para intervalos,

essa definição será relaxada.

Definição 4 (R-Vetoide) [Kulisch 2008] SejaR = (R,+,∗) um aneloide com0 e1 como

elementos identidade aditivo e multiplicativo, respectivamente,V = (V,⊕) um grupoide

e · : R×V →V. Então(R ,V , ·) é um espaço R-vetoide se satisfaz as seguintes condições:

1. Comutatividade de soma vetorial:X ⊕Y = Y ⊕X;

2. Vetor identidade:X ⊕0= X;

3. α ·0= 0 e0 ·X = 0;

4. 1 ·X = X;

5. −(X ⊕Y) = (−X)⊕ (−Y);

6. −(α ·X) = (−α) ·X = α · (−X).

onde−α =−1∗α e−1 é o único elemento em R tal que(−1)∗ (−1) = 1.

Elementos deV são chamados de vetoides e elementos deR são chamados de es-

calares. Neste trabalho, vetores são distinguidos dos escalares pelo negrito.

Note que todo espaço vetorial em um espaçoR é um R-vetoide.

Definição 5 (Matriz Interval) [Moore et al. 2009] Uma matrixX de ordem m×n é uma

matriz intervalar se cada elemento da matriz for um intervalo. O intervalo na linha i e

coluna j é denotado por Xi, j . Um vetor intervalar é uma matriz intervalar de dimensão

m×1. Será adotado a notaçãoMIRm,n para o conjnto de matrizes intervalares de ordem

m por n.

CAPÍTULO 3. MATEMÁTICA INTERVALAR 24

As operações aritméticas entre matrizes intervalares e intervalos com matrizes inter-

valares são como o caso real, mas considerando a aritmética intervalar. Será considerado

o mesmo símbolo para operadores similares emIR eMIRm,n, i.e. em vez de⊕ também

será usado+ e em vez de∗ também será usado·. Na adição, considere a seguinte exten-

são de subconjunto relacionado com intervalos: sejaX,Y ∈MIRm,n, X ⊆ Y seXi, j ⊆Yi, j

para algumi = 1, . . . ,me j = 1, . . . ,n.

Definição 6 Um espaço R-vetoide(R ,V , ·) é um espaço intervalar R-vetoide quando

R= IR e V=MIRm,n para alguns m,n∈ N.

Proposição 3.6.1[Kulisch 2008] Seja m,n≥ 1, IR = (IR,+, ·) o aneloide de intervalos

eMIR = (MIRm,n,+) o grupoide de matrizes intervalares de ordem m por n. Então

(IR ,MIR , ·), onde· : IR×MIRm,n → MIRm,n é um espaço R-vetoide intervalar. Na

adição esse espaço R-vetoide intervalar também satisfaz a seguinte propriedades:

1. Distributividade de adição por um escalar:(α+β) ·X ⊆ α ·X ⊕β ·X;

2. Distributividade de soma vetorial:α · (X ⊕Y)⊆ α ·X ⊕α ·Y;

3.6.1 Produto interno intervalar

Definição 7 (Produtoide interno) Seja(R ,V , ·) um R-vetoide. Um mapeamento〈·, ·〉 :

V ×V → R é um produtoide interno se para cadaX,Y ∈ V, satisfazer as seguintes pro-

priedades:

1. Comutatividade:〈X,Y〉= 〈Y,X〉.2. Homogeneidade:〈α ·X,Y〉= α · (X,Y)

3. Positividade:〈X,X〉 ≥ 0 and〈X,X〉= 0 iff X = 0.

Um espaço R-vectoide juntamente com um produtoide interno échamado um espaço

interno produtoide.

Proposição 3.6.2Seja (IR ,MIR m,n, ·) um espaço R-vetoide intervalar e uma apli-

cação intervalar (função intervalar)〈·, ·〉 : MIRm,n×MIRm,n → R definido por

〈X,Y〉=n

∑i=1

m

∑j=1

Xi, j ·Yi, j (3.1)

Então (IR ,MIR m,n, ·,〈·, ·〉) é um espaço produtoide intervalar. Este espaço interno

produtoide também satisfaz a propriedade de subdistributividade, i.e. para cadaX,Y,Z ∈MIRm,n, 〈X +Y,Z〉 ⊆ 〈X,Z〉+ 〈Y,Z〉.

CAPÍTULO 3. MATEMÁTICA INTERVALAR 25

3.6.2 Autovetoide intervalar

Definição 8 (Autovetoide intervalar) Seja uma matriz intervalar quadraticaA de or-

dem M∈ R, um autovetoide é definido por:

Au i = λiui (3.2)

para i= 1, · · · ,M, onde,ui é chamado de autovetoide eλi é chamado de autovalor inter-

valar.

Capítulo 4

Otimização usando Análise Intervalar

Este capítulo apresenta conceitos sobre a teoria de otimização utilizado para encontrar

o hiperplano ótimo de separação de classes através da SVM. Asconceituações sobre o

problema de otimização "clássico"foram extraídas de [Bazaraa et al. 1993, Haykin 2001,

Lorena & Carvalho 2003, Luenberger 1984] e para o problema deotimização usando

análise intervalar foram extraídas de [Bliek et al. 2001, Hanses & Walster 1992, Kearfott

1996].

Será apresentado nas seções seguintes otimização de funçãocom restrições, no con-

texto "clássico"e intervalar, onde, restrição intervalaré uma tecnologia alternativa de-

senvolvida para conjuntos contínuos, geralmente não lineares, associados com restrições

sobre números reais. O termo restrição intervalar (interval constraints) é frequentemente

associado com a propagação e técnicas de buscas desenvolvidas em inteligência artificial

e métodos para análise intervalar [Bliek et al. 2001].

4.1 Otimização Linear

Para o problema de otimização considere:

Minimizar: f (x) , x∈ Ω ⊆ Rn

Sujeito a: gi(x)≤ 0 , i = 1, ..., k

h j(x)≤ 0 , j = 1, ..., m

(4.1)

onde, f : Ω ⊆ Rn → R é a função objetivo,gi : Ω ⊆ R

n → R e h j : Ω ⊆ Rn → R são

utilizados para definir as restrições funcionais.

A solução do problema (4.1) é denotado por:

F = x∈ Ω : gi(x)≤ 0;h j(x) = 0

CAPÍTULO 4. OTIMIZAÇÃO USANDO ANÁLISE INTERVALAR 27

A solução do problema de otimização será o pontox∗ ∈ F tal que não exista outro

pontox∈ F com f (x) < f ∗(x), denominado de mínimo global.

Um problema de otimização onde a função objetivo é quadrática e as restrições line-

ares, é denominado de problema de otimização quadrático, ouse a função objetivo for

convexo e as restrições também, é denominado de problema de otimização convexo. O

caso do problema de otimização do treinamento da SVM, a função objetivo é convexa e

quadrática e as restrições lineares, sendo um problema de otimização convexo quadrático.

Para encontrar a solução para este tipo de problema utiliza-se a função de Lagrange,

para restrições de igualdade e a condição de Kuhn Tucker pararestrições de desigualdades

[Hanses & Walster 1992, Haykin 2001, Martinez & Santos 1995,Semolini 2002].

4.1.1 Funcional de Lagrange

Em problemas com restrições é necessário construir uma função que englobe a função

objetivo juntamente com as restrições e que sua estacionalidade defina a solução. O fun-

cional de Lagrange pode resolver este problema definindo como uma combinação linear

a função objetivo e cada uma das restrições associando ao multiplicadores de Lagrange.

L(x,α) = f (x)+m

∑j=1

αihi(x) (4.2)

onde,αi são os multiplicadores de Lagrange.

SeL(x,α) for uma função convexa emx, a condição necessária para que o pontox∗

seja mínimo def (w) , sujeito a restriçãoh j é igualando o gradiente daL em relação ax e

a α:∂L(x∗,α∗)

∂x = 0∂L(x∗,α∗)

∂α = 0(4.3)

Uma forma mais geral do problema de otimização que satisfaz tanto restrições de

igualdades quanto de desigualdades pode ser generalizada da definição para otimização

com restrições de igualdades, dado por:

L(x,α,β) = f (x)+k

∑i=1

αigi(x)+m

∑j=1

βihi(x) (4.4)

onde,αi são os multiplicadores de Lagrange.

CAPÍTULO 4. OTIMIZAÇÃO USANDO ANÁLISE INTERVALAR 28

4.1.2 Condições de Kuhn-Tucker

Dado o problema de otimização pela equação (4.1) com domínioconvexo, a solução

necessária para o pontox∗ ser ótimo é a existência deα∗ e β∗ que satisfaz:

∂L(x∗,α∗,β∗)∂x = 0

∂L(x∗,α∗,β∗)∂β = 0

α∗i gi(x∗) = 0, i = 1, ...,k

gi(x∗)≤ 0, i = 1, ...,k

α∗ ≥ 0, i = 1, ...,k

(4.5)

O tratamento do funcional de Lagrange para problema de otimização convexo fornece

a um problema de dual que diversas vezes é mais simples de ser resolvida do que o

problema primal [Martinez & Santos 1995].

4.2 Otimização Linear usando Computação Intervalar

Muitos autores tem considerado a computação intervalar para resolver problemas

de otimização linear, aplicando métodos intervalares com métodos de programação li-

near para encontrar uma solução ótima do problema de otimização ou a partir de uma

solução aproximada obtem-se um vetor que contém a solução exata, para mais detalhes

ver [Moore 1979].

DadoA sendo uma matrizm×n comm< n, de coeficientes intervalares. DadoB e

P sendo vetores intervalares dem e n dimensão, respectivamente. O objetivo é encontrar

um vetor intervalarZ que contenha o conjunto de soluções do problema de otimização

linear, para cadab∈ B, p∈ P, Ar ∈ A.

Por conveniência, será denominado, neste estudo, otimização intervalar, a otimização

que fizer uso de conceito da análise intervalar.

Para o problema de otimização intervalar considere:

Maximizar: Q(x) = (p,x)

Sujeito a: Arx= b ouArx≦ b

0≦ x

(4.6)

onde,(p,x) é o produto interno de um vetor realp ex, b é um vetor real eAr é uma matriz

intervalar.

Suponha quez∗ seja uma solução aproximada de (4.6) parap∗ ∈ P, b∗ ∈ B e A∗r ∈ A

CAPÍTULO 4. OTIMIZAÇÃO USANDO ANÁLISE INTERVALAR 29

obtidos usando um método de otimização. DadoS sendo o conjunto de índice de todas

variáveis bases da solução aproximadaz∗. Para a condição ser suficientemente com-

putável do conjunto de todas as soluções de (4.6) tem um mesmabase comz∗. Denotado

por x′ o vetor dem dimensão consistindo de componentes bases de um vetorx de n di-

mensão. Assim,x′ = (xi1, ...,xim ondeS= i1, ..., im. Similarmente, denotado porx′′

um vetor den−m dimensão consistindo de todos os componentes não bases dex. Seja

A′r uma matrizm×m consistindo de colunas bases deAr e A′′ uma matriz(n−m)×m

consistindo de colunas não bases deAr e assim por diante.

Suponha quez∗ é a solução deA′rz′ = b′ para algumA′

r ∈ A′, b′ ∈ B′, assume-se que

todoA′r ∈ A′, são não singular. DadoZ′ sendo o conjunto de todas soluçõesz′ para todo

A′r ∈ A′, b′ ∈ B′. Assim, z′∗ é uma solução aproximada deA′

rz′ = b′. DadoY sendo a

aproximação da inversa da matrizA′∗r que é usado na computação dez8.

Logo, o conjunto de soluções de um problema linear da equação(4.6) para todob∈B,

p∈ P, Ar ∈ A é contido no vetor intervalarZ computado através de:

Z′i = z∗i +q[−1,1], para componentes bases de Z

Z′′ = 0, para componentes não bases de Z(4.7)

onde,q=‖Y ‖‖ A′z∗−B ‖)/(1−R).

Se w(A) e w(B) são pequenos, o limite deZ pode ser refinado. Para encontrar o

vetor intervalar mais estreito do conjunto de soluções paraa equação (4.6) computa, para

k= 1, ...2:

Zk+1 = Zk∩YB+(I −YA′)Zk (4.8)

A equação (4.8) na sequencia de iterações contem no vetor intervalar os componentes

bases da solução de (4.6).

Para determinar se o conjunto de todas as soluções tem uma mesma base comoz∗, é

testadoZ′ ≧ 0 e denota a transposta das matrizesA′ eA′′ porA′T e A′′T , respectivamente.

SejaP′ e P′′ sendo componentes bases e componentes não bases, respectivamente, do

vetor de coeficientes da função objetivo, o vetor intervalarV é encontrado e contem o

conjunto de soluções deA′Tr v= p′ para todoA′

r ∈ A′ e todop′ ∈ P′. CasoA′′TV −P′′ ≧ 0,

então o conjunto de soluções tem uma mesma basez∗.

Para o valor máximo deQ(x), possuiQ(z) ∈ (P,Z).

4.2.1 Otimização com restrições

Para o problema de otimização com restrições é considerado:

CAPÍTULO 4. OTIMIZAÇÃO USANDO ANÁLISE INTERVALAR 30

Minimar: f (x)

Sujeito a: pi(x)≤ 0(i = 1, ...,m)

qi(x) = 0(1= 1, ..., r)

(4.9)

onde, f (x) é diferenciável e as funções de restriçõespi(x) e qi(x) são continuamente

diferenciáveis.

Assumindo um intervalo inicialX o objetivo é encontrar um mínimo def (x) ∈ X

sujeito as restrições.

4.2.2 Condições de John

Para resolução do problema de otimização com restrições é utilizado a condição de

John:u0 f (x)+∑m

i=1uip(x)+∑ri=1viq(x) = 0

ui pi(x) = 0

qi(x) = 0

ui ≥ 0

(4.10)

onde,u ev são multiplicadores de Lagrange.

Para a resolução do problema de otimização pode ser considerado o uso do método de

Newton, onde,ui ≥ 0 e os vetoresx, u ev da condição de John são escritos em termos do

vetort.Rk(t)

u0 f (x)+∑mi=1uip(x)+∑r

i=1viq(x)

ui pi(x)

qi(x)

(4.11)

Capítulo 5

Kernel Intervalar

Os métodos kernels têm sido considerado um poderoso atalho computacional em

aprendizado de máquinas devido ao desempenho, generalização e adaptação em resolver

problemas diversos [Abe 2005, Bishop 2006, Hofmann et al. 2008]. Uma vasta variedade

de algoritmos em aprendizagem de máquina fazem uso desses métodos, tais como, em

máquinas de vetores suporte, redes neurais, algoritmos de agrupamentos, análise de com-

ponentes principais, entre outros.

Uma característica marcante dos métodos de aprendizagem demáquina que utilizam

kernel é formular um problema em um novo espaço. A SVM, visto para classificação

de padrões, é uma máquina linear cujo objetivo é encontrar umhiperplano que separe as

classes distintas da melhor forma possível. Uma característica que torna a SVM para uso

geral é tratar da dimensionalidade do espaço de entrada, mapeando o conjunto de entrada

por meio de uma função que projeta uma imagem linear em um novoespaço. Em outras

palavras, o espaço de entrada de um problema não linear é mapeado através da função

kernel para um outro espaço, o espaço de características, dado pela relação:

k(x,x′) = 〈φ(x) ·φ(x′)〉 (5.1)

Neste capítulo foi desenvolvido uma extensão intervalar dekernels, de modo que,

definindo as funções intervalares que mapeiam o espaço de entrada e as funções kernels

intervalares, o espaço de características é encontrado implicitamente.

Considere um conjunto de treinamento(X1,Y1), . . . ,(XN,YN) ⊆ (X×Y)N, onde,

o i-ésimo exemploX i ∈ X ⊆ IRn de um espaçon-dimensional pertence a um rótulo ou

classeY = [−1,−1], [+1,+1] (classificação binária), para todoi = 1, . . . ,N e N ∈ N.

Assim como no caso usual, encontrar um kernel que representeo espaço de entrada é

menos complexo do que definir funções que mapeiam o espaço de entrada para o espaço

de características. Dessa forma, algumas propriedades foram estendidas para a abordagem

intervalar de modo que asseguram que uma função kernel intervalar é um kernel intervalar

CAPÍTULO 5. KERNEL INTERVALAR 32

para algum espaço de características.

O espaço de características é definido, em aprendizagem de máquina, pela mudança de

representação dos dados do conjunto de entrada. Seja uma função intervalarφi : X→ IR

que mapeia cadaX ∈X paraφi(X), para todoi = 1, . . . ,mem∈N, é chamado de caracte-

rísticas, e combinandoN característicasΦ1, ...,Φl resulta no mapeamento de característi-

casΦ : X→ F, ondeF é o espaço de características.

Definição 9 (Função kernel intevalar) Um kernel intervalar é uma funçãoK : X×X→IR, tal que,∀ X, Z ∈ X,

K(X,Z) = 〈Φ(X) ·Φ(Z)〉 (5.2)

onde,Φ mapeia o espaço de entradaX para um espaço de característicasF usando

produto interno.

Definição 10 Seja k uma função kernel real e K: X×X → IR. K é uma representação

intervalar de k se para todoX,X′ ∈ X, x ∈ X e x′ ∈ X′, temos que k(x,x′) ∈ K(X,X′).

Proposição 5.0.1Seja K: X×X→ IR uma função intervalar. Se existir funções kernels

K : X×X→ R, K : X×X→ R, tais que, para todoX,X′ ∈ X e x ∈ X, x′ ∈ X′, tem-se

que K(X,X′) = [K,K] então K é uma função kernel intervalar.

Proposição 5.0.2SejaX ⊆ IRl um conjunto finito de entradas e K: X×X → IR uma

função comutativa emX. K é uma função kernel intervalar se, e somente se, a matriz

K = K(X i,X′j), com i, j = 1, ...,N, for semi-definida positiva.

O problema de otimização dual da SVM permite a substituição do conjunto de entrada

através dotruque kernel, que possui como vantagem a não necessidade de encontrar a

função que mapeia o espaço de entrada para um espaço de características.

Definição 11 (Matriz Kernel) SejaK uma matriz kernel com entradas intervalaresX1, . . . ,XN ∈X, X i ∈ IR

n,

K = (K(X i,X′j))

Ni, j=1 (5.3)

é a matriz kernel (ou matriz Gram) com coeficientes intervalares.

Definição 12 (Matriz definida positiva) SejaK uma matriz kernel simétrica,

N

∑i, j

CiCjK i j ≥ 0 (5.4)

é definido a matriz definida positiva, para todo Ci ∈ IR.

CAPÍTULO 5. KERNEL INTERVALAR 33

Definição 13 (Kernel definido positivo) SejaX um conjunto não vazio, a função kernel

K : X×X → IR para X i ∈ X define a matriz Gram definida positiva é ligado a função

kernel definida positiva.

5.1 Mapeamento Função Kernel Intervalar

Uma função kernel intervalar consiste em mapear um espaço deentrada não-linearmente

separável por um hiperplano intervalar em um espaço de características separável por um

hiperplano intervalar.

SejaΦ : X→ F uma função que mapeia um espaço de entrada intervalarX ∈ X para

um espaço de características de alta dimensão,

Φ : X→ F,

X i 7→ Φ(X i)(5.5)

onde,X i = (X1, ...,Xn), X i ∈ IRn e Φ(X i) = (φ1(X i), ...,φm(X i)), Φ(X i) ∈ IR

m.

Para o problema de aprendizado da SVM, o mapeamento do espaçode entrada, con-

junto de entradaX = X|X i ∈ IRn, para um espaço de características é equivalente a

F = Φ(X)|X ∈ X. Uma característica importante dessa máquina está no mapeamento

do espaço de entrada não-linear no espaço de características sem explicitar as funções que

farão esse mapeamento.

Um kernel intervalarK representa o produto interno intervalar de dois vetores in-

tervalares induzidos no espaço de características pelo vetor intervalar de entradaX e o

padrão intervalar representado no problema dual, e um intercepto intervalarB∈ IR

N

∑i=1

αiDi(< Φ(X i) ·Φ(X)>+B)≥ [1,1]

Um kernel intervalarK é uma função intervalar, tal que:

K(X1,X2) =< Φ(X1) ·Φ(X2)>

K : IRn× IRn → IR

K : X×X→ IRN×N

(5.6)

onde,X1, X2 ∈ X, e Φ ∈ F mapeiaX com o produto interno para um espaço de caracte-

rísticasF, definindo a matriz intervalar kernelK de elementos do espaço de entradaX

através da função intervalar kernelΦ para um espaço de característicasF.

CAPÍTULO 5. KERNEL INTERVALAR 34

5.2 Construção de Kernel Intervalar

Funçõeskernelsintervalares são casos especiais do produto interno intervalar.

Definição 14 (Kernel Intervalar) Umkernelintervalar é uma função kernel intervalar K,

tal que, para todoX,Z ∈ X

K(X,Z) = 〈Φ(X),Φ(Z)〉=m

∑j=1

Φ j(X)Φ j(Z)

onde,Φ é uma função que mapeiaX ∈X para um espaço de características intervalar

Φ(X) ∈ F.

As condições para uma função kernel intervalar representaruma função intervalar que

mapeia o espaço de entrada (original) para um espaço de características intervalar são:

1. Simetria:K(X,Z) = K(Z,X),∀X,Z ∈ X

2. Desigualdade Cauchy-Schwarz:

K(X,Z)2 = 〈Φ(X),Φ(Z)〉2 ≤‖ Φ(X) ‖2‖ Φ(Z) ‖2,∀X,Z ∈ X e Φ ∈ F

3. Positividade: extensão intervalar do teorema de Mercer

O teorema de Mercer caracteriza uma funçãok(x,z) como umkernel, pois demon-

stra que sek é umkernelcontínuo de uma transformada (operador) integral positivaen-

tão pode ser construído um mapeamentoΦ num espaço de características ondek atua

como produto interno, ou seja, sek é positivo definido então existe um mapaΦ onde

k(x,z) = 〈Φ(x),Φ(z)〉. Neste contexto, o kernel intervalar deve satisfazer a extensão in-

tervalar do Teorema de Mercer. OkernelintervalarK é positivo definido se possui todos

os autovalores intervalares não negativos.

Teorema 5.2.1 (Extensão Intervalar do Teorema de Mercer) Seja K(X,Z) um kernel in-

tervalar simétrico e contínuo, definido no intervalo fechado [a,b]× [a,b], paraX,Z ∈ X.

O kernel intervalar pode ser expandido na série

K(X,Z) =∞

∑i=1

λiΦi(X)Φi(Z)

onde,λi ∈ IR são auto-valores intervalares para todo i eΦi(·) são auto-funções in-

tervalares, resultando na expressão:

∫ b

aK(X,Z)Φ(Z)dZ = λΦ(X)

CAPÍTULO 5. KERNEL INTERVALAR 35

da extensão intervalar do operador integral (análise funcional) definido pelokernel

intervalar K(X,Z). Para garantir que okernel intervalar K(X,Z) defina o produto in-

terno 〈Φ(X),Φ(Z)〉 em um espaço de características intervalar todos os auto-valores

intervalaresλi da série expandida são positivos, e para esta expansão ser válida e para

convergir absoluta e uniformemente é necessário e suficiente que

∫ b

a

∫ b

aK(X,Z)ψ(X)ψ(Z)dXdZ ≥ [0,0]

seja válida para todoψ(·) para o qual

∫ b

aΨ(X)2dX < ∞

Prova:

Considerando a integral da análise funcional para o caso finito e fechado

∫ b

aK(X,Z)Φ(Z)dZ = λΦ(X)

e considerando a generalização do produto interno

〈Φ(X),Φ(Z)〉=∞

∑i=1

λiΦi(X)Φi(Z) = K(X,Z)

o teorema de Mercer fornece uma condição suficiente para queK seja simétrica

K(X,Z) =∞

∑i=1

λiΦi(X)Φi(Z)

onde,λi são intervalos não negativos, eK é equivalente a um produto interno no

espaço de características considerando o conjunto de funções emX de um espaço nor-

malizado, logo,

‖ Ψ ‖=∫ b

aΨ(X)2dX < [∞,∞]

Proposição 5.2.2SejaX = (X1, · · · ,Xp) o espaço intervalar (original) e K uma função

comutativa emX. Se a matriz intervalar

K = K(X i,X j), i, j = 1, · · · , p

for simétrica, então existe uma matriz intervalarV, tal que,K = VV t , ouK =VΛVt ,

onde,Λ é uma matriz intervalar diagonal contendo auto-valores intervalaresλt de K ,

CAPÍTULO 5. KERNEL INTERVALAR 36

com correspondentes auto-vetores intervalaresVt =Vti, i = 1, · · · , p deV. Sendo os auto-

vetores intervalares não negativos e considerando o mapeamento de características

Φ : X i →√

λtVti ∈ IRp, i = 1, · · · , p

então

〈Φ(X i),Φ(X j)〉=p

∑t=1

λtVtiVt j =VΛVt = K

onde, a função intervalarkernelK(X,Z) corresponde ao espaço de características

intervalarΦ.

5.2.1 Fazendo Kernels de kernels

A construção de uma função sendo um kernel válido geralmentenão é trivial, e o

teorema de Mercer somente garante a validade de uma função qualquer ser umkernelnão

a construção da mesma. Uma forma de construir kernels válidos é utilizando algumas

propriedades que constroem kernels à partir de kernels válidos. Tal forma de construção

de kernels válidos na forma clássica será estendida para kernels intervalares.

A construção de kernels intervalares é uma extensão da construção de kernels respei-

tando o teorema de Mercer. A construção de um kernel intervalar válido é definido através

da positividade, extraído da construção clássica, onde, umkernel intervalar é uma matriz

intervalar simétrica semi-positiva definida.

Proposição 5.2.3Sejam K1 e K2 kernels intervalares sobreX×X⊆ IRn, α∈ IR é um in-

tervalo real, e∀α > [0,0], F(·) é uma função intervalar emX, então as seguintes funções

kernelssãokernelsintervalares

1. K(X,Z) = K1(X,Z)+K2(X,Z)

2. K(X,Z) = αK1(X,Z)

3. K(X,Z) = K1(X,Z)K2(X,Z)

4. K(X,Z) = exp(K1(X,Z))

5. K(X,Z) = X′BZ

Demonstrações:

1. SejamK1 e K2 matrizes intervalares simétricas, entãoK é semi-positiva definida

se e somente se para algum vetor intervalarY 6= [0,0]

CAPÍTULO 5. KERNEL INTERVALAR 37

YtKY ≥ [0,0]

tem-se

Yt(K1+K2)Y ⊆ YtK1Y +YtK2Y ≥ [0,0]

logo,K1+K2 é semi-positiva definida, entãoK é uma funçãokernelintervalar.

2. Da mesma forma da demonstração anterior,

Yt(αK1)Y = αYtK1Y ≥ [0,0]

K é uma funçãokernelintervalar.

3. SejaK = K1K2 o produto tensor de duas matrizes intervalares, seK1 e K2 são

semi-positivas definidas e os auto-valores intervalares doproduto for os pares dos

auto-valores deK1 e K2, então o produtoK será semi-positivo definido.

4. A função exponencial pode ser aproximada por polinômios positivos, sendo fechada

por limites dokernelintervalar, logo,K é umkernelintervalar.

5. SejaB = VtΛV uma matriz intervalar ortogonal aV, onde,Λ é uma matriz inter-

valar diagonal contendo os auto-valores não negativos. Sendo√

Λ a matriz inter-

valar diagonal de auto-valores eA =√

ΛV, então

K(X,Z) = XtBZ = XtVtΛVZ = XtAtAZ = 〈AX ,AZ〉

é umkernelintervalar mapeando pela matrizA.

5.3 Alguns Kernels Intervalares

Alguns kernels de produto interno são encontrados na literatura, dentre eles:

Linear: K(X,X i) =< X ·X i >, i = 1, ...,N.

Polinomial:K(X,X i) = (< X ·X i >+1)2, i = 1, ...,N.

Gaussiano:K(X,X i) = e−1

2σ‖X−X i‖2, i = 1, ...,N.

5.3.1 Extensão Intervalar doKernel Gaussiano

Um kernel muito aplicado para problemas de natureza não linear é okernelgaussiano,

e devido sua grande aplicabilidade essekernelfoi estendido para a abordagem intervalar.

CAPÍTULO 5. KERNEL INTERVALAR 38

A construção do kernel intervalar gaussiano se dá na utilização da distância intervalar

[Trindade et al. 2008] de modo que a norma:

‖ X−Z ‖2⊆ 〈X,X〉+ 〈Z,Z〉− [2,2]〈X,Z〉

para okernelintervalar do tipo

K(X,Z) = exp−‖X−Z‖2

σ2

Dado pelas propriedades (4) e (3), okernelintervalar gaussiano é dado por

K(X,Z) = exp(− 〈X,X〉

[2,2]σ2 )exp(− 〈Z,Z〉

[2,2]σ2 )exp(〈X,Z〉

σ2 )

sendo umkernelintervalar válido.

5.3.2 Extensão intervalar doKernel Polinomial

K(X,X i) = ([1,1]+XTX i)p

onde,p= 2, X = (X1,X2) eX i = (Xi1,Xi2)

K(X,X i) = ([1,1]+XTX i)2

= ([1,1]+V)2

= ([1+V,1+V])2

= [(1+V)2,(1+V)2]

=

[(1+V)2,(1+V)2] seV ≥ 0

[(1+V)2,(1+V)2] seV < 0

[0,((1+V)2,(1+V)2)] caso contrário

Capítulo 6

Máquina de Vetores-Suporte Intervalar

As máquinas de vetor de suporte tem atraído muita atenção nosúltimos anos devido

a sua eficiência para técnicas de reconhecimento de padrões ou aplicações que requerem

aprendizado de máquina. Este capítulo desenvolve uma nova abordagem para SVM, uti-

lizando SVM associado com a teoria intervalar, as máquinas de vetor de suporte inter-

valares.

A eficiência das SVM no aprendizado de máquinas tem levado ao desenvolvimento

de muitas pesquisas e aplicações associadas, porém, em alguns casos nem sempre é fácil

classificar com precisão um determinado padrão entre duas oumais classes, para reconhe-

cimento de padrões, e uma vez que, para encontrar o hiperplano de separação ótimo está

relacionado diretamento aos dados de entrada aos vetores desuporte, então a teoria inter-

valar é proposta para casos onde os padrões de entrada não possuem características que

modelem com precisão alguma classe. O objetivo proposto para a abordagem da SVMI,

máquina de vetor de suporte intervalar, é controlar as informações de padrões de entrada

para encontrar vetores-suporte de um hiperplano de separação ótimo quando houver da-

dos incertos ou imprecisos contidos no conjunto de treinamento, e obter um controle nos

erros computacionais durante o treinamento da máquina.

6.1 Máquina de Vetores-Suporte Intervalares Linearmente

Separáveis

Máquina de vetores-suporte é uma técnica de reconhecimentode padrões, como men-

cionado no capítulo 2, que é baseada na teoria do aprendizadoestatístico e tem sido uti-

lizada em diversas aplicações. A tarefa de classificar padrões é feito através da função:

f (x) = sgn(NVS

∑i=1

diαoixTx+bo) (6.1)

CAPÍTULO 6. MÁQUINA DE VETORES-SUPORTE INTERVALAR 40

onde,xi ∈ Rn é o vetor de entrada de n-dimensão,yi ∈ −1,1 é a classe a qual pertence

xi , eαi e b são parâmetros da função objetivo encontrados durante o treinamento através

da resolução de um problema de otimização.

Para uma SVMI, considere uma amostra de treinamento(X i,Di)Ni=1, onde,X i é

um vetor intervalar que representa o padrão de entrada para oi-ésimo exemplo eDi =

[di ;di ] ∈ [+1;+1], [−1;−1] é a resposta desejada para o padrãoXi.

A equação de uma superfície de decisão na forma de hiperplanoque realiza a separa-

ção entre as classes é definida como:

WTX +B= [0;0] (6.2)

onde,X é um vetor intervalar de entrada,W é um vetor intervalar peso ajustável eB é o

bias, um valor intervalar.

Figura 6.1: Ilustração do hiperplano ótimo intervalar.

O conjunto de treinamento(X i,Di)Ni=1 é dito linearmente separável se existir um

vetor intervalarW e um intervaloB que satisfaça:

WTX i +B≥ [+1;+1],paraDi = [+1;+1]

WTX i +B≤ [−1;−1],paraDi = [−1;−1](6.3)

CAPÍTULO 6. MÁQUINA DE VETORES-SUPORTE INTERVALAR 41

que é equivalente a:

Di(WTX i +B)≥ [1;1] (6.4)

onde, o par(W,B) define o hiperplano de separação da equação (6.2).

Para obter o hiperplano ótimo, ou seja, o hiperplano de máxima margem entre as

classes é necessário encontrar a distância de um intervaloX i com o hiperplano de separa-

ção(W,B). Considerando a função discriminante:

G(X) = WTo X i +Bo (6.5)

onde,G(X) fornece uma medida algébrica da distância deX até o hiperplano, podendo

ser expresso também da seguinde forma:

X = Xp+RWo

‖ Wo ‖(6.6)

onde,Xp é a projeção normal deX sobre o hiperplano ótimo, eR é a distância.

Figura 6.2: Interpretação da distância deX atép hiperplano ótimo.

O vetor normal é dado por:

Xn = RWo

‖ Wo ‖(6.7)

CAPÍTULO 6. MÁQUINA DE VETORES-SUPORTE INTERVALAR 42

Para o caso de separação ótima, por definição,G(Xp) = [0;0], resultando:

G(X) = WTo X +Bo

= WTo (Xp+Xn)+Bo

⊆ WTo Xp+Bo+WT

o Xn

= [0;0]+WToXn

= WTo

Wo‖Wo‖R

= R‖Wo‖2

‖Wo‖= R‖ Wo ‖

(6.8)

Logo,

R=G(X)

‖ Wo ‖(6.9)

Para encontrar os parâmetrosWo e Bo para o hiperplano ótimo dado um conjunto de

treinamento, as restrições da equação (6.3) devem ser satisfeitas. Os pontos intervalares

(X i,Di) satisfeito no sinal de igualdade da equação (6.3) são chamados devetores de

suporte intervalar.

Considerando um vetor de suporte intervalarX(s) temos:

G(X(s)) = WTo X(s)+Bo− [1;1],D(s) =+[1;1] (6.10)

Da equação (6.9) a distância do vetor de suporte intervalar até o hiperplano ótimo:

R=

+ [1;1]‖Wo‖ seD(s) =+[1;1]

− [1;1]‖Wo‖ seD(s) =−[1;1]

(6.11)

Considerando queρ represente o valor intervalar ótimo da margem de separação entre

as duas classes do conjunto de treinamento, então:

ρ = 2R

= 2‖Wo‖

(6.12)

Da equação (6.12) temos que, maximizar a margem de separaçãoentre as classes é

equivalente a minimizar a norma do vetor intervalarW com respeito as restrições.

O hiperplano da equação (6.2) é único e de máxima separação entre as classes.

Para encontrar o hiperplano ótimo utilizando o conjunto de treinamento(X i ,Di)Ni=1

e que satisfaça as restrições é necessário encontrar os parâmentrosW eB.

CAPÍTULO 6. MÁQUINA DE VETORES-SUPORTE INTERVALAR 43

O hiperplano de separação ótimo minimiza a função custo intervalar:

Φ =12

WTW (6.13)

sujeito as restrições:

Di(WTX i +B)≥ [1;1]

Este é um problema de otimização que pode ser resolvido através do método de mul-

tiplicadores de Lagrange adaptado para intervalar:

J(W,B,α) = [12; 12]W

TW −∑Ni=1 αi(Di(WT

i X i +B)+ [−1;−1])

⊆ [12; 12]W

TW −∑Ni=1 αiDiWT

i X i +αiDiB−αi(6.14)

onde,αi são intervalos representando os multiplicadores de Lagrange.

A função lagrangiana tem que ser minimizada com respeito aW, B e maximizada com

respeito aαi ≥ 0. Assim, diferenciandoL(W,B,α) em relação aW B temos as seguintes

condições:∂L(W,B,α)

∂B= [0;0]⇔

N

∑i=1

αiDi = [0;0] (6.15)

∂L(W,B,α)∂W

= [0;0]⇔ W =N

∑i=1

αDiX i (6.16)

Substituindo as condições (6.15) e (6.16) em (6.14) temos:

J(W,B,α) = [12; 12]W

TW −∑Ni=1αiDiWT

i X i +αiDiB−αi

= [12; 12]∑

Ni=1 ∑N

j=1αiDiX iα jD jX j−−∑N

i=1 ∑Nj=1αiDiX iα jD jX j − [0;0]+∑N

i=1 αi

= −[12; 12]∑

Ni=1∑N

j=1 αiDiX iα jD jX j +∑ni=1 αi

(6.17)

Fazendo a função objetivoJ(W,B,α) = Q(α) temos:

Q(α) =N

∑i=1

αi − [12

;12]

N

∑i=1

N

∑j=1

αiα jDiD jX iX j (6.18)

Logo, o problema é dado por:

Maximizar: Q(α) = ∑Ni=1αi − [12; 1

2]∑Ni=1αiαiDiD jXT

i X j

Sujeito as restrições:

(1) αi ≥ [0;0], i = 1, ...,N

(2) ∑Ni=1αiDi = [0;0]

(6.19)

CAPÍTULO 6. MÁQUINA DE VETORES-SUPORTE INTERVALAR 44

Após encontrar os multiplicadores de Lagrange é possível calcular os pesos inter-

valares ótimos:

Wo =N

∑i=1

αoi DiX i (6.20)

O valor do bias ótimoBo é encontrado utilizando os pesos ótimosWo encontrados na

equação (7.1) e descrito como:

Bo = [1;1]−WTo X(s) paraD(s) = [1;1] (6.21)

6.2 Máquina de Vetor de Suporte Intervalares Não Sepa-

ráveis

Considerando um conjunto de dados de treinamento onde não é possível construir

um hiperplano de separação sem qualquer erro de classificação, o caso de padrões não-

separáveis em uma SVM visto no capítulo 2 em 2.2, o objetivo daSVMI é classificar os

padrões com a menor probabilidade de erro da classificação, mantendo a precisão com a

informação intervalar durante o treinamento.

Uma margem de separação onde viola-se a condição da equação (6.14) é dita margem

de separação entre classes suaves ousoft. E existem duas formas de violação desta

condição, como mostra a figura 2.5.

Para um tratamento desses padrões intervalares não-separáveis é definido um conjunto

de variáveis escalares não negativas, denominadas de variáveis soltasξiNi=1, na definição

do hiperplano de separação:

di(WTX +B)≥ [1;1]−ξi parai = 1,2, ...,N (6.22)

O objetivo é encontrar um hiperplano intervalar de separação onde o erro de classifi-

cação incorreta seja mínimo perante o conjunto de treinamento, podendo ser feito mini-

mizando a equação:

φ(ξ) =N

∑i=1

I(ξi −1) (6.23)

em relação ao vetor pesoW, sujeito à restrição da equação do hiperplano de separação

(6.22) e a restrição sobre‖ W ‖2. A funçãoI(ξ−1) é uma função indicadora, definida

por:

I(ξ−1) =

0 seξ ≤ 0

1 seξ > 0(6.24)

CAPÍTULO 6. MÁQUINA DE VETORES-SUPORTE INTERVALAR 45

Para a simplificação de cálculos computacionais a função a ser minimizado em relação

ao vetor pesoW segue:

φ(W,ξ) = [12

;12]WTW +C

N

∑i=1

ξi (6.25)

onde, o parâmetroC é oparâmetro de penalização.

O problema de otimização em sua representação primal para encontrar o hiperplano

intervalar ótimo de separação para classes não linearmenteseparáveis pode ser escrito

como:

Minimizar: φ(W,ξ) = [12; 12]W

TW +C∑Ni=1ξi

Sujeito as restrições:

(1) yi(WTX i +B)≥ 1−ξi , parai = 1, ...,N

(2) ξi ≥ 0,∀Ni=1

(6.26)

Utilizando o método dos multiplicadores de Lagrange, pode-se formular o problema

de otimização primal em seu correspondente problema dual demaneira similar à descrita

na seção 6.1.

Maximizar: Q(α) = ∑Ni=1 αi − 1

2 ∑Ni=1∑N

j=1 αiα jDiD jXTi X j

Sujeito as restrições:

(1) ∑Ni=1Diαi

(2) [0;0]≤ αi ≤C parai = 1, ...,N

(6.27)

onde,C> 0 é especificado pelo usuário.

Para problemas de classificação, onde, classes distintas são não linearmente separáveis

no espaço original, mas, com um mapeamento não linear através de um produto interno

(funçãokernel) transforma o espaço original em um espaço de características de dimen-

são maior, e o problema que era não linearmente separável no espaço original passa-se

a ser linearmente separável no espaço de características é representado pela SVM não

linearmente separável ou SVM para classes linearmente separáveis no espaço de caracte-

rísticas.

Uma extensão intervalar dessa abordagem o mapeamento do espaço de entrada origi-

nalX em um novo espaço, o espaço de característicasϕ(X), é equivalente a

X = (X1, ...,Xn) 7→ ϕ(X) = (ϕ1(X), ...,ϕN(X))

onde,X ∈ Rn é um vetor intervalar que representa o espaço de entrada original e ϕ(X)

são funções intervalares que mapeiam o espaço original parao espaço de características.

CAPÍTULO 6. MÁQUINA DE VETORES-SUPORTE INTERVALAR 46

Função Kernel Intervalar

Um kernelintervalarK é uma função intervalarK : IRn× IRn → IR que recebe dois

padrões intervalaresX i e X j , ∀ X i , X j ∈ IRn, do espaço de entrada e computa o produto

intervalarϕT(X i)ϕ(X j) no espaço de características.

O termoϕT(X i)ϕ(X j) representa o produto interno intervalar dos vetores intervalares

X i eX j , sendo okernelintervalar representado por:

K(X iX j) = ϕT(X i)ϕ(X j) (6.28)

Uma extensão da equação (7.1) envolvendo o espaço de características, pode ser rees-

crito como:

W =N

∑i, j=1

αiDiϕT(X i)ϕ(X j) (6.29)

onde, o vetor intervalar de característicasϕ(X i) corresponde ao padrão de entrada inter-

valarX i no i-ésimo exemplo.

Dessa forma, o produto interno intervalarK(X iX j) é utilizado para construir um hiper-

plano ótimo intervalar no espaço de características sem terque considerar o próprio es-

paço de características de forma explícita, observe a equação (6.29) em (6.28):

N

∑i, j=1

αiDiK(X i ,X j) (6.30)

e o problema de otimização intervalar passa-se a ser

Maximizar:

Q(α) = ∑Ni=1αi − [12,

12]∑

Ni, j=1αiα jDiD jϕXT

i ϕX j

Sujeito as restrições:

(1) αi ≥ [0,0], i = 1, ...,N

(2) ∑Ni=1αiDi = [0,0]

(6.31)

Uma vez que o produto interno permite a construção de uma superfície de decisão

do espaço de entrada não-linear para um mapeamento em um espaço de características

linear, o problema da máquina trata de encontrar os valores ótimos intervalares dos multi-

plicadores de Lagrange da funçãoQ, e tendo encontrado esses valores, o vetor intervalar

de peso associado ao espaço de característica é encontrado através da equação (6.29).

O procedimento para o projeto de uma máquina de vetores-suporte intervalar pode ser

representado como segue abaixo:

CAPÍTULO 6. MÁQUINA DE VETORES-SUPORTE INTERVALAR 47

1. Representar o conjunto de entrada capturando informações incompletas usando ve-

tor intervalarX.

2. DadoX como entrada da SVMI encontrar a máxima margem de separação entre as

classes intervalares resolvendo o problema de otimização encontrando osαi.

3. Classificar a saída da máquinaF(X =Y, considerando, seY > +1, entãoY ∈ D =

[+1,+1] ou seY > −1, entãoY ∈ D = [−1,−1]. SeY satisfizer as condições

citadas, então a máquina classificou corretamente.

Capítulo 7

Implementações Computacionais e

Resultados

7.1 Implementações Computacionais e Resultados

Para solucionar um problema de otimização utilizando uma SVM, ou o treinamento

de uma SVM, depende de alguns fatores, tais como, a função objetiva do problema a con-

siderar (primeira ordem ou segunda ordem), a forma de apresentação dos dados durante

o treinamento (onlineoubach), o espaço de variáveis para a solução do problema (primal

ou dual).

Existem diferentes algoritmos para resolver problemas da SVM usual, tais como, Ker-

nel Adatron, SMO, Gradiente Ascendente, utilização de umsolver, entre outros. Neste foi

desenvolvido e implementado métodos para solução do problema relacionado ao treina-

mento de uma SVMI. Os métodos implementados tem como objetivo determinar o hiper-

plano intervalar ótimo no espaço intervalar dual do conjunto de treinamento. O treina-

mento consiste em computar um método iterativo utilizando ogradiente da função la-

grangeana com relação a cada multiplicadorα associado a uma taxa de aprendizagem.

Foram implementadas uma extensão intervalar do método Gradiente Ascendente e a uma

extensão intervalar baseada na rede Perceptron. A extensãointervalar do método Gradi-

ente ascendente mostrou-se pouco eficaz devidos a algumas particularidades como:

• O hiperplano ótimo passa pela origem.

• Não utiliza o interceptoB para a classificação.

O problema da SVMI requer resolver a extensão do problema dual, ou seja, encon-

trar o vetor intervalarα, tal que,Q(α) seja maximizado com respeito as restrições do

problema.

CAPÍTULO 7. IMPLEMENTAÇÕES COMPUTACIONAIS E RESULTADOS 49

Maximizar: Q(α) = ∑Ni=1 αi − [12,

12]∑

Ni, j=1αiα jDiD jXT

i X j

sujeito as restrições:

(1) αi ≥ [0,0], i = 1, ...,N

(2) ∑Ni=1 αiDi = [0,0]

A Figura 7.1 ilustra o treinamento da SVMI. Dado um conjunto de treinamento,

(X,Y),∀X i ∈ IRn eYi ∈ IR, a máquina intervalar, através de métodos kernels intervalares,

encontra os intervalos deα, com respeito ao problema dual. Ao encontrar osα (multipli-

cadores de Lagrange) é possível calcular os pesos intervalares ótimos da SVMI de acordo

com os vetores-suporte intervalares,α > [0,0]:

Wo =N

∑i=1

αoiDiXvsi

Figura 7.1: Treimanento de uma SVMI

Sendo a função intervalar:

F(X) = sgn(WTX +B)

a função intervalar que classifica os padrões da máquina, pode ser reescrita:

F(X) = sgn(αDXTX +B)

para a máquina linear.

CAPÍTULO 7. IMPLEMENTAÇÕES COMPUTACIONAIS E RESULTADOS 50

7.1.1 Método Intervalar: Gradiente

O método Gradiente é um método iterativo e bem simples. O algoritmo inicia com

uma estimativa para a solução (α) e então atualiza iterativamenteα de acordo com o

gradiente deW(α)

η∂W(α)

∂αi

onde,η é um intervalo considerado como a taxa de aprendizado,

αi = αi +η∂W(α)

∂αi

Algoritmo:

0 Inicialização:α e η > [0,0]

1 Atualização:αi = αi +η([1,1]−Di ∑nj=1 α jD jK(X i,X j)), ∀i = 1, · · · ,n

2 Restrição: seαi < [0,0] entãoαi = [0,0]

3 repita 1 e 2 até critério de parada

Esse método obtém resultados demorados e instáveis, pois, amáquina exige que o

conjunto de treinamento possua o intercepto intervalar, o bias B, passando pela origem.

Não computando∑αD = [0,0].

7.1.2 Algumas variações:

Foram testadas algumas variações para generalizar este método, para calcular o bias

B, respeitando as restrições:

1. B= [0,0], otimização sem restrição∑αD = [0,0]

2. αi = minC,max[0,0],αi +η∂W(α)∂αi

3. B≤ max‖ X i ‖4. B=−min(F+(X i)−max(F−(X i)

2

5. B= 1nvs

∑X j∈vs(1

D j−∑X i∈vsαiDi〈X i,X j〉)

6. Atualização de (α eB) de acordo com o valor máximo:k= argmaxi∂W(α)

∂αi

7.1.3 Método Intervalar: Adatron

O Adatron é um método iterativo simples que busca encontrar hiperplanos de máxima

margem de separação. Possui uma boa estabilidade e garantias de convergência para

solução ótima, onde, a taxa de convergência cresce exponencialmente a cada iteração

CAPÍTULO 7. IMPLEMENTAÇÕES COMPUTACIONAIS E RESULTADOS 51

Algoritmo:

0 Inicialização:α e η > [0,0]

1 Atualização:αi = αi +η([1,1]−Di ∑nj=1 α jD jK(X i,X j)), ∀i = 1, · · · ,n

2 Restrição: seαi < [0,0] entãoαi = [0,0]; seαi >C entãoαi =C, ∀C∈ IR

3 repita 1 e 2 até critério de parada

Para este método foi considerado, o intervalo delimitanteC e um valor intervalar para

o biasB, calculado de forma:

1. B≤ max‖ X i ‖2. B=−min(F+(X i)−max(F−(X i)

2

3. B= 1nvs

∑X j∈vs(1

D j−∑X i∈vsαiDi〈X i,X j〉)

após encontrar osα’s.

O item 1 possui resultados fracos, uma vez que o bias intervalar é encontrado através

da maior distância intervalar entre a origem e um padrão de entrada, desconsiderando a

restrição∑αD = [0,0]. Somente para conjuntos de treinamentos simples e lineares, a

máquina consegue encontrar um hiperplano de separação.

O item 2 e 3 possuem resultados melhores, tanto para problemas linearmente sepa-

ráveis, quanto para problemas não linearmente separáveis,obtendo melhores resultados

utilizando o kernel do tipo Gaussiano. A diferença entre esses dois métodos de calcular

o bias intervalar consiste no cálculo aproximado do bias intervalar, para o item 2, e um

valor intervalar médio considerando todos os vetores-suporte. O item 2 encontra o bias

intervalar através de uma média intervalar calculado pela:menor distância intervalar en-

tre um vetor-suporte pertencente a classe positiva e a origem, e maior distância intervalar

entre um vetor-suporte pertencente a classe negativa e a origem.

7.1.4 Método Intervalar: Perceptron Dual

Este método diferencia-se dos anteriores devido a forma de avaliação dos multipli-

cadores de lagrange e do bias intervalar, a atualização ocorre através de um único multi-

plicador a cada época, o multiplicador considerado mais informativo, trazendo, de acordo

com a bibliografia, resultados mais estáveis.

Algoritmo:

0 Inicialização:α e η > [0,0]

1 Atualização:αi = αanti +η([1,1]−Di ∑n

j=1 αantj D jK(X i ,X j)), ∀i = 1, · · · ,n

CAPÍTULO 7. IMPLEMENTAÇÕES COMPUTACIONAIS E RESULTADOS 52

2 Atualização: seαi > [0,0] entãoB = B+Di ∗ (η([1,1]−Di ∑nj=1αant

j D jK(X i,X j))),

∀i = 1, · · · ,nsenãoB=B−Di ∗(η([1,1]−Di ∑nj=1 αant

j D jK(X i ,X j))), ∀i = 1, · · · ,n3 Restrição: seαi < [0,0] entãoαi = [0,0]; seαi >C entãoαi =C, ∀C∈ IR

3 repita do 1 ao 3 até critério de parada

A implementação deste método se deu através do métodoonline para solucionar o

problema da SVMI, tendo como objetivo determinar o hiperplano separador ótimo estab-

elecendo uma máxima margem intervalar.

Por meio da função Lagrangeana

Maximizar: Q(α) = ∑Ni=1αi − [12; 1

2]∑Ni=1αiαiDiD jXT

i X j

Sujeito as restrições:

(1) αi ≥ [0;0], i = 1, ...,N

(2) ∑Ni=1αiDi = [0;0]

(7.1)

o processo de aprendizagem foi baseado em computar o gradiente da função em re-

lação aos multiplicadoresα, associado a uma taxa de aprendizagem.

Métodosonline, em sua maioria, atualizam os multiplicadores a cada época,como o

algoritmo Adatron. Contudo, um outro algoritmo, o MinOver,utiliza a atualização de um

único multiplicador, o mais significativo da época, que apesar de produzir resultados mais

estáveis, a taxa de convergência é menor.

O algoritimo perceptron intervalar foi optado a implementação do modo de atualiza-

ção e ajustes doα mais significativo na época computada. A estrutura do processamento

pode ser representada pela topologia da rede Perceptron, descrita pela Figura 7.2 que

fornece a função intervalar:

F(X) = αDK +B (7.2)

que gera a máquina intervalar classificadora considerando somente os vetores suporte.

A figura ilustra a topologia utilizada.

A SVMI utilizando o método intervalar Perceptron Dual mostrou melhores resultados

para uma gama maior de problemas. Duas alternativas podem ser consideradas neste

método: atualização de todos osα’s durante o processo de treinamento, ou alteração de

apenas umα, considerado uma variação doα mais significativo para o treinamento da

máquina.

CAPÍTULO 7. IMPLEMENTAÇÕES COMPUTACIONAIS E RESULTADOS 53

Figura 7.2: Topologia da SVMI

7.2 Resultados de testes

Nesta seção são apresentados alguns resultados de testes daSVMI e também mostra-

dos que os dados inicias estão contidos nos intervalos do conjunto de treinamento bem

como seus kernels (pontual e intervalar).

7.2.1 Resultados da SVMI

Para comprovar a aplicabilidade da SVMI, foram testados alguns problema artificiais

binários para conjuntos de treinamento linearmente separáveis e não linearmente separá-

veis.

As Tabelas 7.1 e 7.2 mostram alguns resultados da SVMI:

Problema 1 Problema 2 Problema 3Conj. treinamento 4 2 4Vetores suporte 3 2 3

bias [0.275,0.287] [0.39, 0.3951] [0.279, 0.28]Kernel intervalar linear linear linear

Tabela 7.1: Tabela de resultados da SVMI

O Problema 1 é do tipo linearmente separável, um ajuste intervalar da porta lógicaOR,

treinado com o kernel linear, obtendo como saida do teinamento osalpha intervalares

ótimos e os vetores de suporte intervalares para a máquina intervalar classificadora. O

Problema 2 também é do tipo linearmente separável, sendo um ajuste intervalar da porta

lógica NOT, onde, obteve dois vetores suporte. O problema 3 também é do tipo line-

armente separável, sendo um ajuste intervalar da porta lógica AND, obteve três vetores

CAPÍTULO 7. IMPLEMENTAÇÕES COMPUTACIONAIS E RESULTADOS 54

Problema 4 Problema 5 Problema 6Conj. treinamento 4 4 20Vetores suporte 4 4 8

bias [0.1, 0.1] [0.01, 0.0132] [0.0002, 0.00023]Kernel intervalar polinomial gaussiana gaussiana

Tabela 7.2: Tabela de resultados da SVMI

suporte. O Problema 4 e 5 são do tipo não linearmente separável, sendo um ajuste inter-

valar da porta lógicaXOR, sendo obtidos dois resultados, o primeiro utilizando o kernel

intervalar polinomial e o segundo utilizando o kernel intervalar gaussiano, com quatro

vetores suporte cada teste. O Problema 6 é do tipo não linearmente separável, sendo um

problemas de duas espirais, que obteve oito vetores suportecom o treinamento da função

kernel intervalar gaussiana. Os testes foram feitos utilizando o método intervalar iter-

ativo baseado na rede neural Perceptron e no método Adatron,uma vez que o método

do gradiente (mais simples) não trouxe resultados satisfatórios. O método intervalar im-

plementado demostrou mais estabilidade nos resultados, porém, um desgaste maior para

encontrar a convergência.

7.2.2 Conjunto de treinamento intervalar

A Tabela 7.3 mostra o conjunto de entrada de um problema das espirais:

0.4500 0.3500-0.4000 0.2750-0.2750 -0.77500.3000 -0.3000

Tabela 7.3: Problema das espirais

A Tabela 7.4 mostra uma extensão intervalar do conjunto de entrada de um problema

das espirais:

[0.45,0.46] [0.3,0.35][-0.41,-0.39] [0.275,0.275][-0.3,-0.26] [-0.78,0.77]

[0.3,0.3] [-0.3,-0.29]

Tabela 7.4: Problema das espirais intervalar

CAPÍTULO 7. IMPLEMENTAÇÕES COMPUTACIONAIS E RESULTADOS 55

A Tabela 7.5 mostra a matriz da função kernel linear do conjunto de entrada apresen-

tado na Tabela 7.3

0.3250 -0.0838 -0.3950 0.0300-0.0838 0.2356 -0.1031 -0.2025-0.3950 -0.1031 0.6763 0.15000.0300 -0.2025 0.1500 0.1800

Tabela 7.5: Matriz intervalar do problema das espirais intervalar para okernellinear

A Tabela 7.6 mostra a matriz kernel intervalar linear do conjunto de entrada apresen-

tado na Tabela 7.4

[0.29249,0.3341] [-0.1061,-0.079249] [-0.411,0.1525] [0.029,0.0510][-0.1061,-0.079249] [0.227725,0.243725] [-0.1131,0.33475] [-0.2055,-0.19675]

[-0.411,0.1525] [-0.1131,0.33475] [-0.533,0.6984] [-0.321,0.156][0.029,0.051] [-0.2055,-0.19675] [-0.321,0.156] [0.17409,0.18]

Tabela 7.6: Matriz intervalar do problema das espirais intervalar para okernellinear

A Tabela 7.7 mostra a matriz da função kernel polinomial do conjunto de entrada

apresentado na Tabela 7.3

1.7556 0.8395 0.3660 1.06090.8395 1.5268 0.8044 0.63600.3660 0.8044 2.8098 1.32251.0609 0.6360 1.3225 1.3924

Tabela 7.7: Matriz kernel do problema das espirais para okernelpolinomial

A Tabela 7.8 mostra a matriz kernel intervalar polinomial doconjunto de entrada

apresentado na Tabela 7.4

[1.67055,1.77982] [0.79905,0.84778] [0.34692,1.32825] [1.0609,1.104601][0.79905,0.84778] [1.50730,1.54685] [0.78659,1.78155] [0.63123,0.64521][0.34692,1.32825] [0.786591,1.7815] [0.218088,2.8845] [0.461040,1.3363][1.0609,1.1046] [0.6312,0.6452] [0.4610,1.3363] [1.3785,1.3924]

Tabela 7.8: Matriz intervalar do problema das espirais intervalar para okernelpolinomial

CAPÍTULO 7. IMPLEMENTAÇÕES COMPUTACIONAIS E RESULTADOS 56

A Tabela 7.9 mostra a matriz da função kernel gaussiano do conjunto de entrada ap-

resentado na Tabela 7.3

1.0000 0.6948 0.4084 0.80050.6948 1.0000 0.5717 0.66340.4084 0.5717 1.0000 0.75720.8005 0.6634 0.7572 1.0000

Tabela 7.9: Matriz kernel do problema das espirais para okernelgaussiano

A Tabela 7.10 mostra a matriz kernel intervalar gaussiano doconjunto de entrada

apresentado na Tabela 7.4

[0.99870,1] [0.68299,0.702498] [0.39564,0.77720] [0.799275,0.830854][0.68299,0.70249] [0.99980,1] [0.56679,0.99595] [0.65878,0.67188][0.39564,0.77720] [0.56679,0.99595] [0.30057,1] [0.47121,0.854875][0.79927,0.83085] [0.65878,0.67188] [0.47121,0.85487] [0.99995,1]

Tabela 7.10: Matriz intervalar do problema das espirais intervalar para okernelgaussiano

Capítulo 8

Conclusões

Este trabalho propôs uma extensão intervalar da SVM fundamentando matematica-

mente com conceitos intervalares. Para que a extensão intervalar da SVM fosse possível,

foi necessário um estudo detalhado da SVM, tanto linearmente separável quanto não li-

nearmente separável, bem como um estudo sobre a teoria intervalar, fazendo um estudo

bibliográfico necessário para que a construção da abordagemintervalar fosse possível.

O desenvolvimento deste trabalho teve início com a construção da SVM para os casos

mais simples, os casos linearmente separáveis. E também a construção da abordagem da

SVM para um caso geral, que engloba dados linearmente separáveis e não linearmente

separáveis. Para tanto utiliza-se funções kernels, sendo necessário uma formalização

matemática de funções do tipo kernels dentro da abordagem intervalar para resolução

de problemas de classificação de padrões utilizando as SVMs.Os capítulos 2, 3 e 4 são

relacionados a fundamentação teórica, tanto para o formalismo das SVMs quanto a fun-

damentação matemática intervalar, aritmética e otimização intervalar.

O formalismo matemático intervalar que trata da definição, extensão intervalar, de

kernels intervalares foi tratado no capítulo 6. As contribuições deste capítulo está na for-

malização de um kernel intervalar, independente da máquinautilizada, a diferenciação

da proposta é a utilização de uma métrica essencialmente intervalar para funções inter-

valares validadas como kernels, outros trabalhos relacionados foram pesquisados, porém,

utilizando a (quasi)métrica de Moore, que utiliza dados intervalares com resultados reais

(pontuais). Após a definição de kernels intervalares, foi feito uma formalização de uma

máquina de vetor de suporte intervalar, tratada no capítulo7, e métodos numéricos inter-

valares para resolver problemas utilizando a SVMI.

Foram construídas algumas definições para que a construção da SVMI fosse possível,

dentre as principais são:

• Norma vetorial intervalar

• Produtoide interno

CAPÍTULO 8. CONCLUSÕES 58

• Auto valores intervalares

• Auto vetoides

• Matriz positiva definida

• Kernel intervalar

• Teorema de Mercer

Foram implementados métodos para resolver o problemas de otimização, extensões

intervalares dos métodos:

• Gradiente

• Adatron

• Percepton Dual

8.1 Possibilidades de trabalhos futuros

As contribuições deste trabalho geram possibilidades de trabalhos futuros, dentre eles:

• Análise intervalar para otimização intervalar: métodos intervalares para resolver

problemas de otimização.

• Kernel intervalar: extensões intervalares de métodos kernels que tratam de proble-

mas de classificação, regressão e multiclassificação.

• Análise intervalar do comportamento do kernel intervalar para problemas com-

plexos.

• Análise numérica dos métodos intervalares para solucionaro problema de otimiza-

ção.

• Abordagem Fuzzy intevalar para SVM.

Referências Bibliográficas

Abe, S. (2005),Support Vector Machines for Pattern Classification, Springer.

Acióly, B. M. (1991), Fundamentação Computacional da Matemática Intervalar, Tese de

doutorado, Universidade Federal do Rio Grande do Sul.

Acióly, B. M. & B.C. Bedregal (1997), ‘A quasi-metric topology compatible with

inclusion-monotonicity property on interval space’,Reliable Computing3(3), 305–

313.

Angulo, C., D Anguita & L Gonzalez (2007), ‘Interval discriminant analysis using support

vector machines’,European Symposium on Artificial Neural Network.

Bazaraa, M., H. Sherali & C. M. Shetty (1993),Nonlinear Programming: Theory and

Algorithms, John Wiley and Sons.

Bishop, C. M. (2006),Pattern Recognition and Machine Learning, Springer.

Bliek, C., P. Spellucci, L. N. Vicente, A. Neumaier, L. Granvilliers, E. Huens, P. V. Hen-

tenryck, D. Sam-Haroud & B. Faltings (2001), Algorithms forsolving nonlinear

constrained, Relatório técnico, Universität Wien.

Boser, B. E., I. M. Guyon & V. N. Vapnik (1992), ‘A training algorithm for optimal mar-

gin classifiers’,Proceedings of the 5 th Annual ACM Workshop on computacional

Learning Theorypp. 144–152.

Burges, C. J. C. (1998), ‘A tutorial on support vector machines for pattern recognition’,

Data Mining and Knowledge Discovery2, 121–167.

Do, T. N. & F. Poulet (n.d.), ‘Kernel methods and visualizations for interval data mining’.

Ganapathiraju, A. (2002), Support Vector Machines for Speech Recognition, The-

sis(Ph.D.), Faculty of Mississipi State University.

Hanses, E. & G. W. Walster (1992),Global Optimization using Interval Analysis, Marcel

Dekker, New Work.

59

REFERÊNCIAS BIBLIOGRÁFICAS 60

Hayes, B. (2003), ‘A lucid interval’,American Scientist91, 484–488.

Haykin, S. (2001),Redes Neurais: Princípios e prática, Bookman.

Hearst, M. A. (1998), ‘Support vector machines’,IEEE Inteligent Systems13(4), 18–28.

Hofmann, T., B. Schölkopf & A. J. Smola (2008), ‘Kernel methods in machine learning’,

The Annals of Statistics36(3), 1171–1220.

Hong, D. H. & C. Hwang (2005), ‘Interval regression analysisusing quadratic loss su-

pport vector machines’,IEEE Transactions On Fuzzy Systems13(2), 229–237.

Hsu, C. W. & C. J. Lin (2002), ‘A comparison of methods for multiclass support vector

machines’,IEEE Transactions On Neural Networks13, 415–425.

Joachims, T. (1998), ‘Text categorization with support vector machines’,Proceedings of

European Conference on Machine Learningpp. 137–142.

Kearfott, R. B. (1996),Rigorous Global Search: Continuous Problems, Kluwer Academic

Publishers, London.

Kreinovich, V., A. Lakeyev J. Rohn & P. Kahl (1998),Computational Complexity and

Feability of Data Processing and Interval Computations, Kluwer Academic Pub-

lishers, Canadá.

Kulisch, U. W. (1982), ‘Computer arithmetic and programinglanguages’,ACM 13, 176–

182.

Kulisch, U. W. (2008),Computer Arithmetic and Validity: Theory, Implementation, and

Applications, Walter de Gruyter.

Kulisch, U. W. & W. L. Miranker (1981),Computer Arithmetic Theory and Pratice,

Academin Press.

Lima, C. A. M. (2004), Comitê de Máquinas: Uma Abordagem Unificada Empregando

Máquinas de Vetores-Suporte, Tese de doutorado, Universidade Estadual de Camp-

inas.

Lin, F. C. & S. D. Wang (2002), ‘Fuzzy support vector machines’, IEEE Transactions On

Neural Networks13(2), 464–470.

Lingras, P. & C. Butz (2004), ‘Interval set classifiers usingsupport vector machines’,

Proceedings of 2004 Conferenceof the North American.

REFERÊNCIAS BIBLIOGRÁFICAS 61

Lorena, A. C. & A. C. P. L. F. Carvalho (2003), Introdução às máquinas de vetore suporte,

Relatório técnico, Universidade de São Paulo.

Luenberger, D. (1984),Linear and Nonlinear Programming, Addison-Wesley.

Lyra, A. (2003), Uma Fundamentação Matemática para o Processamento de Imagens

Digitais Intervalares, Thesis(Ph.D.), Universidade Federal do Rio Grande do Norte,

Natal.

Martinez, J. M. & S. A. Santos (1995), Métodos computacionais de otimização, Relatório

técnico, UNICAMP.

Moore, R. E. (1966),Interval Analysis, Pretice Halls, New Jersey.

Moore, R. E. (1979),Methods and Applications of Interval Analysis, SIAM, Philadelphia.

Moore, R. E., R. B. Kearfott & M. J. Cloud (2009),Introduction to interval analysis,

Philadelphia: SIAM, Philadelphia.

Pontil, M. & A. Verri (1997), Proprieties of support vector machines, Relatório técnico,

Massachusetts Institute of Technology.

Santos, J. M. (2001), Em direção a uma representação para equações algébricas: Uma lóg-

ica equacional local, Dissertação de mestrado, Universidade Federal do Rio Grande

do Norte.

Semolini, R. (2002), Support vector machines, inferência transdutiva e o problema de

classificação, Dissertação de mestrado, Universidade Estadual de Campinas.

Stitson, M. O., J. A. E. Weston, A. Gammerman, V. Vovk & V. Vapnik (1996), Theory oh

support vector machines, Relatório técnico, University ofLondon.

Trindade, R. M. P., B. R. C. Bedregal & A. D. Dória Neto (2008),‘Basic concepts of

interval digital signal processing’,Proceedings of World Academy of Science, Engi-

neering and Technology.

Young, R. C. (1931),The Algebra of Many-valued Quantities, Verlag Von Julius Springe,

Berlin.

Zhao, Y., Q. He & Q. Chen (2005), ‘An interval set classification based on support vector

machines’,Proceedings of the Joint International Conference on Autonomic and

Autonomous Systems.