máquina de vetores-suporte intervalar...as máquinas de vetores suporte (svm - support vector...
TRANSCRIPT
UNIVERSIDADE DO RIO GRANDE DO NORTEFEDERAL
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
CENTRO DE TECNOLOGIA
PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA
Máquina de Vetores-Suporte Intervalar
Adriana Takahashi
Orientador: Prof. Dr. Adrião Duarte Dória Neto
Co-orientador: Prof. Dr. Benjamín René Callejas Bedregal
Tese de Doutorado apresentada ao Pro-grama de Pós-Graduação em EngenhariaElétrica da UFRN, área de concentração:Engenharia de Computação como parte dosrequisitos para obtenção do título de Doutorem Ciências.
Natal/RN, 2012
Máquinas de Vetores Suporte Intervalar
Adriana Takahashi
Tese de Doutorado
Prof. Dr. Adrião Duarte Dória Neto (orientador) . . . . . . . . . .. . . . . . UFRN/DCA
Prof. Dr. Benjamín René Callejas Bedregal (co-orientador). . . UFRN/DIMAp
Prof. Dr. Jorge Dantas de Melo . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . UFRN/DCA
Prof. Dr. Aarão Lyra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . UnP
Prof. Dra. Renata Hax Sander Reiser . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . UFPel
Prof. Dr. Tiago Alessandro Espínola Ferreira . . . . . . . . . . . .. . . . . . . . . . . UFRPE
Agradecimentos
Aos meus orientadores, professores Adrião e Benjamin, sou grata pela orientação e paciên-cia.
Aos colegas do departamento.
Aos demais colegas de pós-graduação, pelas críticas e sugestões.
À minha família pelo apoio durante esta jornada.
Resumo
As máquinas de vetores suporte (SVM -Support Vector Machines) têm atraído muitaatenção na área de aprendizagem de máquinas, em especial em classificação e reconhe-cimento de padrões, porém, em alguns casos nem sempre é fácilclassificar com precisãodeterminados padrões entre classes distintas. Este trabalho envolve a construção de umclassificador de padrões intervalar, utilizando a SVM associada com a teoria intervalar,de modo a modelar com uma precisão controlada a separação entre classes distintas deum conjunto de padrões, com o objetivo de obter uma separaçãootimizada tratando deimprecisões contidas nas informações do conjunto de padrões, sejam nos dados iniciaisou erros computacionais.
A SVM é uma máquina linear, e para que ela possa resolver problemas do mundoreal, geralmente problemas não lineares, é necessário tratar o conjunto de padrões, maisconhecido como conjunto de entrada, de natureza não linear para um problema linear, asmáquinas kernels são responsáveis por esse mapeamento. Para a extensão intervalar daSVM, tanto para problemas lineares quanto não lineares, este trabalho introduz a definiçãode kernel intervalar, bem como estabelece o teorema que valida uma função ser um kernel,o teorema de Mercer para funções intervalares.
Palavras-chave: máquinas de vetores suporte, intervalar, kernel
Abstract
The Support Vector Machines (SVM) has attracted increasingattention in machinelearning area, particularly on classification and patternsrecognition. However, in somecases it is not easy to determinate accurately the class which given pattern belongs. Thisthesis involves the construction of a intervalar pattern classifier using SVM in associationwith intervalar theory, in order to model the separation of apattern set between distinctclasses with precision, aiming to obtain an optimized separation capable to treat impreci-sions contained in the initial data and generated during thecomputational processing.
The SVM is a linear machine. In order to allow it to solve real-world problems (usu-ally nonlinear problems), it is necessary to treat the pattern set, know as input set, trans-forming from nonlinear nature to linear problem. The kernelmachines are responsible todo this mapping. To create the intervalar extension of SVM, both for linear and nonlin-ear problems, it was necessary define intervalar kernel and the Mercer’s theorem (whichcaracterize a kernel function) to intervalar function.
Keywords: support vector machine, interval, kernel
Sumário
Sumário i
Lista de Figuras iii
Lista de Tabelas iv
1 Introdução 1
1.1 Apresentação e motivação . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Trabalhos relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . .2
1.4 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Máquinas de Vetores-Suporte 5
2.1 Máquina de Vetores-Suporte Linearmente Separável . . . .. . . . . . . . 6
2.1.1 Hiperplano Ótimo para Classes Linearmente Separáveis . . . . . 10
2.2 Máquina de Vetor de Suporte Não Lineares . . . . . . . . . . . . . .. . 12
2.2.1 Hiperplano Ótimo para Classes Não Linearmente Separáveis . . . 12
2.2.2 FunçãoKernel . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Considerações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3 Matemática Intervalar 18
3.1 Representação de Intervalos . . . . . . . . . . . . . . . . . . . . . . .. 19
3.2 Operações Aritméticas Intervalares . . . . . . . . . . . . . . . .. . . . . 19
3.3 Propriedades Algébricas Intervalares . . . . . . . . . . . . . .. . . . . . 20
3.4 Ordem Intervalar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.5 Função Intervalar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.5.1 Metrica intervalar emIRn . . . . . . . . . . . . . . . . . . . . . 21
3.5.2 Integral Interval . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.6 R-vetoide e espaço R-vetoide intervalar . . . . . . . . . . . . .. . . . . 23
3.6.1 Produto interno intervalar . . . . . . . . . . . . . . . . . . . . . 24
i
3.6.2 Autovetoide intervalar . . . . . . . . . . . . . . . . . . . . . . . 25
4 Otimização usando Análise Intervalar 26
4.1 Otimização Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.1.1 Funcional de Lagrange . . . . . . . . . . . . . . . . . . . . . . . 27
4.1.2 Condições de Kuhn-Tucker . . . . . . . . . . . . . . . . . . . . . 28
4.2 Otimização Linear usando Computação Intervalar . . . . . .. . . . . . . 28
4.2.1 Otimização com restrições . . . . . . . . . . . . . . . . . . . . . 29
4.2.2 Condições de John . . . . . . . . . . . . . . . . . . . . . . . . . 30
5 Kernel Intervalar 31
5.1 Mapeamento Função Kernel Intervalar . . . . . . . . . . . . . . . .. . . 33
5.2 Construção de Kernel Intervalar . . . . . . . . . . . . . . . . . . . .. . 34
5.2.1 Fazendo Kernels de kernels . . . . . . . . . . . . . . . . . . . . 36
5.3 Alguns Kernels Intervalares . . . . . . . . . . . . . . . . . . . . . . .. . 37
5.3.1 Extensão Intervalar doKernelGaussiano . . . . . . . . . . . . . 37
5.3.2 Extensão intervalar doKernelPolinomial . . . . . . . . . . . . . 38
6 Máquina de Vetores-Suporte Intervalar 39
6.1 Máquina de Vetores-Suporte Intervalares Linearmente Separáveis . . . . 39
6.2 Máquina de Vetor de Suporte Intervalares Não Separáveis. . . . . . . . . 44
7 Implementações Computacionais e Resultados 48
7.1 Implementações Computacionais e Resultados . . . . . . . . .. . . . . . 48
7.1.1 Método Intervalar: Gradiente . . . . . . . . . . . . . . . . . . . 50
7.1.2 Algumas variações: . . . . . . . . . . . . . . . . . . . . . . . . . 50
7.1.3 Método Intervalar: Adatron . . . . . . . . . . . . . . . . . . . . 50
7.1.4 Método Intervalar: Perceptron Dual . . . . . . . . . . . . . . .. 51
7.2 Resultados de testes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
7.2.1 Resultados da SVMI . . . . . . . . . . . . . . . . . . . . . . . . 53
7.2.2 Conjunto de treinamento intervalar . . . . . . . . . . . . . . .. 54
8 Conclusões 57
8.1 Possibilidades de trabalhos futuros . . . . . . . . . . . . . . . .. . . . . 58
Referências bibliográficas 59
Lista de Figuras
2.1 Hiperplano de separação(w,b) para um conjunto de treinamento bidi-
mensional. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2 Hiperplano ótimo com máxima margemρo de separação dos padrões lin-
earmente separáveis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 Interpretação gráfica da distânciax até o hiperplano ótimo para o caso
bidimensional. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4 Mapeamento de características. . . . . . . . . . . . . . . . . . . . .. . . 12
2.5 (a) O ponto(xi ,di) se encontra na região de separação, mas do lado cor-
reto. (b) O ponto(xi,di) se encontra na região de separação, mas do lado
incorreto. (c) O ponto(xi,di) se encontra fora da região de separação,
mas do lado incorreto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
6.1 Ilustração do hiperplano ótimo intervalar. . . . . . . . . . .. . . . . . . 40
6.2 Interpretação da distância deX atép hiperplano ótimo. . . . . . . . . . . 41
7.1 Treimanento de uma SVMI . . . . . . . . . . . . . . . . . . . . . . . . . 49
7.2 Topologia da SVMI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
iii
Lista de Tabelas
2.1 Principaiskernelsutilizados nas SVMs . . . . . . . . . . . . . . . . . . . 16
7.1 Tabela de resultados da SVMI . . . . . . . . . . . . . . . . . . . . . . . 53
7.2 Tabela de resultados da SVMI . . . . . . . . . . . . . . . . . . . . . . . 54
7.3 Problema das espirais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
7.4 Problema das espirais intervalar . . . . . . . . . . . . . . . . . . .. . . 54
7.5 Matriz intervalar do problema das espirais intervalar para okernellinear . 55
7.6 Matriz intervalar do problema das espirais intervalar para okernellinear . 55
7.7 Matriz kernel do problema das espirais para okernelpolinomial . . . . . 55
7.8 Matriz intervalar do problema das espirais intervalar para okernelpoli-
nomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
7.9 Matriz kernel do problema das espirais para okernelgaussiano . . . . . . 56
7.10 Matriz intervalar do problema das espirais intervalarpara okernelgaussiano 56
iv
Capítulo 1
Introdução
1.1 Apresentação e motivação
As máquinas de vetores suporte (SVM - Support Vector Machines) têm atraído muita
atenção nos últimos anos devido a sua eficiência, comparada com outros tipos de redes
neurais, em aplicações que requerem aprendizado de máquinae por estar bem fundamen-
tado na teoria de aprendizado estatístico [Stitson et al. 1996, Pontil & Verri 1997]. A
SVM pode ser usada para resolver problemas de classificação eregressão linear. Burges
[Burges 1998] apresenta um tutorial sobre a SVM que trata de problemas de classificação
de padrões, e em [Stitson et al. 1996, Hearst 1998], mostram-se problemas de regressão,
fazendo da SVM uma abordagem abrangente para diversas aplicações que envolvem prob-
lemas de modelagem de dados empíricos.
Uma propriedade especial da SVM é a minimização do risco estrutural, proveniente
da teoria do aprendizado estatístico, cujo princípio se baseia no fato de que o erro de uma
máquina de aprendizagem sobre os dados de teste (erro de generalização) é limitado pelo
erro de treinamento mais um termo que depende da dimensão deVapnik-Chervonenkis
(dimensão VC), que é uma medida da capacidade de expressão deuma família de funções.
O objetivo da SVM é a construção de um hiperplano ótimo que minimiza o risco empírico
e a dimensão VC conjuntamente, e que ao maximizar a margem de separação das classes
implica na minimização da dimensão VC, satisfazendo a minimização do risco estrutural.
Um modelo de uma SVM pode ser descrito em simples palavras. Considerando um
problema linearmente separável cujo conjunto de treinamento pode ser classificado por
duas classes, uma SVM mapeia o espaço de entrada e encontra o hiperplano ótimo que
maximiza a margem de separação das classes, ou duas vezes a distância mínima de cada
classe ao hiperplano ótimo, cujos pontos situados sobre os extremos da máxima margem
do hiperplano ótimo são denominados devetores-suporte. Em casos reais, nem sempre os
problemas são linearmente separáveis e tanto o hiperplano quanto os vetores-suporte são
CAPÍTULO 1. INTRODUÇÃO 2
obtidos através de um problema de otimização com restrições. Uma generalização deste
conceito é utilizado para o caso não linear.
O problema de classificação de padrões, que originou a formulação da SVM, pode
ser resolvido por muitos outros classificadores, porém, a grande vantagem da SVM sobre
outros classificadores está no hiperplano ótimo que consegue obter uma máxima margem
de separação entre classes. Entretanto, mesmo com todas as vantagens e eficiência da
SVM como um classificador, existem alguns casos onde não é tãosimples determinar oti-
mamente a separação entre classes distintas através de um hiperplano, seja por utilizar um
conjunto de treinamento com informações imprecisas ou inconsistentes, ou por problemas
de erros de arredondamentos de valores durante a execução damáquina para encontrar o
hiperplano, ou por problemas de truncamento ou aproximaçãode procedimentos.
1.2 Objetivos
Ojetivando a diversidade e os pontos fortes da SVM, o desenvolvimento deste es-
tudo está focado na construção de uma teoria intervalar aplicada à SVM, abordando os
princípios teóricos da SVM e da teoria intervalar sob a nova modelagem da SVM inter-
valar, que será chamado resumidamente de SVMI. Essa nova modelagem tende a oferecer
uma precisão, herdada de conceitos da matemática intervalar, para controlar erros com-
putacionais, que poderá advir de ruídos durante a aquisiçãodos dados de treinamento,
imprecisão e informações faltosas nos dados de entrada.
A contribuição científica desde estudo está em oferecer uma formalização deste novo
modelo para o mundo científico, tanto de Redes Neurais, quando de qualquer outra área,
que pretende obter um controle de erros computacionais, ou analisar o desempenho de
métodos que gerem resultados com uma dada precisão, utilizando como classificador uma
SVMI.
1.3 Trabalhos relacionados
As áreas mais comuns de aplicações da SVM estão em: reconhecimento de caracteres,
reconhecimento de imagens, detecção de faces em imagens e categorização de textos
[Boser et al. 1992, Burges 1998, Ganapathiraju 2002, Hearst1998, Joachims 1998, Lima
2004, Pontil & Verri 1997, Stitson et al. 1996], e entre diversos problemas de regressão
[Stitson et al. 1996, Hearst 1998].
A SVM também é encontrada na literatura em problemas de multi-classificação, clas-
CAPÍTULO 1. INTRODUÇÃO 3
sificação de duas ou mais classes [Hsu & Lin 2002], ou estudos unindo SVMs a outras
teorias, como lógicaFuzzy, máquinas de vetores de suportefuzzy(MVSF) ou do inglês
Fuzzy Support Vector Machines(FSVM) [Lin & Wang 2002].
Pesquisas mostram a SVM utilizando análise intervalar. Zhao [Zhao et al. 2005] de-
senvolveu uma extensão intervalar da SVM para classificaçãode padrões que estivessem
incompletos. Através de experimentos e análises de resultados, Zhao, concluiu que o
método proposto classifica novos padrões mesmo com informações incompletas, e com
a utilização do conhecimento à priori pode ser reduzido os atributos em relação ao custo
durante o processo de classificação.
Existe também um outro estudo na teoria de aproximação, onde, Lingras [Lingras &
Butz 2004] propõe o uso de duas técnicas de classificação, a SVM e teoriaRough Set,
onde, busca-se interpretar o resultado da classificação da SVM em termos intervalares
ou rough setse explora-se tais vantagens. Hong [Hong & Hwang 2005] propõeutilizar
SVM para regressão intervalar, partindo de uma análise de regressãofuzzy. Em [Do &
Poulet n.d.] propõe-se uma análise de dados intervalares para métodos baseados noker-
nel. Angulo e autores [Angulo et al. 2007] utilizam análise intervalar sobre a SVM para
o caso linear. A SVM desenvolvida neste trabalho consiste emuma extensão (essen-
cialmente intervalar), caracterizando-se entre outros aspectos, pelo uso de uma métrica
caracterizando-se do usual para tratamento intervalar dosdados.
1.4 Organização do Trabalho
Este trabalho está organizado em capítulos da seguinte forma:
• Capítulo 1: traz uma breve introdução da SVM, bem como a motivação de realizar
este estudo, os objetivos juntamente com as contribuições que se pretende alcançar
e alguns trabalhos relacionados na área e nesta proposta.
• Capítulo 2: mostra a fundamentação teórica da SVM para os casos de classes linear-
mente separáveis e não linearmente separáveis, com o objetivo de um embasamento
teórico bem esclarecido para um melhor entendimento da proposta deste estudo.
• Capítulo 3: apresenta a fundamentação teórica da abordagemintervalar, objeti-
vando apresentar os conceitos básicos da matemática intervalar que serão utilizados
na construção de uma máquina SVM intervalar.
• Capítulo 4: fornece os fundamentos básicos de conceitos de otimização, produto
internokernele da teoria do aprendizado estatístico. Conceitos utilizados na SVM
para encontrar o hiperplano ótimo calculado a partir da resolução de problemas de
CAPÍTULO 1. INTRODUÇÃO 4
otimização com restrições. Será mostrado também os fundamentos da otimização
com uso da análise intervalar, necessário para encontrar o hiperplano que satisfaça
as condições de otimização intervalar e as propriedades da SVM.
• Capítulo 5: formalismo da extensão intervalar de kernels, bem como o teorema que
valida funções a serem consideradas válidas para serem kernels.
• Capítulo 6: este capítulo descreve os aspectos teóricos baseados nos capítulos an-
teriores, e uma definição inicial para o caso linearmente separável, detalhando com
um algoritmo e a aplicação de exemplos para apresentar alguns resultados já obti-
dos.
• Capítulo 7: implementações de métodos iterativos intervalares para o treinamento
de uma SVMI.
• Capítulo 8: considerações gerais e possibilidades de trabalhos futuros.
Capítulo 2
Máquinas de Vetores-Suporte
As máquinas de vetores suporte, referenciado em inglês comoSupport Vector Ma-
chines(SVM), constituem numa técnica fundamentada na Teoria de Aprendizado Estatís-
tico visando a proposição de técnicas de aprendizado de máquina que buscam a maximiza-
ção da capacidade de generalização e a minimização do risco estrutural [Haykin 2001].
A maximização da capacidade de generalização em técnicas deaprendizado de máquina
é a capacidade da máquina na classificação eficiente perante oconjunto de treinamento,
e a minimização do risco estrutural é a probabilidade de classificação errônea de padrões
ainda não apresentados à máquina.
Na literatura é encontrado o termo máquinas de vetor de suporte ligado a proble-
mas de classificação e regressão [Hearst 1998, Lima 2004, Stitson et al. 1996], e o termo
vetores-suporte ou ainda, vetores de suporte utilizado para encontrar um hiperplano ótimo
de separação, responsável pela separação de classes, ou umafunção de separação com
margem máxima entre classes distintas. A teoria que define rigososamente os conceitos
e demonstrações matemática da função do hiperplano ótimo é ateoria de aprendizado
estatístico, tratado por Vapnik como dimensão Vapnik-Chervonenkis, ou simplemente di-
mensão VC [Haykin 2001, Lorena & Carvalho 2003, Semolini 2002]. Essa dimensão é de
fundamental importância, pois, sua estimativa correta garante o aprendizado de maneira
confiável, em outras palavras, a dimensão VC engloba o princípio de minimização de
risco estrutural, que envolve a minimização de um limite superior sobre o erro de general-
ização, tornando a máquina com uma habilidade alta para generalizar padrões ainda não
apresentados.
Neste capítulo será descrito uma formulação básica da SVM, apresentando a SVM
para classificação do caso linearmente separável e do caso não linearmente separável.
CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 6
2.1 Máquina de Vetores-Suporte Linearmente Separável
O problema de classificação binária, problema de classificação inicial tratado pela
SVM, trata da classificação de duas classes, sem perda de generalidade, através de um
hiperplano ótimo à partir de um conjunto de treinamento linearmente separável. Um
conjunto de treinamento é dito linearmente separável se forpossível separar os padrões
de classes diferentes contidos no mesmo por pelo menos um hiperplano [Haykin 2001,
Semolini 2002].
Considere o conjunto de treinamento(xi ,di)Ni=1, ondexi é o padrão de entrada para
o i-ésimo exemplo edi é a resposta desejada,di = +1,−1, que representa as classes
linearmente separáveis.
A equação que separa os padrões através de hiperplanos pode ser definida por:
wT ·x+b= 0 (2.1)
onde,wT · x é o produto escalar entre os vetoresw e x, em quex é um vetor de entrada
que representa os padrões de entrada do conjunto de treinamento, w é o vetor de pesos
ajustáveis eb é um limiar também conhecido como bias.
A Figura 2.1 mostra o hiperplano de separação(w,b) em um espaço bidimensional
para um conjunto de treinamento linearmente separável.
Figura 2.1: Hiperplano de separação(w,b) para um conjunto de treinamento bidimen-sional.
CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 7
A equação (2.1) pode ser reescrita por:
wT ·xi +b≥ 0, sedi =+1
wT ·xi +b< 0, sedi =−1(2.2)
A margem de separação, distância entre o hiperplano definidona equação (2.1) e o
ponto mais próximo de ambas as classes, é representado porρ. O objetivo de uma SVM
é encontrar um hiperplano que separe o conjunto de treinamento sem erro e maximize
a margem de separação, sobre essa condição, o hiperplano é referido como hiperplano
ótimo. A Figura 2.2 ilustra o hiperplano ótimo para um espaçode entrada bidimensional.
Figura 2.2: Hiperplano ótimo com máxima margemρo de separação dos padrões linear-mente separáveis.
Considerando quewo e bo representam os valores ótimos do vetor peso e do bias,
respectivamente, a equação (2.1) do hiperplano pode ser reescrita para o hiperplano como:
wTo ·xo+bo = 0 (2.3)
A função discriminante
g(x) = wTo ·xo+bo (2.4)
CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 8
fornece uma medida algébrica de distânciar entrex e o hiperplano(wo,bo) que pode ser
representado por:
x = xp+xn (2.5)
onde,xp é a projeção normal dex sobre o hiperplano ótimo exn é o vetor normal com
distânciar, onde,
xn = r · wo
‖ wo ‖(2.6)
A Figura 2.3 ilustra a distânciar entrex e o hiperplano(wo,bo), onde,r é positivo se
x estiver no lado positivo do hiperplano ótimo caso contrárioserá negativo.
Figura 2.3: Interpretação gráfica da distânciax até o hiperplano ótimo para o caso bidi-mensional.
Considerandog(xp) = 0
g(x) = wTo ·xo+bo
= r· ‖ wo ‖(2.7)
onde, através da equação (2.7) é obtido a distânciar
r =| g(x) |‖ wo ‖
(2.8)
CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 9
O conjunto de treinamento é linearmente separável sewo ebo satisfazer a restrição
wTo ·xi +bo ≥+1, sedi =+1
wTo ·xi +bo ≤−1, sedi =−1
(2.9)
onde, os parâmetroswo ebo são obtidos somente através do conjunto de treinamento.
A equação (2.9) pode ser reescrita por:
di(wTo ·xi +bo)≥ 1 (2.10)
O pontos(x,d), onde a equação (2.10) é satisfeita para o sinal de igualdadesão deno-
minados devetores-suporte, e são esses pontos que influenciam diretamente na localiza-
ção do hiperplano ótimo de máxima margem, pois, esses pontosestão mais próximos da
superfície de decisão.
Considerando um pontox(s) vetor-suporte de classe positivad(s) = +1, então por
definição:
g(x(s)) = wTo ·x(s)+bo−1 paradi =+1 (2.11)
Da equação (2.8), a distância do vetor de suportex(s) até o hiperplano ótimo é dado
por:
r = wTo ·x(s)+bo‖wo‖ =
+ 1‖wo‖ sed(s) =+1
− 1‖wo‖ sed(s) =−1
(2.12)
onde, o sinal positivo indica quex(s) pertence ao lado positivo do hiperplano ótimo e o
sinal negativo o contrário. Considerandoρ a margem de separação máxima entre duas
classes de um conjunto de treinamento, então:
ρ = 2r = 2‖wo‖ (2.13)
Logo, a equação (2.13) mede a distância entre os hiperplanosda equação (2.10), da
mesma forma que a distância entre os hiperplanoswT · x+ b = 0 e wT · x+ b = 1 ou
wT · x+b= −1 é dado por 1‖w‖ . Como é suposto que a margem de separação é sempre
maior que esta última distância, a minimização de‖ w ‖ leva a uma maximização da
margem.
CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 10
2.1.1 Hiperplano Ótimo para Classes Linearmente Separáveis
O hiperplano ótimo definido para os parâmetrosw eb que satisfaçam as desigualdades
da equação (2.10), pode ser reescrito como:
di(wT ·xi +b)≥ 1 (2.14)
O objetivo da SVM é encontrar um procedimento computacionalque, utilizando o
conjunto de treinamento(xi,di)Ni=1 encontra o hiperplano ótimo sujeito às restrições da
equação (2.14). Este problema pode ser resolvido através doproblema de otimização com
restrições, minimizando a função custoΦ em relação ao vetor de pesow e satisfazendo
as restrições da equação (2.14)
Φ(w) =12
wT ·w (2.15)
A partir da função custoΦ da equação (2.15) pode ser formulado o problema de
otimização com restrições, denominado de problema primal:
Minimizar: 12wT ·w
Sujeito as restrições: di(wT ·xi +b)≥ 1, parai = 1, ...,n(2.16)
Este é um problema clássico em otimização de programação quadrática [Hearst 1998]
sob o aspecto de aprendizado de máquina. O problema de otimização analisado sob o
ponto de vista de otimização de função quadrática pode ser resolvido introduzindo uma
função lagrangiana, definida em termos dew eb:
J(w,b,α) =12‖ w ‖2 −
N
∑i=1
αi(di(wT ·x+b)−1) (2.17)
onde, osαi são denominados demultiplicadores de Lagrangenão-negativos.
O problema passa a ser então a minimização da equação (2.17) em relação aw e b e
maximização deαi , comαi ≥ 0. Os pontos ótimos desta esquação são obtidos diferen-
ciando a equação (2.17) em relação aw e b e igualando os resultados a zero, obtendo as
condições de otimização:
Condição 1: ∂J(w,b,α)∂w = 0
Condição 2: ∂J(w,b,α)∂b = 0
(2.18)
A aplicação das condições de (2.18) à função lagrangiana da equação (2.17) levam ao
CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 11
resultado:w = ∑N
i=1 αidixi
∑Ni=1αidi = 0
(2.19)
Substituindo a equação (2.19) em (2.17), obtém-se o problema dual de otimização:
Maximizar: ∑Ni=1 αi − 1
2 ∑Ni=1∑N
j=1 αiα jdid jxTi ·x j
Sujeito as restrições:
(1) αi ≥ 0, i = 1, ...,N
(2) ∑Ni=1 αidi = 0
(2.20)
Tendo encontrado os multiplicadores de Lagrange ótimos, representados porαoi , pode-
se calcular o vetor de peso ótimowo através da equação (2.19):
wo =N
∑i=1
αoi dixi (2.21)
O valor do bias ótimobo é encontrado utilizando os pesos ótimoswo encontrados na
equação (2.21) e descrito como:
bo = 1−wTo ·x(s) parad(s) = 1 (2.22)
O problema dual (2.20) é formulado totalmente em termos dos padrões de treina-
mento, além disso, a equação a ser maximizada da equação (2.20) depende somente dos
padrões de entrada. O hiperplano ótimo depende somente dos vetores de suporte, consi-
derados os padrões mais significativos do conjunto de treinamento. Os multiplicadores de
Lagrangeαo > 0 (diferentes de zero) são justamente os padrões de entrada com margem
igual a 1, chamados de vetores de suporte.
O hiperplano ótimo é expresso em termos do conjunto de vetores de suporte descrito
pela função sinal como:
f (x) = sgn(NSV
∑i=1
diαoixT ·x+bo) (2.23)
Os padrões de entrada que não são vetores de suporte não influenciam na função de
decisão da escolha do hiperplano ótimo pela da SVM.
Um ponto importante para este problema de otimização é que fornece solução única
encontrado eficientemente, diferente de outras técnicas.
CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 12
2.2 Máquina de Vetor de Suporte Não Lineares
O problema de classificação binária, onde, classes distintas são não linearmente se-
paráveis no espaço original, mas, com um mapeamento não linear através de um produto
internokerneltransforma o espaço original em um espaço de características de dimensão
maior, e, o problema que era não linearmente separável no espaço original passa-se a ser
linearmente separável no espaço de características é representado pela SVM não linear-
mente separável ou SVM para classes linearmente separáveisno espaço de características.
O espaço de características, mencionado acima, corresponde a uma representação
do conjunto de treinamento, um mapeamento do espaço de entrada original em um novo
espaço utilizando funções reaisϕi , ...,ϕM. A Figura 2.4 ilustra esse conceito.
Figura 2.4: Mapeamento de características.
Para a construção da SVM no caso não linear, a idéia depende deduas operações
matemáticas. Primeiro: o mapeamento não linear do vetor de entrada para um espaço de
características de alta dimensionalidade. O teorema que trata dessa operação é o teorema
de Cover [Haykin 2001], onde, as funçõesϕi são não lineares e a dimensionalidade do
espaço de característicasM é suficientemente alta. Segundo: a construção de um hiper-
plano ótimo para separação das características descobertas no primeiro, uma vez que o
teorema de Cover não procura o hiperplamo ótimo de separação. A fundamentação desta
última operação está na teoria da dimensão VC que busca o princípio da minimização do
risco estrutural [Haykin 2001, Lorena & Carvalho 2003, Semolini 2002].
2.2.1 Hiperplano Ótimo para Classes Não Linearmente Separáveis
Considerando, em uma visão geral, o problema de classificação, onde, as classes são
não linearmente separáveis, a construção do hiperplano de separação, dado os padrões de
CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 13
treinamento, possivelmente gerará erros de classificação.O objetivo da SVM neste caso é
encontrar um hiperplano que minimiza a probabilidade de erro de classificação junto com
o conjunto de treinamento.
Existem alguns casos onde, não é necessário fazer um mapeamento de características
no conjunto de treinamento. Esses casos são tratados pela SVM linear com margens de
separação entre classes suaves ou flexíveis (soft), pois, poderão existir pontos(xi ,di) que
violarão a equação (2.14).
Esta violação pode ocorrer em três diferentes situações descritas a seguir:
• O ponto(xi,di) se encontra dentro da região de separação e no lado correto da
superfície de decisão, ilustrado na Figura 2.5 (a). Neste caso, houve uma escolha
incorreta do hiperplano.
• O ponto(xi,di) se encontra dentro da região de separação e no lado incorretoda
superfície de decisão, ilustrado na Figura 2.5 (b). Neste caso, houve uma escolha
incorreta do hiperplano de margem maior.
• O ponto(xi ,di) se encontra fora da região de separação e no lado incorreto da
superfície de decisão, ilustrado na Figura 2.5 (c).
Figura 2.5: (a) O ponto(xi,di) se encontra na região de separação, mas do lado correto.(b) O ponto(xi ,di) se encontra na região de separação, mas do lado incorreto. (c) O ponto(xi,di) se encontra fora da região de separação, mas do lado incorreto.
Para tratar desses problemas introduz-se uma variável não negativaξi1≤i≤N na
definição do hiperplano de separação:
di(wT ·xi +b)≥ 1−ξi (2.24)
CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 14
As variáveisξi são denominadas devariáveis soltas, e medem os desvios dos pontos
(xi,di) para a condição ideal de separação de classes. Quandoξi satisfazer 0≤ ξi ≤ 1
o ponto encontra-se dentro da região de separação mas do ladocorreto da superfície de
decisão. Quandoξi > 1 o ponto encontra-se do lado incorreto do hiperplano de separação.
Os vetores-suporte são os pontos que o resultado da equação (2.24) é igual a 1− ξi
mesmo queξi > 0. Ao retirar um padrão do conjunto de treinamento em queξi > 0 a
superfície de decisão tem possibilidade de mudança, porém,ao retirar um padrão em que
ξi = 0 e o resultado da equação (2.24) for maior que 1 a superfície de decisão permanecerá
inalterada.
O objetivo é encontrar um hiperplano de separação onde o errode classificação in-
correta seja mínimo perante o conjunto de treinamento, podendo ser feito minimizando a
equação:
Φ(ξ) =N
∑i=1
I(ξi −1) (2.25)
em relação ao vetor pesow, sujeito à restrição da equação do hiperplano de separação
da equação (2.24) e a restrição sobrewTw. A funçãoI(ξ−1) é uma função indicadora,
definida por:
I(ξ−1) =
0 seξ ≤ 0
1 seξ > 0(2.26)
A minimização deΦ(ξ) é um problema de otimização não convexo de classe NP-
completo não determinístico em tempo polinomial. Para fazer este problema de otimiza-
ção matematicamente tratável, aproxima-se a funçãoΦ(ξ) por:
Φ(ξ) =N
∑i=1
ξi (2.27)
Para a simplificação de cálculos computacionais a função a ser minimizada em relação
ao vetor pesow segue:
Φ(w,ξ) =12
wT ·w+CN
∑i=1
ξi (2.28)
onde, o parâmetroC controla a relação entre a complexidade do algoritmo e o número de
amostras do conjunto de treinamento classificados incorretamente, sendo denominado de
parâmetro de penalização.
A minimização do primeiro termo da equação (2.28) está relacionada à minimização
da dimensão VC da SVM. O segundo termo pode ser visto como um limitante supe-
rior para o número de erros no padrão de treinamento apresentados à máquina. Logo, a
CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 15
equação (2.28) satisfaz os princípios de minimização do risco estrutural.
O problema de otimização em sua representação primal para encontrar o hiperplano
ótimo de separação para classes não linearmente separáveispode ser escrito como:
Minimizar: 12wT ·w+C∑N
i=1 ξi
Sujeito as restrições:
(1) di(wT ·xi +b)≥ 1−ξi , parai = 1, ...,N
(2) ξi ≥ 0,∀i = 1, ...,N
(2.29)
Utilizando o método dos multiplicadores de Lagrange, pode-se formular o problema
de otimização primal em seu correspondente problema dual demaneira similar à descrita
na seção 2.1.
Maximizar: ∑Ni=1 αi − 1
2 ∑Ni=1∑N
j=1 αiα jdid jxTi ·x j
Sujeito as restrições:
(1) ∑Ni=1diαi
(2) 0≤ αi ≤C parai = 1, ...,N
(2.30)
onde,C> 0 é especificado pelo usuário.
A principal diferença entre o caso de classes linearmente separáveis, seção 2.1, e o
caso de classes não linearmente separáveis é qua a restriçãoαi ≥ 0 é substituída por uma
mais forte 0≤ αi ≤C.
O vetor de pesos ótimoswo é calculado da mesma maneira do caso de classes linear-
mente separáveis, equação (2.21). O bias ótimob também segue um procedimento similar
ao descrito anteriormente, equação (2.22).
Existem casos também onde, é necessário mapear o espaço de entrada não linear para
um espaço de características. Para realizar esse mapeamento, as funçõeskernelou pro-
duto do núcleo interno são utilizadas e que serão apresentados a seguir.
2.2.2 FunçãoKernel
Existem muitos casos onde não é possível dividir satisfatoriamente os padrões do
conjunto de treinamento através de um hiperplano, mesmo observando as variáveis soltas.
Para a realização desta tarefa é feito um mapeamento no domínio do espaço de entrada do
conjunto de treinamento para um novo espaço, o espaço de características, usando uma
funçãokernelapropriada.
Um kernel ké uma função que recebe dois pontosxi e x j do espaço de entrada e
computa o produto escalarϕT(xi) ·ϕ(x j) no espaço de características.
O termoϕT(xi) ·ϕ(x j) representa o produto interno dos vetoresxi ex j , sendo okernel
CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 16
representado por:
k(xix j) = ϕT(xi) ·ϕ(x j) (2.31)
Adaptando a equação (2.21) envolvendo um espaço de características, pode ser rees-
crito como:
w =N
∑i, j=1
αidiϕT(xi) ·ϕ(x j) (2.32)
onde, o vetor de característicasϕ(xi) corresponde ao padrão de entradaxi no i-ésimo
exemplo.
Dessa forma, pode ser usado o produto internok(xi,x j) para construir um hiperplano
ótimo no espaço de características sem ter que considerar o próprio espaço de caracterís-
ticas de forma explícita, observe a equação (2.32) em (5.1):
N
∑i, j=1
αidik(xi ,x j) (2.33)
A utilização dekernelsestá na simplicidade de cálculos e na capacidade de representar
espaços muito abstratos.
As funçõesϕ devem pertencer a um domínio em que seja possível o cálculo depro-
dutos internos. No geral, utiliza-se oteorema de Mercerpara satisfazê-las. Segundo o
teorema, oskernelsdevem ser matrizes positivamente definidas, isto é,ki j = k(xi,x j),
para todoi, j = 1, ...,N, deve ter auto-vetores maiores que 0.
Alguns kernelsmais utilizados são: os polinomiais, os gaussianos ou RBF (Radial
Basis Function) e o sigmoidais.
Kernel Funçãok(xi,x j) ComentáriosPolinomial (xT
i ·x j +1)p p é especificadoa priori pelo usuário
RBF e(−1
2σ2‖xi−x j‖2) a largura deσ2 é especificadaa priori pelo usuárioSigmoidal tanh(β0xT
i ·x j +β1) teorema de Mercer satisfeito somente paraβ0 e β1
Tabela 2.1: Principaiskernelsutilizados nas SVMs
A obtenção de um classificador por meio do uso de SVMs envolve aescolha de uma
funçãokernelapropriada, além de parâmetros desta função e do algoritmo de determi-
nação do hiperplano ótimo. A escolha dokernele de seus parâmetros afetam o desem-
penho do classificador através da superfície de decisão.
CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 17
2.3 Considerações
Algumas considerações deste capítulo.
Para a SVM linear existem algumas particularidades:
• O problema dual é formulado somente com os padrões de treinamento.
• O hiperplano ótimo é definido somente pelos vetores de suporte, que são os padrões
mais significativos.
• Os vetores de suporte são os multiplicadores de Lagrange diferentes de zero para
α > 0.
• Os padrões de entrada que não são vetores de suporte não influenciam a definição
do hiperplano ótimo.
• Essa máquina oferece solução única e ótima, ao contrário de outras máquinas.
Algumas particularidades para o caso não linear:
• No caso de classes não linearmente separáveis a restriçãoαi ≤ 0 é substituída por
uma mais forte 0≤ αi ≤C.
• O vetor de pesos ótimoswo é calculado da mesma maneira do caso de classes
linearmente separáveis,wo = ∑Ni=1αoidixi .
• Para o caso onde é necessário mapear o espaço de entrada para um espaço de ca-
racterística é utilizado funções de núcleo interno, as funções kernel, que devem
satisfazer um teorema, chamado de teorema de Mercer.
Capítulo 3
Matemática Intervalar
A matemática intervalar, assim como a matemática “clássica”, é uma ciência que es-
tuda medidas, relações de quantidade e grandezas e possui diversos ramos, por exemplo,
a aritmética intervalar, que estuda as propriedades dos números intervalares (intervalos)
e suas operações. O histórico do desenvolvimento da matemática intervalar não é muito
recente, possuindo diversos estudos realizados a mais de cinco décadas atrás. Norbert
Wiener, considerado o “pai” da cibernética, em 1914, introduziu a análise de medida de
aproximações [Kreinovich et al. 1998]. Na década de 30, Young publicou um estudo
[Young 1931] em que dava regras para cálculos com intervalose outros conjuntos de
números reais. Outras publicações foram feitas nas décadasposteriores, mas foi com Ra-
mon E. Moore [Moore 1966], na década de 60, que a matemática intervalar ficou mais
difundida na computação, devido principalmente à sua abordagem de computação inter-
valar, e das técnicas para problemas computacionais.
Sistemas computacionais podem ser descritos como um conjunto finito de processos
que envolvem operações matemáticas para uma determinada função. O uso da matemática
intervalar em sistemas computacionais consiste em buscar soluções mais eficientes para
problemas computacionais, como a criação de modelos computacionais que reflitam de
forma fidedigna a realidade, e também a escolha de técnicas deprogramação adequadas
para desenvolvimento de softwares científicos a fim de minimizar erros do resultado.
A qualidade do resultado computacional está diretamente associada ao conhecimento
e controle do erro, que pode ocorrer no processo computacional. Esses erros são fre-
quentemente gerados pela, propagação dos mesmos nos dados eparâmetros iniciais, trun-
camento e/ou arredondamento da informação. A precisão do resultado consiste então
na estimativa e análise do erro, que geralmente é uma tarefa extensa, dispendiosa e nem
sempre viável. O uso da matemática intervalar na computaçãobusca garantir que no pro-
cessamento, o tratamento do erro se torne o menor possível e conhecido. O processo dos
métodos que fazem uso da computação intervalar, consiste namanipulação de dados ini-
CAPÍTULO 3. MATEMÁTICA INTERVALAR 19
ciais na forma de intervalos, computando-os, onde, cada intervalo contém um indicativo
máximo de erro, antes de ser introduzido na computação.
A seguir, serão abordado alguns conceitos fundamentais da aritmética intervalar en-
contrados na literatura em [Acióly 1991, Santos 2001, Hayes2003, Kreinovich et al. 1998,
Kulisch 1982, Kulisch & Miranker 1981, Lyra 2003, Moore 1966, Young 1931].
3.1 Representação de Intervalos
A motivação de pesquisas computacionais no desenvolvimento do campo intervalar
vem da impossibilidade de representar uma informação computacional igual à informação
original. Por exemplo, informações do tipo imagem, como discutida anteriomente, são
representadas por funções contínuas, e na discretização, existe uma perda de informações,
e a utilização intervalar possibilitará uma maior manipulação dos erros na aquisição da
imagem.
A noção de intervalos foi traçada inicialmente por Arquimedes quando estimou dois
valores paraπ, e que garantia que esseintervalocontinha o valor deπ.
A representação de intervalos no conjunto dos números reaisR é denotado pelo par
ordenado de números reaisX = [x1;x2] (ouX = [x,x]), tal quex1 ≤ x2, ex1 ex2 ∈ R, e se
R representa o conjunto de todos os números reais, então,X = x∈ R | x1 ≤ x≤ x2.
Considerem as descrições deste estudo as letras maiúsculascomo pontos do conjunto
de intervalos reais, por exemplo, seguindo a definição acima, a letraX representa o ponto
do conjunto dos intervalos de reais ex1 é denominado de ínfimo ex2 denominado de
supremo. O conjunto intervalar dos números reais será denotado comoIR.
A representação de um número real exato é dado comoX = [x1;x2], em que,x1 =
x2, ou seja, sejaX = 4, logo, 4= [4;4]. Este tipo de intervalo é chamado de intervalo
degenerado.
3.2 Operações Aritméticas Intervalares
SejamX = [x1;x2] e Y = [y1;y2], onde,X e Y ∈ IR. As operações aritméticas, tais
como,adição, subtração, multiplicaçãoe divisãoemIR são definidas sobre os extremos
de seus intervalos.
1. Adição Intervalar:
X+Y = [x1+y1;x2+y2]
CAPÍTULO 3. MATEMÁTICA INTERVALAR 20
2. Pseudo Inverso Aditivo Intervalar:
−X = [−x2;−x1]
3. Subtração Intervalar:
X−Y = [x1−y2;x2−y1]
4. Multiplicação Intervalar:
X ∗Y = [minx1y1;x2y1;x1y2;x2y2; maxx1y1;x2y1;x1y2;x2y2]5. Pseudo Inverso Multiplicativo Intervalar: 0/∈ X
X−1 = 1/X = [1/x2;1/x1]
6. Divisão Intervalar: 0/∈Y
X/Y = [minx1/y2;x2/y2;x1/y1;x2/y1; maxx1/y2;x2/y2;x1/y1;x2/y1]7. Quadrado Intervalar:
X2 =
[x21;x2
2], se 0≤ x1
[x22;x2
1], sex2 ≤ 0
[0,maxx21;x2
2], senão
3.3 Propriedades Algébricas Intervalares
SejamX, Y, Z ∈ IR. As propriedades algébricas para as operações anteriores são,
fechamento, comutativa, associativa, elemento neutro, subdistributiva, emonotônica.
1. Fechamento:
• SeX, Y ∈ IR, entãoX+Y ∈ IR
• SeX, Y ∈ IR, entãoX ∗Y ∈ IR
2. Comutativa:
• X+Y =Y+X
• X ∗Y =Y ∗X
3. Associativa:
• X+(Y+Z) = (X+Y)+Z
• X ∗ (Y ∗Z) = (X ∗Y)∗Z
4. Elemento Neutro:
• X+[0;0] = [0;0]+X = X
• X ∗ [1;1] = [1;1]∗X = X
5. Subdistributiva:
X ∗ (Y+Z)⊆ (X ∗Y)+(X ∗Z)
CAPÍTULO 3. MATEMÁTICA INTERVALAR 21
6. Inclusão Monotônica:
SejamX, Y, Z eW ∈ IR, tais que,X ⊆ Z eY ⊆W.
• X+Y ⊆ Z+W
• −X ⊆−Z
• X−Y ⊆ Z−W
• X ∗Y ⊆ Z∗W.
• 1/X ⊆ 1/Z, se 06∈ Z
• X/Y ⊆ Z/W, se 06∈W
3.4 Ordem Intervalar
Na literatura encontramos diversas formas de definição de ordens (parciais) para in-
tervalos. As mais conhecidas são, ordem de Moore [Moore 1966], ordem de Kulisch &
Miranker [Kulisch & Miranker 1981], ordem da Informação [Acióly 1991] e ordem da
Teoria dos Conjuntos.
ParaX,Y ∈ IR, tem-se que:
1. Ordem de Moore:X <Y = [x1;x2]< [y1;y2]⇔ x2 < y1
2. Ordem de Kulisch-Miranker:X ≤Y = [x1;x2]≤ [y1;y2]⇔ x1 ≤ y1 ex2 ≤ y2
3. Ordem da Teoria dos Conjuntos:X <Y = [x1;x2] ≤ [y1;y2]⇔ [x1;x2]⊆ [y1;y2]⇔y1 ≤ x1 ex2 ≤ y2. Logo [x1;x2]≤ [y1;y2].
4. Ordem da Informação:X ≤ Y = [x1;x2] ≤ [y1;y2] ⇔ [y1;y2] ⊆ [x1;x2] ⇔ x1 ≤y1 ey2 ≤ x2. Logo,[x1;x2]≤ [y1;y2].
3.5 Função Intervalar
SejamF : IR→ IR e f :R→R. Dizemos queF representaf ou quef é representado
porF , denotado porf ⊆ F, se:
∀X ∈ IR,∀x∈ X temos quef (x) ∈ F(X)
A extensão dessa definição de função paraX ⊂ IRm eY⊂ IR
n é feita de forma natural.
3.5.1 Metrica intervalar em IRn
A definição de distância entre dois pontos é formalizado utilizando o conceito de
espaço métrico e onde existe uma distância ou conjunto métrica é chamado um espaço
CAPÍTULO 3. MATEMÁTICA INTERVALAR 22
métrico. A distância mais utilizada é a distância Euclidiana. Para o caso intervalar, pode
ser visto como subconjunto deR2 suas métricas naturais seguindo:
Definição 1 (Metrica de Moore) [Moore 1979] Seja DM : IRn×IRn→R, definido, para
cadaX = (X1, . . . ,Xn),Y = (Y1, . . . ,Yn) ∈ IRn como:
DM(X,Y) =
√
n
∑i=1
max((Xi −Yi)2,(Xi −Yi)2).
Paran = 1, DM(X,Y) = max(|X −Y|, |X −Y|). Como cada métrica, esta definição
determina a noção de continuidade para funções intervalares [Acióly & Bedregal 1997].
Essa métrica não é estritamente intervalar, ou seja, a distância entre dois intervalos
não é um intervalo, mas um número real, o que não parecem ser natural quando visto
intervalos como representação de um número desconhecido real. Por exemplo, se só
sabermos que um objeto A está em uma cidade C e uma pessoa B estáem uma cidade D,
mas não saber a sua posição exata nas cidades, não é realista que nós podemos fornecer a
real distância entre A e B, mas apenas um intervalo. Isto motivou [Trindade et al. 2008]
introduzir a noção de métricas intervalares e, particularmente, métrica intervalar para
IR, chamado de distância essencialmente intervalar, que não perde as características da
métrica Euclidiana quando se trata de números reais ou intervalos degenerados. Este
trabalho usará essa extensão intervalar de distância paraIRn.
A distância essencialmente intervalar é uma funçãoDTB : IRn× IRn → IR definido
por
DTB(X,Y) = [mind(x,y) | x ∈ X andy ∈ Y,maxd(x,y) | x ∈ X andy ∈ Y]1
Definição 2 (Norma vetorial intervalar) Seja a norma de um número real a distância
entre o ponto e a origem, a norma para um intervalo2, X ∈ IR é definido por
‖ X ‖=
[X,X], if X > 0
[| X |, | X |], if X < 0
[0,max| X |, | X |], senão
A definição geral da norma intervalar baseada na distância essencialmente intervalar
é
1A distância d : Rn × Rn → R é a distância Euclidiana, i.e.d(x,y) =
√
n∑
i=1‖ xi − yi ‖, ∀x =
(x1, . . . ,xn),y = (y1, . . . ,yn) ∈ Rn.
2Note que essa definição de norma intervalar é diferente da definição usual de norma intervalar, eg.: anorma intervalar de Moore [Moore 1979].
CAPÍTULO 3. MATEMÁTICA INTERVALAR 23
‖ X ‖=√
DTB(X1, [0,0])2+ ...+DTB(Xn, [0,0])2
=√
‖ X1 ‖2 +...+ ‖ Xn ‖2
3.5.2 Integral Interval
Definição 3 (Integral Interval) Seja F: R→ IR uma função intervalar contínua e X∈IR. Para integral intervalar F limitado em[X,X] é definido [Moore 1966, Moore 1979,
Moore et al. 2009] ∫ X
XF(t)dt = [
∫ X
XF(t)dt,
∫ X
XF(t)dt]
onde, F(t) = F(t) eF = F(t).
3.6 R-vetoide e espaço R-vetoide intervalar
Uma vez que, operação aritmética intervalar não é um campo, então também não é um
espaço vetorial. A fim de considerar as propriedades do espaço vectorial para intervalos,
essa definição será relaxada.
Definição 4 (R-Vetoide) [Kulisch 2008] SejaR = (R,+,∗) um aneloide com0 e1 como
elementos identidade aditivo e multiplicativo, respectivamente,V = (V,⊕) um grupoide
e · : R×V →V. Então(R ,V , ·) é um espaço R-vetoide se satisfaz as seguintes condições:
1. Comutatividade de soma vetorial:X ⊕Y = Y ⊕X;
2. Vetor identidade:X ⊕0= X;
3. α ·0= 0 e0 ·X = 0;
4. 1 ·X = X;
5. −(X ⊕Y) = (−X)⊕ (−Y);
6. −(α ·X) = (−α) ·X = α · (−X).
onde−α =−1∗α e−1 é o único elemento em R tal que(−1)∗ (−1) = 1.
Elementos deV são chamados de vetoides e elementos deR são chamados de es-
calares. Neste trabalho, vetores são distinguidos dos escalares pelo negrito.
Note que todo espaço vetorial em um espaçoR é um R-vetoide.
Definição 5 (Matriz Interval) [Moore et al. 2009] Uma matrixX de ordem m×n é uma
matriz intervalar se cada elemento da matriz for um intervalo. O intervalo na linha i e
coluna j é denotado por Xi, j . Um vetor intervalar é uma matriz intervalar de dimensão
m×1. Será adotado a notaçãoMIRm,n para o conjnto de matrizes intervalares de ordem
m por n.
CAPÍTULO 3. MATEMÁTICA INTERVALAR 24
As operações aritméticas entre matrizes intervalares e intervalos com matrizes inter-
valares são como o caso real, mas considerando a aritmética intervalar. Será considerado
o mesmo símbolo para operadores similares emIR eMIRm,n, i.e. em vez de⊕ também
será usado+ e em vez de∗ também será usado·. Na adição, considere a seguinte exten-
são de subconjunto relacionado com intervalos: sejaX,Y ∈MIRm,n, X ⊆ Y seXi, j ⊆Yi, j
para algumi = 1, . . . ,me j = 1, . . . ,n.
Definição 6 Um espaço R-vetoide(R ,V , ·) é um espaço intervalar R-vetoide quando
R= IR e V=MIRm,n para alguns m,n∈ N.
Proposição 3.6.1[Kulisch 2008] Seja m,n≥ 1, IR = (IR,+, ·) o aneloide de intervalos
eMIR = (MIRm,n,+) o grupoide de matrizes intervalares de ordem m por n. Então
(IR ,MIR , ·), onde· : IR×MIRm,n → MIRm,n é um espaço R-vetoide intervalar. Na
adição esse espaço R-vetoide intervalar também satisfaz a seguinte propriedades:
1. Distributividade de adição por um escalar:(α+β) ·X ⊆ α ·X ⊕β ·X;
2. Distributividade de soma vetorial:α · (X ⊕Y)⊆ α ·X ⊕α ·Y;
3.6.1 Produto interno intervalar
Definição 7 (Produtoide interno) Seja(R ,V , ·) um R-vetoide. Um mapeamento〈·, ·〉 :
V ×V → R é um produtoide interno se para cadaX,Y ∈ V, satisfazer as seguintes pro-
priedades:
1. Comutatividade:〈X,Y〉= 〈Y,X〉.2. Homogeneidade:〈α ·X,Y〉= α · (X,Y)
3. Positividade:〈X,X〉 ≥ 0 and〈X,X〉= 0 iff X = 0.
Um espaço R-vectoide juntamente com um produtoide interno échamado um espaço
interno produtoide.
Proposição 3.6.2Seja (IR ,MIR m,n, ·) um espaço R-vetoide intervalar e uma apli-
cação intervalar (função intervalar)〈·, ·〉 : MIRm,n×MIRm,n → R definido por
〈X,Y〉=n
∑i=1
m
∑j=1
Xi, j ·Yi, j (3.1)
Então (IR ,MIR m,n, ·,〈·, ·〉) é um espaço produtoide intervalar. Este espaço interno
produtoide também satisfaz a propriedade de subdistributividade, i.e. para cadaX,Y,Z ∈MIRm,n, 〈X +Y,Z〉 ⊆ 〈X,Z〉+ 〈Y,Z〉.
CAPÍTULO 3. MATEMÁTICA INTERVALAR 25
3.6.2 Autovetoide intervalar
Definição 8 (Autovetoide intervalar) Seja uma matriz intervalar quadraticaA de or-
dem M∈ R, um autovetoide é definido por:
Au i = λiui (3.2)
para i= 1, · · · ,M, onde,ui é chamado de autovetoide eλi é chamado de autovalor inter-
valar.
Capítulo 4
Otimização usando Análise Intervalar
Este capítulo apresenta conceitos sobre a teoria de otimização utilizado para encontrar
o hiperplano ótimo de separação de classes através da SVM. Asconceituações sobre o
problema de otimização "clássico"foram extraídas de [Bazaraa et al. 1993, Haykin 2001,
Lorena & Carvalho 2003, Luenberger 1984] e para o problema deotimização usando
análise intervalar foram extraídas de [Bliek et al. 2001, Hanses & Walster 1992, Kearfott
1996].
Será apresentado nas seções seguintes otimização de funçãocom restrições, no con-
texto "clássico"e intervalar, onde, restrição intervalaré uma tecnologia alternativa de-
senvolvida para conjuntos contínuos, geralmente não lineares, associados com restrições
sobre números reais. O termo restrição intervalar (interval constraints) é frequentemente
associado com a propagação e técnicas de buscas desenvolvidas em inteligência artificial
e métodos para análise intervalar [Bliek et al. 2001].
4.1 Otimização Linear
Para o problema de otimização considere:
Minimizar: f (x) , x∈ Ω ⊆ Rn
Sujeito a: gi(x)≤ 0 , i = 1, ..., k
h j(x)≤ 0 , j = 1, ..., m
(4.1)
onde, f : Ω ⊆ Rn → R é a função objetivo,gi : Ω ⊆ R
n → R e h j : Ω ⊆ Rn → R são
utilizados para definir as restrições funcionais.
A solução do problema (4.1) é denotado por:
F = x∈ Ω : gi(x)≤ 0;h j(x) = 0
CAPÍTULO 4. OTIMIZAÇÃO USANDO ANÁLISE INTERVALAR 27
A solução do problema de otimização será o pontox∗ ∈ F tal que não exista outro
pontox∈ F com f (x) < f ∗(x), denominado de mínimo global.
Um problema de otimização onde a função objetivo é quadrática e as restrições line-
ares, é denominado de problema de otimização quadrático, ouse a função objetivo for
convexo e as restrições também, é denominado de problema de otimização convexo. O
caso do problema de otimização do treinamento da SVM, a função objetivo é convexa e
quadrática e as restrições lineares, sendo um problema de otimização convexo quadrático.
Para encontrar a solução para este tipo de problema utiliza-se a função de Lagrange,
para restrições de igualdade e a condição de Kuhn Tucker pararestrições de desigualdades
[Hanses & Walster 1992, Haykin 2001, Martinez & Santos 1995,Semolini 2002].
4.1.1 Funcional de Lagrange
Em problemas com restrições é necessário construir uma função que englobe a função
objetivo juntamente com as restrições e que sua estacionalidade defina a solução. O fun-
cional de Lagrange pode resolver este problema definindo como uma combinação linear
a função objetivo e cada uma das restrições associando ao multiplicadores de Lagrange.
L(x,α) = f (x)+m
∑j=1
αihi(x) (4.2)
onde,αi são os multiplicadores de Lagrange.
SeL(x,α) for uma função convexa emx, a condição necessária para que o pontox∗
seja mínimo def (w) , sujeito a restriçãoh j é igualando o gradiente daL em relação ax e
a α:∂L(x∗,α∗)
∂x = 0∂L(x∗,α∗)
∂α = 0(4.3)
Uma forma mais geral do problema de otimização que satisfaz tanto restrições de
igualdades quanto de desigualdades pode ser generalizada da definição para otimização
com restrições de igualdades, dado por:
L(x,α,β) = f (x)+k
∑i=1
αigi(x)+m
∑j=1
βihi(x) (4.4)
onde,αi são os multiplicadores de Lagrange.
CAPÍTULO 4. OTIMIZAÇÃO USANDO ANÁLISE INTERVALAR 28
4.1.2 Condições de Kuhn-Tucker
Dado o problema de otimização pela equação (4.1) com domínioconvexo, a solução
necessária para o pontox∗ ser ótimo é a existência deα∗ e β∗ que satisfaz:
∂L(x∗,α∗,β∗)∂x = 0
∂L(x∗,α∗,β∗)∂β = 0
α∗i gi(x∗) = 0, i = 1, ...,k
gi(x∗)≤ 0, i = 1, ...,k
α∗ ≥ 0, i = 1, ...,k
(4.5)
O tratamento do funcional de Lagrange para problema de otimização convexo fornece
a um problema de dual que diversas vezes é mais simples de ser resolvida do que o
problema primal [Martinez & Santos 1995].
4.2 Otimização Linear usando Computação Intervalar
Muitos autores tem considerado a computação intervalar para resolver problemas
de otimização linear, aplicando métodos intervalares com métodos de programação li-
near para encontrar uma solução ótima do problema de otimização ou a partir de uma
solução aproximada obtem-se um vetor que contém a solução exata, para mais detalhes
ver [Moore 1979].
DadoA sendo uma matrizm×n comm< n, de coeficientes intervalares. DadoB e
P sendo vetores intervalares dem e n dimensão, respectivamente. O objetivo é encontrar
um vetor intervalarZ que contenha o conjunto de soluções do problema de otimização
linear, para cadab∈ B, p∈ P, Ar ∈ A.
Por conveniência, será denominado, neste estudo, otimização intervalar, a otimização
que fizer uso de conceito da análise intervalar.
Para o problema de otimização intervalar considere:
Maximizar: Q(x) = (p,x)
Sujeito a: Arx= b ouArx≦ b
0≦ x
(4.6)
onde,(p,x) é o produto interno de um vetor realp ex, b é um vetor real eAr é uma matriz
intervalar.
Suponha quez∗ seja uma solução aproximada de (4.6) parap∗ ∈ P, b∗ ∈ B e A∗r ∈ A
CAPÍTULO 4. OTIMIZAÇÃO USANDO ANÁLISE INTERVALAR 29
obtidos usando um método de otimização. DadoS sendo o conjunto de índice de todas
variáveis bases da solução aproximadaz∗. Para a condição ser suficientemente com-
putável do conjunto de todas as soluções de (4.6) tem um mesmabase comz∗. Denotado
por x′ o vetor dem dimensão consistindo de componentes bases de um vetorx de n di-
mensão. Assim,x′ = (xi1, ...,xim ondeS= i1, ..., im. Similarmente, denotado porx′′
um vetor den−m dimensão consistindo de todos os componentes não bases dex. Seja
A′r uma matrizm×m consistindo de colunas bases deAr e A′′ uma matriz(n−m)×m
consistindo de colunas não bases deAr e assim por diante.
Suponha quez∗ é a solução deA′rz′ = b′ para algumA′
r ∈ A′, b′ ∈ B′, assume-se que
todoA′r ∈ A′, são não singular. DadoZ′ sendo o conjunto de todas soluçõesz′ para todo
A′r ∈ A′, b′ ∈ B′. Assim, z′∗ é uma solução aproximada deA′
rz′ = b′. DadoY sendo a
aproximação da inversa da matrizA′∗r que é usado na computação dez8.
Logo, o conjunto de soluções de um problema linear da equação(4.6) para todob∈B,
p∈ P, Ar ∈ A é contido no vetor intervalarZ computado através de:
Z′i = z∗i +q[−1,1], para componentes bases de Z
Z′′ = 0, para componentes não bases de Z(4.7)
onde,q=‖Y ‖‖ A′z∗−B ‖)/(1−R).
Se w(A) e w(B) são pequenos, o limite deZ pode ser refinado. Para encontrar o
vetor intervalar mais estreito do conjunto de soluções paraa equação (4.6) computa, para
k= 1, ...2:
Zk+1 = Zk∩YB+(I −YA′)Zk (4.8)
A equação (4.8) na sequencia de iterações contem no vetor intervalar os componentes
bases da solução de (4.6).
Para determinar se o conjunto de todas as soluções tem uma mesma base comoz∗, é
testadoZ′ ≧ 0 e denota a transposta das matrizesA′ eA′′ porA′T e A′′T , respectivamente.
SejaP′ e P′′ sendo componentes bases e componentes não bases, respectivamente, do
vetor de coeficientes da função objetivo, o vetor intervalarV é encontrado e contem o
conjunto de soluções deA′Tr v= p′ para todoA′
r ∈ A′ e todop′ ∈ P′. CasoA′′TV −P′′ ≧ 0,
então o conjunto de soluções tem uma mesma basez∗.
Para o valor máximo deQ(x), possuiQ(z) ∈ (P,Z).
4.2.1 Otimização com restrições
Para o problema de otimização com restrições é considerado:
CAPÍTULO 4. OTIMIZAÇÃO USANDO ANÁLISE INTERVALAR 30
Minimar: f (x)
Sujeito a: pi(x)≤ 0(i = 1, ...,m)
qi(x) = 0(1= 1, ..., r)
(4.9)
onde, f (x) é diferenciável e as funções de restriçõespi(x) e qi(x) são continuamente
diferenciáveis.
Assumindo um intervalo inicialX o objetivo é encontrar um mínimo def (x) ∈ X
sujeito as restrições.
4.2.2 Condições de John
Para resolução do problema de otimização com restrições é utilizado a condição de
John:u0 f (x)+∑m
i=1uip(x)+∑ri=1viq(x) = 0
ui pi(x) = 0
qi(x) = 0
ui ≥ 0
(4.10)
onde,u ev são multiplicadores de Lagrange.
Para a resolução do problema de otimização pode ser considerado o uso do método de
Newton, onde,ui ≥ 0 e os vetoresx, u ev da condição de John são escritos em termos do
vetort.Rk(t)
u0 f (x)+∑mi=1uip(x)+∑r
i=1viq(x)
ui pi(x)
qi(x)
(4.11)
Capítulo 5
Kernel Intervalar
Os métodos kernels têm sido considerado um poderoso atalho computacional em
aprendizado de máquinas devido ao desempenho, generalização e adaptação em resolver
problemas diversos [Abe 2005, Bishop 2006, Hofmann et al. 2008]. Uma vasta variedade
de algoritmos em aprendizagem de máquina fazem uso desses métodos, tais como, em
máquinas de vetores suporte, redes neurais, algoritmos de agrupamentos, análise de com-
ponentes principais, entre outros.
Uma característica marcante dos métodos de aprendizagem demáquina que utilizam
kernel é formular um problema em um novo espaço. A SVM, visto para classificação
de padrões, é uma máquina linear cujo objetivo é encontrar umhiperplano que separe as
classes distintas da melhor forma possível. Uma característica que torna a SVM para uso
geral é tratar da dimensionalidade do espaço de entrada, mapeando o conjunto de entrada
por meio de uma função que projeta uma imagem linear em um novoespaço. Em outras
palavras, o espaço de entrada de um problema não linear é mapeado através da função
kernel para um outro espaço, o espaço de características, dado pela relação:
k(x,x′) = 〈φ(x) ·φ(x′)〉 (5.1)
Neste capítulo foi desenvolvido uma extensão intervalar dekernels, de modo que,
definindo as funções intervalares que mapeiam o espaço de entrada e as funções kernels
intervalares, o espaço de características é encontrado implicitamente.
Considere um conjunto de treinamento(X1,Y1), . . . ,(XN,YN) ⊆ (X×Y)N, onde,
o i-ésimo exemploX i ∈ X ⊆ IRn de um espaçon-dimensional pertence a um rótulo ou
classeY = [−1,−1], [+1,+1] (classificação binária), para todoi = 1, . . . ,N e N ∈ N.
Assim como no caso usual, encontrar um kernel que representeo espaço de entrada é
menos complexo do que definir funções que mapeiam o espaço de entrada para o espaço
de características. Dessa forma, algumas propriedades foram estendidas para a abordagem
intervalar de modo que asseguram que uma função kernel intervalar é um kernel intervalar
CAPÍTULO 5. KERNEL INTERVALAR 32
para algum espaço de características.
O espaço de características é definido, em aprendizagem de máquina, pela mudança de
representação dos dados do conjunto de entrada. Seja uma função intervalarφi : X→ IR
que mapeia cadaX ∈X paraφi(X), para todoi = 1, . . . ,mem∈N, é chamado de caracte-
rísticas, e combinandoN característicasΦ1, ...,Φl resulta no mapeamento de característi-
casΦ : X→ F, ondeF é o espaço de características.
Definição 9 (Função kernel intevalar) Um kernel intervalar é uma funçãoK : X×X→IR, tal que,∀ X, Z ∈ X,
K(X,Z) = 〈Φ(X) ·Φ(Z)〉 (5.2)
onde,Φ mapeia o espaço de entradaX para um espaço de característicasF usando
produto interno.
Definição 10 Seja k uma função kernel real e K: X×X → IR. K é uma representação
intervalar de k se para todoX,X′ ∈ X, x ∈ X e x′ ∈ X′, temos que k(x,x′) ∈ K(X,X′).
Proposição 5.0.1Seja K: X×X→ IR uma função intervalar. Se existir funções kernels
K : X×X→ R, K : X×X→ R, tais que, para todoX,X′ ∈ X e x ∈ X, x′ ∈ X′, tem-se
que K(X,X′) = [K,K] então K é uma função kernel intervalar.
Proposição 5.0.2SejaX ⊆ IRl um conjunto finito de entradas e K: X×X → IR uma
função comutativa emX. K é uma função kernel intervalar se, e somente se, a matriz
K = K(X i,X′j), com i, j = 1, ...,N, for semi-definida positiva.
O problema de otimização dual da SVM permite a substituição do conjunto de entrada
através dotruque kernel, que possui como vantagem a não necessidade de encontrar a
função que mapeia o espaço de entrada para um espaço de características.
Definição 11 (Matriz Kernel) SejaK uma matriz kernel com entradas intervalaresX1, . . . ,XN ∈X, X i ∈ IR
n,
K = (K(X i,X′j))
Ni, j=1 (5.3)
é a matriz kernel (ou matriz Gram) com coeficientes intervalares.
Definição 12 (Matriz definida positiva) SejaK uma matriz kernel simétrica,
N
∑i, j
CiCjK i j ≥ 0 (5.4)
é definido a matriz definida positiva, para todo Ci ∈ IR.
CAPÍTULO 5. KERNEL INTERVALAR 33
Definição 13 (Kernel definido positivo) SejaX um conjunto não vazio, a função kernel
K : X×X → IR para X i ∈ X define a matriz Gram definida positiva é ligado a função
kernel definida positiva.
5.1 Mapeamento Função Kernel Intervalar
Uma função kernel intervalar consiste em mapear um espaço deentrada não-linearmente
separável por um hiperplano intervalar em um espaço de características separável por um
hiperplano intervalar.
SejaΦ : X→ F uma função que mapeia um espaço de entrada intervalarX ∈ X para
um espaço de características de alta dimensão,
Φ : X→ F,
X i 7→ Φ(X i)(5.5)
onde,X i = (X1, ...,Xn), X i ∈ IRn e Φ(X i) = (φ1(X i), ...,φm(X i)), Φ(X i) ∈ IR
m.
Para o problema de aprendizado da SVM, o mapeamento do espaçode entrada, con-
junto de entradaX = X|X i ∈ IRn, para um espaço de características é equivalente a
F = Φ(X)|X ∈ X. Uma característica importante dessa máquina está no mapeamento
do espaço de entrada não-linear no espaço de características sem explicitar as funções que
farão esse mapeamento.
Um kernel intervalarK representa o produto interno intervalar de dois vetores in-
tervalares induzidos no espaço de características pelo vetor intervalar de entradaX e o
padrão intervalar representado no problema dual, e um intercepto intervalarB∈ IR
N
∑i=1
αiDi(< Φ(X i) ·Φ(X)>+B)≥ [1,1]
Um kernel intervalarK é uma função intervalar, tal que:
K(X1,X2) =< Φ(X1) ·Φ(X2)>
K : IRn× IRn → IR
K : X×X→ IRN×N
(5.6)
onde,X1, X2 ∈ X, e Φ ∈ F mapeiaX com o produto interno para um espaço de caracte-
rísticasF, definindo a matriz intervalar kernelK de elementos do espaço de entradaX
através da função intervalar kernelΦ para um espaço de característicasF.
CAPÍTULO 5. KERNEL INTERVALAR 34
5.2 Construção de Kernel Intervalar
Funçõeskernelsintervalares são casos especiais do produto interno intervalar.
Definição 14 (Kernel Intervalar) Umkernelintervalar é uma função kernel intervalar K,
tal que, para todoX,Z ∈ X
K(X,Z) = 〈Φ(X),Φ(Z)〉=m
∑j=1
Φ j(X)Φ j(Z)
onde,Φ é uma função que mapeiaX ∈X para um espaço de características intervalar
Φ(X) ∈ F.
As condições para uma função kernel intervalar representaruma função intervalar que
mapeia o espaço de entrada (original) para um espaço de características intervalar são:
1. Simetria:K(X,Z) = K(Z,X),∀X,Z ∈ X
2. Desigualdade Cauchy-Schwarz:
K(X,Z)2 = 〈Φ(X),Φ(Z)〉2 ≤‖ Φ(X) ‖2‖ Φ(Z) ‖2,∀X,Z ∈ X e Φ ∈ F
3. Positividade: extensão intervalar do teorema de Mercer
O teorema de Mercer caracteriza uma funçãok(x,z) como umkernel, pois demon-
stra que sek é umkernelcontínuo de uma transformada (operador) integral positivaen-
tão pode ser construído um mapeamentoΦ num espaço de características ondek atua
como produto interno, ou seja, sek é positivo definido então existe um mapaΦ onde
k(x,z) = 〈Φ(x),Φ(z)〉. Neste contexto, o kernel intervalar deve satisfazer a extensão in-
tervalar do Teorema de Mercer. OkernelintervalarK é positivo definido se possui todos
os autovalores intervalares não negativos.
Teorema 5.2.1 (Extensão Intervalar do Teorema de Mercer) Seja K(X,Z) um kernel in-
tervalar simétrico e contínuo, definido no intervalo fechado [a,b]× [a,b], paraX,Z ∈ X.
O kernel intervalar pode ser expandido na série
K(X,Z) =∞
∑i=1
λiΦi(X)Φi(Z)
onde,λi ∈ IR são auto-valores intervalares para todo i eΦi(·) são auto-funções in-
tervalares, resultando na expressão:
∫ b
aK(X,Z)Φ(Z)dZ = λΦ(X)
CAPÍTULO 5. KERNEL INTERVALAR 35
da extensão intervalar do operador integral (análise funcional) definido pelokernel
intervalar K(X,Z). Para garantir que okernel intervalar K(X,Z) defina o produto in-
terno 〈Φ(X),Φ(Z)〉 em um espaço de características intervalar todos os auto-valores
intervalaresλi da série expandida são positivos, e para esta expansão ser válida e para
convergir absoluta e uniformemente é necessário e suficiente que
∫ b
a
∫ b
aK(X,Z)ψ(X)ψ(Z)dXdZ ≥ [0,0]
seja válida para todoψ(·) para o qual
∫ b
aΨ(X)2dX < ∞
Prova:
Considerando a integral da análise funcional para o caso finito e fechado
∫ b
aK(X,Z)Φ(Z)dZ = λΦ(X)
e considerando a generalização do produto interno
〈Φ(X),Φ(Z)〉=∞
∑i=1
λiΦi(X)Φi(Z) = K(X,Z)
o teorema de Mercer fornece uma condição suficiente para queK seja simétrica
K(X,Z) =∞
∑i=1
λiΦi(X)Φi(Z)
onde,λi são intervalos não negativos, eK é equivalente a um produto interno no
espaço de características considerando o conjunto de funções emX de um espaço nor-
malizado, logo,
‖ Ψ ‖=∫ b
aΨ(X)2dX < [∞,∞]
Proposição 5.2.2SejaX = (X1, · · · ,Xp) o espaço intervalar (original) e K uma função
comutativa emX. Se a matriz intervalar
K = K(X i,X j), i, j = 1, · · · , p
for simétrica, então existe uma matriz intervalarV, tal que,K = VV t , ouK =VΛVt ,
onde,Λ é uma matriz intervalar diagonal contendo auto-valores intervalaresλt de K ,
CAPÍTULO 5. KERNEL INTERVALAR 36
com correspondentes auto-vetores intervalaresVt =Vti, i = 1, · · · , p deV. Sendo os auto-
vetores intervalares não negativos e considerando o mapeamento de características
Φ : X i →√
λtVti ∈ IRp, i = 1, · · · , p
então
〈Φ(X i),Φ(X j)〉=p
∑t=1
λtVtiVt j =VΛVt = K
onde, a função intervalarkernelK(X,Z) corresponde ao espaço de características
intervalarΦ.
5.2.1 Fazendo Kernels de kernels
A construção de uma função sendo um kernel válido geralmentenão é trivial, e o
teorema de Mercer somente garante a validade de uma função qualquer ser umkernelnão
a construção da mesma. Uma forma de construir kernels válidos é utilizando algumas
propriedades que constroem kernels à partir de kernels válidos. Tal forma de construção
de kernels válidos na forma clássica será estendida para kernels intervalares.
A construção de kernels intervalares é uma extensão da construção de kernels respei-
tando o teorema de Mercer. A construção de um kernel intervalar válido é definido através
da positividade, extraído da construção clássica, onde, umkernel intervalar é uma matriz
intervalar simétrica semi-positiva definida.
Proposição 5.2.3Sejam K1 e K2 kernels intervalares sobreX×X⊆ IRn, α∈ IR é um in-
tervalo real, e∀α > [0,0], F(·) é uma função intervalar emX, então as seguintes funções
kernelssãokernelsintervalares
1. K(X,Z) = K1(X,Z)+K2(X,Z)
2. K(X,Z) = αK1(X,Z)
3. K(X,Z) = K1(X,Z)K2(X,Z)
4. K(X,Z) = exp(K1(X,Z))
5. K(X,Z) = X′BZ
Demonstrações:
1. SejamK1 e K2 matrizes intervalares simétricas, entãoK é semi-positiva definida
se e somente se para algum vetor intervalarY 6= [0,0]
CAPÍTULO 5. KERNEL INTERVALAR 37
YtKY ≥ [0,0]
tem-se
Yt(K1+K2)Y ⊆ YtK1Y +YtK2Y ≥ [0,0]
logo,K1+K2 é semi-positiva definida, entãoK é uma funçãokernelintervalar.
2. Da mesma forma da demonstração anterior,
Yt(αK1)Y = αYtK1Y ≥ [0,0]
K é uma funçãokernelintervalar.
3. SejaK = K1K2 o produto tensor de duas matrizes intervalares, seK1 e K2 são
semi-positivas definidas e os auto-valores intervalares doproduto for os pares dos
auto-valores deK1 e K2, então o produtoK será semi-positivo definido.
4. A função exponencial pode ser aproximada por polinômios positivos, sendo fechada
por limites dokernelintervalar, logo,K é umkernelintervalar.
5. SejaB = VtΛV uma matriz intervalar ortogonal aV, onde,Λ é uma matriz inter-
valar diagonal contendo os auto-valores não negativos. Sendo√
Λ a matriz inter-
valar diagonal de auto-valores eA =√
ΛV, então
K(X,Z) = XtBZ = XtVtΛVZ = XtAtAZ = 〈AX ,AZ〉
é umkernelintervalar mapeando pela matrizA.
5.3 Alguns Kernels Intervalares
Alguns kernels de produto interno são encontrados na literatura, dentre eles:
Linear: K(X,X i) =< X ·X i >, i = 1, ...,N.
Polinomial:K(X,X i) = (< X ·X i >+1)2, i = 1, ...,N.
Gaussiano:K(X,X i) = e−1
2σ‖X−X i‖2, i = 1, ...,N.
5.3.1 Extensão Intervalar doKernel Gaussiano
Um kernel muito aplicado para problemas de natureza não linear é okernelgaussiano,
e devido sua grande aplicabilidade essekernelfoi estendido para a abordagem intervalar.
CAPÍTULO 5. KERNEL INTERVALAR 38
A construção do kernel intervalar gaussiano se dá na utilização da distância intervalar
[Trindade et al. 2008] de modo que a norma:
‖ X−Z ‖2⊆ 〈X,X〉+ 〈Z,Z〉− [2,2]〈X,Z〉
para okernelintervalar do tipo
K(X,Z) = exp−‖X−Z‖2
σ2
Dado pelas propriedades (4) e (3), okernelintervalar gaussiano é dado por
K(X,Z) = exp(− 〈X,X〉
[2,2]σ2 )exp(− 〈Z,Z〉
[2,2]σ2 )exp(〈X,Z〉
σ2 )
sendo umkernelintervalar válido.
5.3.2 Extensão intervalar doKernel Polinomial
K(X,X i) = ([1,1]+XTX i)p
onde,p= 2, X = (X1,X2) eX i = (Xi1,Xi2)
K(X,X i) = ([1,1]+XTX i)2
= ([1,1]+V)2
= ([1+V,1+V])2
= [(1+V)2,(1+V)2]
=
[(1+V)2,(1+V)2] seV ≥ 0
[(1+V)2,(1+V)2] seV < 0
[0,((1+V)2,(1+V)2)] caso contrário
Capítulo 6
Máquina de Vetores-Suporte Intervalar
As máquinas de vetor de suporte tem atraído muita atenção nosúltimos anos devido
a sua eficiência para técnicas de reconhecimento de padrões ou aplicações que requerem
aprendizado de máquina. Este capítulo desenvolve uma nova abordagem para SVM, uti-
lizando SVM associado com a teoria intervalar, as máquinas de vetor de suporte inter-
valares.
A eficiência das SVM no aprendizado de máquinas tem levado ao desenvolvimento
de muitas pesquisas e aplicações associadas, porém, em alguns casos nem sempre é fácil
classificar com precisão um determinado padrão entre duas oumais classes, para reconhe-
cimento de padrões, e uma vez que, para encontrar o hiperplano de separação ótimo está
relacionado diretamento aos dados de entrada aos vetores desuporte, então a teoria inter-
valar é proposta para casos onde os padrões de entrada não possuem características que
modelem com precisão alguma classe. O objetivo proposto para a abordagem da SVMI,
máquina de vetor de suporte intervalar, é controlar as informações de padrões de entrada
para encontrar vetores-suporte de um hiperplano de separação ótimo quando houver da-
dos incertos ou imprecisos contidos no conjunto de treinamento, e obter um controle nos
erros computacionais durante o treinamento da máquina.
6.1 Máquina de Vetores-Suporte Intervalares Linearmente
Separáveis
Máquina de vetores-suporte é uma técnica de reconhecimentode padrões, como men-
cionado no capítulo 2, que é baseada na teoria do aprendizadoestatístico e tem sido uti-
lizada em diversas aplicações. A tarefa de classificar padrões é feito através da função:
f (x) = sgn(NVS
∑i=1
diαoixTx+bo) (6.1)
CAPÍTULO 6. MÁQUINA DE VETORES-SUPORTE INTERVALAR 40
onde,xi ∈ Rn é o vetor de entrada de n-dimensão,yi ∈ −1,1 é a classe a qual pertence
xi , eαi e b são parâmetros da função objetivo encontrados durante o treinamento através
da resolução de um problema de otimização.
Para uma SVMI, considere uma amostra de treinamento(X i,Di)Ni=1, onde,X i é
um vetor intervalar que representa o padrão de entrada para oi-ésimo exemplo eDi =
[di ;di ] ∈ [+1;+1], [−1;−1] é a resposta desejada para o padrãoXi.
A equação de uma superfície de decisão na forma de hiperplanoque realiza a separa-
ção entre as classes é definida como:
WTX +B= [0;0] (6.2)
onde,X é um vetor intervalar de entrada,W é um vetor intervalar peso ajustável eB é o
bias, um valor intervalar.
Figura 6.1: Ilustração do hiperplano ótimo intervalar.
O conjunto de treinamento(X i,Di)Ni=1 é dito linearmente separável se existir um
vetor intervalarW e um intervaloB que satisfaça:
WTX i +B≥ [+1;+1],paraDi = [+1;+1]
WTX i +B≤ [−1;−1],paraDi = [−1;−1](6.3)
CAPÍTULO 6. MÁQUINA DE VETORES-SUPORTE INTERVALAR 41
que é equivalente a:
Di(WTX i +B)≥ [1;1] (6.4)
onde, o par(W,B) define o hiperplano de separação da equação (6.2).
Para obter o hiperplano ótimo, ou seja, o hiperplano de máxima margem entre as
classes é necessário encontrar a distância de um intervaloX i com o hiperplano de separa-
ção(W,B). Considerando a função discriminante:
G(X) = WTo X i +Bo (6.5)
onde,G(X) fornece uma medida algébrica da distância deX até o hiperplano, podendo
ser expresso também da seguinde forma:
X = Xp+RWo
‖ Wo ‖(6.6)
onde,Xp é a projeção normal deX sobre o hiperplano ótimo, eR é a distância.
Figura 6.2: Interpretação da distância deX atép hiperplano ótimo.
O vetor normal é dado por:
Xn = RWo
‖ Wo ‖(6.7)
CAPÍTULO 6. MÁQUINA DE VETORES-SUPORTE INTERVALAR 42
Para o caso de separação ótima, por definição,G(Xp) = [0;0], resultando:
G(X) = WTo X +Bo
= WTo (Xp+Xn)+Bo
⊆ WTo Xp+Bo+WT
o Xn
= [0;0]+WToXn
= WTo
Wo‖Wo‖R
= R‖Wo‖2
‖Wo‖= R‖ Wo ‖
(6.8)
Logo,
R=G(X)
‖ Wo ‖(6.9)
Para encontrar os parâmetrosWo e Bo para o hiperplano ótimo dado um conjunto de
treinamento, as restrições da equação (6.3) devem ser satisfeitas. Os pontos intervalares
(X i,Di) satisfeito no sinal de igualdade da equação (6.3) são chamados devetores de
suporte intervalar.
Considerando um vetor de suporte intervalarX(s) temos:
G(X(s)) = WTo X(s)+Bo− [1;1],D(s) =+[1;1] (6.10)
Da equação (6.9) a distância do vetor de suporte intervalar até o hiperplano ótimo:
R=
+ [1;1]‖Wo‖ seD(s) =+[1;1]
− [1;1]‖Wo‖ seD(s) =−[1;1]
(6.11)
Considerando queρ represente o valor intervalar ótimo da margem de separação entre
as duas classes do conjunto de treinamento, então:
ρ = 2R
= 2‖Wo‖
(6.12)
Da equação (6.12) temos que, maximizar a margem de separaçãoentre as classes é
equivalente a minimizar a norma do vetor intervalarW com respeito as restrições.
O hiperplano da equação (6.2) é único e de máxima separação entre as classes.
Para encontrar o hiperplano ótimo utilizando o conjunto de treinamento(X i ,Di)Ni=1
e que satisfaça as restrições é necessário encontrar os parâmentrosW eB.
CAPÍTULO 6. MÁQUINA DE VETORES-SUPORTE INTERVALAR 43
O hiperplano de separação ótimo minimiza a função custo intervalar:
Φ =12
WTW (6.13)
sujeito as restrições:
Di(WTX i +B)≥ [1;1]
Este é um problema de otimização que pode ser resolvido através do método de mul-
tiplicadores de Lagrange adaptado para intervalar:
J(W,B,α) = [12; 12]W
TW −∑Ni=1 αi(Di(WT
i X i +B)+ [−1;−1])
⊆ [12; 12]W
TW −∑Ni=1 αiDiWT
i X i +αiDiB−αi(6.14)
onde,αi são intervalos representando os multiplicadores de Lagrange.
A função lagrangiana tem que ser minimizada com respeito aW, B e maximizada com
respeito aαi ≥ 0. Assim, diferenciandoL(W,B,α) em relação aW B temos as seguintes
condições:∂L(W,B,α)
∂B= [0;0]⇔
N
∑i=1
αiDi = [0;0] (6.15)
∂L(W,B,α)∂W
= [0;0]⇔ W =N
∑i=1
αDiX i (6.16)
Substituindo as condições (6.15) e (6.16) em (6.14) temos:
J(W,B,α) = [12; 12]W
TW −∑Ni=1αiDiWT
i X i +αiDiB−αi
= [12; 12]∑
Ni=1 ∑N
j=1αiDiX iα jD jX j−−∑N
i=1 ∑Nj=1αiDiX iα jD jX j − [0;0]+∑N
i=1 αi
= −[12; 12]∑
Ni=1∑N
j=1 αiDiX iα jD jX j +∑ni=1 αi
(6.17)
Fazendo a função objetivoJ(W,B,α) = Q(α) temos:
Q(α) =N
∑i=1
αi − [12
;12]
N
∑i=1
N
∑j=1
αiα jDiD jX iX j (6.18)
Logo, o problema é dado por:
Maximizar: Q(α) = ∑Ni=1αi − [12; 1
2]∑Ni=1αiαiDiD jXT
i X j
Sujeito as restrições:
(1) αi ≥ [0;0], i = 1, ...,N
(2) ∑Ni=1αiDi = [0;0]
(6.19)
CAPÍTULO 6. MÁQUINA DE VETORES-SUPORTE INTERVALAR 44
Após encontrar os multiplicadores de Lagrange é possível calcular os pesos inter-
valares ótimos:
Wo =N
∑i=1
αoi DiX i (6.20)
O valor do bias ótimoBo é encontrado utilizando os pesos ótimosWo encontrados na
equação (7.1) e descrito como:
Bo = [1;1]−WTo X(s) paraD(s) = [1;1] (6.21)
6.2 Máquina de Vetor de Suporte Intervalares Não Sepa-
ráveis
Considerando um conjunto de dados de treinamento onde não é possível construir
um hiperplano de separação sem qualquer erro de classificação, o caso de padrões não-
separáveis em uma SVM visto no capítulo 2 em 2.2, o objetivo daSVMI é classificar os
padrões com a menor probabilidade de erro da classificação, mantendo a precisão com a
informação intervalar durante o treinamento.
Uma margem de separação onde viola-se a condição da equação (6.14) é dita margem
de separação entre classes suaves ousoft. E existem duas formas de violação desta
condição, como mostra a figura 2.5.
Para um tratamento desses padrões intervalares não-separáveis é definido um conjunto
de variáveis escalares não negativas, denominadas de variáveis soltasξiNi=1, na definição
do hiperplano de separação:
di(WTX +B)≥ [1;1]−ξi parai = 1,2, ...,N (6.22)
O objetivo é encontrar um hiperplano intervalar de separação onde o erro de classifi-
cação incorreta seja mínimo perante o conjunto de treinamento, podendo ser feito mini-
mizando a equação:
φ(ξ) =N
∑i=1
I(ξi −1) (6.23)
em relação ao vetor pesoW, sujeito à restrição da equação do hiperplano de separação
(6.22) e a restrição sobre‖ W ‖2. A funçãoI(ξ−1) é uma função indicadora, definida
por:
I(ξ−1) =
0 seξ ≤ 0
1 seξ > 0(6.24)
CAPÍTULO 6. MÁQUINA DE VETORES-SUPORTE INTERVALAR 45
Para a simplificação de cálculos computacionais a função a ser minimizado em relação
ao vetor pesoW segue:
φ(W,ξ) = [12
;12]WTW +C
N
∑i=1
ξi (6.25)
onde, o parâmetroC é oparâmetro de penalização.
O problema de otimização em sua representação primal para encontrar o hiperplano
intervalar ótimo de separação para classes não linearmenteseparáveis pode ser escrito
como:
Minimizar: φ(W,ξ) = [12; 12]W
TW +C∑Ni=1ξi
Sujeito as restrições:
(1) yi(WTX i +B)≥ 1−ξi , parai = 1, ...,N
(2) ξi ≥ 0,∀Ni=1
(6.26)
Utilizando o método dos multiplicadores de Lagrange, pode-se formular o problema
de otimização primal em seu correspondente problema dual demaneira similar à descrita
na seção 6.1.
Maximizar: Q(α) = ∑Ni=1 αi − 1
2 ∑Ni=1∑N
j=1 αiα jDiD jXTi X j
Sujeito as restrições:
(1) ∑Ni=1Diαi
(2) [0;0]≤ αi ≤C parai = 1, ...,N
(6.27)
onde,C> 0 é especificado pelo usuário.
Para problemas de classificação, onde, classes distintas são não linearmente separáveis
no espaço original, mas, com um mapeamento não linear através de um produto interno
(funçãokernel) transforma o espaço original em um espaço de características de dimen-
são maior, e o problema que era não linearmente separável no espaço original passa-se
a ser linearmente separável no espaço de características é representado pela SVM não
linearmente separável ou SVM para classes linearmente separáveis no espaço de caracte-
rísticas.
Uma extensão intervalar dessa abordagem o mapeamento do espaço de entrada origi-
nalX em um novo espaço, o espaço de característicasϕ(X), é equivalente a
X = (X1, ...,Xn) 7→ ϕ(X) = (ϕ1(X), ...,ϕN(X))
onde,X ∈ Rn é um vetor intervalar que representa o espaço de entrada original e ϕ(X)
são funções intervalares que mapeiam o espaço original parao espaço de características.
CAPÍTULO 6. MÁQUINA DE VETORES-SUPORTE INTERVALAR 46
Função Kernel Intervalar
Um kernelintervalarK é uma função intervalarK : IRn× IRn → IR que recebe dois
padrões intervalaresX i e X j , ∀ X i , X j ∈ IRn, do espaço de entrada e computa o produto
intervalarϕT(X i)ϕ(X j) no espaço de características.
O termoϕT(X i)ϕ(X j) representa o produto interno intervalar dos vetores intervalares
X i eX j , sendo okernelintervalar representado por:
K(X iX j) = ϕT(X i)ϕ(X j) (6.28)
Uma extensão da equação (7.1) envolvendo o espaço de características, pode ser rees-
crito como:
W =N
∑i, j=1
αiDiϕT(X i)ϕ(X j) (6.29)
onde, o vetor intervalar de característicasϕ(X i) corresponde ao padrão de entrada inter-
valarX i no i-ésimo exemplo.
Dessa forma, o produto interno intervalarK(X iX j) é utilizado para construir um hiper-
plano ótimo intervalar no espaço de características sem terque considerar o próprio es-
paço de características de forma explícita, observe a equação (6.29) em (6.28):
N
∑i, j=1
αiDiK(X i ,X j) (6.30)
e o problema de otimização intervalar passa-se a ser
Maximizar:
Q(α) = ∑Ni=1αi − [12,
12]∑
Ni, j=1αiα jDiD jϕXT
i ϕX j
Sujeito as restrições:
(1) αi ≥ [0,0], i = 1, ...,N
(2) ∑Ni=1αiDi = [0,0]
(6.31)
Uma vez que o produto interno permite a construção de uma superfície de decisão
do espaço de entrada não-linear para um mapeamento em um espaço de características
linear, o problema da máquina trata de encontrar os valores ótimos intervalares dos multi-
plicadores de Lagrange da funçãoQ, e tendo encontrado esses valores, o vetor intervalar
de peso associado ao espaço de característica é encontrado através da equação (6.29).
O procedimento para o projeto de uma máquina de vetores-suporte intervalar pode ser
representado como segue abaixo:
CAPÍTULO 6. MÁQUINA DE VETORES-SUPORTE INTERVALAR 47
1. Representar o conjunto de entrada capturando informações incompletas usando ve-
tor intervalarX.
2. DadoX como entrada da SVMI encontrar a máxima margem de separação entre as
classes intervalares resolvendo o problema de otimização encontrando osαi.
3. Classificar a saída da máquinaF(X =Y, considerando, seY > +1, entãoY ∈ D =
[+1,+1] ou seY > −1, entãoY ∈ D = [−1,−1]. SeY satisfizer as condições
citadas, então a máquina classificou corretamente.
Capítulo 7
Implementações Computacionais e
Resultados
7.1 Implementações Computacionais e Resultados
Para solucionar um problema de otimização utilizando uma SVM, ou o treinamento
de uma SVM, depende de alguns fatores, tais como, a função objetiva do problema a con-
siderar (primeira ordem ou segunda ordem), a forma de apresentação dos dados durante
o treinamento (onlineoubach), o espaço de variáveis para a solução do problema (primal
ou dual).
Existem diferentes algoritmos para resolver problemas da SVM usual, tais como, Ker-
nel Adatron, SMO, Gradiente Ascendente, utilização de umsolver, entre outros. Neste foi
desenvolvido e implementado métodos para solução do problema relacionado ao treina-
mento de uma SVMI. Os métodos implementados tem como objetivo determinar o hiper-
plano intervalar ótimo no espaço intervalar dual do conjunto de treinamento. O treina-
mento consiste em computar um método iterativo utilizando ogradiente da função la-
grangeana com relação a cada multiplicadorα associado a uma taxa de aprendizagem.
Foram implementadas uma extensão intervalar do método Gradiente Ascendente e a uma
extensão intervalar baseada na rede Perceptron. A extensãointervalar do método Gradi-
ente ascendente mostrou-se pouco eficaz devidos a algumas particularidades como:
• O hiperplano ótimo passa pela origem.
• Não utiliza o interceptoB para a classificação.
O problema da SVMI requer resolver a extensão do problema dual, ou seja, encon-
trar o vetor intervalarα, tal que,Q(α) seja maximizado com respeito as restrições do
problema.
CAPÍTULO 7. IMPLEMENTAÇÕES COMPUTACIONAIS E RESULTADOS 49
Maximizar: Q(α) = ∑Ni=1 αi − [12,
12]∑
Ni, j=1αiα jDiD jXT
i X j
sujeito as restrições:
(1) αi ≥ [0,0], i = 1, ...,N
(2) ∑Ni=1 αiDi = [0,0]
A Figura 7.1 ilustra o treinamento da SVMI. Dado um conjunto de treinamento,
(X,Y),∀X i ∈ IRn eYi ∈ IR, a máquina intervalar, através de métodos kernels intervalares,
encontra os intervalos deα, com respeito ao problema dual. Ao encontrar osα (multipli-
cadores de Lagrange) é possível calcular os pesos intervalares ótimos da SVMI de acordo
com os vetores-suporte intervalares,α > [0,0]:
Wo =N
∑i=1
αoiDiXvsi
Figura 7.1: Treimanento de uma SVMI
Sendo a função intervalar:
F(X) = sgn(WTX +B)
a função intervalar que classifica os padrões da máquina, pode ser reescrita:
F(X) = sgn(αDXTX +B)
para a máquina linear.
CAPÍTULO 7. IMPLEMENTAÇÕES COMPUTACIONAIS E RESULTADOS 50
7.1.1 Método Intervalar: Gradiente
O método Gradiente é um método iterativo e bem simples. O algoritmo inicia com
uma estimativa para a solução (α) e então atualiza iterativamenteα de acordo com o
gradiente deW(α)
η∂W(α)
∂αi
onde,η é um intervalo considerado como a taxa de aprendizado,
αi = αi +η∂W(α)
∂αi
Algoritmo:
0 Inicialização:α e η > [0,0]
1 Atualização:αi = αi +η([1,1]−Di ∑nj=1 α jD jK(X i,X j)), ∀i = 1, · · · ,n
2 Restrição: seαi < [0,0] entãoαi = [0,0]
3 repita 1 e 2 até critério de parada
Esse método obtém resultados demorados e instáveis, pois, amáquina exige que o
conjunto de treinamento possua o intercepto intervalar, o bias B, passando pela origem.
Não computando∑αD = [0,0].
7.1.2 Algumas variações:
Foram testadas algumas variações para generalizar este método, para calcular o bias
B, respeitando as restrições:
1. B= [0,0], otimização sem restrição∑αD = [0,0]
2. αi = minC,max[0,0],αi +η∂W(α)∂αi
3. B≤ max‖ X i ‖4. B=−min(F+(X i)−max(F−(X i)
2
5. B= 1nvs
∑X j∈vs(1
D j−∑X i∈vsαiDi〈X i,X j〉)
6. Atualização de (α eB) de acordo com o valor máximo:k= argmaxi∂W(α)
∂αi
7.1.3 Método Intervalar: Adatron
O Adatron é um método iterativo simples que busca encontrar hiperplanos de máxima
margem de separação. Possui uma boa estabilidade e garantias de convergência para
solução ótima, onde, a taxa de convergência cresce exponencialmente a cada iteração
CAPÍTULO 7. IMPLEMENTAÇÕES COMPUTACIONAIS E RESULTADOS 51
Algoritmo:
0 Inicialização:α e η > [0,0]
1 Atualização:αi = αi +η([1,1]−Di ∑nj=1 α jD jK(X i,X j)), ∀i = 1, · · · ,n
2 Restrição: seαi < [0,0] entãoαi = [0,0]; seαi >C entãoαi =C, ∀C∈ IR
3 repita 1 e 2 até critério de parada
Para este método foi considerado, o intervalo delimitanteC e um valor intervalar para
o biasB, calculado de forma:
1. B≤ max‖ X i ‖2. B=−min(F+(X i)−max(F−(X i)
2
3. B= 1nvs
∑X j∈vs(1
D j−∑X i∈vsαiDi〈X i,X j〉)
após encontrar osα’s.
O item 1 possui resultados fracos, uma vez que o bias intervalar é encontrado através
da maior distância intervalar entre a origem e um padrão de entrada, desconsiderando a
restrição∑αD = [0,0]. Somente para conjuntos de treinamentos simples e lineares, a
máquina consegue encontrar um hiperplano de separação.
O item 2 e 3 possuem resultados melhores, tanto para problemas linearmente sepa-
ráveis, quanto para problemas não linearmente separáveis,obtendo melhores resultados
utilizando o kernel do tipo Gaussiano. A diferença entre esses dois métodos de calcular
o bias intervalar consiste no cálculo aproximado do bias intervalar, para o item 2, e um
valor intervalar médio considerando todos os vetores-suporte. O item 2 encontra o bias
intervalar através de uma média intervalar calculado pela:menor distância intervalar en-
tre um vetor-suporte pertencente a classe positiva e a origem, e maior distância intervalar
entre um vetor-suporte pertencente a classe negativa e a origem.
7.1.4 Método Intervalar: Perceptron Dual
Este método diferencia-se dos anteriores devido a forma de avaliação dos multipli-
cadores de lagrange e do bias intervalar, a atualização ocorre através de um único multi-
plicador a cada época, o multiplicador considerado mais informativo, trazendo, de acordo
com a bibliografia, resultados mais estáveis.
Algoritmo:
0 Inicialização:α e η > [0,0]
1 Atualização:αi = αanti +η([1,1]−Di ∑n
j=1 αantj D jK(X i ,X j)), ∀i = 1, · · · ,n
CAPÍTULO 7. IMPLEMENTAÇÕES COMPUTACIONAIS E RESULTADOS 52
2 Atualização: seαi > [0,0] entãoB = B+Di ∗ (η([1,1]−Di ∑nj=1αant
j D jK(X i,X j))),
∀i = 1, · · · ,nsenãoB=B−Di ∗(η([1,1]−Di ∑nj=1 αant
j D jK(X i ,X j))), ∀i = 1, · · · ,n3 Restrição: seαi < [0,0] entãoαi = [0,0]; seαi >C entãoαi =C, ∀C∈ IR
3 repita do 1 ao 3 até critério de parada
A implementação deste método se deu através do métodoonline para solucionar o
problema da SVMI, tendo como objetivo determinar o hiperplano separador ótimo estab-
elecendo uma máxima margem intervalar.
Por meio da função Lagrangeana
Maximizar: Q(α) = ∑Ni=1αi − [12; 1
2]∑Ni=1αiαiDiD jXT
i X j
Sujeito as restrições:
(1) αi ≥ [0;0], i = 1, ...,N
(2) ∑Ni=1αiDi = [0;0]
(7.1)
o processo de aprendizagem foi baseado em computar o gradiente da função em re-
lação aos multiplicadoresα, associado a uma taxa de aprendizagem.
Métodosonline, em sua maioria, atualizam os multiplicadores a cada época,como o
algoritmo Adatron. Contudo, um outro algoritmo, o MinOver,utiliza a atualização de um
único multiplicador, o mais significativo da época, que apesar de produzir resultados mais
estáveis, a taxa de convergência é menor.
O algoritimo perceptron intervalar foi optado a implementação do modo de atualiza-
ção e ajustes doα mais significativo na época computada. A estrutura do processamento
pode ser representada pela topologia da rede Perceptron, descrita pela Figura 7.2 que
fornece a função intervalar:
F(X) = αDK +B (7.2)
que gera a máquina intervalar classificadora considerando somente os vetores suporte.
A figura ilustra a topologia utilizada.
A SVMI utilizando o método intervalar Perceptron Dual mostrou melhores resultados
para uma gama maior de problemas. Duas alternativas podem ser consideradas neste
método: atualização de todos osα’s durante o processo de treinamento, ou alteração de
apenas umα, considerado uma variação doα mais significativo para o treinamento da
máquina.
CAPÍTULO 7. IMPLEMENTAÇÕES COMPUTACIONAIS E RESULTADOS 53
Figura 7.2: Topologia da SVMI
7.2 Resultados de testes
Nesta seção são apresentados alguns resultados de testes daSVMI e também mostra-
dos que os dados inicias estão contidos nos intervalos do conjunto de treinamento bem
como seus kernels (pontual e intervalar).
7.2.1 Resultados da SVMI
Para comprovar a aplicabilidade da SVMI, foram testados alguns problema artificiais
binários para conjuntos de treinamento linearmente separáveis e não linearmente separá-
veis.
As Tabelas 7.1 e 7.2 mostram alguns resultados da SVMI:
Problema 1 Problema 2 Problema 3Conj. treinamento 4 2 4Vetores suporte 3 2 3
bias [0.275,0.287] [0.39, 0.3951] [0.279, 0.28]Kernel intervalar linear linear linear
Tabela 7.1: Tabela de resultados da SVMI
O Problema 1 é do tipo linearmente separável, um ajuste intervalar da porta lógicaOR,
treinado com o kernel linear, obtendo como saida do teinamento osalpha intervalares
ótimos e os vetores de suporte intervalares para a máquina intervalar classificadora. O
Problema 2 também é do tipo linearmente separável, sendo um ajuste intervalar da porta
lógica NOT, onde, obteve dois vetores suporte. O problema 3 também é do tipo line-
armente separável, sendo um ajuste intervalar da porta lógica AND, obteve três vetores
CAPÍTULO 7. IMPLEMENTAÇÕES COMPUTACIONAIS E RESULTADOS 54
Problema 4 Problema 5 Problema 6Conj. treinamento 4 4 20Vetores suporte 4 4 8
bias [0.1, 0.1] [0.01, 0.0132] [0.0002, 0.00023]Kernel intervalar polinomial gaussiana gaussiana
Tabela 7.2: Tabela de resultados da SVMI
suporte. O Problema 4 e 5 são do tipo não linearmente separável, sendo um ajuste inter-
valar da porta lógicaXOR, sendo obtidos dois resultados, o primeiro utilizando o kernel
intervalar polinomial e o segundo utilizando o kernel intervalar gaussiano, com quatro
vetores suporte cada teste. O Problema 6 é do tipo não linearmente separável, sendo um
problemas de duas espirais, que obteve oito vetores suportecom o treinamento da função
kernel intervalar gaussiana. Os testes foram feitos utilizando o método intervalar iter-
ativo baseado na rede neural Perceptron e no método Adatron,uma vez que o método
do gradiente (mais simples) não trouxe resultados satisfatórios. O método intervalar im-
plementado demostrou mais estabilidade nos resultados, porém, um desgaste maior para
encontrar a convergência.
7.2.2 Conjunto de treinamento intervalar
A Tabela 7.3 mostra o conjunto de entrada de um problema das espirais:
0.4500 0.3500-0.4000 0.2750-0.2750 -0.77500.3000 -0.3000
Tabela 7.3: Problema das espirais
A Tabela 7.4 mostra uma extensão intervalar do conjunto de entrada de um problema
das espirais:
[0.45,0.46] [0.3,0.35][-0.41,-0.39] [0.275,0.275][-0.3,-0.26] [-0.78,0.77]
[0.3,0.3] [-0.3,-0.29]
Tabela 7.4: Problema das espirais intervalar
CAPÍTULO 7. IMPLEMENTAÇÕES COMPUTACIONAIS E RESULTADOS 55
A Tabela 7.5 mostra a matriz da função kernel linear do conjunto de entrada apresen-
tado na Tabela 7.3
0.3250 -0.0838 -0.3950 0.0300-0.0838 0.2356 -0.1031 -0.2025-0.3950 -0.1031 0.6763 0.15000.0300 -0.2025 0.1500 0.1800
Tabela 7.5: Matriz intervalar do problema das espirais intervalar para okernellinear
A Tabela 7.6 mostra a matriz kernel intervalar linear do conjunto de entrada apresen-
tado na Tabela 7.4
[0.29249,0.3341] [-0.1061,-0.079249] [-0.411,0.1525] [0.029,0.0510][-0.1061,-0.079249] [0.227725,0.243725] [-0.1131,0.33475] [-0.2055,-0.19675]
[-0.411,0.1525] [-0.1131,0.33475] [-0.533,0.6984] [-0.321,0.156][0.029,0.051] [-0.2055,-0.19675] [-0.321,0.156] [0.17409,0.18]
Tabela 7.6: Matriz intervalar do problema das espirais intervalar para okernellinear
A Tabela 7.7 mostra a matriz da função kernel polinomial do conjunto de entrada
apresentado na Tabela 7.3
1.7556 0.8395 0.3660 1.06090.8395 1.5268 0.8044 0.63600.3660 0.8044 2.8098 1.32251.0609 0.6360 1.3225 1.3924
Tabela 7.7: Matriz kernel do problema das espirais para okernelpolinomial
A Tabela 7.8 mostra a matriz kernel intervalar polinomial doconjunto de entrada
apresentado na Tabela 7.4
[1.67055,1.77982] [0.79905,0.84778] [0.34692,1.32825] [1.0609,1.104601][0.79905,0.84778] [1.50730,1.54685] [0.78659,1.78155] [0.63123,0.64521][0.34692,1.32825] [0.786591,1.7815] [0.218088,2.8845] [0.461040,1.3363][1.0609,1.1046] [0.6312,0.6452] [0.4610,1.3363] [1.3785,1.3924]
Tabela 7.8: Matriz intervalar do problema das espirais intervalar para okernelpolinomial
CAPÍTULO 7. IMPLEMENTAÇÕES COMPUTACIONAIS E RESULTADOS 56
A Tabela 7.9 mostra a matriz da função kernel gaussiano do conjunto de entrada ap-
resentado na Tabela 7.3
1.0000 0.6948 0.4084 0.80050.6948 1.0000 0.5717 0.66340.4084 0.5717 1.0000 0.75720.8005 0.6634 0.7572 1.0000
Tabela 7.9: Matriz kernel do problema das espirais para okernelgaussiano
A Tabela 7.10 mostra a matriz kernel intervalar gaussiano doconjunto de entrada
apresentado na Tabela 7.4
[0.99870,1] [0.68299,0.702498] [0.39564,0.77720] [0.799275,0.830854][0.68299,0.70249] [0.99980,1] [0.56679,0.99595] [0.65878,0.67188][0.39564,0.77720] [0.56679,0.99595] [0.30057,1] [0.47121,0.854875][0.79927,0.83085] [0.65878,0.67188] [0.47121,0.85487] [0.99995,1]
Tabela 7.10: Matriz intervalar do problema das espirais intervalar para okernelgaussiano
Capítulo 8
Conclusões
Este trabalho propôs uma extensão intervalar da SVM fundamentando matematica-
mente com conceitos intervalares. Para que a extensão intervalar da SVM fosse possível,
foi necessário um estudo detalhado da SVM, tanto linearmente separável quanto não li-
nearmente separável, bem como um estudo sobre a teoria intervalar, fazendo um estudo
bibliográfico necessário para que a construção da abordagemintervalar fosse possível.
O desenvolvimento deste trabalho teve início com a construção da SVM para os casos
mais simples, os casos linearmente separáveis. E também a construção da abordagem da
SVM para um caso geral, que engloba dados linearmente separáveis e não linearmente
separáveis. Para tanto utiliza-se funções kernels, sendo necessário uma formalização
matemática de funções do tipo kernels dentro da abordagem intervalar para resolução
de problemas de classificação de padrões utilizando as SVMs.Os capítulos 2, 3 e 4 são
relacionados a fundamentação teórica, tanto para o formalismo das SVMs quanto a fun-
damentação matemática intervalar, aritmética e otimização intervalar.
O formalismo matemático intervalar que trata da definição, extensão intervalar, de
kernels intervalares foi tratado no capítulo 6. As contribuições deste capítulo está na for-
malização de um kernel intervalar, independente da máquinautilizada, a diferenciação
da proposta é a utilização de uma métrica essencialmente intervalar para funções inter-
valares validadas como kernels, outros trabalhos relacionados foram pesquisados, porém,
utilizando a (quasi)métrica de Moore, que utiliza dados intervalares com resultados reais
(pontuais). Após a definição de kernels intervalares, foi feito uma formalização de uma
máquina de vetor de suporte intervalar, tratada no capítulo7, e métodos numéricos inter-
valares para resolver problemas utilizando a SVMI.
Foram construídas algumas definições para que a construção da SVMI fosse possível,
dentre as principais são:
• Norma vetorial intervalar
• Produtoide interno
CAPÍTULO 8. CONCLUSÕES 58
• Auto valores intervalares
• Auto vetoides
• Matriz positiva definida
• Kernel intervalar
• Teorema de Mercer
Foram implementados métodos para resolver o problemas de otimização, extensões
intervalares dos métodos:
• Gradiente
• Adatron
• Percepton Dual
8.1 Possibilidades de trabalhos futuros
As contribuições deste trabalho geram possibilidades de trabalhos futuros, dentre eles:
• Análise intervalar para otimização intervalar: métodos intervalares para resolver
problemas de otimização.
• Kernel intervalar: extensões intervalares de métodos kernels que tratam de proble-
mas de classificação, regressão e multiclassificação.
• Análise intervalar do comportamento do kernel intervalar para problemas com-
plexos.
• Análise numérica dos métodos intervalares para solucionaro problema de otimiza-
ção.
• Abordagem Fuzzy intevalar para SVM.
Referências Bibliográficas
Abe, S. (2005),Support Vector Machines for Pattern Classification, Springer.
Acióly, B. M. (1991), Fundamentação Computacional da Matemática Intervalar, Tese de
doutorado, Universidade Federal do Rio Grande do Sul.
Acióly, B. M. & B.C. Bedregal (1997), ‘A quasi-metric topology compatible with
inclusion-monotonicity property on interval space’,Reliable Computing3(3), 305–
313.
Angulo, C., D Anguita & L Gonzalez (2007), ‘Interval discriminant analysis using support
vector machines’,European Symposium on Artificial Neural Network.
Bazaraa, M., H. Sherali & C. M. Shetty (1993),Nonlinear Programming: Theory and
Algorithms, John Wiley and Sons.
Bishop, C. M. (2006),Pattern Recognition and Machine Learning, Springer.
Bliek, C., P. Spellucci, L. N. Vicente, A. Neumaier, L. Granvilliers, E. Huens, P. V. Hen-
tenryck, D. Sam-Haroud & B. Faltings (2001), Algorithms forsolving nonlinear
constrained, Relatório técnico, Universität Wien.
Boser, B. E., I. M. Guyon & V. N. Vapnik (1992), ‘A training algorithm for optimal mar-
gin classifiers’,Proceedings of the 5 th Annual ACM Workshop on computacional
Learning Theorypp. 144–152.
Burges, C. J. C. (1998), ‘A tutorial on support vector machines for pattern recognition’,
Data Mining and Knowledge Discovery2, 121–167.
Do, T. N. & F. Poulet (n.d.), ‘Kernel methods and visualizations for interval data mining’.
Ganapathiraju, A. (2002), Support Vector Machines for Speech Recognition, The-
sis(Ph.D.), Faculty of Mississipi State University.
Hanses, E. & G. W. Walster (1992),Global Optimization using Interval Analysis, Marcel
Dekker, New Work.
59
REFERÊNCIAS BIBLIOGRÁFICAS 60
Hayes, B. (2003), ‘A lucid interval’,American Scientist91, 484–488.
Haykin, S. (2001),Redes Neurais: Princípios e prática, Bookman.
Hearst, M. A. (1998), ‘Support vector machines’,IEEE Inteligent Systems13(4), 18–28.
Hofmann, T., B. Schölkopf & A. J. Smola (2008), ‘Kernel methods in machine learning’,
The Annals of Statistics36(3), 1171–1220.
Hong, D. H. & C. Hwang (2005), ‘Interval regression analysisusing quadratic loss su-
pport vector machines’,IEEE Transactions On Fuzzy Systems13(2), 229–237.
Hsu, C. W. & C. J. Lin (2002), ‘A comparison of methods for multiclass support vector
machines’,IEEE Transactions On Neural Networks13, 415–425.
Joachims, T. (1998), ‘Text categorization with support vector machines’,Proceedings of
European Conference on Machine Learningpp. 137–142.
Kearfott, R. B. (1996),Rigorous Global Search: Continuous Problems, Kluwer Academic
Publishers, London.
Kreinovich, V., A. Lakeyev J. Rohn & P. Kahl (1998),Computational Complexity and
Feability of Data Processing and Interval Computations, Kluwer Academic Pub-
lishers, Canadá.
Kulisch, U. W. (1982), ‘Computer arithmetic and programinglanguages’,ACM 13, 176–
182.
Kulisch, U. W. (2008),Computer Arithmetic and Validity: Theory, Implementation, and
Applications, Walter de Gruyter.
Kulisch, U. W. & W. L. Miranker (1981),Computer Arithmetic Theory and Pratice,
Academin Press.
Lima, C. A. M. (2004), Comitê de Máquinas: Uma Abordagem Unificada Empregando
Máquinas de Vetores-Suporte, Tese de doutorado, Universidade Estadual de Camp-
inas.
Lin, F. C. & S. D. Wang (2002), ‘Fuzzy support vector machines’, IEEE Transactions On
Neural Networks13(2), 464–470.
Lingras, P. & C. Butz (2004), ‘Interval set classifiers usingsupport vector machines’,
Proceedings of 2004 Conferenceof the North American.
REFERÊNCIAS BIBLIOGRÁFICAS 61
Lorena, A. C. & A. C. P. L. F. Carvalho (2003), Introdução às máquinas de vetore suporte,
Relatório técnico, Universidade de São Paulo.
Luenberger, D. (1984),Linear and Nonlinear Programming, Addison-Wesley.
Lyra, A. (2003), Uma Fundamentação Matemática para o Processamento de Imagens
Digitais Intervalares, Thesis(Ph.D.), Universidade Federal do Rio Grande do Norte,
Natal.
Martinez, J. M. & S. A. Santos (1995), Métodos computacionais de otimização, Relatório
técnico, UNICAMP.
Moore, R. E. (1966),Interval Analysis, Pretice Halls, New Jersey.
Moore, R. E. (1979),Methods and Applications of Interval Analysis, SIAM, Philadelphia.
Moore, R. E., R. B. Kearfott & M. J. Cloud (2009),Introduction to interval analysis,
Philadelphia: SIAM, Philadelphia.
Pontil, M. & A. Verri (1997), Proprieties of support vector machines, Relatório técnico,
Massachusetts Institute of Technology.
Santos, J. M. (2001), Em direção a uma representação para equações algébricas: Uma lóg-
ica equacional local, Dissertação de mestrado, Universidade Federal do Rio Grande
do Norte.
Semolini, R. (2002), Support vector machines, inferência transdutiva e o problema de
classificação, Dissertação de mestrado, Universidade Estadual de Campinas.
Stitson, M. O., J. A. E. Weston, A. Gammerman, V. Vovk & V. Vapnik (1996), Theory oh
support vector machines, Relatório técnico, University ofLondon.
Trindade, R. M. P., B. R. C. Bedregal & A. D. Dória Neto (2008),‘Basic concepts of
interval digital signal processing’,Proceedings of World Academy of Science, Engi-
neering and Technology.
Young, R. C. (1931),The Algebra of Many-valued Quantities, Verlag Von Julius Springe,
Berlin.
Zhao, Y., Q. He & Q. Chen (2005), ‘An interval set classification based on support vector
machines’,Proceedings of the Joint International Conference on Autonomic and
Autonomous Systems.