svm support vector machines

SVMSupport Vector Machines

Ticiano A. C. [email protected]

TE-803 Inteligencia Artificial Aplicada - UFPR

2

Sumário Vladimir Vapnik Histórico Conceito

Classificação Regressão Kernel trick

Aumento de Dimensões Espaços: Entrada versus Característica Classificadores Lineares

Margem Máxima Problemas Primal e Dual

Aplicações Conclusão Como Programar


3

Vladimir Naumovich Vapnik Soviético Mestrado na Universidade do

Uzbequistão(1958) Ph. D. em estatística no

Institute of Control Science de Moscou(1964)

Professor nesse Instituto (1961-1990)

Nomeado professor do Royal Holloway, Universidade de Londres(1995)

AT&T Bell Labs (1991-2001) Atualmente: Funcionário da

NEC e professor na Universidade de Columbia(NY)


4

Histórico

Kernel linear: 1963 – Vladimir Vapnik Kernel trick: 1992 – Boser, Guyon e

Vapnik Regressão: 1997 – Vapnik, Golowich e

Smola


5

Conceito

Classificação Duas classes

Regressão Métodos de treinamento assistido “Kernel trick”


6

Classificação(Vapnik 1963)

Duas classes “Sim” ou “Não” Preto ou Branco Laranja ou Banana 0 ou 1 -1 ou 1 (usado para

as contas) Linear (Vapnik 1963) Kernel trick(Vapnik

et al 1992)


7

Regressão(Vapnick - 1997)

É criada com máxima margem, como problemas de classificação

Pode usar kernels lineares e não lineares(Gauss Radial Basis Function(RBF), polinomial, sigmoidal)


8

Kernel Trick

Converte problemas não lineares em lineares em espaço de altíssima dimensão

Transforma funções que dependem de produto interno

Substitui o produto interno com outras funções: RBF: Polinomial homogêneo: Polinomial não homogêneo: Sigmoidal:


9

Aumento de Dimensões

Para uma função de Base Quadratica

O número de termos (para m dimensões de entrada)=(m+2)(m+1)/2

Para m=2 6-D Para m=3 10-D

E para uma função de kernel elevada a 3?

E como aproximar uma Sigmoidal?


10

Espaços: Entrada versus característica


11

Classificadores Lineares

Dados os dois conjuntos ao lado

Esta é uma boa forma de separação?


12


Ou esta?


13


Qual destas é a melhor?

Para RNA, qualquer uma destas retas é satisfatória, uma vez que separou corretamente os conjuntos!


14


Para SVM, a melhor reta é aquela que mais se distancia dos pontos(vetores) de ambos os conjuntos, formando a maior margem possível


15

Classificadores LinearesMargem Máxima

Intuitivamente é mais seguro Se erramos na localização

das bordas, uma margem maior nos dá menor chance de erro

É imune à remoção de algum vetor que não seja um SV

Segundo a teoria Vapnik-Chervonenkis(1960-90), o erro é minimizado para uma margem maximizada

Empiricamente funciona muito bem


16


17


18


19


20


21


22


23


24


25

Problemas Primal e Dual

Primal Restrição: Erro nos vetores de treino

Dual Restrição: Parâmetro Custo C


26

Aplicações

Identificação de Proteínas, 2000 Impressões Digitais, 2001 Detecção e reconhecimento de faces, 1997/2000 Reconhecimento de textos, 1998 Assinaturas, 2003 Análise de Crédito, 1999 Indústria de Mineração, 2003 Siderurgia, 2004 Técnica ganhadora no concurso mundial de predição

de carga elétrica, 2001


27

Conclusão:Otimização RNA versus SVM

RNA: Mínimo Local Definir a quantidade

de neurônios na camada intermediária

SVM: Mínimo Global Definir o melhor

parâmetro C (custo)


28

Como programar:

MATLAB: Lenta porém não há necessidade de preocupação com o parâmetro C

LibSVM: Biblioteca existente em várias linguagens Usada em diversas aplicações e nossa aula

prática http://www.csie.ntu.edu.tw/~cjlin/libsvm/

svm support vector machines

Documents