![Page 1: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/1.jpg)
Universidade de São PauloInstituto de Ciências Matemáticas e de Computação
Francisco A. Rodrigues
Departamento de Matemática Aplicada e Estatística - SME
![Page 2: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/2.jpg)
1. Seleção de atributos
2.Redução de dimensionalidade
Tópicos
![Page 3: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/3.jpg)
Seleção de atributos
sensor
featuregeneration
feature selection
classifierdesign
systemevaluation
Patterns
![Page 4: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/4.jpg)
• Correlação entre atributos: Apesar de dois
atributos oferecerem boa classificação separados,
há pouco ou nenhum ganho quando tratados em
conjunto.
• Maldição da dimensionalidade
Motivação
![Page 5: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/5.jpg)
Motivação
![Page 6: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/6.jpg)
A maldição da dimensionalidade
• Termo introduzido por Bellman refere-se ao
problema causado pelo aumento exponencial no
volume associado com a adição de dimensões
extras a um espaço matemático.
![Page 7: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/7.jpg)
A maldição da dimensionalidade
• Se dividirmos uma região do espaço em células
regulares, o número células cresce
exponencialmente com a dimensão do espaço.
• Assim, o número de amostras deve crescer
exponencialmente para garantir que nenhuma
célula fique vazia.
![Page 8: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/8.jpg)
A maldição da dimensionalidade
![Page 9: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/9.jpg)
A maldição da dimensionalidade
• Na prática, a maldição da dimensionalidade
implica que para um dados tamanho de amostras,
existe um número máximo de características a
partir do qual o desempenho do classificador irá
degradar, ao invés de melhorar.
• Solução: Reduzir a dimensão através de seleção
de características ou métodos de redução de
dimensionalidade.
![Page 10: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/10.jpg)
Seleção X projeção
• A seleção de atributos não implica na
modificação dos atributos de um objeto.
• Já a projeção transforma os dados e
conseqüentemente resulta em perda de
informação.
![Page 11: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/11.jpg)
SeleSeleçção de atributosão de atributos
![Page 12: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/12.jpg)
Objetivo
• Encontrar um número l de características de
forma ótima.
• Selecionar as l “melhores” características.
![Page 13: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/13.jpg)
• A utilização de poucos atributos tem vantagens:
1. Complexidade computacional
2. Quanto maior a razão entre o número de padrões de
treinamento N e o número de parâmetros do
classificador, melhor a generalização das
propriedades do respectivo classificador.
3. Um número grande características pode resultar em um
número maior de parâmetros (e.g. pesos sinapticos
em uma rede neural, pesos em um classificador linear,
etc.).
Motivação
![Page 14: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/14.jpg)
• A utilização de poucos atributos tem vantagens:
1. Quanto maior a razão entre o número de elementos no
conjunto de treinamento e o número de características
(dimensão), N/l, melhor a estimativa do erro na
classificação.
2. Na prática, l < N/3 tem demonstrado ser uma boa
escolha para muitos casos.
Motivação
![Page 15: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/15.jpg)
• Dado um número de características, como
podemos selecionar as mais importantes delas
de tal modo a reduzir esse número e ao mesmo
tempo reter o máximo possível de sua
informação discriminatória?
• Solução: Selecionar as características que levam
a uma alta distância entre classes e pequena
distância entre os elementos da mesma classe.
Problema:
![Page 16: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/16.jpg)
Problema:
• Soluções possíveis:
1. Examinar os atributos individualmente e
descartar aqueles com pequena capacidade
discriminatória.
2. Examinar os atributos em conjunto.
![Page 17: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/17.jpg)
Seleção de características
1. Pré-processamento
2.Teste de hipóteses
3.Filtros
4.Wrappers
5.Medidas de separação
![Page 18: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/18.jpg)
Abordagens
![Page 19: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/19.jpg)
Pré-processamento
• Remoção de outliers: outliers são
observações que ficam longe da média de uma
dada variável aleatória.
• Se o número de outliers é pequeno, eles podem
ser descartados.
• Técnicas para tratamento de outliers:
P.J.Huber, Robust Statistics, J. Wiley e Sons, 1981.
![Page 20: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/20.jpg)
Pré-processamento
• Normalização dos dados: Linear
Novos dados com média igual a 0 e variância igual a 1.
![Page 21: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/21.jpg)
Pré-processamento
• Normalização dos dados: Não-linear
Softmax scalingLimita os dados entre 0 e e1.
![Page 22: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/22.jpg)
Seleção baseada em testes de hipóteses
• Estratégia:
• Descartar características com pouca
discriminabilidade individual.
• Selecionar as características restantes e
examiná-las conjuntamente como vetores.
![Page 23: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/23.jpg)
Seleção baseada em testes de hipóteses
• Objetivo:
• Para cada característica individual, verificar se os
valores que as características apresentam em diferentes
classes diferem significantemente.
• Isto é:
• Os valores diferem significantemente:
• Os valores não diferem significantemente:
• Se eles não diferem significantemente, rejeite a
característica nos estágios futuros.
010
011
:
:
θθθθ
=≠
H
H
![Page 24: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/24.jpg)
Seleção baseada em testes de hipóteses
• Teste de hipóteses: Os passos
• N medidas são conhecidas:
• Defina uma função dessas medidas:
• De tal modo que possa ser facilmente parametrizada em
termos de θ.
• Seja D um intervalo onde q tem uma alta probabilidade de cair sob
a hipótese H0, isto é, pq(q|θ0).
• Seja D o complementar de D. Então:
• Se q, resultante de cai no intervalo D, então
aceitamos H0, caso contrário, o rejeitamos.
Nixi ,...,2,1 , =
:),...,,( 21 Nxxxfq =);( θqpq
,,...,, 21 Nxxx
![Page 25: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/25.jpg)
Seleção baseada em testes de hipóteses
• Probabilidade de erro:
� ρ é pré-selecionado e é conhecido como nível de
significância do teste.
ρ=∈ )( 0HDqpq
![Page 26: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/26.jpg)
Seleção baseada em testes de hipóteses
![Page 27: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/27.jpg)
Seleção baseada em testes de hipóteses
![Page 28: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/28.jpg)
Seleção baseada em testes de hipóteses
![Page 29: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/29.jpg)
Seleção baseada em testes de hipóteses
![Page 30: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/30.jpg)
Seleção baseada em testes de hipóteses
![Page 31: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/31.jpg)
Seleção baseada em testes de hipóteses
![Page 32: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/32.jpg)
Seleção baseada em testes de hipóteses
![Page 33: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/33.jpg)
Seleção baseada em testes de hipóteses
![Page 34: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/34.jpg)
Seleção baseada em testes de hipóteses
![Page 35: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/35.jpg)
Seleção baseada em testes de hipóteses
• Seleção de atributos:
![Page 36: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/36.jpg)
Seleção baseada em testes de hipóteses
![Page 37: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/37.jpg)
Seleção baseada em testes de hipóteses
![Page 38: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/38.jpg)
Seleção baseada em testes de hipóteses
![Page 39: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/39.jpg)
Estratégias
• A ênfase até agora foi em componentes individuais. No
entanto, tal metodologia não leva em conta a correlação
que pode ocorrer entre as características.
• Se duas características fornecem boa
discriminabilidade, mas são altamente correlacionadas,
nós não devemos usá-las em conjunto.
• Para evitar tal problema, agrupamos as características
em vetores.
![Page 40: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/40.jpg)
• Assim:
• Descartamos as características que apresentam
baixa discriminabilidade através do teste de
hipóteses.
• Escolhemos um número máximo l de
características a serem usadas. Essa escolha
pode ser ditada pelo problema (e.g. número N
de padrões de treinamento disponíveis e o tipo
do classificador adotado).
Estratégias
![Page 41: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/41.jpg)
• Combinamos as medidas para selecionar a “melhor”
combinação. Para este fim:
1. Use diferentes combinações de características para
formar o vetor. Treine o classificador e escolha a
combinação que resulta na melhor classificação. Uma
desvantagem dessa abordagem é a alta complexidade.
Além disso, mínimos locais podem ser obtidos e levar a
resultados enganosos.
2. Adote uma medida de separabilidade e escolha a
combinação de características que forneça melhor custo.
Estratégias
![Page 42: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/42.jpg)
Filtros
Funções objetivo
• Filtros:
• a função avalia o subconjunto de
características a partir da informação
contida no conjunto, tipicamente
distância interclasse, dependência
estatística, etc...
![Page 43: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/43.jpg)
Wrappers
Funções objetivo
• Wrappers:
• a função objetivo é um classificador de
padrões, que avalia o subconjunto a
partir de sua capacidade preditiva (taxa
de reconhecimento no conjunto de teste)
por meio de reamostragem estatística ou
cross-validação.
![Page 44: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/44.jpg)
• Filtros
• Vantagens:
• Execução mais rápida.
• Generalidade: por avaliarem propriedades intrínsecas dos dados,
ao contrário de interações específicas de um classificador, seus
resultados exibem maior generalidade: a solução tende a ser “boa”
para uma família de classificadores.
• Desvantagens:
• Tendência em selecionar um subconjunto muito grande: uma vez
que são geralmente monotônicas, os filtros tendem a selecionar o
conjunto original como a melhor solução. Isso força o usuário a
estabelecer um critério de corte no número de características
Estratégias
![Page 45: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/45.jpg)
• Wrappers
• Vantagens
• Precisão: normalmente provêem melhor taxa de reconhecimento
que filtros, uma vez que são projetadas especificamente para um
determinado tipo de classificador e conjunto de teste.
• Habilidade de generalização: possuem mecanismo para evitar
overfitting.
• Normalmente usam medidas de validação cruzada.
• Desvantagens:
• Execução lenta: wrappers tem que treinar um classificador para
cada subconjuto.
• Solução muito associada ao classificador utilizado na avaliação.
Estratégias
![Page 46: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/46.jpg)
Filtros: Medidas de separação
• Seja x o vetor da combinação de características corrente.
• Vamos considerar o caso de duas classes. Sejam:
• Essa medida é conhecida como divergência e pode ser
usada como uma medida de separabilidade.
xdxp
xpxpD ∫
+∞
∞−
=)|(
)|(ln)|(
2
1112 ω
ωω
xdxp
xpxpD ∫
+∞
∞−
=)|(
)|(ln)|(
1
2221 ω
ωω
211212 DDd +=
![Page 47: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/47.jpg)
• Para o caso de muitas classes, defina dij para cada par de classes e a divergência média é definida por:
• Algumas propriedades:
• Quanto maior o valor de d, melhor a combinação das características.
• Se as variâncias das classes são iguais:
• dist. Mahalanobis:
∑∑= =
=M
i
M
jijji dPPd
1 1
)()( ωω
jiij
ij
ij
dd
jid
d
=
==
≥
if ,0
0
Filtros: Medidas de separação
![Page 48: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/48.jpg)
• Distância de Bhattacharyya:
Filtros: Medidas de separação
![Page 49: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/49.jpg)
• Distância de Jeffries-Matusita
• O valor varia de 0 a 2, sendo 2 quando há uma completa separação entre duas classes.
Filtros: Medidas de separação
![Page 50: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/50.jpg)
Medidas de separação: Scatter matrix
![Page 51: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/51.jpg)
Medidas de separação: Scatter matrix
![Page 52: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/52.jpg)
Medidas de separação: Scatter matrix
![Page 53: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/53.jpg)
Medidas de separação: Scatter matrix
J3 = 164,7 J3 = 12,5 J3 = 620,9
![Page 54: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/54.jpg)
Filtros: Estratégias de busca
• Seqüencial
• Estes algoritmos adicionam ou removem características
seqüencialmente, e apresentam tendência em se prender
a mínimos locais:
1. Sequential forward selection
2. Sequential backward selection
3. Sequential floating selection
![Page 55: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/55.jpg)
Filtros: Estratégias de busca
• Exponencial
• Estes algoritmos avaliam um número de subconjuntos
que crescem exponencialmente com a dimensão do
espaço de busca:
1. Busca exaustiva
2. Branch and Bound
3. Beam search
![Page 56: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/56.jpg)
Filtros: Estratégias de busca
• Aleatório
• Estes algoritmos incorporam aleatoriedade em seus
procedimentos de busca a fim de escapar de mínimos
locais:
1. Simulated Annealing
2. Algoritmos genéticos
![Page 57: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/57.jpg)
Busca seqüencial
![Page 58: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/58.jpg)
Busca seqüencial
![Page 59: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/59.jpg)
Busca seqüencial
![Page 60: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/60.jpg)
Brach and bound
• O algoritmo começa pelo conjunto inteiro e remove características
usando uma estratégia de busca em profundidade.
• Nós cuja função objetivo estão abaixo do atual melhor não são
explorados, uma vez que o critério de monotonicidade garante que
seus filhos não conterão solução melhor.
![Page 61: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/61.jpg)
Brach and bound
• Quando a função critério é monotônica, é possivel usar o método
Branch and bound.
• O algoritmo branch and bound garante achar uma solução ótima
sob o critério de monotonicidade
• O critério de monotonicidade garante que a adição de novas
características sempre aumenta o valor da função objetivo, ou seja
![Page 62: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/62.jpg)
Brach and bound
![Page 63: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/63.jpg)
• Outros algoritmos mais eficientes:
• Branch and bound ordenado
• Branch and bound rápido
• Branch and bound com previsão parcial
• Branch and bound adaptativo
• Leitura complementar:
• M. A. Roncatti, Avaliação de métodos ótimos e subótimos de
seleção de características de textura em imagens, 2008.
Dissertação de mestrado.
Brach and bound
![Page 64: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/64.jpg)
ReduRedu çção de ão de
dimensionalidadedimensionalidade
![Page 65: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/65.jpg)
Análise dos componentes principais• Suponha que x1, x2, ..., xM são vetores N x 1
1. Calcule o vetor média:
2. Subtraia a média:
3. Forme a matriz e calcule a matriz de covariância:
4. Calcule os autovalores e autovetores de C.
5. Ordene os autovetores de acordo com os autores (do maior para o
menor) e coloque numa nova matriz U.
6. Redução da dimensionalidade: Qualquer vetor pode ser escrito
como combinação linear dos autovetores obtidos:
∑=
=M
iix
Mx
1
1
xxii −=Φ
][ 21 MA ΦΦΦ= L
TM
n
Tnn AA
MC =ΦΦ= ∑
=1
1
)( xxub iTii −=
![Page 66: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/66.jpg)
PCA: algoritmo
![Page 67: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/67.jpg)
PCA: algoritmo• No Matlab:
• [COEFF,SCORE,latent,tsquare] = princomp(X)
• Exemplo:
• load hald;
• x=[hald(:,1),hald(:,5)]; plot(x(:,1),x(:,2),'bo');
• [COEFF,SCORE,latent,tsquare] = princomp(X); figure;
• plot(SCORE(:,1),SCORE(:,2),'ro');
![Page 68: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/68.jpg)
Projeto• Parte 1:
• Procure implementações dos métodos de seleção de atributos na
web e utilize-os para selecionar os 3 atributos mais importantes.
• Faça a classificação usando o Weka e compare com as classificações
obtidas no projeto anterior.
• Parte 2:
• Utilize os atributos dos projetos anteriores e projete-os em 2
dimensões usando PCA.
• Faça a classificação usando janelas de Parzen.
• Compare com os resultados obtidos sem projeção (projeto
anterior).
![Page 69: Universidade de São Paulo Instituto de Ciências Matemáticas e de …jbatista/procimg/Aula4_Feature_selection_dim... · que filtros, uma vez que são projetadas especificamente](https://reader033.vdocuments.com.br/reader033/viewer/2022052922/5c65190409d3f2ad6e8c20c6/html5/thumbnails/69.jpg)
Referências
• C. Bishop, Pattern Recognition and Machine Learning ,
Springer (2006)
• Sergios Theodoridis, Konstantinos Koutroumbas, Pattern
Recognition. Elsevier (2006).