seleção de características através de nearest shrunken centroids
DESCRIPTION
Seleção de Características através de Nearest Shrunken Centroids. Diego Ricardo de Araujo Departamento de ciência da computação Instituto de ciência exatas Universidade federal de juiz de fora. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/1.jpg)
DIEGO RICARDO DE ARAUJO
DEPARTAMENTO DE C IÊNCIA DA COMPUTAÇÃO
INSTITUTO DE C IÊNCIA EXATASUNIVERSIDADE FEDERAL DE JU IZ DE FORA
Seleção de Características através de
Nearest Shrunken Centroids
![Page 2: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/2.jpg)
2
IntroduçãoClassificação de Dados
Seleção de Características
Sistema Inteligente
Testes Comparativos
Resultados
Considerações Finais
![Page 3: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/3.jpg)
4
Descoberta de Conhecimento em Bases de Dados
Crescente fluxo de dados Dados coletados e acumulados
rapidamente
Transformação de informação em conhecimento útil
![Page 4: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/4.jpg)
5
Descoberta de Conhecimento em Bases de Dados
Pré-processamento: dados preparados para mineração
Mineração de dados: extração de conhecimento através de métodos inteligentes
AvaliaçãoApresentação: representação e
visualização do conhecimento para o usuário
![Page 5: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/5.jpg)
7
Mineração de Dados
Análise de grandes base de dados
Extração de padrões de interesse do modelo de dados Conjunto de dados Domínio de conhecimento Métodos de mineração Avaliação de padrões
![Page 6: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/6.jpg)
8
Mineração de Dados
![Page 7: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/7.jpg)
9
Introdução
Classificação de DadosSeleção de Características
Sistema Inteligente
Testes Comparativos
Resultados
Considerações Finais
![Page 8: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/8.jpg)
11
Processo de classificaçãoTreinamento
Aprendizado de conhecimento a partir de amostras com classes conhecidas
![Page 9: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/9.jpg)
12
Processo de classificaçãoTeste
Avaliação do conhecimento descoberto pelo treinamento através da predição de classe de amostras desconhecidas
![Page 10: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/10.jpg)
14
Avaliação dos Métodos de Classificação
Acurácia: índice de exatidão de classificação de amostras desconhecidas
Desempenho: velocidade e custo computacional referente a utilização do classificador
![Page 11: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/11.jpg)
15
Avaliação dos Métodos de ClassificaçãoRobustez: capacidade de realizar predições
corretas a partir de conjuntos de dados com amostras incompletas ou com ruído
Escalabilidade: eficiência do modelo de conhecimento a partir de uma grande quantidade de dados
Interpretabilidade: compreensão do modelo de conhecimento extraído do modelo de dados
![Page 12: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/12.jpg)
17
Método Nearest Centroid
Centróide
Centro de distribuição de um conjunto de amostras Amostras de treinamento: centróide geral Amostras de determinada classe: centróide de
classe
![Page 13: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/13.jpg)
18
Método Nearest CentroidMatematicamente
Seja um espaço p-dimensional, sendo p o numero de atributos i = 1, 2, ... , p presentes num conjunto de dados composto de n amostras j = 1, 2, ... , n
xij a expressão do i-ésimo atributo da amostra j. Cada amostra está associada a uma classe k, pertencente a um conjunto discreto de K classes, Ck = (1, 2, ... ,K)
A cada classe k, estão associadas nk amostras que compõem o modelo de dados.
![Page 14: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/14.jpg)
19
Método Nearest Centroid
Matematicamente O i-ésimo componente dos centróides
Geral
De classekCi ijik nxx
k/
nxx n
j iji /1
![Page 15: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/15.jpg)
20
Método Nearest Centroid
Função de distância
Sendo
Classificação
k
12
2** log2
p
i i
ikik s
xxx
22 1
k Ci
ikijik
xxKn
s nnkk / 11
K
k k
![Page 16: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/16.jpg)
21
Introdução
Classificação de Dados
Seleção de CaracterísticasSistema Inteligente
Testes Comparativos
Resultados
Considerações Finais
![Page 17: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/17.jpg)
22
Seleção de Características
Teoria Maior quantidade de atributos: maior
poder de discernimento
Prática Informações irrelevantes confundem e
retardam os sistemas de aprendizado
![Page 18: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/18.jpg)
23
Seleção de Características
Motivação
Existência de bases de dados com alto nível dimensional que acarretam alto custo computacional (baixo desempenho) e/ou pouca acurácia no processo de mineração de dados
![Page 19: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/19.jpg)
24
Seleção de Características
Eliminação de atributos irrelevantes/redundantes do modelo de dados
Busca da melhoria do processo de descoberta de conhecimento
![Page 20: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/20.jpg)
26
Método Nearest Shrunken Centroid
Distância estatística
Sendo
ik
iikik sm
xxd
nnm kk /1/1
ikikiik dsmxx
![Page 21: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/21.jpg)
27
Método Nearest Shrunken Centroid
Função de limiarização suave
ikikik ddsignd .'
![Page 22: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/22.jpg)
28
Método Nearest Shrunken Centroid
Dessa forma
Se dado atributo i, ∃∆ tal que ∀k tem-se d’ik = 0, então o i-ésimo componente dos centróides são eliminados pois não interferem na tarefa de classificação
ikikiik dsmxx ''
k
12
2** log2
p
i i
ikik s
xxx
![Page 23: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/23.jpg)
29
Shrunken Centroids
![Page 24: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/24.jpg)
30
Introdução
Classificação de Dados
Seleção de Características
Sistema InteligenteTestes Comparativos
Resultados
Considerações Finais
![Page 25: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/25.jpg)
31
Sistema Inteligente
![Page 26: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/26.jpg)
32
Sistema Inteligente
File: arquivo físico da base de dados *.arff *.dat
Sample: amostra da base de dados. Composta por seus atributos (values) e identificada por sua classe
![Page 27: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/27.jpg)
33
Sistema Inteligente
DataBase: representação da base de dados. Composta de um conjuntos de amostras (samples)
Centroid: centróide de um conjunto de amostras
![Page 28: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/28.jpg)
34
Sistema Inteligente
NearestCentroidClassifier: classificador NSC Conjunto de treinamento: trainingSet Conjunto de teste: testSet Centróides de classe: classCentroids Centróide geral: overallCentroids Classificação de amostra: classify(sample)
![Page 29: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/29.jpg)
35
Sistema Inteligente
Shrinker Seleção de características Realiza a redução dos centróides
shrinkCentroids() NearestCentroidClassifier searchDelta() crossValidation() de kfolds
![Page 30: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/30.jpg)
36
Introdução
Classificação de Dados
Seleção de Características
Sistema Inteligente
Testes Comparativos Resultados
Considerações Finais
![Page 31: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/31.jpg)
38
Metodologia
Sub-divisão das bases de dados Testes de classificação
75% conjunto de treinamento 25% conjunto de teste
Seleção de características Dados originais Dados reduzidos
![Page 32: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/32.jpg)
39
MetodologiaValidação Cruzada
![Page 33: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/33.jpg)
40
Metodologia
Validação Cruzada
Neste trabalho convencionou-se a utilização de validação cruzada de 10 folhas como ponto de partida para o processo de avaliação de classificação
![Page 34: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/34.jpg)
41
Metodologia
Bases de dados utilizadas Breast Colon Glasses Iris Leukemia Lymphoma Prostate
![Page 35: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/35.jpg)
42
Metodologia
Classificadores utilizados NSC
Weka: suíte de mineração de dados Naive-Bayes SMO Multilayer Perceptron J48 Random Forest
![Page 36: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/36.jpg)
43
Testes ComparativosPor Base de Dados
![Page 37: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/37.jpg)
44
Breast
![Page 38: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/38.jpg)
45
Colon
![Page 39: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/39.jpg)
46
Glasses
![Page 40: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/40.jpg)
47
Iris
![Page 41: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/41.jpg)
48
Leukemia
![Page 42: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/42.jpg)
49
Lymphoma
![Page 43: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/43.jpg)
50
Prostate
![Page 44: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/44.jpg)
51
Testes ComparativosPor Classificador
![Page 45: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/45.jpg)
52
NSC
![Page 46: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/46.jpg)
53
Naive-Bayes
![Page 47: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/47.jpg)
54
SMO
![Page 48: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/48.jpg)
55
Multilayer Perceptron
![Page 49: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/49.jpg)
56
J48
![Page 50: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/50.jpg)
57
Random Forest
![Page 51: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/51.jpg)
58
Introdução
Classificação de Dados
Seleção de Características
Sistema Inteligente
Testes Comparativos
ResultadosConsiderações Finais
![Page 52: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/52.jpg)
59
Resultados
Média por Base de Dados
Média por Classificador
![Page 53: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/53.jpg)
60
Resultados
Numero de Atributos x Desempenho Grande redução do número de atributos Ganho considerável de desempenho
Maiores índices Bases de dados de alto nível dimensional
![Page 54: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/54.jpg)
61
Resultados
Acurácia Perda pouco significativa de acurácia Melhores índices
Base de dados: Leukemia (+2,22%) Classificador: Multilayer Perceptron (+0,96%)
Piores índices Base de dados: Breast (-8%) Classificador: Random Forest (-3,43%)
![Page 55: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/55.jpg)
62
Resultados
Desempenho x Acurácia Ganho de desempenho e de acurácia
Bases de dados de alto nível dimensional
![Page 56: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/56.jpg)
63
Introdução
Classificação de Dados
Seleção de Características
Sistema Inteligente
Testes Comparativos
Resultados
Considerações Finais
![Page 57: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/57.jpg)
64
Considerações Finais
Ganho considerável de desempenho
Queda pouco significativa de acurácia
Melhores resultados em bases de dados de alto nível dimensional
![Page 58: Seleção de Características através de Nearest Shrunken Centroids](https://reader035.vdocuments.com.br/reader035/viewer/2022070422/568163a9550346895dd4bb25/html5/thumbnails/58.jpg)
65
Considerações Finais
Trabalhos Futuros
Estudos comparativos
Outros métodos de seleção de características
Variação da proporção entre número de amostras de treinamento e teste