[email protected] - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/mc15-2.pdf · o 1º passo...
TRANSCRIPT
![Page 1: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/1.jpg)
1
INTRODUINTRODUÇÇÃO ÃO ÀÀ QUIMIOMETRIA:QUIMIOMETRIA:Como explorar grandes conjuntos de dados quComo explorar grandes conjuntos de dados quíímicosmicos
Prof. Dr. Marcelo M. Sena (DQ-UFMG)[email protected]
Prof. Dr. Ronei J. Poppi (IQ-UNICAMP)[email protected]
![Page 2: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/2.jpg)
2
Introdução à Quimiometria: Como explorar grandes conjuntos de dados
(Aula 2)
Prof. Ronei Jesus Poppi
INSTITUTO DE QUÍMICA UNICAMP
AULA 2
![Page 3: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/3.jpg)
3
Laboratório de Quimiometria em Química Analítica
http://laqqa.iqm.unicamp.br
![Page 4: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/4.jpg)
4
Análise de Agrupamentos
�� Objetivo: Objetivo: classificar amostras, caracterizadas pelos valores de um conjunto de variáveis, em grupos.
� Medidas de similaridadesimilaridade entre as amostras.
� Quanto menor a distância entre as amostras (no espaço n-dimensional) → MAIOR A SIMILARIDADE.
�� MMéétodostodos:� Análise de agrupamentos hierárquicos (HCA)� Dendogramas
![Page 5: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/5.jpg)
5
Distância� As medidas de similaridade mais usadas são as distâncias
EuclidianaEuclidiana e de MahalanobisMahalanobis.
� A distância Euclidiana entre dois objetos, 1 e 2, é definida como:
( ) ( )2
2212
2
211112xxxxd −+−=
![Page 6: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/6.jpg)
6
Similaridade
� Distâncias entre amostras irão variar de acordo com o tipo e número de medidas realizadas.
�� Similaridades Similaridades são calculadas para normalizar os dados para uma escala padrão:
� Para amostras similares: Sii’ → 1� Para amostras dissimilares: Sii’ → 0
max
'' 1
ddS ii
ii −=
![Page 7: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/7.jpg)
7
HCA (Hierarchical Cluster Analysis)
• Na HCA são calculadas distâncias mdistâncias méétricastricas entre as amostras (objetos) que formam o conjunto de dados, sendo essas agrupadas de acordo com o grau de grau de similaridadesimilaridade apresentado.
• HCA compreende modos aglomerativosaglomerativos e divisivosdivisivos de formação dos agrupamentos (clusters).
• Nos procedimentos aglomerativosaglomerativos (mais comuns) inicia-se com cada objeto sendo considerado um agrupamento separado e, com o cálculo das distâncias (medida de similaridade), os objetos vão sendo combinados em grupos, até que todos formem um único agrupamento.
![Page 8: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/8.jpg)
8
HCA� Os resultados fornecidos pela HCA são os chamados
dendogramasdendogramas, que expressam graficamente a distância (similaridade) entre as amostras.
� Exemplo: Dados sobre manejo do solo (Guaíra/SP)
-1 0 1 2 3 4 50
1
2
3
4
5
6
Dis tance to K-Neares t Neighbor
alt1
conv1
alt2
conv2
fores t
Dendrogram Us ing Autoscaled Data
Distância
![Page 9: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/9.jpg)
9
HCA
� Exemplo passo a passo:
Amostras de soro sanguíneo de 6 pacientes são avaliadas através das concentrações de cálcio e fósforo.
Pacientes [Cálcio] mg/100 mL [Fósforo] mg/100 mL
1 8,00 5,50
2 8,25 5,75
3 8,70 6,30
4 10,00 3,00
5 10,25 4,00
6 9,75 3,50
![Page 10: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/10.jpg)
10
HCA
� Exemplo passo a passo:O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo, vamos usar a distância Euclidiana, que écalculada para os objetos (pacientes) 1 e 2 a seguir:
( ) ( ) 354,075,550,525,800,822
12=−+−=d
Objetos 1 2 3 4 5 6 1 0
2 0,354 0
3 1,063 0,711 0
4 3,201 3,260 3,347 0
5 2,704 2,658 2,774 1,031 0
6 2,658 2,704 2,990 0,559 0,707 0
Matriz de distâncias
(A distância entre um objeto e ele mesmo é zero)
![Page 11: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/11.jpg)
11
HCA
�O 2º passo é a redução da matriz de distâncias pelo agrupamento de objetos. Objetos com menores distâncias são agregados primeiro.
�Primeira Matriz Reduzida: A menor distância na Matriz anterior é entre os objetos 11 e 22 (d12=0,354).
� Esses 2 objetos serão agrupados em um novo objeto 1*
� d12 será ajustada para zero.
� A matriz de distância é recalculada pela média das distâncias individuais
![Page 12: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/12.jpg)
12
HCA
��Novas distâncias:Novas distâncias:
231,32
260,3202,3
2
2414
4*1=
+=
+=
ddd
681,22
658,2704,2
2
2515
5*1=
+=
+=
ddd
681,22
704,2658,2
2
2616
6*1=
+=
+=
ddd
887,02
711,0063,1
2
2313
3*1=
+=
+=
ddd
Primeira Matriz Reduzida
![Page 13: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/13.jpg)
13
HCA
�Da mesma maneira se calculam as seguintes matrizes reduzidas.
�Para a segunda matriz reduzida, agrupam-se os objetos 4 e 6, que possuem a menor distância (d46=0,559), no novo objeto 4*
Segunda Matriz Reduzida
![Page 14: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/14.jpg)
14
HCA
�Para a terceira matriz reduzida, agrupam-se os objetos 5 e 4* no novo objeto 5*, e para a quarta matriz reduzida, agrupam-se os 1* e 3 (novo objeto 3*):
Objetos 3* 5* 3* 0
5* 2,895 0
Quarta Matriz Reduzida
Terceira Matriz Reduzida
*
![Page 15: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/15.jpg)
15
HCA� Como resultado desta análise, temos o seguinte dendograma:
![Page 16: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/16.jpg)
16
HCA
� Vários critérios podem ser adotados para a escolha do número de agrupamentos (clusters):
� O número de agrupamentos desejado pode ser previamente conhecido.
� Um valor de distância pré-determinado é usado como critério para separar o número de agrupamentos.
� Escolhe-se o número de agrupamentos a partir da observação do dendograma, com base no conheci-mento dos dados.
![Page 17: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/17.jpg)
17
HCA�� CritCritéérios de Agrupamentorios de Agrupamento: A distância de um objeto
ao agrupamento k pode ser calculada como a distância média dos objetos A e B ao objeto i, de várias formas:
� Ligação por média ponderada;� Ligação simples (KNN);� Ligação completa;� Ligação centróide (k means);� Método de Ward;
![Page 18: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/18.jpg)
18
HCA: Critérios de Agrupamento
2
BiAi
ki
ddd
+=
�� LiLigagaçção por mão por méédia ponderadadia ponderada:
![Page 19: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/19.jpg)
19
HCA: Critérios de Agrupamento
( )BiAi
BiAiBiAi
kidd
ddddd ,min
22=
−−
+=
dKi
�� LigaLigaçção Simples (KNN):ão Simples (KNN):
� A menor distância entre os agrupamentos écalculada. Este procedimento também éconhecido KNN (Kth Nearest Neighbor, Késimo vizinho mais próximo).
![Page 20: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/20.jpg)
20
HCA: Critérios de Agrupamento
( )BiAi
BiAiBiAi
kidd
ddddd ,max
22=
−+
+=
�� LigaLigaçção Completa:ão Completa:
� Baseado na maior distância entre os objetos de agrupamentos opostos. Em geral, agrupamentos pequenos, compactos, esféricos e bem separados tendem a se formar.
dKi
![Page 21: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/21.jpg)
21
HCA: Critérios de Agrupamento
2n
dnn
n
dn
n
dnd
ABBABiBAiA
ki−+=
�� LigaLigaçção Centrão Centróóide:ide:
� Centróide é calculado como a média dos objetos de um agrupamento. Evita-se a distorção espacial do agrupamento e tende-se a preservar agrupamentos de pequena importância em relação aos maiores.
dKi
![Page 22: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/22.jpg)
22
HCA: Critérios de Agrupamento
AB
i
i
Bi
i
iB
Ai
i
iA
kid
nn
nd
nn
nnd
nn
nnd
+−
+
++
+
+=
�� MMéétodo de Ward:todo de Ward:
� O agrupamentos são agregados de tal maneira a minimizar a soma de quadrados dos desvios de cada centróide em relação ao próprio grupo. Isto produz dendogramas bem estruturados. O cálculo para as distâncias é dado por:
� É talvez o procedimento mais usado
![Page 23: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/23.jpg)
23
Exemplo real
� Identificação da origem de grãos de café.
� Café analisados :� Sulawesi� Ethiopia� Kenya� Costa Rica� Sumatra� Columbia
![Page 24: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/24.jpg)
24
Método de Análise
� Epectrometria de massas dos grãos de café (por headspace) na faixa de 47-99 m/z.
� 6 amostras foram obtidas de cada fonte.
� Os espectros de massa representam a soma dos espectros de todos componentes presentes.
� Cada espectro foi normalizado pelo pico mais intenso.
![Page 25: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/25.jpg)
25
Espectros de massa
![Page 26: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/26.jpg)
26
Dendograma
![Page 27: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/27.jpg)
27
Quando usar dendogramas?
� Método rápido para uma exploração inicial dos dados.
� Os gráficos podem ser rapidamente avaliados
� Deve-se tentar usar dados sem nenhum pré-processamento ou escalados.
� Deve-se tentar outros métodos de agrupamento (classificação) como Análise de Componentes Principais.
![Page 28: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/28.jpg)
28
Métodos Supervisionados
� Deve-se ter conhecimento inicial sobre as categoriais (ou classes) das amostras que irão ser modeladas.
� Classes definidas baseadas em conhecimento prévio do sistema ou pela utilização de análise exploratória como PCA ou HCA.
�� Principais mPrincipais méétodos:todos:� Máquina de Aprendizagem Linear� Regra do Vizinho mais próximo� SIMCA
![Page 29: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/29.jpg)
29
Conjunto de Dados
� Para o desenvolvimento e avaliação de um modelo para classificação são necessários 3 conjuntos de dados:
�� Conjunto de Treinamento: Conjunto de Treinamento: amostras representativas para a construção do modelo.
�� Conjunto de ValidaConjunto de Validaçção: ão: novas amostras utilizadas para testar o modelo, cujas classes já são conhecidas
�� Conjunto Teste: Conjunto Teste: amostras realmente desconhecidas
![Page 30: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/30.jpg)
30
Pré-processamento dos Dados
1.1. Sem processamento: Sem processamento: casos onde não exista diferenças nas escalas e nem variáveis redundantes.
2.2. Escalamento: Escalamento: pesos de todas as variáveis ficam iguais.
3.3. PCA : PCA : redução do número de variáveis, assim como, de ruídos
![Page 31: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/31.jpg)
31
Criando um conjunto de validação
� Um conjunto de validação muitas vezes é um sub-conjunto do conjunto de treinamento, que foi omitido na construção do modelo.
� Dados devem ser removidos aleatoriamente do conjunto de treinamento
� Dados devem ser removidos aleatoriamente de todas as classes
� Conjunto de validação deve ser representativo das amostras usadas no treinamento.
![Page 32: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/32.jpg)
32
Validação “um por vez”
� Do inglês: Leave-one-out cross-validation
� Validação onde cada amostra do conjunto de treinamento é utilizada para validação.
�� Processo:Processo:1. Retire uma amostra do conjunto de treinamento2. Construa o modelo de classificação3. Teste a amostra retirada4. Volte a amostra retirada para o treinamento 5. Repita o processo a partir de (1) até que todas as
amostras tenham sido retiradas e testadas.
![Page 33: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/33.jpg)
33
Máquina de Aprendizagem Linear
� Do inglês: Linear Learning Machine
� Método onde um ou mais hiperplanos lineares são criados para discriminar entre as classes.
� Conjunto de regras (função discriminante) são criadas para dividir o espaço n-dimensional em regiões das classes, que são usadas posteriormente para prever a classes de novas amostras
� As classes devem ser separadas linearmente
![Page 34: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/34.jpg)
34
Máquina de Aprendizagem Linear
� Um hiperplano pode dividir o espaço em 2 sub-espaços.
� Pode utilizar o espaço original ou o espaço dos componentes principais.
Classe 1
Classe 2
![Page 35: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/35.jpg)
35
Máquina de Aprendizagem Linear
� Pode ser existam muitos hiperplanos para a separação das classes.
� Escolhe-se aquele que produzir a melhor separação
![Page 36: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/36.jpg)
36
Exemplo
� Considere os dados abaixo p/ amostras de cabelo de 5 pacientes pertencentes a 2 classes.
� Para achar uma função linear discriminante, énecessário adicionar uma coluna com valores um.
Amostra de cabelo
Teor de Iodo (ppm)
Componente adicionado
1 0,29 1,02 4.88 1,03 0.31 1,04 3.49 1,05 4.46 1,0
Teor Iodo (ppm)1 2 543
![Page 37: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/37.jpg)
37
Exemplo
� Esta coluna garante que se possa estimar uma função linear discriminante passando pela origem(0,0) e sendo perpendicular a um vetor de pesos w.
![Page 38: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/38.jpg)
38
Exemplo
� A fronteira que separa as 2 classes é calculada interativamente, ajustando os elementos do vetor w:
� sendo s um escalar discriminante e θ o ângulo entre we o vetor dos dados x.
� Se θθθθ <<<< 90º, s >>>> 0,0 e os objetos representados serão os da classe dos círculos pretos
� Se θθθθ >>>> 90º, s <<<< 0,0 e os objetos representados serão os da classe dos círculos vermelhos.
![Page 39: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/39.jpg)
39
Máquina de Aprendizagem Linear
� Se o número de classes aumenta, deve-se ter mais hiperplanos para a separação.
� Problema pode se tornar muito complexo.
![Page 40: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/40.jpg)
40
Máquina de Aprendizagem Linear
� Em certos casos pode ser que não seja possível encontrar uma separação linear entre as classes.
� Deve-se utilizar outros procedimentos para classificação.
![Page 41: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/41.jpg)
41
K-vizinho mais próximo
� Do inglês: k-nearest neighbor (KNN)
� Método de classificação baseado na similaridade
� Designa categoria a uma amostra desconhecida baseado na proximidade multivariada com outras amostras cujas categorias são conhecidas.
� k → número de vizinhos mais próximos sendo comparados
![Page 42: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/42.jpg)
42
K-vizinho mais próximo
�� Procedimento:Procedimento:1. Conjunto de treinamento é selecionado que
contenha exemplos de todas as classes.
2. Distâncias são calculadas.
3. As distâncias em relação à amostra desconhecida são comparadas com:
1. Os k vizinhos mais próximos2. O agrupamento da classe mais próxima
![Page 43: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/43.jpg)
43
K-vizinho mais próximo
� Quando da utilização da distância para uma classe, pode utilizar as mesmas opções de ligação discutidas anteriormente:
� Ligação simples: membro mais próxima da classe� Ligação completa: membro mais distante da
classe� Ligação centróide: centro do agrupamento ds
classe
![Page 44: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/44.jpg)
44
Exemplo do KNN
Neste exemplo a amostra desconhecida é comparadacom os 3 vizinhos maispróximos.Neste caso, os 3 vizinhos mais próximos pertencema categoria “vermelha”.
Amostra desconhecida, classificada como categoria “vermelha”
![Page 45: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/45.jpg)
45
Exemplo KNN centróide
Amostra desconhecida
Distância do centro do agrupamento da classe é determinadoe comparado para a classificação de uma amostra desconhecida
![Page 46: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/46.jpg)
46
Problemas para classificação
� Em certos casos, os k-vizinhos mais próximos podem pertencer a classes diferentes.
� Nesses casos, a classe escolhida é aquela que tem mais participações dentre os k-vizinhos.
Amostra desconhecida
![Page 47: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/47.jpg)
47
SIMCA
�� SSoft IIndependent MModeling of CClass AAnalogy
� Para cada classe de amostras um modelo de PCA éconstruído separadamente.
� O modelo é baseado no número ótimo de componentes principais que melhor agrupam as classes.
� O número de componentes principais pode variar de classe para classe e pode ser determinado por validação cruzada.
![Page 48: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/48.jpg)
48
Análise de Componentes Principais
� Decomposição de uma matriz de dados com alta dimensão.
� Para cada classe um modelo é construído, que decompõe a matriz de dados da classe em escores e pesos.
� Para um escalar da matriz X:
onde xijc é a observação da amostra i, variável j, classe c.
∑=
++=cA
a
cij
cja
cia
cj
cij eptxx
1
![Page 49: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/49.jpg)
49
Análise de Componentes Principais
= +•••••••••••••••
E P T X +=T
•
•
�
•••••••••••••••• •
••
• •
�
•••••••••••••••�•••••••••••••••�
![Page 50: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/50.jpg)
50
Modelos SIMCA
� São construídos “envelopes” em torno de cada modelo.
X
X XXX
XXX
2 S0
2 S0
PC1
Var.1
Var.3
Var.2
PC2
PC1
X
2 S0
![Page 51: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/51.jpg)
51
Modelos SIMCA
� Pode-se limitar o tamanho do hipervolume pela escolha de um valor de desvio padrão, para melhorar a definição das classes.
� Variância residual para uma classe é dada por:
onde nn é o número de amostras, pp é o número de variáveis e AA o número de componentes principais utilizados no modelo
3S0
2S0
∑∑= = −−−
=n
i
p
j
ij
ApAne
S1 1
220 ))(1(
![Page 52: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/52.jpg)
52
Classificação com SIMCA
� Uma vez que o modelo para cada classe tenha sido desenvolvido, pode-se realizar a classificação de amostras desconhecidas.
�� Procedimento:Procedimento:1. A amostra é projetada no espaço dos
componentes principais2. Se cair dentro do “envelope” da classe é
classificada como pertencente a ela.
![Page 53: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/53.jpg)
53
Classificação com SIMCA
� Existe a possibilidade da amostra ser classificada como pertencente a mais de uma classe,
� ou, não pertencer a nenhuma das classes conhecidas.
Amostra anômala(outlier)
![Page 54: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/54.jpg)
54
Detecção de amostras anômalas
�� Amostras anômalasAmostras anômalas : não se encaixam em nenhuma das classes conhecidas.
� Variância residual para uma amostra i:
� Se Si2 > 2So
2 → amostra não tem a mesma variabilidade em torno do modelo e pode ser considerada como anômala
∑= −
=
p
j q
iji Ap
eS
1
22
![Page 55: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/55.jpg)
55
Poder de Modelagem
� A variância residual de cada variável j, sj2(res),
pode ser usada para estimar o seu poder de modelagem, Rj (a sua influência no modelo).
� Quanto mais Rj estiver próximo de 1, maior a importância da variável j no modelo.
![Page 56: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/56.jpg)
56
Resumo do SIMCA
� De todos os métodos vistos, o SIMCA é aquele que apresenta maior número de opções para o desenvolvimento do modelo de classificação quando as classes são bem conhecidas.
� Ele requer maior tempo no desenvolvimento para a determinação do modelo ótimo para cada classe.
� Excelente para detectar anomalias nas amostras.
![Page 57: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/57.jpg)
57
Exemplo
� 11 elementos foram analisados em vinhos (Espanha): � K, Na, Ca, Mg, Fe, Cu, Zn, Mn, Sr, Li, Rb
� 3 origens (45 amostras):�� El Hierro El Hierro (7 vinhos seco)�� La Palma La Palma (11 secos, 9 doces)�� LanzaroteLanzarote (10 secos, 8 doces)
![Page 58: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/58.jpg)
58
Dendograma
DH : secos de El HierroDP : secos de La Palma SP : doces de La PalmaDL: secos de LanzaroteSL: doces de Lanzarote
vinhos doces- Las Palmas (SP): açúcar natural, sobre amadurecimento (Late Harvest)- Lanzarote (SL): açúcar adicionado
![Page 59: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/59.jpg)
59
PCA
DH
DP
SP DL + SL
DH : secos de El HierroDP : secos de La Palma SP : doces de La PalmaDL: secos de LanzaroteSL: doces de Lanzarote
![Page 60: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/60.jpg)
60
SIMCA
�� ModelosModelos: � El Hierro : 3 Componentes Principais� La Palma : 4 Componentes Principais� Lanzarote : 4 Componentes Principais
� 1 amostra de La Palma fora dos limites da classe
� Nenhum dos modelos construídos tiveram amostras das outras classes.
� Classificação 100% correta.
![Page 61: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/61.jpg)
61
Gráfico de Coomans
Distância crítica para cada classe
Fora dos limites da classe
![Page 62: ronei@iqm.unicamp - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo,](https://reader031.vdocuments.com.br/reader031/viewer/2022031319/5c0c2fdb09d3f247038ba923/html5/thumbnails/62.jpg)
62
Poder de Modelagem