09/03/2018
1
1
UNIVERSIDADE DE SÃO PAULO - USP
Instituto de Química de São Carlos - IQSC
Grupo de Química Medicinal do IQSC/USP
2
Representação esquemática de estruturas de dados
09/03/2018
2
Tipos de variáveis
ContínuaConcentração, volume ocupado,
coeficiente de partição
DiscretaEstrutural
(0) meta-substituído
(1) sem substituição em meta
Qualquer método que incorpore informações de amostras de treinamento
no planejamento de um classificador emprega aprendizado.
Usamos o aprendizado porque todos os problemas de reconhecimento são tão difíceis que não podemos adivinhar a
classificação antes do tempo.
09/03/2018
3
Abordagem:
Assuma alguma forma geral de modelo
Use padrões de treinamento para aprender ou estimar os parâmetros desconhecidos.
Aprendizagem supervisionadaO professor fornece um rótulo para cada padrão em um conjunto de treinamento.
Objetivo: reduzir a soma dos custos desses padrões
Problemas: como se certificar de que o algoritmo de aprendizagem pode aprender a solução?
Será estável a variação de parâmetros?Convergirá em tempo finito?
Escalar com padrões de treinamento e # de parâmetros de entrada.
09/03/2018
4
Aprendizagem não supervisionada
Não existe um professor explícito.
O sistema forma "agrupamento natural" dos padrões de
entrada.
Aprendizado e adaptaçãoInteligência artificial
Aprendizadoe
classificação
Fontesmúltiplas
Yij Xik
Compostos1234567
.
.
.i
.
.
.n
Atividade biológica
1, 2, j, m
Descritores químicos
1, 2, 3...k...p
Classe 1
Classe 2
Série teste
09/03/2018
5
Apresentação dos dados
Exemplo: 53 Medições de sangue e urina (química úmida)
de 65 pessoas (33 alcoólicos, 32 não-alcoólatras).
H-WBC H-RBC H-Hgb H-Hct H-MCV H-MCH H-MCHCH-MCHC
A1 8.0000 4.8200 14.1000 41.0000 85.0000 29.0000 34.0000
A2 7.3000 5.0200 14.7000 43.0000 86.0000 29.0000 34.0000
A3 4.3000 4.4800 14.1000 41.0000 91.0000 32.0000 35.0000
A4 7.5000 4.4700 14.9000 45.0000 101.0000 33.0000 33.0000
A5 7.3000 5.5200 15.4000 46.0000 84.0000 28.0000 33.0000
A6 6.9000 4.8600 16.0000 47.0000 97.0000 33.0000 34.0000
A7 7.8000 4.6800 14.7000 43.0000 92.0000 31.0000 34.0000
A8 8.6000 4.8200 15.8000 42.0000 88.0000 33.0000 37.0000
A9 5.1000 4.7100 14.0000 43.0000 92.0000 30.0000 32.0000
Em formato de matriz
0 10 20 30 40 50 600
100
200
300
400
500
600
700
800
900
1000
measurement
Val
ue
Measurement
Em formato gráfico
Apresentação dos dados...
09/03/2018
6
Apresentação dos dados...
Melhor apresentação do que os eixos de
coordenadas?
Precisamos de um espaço de 53 dimensões
para visualizar os dados?
Como encontrar o "melhor" espaço de baixa
dimensão que fornece informações úteis
máximas?
Uma resposta:
encontre as
"Componentes Principais "
09/03/2018
7
Desejamos explicar/sumariar a estrutura subjacente de
variância-covariância de um grande conjunto de variáveis
através de algumas combinações lineares dessas
variáveis.
Objetivos
Usos:Visualização de dados
Redução de dadosClassificação de dadosAnálise de tendências
Análise de fatoresRedução de ruído
09/03/2018
8
Exemplos:
Quantos "subconjuntos" exclusivos estão na amostra?
Quão semelhantes/diferentes?
Quais são os fatores subjacentes que influenciam as
amostras?
Quais as tendências são (anti)correlacionadas?
Quais as medidas necessárias para diferenciação?
Como melhor apresentar o que é "interessante"?
Qual "subconjunto", essa nova amostra pertence
legitimamente?
n
p
A n
k
X
Sumário de dados com muitas variáveis (p) em um conjunto
menor de variáveis (k) sintéticas ou compostas
09/03/2018
9
Ato de equilíbrio entre:
(i) clareza de representação, facilidade de compreensão;
(ii) simplificação excessiva: perda de informações importantes ou
relevantes.
Provavelmente o mais utilizado e conhecido dos métodos multivariados
Inventado por Pearson (1901) e Hotelling(1933)
Primeiro aplicação em ecologia por Goodall(1954) sob o nome "análise fatorial"
("análise do fator principal" é um sinônimo de PCA).
Análise de Componentes Principais, PCA
09/03/2018
10
(i) Toma uma matriz de dados de n objetos por variáveis p, que podem estar correlacionadas e sumaria em eixos não
correlacionados (componentes principais ou eixos principais) que são combinações
lineares das variáveis p originais
(ii) os primeiros k componentes exibem o máximo possível da variação entre os
objetos.
(i) Os objetos são representados como uma nuvem de n pontos em um espaço
multidimensional com um eixo para cada uma das variáveis p
(ii) O centróide dos pontos é definido pela média de cada variável
(iii) A variância de cada variável é o desvio quadrático médio de seus valores n em torno da
média dessa variável.
n
m
iimi XXn
V1
2
1
1
09/03/2018
11
O grau em que as variáveis são linearmente correlacionadas é
representado por suas covariâncias.
O objetivo do PCA é rotacionarrigidamente os eixos do espaço p-
dimensional para novas posições (eixos principais) que possuem as seguintes
propriedades:
(i) o eixo principal 1 tem a maior variação (ii) o eixo 2 tem a seguinte variância mais
elevada, .... e o eixo p tem a menor variação
(iii) a covariância entre cada par dos eixos principais é zero (os eixos principais não
são correlacionados).
09/03/2018
12
Representação geométrica dos dados
09/03/2018
13
Suponhamos que tenhamos uma população medida em p variáveis aleatórias X1, ..., Xp.
Note-se que essas variáveis aleatórias representam os p-eixos do sistema de
coordenadas cartesianas em que a população reside.
Nosso objetivo é desenvolver um novo conjunto de p-eixos (combinações lineares dos p-eixosoriginais) nas direções de maior variabilidade:
Truque: Gire os eixos das coordenadas
Em outras palavras, dados m pontos em um espaço dimensional n, como projetar
para um espaço de 1 dimensão?
Escolha uma linha que se encaixe nos
dados para que os pontos sejam
espalhados bem ao longo dessa linha!
09/03/2018
14
Interpretação algébrica 1D
Formalmente, minimize a soma dos
quadrados das distâncias até a linha.
Por quê a soma dos quadrados? Porque
permite uma minimização rápida,
assumindo que a linha passa por 0
Minimizar a soma de quadrados de distâncias para a linha é o mesmo que maximizar a soma dos quadrados das
projeções nessa linha, graças a Pitágoras.
09/03/2018
15
09/03/2018
16
Amostras em espaço bidimensional
Dois agrupamentosde amostras
1, 2, 3e
4, 5, 6
0 representa ocentróide dos dados,
i.e., os valores médiosde cada variável
09/03/2018
17
Projeção dos dados em novos eixos
...
...
K
K
N X
PCA
N
A
A
P, Pesos
T,
Escores
09/03/2018
18
Exemplo
ExemploMatriz de dados originais
09/03/2018
19
Gráfico dos dados
Média e variância dos dados escalonados
09/03/2018
20
Gráfico dos dados escalonados
Matriz de pesos
09/03/2018
21
Gráfico dos pesos
Gráfico dos escores
09/03/2018
22
PCA.Espécies em um espaço
Normalização
1. Subtrai a média e divide
pelo desvio padrão
2. Centróide é zero
3. Localização relativa dos
pontos é mantida
09/03/2018
23
Gradiente entre as espécies 1 e 2
d,a
c
b
Rotação: eixo PC1 sobre eixo Xeixo PC2 sobre eixo Y
t
W
x
y
z
b, m, n, u, r, t
09/03/2018
24
Quantos eixos interpretar?
PC1: 63%
PC2: 33%
PC3: 4%
= 3!
Contribuição das espécies para os eixos
Pesos ou pesos dos fatores
Espécies PCA 1 PCA 2 PCA 3
S1 0,969 0,066 -0,239
S2 0,970 0,041 0,239
S3 -0,104 0,994 0,006
PC1 = 0,969(P1) + 0,970(P2) – 0,104(P3)
PC2 = 0,066(P1) + 0,041(P2) + 0,994(P3)
PC3 = -0,239(P1) + 0,239(P2) + 0,006(P3)
09/03/2018
25
Conclusões
• A PC representa novos eixos no espaço de medida das variáveis
• As PCs são determinadas a partir da distribuição das amostras no espaço de variáveis– Refletem a estrutura dos dados
• Usualmente, poucas PCs são suficientes para modelar os dados– No. PCs << No. variáveis
Sugestão de Leitura