Download - Representação esquemática de estruturas de dadosnequimed.iqsc.usp.br/files/2018/03/A2.pdf(i) Os objetos são representados como uma nuvem de n pontos em um espaço multidimensional

09/03/2018

1

1

UNIVERSIDADE DE SÃO PAULO - USP

Instituto de Química de São Carlos - IQSC

Grupo de Química Medicinal do IQSC/USP

2

Representação esquemática de estruturas de dados

09/03/2018

2

Tipos de variáveis

ContínuaConcentração, volume ocupado,

coeficiente de partição

DiscretaEstrutural

(0) meta-substituído

(1) sem substituição em meta

Qualquer método que incorpore informações de amostras de treinamento

no planejamento de um classificador emprega aprendizado.

Usamos o aprendizado porque todos os problemas de reconhecimento são tão difíceis que não podemos adivinhar a

classificação antes do tempo.

09/03/2018

3

Abordagem:

Assuma alguma forma geral de modelo

Use padrões de treinamento para aprender ou estimar os parâmetros desconhecidos.

Aprendizagem supervisionadaO professor fornece um rótulo para cada padrão em um conjunto de treinamento.

Objetivo: reduzir a soma dos custos desses padrões

Problemas: como se certificar de que o algoritmo de aprendizagem pode aprender a solução?

Será estável a variação de parâmetros?Convergirá em tempo finito?

Escalar com padrões de treinamento e # de parâmetros de entrada.

09/03/2018

4

Aprendizagem não supervisionada

Não existe um professor explícito.

O sistema forma "agrupamento natural" dos padrões de

entrada.

Aprendizado e adaptaçãoInteligência artificial

Aprendizadoe

classificação

Fontesmúltiplas

Yij Xik

Compostos1234567

.

.

.i

.

.

.n

Atividade biológica

1, 2, j, m

Descritores químicos

1, 2, 3...k...p

Classe 1

Classe 2

Série teste

09/03/2018

5

Apresentação dos dados

Exemplo: 53 Medições de sangue e urina (química úmida)

de 65 pessoas (33 alcoólicos, 32 não-alcoólatras).

H-WBC H-RBC H-Hgb H-Hct H-MCV H-MCH H-MCHCH-MCHC

A1 8.0000 4.8200 14.1000 41.0000 85.0000 29.0000 34.0000

A2 7.3000 5.0200 14.7000 43.0000 86.0000 29.0000 34.0000

A3 4.3000 4.4800 14.1000 41.0000 91.0000 32.0000 35.0000

A4 7.5000 4.4700 14.9000 45.0000 101.0000 33.0000 33.0000

A5 7.3000 5.5200 15.4000 46.0000 84.0000 28.0000 33.0000

A6 6.9000 4.8600 16.0000 47.0000 97.0000 33.0000 34.0000

A7 7.8000 4.6800 14.7000 43.0000 92.0000 31.0000 34.0000

A8 8.6000 4.8200 15.8000 42.0000 88.0000 33.0000 37.0000

A9 5.1000 4.7100 14.0000 43.0000 92.0000 30.0000 32.0000

Em formato de matriz

0 10 20 30 40 50 600

100

200

300

400

500

600

700

800

900

1000

measurement

Val

ue

Measurement

Em formato gráfico

Apresentação dos dados...

09/03/2018

6

Apresentação dos dados...

Melhor apresentação do que os eixos de

coordenadas?

Precisamos de um espaço de 53 dimensões

para visualizar os dados?

Como encontrar o "melhor" espaço de baixa

dimensão que fornece informações úteis

máximas?

Uma resposta:

encontre as

"Componentes Principais "

09/03/2018

7

Desejamos explicar/sumariar a estrutura subjacente de

variância-covariância de um grande conjunto de variáveis

através de algumas combinações lineares dessas

variáveis.

Objetivos

Usos:Visualização de dados

Redução de dadosClassificação de dadosAnálise de tendências

Análise de fatoresRedução de ruído

09/03/2018

8

Exemplos:

Quantos "subconjuntos" exclusivos estão na amostra?

Quão semelhantes/diferentes?

Quais são os fatores subjacentes que influenciam as

amostras?

Quais as tendências são (anti)correlacionadas?

Quais as medidas necessárias para diferenciação?

Como melhor apresentar o que é "interessante"?

Qual "subconjunto", essa nova amostra pertence

legitimamente?

n

p

A n

k

X

Sumário de dados com muitas variáveis (p) em um conjunto

menor de variáveis (k) sintéticas ou compostas

09/03/2018

9

Ato de equilíbrio entre:

(i) clareza de representação, facilidade de compreensão;

(ii) simplificação excessiva: perda de informações importantes ou

relevantes.

Provavelmente o mais utilizado e conhecido dos métodos multivariados

Inventado por Pearson (1901) e Hotelling(1933)

Primeiro aplicação em ecologia por Goodall(1954) sob o nome "análise fatorial"

("análise do fator principal" é um sinônimo de PCA).

Análise de Componentes Principais, PCA

09/03/2018

10

(i) Toma uma matriz de dados de n objetos por variáveis p, que podem estar correlacionadas e sumaria em eixos não

correlacionados (componentes principais ou eixos principais) que são combinações

lineares das variáveis p originais

(ii) os primeiros k componentes exibem o máximo possível da variação entre os

objetos.

(i) Os objetos são representados como uma nuvem de n pontos em um espaço

multidimensional com um eixo para cada uma das variáveis p

(ii) O centróide dos pontos é definido pela média de cada variável

(iii) A variância de cada variável é o desvio quadrático médio de seus valores n em torno da

média dessa variável.

n

m

iimi XXn

V1

2

1

1

09/03/2018

11

O grau em que as variáveis são linearmente correlacionadas é

representado por suas covariâncias.

O objetivo do PCA é rotacionarrigidamente os eixos do espaço p-

dimensional para novas posições (eixos principais) que possuem as seguintes

propriedades:

(i) o eixo principal 1 tem a maior variação (ii) o eixo 2 tem a seguinte variância mais

elevada, .... e o eixo p tem a menor variação

(iii) a covariância entre cada par dos eixos principais é zero (os eixos principais não

são correlacionados).

09/03/2018

12

Representação geométrica dos dados

09/03/2018

13

Suponhamos que tenhamos uma população medida em p variáveis aleatórias X1, ..., Xp.

Note-se que essas variáveis aleatórias representam os p-eixos do sistema de

coordenadas cartesianas em que a população reside.

Nosso objetivo é desenvolver um novo conjunto de p-eixos (combinações lineares dos p-eixosoriginais) nas direções de maior variabilidade:

Truque: Gire os eixos das coordenadas

Em outras palavras, dados m pontos em um espaço dimensional n, como projetar

para um espaço de 1 dimensão?

Escolha uma linha que se encaixe nos

dados para que os pontos sejam

espalhados bem ao longo dessa linha!

09/03/2018

14

Interpretação algébrica 1D

Formalmente, minimize a soma dos

quadrados das distâncias até a linha.

Por quê a soma dos quadrados? Porque

permite uma minimização rápida,

assumindo que a linha passa por 0

Minimizar a soma de quadrados de distâncias para a linha é o mesmo que maximizar a soma dos quadrados das

projeções nessa linha, graças a Pitágoras.

09/03/2018

15

09/03/2018

16

Amostras em espaço bidimensional

Dois agrupamentosde amostras

1, 2, 3e

4, 5, 6

0 representa ocentróide dos dados,

i.e., os valores médiosde cada variável

09/03/2018

17

Projeção dos dados em novos eixos

...

...

K

K

N X

PCA

N

A

A

P, Pesos

T,

Escores

09/03/2018

18

Exemplo

ExemploMatriz de dados originais

09/03/2018

19

Gráfico dos dados

Média e variância dos dados escalonados

09/03/2018

20

Gráfico dos dados escalonados

Matriz de pesos

09/03/2018

21

Gráfico dos pesos

Gráfico dos escores

09/03/2018

22

PCA.Espécies em um espaço

Normalização

1. Subtrai a média e divide

pelo desvio padrão

2. Centróide é zero

3. Localização relativa dos

pontos é mantida

09/03/2018

23

Gradiente entre as espécies 1 e 2

d,a

c

b

Rotação: eixo PC1 sobre eixo Xeixo PC2 sobre eixo Y

t

W

x

y

z

b, m, n, u, r, t

09/03/2018

24

Quantos eixos interpretar?

PC1: 63%

PC2: 33%

PC3: 4%

= 3!

Contribuição das espécies para os eixos

Pesos ou pesos dos fatores

Espécies PCA 1 PCA 2 PCA 3

S1 0,969 0,066 -0,239

S2 0,970 0,041 0,239

S3 -0,104 0,994 0,006

PC1 = 0,969(P1) + 0,970(P2) – 0,104(P3)

PC2 = 0,066(P1) + 0,041(P2) + 0,994(P3)

PC3 = -0,239(P1) + 0,239(P2) + 0,006(P3)

09/03/2018

25

Conclusões

• A PC representa novos eixos no espaço de medida das variáveis

• As PCs são determinadas a partir da distribuição das amostras no espaço de variáveis– Refletem a estrutura dos dados

• Usualmente, poucas PCs são suficientes para modelar os dados– No. PCs << No. variáveis

Sugestão de Leitura

Download - Representação esquemática de estruturas de dadosnequimed.iqsc.usp.br/files/2018/03/A2.pdf(i) Os objetos são representados como uma nuvem de n pontos em um espaço multidimensional

Top Related