aga 0512- análise de dados em astronomia ii 5. classificação

AGA 0512- Análise de Dados em Astronomia II

5. Classificação

Laerte Sodré Jr.

2o. semestre, 2019

1 / 29

Introdução

aula de hoje:

1 o que é classificação2 classificação gerativa: NB, LDA3 k-nn4 regressão logística5 SVM - support vector machine6 árvores de decisão7 aprendizado em conjunto8 avaliação dos classificadores

We balance probabilities and choose the most likely.It is more than possible; it is probable.

Sherlock Holmes em Silver Blaze, Arthur Conan Doyle

2 / 29

o que é classificação


vamos considerar uma amostra de Nobjetos com D atributosx = {xij}, i = 1...N, j = 1...Da cada objeto podemos associar umaclasse ou rótulo: yexemplos:

classificação morfológica de galáxias:E, S0, S, Irobjetos puntuais: estrela, galáxia,quasarclassificação estelar: OBAFGKM,classes de luminosidadedetecção/não-detecção

os dados podem ser reais oucategóricos

as classes são variáveis categóricas

galáxias quasarEstrela anã branca

3 / 29



classificação: utilizamos um conjuntode treinamento para estabelecer umarelação entre os atributos e as classes:y = f (x)

a classificação pode ser binária oumulticlasse

dados x

0 estrela

1 galáxia

classificador

f(x)

y = f (x)

Storrie-Lombardi et al. (1992)

4 / 29



problemas:sopreposição de classes

imbalance: desequilíbrio do númerode objetos em cada classe

5 / 29


a função custo

custo “0-1”:atribui-se 1 a uma classificaçãoerrada e 0 a uma certa

se y é a estimativa de y, o custo é

L(y, y) =

{1 se y 6= y0 se y = y

risco da classificação:

E[L(y, y)] = P(y 6= y)

é igual à taxa de erro

entropia cruzada

CE(y, y) = − 1N

∑i

[yi log yi+

+(1− yi) log(1− yi)]

erro quadrático medio:

1N

∑i

(yi − yi)2

6 / 29


exemplo com duas classes

detecção (1) ou não-detecção (0):

dois tipos de erros:

tipo I: falso positivo (FP):atribui-se 1 a um objeto cujaclasse é 0

tipo II: falso negativo (FN):atribui-se 0 a um objeto cujaclasse é 1

acertos:TP: true positiveTN: true negative

TP: True PositiveFN: Falso Negativo

erro tipo IITP: True Positive

FP: Falso Positivoerro tipo I TN: True Negative

Predição 1 Predição 0

medida 1

medida 0

7 / 29


completeza e contaminação (2 classes)

completeza: fração de detecções(recall)

R =TP

TP + FNcontaminação: fração de detecçõeserradas

FPTP + FP

acurácia: fração de detecções corretas

TP + TNTP + TN + FP + FN

taxa de erro: (misclassification)

FP + FNTP + TN + FP + FN

eficiência ou precisão(ou PPV: Positive Predictive Value)= 1 - contaminação

P =TP

TP + FP

F1 score: média harmônica de precisão ecompleteza

F1 = 2P.R

P + R

dependendo da natureza do problema edo objetivo, pode-se otimizar a completezaou a eficiência, etc 8 / 29

classificação gerativa

classificação gerativa e discriminativa

classificação gerativa:modela-se diretamente a função dedistribuição de cada atributo paracada classe e aplica-se o teorema deBayesex.: Naive Bayes

classificação discriminativa:os parâmetros que descrevem oslimites de decisão entre as classessão determinados diretamente dosdadosex.: regressão logística, SVM, kNN

limite de decisão: linha, superfície, etc,que separa as classes entre si noespaço de dados

9 / 29



descreve-se cada classe com uma funçãode distribuição de probabilidades

função discriminante: podemos considerara classificação como uma regressão ondey é uma variável categórica:

y = g(x)

g(x) =

∫yP(y|x)dy =

1×P(y = 1|x)+ 0×P(y = 0|x) = P(y = 1|x)

usando o teorema de Bayes:

g(x) =P(x|y = 1)P(y = 1)

P(x|y = 1)P(y = 1) + P(x|y = 0)P(y = 0)

=p1(x)π1

p1(x)π1 + p0(x)π0

onde pk(x) = P(x|y = yk) e πk = P(y = yk)

classificador bayesiano:

y =

{1 se g(x) > 1/20 se g(x) ≤ 1/2

caso multiclasse: tem-se um gk para cadaclasse e escolhe-se a classe com o maiorgk

limite de decisão entre duas classes:definido por

π1p1(x) = π0p0(x)10 / 29


exemplo

amostra de fontes puntuais do SDSSclassificadas em 3 classes:

1- QSO

2- estrelas de sequência principal(MS) + gigantes vermelhas (RG)

3- anãs brancas (WD)

Feigelson & Babu em ModernStatistical Methods for Astronomy

https://astrostatistics.psu.edu/MSMA/

11 / 29


Naive Bayes

problema: em muitas dimensões édifícil determinar as PDFsNaive Bayes: supomos que osatributos são independentespara um dado objeto:

P(xj, xl|yk) = P(xj|yk)P(xl|yk)

j e l referem-se a atributos dos dados ek a uma da K classes do problemaverossimilhança:

pk(x) = P(x|yk) =D∏

j=1

P(xj|yk)

classificação:

P(yk|x) =P(x|yk)P(yk)∑

j P(x|yj)P(yj)

ou

y = argmaxykP(yk|x)

ex.: NB gaussiano

P(xj|yk) ∼ N(µjk, σjk)

os parâmetros µjk, σjk podem serobtidos por máxima verossimilhança

12 / 29


Naive Bayes

se os x são discretos (binagem):

pk(x): fração de objetos da classe kno bin x

πk: fração de objetos na classe k

para lidar com bins nulos: suavizaçãode Laplace- adiciona-se um certo α naprobabilidade de cada bin pk(x), paratodos os k

outros parâmetros ajustáveis:kernel para estimar densidades;largura de banda flexível

13 / 29


LDA

LDA: linear discriminant analysisassume que as distribuições declasse pk são gaussianas com amesma covariância Σnesse caso,

gk(x) = xTΣ−1µk −12µT

k Σ−1 + logπk

µk: média de cada atributo para osmembros da classe knote que a discriminação é linear emrelação a xrelaxando-se a suposição de mesmacovariância tem-se uma função dediscriminação quadrática

14 / 29

classificação discriminativa: k-nn

classificação com k-nn

adota-se a classe do objeto do conjunto de treinamento mais próximométodo totalmente não-paramétricoos limites de decisão formam uma tesselagem de Voronoi

15 / 29

classificação discriminativa: k-nn

classificação com k-nn

adota-se a classe do objeto doconjunto de treinamento mais próximo

muitas vezes adotam-se k vizinhos eou adota-se a classe majoritária oupondera-se pela distância dos vizinhos

nesse caso k pode ser obtido porvalidação cruzada

funciona bem para amostras grandes

o método é não-viesado, mas podeapresentar alta variância se o espaçode dados é subamostrado

o método é sensível à definição dedistância

16 / 29

classificação discriminativa: regressão logística

regressão logística

vamos exemplificar com 2 classes:y = 0 ou 1

P(y = 1|xi) = S(∑

j wjxij) = f (x|w)

S(x): função sigmóide ou logística

S(x) =1

1 + e−x 0 < S(x) < 1

função logit:

logit(pi) = ln

(pi

1− pi

)=∑

j

wjxij

função custo: como y é binário, o custopode ser modelado com uma função deBernoulli:

L(w) =

N∏i=1

pi(w)yi(1− pi(w))1−yi

w é obtido minimizando-se L(w), isto é, oerro na classificação

17 / 29

classificação discriminativa: regressão logística

regressão logística

regressão multiclasse:

um contra todosajusta-se cada classe fazendo y = 1para ela e y = 0 para as demaisy = sigmoide(x|w)

ex.: QSO = 1, MS+RG+WD = 2

18 / 29

classificação discriminativa: SVM

SVM: support vector machines

margem: hiperplano que maximiza adistância do ponto mais próximo de cadaclasse

o conceito de margem pode ser extendidopara o caso (geral) em que as classes sesobrepõem

pontos na margem: “vetores de suporte”

SVM é menos sensível ao imbalance queoutros métodos: atinge alta completeza,mas com alta contaminação

19 / 29

classificação discriminativa: árvores de decisão

árvores de decisão/decision trees

AD/DT: nós e ramoso nó do topo contém todos os dadosem cada nível da árvore os nós sãodivididos em dois (ou mais) nós filhosas divisões são baseadas em um limitede decisão: um dos nós filhos contémos dados acima do limite e o outro osdados abaixo desse limiteas divisões ocorrem até que um certocritério seja atingidoos nós terminais da árvore (“folhas”)registram a fração de pontos dentro decada nó com suas classificações

20 / 29


árvores de decisão/decision trees

a classificação de uma folha é a da classemajoritária do conjunto de treinamento queela contém

classificação de um novo dado:seguem-se os ramos da árvore numasérie de decisões binárias até se chegarnuma folha; atribui-se ao dado aclassificação da folha

21 / 29


árvores de decisão: funções de custo

critério de divisão: precisa-se escolherqual atributo dividir e o valor da divisão

funções de custo:

ganho de informação: redução daentropia na partição dos dados

erro de classificação(misclassification): probabilidade deque um dado ao acaso sejaclassificado errado

coeficiente de Gini: mede o desvio deuma distribuição cumulativa daesperada pela distribuição uniformeG = 0 para a distribuição uniforme;G ≤ 1se pi é a probabilidade da classe i,

G =∑

i

pi(1− pi)

G e MC são frequentemente usadosquando os dados são categóricos

22 / 29


árvores de decisão: controle do crescimento da árvore

complexidade da árvore: número deníveis, ou profundidade da árvore

quando interromper o crescimento:quando o nó só tem membros deuma classequando o número de nós e/ou aprofundidade atinge um valorpré-definido

aumento de complexidade pode levara overfitting

usa-se validação cruzada com umafunção de custo para otimizar aprofundidade

podagem: avalia-se em cada nó seterminar a árvore ali melhora aprecisão

em geral essa análise deve ser feitaem um conjunto de teste,independente

23 / 29

classificação discriminativa: ensemble learning

ensemble learning: bagging e random forest

ensemble learning: aprendizado emconjunto- combina-se o resultado devários modelos com algum tipo devotação ou média

bagging (“ensacar”):o nome vem de bootstrap aggregationusa a média dos resultados comvárias amostras obtidas por bootstrapdo conjunto de treinamentomuito usado com árvores de decisão

x: dados

subamostras

classificadores

resultadoy

24 / 29


ensemble learning: bagging e random forest

RF: random forest

gera ADs das amostras de bootstrap,mas usando apenas subconjuntos deatributos escolhidos ao acasoa classificação final é a média dasclassificações individuaisparâmetros: número de árvores (n) ede atributos (m) que serão usados emcada árvorem relativamente pequeno evitaoverfitting e melhora a preditividaden e m podem ser obtidos porvalidação cruzada

25 / 29


boosting

boosting: “impulsionando”

combinação de “classificadores fracos”para melhorar a classificação

exemplo: AD com profundidademáxima n = 3

cada novo classificador tenta corrigiros erros até aquele momento:algoritmo sequencial

problema:o tempo de processamentopode ficar proibitivo

gbm: gradient boosting machine

26 / 29

avaliação dos classificadores

como comparar classificadores

critérios de escolha:completeza x contaminaçãocurva ROC: receiver operatingcharacteristic

taxa de TP x taxa de FP conforme afunção de discriminação mudacurvas mais altas na esquerda dafigura correspondem aos melhoresclassificadoresAUC: area under the curve- integralda ROC

curva precisão x completeza: aprecisão média é a área sob a curva

dados sem balanço: caso de fontesraras

ex.: fração de um certo tipo de fonte:f = 5× 10−3

se a taxa de FP for de 0.05, FP/f = 10!a contaminação é muito grande

é melhor, nesse caso, plotar aeficiência (1-contaminação) xcompleteza

isso permite avaliar melhor quão bemo classificador recupera dados raros

27 / 29


escolha dos classificadores

não há almoço grátis: o melhorclassificador depende dos dados emconsideraçãoem geral, quanto mais complexo ummodelo, melhor sua capacidadepreditivamétodos não paramétricos (k-nn, AD)são normalmente melhores quemétodos paramétricos (NB, LDA)

métodos de aprendizado em conjunto(bagging, boosting, RF) geralmentedão a melhor precisão

quando métodos simples sãomelhores?

quando a dimensionalidade é muitoalta comparada ao número de dados

amostras pequenas

28 / 29


exercícios

1 Analise a amostra de fontes puntuais do SDSS com um algoritmonão-supervisionado como o k-means (ver aula 2). Este algoritmo é capaz de separarQSO, MS+RG e WD?

2 O caret implementa diversas formas de SVM. Analise a amostra acima com 3modelos diferentes e compare os resultados.

3 Implemente a classificação binária (estrelas/QSO) com uma rede neuralsimples(modelo ’nnet’).

29 / 29

aga 0512- análise de dados em astronomia ii 5. classificação

Documents