aga 0512- análise de dados em astronomia ii 5. classificação
TRANSCRIPT
AGA 0512- Análise de Dados em Astronomia II
5. Classificação
Laerte Sodré Jr.
2o. semestre, 2019
1 / 29
Introdução
aula de hoje:
1 o que é classificação2 classificação gerativa: NB, LDA3 k-nn4 regressão logística5 SVM - support vector machine6 árvores de decisão7 aprendizado em conjunto8 avaliação dos classificadores
We balance probabilities and choose the most likely.It is more than possible; it is probable.
Sherlock Holmes em Silver Blaze, Arthur Conan Doyle
2 / 29
o que é classificação
o que é classificação
vamos considerar uma amostra de Nobjetos com D atributosx = {xij}, i = 1...N, j = 1...Da cada objeto podemos associar umaclasse ou rótulo: yexemplos:
classificação morfológica de galáxias:E, S0, S, Irobjetos puntuais: estrela, galáxia,quasarclassificação estelar: OBAFGKM,classes de luminosidadedetecção/não-detecção
os dados podem ser reais oucategóricos
as classes são variáveis categóricas
galáxias quasarEstrela anã branca
3 / 29
o que é classificação
o que é classificação
classificação: utilizamos um conjuntode treinamento para estabelecer umarelação entre os atributos e as classes:y = f (x)
a classificação pode ser binária oumulticlasse
dados x
0 estrela
1 galáxia
classificador
f(x)
y = f (x)
Storrie-Lombardi et al. (1992)
4 / 29
o que é classificação
o que é classificação
problemas:sopreposição de classes
imbalance: desequilíbrio do númerode objetos em cada classe
5 / 29
o que é classificação
a função custo
custo “0-1”:atribui-se 1 a uma classificaçãoerrada e 0 a uma certa
se y é a estimativa de y, o custo é
L(y, y) =
{1 se y 6= y0 se y = y
risco da classificação:
E[L(y, y)] = P(y 6= y)
é igual à taxa de erro
entropia cruzada
CE(y, y) = − 1N
∑i
[yi log yi+
+(1− yi) log(1− yi)]
erro quadrático medio:
1N
∑i
(yi − yi)2
6 / 29
o que é classificação
exemplo com duas classes
detecção (1) ou não-detecção (0):
dois tipos de erros:
tipo I: falso positivo (FP):atribui-se 1 a um objeto cujaclasse é 0
tipo II: falso negativo (FN):atribui-se 0 a um objeto cujaclasse é 1
acertos:TP: true positiveTN: true negative
TP: True PositiveFN: Falso Negativo
erro tipo IITP: True Positive
FP: Falso Positivoerro tipo I TN: True Negative
Predição 1 Predição 0
medida 1
medida 0
7 / 29
o que é classificação
completeza e contaminação (2 classes)
completeza: fração de detecções(recall)
R =TP
TP + FNcontaminação: fração de detecçõeserradas
FPTP + FP
acurácia: fração de detecções corretas
TP + TNTP + TN + FP + FN
taxa de erro: (misclassification)
FP + FNTP + TN + FP + FN
eficiência ou precisão(ou PPV: Positive Predictive Value)= 1 - contaminação
P =TP
TP + FP
F1 score: média harmônica de precisão ecompleteza
F1 = 2P.R
P + R
dependendo da natureza do problema edo objetivo, pode-se otimizar a completezaou a eficiência, etc 8 / 29
classificação gerativa
classificação gerativa e discriminativa
classificação gerativa:modela-se diretamente a função dedistribuição de cada atributo paracada classe e aplica-se o teorema deBayesex.: Naive Bayes
classificação discriminativa:os parâmetros que descrevem oslimites de decisão entre as classessão determinados diretamente dosdadosex.: regressão logística, SVM, kNN
limite de decisão: linha, superfície, etc,que separa as classes entre si noespaço de dados
9 / 29
classificação gerativa
classificação gerativa
descreve-se cada classe com uma funçãode distribuição de probabilidades
função discriminante: podemos considerara classificação como uma regressão ondey é uma variável categórica:
y = g(x)
g(x) =
∫yP(y|x)dy =
1×P(y = 1|x)+ 0×P(y = 0|x) = P(y = 1|x)
usando o teorema de Bayes:
g(x) =P(x|y = 1)P(y = 1)
P(x|y = 1)P(y = 1) + P(x|y = 0)P(y = 0)
=p1(x)π1
p1(x)π1 + p0(x)π0
onde pk(x) = P(x|y = yk) e πk = P(y = yk)
classificador bayesiano:
y =
{1 se g(x) > 1/20 se g(x) ≤ 1/2
caso multiclasse: tem-se um gk para cadaclasse e escolhe-se a classe com o maiorgk
limite de decisão entre duas classes:definido por
π1p1(x) = π0p0(x)10 / 29
classificação gerativa
exemplo
amostra de fontes puntuais do SDSSclassificadas em 3 classes:
1- QSO
2- estrelas de sequência principal(MS) + gigantes vermelhas (RG)
3- anãs brancas (WD)
Feigelson & Babu em ModernStatistical Methods for Astronomy
https://astrostatistics.psu.edu/MSMA/
11 / 29
classificação gerativa
Naive Bayes
problema: em muitas dimensões édifícil determinar as PDFsNaive Bayes: supomos que osatributos são independentespara um dado objeto:
P(xj, xl|yk) = P(xj|yk)P(xl|yk)
j e l referem-se a atributos dos dados ek a uma da K classes do problemaverossimilhança:
pk(x) = P(x|yk) =D∏
j=1
P(xj|yk)
classificação:
P(yk|x) =P(x|yk)P(yk)∑
j P(x|yj)P(yj)
ou
y = argmaxykP(yk|x)
ex.: NB gaussiano
P(xj|yk) ∼ N(µjk, σjk)
os parâmetros µjk, σjk podem serobtidos por máxima verossimilhança
12 / 29
classificação gerativa
Naive Bayes
se os x são discretos (binagem):
pk(x): fração de objetos da classe kno bin x
πk: fração de objetos na classe k
para lidar com bins nulos: suavizaçãode Laplace- adiciona-se um certo α naprobabilidade de cada bin pk(x), paratodos os k
outros parâmetros ajustáveis:kernel para estimar densidades;largura de banda flexível
13 / 29
classificação gerativa
LDA
LDA: linear discriminant analysisassume que as distribuições declasse pk são gaussianas com amesma covariância Σnesse caso,
gk(x) = xTΣ−1µk −12µT
k Σ−1 + logπk
µk: média de cada atributo para osmembros da classe knote que a discriminação é linear emrelação a xrelaxando-se a suposição de mesmacovariância tem-se uma função dediscriminação quadrática
14 / 29
classificação discriminativa: k-nn
classificação com k-nn
adota-se a classe do objeto do conjunto de treinamento mais próximométodo totalmente não-paramétricoos limites de decisão formam uma tesselagem de Voronoi
15 / 29
classificação discriminativa: k-nn
classificação com k-nn
adota-se a classe do objeto doconjunto de treinamento mais próximo
muitas vezes adotam-se k vizinhos eou adota-se a classe majoritária oupondera-se pela distância dos vizinhos
nesse caso k pode ser obtido porvalidação cruzada
funciona bem para amostras grandes
o método é não-viesado, mas podeapresentar alta variância se o espaçode dados é subamostrado
o método é sensível à definição dedistância
16 / 29
classificação discriminativa: regressão logística
regressão logística
vamos exemplificar com 2 classes:y = 0 ou 1
P(y = 1|xi) = S(∑
j wjxij) = f (x|w)
S(x): função sigmóide ou logística
S(x) =1
1 + e−x 0 < S(x) < 1
função logit:
logit(pi) = ln
(pi
1− pi
)=∑
j
wjxij
função custo: como y é binário, o custopode ser modelado com uma função deBernoulli:
L(w) =
N∏i=1
pi(w)yi(1− pi(w))1−yi
w é obtido minimizando-se L(w), isto é, oerro na classificação
17 / 29
classificação discriminativa: regressão logística
regressão logística
regressão multiclasse:
um contra todosajusta-se cada classe fazendo y = 1para ela e y = 0 para as demaisy = sigmoide(x|w)
ex.: QSO = 1, MS+RG+WD = 2
18 / 29
classificação discriminativa: SVM
SVM: support vector machines
margem: hiperplano que maximiza adistância do ponto mais próximo de cadaclasse
o conceito de margem pode ser extendidopara o caso (geral) em que as classes sesobrepõem
pontos na margem: “vetores de suporte”
SVM é menos sensível ao imbalance queoutros métodos: atinge alta completeza,mas com alta contaminação
19 / 29
classificação discriminativa: árvores de decisão
árvores de decisão/decision trees
AD/DT: nós e ramoso nó do topo contém todos os dadosem cada nível da árvore os nós sãodivididos em dois (ou mais) nós filhosas divisões são baseadas em um limitede decisão: um dos nós filhos contémos dados acima do limite e o outro osdados abaixo desse limiteas divisões ocorrem até que um certocritério seja atingidoos nós terminais da árvore (“folhas”)registram a fração de pontos dentro decada nó com suas classificações
20 / 29
classificação discriminativa: árvores de decisão
árvores de decisão/decision trees
a classificação de uma folha é a da classemajoritária do conjunto de treinamento queela contém
classificação de um novo dado:seguem-se os ramos da árvore numasérie de decisões binárias até se chegarnuma folha; atribui-se ao dado aclassificação da folha
21 / 29
classificação discriminativa: árvores de decisão
árvores de decisão: funções de custo
critério de divisão: precisa-se escolherqual atributo dividir e o valor da divisão
funções de custo:
ganho de informação: redução daentropia na partição dos dados
erro de classificação(misclassification): probabilidade deque um dado ao acaso sejaclassificado errado
coeficiente de Gini: mede o desvio deuma distribuição cumulativa daesperada pela distribuição uniformeG = 0 para a distribuição uniforme;G ≤ 1se pi é a probabilidade da classe i,
G =∑
i
pi(1− pi)
G e MC são frequentemente usadosquando os dados são categóricos
22 / 29
classificação discriminativa: árvores de decisão
árvores de decisão: controle do crescimento da árvore
complexidade da árvore: número deníveis, ou profundidade da árvore
quando interromper o crescimento:quando o nó só tem membros deuma classequando o número de nós e/ou aprofundidade atinge um valorpré-definido
aumento de complexidade pode levara overfitting
usa-se validação cruzada com umafunção de custo para otimizar aprofundidade
podagem: avalia-se em cada nó seterminar a árvore ali melhora aprecisão
em geral essa análise deve ser feitaem um conjunto de teste,independente
23 / 29
classificação discriminativa: ensemble learning
ensemble learning: bagging e random forest
ensemble learning: aprendizado emconjunto- combina-se o resultado devários modelos com algum tipo devotação ou média
bagging (“ensacar”):o nome vem de bootstrap aggregationusa a média dos resultados comvárias amostras obtidas por bootstrapdo conjunto de treinamentomuito usado com árvores de decisão
x: dados
subamostras
classificadores
resultadoy
24 / 29
classificação discriminativa: ensemble learning
ensemble learning: bagging e random forest
RF: random forest
gera ADs das amostras de bootstrap,mas usando apenas subconjuntos deatributos escolhidos ao acasoa classificação final é a média dasclassificações individuaisparâmetros: número de árvores (n) ede atributos (m) que serão usados emcada árvorem relativamente pequeno evitaoverfitting e melhora a preditividaden e m podem ser obtidos porvalidação cruzada
25 / 29
classificação discriminativa: ensemble learning
boosting
boosting: “impulsionando”
combinação de “classificadores fracos”para melhorar a classificação
exemplo: AD com profundidademáxima n = 3
cada novo classificador tenta corrigiros erros até aquele momento:algoritmo sequencial
problema:o tempo de processamentopode ficar proibitivo
gbm: gradient boosting machine
26 / 29
avaliação dos classificadores
como comparar classificadores
critérios de escolha:completeza x contaminaçãocurva ROC: receiver operatingcharacteristic
taxa de TP x taxa de FP conforme afunção de discriminação mudacurvas mais altas na esquerda dafigura correspondem aos melhoresclassificadoresAUC: area under the curve- integralda ROC
curva precisão x completeza: aprecisão média é a área sob a curva
dados sem balanço: caso de fontesraras
ex.: fração de um certo tipo de fonte:f = 5× 10−3
se a taxa de FP for de 0.05, FP/f = 10!a contaminação é muito grande
é melhor, nesse caso, plotar aeficiência (1-contaminação) xcompleteza
isso permite avaliar melhor quão bemo classificador recupera dados raros
27 / 29
avaliação dos classificadores
escolha dos classificadores
não há almoço grátis: o melhorclassificador depende dos dados emconsideraçãoem geral, quanto mais complexo ummodelo, melhor sua capacidadepreditivamétodos não paramétricos (k-nn, AD)são normalmente melhores quemétodos paramétricos (NB, LDA)
métodos de aprendizado em conjunto(bagging, boosting, RF) geralmentedão a melhor precisão
quando métodos simples sãomelhores?
quando a dimensionalidade é muitoalta comparada ao número de dados
amostras pequenas
28 / 29
avaliação dos classificadores
exercícios
1 Analise a amostra de fontes puntuais do SDSS com um algoritmonão-supervisionado como o k-means (ver aula 2). Este algoritmo é capaz de separarQSO, MS+RG e WD?
2 O caret implementa diversas formas de SVM. Analise a amostra acima com 3modelos diferentes e compare os resultados.
3 Implemente a classificação binária (estrelas/QSO) com uma rede neuralsimples(modelo ’nnet’).
29 / 29