curva_roc
DESCRIPTION
curva rocTRANSCRIPT
-
Minerao de Dados e Aprendizado de
Mquina
Prof. Dr. Slvio Csar Cazella
-
SumrioSumrio
ROC CURVE
-
Acurcia Taxa de erros Acc(M) = porcentagem das tuplas dos dados de teste que sao
corretamente classificadas. Err(M) = 1 Acc(M) Matriz de Confuso
C1 C2
C1 Positivosverdadeiros
Falsos Negativos
C2 Falsos Positivos
Negativosverdadeiros
Classes Preditas
Classes Reais
-
Problemas: Classes no-balanceadas
Exemplo : acc(M) = 90% C1 = tem-cncer (4 pacientes) C2 = no-tem-cncer (500 pacientes) Classificou corretamente 454 pacientes que no tem
cncerNo acertou nenhum dos que tem cncer !!!Pode ser classificado como bom classificadormesmo com acurcia alta ?
-
Medidas para classificadores (classes no-balanceadas)
Sensitividade (recall) = true-pos pos
Preciso = true-pos true-pos + falso-pos
% pacientes classificados corretamente como positivos dentre todos os que foram classificados como positivos
% pacientes classificados corretamente como positivos dentre todos os que realmente so positivos
Preciso e Recall : medidas originadas em Recuperao de Informao utilizadas em Classificao, quando se lida com classes no-balanceadas
-
Curva ROCCurva ROC
ROC = Receiver Operating Characteristic Curve Enfoque grfico que mostra um trade-off entre as
taxas de TP (TPRate) e FP (FPRate) de um classificador.
TPR = TP/(TP + FN) FPR = FP/(TN + FP) Ideal : TPR = 1 e FPR = 0
-
ExerccioExerccio
Total de amostras = 12 Positivas = 8 Negativas = 4 TP = 5 FP = 2 Calcular preciso, recall, acurcia,
TPR, FPR, TNR, FNR, F1
-
Como gerar a curva ROC de um Como gerar a curva ROC de um classificador classificador ??
O classificador precisa produzir, para cada tupla X, a probabilidade que a tupla X ser classificada na classe Positiva.
preciso calcular esta probabilidade para rvores de deciso.
-
Como gerar a curva ROC de um Como gerar a curva ROC de um classificador classificador ??
1. Ordene as tuplas da base de testes por ordem crescente de seus valores de output (prob. de estar na classe positiva)2. Selecione a primeira tupla X1 e
Classifique X1 como POSITIVA
Classifique todas as tuplas com outputs maiores do que X1 como POSITIVAS Neste caso, todas as tuplas foram classif icadas como positivas. Logo: todas as positivas foram corretamente classificadas TPR = 1 todas as negativas foram incorretamente classificadas FPR = 13. Selecione a segunda tupla X2 e
Classifique X2 como POSITIVA
Classifique todas as tuplas com outputs maiores do que X2 como POSITIVAS e as com outputs menores como NE GATIVAS
Calcu le os novos valor es de TP e FP
Se a cl as se de X1 posit iva ento TP dec rementado de 1 e F P continua o mesmo
Se a cl as se de X1 negativa ento TP conti nua o mesmo e FP dec rementado.4. Repita o processo para a terceira tupla at varrer todo o banco de testes5. Faa o grfico dos valores de TPR (eixo y) por FPR (eixo x )
-
ExemploExemplo
TP
FP
TN
FN
TPR
FPR
Classe - + - - - + - +++0.43 0.53 0.76 0.85 0.85 0.85 0.87 0.930.25 0.95
5
5
0
0
1
4
5
0
1
0.8
1
4
4
1
1
0.8
0.8
3
4
1
2
0.6
0.8
1
3
3
2
2
0.6
0.6
3
2
3
2
0.6
0.4
3
1
4
2
0.6
0.2
2
1
4
3
0.4
0.2
2
0
5
3
0.4
0
1
0
5
4
0.2
0
0
0
5
5
0
0
1.00
eixo yeixo x
-
ExemploExemplo
0.1
0.3
0.2
0.40.50.60.70.80.91.0
0.00.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 FPR
TPR
-
Curva RocCurva Roc
Cada ponto na curva corresponde a um dos modelos induzidos pelo classificador
Um bom modelo deve estar localizado prximo do ponto (0,1)
Modelos localizados na diagonal so modelos aleatrios TPR = FPR
Modelos localizados acima da diagonal so melhores do que modelos abaixo da diagonal.
-
ExemploExemplo
0.1
0.3
0.2
0.40.50.60.70.80.91.0
0.00.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 FPR
TPRModelo ideal
Modelos que fazem previses aleatrias
-
Comparando performance relativas de diferentes classificadores
Curvas Roc so utilizadas para se medir a performance relativa de diferentes classificadores.
M1
M2
x
At aqui M2 melhor do que M1A partir da, M1 fica melhor do que M2
-
rea abaixo da curva ROC (AUC)rea abaixo da curva ROC (AUC)
A rea abaixo da curva ROC fornece medida para comparar performances de classificadores.
Quanto maior a rea AUC (Area Under Curve) melhor a performance global do classificador.
Classificador optimal: rea =1 Classificador randmico : rea = 0.5
-
FONTE:
Amo, Sandra. Data Mining. Notas de Aula. Como
comparar classificadores ? Universidade Federal
de Uberlndia. 2010
-
Thats all folks
Slide 1Slide 2Slide 3Slide 4Slide 5Slide 6Slide 7Slide 8Slide 9Slide 10Slide 11Slide 12Slide 13Slide 14Slide 15Slide 16Slide 17