编辑切换为居中
添加图片注释,不超过 140 字(可选)
5 模型评估
5.1 混淆矩阵
编辑切换为居中
添加图片注释,不超过 140 字(可选)
准确率(accuracy):正确预测的正负例样本与所有样本的壁纸,(A+D)/(A+B+C+D)。
正例覆盖率(sensitivity):正确预测的正例数在实际正例的比例,D/(B+D)
负例覆盖率(specificity):正确预测的负例数在实际负例的比例,A/(A+C)
正例命中率(precision):正确预测的正例数在预测正例数的比例,D/(C+D)
一般前三个越高,模型越理想。
5.2 Roc曲线与auc值
分类错误的正常记录比例=1-specificity,也叫误报率。Roc曲线通过在0-1之间改变创建混淆军阵的临界值,以纵轴敏感度sensitivity与横轴误报率(1-specificity)勾绘的图。auction的值等于曲线下的面积。
编辑
添加图片注释,不超过 140 字(可选)
从AUC判断分类器(预测模型)优劣的标准
AUC = 1,是完美分类器,采用这个预测模型时,存在至少一个阈值能得出完美预测。绝大多数预测的场合,不存在完美分类器。
0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。
AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。
AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。
总结:AUC值越大,正确率越高
5.3 KS曲线与ks值
Ks曲线:将样本数据,评分由低到高排序,累计坏占比和累计好占比的两条曲线的差,就是ks曲线。其中累计好分布,上凸,累计坏分布时下凹面积,所以ks曲线,是先增加后减少。
Ks越大越好,但过大要考虑过拟合。