(2)时间稳定性PSI:不同时间分布是否变化
评价特征稳定性:衡量特征是否随时间的推移发生大的波动,可用于变量监控。模型上线前做特征选择,剔除不稳定变量。
评价模型的稳定性:对数据集的预测/分类结果进行稳定性评价。模型上线部署后,可通过PSI曲线报表来观察模型的稳定性。
PSI计算方式:PSI=SUM(实际占比-预期占比)*ln(实际占比/预期占比)
PSI越小,代表稳定性越好。
编辑切换为居中
添加图片注释,不超过 140 字(可选)
(3)变量预测力:IV,通过IV筛选预测能力比较强的特征。IV计算可通过woe计算得到,IV越大,代表变量预测能力越强。
编辑切换为居中
添加图片注释,不超过 140 字(可选)
1.3.3特征选择的方式
过滤法:
1)缺失率>x,
2)方差波动
3)psi>x,
4)corr>x,
5)woe单调,
6)iv
嵌入法:特征选择整合为模型的一部分,比如决策树
包装法:通过统计模型或者机器学习来选择特征
2 分箱
2.1 分箱概述
分箱的定义:将变量取值划分成不同的分组。
分箱的目的:适应缺失值和极端值,对于缺失值和极端值放在单独一个箱里。这样变量就会平滑一些,模型也更稳定。
常用分箱方法:等频/等距分箱,决策树/best-ks/卡方分箱
分箱的原则:组内差异小,组间差异大,每组分箱占比不小于5%,必须有好坏两种分类(对于二分类而言必须一个箱里好坏样本都有)。
2.2 分箱方法