今天我们来输出一篇风控长文,关于大家熟悉关注的逻辑评分卡的开发的内容,文章篇幅较长,大纲目录如下:
1. 建模前准备
1.1特征预处理与转化
1.2特征衍生与提取
1.3特征选择与降维
2. 分箱
2.1分箱概述
2.2分箱方法
3. Woe计算
3.1 WOE
3.2 IV
4. 建模
5. 模型评估
5.1 混淆矩阵
5.2 roc曲线与auc值
5.3 KS曲线与ks值
6. 分数校准
1 建模前准备
在开始建模前,需要进行大量的数据处理工作,包括特征预处理和转化、特征衍生与提取、特征选择与降维,这一部分是整个建模流程的基石,约占整个建模流程的70%的工作量。
1.1 特征预处理与转化
特征预处理与转化包含数据清洗、编码和转化。
1.1.1 数据清洗
本文介绍对错误值、异常值、缺失值的数据清洗方法。
错误值:
1.定义:录入错误、系统原因到时数据引入错误、后续加工计算错误
2.处理办法:有两种。
a).找到错误原因进行修正变成正常值
b).直接删除
异常值处理:
定义:没有明确的定义,通常认为在置信区间1%-99%以外的数据,当做异常值,一般用箱型图来判断异常值(箱型图原理如下)。
编辑切换为居中