详解风控模型中的逻辑回归评分卡与模型评估内容

常驻编辑科普中国 2022-11-17 模型建模缺失注释概率变量详解分数逻辑特征评分编辑内容图片

添加图片注释，不超过 140 字（可选）A8K拜客生活常识网

2、处理办法：修正、删除（要求随机），删除要求不影响y的分布和随机性，另外一种方法：将异常值放在头尾两个箱内，减少极值的杠杆效应，另外可将异常值当做缺失值，然后用均值替换、盖帽法等进行修正和填补A8K拜客生活常识网

缺失值处理：A8K拜客生活常识网

1、定义：在表关联匹配时没有匹配到时产生的空值A8K拜客生活常识网

2、处理方法：A8K拜客生活常识网

a).缺失值有一定的含义，保留缺失值，如果这个字段本身大于0的，那么给他赋值-999，如果这个字段有正有负，那么给他赋值-9999。A8K拜客生活常识网

b).有明确的逻辑的缺失：要通过逻辑进行填充A8K拜客生活常识网

c).随机缺失的：通过众数/中位数填充A8K拜客生活常识网

d).转化：通过woe单独作为一箱A8K拜客生活常识网

e).删除：如果该变量缺失率很高，大于85%，和y的关联性不高的话，可以直接删除。如果和y关联性比较显著的话，不建议删除。A8K拜客生活常识网

A8K拜客生活常识网

1.1.2编码A8K拜客生活常识网

1.分类变量：如性别、学历、省份等，可采用onehot或labelencoder进行编码A8K拜客生活常识网

2.文本型变量：分词向量化后，用词袋模型onehot/word2vec词嵌入A8K拜客生活常识网

3. 二值化：是否、好坏等，直接转化成0/1映射A8K拜客生活常识网

A8K拜客生活常识网

1.1.3 转化A8K拜客生活常识网

1.分布转化：当数据分布不符合正态分布时，通过特征处理，使得数据接近正泰分布。常见的转化有如下几种：A8K拜客生活常识网

对数：ln(x)、平方根、sigmoid，probitA8K拜客生活常识网

A8K拜客生活常识网

2.归一化/标准化：A8K拜客生活常识网

A8K拜客生活常识网

编辑A8K拜客生活常识网

添加图片注释，不超过 140 字（可选）A8K拜客生活常识网

1.2 特征衍生与提取A8K拜客生活常识网

特征衍生的方法通常有两种，1.专家经验，2.自动衍生：预定义算子和特征组合，批量化特征组合A8K拜客生活常识网

A8K拜客生活常识网

1.3 特征选择与降维A8K拜客生活常识网

特征选择与降维是指通过一些手段，从业务角度和数据角度筛选对模型贡献度高的特征。A8K拜客生活常识网

1.3.1业务角度A8K拜客生活常识网

从业务角度要求数据的合规性、可获得性、可解释性A8K拜客生活常识网

1.3.2 数据角度A8K拜客生活常识网

（1）通常要求数据缺失率不能太高、集中度不能太高、波动性不能太大。