添加图片注释,不超过 140 字(可选)
2、处理办法:修正、删除(要求随机),删除要求不影响y的分布和随机性,另外一种方法:将异常值放在头尾两个箱内,减少极值的杠杆效应,另外可将异常值当做缺失值,然后用均值替换、盖帽法等进行修正和填补
缺失值处理:
1、定义:在表关联匹配时没有匹配到时产生的空值
2、处理方法:
a).缺失值有一定的含义,保留缺失值,如果这个字段本身大于0的,那么给他赋值-999,如果这个字段有正有负,那么给他赋值-9999。
b).有明确的逻辑的缺失:要通过逻辑进行填充
c).随机缺失的:通过众数/中位数填充
d).转化:通过woe单独作为一箱
e).删除:如果该变量缺失率很高,大于85%,和y的关联性不高的话,可以直接删除。如果和y关联性比较显著的话,不建议删除。
1.1.2编码
1.分类变量:如性别、学历、省份等,可采用onehot或labelencoder进行编码
2.文本型变量:分词向量化后,用词袋模型onehot/word2vec词嵌入
3. 二值化:是否、好坏等,直接转化成0/1映射
1.1.3 转化
1.分布转化:当数据分布不符合正态分布时,通过特征处理,使得数据接近正泰分布。常见的转化有如下几种:
对数:ln(x)、平方根、sigmoid,probit
2.归一化/标准化:
编辑
添加图片注释,不超过 140 字(可选)
1.2 特征衍生与提取
特征衍生的方法通常有两种,1.专家经验,2.自动衍生:预定义算子和特征组合,批量化特征组合
1.3 特征选择与降维
特征选择与降维是指通过一些手段,从业务角度和数据角度筛选对模型贡献度高的特征。
1.3.1业务角度
从业务角度要求数据的合规性、可获得性、可解释性
1.3.2 数据角度
(1)通常要求数据缺失率不能太高、集中度不能太高、波动性不能太大。