首页 > 社交 > 科普中国

详解风控模型中的逻辑回归评分卡与模型评估内容

常驻编辑 科普中国 2022-11-17 模型   建模   缺失   注释   概率   变量   详解   分数   逻辑   特征   评分   编辑   内容   图片
A8K拜客生活常识网

添加图片注释,不超过 140 字(可选)A8K拜客生活常识网

2、处理办法:修正、删除(要求随机),删除要求不影响y的分布和随机性,另外一种方法:将异常值放在头尾两个箱内,减少极值的杠杆效应,另外可将异常值当做缺失值,然后用均值替换、盖帽法等进行修正和填补A8K拜客生活常识网

缺失值处理:A8K拜客生活常识网

1、定义:在表关联匹配时没有匹配到时产生的空值A8K拜客生活常识网

2、处理方法:A8K拜客生活常识网

a).缺失值有一定的含义,保留缺失值,如果这个字段本身大于0的,那么给他赋值-999,如果这个字段有正有负,那么给他赋值-9999。A8K拜客生活常识网

b).有明确的逻辑的缺失:要通过逻辑进行填充A8K拜客生活常识网

c).随机缺失的:通过众数/中位数填充A8K拜客生活常识网

d).转化:通过woe单独作为一箱A8K拜客生活常识网

e).删除:如果该变量缺失率很高,大于85%,和y的关联性不高的话,可以直接删除。如果和y关联性比较显著的话,不建议删除。A8K拜客生活常识网


A8K拜客生活常识网

1.1.2编码A8K拜客生活常识网

1.分类变量:如性别、学历、省份等,可采用onehot或labelencoder进行编码A8K拜客生活常识网

2.文本型变量:分词向量化后,用词袋模型onehot/word2vec词嵌入A8K拜客生活常识网

3. 二值化:是否、好坏等,直接转化成0/1映射A8K拜客生活常识网


A8K拜客生活常识网

1.1.3 转化A8K拜客生活常识网

1.分布转化:当数据分布不符合正态分布时,通过特征处理,使得数据接近正泰分布。常见的转化有如下几种:A8K拜客生活常识网

对数:ln(x)、平方根、sigmoid,probitA8K拜客生活常识网


A8K拜客生活常识网

2.归一化/标准化:A8K拜客生活常识网

A8K拜客生活常识网

A8K拜客生活常识网

编辑A8K拜客生活常识网

添加图片注释,不超过 140 字(可选)A8K拜客生活常识网

1.2 特征衍生与提取A8K拜客生活常识网

特征衍生的方法通常有两种,1.专家经验,2.自动衍生:预定义算子和特征组合,批量化特征组合A8K拜客生活常识网


A8K拜客生活常识网

1.3 特征选择与降维A8K拜客生活常识网

特征选择与降维是指通过一些手段,从业务角度和数据角度筛选对模型贡献度高的特征。A8K拜客生活常识网

1.3.1业务角度A8K拜客生活常识网

从业务角度要求数据的合规性、可获得性、可解释性A8K拜客生活常识网

1.3.2 数据角度A8K拜客生活常识网

(1)通常要求数据缺失率不能太高、集中度不能太高、波动性不能太大。

相关阅读:

  • 3d打印软件有哪些(3d打印模型素材下载)
  • 评价模型有哪些(5种常用的分析方法)
  • 驾模要多久(做牙模型需要多久)
  • 数据挖掘实例及数据分析流程,数据挖掘的概念与过程
  • 人工智能与动物对话
  • 改变世界的发明32丨DNA双螺旋结构分子模型
  • 氧化锌的蚀刻模型
  • 白癜风原创突破背后:一部历时六年的“失败简史”
  • 数字孪生城市,提升城市高效运营管理,推动智慧城市建设
  • 科学家建立仿真模型以研究大质量恒星在塑造周围环境中
    • 网站地图 |
    • 声明:登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不做权威认证,如若验证其真实性,请咨询相关权威专业人士。