Bad期望=total*sum(bad)/sum(total)
good期望=total*sum(good)/sum(total)
相邻卡方:上下两组的卡方值相加。例如:年龄18/19组的相邻卡方3.4852=0+3.3913
相邻卡方越小,说明上下两组的分布越相似。
如下表18 19两个组,卡方值均为0,相邻卡卡方值=0+0=0,所以18 19两个组的分布一致。
编辑切换为居中
添加图片注释,不超过 140 字(可选)
【表3-低卡方案例】
卡方分箱的终止条件:
a)分箱个数:每次将样本中具有最小卡方值的区间与相邻的最小卡方区间进行合并,直到分箱个数达到限制条件为止,比如限制分箱个数为5。
b)卡方阈值:根据自由度和显著性水平得到对应的卡方阈值,如果分箱的各区间最小卡方值小于卡方阈值,则继续合并,直到最小卡方值超过设定阈值为止。卡方停止的阈值一般设置置信度为0.9、0.95、0.99,自由度是n-1,例如分箱数是5,那么自由度是4,参考下表,查看自由度是4、显著水平为0.05的卡方值:9.488,卡方值>9.488,则拒绝原假设,认为两个bin分布一样,否则接受原假设,认为两个bin一样(原假设:两个bin不分布一样)。
编辑切换为居中
添加图片注释,不超过 140 字(可选)
【表4-卡方分布的临界值表】
3 WOE计算
变量分完箱后,接下来要对每一箱计算woe和变量IV值。
3.1 WOE
WOE公式:ln(p/(1-p)),其中p为违约概率,违约件占比高于正常件时,woe为负值,绝对值越高,表示该组别好坏客户的区别程度越高,各组之间woe值差距尽可能拉开并呈现由低至高的趋势。当p>0.5时,说明违约概率较高,此时woe为正,反之为负。变量分箱后的Woe要求单调或者呈U型的分布。
案例1:WOE计算:
编辑
添加图片注释,不超过 140 字(可选)