等距分箱:每个箱的区间大小是相等的,每个箱内的数据量不一定相等。边界值:xmin+n*(Xmax-xmin)/10
等频分箱:分箱之后,每个箱内的数据量相等。
决策树分箱:单变量用树模型拟合目标变量,例如直接使用sklearn提供的决策树(是用cart决策树实现的),然后将内部节点的阈值作为分箱的切点。
Best-ks分箱:计算方式跟模型KS一样,只是这里的分箱不是模型评分,而是特征的分箱。具体的步骤如下:
a)将特征取值按从小到大排序,每一个值作为一个分箱
b)计算每一个分箱的KS值
c)找到最大KS值对应的分箱,即特征值,以该特征值作为划分依据将数据划分成左右两份数据SET1和SET2(低于该特征值以及高于该特征值)
d)按照第三步递归划分左右两个数据集,直到满足终止条件(一般以KS值低于某个阈值或分箱数达到预设的值)
举例:
编辑切换为居中
添加图片注释,不超过 140 字(可选)
注:bad占比=累计坏人数/sum(红框内)
good占比=累计好人数/sum(蓝框内)
ks=abs(good占比-bad占比)
卡方分箱:卡方分箱是依赖于卡方检验的分箱方法,在统计指标上选择卡方统计量(chi-Square)进行判别,分箱的基本思想是判断相邻的两个区间是否有分布差异,基于卡方统计量的结果进行自下而上的合并,直到满足分箱的限制条件为止。如果两个相邻的区间具有非常类似的分布,那么这两个区间可以合并,否则,他们应该分开。低卡方表明他们具有相似的类分布。
具体的步骤如下:
a)预先设定一个卡方的阈值
b)特征进行排序,每个取值属于一个区间
c)合并区间:计算每一对相邻区间的卡方值,将卡防止最小的一对区间合并。
举例:
编辑切换为居中
添加图片注释,不超过 140 字(可选)
【表2-卡方分箱案例】
注: