bian-liang-fen-xiang-fang-fa.md

October 23, 2022 · View on GitHub

变量分箱的好处：

降低异常值影响，增加模型稳定性
缺失值作为特殊变量参与分箱，减少缺失值填补的不确定性
增加变量的可解释性
增加变量的非线性
增加模型的预测效果

变量分箱的局限性

同一箱内的样本具有同质性
需要专家经验支持

需要注意

分箱结果不能过多，不能过少
分箱后的单调性

变量分箱流程：

1）选择优化指标，可以选择卡方值、KS值、IV值等作为优化指标，以判断最优切分点；同时初始化分箱数nbin=1，开始认为只有1箱，通过切分的方式得到最优分箱结果。

2）初始化切分点，对于连续变量采用等距离初始化方法，并且要满足组间距离不能太小的约束条件；对于离散变量可以将变量的取值作为切分点，如果变量非常稀疏，则可以先用坏样本比率数值化，然后按照连续变量分箱操作。切分点即为分箱合并的候选集，可以初始化100个切分点，然后分别计算在切分点处的目标函数值，通过切分点分裂的方式从初始化箱数为1逐步达到最优分箱结果。（注意：分箱可以消除异常值的影响，但是异常值会影响初始化切分点的选择。例如，初始化分箱数是100，采用等距离初始化方法。如果存在异常值，则会出现切分点的间隔较大，数据分布不均，即靠近异常值的箱内样本分布较少，而在某些箱内样本分布较多的情况。因此，初始化切分点钱要做异常值处理。）

3）初始化切分点后，要判断不同切分点间的最小样本数是否小于最小样本数约束。如果小于最小样本数，则重新进行切分点选择，即采用切分点合并的方式，将临近的切分点合并，以满足最小样本数的约束。

4）随后在最大分箱数的约束下进行切分点选择，如果大于最大分箱数，则分箱结束。

5）如果小于最大分箱数，则先计算最优切分点，以每个初始化切分点为边界，分别计算在此分箱后的优化指标值，选择最优的指标值对应的切分点作为最优切分点。

6）得到最优切分点后要计算增益值，判断当前分箱策略下的优化指标是否由于前一次分箱得到的优化指标值，如果分箱溢价无法得到更优的指标值或指标值增加的速度明显变缓，则分箱结束，满足Earlystopping约束条件。如果增益明显增加则分箱数增加，直到满足最大分箱约束条件后分箱结束。