bao-zhuang-fa.md

October 23, 2022 · View on GitHub

过滤法变量选择是一种与模型无关的变量选择方法，而包装法则是一种与模型相关的变量选择方法，即在特征空间中随机挑选特征子集，然后选择一个模型，采用交叉验证的方式测试不同特征子集上模型的表现。这里评估模型性能的指标可以有多种，如KS值、AR、AUC和F1等指标。

显然包装法通过不断迭代的方式得到最优子空间，每次都要训练新模型开销很大。特征子集的构建分为前向搜索、后向搜索和双向搜索。

前向搜索即初始随机选取一个特征构造模型，然后随机选择一个特征加入前一个特征子集构建新的特征子集，并再建立一个模型，最后比较两个模型性能是否提升来判断特征子集的优劣。

后向搜索与前向搜索相反，从特征全集开始建模，每次剔除一个或多个特征再建模评估性能，以确定最优的特征子集。常用的递归消除方法（Recursive Feature Elimination，RFE）就是一种后向搜索算法。

双向搜索是将前向与后向搜索结合的方法，初始选择一个变量建模，然后采用前向算法随机选择一个变量构成由两个变量组成的特征子集。在下一步构造特征子集的过程中，采用前向算法进行增加特征的同时，采用后向算法减少特征，直到模型性能不再提升，得到最优的特征子集。

上述搜索方法都是随机地选择一个或多个子特征，可以采用启发式的优化算法来构造特征子集，如采用遗传算法GA、粒子群优化算法PSO等方法。但是越智能的方法其时间复杂度就越高，所需要的开销就越大。