qian-ru-fa.md

October 23, 2022 · View on GitHub

与包装法类似，嵌入法同样是一种模型相关的变量选择方法，不同的是嵌入法不需要多次构建模型，而是在模型训练时同步完成，不需要采用贪婪的方法构造特征子集并训练多次模型来得到最优变量子空间。

常用的嵌入法变量选择方法有加入L1正则的模型和随机森立变量选择。由于L1正则的稀疏性，只有那些非0的权重在模型中才起作用，那些权重为0的变量被认为是一些不显著或不重要的特征，在模型中不起作用。而随机森林做变量选择时侧重于对变量的重要性进行排序，即随机森林的机构构造完成后，对于每一个样本经过树结构的映射，都会经过某一个变量，则该变量的重要性就很高。反之，某个变量组成的规则，只有很少的样本才会经过该变量，那么这种变量的重要性就很低。因此随机森林变量选择并没有给出选择多少变量，而是给出每个变量的重要性排序，这里可以根据累计贡献率的办法，得到贡献率达到80%的变量作为变量选择后的结果。（这里的阈值可以调整）