随机森林 特征选择问题


随机森林中,随机样本可以理解,为何要对特征也要随机筛选而不是用全部特征,这是基于什么原因?当随机筛选特征进行建模时,当这些特征都不显著时,那模型结果具有可参考性吗?

即便需要选一部分特征,为何不是根据特征显著性或GINI系数或信息熵来选取对模型识别好的top N特征?
已邀请:

wx8573

赞同来自: 小树林 wangpy


随机森林属于组合算法,组合算法的关键准则是,各分类器之间的差异性越大,单分类器的效果越好,最终效果越好。体现在随机森林中,树的多样性决定了随机森林的防止过拟合的能力。如果构造每个树都采用top n特征,等价于只构建了一颗树,若n较大时,很容易过拟合。

要回复问题请先登录注册

收藏七月在线,一起向大牛进阶

ctrl+D或command+D可以快速收藏哦~