BAT机器学习面试1000题(526~530题)


526、对于随机森林和GradientBoosting Trees, 下面说法正确的是:

1 在随机森林的单个树中, 树和树之间是有依赖的, 而GradientBoosting Trees中的单个树之间是没有依赖的

2 这两个模型都使用随机特征子集, 来生成许多单个的树

3 我们可以并行地生成GradientBoosting Trees单个树, 因为它们之间是没有依赖的

4 GradientBoosting Trees训练模型的表现总是比随机森林好

A、2

B、1 and 2

C、1, 3 and 4

D、2 and 4

正确答案是:A

解析:

答案: A

1 随机森林是基于bagging的, 在随机森林的单个树中, 树和树之间是没有依赖的。

2 Gradient Boosting trees是基于boosting的,且GradientBoosting Trees中的单个树之间是有依赖关系。

3 这两个模型都使用随机特征子集, 来生成许多单个的树。

所以题干中只有第二点是正确的,选A。

更多详情请参见《通俗理解kaggle比赛大杀器xgboost》:https://blog.csdn.net/v_JULY_v ... 10574,循序渐进,先后理解:决策树、CBDT、xgboost。

527、对于PCA(主成分分析)转化过的特征 , 朴素贝叶斯的”不依赖假设”总是成立, 因为所有主要成分是正交的, 这个说法是 :

A、正确的

B、错误的

正确答案是: B

解析:

答案: B.

这个说法是错误的, 首先, “不依赖”和”不相关”是两回事, 其次, 转化过的特征, 也可能是相关的

528、对于PCA说法正确的是 :

  1. 我们必须在使用PCA前规范化数据

  2. 我们应该选择使得模型有最大variance的主成分

  3. 我们应该选择使得模型有最小variance的主成分

  4. 我们可以使用PCA在低维度上做数据可视化


A、1, 2 and 4

B、2 and 4

C、3 and 4

D、1 and 3

E、1, 3 and 4

正确答案是:A

解析:

答案: A

1)PCA对数据尺度很敏感, 打个比方, 如果单位是从km变为cm, 这样的数据尺度对PCA最后的结果可能很有影响(从不怎么重要的成分变为很重要的成分).

2)我们总是应该选择使得模型有最大variance的主成分

3)有时在低维度上左图是需要PCA的降维帮助的

529、对于下图, 最好的主成分选择是多少 ?

1.png


A、7

B、30

C、35

D、Can’t Say

正确答案是: B

解析:

答案: B

主成分选择使variance越大越好, 在这个前提下, 主成分越少越好。

530、数据科学家可能会同时使用多个算法(模型)进行预测, 并且最后把这些算法的结果集成起来进行最后的预测(集成学习),以下对集成学习说法正确的是

A、单个模型之间有高相关性

B、单个模型之间有低相关性

C、在集成学习中使用“平均权重”而不是“投票”会比较好

D、单个模型都是用的一个算法

正确答案是: B

解析:

答案: B

详细请参考下面文章:

Basics of Ensemble Learning Explained in Simple English

Kaggle Ensemble Guide

5 Easy questions on Ensemble Modeling everyone should know
已邀请:

要回复问题请先登录注册

返回顶部