BAT机器学习面试1000题(536~540题)


536、下面的交叉验证方法

i. 有放回的Bootstrap方法

ii. 留一个测试样本的交叉验证

iii. 5折交叉验证

iv. 重复两次的5折教程验证

当样本是1000时,下面执行时间的顺序,正确的是

A、i > ii > iii > iv

B、ii > iv > iii > i

C、iv > i > ii > iii

D、ii > iii > iv > i

正确答案是: B

解析:

答案: B

Boostrap方法是传统地随机抽样,验证一次的验证方法,只需要训练1次模型,所以时间最少。

留一个测试样本的交叉验证,需要n次训练过程(n是样本个数),这里,要训练1000个模型。

5折交叉验证需要训练5个模型。

重复2次的5折交叉验证,需要训练10个模型。

所有B是正确的

537、变量选择是用来选择最好的判别器子集, 如果要考虑模型效率,我们应该做哪些变量选择的考虑?

  1. 多个变量其实有相同的用处

  2. 变量对于模型的解释有多大作用

  3. 特征携带的信息

  4. 交叉验证


A、1 和 4

B、1, 2 和 3

C、1,3 和 4

D

以上所有

正确答案是:C

解析:

答案: C

注意, 这题的题眼是考虑模型效率,所以不要考虑选项2.

538、对于线性回归模型,包括附加变量在内,以下的可能正确的是 :

  1. R-Squared 和 Adjusted R-squared都是递增的

  2. R-Squared 是常量的,Adjusted R-squared是递增的

  3. R-Squared 是递减的, Adjusted R-squared 也是递减的

  4. R-Squared 是递减的, Adjusted R-squared是递增的


A、1 和 2

B、1 和 3

C、2 和 4

D、以上都不是

正确答案是:D

解析:

答案: D

R-squared不能决定系数估计和预测偏差,这就是为什么我们要估计残差图。但是,R-squared有R-squared 和 predicted R-squared 所没有的问题。

每次你为模型加入预测器,R-squared递增或不变.

539、对于下面三个模型的训练情况, 下面说法正确的是:

3.jpeg


  1. 第一张图的训练错误与其余两张图相比,是最大的

  2. 最后一张图的训练效果最好,因为训练错误最小

  3. 第二张图比第一和第三张图鲁棒性更强,是三个里面表现最好的模型

  4. 第三张图相对前两张图过拟合了

  5. 三个图表现一样,因为我们还没有测试数据集


A、1 和 3

B、1 和 3

C、1, 3 和 4

D、5

正确答案是:C

解析:

答案: C

最后一张过拟合, 训练错误最小, 第一张相反, 训练错误就是最大了. 所以1是对的;

仅仅训练错误最小往往说明过拟合, 所以2错, 4对;

第二张图平衡了拟合和过拟合, 所以3对;

540、对于线性回归,我们应该有以下哪些假设?

  1. 找到离群点很重要, 因为线性回归对离群点很敏感

  2. 线性回归要求所有变量必须符合正态分布

  3. 线性回归假设数据没有多重线性相关性


A、1 和 2

B、2 和 3

C、1,2 和 3

D、以上都不是

正确答案是:D

解析:

答案: D

第1个假设, 离群点要着重考虑, 第一点是对的

第2个假设, 正态分布不是必须的. 当然, 如果是正态分布, 训练效果会更好

第3个假设, 有少量的多重线性相关性也是可以的, 但是我们要尽量避免
已邀请:

要回复问题请先登录注册

返回顶部