BAT机器学习面试1000题(531~535题)


531、在有监督学习中, 我们如何使用聚类方法?

  1. 我们可以先创建聚类类别, 然后在每个类别上用监督学习分别进行学习

  2. 我们可以使用聚类“类别id”作为一个新的特征项, 然后再用监督学习分别进行学习

  3. 在进行监督学习之前, 我们不能新建聚类类别

  4. 我们不可以使用聚类“类别id”作为一个新的特征项, 然后再用监督学习分别进行学习


A、2 和 4

B、1 和 2

C、3 和 4

D、 1 和 3

正确答案是: B

解析:

答案: B

我们可以为每个聚类构建不同的模型, 提高预测准确率。

“类别id”作为一个特征项去训练, 可以有效地总结了数据特征。

所以B是正确的

532、以下说法正确的是

  1. 一个机器学习模型,如果有较高准确率,总是说明这个分类器是好的

  2. 如果增加模型复杂度, 那么模型的测试错误率总是会降低

  3. 如果增加模型复杂度, 那么模型的训练错误率总是会降低

  4. 我们不可以使用聚类“类别id”作为一个新的特征项, 然后再用监督学习分别进行学习


A、1

B、2

C、3

D、2和3

E、都错

正确答案是:E

解析:

答案:E

1的模型中, 如果负样本占比非常大,也会有很高的准确率, 对正样本的分类不一定很好;

4的模型中, “类别id”可以作为一个特征项去训练, 这样会有效地总结了数据特征。

533、对应GradientBoosting tree算法, 以下说法正确的是:

  1. 当增加最小样本分裂个数,我们可以抵制过拟合

  2. 当增加最小样本分裂个数,会导致过拟合

  3. 当我们减少训练单个学习器的样本个数,我们可以降低variance

  4. 当我们减少训练单个学习器的样本个数,我们可以降低bias


A、2 和 4

B、2 和 3

C、1 和 3

D、1 和 4

正确答案是:C

解析:

答案: C

最小样本分裂个数是用来控制“过拟合”参数。太高的值会导致“欠拟合”,这个参数应该用交叉验证来调节。

第二点是靠bias和variance概念的。

534、以下哪个图是KNN算法的训练边界

2.jpeg


A、B

B、A

C、D

D、C

E、都不是

正确答案是: B

解析:

答案: B

KNN算法肯定不是线性的边界, 所以直的边界就不用考虑了。另外这个算法是看周围最近的k个样本的分类用以确定分类,所以边界一定是坑坑洼洼的。

535、如果一个训练好的模型在测试集上有100%的准确率, 这是不是意味着在一个新的数据集上,也会有同样好的表现?

A、是的,这说明这个模型的范化能力已经足以支持新的数据集合了

B、不对,依然后其他因素模型没有考虑到,比如噪音数据

正确答案是: B

解析:

答案: B

没有一个模型是可以总是适应新数据的。我们不可能可到100%准确率。
已邀请:

要回复问题请先登录注册

返回顶部