BAT机器学习面试1000题(546~550题)


546、给定三个变量 X,Y,Z。(X, Y)、(Y, Z) 和 (X, Z) 的 Pearson 相关性系数分别为 C1、C2 和 C3。现在 X 的所有值加 2(即 X+2),Y 的全部值减 2(即 Y-2),Z 保持不变。那么运算之后的 (X, Y)、(Y, Z) 和 (X, Z) 相关性系数分别为 D1、D2 和 D3。现在试问 D1、D2、D3 和 C1、C2、C3 之间的关系是什么?

A、D1= C1, D2 < C2, D3 > C3

B、D1 = C1, D2 > C2, D3 > C3

C、D1 = C1, D2 > C2, D3 < C3

D、D1 = C1, D2 < C2, D3 < C3

E、D1 = C1, D2 = C2, D3 = C3

正确答案是:E

解析:

答案(E):特征之间的相关性系数不会因为特征加或减去一个数而改变。

547、为了得到和 SVD 一样的投射(projection),你需要在 PCA 中怎样做?

A、将数据转换成零均值

B、将数据转换成零中位数

C、无法做到

正确答案是:A

解析:

答案(A):当数据有一个 0 均值向量时,PCA 有与 SVD 一样的投射,否则在使用 SVD 之前,你必须将数据*均值归 0。

548、假设我们有一个数据集,在一个深度为 6 的决策树的帮助下,它可以使用 100% 的精确度被训练。现在考虑一下两点,并基于这两点选择正确的选项。

注意:所有其他超参数是相同的,所有其他因子不受影响。

1.深度为 4 时将有高偏差和低方差

2.深度为 4 时将有低偏差和低方差

A、只有 1

B、只有 2

C、1 和 2

D、没有一个

正确答案是:A

解析:

答案(A):如果在这样的数据中你拟合深度为 4 的决策树,这意味着其更有可能与数据欠拟合。因此,在欠拟合的情况下,你将获得高偏差和低方差。

549、在以下不同的场景中,使用的分析方法不正确的有

A、根据商家最近一年的经营及服务数据,用聚类算法判断出天猫商家在各自主营类目下所属的商家层级

B、根据商家近几年的成交数据,用聚类算法拟合出用户未来一个月可能的消费金额公式

C、用关联规则算法分析出购买了汽车坐垫的买家,是否适合推荐汽车脚垫

D、根据用户最近购买的商品信息,用决策树算法识别出淘宝买家可能是男还是女

正确答案是: B

解析:

解析:

预测消费更合适的算法是用回归模型来做。而不是聚类算法。

550、以下对k-means聚类算法解释正确的是

A、能自动识别类的个数,随即挑选初始点为中心点计算

B、能自动识别类的个数,不是随即挑选初始点为中心点计算

C、不能自动识别类的个数,随即挑选初始点为中心点计算

D、不能自动识别类的个数,不是随即挑选初始点为中心点计算

正确答案是:C

解析:

(1)适当选择c个类的初始中心;

(2)在第k次迭代中,对任意一个样本,求其到c个中心的距离,将该样本归到距离最短的中心所在的类;

(3)利用均值等方法更新该类的中心值;

(4)对于所有的c个聚类中心,如果利用(2)(3)的迭代法更新后,值保持不变,则迭代结束,否则继续迭代。

以上是KMeans(C均值)算法的具体步骤,可以看出需要选择类别数量,但初次选择是随机的,最终的聚类中心是不断迭代稳定以后的聚类中心。所以答案选C。
已邀请:

要回复问题请先登录注册

返回顶部