BAT机器学习面试1000题(541~545题)


541、当我们构造线性模型时, 我们注意变量间的相关性. 在相关矩阵中搜索相关系数时, 如果我们发现3对变量的相关系数是(Var1 和Var2, Var2和Var3, Var3和Var1)是-0.98, 0.45, 1.23 . 我们可以得出什么结论:

  1. Var1和Var2是非常相关的

  2. 因为Var1和Var2是非常相关的, 我们可以去除其中一个

  3. Var3和Var1的1.23相关系数是不可能的


A、1 and 3

B、1 and 2

C、1,2 and 3

D、1

正确答案是:C

解析:

答案: C

相关性系数范围应该是 [-1,1]

一般地, 如果相关系数大于0.7或者小于-0.7, 是高相关的.

Var1和Var2相关系数是接近负1, 所以这是多重线性相关, 我们可以考虑去除其中一个.

所以1, 2, 3个结论都是对的, 选C.

542、如果在一个高度非线性并且复杂的一些变量中, 一个树模型可能比一般的回归模型效果更好. 这是()

A、对的

B、错的

正确答案是:A

解析:

答案: A

543、下面对集成学习模型中的弱学习者描述错误的是?

A、他们经常不会过拟合

B、他们通常带有高偏差,所以其并不能解决复杂学习问题

C、他们通常会过拟合

正确答案是:C

解析:

答案:C,弱学习者是问题的特定部分。所以他们通常不会过拟合,这也就意味着弱学习者通常拥有低方差和高偏差。

544、下面哪个/些选项对 K 折交叉验证的描述是正确的?

1.增大 K 将导致交叉验证结果时需要更多的时间

2.更大的 K 值相比于小 K 值将对交叉验证结构有更高的信心

3.如果 K=N,那么其称为留一交叉验证,其中 N 为验证集中的样本数量

A、1 和 2

B、2 和 3

C、1 和 3

D、1、2 和 3

正确答案是:D

解析:

答案(D):大 K 值意味着对过高估计真实预期误差(训练的折数将更接近于整个验证集样本数)拥有更小的偏差和更多的运行时间(并随着越来越接近极限情况:留一交叉验证)。我们同样在选择 K 值时需要考虑 K 折准确度和方差间的均衡。

545、最出名的降维算法是 PCA 和 t-SNE。将这两个算法分别应用到数据「X」上,并得到数据集「X_projected_PCA」,「X_projected_tSNE」。下面哪一项对「X_projected_PCA」和「X_projected_tSNE」的描述是正确的?

A、X_projected_PCA 在最近邻空间能得到解释

B、X_projected_tSNE 在最近邻空间能得到解释

C、两个都在最近邻空间能得到解释

D、两个都不能在最近邻空间得到解释

正确答案是: B

解析:

答案(B):t-SNE 算法考虑最近邻点而减少数据维度。所以在使用 t-SNE 之后,所降的维可以在最近邻空间得到解释。但 PCA 不能。
已邀请:

要回复问题请先登录注册

返回顶部