BAT机器学习面试1000题(511~515题)


511、对于k折交叉验证, 以下对k的说法正确的是()

A、k越大, 不一定越好, 选择大的k会加大评估时间

B、选择更大的k, 就会有更小的bias (因为训练集更加接近总数据集)

C、在选择k时, 要最小化数据集之间的方差

D、以上所有

正确答案是:D

解析:

k越大, bias越小, 训练时间越长. 在训练时, 也要考虑数据集间方差差别不大的原则. 比如, 对于二类分类问题, 使用2-折交叉验证, 如果测试集里的数据都是A类的, 而训练集中数据都是B类的, 显然, 测试效果会很差.

如果不明白bias和variance的概念, 务必参考下面链接:

Gentle Introduction to the Bias-Variance Trade-Off in Machine Learning

http://machinelearningmastery. ... ning/

Understanding the Bias-Variance Tradeoff

http://scott.fortmann-roe.com/ ... .html

512、回归模型中存在多重共线性, 你如何解决这个问题?

1 去除这两个共线性变量

2 我们可以先去除一个共线性变量

3 计算VIF(方差膨胀因子), 采取相应措施

4 为了避免损失信息, 我们可以使用一些正则化方法, 比如, 岭回归和lasso回归

A、1

B、2

C、2和3

D、2, 3和4

正确答案是:D

解析:

解决多重公线性, 可以使用相关矩阵去去除相关性高于75%的变量 (有主观成分). 也可以VIF, 如果VIF值<=4说明相关性不是很高, VIF值>=10说明相关性较高.

我们也可以用 岭回归和lasso回归的带有惩罚正则项的方法. 我们也可以在一些变量上加随机噪声, 使得变量之间变得不同, 但是这个方法要小心使用, 可能会影响预测效果。

513、模型的高bias是什么意思, 我们如何降低它 ?

A、在特征空间中减少特征

B、在特征空间中增加特征

C、增加数据点

D、B和C

E、以上所有

正确答案是: B

解析:

bias太高说明模型太简单了, 数据维数不够, 无法准确预测数据, 所以, 升维吧 !

514、训练决策树模型, 属性节点的分裂, 具有最大信息增益的图是下图的哪一个()

1.png


A、Outlook

B、Humidity

C、Windy

D、Temperature

正确答案是:A

解析:

A信息增益, 增加平均子集纯度, 详细研究, 请戳看相关论文:

A Complete Tutorial on Tree Based Modeling from Scratch (in R & Python)

Lecture 4 Decision Trees (2): Entropy, Information Gain, Gain Ratio

515、对于信息增益, 决策树分裂节点, 下面说法正确的是()

1 纯度高的节点需要更多的信息去区分

2 信息增益可以用”1比特-熵”获得

3 如果选择一个属性具有许多归类值, 那么这个信息增益是有偏差的

A、1

B、2

C、2和3

D、所有以上

正确答案是:C

解析:

C

详细研究, 请看相关论文:

A Complete Tutorial on Tree Based Modeling from Scratch (in R & Python)

Lecture 4 Decision Trees (2): Entropy, Information Gain, Gain Ratio
已邀请:

要回复问题请先登录注册

返回顶部