BAT题库 | 机器学习面试1000题系列(第231~235题)


231.在一个n维的空间中, 最好的检测outlier(离群点)的方法是:
A. 作正态分布概率图
B. 作盒形图
C. 马氏距离
D. 作散点图
答案:C
马氏距离是基于卡方分布的,度量多元outlier离群点的统计方法。更多请详见:http://eurekastatistics.com/us ... iers/和”http://blog.csdn.net/v_july_v/ ... 03674“。

232.对数几率回归(logistics regression)和一般回归分析有什么区别?
A. 对数几率回归是设计用来预测事件可能性的
B. 对数几率回归可以用来度量模型拟合程度
C. 对数几率回归可以用来估计回归系数
D. 以上所有
答案:D
A: 对数几率回归其实是设计用来解决分类问题的
B: 对数几率回归可以用来检验模型对数据的拟合度
C: 虽然对数几率回归是用来解决分类问题的,但是模型建立好后,就可以根据独立的特征,估计相关的回归系数。就我认为,这只是估计回归系数,不能直接用来做回归模型。

233.bootstrap数据是什么意思?(提示:考“bootstrap”和“boosting”区别)
A. 有放回地从总共M个特征中抽样m个特征
B. 无放回地从总共M个特征中抽样m个特征
C. 有放回地从总共N个样本中抽样n个样本
D. 无放回地从总共N个样本中抽样n个样本
答案:C

234.“过拟合”只在监督学习中出现,在非监督学习中,没有“过拟合”,这是:
A. 对的
B. 错的
答案:B
我们可以评估无监督学习方法通过无监督学习的指标,如:我们可以评估聚类模型通过调整兰德系数(adjusted rand score)

235.对于k折交叉验证, 以下对k的说法正确的是 :
A. k越大, 不一定越好, 选择大的k会加大评估时间
B. 选择更大的k, 就会有更小的bias (因为训练集更加接近总数据集)
C. 在选择k时, 要最小化数据集之间的方差
D. 以上所有
答案:D
k越大, bias越小, 训练时间越长. 在训练时, 也要考虑数据集间方差差别不大的原则. 比如, 对于二类分类问题, 使用2-折交叉验证, 如果测试集里的数据都是A类的, 而训练集中数据都是B类的, 显然, 测试效果会很差.
如果不明白bias和variance的概念, 务必参考下面链接:
Gentle Introduction to the Bias-Variance Trade-Off in Machine Learning
Understanding the Bias-Variance Tradeoff

在评论区留言,一起交流探讨,让更多小伙伴受益。
关注公号:julyedulab,第一时间获取「BAT机器学习面试1000题系列」最新题目哦~

往期题目:
【BAT机器学习面试题】前100题汇总及勘误(上)
【BAT机器学习面试题】前100题汇总及勘误(中)
【BAT机器学习面试题】前100题汇总及勘误(下)
BAT机器学习面试1000题系列(第101~200题)
BAT机器学习面试1000题系列(第201~205题)
BAT机器学习面试1000题系列(第210~215题)
BAT机器学习面试1000题系列(第216~220题)
BAT机器学习面试1000题系列(第221~225题)
BAT机器学习面试1000题系列(第226~230题)
已邀请:

要回复问题请先登录注册

返回顶部