BAT机器学习面试1000题(506~510题)
506、一般,k-NN最近邻方法在()的情况下效果较好
A、样本较多但典型性不好
B、样本较少但典型性好
C、样本呈团状分布
D、样本呈链状分布
正确答案是: B
解析:
K近邻算法主要依靠的是周围的点,因此如果样本过多,那肯定是区分不出来的。因此应当选择B
样本呈团状颇有迷惑性,这里应该指的是整个样本都是呈团状分布,这样kNN就发挥不出其求近邻的优势了,整体样本应该具有典型性好,样本较少,比较适宜。
507、在一个n维的空间中, 最好的检测outlier(离群点)的方法是()
A、作正态分布概率图
B、作盒形图
C、马氏距离
D、作散点图
正确答案是:C
解析:
马氏距离是基于卡方分布的,度量多元outlier离群点的统计方法。
有M个样本向量X1~Xm,协方差矩阵记为S,均值记为向量μ,则其中样本向量X到u的马氏距离表示为:
(协方差矩阵中每个元素是各个矢量元素之间的协方差Cov(X,Y),Cov(X,Y) = E{ [X-E(X)] [Y-E(Y)]},其中E为数学期望)
而其中向量Xi与Xj之间的马氏距离定义为:
若协方差矩阵是单位矩阵(各个样本向量之间独立同分布),则公式就成了:
也就是欧氏距离了。
若协方差矩阵是对角矩阵,公式变成了标准化欧氏距离。
(2)马氏距离的优缺点:量纲无关,排除变量之间的相关性的干扰。
508、对数几率回归(logistics regression)和一般回归分析有什么区别?
A、对数几率回归是设计用来预测事件可能性的
B、对数几率回归可以用来度量模型拟合程度
C、对数几率回归可以用来估计回归系数
D、以上所有
正确答案是:D
解析:
A: 对数几率回归其实是设计用来解决分类问题的
B: 对数几率回归可以用来检验模型对数据的拟合度
C: 虽然对数几率回归是用来解决分类问题的,但是模型建立好后,就可以根据独立的特征,估计相关的回归系数。就我认为,这只是估计回归系数,不能直接用来做回归模型。
509、bootstrap数据是什么意思?(提示:考“bootstrap”和“boosting”区别)
A、有放回地从总共M个特征中抽样m个特征
B、无放回地从总共M个特征中抽样m个特征
C、有放回地从总共N个样本中抽样n个样本
D、无放回地从总共N个样本中抽样n个样本
正确答案是:C
解析:
boostrap是提鞋自举的意思(武侠小说作者所说的左脚踩右脚腾空而起). 它的过程是对样本(而不是特征)进行有放回的抽样, 抽样次数等同于样本总数. 这个随机抽样过程决定了最终抽样出来的样本, 去除重复之后, 占据原有样本的1/e比例.
510、“过拟合”只在监督学习中出现,在非监督学习中,没有“过拟合”,这是()
A、对的
B、错的
正确答案是: B
解析:
我们可以评估无监督学习方法通过无监督学习的指标,如:我们可以评估聚类模型通过调整兰德系数(adjusted rand score)
https://en.wikipedia.org/wiki/ ... index
0 个回复