BAT机器学习面试1000题(506~510题)


506、一般,k-NN最近邻方法在()的情况下效果较好

A、样本较多但典型性不好

B、样本较少但典型性好

C、样本呈团状分布

D、样本呈链状分布

正确答案是: B

解析:

K近邻算法主要依靠的是周围的点,因此如果样本过多,那肯定是区分不出来的。因此应当选择B

样本呈团状颇有迷惑性,这里应该指的是整个样本都是呈团状分布,这样kNN就发挥不出其求近邻的优势了,整体样本应该具有典型性好,样本较少,比较适宜。

507、在一个n维的空间中, 最好的检测outlier(离群点)的方法是()

A、作正态分布概率图

B、作盒形图

C、马氏距离

D、作散点图

正确答案是:C

解析:

马氏距离是基于卡方分布的,度量多元outlier离群点的统计方法。

有M个样本向量X1~Xm,协方差矩阵记为S,均值记为向量μ,则其中样本向量X到u的马氏距离表示为:

1.png


(协方差矩阵中每个元素是各个矢量元素之间的协方差Cov(X,Y),Cov(X,Y) = E{ [X-E(X)] [Y-E(Y)]},其中E为数学期望)

而其中向量Xi与Xj之间的马氏距离定义为:

2.png


若协方差矩阵是单位矩阵(各个样本向量之间独立同分布),则公式就成了:

3.png


也就是欧氏距离了。  

若协方差矩阵是对角矩阵,公式变成了标准化欧氏距离。

(2)马氏距离的优缺点:量纲无关,排除变量之间的相关性的干扰。

508、对数几率回归(logistics regression)和一般回归分析有什么区别?

A、对数几率回归是设计用来预测事件可能性的

B、对数几率回归可以用来度量模型拟合程度

C、对数几率回归可以用来估计回归系数

D、以上所有

正确答案是:D

解析:

A: 对数几率回归其实是设计用来解决分类问题的

B: 对数几率回归可以用来检验模型对数据的拟合度

C: 虽然对数几率回归是用来解决分类问题的,但是模型建立好后,就可以根据独立的特征,估计相关的回归系数。就我认为,这只是估计回归系数,不能直接用来做回归模型。

509、bootstrap数据是什么意思?(提示:考“bootstrap”和“boosting”区别)

A、有放回地从总共M个特征中抽样m个特征

B、无放回地从总共M个特征中抽样m个特征

C、有放回地从总共N个样本中抽样n个样本

D、无放回地从总共N个样本中抽样n个样本

正确答案是:C

解析:

boostrap是提鞋自举的意思(武侠小说作者所说的左脚踩右脚腾空而起). 它的过程是对样本(而不是特征)进行有放回的抽样, 抽样次数等同于样本总数. 这个随机抽样过程决定了最终抽样出来的样本, 去除重复之后, 占据原有样本的1/e比例.

510、“过拟合”只在监督学习中出现,在非监督学习中,没有“过拟合”,这是()

A、对的

B、错的

正确答案是: B

解析:

我们可以评估无监督学习方法通过无监督学习的指标,如:我们可以评估聚类模型通过调整兰德系数(adjusted rand score)

https://en.wikipedia.org/wiki/ ... index
已邀请:

要回复问题请先登录注册

返回顶部