BAT机器学习面试1000题(516~520题)


516、下图是同一个SVM模型, 但是使用了不同的径向基核函数的gamma参数, 依次是g1, g2, g3 , 下面大小比较正确的是

2.png


A、g1 > g2 > g3

B、g1 = g2 = g3

C、g1 < g2 < g3

D、g1 >= g2 >= g3E. g1 <= g2 <= g3

正确答案是:C

解析:

所谓径向基函数 (Radial Basis Function 简称 RBF), 就是某种沿径向对称的标量函数。 通常定义为空间中任一点x到某一中心点xc之间欧氏距离的单调函数 , 可记作 k(||x-xc||), 其作用往往是局部的 , 即当x远离xc时函数取值很小。最常用的径向基函数是高斯核函数 ,形式为 k(||x-xc||)=exp{- ||x-xc||^2/(2*σ^2) } 其中xc为核函数中心,σ为函数的宽度参数 , 控制了函数的径向作用范围。由radial basis: exp(-gamma*|u-v|^2)可知, gamma越小, 模型越简单, 平滑度越好, 分类边界越不容易过拟合, 所以选C。

517、假设我们要解决一个二类分类问题, 我们已经建立好了模型, 输出是0或1, 初始时设阈值为0.5, 超过0.5概率估计, 就判别为1, 否则就判别为0 ; 如果我们现在用另一个大于0.5的阈值, 那么现在关于模型说法, 正确的是 :

1 模型分类的召回率会降低或不变

2 模型分类的召回率会升高

3 模型分类准确率会升高或不变

4 模型分类准确率会降低

A、1

B、2

C、1和3

D、2和4

E、以上都不是

正确答案是:A

解析:

精确率, 准确率和召回率是广泛用于信息检索和统计学分类领域的度量值,用来评价结果的质量。下图可以帮助理解和记忆它们之间的关系, 其中精确率(precision)和准确率(accuracy)都是关于预测效果的描述. 召回率是关于预测样本的描述。

精确率表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP), 也就是P = TP / (TP + FP)。

准确率表示的是预测的正负样本有多少是真实的正和负, 预测正确的数量占全部预测数量的比例, 也就是A = (TP + TN) / (TP + FP + TN + FN) = (TP + TN) / 全部样本。

召回率表示的是样本中的正例有多少被预测正确了。那也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN), 也就是R = TP / (TP + FN)。

精确率和召回率二者计算方法其实就是分母不同,一个分母是预测为正的样本数,另一个是原来样本中所有的正样本数。

提高分界阈值大于0.5, 则预测为正的样本数要降低, 相当于把图中圆圈变小, 按下图则可计算

3.png


召回率的分子变小分母不变, 所以召回率会变小或不变;

精确率的分子分母同步变化, 所以精确率的变化不能确定;

准确率的分子为圆内绿色加圆外右侧矩形面积所围样本, 两者之和变化不能确定; 分母为矩形所含全部样本不变化, 所以准确率的变化不能确定;

综上, 所以选A。

518、“点击率问题”是这样一个预测问题, 99%的人是不会点击的, 而1%的人是会点击进去的, 所以这是一个非常不平衡的数据集. 假设, 现在我们已经建了一个模型来分类, 而且有了99%的预测准确率, 我们可以下的结论是

A、模型预测准确率已经很高了, 我们不需要做什么了

B、模型预测准确率不高, 我们需要做点什么改进模型

C、无法下结论

D、以上都不对

正确答案是:C

解析:

如寒老师所说,类别不均衡的情况下,不要用准确率做分类评估指标,因为全判断为不会点,准确率也是99%,但是这个分类器一点用都没有。

详细可以参考这篇文章:https://www.analyticsvidhya.co ... lems/

519、使用k=1的knn算法, 下图二类分类问题, “+” 和 “o” 分别代表两个类, 那么, 用仅拿出一个测试样本的交叉验证方法, 交叉验证的错误率是多少:

4.png


A、0%

B、100%

C、0%到100

D、以上都不是

正确答案是: B

解析:

knn算法就是, 在样本周围看k个样本, 其中大多数样本的分类是A类, 我们就把这个样本分成A类. 显然, k=1 的knn在上图不是一个好选择, 分类的错误率始终是100%。

520、我们想在大数据集上训练决策树, 为了使用较少时间, 我们可以

A、增加树的深度

B、增加学习率 (learning rate)

C、减少树的深度

D、减少树的数量

正确答案是:C

解析:

增加树的深度, 会导致所有节点不断分裂, 直到叶子节点是纯的为止. 所以, 增加深度, 会延长训练时间.

决策树没有学习率参数可以调. (不像集成学习和其它有步长的学习方法)

决策树只有一棵树, 不是随机森林。
已邀请:

要回复问题请先登录注册

返回顶部