BAT机器学习面试题及解析(271-275题)


271.SVM、LR、决策树的对比。
模型复杂度:SVM支持核函数,可处理线性非线性问题;LR模型简单,训练速度快,适合处理线性问题;决策树容易过拟合,需要进行剪枝
损失函数:SVM hinge loss; LR L2正则化; adaboost 指数损失
数据敏感度:SVM添加容忍度对outlier不敏感,只关心支持向量,且需要先做归一化; LR对远点敏感
数据量:数据量大就用LR,数据量小且特征少就用SVM非线性核

272.什么是ill-condition病态问题?
训练完的模型,测试样本稍作修改就会得到差别很大的结果,就是病态问题,模型对未知数据的预测能力很差,即泛化误差大。

273.简述KNN最近邻分类算法的过程?
1. 计算训练样本和测试样本中每个样本点的距离(常见的距离度量有欧式距离,马氏距离等);
2. 对上面所有的距离值进行排序;
3. 选前k个最小距离的样本;
4. 根据这k个样本的标签进行投票,得到最后的分类类别;

274.常用的聚类划分方式有哪些?列举代表算法。
1. 基于划分的聚类:K-means,k-medoids,CLARANS。
2. 基于层次的聚类:AGNES(自底向上),DIANA(自上向下)。
3. 基于密度的聚类:DBSACN,OPTICS,BIRCH(CF-Tree),CURE。
4. 基于网格的方法:STING,WaveCluster。
5. 基于模型的聚类:EM,SOM,COBWEB。

275.下面对集成学习模型中的弱学习者描述错误的是?
A.他们经常不会过拟合
B.他们通常带有高偏差,所以其并不能解决复杂学习问题
C.他们通常会过拟合
答案:C,弱学习者是问题的特定部分。所以他们通常不会过拟合,这也就意味着弱学习者通常拥有低方差和高偏差。

在评论区留言,一起交流探讨,让更多小伙伴受益。
关注公号:julyedulab,第一时间获取「BAT机器学习面试1000题系列」最新题目哦~

往期题目:
【BAT机器学习面试题】前100题汇总及勘误(上)
【BAT机器学习面试题】前100题汇总及勘误(中)
【BAT机器学习面试题】前100题汇总及勘误(下)
BAT机器学习面试1000题系列(第101~200题)
BAT机器学习面试1000题系列(第201~205题)
BAT机器学习面试1000题系列(第210~215题)
BAT机器学习面试1000题系列(第216~220题)
BAT机器学习面试1000题系列(第221~225题)
BAT机器学习面试1000题系列(第226~230题)
BAT机器学习面试1000题系列(第231~235题)
BAT机器学习面试1000题系列(第235~240题)
BAT机器学习面试1000题系列(第241~245题)
BAT机器学习面试1000题系列(第246~250题)
BAT机器学习面试1000题系列(第251~255题)
BAT机器学习面试1000题系列(第256~260题)
已邀请:

要回复问题请先登录注册

返回顶部