BAT机器学习面试题1000题(316~320题)


关注公号:七月在线实验室(julyedulab),第一时间获取「BAT机器学习面试1000题系列」最新题目~

316、什么是偏差与方差?
泛化误差可以分解成偏差的平方加上方差加上噪声。偏差度量了学习算法的期望预测和真实结果的偏离程度,刻画了学习算法本身的拟合能力,方差度量了同样大小的训练集的变动所导致的学习性能的变化,刻画了数据扰动所造成的影响,噪声表达了当前任务上任何学习算法所能达到的期望泛化误差下界,刻画了问题本身的难度。偏差和方差一般称为bias和variance,一般训练程度越强,偏差越小,方差越大,泛化误差一般在中间有一个最小值,如果偏差较大,方差较小,此时一般称为欠拟合,而偏差较小,方差较大称为过拟合。
偏差:
方差:

317、解决bias和Variance问题的方法是什么?
交叉验证
High bias解决方案:Boosting、复杂模型(非线性模型、增加神经网络中的层)、更多特征
High Variance解决方案:agging、简化模型、降维

318.采用 EM 算法求解的模型有哪些,为什么不用牛顿法或梯度下降法?
用EM算法求解的模型一般有GMM或者协同过滤,k-means其实也属于EM。EM算法一定会收敛,但是可能收敛到局部最优。由于求和的项数将随着隐变量的数目指数上升,会给梯度计算带来麻烦。

319、xgboost怎么给特征评分?
在训练的过程中,通过Gini指数选择分离点的特征,一个特征被选中的次数越多,那么该特征评分越高。[python]

feature importance

print(model.feature_importances_)

plot pyplot.bar(range(len(model.feature_importances_)), model.feature_importances_)

pyplot.show() ==========

plot feature importance

plot_importance(model)

pyplot.show()

320、什么是OOB?随机森林中OOB是如何计算的,它有什么优缺点?
bagging方法中Bootstrap每次约有1/3的样本不会出现在Bootstrap所采集的样本集合中,当然也就没有参加决策树的建立,把这1/3的数据称为袋外数据oob(out of bag),它可以用于取代测试集误差估计方法。
袋外数据(oob)误差的计算方法如下:
对于已经生成的随机森林,用袋外数据测试其性能,假设袋外数据总数为O,用这O个袋外数据作为输入,带进之前已经生成的随机森林分类器,分类器会给出O个数据相应的分类,因为这O条数据的类型是已知的,则用正确的分类与随机森林分类器的结果进行比较,统计随机森林分类器分类错误的数目,设为X,则袋外数据误差大小=X/O;这已经经过证明是无偏估计的,所以在随机森林算法中不需要再进行交叉验证或者单独的测试集来获取测试集误差的无偏估计。

往期题目:
【BAT机器学习面试题】前100题汇总及勘误(上)
【BAT机器学习面试题】前100题汇总及勘误(中)
【BAT机器学习面试题】前100题汇总及勘误(下)
BAT机器学习面试1000题系列(第101~200题)
BAT机器学习面试1000题系列(第201~205题)
BAT机器学习面试1000题系列(第210~215题)
BAT机器学习面试1000题系列(第216~220题)
BAT机器学习面试1000题系列(第221~225题)
BAT机器学习面试1000题系列(第226~230题)
BAT机器学习面试1000题系列(第231~235题)
BAT机器学习面试1000题系列(第235~240题)
BAT机器学习面试1000题系列(第241~245题)
BAT机器学习面试1000题系列(第246~250题)
BAT机器学习面试1000题系列(第251~255题)
BAT机器学习面试1000题系列(第256~260题)
BAT机器学习面试1000题系列(第271~275题)
BAT机器学习面试1000题系列(第276~280题)
BAT机器学习面试1000题系列(第281~285题)
BAT机器学习面试1000题系列(第286~290题)
BAT机器学习面试1000题系列(第311~315题)
已邀请:

Greatpan

赞同来自:


第317题中:agging是不是输错了,是bagging?

要回复问题请先登录注册

返回顶部