BAT机器学习面试1000题系列(第176~180题)


上期思考题及参考解析
175.机器学习中,有哪些特征选择的工程方法?
  数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已
  1. 计算每一个特征与响应变量的相关性:工程上常用的手段有计算皮尔逊系数和互信息系数,皮尔逊系数只能衡量线性相关性而互信息系数能够很好地度量各种相关性,但是计算相对复杂一些,好在很多toolkit里边都包含了这个工具(如sklearn的MINE),得到相关性之后就可以排序选择特征了;
  2. 构建单个特征的模型,通过模型的准确性为特征排序,借此来选择特征;
  3.通过L1正则项来选择特征:L1正则方法具有稀疏解的特性,因此天然具备特征选择的特性,但是要注意,L1没有选到的特征不代表不重要,原因是两个具有高相关性的特征可能只保留了一个,如果要确定哪个特征重要应再通过L2正则方法交叉检验*;
  4. 训练能够对特征打分的预选模型:RandomForest和Logistic Regression等都能对模型的特征打分,通过打分获得相关性后再训练最终模型;
  5.通过特征组合后再来选择特征:如对用户id和用户特征最组合来获得较大的特征集再来选择特征,这种做法在推荐系统和广告系统中比较常见,这也是所谓亿级甚至十亿级特征的主要来源,原因是用户数据比较稀疏,组合特征能够同时兼顾全局模型和个性化模型,这个问题有机会可以展开讲。
  6.通过深度学习来进行特征选择:目前这种手段正在随着深度学习的流行而成为一种手段,尤其是在计算机视觉领域,原因是深度学习具有自动学习特征的能力,这也是深度学习又叫unsupervised feature learning的原因。从深度学习模型中选择某一神经层的特征后就可以用来进行最终目标模型的训练了。

——————————————我是分割线——————————————

176.常见的分类算法有哪些?
  SVM、神经网络、随机森林、逻辑回归、KNN、贝叶斯

177.常见的监督学习算法有哪些?
  感知机、svm、人工神经网络、决策树、逻辑回归

178.在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题()
  A. 增加训练集量
  B. 减少神经网络隐藏层节点数
  C. 删除稀疏的特征
  D. SVM算法中使用高斯核/RBF核代替线性核
  正确答案:D
  @刘炫320,本题题目及解析来源:http://blog.csdn.net/column/details/16442.html
  一般情况下,越复杂的系统,过拟合的可能性就越高,一般模型相对简单的话泛化能力会更好一点。
  B.一般认为,增加隐层数可以降低网络误差(也有文献认为不一定能有效降低),提高精度,但也使网络复杂化,从而增加了网络的训练时间和出现“过拟合”的倾向, svm高斯核函数比线性核函数模型更复杂,容易过拟合
  D.径向基(RBF)核函数/高斯核函数的说明,这个核函数可以将原始空间映射到无穷维空间。对于参数 ,如果选的很大,高次特征上的权重实际上衰减得非常快,实际上(数值上近似一下)相当于一个低维的子空间;反过来,如果选得很小,则可以将任意的数据映射为线性可分——当然,这并不一定是好事,因为随之而来的可能是非常严重的过拟合问题。不过,总的来说,通过调整参数 ,高斯核实际上具有相当高的灵活性,也是 使用最广泛的核函数之一。

179.下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测?
  A.AR模型
  B.MA模型
  C.ARMA模型
  D.GARCH模型
  正确答案:D
  @刘炫320,本题题目及解析来源:http://blog.csdn.net/column/details/16442.html
  AR模型是一种线性预测,即已知N个数据,可由模型推出第N点前面或后面的数据(设推出P点),所以其本质类似于插值。
  MA模型(moving average model)滑动平均模型,其中使用趋势移动平均法建立直线趋势的预测模型。
  ARMA模型(auto regressive moving average model)自回归滑动平均模型,模型参量法高分辨率谱分析方法之一。这种方法是研究平稳随机过程有理谱的典型方法。它比AR模型法与MA模型法有较精确的谱估计及较优良的谱分辨率性能,但其参数估算比较繁琐。
  GARCH模型称为广义ARCH模型,是ARCH模型的拓展,由Bollerslev(1986)发展起来的。它是ARCH模型的推广。GARCH(p,0)模型,相当于ARCH(p)模型。GARCH模型是一个专门针对金融数据所量体订做的回归模型,除去和普通回归模型相同的之处,GARCH对误差的方差进行了进一步的建模。特别适用于波动性的分析和预测,这样的分析对投资者的决策能起到非常重要的指导性作用,其意义很多时候超过了对数值本身的分析和预测。

——————————————我是分割线——————————————

本期思考题:
180.以下哪个属于线性分类器最佳准则?
  A.感知准则函数
  B.贝叶斯分类
  C.支持向量机
  D.Fisher准则

在评论区留言,一起交流探讨,让更多小伙伴受益。
参考答案在明天公众号上公布,敬请关注!
关注公号:julyedulab,第一时间获取「BAT机器学习面试1000题系列」最新题目哦~

往期题目:
【BAT机器学习面试题】前100题汇总及勘误(上)
【BAT机器学习面试题】前100题汇总及勘误(中)
【BAT机器学习面试题】前100题汇总及勘误(下)
BAT机器学习面试1000题系列(第101~105题)
BAT机器学习面试1000题系列(第106~110题)
BAT机器学习面试1000题系列(第111~115题)
BAT机器学习面试1000题系列(第116~120题)
BAT机器学习面试1000题系列(第121~125题)
BAT机器学习面试1000题系列(第126~130题)
BAT机器学习面试1000题系列(第131~135题)
BAT机器学习面试1000题系列(第136~140题)
BAT机器学习面试1000题系列(第141~145题)
BAT机器学习面试1000题系列(第146~150题)
BAT机器学习面试1000题系列(第151~155题)
BAT机器学习面试1000题系列(第156~160题)
BAT机器学习面试1000题系列(第161~165题)
BAT机器学习面试1000题系列(第166~170题)
BAT机器学习面试1000题系列(第171~175题)
已邀请:

要回复问题请先登录注册

返回顶部