BAT机器学习面试1000题(456~460题)


456、如下表是用户是否使用某产品的调查结果( )
请计算年龄、地区、学历、收入中对用户是否使用调查产品信息增益最大的属性。(
1.png



2.png


A、年龄
B、地区
C、学历
D、收入
正确答案是:C
解析:
信息增益最大,也就是分类以后信息最少,熵最小。没有划分时,原始数据熵为

3.png


,如果按照年龄进行划分,划分后的熵为

4.png


,分别按照熵的方法计算出划分以后的熵值,可以发现按照学历划分以后,熵为0,其他选项都大于0。因此,信息增益最大的属性是学历。
如果不进行计算,可以由观察得出,按照学历划分以后,所有的用户都能正确分类,此时熵最小,信息增益最大。如果按照其他属性分类,都出现了错分的情况,对应的熵大于0。

457、在其它条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题( )
A、增加训练集数量
B、减少神经网络隐藏层节点数
C、删除稀疏的特征
D、SVM算法中使用高斯核/RBF核代替
正确答案是:D
解析:
机器学习中发生过拟合的主要原因有:
(1)使用过于复杂的模型;
(2)数据噪声较大;
(3)训练数据少。
由此对应的降低过拟合的方法有:
(1)简化模型假设,或者使用惩罚项限制模型复杂度;
(2)进行数据清洗,减少噪声;
(3)收集更多训练数据。
本题中,A对应于增加训练数据,B为简化模型假设,C为数据清洗。D选项中,高斯核的使用增加了模型复杂度,容易引起过拟合。选择合适的核函数以及软边缘参数C就是训练SVM的重要因素。一般来讲,核函数越复杂,模型越偏向于过拟合;C越大模型越偏向于过拟合,反之则拟合不足。

458、如果线性回归模型中的随机误差存在异方差性,那么参数的OLS估计量是( )
A、无偏的,有效的
B、无偏的,非有效的
C、有偏的,有效的
D、有偏的,非有效的
正确答案是:B
解析:
OLS即普通最小二乘法。由高斯—马尔可夫定理,在给定经典线性回归的假定下,最小二乘估计量是具有最小方差的线性无偏估计量。根据证明过程可知,随机误差中存在异方差性不会影响其无偏性,而有效性证明中涉及同方差性,即异方差会影响参数OLS估计量的有效性。

459、一个二进制源X发出符号集为{-1,1},经过离散无记忆信道传输,由于信道中噪音的存在,接收端Y收到符号集为{-1,1,0}。已知P(x=-1)=1/4,P(x=1)=3/4,P(y=-1|x=-1)=4/5,P(y=0|x=-1)=1/5,P(y=1|x=1)=3/4,P(y=0|x=1)=1/4,求条件熵H(Y|X)( )
A、0.2375
B、0.3275
C、0.5273
D、0.5372
正确答案是:A
解析:
由H(Y|X)= -∑P(X,Y)logP(Y|X)= -∑P(Y|X)P(X)logP(Y|X),将(y=-1,x=-1), (y=0,x=-1), (y=1,x=1), (y=0,x=1)四种情况带入公式求和,得到H(Y|X)≈-(-0.01938-0.03495-0.07028-0.11289)=0.2375。

460、Fisher线性判别函数的求解过程是将M维特征矢量投影在( )中进行求解。
A、M-1维空间
B、一维空间
C、三维空间
D、二维空间
正确答案是: B
解析:
Fisher线性判别函数是将多维空间中的特征矢量投影到一条直线上,也就是把维数压缩到一维。寻找这条最优直线的准则是Fisher准则:两类样本在一维空间的投影满足类内尽可能密集,类间尽可能分开,也就是投影后两类样本均值之差尽可能大,类内部方差尽可能小。一般而言,对于数据分布近似高斯分布的情况,Fisher线性判别准则能够得到很好的分类效果。
已邀请:

要回复问题请先登录注册

返回顶部