BAT机器学习面试1000题(461~465题)


461、类域界面方程法中,不能求线性不可分情况下分类问题近似或精确解的方法是( )

A、势函数法

B、基于二次准则的H-K算法

C、伪逆法

D、感知器算法

正确答案是:D

解析:

线性分类器的设计就是利用训练样本集建立线性判别函数式,也就是寻找最优的权向量的过程。求解权重的过程就是训练过程,训练方法的共同点是,先给出准则函数,再寻找是准则函数趋于极值的优化方法。ABC方法都可以得到线性不可分情况下分类问题近似解。感知器可以解决线性可分的问题,但当样本线性不可分时,感知器算法不会收敛。

462、下列哪个不属于CRF模型对于HMM和MEMM模型的优势

A、特征灵活

B、速度快

C、可容纳较多上下文信息

D、全局最优

正确答案是: B

解析:

HMM模型是对转移概率和表现概率直接建模,统计共现概率。而MEMM模型是对转移概率和表现概率建立联合概率,统计时统计的是条件概率。CRF是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。MEMM容易陷入局部最优,是因为MEMM只在局部做归一化。CRF模型中,统计了全局概率,在做归一化时,考虑了数据在全局的分布,而不是仅仅在局部归一化,这样就解决了MEMM中的标记偏置的问题。

CRF没有HMM那样严格的独立性假设条件,因而可以容纳任意的上下文信息,特征设计灵活。CRF需要训练的参数更多,与MEMM和HMM相比,它存在训练代价大、复杂度高的缺点。

463、Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是()

A、各类别的先验概率P(C)是相等的

B、以0为均值,sqr(2)/2为标准差的正态分布

C、特征变量X的各个维度是类别条件独立随机变量

D、P(X|C)是高斯分布

正确答案是:C

解析:

朴素贝叶斯的基本假设就是每个变量相互独立。

464、在HMM中,如果已知观察序列和产生观察序列的状态序列,那么可用以下哪种方法直接进行参数估计()

A、EM算法

B、维特比算法

C、前向后向算法

D、极大似然估计

正确答案是:D

解析:

EM算法: 只有观测序列,无状态序列时来学习模型参数,即Baum-Welch算法

维特比算法: 用动态规划解决HMM的预测问题,不是参数估计

前向后向算法:用来算概率

极大似然估计:即观测序列和相应的状态序列都存在时的监督学习算法,用来估计参数

注意的是在给定观测序列和对应的状态序列估计模型参数,可以利用极大似然发估计。如果给定观测序列,没有对应的状态序列,才用EM,将状态序列看不不可测的隐数据。

题目解析参考自:@BlackEyes_SGC

465、假定某同学使用Naive Bayesian(NB)分类模型时,不小心将训练数据的两个维度搞重复了,那么关于NB的说法中不正确的是?

A、模型效果相比无重复特征的情况下精确度会降低

B、如果所有特征都被重复一遍,得到的模型预测结果相对于不重复的情况下的模型预测结果一样

C、当两列特征高度相关时,无法用两列特征相同时所得到的结论来分析问题

正确答案是: B

解析:

朴素贝叶斯的条件就是每个变量相互独立。在贝叶斯理论系统中,都有一个重要的条件独立性假设:假设所有特征之间相互独立,这样才能将联合概率拆分。

此外,若高度相关的特征在模型中引入两次, 这样增加了这一特征的重要性, 则它的性能因数据包含高度相关的特征而下降。正确做法是评估特征的相关矩阵,并移除那些高度相关的特征。
已邀请:

要回复问题请先登录注册

返回顶部