BAT机器学习面试1000题(466~470题)


466、以下哪些方法不可以直接来对文本分类?

A、Kmeans

B、决策树

C、支持向量机

D、KNN

正确答案是:A

解析:

Kmeans是聚类方法,典型的无监督学习方法。分类是监督学习方法,BCD都是常见的分类方法。

467、已知一组数据的协方差矩阵P,下面关于主分量说法错误的是()

A、主分量分析的最佳准则是对一组数据进行按一组正交基分解, 在只取相同数量分量的条件下,以均方误差计算截尾误差最小

B、在经主分量分解后,协方差矩阵成为对角矩阵

C、主分量分析就是K-L变换

D、主分量是通过求协方差矩阵的特征值得到

正确答案是:C

解析:

K-L变换与PCA变换是不同的概念,PCA的变换矩阵是协方差矩阵,K-L变换的变换矩阵可以有很多种(二阶矩阵、协方差矩阵、总类内离散度矩阵等等)。当K-L变换矩阵为协方差矩阵时,等同于PCA。

解析参考自:@BlackEyes_SGC

468、关于logit 回归和SVM 不正确的是( )

A、Logit回归本质上是一种根据样本对权值进行极大似然估计的方法,而后验概率正比于先验概率和似然函数的乘积。logit仅仅是最大化似然函数,并没有最大化后验概率,更谈不上最小化后验概率。

B、Logit回归的输出就是样本属于正类别的几率,可以计算出概率。

C、SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,应该属于结构风险最小化。

D、SVM可以通过正则化系数控制模型的复杂度,避免过拟合。

正确答案是:A

解析:

Logit回归目标函数是最小化后验概率,Logit回归可以用于预测事件发生概率的大小,SVM目标是结构风险最小化,SVM可以有效避免模型过拟合。

469、以下不属于影响聚类算法结果的主要因素有()

A、已知类别的样本质量

B、分类准则

C、特征选取

D、模式相似性测度

正确答案是:A

解析:

都已知了,就不必再进行聚类了。

470、模式识别中,不属于马式距离较之于欧式距离的优点的是( )

A、平移不变性

B、尺度不变性

C、考虑了模式的分布

正确答案是:A
已邀请:

要回复问题请先登录注册

返回顶部