BAT机器学习面试1000题(521~525题)


521、假如我们使用非线性可分的SVM目标函数作为最优化对象, 我们怎么保证模型线性可分?

A、设C=1

B、设C=0

C、设C=无穷大

D、以上都不对

正确答案是:C

解析:

答案: C

C无穷大保证了所有的线性不可分都是可以忍受的

522、以下哪些算法, 可以用神经网络去构造:

  1. KNN

  2. 线性回归

  3. 对数几率回归


A、1和 2

B、2 和 3

C、1, 2 和 3

D、以上都不是

正确答案是: B

解析:

答案: B

  1. KNN算法不需要训练参数, 而所有神经网络都需要训练参数, 因此神经网络帮不上忙

  2. 最简单的神经网络, 感知器, 其实就是线性回归的训练

  3. 我们可以用一层的神经网络构造对数几率回归


523、请选择下面可以应用隐马尔科夫(HMM)模型的选项

A、基因序列数据集

B、电影浏览数据集

C、股票市场数据集

D、所有以上

正确答案是:D

解析:

答案: D

只要是和时间序列问题有关的 , 都可以试试HMM.

524、我们建立一个5000个特征, 100万数据的机器学习模型. 我们怎么有效地应对这样的大数据训练 :

A、我们随机抽取一些样本, 在这些少量样本之上训练

B、我们可以试用在线机器学习算法

C、我们应用PCA算法降维, 减少特征数

D、B 和 C

E、A 和 B

F、以上所有

正确答案是:F

解析:

样本数过多, 或者特征数过多, 而不能单机完成训练, 可以用小批量样本训练, 或者在线累计式训练, 或者主成分PCA降维方式减少特征数量再进行训练.

525、我们想要减少数据集中的特征数, 即降维. 选择以下适合的方案 :

  1. 使用前向特征选择方法

  2. 使用后向特征排除方法

  3. 我们先把所有特征都使用, 去训练一个模型, 得到测试集上的表现. 然后我们去掉一个特征, 再去训练, 用交叉验证看看测试集上的表现. 如果表现比原来还要好, 我们可以去除这个特征.

  4. 查看相关性表, 去除相关性最高的一些特征


A、1 和 2

B、2, 3和4

C、1, 2和4

D、All

正确答案是:D

解析:

答案: D

1.前向特征选择方法和后向特征排除方法是我们特征选择的常用方法

2.如果前向特征选择方法和后向特征排除方法在大数据上不适用, 可以用这里第三种方法.

3.用相关性的度量去删除多余特征, 也是一个好方法

所以D是正确的
已邀请:

要回复问题请先登录注册

返回顶部