BAT机器学习面试1000题(496~500题)


496、下面哪个/些超参数的增加可能会造成随机森林数据过拟合?

A、树的数量

B、树的深度

C、学习速率

正确答案是: B

解析:

答案为(B):通常情况下,我们增加树的深度有可能会造成模型过拟合。学习速率并不是随机森林的超参数。增加树的数量可能会造成欠拟合。

497、下列哪个不属于常用的文本分类的特征选择算法?

A、卡方检验值

B、互信息

C、信息增益

D、主成分分析

正确答案是:D

解析:

常采用特征选择方法。常见的六种特征选择方法: 1)DF(Document Frequency) 文档频率 DF:统计特征词出现的文档数量,用来衡量某个特征词的重要性 2)MI(Mutual Information) 互信息法 互信息法用于衡量特征词与文档类别直接的信息量。 如果某个特征词的频率很低,那么互信息得分就会很大,因此互信息法倾向"低频"的特征词。 相对的词频很高的词,得分就会变低,如果这词携带了很高的信息量,互信息法就会变得低效。 3)(Information Gain) 信息增益法 通过某个特征词的缺失与存在的两种情况下,语料中前后信息的增加,衡量某个特征词的重要性。 4)CHI(Chi-square) 卡方检验法 利用了统计学中的"假设检验"的基本思想:首先假设特征词与类别直接是不相关的 如果利用CHI分布计算出的检验值偏离阈值越大,那么更有信心否定原假设,接受原假设的备则假设:特征词与类别有着很高的关联度。 5)WLLR(Weighted Log Likelihood Ration)加权对数似然 6)WFO(Weighted Frequency and Odds)加权频率和可能性 本题解析来源:http://blog.csdn.net/ztf312/ar ... 90099

498、机器学习中做特征选择时,可能用到的方法有?

A、卡方

B、信息增益

C、平均互信息

D、期望交叉熵

E、以上都有

正确答案是:E

499、下列方法中,不可以用于特征降维的方法包括

A、主成分分析PCA

B、线性判别分析LDA

C、深度学习SparseAutoEncoder

D、矩阵奇异值分解SVD

正确答案是:C

解析:

特征降维方法主要有: PCA,LLE,Isomap SVD和PCA类似,也可以看成一种降维方法 LDA:线性判别分析,可用于降维 AutoEncoder:AutoEncoder的结构与神经网络的隐含层相同,由输入L1,输出 L2组成,中间则是权重连接。Autoencoder通过L2得到输入的重构L3,最小化L3与L1的差别 进行训练得到权重。在这样的权重参数下,得到的L2可以尽可能的保存L1的信息。 Autoencoder的输出L2的维度由输出的神经元个数决定。当输出维度大于L1时,则需要在训练目标函数中加入sparse 惩罚项,避免L2直接复制L1(权重全为1)。所以称为sparseAutoencoder( Andrew Ng提出的)。 结论:SparseAutoencoder大多数情况下都是升维的,所以称之为特征降维的方法不准确。

2.png


500、下列哪些不特别适合用来对高维数据进行降维

A、LASSO

B、主成分分析法

C、聚类分析

D、小波分析法

E、线性判别法

F、拉普拉斯特征映射

正确答案是:C

解析:

lasso通过参数缩减达到降维的目的; pca就不用说了 线性鉴别法即LDA通过找到一个空间使得类内距离最小类间距离最大所以可以看做是降维; 小波分析有一些变换的操作降低其他干扰可以看做是降维 拉普拉斯请看这个http://f.dataguru.cn/thread-287243-1-1.html
已邀请:

要回复问题请先登录注册

返回顶部