BAT机器学习面试1000题(551~555题)


551、(假设precision=TP/(TP+FP),recall=TP/(TP+FN)。)在二分类问题中,当测试集的正例和负例数量不均衡时,以下评价方案哪个是相对不合理的()

A、Accuracy:(TP+TN)/all

B、F-value:2*recall*precision/(recall+precision)

C、G-mean:sqrt(precision*recall)

D、AUC:曲线下面积

正确答案是:A

解析:

题目提到测试集正例和负例数量不均衡,那么假设正例数量很少占10%,负例数量占大部分90%。

而且算法能正确识别所有负例,但正例只有一半能正确判别。

那么TP=0.05×all,TN=0.9×all,Accuracy=95%。

虽然Accuracy很高,precision是100%,但正例recall只有50%

552、下列选项中,识别模式与其他不⼀样的是

A、⽤户年龄分布判断:少年、青年、中年、⽼年

B、医⽣给病⼈诊断发病类型

C、投递员分拣信件

D、消费者类型判断:⾼消费、⼀般消息、低消费

E、出⾏方式判断:步⾏、骑车、坐车

F、商家对商品分级

正确答案是:E

解析:

解析:

E属于预测问题,其他的选项属于分类问题

553、在大规模的语料中,挖掘词的相关性是一个重要的问题。以下哪一个信息不能用于确定两个词的相关性。

A、互信息

B、最大熵

C、卡方检验

D、最大似然比

正确答案是: B

解析:

解析:

最大熵代表了整体分布的信息,通常具有最大熵的分布作为该随机变量的分布,不能体现两个词的相关性,但是卡方是检验两类事务发生的相关性。所以选B【正解】

554、基于统计的分词方法为()

A、正向最大匹配法

B、逆向最大匹配法

C、最少切分

D、条件随机场

正确答案是:D

解析:

第一类是基于语法和规则的分词法。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来进行词性标注,以解决分词歧义现象。因为现有的语法知识、句法规则十分笼统、复杂,基于语法和规则的分词法所能达到的精确度远远还不能令人满意,目前这种分词系统还处在试验阶段。

第二类是机械式分词法(即基于词典)。机械分词的原理是将文档中的字符串与词典中的词条进行逐一匹配,如果词典中找到某个字符串,则匹配成功,可以切分,否则不予切分。基于词典的机械分词法,实现简单,实用性强,但机械分词法的最大的缺点就是词典的完备性不能得到保证。据统计,用一个含有70000个词的词典去切分含有15000个词的语料库,仍然有30%以上的词条没有被分出来,也就是说有4500个词没有在词典中登录。

第三类是基于统计的方法。基于统计的分词法的基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词。词是字的组合,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映它们成为词的可信度。

555、在下面的图像中,哪一个是多元共线(multi-collinear)特征?

1.png


A、图 1 中的特征

B、图 2 中的特征

C、图 3 中的特征

D、图 1、2 中的特征

E、图 2、3 中的特征

F、图 1、3 中的特征

正确答案是:D

解析:

答案为(D):在图 1 中,特征之间有高度正相关,图 2 中特征有高度负相关。所以这两个图的特征是多元共线特征。
已邀请:

要回复问题请先登录注册

返回顶部