BAT机器学习面试1000题系列(第126~130题)


上期思考题及参考解析
125.为什么LSTM模型中既存在sigmoid又存在tanh两种激活函数?
  为什么不是选择统一一种sigmoid或者tanh,而是混合使用呢?这样的目的是什么?

125-1.jpg


  本题解析来源:https://www.zhihu.com/question/46197687
  @beanfrog:二者目的不一样:sigmoid 用在了各种gate上,产生0~1之间的值,这个一般只有sigmoid最直接了。tanh 用在了状态和输出上,是对数据的处理,这个用其他激活函数或许也可以。
  @hhhh:另可参见A Critical Review of Recurrent Neural Networks for Sequence Learning的section4.1,说了那两个tanh都可以替换成别的。

———————————————————————我是分割线————————————————————————
126.衡量分类器的好坏。
  @我愛大泡泡,来源:http://blog.csdn.net/woaidapao ... 06273
  这里首先要知道TP、FN(真的判成假的)、FP(假的判成真)、TN四种(可以画一个表格)。
  几种常用的指标:
  精度precision = TP/(TP+FP) = TP/~P (~p为预测为真的数量)
  召回率 recall = TP/(TP+FN) = TP/ P
  F1值: 2/F1 = 1/recall + 1/precision
  ROC曲线:ROC空间是一个以伪阳性率(FPR,false positive rate)为X轴,真阳性率(TPR, true positive rate)为Y轴的二维坐标系所代表的平面。其中真阳率TPR = TP / P = recall, 伪阳率FPR = FP / N

127.机器学习和统计里面的auc的物理意义是什么?
  详情参见https://www.zhihu.com/question/39840928

128.观察增益gain, alpha和gamma越大,增益越小?
  @AntZ:xgboost寻找分割点的标准是最大化gain. 考虑传统的枚举每个特征的所有可能分割点的贪心法效率太低,xgboost实现了一种近似的算法。大致的思想是根据百分位法列举几个可能成为分割点的候选者,然后从候选者中计算Gain按最大值找出最佳的分割点。它的计算公式分为四项, 可以由正则化项参数调整(lamda为叶子权重平方和的系数, gama为叶子数量):

128-1.jpg


  第一项是假设分割的左孩子的权重分数, 第二项为右孩子, 第三项为不分割总体分数, 最后一项为引入一个节点的复杂度损失
由公式可知, gama越大gain越小, lamda越大, gain可能小也可能大。
  原问题是alpha而不是lambda, 这里paper上没有提到, xgboost实现上有这个参数. 上面是我从paper上理解的答案,下面是搜索到的:
https://zhidao.baidu.com/quest ... 3Dgbk
  lambda[默认1]权重的L2正则化项。(和Ridge regression类似)。 这个参数是用来控制XGBoost的正则化部分的。虽然大部分数据科学家很少用到这个参数,但是这个参数在减少过拟合上还是可以挖掘出更多用处的。11、alpha[默认1]权重的L1正则化项。(和Lasso regression类似)。 可以应用在很高维度的情况下,使得算法的速度更快。
  gamma[默认0]在节点分裂时,只有分裂后损失函数的值下降了,才会分裂这个节点。Gamma指定了节点分裂所需的最小损失函数下降值。 这个参数的值越大,算法越保守。

129.什么造成梯度消失问题? 推导一下
  @许韩,来源:https://www.zhihu.com/question ... 04190
Yes you should understand backdrop-Andrej Karpathy
How does the ReLu solve the vanishing gradient problem?
  神经网络的训练中,通过改变神经元的权重,使网络的输出值尽可能逼近标签以降低误差值,训练普遍使用BP算法,核心思想是,计算出输出与标签间的损失函数值,然后计算其相对于每个神经元的梯度,进行权值的迭代。
  梯度消失会造成权值更新缓慢,模型训练难度增加。造成梯度消失的一个原因是,许多激活函数将输出值挤压在很小的区间内,在激活函数两端较大范围的定义域内梯度为0,造成学习停止。

129-1.jpg

———————————————————————我是分割线————————————————————————
本期思考题:
130.什么是梯度消失和梯度爆炸?
在评论区留言,一起交流探讨,让更多小伙伴受益。
参考答案在明天公众号上公布,敬请关注!
关注公号:julyedulab,第一时间获取「BAT机器学习面试1000题系列」最新题目哦~

往期题目:
【BAT机器学习面试题】前100题汇总及勘误(上)
【BAT机器学习面试题】前100题汇总及勘误(中)
【BAT机器学习面试题】前100题汇总及勘误(下)
BAT机器学习面试1000题系列(第101~105题)
BAT机器学习面试1000题系列(第106~110题)
BAT机器学习面试1000题系列(第111~115题)
BAT机器学习面试1000题系列(第116~120题)
BAT机器学习面试1000题系列(第121~125题)
已邀请:

要回复问题请先登录注册

返回顶部