CNN和LSTM的dropout有什么区别?


看过网上介绍的CNN和LSTM的dropout,我的理解是两者都是在层与层之间实现的dropout,有大神能解释下两者的区别吗?
另一个问题是:在loss函数中加L2范数和dropout两种方法对于防止过拟合有什么不同?
已邀请:

lanpay

赞同来自:


lstm的dropout没仔细看,回答下第二个问题吧。
loss中加L2范数,实质是惩罚绝对值大的系数,希望输出不要由某个大的系数项决定,从而提高鲁棒性;
dropout的出发点是不希望神经网络去记住训练数据本身,而是能学出一些规律性的东西,不停去改变网络的结构,还能达到一种多个分类器bagging的效果。

要回复问题请先登录注册

收藏七月在线,一起向大牛进阶

ctrl+D或command+D可以快速收藏哦~