关于CNN调整注意事项


问题1:如果在验证集上的准确率上不去 或者 早停止 了,但是 train 上可能还会下降,遇到这个瓶颈,除了 调小学习率以外,还有什么办法?

问题2:对于 batch normalization 的过程有一个疑问:

q1.png


伪代码中说明X 是 over a mini-batch,但是 寒老师上课讲解的是: X 是一个 layer 上的数据,那么 这个 X 是如何与batch 建立关系的,如果与 batch 没有关系,那么名字为什么叫做 batch normalization?

问题3:为什么 使用了 batch normalization, 学习率调高一些 也没问题,具有一定鲁棒性?

问题4:关于使用dropout,如果使用 X' = X/p 的方式训练,那么还用不用记性 0-1 开关的那一步处理了?

问题5:上课提到了 caffe 和 TF,您如何评价 theano 这个工具?
已邀请:

寒老师

赞同来自:


1、early stopping
2、你SGD训练的时候每次就是一个batch,因此实际上是batch normalization
3、W迭代的时候,Learning rate太高会使得下一轮的W幅度变化很大,output的variance可能就比较大,BN就是解决这个的。
4、要。
5、theano只关注计算,research学派的产出。google一看就是工程派的。

要回复问题请先登录注册

收藏七月在线,一起向大牛进阶

ctrl+D或command+D可以快速收藏哦~