caffe下一些参数的设置

  • Post author:
  • Post category:其他


weight_decay防止过拟合的参数,使用方式:

1 样本越多,该值越小

2 模型参数越多,该值越大

一般建议值:

weight_decay: 0.0005

lr_mult,decay_mult

关于偏置与参数使用不同的学习率与权重衰减项:

1 偏置的学习率一般为参数的两倍

比如一个卷积,有偏置的话,其学习率应该是

param { lr_mult: 1 }

param { lr_mult: 2 }

偏置设为2倍,能够加速收敛

对于偏置,其衰减项一般设置为0,还是对应上面的卷积:

param { lr_mult: 1

decay_mult:1 }

param { lr_mult: 2

decay_mult:0}

caffe 下与loss相关的一些说明:

1 train loss 不断下降,test loss 不断下降,说明网络正在学习

2 train loss 不断下降,test loss 趋于不变,说明网络过拟合

3 train loss 趋于不变,test loss 趋于不变,说明学习遇到瓶颈,需要减小学习率或者批处理大小

4 train loss 趋于不变,test loss 不断下降,说明数据集100%有问题

5 train loss 不断上升,test loss 不断上升(最终变为NaN),可能是网络结构设计不当,训练超参数设置不当,程序bug等某个问题引起

6 train loss 不断上下跳动,可能引起的原因:学习率过大,或者批处理大小太小