防止过拟合(笔记)

  • Post author:
  • Post category:其他


一、正则化

所有的有监督机器学习,无非就是正则化参数的同时最小化经验误差函数。最小化经验误差是为了极大程度的拟合训练数据,正则化参数是为了防止过分的拟合训练数据。

λ 为正则化系数,通常是大于 0 的,是一种调整经验误差项和正则化项之间关系的系数。

L1 范数就是矩阵中各元素绝对值之和;

L2 范数是指矩阵中各元素的平方和后的求根结果。正则化的原理在于最小化参数矩阵的每个元素,使其无限接近于 0

L1 就是江湖上著名的 lasso,L2 则是岭回归

交叉熵损失函数加上正则化项L2范数:

二、dropout

dropout 可以随时随机的丢弃任何一个神经元,神经网络的训练结果不会依赖于任何一个输入特征,每一个神经元都以这种方式进行传播,并为神经元的所有输入增加一点权重,dropout 通过传播所有权重产生类似于 L2 正则化收缩权重的平方范数的效果,这样的权重压缩类似于 L2 正则化的权值衰减,这种外层的正则化起到了防止过拟合的作用。



版权声明:本文为Female_原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。