防止过拟合（笔记）

Post author:xfxia
Post published:2023年9月8日
Post category:其他

一、正则化

所有的有监督机器学习，无非就是正则化参数的同时最小化经验误差函数。最小化经验误差是为了极大程度的拟合训练数据，正则化参数是为了防止过分的拟合训练数据。

λ 为正则化系数，通常是大于 0 的，是一种调整经验误差项和正则化项之间关系的系数。

L1 范数就是矩阵中各元素绝对值之和；

L2 范数是指矩阵中各元素的平方和后的求根结果。正则化的原理在于最小化参数矩阵的每个元素，使其无限接近于 0

L1 就是江湖上著名的 lasso，L2 则是岭回归

交叉熵损失函数加上正则化项L2范数：

二、dropout

dropout 可以随时随机的丢弃任何一个神经元，神经网络的训练结果不会依赖于任何一个输入特征，每一个神经元都以这种方式进行传播，并为神经元的所有输入增加一点权重，dropout 通过传播所有权重产生类似于 L2 正则化收缩权重的平方范数的效果，这样的权重压缩类似于 L2 正则化的权值衰减，这种外层的正则化起到了防止过拟合的作用。

原文链接：https://blog.csdn.net/Female_/article/details/104414946

你可能也喜欢