先说一下
泛化
和
正则化
的概念,泛化是指已经训练好的机器学习模型在处理未遇到的样本时的表现,即模型处理新样本的能力。很多时候模型在训练集里猛如虎,在测试集上就很离谱(错误率很高),即泛化能力差。因为模型只学习了训练集上数据的特性,比如训练集都是白天的猫,很可能给一张黑夜的猫的照片它就分辨不出,这也叫
过拟合
。为了防止过拟合,提高泛化能力,
正则化
应运而生,它是指给需要训练的目标函数加上一些规则(限制),就是给损失函数后面加上正则项。常用的正则化方法分为
L1正则化,L2正则化
,使用的正则项分别表示
L1范数和L2范数
。更多细节可以参考这篇
秒懂正则化
。
在原始的损失函数后添加正则项,可以减小模型学习到的参数
w
w
w
,这样可以使模型的泛化能力更强。
对参数空间进行
L1范数正则化
的线性模型称为
LASSO回归
(LASSO Regression);
对参数空间进行
L2范数正则化
的线性模型称为
岭回归
(Ridge Regression)。
岭回归和LASSO回归的不同之处
:
随着
正则变量
λ
\lambda
λ
的改变,基于
岭回归
改进的多项式回归算法的
拟合曲线始终是曲线
,很难得到一条斜的直线;基于
LASSO回归
改进的多项式回归算法的
拟合曲线会很快变成一条斜的曲线,最后变成一条几乎水平的直线
。