数学建模学习笔记（10）：岭回归和Lasso回归

基本概述

方法功能

：可以视为逐步回归法的升级版，主要用于在回归模型中存在多重共线性时筛选自变量。
方法原理

：在一般回归模型的损失函数的基础上加上了正则项（惩罚项），两种回归的区别在于正则项不同。岭回归的惩罚项是回归系数的平方和；Lasso回归的惩罚项是回归系数的绝对值的和。
其他作用

：都可以对模型进行一定程度的简化，避免模型过于复杂。

传统回归模型的四个假定

：

数据预处理步骤

：进行岭回归之前需要观察自变量的量纲是否统一，如果不统一则需要对数据进行标准化处理。

筛选惩罚项系数的方法

：

（1）各个回归系数的岭迹基本稳定；

（2）用最小二乘法估计时不合理的回归系数，其岭回归的符号变得合理。

（3）回归系数没有不合乎经济意义的绝对值。

（4）残差平方和增大不太多。

实际使用时可以直接通过软件找出最佳的惩罚项系数。

模型现状

：目前Lasso回归的使用率远高于岭回归，因此实际建模时推荐优先使用Lasso回归。

Lasso回归的最大优点

：能够把不重要的自变量的回归系数压缩到零，从而起到很好的变量筛选作用。

Lasso回归的缺点

：没有显式解，只能使用近似估计算法计算回归系数。

什么情况下进行Lasso回归

：首先对原始模型进行多重共线性检验，如果存在多重共线性，那么就可以用Lasso回归进行自变量筛选并回归。

数据需要统一量纲

：Lasso回归也需要首先统一自变量的量纲，也就是需要对自变量进行标准化。

备注

：

Stata中只能一次对一个特征进行标准化，因此在特征较多时使用不太方便，一般会采用Matlab、Excel或SPSS对数据进行标准化处理。

SPSS数据标准化步骤

：
描述→将标准化得分另存为变量→确定。

Stata进行Lasso回归语法

：
cvlasso 因变量自变量1,自变量2,.... , lopt seed(随机数种子)

语法解释

：lopt表示选择使得均方误差最小的系数；seed表示设置随机数种子，使得结果具有可重复性。

Lasso回归结果解读

：