基本概述
-
方法功能
:可以视为逐步回归法的升级版,主要用于在回归模型中存在多重共线性时筛选自变量。 -
方法原理
:在一般回归模型的损失函数的基础上加上了正则项(惩罚项),两种回归的区别在于正则项不同。岭回归的惩罚项是回归系数的平方和;Lasso回归的惩罚项是回归系数的绝对值的和。 -
其他作用
:都可以对模型进行一定程度的简化,避免模型过于复杂。
传统回归模型的四个假定
:
-
线性假定
:假设因变量和自变量之间存在线性关系。 -
严格外生性假定
; -
无完全多重共线性假定
; -
球型扰动项假定
。
岭回归
数据预处理步骤
:进行岭回归之前需要观察自变量的量纲是否统一,如果不统一则需要对数据进行标准化处理。
筛选惩罚项系数的方法
:
-
岭迹分析
:在同一张图中作出惩罚项系数和除常数项外的所有回归系数的关系图,并按照下面的一般原则进行系数选择:
(1)各个回归系数的岭迹基本稳定;
(2)用最小二乘法估计时不合理的回归系数,其岭回归的符号变得合理。
(3)回归系数没有不合乎经济意义的绝对值。
(4)残差平方和增大不太多。
实际使用时可以直接通过软件找出最佳的惩罚项系数。
-
方差膨胀因子法
:不断增大惩罚项系数大小,直到所有自变量的方差膨胀因子都小于10。 -
最小化均方预测误差
:这是目前使用最多的方法。以均方误差最小化作为优化目标,用K折交叉验证法找到使得整个模型均方误差最小的系数。
Lasso回归
模型现状
:目前Lasso回归的使用率远高于岭回归,因此实际建模时推荐优先使用Lasso回归。
Lasso回归的最大优点
:能够把不重要的自变量的回归系数压缩到零,从而起到很好的变量筛选作用。
Lasso回归的缺点
:没有显式解,只能使用近似估计算法计算回归系数。
什么情况下进行Lasso回归
:首先对原始模型进行多重共线性检验,如果存在多重共线性,那么就可以用Lasso回归进行自变量筛选并回归。
数据需要统一量纲
:Lasso回归也需要首先统一自变量的量纲,也就是需要对自变量进行标准化。
备注
:
Stata中只能一次对一个特征进行标准化,因此在特征较多时使用不太方便,一般会采用Matlab、Excel或SPSS对数据进行标准化处理。
SPSS数据标准化步骤
:
描述→将标准化得分另存为变量→确定。
Stata进行Lasso回归语法
:
cvlasso 因变量 自变量1,自变量2,.... , lopt seed(随机数种子)
语法解释
:lopt表示选择使得均方误差最小的系数;seed表示设置随机数种子,使得结果具有可重复性。
Lasso回归结果解读
:
-
最优惩罚项系数
:第一张结果表格中带星的是使得均方误差最小的惩罚项系数。 -
Lasso回归系数
:第二张结果表格中第一列表示Lasso估计的变量系数,只有经过筛选较为重要的变量才会拥有系数,其余自变量系数变为零。 -
筛选后变量重新回归的系数
:右边一列Post Lasso表示经过变量筛选后再用筛选出的自变量进行一般的OLS回归所得到的回归系数。