【机器学习】经验风险最小化与结构风险最小化

  • Post author:
  • Post category:其他


1. 损失函数和风险函数

损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。

常用的损失函数有以下几种:

(1)0-1损失函数(0-1 loss function)

L\left( {Y,f\left( X \right)} \right) = \left\{ {\begin{array}{*{20}{c}} {1,}&{Y \ne f\left( X \right)}\\ {0,}&{Y = f\left( X \right)} \end{array}} \right.
(1)

(2)平方损失函数(quadratic loss function)

L\left( {Y,f\left( X \right)} \right) = {\left( {Y - f\left( X \right)} \right)^2}
(2)

(3)绝对损失函数(absolute loss function)

L\left( {Y,f\left( X \right)} \right) = \left| {Y - f\left( X \right)} \right|
(3)

(4)对数损失函数(logarithmic loss function)或对数似然损失函数(log-likelihood loss function)

L\left( {Y,P\left( {Y\left| X \right.} \right)} \right) = - \log P\left( {Y\left| X \right.} \right)
(4)

损失函数值越小,模型就越好。由于模型的输入输出
\left( {X,Y} \right)
是随机变量,遵循联合分布
P\left( {X,Y} \right)
,所以损失函数的期望是:

{R_{\exp }}\left( f \right) = {E_p}\left[ {L\left( {Y,f\left( X \right)} \right)} \right] = \int {L\left( {y,f\left( x \right)} \right)} P\left( {x,y} \right)dxdy
(5)

这是理论上模型
f\left( X \right)
关于联合分布
P\left( {X,Y} \right)
的期望损失,称为期望风险。

然而,联合分布
P\left( {X,Y} \right)
是未知的,期望风险
{R_{\exp }}\left( f \right)
不能直接计算,可以近似为
f\left( X \right)
关于训练数据集的平均损失,也就是经验风险(empirical risk),即:

{R_{emp}}\left( f \right) = \frac{1}{N}\sum\limits_{i = 1}^N {L\left( {​{y_i},f\left( {​{x_i}} \right)} \right)}
(6)

根据大数定律,当样本容量
N
趋于无穷时,经验风险
{R_{emp}}\left( f \right)
趋于期望风险
{R_{\exp }}\left( f \right)
。但是现实中训练样本数目有限,用经验风险来估计期望风险往往并不理想,要对经验风险进行一定的矫正,也就是形成结构风险。

2. 经验风险最小化与结构风险最小化

2.1 经验风险最小化(empirical risk minimization,ERM)

经验风险最小化的策略认为,经验风险最小的模型是最优的模型:

\mathop {\min }\limits_{f \in F} \frac{1}{N}\sum\limits_{i = 1}^N {L\left( {​{y_i},f\left( {​{x_i}} \right)} \right)}
(7)

当样本容量足够大时,经验风险最小化能保证有很好的学习效果。比如,极大似然估计(就是经验风险最小化的一个例子,当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。

但当样本容量很小时,经验风险最小化容易导致“过拟合”。

2.2 结构风险最小化

结构风险最小化(structural minimization, SRM)是为了防止过拟合提出的策略。结构风险最小化等价于正则化(regularization)。结构风险在经验风险上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term)。结构风险的定义是:

{R_{srm}}\left( f \right) = \frac{1}{N}\sum\limits_{i = 1}^N {L\left( {​{y_i},f\left( {​{x_i}} \right)} \right)} + \lambda J\left( f \right)
(8)

其中
J\left( f \right)
是模型复杂度的函数,
\lambda \ge 0
是系数,用来权衡经验风险和模型复杂度。

结构风险最小化的策略认为结构风险最小的模型是最优模型:

\mathop {\min }\limits_{f \in F} \left[ {\frac{1}{N}\sum\limits_{i = 1}^N {L\left( {​{y_i},f\left( {​{x_i}} \right)} \right)} + \lambda J\left( f \right)} \right]
(9)

结构风险小需要经验风险和模型复杂度同时都小,结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测。

比如,贝叶斯估计中的最大后验概率估计(maximum posterior probability estimation,MAP)就是结构风险最小化的一个例子,当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计。

参考文献:

1. 《统计学习方法》第一章统计学习方法概论——李航



版权声明:本文为pxhdky原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。