正则化准则就是在误差准则后面加上正则化项——它反映模型标准差越小越好。这意思是你撒网盖住鱼了,但是覆盖面积越小越好。网盖住整个池塘,就等于没网。用Popper理论解释就是逻辑概率越小越好,因为检验更严厉。 永真句不提供信息。
看到这篇文章:
从贝叶斯角度深入理解正则化
http://blog.csdn.net/zhuxiaodong030/article/details/54408786
初看觉得很有新意。但是仔细思考, 不对啊, 要用样本优化的是似然函数中的参数啊, 怎么能优化先验参数呢?先验参数和样本无关啊!
我的一篇文章讲到这个问题, 摘录如下:
把真值函数或隶属函数带进贝叶斯公式:
(3.5)
其中T(.|X)是隶属函数, T(.)是逻辑概率。
在
Shannon
信息论中,只有统计概率,没有逻辑概率,也没有预测的概率
(
似然度
).
下面语义信息测度同时用到这三种概率
[6]
.
y
j
提供关于
x
i
的信息量就是对数标准似然度:
(3.8)
其中用到贝叶斯定理
III
,并假设先验似然函数等于先验概率分布
P
(X).
对于无偏估计,真值函数和信息之间的关系如图
4
所示
.
图
4
语义信息量图解
.
偏差越大,信息越少;逻辑概率越小,信息量越大;错误预测提供负的信息
.
Figure4
Illustration of semanticinformation measure. The larger the deviation is, the less information thereis; the less the logical probabilit
Y
is, the more information there is; and, a wrong estimation ma
y
conve
y
negative information.
这个公式就能反映
Popper
的思想
[23]
:
(
先验
)
逻辑概率越小,并能经得起检验
(
后验逻辑概率越大
)
,信息量就越大
;
永真句在逻辑上不能被证伪,因而不含有信息
.
把式
(3.7)
中的
T
(
θ
j
|
X
)
代入式
(3.8),
就得到
(3.9)
其中
log[1/
T
(
θ
j
)]
就是
Bar-Hillel
和
Carnap
定义的语义信息测度
[3]
.
上述语义信息测度还考虑了偏差——语义信息量随偏差增大而减小
.
对
I
(
x
i
;
θ
j
)
求平均,就得到广义
Kullback-Leibler (KL)
信息:
(3.10)
其中对数左边是统计概率
P
(
x
i
|
y
j
)
,
i
=1, 2, …
,它们构成样本概率分布
P
(
X
|
y
j
)
,
是用以检验
θ
j
的
.
对
I
(
X
;
θ
j
)
求平均,就得到广义或语义互信息公式:
(3.11)
容易证明,在语义贝叶斯预测和样本分布一致时,
即
P
(xi|θj)=P(xi|yj) (
对于所有
i, j
)
时,上述语义互信息达到其上限,等于
Shannon
互信息
.
从式
(3.9)
和
(3.11)
可见,
语义互信息准则和流行的误差加正则化准则是类似的
. H(θ|X)
就是误差项,
H
(θ)
就是正则化项
. I(X; θ)
就是负的损失函数
.
更多讨论见:
http://survivor99.com/lcg/books/GIT/