-
极大似然估计(频率学派)
在极大似然估计中,假设数据服从某个参数未知的概率分布,求解目标是求一个参数使得数据似然概率最大。这里参数是固定的值,反映数据的本质属性。
θM
L
=
arg
max
θ
P
(
X
;
θ
)
=
arg
max
θ
l
o
g
P
(
X
;
θ
)
\theta _{ML}=\arg \max \limits_{\theta} P(X;\theta) \\=\arg \max \limits_{\theta} logP(X;\theta)
θ
M
L
=
ar
g
θ
max
P
(
X
;
θ
)
=
ar
g
θ
max
l
o
g
P
(
X
;
θ
)
条件最大似然估计:
θM
L
=
arg
max
θ
P
(
Y
∣
X
;
θ
)
\theta _{ML}=\arg \max \limits_{\theta} P(Y|X;\theta)
θ
M
L
=
ar
g
θ
max
P
(
Y
∣
X
;
θ
)
当样本小到可能会发生过拟合时,可以考虑加入正则项或者考虑贝叶斯统计。 -
最大后验估计(贝叶斯学派)
在最大后验估计中,概率分布的参数也被当成了随机变量,其值决定于观察者看到的数据,随着观察的变化而变化。最大后验估计目标是,根据参数的概率分布得到概率最大的参数值。
θM
A
P
=
arg
max
θ
P
(
θ
∣
X
)
=
arg
max
θ
P
(
θ
,
X
)
/
P
(
X
)
=
arg
max
θ
P
(
X
∣
θ
)
∗
P
(
θ
)
/
P
(
X
)
=
arg
max
θ
l
o
g
(
P
(
X
∣
θ
)
∗
P
(
θ
)
/
P
(
X
)
)
=
arg
max
θ
l
o
g
P
(
X
∣
θ
)
+
l
o
g
P
(
θ
)
−
l
o
g
P
(
X
)
=
arg
max
θ
l
o
g
P
(
X
∣
θ
)
+
l
o
g
P
(
θ
)
\theta _{MAP}=\arg \max \limits_{\theta} P(\theta|X) \\=\arg \max \limits_{\theta} P(\theta,X)/P(X) \\=\arg \max \limits_{\theta} P(X|\theta)*P(\theta)/P(X) \\=\arg \max \limits_{\theta} log(P(X|\theta)*P(\theta)/P(X)) \\=\arg \max \limits_{\theta} logP(X|\theta)+logP(\theta)-logP(X) \\=\arg \max \limits_{\theta} logP(X|\theta)+logP(\theta)
θ
M
A
P
=
ar
g
θ
max
P
(
θ
∣
X
)
=
ar
g
θ
max
P
(
θ
,
X
)
/
P
(
X
)
=
ar
g
θ
max
P
(
X
∣
θ
)
∗
P
(
θ
)
/
P
(
X
)
=
ar
g
θ
max
l
o
g
(
P
(
X
∣
θ
)
∗
P
(
θ
)
/
P
(
X
)
)
=
ar
g
θ
max
l
o
g
P
(
X
∣
θ
)
+
l
o
g
P
(
θ
)
−
l
o
g
P
(
X
)
=
ar
g
θ
max
l
o
g
P
(
X
∣
θ
)
+
l
o
g
P
(
θ
)
注意在极大似然估计中,“;”表示
θ
\theta
θ
被当做了概率分布的参数,而在最大后验估计中,“|”表示
θ
\theta
θ
被当做了随机变量。优化过程实际是一样的。所以最大后验估计相当于带有正则项约束的极大似然估计。而先验分布
P
(
θ
)
P(\theta)
P
(
θ
)
中的超参数对应着正则项的系数。
比如,当
P
(
θ
)
P(\theta)
P
(
θ
)
是拉普拉斯分布时,相当于加上
L
1
L_1
L
1
正则项;当
P
(
θ
)
P(\theta)
P
(
θ
)
是高斯分布时,相当于加上
L
2
L_2
L
2
正则项。当
P
(
θ
)
P(\theta)
P
(
θ
)
是均匀分布时,最大后验估计退化为极大似然估计。
然而并不是所有的正则项都对应着贝叶斯估计。
-
贝叶斯估计(贝叶斯学派)
贝叶斯估计和最大后验估计有密切联系。可以认为最大后验估计是贝叶斯估计的一种特例。最大后验估计是在参数分布中得到一个最佳参数值(概率最大),而贝叶斯估计是,求该参数在参数分布上的期望,作为参数的估计(1)式。更广义的贝叶斯估计不仅估计参数,还可以估计实例
xx
x
的概率值(2)式。
θB
E
=
E
θ
[
θ
]
=
∫
θ
P
(
θ
∣
X
)
d
θ
(
1
)
\theta_{BE}=E_{\theta}[\theta]=\int \theta P(\theta|X)d\theta ~~~~~~~~~(1)
θ
B
E
=
E
θ
[
θ
]
=
∫
θ
P
(
θ
∣
X
)
d
θ
(
1
)
P(
x
∣
X
)
B
E
=
E
θ
[
x
∣
X
]
=
∫
P
(
x
∣
θ
)
θ
P
(
θ
∣
X
)
d
θ
(
2
)
P(x|X)_{BE}=E_{\theta}[x|X]=\int P(x|\theta)\theta P(\theta|X)d\theta ~~~~~~~~~(2)
P
(
x
∣
X
)
B
E
=
E
θ
[
x
∣
X
]
=
∫
P
(
x
∣
θ
)
θ
P
(
θ
∣
X
)
d
θ
(
2
)
[1]. 深度学习,p82-88