极大似然估计与极大后验估计

  • Post author:
  • Post category:其他


  1. 极大似然估计(频率学派)

    在极大似然估计中,假设数据服从某个参数未知的概率分布,求解目标是求一个参数使得数据似然概率最大。这里参数是固定的值,反映数据的本质属性。




    θ

    M

    L

    =

    arg

    max

    θ

    P

    (

    X

    ;

    θ

    )

    =

    arg

    max

    θ

    l

    o

    g

    P

    (

    X

    ;

    θ

    )

    \theta _{ML}=\arg \max \limits_{\theta} P(X;\theta) \\=\arg \max \limits_{\theta} logP(X;\theta)







    θ











    M


    L





















    =








    ar

    g














    θ









    max



















    P


    (


    X


    ;




    θ


    )










    =








    ar

    g














    θ









    max



















    l


    o


    g


    P


    (


    X


    ;




    θ


    )






    条件最大似然估计:




    θ

    M

    L

    =

    arg

    max

    θ

    P

    (

    Y

    X

    ;

    θ

    )

    \theta _{ML}=\arg \max \limits_{\theta} P(Y|X;\theta)







    θ











    M


    L





















    =








    ar

    g














    θ









    max



















    P


    (


    Y





    X


    ;




    θ


    )






    当样本小到可能会发生过拟合时,可以考虑加入正则项或者考虑贝叶斯统计。

  2. 最大后验估计(贝叶斯学派)

    在最大后验估计中,概率分布的参数也被当成了随机变量,其值决定于观察者看到的数据,随着观察的变化而变化。最大后验估计目标是,根据参数的概率分布得到概率最大的参数值。




    θ

    M

    A

    P

    =

    arg

    max

    θ

    P

    (

    θ

    X

    )

    =

    arg

    max

    θ

    P

    (

    θ

    ,

    X

    )

    /

    P

    (

    X

    )

    =

    arg

    max

    θ

    P

    (

    X

    θ

    )

    P

    (

    θ

    )

    /

    P

    (

    X

    )

    =

    arg

    max

    θ

    l

    o

    g

    (

    P

    (

    X

    θ

    )

    P

    (

    θ

    )

    /

    P

    (

    X

    )

    )

    =

    arg

    max

    θ

    l

    o

    g

    P

    (

    X

    θ

    )

    +

    l

    o

    g

    P

    (

    θ

    )

    l

    o

    g

    P

    (

    X

    )

    =

    arg

    max

    θ

    l

    o

    g

    P

    (

    X

    θ

    )

    +

    l

    o

    g

    P

    (

    θ

    )

    \theta _{MAP}=\arg \max \limits_{\theta} P(\theta|X) \\=\arg \max \limits_{\theta} P(\theta,X)/P(X) \\=\arg \max \limits_{\theta} P(X|\theta)*P(\theta)/P(X) \\=\arg \max \limits_{\theta} log(P(X|\theta)*P(\theta)/P(X)) \\=\arg \max \limits_{\theta} logP(X|\theta)+logP(\theta)-logP(X) \\=\arg \max \limits_{\theta} logP(X|\theta)+logP(\theta)







    θ











    M


    A


    P





















    =








    ar

    g














    θ









    max



















    P


    (


    θ





    X


    )










    =








    ar

    g














    θ









    max



















    P


    (


    θ


    ,




    X


    )


    /


    P


    (


    X


    )










    =








    ar

    g














    θ









    max



















    P


    (


    X





    θ


    )













    P


    (


    θ


    )


    /


    P


    (


    X


    )










    =








    ar

    g














    θ









    max



















    l


    o


    g


    (


    P


    (


    X





    θ


    )













    P


    (


    θ


    )


    /


    P


    (


    X


    )


    )










    =








    ar

    g














    θ









    max



















    l


    o


    g


    P


    (


    X





    θ


    )




    +








    l


    o


    g


    P


    (


    θ


    )













    l


    o


    g


    P


    (


    X


    )










    =








    ar

    g














    θ









    max



















    l


    o


    g


    P


    (


    X





    θ


    )




    +








    l


    o


    g


    P


    (


    θ


    )




注意在极大似然估计中,“;”表示



θ

\theta






θ





被当做了概率分布的参数,而在最大后验估计中,“|”表示



θ

\theta






θ





被当做了随机变量。优化过程实际是一样的。所以最大后验估计相当于带有正则项约束的极大似然估计。而先验分布



P

(

θ

)

P(\theta)






P


(


θ


)





中的超参数对应着正则项的系数。

比如,当



P

(

θ

)

P(\theta)






P


(


θ


)





是拉普拉斯分布时,相当于加上



L

1

L_1







L










1





















正则项;当



P

(

θ

)

P(\theta)






P


(


θ


)





是高斯分布时,相当于加上



L

2

L_2







L










2





















正则项。当



P

(

θ

)

P(\theta)






P


(


θ


)





是均匀分布时,最大后验估计退化为极大似然估计。

然而并不是所有的正则项都对应着贝叶斯估计。

  1. 贝叶斯估计(贝叶斯学派)

    贝叶斯估计和最大后验估计有密切联系。可以认为最大后验估计是贝叶斯估计的一种特例。最大后验估计是在参数分布中得到一个最佳参数值(概率最大),而贝叶斯估计是,求该参数在参数分布上的期望,作为参数的估计(1)式。更广义的贝叶斯估计不仅估计参数,还可以估计实例



    x

    x






    x





    的概率值(2)式。




    θ

    B

    E

    =

    E

    θ

    [

    θ

    ]

    =

    θ

    P

    (

    θ

    X

    )

    d

    θ

             

    (

    1

    )

    \theta_{BE}=E_{\theta}[\theta]=\int \theta P(\theta|X)d\theta ~~~~~~~~~(1)







    θ











    B


    E





















    =









    E











    θ



















    [


    θ


    ]




    =













    θ


    P


    (


    θ





    X


    )


    d


    θ




















    (


    1


    )









    P

    (

    x

    X

    )

    B

    E

    =

    E

    θ

    [

    x

    X

    ]

    =

    P

    (

    x

    θ

    )

    θ

    P

    (

    θ

    X

    )

    d

    θ

             

    (

    2

    )

    P(x|X)_{BE}=E_{\theta}[x|X]=\int P(x|\theta)\theta P(\theta|X)d\theta ~~~~~~~~~(2)






    P


    (


    x





    X



    )











    B


    E





















    =









    E











    θ



















    [


    x





    X


    ]




    =













    P


    (


    x





    θ


    )


    θ


    P


    (


    θ





    X


    )


    d


    θ




















    (


    2


    )






    [1]. 深度学习,p82-88



版权声明:本文为P081513083原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。