机器学习算法原理——逻辑斯谛回归

  • Post author:
  • Post category:其他




逻辑斯谛回归

写在前面:逻辑斯谛回归最初是数学家 Verhulst 用来研究人口增长是所发现的,是一个非常有趣的发现过程, b 站有更详细的背景及过程推导,在此不再赘述:

https://www.bilibili.com/video/BV1No4y1o7ac/?p=59


在这里插入图片描述


逻辑斯谛分布的标准形式:






F

(

x

)

=

1

1

+

e

x

F(x) = \frac{1}{1 + e^{-x}}






F


(


x


)




=



















1




+





e














x






















1



























f

(

x

)

=

e

x

(

1

+

e

x

)

2

f(x) = \frac{e^{-x}}{(1 + e^{-x})^2}






f


(


x


)




=



















(


1




+





e














x











)










2






















e














x































  • 分布函数是一条



    S

    S






    S





    形曲线,该曲线也被称为 sigmoid 曲线,关于点



    (

    0

    ,

    1

    2

    )

    (0,\frac{1}{2})






    (


    0


    ,
















    2
















    1





















    )





    中心对称。

  • 概率密度函数一条钟型曲线,中间高两端低,关于



    x

    =

    0

    x = 0






    x




    =








    0





    对称,在此处取得最大值 (人口增速最大时刻)。


逻辑斯谛回归的一般形式:





X

\rm X







X






是连续随机变量,



X

\rm X







X






服从逻辑斯谛分布是指



X

\rm X







X






具有下列分布函数和概率密度:





F

(

x

)

=

P

(

X

x

)

=

1

1

+

e

(

x

μ

)

/

γ

F(x)=P(X\leqslant x)={\frac{1}{1+\mathrm{

{e}}^{-(x-\mu)/\gamma}}}\\






F


(


x


)




=








P


(


X













x


)




=




















1




+






e















(


x





μ


)


/


γ






















1






























f

(

x

)

=

F

(

x

)

=

e

(

x

μ

)

/

γ

γ

(

1

+

e

(

x

μ

)

/

γ

)

2

f(x)=F^{\prime}(x)={\frac{\mathrm{e}^{-(x-\mu)/\gamma}}{\gamma(1+\mathrm{e}^{-(x-\mu)/\gamma})^{2}}}






f


(


x


)




=









F






















(


x


)




=




















γ


(


1




+





e














(


x





μ


)


/


γ











)











2























e














(


x





μ


)


/


γ
































式中,



μ

\mu






μ





为位置参数,



γ

>

0

\gamma > 0






γ




>








0





为形式参数。

  • 分布函数是一条



    S

    S






    S





    形曲线,该曲线也被称为 sigmoid 曲线,关于点



    (

    μ

    ,

    1

    2

    )

    (\mu,\frac{1}{2})






    (


    μ


    ,
















    2
















    1





















    )





    中心对称。

  • 概率密度函数一条钟型曲线,中间高两端低,关于



    x

    =

    μ

    x = \mu






    x




    =








    μ





    对称,在此处取得最大值



    1

    4

    γ

    \frac{1}{4 \gamma}


















    4


    γ
















    1
























    (人口增速最大时刻)。



二项逻辑斯谛回归模型





P

(

Y

=

1

x

)

=

exp

(

w

x

+

b

)

1

+

exp

(

w

x

+

b

)

P(Y=1 \mid x)=\frac{\exp (w \cdot x+b)}{1+\exp (w \cdot x+b)}






P


(


Y




=








1













x


)




=



















1




+




exp


(


w









x




+




b


)














exp


(


w









x




+




b


)



























P

(

Y

=

0

x

)

=

1

1

+

exp

(

w

x

+

b

)

P(Y=0 \mid x)=\frac{1}{1+\exp (w \cdot x+b)}






P


(


Y




=








0













x


)




=



















1




+




exp


(


w









x




+




b


)














1























其中,



x

R

n

x \in {\bf R^n}






x
















R










n














是输入,



Y

0

,

1

Y \in {0,1}






Y














0


,




1






是输出,



w

R

n

w \in {\bf R^n}






w
















R










n


















b

R

n

b \in {\bf R^n}






b
















R










n














是参数,



w

w






w





称为权值向量,



b

b






b





称为偏置,



w

x

w \cdot x






w













x









x

x






x









x

x






x





的内积。

为了方便,将权重向量和输入向量加以扩充,仍记为



w

w






w









x

x






x





,则有:





ω

=

(

ω

(

1

)

,

ω

(

2

)

,


,

ω

(

n

)

,

b

)

T

,

x

=

(

x

(

1

)

,

x

(

2

)

,


,

x

(

n

)

,

1

)

T

,

\omega=\left(\omega^{(1)}, \omega^{(2)}, \cdots, \omega^{(n)}, b\right)^T, \quad \quad x=\left(x^{(1)}, x^{(2)}, \cdots, x^{(n)}, 1\right)^T,






ω




=











(




ω











(


1


)










,





ω











(


2


)










,











,





ω











(


n


)










,




b



)












T











,








x




=











(




x











(


1


)










,





x











(


2


)










,











,





x











(


n


)










,




1



)












T











,







逻辑分布函数重写为:





P

(

Y

=

1

x

)

=

e

w

x

1

+

e

w

x

P(Y=1 \mid x)=\frac{e^{w \cdot x}}{1 + e^{w \cdot x}}






P


(


Y




=








1













x


)




=



















1




+





e











w





x























e











w





x



































P

(

Y

=

0

x

)

=

1

1

+

e

w

x

P(Y=0 \mid x)=\frac{1}{1 + e^{w \cdot x}}






P


(


Y




=








0













x


)




=



















1




+





e











w





x






















1

























极大似然估计

二项分布:





P

(

Y

)

=

{

1

p

,

Y

=

0

p

,

Y

=

1

=

(

1

p

)

1

Y

p

Y

P(Y)=\left\{\begin{array}{ll} 1-p, & Y=0 \\ p, & Y=1 \end{array}=(1-p)^{1-Y} p^Y\right.






P


(


Y


)




=










{
















1









p


,








p


,





























Y




=




0








Y




=




1























=




(


1









p



)











1





Y











p










Y

















对于



(

x

i

,

y

i

)

(x_i, y_i)






(



x










i


















,





y










i


















)





,有:





P

(

Y

=

y

i

x

i

)

=

(

1

p

i

)

1

y

i

p

i

y

i

P(Y = y_i | x_i) = (1 – p_i)^{1 – y_i} p_i^{y_i}






P


(


Y




=









y










i






















x










i


















)




=








(


1














p










i



















)











1






y










i



























p










i










y










i








































其中:





p

i

=

e

w

x

i

1

+

e

w

x

i

1

p

i

=

1

1

+

e

w

x

i

\begin{align} p_i = \frac{e^{w \cdot x_i}}{1 + e^{w \cdot x_i}}\\ 1 – p_i = \frac{1}{1 +e^{w \cdot x_i}} \end{align}
















p










i




















=















1




+





e











w






x










i







































e











w






x










i


















































1










p










i




















=















1




+





e











w






x










i






































1






































































对于数据集



T

=

(

X

1

,

y

1

)

,

(

x

2

,

y

2

)

,


,

(

x

N

,

y

N

)

T = {(X_1, y_1), (x_2, y_2), \cdots, (x_N, y_N)}






T




=









(



X










1


















,





y










1


















)


,




(



x










2


















,





y










2


















)


,











,




(



x










N


















,





y










N


















)






出现的概率:





i

=

1

N

(

1

p

i

)

1

y

i

p

i

y

i

\prod_{i = 1}^N (1 – p_i)^{1 – y_i} p_i^{y_i}















i


=


1


















N

















(


1














p










i



















)











1






y










i



























p










i










y










i








































该概率只与



w

w






w





有关,即可得关于



w

w






w





的似然函数:





L

(

w

)

=

i

=

1

N

(

1

p

i

)

1

y

i

p

i

y

i

L(w) = \prod_{i = 1}^N (1 – p_i)^{1 – y_i} p_i^{y_i}






L


(


w


)




=

















i


=


1


















N

















(


1














p










i



















)











1






y










i



























p










i










y










i








































对数似然函数:





log

i

=

1

N

p

i

y

i

(

1

p

i

)

1

y

i

=

i

=

1

N

[

y

i

log

p

i

+

(

1

y

i

)

log

(

1

p

i

)

]

=

i

=

1

N

[

y

i

log

p

i

1

p

i

+

log

(

1

p

i

)

]

\begin{align} \log \prod_{i = 1}^{N} p_i^{y_i} (1 – p_i)^{1 – y_i} &= \sum_{i = 1}^{N}[y_i \log p_i + (1 – y_i) \log(1-p_i)]\\ &= \sum_{i = 1}^{N}[y_i \log \frac{p_i}{1 – p_i} + \log(1 – p_i)] \end{align}















lo

g














i


=


1



















N





















p










i










y










i



































(


1










p










i



















)











1






y










i



























































=













i


=


1



















N


















[



y










i




















lo

g






p










i




















+




(


1










y










i


















)




lo

g



(


1










p










i


















)]












=













i


=


1



















N


















[



y










i




















lo

g
















1










p










i































p










i






































+




lo

g



(


1










p










i


















)]




















































代入(12)(13)式:





L

(

w

)

=

i

=

1

N

[

y

i

 

w

x

i

log

(

1

+

e

w

x

i

)

]

L(w) = \sum_{i = 1}^{N}[y_i \ w \cdot x_i – \log(1 + e^{w \cdot x_i})]






L


(


w


)




=

















i


=


1



















N


















[



y










i




















w














x










i





























lo

g



(


1




+









e











w






x










i


























)]







这样,问题就变成了以对数似然函数为目标函数的最优化问题,可以应用

极大似然估计

法估计模型参数,从而得到逻辑斯谛回归模型。逻辑斯谛回归学习中通常采用的方法是

梯度下降法



拟牛顿法



多项逻辑斯谛回归模型

二项逻辑斯谛回归模型可将其推广到多项逻辑斯谛回归模型(multi-nominal logistic regression model),用于多类分类。假设离散型随机变量



Y

Y






Y





的取值集合是



1

,

2

,


,

K

{1,2,\cdots, K}







1


,




2


,











,




K






,那么多项逻辑斯谛回归模型是:





P

(

Y

=

k

x

)

=

exp

(

w

k

x

)

1

+

k

=

1

K

1

exp

(

w

k

x

)

,

k

=

1

,

2

,


,

K

1

P

(

Y

=

K

x

)

=

1

1

+

k

=

1

K

1

exp

(

w

k

x

)

\begin{align} P(Y&=k \mid x)=\frac{\exp \left(w_k \cdot x\right)}{1+\sum_{k=1}^{K-1} \exp \left(w_k \cdot x\right)}, \quad k=1,2, \cdots, K-1 \\ P(Y&=K \mid x)=\frac{1}{1+\sum_{k=1}^{K-1} \exp \left(w_k \cdot x\right)} \end{align}















P


(


Y








P


(


Y





























=




k









x


)




=















1




+

















k


=


1










K





1





















exp





(



w










k

























x


)















exp





(



w










k

























x


)





















,






k




=




1


,




2


,











,




K









1












=




K









x


)




=















1




+

















k


=


1










K





1





















exp





(



w










k

























x


)















1






































































这里,



x

R

n

+

1

x \in {\bf R^{n+1}}






x
















R











n


+


1



















w

k

R

n

+

1

w_k \in {\bf R^{n+1}}







w










k
































R











n


+


1

















总结归纳

  • 逻辑斯谛回归归根结底是将

    分类

    问题用回归模型来解决。
  • 正态分布是在给定均值和方差的情况下具有

    最大熵

    的分布,这样的假设可以使得数据携带的信息量最大。通常在没有任何假设的情况下,连续型数据常被假设为正态分布,离散型数据常被假设为等概率分布。



  • P

    (

    Y

    =

    1

    x

    )

    +

    P

    (

    Y

    =

    0

    x

    )

    =

    1

    P(Y=1 \mid x) + P(Y=0 \mid x) = 1






    P


    (


    Y




    =








    1













    x


    )




    +








    P


    (


    Y




    =








    0













    x


    )




    =








    1





  • 逻辑斯谛回归学习中通常采用的方法是

    梯度下降法



    拟牛顿法

  • 逻辑回归模型不局限于输入变量和输出变量之间是否存在线性关系,可以通过 sigmoid 函数代替非连续型函数,当 sigmoid 函数大于等于 0.5时即可判断类别。
  • 逻辑回归的输入变量可以是

    连续变量

    ,也可以是

    离散变量


  • 参数估计

    :说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。

  • 极大似然估计

    :极大似然估计就是建立在参数估计的思想上,已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。
  • sigmoid 激活函数在深度学习中应用广泛,逻辑斯谛回归更是在分类问题中被大量使用。



版权声明:本文为qq_43650934原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。