文章目录
逻辑斯谛回归
写在前面:逻辑斯谛回归最初是数学家 Verhulst 用来研究人口增长是所发现的,是一个非常有趣的发现过程, b 站有更详细的背景及过程推导,在此不再赘述:
https://www.bilibili.com/video/BV1No4y1o7ac/?p=59
逻辑斯谛分布的标准形式:
F
(
x
)
=
1
1
+
e
−
x
F(x) = \frac{1}{1 + e^{-x}}
F
(
x
)
=
1
+
e
−
x
1
f
(
x
)
=
e
−
x
(
1
+
e
−
x
)
2
f(x) = \frac{e^{-x}}{(1 + e^{-x})^2}
f
(
x
)
=
(
1
+
e
−
x
)
2
e
−
x
-
分布函数是一条
SS
S
形曲线,该曲线也被称为 sigmoid 曲线,关于点
(0
,
1
2
)
(0,\frac{1}{2})
(
0
,
2
1
)
中心对称。 -
概率密度函数一条钟型曲线,中间高两端低,关于
x=
0
x = 0
x
=
0
对称,在此处取得最大值 (人口增速最大时刻)。
逻辑斯谛回归的一般形式:
设
X
\rm X
X
是连续随机变量,
X
\rm X
X
服从逻辑斯谛分布是指
X
\rm X
X
具有下列分布函数和概率密度:
F
(
x
)
=
P
(
X
⩽
x
)
=
1
1
+
e
−
(
x
−
μ
)
/
γ
F(x)=P(X\leqslant x)={\frac{1}{1+\mathrm{
{e}}^{-(x-\mu)/\gamma}}}\\
F
(
x
)
=
P
(
X
⩽
x
)
=
1
+
e
−
(
x
−
μ
)
/
γ
1
f
(
x
)
=
F
′
(
x
)
=
e
−
(
x
−
μ
)
/
γ
γ
(
1
+
e
−
(
x
−
μ
)
/
γ
)
2
f(x)=F^{\prime}(x)={\frac{\mathrm{e}^{-(x-\mu)/\gamma}}{\gamma(1+\mathrm{e}^{-(x-\mu)/\gamma})^{2}}}
f
(
x
)
=
F
′
(
x
)
=
γ
(
1
+
e
−
(
x
−
μ
)
/
γ
)
2
e
−
(
x
−
μ
)
/
γ
式中,
μ
\mu
μ
为位置参数,
γ
>
0
\gamma > 0
γ
>
0
为形式参数。
-
分布函数是一条
SS
S
形曲线,该曲线也被称为 sigmoid 曲线,关于点
(μ
,
1
2
)
(\mu,\frac{1}{2})
(
μ
,
2
1
)
中心对称。 -
概率密度函数一条钟型曲线,中间高两端低,关于
x=
μ
x = \mu
x
=
μ
对称,在此处取得最大值
14
γ
\frac{1}{4 \gamma}
4
γ
1
(人口增速最大时刻)。
二项逻辑斯谛回归模型
P
(
Y
=
1
∣
x
)
=
exp
(
w
⋅
x
+
b
)
1
+
exp
(
w
⋅
x
+
b
)
P(Y=1 \mid x)=\frac{\exp (w \cdot x+b)}{1+\exp (w \cdot x+b)}
P
(
Y
=
1
∣
x
)
=
1
+
exp
(
w
⋅
x
+
b
)
exp
(
w
⋅
x
+
b
)
P
(
Y
=
0
∣
x
)
=
1
1
+
exp
(
w
⋅
x
+
b
)
P(Y=0 \mid x)=\frac{1}{1+\exp (w \cdot x+b)}
P
(
Y
=
0
∣
x
)
=
1
+
exp
(
w
⋅
x
+
b
)
1
其中,
x
∈
R
n
x \in {\bf R^n}
x
∈
R
n
是输入,
Y
∈
0
,
1
Y \in {0,1}
Y
∈
0
,
1
是输出,
w
∈
R
n
w \in {\bf R^n}
w
∈
R
n
和
b
∈
R
n
b \in {\bf R^n}
b
∈
R
n
是参数,
w
w
w
称为权值向量,
b
b
b
称为偏置,
w
⋅
x
w \cdot x
w
⋅
x
为
x
x
x
和
x
x
x
的内积。
为了方便,将权重向量和输入向量加以扩充,仍记为
w
w
w
和
x
x
x
,则有:
ω
=
(
ω
(
1
)
,
ω
(
2
)
,
⋯
,
ω
(
n
)
,
b
)
T
,
x
=
(
x
(
1
)
,
x
(
2
)
,
⋯
,
x
(
n
)
,
1
)
T
,
\omega=\left(\omega^{(1)}, \omega^{(2)}, \cdots, \omega^{(n)}, b\right)^T, \quad \quad x=\left(x^{(1)}, x^{(2)}, \cdots, x^{(n)}, 1\right)^T,
ω
=
(
ω
(
1
)
,
ω
(
2
)
,
⋯
,
ω
(
n
)
,
b
)
T
,
x
=
(
x
(
1
)
,
x
(
2
)
,
⋯
,
x
(
n
)
,
1
)
T
,
逻辑分布函数重写为:
P
(
Y
=
1
∣
x
)
=
e
w
⋅
x
1
+
e
w
⋅
x
P(Y=1 \mid x)=\frac{e^{w \cdot x}}{1 + e^{w \cdot x}}
P
(
Y
=
1
∣
x
)
=
1
+
e
w
⋅
x
e
w
⋅
x
P
(
Y
=
0
∣
x
)
=
1
1
+
e
w
⋅
x
P(Y=0 \mid x)=\frac{1}{1 + e^{w \cdot x}}
P
(
Y
=
0
∣
x
)
=
1
+
e
w
⋅
x
1
极大似然估计
二项分布:
P
(
Y
)
=
{
1
−
p
,
Y
=
0
p
,
Y
=
1
=
(
1
−
p
)
1
−
Y
p
Y
P(Y)=\left\{\begin{array}{ll} 1-p, & Y=0 \\ p, & Y=1 \end{array}=(1-p)^{1-Y} p^Y\right.
P
(
Y
)
=
{
1
−
p
,
p
,
Y
=
0
Y
=
1
=
(
1
−
p
)
1
−
Y
p
Y
对于
(
x
i
,
y
i
)
(x_i, y_i)
(
x
i
,
y
i
)
,有:
P
(
Y
=
y
i
∣
x
i
)
=
(
1
−
p
i
)
1
−
y
i
p
i
y
i
P(Y = y_i | x_i) = (1 – p_i)^{1 – y_i} p_i^{y_i}
P
(
Y
=
y
i
∣
x
i
)
=
(
1
−
p
i
)
1
−
y
i
p
i
y
i
其中:
p
i
=
e
w
⋅
x
i
1
+
e
w
⋅
x
i
1
−
p
i
=
1
1
+
e
w
⋅
x
i
\begin{align} p_i = \frac{e^{w \cdot x_i}}{1 + e^{w \cdot x_i}}\\ 1 – p_i = \frac{1}{1 +e^{w \cdot x_i}} \end{align}
p
i
=
1
+
e
w
⋅
x
i
e
w
⋅
x
i
1
−
p
i
=
1
+
e
w
⋅
x
i
1
对于数据集
T
=
(
X
1
,
y
1
)
,
(
x
2
,
y
2
)
,
⋯
,
(
x
N
,
y
N
)
T = {(X_1, y_1), (x_2, y_2), \cdots, (x_N, y_N)}
T
=
(
X
1
,
y
1
)
,
(
x
2
,
y
2
)
,
⋯
,
(
x
N
,
y
N
)
出现的概率:
∏
i
=
1
N
(
1
−
p
i
)
1
−
y
i
p
i
y
i
\prod_{i = 1}^N (1 – p_i)^{1 – y_i} p_i^{y_i}
i
=
1
∏
N
(
1
−
p
i
)
1
−
y
i
p
i
y
i
该概率只与
w
w
w
有关,即可得关于
w
w
w
的似然函数:
L
(
w
)
=
∏
i
=
1
N
(
1
−
p
i
)
1
−
y
i
p
i
y
i
L(w) = \prod_{i = 1}^N (1 – p_i)^{1 – y_i} p_i^{y_i}
L
(
w
)
=
i
=
1
∏
N
(
1
−
p
i
)
1
−
y
i
p
i
y
i
对数似然函数:
log
∏
i
=
1
N
p
i
y
i
(
1
−
p
i
)
1
−
y
i
=
∑
i
=
1
N
[
y
i
log
p
i
+
(
1
−
y
i
)
log
(
1
−
p
i
)
]
=
∑
i
=
1
N
[
y
i
log
p
i
1
−
p
i
+
log
(
1
−
p
i
)
]
\begin{align} \log \prod_{i = 1}^{N} p_i^{y_i} (1 – p_i)^{1 – y_i} &= \sum_{i = 1}^{N}[y_i \log p_i + (1 – y_i) \log(1-p_i)]\\ &= \sum_{i = 1}^{N}[y_i \log \frac{p_i}{1 – p_i} + \log(1 – p_i)] \end{align}
lo
g
i
=
1
∏
N
p
i
y
i
(
1
−
p
i
)
1
−
y
i
=
i
=
1
∑
N
[
y
i
lo
g
p
i
+
(
1
−
y
i
)
lo
g
(
1
−
p
i
)]
=
i
=
1
∑
N
[
y
i
lo
g
1
−
p
i
p
i
+
lo
g
(
1
−
p
i
)]
代入(12)(13)式:
L
(
w
)
=
∑
i
=
1
N
[
y
i
w
⋅
x
i
−
log
(
1
+
e
w
⋅
x
i
)
]
L(w) = \sum_{i = 1}^{N}[y_i \ w \cdot x_i – \log(1 + e^{w \cdot x_i})]
L
(
w
)
=
i
=
1
∑
N
[
y
i
w
⋅
x
i
−
lo
g
(
1
+
e
w
⋅
x
i
)]
这样,问题就变成了以对数似然函数为目标函数的最优化问题,可以应用
极大似然估计
法估计模型参数,从而得到逻辑斯谛回归模型。逻辑斯谛回归学习中通常采用的方法是
梯度下降法
及
拟牛顿法
。
多项逻辑斯谛回归模型
二项逻辑斯谛回归模型可将其推广到多项逻辑斯谛回归模型(multi-nominal logistic regression model),用于多类分类。假设离散型随机变量
Y
Y
Y
的取值集合是
1
,
2
,
⋯
,
K
{1,2,\cdots, K}
1
,
2
,
⋯
,
K
,那么多项逻辑斯谛回归模型是:
P
(
Y
=
k
∣
x
)
=
exp
(
w
k
⋅
x
)
1
+
∑
k
=
1
K
−
1
exp
(
w
k
⋅
x
)
,
k
=
1
,
2
,
⋯
,
K
−
1
P
(
Y
=
K
∣
x
)
=
1
1
+
∑
k
=
1
K
−
1
exp
(
w
k
⋅
x
)
\begin{align} P(Y&=k \mid x)=\frac{\exp \left(w_k \cdot x\right)}{1+\sum_{k=1}^{K-1} \exp \left(w_k \cdot x\right)}, \quad k=1,2, \cdots, K-1 \\ P(Y&=K \mid x)=\frac{1}{1+\sum_{k=1}^{K-1} \exp \left(w_k \cdot x\right)} \end{align}
P
(
Y
P
(
Y
=
k
∣
x
)
=
1
+
∑
k
=
1
K
−
1
exp
(
w
k
⋅
x
)
exp
(
w
k
⋅
x
)
,
k
=
1
,
2
,
⋯
,
K
−
1
=
K
∣
x
)
=
1
+
∑
k
=
1
K
−
1
exp
(
w
k
⋅
x
)
1
这里,
x
∈
R
n
+
1
x \in {\bf R^{n+1}}
x
∈
R
n
+
1
,
w
k
∈
R
n
+
1
w_k \in {\bf R^{n+1}}
w
k
∈
R
n
+
1
。
总结归纳
-
逻辑斯谛回归归根结底是将
分类
问题用回归模型来解决。 -
正态分布是在给定均值和方差的情况下具有
最大熵
的分布,这样的假设可以使得数据携带的信息量最大。通常在没有任何假设的情况下,连续型数据常被假设为正态分布,离散型数据常被假设为等概率分布。 -
P(
Y
=
1
∣
x
)
+
P
(
Y
=
0
∣
x
)
=
1
P(Y=1 \mid x) + P(Y=0 \mid x) = 1
P
(
Y
=
1
∣
x
)
+
P
(
Y
=
0
∣
x
)
=
1
。 -
逻辑斯谛回归学习中通常采用的方法是
梯度下降法
及
拟牛顿法
。 - 逻辑回归模型不局限于输入变量和输出变量之间是否存在线性关系,可以通过 sigmoid 函数代替非连续型函数,当 sigmoid 函数大于等于 0.5时即可判断类别。
-
逻辑回归的输入变量可以是
连续变量
,也可以是
离散变量
。 -
参数估计
:说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。 -
极大似然估计
:极大似然估计就是建立在参数估计的思想上,已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。 - sigmoid 激活函数在深度学习中应用广泛,逻辑斯谛回归更是在分类问题中被大量使用。