sigmoid函数、tanh函数、softmax函数及求导

Post author:xfxia
Post published:2023年4月3日
Post category:其他

sigmoid函数和tanh函数都是激活函数，接收一个输入，产生一个输出。这里的求导是对激活函数求导。而softmax函数是一个多输入多输出的激活函数，这里提到的求导是对经过softmax函数后进行交叉熵计算得到的损失函数求导。

sigmoid函数及求导

sigmoid激活函数形式为：

(

)

(

)

−

\sigma (x)=sigmoid(x)=\frac{1}{1+e^{-x}}

$σ (x) = s i g m o i d (x) = \frac{1}{1 + e ^{- x}}$
其导数为：

(

)

(

)

(

−

(

)

\frac{\text d \sigma(x)}{\text dx}=\sigma(x)(1-\sigma(x))

$\frac{d σ ( x )}{d x} = σ (x) (1 - σ (x))$

tanh函数及求导

tanh激活函数形式为：

(

)

−

tanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}

$t a n h (x) = \frac{e ^{x} - e ^{- x}}{e ^{x} + e ^{- x}}$
其导数为：

(

)

−

(

)

\frac{\text d tanh(x)}{\text dx}=1-(tanh(x))^2

$\frac{d t a n h ( x )}{d x} = 1 - (t a n h (x))^{2}$

softmax函数及求导

sigmoid函数以及tanh函数的求导都是比较简单的，而softmax函数的求导则稍显复杂。详细求导过程详见我的另一篇博客softmax函数及交叉熵函数求导，这里只是总结三种函数的求导。
这里以神经网络多分类问题为例，假设输出层有

$n$ 个神经元，输出为

z_1,z_2,…,z_n

$z_{1}, z_{2}, . . ., z_{n}$ ，经过softmax函数后的输出为

a_1,a_2,…,a_n

$a_{1}, a_{2}, . . ., a_{n}$ ，

a_i

$a_{i}$ 的计算公式为：

∑

a_i=\frac{e^{z_i}}{\sum_{j=1}^{n}{e^{z_j}}}

$a_{i} = \frac{e ^{z_{i}}}{\sum _{j = 1}^{n} e ^{z_{j}}}$
假设真实标签为

y_1,y_2,…,y_n

$y_{1}, y_{2}, . . ., y_{n}$ ，由于是分类问题，因此

y_i

$y_{i}$ 的取值为0或1，并且

∑

\sum_{i=1}^{n}y_i=1

$\sum_{i = 1}^{n} y_{i} = 1$ 。则交叉熵损失函数为：

(

)

−

∑

⁡

L(\bold{a},\bold{y})=-\sum_{i}^ny_i\ln a_i

$L (a, y) = - i \sum n y_{i} ln a_{i}$
则其导数为：

∂

−

\frac{\partial L}{\partial z_i}=a_i-y_i

$\frac{\partial L}{\partial z _{i}} = a_{i} - y_{i}$

原文链接：https://blog.csdn.net/qq_38032064/article/details/90599547

sigmoid函数及求导

tanh函数及求导

softmax函数及求导

你可能也喜欢