机器学习中的数学原理——梯度下降法（最速下降法）

Post author:xfxia
Post published:2023年4月18日
Post category:其他

好久没更新了，确实是有点懒了，主要是这两天返乡在隔离（借口）。这个专栏主要是用来分享一下我在机器学习中的学习笔记及一些感悟，也希望对你的学习有帮助哦！感兴趣的小伙伴欢迎私信或者评论区留言！这一篇就更新一下《白话机器学习中的数学——梯度下降法》！

一、什么是梯度下降法

二、算法分析

三、总结

一、什么是梯度下降法

梯度下降法（英语：Gradient descent）是一个一阶最优化算法，通常也称为最速下降法。要使用梯度下降法找到一个函数的局部极小值，必须向函数上当前点对应梯度（或者是近似梯度）的反方向的规定步长距离点进行迭代搜索。

二、算法分析

在上一篇最小二乘法里面还记得我们的误差公式E(θ)吗？那时候我们说要使E(θ)尽可能小，即修改参数 θ，使这个值变得越来越小。

但是一边修改 θ 的值，一边计算 E(θ) 并与之前的值相比较的做法实在是太麻烦了。所以我们使用微分的思想来求θ 的值。微分是计算变化的快慢程度时使用的方法。

首先我们看表达式为 g(x) = (x-1)^2，g(x) = (x-1)^2 的二次函数图像如下所示

它的最小值是 g(x) = 0，出现在x = 1 时。这个二次函数的增减表为：

在 x < 1 时，g(x) 的图形向右下方延伸，反之当 x > 1 时，g(x) 的图形向右上方延伸，换句话说就是从左下方开始延伸的。 x = 3 这一点，为了使 g(x)的值变小，我们需要向左移动x，也就是必须减小 x。如果是在另一侧的 x = −1 这一点，为了使 g(x) 的值变小，我们需要向右移动 x，也就是必须增加 x。