梯度下降算法中的几点答疑:迭代到什么时候停止?为什么要求导?几个式子之间是什么关系?j是干什么的?

  • Post author:
  • Post category:其他


一、准备知识记录


  1. 梯度的方向是函数在给定点上升最快的方向,那么梯度的反方向就是函数在给定点下降最快的方向,
  2. α:学习率或者步长,意味着我们可以通过α来控制每一步走的距离,以保证不要步子跨的太大,其实就是不要走太快,错过了最低点。同时也要保证不要走的太慢,导浪费跑程序的人的时间。所以α的选择在梯度下降法中往往是很重要的!

总之:α不能太大也不能太小,太小的话,可能导致迟迟走不到最低点,太大的话,会导致错过最低点!

3. 梯度前加一个负号,就意味着朝着梯度相反的方向前进


二、求偏导求的是啥?

梯度下降就是让梯度中所有

偏导函数

都下降到最低点的过程

在多元线性回归中,谁才是未知数呢?

不是x和y

通俗点说,

我们使用梯度下降法的目的是求解y=ax+b中的a和b的,

在最小二乘函数中,已拥有的条件是一些样本点和样本点的结果,就是矩阵X和每一条X样本的lable值y.X是矩阵,y是向量.

所以,梯度下降中求偏导数的未知数不是x和y,而是x的参数

数据集中数据是固定的,结果是固定的,我们要找到的是数据中样本与结果的对应规律.所以求得才是我们的目的.我们梯度下降,下降的是a和b而不是X.


也就是说现在x和y都是给定的,要我们算系数

三、迭代到什么时候停止呢?

迭代到偏导数几乎为0,小于1e-5时,说明已经进入了比较平滑的状态,类似于山谷的状态,这时候再继续迭代效果



版权声明:本文为m0_46371988原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。