梯度下降算法中的几点答疑：迭代到什么时候停止？为什么要求导？几个式子之间是什么关系？j是干什么的？

一、准备知识记录

梯度的方向是函数在给定点上升最快的方向，那么梯度的反方向就是函数在给定点下降最快的方向，
α：学习率或者步长，意味着我们可以通过α来控制每一步走的距离，以保证不要步子跨的太大，其实就是不要走太快，错过了最低点。同时也要保证不要走的太慢，导浪费跑程序的人的时间。所以α的选择在梯度下降法中往往是很重要的！

总之：α不能太大也不能太小，太小的话，可能导致迟迟走不到最低点，太大的话，会导致错过最低点！

3. 梯度前加一个负号，就意味着朝着梯度相反的方向前进

梯度下降就是让梯度中所有

偏导函数

都下降到最低点的过程

在多元线性回归中,谁才是未知数呢?

不是x和y

通俗点说，

我们使用梯度下降法的目的是求解y=ax+b中的a和b的,

在最小二乘函数中,已拥有的条件是一些样本点和样本点的结果,就是矩阵X和每一条X样本的lable值y.X是矩阵,y是向量.

所以,梯度下降中求偏导数的未知数不是x和y,而是x的参数

数据集中数据是固定的,结果是固定的,我们要找到的是数据中样本与结果的对应规律.所以求得才是我们的目的.我们梯度下降,下降的是a和b而不是X.

也就是说现在x和y都是给定的，要我们算系数

迭代到偏导数几乎为0，小于1e-5时，说明已经进入了比较平滑的状态，类似于山谷的状态，这时候再继续迭代效果