Evaluating a Learning algorithm

假设在用linear regression 预测房价，然后你发现预测结果与实际结果偏差甚远。what should you try next？

然后这里引入两个概念，训练集和测试集。一般来说，训练集占70%，测试集占30%。

一般来说，都是先通过训练集求得θ然后再丢到测试集中测试测试误差。

图中，test error 公式跟linear regression的一样，就下标变了。

、

为了进一步精确我们的hypothesis我们引入交叉验证Cross validation

其中，训练集占60%，交叉验证集占20%，测试集占20%

以上所交代的是关于机器学习模式的选择，考虑该使用哪种多项式，然而regularization正则化中的λ 和样本数量m也是影响算法性能的重要元素。以下引入偏差(bias)和方差(variance)

前面我们所学习过的overfit和underfit中，underfit(欠拟合)就是典型的高bias，overfit则是典型的高variance

我们来看这两个图，横坐标是degre表示hypothesis的项数，纵坐标为error 误差数，在这里，底下那条线代表training error，而上面那条则是cross validation error，可以看出，上面那条线是两边高中间低，而当d很小时，容易产生underfit(一条直线)，导致高bias，而当d很大(式子够复杂)则容易导致高variance

正则化的linear regression，当λ很大时，θ≈0，导致函数趋向于一条直线，那自然是underfit

而当λ很小，则θ的权重就会很大，容易overfit

下面讲如何选择λ

首先设立一个λ集合（吴老师喜欢）= {0, 0.01, 0.02, 0.04, 0.08, 0.16, 0.32, 0.64, 1.28, 2.56, 5.12, 10.24]

更正：建立了λ集合后再建立各种model(各种多项式，以便选出最好的θ)，看下图中，theta = trainLinearReg，这个函数就是在λ的循环下，遍历所有已经产生的多项式model(也就是说用正常的for循环来写，就是lambda乘model个数次循环)，在θ和λ的共同参与下得出最好的θ(仅仅是θ)，然后再用这个θ代入costfunction中计算(这里计算error_train和error_val用于作图，不要带λ)。下图代码到这里就完了，然后正常的后续操作就是找出最小的error_val时所使用的θ和参与计算θ的λ，最后把这一对组合送入测试集中，看看效果。以下为原笔记。

再补充，为啥计算err_train和err_val时不带λ，但做曲线的时候又用到λ，因为θ使用λ参与运算而来的，如果在err_train和err_val中再来个regularization会导致结果被修正，就是说得不到我们想要看到的学习曲线效果。

然后对这些λ分别代入计算最小的costFunction, 然后将得到的θ代入计算training error 和 cross validation error (这里图中并没有写training error，但之后的编程中会出现。这里的计算train error 和 cv error 都不能代入λ，就是说λ= 0)

这里先提前贴上点代码帮助理解

trainLinearReg.m

图中函数就是刚说的，costfunction用λ, train和cv 不用，然后这个坐标图是以λ为横坐标

学习曲线(Learning Curve)

学习曲线可以很好的帮助我们观察learning algoritm出现的问题，如上图是

hypothesis比较简单的情况下，可以看到cv error和train error曲线逐渐靠近，

最后趋于直线，

所以对于high bias的情况，增加样本数量m是没什么帮助的，因为最后是直线。。。。