【成长笔记】如何评价模型

  • Post author:
  • Post category:其他


在前文中,我们知道了什么是过拟合,什么是欠拟合。我们之前讨论出的结果都是没有经过检验,默认其是一个比较不错的模型的。但是在真正的现实生活中,我们可能会训练出一个恰到好处的模型吗?

以前文中经常提到的房价预测为例,假设我们训练出一个房价预测模型,结果我们发现它用来预测的结果非常糟糕。也就是说我们训练的模型不好,那么,如何去将模型变得更好呢?怎样才是好呢?我们需要有可以评价模型的方法。

这样的话,我们可以根据这个评价模型的方法,来观察训练得出的模型结果,进而发现问题所在,找出合理的解决办法,再重复之前的过程优化模型。

而一般情况下,当我们发现模型的预测结果很糟糕时,我们可能会考虑这么些解决方案:

  1. 获得更多样本
  2. 改变特征数量
  3. 改变惩罚项系数
    \lambda

不着急,让我们带着想法,边思考边学习,Let’s go!

————-我是萌萌哒分割线——————-

就像前文我的理解,机器学习本质上就是训练出一组参数,使之可以对未知样本进行高概率地分类或回归预测。所以,我们评价模型,本质上其实就是对参数
\theta
的评价,即我们要选出一组最适合的参数
\theta
。所以,怎么具体评价呢?

当我们获得一组训练数据集时,不要着急全部用于训练,我们可以将之分为2部分,第一部分我们称之为 training set(训练集),另一部分我们称之为 test set(测试集),我们通过训练集来训练出模型,用测试集来测试误差以评价模型好坏。

而测试集误差的公式为:



版权声明:本文为portfloat原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。