欠拟合与过拟合

  • Post author:
  • Post category:其他


一、评价标准

  1. MSE(均方误差)=(预测值-真实值)

    2

    /n
  2. RMSE(均方根误差)=√ ̄MSE
  3. R

    2

    =1-MSE/var(y) ——R

    2

    表示拟合程度,R

    2

    越大,越接近1表示拟合程度越好;R

    2

    越小,越接近0表示拟合程度越差。

二、欠拟合与过拟合

(1)回归中的评价

  1. 过拟合:模型在训练集中的MSE非常小而在测试集中的MSE非常大。当数据对应的最好的模型是X的2次方而你选定的模型是X的3次方以及以上就容易产生这种情况。也就是说模型的复杂度相对越高越容易发生过拟合。
  2. 欠拟合:模型在训练集与测试集中的MSE都非常大。当数据对应的最好的模型是X的2次方而你选定的模型是X的1次方就容易产生这种情况。也就是说模型的复杂度相对越低越容易发生欠拟合。

(2)分类中的评价

  1. 过拟合:模型在训练集中的准确率高而在测试集中的准确率低。
  2. 欠拟合:模型在训练集与测试集中的准确率都非常低。

三、偏差与方差

  1. 偏差:我们选择的模型与最好的模型之间的差距,衡量我们是否找到最好的模型或者与最好模型的接近程度,偏差越大越容易发生欠拟合。
  2. 方差:模型的预测结果随着数据的增大与真实数据的差别越大,此时模型预测结果与最好模型的差距就叫方差,方差越大越容易发生过拟合。

四、偏差与方差的解决办法

  1. 偏差比较大,则欠拟合。解决办法:(1)增加特征数据提高拟合程度,避免欠拟合。(2)增加模型的复杂度提高拟合程度,避免欠拟合。
  2. 方差比较大,则过拟合。解决办法:(1)增加数据特别是大数据,有利于降低模型的复杂度,提高模型在大数据的预测能力,避免过拟合。(2)添加正则,同时求出关于w的损失函数与w的最小值,w越小,曲线就越平滑,模型的拟合程度就越好。



版权声明:本文为weixin_47197501原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。