机器学习4-模型的误差来源以及减少误差的方法

  • Post author:
  • Post category:其他




误差来源的两个方面:


bias(偏差)

:度量了某种学习算法的平均估计结果所逼近的学习目标的程度。


variance(方差)

:度量了在面对同样规模的不同训练集时分散的程度。

高的bias表示离目标值远,低bias表示离靶心近;高的variance表示多次学习的结果越分散,低的variance表示多次学习的结果越集中。



区别



variance反映的是模型每一次输出结果与模型输出期望之间的误差,即模型的稳定性。

bias反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精准度。



先看没有bias存在的情况

在这里插入图片描述

图中的N个点他们的平均值不等μ,但是当取值足够多,它的期望与μ相等。比喻就是,没有bias就是说瞄准的是靶心没有偏差,但是射击的时候由于一些因素,实际射击的位置散落在了μ的周围。



不同训练集分散的程度取决于variance:

在这里插入图片描述



怎么估测variance:



当N足够大时,s方的期望才会等于variance。



例子比喻

不同的f*是不同训练集的原因

在这里插入图片描述

在这里插入图片描述

简单的模型往往对应着比较大的bias,复杂的模型往往对应着较小的bias.



bias和variance
在这里插入图片描述

可以看出随着模型逐渐复杂,bias逐渐变小,variance逐渐变大。bias大,variance小的情况意味着欠拟合;bias小,variance大的情况意味着过拟合。



对于较大的bias怎么进行处理:

如果模型无法fit训练集代表bias比较大,即欠拟合。

如果模型在训练集表现好,在测试集表现较差,则属于过拟合。

在这里插入图片描述


对于bias较大处理方法:


1、加入更多的feature

2、设计更加复杂的模型



对于较大的variance怎么进行处理:

1、增加数据(非常有效,但是不太实际)

2、正则化(regularization)(需要调节bias和variance之间的平衡关系)

在这里插入图片描述



怎么进行模型选择

用拥有的测试集上的准确率最好的模型,应用于实际场合中,效果不一定好

在这里插入图片描述

如何防止上述情况:

cross validation(交叉验证):
在这里插入图片描述

N折交叉验证

在这里插入图片描述

对模型进行交叉验证,选出平均错误率最低的模型,然后利用此模型对所有的样本重训练。



版权声明:本文为weixin_45540546原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。