统计学基础——方差、协方差、标准差(标准偏差/均方差)、标准误、均方误差、均方根误差(标准误差)的区别

  • Post author:
  • Post category:其他



方差(Variance)

概率论

离散型随机变量的数学期望:
E(X)=\sum_{i=1}^{n}x_{i}\cdot p_{i}
,其中,
p_{i}
是变量
x_{i}
发生的概率。

连续型随机变量的数学期望:
E(X)=\int_{+\infty }^{-\infty }xf(x)dx
,其中,

f(x)

是概率密度。

方差值:
D(X)=Var(X)=E[X-E(X)]^{2}=E(X)^{2}-[E(X)]^{2}
,证明过程:

假设:
X=x_{1},x_{2},...,x_{n}
,则
E(X)=x_{1}+x_{2}+...+x_{n}
,则


\begin{align} \ D(X)& = \ Var(X)=E[X-E(X)]^{2} \\ & = \ \frac{[x_{1}-E(X)]^{2}+x_{2}-E(X)]^{2}+...+x_{n}-E(X)]^{2}}{n} \\ &= \ \frac{x{_{1}}^{2}+x{_{2}}^{2}+...+x{_{n}^{2}+n[E(X)}]^{2}-2(x_{1}+x_{2}+...+x_{n})E(X)}{n} \\ &= \ \frac{x{_{1}}^{2}+x{_{2}}^{2}+...+x{_{n}}^{2}}{n} +[E(X)]^{2}-2[E(X)]^{2} \\ &= \ \ E(X^{2})-[E(X)]^{2} \end{align}

统计学


总体方差

,也叫做有偏估计,其实就是我们从初高中就学到的那个标准定义的方差:

\sigma ^{2}=\frac{\sum_{i=1}^{N}(X_{i}-\mu)^{2}}{N}
,其中,
\mu
为总体的均值,
\sigma
为总体的标准差,
N
为总体的样本数。


样本方差,

无偏方差,在实际情况中,总体均值
\bar{X}
是很难得到的,往往通过抽样来计算,于是有样本方差,计算公式如下:

S^{2}=\frac{\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}}{n-1}
或者
S^{2}=\frac{\sum X^{2}-(\sum X)^{2}/n}{n-1}
,其中,
\overline{X}
为样本的均值,
S
为样本的标准差,
n
为样本的个数。

此处,为什么要将分母由n变成n-1,主要是为了实现无偏估计减小误差,具体原理及推导公式可上网查阅,资料很多。


协方差(Covariance)



协方差在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

\begin{align} \ Cov(X,Y) &= \ \frac{\sum_{i=1}^{n}(X_{i}-\overline{X})(Y_{i}-\overline{Y})}{n-1} \\ &= \ \ E[(X-E[X])(Y-E[Y])]\\ &= \ \ E(XY)-E(X)E(Y) \end{align}

其中,
E(X)

E(Y)
分别为两个实数随机变量
X

Y
的数学期望,
Cov(X,Y)

X

Y
的协方差。


标准差



Standard Deviation

)








标准差


也被称为标准偏差,在中文环境中又常称


均方差


,是数据偏离均值的平方和平均后的方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度,只是由于方差出现了平方项造成量纲的倍数变化,无法直观反映出偏离程度,于是出现了标准差,标准偏差越小,这些值偏离平均值就越少,反之亦然。


总体方差

\sigma=\sqrt{\frac{\sum_{i=1}^{N}(X_{i}-\mu)^{2}}{N}}
,其中,
\mu
为总体的均值,
\sigma
为总体的标准差,
N
为总体的样本数。


样本方差

S=\sqrt{\frac{\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}}{n-1}}
,其中,
\overline{X}
为样本的均值,
S
为样本的标准差,
n
为样本的个数。


标准误



Standard error of mean,SEM或SE

)







样本均值的标准误

由固然存在的

个体变异



抽样

造成的不同样本均数之间的差异、样本均数与总体均数之间的差异称为

均数的抽样误差(也称标准误),

用于反映我们用样本均数估计总体均数有多大的误差。

若随机变量
X
均数为
\mu
,方差为
\sigma ^{2}
,则样本均数的标准差(标准误)为:
\sigma _{\overline{X}}=\sigma /\sqrt{n}
。又根据正态分布原理,若随机变量
X\sim N(\mu ,\sigma ^{2})
,则样本均数
\overline{X}\sim N(\mu ,\sigma_{\overline{X}} ^{2})

实际应用中,总体标准差
\sigma
通常未知,需要用样本标准差
S
来估计标准误。此时,均数标准误的估计值为:
S _{\overline{X}}=S /\sqrt{n}

标准误的大小与原变量的标准差成正比,与样本含量的平方根成反比,因此,实际应用中可通过增加样本含量来减少均数的标准误,从而降低抽样误差。


例:

2000年某研究所随机调查某地健康成年男子27人,得到血红蛋白的均数为125g/L,标准差为15g/L。试估计该样均数的抽样误差。

S_{\overline{X}}=S/\sqrt{n}=15/\sqrt{27}=2.89g/L



注意:标准差描述的是度量值的变化,在此题中,标准差为15g/L,标准误描述的是估计值的变化,在此题中,标准误为2.89g/L,随着样本量n的增加,标准误是会减小的,但是标准差是不变的。


样本频率的标准误

从同一总体中随机抽出观察单位相等的多个样本,样本率与总体率及各样本率之间都存在差异,称为频率的

抽样误差

。表示样本频率抽样误差大小的指标即为频率的

标准误

根据二项分布原理,若随机变量
X\sim B(n ,\pi )
,则样本频率
p=X/n
的总体概率为
\pi
,标准误为
\sigma_{p}=\sqrt{\frac{\pi (1-\pi )}{n}}

频率的标准误愈小,用样本频率估计总体概率的可靠性愈好;反之,用样本频率估计总体概率的可靠性愈差。

实际应用中,总体概率
\pi
通常未知,需要用样本频率
P=X/n
来近似的代替。得到频率标准误的估计值为:

S _{p}=\sqrt{\frac{P(1-P)}{n-1}}\approx \sqrt{\frac{P(1-P)}{n }}

频率的标准误与样本含量
n
的平方根成反比,因此,增加样本含量可以减少样本频率的抽样误差(标准误)。


例:

某市随机调查了50岁以上的中老年妇女776人,其中患有骨质酥松症者322人,患病率为41.5%,试计算该样本频率的抽样误差。

S_{P}=\sqrt{\frac{P(1-P)}{n}}=\sqrt{\frac{0.415(1-0.415)}{776}}=1.77\%

总体标准误的估计值较小,说明用样本患病率41.5%来估计患病率的可靠性较好。



均方误差(

mean-square error, MSE




均方误差是反映

估计量

与被估计量之间差异程度的一种度量,换句话说,参数估计值与参数真值之差的平方的期望值。MSE可以评价数据的变化程度,MSE的值越小,说明预测模型描述实验数据具有更好的精确度。

MSE=\frac{1}{N}\sum_{t=1}^{N}(observed_{t}-predicted_{t})^{2}
,其中
predicted_{t}
表示估计量,
observed_{t}
表示被估计量。



均方根误差(

root mean squared error,RMSE




均方根误差亦称

标准误差

,是

均方误差

的算术平方根。换句话说,是观测值与真值(或模拟值)偏差(而不是观测值与其平均值之间的偏差)的平方与观测次数n比值的平方根,在实际测量中,观测次数n总是有限的,真值只能用最可信赖(最佳)值来代替。标准误差对一组测量中的特大或特小误差反映非常敏感,所以,标准误差能够很好地反映出测量的精密度。这正是标准误差在工程测量中广泛被采用的原因。因此,

标准差

是用来衡量一组数自身的离散程度,而

均方根误差

是用来衡量观测值同真值之间的偏差。
RMSE=\sqrt{\frac{1}{N}\sum_{t=1}^{N}(observed_{t}-predicted_{t})^{2}}



版权声明:本文为huangguohui_123原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。