方差协方差以及协方差矩阵

  • Post author:
  • Post category:其他


协方差矩阵在统计学和机器学习中随处可见,一般而言,可视作

方差



协方差

两部分组成,即方差构成了对角线上的元素,协方差构成了非对角线上的元素。本文旨在从几何角度介绍我们所熟知的协方差矩阵。


文章结构

  1. 方差和协方差的定义
  2. 从方差/协方差到协方差矩阵
  3. 多元正态分布与线性变换
  4. 协方差矩阵的特征值分解


1. 方差和协方差的定义

在统计学中,

方差

是用来度量

单个随机变量



离散程度

,而协方差则一般用来刻画

两个随机变量



相似程度

,其中,

方差

的计算公式为

[公式]

其中,
[公式]
表示样本量,符号
[公式]
表示观测样本的均值,这个定义在初中阶段就已经开始接触了。

在此基础上,

协方差

的计算公式被定义为

[公式]

在公式中,符号
[公式]
分别表示两个随机变量所对应的观测样本均值,据此,我们发现:方差
[公式]
可视作随机变量
[公式]
关于其自身的协方差
[公式]
.


2. 从方差/协方差到协方差矩阵

根据方差的定义,给定
[公式]
个随机变量
[公式]
,则这些

随机变量的方差

[公式]

其中,为方便书写,
[公式]
表示随机变量
[公式]
中的第
[公式]
个观测样本,
[公式]
表示样本量,每个随机变量所对应的观测样本数量均为
[公式]

对于这些随机变量,我们还可以根据协方差的定义,求出

两两之间的协方差

,即

[公式]

因此,

协方差矩阵

[公式]

其中,对角线上的元素为各个随机变量的方差,非对角线上的元素为两两随机变量之间的协方差,根据协方差的定义,我们可以认定:矩阵
[公式]


对称矩阵

(symmetric matrix),其大小为
[公式]


3. 多元正态分布与线性变换

假设一个向量
[公式]
服从均值向量为
[公式]
、协方差矩阵为
[公式]
的多元正态分布(multi-variate Gaussian distribution),则

[公式]

令该分布的均值向量为
[公式]
,由于指数项外面的系数
[公式]
通常作为常数,故可将多元正态分布简化为

[公式]

再令
[公式]
,包含两个随机变量
[公式]

[公式]
,则协方差矩阵可写成如下形式:

[公式]



单位矩阵

(identity matrix)
[公式]
作为协方差矩阵,随机变量
[公式]

[公式]


方差均为1

,则生成如干个随机数如图1所示。


图1 标准的二元正态分布

在生成的若干个随机数中,每个点的似然为

[公式]

对图1中的所有点考虑一个

线性变换

(linear transformation):
[公式]
,我们能够得到图2.


图2 经过线性变换的二元正态分布,先将图1的纵坐标压缩0.5倍,再将所有点逆时针旋转30°得到。

在线性变换中,矩阵
[公式]
被称为

变换矩阵

(transformation matrix),为了将图1中的点经过线性变换得到我们想要的图2,其实我们需要构造两个矩阵:


  • 尺度矩阵

    (scaling matrix):

[公式]


  • 旋转矩阵

    (rotation matrix)

[公式]

其中,
[公式]


顺时针旋转的度数


变换矩阵、尺度矩阵和旋转矩阵三者的关系式:


[公式]

在这个例子中,尺度矩阵为
[公式]
,旋转矩阵为
[公式]
[公式]
,故变换矩阵为

[公式]
.

另外,需要考虑的是,经过了线性变换,
[公式]

的分布是什么样子呢


[公式]
带入前面给出的似然
[公式]
,有

[公式]

[公式]

由此可以得到,多元正态分布的协方差矩阵为

[公式]
[公式]
.


4. 协方差矩阵的特征值分解

回到我们已经学过的线性代数内容,对于任意对称矩阵
[公式]
,存在一个

特征值分解(eigenvalue decomposition, EVD)

[公式]

其中,
[公式]
的每一列都是相互正交的特征向量,且是单位向量,满足
[公式]

[公式]
对角线上的元素是从大到小排列的特征值,非对角线上的元素均为0。

当然,这条公式在这里也可以很容易地写成如下形式:

[公式]

其中,
[公式]
,因此,通俗地说,

任意一个协方差矩阵都可以视为线性变换的结果

在上面的例子中,

特征向量构成的矩阵

[公式]
.


特征值构成的矩阵

[公式]
.

到这里,我们发现:多元正态分布的概率密度是由

协方差矩阵的特征向量控制旋转(rotation)



特征值控制尺度(scale)

,除了协方差矩阵,

均值向量会控制概率密度的位置

,在图1和图2中,均值向量为
[公式]
,因此,概率密度的中心位于坐标原点。


相关参考:







Understanding the Covariance Matrix




janakiev.com



图标







What is the Covariance Matrix?




fouryears.eu





在这里插入图片描述