2019.11.27 关于方差与协方差

在概率论中学过期望，方差，协方差和相关系数，现在又跳出来个协方差矩阵，来看下协方差和协方差矩阵的实际意义

协方差

用来描述两个随机变量之间的相关性，其

定义

为

O

V

(

X

,

Y

)

=

E

[

X

Y

]

−

E

[

X

]

E

[

Y

]

=

E

[

X

−

E

[

X

]

]

[

Y

−

E

[

Y

]

]

COV(X,Y)=E[XY]-E[X]E[Y]=E[X-E[X]][Y-E[Y]]

$C O V (X, Y) = E [X Y] - E [X] E [Y] = E [X - E [X]] [Y - E [Y]]$

协方差的

数值计算公式

O

V

(

x

,

y

)

=

∑

i

=

1

n

(

x

i

−

x

‾

)

(

y

i

−

y

‾

)

n

−

1

COV(x,y)=\frac{\displaystyle\sum_{i=1}^{n}{(x_i-\overline{x})(y_i-\overline{y})}}{n-1}

$C O V (x, y) = \frac{i = 1 \sum n ( x _{i} - x ) ( y _{i} - y )}{n - 1}$

注意区别这两个公式，上面那个是大写字母下面是小写字母，大写字母表示随机变量，服从一定的分布，比如正态分布等；小写字母表示数字或者矩阵，是可以把值代入计算的。

特例

O

V

(

X

,

X

)

=

D

(

X

)

COV(X,X)=D(X)

$C O V (X, X) = D (X)$

协方差的值如果是正数，说明两者是正相关的，如果是负数，说明两者是负相关的，如果是0，说明两者无关。

定义

相关系数

{\rho}

$ρ$

X

Y

=

C

O

V

(

X

,

Y

)

D

(

X

)

D

(

Y

)

\rho_{XY}=\frac{COV(X,Y)}{\sqrt{D(X)D(Y)}}

$ρ_{X Y} = \frac{C O V ( X , Y )}{D ( X ) D ( Y )}$

表示X,Y两者之间的相关性，

ρ

X

Y

∣

=

1

|\rho_{XY}|=1

$∣ ρ_{X Y} ∣ = 1$

表示两者之间完全相关，

X

Y

=

0

\rho_{XY}=0

$ρ_{X Y} = 0$

表示两者之间不相关,

X

Y

\rho_{XY}

$ρ_{X Y}$

范围是-1到+1
协方差矩阵

先介绍二维随机变量的协方差矩阵

c

11

c

12

c

21

c

22

]

\begin{bmatrix} c_{11} & c_{12}\\ c_{21} & c_{22}\\ \end{bmatrix}

$[c_{11} c_{21} c_{12} c_{22}]$

其中

i

j

=

C

O

V

(

X

i

,

Y

j

)

=

E

[

X

i

Y

j

]

−

E

[

X

i

]

E

[

Y

j

]

=

E

[

X

i

−

E

[

X

i

]

]

[

Y

j

−

E

[

Y

j

]

]

c_{ij}=COV(X_i,Y_j)=E[X_iY_j]-E[X_i]E[Y_j]=E[X_i-E[X_i]][Y_j-E[Y_j]]

$c_{i j} = C O V (X_{i}, Y_{j}) = E [X_{i} Y_{j}] - E [X_{i}] E [Y_{j}] = E [X_{i} - E [X_{i}]] [Y_{j} - E [Y_{j}]]$

并且

i

j

=

c

j

i

,

i

≠

j

,

i

,

j

=

1

…

n

c_{ij}=c_{ji},{i}\neq{j},{i,j=1\dots{n}}

$c_{i j} = c_{j i}, i \neq = j, i, j = 1 \dots n$

再介绍n维随机变量的协方差矩阵

c

11

c

12

⋯

c

1

n

c

21

c

22

⋯

c

2

n

⋮

⋮

⋮

c

n

1

c

n

2

⋯

c

n

n

]

\begin{bmatrix} c_{11} & c_{12} & \cdots & c_{1n}\\ c_{21} & c_{22} & \cdots & c_{2n}\\ \vdots & \vdots & & \vdots\\ c_{n1} & c_{n2} & \cdots & c_{nn}\\ \end{bmatrix}

$⎣ ⎢ ⎢ ⎢ ⎡ c_{11} c_{21} ⋮ c_{n 1} c_{12} c_{22} ⋮ c_{n 2} \dots \dots \dots c_{1 n} c_{2 n} ⋮ c_{n n} ⎦ ⎥ ⎥ ⎥ ⎤$

不难看出，协方差矩阵是个对称阵
那么协方差矩阵有什么用呢？

对于二维空间我们可以只使用一个协方差来表示两个随机变量的关系，但是对于n维空间，我们就需要多个协方差来表示n个随机变量之间的关系，考虑使用矩阵来表示更为简便，因此有如上定义，

注意上述协方差矩阵的定义是随机变量而不是数值，所以把数值带进去计算是根本不对的，而对于协方差数值计算公式把随机变量代入也是不对的

。
协方差一定是个方阵，n维的协方差矩阵维数为n×n，对于

协方差计算公式

，注意，

协方差矩阵是针对维数而言的，而不是针对输入样本个数而言的

，当输入样本个数为3，维数为4，即3×4的矩阵，计算出的协方差矩阵维数为4×4

u

m

num

$n u m$

为随机生成的

×

4

3\times4

$3 \times 4$

矩阵，

p

pp

$p p$

为其协方差矩阵

>>>> num = rand(3,4)

num =

    0.9049    0.1111    0.5949    0.7112
    0.9797    0.2581    0.2622    0.2217
    0.4389    0.4087    0.6028    0.1174

>> pp = cov(num)

pp =

    0.0859   -0.0349   -0.0355    0.0494
   -0.0349    0.0221    0.0008   -0.0441
   -0.0355    0.0008    0.0378    0.0204
    0.0494   -0.0441    0.0204    0.1005

我们也可以使用上述协方差计算公式来进行验证，我们以

11

c_{11}

$c_{11}$

为例，不难发现，

11

c_{11}

$c_{11}$

其实就是计算

u

m

num

$n u m$

第一列的方差
```
>> var(num(:,1))

ans =

    0.0859
```
再次计算

12

c_{12}

$c_{12}$

，使用上述协方差计算公式
```
>> 0.5 * sum((num(:,1) - mean(num(:,1))) .* (num(:,2) - mean(num(:,2))))

ans =

   -0.0349
```
即证
其实我更感兴趣的是协方差矩阵对于阵列信号处理有什么用，但是现在并没有找到，只在论文中看到了具有任意协方差矩阵的噪声或者干扰环境，有机会再补上

原文链接：https://blog.csdn.net/zhiyu_buliang/article/details/103284457

你可能也喜欢