投影矩阵 /幂等矩阵
投影矩阵 /幂等矩阵 (idempotent matrix)
P
\mathbf P
P
满足
P
2
=
P
P^2=P
P
2
=
P
,也即
P
(
I
−
P
)
=
0
P(I-P)=0
P
(
I
−
P
)
=
0
-
幂等矩阵
PP
P
的几何意义:将向量
x\mathbf{x}
x
投影至
PP
P
的列空间
C(
P
)
C(P)
C
(
P
)
内
而
P2
=
P
P^2=P
P
2
=
P
的意义就是“投影两次等效于投影一次” -
投影也分为两类:
斜投影
(oblique projection) 和
正交投影
(额外满足
PH
=
P
P^H=P
P
H
=
P
)
下面先介绍一般投影的特点,然后再介绍正交投影
投影矩阵 /幂等矩阵 的性质
关于特征值和行列式:
-
特征值必为
λ=
0
或
1
\lambda=0 或 1
λ
=
0
或
1
(证明:
P2
x
=
P
x
P^2\mathbf{x}=P\mathbf{x}
P
2
x
=
P
x
,则
λ2
x
=
λ
x
\lambda^2\mathbf{x}=\lambda\mathbf{x}
λ
2
x
=
λ
x
,
λ2
=
λ
\lambda^2=\lambda
λ
2
=
λ
)
①其中,
λ=
1
\lambda=1
λ
=
1
的特征子空间为
C(
P
)
C(P)
C
(
P
)
,
λ=
0
\lambda=0
λ
=
0
的特征子空间为
N(
P
)
N(P)
N
(
P
)
②
det
P
=
0
或
1
\det P=0 或 1
det
P
=
0
或
1
-
推论:投影矩阵
PP
P
必然可以相似对角化为
di
a
g
(
1
,
…
,
1
,
0
,
…
,
0
)
\mathrm{diag}(1,\ldots,1,0,\ldots,0)
diag
(
1
,
…
,
1
,
0
,
…
,
0
)
证明:
因为
λ=
1
\lambda=1
λ
=
1
的特征子空间为
C(
P
)
C(P)
C
(
P
)
,
λ=
0
\lambda=0
λ
=
0
的特征子空间为
N(
P
)
N(P)
N
(
P
)
,而
Cn
=
C
(
P
)
⊕
N
(
P
)
\mathbb C^n=C(P)\oplus N(P)
C
n
=
C
(
P
)
⊕
N
(
P
)
(后面证明),有充足的无关特征向量,代数重数=几何重数,投影矩阵
PP
P
**必然可以相似对角化
-
ra
n
k
(
P
)
=
t
r
a
c
e
(
P
)
\mathrm{rank}(P)=\mathrm{trace}(P)
rank
(
P
)
=
trace
(
P
)
证明:
tr
a
c
e
(
P
)
=
λ
1
+
.
.
.
+
λ
n
=
特征值
1
的个数
\mathrm{trace}(P)=\lambda_1+…+\lambda_n=特征值1的个数
trace
(
P
)
=
λ
1
+
…
+
λ
n
=
特征值
1
的个数
另外,投影矩阵的重要意义是,投影
隐含了两个投影矩阵
、
隐含了空间的直和分解
-
(I
−
P
)
(I-P)
(
I
−
P
)
也是幂等矩阵,几何意义是将向量正交投影至
C(
I
−
P
)
C(I-P)
C
(
I
−
P
)
并且
C(
I
−
P
)
C(I-P)
C
(
I
−
P
)
与
C(
P
)
C(P)
C
(
P
)
互为直和补
:
Cn
=
C
(
P
)
⊕
C
(
I
−
P
)
\mathbb C^n=C(P)\oplus C(I-P)
C
n
=
C
(
P
)
⊕
C
(
I
−
P
)
如图,任意向量可拆分为投影部分
C(
P
)
C(P)
C
(
P
)
和投影的“轨迹”部分
C(
I
−
P
)
C(I-P)
C
(
I
−
P
)
:
x=
P
x
+
(
I
−
P
)
x
\mathbf{x}=P\mathbf{x}+(I-P)\mathbf{x}
x
=
P
x
+
(
I
−
P
)
x
![]()
-
N(
P
)
=
C
(
I
−
P
)
N(P)=C(I-P)
N
(
P
)
=
C
(
I
−
P
)
, 同理有
N(
I
−
P
)
=
C
(
P
)
N(I-P)=C(P)
N
(
I
−
P
)
=
C
(
P
)
推论:
P(
I
−
P
)
=
0
P(I-P)=0
P
(
I
−
P
)
=
0
、
(I
−
P
)
P
=
0
(I-P)P=0
(
I
−
P
)
P
=
0
证明:
①若
x∈
N
(
P
)
\mathbf{x}\in N(P)
x
∈
N
(
P
)
,
Px
=
0
P\mathbf{x}=\mathbf{0}
P
x
=
0
,故
(I
−
P
)
x
=
x
−
P
x
=
x
(I-P)\mathbf{x}=\mathbf{x}-P\mathbf{x}=\mathbf{x}
(
I
−
P
)
x
=
x
−
P
x
=
x
,亦即
x∈
C
(
I
−
P
)
\mathbf{x}\in C(I-P)
x
∈
C
(
I
−
P
)
②若
x∈
C
(
I
−
P
)
\mathbf{x}\in C(I-P)
x
∈
C
(
I
−
P
)
,
x=
(
I
−
P
)
y
\mathbf{x}=(I-P)\mathbf{y}
x
=
(
I
−
P
)
y
,故
Px
=
P
(
I
−
P
)
y
=
0
y
=
0
P\mathbf{x}=P(I-P)\mathbf{y}=0\mathbf{y}=\mathbf{0}
P
x
=
P
(
I
−
P
)
y
=
0
y
=
0
,即
x∈
N
(
P
)
\mathbf{x}\in N(P)
x
∈
N
(
P
)
-
推论:
每个投影矩阵,唯一对应空间的一个直和分解:
Cn
=
C
(
P
)
⊕
N
(
P
)
\mathbb C^n=C(P)\oplus N(P)
C
n
=
C
(
P
)
⊕
N
(
P
)
证明:
Cn
=
C
(
P
)
⊕
C
(
I
−
P
)
\mathbb C^n=C(P)\oplus C(I-P)
C
n
=
C
(
P
)
⊕
C
(
I
−
P
)
,带入
C(
I
−
P
)
=
N
(
P
)
C(I-P)=N(P)
C
(
I
−
P
)
=
N
(
P
)
即可
正交投影矩阵
在此幂等矩阵
P
2
=
P
P^2=P
P
2
=
P
的基础上,
P
P
P
为
正交
投影矩阵的充要条件是:
-
P2
=
P
=
P
H
P^2=P=P^H
P
2
=
P
=
P
H
为何正交投影要求
PH
=
P
P^H=P
P
H
=
P
?
理解:“垂直投影”即
PH
(
I
−
P
)
x
=
0
P^H(I-P)\mathbf{x}=0
P
H
(
I
−
P
)
x
=
0
,
这要求
PH
=
P
H
P
P^H=P^HP
P
H
=
P
H
P
,又因为
(P
H
P
)
H
=
P
H
P
(P^HP)^H=P^HP
(
P
H
P
)
H
=
P
H
P
,则
PH
=
P
P^H=P
P
H
=
P
-
P=
P
H
P
P=P^H P
P
=
P
H
P
这是
P2
=
P
=
P
H
P^2=P=P^H
P
2
=
P
=
P
H
的等价描述
证明:
若
P2
=
P
=
P
H
P^2=P=P^H
P
2
=
P
=
P
H
,则
PH
P
=
P
P
=
P
P^H P=PP=P
P
H
P
=
PP
=
P
;
若
P=
P
H
P
P=P^H P
P
=
P
H
P
,则
PH
=
P
H
P
=
P
P^H=P^H P=P
P
H
=
P
H
P
=
P
,且
P=
P
H
P
=
P
P
P=P^H P=PP
P
=
P
H
P
=
PP
。
-
正交投影矩阵
PP
P
的几何意义:“垂直”的投影,i.e. 投影“轨迹”
x−
P
x
=
(
I
−
P
)
x
\mathbf{x}-P\mathbf{x}=(I-P)\mathbf{x}
x
−
P
x
=
(
I
−
P
)
x
必然垂直于
C(
P
)
C(P)
C
(
P
)
正交投影矩阵的性质与一般的投影矩阵相同,主要有以下不同:
-
正交投影矩阵必为
Hermite矩阵
、必为
正规矩阵
(
PH
=
P
P^H=P
P
H
=
P
,
PH
P
=
P
P
H
P^HP=PP^H
P
H
P
=
P
P
H
)
因此,正交投影矩阵必必有一套正交的特征向量(可酉对角化)、必有实特征值(0和1)、满足
Ax
=
λ
x
⇒
A
H
x
=
λ
ˉ
x
A\mathbf x=\lambda\mathbf x\Rightarrow A^H\mathbf x=\bar\lambda\mathbf x
A
x
=
λ
x
⇒
A
H
x
=
λ
ˉ
x
、奇异值
σ1
,
.
.
.
,
σ
n
=
∣
λ
1
∣
,
…
,
∣
λ
n
∣
\sigma_1,…,\sigma_n=\vert\lambda_1\vert,\ldots,\vert\lambda_n\vert
σ
1
,
…
,
σ
n
=
∣
λ
1
∣
,
…
,
∣
λ
n
∣
(特征值的绝对值) -
正交投影矩阵至少为
半正定矩阵
原因:正交投影矩阵满足
PH
=
P
P^H=P
P
H
=
P
,且特征值为0和1(特征值
≥0
\ge 0
≥
0
),故为半正定矩阵 -
[将空间分解为
Cn
=
X
⊕
X
⊥
\mathbb{C}^n=\mathcal{X}\oplus\mathcal{X}^{\perp}
C
n
=
X
⊕
X
⊥
] 唯一对应一个 [正交投影矩阵],反之亦然
向
C(
P
)
C(P)
C
(
P
)
做投影,斜投影矩阵有无数个,正交投影矩阵则只有一个(
X\mathcal{X}
X
唯一确定其正交补
X⊥
\mathcal{X}^{\perp}
X
⊥
)
①对于斜投影矩阵
PP
P
,空间被分为
Cn
=
C
(
P
)
⊕
N
(
P
)
\mathbb C^n=C(P)\oplus N(P)
C
n
=
C
(
P
)
⊕
N
(
P
)
,我们说矩阵
PP
P
将向量
v\mathbf{v}
v
沿着
N(
P
)
N(P)
N
(
P
)
投影至
C(
P
)
C(P)
C
(
P
)
(
N(
P
)
N(P)
N
(
P
)
与
C(
P
)
C(P)
C
(
P
)
不一定正交)
②对于正交投影矩阵
PP
P
,空间被分为
Cn
=
C
(
P
)
⊕
N
(
P
)
\mathbb C^n=C(P)\oplus N(P)
C
n
=
C
(
P
)
⊕
N
(
P
)
(其中
N(
P
)
=
C
(
P
)
⊥
N(P)=C(P)^{\perp}
N
(
P
)
=
C
(
P
)
⊥
),我们可以直接说矩阵
PP
P
将向量
v\mathbf{v}
v
(沿着
N(
P
)
=
C
(
P
)
⊥
N(P)=C(P)^{\perp}
N
(
P
)
=
C
(
P
)
⊥
)投影至
C(
P
)
C(P)
C
(
P
)
-
正交投影中实际上隐含了两个
正交
投影矩阵,也将空间分解为两个
正交补
①
PP
P
将向量
正交投影
至
C(
P
)
C(P)
C
(
P
)
;
(I
−
P
)
(I-P)
(
I
−
P
)
将向量
正交投影
至
C(
I
−
P
)
C(I-P)
C
(
I
−
P
)
;
②
Cn
=
C
(
P
)
⊕
C
(
I
−
P
)
\mathbb C^n=C(P)\oplus C(I-P)
C
n
=
C
(
P
)
⊕
C
(
I
−
P
)
,
且
C(
P
)
⊥
=
C
(
I
−
P
)
C(P)^{\perp}=C(I-P)
C
(
P
)
⊥
=
C
(
I
−
P
)
(正交补)
③
Cn
=
C
(
P
)
⊕
N
(
P
)
\mathbb C^n=C(P)\oplus N(P)
C
n
=
C
(
P
)
⊕
N
(
P
)
,
且
C(
P
)
⊥
=
N
(
P
)
C(P)^{\perp}=N(P)
C
(
P
)
⊥
=
N
(
P
)
(因为
N(
P
)
=
C
(
I
−
P
)
N(P)=C(I-P)
N
(
P
)
=
C
(
I
−
P
)
)
如图,任意向量可拆分为
x=
P
x
+
(
I
−
P
)
x
\mathbf{x}=P\mathbf{x}+(I-P)\mathbf{x}
x
=
P
x
+
(
I
−
P
)
x
, 且
Px
⊥
(
I
−
P
)
x
P\mathbf{x}\perp (I-P)\mathbf{x}
P
x
⊥
(
I
−
P
)
x
![]()
-
对于任意的
x\mathbf{x}
x
,正交投影矩阵保证
∥P
x
∥
≤
∥
x
∥
\Vert P\mathbf{x}\Vert\le\Vert\mathbf{x}\Vert
∥
P
x
∥
≤
∥
x
∥
这就是说,正交投影
Px
P\mathbf{x}
P
x
的长度必不大于原向量
x\mathbf{x}
x
的长度 -
反过来,任何不会增长向量长度的投影必为正交投影
i.e. 对于投影矩阵
P=
P
2
P=P^2
P
=
P
2
,若对任意
x\mathbf{x}
x
有
∥P
x
∥
≤
∥
x
∥
\Vert P\mathbf{x}\Vert\le\Vert\mathbf{x}\Vert
∥
P
x
∥
≤
∥
x
∥
,则
PH
=
P
P^H=P
P
H
=
P
-
两正交投影矩阵
PP
P
和
QQ
Q
正交(
PH
Q
=
P
Q
=
0
P^HQ=PQ=0
P
H
Q
=
PQ
=
0
),则
①它们所投影到的空间也正交(
C(
P
)
C(P)
C
(
P
)
与
C(
Q
)
C(Q)
C
(
Q
)
正交)
②进而有
Q=
I
−
P
Q=I-P
Q
=
I
−
P
证明:
若
PH
Q
=
0
P^HQ=0
P
H
Q
=
0
且
x∈
C
(
P
)
\mathbf{x}\in C(P)
x
∈
C
(
P
)
,
y∈
C
(
Q
)
\mathbf{y}\in C(Q)
y
∈
C
(
Q
)
,则
xH
y
=
(
P
x
)
H
(
Q
y
)
=
x
H
P
H
Q
y
=
0
\mathbf{x}^{H}\mathbf{y}=(P\mathbf{x})^{H}(Q\mathbf{y})=\mathbf{x}^{H}P^{H}Q\mathbf{y}=0
x
H
y
=
(
P
x
)
H
(
Q
y
)
=
x
H
P
H
Q
y
=
0
若
C(
P
)
⊥
C
(
Q
)
C(P)\perp C(Q)
C
(
P
)
⊥
C
(
Q
)
,则对于
Qx
∈
C
(
Q
)
⊆
C
(
P
)
⊥
Q\mathbf{x}\in C(Q)\subseteq C(P)^{\perp}
Q
x
∈
C
(
Q
)
⊆
C
(
P
)
⊥
,有
PH
(
Q
x
)
=
0
P^H(Q\mathbf{x})=\mathbf{0}
P
H
(
Q
x
)
=
0
,即
PH
Q
=
0
P^HQ=0
P
H
Q
=
0
如何求向
C
(
A
)
C(A)
C
(
A
)
做正交投影的正交投影矩阵
给出列满秩矩阵
A
A
A
(列向量线性无关),我们希望向列空间
C
(
A
)
C(A)
C
(
A
)
做正交投影
对应的
正交投影矩阵就是
P
=
A
(
A
T
A
)
−
1
A
T
P=A(A^TA)^{-1}A^T
P
=
A
(
A
T
A
)
−
1
A
T
,可以验证
P
2
=
P
=
P
T
P^2=P=P^T
P
2
=
P
=
P
T
、
C
(
P
)
=
C
(
A
)
C(P)=C(A)
C
(
P
)
=
C
(
A
)
说明:
①再次强调前提:
rankA
=
n
\hbox{rank}A=n
rank
A
=
n
,此时才有
AT
A
A^TA
A
T
A
可逆
②注意,其中
(A
T
A
)
−
1
A
T
(A^TA)^{-1}A^T
(
A
T
A
)
−
1
A
T
就是
AA
A
的左逆
Al
e
f
t
−
1
A_{left}^{-1}
A
l
e
f
t
−
1
③
P=
A
(
A
T
A
)
−
1
A
T
P=A(A^TA)^{-1}A^T
P
=
A
(
A
T
A
)
−
1
A
T
中左侧先出现因子
AA
A
,这保证了
C(
P
)
=
C
(
A
)
C(P)=C(A)
C
(
P
)
=
C
(
A
)
推导过程:
线代胶囊──正交投影矩阵
-
假如
AA
A
的
列向量是正交化
的,公式得到简化:
将QR分解
A=
Q
R
A=QR
A
=
QR
带入
P=
A
(
A
T
A
)
−
1
A
T
P=A(A^TA)^{-1}A^T
P
=
A
(
A
T
A
)
−
1
A
T
,化简得到
P=
Q
Q
T
P=QQ^T
P
=
Q
Q
T
另外,如果
P=
Q
Q
T
=
[
q
1
T
⋮
q
k
T
]
[
q
1
⋯
q
k
]
=
q
1
q
1
T
+
⋯
+
q
k
q
k
T
P=QQ^{T}=\begin{bmatrix} \mathbf{q}_1^T\\ \vdots\\ \mathbf{q}_k^T \end{bmatrix}\begin{bmatrix} \mathbf{q}_1&\cdots&\mathbf{q}_k \end{bmatrix}=\mathbf{q}_1\mathbf{q}_1^T+\cdots+\mathbf{q}_k\mathbf{q}_k^{T}
P
=
Q
Q
T
=
q
1
T
⋮
q
k
T
[
q
1
⋯
q
k
]
=
q
1
q
1
T
+
⋯
+
q
k
q
k
T
那么向量
x\mathbf x
x
的投影容易计算:
Px
=
(
q
1
q
1
T
+
⋯
+
q
k
q
k
T
)
x
=
(
q
1
T
x
)
q
1
+
⋯
+
(
q
k
T
x
)
q
k
P\mathbf{x}=(\mathbf{q}_1\mathbf{q}_1^T+\cdots+\mathbf{q}_k\mathbf{q}_k^{T})\mathbf{x}=(\mathbf{q}_1^T\mathbf{x})\mathbf{q}_1+\cdots+(\mathbf{q}_k^T\mathbf{x})\mathbf{q}_k
P
x
=
(
q
1
q
1
T
+
⋯
+
q
k
q
k
T
)
x
=
(
q
1
T
x
)
q
1
+
⋯
+
(
q
k
T
x
)
q
k
-
注意,这里的正交投影矩阵
PP
P
是唯一的:
即使
AA
A
的列向量改变,只要
C(
A
)
C(A)
C
(
A
)
仍不变、
AA
A
仍列满秩,则
AA
A
仍不变 -
当
AA
A
为一个向量
a\mathbf{a}
a
,正交投影矩阵退化为
P=
a
(
a
T
a
)
−
1
a
T
=
a
a
T
a
T
a
\displaystyle P=\mathbf{a}(\mathbf{a}^T\mathbf{a})^{-1}\mathbf{a}^T=\frac{\mathbf{a}\mathbf{a}^T}{\mathbf{a}^T\mathbf{a}}
P
=
a
(
a
T
a
)
−
1
a
T
=
a
T
a
a
a
T
reference:
直和与投影
(前置知识)
特殊矩阵 (5):幂等矩阵
线代胶囊──正交投影矩阵
正交投影矩阵的性质与界定
从线性变换解释最小平方近似
(正交投影的应用:最小二乘法)