矩阵理论| 特殊矩阵:幂等矩阵、投影、正交投影

  • Post author:
  • Post category:其他




投影矩阵 /幂等矩阵

投影矩阵 /幂等矩阵 (idempotent matrix)



P

\mathbf P






P





满足



P

2

=

P

P^2=P







P










2











=








P





,也即



P

(

I

P

)

=

0

P(I-P)=0






P


(


I













P


)




=








0




  • 幂等矩阵



    P

    P






    P





    的几何意义:将向量



    x

    \mathbf{x}






    x





    投影至



    P

    P






    P





    的列空间



    C

    (

    P

    )

    C(P)






    C


    (


    P


    )











    P

    2

    =

    P

    P^2=P







    P










    2











    =








    P





    的意义就是“投影两次等效于投影一次”

  • 投影也分为两类:

    斜投影

    (oblique projection) 和

    正交投影

    (额外满足



    P

    H

    =

    P

    P^H=P







    P










    H











    =








    P





下面先介绍一般投影的特点,然后再介绍正交投影



投影矩阵 /幂等矩阵 的性质

关于特征值和行列式:

  • 特征值必为



    λ

    =

    0

    1

    \lambda=0 或 1






    λ




    =








    0





    1





    (证明:



    P

    2

    x

    =

    P

    x

    P^2\mathbf{x}=P\mathbf{x}







    P










    2









    x




    =








    P


    x





    ,则



    λ

    2

    x

    =

    λ

    x

    \lambda^2\mathbf{x}=\lambda\mathbf{x}







    λ










    2









    x




    =








    λ


    x









    λ

    2

    =

    λ

    \lambda^2=\lambda







    λ










    2











    =








    λ







    ①其中,



    λ

    =

    1

    \lambda=1






    λ




    =








    1





    的特征子空间为



    C

    (

    P

    )

    C(P)






    C


    (


    P


    )









    λ

    =

    0

    \lambda=0






    λ




    =








    0





    的特征子空间为



    N

    (

    P

    )

    N(P)






    N


    (


    P


    )










    det

    P

    =

    0

    1

    \det P=0 或 1






    det




    P




    =








    0





    1




  • 推论:投影矩阵



    P

    P






    P






    必然可以相似对角化为



    d

    i

    a

    g

    (

    1

    ,

    ,

    1

    ,

    0

    ,

    ,

    0

    )

    \mathrm{diag}(1,\ldots,1,0,\ldots,0)







    diag



    (


    1


    ,









    ,




    1


    ,




    0


    ,









    ,




    0


    )





证明:

因为



λ

=

1

\lambda=1






λ




=








1





的特征子空间为



C

(

P

)

C(P)






C


(


P


)









λ

=

0

\lambda=0






λ




=








0





的特征子空间为



N

(

P

)

N(P)






N


(


P


)





,而



C

n

=

C

(

P

)

N

(

P

)

\mathbb C^n=C(P)\oplus N(P)







C










n











=








C


(


P


)













N


(


P


)





(后面证明),有充足的无关特征向量,代数重数=几何重数,投影矩阵



P

P






P





**必然可以相似对角化




  • r

    a

    n

    k

    (

    P

    )

    =

    t

    r

    a

    c

    e

    (

    P

    )

    \mathrm{rank}(P)=\mathrm{trace}(P)







    rank



    (


    P


    )




    =









    trace



    (


    P


    )




证明:



t

r

a

c

e

(

P

)

=

λ

1

+

.

.

.

+

λ

n

=

特征值

1

的个数

\mathrm{trace}(P)=\lambda_1+…+\lambda_n=特征值1的个数







trace



(


P


)




=









λ










1




















+













+









λ










n




















=








特征值


1


的个数




另外,投影矩阵的重要意义是,投影

隐含了两个投影矩阵



隐含了空间的直和分解




  • (

    I

    P

    )

    (I-P)






    (


    I













    P


    )





    也是幂等矩阵,几何意义是将向量正交投影至



    C

    (

    I

    P

    )

    C(I-P)






    C


    (


    I













    P


    )







    并且




    C

    (

    I

    P

    )

    C(I-P)






    C


    (


    I













    P


    )









    C

    (

    P

    )

    C(P)






    C


    (


    P


    )





    互为直和补





    C

    n

    =

    C

    (

    P

    )

    C

    (

    I

    P

    )

    \mathbb C^n=C(P)\oplus C(I-P)







    C










    n











    =








    C


    (


    P


    )













    C


    (


    I













    P


    )





如图,任意向量可拆分为投影部分



C

(

P

)

C(P)






C


(


P


)





和投影的“轨迹”部分



C

(

I

P

)

C(I-P)






C


(


I













P


)










x

=

P

x

+

(

I

P

)

x

\mathbf{x}=P\mathbf{x}+(I-P)\mathbf{x}






x




=








P


x




+








(


I













P


)


x






在这里插入图片描述





  • N

    (

    P

    )

    =

    C

    (

    I

    P

    )

    N(P)=C(I-P)






    N


    (


    P


    )




    =








    C


    (


    I













    P


    )





    , 同理有



    N

    (

    I

    P

    )

    =

    C

    (

    P

    )

    N(I-P)=C(P)






    N


    (


    I













    P


    )




    =








    C


    (


    P


    )







    推论:



    P

    (

    I

    P

    )

    =

    0

    P(I-P)=0






    P


    (


    I













    P


    )




    =








    0









    (

    I

    P

    )

    P

    =

    0

    (I-P)P=0






    (


    I













    P


    )


    P




    =








    0




证明:

①若



x

N

(

P

)

\mathbf{x}\in N(P)






x













N


(


P


)









P

x

=

0

P\mathbf{x}=\mathbf{0}






P


x




=








0





,故



(

I

P

)

x

=

x

P

x

=

x

(I-P)\mathbf{x}=\mathbf{x}-P\mathbf{x}=\mathbf{x}






(


I













P


)


x




=








x













P


x




=








x





,亦即



x

C

(

I

P

)

\mathbf{x}\in C(I-P)






x













C


(


I













P


)






②若



x

C

(

I

P

)

\mathbf{x}\in C(I-P)






x













C


(


I













P


)









x

=

(

I

P

)

y

\mathbf{x}=(I-P)\mathbf{y}






x




=








(


I













P


)


y





,故



P

x

=

P

(

I

P

)

y

=

0

y

=

0

P\mathbf{x}=P(I-P)\mathbf{y}=0\mathbf{y}=\mathbf{0}






P


x




=








P


(


I













P


)


y




=








0


y




=








0





,即



x

N

(

P

)

\mathbf{x}\in N(P)






x













N


(


P


)




  • 推论:

    每个投影矩阵,唯一对应空间的一个直和分解:



    C

    n

    =

    C

    (

    P

    )

    N

    (

    P

    )

    \mathbb C^n=C(P)\oplus N(P)







    C










    n











    =








    C


    (


    P


    )













    N


    (


    P


    )





证明:



C

n

=

C

(

P

)

C

(

I

P

)

\mathbb C^n=C(P)\oplus C(I-P)







C










n











=








C


(


P


)













C


(


I













P


)





,带入



C

(

I

P

)

=

N

(

P

)

C(I-P)=N(P)






C


(


I













P


)




=








N


(


P


)





即可



正交投影矩阵

在此幂等矩阵



P

2

=

P

P^2=P







P










2











=








P





的基础上,



P

P






P







正交

投影矩阵的充要条件是:




  1. P

    2

    =

    P

    =

    P

    H

    P^2=P=P^H







    P










    2











    =








    P




    =









    P










    H











为何正交投影要求



P

H

=

P

P^H=P







P










H











=








P







理解:“垂直投影”即



P

H

(

I

P

)

x

=

0

P^H(I-P)\mathbf{x}=0







P










H









(


I













P


)


x




=








0







这要求



P

H

=

P

H

P

P^H=P^HP







P










H











=









P










H









P





,又因为



(

P

H

P

)

H

=

P

H

P

(P^HP)^H=P^HP






(



P










H









P



)










H











=









P










H









P





,则



P

H

=

P

P^H=P







P










H











=








P







  1. P

    =

    P

    H

    P

    P=P^H P






    P




    =









    P










    H









    P




这是



P

2

=

P

=

P

H

P^2=P=P^H







P










2











=








P




=









P










H












的等价描述

证明:





P

2

=

P

=

P

H

P^2=P=P^H







P










2











=








P




=









P










H












,则



P

H

P

=

P

P

=

P

P^H P=PP=P







P










H









P




=








PP




=








P





;





P

=

P

H

P

P=P^H P






P




=









P










H









P





,则



P

H

=

P

H

P

=

P

P^H=P^H P=P







P










H











=









P










H









P




=








P





,且



P

=

P

H

P

=

P

P

P=P^H P=PP






P




=









P










H









P




=








PP





  • 正交投影矩阵



    P

    P






    P





    的几何意义:“垂直”的投影,i.e. 投影“轨迹”



    x

    P

    x

    =

    (

    I

    P

    )

    x

    \mathbf{x}-P\mathbf{x}=(I-P)\mathbf{x}






    x













    P


    x




    =








    (


    I













    P


    )


    x





    必然垂直于



    C

    (

    P

    )

    C(P)






    C


    (


    P


    )




正交投影矩阵的性质与一般的投影矩阵相同,主要有以下不同:


  • 正交投影矩阵必为

    Hermite矩阵

    、必为

    正规矩阵






    P

    H

    =

    P

    P^H=P







    P










    H











    =








    P









    P

    H

    P

    =

    P

    P

    H

    P^HP=PP^H







    P










    H









    P




    =








    P



    P










    H














    因此,正交投影矩阵必必有一套正交的特征向量(可酉对角化)、必有实特征值(0和1)、满足



    A

    x

    =

    λ

    x

    A

    H

    x

    =

    λ

    ˉ

    x

    A\mathbf x=\lambda\mathbf x\Rightarrow A^H\mathbf x=\bar\lambda\mathbf x






    A


    x




    =








    λ


    x














    A










    H









    x




    =















    λ







    ˉ








    x





    、奇异值



    σ

    1

    ,

    .

    .

    .

    ,

    σ

    n

    =

    λ

    1

    ,

    ,

    λ

    n

    \sigma_1,…,\sigma_n=\vert\lambda_1\vert,\ldots,\vert\lambda_n\vert







    σ










    1


















    ,







    ,





    σ










    n




















    =












    λ










    1





















    ,









    ,








    λ










    n
























    (特征值的绝对值)

  • 正交投影矩阵至少为

    半正定矩阵


    原因:正交投影矩阵满足



    P

    H

    =

    P

    P^H=P







    P










    H











    =








    P





    ,且特征值为0和1(特征值



    0

    \ge 0















    0





    ),故为半正定矩阵

  • [将空间分解为



    C

    n

    =

    X

    X

    \mathbb{C}^n=\mathcal{X}\oplus\mathcal{X}^{\perp}







    C










    n











    =








    X














    X

























    ] 唯一对应一个 [正交投影矩阵],反之亦然





C

(

P

)

C(P)






C


(


P


)





做投影,斜投影矩阵有无数个,正交投影矩阵则只有一个(



X

\mathcal{X}






X





唯一确定其正交补



X

\mathcal{X}^{\perp}







X



























①对于斜投影矩阵



P

P






P





,空间被分为



C

n

=

C

(

P

)

N

(

P

)

\mathbb C^n=C(P)\oplus N(P)







C










n











=








C


(


P


)













N


(


P


)





,我们说矩阵



P

P






P





将向量



v

\mathbf{v}






v





沿着



N

(

P

)

N(P)






N


(


P


)





投影至



C

(

P

)

C(P)






C


(


P


)









N

(

P

)

N(P)






N


(


P


)









C

(

P

)

C(P)






C


(


P


)





不一定正交)

②对于正交投影矩阵



P

P






P





,空间被分为



C

n

=

C

(

P

)

N

(

P

)

\mathbb C^n=C(P)\oplus N(P)







C










n











=








C


(


P


)













N


(


P


)





(其中



N

(

P

)

=

C

(

P

)

N(P)=C(P)^{\perp}






N


(


P


)




=








C


(


P



)

























),我们可以直接说矩阵



P

P






P





将向量



v

\mathbf{v}






v





(沿着



N

(

P

)

=

C

(

P

)

N(P)=C(P)^{\perp}






N


(


P


)




=








C


(


P



)

























)投影至



C

(

P

)

C(P)






C


(


P


)




  • 正交投影中实际上隐含了两个

    正交

    投影矩阵,也将空间分解为两个

    正交补






    P

    P






    P





    将向量

    正交投影





    C

    (

    P

    )

    C(P)






    C


    (


    P


    )









    (

    I

    P

    )

    (I-P)






    (


    I













    P


    )





    将向量

    正交投影





    C

    (

    I

    P

    )

    C(I-P)






    C


    (


    I













    P


    )











    C

    n

    =

    C

    (

    P

    )

    C

    (

    I

    P

    )

    \mathbb C^n=C(P)\oplus C(I-P)







    C










    n











    =








    C


    (


    P


    )













    C


    (


    I













    P


    )











    C

    (

    P

    )

    =

    C

    (

    I

    P

    )

    C(P)^{\perp}=C(I-P)






    C


    (


    P



    )
























    =








    C


    (


    I













    P


    )






    (正交补)





    C

    n

    =

    C

    (

    P

    )

    N

    (

    P

    )

    \mathbb C^n=C(P)\oplus N(P)







    C










    n











    =








    C


    (


    P


    )













    N


    (


    P


    )











    C

    (

    P

    )

    =

    N

    (

    P

    )

    C(P)^{\perp}=N(P)






    C


    (


    P



    )
























    =








    N


    (


    P


    )






    (因为



    N

    (

    P

    )

    =

    C

    (

    I

    P

    )

    N(P)=C(I-P)






    N


    (


    P


    )




    =








    C


    (


    I













    P


    )





如图,任意向量可拆分为



x

=

P

x

+

(

I

P

)

x

\mathbf{x}=P\mathbf{x}+(I-P)\mathbf{x}






x




=








P


x




+








(


I













P


)


x





, 且



P

x

(

I

P

)

x

P\mathbf{x}\perp (I-P)\mathbf{x}






P


x













(


I













P


)


x






在这里插入图片描述

  • 对于任意的



    x

    \mathbf{x}






    x





    ,正交投影矩阵保证



    P

    x

    x

    \Vert P\mathbf{x}\Vert\le\Vert\mathbf{x}\Vert









    P


    x



















    x









    这就是说,正交投影



    P

    x

    P\mathbf{x}






    P


    x





    的长度必不大于原向量



    x

    \mathbf{x}






    x





    的长度

  • 反过来,任何不会增长向量长度的投影必为正交投影

    i.e. 对于投影矩阵



    P

    =

    P

    2

    P=P^2






    P




    =









    P










    2












    ,若对任意



    x

    \mathbf{x}






    x









    P

    x

    x

    \Vert P\mathbf{x}\Vert\le\Vert\mathbf{x}\Vert









    P


    x



















    x








    ,则



    P

    H

    =

    P

    P^H=P







    P










    H











    =








    P




  • 两正交投影矩阵



    P

    P






    P









    Q

    Q






    Q





    正交(



    P

    H

    Q

    =

    P

    Q

    =

    0

    P^HQ=PQ=0







    P










    H









    Q




    =








    PQ




    =








    0





    ),则

    ①它们所投影到的空间也正交(



    C

    (

    P

    )

    C(P)






    C


    (


    P


    )









    C

    (

    Q

    )

    C(Q)






    C


    (


    Q


    )





    正交)

    ②进而有



    Q

    =

    I

    P

    Q=I-P






    Q




    =








    I













    P




证明:





P

H

Q

=

0

P^HQ=0







P










H









Q




=








0









x

C

(

P

)

\mathbf{x}\in C(P)






x













C


(


P


)









y

C

(

Q

)

\mathbf{y}\in C(Q)






y













C


(


Q


)





,则



x

H

y

=

(

P

x

)

H

(

Q

y

)

=

x

H

P

H

Q

y

=

0

\mathbf{x}^{H}\mathbf{y}=(P\mathbf{x})^{H}(Q\mathbf{y})=\mathbf{x}^{H}P^{H}Q\mathbf{y}=0







x











H










y




=








(


P


x



)











H










(


Q


y


)




=









x











H











P











H










Q


y




=








0










C

(

P

)

C

(

Q

)

C(P)\perp C(Q)






C


(


P


)













C


(


Q


)





,则对于



Q

x

C

(

Q

)

C

(

P

)

Q\mathbf{x}\in C(Q)\subseteq C(P)^{\perp}






Q


x













C


(


Q


)













C


(


P



)

























,有



P

H

(

Q

x

)

=

0

P^H(Q\mathbf{x})=\mathbf{0}







P










H









(


Q


x


)




=








0





,即



P

H

Q

=

0

P^HQ=0







P










H









Q




=








0






如何求向



C

(

A

)

C(A)






C


(


A


)





做正交投影的正交投影矩阵

给出列满秩矩阵



A

A






A





(列向量线性无关),我们希望向列空间



C

(

A

)

C(A)






C


(


A


)





做正交投影

对应的

正交投影矩阵就是





P

=

A

(

A

T

A

)

1

A

T

P=A(A^TA)^{-1}A^T






P




=








A


(



A










T









A



)














1











A










T













,可以验证



P

2

=

P

=

P

T

P^2=P=P^T







P










2











=








P




=









P










T
















C

(

P

)

=

C

(

A

)

C(P)=C(A)






C


(


P


)




=








C


(


A


)




说明:

①再次强调前提:



rank

A

=

n

\hbox{rank}A=n






rank


A




=








n





,此时才有



A

T

A

A^TA







A










T









A





可逆

②注意,其中



(

A

T

A

)

1

A

T

(A^TA)^{-1}A^T






(



A










T









A



)














1











A










T












就是



A

A






A





的左逆



A

l

e

f

t

1

A_{left}^{-1}







A











l


e


f


t













1



























P

=

A

(

A

T

A

)

1

A

T

P=A(A^TA)^{-1}A^T






P




=








A


(



A










T









A



)














1











A










T












中左侧先出现因子



A

A






A





,这保证了



C

(

P

)

=

C

(

A

)

C(P)=C(A)






C


(


P


)




=








C


(


A


)






推导过程:

线代胶囊──正交投影矩阵

  • 假如



    A

    A






    A







    列向量是正交化

    的,公式得到简化:


    将QR分解



    A

    =

    Q

    R

    A=QR






    A




    =








    QR





    带入



    P

    =

    A

    (

    A

    T

    A

    )

    1

    A

    T

    P=A(A^TA)^{-1}A^T






    P




    =








    A


    (



    A










    T









    A



    )














    1











    A










    T












    ,化简得到



    P

    =

    Q

    Q

    T

    P=QQ^T






    P




    =








    Q



    Q










    T












另外,如果



P

=

Q

Q

T

=

[

q

1

T

q

k

T

]

[

q

1

q

k

]

=

q

1

q

1

T

+

+

q

k

q

k

T

P=QQ^{T}=\begin{bmatrix} \mathbf{q}_1^T\\ \vdots\\ \mathbf{q}_k^T \end{bmatrix}\begin{bmatrix} \mathbf{q}_1&\cdots&\mathbf{q}_k \end{bmatrix}=\mathbf{q}_1\mathbf{q}_1^T+\cdots+\mathbf{q}_k\mathbf{q}_k^{T}






P




=








Q



Q











T












=














































q










1








T






































q










k








T


































































[














q










1












































































q










k




































]






=









q










1



















q










1








T




















+













+









q










k



















q










k









T























那么向量



x

\mathbf x






x





的投影容易计算:



P

x

=

(

q

1

q

1

T

+

+

q

k

q

k

T

)

x

=

(

q

1

T

x

)

q

1

+

+

(

q

k

T

x

)

q

k

P\mathbf{x}=(\mathbf{q}_1\mathbf{q}_1^T+\cdots+\mathbf{q}_k\mathbf{q}_k^{T})\mathbf{x}=(\mathbf{q}_1^T\mathbf{x})\mathbf{q}_1+\cdots+(\mathbf{q}_k^T\mathbf{x})\mathbf{q}_k






P


x




=








(



q










1



















q










1








T




















+













+









q










k



















q










k









T



















)


x




=








(



q










1








T


















x


)



q










1




















+













+








(



q










k








T


















x


)



q










k




















  • 注意,这里的正交投影矩阵



    P

    P






    P





    是唯一的:

    即使



    A

    A






    A





    的列向量改变,只要



    C

    (

    A

    )

    C(A)






    C


    (


    A


    )





    仍不变、



    A

    A






    A





    仍列满秩,则



    A

    A






    A





    仍不变





  • A

    A






    A





    为一个向量



    a

    \mathbf{a}






    a





    ,正交投影矩阵退化为



    P

    =

    a

    (

    a

    T

    a

    )

    1

    a

    T

    =

    a

    a

    T

    a

    T

    a

    \displaystyle P=\mathbf{a}(\mathbf{a}^T\mathbf{a})^{-1}\mathbf{a}^T=\frac{\mathbf{a}\mathbf{a}^T}{\mathbf{a}^T\mathbf{a}}






    P




    =








    a


    (



    a










    T









    a



    )














    1











    a










    T











    =




















    a










    T









    a














    a



    a










    T





























reference:


直和与投影

(前置知识)


特殊矩阵 (5):幂等矩阵



线代胶囊──正交投影矩阵



正交投影矩阵的性质与界定



从线性变换解释最小平方近似

(正交投影的应用:最小二乘法)



版权声明:本文为Insomnia_X原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。