第10章 因子分析(FA)

  • Post author:
  • Post category:其他




1 简介

原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为

因子


因子分析



主成分分析的推广

,它也是多元统计分析中常用的一种降维方式


因子分析--->数据降维



2 基本思想

根据

相关性大小

把原始变量分组,使得

同组内的变量之间相关性较高

,而

不同组的变量间的相关性则较低

。每组变量代表一个基本结构,并用一个不可测的综合变量表示,这个基本结构就称为

公共因子



3 数学模型

假设



p

p






p





个随机变量



X

i

(

i

=

1

,

2

,

.

.

.

,

p

)

X_i(i=1,2,…,p)







X










i


















(


i




=








1


,




2


,




.


.


.


,




p


)





满足模型:





X

i

=

μ

i

+

α

i

1

F

1

+

.

.

.

+

α

i

m

F

m

+

ε

i

(

m

p

)

{X_i} = {\mu _i} + {\alpha _{i1}}{F_1} + … + {\alpha _{im}}{F_m} + {\varepsilon _i}{\rm{ (}}m \le p)








X










i





















=










μ










i





















+










α











i


1






















F










1





















+








.


.


.




+










α











i


m






















F










m





















+










ε










i






















(





m













p


)









{

X

1

=

μ

1

+

α

11

F

1

+

.

.

.

+

α

1

m

F

m

+

ε

1

X

2

=

μ

2

+

α

21

F

1

+

.

.

.

+

α

2

m

F

m

+

ε

2

.

.

.

.

.

.

X

p

=

μ

p

+

α

p

1

F

1

+

.

.

.

+

α

p

m

F

m

+

ε

p

\left\{ {\begin{array}{cc} {

{X_1} = {\mu _1} + {\alpha _{11}}{F_1} + … + {\alpha _{1m}}{F_m} + {\varepsilon _1}}\\ {

{X_2} = {\mu _2} + {\alpha _{21}}{F_1} + … + {\alpha _{2m}}{F_m} + {\varepsilon _2}}\\ {……}\\ {

{X_p} = {\mu _p} + {\alpha _{p1}}{F_1} + … + {\alpha _{pm}}{F_m} + {\varepsilon _p}} \end{array}} \right.









































































































X










1





















=






μ










1





















+






α











1


1






















F










1





















+




.


.


.




+






α











1


m






















F










m





















+






ε










1





























X










2





















=






μ










2





















+






α











2


1






















F










1





















+




.


.


.




+






α











2


m






















F










m





















+






ε










2



























.


.


.


.


.


.












X










p





















=






μ










p





















+






α











p


1






















F










1





















+




.


.


.




+






α











p


m






















F










m





















+






ε










p














































则称此式的模型为

因子模型

,用矩阵形式简记为:




X

=

μ

+

A

F

+

ε

X = \mu + AF + \varepsilon






X




=








μ




+








A


F




+








ε





其中,



F

i

F_i







F










i























公共因子

,是不可观测的变量,它们的系数



α

i

j

{\alpha _{ij}}








α











i


j























称为

载荷因子





A

=

(

α

i

j

)

p

×

m

A = {({\alpha _{ij}})_{p \times m}}






A




=









(




α











i


j





















)











p


×


m

























因子载荷矩阵





ε

i

{\varepsilon _i}








ε










i
























特殊因子

,是不能被前m个公共因子包含的部分

因子分析的

可行性分析


  1. 相关系数矩阵

    【大部分相关系数都

    >0.3

    时可进行因子分析】

  2. KMO

    (Kaiser-Meyer-Olkin)

    检验

    :检验变量之间的偏相关系数是否过小【此值

    >0.5

    时可进行因子分析】

  3. Bartlett's检验

    :检验显著性水平(Sig.)【此值

    <0.05

    时可进行因子分析】

  4. 变量共同度



    较高

    时可进行因子分析】

因子分析模型的

性质

:载荷矩阵不是唯一的



3.1 公共因子及载荷矩阵


公共因子数目的两种确定依据

  • 碎石图
  • 累积方差贡献率

因子载荷矩阵的

统计性质

  1. 因子载荷



    α

    i

    j

    {\alpha _{ij}}








    α











    i


    j



























    c

    o

    v

    (

    X

    i

    ,

    F

    j

    )

    =

    α

    i

    j

    {\mathop{\rm cov}} ({X_i},{F_j}) = {\alpha _{ij}}









    c


    o


    v





    (




    X










    i



















    ,






    F










    j



















    )




    =










    α











    i


    j























    ,即



    a

    i

    j

    a_{ij}







    a











    i


    j


























    X

    i

    X_i







    X










    i

























    F

    j

    F_j







    F










    j





















    的协方差(相关系数)

  2. 变量共同度



    h

    i

    2

    {h_i}^2









    h










    i



























    2












    :因子载荷矩阵A中第i行元素的平方哈,记为



    h

    i

    2

    =

    j

    =

    1

    m

    α

    i

    j

    2

    (

    i

    =

    1

    ,

    2

    ,

    .

    .

    .

    ,

    p

    )

    {h_i}^2 = \sum\limits_{j = 1}^m {\alpha _{ij}^2} {\rm{ (i=1,2,…,p)}}









    h










    i



























    2











    =

















    j


    =


    1


















    m





















    α











    i


    j









    2






















    (


    i




    =




    1


    ,




    2


    ,




    .


    .


    .


    ,




    p


    )







  3. 公共因子



    F

    j

    F_j







    F










    j





















    方差贡献和



    S

    j

    S_j







    S










    j





















因子载荷矩阵的三种估计方法

  1. 主成分分析法
  2. 主因子法
  3. 最大似然估计法



3.2 因子旋转(正交变换)

  • 方差最大法:从简化因子载荷矩阵的每一列出发,使和每个因子有关的载荷的平方的方差最大
  • 四次方最大法:使因子载荷矩阵中每一行的因子载荷平方的方差达到最大
  • 等量最大法:把方差最大法和四次方最大法结合起来,求它们的加权平均最大



3.3 因子得分


因子得分

就是公共因子在每一个样本点上的得分,由于



p

>

m

p>m






p




>








m





,所以不能得到精确值,只能通过

估计

因子得分函数




F

j

=

c

j

+

β

j

1

X

1

+

.

.

.

+

β

j

p

X

p

,

j

=

1

,

2

,

.

.

.

,

m

{F_j} = {c_j} + {\beta _{j1}}{X_1} + … + {\beta _{jp}}{X_p},j = 1,2,…,m








F










j





















=










c










j





















+










β











j


1






















X










1





















+








.


.


.




+










β











j


p






















X










p



















,




j




=








1


,




2


,




.


.


.


,




m





因子得分的两种估计方法:

  • 巴特莱特法(加权最小二乘法)

  • 回归分析法



4 步骤

  1. 根据问题

    选取原始变量

    ,对数据进行

    标准化处理
  2. 计算

    相关系数矩阵

    ,分析变量之间的相关性(较强)
  3. 求解

    公共因子及载荷矩阵

  4. 因子旋转

    (正交变换)
  5. 计算

    因子得分



版权声明:本文为qq_41566530原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。