1 简介
原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为
因子
因子分析
是
主成分分析的推广
,它也是多元统计分析中常用的一种降维方式
因子分析--->数据降维
2 基本思想
根据
相关性大小
把原始变量分组,使得
同组内的变量之间相关性较高
,而
不同组的变量间的相关性则较低
。每组变量代表一个基本结构,并用一个不可测的综合变量表示,这个基本结构就称为
公共因子
3 数学模型
假设
pp
p
个随机变量
Xi
(
i
=
1
,
2
,
.
.
.
,
p
)
X_i(i=1,2,…,p)
X
i
(
i
=
1
,
2
,
.
.
.
,
p
)
满足模型:
X
i
=
μ
i
+
α
i
1
F
1
+
.
.
.
+
α
i
m
F
m
+
ε
i
(
m
≤
p
)
{X_i} = {\mu _i} + {\alpha _{i1}}{F_1} + … + {\alpha _{im}}{F_m} + {\varepsilon _i}{\rm{ (}}m \le p)
X
i
=
μ
i
+
α
i
1
F
1
+
.
.
.
+
α
i
m
F
m
+
ε
i
(
m
≤
p
)
{
X
1
=
μ
1
+
α
11
F
1
+
.
.
.
+
α
1
m
F
m
+
ε
1
X
2
=
μ
2
+
α
21
F
1
+
.
.
.
+
α
2
m
F
m
+
ε
2
.
.
.
.
.
.
X
p
=
μ
p
+
α
p
1
F
1
+
.
.
.
+
α
p
m
F
m
+
ε
p
\left\{ {\begin{array}{cc} {
{X_1} = {\mu _1} + {\alpha _{11}}{F_1} + … + {\alpha _{1m}}{F_m} + {\varepsilon _1}}\\ {
{X_2} = {\mu _2} + {\alpha _{21}}{F_1} + … + {\alpha _{2m}}{F_m} + {\varepsilon _2}}\\ {……}\\ {
{X_p} = {\mu _p} + {\alpha _{p1}}{F_1} + … + {\alpha _{pm}}{F_m} + {\varepsilon _p}} \end{array}} \right.
⎩
⎪
⎪
⎨
⎪
⎪
⎧
X
1
=
μ
1
+
α
1
1
F
1
+
.
.
.
+
α
1
m
F
m
+
ε
1
X
2
=
μ
2
+
α
2
1
F
1
+
.
.
.
+
α
2
m
F
m
+
ε
2
.
.
.
.
.
.
X
p
=
μ
p
+
α
p
1
F
1
+
.
.
.
+
α
p
m
F
m
+
ε
p
则称此式的模型为
因子模型
,用矩阵形式简记为:
X
=
μ
+
A
F
+
ε
X = \mu + AF + \varepsilon
X
=
μ
+
A
F
+
ε
其中,
F
i
F_i
F
i
为
公共因子
,是不可观测的变量,它们的系数
α
i
j
{\alpha _{ij}}
α
i
j
称为
载荷因子
;
A
=
(
α
i
j
)
p
×
m
A = {({\alpha _{ij}})_{p \times m}}
A
=
(
α
i
j
)
p
×
m
为
因子载荷矩阵
;
ε
i
{\varepsilon _i}
ε
i
是
特殊因子
,是不能被前m个公共因子包含的部分
因子分析的
可行性分析
:
-
相关系数矩阵
【大部分相关系数都
>0.3
时可进行因子分析】 -
KMO
(Kaiser-Meyer-Olkin)
检验
:检验变量之间的偏相关系数是否过小【此值
>0.5
时可进行因子分析】 -
Bartlett's检验
:检验显著性水平(Sig.)【此值
<0.05
时可进行因子分析】 -
变量共同度
【
较高
时可进行因子分析】
因子分析模型的
性质
:载荷矩阵不是唯一的
3.1 公共因子及载荷矩阵
公共因子数目的两种确定依据
:
- 碎石图
- 累积方差贡献率
因子载荷矩阵的
统计性质
:
-
因子载荷
αi
j
{\alpha _{ij}}
α
i
j
:
co
v
(
X
i
,
F
j
)
=
α
i
j
{\mathop{\rm cov}} ({X_i},{F_j}) = {\alpha _{ij}}
c
o
v
(
X
i
,
F
j
)
=
α
i
j
,即
ai
j
a_{ij}
a
i
j
是
Xi
X_i
X
i
和
Fj
F_j
F
j
的协方差(相关系数) -
变量共同度
hi
2
{h_i}^2
h
i
2
:因子载荷矩阵A中第i行元素的平方哈,记为
hi
2
=
∑
j
=
1
m
α
i
j
2
(
i
=
1
,
2
,
.
.
.
,
p
)
{h_i}^2 = \sum\limits_{j = 1}^m {\alpha _{ij}^2} {\rm{ (i=1,2,…,p)}}
h
i
2
=
j
=
1
∑
m
α
i
j
2
(
i
=
1
,
2
,
.
.
.
,
p
)
-
公共因子
Fj
F_j
F
j
方差贡献和
Sj
S_j
S
j
因子载荷矩阵的三种估计方法
:
- 主成分分析法
- 主因子法
- 最大似然估计法
3.2 因子旋转(正交变换)
- 方差最大法:从简化因子载荷矩阵的每一列出发,使和每个因子有关的载荷的平方的方差最大
- 四次方最大法:使因子载荷矩阵中每一行的因子载荷平方的方差达到最大
- 等量最大法:把方差最大法和四次方最大法结合起来,求它们的加权平均最大
3.3 因子得分
因子得分
就是公共因子在每一个样本点上的得分,由于
p>
m
p>m
p
>
m
,所以不能得到精确值,只能通过
估计
因子得分函数
F
j
=
c
j
+
β
j
1
X
1
+
.
.
.
+
β
j
p
X
p
,
j
=
1
,
2
,
.
.
.
,
m
{F_j} = {c_j} + {\beta _{j1}}{X_1} + … + {\beta _{jp}}{X_p},j = 1,2,…,m
F
j
=
c
j
+
β
j
1
X
1
+
.
.
.
+
β
j
p
X
p
,
j
=
1
,
2
,
.
.
.
,
m
因子得分的两种估计方法:
-
巴特莱特法(加权最小二乘法)
-
回归分析法
4 步骤
-
根据问题
选取原始变量
,对数据进行
标准化处理
-
计算
相关系数矩阵
,分析变量之间的相关性(较强) -
求解
公共因子及载荷矩阵
-
因子旋转
(正交变换) -
计算
因子得分