机器学习之PCA(1)

  • Post author:
  • Post category:其他





• 连续潜变量模型

• 经常有一些数据的


未知的


潜在的


原因


• 到目前为止,我们已经看了模型与离散的潜变量,如


混合高斯模型


的。

• 有时,依照我们观察到的数据是由

连续因素

控制的去思考更合适。

• 动机:对于许多数据集,数据点处于接

近比原来的数据空间维数低得多的复本

(manifold)。

• 训练连续潜变量模型通常被称为


降维


,因为通常有许多更少的潜在维度。

• 例子:主成分分析、因子分析、独立成分分析。


内在的潜在维度

•这两个数据中的内在潜在维度是什么

• 我们如何从

高维数据

中找到这些潜在的维度。

人类是生活在三维空间里的动物,但是照片是二维的。



内在的潜在维度

• 在这个数据集,只有3自由度的可变性——

垂直



水平

对应翻译,和

旋转

每个图像进行随机位移和旋转在一些更大的图像。

结果图像100*100 = 10000像素。



产生式观点:

• 每个数据示例生成都来自于





选择在一个在隐空间中的分布的一个点,


然后


从输入空间的条件分布中生成一个点

*.最简单潜变量模型:假设潜变量和观测变量均为

高斯分布

*这

导致概率公式

的主成分分析和因子分析。

*我们首先看看标准主成分分析,然后考虑它的概率的形成。




概率公式的优点:


使用EM进行参数估计, PCAs(主成分分析技术)的混合、贝叶斯PCA。



PCA(主成分分析:Principal Component Analysis )



用途:


用于数据压缩、可视化、特征提取,降维。




目标


是在

D维数据

中找到

潜在的M主成分

——

选择

S的(

数据协方差矩阵)

M个最高(top)特征向量:{u1,u2,……,

u

m};


也就是选择其中比较具有代表性的特征组成一个向量。


投射

每个

输入向量x

到这个


子空间,比如:


ui={


xu

1,

xu

2,

xu

3……,

xu

n}  1*n维,

数据的特征有M个,数据有N个,这样

{u1,u2,……,um}是N*M维,

完整投影成M维需要的形式:

两个视角/派生:



最大化方差


(绿点的散射)。



最小化错误


(每个数据点红绿距离)。



最大方差公式

考虑数据集{ x1,…,xN },xN 属于R(

)。

我们的目标是把数据投射到一个M维空间


(M维<D维)

• 考虑投影到M = 1维空间。


用d维单位向量u1定义这个空间的方向,所以



目的


:最大化投影数据相对于u1的方差(这意味着包含更多的信息)


是样本均值(期望),



S




数据协方差

矩阵。



N


是样本数量。



u1


第一个特征

用整个样本去最大化特征U1.

其中

样本均值



数据协方差

为:

转载于:https://www.cnblogs.com/hitWTJ/p/9928158.html