Deep Learning —Ian Goodfellow

  • Post author:
  • Post category:其他


在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Stochastic gradient algorithm(SGA): 随机梯度下降算法。


https://blog.csdn.net/kwame211/article/details/80364079

PCA:在许多领域的研究与应用中,通常需要对含有多个变量的数据进行观测,收集大量数据后进行分析寻找规律。多变量大数据集无疑会为研究和应用提供丰富的信息,但是也在一定程度上增加了数据采集的工作量。更重要的是在很多情形下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性。如果分别对每个指标进行分析,分析往往是孤立的,不能完全利用数据中的信息,因此盲目减少指标会损失很多有用的信息,从而产生错误的结论。



因此需要找到一种合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。由于各变量之间存在一定的相关关系,因此可以考虑将关系紧密的变量变成尽可能少的新变量,使这些新变量是两两不相关的,那么就可以用较少的综合指标分别代表存在于各个变量中的各类信息。主成分分析与因子分析就属于这类降维算法。



PCA=Principal Component Analysis 主成分分析法

PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。*PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切相关的。其中,第一个新坐标轴选择是原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推,可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴,我们发现,大部分方差都包含在前面k个坐标轴中,后面的坐标轴所含的方差几乎为0。*于是,我们可以忽略余下的坐标轴,只保留前面k个含有绝大部分方差的坐标轴。事实上,这相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,实现对数据特征的降维处理。

思考:我们如何得到这些包含最大差异性的主成分方向呢?

答案:事实上,通过计算数据矩阵的协方差矩阵,然后得到协方差矩阵的特征值特征向量,选择特征值最大(即方差最大)的k个特征所对应的特征向量组成的矩阵。这样就可以将数据矩阵转换到新的空间当中,实现数据特征的降维。

Loss Compression:Storing the point in a way that need less memory but may loss some precision. We would like to loss little precision as possible.

在这里插入图片描述

在这里插入图片描述

**



parameter和hyperparameter:

**

由你事先决定的参量都可以认为是超参数。

以random forest来说,

树的个数、树的最大深度,这个是超参。

以kNN来说,k的大小、距离的权重,这个是超参。

模型参数是模型在训练的过程自己学习获得的。

模型超参是在训练模型前,我们人为设定的参数。

比如说神经网络中,每个节点的权重就是参数;神经网络的层数和每层中节点的个数,就是超参。

至于调参,我们大部分时候都是指的调“超参”。



generalization:

the ability to perform well on previously unobserved input

The curse of dimension:

As the number of relevant dimensions of the data increases (from left to

right), the number of configurations of interest may grow exponentially. (Left)In this

one-dimensional example, we have one variable for which we only care to distinguish 10

regions of interest. With enough examples falling within each of these regions (each region

corresponds to a cell in the illustration), learning algorithms can easily generalize correctly. A straightforward way to generalize is to estimate the value of the target function within

each region (and possibly interpolate between neighboring regions). (Center)With 2

dimensions it is more difficult to distinguish 10 different values of each variable. We need

to keep track of up to 10×10=100 regions, and we need at least that many examples to

cover all those regions. (Right)With 3 dimensions this grows to 10^3 = 1000

regions and at least that many examples. For d dimensions and v values to be distinguished along eachaxis, we seem to need O(v^d) regions and examples. This is an instance of the curse of dimensionality. Figure graciously provided by Nicolas Chapados.



版权声明:本文为qq_40590753原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。