数据集特征提取_特征提取和选择

引用：

图像的特征提取都有哪些算法wenwen.sogou.com

蒋竺波：机器学习入门讲解：什么是特征（Feature）和特征选择(Feature Selection)?zhuanlan.zhihu.com

图像的特征可分为两个层次，包括低层视觉特征，和高级语义特征。低层视觉特征包括纹理、颜色、形状、空间关系几方面。语义特征是事物与事物之间的关系。

一般传统的cv特征指低层视觉特征，DL特征使用语义特征。

对于语义特征，通常来说，我们要从两个方面来考虑特征选择：

总得来说，特征选择有三种常用的思路：

（1）特征过滤（Filter Methods）:对各个特征按照发散性或者相关性进行评分，对分数设定阈值或者选择靠前得分的特征。

优点：简单，快。

缺点:对于排序靠前的特征，如果他们相关性较强，则引入了冗余特征，浪费了计算资源。对于排序靠后的特征，虽然独立作用不显著，但和其他特征想组合可能会对模型有很好的帮助，这样就损失了有价值的特征。

方法有：

Pearson’s Correlation,：皮尔逊相关系数，是用来度量两个变量相互关系（线性相关）的，不过更多反应两个服从正态分布的随机变量的相关性，取值范围在 [-1,+1] 之间。
Linear Discriminant Analysis(LDA，线性判别分析)：更像一种特征抽取方式，基本思想是将高维的特征影到最佳鉴别矢量空间，这样就可以抽取分类信息和达到压缩特征空间维数的效果。投影后的样本在子空间有最大可分离性。
Analysis of Variance：ANOVA,方差分析，通过分析研究不同来源的变异对总变异的贡