数据集特征提取_特征提取和选择

  • Post author:
  • Post category:其他


引用:

图像的特征提取都有哪些算法​wenwen.sogou.com

6fbcf0276e63521d5b5382d66e8e1037.png

蒋竺波:机器学习入门讲解:什么是特征(Feature)和特征选择(Feature Selection)?​zhuanlan.zhihu.com

8e038494f4ac80f58850bf30194296b5.png


图像的特征可分为两个层次,包括低层视觉特征,和高级语义特征。低层视觉特征包括纹理、颜色、形状、空间关系几方面。语义特征是事物与事物之间的关系。


一般传统的cv特征指低层视觉特征,DL特征使用语义特征。


对于语义特征,通常来说,我们要从两个方面来考虑特征选择:

  • 特征是否发散:如果一个特征不发散,就是说这个特征大家都有或者非常相似,说明这个特征不需要。
  • 特征和目标是否相关:与目标的相关性越高,越应该优先选择。

总得来说,特征选择有三种常用的思路:

(1)特征过滤(Filter Methods):对各个特征按照发散性或者相关 性进行评分,对分数设定阈值或者选择靠前得分的特征。

优点:简单,快。

缺点:对于排序靠前的特征,如果他们相关性较强,则引入了冗 余特征,浪费了计算资源。 对于排序靠后的特征,虽然独立作 用不显著,但和其他特征想组合可能会对模型有很好的帮助, 这样就损失了有价值的特征。

方法有:

  • Pearson’s Correlation,:皮尔逊相关系数,是用来度量 两个变量相互关系(线性相关)的,不过更多反应两个服从 正态分布的随机变量的相关性,取值范围在 [-1,+1] 之 间。
  • Linear Discriminant Analysis(LDA,线性判别分析):更 像一种特征抽取方式,基本思想是将高维的特征影到最佳鉴 别矢量空间,这样就可以抽取分类信息和达到压缩特征空 间维数的效果。投影后的样本在子空间有最大可分离性。
  • Analysis of Variance:ANOVA,方差分析,通过分析研究不 同来源的变异对总变异的贡