【文献阅读】数据重采样+特征选择(1)

  • Post author:
  • Post category:其他




1 面向不均衡数据的多分类集成算法



1.1 两阶段采样

算法1:采样



1.2 算法整体框架

算法1整体框架



1.3 实验

算法1:实验设计part1



1.4 期刊

算法1:实验part2



2 基于多阶段混合集成的中小企业信用风险评价

摘要:中小企业信用风险评价是融合了处理样本类不平衡、数据高维冗余、集成分类算法选择等多阶段问题的混合集成体系,而目前的研究多集中在单一阶段。本文选用

三种采样方法、两种降维方法以及两类集成分类算法

,组成了

十二个混合集成系统

,通过实证分析不同的采样与降维思路对中小企业信用风险评价结果的影响,并从中选取最佳的集成策略。其中,SMOTEENN算法(

SMOTE+数据清洗

)是指通过将SMOTE算法扩充数据集,得到新数据集,过采样之后

基于ENN数据清理技术对样本重叠数据进行清洗

,相较于SMOTE过采样算法,可以将部分不合理的人工样本剔除。

论文1框架图



3 基于边界自适应SMOTE和FocalLoss函数改进LightGBM的信用风险预测模型



3.1 摘要

提出一种新的基于边界自适应合成少数类过采方法(BA-SMOTE)和利用FocalLoss函数改进LightGBM损失函数的算法(FLLightGBM)相结合的信用风险预测模型。

(1)在边界合成少数类过采样(Borderline-SMOTE)的基础上,引入

自适应思想和新的插值方式

,使

每个处于边界的少数类样本生成不同数量的新样本

,并且

新样本的位置更靠近少数类样本

,以此来平衡数据集;

(2)利用

Focal Loss函数

(这是啥函数)来改进LightGBM算法的损失函数,并以改进的算法训练新的数据集以得到最终结合BA-SMOTE方法和FLLightGBM算法建立的BA-SMOTE-FLLightGBM模型;

(3)最后在Lending Club数据集上进行信用风险预测。



3.2 改进的过采样方法

(1)Borderline-SMOTE算法虽然改善了样本重叠问题,但是生成新样本的方式与SMOTE算法相同,对于每个少数类样本合成的新样本数是一样的,并

没有考虑到样本差异性带来的影响

;并且当

处于边界的少数类样本过采样时,新生成的样本也会处于样本边界

,这样容易使多数类与少数类的样本边界越来越模糊【很抽象 不太理解】。

(2)将

自适应密度分布思想

(干嘛用的)引入Borderline-SMOTE算法中,并且利用

新的插值方式

生成新样本来解决上述问题。

插值方式



3.3 基于Focal Loss改进的LightGBM算法



(1)LightGBM算法



(2)FLLightGBM算法

在标准交叉熵损失函数的基础上进行修改,调整损失函数的类别权重和易分类样本权重及难分类样本权重以提升模型的分类准确率。

损失函数公式



3.4 基于BA-SMOTE和FLLightGBM分类模型



3.4.1 随机森林特征选择

建模流程



3.5 期刊

计算机应用-C刊



4 基于 ADASYN-SFS-RF的欺诈检测模型泛化性能提升及可解释性研究

  • ADASYN算法将分类决策边界向困难的实例进行自适应移动实现数据扩增,以解决不平衡数据造成的过拟合问题;
  • 基于随机森林的序列向前搜索策略算法筛选出最优特征子集对欺诈进行检测,减低采样算法添加噪声数据对分类边界确定的影响,构建欺诈监测模型;
  • 使用LIME对模型检测见过最初局部解释,提高模型的使用价值。

    模型框架



总结

  • 数据采样部分不仅仅局限于经典算法的简单改进,思路还可以扩展,要多读文献;
  • 可以从插值方式设计、采样策略设计两个角度深入;
  • 特征选择本身可以继续针对阈值设定部分展开探讨;
  • 特征选择算法本身了解不足,对比算法有待扩充。



版权声明:本文为qq_44122600原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。