金融分析项目分析 !!!

  • Post author:
  • Post category:其他


day07问题小结

掌握风控报表中指标计算方法

知道ABC评分卡是什么,有什么区别

掌握评分卡模型正负样本定义方法

5 风控建模概述【续day07】

5.2 风控建模流程

2.1 评分卡简介

风控模型其中包含了A/B/C卡。模型可以采用相同算法,一般以逾期天数来区分正负样本,也就是目标值Y的取值(0或1)

  • 贷前 申请评分卡 Application score card

  • 贷中 行为评分卡 Behavior score card

  • 贷后 催收评分卡 Collection score card

2.2 机器学习模型的完整工程流程

准备

  • 明确需求

  • 模型设计

  • 样本设计

特征工程

模型

上线运营

2.3 项目准备期

1 明确需求

2 模型设计

  • 业务抽象成分类/回归问题

3 Y标签定义

  • 15天为正负样本的标记阈值,Y = 1的客户均是逾期超过15天的客户

  • 将逾期<5天和没有逾期的人作为正样本

  • 逾期5~15天的数据(灰样本)会从样本中去掉

  • “灰样本”通常放入测试集中,用于确保模型在训练结束后,对该部分样本也有区分能力。

4 样本选取

  • 观察期和表现期

    • 观察期是指用户申请信贷产品前的时间段

    • 表现期是定义好坏标签的时间窗口,如果在该时间窗口内触发坏定义就是坏样本,反之就是好样本。

    • 举例: 要建立A卡模型, 观察期12个月,表现期3个月

      • 用户贷款前12个月的历史行为表现作为变量,用于后续建模

      • 如设定用户在到期3个月内未还款,即认为用户为负样本,则称表现期为3个月

    训练数据测试数据划分

    • 数据集在建模前需要划分为3个子集:

      • 开发样本 train

      • 验证样本 test

      • 时间外样本

5 样本设计

选取客群:新客,未逾期老客,逾期老客

2.4 特征工程

数据调研

特征构建

特征评估

2.5 模型构建

模型评估

  • 好的模型需要满足的条件: 稳定,在后续较长时间可以持续使用 PSI (Population Stability Index) 区分度好,好坏用户的信用分差别大 AUC, KS, GINI

  • 报表一:区分度,抓坏人能力在不同分段的表现

  • 报表二:跨时间稳定性

2.6 上线运营

模型交付→模型部署→模型监控

交付流程:

  • 1 提交特征和模型报表 2 离线结果质量复核 (无缺失,无重复,存储位置正确,文件名规范) 3 保存模型文件,确定版本号,提交时间 4 老大审批,通知业务方 5 线上部署,案例调研, 持续监控

  • 模型监控

    • 特征监控:特征稳定性

    • 模型监控:模型稳定性

ABC评分卡小结

A 申请评分卡

训练模型

从外部获取数据

观察期

FPD30

8.22时间节点 之前一年观察期

一年内数据收集

表现期

8.22-9.22

这一个月内,如果逾期就是坏人,否则是好人

训练得到一个模型

模型预测

对于申请用户,比如有个用户9.10申请,往前取一年的数据,按照训练模型时特征工程流程对这个数据进行处理,得到的向量就是模型能够使用的向量,模型就可以对着个数据进行预测,得到一个信用分,根据这个信用分可以放款/拒绝

B 行为评分卡

是在自己平台有过贷款行为且没有逾期

训练模型

8.22时间节点,

取B卡训练样本,只要在8.22之前没有逾期过的用户,都可以拿过来

8.22-10.22之间,这部分用户中,有没有预期的

特征工程,训练模型

模型预测

9.15有个用户,再次申请贷款,再取这个用户9.15之前一年的数据,按照特征工程的流程进行处理,输入到模型

得到一个信用分,放款/拒绝

C 催收评分卡

训练模型

是在自己平台有过贷款行为且在选定的时间节点前逾期

在时间节点之后,如果内催催回来,则就是好人,否则是坏人

模型预测

能否通过内催催回来

一 业务规则挖掘

1 规则挖掘简介

案例背景

  • 某互联网公司拥有多个业务板块,每个板块下都有专门的贷款产品

  • “司机贷”产品的30天逾期达到了5%

  • 希望快速开发快速上线,解决问题

    • 尽量不使用复杂的方法

    • 考虑使用现有数据挖掘出合适的业务规则

2 规则挖掘案例

案例背景

期望解决方案

加载数据

缺失值填充

特征衍生

将变量组合在一起

训练决策树模型

利用结果划分用户

二 特征构造

1 数据准备

1.1 梳理数据的内在逻辑


关系种类

一对一:一个用户有一个注册手机号

一对多:一个用户多笔借款

多对多:一个用户可以登录多个设备,一个设备可以有多个用户登录

1.2 样本设计和特征框架


定义观察期样本

  • 确定观察期(定X时间切面)和表现期(定Y的标签)

  • 确认样本数目是否合理

2 特征构造

2.1 静态信息特征和时间截面特征

用户静态信息特征

  • 用户的基本信息(半年内不会变化)

用户时间截面特征


  • 未来信息

    当前时间截面之后的数据

  • 时间截面数据在取数的时候要小心,

    避免使用未来信息

2.2 时间序列特征

用户时间序列特征

  • 从观察点往前回溯一段时间的数据

时间序列特征衍生

  • 特征聚合:将单个特征的多个时间节点取值进行聚合。特征聚合是传统评分卡建模的主要特征构造方法。

用户时间序列缺失值处理

缺失值 处理
一般计数类特征 优先考虑用0填充
有风险趋势 按风险趋势填补
缺失数值过多 考虑新增是否缺失的特征列
有业务含义 填补业务默认值

时间序列数据的未来信息

特征构建时的补救方法

  • 对未来信息窗口外的订单计算有效单的特征nmv

  • 对未来信息窗口内订单只计算一般特征GMV

  • 解决方案跟上面例子一样,分区间讨论,可以把账单分成3类

2.3 特征变换

分箱(离散化)

  • 分箱就是将连续变量离散化,合并成较少的状态

  • 等频分箱

    • 按数据的分布,均匀切分,每个箱体里的样本数基本一样

  • 等距分箱

    • 按数据的特征值的间距均匀切分,每个箱体的数值距离一样


  • 卡方分箱

    :使用卡方检验确定最优分箱阈值

案例:使用toad库进行分箱处理

  • toad 中的combiner类用来进行分箱处理,实际工作中分箱时会对每个列都进行分箱,然后需要对每个分箱结果都进行风险趋势检查调整

  • 通常使用双变量图(Bivar图 Bivariate graph)来评价分箱结果。

  • 可以通过调整箱数实现单调趋势

  • 从单调性和模型稳定性角度考虑一般使用卡方分箱

####



版权声明:本文为weixin_43737594原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。