金融分析项目分析 !!!

day07问题小结

掌握风控报表中指标计算方法

知道ABC评分卡是什么，有什么区别

掌握评分卡模型正负样本定义方法

5 风控建模概述【续day07】

5.2 风控建模流程

2.1 评分卡简介

风控模型其中包含了A/B/C卡。模型可以采用相同算法，一般以逾期天数来区分正负样本，也就是目标值Y的取值（0或1）

贷前申请评分卡 Application score card
贷中行为评分卡 Behavior score card
贷后催收评分卡 Collection score card

2.2 机器学习模型的完整工程流程

准备

明确需求
模型设计
样本设计

特征工程

模型

上线运营

2.3 项目准备期

1 明确需求

2 模型设计

业务抽象成分类/回归问题

3 Y标签定义

15天为正负样本的标记阈值，Y = 1的客户均是逾期超过15天的客户
将逾期<5天和没有逾期的人作为正样本
逾期5～15天的数据（灰样本）会从样本中去掉
“灰样本”通常放入测试集中，用于确保模型在训练结束后，对该部分样本也有区分能力。

4 样本选取

观察期和表现期
- 观察期是指用户申请信贷产品前的时间段
- 表现期是定义好坏标签的时间窗口，如果在该时间窗口内触发坏定义就是坏样本，反之就是好样本。
- 举例: 要建立A卡模型, 观察期12个月,表现期3个月
  - 用户贷款前12个月的历史行为表现作为变量，用于后续建模
  - 如设定用户在到期3个月内未还款，即认为用户为负样本，则称表现期为3个月
训练数据测试数据划分
- 数据集在建模前需要划分为3个子集：
  - 开发样本 train
  - 验证样本 test
  - 时间外样本

5 样本设计

选取客群：新客，未逾期老客，逾期老客

2.4 特征工程

数据调研

特征构建

特征评估

2.5 模型构建

模型评估

好的模型需要满足的条件：稳定，在后续较长时间可以持续使用 PSI (Population Stability Index) 区分度好，好坏用户的信用分差别大 AUC, KS, GINI
报表一：区分度，抓坏人能力在不同分段的表现
报表二：跨时间稳定性

2.6 上线运营

模型交付→模型部署→模型监控

交付流程：

1 提交特征和模型报表 2 离线结果质量复核 (无缺失，无重复，存储位置正确，文件名规范) 3 保存模型文件，确定版本号，提交时间 4 老大审批，通知业务方 5 线上部署，案例调研，持续监控
模型监控
- 特征监控：特征稳定性
- 模型监控：模型稳定性

ABC评分卡小结

A 申请评分卡

训练模型

从外部获取数据

观察期

FPD30

8.22时间节点之前一年观察期

一年内数据收集

表现期

8.22-9.22

这一个月内，如果逾期就是坏人，否则是好人

训练得到一个模型

模型预测

对于申请用户，比如有个用户9.10申请，往前取一年的数据，按照训练模型时特征工程流程对这个数据进行处理，得到的向量就是模型能够使用的向量，模型就可以对着个数据进行预测，得到一个信用分，根据这个信用分可以放款/拒绝

B 行为评分卡

是在自己平台有过贷款行为且没有逾期

训练模型

8.22时间节点，

取B卡训练样本，只要在8.22之前没有逾期过的用户，都可以拿过来

8.22-10.22之间，这部分用户中，有没有预期的

特征工程，训练模型

模型预测

9.15有个用户，再次申请贷款，再取这个用户9.15之前一年的数据，按照特征工程的流程进行处理，输入到模型

得到一个信用分，放款/拒绝

C 催收评分卡

训练模型

是在自己平台有过贷款行为且在选定的时间节点前逾期

在时间节点之后，如果内催催回来，则就是好人，否则是坏人

模型预测

能否通过内催催回来

一业务规则挖掘

1 规则挖掘简介

案例背景

某互联网公司拥有多个业务板块，每个板块下都有专门的贷款产品
“司机贷”产品的30天逾期达到了5%
希望快速开发快速上线，解决问题
- 尽量不使用复杂的方法
- 考虑使用现有数据挖掘出合适的业务规则

2 规则挖掘案例

案例背景

期望解决方案

加载数据

缺失值填充

特征衍生

将变量组合在一起

训练决策树模型

利用结果划分用户

二特征构造

1 数据准备

1.1 梳理数据的内在逻辑

关系种类

一对一：一个用户有一个注册手机号

一对多：一个用户多笔借款

多对多：一个用户可以登录多个设备，一个设备可以有多个用户登录

1.2 样本设计和特征框架

定义观察期样本

确定观察期（定X时间切面）和表现期（定Y的标签）
确认样本数目是否合理

2 特征构造

2.1 静态信息特征和时间截面特征

用户静态信息特征

用户的基本信息（半年内不会变化）

用户时间截面特征

未来信息

当前时间截面之后的数据
时间截面数据在取数的时候要小心，

避免使用未来信息

2.2 时间序列特征

用户时间序列特征

从观察点往前回溯一段时间的数据

时间序列特征衍生

特征聚合：将单个特征的多个时间节点取值进行聚合。特征聚合是传统评分卡建模的主要特征构造方法。

用户时间序列缺失值处理

缺失值	处理
一般计数类特征	优先考虑用0填充
有风险趋势	按风险趋势填补
缺失数值过多	考虑新增是否缺失的特征列
有业务含义	填补业务默认值

时间序列数据的未来信息

特征构建时的补救方法

对未来信息窗口外的订单计算有效单的特征nmv
对未来信息窗口内订单只计算一般特征GMV
解决方案跟上面例子一样，分区间讨论，可以把账单分成3类

2.3 特征变换

分箱（离散化）

分箱就是将连续变量离散化，合并成较少的状态
等频分箱
- 按数据的分布，均匀切分，每个箱体里的样本数基本一样
等距分箱
- 按数据的特征值的间距均匀切分，每个箱体的数值距离一样
卡方分箱

：使用卡方检验确定最优分箱阈值

案例：使用toad库进行分箱处理

toad 中的combiner类用来进行分箱处理，实际工作中分箱时会对每个列都进行分箱，然后需要对每个分箱结果都进行风险趋势检查调整
通常使用双变量图（Bivar图 Bivariate graph）来评价分箱结果。
可以通过调整箱数实现单调趋势
从单调性和模型稳定性角度考虑一般使用卡方分箱

####

原文链接：https://blog.csdn.net/weixin_43737594/article/details/120471032

day07问题小结

5 风控建模概述【续day07】

5.2 风控建模流程

ABC评分卡小结

A 申请评分卡

B 行为评分卡

C 催收评分卡

一 业务规则挖掘

1 规则挖掘简介

2 规则挖掘案例

二 特征构造

1 数据准备

2 特征构造

你可能也喜欢

一业务规则挖掘

二特征构造