day07问题小结
掌握风控报表中指标计算方法
知道ABC评分卡是什么,有什么区别
掌握评分卡模型正负样本定义方法
5 风控建模概述【续day07】
5.2 风控建模流程
2.1 评分卡简介
风控模型其中包含了A/B/C卡。模型可以采用相同算法,一般以逾期天数来区分正负样本,也就是目标值Y的取值(0或1)
-
贷前 申请评分卡 Application score card
-
贷中 行为评分卡 Behavior score card
-
贷后 催收评分卡 Collection score card
2.2 机器学习模型的完整工程流程
准备
-
明确需求
-
模型设计
-
样本设计
特征工程
模型
上线运营
2.3 项目准备期
1 明确需求
2 模型设计
-
业务抽象成分类/回归问题
3 Y标签定义
-
15天为正负样本的标记阈值,Y = 1的客户均是逾期超过15天的客户
-
将逾期<5天和没有逾期的人作为正样本
-
逾期5~15天的数据(灰样本)会从样本中去掉
-
“灰样本”通常放入测试集中,用于确保模型在训练结束后,对该部分样本也有区分能力。
4 样本选取
-
观察期和表现期
-
观察期是指用户申请信贷产品前的时间段
-
表现期是定义好坏标签的时间窗口,如果在该时间窗口内触发坏定义就是坏样本,反之就是好样本。
-
举例: 要建立A卡模型, 观察期12个月,表现期3个月
-
用户贷款前12个月的历史行为表现作为变量,用于后续建模
-
如设定用户在到期3个月内未还款,即认为用户为负样本,则称表现期为3个月
-
训练数据测试数据划分
-
数据集在建模前需要划分为3个子集:
-
开发样本 train
-
验证样本 test
-
时间外样本
-
-
5 样本设计
选取客群:新客,未逾期老客,逾期老客
2.4 特征工程
数据调研
特征构建
特征评估
2.5 模型构建
模型评估
-
好的模型需要满足的条件: 稳定,在后续较长时间可以持续使用 PSI (Population Stability Index) 区分度好,好坏用户的信用分差别大 AUC, KS, GINI
-
报表一:区分度,抓坏人能力在不同分段的表现
-
报表二:跨时间稳定性
2.6 上线运营
模型交付→模型部署→模型监控
交付流程:
-
1 提交特征和模型报表 2 离线结果质量复核 (无缺失,无重复,存储位置正确,文件名规范) 3 保存模型文件,确定版本号,提交时间 4 老大审批,通知业务方 5 线上部署,案例调研, 持续监控
-
模型监控
-
特征监控:特征稳定性
-
模型监控:模型稳定性
-
ABC评分卡小结
A 申请评分卡
训练模型
从外部获取数据
观察期
FPD30
8.22时间节点 之前一年观察期
一年内数据收集
表现期
8.22-9.22
这一个月内,如果逾期就是坏人,否则是好人
训练得到一个模型
模型预测
对于申请用户,比如有个用户9.10申请,往前取一年的数据,按照训练模型时特征工程流程对这个数据进行处理,得到的向量就是模型能够使用的向量,模型就可以对着个数据进行预测,得到一个信用分,根据这个信用分可以放款/拒绝
B 行为评分卡
是在自己平台有过贷款行为且没有逾期
训练模型
8.22时间节点,
取B卡训练样本,只要在8.22之前没有逾期过的用户,都可以拿过来
8.22-10.22之间,这部分用户中,有没有预期的
特征工程,训练模型
模型预测
9.15有个用户,再次申请贷款,再取这个用户9.15之前一年的数据,按照特征工程的流程进行处理,输入到模型
得到一个信用分,放款/拒绝
C 催收评分卡
训练模型
是在自己平台有过贷款行为且在选定的时间节点前逾期
在时间节点之后,如果内催催回来,则就是好人,否则是坏人
模型预测
能否通过内催催回来
一 业务规则挖掘
1 规则挖掘简介
案例背景
-
某互联网公司拥有多个业务板块,每个板块下都有专门的贷款产品
-
“司机贷”产品的30天逾期达到了5%
-
希望快速开发快速上线,解决问题
-
尽量不使用复杂的方法
-
考虑使用现有数据挖掘出合适的业务规则
-
2 规则挖掘案例
案例背景
期望解决方案
加载数据
缺失值填充
特征衍生
将变量组合在一起
训练决策树模型
利用结果划分用户
二 特征构造
1 数据准备
1.1 梳理数据的内在逻辑
关系种类
一对一:一个用户有一个注册手机号
一对多:一个用户多笔借款
多对多:一个用户可以登录多个设备,一个设备可以有多个用户登录
1.2 样本设计和特征框架
定义观察期样本
-
确定观察期(定X时间切面)和表现期(定Y的标签)
-
确认样本数目是否合理
2 特征构造
2.1 静态信息特征和时间截面特征
用户静态信息特征
-
用户的基本信息(半年内不会变化)
用户时间截面特征
-
未来信息
当前时间截面之后的数据 -
时间截面数据在取数的时候要小心,
避免使用未来信息
2.2 时间序列特征
用户时间序列特征
-
从观察点往前回溯一段时间的数据
时间序列特征衍生
-
特征聚合:将单个特征的多个时间节点取值进行聚合。特征聚合是传统评分卡建模的主要特征构造方法。
用户时间序列缺失值处理
缺失值 | 处理 |
---|---|
一般计数类特征 | 优先考虑用0填充 |
有风险趋势 | 按风险趋势填补 |
缺失数值过多 | 考虑新增是否缺失的特征列 |
有业务含义 | 填补业务默认值 |
时间序列数据的未来信息
特征构建时的补救方法
-
对未来信息窗口外的订单计算有效单的特征nmv
-
对未来信息窗口内订单只计算一般特征GMV
-
解决方案跟上面例子一样,分区间讨论,可以把账单分成3类
2.3 特征变换
分箱(离散化)
-
分箱就是将连续变量离散化,合并成较少的状态
-
等频分箱
-
按数据的分布,均匀切分,每个箱体里的样本数基本一样
-
-
等距分箱
-
按数据的特征值的间距均匀切分,每个箱体的数值距离一样
-
-
卡方分箱
:使用卡方检验确定最优分箱阈值
案例:使用toad库进行分箱处理
-
toad 中的combiner类用来进行分箱处理,实际工作中分箱时会对每个列都进行分箱,然后需要对每个分箱结果都进行风险趋势检查调整
-
通常使用双变量图(Bivar图 Bivariate graph)来评价分箱结果。
-
可以通过调整箱数实现单调趋势
-
从单调性和模型稳定性角度考虑一般使用卡方分箱
####