一、为什么写这篇文章
在面试中,我常问的一个问题是IV和PSI分别怎样计算以及他们之间有什么联系。问题的前半部分不少候选人能够熟练的答出来来,但是后半部分就鲜有人能给出另人满意的答案了。
网络上有不少这两个指标的介绍,有些文章同时介绍了这两个指标却只口未提两个指标是如此相似。因此,想写一篇文章介绍一些类似指标的区别和联系。
提前透漏一点,这些指标指标有一个共同点,那就是它们都是
对两个概率分布的差异性的衡量
,具体的内容会在后文中详细介绍。
二、涉及的四个指标
IV 值(Information Value)常用来评估变量的预测能力;
PSI(Population Stability Index )常作为变量时间稳定性的指标;
相对熵又称做KL散度(Kullback-Leibler divergence),是两个概率分布间差异的非对称性度量;
交叉熵(Cross Entropy)也是度量两个概率分布间的差异性信息,常用在自然语言处理中。
【以上四个指标我们在下文中分别简称做:IV、PSI、KL、CE。】
三、指标计算方式
上面四个指标的计算方式,网络上有详细的介绍,本文不再进行重复,而采取一种统一而简介的公式,不一定严谨但有助于发现这些指标的区别和联系。
1.IV:
其中p(xi)和q(xi)分别表示:变量值为xi的响应客户占所有响应客户的比例、变量值为xi的未响应客户占所有未响应客户的比例。
2.PSI
其中p(xi)和q(xi)分别表示:变量取值为xi的模型实施群体占所有模型实施群体的比例、变量取值为xi的模型发展群体占所有模型发展群体的比例
3.KL
其中p(xi)和q(xi)分别表示:边际概率分布p中x=xi的概率,边际概率分布q中x=xi的概率
4.CE
其中p(xi)和q(xi)分别表示:边际概率分布p中x=xi的概率,边际概率分布q中x=xi的概率
四、指标比较
1.可以看到IV和PSI的计算方式完全相同,他们计算的都是两个边际分布的分布差异。IV值计算的是好客户和坏客户的分布差异,差异越大说明该变量的预测能力越强;而PSI计算的是远期客户和近期客户的分布差异,理论上两个分布应该很接近,但因为外部环境的变化等种种原因,变量的分布有时会随时间而发生偏移,在建模中有时会剔除PSI较高的变量来使模型的预测能力不会随时间推移而出现快速下降。
2.比较IV和KL可以发现,其实IV=KL(p,q)+KL(q,p)。其中KL是个不对称的分布差异度量,即比较两个分布的差异时,以p为基准和以q为基准的结果是不同的,而IV值是将两个基准的结果和,因此IV是一个对称的衡量指标。
3.比较CE和KL的差别可以推导出,CE = KL(p, q) – H(p),即CE是KL散度减去一个信息熵。
五、总结
通过比较指标计算方法的异同,可以看出这几个指标还是有非常紧密的联系的,它们都可以用来度量两个分布的差异,同时也有各自的特色,因为这些特色,不同的指标可能因为计算的便利、度量的对称性等而在某个场景下有特定的优势。