IV、PSI、相对熵、交叉熵——【概率分布的差异度量指标介绍】

  • Post author:
  • Post category:其他



一、为什么写这篇文章

在面试中,我常问的一个问题是IV和PSI分别怎样计算以及他们之间有什么联系。问题的前半部分不少候选人能够熟练的答出来来,但是后半部分就鲜有人能给出另人满意的答案了。

网络上有不少这两个指标的介绍,有些文章同时介绍了这两个指标却只口未提两个指标是如此相似。因此,想写一篇文章介绍一些类似指标的区别和联系。

提前透漏一点,这些指标指标有一个共同点,那就是它们都是

对两个概率分布的差异性的衡量

,具体的内容会在后文中详细介绍。


二、涉及的四个指标

IV 值(Information Value)常用来评估变量的预测能力;

PSI(Population Stability Index )常作为变量时间稳定性的指标;

相对熵又称做KL散度(Kullback-Leibler divergence),是两个概率分布间差异的非对称性度量;

交叉熵(Cross Entropy)也是度量两个概率分布间的差异性信息,常用在自然语言处理中。

【以上四个指标我们在下文中分别简称做:IV、PSI、KL、CE。】


三、指标计算方式

上面四个指标的计算方式,网络上有详细的介绍,本文不再进行重复,而采取一种统一而简介的公式,不一定严谨但有助于发现这些指标的区别和联系。

1.IV:

IV = \sum_{i=1}^k (p(x_{i})-q(x_{i}))\cdot ln\frac{p(x_{i})}{q(x_{i})}


其中p(xi)和q(xi)分别表示:变量值为xi的响应客户占所有响应客户的比例、变量值为xi的未响应客户占所有未响应客户的比例。

2.PSI

IV = \sum_{i=1}^k (p(x_{i})-q(x_{i}))\cdot ln\frac{p(x_{i})}{q(x_{i})}


其中p(xi)和q(xi)分别表示:变量取值为xi的模型实施群体占所有模型实施群体的比例、变量取值为xi的模型发展群体占所有模型发展群体的比例

3.KL

KL(p,q) = \sum_{i=1}^k p(x_{i})\cdot ln\frac{p(x_{i})}{q(x_{i})}


其中p(xi)和q(xi)分别表示:边际概率分布p中x=xi的概率,边际概率分布q中x=xi的概率

4.CE

CE = \sum_{i=1}^k p(x_{i})\cdot ln\frac{1}{q(x_{i})}


其中p(xi)和q(xi)分别表示:边际概率分布p中x=xi的概率,边际概率分布q中x=xi的概率


四、指标比较

1.可以看到IV和PSI的计算方式完全相同,他们计算的都是两个边际分布的分布差异。IV值计算的是好客户和坏客户的分布差异,差异越大说明该变量的预测能力越强;而PSI计算的是远期客户和近期客户的分布差异,理论上两个分布应该很接近,但因为外部环境的变化等种种原因,变量的分布有时会随时间而发生偏移,在建模中有时会剔除PSI较高的变量来使模型的预测能力不会随时间推移而出现快速下降。

2.比较IV和KL可以发现,其实IV=KL(p,q)+KL(q,p)。其中KL是个不对称的分布差异度量,即比较两个分布的差异时,以p为基准和以q为基准的结果是不同的,而IV值是将两个基准的结果和,因此IV是一个对称的衡量指标。

3.比较CE和KL的差别可以推导出,CE = KL(p, q) – H(p),即CE是KL散度减去一个信息熵。


五、总结

通过比较指标计算方法的异同,可以看出这几个指标还是有非常紧密的联系的,它们都可以用来度量两个分布的差异,同时也有各自的特色,因为这些特色,不同的指标可能因为计算的便利、度量的对称性等而在某个场景下有特定的优势。



版权声明:本文为u012837965原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。