IV、PSI、相对熵、交叉熵——【概率分布的差异度量指标介绍】

Post author:xfxia
Post published:2023年9月12日
Post category:其他

一、为什么写这篇文章

在面试中，我常问的一个问题是IV和PSI分别怎样计算以及他们之间有什么联系。问题的前半部分不少候选人能够熟练的答出来来，但是后半部分就鲜有人能给出另人满意的答案了。

网络上有不少这两个指标的介绍，有些文章同时介绍了这两个指标却只口未提两个指标是如此相似。因此，想写一篇文章介绍一些类似指标的区别和联系。

提前透漏一点，这些指标指标有一个共同点，那就是它们都是

对两个概率分布的差异性的衡量

，具体的内容会在后文中详细介绍。

二、涉及的四个指标

IV 值（Information Value）常用来评估变量的预测能力；

PSI（Population Stability Index ）常作为变量时间稳定性的指标；

相对熵又称做KL散度（Kullback-Leibler divergence），是两个概率分布间差异的非对称性度量；

交叉熵（Cross Entropy）也是度量两个概率分布间的差异性信息，常用在自然语言处理中。

【以上四个指标我们在下文中分别简称做：IV、PSI、KL、CE。】

三、指标计算方式

上面四个指标的计算方式，网络上有详细的介绍，本文不再进行重复，而采取一种统一而简介的公式，不一定严谨但有助于发现这些指标的区别和联系。

1.IV：

$IV = \sum_{i=1}^k (p(x_{i})-q(x_{i}))\cdot ln\frac{p(x_{i})}{q(x_{i})}$

其中p(xi)和q(xi)分别表示：变量值为xi的响应客户占所有响应客户的比例、变量值为xi的未响应客户占所有未响应客户的比例。

2.PSI

$IV = \sum_{i=1}^k (p(x_{i})-q(x_{i}))\cdot ln\frac{p(x_{i})}{q(x_{i})}$

其中p(xi)和q(xi)分别表示：变量取值为xi的模型实施群体占所有模型实施群体的比例、变量取值为xi的模型发展群体占所有模型发展群体的比例

3.KL

$KL(p,q) = \sum_{i=1}^k p(x_{i})\cdot ln\frac{p(x_{i})}{q(x_{i})}$

其中p(xi)和q(xi)分别表示：边际概率分布p中x=xi的概率，边际概率分布q中x=xi的概率

4.CE

$CE = \sum_{i=1}^k p(x_{i})\cdot ln\frac{1}{q(x_{i})}$

其中p(xi)和q(xi)分别表示：边际概率分布p中x=xi的概率，边际概率分布q中x=xi的概率

四、指标比较

1.可以看到IV和PSI的计算方式完全相同，他们计算的都是两个边际分布的分布差异。IV值计算的是好客户和坏客户的分布差异，差异越大说明该变量的预测能力越强；而PSI计算的是远期客户和近期客户的分布差异，理论上两个分布应该很接近，但因为外部环境的变化等种种原因，变量的分布有时会随时间而发生偏移，在建模中有时会剔除PSI较高的变量来使模型的预测能力不会随时间推移而出现快速下降。

2.比较IV和KL可以发现，其实IV=KL(p,q)+KL(q,p)。其中KL是个不对称的分布差异度量，即比较两个分布的差异时，以p为基准和以q为基准的结果是不同的，而IV值是将两个基准的结果和，因此IV是一个对称的衡量指标。

3.比较CE和KL的差别可以推导出，CE = KL(p, q) – H(p)，即CE是KL散度减去一个信息熵。

五、总结

通过比较指标计算方法的异同，可以看出这几个指标还是有非常紧密的联系的，它们都可以用来度量两个分布的差异，同时也有各自的特色，因为这些特色，不同的指标可能因为计算的便利、度量的对称性等而在某个场景下有特定的优势。

原文链接：https://blog.csdn.net/u012837965/article/details/94720028

你可能也喜欢