该篇文章介绍破解维吉尼亚多表替换时使用的巧合指数。
个人认为巧合指数是:
在一段密文中随机无放回地抽取其中两个字母,这两个字母对应的明文相同的概率。
基础介绍:
-
若是从随机无意义的文本中选取两个字母,其相同的概率是 IC=26*(1/26)
2
≈0.038 -
若是从一篇有意义的英语文章中随机选取两个字母,其相同的概率是 IC=∑p(i)
2
≈0.065,(0.067/0.068都是可以的),其中i是从A到Z- 英语文章字母出现的概率不是随机的,比如字母e出现的概率最大
故当巧合指数计算结果接近0.065时表明该密钥划分是合理的。
巧合指数计算公式
I
C
=
∑
i
=
A
i
=
Z
f
i
∗
(
f
i
−
1
)
N
∗
(
N
−
1
)
IC=\frac{\sum_{i=A}^{i=Z}f_{i}*(f_{i}−1)}{N*(N−1)}
I
C
=
N
∗
(
N
−
1
)
∑
i
=
A
i
=
Z
f
i
∗
(
f
i
−
1
)
其中f
i
表示字母i出现的次数,N为文本长度(根据挑出来的文本长度决定,并不是全部文本的字母数)
举个例子(这些是随便敲的字母,仅演示计算过程)
- 假设密文是QMSHS BXYWN EJUXN ZBAJD OQDBX KCNZB SMDIW QNSBX KUWHX QBSHX
-
假设密钥长度为5,则依次挑选出Q B E Z O K S Q K Q(这一组字母所在位置mod 5 余0),计算字母出现的次数,N为10,带入上述公式,可以计算出一个IC值;继续挑选M X J B Q C M N U B(这一组字母所在位置mod 5 余1),重复计算;
以此类推
,我们总共可以计算得到
五个IC值
,可以判断是否与0.065相近(求平均或者直接一个个看) - 若IC≈0.065则说明密钥长度正确,可以继续单个破解,下不赘述。
关于为什么密钥长度猜测正确时计算的IC值约等于0.065:
-
假设挑出的列数为第一列,我认为:在间隔长度正确时,挑选出的文本
依然基本保留原文本的统计特征
,比如原文本1000个字母中e出现70次,那么在挑出来的100个字母中e差不多会出现7次(是概率问题,表述不严谨理解就好到),统计特征基本没有被改变(样本容量变小了有一定误差),那么IC值也在一定范围有误差。 - 如果间隔长度不正确,相当于是两个或多个单表替换的揉和,统计字母时可能会出现一个字母被计算多次或者没有计算的现象,误差更大更随机。