关于coincidence巧合指数/重合指数

  • Post author:
  • Post category:其他


该篇文章介绍破解维吉尼亚多表替换时使用的巧合指数。

个人认为巧合指数是:

在一段密文中随机无放回地抽取其中两个字母,这两个字母对应的明文相同的概率。



基础介绍:

  • 若是从随机无意义的文本中选取两个字母,其相同的概率是 IC=26*(1/26)

    2

    ≈0.038
  • 若是从一篇有意义的英语文章中随机选取两个字母,其相同的概率是 IC=∑p(i)

    2

    ≈0.065,(0.067/0.068都是可以的),其中i是从A到Z

    • 英语文章字母出现的概率不是随机的,比如字母e出现的概率最大


故当巧合指数计算结果接近0.065时表明该密钥划分是合理的。




巧合指数计算公式





I

C

=

i

=

A

i

=

Z

f

i

(

f

i

1

)

N

(

N

1

)

IC=\frac{\sum_{i=A}^{i=Z}f_{i}*(f_{i}−1)}{N*(N−1)}






I


C




=



















N









(


N





1


)



























i


=


A










i


=


Z






















f











i


























(



f











i






















1


)

























其中f

i

表示字母i出现的次数,N为文本长度(根据挑出来的文本长度决定,并不是全部文本的字母数)


举个例子(这些是随便敲的字母,仅演示计算过程)

  • 假设密文是QMSHS BXYWN EJUXN ZBAJD OQDBX KCNZB SMDIW QNSBX KUWHX QBSHX
  • 假设密钥长度为5,则依次挑选出Q B E Z O K S Q K Q(这一组字母所在位置mod 5 余0),计算字母出现的次数,N为10,带入上述公式,可以计算出一个IC值;继续挑选M X J B Q C M N U B(这一组字母所在位置mod 5 余1),重复计算;

    以此类推

    ,我们总共可以计算得到

    五个IC值

    ,可以判断是否与0.065相近(求平均或者直接一个个看)
  • 若IC≈0.065则说明密钥长度正确,可以继续单个破解,下不赘述。

关于为什么密钥长度猜测正确时计算的IC值约等于0.065:

  • 假设挑出的列数为第一列,我认为:在间隔长度正确时,挑选出的文本

    依然基本保留原文本的统计特征

    ,比如原文本1000个字母中e出现70次,那么在挑出来的100个字母中e差不多会出现7次(是概率问题,表述不严谨理解就好到),统计特征基本没有被改变(样本容量变小了有一定误差),那么IC值也在一定范围有误差。
  • 如果间隔长度不正确,相当于是两个或多个单表替换的揉和,统计字母时可能会出现一个字母被计算多次或者没有计算的现象,误差更大更随机。



版权声明:本文为yuuichii原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。