古典密码之维吉尼亚密码破解思路

首先要说一句，这是我第一次用python coding，所以很多地方都不太懂，吐槽自己竟然用sum当变量名，之后有用sum()函数，然后报了错还不知道为什么。不知道用ascii码要做chr()转化，等等，还比如在重合指数函数和拟重合函数中可以提炼出一个共同的函数，但是我写完重合指数才发现，越改越乱所以就算了吧。但是我终于还是写完了，应该比C语言的代码少个几百行吧，我是不会说这篇文章，我从开始看原理到敲代码写了一天多。

多表代换密码体制的分析方法主要分为三步：第一步确定秘钥长度，常用的方法有卡西斯基（Kasiski）测试法和重合指数法（Index of Coincidence）;第二步就是确定秘钥，常用的方法是拟重合指数测试法；第三步是根据第二步确定的密钥恢复出明文。

Kasiski测试法：若用给定的m个密钥表周期地对明文字母加密，则当明文中有两个相同字母组在明文序列中间隔的字母数为m的倍数时，这两个明文字母组对应的密文字母组必相同。但反过来，若密文中出现两个相同的字母组，它们所对应的明文字母组未必相同，但相同的可能性很大。如果我们将密文中相同的字母组找出来，并对其相同字母数综合研究，找出它们的相同字母数的最大公因子，就有可能提取出有关密钥字的长度m的信息。

具体方法：搜索长度至少为3的相同密文段，记录这些相同密文端到起始点之间的距离（d1,d2,d3……），找出（d1,d2,d3……）的所有公因子，同样为了确保秘钥长度的准确性，我们在搜索另一至少长为3的相同密文段，重复上操作，最后找出他们共同的公因子，若公因子不唯一，则在采用下边的重合因子测试法确定密钥长度。

重合因子测试法：利用随机文本和英文文本的统计概率差别来分析秘钥长度。设一门语言由n个字母构成，每个字母发生的概率为pi，1≤i≤n，则重合指数是指其中两个随机元素相同的概率，记为：

。

实际使用CI的估计值CI’: L:密文长度；xi：密文符号i发生的数目

下面就让我们拿个例子说一下吧。

koommacomoqeglxxmqcckueyfcurylyligzsxczvbckmyopnpogdgiaztxddiaknvomxhiemrdezvxbmzrnlzayqiqxgkkkpnevhovvbkk

tcssepkgdhxyvjmrdkbcjuefmakntdrxbiemrdprrjbxfqnemxdrlbcjhpztvvixyetniiawdrgnomrzrreikioxrusxcretvzaozygyukndwpio

uoriyrhhbzxrceayvxuvrxkcmaxstxsepbrxcs1rukvbxtgzuggdwhxmxcsxbiktnslrjzhbxmspungzrgkudxnaufcmrzxjrywymi

这是一个使用维吉尼亚进行加密的密文段，从中选取一些一眼看到的重复字段，并计算相隔的距离。

import string
def findstr(str1,str2):
    a = 0
    r = []
    while a < len(str1):
        a = word.find(str2, a)
        if a == -1:
            break
        r.append(a)
        a = a + 1
    x = 0
    while x + 1 <len(r):
        print(r[x + 1] - r[x])
        x = x + 1
word = "密文段落"
findstr(word,'sxc')

通过计算，结果如下：

观察发现，大部分都有公因子7，基本可以推断密钥的长度为7.（如果公因子还有其他的，可通过重合因子测试法进一步确定密钥长度）

当然还可以通过重合指数法推断密钥长度：

#重合指数算法，str为文本，n为假设的秘钥长度，可以分别1-n密钥长度下的ic值，找到峰值ic对应的n的大小
def count_IOC(str,n):
    x = 0
    r = []
    ic_all = []
    while x < n:
        sum_all = 0
        c = str[x::n]
        len_str = len(c)
        for y in range(0,26):
            r.append(c.count(chr(97+y) ,0,len_str))
        for p in range(0,26):
            sum_all = sum_all + r[p] * (r[p] - 1)
        ic = float(sum_all)/(len_str * (len_str - 1))
        print(ic)
        ic_all.append(ic)
        x = x + 1
    return sum(ic_all)/ n
#假设猜测秘钥长度在10以下
for x in range(0,10):
    count_IOC(word, x)

结果如下，峰值为n = 7时，佐证了用kasiski测试法算出的秘钥等于7.

知道了密钥，下一步就是利用拟重合指数测试法了。

首先按照已知秘钥的长度，将密文7个一行7各一行进行分组，把每列作为一组进行分组，

#对密文进行分组（密文文本，第i组，秘钥长度）
def divstr(str, i, n):
    c = str[i::n]
    return c

拟重合指数测试法：首先子密文段重各个字母的频率进行统计（记为fi, i∈a – z），查看字母频率分布统计概率(记pi)，计算子密文段长度为n，

使用公式

计算出M0，然后对子密文段移位25次，同样按照上述方法求出M1 — M25的值，

根据重合指数的定义知：一个有意义的英文文本，M ≈0.065，所以利用这个规律，就可以确定秘钥中的每一个字母。

#所有成员自增
def member_plus(r):
    m = []
    for i in r:
        if i == 'z':
            i = chr(96)
        m.append(chr(ord(i)+1))
    return ('').join(m) 
这里有必要说一下return('').join(p)，p是一个list，而我们需要的是个字符串，如果返回list，下边就会报错，因为python中有list.count(ord)和str.count(sub,,)函数。

#拟重合指数
def count_NIOC(i, c):
    p = [0.08167, 0.01492, 0.02782, 0.04253, 0.12702, 0.02228, 0.02015, 0.06094, 0.06966, 0.00153, 0.00772, 0.04025,
         0.02406, 0.06749, 0.07507, 0.01929, 0.00095, 0.05987, 0.06327, 0.09056, 0.02758, 0.00978, 0.02360, 0.00150,
         0.01974, 0.00074]
    len_str = len(c)
    r = []
    sum_m = 0
    for y in range(0, 26):
        r.append(c.count(chr(97 + y), 0, len_str))#统计字串中a-z的数量
    for x in range(0, 26):
        f = (r[x] * p[x]) / len_str 
        sum_m = sum_m + f
    print(i,sum_m)

#改变第二个参数：第几组子密文段，第三个参数：秘钥长度，分别计算秘钥中的各个字母
str0 = divstr(word,2,7)
for x in range(0,26):
    count_NIOC(x, str0)
    str0 = member_plus(str0)#每计算一次Mx，子密文段自加

以代码中的第3组为例对上文例题计算结果如下图：

可以看到x = 16时，M最接近0.065，所以x = 16 对应的字母

q

就是第三组密文的秘钥。

终于写完了，激动地快要哭了。很多地方纠结了很久，这个例题是网上下载的ppt里边的，也没有具体的答案，只能讲个大概的过程，书上对维吉尼亚的破解讲的也十分模糊，我只能尽力理解到这里了。

原文地址：

点击打开链接

原文链接：https://blog.csdn.net/sarahduo/article/details/51236000

你可能也喜欢