用遗传算法解决中国邮递员问题

  • Post author:
  • Post category:其他


中国邮递员问题

所谓中国邮递员问题,见下面无向图 ,假设邮递员初始位置在A点,现在他要访问所有其他4个结点以便投递邮件,结点与结点之间的距离已经标注在边上。问:邮递员应该依次访问哪些结点才能以最短路径遍历所有结点,并且最后还能回到初始位置。

图1 无向图和中国邮递员问题的一个示例

邮递员的起点和终点都是A

合法路径

比如,假设邮递员依次访问ACDEBA,则总路径长度是8+7+7+12+10=44。这里要求路径中每相邻的两个结点之间存在一条边,且起点和终点都是邮递员的起始结点,路径覆盖了邮递员所有能到达的结点。ACEDBA就不是一条合法的路径,因为C和E之间没有边。

ACDEBA是一条合法的路径,这样的合法路径有很多很多,每条路径的长度不一样,甚至有些路径中部分结点会被重复访问。中国邮递员问题就是要在所有这样的路径中找到最短的一条。事实证明,中国邮递员问题是一个NP问题,也就是说,它是不能在多项式时间内完成的,是一个“难”题。与该问题极为相似的一个问题是求A到E的最短路径问题,这个问题利用宽度优先搜索或者A*算法就可以在多项式时间内完成。看懂本文首先要求深刻理解宽度优先搜索,以及如何利用该算法解决最短路径问题。

遗传算法

所谓遗传算法,就是利用生物进化中物竞天择、适者生存的原理,让不同的生物体相互竞争,只保留“最好”的若干生物体,其他的予以淘汰。保留下来的生物体相互结合,生下下一代生物体。下一代生物体继续竞争、淘汰,再生下更新的生物体。如此循环,最终留下来的就是最棒的生物体。

使用遗传算法要解决以下问题:

  1. 定义什么是生物体。生物体是进化的主体,是应对复杂生存环境中各种危机和挑战的对象。生物体具有繁殖的功能,能够把自己的DNA遗传给下一代。生存环境通过自然选择淘汰不适应的生物体,留下适应环境的生物体,并把它们的DNA保留下来。在遗传算法中,所谓的生物体实际是要求解的问题的一个可行解。
  2. 为生物体定义遗传物质——DNA。生物体并不能直接遗传,遗传的是生物体的DNA。在遗传算法中,DNA被理解为是一个方便与其他DNA结合以产生新的DNA的,并且方便发生基因变异的数学向量
    a = \left \{ a_1, a_2, ......, a_n \right \}
    。这个向量中的每一个元素
    a_i
    称为遗传因子(以下简称为因子)。每个遗传因子可以是连续数值,也可以是不连续的离散值。DNA向量(以下简称为DNA或者向量)与生物体之间一一对应,一个DNA对应一个生物体,反之亦然。不同生物体的DNA必然不同,不同DNA所对应的生物体也必然不同,这个性质称为DNA与生物体的等价性(简称为

    等价性

    )。不是任意一个向量都可以作为DNA的,一个向量必须具备等价性、可繁殖性和可变异性才能成为DNA。下面说明可繁殖性和可变异性。
  3. 两个DNA之间能够通过交换遗传因子产生下一代DNA。这种交换通常发生在DNA相同位置处的遗传因子之间,比如向量a的第3个因子只与向量b的第3个因子交换。两个父代DNA可以生成多个子代DNA,并且通常会随机选择50%的因子进行交换。这称为繁殖,DNA的这个性质称为

    可繁殖性

    。比如a={1.1, 0.3, 0.6, 1.7}与向量b={2.0, -1.0, 5.2, -3.7}相结合繁殖了新向量c={1.1, -1.0, 5.2, 1.7}。之所以随机选择因子,因为生物进化就是随机的,随机性是遗传算法与其他算法的最大不同之一。之所以交换50%的因子,是因为这样能最大限度地保证生物基因的多样性。遗传算法的本质就是像生物进化一样一方面尽量保留父代的优秀基因,一方面产生尽可能多的变化以适应复杂的生存环境。事实上,生物之间不仅存在有性繁殖,还存在无性繁殖。而本文所介绍的遗传算法显然采取的是有性生殖方式,即两个父代才能产生子代。这是因为无性繁殖只能通过基因变异产生基因多样性,而有性繁殖通过两个父代交换遗传因子大大增加了基因多样性。
  4. 除了繁殖之外,生物进化的另一个主要动力是变异。事实上,在两性繁殖出现之前,变异是生物进化的唯一途径。在遗传算法中,每繁殖一个新的子代DNA,都会随机选择一定比例(比如5%)的遗传因子产生变异。所谓变异就是把一个遗传因子用另一个遗传因子替换。DNA的这个性质称为可

    变异性

    。变异并不总是产生优秀的生物个体,但是,一旦产生,则其DNA所对应的生物体就会在生存竞争中战胜其他DNA,使得DNA得以流传。

中国邮递员问题如何转换为遗传算法问题

那么,在中国邮递员问题中,我们如何解决上节提到的4个问题呢?

生物体

使用遗传算法时,应该把所对应问题的一个可行解定义为一个生物体。中国邮递员问题的任意一个可行解可以看成是

n个数的一个排列

,其中n是无向图中所有要访问的结点的总数减1。例如,图1中n=4。之所以要减1,是因为起点和终点都是已知的(图1中就是结点A)。比如图1中的一个可行解BDCE,这意味这邮递员从A出发,先沿着最短路径(这里假设读者已经很熟悉最短路径的含义以及如何求解最短路径)到达B,再到达D,再到达C,再达到E,最后回到起点A。也就是说,可行解BDCE等价于合法路径ABDCDEA。

注意:第一,可行解中并不要求相邻的两个结点之间必须有无向边;第二,可行解对应的合法路径中可能存在重复访问的结点。

DNA

如何表示中国邮递员问题中每个可行解的遗传物质?这个问题等价于

n个数的任意一个排列如何用一个DNA向量表示

。n个数的任意一个排列其实也是一个向量,为什么不直接把它作为DNA呢?这是因为DNA向量必须满足DNA的等价性、可繁殖性和可变异性。显然,n个数的一个排列并不具备可繁殖性。比如排列BDCE和ECBD就不能繁殖下一代,因为它们繁殖出的都是非可行解,比如BDBD,不能覆盖图上的所有结点。

我们的方法是,把n个数的任意一个排列理解为从n个编号为1、2、…、n的小球里不放回地取出n个小球的过程。比如排列BDCE,第一步,在B、C、D、E四个字符中,先取字符B,记下它的索引0;第二步,在剩下的C、D、E三个字符中取字符D,记下它的当前索引1;第三步,在剩下的C、E两个字符中取字符C,记下它的当前索引0;最后一步,取剩下的唯一字符,记下它的当前索引0。把所有这些索引按顺序连起来得到编码:{0,1,0,0},简记为0100,这个向量就是可行解BDCE的DNA!

为什么这样的一个索引向量可以成为DNA?因为首先,它满足等价性。因为上述计算索引向量的过程中,每一步都是可逆的,所以,索引向量和排列直接的一一对应是显然的。

其次,它满足可繁殖性。因为任意两个索引向量,比如0100和3010,是可以任意交换两个相同位置处的遗传因子的。比如3110就是一个合法的DNA。

最后,它满足可变异性。从左至右,索引向量的每一位的取值区间分别是[0, n)、[0, n-1)、……、[0, 2)、[0, 1),即左数第1位的索引可以取值0、1、2、…、n-1;第2位可以取值0、1、2、…、n-2;……依此类推。所以,发生变异时,只需按照取值区间,把选中的遗传因子替换为一个新的因子即可。比如0100,可以变异为1100、2100、3100、2100、2200、0110……。

筛选

生物在进化过程中将接受自然界的筛选。中国邮递员问题的可行解的筛选方案并不复杂,只需把每个可行解按照对应的合法路径的长度排序,然后按照事先指定的数量或者比例,删除长度最长的n个可行解即可。例如图1中可行解BDCE的合法路径ABDCDEA的长度是10+5+7+7+13=42。

算法

根据上述讨论,我们给出中国邮递员问题的遗传算法如下:

算法:中国邮递员问题遗传算法

输入参数:无向图G,种群数量m(m>=2),繁殖后的种群数量n(n>m),邮递员起始结点为a,进行g代循环
算法步骤:
1. 给G中除a之外的每个结点一个唯一索引i,i=0、1、2、......、|G|-2;
2. M=取|G|-1个数的随机排列m个;
3. 循环g次,每次执行:
    1) N=空集合;
    2) 循环n次,每次执行:
        a) 从M中随机抽取两个DNA向量p和q;
        b)随机交换p和q的50%的遗传基因得到新向量r;
        c) N = N.add(r)  // 把r加入到集合N中。
    3) 对N进行排序,排序依据是DNA向量所对应的合法路径的长度;
    4) M = N中路径最短的前m个数组成的集合。
4. 返回M[0]所对应的合法路径,起点和终点都是a。

结束语

经过实验,上述遗传算法在解决中国邮递员问题时具有速度快、内存消耗小、可并行、结果正确率高的优点。现在你学会了吗?



版权声明:本文为qq_40022670原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。