一文看懂马尔科夫过程

  • Post author:
  • Post category:其他



1.马尔科夫决策过程(MDPs)简介


马尔科夫决策过程是对强化学习(RL)问题的数学描述。几乎所有的RL问题都能通过MDPs来描述:

  • 最优控制问题可以用MDPs来描述;
  • 部分观测环境可以转化成POMDPs;
  • 赌博机问题是只有一个状态的MDPs;


注:虽然大部分DL问题都能转化为MDPs,但是以下所描述的MDPs是全观测的情况。


强化学习中的表述符号:





2.马尔科夫性


只要知道现在,将来和过去条件独立


定义:如果在t时刻的状态St满足如下等式,那么这个状态被称为马尔科夫状态,或者说该状态满足马尔科夫性。



  • 马尔科夫性的要点:
  • 状态St包含了所有历史相关信息
  • 或者说历史的所有状态的相关信息都在当前状态St上体现出来
  • 一旦St知道了,那么S1,S2, … ,St-1都可以被抛弃
  • 数学上可以认为:状态时将来的充分统计量
  • 因此,这里要求环境时全观测


例子:

  • 下棋时,只关心当前局面
  • 打俄罗斯方块时,只关心当前屏幕


有了马尔科夫状态之后

  • 定义状态转移矩阵
  • 忽略时间的影响,只需要关心当前状态即做出下一步决策


注:这里的相关指问题相关,可能有一些问题无关的信息没有在St中;马尔科夫性和状态的定义息息相关。



3.状态转移矩阵


定义:状态转移概率是指从一个马尔科夫状态s跳转到后继状态s’的概率:


所有的状态组成行,所有的后继状态组成列,将得到状态转移矩阵:


其中,n表示状态的个数,由于P代表了整个状态转移的集合,所以用个花体。每行元素相加等于1。


我们也可以将状态转移概率写成函数的形式:


其中


,状态数量太多或者是无穷大(连续状态)时,更适合用状态转移函数,此时,




4.马尔科夫过程


一个马尔科夫过程(MP)是一个无记忆的随机过程,即一些马尔科夫状态的序列。


定义:马尔科夫过程可以由一个二元组定义<S, P>。


S表示了状态集合,P描述了状态转移矩阵



注,虽然我们有时候不知道P的具体值,但是通常我们假设P存在且稳定的。


当P不稳定时,不稳定环境,在线学习,快速学习。


举个栗子:


一个学生每天需要学习三个科目,然后通过测试。不过也有可能只学完两个科目之后直接睡觉,一旦挂科有可能需要重新学习某些科目。用椭圆表示普通状态,每一条线上的数字表示从一个状态跳转到另一个状态。方块表示终止状态。终止状态有两种:1是时间终止,2是状态终止。


由于马尔科夫郭晨够可以用图中的方块和线条组成,所以可以称马尔科夫过程为马尔科夫链(MDPs chain)。



6.片段


片段定义:强化学习中,从初始状态S1到终止状态的序列过程,被称为一个片段(episode),S1, S2,… ,ST

  • 如果一个任务总以终止状态结束,那么这个任务被称为片段任务;
  • 如果一个任务没有终止状态,会被无限执行下去,这被称为连续性任务。


还是来看上面的例子:


假设初始状态是“科目一”,从这个马尔科夫链中,我们可能采样到如下的片段:

  • “科目一”,“科目二”,“睡觉”
  • “科目一”,“科目二”,“科目三”,“通过”,“睡觉”
  • “科目一”,“玩手机”,“玩手机”,…, “玩手机”,“科目一”, “科目二”, “睡觉”
  • “科目一”,“科目二”,“科目三”,“挂 科”,“科目二”,“科目三”,“挂科”,挂科“科目一”,“科目二”,“科 目三”,“挂科”, “科目三”,“通过”, “睡觉”


分别用 s1 ∼ s7 代表 “科目一”, “科目二”, “科目三”, “通过”, “挂科”, “玩手机”, “睡觉”



7.马尔科夫奖励过程(MRP)


马尔可夫过程主要描述的是状态之间的转移关系,在这个转移关系上 赋予不同的奖励值即得到了马尔可夫奖励过程。


定义:马尔可夫奖励 (Markov Reward Process, MRP) 过程由一个四元组组成 〈S, P,R, γ〉。

  • S 代表了状态的集合
  • P 描述了状态转移矩

  • R 表示奖励函数,R(s) 描述了在状态 s 的期望奖励,



版权声明:本文为heima201907原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。