Reinforcement Learning强化学习系列之四：时序差分TD – 小飞侠

Reinforcement Learning强化学习系列之四：时序差分TD

Post author:xfxia
Post published:2023年8月23日
Post category:其他

引言

前面一篇讲的是蒙特卡洛的强化学习方法，蒙特卡罗强化学习算法通过考虑采样轨迹，克服了模型未知给策略估计造成的困难，不过蒙特卡罗方法有一个缺点，就是每次需要采样完一个轨迹之后才能更新策略。蒙特卡洛方法没有充分利用学习任务的MDP结构，而时序差分学习方法Temporal Difference（TD）就充分利用了MDP结构，效率比MC要高，这篇文章介绍一下TD算法

Sarsa算法

Sarsa的算法如下：

这里写图片描述

Sarsa算法是on-policy方法，其原始策略和更新策略是一致的，而其更新策略和MC不一样的是其策略更新不需要采样一个完整的轨迹，在执行完一个动作后就可以更新其值函数。

Q-learning算法

这里写图片描述

Q-learning算法则是一个off-policy的方法

版权声明：本文为u010223750原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/u010223750/article/details/78955807