11.36 非线性系统 H∞ 最优控制
由于 H ∞控制是一种十分有效的处理动态系统的外界扰动的方法[17] ,H ∞控制一直是控制界学者的研究的热点。虽然 H ∞控制理论取得了一系列的成果[18-21] ,但是求解 Hamilton-Jacobi-Isaacs (HJI)方程是限制 H ∞ 控制理论实际应用的瓶颈。这是由于 HJI 方程固有的非线性特性,很难得到其解析解。为了获得 HJI 方程的近似解,ADP 方法被应用并且获得广泛关注[22-24] 。值得注意的是 , 现有求解离散非线性系统 HJI 方程的 ADP 方法[22,25-27] ,可以分为两类。第一类是采用离线方式求解 HJI 方程,然后将得到的最优控制策略作为在线实时控制器。然而,如果系统参数发生变化后,那么对于新系统而言,原有控制器已经不再是最优控制器。第二类是,不管是在线还是离线的迭代 ADP 算法,都是采用策略迭代或值迭代的评价网 / 执行网框架结构,其在求解方程过程中都会有两个以上的迭代循环,这样的过程将会带来冗余的迭代循环,导致求解 HJI方程的效率较低。
为了克服现有求解 HJI 方法的不足,我们提出了一个基于 ADP 在线自适应策略学习算法。该算法能够利用系统实时数据得到系统 HJI 方程的解,从而得到系统的实时控制器。首先利用神经网络作为在线参数结构来近似代价函数,即评价网络。在给定的容许控制下 , 利用 Lyapunov 理论证明了评价网络权值估计误差是一致最终有界性。接着,再利用神经网络作为在线参数结构分别设计了执行网络和扰动网络。其中执行网络依据评价网络提供的信息在线学习控制输入信号使代价函数最小化,以获得最优的控制策略;而扰动网络依据评价网络提供的信息在线学习扰动输入信号使代价函数最大化,以获得最坏的扰动策略。然后,在考虑神经网络近似误差的基础上,依据 Lyapunov 理论证明了系统状态和所有的网络权值估计误差都是一致最终有界性,并且能够保证所获得的控制输入在最优控制输入的一个小的邻域内。仿真实例证实了所提算法的有效性,控制器能够保证系统具有良好的控制性能。