北京师范大学系统科学学院-yb亚博全站首页

【成果】基于协同学习结构的非线性系统神经最优安全调控方法

来源：作者：发布时间：2022-09-08 浏览次数：

非线性系统因其可以作为工业生产系统、复杂网络系统、交通运输系统、社会经济系统、能源化工系统等实际系统的一般描述而受到不同领域学者的关注。随着实际工程应用中对系统安全性和可靠性的要求越来越高，提高系统的安全性和可靠性已成为学术界和工程界的研究热点。众所周知，传感器、执行器等部件在实际系统运行中频繁发生故障，进而会损害系统的控制性能。尤其是发生执行器故障，会对系统造成较强的破坏作用，不仅会导致控制性能下降，甚至会导致系统崩溃。截止目前，关于具有执行器故障系统的安全调控方法已有不少，但大多都是对此类非线性系统仅实现了稳定，而不是稳定且兼顾优化。因此，探索一种安全调控优化方法平衡故障系统的稳定性和最优性十分有必要且具有挑战性。

近期，北京师范大学系统科学学院夏宏兵博士在导师郭平教授，以及系统科学学院赵博副教授的指导下，基于协同学习系统（sls）的框架思想，从博弈论的视角出发，提出一种非线性系统神经最优安全调控方法，并能保证发生执行器故障的非线性系统仍能具有令人满意的控制性能与可靠性能。

该工作基于二体sls系统性质特点，将最优控制输入和执行器故障分别视为sls系统的两个子系统。对于具有相反优化目标的两个子系统，相应子系统的两个独立目标函数同时需要最大化。因此，我们可以将其视为双边优化问题。由于两个子系统间的冲突始终存在，故不可能完全满足所有预期的目标函数，只有通过两个子系统间的协同进化才能达到相互接受的状态。于是，引入博弈论，结合自适应动态规划技术，利用微分方程呈现出相反的收益，求解hamilton-jacobi-isaacs（hji）方程，获得纳什均衡解，进而得到近似最优安全调控策略。

作者设计的安全调控系统原理结构示意图如图1所示。在该工作中，作者首先将两个玩家（控制输入和执行器故障）视为具有竞争行为的二体sls系统，并将两个玩家同时引入设计系统的成本函数，进而构建hji方程。然后，利用径向基神经网络建立一个辨识系统来学习未知的系统动力学模型信息。通过构建由协作自适应律调节的渐近稳定评判神经网络，求解hji方程，获取近似最优安全调控策略。图2表示的是辨识系统的辨识误差演化轨迹，可以看出在短时间内，辨识误差可以被驱动到零。图3表示的是系统在t="20s发生执行器故障时，在神经最优安全调控策略的作用下，可以驱动系统状态收敛到平衡状态。图4表示的是评判网络权值演化轨迹。图5是两个玩家的演化轨迹，在t="20s发生执行器故障时，控制玩家和故障玩家的演化轨迹具有相反的趋势。这是由于在系统发生故障后，执行器故障会降低系统的控制性能，而系统最优控制为了对抗执行器故障的作用，以维持系统安全可靠的运行，故在短时间内会呈现波动。随着系统的演化，两者可以在短时间内达到稳定状态，即两个参与者达成了相互协议。

该工作提出的安全调控方案，不仅使系统辨识误差、评判神经网络的权值误差、闭环系统状态都能渐进稳定，而且无需故障检测和诊断机制。该方案是一种基于sls框架，从博弈论视角设计的安全调控新方法，可应用于电力系统、通信系统、机器人系统等系统的安全调控。该研究是基于系统科学思维构建的协同学习系统，研究复杂系统分析与调控问题。

该工作以“synergetic learning structure-based neuro-optimal fault tolerantcontrol for unknown nonlinear systems”为题发表于international neural network society的旗舰期刊“neural networks”上（if9.6568）。（论文链接：https://doi.org/10.1016/j.neunet.2022.08.010）。该工作得到了“新一代人工智能”重大项目课题（no. 2018aaa0100203）的支持。

图1安全调控系统原理结构示意图

图2辨识系统的辨识误差演化轨迹

图3系统状态收敛轨迹

图4评判网络权值演化轨迹

图5 两个玩家的演化轨迹

作者：郭平、夏宏兵

编辑：郝林青

审核：王大辉

邮箱：sss@bnu.edu.cn 邮编：100875 地址：北京市海淀区新街口外大街19号学院联系电话：(010)58807880

院微信公众号

bnu系统学工