发布时间:2024-08-27 | 来源:所办
近日,2024年度中国科学院优秀博士学位论文评审结果公布,其中系统所刘念博士的学位论文《自适应博弈控制系统的算法设计和理论基础》入选,并且其导师郭雷院士荣获本年度“中国科学院优秀导师奖”。
中国科学院优秀博士学位论文于2004年设立,每年评选一次,评选数量一般不超过100篇,要求入选的博士论文必须为本学科前沿,在理论或方法上有创新,有重要的理论意义或现实意义,并取得突破性成果,达到国内同领域的领先水平或国际同类领域的先进水平。
优秀博士学位论文介绍:自适应博弈控制系统的算法设计和理论基础
作者:刘念 博士
指导教师:郭雷 院士
中文关键词:博弈控制系统,不确定性,信息结构,自适应策略,最小二乘
【选题依据及学术意义】
无论是经典还是现代控制理论,所研究的被控对象多是工程系统, 尽管允许大范围动态不确定性存在, 但在数学模型中一般不包含被控对象的自主行为或自我追求,这就使得控制理论的应用范围受到局限,比如难以直接应用到社会、经济、动物或智能工程系统中, 因为这类系统的被调控对象可能具有 “上有政策, 下有对策” 等博弈行为。而在这些多智能体系统中,我们又不得不考虑如何对系统中的智能体进行调控,这促使郭雷院士思考并提出研究被控对象具有博弈行为的一个动态系统框架,称之为博弈控制系统。这个框架将博弈论与控制论相结合为一个具有层级结构的调控系统,上层为有具体目标的(多元)宏观调控变量,下层为相互关联且功能不尽相同的多个个体,每个个体都可以有自己的目标追求。这一框架既不同于传统的控制论,也不同于传统的博弈论。特别地,这一框架虽然与博弈论中著名的斯塔克尔伯格 (Stackelberg)博弈有相通之处,但正如控制理论与优化理论的关系一样,两者内涵存在根本差异。值得一提的是,博弈控制的框架与博弈论中的机制设计思想也科学的兼容。实际上,博弈控制系统最基本的特点是对传统控制理论框架的继承和拓展:它继承了控制理论中反馈控制这一对付不确定性的核心思想,也拓展了控制理论的范围以包含被控对象具有自己目标追求的情形。关于博弈控制系统的相关研究,大多假定系统的数学模型已知。由于不确定性在实际系统中广泛存在,研究在不确定性情形下有关博弈控制系统的基础理论问题是十分重要的。
【论文创新点和主要贡献】
一、首先提出了一类自适应博弈系统的信息结构,并在此信息结构下设计了参与者的自适应策略,建立了相应的自适应博弈理论。作为一个研究起点,本文考虑了经典的线性二次随机微分博弈问题,但假定系统的系数矩阵对所有参与者都是未知的,这是一个迄今文献中很少研究的问题。由于存在参数的不确定性,本文将自适应控制理论和微分博弈理论相结合,研究博弈参与者的自适应策略。具体而言,通过利用随机自适应控制中发展的一些有力方法,在本文提出的信息结构框架下,针对线性二次随机微分博弈问题,设计了参与者的自适应博弈策略并建立了相应的收敛性理论。主要创新点如下:第一,引入了一种新的信息结构,描述了一种既涉及“竞争”又涉及“合作”的复杂情况,其中“合作”意味着在“竞争”过程中,双方都有稳定博弈系统的首要任务;第二,设计了一个适用于一般数据条件的公共信息估计器,可以为所有参与者提供良好的在线参数估计服务;第三,通过研究自适应代数 Riccati 方程的性质,设计了参与者的自适应博弈策略,并证明了闭环博弈系统是全局稳定的并且达到纳什均衡,同时,自适应博弈者的目标函数值与参数已知情形下相同。
二、研究了一类基于线性二次随机微分博弈的博弈控制系统问题,并建立了相应的自适应博弈控制理论。在系统的系数矩阵对参与者和调控者都未知的情形下,本文主要考虑如何设计自适应宏观调控策略,如何建立博弈控制系统的全局稳定性理论,同时确保参与者的自适应策略达到纳什均衡,这是自适应博弈控制系统研究中的一个基本问题。主要贡献如下:第一,首次研究了具有未知参数与分层结构的博弈控制系统的自适应控制问题,其中系统下层是一个非合作随机微分博弈,上层是一个宏观调控器,可以干预下层微分博弈,目标是在不确定参数和随机噪声影响下自适应镇定博弈系统。第二,不仅为自适应宏观调控提供了一种具体的设计方法,而且对自适应博弈控制系统的全局稳定性给出了严格的证明。第三,假设下层参与者都利用标准最小二乘估计来构建他们各自的自适应策略,且初始条件不同,本文通过整合和改进随机自适应控制中几种有力方法,证明了下层博弈参与者的自适应策略能够达到纳什均衡。