今年8月,兰德公司发布了名为《通过机器学习获得空中优势—人工智能辅助任务规划的初步探索》,首次提出了基于人工智能技术进行人工智能作战规划的方法路径,以及尝试强化学习技术实际运用效果。
根据该报告的摘要,该项目原型是概念证明人工智能(AI)系统,以帮助开发和评估航空领域的新作战概念。具体来说,部署当代统计学习技术,在作战相关的模拟环境中训练计算空战规划人员。目标是利用人工智能系统的能力,通过扫描重复学习,从经验中概括,并改进重复,以加速和丰富作战概念开发。试验问题是简化打击任务规划的问题:鉴于一组具有不同传感器、武器、诱饵和电子战有效载荷的无人驾驶飞行器,我们必须找到方法,对孤立的防空系统使用这些武器。虽然提议的测试问题在空战领域,但我们期望具有类似修改的技术适用于其他作战理性问题和领域。我们发现,利用近地策略优化技术充分训练了神经网络,在一组不断变化的复杂场景中充当作战规划代理。
运用人工智能展开辅助作战规划无疑是人工智能军事化的高地和顶峰,其技术难度非常大,兰德公司从相对运用场景比较简单的 对敌防空压制(Suppression of Enemy Air Defenses,SEAD)着手,部署运用了当代生成对抗网络(GAN)和深度强化学习(RL)技术,以训练可以在作战相关模拟环境中发挥作用的空战人员。目标是利用人工智能系统的能力,从经验中反复运行,从经验中概括,并改进重复,以加速和丰富作战概念开发。这无疑是一次非常有意义的探索,为后续功能拓展和相应的人工智能运用摸索了一条路子。
兰德的原型平台集成了开源深度学习框架、当代算法和模拟、集成和AFSIM(Advanced Framework for Simulation, Integration, and Modeling)高级框架—美国国防部(DoD)标准战斗模拟工具。FSIM提供模拟环境和评估器。此模型用作机器代理学习的"现实"。
AFSIM框架结构
AFSIM是一种当代任务的战役级仿真工具,我们用作评估ML工作有效性的环境。最初设想为 Air Force现有集成防空系统模型的替代方案,国防部的许多人现在将AFSIM视为标准任务级模拟工具。AFSIM是由C ++编写的参与和任务级仿真环境,最初由波音公司开发,现在由空军研究实验室(AFRL)管理。AFSIM的开发旨在解决现有遗留仿真环境中的分析功能缺陷,并提供一个考虑到更多现代编程范例的环境。AFSIM可以模拟从地面到太空以及跨多个模型保真度的任务。
强化学习 MDP的视觉表示
AFSIM面向对象且基于代理:单个平台可以使用传感器、武器、跟踪人员、通信网络和处理器(定制或从AFSIM的库中选择)进行设计。该体系结构包括构建和编写复杂平台及其交互所需的所有工具:模拟对象;武器参与和通信模拟; 自定义脚本语言; 地形选项,包括地下和空间。平台行为由用户编写脚本,包括路由、触发触发器、映像和通信指南以及其他参与规则。尽管平台在方案运行期间进行交互,用户可以选择输出任何时间步数发生的事件的记录,包括跟踪检测、触发和干扰。该工具的内置"脚本性"和检测为批处理和Markov 决策过程(MDP)正规化提供了途径。
AFSIMal
通过采用雅达利(Atari)、围棋和DOTA 2 等游戏开发和演示的深度 RL算法和体系结构,并应用它们来探索空军标准仿真环境AFSIM,兰德希望将这些方法从游戏转向实际实用工具的一小步中间步骤。尽管认识到简单的空战规划可以通过由 IF-THEN 规则组成的决策树来完成,但兰德还是希望探索 RL 工具的潜力,以显示独特的行为,在不同类型的任务中进行概括,并展示多代理协作性。
报告内容包括:
第一章 介绍
第二章 一维问题
第三章 二维问题
第四章 计算基础设施
第五章 结论
附录A 二维问题状态向量归一化
附录B 容器化和ML基础架构
附录C 在二维问题中管理智能体-模拟交互
附录D 学习算法概述
一维对抗环境下模拟
兰德的报告,按照由易到难的原则展开,先介绍了在一维环境下的问题,去除复杂的三需要考虑的问题,使机器学习相对简单。
尔后,通过二维环境下,增加一些复杂的环境变量,使学习更加复杂,规划难度更大。
兰德公司通过分析, 认为强化学习可以解决复杂的计划问题,但仍然存在局限性,这种方法仍然存在挑战:
单纯的强化学习算法可能效率低下,并且容易崩溃。
近端策略优化是解决学习崩溃问题朝着正确方向迈出的最新一步,它具有内置的约束,可防止网络参数在每次迭代中变化太大。
强化学习代理能够学习合作策略。在模拟中,攻击机与防空导弹(SAM)上的干扰或诱饵效果协同作用。
经过训练的算法应该能够相当轻松地处理任务参数(资产的数量和位置)的变化。
成功执行任务和失败执行任务的现实世界数据很少。与用于训练现代强化系统的数据量相比,执行防空任务的实际任务很少,实际上都是成功的。
对于涉及使用大型模拟代替大型数据集的分析,所需的计算负担将继续是一项重大挑战。针对实际威胁(数十个防空导弹)训练实际功能集(数十个平台)所需的计算能力和时间的规模尚不清楚。
发展对AI算法的信任度将需要进行更详尽的测试,并在算法可验证性,安全性和边界保证方面取得根本性的进步。