RAND,__指挥控制,量化评估,效能评估,军事,美军,国防,机器学习
前言
2020年5月,兰德发布过一篇名为《通过机器学习获得空中优势——人工智能辅助任务规划的初步探索》的研报。时隔一年,兰德再次就人工智能在指挥控制与任务规划领域的应用展开研究。人工智能领域经过这一年的飞速发展,已经成功地向各领域渗透,军事领域亦在此列。因此,相比于上一篇报告,这一篇无疑更加具有实用性和指导意义。简介
2021年7月,兰德公司发布《探索机器学习辅助指挥控制的可行性和实用性》报告,该报告分为2卷,第1卷阐述了研究结果和建议,第2卷分析了支持性技术。该报告从技术角度分析人工智能(AI)系统应用于空军指挥控制(C2)方面的潜力。报告提出了一个分析框架,用于理解和评估某个特定AI系统针对某个C2问题的适用性。该框架旨在识别能够解决不同C2问题的AI系统,并确定所存在的技术差距。2019年,美国空军研究实验室信息部门(AFRL/RI)要求兰德公司空军项目部针对将AI技术应用于空军指挥控制进行研究并提出建议。《探索机器学习辅助指挥与控制的可行性和实用性》报告是此项研究的成果,该报告提出了一个分析框架,用于理解和评估某个特定AI系统对于某个C2问题的适用性。除了适用于C2,该分析框架也适用于其他作战功能和服务。报告通过空中主攻击计划、自动目标识别和支持人员恢复(Personnel Recovery)的人机编队三个技术案例演示了该分析框架。
报告聚焦问题
近期AI系统在商业中的突出应用表明,AI提供了实际价值,而且可以作为更大的人机编队的一部分成功地发挥作用。该报告分类介绍了C2存在的问题和相应的解决方案能力,以及评估AI解决方案的标准。 该报告聚焦于确定AI系统和C2流程之间的一致性,在分析C2流程时,也介绍了国防部AI系统所需的技术能力。最后,报告基于性能、有效性和适用性的衡量标准,开发了可用于评估AI系统的指标,一旦实施,也可用于演示它们的效用。 该报告主要关注以下几个问题:- 美国空军的关键优先事项之一是使用AI来增强军事C2。
- 在学术和商业环境中开发和部署的AI系统与需要它们的军事环境有质的区别。
- 空军缺乏一个分析框架,以理解不同AI系统对不同C2问题的适用性,并识别普遍的技术差距。
- 空军缺乏评估AI系统解决C2问题的性能、有效性和适用性的指标。
结构化方法
下图显示了我们提出的评估特定用例的潜在解决方案的效率的完整框架。
分析问题特征
我们创建了一个问题特征分类法,可以将其分为四类。 一些特征完全源于问题本身的性质(例如,作战节奏),而其他特征则包含价值判断(例如,作战风险和收益)或赋予敌人积极的作用(例如,对手可以通过 诱饵和干扰等手段)。 某些特征往往会同时出现在问题中,但所有特征都相互独立。
分组 | 问题特征 | 描述 | C2举例 |
---|---|---|---|
暂时性 | 操作节奏 | 必须计划、重新计划和执行操作的速率 | 起诉动态目标可用的时间长度 |
环境变化率 | 从以前遇到的情况发展到现在需要多长时间,使过去的策略和学习变得过时 | 交战规则和特殊操作说明的变更频率 | |
复杂度 | 问题复杂性 | 动作空间的大小和状态空间的大小的组合 | 指挥官可用的传感器数量和类型 |
可还原性 | 问题是否可以分解成更简单的部分 | MAAP(总空袭计划)小组必须说明的任务和任务类型之间的关系 | |
信息质量 | 数据可用性 | 可用于培训和测试的数据的数量、质量和代表性 | 适用于训练系统执行空战计划的操作级模拟器的可用性 |
环境混乱/噪音 | 感兴趣的信号是否被来自其他潜在未知和随机过程的信号污染 | 环境噪音和故意伪装和隐藏对情报评估的影响 | |
行动结果的随机性 | 根据所采取的行动,可预测的直接效果如何 | 动力学或非动力学效应的杀伤概率 | |
目标/效用的明确性 | 任务执行期间和结束时交付的结果的价值定义得有多清楚 | 评估数据的可用性及其与战术任务、作战任务和作战目标的直接关系 | |
信息的不完整性 | 对环境状况以及对手的目标和意图了解多少 | 指挥官缺乏关于战场或对手部署的完整信息的程度 | |
重要性 | 运营风险和收益 | 结果的可能性包括失去有价值的东西或获得的优势或利润 | 实现或未能实现任务目标的后果 |
为了演示问题分类,我们分析了十个游戏和人工智能测试环境以及十个C2过程。我们选择的游戏常用于AI研究。为了评价每个问题的特征,我们使用了原始文档、描述和经验。我们选择的C2流程跨越了战争级别(战术、作战和战略)和服务分支。为了评估每个服务的问题特征,我们使用结构化协议采访了每个服务的现役主题专家。
小结:以上分析清楚地说明了将人工智能应用于C2所需的飞跃。作为一个过渡步骤,空军可以将重点放在呈现更多有限问题特征的C2过程上。或者,空军可以开发人机协同结构,在这种结构中,人工智能只应用于更大的C2进程中合适的子任务。
评估解决能力
分类法的目的是标准化计算体系结构的特征,无论它们使用一种还是多种算法方法,就它们提供的能力而言。这是确定一个可能适合C2进程的人工智能系统是否能够实际实施的第二步。
分组 | 解决能力 | 描述 | C2案例 |
---|---|---|---|
复杂度 | 计算效率 | 系统所需的时间/内存量如何随着问题的大小而变化 | 计算空战计划员返回完整MAAP的时间 |
性能 | 数据效率 | 系统产生可接受质量解决方案所需的训练数据量 | 训练深度神经网络以分类对手设备所需的标记样本数量 |
公正性 | 具有推理规则的系统的质量,推理规则只返回有效的解 | 计算空战规划器是否返回可以在给定特殊操作指令、友好战斗顺序和其他约束的情况下执行的MAAPs | |
最佳性 | 具有推理规则的系统的质量,推理规则产生目标函数的最大值 | 计算空战计划员是否返回一个使所有已完成任务的总价值最大化的MAAP | |
灵活性 | 鲁棒性 | 在意外情况下产生合理输出和/或适度降级的能力 | 当图像中的环境条件变化时,经过训练的分类器的性能如何变化 |
学习型 | 通过培训和/或经验提高绩效的能力 | 计算空战管理人员是否能够学习提高其在模拟和/或现场的性能 | |
实用性 | 可解释性 | 专家理解系统为什么产生输出的能力 | 人类分析员是否能理解为什么计算空战计划员会推荐它所做的计划的某些方面 |
确定性 | 专家判断系统是否按预期运行的能力 | 计算空战管理器是否能够在测试和评估期间得到验证和确认,以及一旦部署后这些保证是否能够保持。 |
分类法的目的是确定潜在的解决方案是否解决了问题特征。为了演示解决方案分类,我们分析了十个人工智能系统。我们选择的系统在经典人工智能技术和当代人工智能技术的使用、对知识工程和学习的依赖以及对反应型、计划型和分类型任务的适用性方面各不相同。为了评估每个系统的解决方案能力,我们使用了源代码、已发布的描述和结构化协议来采访一位来自兰德公司的了解该系统的人工智能研究员。
系统和功能的平均评分为4分之2.1,没有一个系统具备所有功能。这些评级说明了学习系统和不学习系统之间的一般权衡。与学习型系统相比,没有更高数据效率(3.7对0.8)、可靠性(3.3对0)、可靠性(3.8对1.8)和可解释性(2.8对0.8)平均评级的系统。相反,不学习的系统在计算效率(1.8对3.3)方面的平均评级较低,在最优性(2.7对2.5)和鲁棒性(2对0.8)方面的平均评级相似。
下图显示了所有人工智能系统解决方案能力的平均评级。总体而言,这些系统在可靠性、最优性和数据效率方面的平均评分最高。数据效率被评为相对较高,而学习被评为相对较低,这一发现反映了样本中包括的学习和非学习系统的不同数量(分别为4个和6个)。鲁棒性对于学习和非学习系统都有中低的评分。
计算机科学研究主要集中在人工智能系统优化某些目标函数的能力上。然而,还存在其他重要的解决方案功能。根据我们对人工智能系统的评估,没有一个系统通常具备所有功能。因此,系统的选择体现了一个关于权衡哪些能力的决定。在我们分析的十个系统的样本中,最引人注目的权衡是一方面是学习,另一方面是数据效率、可靠性、可解释性。这里的含义是双重的:现实世界的人工智能系统必须沿着多个维度进行评估,具有最高性能水平的系统可能不是首选解决方案。
提出解决方案
我们假设不同的问题特征需要不同的解决能力。正如钥匙适合锁一样,人工智能系统的能力必须与C2问题的特征相一致。现有文献没有提供这样的人行横道。在本章中,我们报告了一个专家小组的结果,该小组旨在确定哪些解决方案功能对每个问题特征最重要。基于小组的结果,我们提出了一种方法来评估人工智能系统对特定C2问题的适用性。
指挥和控制人工智能专家小组
该小组采用了嵌入式混合方法设计,并遵循了引发专家判断的既定做法。定量数据用于确定解决方案能力对每个问题特征的重要性,定性数据用于了解影响这些评级的因素。智能专家小组流程如下:
- 专家们回顾所有问题特征和解决能力,并对每对解决能力的重要性进行了评级和评论。
- 专家们对这一轮的评论进行了主题分析并进行讨论。
- 专家们被允许根据第二轮的反馈和讨论修改他们原来的评分。专家们再次被要求解释他们的评级。
专家打分评级(按重要程度)
分析C2和AI之间的评分一致性
- 列出待评价问题特征
- 列出解决方案能力
- 各元素相乘
- 关键对求和
小结
十大指挥控制流程和游戏中解决方案能力的相对重要性,以及人工智能系统的分析能力
人工智能系统相对来说比C2过程更强调公正性和最优性,而相对来说不太强调鲁棒性、可靠性和学习。总的来说,这些结果表明,某些针对游戏进行优化的人工智能系统,以其目前的形式,可能对国防部的用处有限。
局限性:
- 问题和解决方案评级的定性性质。目前,分配给问题特征和解决方案能力的评级是基于专家的判断。可以为维度导出一组相应的量化指标。
- 加权函数。目前,我们应用了一个阈值来定义问题特征和解决方案能力的关键配对,并给这两对分配了统一的权重。也可以使用给不同对提供连续变化值的替代加权函数。
- 问题特征的语境变异。分析的结果取决于对问题特征的假设,这些假设是恒定的。如果C2问题的特点因背景而异,例如,如果指挥官有主动性,而不是他们试图抓住它,那么分析的结果也会因背景而异。
评估方案
在本节中,我们将更仔细地研究这种匹配的某些方面,并为人工智能解决方案提出三类评估措施,以帮助完成选择过程。提前制定评估措施有助于确保公平评估发展进度,并确定潜在的实施问题。我们详细讨论了每个类别,并强调了对人工智能解决方案特别重要的特定指标。
类别 | 定义 |
---|---|
MoE | 用于衡量军事效果(任务完成)的数据,该效果来自系统在其预期环境中的使用。该环境包括测试中的系统和所有相关的系统,也就是说,在武器、传感器、C2和平台方面的计划或预期环境,视情况而定,是在战斗中完成端到端任务所需要的。 |
MoP | 系统特定的性能参数,如速度、有效载荷、距离、在站时间、频率或其他明显可量化的性能特征。 |
MoS | 衡量项目在其预期运行环境中得到支持的能力。维护对象通常与准备状态或操作可用性有关,因此也与可靠性、可维护性和项目的支持结构有关。 |
MoE (Measures of Effectiveness)
MoE通常是从C2问题本身得出的任务成功的常见衡量标准,例如生存能力和部队换防率。没有一套单一的、标准的MoE可以用于所有的C2问题:MoE必须为每个任务量身定制。有鉴于此,我们不提供一份固定的MoE清单,而是提供一套在设计时应该考虑的子类别和问题。
分组 | 评估问题 | 度量案例 |
---|---|---|
决策质量 | 鉴于现有的信息,C2系统是否能做出最佳决策? | 接近最佳决策、结果 决策操作范围的稳健性 考虑的行动方案数量 历史基准或其他决策流程的比较 |
情境意识 | C2系统可用的信息是否准确、完整和最新? | 检测概率 误报率 通用操作画面货币 各种ISR和数据质量指标 |
及时性 | C2系统处理可用信息以做出决策的速度有多快? | C2进程的速度 与对手相比,观察、定位、决定和行动(OODA)循环的相对速度 |
生存力/致命性 | C2系统如何提高部队的生存能力和杀伤力? | 幸存概率 力损失交换比 各种战斗损伤评估指标 |
资源管理 | C2系统利用现有资源的情况如何? | 资源配置效率 因资源可用而进行或不进行的不同任务的数量 机会成本 |
MoP(Measures of Performance)
MoP抓住了提议的人工智能解决方案的力量——用一个市场类比来说,它们代表了所提供的“供应”。典型地,MoP是软件和硬件的常见度量,例如,集中在运行时间和错误率等问题上。因为MoP很好地与软件开发保持一致,所以它们经常被用来定义获取过程的需求。然而,由于最终目标是满足教育部,MoP被更好地理解为代理指标:小节应该设置得足够高,以确保教育部将得到满足的高可信度。
AI解决能力 | 度量案例 |
---|---|
计算效率 | 运行时间 作为输入函数的计算速度 系统要求(内存、处理器、存储) |
数据效率 | 每个对象类所需的标记训练数据 |
公正性 | 完整性(例如,找到的可行替代方案的数量) 出错率 |
最佳性 | 检测概率 地理定位精度 |
鲁棒性 | 当算法针对新数据集运行时,其他MoP有何变化 |
学习性 | 当从训练算法的原始数据集向算法提供额外的例子时,其他MoP如何变化 |
MoS(Measures of Suitability)
MoS捕捉人工智能解决方案必须能够解决C2问题的操作条件范围。
分组 | 定义 |
---|---|
可靠性 | 任务可靠性。系统成功完成任务的概率,取决于硬件的可靠性和系统内置的冗余。 系统可靠性。在规定的时间内,某个项目在规定的条件下执行所需功能而不出现故障的概率。 算法可靠性。行为符合预期,即使是新的输入。 |
可维护性/可持续性 | 可维护性。当具有特定技能水平的人员在每个规定的维护和修理水平上使用规定的程序和资源进行维护时,一个项目保持或恢复到特定状态的能力。 可持续性。保持必要的作战活动水平和持续时间以实现军事目标的能力。可持续性是提供和维持支持军事努力所必需的现成部队、物资和消耗品的功能。 |
互操作性 | 系统、单位或部队向其他系统、单位或部队提供数据、信息、物资和服务以及从其他系统、单位或部队接受数据、信息、物资和服务的能力,以及使用如此交换的数据、信息、物资和服务使它们能够一起有效运作的能力。 |
可扩展性 | 系统、组件或进程“处理吞吐量变化的能力大致与输入单元数量或大小的变化成比例”。 |
网络安全 | 防止损坏、保护和恢复计算机、电子通信系统、电子通信服务、有线通信和电子通信,包括其中包含的信息,以确保其可用性、完整性、认证性、保密性和不可否认性。 |
人机协同 | 人的系统集成是指确保在整个系统开发过程中考虑人的特征,包括他们的选择和培训、他们对系统运行的参与以及他们的健康和安全。它还关注提供满足这些相同需求的工具和方法来支持系统开发过程本身。 |
可解释性/可信度 | 人工智能解决方案解释推荐或行动背后逻辑的能力,理解推荐背后逻辑的能力,至少在近期是这样。 |
小结
评估方案的不足:
- 对MoE和MoS的关注太少。我们对美国国防高级研究计划局指标的审查表明,人工智能评估的主要重点往往是性能准确性和最优性。虽然这当然很重要,但这将重点放在解决方案空间上。
- 对数据集可用性和质量关注太少。了解用于训练和测试算法的数据的局限性非常重要。
- 评估人工智能算法影响的资源有限。DIB明确表示“国防部缺乏人工智能T&E工具来验证人工智能/最大似然模型。” MoE和MoS需要一个操作上现实的环境,在这个环境中可以测试系统。对MoP的关注可能是模糊这些需求的部分原因。
四个结论
通过回顾计算机科学、认知科学和运筹学文献,报告创建了C2问题特征的分类和AI解决方案能力的分类。基于与军事C2主题专家和AI专家的访谈,报告进一步细化了这些分类。本报告提出了一种结构化方法,用于分析某个C2流程的特征,分析一个或多个AI系统的能力,并确定某个AI系统是否适用于某个C2流程。通过分析研究,本文得出了如下结论:- C2流程与用于开发和演示AI系统的许多游戏和环境非常不同
- C2流程的独特本质要求AI系统不同于那些针对游戏玩法进行优化的AI系统
- 需要新的指南、基础设施和指标来评估AI在C2中的应用
- 需要混合方法来处理C2流程中出现的大量问题