机械化作战行动的自主生成与评估

🔥🔥🔥🔥🔥军事AI

机械化作战行动的自主生成与评估

#军事AI#行动方案生成#离散搜索#在线决策#作战仿真

论文原始标题：Autonomous generation of different courses of action in mechanized combat operations

论文作者：Authors: Johan Schubert, Patrik Hansen, Pontus Hörling, Ronnie Johansson

原始摘要：In this paper, we propose a methodology designed to support decision-making during the execution phase of military ground combat operations, with a focus on one's actions. This methodology generates and evaluates recommendations for various courses of action for a mechanized battalion, commencing with an initial set assessed by their anticipated outcomes. It systematically produces thousands of individual action alternatives, followed by evaluations aimed at identifying alternative courses of action with superior outcomes. These alternatives are appraised in light of the opponent's status and actions, considering unit composition, force ratios, types of offense and defense, and anticipated advance rates. Field manuals evaluate battle outcomes and advancement rates. The processes of generation and evaluation work concurrently, yielding a variety of alternative courses of action. This approach facilitates the management of new course generation based on previously evaluated actions. As the combat unfolds and conditions evolve, revised courses of action are formulated for the decision-maker within a sequential decision-making framework.

翻译标题：机械化作战行动的自主生成与评估

翻译摘要：本文提出了一种方法论，旨在支持地面战斗执行阶段的决策，重点在于自身行动。该方法为机械化营生成并评估各种行动方案（COA），从一组初步方案开始，评估其预期结果。它系统地生成数千个单独的行动备选方案，然后进行评估，以识别具有更好结果的行动方案。这些备选方案在考虑对手状态和行动的基础上进行评估，包括单位组成、兵力比例、进攻和防御类型以及预期推进率。野战手册评估战斗结果和推进率。生成和评估过程并行进行，产生多种行动方案。该方法有助于基于之前评估的行动生成新的方案。随着战斗展开和条件变化，会在顺序决策框架内为决策者制定修订后的行动方案。

智能问答：

Q1: 这篇论文试图解决什么问题？

该论文针对机械化地面战斗执行阶段中“如何为机械化营（或下属分队）自主生成并优选行动方案（Course of Action, COA）”这一核心问题，提出一套可在线运行的决策支持方法论。具体而言，论文试图在以下约束与需求下给出可计算、可扩展、可解释的解决方案：

红方兵力、路线与推进节奏已知但不可控，蓝方只能调整自己的初始兵力编组与后续机动；
需在极大规模离散配置空间（14 个可能地域 × 16 个排量级）中快速搜索出能使蓝方“阻滞或击败更强对手”的部署与机动序列；
评估标准须直接对应作战常识：最小化红方突破值、最小化己方损耗、最大化敌方损耗，且符合野战条令给出的伤亡/推进率曲线；
随着战斗推进，状态变化触发重新规划，系统须以“any-time”方式持续输出改进方案，供指挥员在有限时间内决策。

综上，论文解决的是不确定、强对抗、时间压逼条件下，机械化部队在线自主生成并优选行动方案这一作战决策难题。

Q2: 有哪些相关研究？

论文本身未单列“Related Work”章节，但从方法、数据源与引用文献可归纳出以下四条研究脉络，均与“在线 COA 生成-评估-优选”直接相关：

作战仿真与数据农耕（Data Farming）

NATO STO MSG-124 系列研究［11–13］：利用大规模因子实验与高性能仿真对兵力比、伤亡、推进率进行农耕式探索，为本研究提供 combat-outcome 表与 interpolation 思路。
Dupuy 研究所的 Combat Power Density / 推进率经验表［15, 16］：被直接嵌入附录 Table 5–6，作为盒内交战结果与持续时间的量化依据。

野战条令驱动的快速损耗模型

U.S. Army FM 3-90、ATP 2-01.3 与 SAMS ST 100-3［1–3］提出的“盒方法（Box Method）”：将关键地形切片为孤立交战事件，被本文数字化为图节点，成为 COA 评估的基本单元。
基于 force-ratio 的 lookup-table + 插值法：最早在 Fort Leavenworth 的 Combat Power Analysis［12］中成型，本文将其封装为公式 (3)–(4) 的 rel 更新机制。

实时/嵌入式决策支持框架

“any-time”规划理论［14］：Dean & Boddy 提出的决策时限与解质量权衡框架，被本文第 8 节引用，用于解释为何可在 4500 次仿真内即给出可用 COA。
信息融合演示器 IFD03［6, 7］：提供红方真实轨迹与传感器融合模板，成为场景 Ground Truth，解决了“在线 COA 需实时对照敌方动态”这一数据来源问题。

配置空间搜索与机器学习混合优化

Nearly Orthogonal Latin Hypercube (NOLH)［8］：用于在 2.17×10¹⁹ 离散空间中生成初始 256 点实验设计，保证低相关覆盖。
排序选择 & 遗传算法混合框架［9, 10］：Baker、Holland 的经典 GA 被改造为“rank-order 突变 + 地理距离加权交叉”，并引入 p=0.4 混合概率，实现以仿真反馈驱动的新配置在线生成。

综上，相关研究横跨“条令-经验模型”“数据农耕实验设计”“实时决策理论”与“进化搜索”四个领域，本文将它们首次集成到同一在线闭环，以满足机械化战斗执行阶段对“快速、可解释、持续改进”COA 生成的特殊需求。

Q3: 论文如何解决这个问题？

论文将“机械化营在线自主生成并优选行动方案”这一决策问题形式化为 “在 14 个离散地域 × 16 个排量级的配置空间中，搜索使红方突破值最小、蓝方损耗最小、红方损耗最大的部署-机动序列”，并给出一条可计算、可并行、可增量改进的完整技术路线。核心步骤如下：

问题形式化

采用野战条令“盒方法”把战场切分为 14 个盒节点，构建有向图 G=(V,E)，边权为道路距离。
任一蓝方 COA 被编码为 16 维整数向量 X∈{1,…,14}^16，分量表示每排初始盒位；总空间 14^16≈2.17×10¹⁹。

初始空间降维——NOLH 种子

用 Nearly Orthogonal Latin Hypercube ［8］一次性生成 256 个低相关初始配置，作为后续搜索的“种子池”。

在线搜索-学习混合生成

每轮并行评估 12 个配置；根据仿真得分排序，使用两种算子产生新配置：
– Rank-order 局部搜索：按排序概率选父本，再对单排做“地理距离加权”位移。
– GA：95 % 概率做交叉（50 % 掩码）、5 % 概率做均匀突变。
混合概率 p=0.4（搜索）/1−p=0.6（GA）经实验最优；新生配置若得分优于最差种子即替换，实现“any-time”增量改进。

事件驱动仿真评估

采用离散事件引擎，事件类型仅两类：move-to-box 与 end-of-combat。
红方路线、时刻固定；蓝方按最短路径机动，若中途遇敌则判为非法并施加重罚。
盒内交战结果直接查表（附录 Table 5）+ 插值，按公式 x.rel←x.rel·combatv_new / combatv_old 更新相对战斗力；低于阈值 0.3 即淘汰。

目标函数

仿真结束后按 X̂ =(1+β)⋅combatv_final_red−α⋅combatv_final_blue 计算配置得分，α=0.2, β=0.1；值越小越好，负值即代表蓝方胜利。

聚类可视化

对 256 个最优配置按“结构+值”相似度（公式 10）在线聚类，每簇仅呈献最高分成员，指挥员可一眼看到“几类不同打法”及其平均排级配系，避免淹没在近似解中。

滚动重规划

当战场状态变化（红方新侦察信息、蓝方伤亡>阈值等），系统以当前剩余兵力为初始条件，重新执行 1-6 步，实现序列决策。

通过上述闭环，论文在 10 排规模、12 核并行条件下平均 456 s 即可收敛至可解释、可图形化、可直接下达部队的推荐 COA，从而把“如何在线为机械化营生成并优选行动方案”这一问题转化为可工程落地的仿真-优化-可视化流程。

Q4: 论文做了哪些实验？

论文围绕“在线生成-评估-优选 COA”这一闭环，共设计并执行了 4 组实验，分别验证：

混合搜索策略的最优比例
不同蓝方排数对胜负阈值的影响
算法作为 anytime 算法的收敛特性
聚类可视化对指挥员决策的可用性

实验均在 MATLAB + Parallel Computing Toolbox、12 核并行环境下完成，场景固定为 Rådmansö-IFD03 红方推进路线。

实验 1 混合算子比例 p 的敏感性

设置：10 排蓝军，p∈[0,1] 步长 0.1，每个 p 独立重复 100 次仿真
指标：100 次最佳配置得分的均值 E[X̂] 与标准误
结论：p=0.4（40 % rank-order 搜索 + 60 % GA）取得最小 E[X̂]=−0.0803，显著优于纯搜索或纯 GA，后续实验锁定 p=0.4

实验 2 蓝军规模-胜负阈值测定

设置：排数 1–16，每规模 10 次独立重复，每次运行至收敛（连续 17 轮未在 top-40 发现新配置）
指标：最佳配置 E[X̂] 随排数变化曲线
结论：7 排时 E[X̂] 首次<0，即为“阻滞红方”的临界规模；10 排时 E[X̂] 降至 −0.08，继续增加排数边际收益递减。

实验 3 Any-time 收敛行为

设置：固定 7 排与 10 排两组，各重复 100 次，记录每轮迭代当前最佳 X̂
指标：均值曲线 + 95 % 置信带
结论：10 排约 50 轮即稳定在 −0.08；7 排需 150 轮左右才首次出现负值，与实验 2 阈值结果一致，证实算法可在任意时刻中断并输出当前最优解，满足 online 决策时限要求。

实验 4 聚类可视化可用性

设置：对 7 排（51 簇）与 10 排（44 簇）两套最优 256 配置进行在线聚类
指标：簇内最佳值分布（误差棒图）与 Top-10 簇的地理平均配系与簇大小圆圈图
结论：仅 cluster-0/1 包含负值（胜）配置，指挥员可聚焦 2–3 类根本不同的打法，图形化一张图即可读出“主力应集中 box-12，迟滞排放在 box-8”等可直接下达的部署指令。

综上，4 组实验从“算法参数-规模阈值-时间特性-人机接口”四个维度系统验证了所提方法在满足实时性前提下，可为机械化营提供可解释、可图形化、可直接落地的行动方案推荐。

Q5: 有什么可以进一步探索的点？

以下问题在论文结论处已列为“open questions”，结合当前实验边界可进一步展开：

离线-在线混合评估
将仿真结果与历史战例、兵棋推演或专家打分进行多元校准，构建“仿真-经验”双通道置信区间，降低对单一 lookup-table 的依赖。

部分观测与不完全信息
当前红方路线完全已知。可引入部分可观测马尔可夫决策过程（POMDP），把红方意图建模为信念状态，用蒙特卡洛树搜索在线更新 COA。

动态重规划的种子机制
研究“中途局部战果”（如 box-8 伤亡 30 %）能否作为新初始种子，直接引导后续批次生成，减少从头搜索的迭代次数。

多目标与指挥员偏好学习
目标函数仅三阶加权。可引入偏好学习或交互式进化，让指挥员在聚类视图中实时拖动“损失容忍度”“时间容忍度”滑块，系统即时更新帕累托前沿。

高阶兵棋规则嵌入
地形、天气、C2 延迟、后勤油耗等目前被忽略。下一步可把 NATO JTLS/JSBS 离散事件引擎替换现有简化模型，验证方法在更高保真环境下的可扩展性。

异构单元协同
当前排级类型仅装甲步兵与坦克。可加入无人机排、电子战排、炮兵火力排，研究混合编组对配置空间维数灾难的缓解策略（如分层 NOLH+分层 GA）。

红方策略自适应
红方现按固定脚本推进。可引入博弈或深度强化学习红方代理，形成“双智能体-双闭环”对抗，检验蓝方 COA 的鲁棒性。

实时并行硬件加速
评估 GPU/FPGA 事件驱动仿真内核，把 456 s 缩短到分钟级以内，满足营级战术指挥所 5–10 min 决策节奏。

可视化-认知负荷量化
通过眼动仪或指挥员实验，测量聚类圆圈图、时序战斗值曲线两种呈现方式对决策准确率与反应时的影响，迭代人机接口。

跨战役级迁移
将 Rådmansö 场景训练得到的 p=0.4、聚类阈值、相似度权重等超参数，直接迁移至波罗的海其他岛屿想定，验证“零样本”或“小样本”在线适应性能。

探索上述方向可逐步把当前“单场景-全观测-离线参数”原型，升级为“跨域-不确定-人在回路”的通用化作战决策支持平台。

Q6: 总结一下论文的主要内容

论文提出一套可在线运行的决策支持方法论，帮助机械化营在战斗执行阶段自主生成并优选行动方案（COA）。核心内容可概括为：

问题建模：用“盒方法”把战场离散成14个节点图，蓝方16个排初始部署构成2.17×10¹⁹种配置空间。
高效搜索：以Nearly Orthogonal Latin Hypercube生成256个低相关种子，再用rank-order局部搜索与遗传算法以p=0.4混合，每轮并行12个配置，any-time增量改进。
事件驱动仿真：红方按真实轨迹固定推进，蓝方最短路径机动；盒内交战查野战条令伤亡/推进率表，按force-ratio插值更新相对战斗力。
目标函数：最小化红方突破值、最小化蓝方损耗、最大化红方损耗，三阶加权合一，负值即蓝方胜。
聚类可视化：对最优256配置按“结构+值”相似度在线聚类，每簇仅呈献最佳，指挥员一张图即可读出几类根本不同的高分打法。
实验验证：10排规模456 s收敛；7排为胜负阈值；any-time曲线显示150轮内可稳定获得负值解；聚类后仅2簇含胜解，部署指令一目了然。

综上，论文把条令经验、数据农耕、进化搜索与并行仿真集成到同一闭环，首次实现了机械化营级“实时、可解释、图形化”的COA在线生成与优选。

阅读全文 →

来源：Arxiv2025-11-07 12:02:56 UTC

🌟 今日前沿论文 · 2025年11月7日

机械化作战行动的自主生成与评估