深度元素智能
基于深度强化学习的三维城市流场导航
来源: | 作者:DE.Tech | 发布时间: 2025-10-30 | 170 次浏览 | 🔊 点击朗读正文 ❚❚ | 分享到:
无人驾驶飞行器(UAV)越来越多地在城市区域用于配送和监控。在这项工作中,我们开发了一种基于深度强化学习的最优导航策略。环境由一个三维高保真城市流场模拟表示,该流场具有湍流和回流区特征。本文提出的算法是结合了门控变换器超大(GTrXL)架构的流感知近端策略优化(PPO),使代理在湍流场中获得更丰富的信息。与没有辅助预测任务的 PPO+GTrXL、结合长短期记忆(LSTM)单元的 PPO 以及传统导航算法相比,结果表明成功率达到显著提升(SR),碰撞率显著降低(CR)。这为复杂城市环境中无人机的全新构想铺平了道路。

🌟 今日前沿论文 · 2025年10月29日


精选科技前沿资讯,洞察科技研究趋势

🔥🔥🔥🔥🔥无人机导航

基于深度强化学习的三维城市流场导航

#无人机导航#深度强化学习#三维湍流#流场预测#GTrXL

论文原始标题:Navigation in a Three-Dimensional Urban Flow using Deep Reinforcement Learning

论文作者:Authors: Federica Tonti, Ricardo Vinuesa

原始摘要:Unmanned Aerial Vehicles (UAVs) are increasingly populating urban areas for delivery and surveillance purposes. In this work, we develop an optimal navigation strategy based on Deep Reinforcement Learning. The environment is represented by a three-dimensional high-fidelity simulation of an urban flow, characterized by turbulence and recirculation zones. The algorithm presented here is a flow-aware Proximal Policy Optimization (PPO) combined with a Gated Transformer eXtra Large (GTrXL) architecture, giving the agent richer information about the turbulent flow field in which it navigates. The results are compared with a PPO+GTrXL without the secondary prediction tasks, a PPO combined with Long Short Term Memory (LSTM) cells and a traditional navigation algorithm. The obtained results show a significant increase in the success rate (SR) and a lower crash rate (CR) compared to a PPO+LSTM, PPO+GTrXL and the classical Zermelo's navigation algorithm, paving the way to a completely reimagined UAV landscape in complex urban environments.

翻译标题:基于深度强化学习的三维城市流场导航

翻译摘要:无人驾驶飞行器(UAV)越来越多地在城市区域用于配送和监控。在这项工作中,我们开发了一种基于深度强化学习的最优导航策略。环境由一个三维高保真城市流场模拟表示,该流场具有湍流和回流区特征。本文提出的算法是结合了门控变换器超大(GTrXL)架构的流感知近端策略优化(PPO),使代理在湍流场中获得更丰富的信息。与没有辅助预测任务的 PPO+GTrXL、结合长短期记忆(LSTM)单元的 PPO 以及传统导航算法相比,结果表明成功率达到显著提升(SR),碰撞率显著降低(CR)。这为复杂城市环境中无人机的全新构想铺平了道路。


论文导览:


智能问答:

Q1: 这篇论文试图解决什么问题?

该研究旨在解决城市三维湍流环境中无人机的自主导航难题。具体而言,论文关注以下核心问题:

城市低空风场复杂:建筑尾流、湍流脉动、涡脱落、回流区等使得传统路径规划算法(如 Zermelo、RRT、PRM 等)在动态、部分可观测环境下失效,成功率低、碰撞率高。

现有深度强化学习(DRL)方法局限:已有 DRL 工作多集中在二维简化流场或静态障碍场景,缺乏对真实三维湍流时空演化的显式建模,导致策略难以利用风场结构、提前规避阵风漂移。

长时序依赖与部分可观测:城市导航属于 POMDP,LSTM 的固定隐状态难以捕获长距时空关联;纯注意力机制又面临记忆池噪声干扰,无法区分关键流场信息。

为此,论文提出 Flow-aware PPO+GTrXL 框架,通过联合优化“导航控制 + 流场预测”多目标,实现:

在三维高保真湍流数据库中实时感知并利用局部风场演化;
显著高于传统算法与基线 DRL 的成功率(97.6 % vs 61.3 %)并降低碰撞率(0.2 %)。

Q2: 有哪些相关研究?

相关研究可按“传统路径规划–深度学习–强化学习–流场导航”四条主线梳理:

1. 传统路径规划

势场法:Khatib 1986;Hwang & Ahuja 2002
栅格搜索:Dijkstra、A*、Jump Point Search;Champagne Gareau 等 2023
采样方法:RRT、RRT*、PRM;LaValle 1998;Kavraki 1998;Zhang 等 2022

2. 深度学习在 UAV 避障与感知

视觉/激光感知:Osco 等 2021 综述;Tang 等 2024 目标检测
改进检测头:Wang & Xiao 2023 Faster-RCNN 水下目标;Roghair 等 2021 视觉避障
SLAM 融合:Feng 等 2024 FR-SLAM;Ren 等 2022 室内轮式机器人

3. 强化学习导航(无流场)

DDPG 系列:Bouhamed 等 2020 3D 避障
DQN 改进:AlMahamid & Grolinger 2025 Agile-DQN 注意力视觉
TD3/DPRL:Sheng 等 2024 高密度动态障碍;Wang 等 2024 特权信息分布式训练
弹性/元学习:Zhao 等 2024 弹性自适应 DRL;Federici & Furfaro 2024 Transformer 元学习航天器

4. 强化学习在流场中导航(与本文最相关)

2D 湍流:Gunnarson 等 2021 V-Racer + 经验回放,固定速度 swimmer
梯度感知必要性:Jiao 等 2025 证明 egocentric 代理需感知流梯度才能穿越尾流
2D 城市简化流:Tonti 等 2025 PPO+LSTM,随机起点/目标/快照
Transformer 初步:Huang 等 2025 GTrXL-SAC 室内障碍;Berg 等 2025 DRL+NMPC 水面艇数字孪生

上述工作均未在三维高保真湍流城市风场中同时解决:

长时序依赖(GTrXL 全局注意力)
显式流场预测(CNN+GRU 编码 + 对比损失)
多目标闭环控制(PPO 联合优化策略-价值-流预测)

因此,本文将 PPO+GTrXL 与流场辅助任务引入 3D 湍流环境,填补了“流-感知”深度强化学习在城市无人机导航的空白。

Q3: 论文如何解决这个问题?

论文通过“多目标、流感知”的深度强化学习框架,将导航控制与流场预测联合训练,使无人机在三维高保真湍流城市环境中实现高成功率、低碰撞率的实时飞行。具体技术路线如下:

环境建模

采用 Nek5000 谱元法生成 300 快照、26.25 时间单位的三维湍流数据库,含两座建筑,网格 250³。

提出块-分解 + KD-tree + 三立方插值的轻量级 I/O 方案,实现任意时空点 u(x,y,z,t) 毫秒级查询。

状态-观测设计(POMDP)

状态向量:s=[x,y,z,u_g,v_g,w_g,ψ,ϑ],其中 u_g,v_g,w_g 为机体速度+当地流速。

观测向量:o={ψ,ϑ,ψ_target,ϑ_target,d_target,x,y,z}∪{θ_i,ϕ_j},附加 9×5 条射线的前视距离,用于局部避障。

奖励塑形

七分量奖励函数:r_t=σΔd (趋近) −ξe−βd_min (障碍) + R_free (空域) −0.06(|Δψ|+|Δϑ|) (最佳方向) −r_step (步长) −0.2‖u_g‖I_d≤1 (近目标减速) −0.2‖u_g−u_flow‖ (能耗)。

辅以“到达奖励/碰撞惩罚/出界惩罚/近目标小奖励”终止项,引导策略兼顾快速、安全、节能。

网络架构:Flow-aware PPO + GTrXL

多模态编码
– 观测流:标准 PPO MLP → 观测嵌入
– 流历史:1D-CNN(3,5) + GRU → 时序流嵌入
– 局部流场:3×3×3 流块 → 3D-CNN + 池化 → 空间流嵌入

GTrXL 核心
– 将三类嵌入拼接为 token 序列,加入可学习相对位置编码,送入 3 层 GTrXL 块(门控自注意力 + 残差)
– 输出:
– 策略头:当前观测 token → 动作 logits(推力 V∈[−2,2],角速率 Δψ,Δϑ∈[−π/4,π/4])
– 价值头:状态值 V^
– 流预测头:最新流 token → 下一快照局部流场 u^t+1

多目标训练
总损失:L=L_PPO+λL_contrastive,其中对比损失采用 InfoNCE,鼓励预测流与真实流嵌入相似、与其他时空样本远离,从而隐式学到对导航有利的流特征。

闭环推理

每 0.0875 时间单位更新一次流场,内部 40 子步 RK4 积分,满足伪 CFL 条件,保证穿越强梯度区域时的数值稳定性。
策略以 100 Hz 频率输出动作,实现毫秒级闭环抗扰。

实验验证

训练 200 快照,测试 100 未见快照,1000 对随机起-终点。
结果:
– 成功率 97.6 %(vs Zermelo 61.3 %,PPO+LSTM 86.7 %)
– 碰撞率 0.2 %(降低 2× 以上)
– 归一化回报 1.0±0.1,收敛速度较 LSTM 基线快约 2×

通过“注意力机制捕获长距时空依赖 + 对比流预测提供先验”,该框架让无人机在不重构全局地图、不依赖未来信息的条件下,实时利用局部湍流结构,提前规避阵风漂移,实现复杂城市环境下的安全、高效导航。

Q4: 论文做了哪些实验?

论文在三维高保真湍流城市数据库上共执行三类实验,覆盖训练过程、零样本泛化以及与经典优化算法的端到端对比,核心结果均以成功率(SR)、**碰撞率(CR)和归一化回报(Rnorm)**为统一指标。

训练曲线对比

设置:200 快照用于训练,每 50 万环境步记录一次指标,共 800 次训练迭代。

方法:
– PPO+LSTM(蓝色)
– PPO+GTrXL(橙色)
– Flow-aware PPO+GTrXL(绿色)

观测:
– 图 1a:Flow-aware 模型在 600 迭代后达到 Rnorm=1.0±0.1,显著高于 GTrXL(0.98±0.2) 与 LSTM(0.94±0.5)。
– 图 1b:训练期成功率峰值,Flow-aware 率先并持续保持 1.0;LSTM 最高仅 ≈0.92。
– 图 1c:碰撞率随训练下降,Flow-aware 多次出现零碰撞区间,终值 0.2 %;LSTM 终值 0.5 %。

零样本推理(Unseen Environment)

设置:固定上述三组训练好的策略,在全新 100 快照上各 rollout 1000 条轨迹(随机起-终点、随机初始快照)。

结果:
– SR:Flow-aware 97.6 % | GTrXL 95.7 % | LSTM 86.7 %
– CR:Flow-aware 0.2 % | GTrXL 0.4 % | LSTM 0.5 %

显著性:Flow-aware 在完全未见的湍流实现<0.3 % 碰撞,验证其对流场变化的泛化能力。

经典最优控制基准

对手:Zermelo 导航算法(B-spline 参数化 + SQP 求解),在同一 3D 域、同一 1000 对起-终点上运行。

限制:仅使用单张随机快照与随机初始位置一次性生成开环轨迹,无反馈重规划。

结果:
– SR:61.3 %
– CR:38.7 %

结论:开环最优解在动态湍流下严重失效,凸显闭环 DRL 的必要性;即便 LSTM 基线 SR 也达 86.7 %,全面超越传统优化。

轨迹可视化样本

图 2 给出两条典型 Flow-aware 策略轨迹(3D 曲线叠加流向速度切片),展示其:

– 利用建筑尾流顺流加速
– 提前绕开回流区,避免侧风漂移
– 末端精准切入目标球(半径 0.1 h)

消融与超参

对比损失权重 λ∈{0.1,1,10},最终取 λ=1 平衡 PPO 与辅助任务。

负样本数量 K=16(来自不同时空块),温度 τ=0.1。

RK4 子步 40 步 vs 10 步:40 步可将伪 CFL 违规率从 3 % 降至<0.1 %,保证数值稳定。

综上,实验从学习曲线、 unseen 泛化、经典基准、可视化案例到内部超参五个维度,系统验证了 Flow-aware PPO+GTrXL 在三维湍流城市导航中的显著性能增益与鲁棒性。

Q5: 有什么可以进一步探索的点?

可进一步探索的方向按“数据-感知-模型-系统-生态”五层归纳如下:

数据与流场建模

真实风场替换仿真:引入城市气象站、激光雷达或 CFD 在线辨识,研究 sim-to-real 差距。

多尺度湍流:耦合大涡模拟(LES)与快速雷诺平均(RANS)混合数据库,考察策略在解析度骤降时的鲁棒性。

随机极端事件:注入突风、下击暴流、建筑尾涡瞬时脱落等稀有样本,评估尾部风险与安全性边界。

感知与状态估计

取消“地面真值”流场:仅用机载压力/风速传感器或视觉光流,自监督训练流预测头,实现完全自主感知。

传感器噪声与延迟:量化 MEMS 风速计、IMU、摄像头延迟对注意力权重的影响,引入滤波-预测联合训练。

部分遮挡:当建筑遮挡 GPS 信号,融合视觉-惯性-磁力紧耦合 SLAM,维持全局定位。

模型与算法深化

多智能体共享风场:研究同空域多机对流场的耦合干扰,引入多智能体 PPO 与风场博弈。

分层策略:高层 Transformer 生成稀疏航路点,底层 NMPC 跟踪并满足动力学-输入约束,实现“学习+控制”混合。

元学习与快速适应:用 Model-Agnostic Meta RL 在多个城市几何间预训练,到达新街区仅需少量梯度更新即可飞行。

不确定性量化:输出流场预测置信区间,结合风险敏感 RL(CVaR),显式降低碰撞概率上界。

系统与硬件验证

机载计算受限:将 GTrXL 蒸馏为微型 Transformer 或 LSTM,量化至 INT8,在 100 g 级无人机 FPGA/NUC 上实时推理。

能量-续航联合优化:把电池模型、螺旋桨效率曲线写入奖励,学习“风场利用+省电”多目标 Pareto 前沿。

故障容错:单电机失效、阵风过载时,利用风场能量滑翔或紧急迫降,验证策略在失效模式下的安全性。

空域生态与法规

空管通信:接入 U-space 协议,实时广播意图与风场估计,验证与经典间隔管理算法的兼容性。

噪声-隐私多目标:在奖励中加入噪声 dB 估计与居民区域入侵惩罚,探索“安静-安全”航线。

伦理与可解释:可视化注意力热图,解释无人机为何选择贴近建筑或爬升穿越尾流,满足监管可审计要求。

通过“真实数据-低层感知-算法深化-硬件闭环-空域协同”逐层深入,可推动城市空中交通(UAM)从单架次仿真走向规模化、法规化、商业化的下一代自主飞行生态。

Q6: 总结一下论文的主要内容

论文核心贡献与内容可概括为“一个场景、一套架构、三项实验、四点结论”:

一个场景

首次在三维高保真城市湍流数据库(LES 300 快照、含建筑尾流与回流区)中研究 UAV 实时导航,环境具有强时变、部分可观测、多障碍特点。

一套架构

提出 Flow-aware PPO + GTrXL:

多模态编码(观测 MLP + 流历史 CNN-GRU + 局部流块 3D-CNN)
GTrXL 全局自注意力记忆
多目标输出(策略、价值、下一帧流场预测)
对比学习辅助损失,实现“控制-预测”联合优化。

三项实验

训练曲线:800 迭代内 Flow-aware 模型归一化回报 1.0±0.1,显著高于 PPO+GTrXL 与 PPO+LSTM。

零样本推理:在 100 未见快照 1000 条轨迹中,成功率 97.6 %,碰撞率 0.2 %,全面优于基线。

经典基准:同等条件下 Zermelo 最优开环控制成功率仅 61.3 %、碰撞率 38.7 %,证明闭环 DRL 的必要性。

四点结论

注意力机制比 LSTM 更有效地捕获三维长距时空依赖,提升样本效率。
显式流场预测头为策略提供“前瞻”信号,显著降低碰撞并平滑控制。
纯开环最优控制在动态湍流中脆弱,闭环强化学习具备更强鲁棒性。
所提框架为复杂城市空中交通提供了一条可扩展的“流-感知”自主导航新范式。

阅读全文 →

来源:Arxiv2025-10-29 16:46:00 UTC


返回
友情链接