深度元素智能
VeriMoA:一种无训练的混合智能体框架用于从规格生成 HDL
来源: | 作者:DE.Tech | 发布时间: 2025-11-04 | 204 次浏览 | 🔊 点击朗读正文 ❚❚ | 分享到:
这篇论文试图解决什么问题?论文针对“从自然语言规格自动生成寄存器传输级(RTL)代码”这一任务,提出当前大模型方法存在两大核心缺陷:噪声传播脆弱性:现有单模型或线性多智能体流程一旦某一步生成错误,后续层会级联放大,导致整体质量下降。探索空间受限:纯 HDL 路径使大模型只能依赖其稀疏的硬件描述语言先验,难以像在高资源语言(C++/Python)中那样充分展开推理,易陷入局部最优。为此,作者提出无训练的混合智能体框架 VERIMOA,通过全局质量引导缓存(quality-guided caching)切断层间错误依赖,实现跨层单调知识积累;多路径生成(multi-path generation)引入 C++ 与 Python 作为中间表示,把“规格→HDL”拆成两阶段,借助大模型在高资源语言上的强项扩大解空间。目标是在无需昂贵微调的前提下,系统性提升生成 RTL 的功能正确率,并让小模型也能达到或超越大模型及微调模型的性能。

🌟 今日前沿论文 · 2025年10月31日

精选科技前沿资讯,洞察科技研究趋势

🔥🔥🔥🔥🔥AI设计

VeriMoA:一种无训练的混合智能体框架用于从规格生成 HDL

#AI设计#HDL生成#混合智能体#质量引导缓存#多路径生成

论文原始标题:VeriMoA: A Mixture-of-Agents Framework for Spec-to-HDL Generation

论文作者:Authors: Heng Ping, Arijit Bhattacharjee, Peiyu Zhang, Shixuan Li, Wei Yang, Anzhe Cheng, Xiaole Zhang, Jesse Thomason, Ali Jannesari, Nesreen Ahmed, Paul Bogdan

原始摘要:Automation of Register Transfer Level (RTL) design can help developers meet increasing computational demands. Large Language Models (LLMs) show promise for Hardware Description Language (HDL) generation, but face challenges due to limited parametric knowledge and domain-specific constraints. While prompt engineering and fine-tuning have limitations in knowledge coverage and training costs, multi-agent architectures offer a training-free paradigm to enhance reasoning through collaborative generation. However, current multi-agent approaches suffer from two critical deficiencies: susceptibility to noise propagation and constrained reasoning space exploration. We propose VeriMoA, a training-free mixture-of-agents (MoA) framework with two synergistic innovations. First, a quality-guided caching mechanism to maintain all intermediate HDL outputs and enables quality-based ranking and selection across the entire generation process, encouraging knowledge accumulation over layers of reasoning. Second, a multi-path generation strategy that leverages C++ and Python as intermediate representations, decomposing specification-to-HDL translation into two-stage processes that exploit LLM fluency in high-resource languages while promoting solution diversity. Comprehensive experiments on VerilogEval 2.0 and RTLLM 2.0 benchmarks demonstrate that VeriMoA achieves 15--30% improvements in Pass@1 across diverse LLM backbones, especially enabling smaller models to match larger models and fine-tuned alternatives without requiring costly training.

翻译标题:VeriMoA:一种无训练的混合智能体框架用于从规格生成 HDL

翻译摘要:寄存器传输级(RTL)设计的自动化可以帮助开发者满足日益增长的计算需求。大语言模型(LLMs)在硬件描述语言(HDL)生成方面展现出潜力,但由于参数知识有限和领域特定约束,面临挑战。虽然提示工程和微调在知识覆盖和训练成本方面存在限制,但多智能体架构提供了一种无需训练的范式,通过协作生成增强推理能力。然而,当前多智能体方法存在两个关键缺陷:对噪声传播的敏感性和推理空间探索的限制。我们提出 VeriMoA,这是一种无训练的混合智能体(MoA)框架,包含两项协同创新:首先,一种质量引导的缓存机制,以维护所有中间 HDL 输出,并在整个生成过程中实现基于质量的排序和选择,鼓励跨推理层的知识积累;其次,一种多路径生成策略,利用 C++ 和 Python 作为中间表示,将规格到 HDL 的翻译分解为两阶段流程,利用大模型在高资源语言中的流畅性,同时促进解决方案多样性。在 VerilogEval 2.0 和 RTLLM 2.0 基准上的综合实验表明,VeriMoA 在多种 LLM 后端上实现了 15-30% 的 Pass@1 提升,尤其让小型模型能够在不进行昂贵训练的情况下达到甚至超越大型模型和微调模型的性能。

智能问答:

Q1: 这篇论文试图解决什么问题?

论文针对“从自然语言规格自动生成寄存器传输级(RTL)代码”这一任务,提出当前大模型方法存在两大核心缺陷:

噪声传播脆弱性:现有单模型或线性多智能体流程一旦某一步生成错误,后续层会级联放大,导致整体质量下降。

探索空间受限:纯 HDL 路径使大模型只能依赖其稀疏的硬件描述语言先验,难以像在高资源语言(C++/Python)中那样充分展开推理,易陷入局部最优。

为此,作者提出无训练的混合智能体框架 VERIMOA,通过

全局质量引导缓存(quality-guided caching)切断层间错误依赖,实现跨层单调知识积累;

多路径生成(multi-path generation)引入 C++ 与 Python 作为中间表示,把“规格→HDL”拆成两阶段,借助大模型在高资源语言上的强项扩大解空间。

目标是在无需昂贵微调的前提下,系统性提升生成 RTL 的功能正确率,并让小模型也能达到或超越大模型及微调模型的性能。

Q2: 有哪些相关研究?

与 VERIMOA 直接相关的研究可归纳为三条主线,均围绕“用大模型自动生成 HDL”展开:

单模型/提示工程路线

ParaHDL(Sun et al., 2025)

AoT – Abstractions-of-Thought(DeLorenzo et al., 2025)

HDLCoRe(Ping et al., 2025)

共同点:仅依赖提示模板或 RAG,不修改参数,受限于大模型自身稀疏的 HDL 先验。

微调/强化学习路线

RTLCoder 系列(Liu et al., 2024a)

AutoVCoder(Gao et al., 2024)

VeriSeek / ChipSeekR1(Chen et al., 2025)

VeriRL-DeepSeek-Coder / CodeQwen2.5(Teng et al., 2025)

共同点:在大规模仿真验证语料上微调或 RL,性能高但需重训练,无法即插即用。

多智能体系统路线

MAGE(Zhao et al., 2024)——线性流水线,错误级联。

CoopetitiveV(Mi et al., 2024)——无结构辩论,噪声大。

VeriMaAS(Bhattaram et al., 2025)——自适应多代理,仍缺全局质量过滤。

VERIMOA 在上述基础上首次引入“全局质量缓存 + 多路径中间表示”,既无需训练,又克服噪声传播与探索受限两大缺陷,与以上三类方法形成直接对比。

Q3: 论文如何解决这个问题?

论文把“规格→HDL”自动化拆成两个互补机制,协同解决噪声传播与探索受限问题:

质量引导的全局缓存(Quality-Guided Global Cache)

每层所有代理生成的 HDL 及其仿真得分实时写入全局缓存,打破“仅相邻层可见”的级联依赖。

后续层代理的提示只从缓存中选取跨层 Top-n 最高质量代码作为参考,保证 nminnH∈nHn(n)ni+1nq(H)≥nminnH∈nHn(n)ninq(H)n 实现单调非降的知识积累,错误片段被自动过滤。

多路径中间表示生成(Multi-Path Generation with IR)

同一层内并行运行三类代理:

Base 路径:规格 → HDL(传统方式)

C++ 路径:规格 → C++(HLS 风格) → HDL

Python 路径:规格 → Python(行为级) → HDL

两阶段流程利用大模型在高资源语言上的强先验,把抽象需求显式化为算法结构,再映射到硬件;同时三条轨迹天然引入结构差异,扩大解空间。中间代码也按“生成 HDL 的得分”进行质量缓存,实现跨层双向质量提升。

可选仿真自精化(Simulator-Based Self-Refinement)

任一代理在输出 HDL 后可立即用测试平台仿真,根据波形/报错进行局部迭代,进一步压缩残余错误。

通过“全局质量筛选”抑制噪声,“多路径 IR”放大有效探索,VERIMOA 在不进行任何梯度更新的情况下,把 Pass@1 相对最强基线提升 15–30%,并让 7 B 模型反超 32 B 模型或专用微调模型。

Q4: 论文做了哪些实验?

实验围绕 4 个研究问题展开,覆盖 2 个公开基准、6 类 backbone、11 组对照方法与系统级消融。

实验t目的t关键设置t主要结论

RQ1 主实验t与现有最优方法对比tVerilogEval 2.0 (156 题) + RTLLM 2.0 (50 题);pass@k, k∈{1,3,5};n=10 样本tVERIMOA 在所有 backbone 上 Pass@1 提升 15–30%;7 B 模型反超 32 B 基线,与专用微调模型打平或更好

RQ2 消融t量化各组件贡献t6 种配置:Base→MoA→MoA+Two-stage→MoA+Q-Cache→MoA+Q-Cache+Two-stage→Full(+SR)tQ-Cache 单点增益最大(+11.9 p.p.);Two-stage 需依赖 Q-Cache 才能发挥二次增益(+11.3 p.p.);SR 再额外 +4.4 p.p.

RQ3 超参敏感t层深 L 与层宽 M 的影响tL∈{1,2,3,4}, M∈{1,2,4,6}, 总 agent 数≤24t两者需同时充足;同等总 agent 时“加宽”优于“加深”,验证多路径多样性优先

RQ4 质量-多样性演化t验证缓存机制是否真地“越往后越好”t在 RTLLM 的 LIFObuffer 任务上跟踪每层 Top-6 候选的质量得分与 Vendi 多样性t仅 MoA 质量停滞;引入 Q-Cache 后质量单调上升 0.50→0.82,pass 率 50%;再叠加 Two-stage 达 0.93/80%,且多样性保持 4.8,证明“高质量+高多样性”可兼得

所有实验均用 Icarus Verilog 仿真,温度=0.8/top-p=0.95,与 VerilogEval 2.0 官方设置一致,保证公平可比。

Q5: 有什么可以进一步探索的点?

异构智能体调度

当前每层仅静态分配 Base/C++/Python 三类代理。可引入动态路由机制,根据规格关键词或中间代码质量实时决定下一层代理类型与数量,实现“宽度-深度”自适应。

多层次中间表示

仅尝试 C++ 与 Python;可加入 SystemC、Chisel、PyTorch-C++ HLS 等更高抽象或领域专用 IR,进一步放大 LLM 的先验优势,并研究不同 IR 对时序/面积/功耗的隐含影响。

强化学习驱动的缓存更新

质量评分目前依赖仿真+规则。可把“选哪条中间代码进入 Top-n”视为序列决策,用强化学习优化长期 Pass@k 收益,实现缓存策略的自我进化。

跨语言一致性验证

两阶段流程可能出现“高级代码正确但 HDL 翻译错”的语义漂移。可引入双向等价性检查(SMT、BMC 或差分测试),把“IR↔HDL”一致性纳入评分函数,提升翻译可靠性。

可综合性与物理约束联合优化

现指标只关注功能正确。可将综合后面积、时钟频率、功耗等加入多目标评分,探索“功能-性能-功耗”帕累托前沿,实现真正意义上的 RTL 综合友好生成。

噪声注入与鲁棒性分析

系统对低质量输入具有过滤能力,但缺乏定量刻画。可主动在缓存中注入带噪声代码,测量框架恢复速度及最终性能,建立鲁棒性边界理论。

在线知识蒸馏

大模型生成的优质 HDL 片段可实时回注到较小模型上下文中,形成“生成-筛选-蒸馏”闭环,逐步提升小模型独立生成能力,降低推理成本。

开源工具链集成

将 VERIMOA 嵌入现成 EDA 流程(Yosys、Vivado、Synopsys),实现从规格到门级网表的端到端自动化,并收集综合/布局/布线反馈,形成持续迭代的数据飞轮。

Q6: 总结一下论文的主要内容

论文核心内容速览

任务与痛点

自动把自然语言规格转成可综合 Verilog(RTL)。现有 LLM 方法:

单模型/提示:HDL 语料稀缺→幻觉严重

微调:数据与算力成本高

多智能体:线性流水线错误级联;无结构辩论噪声大,且探索空间受限于纯 HDL 路径

VERIMOA 框架(训练-free)

质量引导全局缓存

每层所有代理输出及仿真得分写入同一缓存;后续层只取跨层 Top-n 最高分代码作参考,切断级联误差,保证 nminq(nHni+1n)≥minq(nHnin)n

多路径中间表示

同层并行三条代理:

Base:规格 → HDL

C++:规格 → C++ → HDL

Python:规格 → Python → HDL

两阶段利用 LLM 在高资源语言的强先验,扩大解空间;中间代码也按“生成 HDL 的得分”跨层缓存,实现双向质量提升

可选仿真自精化

代理可用测试平台即时仿真-迭代,进一步压缩残余错误

理论保证

基于 Mixture-of-Agents 性能分解 nt=αq+βdn,证明:

全局缓存 ⇒ 参考质量 nqn 单调非降

多路径 ⇒ 代理能力 nqn 与多样性 ndn 同步提升

二者协同,期望性能随层数递增而非衰减

实验结果

基准:VerilogEval 2.0(156 题)与 RTLLM 2.0(50 题),pass@k(n=10)

对照:11 组基线(直接提示、CoT、HDLCoRe、VeriMaAS 及 6 款微调模型)

提升:

7B 模型 Pass@1 绝对提升 23–34 p.p.,反超 32B 基线

32B+VERIMOA 达 73.31%,比最强微调模型再高出 7 p.p.

消融:质量缓存贡献最大;中间表示需依赖缓存才能发挥二次增益

超参:宽≥4、深≥3 且“加宽”优于“加深”

案例:缓存机制使质量得分单调上升 0.50→0.93,pass 率 0→80%,同时保持高多样性

结论

通过“全局质量筛选 + 多路径 IR”两项无训练创新,VERIMOA 在多款 backbone 上稳定提升 15–30%,让小模型无需微调即可匹敌或超越大模型与专用微调模型,为自动化 RTL 设计提供了可扩展的新范式。

阅读全文 →

来源:Arxiv2025-10-31 16:40:58 UTC


返回
友情链接