从「单兵 Harness」到「团队 G-MAT」:ClawCode 把协同工程做进终端
来源: | 作者:DE.Tech | 发布时间: 2026-05-19 | 41 次浏览 | 🔊 点击朗读正文 ❚❚ | 分享到:
ClawCode提出了G-MAT(通用多智能体团队模型),旨在将AI团队协作从临时发挥转化为可复用的工程能力。该模型通过六个旋钮形式化团队运作,实现各领域只需换配置、不换引擎。核心流程包含四个闭环:团队编排(用一句话拉起工程、设计、研究等不同角色的团队)、团队技能沉淀(通过TECAP记录协作轨迹和决策,使其可检索和版本化)、复用(新任务可加载历史经验胶囊)以及自演进(团队和知识层通过反馈循环不断优化)。同时,ClawCode支持人机协同的两种模式(HOTS和HITS),并建立了严格的验收门禁和证据契约,以提升交付质量。实战数据显示,该方案在降低任务差距、提升交接成功率、减少无效沉淀和虚假完成率等方面有显著效果,并能应用于工程交付、产品设计和学术研究等不同场景。

从「单兵 Harness」到「团队 G-MAT」:ClawCode 把协同工程做进终端里

技术底座:开源 ClawCode · 团队模型:G-MAT(Generalized Multi-Agent Team)

今年 AI Agent 圈有一个清晰的方向变化:大家不再只问「模型有多强」,而是开始问——一支 Agent 团队,能不能像真实项目组一样分工、交接、验收、复盘,并且越用越强?

这就是协同工程(Coordination Engineering)要回答的问题:在 Harness Engineering(单 Agent 长程执行、工具治理、轨迹恢复)已经卷到天花板之后,下一跳必然是多 Agent 协同的工程化

ClawCode 在此之前已经在这一跳上给出了前沿的答案,不是又多一个聊天窗口,而是一套可落地、可审计、可进化的G-MAT 通用团队模型——同一套骨架,撑起工程交付、产品设计、学术研究三条战线。

类似技术目前已经成为华为JiuwenSwarm平台社区团队协作模型核心技术解决方案。

为什么是现在?复杂任务从来都不是「一个人」的事

AI 工程范式一直在升级:Prompt Engineering(调提示词)→ Context Engineering(记忆与工具)→ Harness Engineering(轨迹与恢复)→Coordination Engineering(角色、契约、收敛、沉淀)

软件要产品 + 研发 + 测试 + SRE;设计要研究 + 交互 + 视觉;科研要检索 + 分析 + 写作 + 核验——真实世界一直是团队战。G-MAT 要做的,是把团队战从「临场发挥」变成可复用的工程能力

G-MAT 是什么?领域无关的「团队操作系统」

G-MAT 把一支 AI 团队形式化为六个旋钮,任意领域只换配置、不换引擎:角色注册表(谁在场、用什么工具)、团队拓扑(汇报与升级)、交接契约(交付物与验收标准)、工作流阶段(澄清→规划→执行→验收)、收敛配置(什么叫做完)、协调度量(交接成功率、返工率、gap 轨迹)。

在 ClawCode 里,你不是「多开几个 Chat」,而是在跑一台团队运行时

            

图1:G-MAT 协同工程全栈(编排·TECAP·生态·自演进飞轮)

四段能力闭环:编排 → 沉淀 → 复用 → 进化

(1)团队编排:从单兵到成军

工程线:14 个内置角色,/clawteam一句话拉起编排。设计线:6 角色 + 7 阶段,/designteam --deep_loop按阶段收敛。研究线:8 角色、3 段并行,支持 union / consensus 等合并策略。跨域流水线:clawcode saddle run贯通 spec → design → develop。

支持按角色路由不同模型,支持 worktree 隔离,并行写代码少冲突。

(2)团队技能:把「这支队伍」封成「一套战法」

协作跑通一次不算赢,赢在下一次还能复制。ClawCode 用TECAP(团队经验胶囊)记录团队目标、协作轨迹、交接契约、决策日志、协调指标与每轮 gap,并用团队经验函数做四维加权打分(交付质量、周期、返工、升级)。

与「一堆聊天记录」的本质区别:可检索、可治理、可版本化。


图2:TECAP 团队技能包 · 创建 → 自演进 → 维护


(3)复用:团队技能进项目、进流水线

本地路径:.saddle/learning/.clawcode/learning/。命令:/team-experience-apply --strategy conservative(保守 / 平衡 / 激进),--explain可查看命中原因。新任务先加载最接近的 TECAP,再微调。

(4)自演进:团队与成员「双螺旋」

团队层 L1:每轮 gap、交接是否成功,驱动 Deep Loop 继续或回滚。知识层 L2:轨迹与反馈沉淀为 TECAP、演化 Skills、Instinct 规则。配合质量门、金丝雀、SLO 护栏,避免「越学越歪」。

人机怎么一起打?HOTS 与 HITS

HOTS(人站在团队之上):像指挥官,看 HUD 与 gap 曲线,随时调整优先级、换角色、喊停。适合 Tech Lead、交付负责人。

HITS(人站在团队之中):像队员,在设计流、研究流里与 Agent 同屏共创,发言进入同一协作轨迹。适合产品、设计、研究员。

一条终端界面,两种姿势,不用换工具链。

门禁 + 证据:协同工程的「纪律」

很多多 Agent 翻车,不是因为模型笨,而是因为没有门禁、没有证据

G-MAT-Pipeline 四段:澄清(/spec)→ 规划(/plan/architect)→ 执行(团队命令)→ 验收(结构化指标)。规划期只读拦住乱写;执行期有契约;完成要有测试 / lint / 评审证据,拒绝「应该好了吧」式收工。

实战效果(技术报告合成基准,可复现)

机制观察
Deep Loop终态 gap 相对降幅约 95%
TECAP 检索交接成功率提升约 20%
治理门控无效胶囊晋升率降低约 65%
证据契约「虚假完成」从约 32% 降至约 8%
技能复用二次任务收敛迭代数减少约 56%

说明:以上为合成基准指标,非第三方 Benchmark;复现见 GitHub clawcode/paper/experiments/run_all_team_experiments.py


图3:G-MAT 机制效果看板(合成基准 · seed=42)


三个场景,看懂怎么用

场景 A · 工程交付

/clawteam --deep_loop 实现带审计日志的订单模块,测试全绿再收敛

架构分析 → 工程实现 → QA 打分 → gap 达标;轨迹写入 TECAP,下次可复用交接契约。

场景 B · 产品设计

/designteam --deep_loop 重做 SaaS onboarding

七阶段设计流,每阶段一个角色主场,输出可交付研发的设计包。

场景 C · 学术研究

/research team 量子纠错综述 --strategy hybrid --max-iters 3

多角色并行 + 共识合并 + 收敛检测,产出 RTECAP 领域模板。

和「只会写代码的助手」比,差在哪?

常见 AI 编程助手ClawCode + G-MAT
单会话、单角色多角色编排 + 收敛环
聊完即散TECAP / ECAP 持久学习
完成靠感觉测试 / lint / 评审证据
协作不可复制团队技能可 apply、可反馈、可演进
工具强但无团队Harness + Coordination 一体

结语

AI Agent 的未来,不属于一个无所不能的「超级个体」,而属于各有所长、契约清晰、能量化复盘、持续进化的群体智能。

G-MAT是这套群体的语法;ClawCode是今天就能在终端里跑的参考实现。

技术报告:clawcode/paper/TEAM_PAPER.zh.md · 经验学习:clawcode/paper/PAPER.zh.md · 开源共建,欢迎 Star 与 PR。

下一篇你想看「一次 Deep Loop 的 gap 曲线实录」,还是「TECAP 如何选中历史团队经验」?欢迎留言。

AI Agent · 协同工程 · 团队协作 · G-MAT · ClawCode · 开源项目

注:数据公开发布,版权出版方所有,不构成任何投资建议
返回