从「单兵 Harness」到「团队 G-MAT」：ClawCode 把协同工程做进终端

来源: | 作者:DE.Tech | 发布时间: 2026-05-19 | 222 次浏览 | 🔊 点击朗读正文 ❚❚ ▶ | 分享到:

ClawCode提出了G-MAT（通用多智能体团队模型），旨在将AI团队协作从临时发挥转化为可复用的工程能力。该模型通过六个旋钮形式化团队运作，实现各领域只需换配置、不换引擎。核心流程包含四个闭环：团队编排（用一句话拉起工程、设计、研究等不同角色的团队）、团队技能沉淀（通过TECAP记录协作轨迹和决策，使其可检索和版本化）、复用（新任务可加载历史经验胶囊）以及自演进（团队和知识层通过反馈循环不断优化）。同时，ClawCode支持人机协同的两种模式（HOTS和HITS），并建立了严格的验收门禁和证据契约，以提升交付质量。实战数据显示，该方案在降低任务差距、提升交接成功率、减少无效沉淀和虚假完成率等方面有显著效果，并能应用于工程交付、产品设计和学术研究等不同场景。

从「单兵 Harness」到「团队 G-MAT」：ClawCode 把协同工程做进终端里

技术底座：开源 ClawCode · 团队模型：G-MAT（Generalized Multi-Agent Team）

今年 AI Agent 圈有一个清晰的方向变化：大家不再只问「模型有多强」，而是开始问——一支 Agent 团队，能不能像真实项目组一样分工、交接、验收、复盘，并且越用越强？

这就是协同工程（Coordination Engineering）要回答的问题：在 Harness Engineering（单 Agent 长程执行、工具治理、轨迹恢复）已经卷到天花板之后，下一跳必然是多 Agent 协同的工程化。

ClawCode 在此之前已经在这一跳上给出了前沿的答案，不是又多一个聊天窗口，而是一套可落地、可审计、可进化的G-MAT 通用团队模型——同一套骨架，撑起工程交付、产品设计、学术研究三条战线。

类似技术目前已经成为华为JiuwenSwarm平台社区团队协作模型核心技术解决方案。

为什么是现在？复杂任务从来都不是「一个人」的事

AI 工程范式一直在升级：Prompt Engineering（调提示词）→ Context Engineering（记忆与工具）→ Harness Engineering（轨迹与恢复）→Coordination Engineering（角色、契约、收敛、沉淀）。

软件要产品 + 研发 + 测试 + SRE；设计要研究 + 交互 + 视觉；科研要检索 + 分析 + 写作 + 核验——真实世界一直是团队战。G-MAT 要做的，是把团队战从「临场发挥」变成可复用的工程能力。

G-MAT 是什么？领域无关的「团队操作系统」

G-MAT 把一支 AI 团队形式化为六个旋钮，任意领域只换配置、不换引擎：角色注册表（谁在场、用什么工具）、团队拓扑（汇报与升级）、交接契约（交付物与验收标准）、工作流阶段（澄清→规划→执行→验收）、收敛配置（什么叫做完）、协调度量（交接成功率、返工率、gap 轨迹）。

在 ClawCode 里，你不是「多开几个 Chat」，而是在跑一台团队运行时。

图1：G-MAT 协同工程全栈（编排·TECAP·生态·自演进飞轮）

四段能力闭环：编排 → 沉淀 → 复用 → 进化

（1）团队编排：从单兵到成军

工程线：14 个内置角色，/clawteam一句话拉起编排。设计线：6 角色 + 7 阶段，/designteam --deep_loop按阶段收敛。研究线：8 角色、3 段并行，支持 union / consensus 等合并策略。跨域流水线：clawcode saddle run贯通 spec → design → develop。

支持按角色路由不同模型，支持 worktree 隔离，并行写代码少冲突。

（2）团队技能：把「这支队伍」封成「一套战法」

协作跑通一次不算赢，赢在下一次还能复制。ClawCode 用TECAP（团队经验胶囊）记录团队目标、协作轨迹、交接契约、决策日志、协调指标与每轮 gap，并用团队经验函数做四维加权打分（交付质量、周期、返工、升级）。

与「一堆聊天记录」的本质区别：可检索、可治理、可版本化。

（3）复用：团队技能进项目、进流水线

本地路径：.saddle/learning/、.clawcode/learning/。命令：/team-experience-apply --strategy conservative（保守 / 平衡 / 激进），--explain可查看命中原因。新任务先加载最接近的 TECAP，再微调。

（4）自演进：团队与成员「双螺旋」

团队层 L1：每轮 gap、交接是否成功，驱动 Deep Loop 继续或回滚。知识层 L2：轨迹与反馈沉淀为 TECAP、演化 Skills、Instinct 规则。配合质量门、金丝雀、SLO 护栏，避免「越学越歪」。

人机怎么一起打？HOTS 与 HITS

HOTS（人站在团队之上）：像指挥官，看 HUD 与 gap 曲线，随时调整优先级、换角色、喊停。适合 Tech Lead、交付负责人。

HITS（人站在团队之中）：像队员，在设计流、研究流里与 Agent 同屏共创，发言进入同一协作轨迹。适合产品、设计、研究员。

一条终端界面，两种姿势，不用换工具链。

门禁 + 证据：协同工程的「纪律」

很多多 Agent 翻车，不是因为模型笨，而是因为没有门禁、没有证据。

G-MAT-Pipeline 四段：澄清（/spec）→ 规划（/plan、/architect）→ 执行（团队命令）→ 验收（结构化指标）。规划期只读拦住乱写；执行期有契约；完成要有测试 / lint / 评审证据，拒绝「应该好了吧」式收工。

实战效果（技术报告合成基准，可复现）

机制	观察
Deep Loop	终态 gap 相对降幅约 95%
TECAP 检索	交接成功率提升约 20%
治理门控	无效胶囊晋升率降低约 65%
证据契约	「虚假完成」从约 32% 降至约 8%
技能复用	二次任务收敛迭代数减少约 56%

说明：以上为合成基准指标，非第三方 Benchmark；复现见 GitHub clawcode/paper/experiments/run_all_team_experiments.py

三个场景，看懂怎么用

场景 A · 工程交付

/clawteam --deep_loop 实现带审计日志的订单模块，测试全绿再收敛

架构分析 → 工程实现 → QA 打分 → gap 达标；轨迹写入 TECAP，下次可复用交接契约。

场景 B · 产品设计

/designteam --deep_loop 重做 SaaS onboarding

七阶段设计流，每阶段一个角色主场，输出可交付研发的设计包。

场景 C · 学术研究

/research team 量子纠错综述 --strategy hybrid --max-iters 3

多角色并行 + 共识合并 + 收敛检测，产出 RTECAP 领域模板。

和「只会写代码的助手」比，差在哪？

常见 AI 编程助手	ClawCode + G-MAT
单会话、单角色	多角色编排 + 收敛环
聊完即散	TECAP / ECAP 持久学习
完成靠感觉	测试 / lint / 评审证据
协作不可复制	团队技能可 apply、可反馈、可演进
工具强但无团队	Harness + Coordination 一体

结语

AI Agent 的未来，不属于一个无所不能的「超级个体」，而属于各有所长、契约清晰、能量化复盘、持续进化的群体智能。

G-MAT是这套群体的语法；ClawCode是今天就能在终端里跑的参考实现。

技术报告：clawcode/paper/TEAM_PAPER.zh.md · 经验学习：clawcode/paper/PAPER.zh.md · 开源共建，欢迎 Star 与 PR。

下一篇你想看「一次 Deep Loop 的 gap 曲线实录」，还是「TECAP 如何选中历史团队经验」？欢迎留言。

AI Agent · 协同工程 · 团队协作 · G-MAT · ClawCode · 开源项目

更多

注：数据公开发布，版权出版方所有，不构成任何投资建议

返回