从「单兵 Harness」到「团队 G-MAT」:ClawCode 把协同工程做进终端里
今年 AI Agent 圈有一个清晰的方向变化:大家不再只问「模型有多强」,而是开始问——一支 Agent 团队,能不能像真实项目组一样分工、交接、验收、复盘,并且越用越强?
这就是协同工程(Coordination Engineering)要回答的问题:在 Harness Engineering(单 Agent 长程执行、工具治理、轨迹恢复)已经卷到天花板之后,下一跳必然是多 Agent 协同的工程化。
ClawCode 在此之前已经在这一跳上给出了前沿的答案,不是又多一个聊天窗口,而是一套可落地、可审计、可进化的G-MAT 通用团队模型——同一套骨架,撑起工程交付、产品设计、学术研究三条战线。
类似技术目前已经成为华为JiuwenSwarm平台社区团队协作模型核心技术解决方案。
为什么是现在?复杂任务从来都不是「一个人」的事
AI 工程范式一直在升级:Prompt Engineering(调提示词)→ Context Engineering(记忆与工具)→ Harness Engineering(轨迹与恢复)→Coordination Engineering(角色、契约、收敛、沉淀)。
软件要产品 + 研发 + 测试 + SRE;设计要研究 + 交互 + 视觉;科研要检索 + 分析 + 写作 + 核验——真实世界一直是团队战。G-MAT 要做的,是把团队战从「临场发挥」变成可复用的工程能力。
G-MAT 是什么?领域无关的「团队操作系统」
G-MAT 把一支 AI 团队形式化为六个旋钮,任意领域只换配置、不换引擎:角色注册表(谁在场、用什么工具)、团队拓扑(汇报与升级)、交接契约(交付物与验收标准)、工作流阶段(澄清→规划→执行→验收)、收敛配置(什么叫做完)、协调度量(交接成功率、返工率、gap 轨迹)。
在 ClawCode 里,你不是「多开几个 Chat」,而是在跑一台团队运行时。

四段能力闭环:编排 → 沉淀 → 复用 → 进化
(1)团队编排:从单兵到成军
工程线:14 个内置角色,/clawteam一句话拉起编排。设计线:6 角色 + 7 阶段,/designteam --deep_loop按阶段收敛。研究线:8 角色、3 段并行,支持 union / consensus 等合并策略。跨域流水线:clawcode saddle run贯通 spec → design → develop。
支持按角色路由不同模型,支持 worktree 隔离,并行写代码少冲突。
(2)团队技能:把「这支队伍」封成「一套战法」
协作跑通一次不算赢,赢在下一次还能复制。ClawCode 用TECAP(团队经验胶囊)记录团队目标、协作轨迹、交接契约、决策日志、协调指标与每轮 gap,并用团队经验函数做四维加权打分(交付质量、周期、返工、升级)。
与「一堆聊天记录」的本质区别:可检索、可治理、可版本化。

(3)复用:团队技能进项目、进流水线
本地路径:.saddle/learning/、.clawcode/learning/。命令:/team-experience-apply --strategy conservative(保守 / 平衡 / 激进),--explain可查看命中原因。新任务先加载最接近的 TECAP,再微调。
(4)自演进:团队与成员「双螺旋」
团队层 L1:每轮 gap、交接是否成功,驱动 Deep Loop 继续或回滚。知识层 L2:轨迹与反馈沉淀为 TECAP、演化 Skills、Instinct 规则。配合质量门、金丝雀、SLO 护栏,避免「越学越歪」。
人机怎么一起打?HOTS 与 HITS
HOTS(人站在团队之上):像指挥官,看 HUD 与 gap 曲线,随时调整优先级、换角色、喊停。适合 Tech Lead、交付负责人。
HITS(人站在团队之中):像队员,在设计流、研究流里与 Agent 同屏共创,发言进入同一协作轨迹。适合产品、设计、研究员。
一条终端界面,两种姿势,不用换工具链。
门禁 + 证据:协同工程的「纪律」
很多多 Agent 翻车,不是因为模型笨,而是因为没有门禁、没有证据。
G-MAT-Pipeline 四段:澄清(/spec)→ 规划(/plan、/architect)→ 执行(团队命令)→ 验收(结构化指标)。规划期只读拦住乱写;执行期有契约;完成要有测试 / lint / 评审证据,拒绝「应该好了吧」式收工。
实战效果(技术报告合成基准,可复现)
| 机制 | 观察 |
|---|---|
| Deep Loop | 终态 gap 相对降幅约 95% |
| TECAP 检索 | 交接成功率提升约 20% |
| 治理门控 | 无效胶囊晋升率降低约 65% |
| 证据契约 | 「虚假完成」从约 32% 降至约 8% |
| 技能复用 | 二次任务收敛迭代数减少约 56% |
说明:以上为合成基准指标,非第三方 Benchmark;复现见 GitHub clawcode/paper/experiments/run_all_team_experiments.py

三个场景,看懂怎么用
场景 A · 工程交付
/clawteam --deep_loop 实现带审计日志的订单模块,测试全绿再收敛
架构分析 → 工程实现 → QA 打分 → gap 达标;轨迹写入 TECAP,下次可复用交接契约。
场景 B · 产品设计
/designteam --deep_loop 重做 SaaS onboarding
七阶段设计流,每阶段一个角色主场,输出可交付研发的设计包。
场景 C · 学术研究
/research team 量子纠错综述 --strategy hybrid --max-iters 3
多角色并行 + 共识合并 + 收敛检测,产出 RTECAP 领域模板。
和「只会写代码的助手」比,差在哪?
| 常见 AI 编程助手 | ClawCode + G-MAT |
|---|---|
| 单会话、单角色 | 多角色编排 + 收敛环 |
| 聊完即散 | TECAP / ECAP 持久学习 |
| 完成靠感觉 | 测试 / lint / 评审证据 |
| 协作不可复制 | 团队技能可 apply、可反馈、可演进 |
| 工具强但无团队 | Harness + Coordination 一体 |
结语
AI Agent 的未来,不属于一个无所不能的「超级个体」,而属于各有所长、契约清晰、能量化复盘、持续进化的群体智能。
G-MAT是这套群体的语法;ClawCode是今天就能在终端里跑的参考实现。
技术报告:clawcode/paper/TEAM_PAPER.zh.md · 经验学习:clawcode/paper/PAPER.zh.md · 开源共建,欢迎 Star 与 PR。
下一篇你想看「一次 Deep Loop 的 gap 曲线实录」,还是「TECAP 如何选中历史团队经验」?欢迎留言。