Agent Builders Gathering 深圳站回顾：从模型能力到工程化治理的 6 个关键共识

摘要：本文汇总 6 月 13 日 Agent Builders Gathering 深圳站三场分享的核心观点，按时间线梳理出外部校验架构、模型选型策略与可靠性工程实践的 6 个关键共识，并附现场图片记录。

一、14:43 — 课程：Agent 外部校验架构

第一场课程由讲师系统讲解了 Agent 外部校验器 在工业级系统中的核心作用。核心论点非常明确：决策权必须从模型转移到外部架构。

Agent 外部校验架构课程现场

传统 Skill 和 Prompt 方案的问题在于，它们虽然能引导模型，但最终决定权仍然在模型手中——模型仍然可能产生幻觉或输出不符合规范的内容。而外部校验器的设计哲学是：

外部校验机制与Skill/Prompt的决策权归属对比

针对长文本生成的一致性问题，讲师提出了状态注入 + 链路审计的双保险方案：

💡 开发者提示：如果你在做长篇小说生成或复杂流程 Agent，状态数据库不是可选项，而是必需品。

第二场是多人访谈，聚焦 Agent 融入代码迭代、信息收集及日常监控 的实战经验。嘉宾们分享了一个反直觉的共识：任务完成率才是检验模型价值的唯一真理。

Agent落地与模型选型访谈现场

在模型选型上，嘉宾们提出了 “主副 Agent 分层协作” 策略：

角色	职责	模型选择
主 Agent	全局规划、任务拆分、最终 Review	强模型（如 Claude Opus、GPT 系列）
副 Agent	具体执行、代码生成、监控告警	弱模型 / 高性价比模型（如 DeepSeek）

这种架构的优势显而易见：在最靠后的交付质量环节用最 frontier 的模型，中间开发环节用速度快、便宜的模型。

更值得关注的是，嘉宾们旗帜鲜明地反对 Benchmark 分数通胀。一个从 90 分提升到 92 分的模型，对非算法工程师而言几乎没有体感差异——脱离实际业务场景的高分往往具有误导性。

“不管这个模型再怎么好，它的 token 消耗再低，速度多快，它有没有完成这个事才是最主要的。”

主会场的深度对谈围绕 Step 3.7 Flash 在 Agent 与企业知识工作场景的落地展开。嘉宾提出了一个极具穿透力的观点：Coding 之后的下一站，是 Office 全家桶等白领知识工作场景。

构建可靠AI Agent主会场现场

企业级 Agent 的竞争力被拆解为三个维度：

而工程化治理的核心，可以用一句话概括：模型只能提议，Runtime 才能提交。

构建可靠AI Agent深度对谈现场

这意味着生产级 Agent 必须剥离模型的直接执行权，将其定位为”提议者”。只有当输出通过外部验证器校验后，才由 Runtime 层进行原子化提交。这种架构思想贯穿了整场对话：

“危险往往不在于模型生成了错误的内容，而在于它生成了看起来成功但实际上违背事实的内容。”

将三场分享串联起来，可以提炼出以下 6 个跨场共识：

#	共识	来源场次
1	可靠性 > 能力：强模型不等于高可靠，生产环境取决于极端情况下的兜底机制	主会场 + 课程
2	架构重于工具：真正实现业务的是 Harness 架构，不是 MCP 工具或 Skill 本身	课程 + 主会场
3	Human-in-the-loop：始终是保障可控性与对齐业务目标的最后一道防线	三场共有
4	实用主义选型：抛开纸面参数，以真实业务场景中的”好用”程度作为黄金标准	访谈 + 主会场
5	分层协作：强模型做规划/Review，弱模型做执行/监控，是降本增效的必经之路	访谈 + 主会场
6	提议与提交分离：模型仅负责生成可能性，架构负责决定哪些可能性可以进入系统	课程 + 主会场