Agent Builders Gathering 深圳站回顾:从模型能力到工程化治理的 6 个关键共识
摘要:本文汇总 6 月 13 日 Agent Builders Gathering 深圳站三场分享的核心观点,按时间线梳理出外部校验架构、模型选型策略与可靠性工程实践的 6 个关键共识,并附现场图片记录。
一、14:43 — 课程:Agent 外部校验架构
第一场课程由讲师系统讲解了 Agent 外部校验器 在工业级系统中的核心作用。核心论点非常明确:决策权必须从模型转移到外部架构。
传统 Skill 和 Prompt 方案的问题在于,它们虽然能引导模型,但最终决定权仍然在模型手中——模型仍然可能产生幻觉或输出不符合规范的内容。而外部校验器的设计哲学是:
- 独立于模型:校验规则由业务方预设,模型无法修改
- 结构化清洗:将模型输出完全结构化后,再提交给系统决策
- 强制人工确认:高风险场景必须设置机械性的人工确认节点
针对长文本生成的一致性问题,讲师提出了状态注入 + 链路审计的双保险方案:
- 状态注入:建立人物关系、环境变化等核心事实数据库,每次生成时注入提示词
- 链路审计:记录 Agent 每一步操作,通过前后对照推断是否存在逻辑冲突或遗忘
💡 开发者提示:如果你在做长篇小说生成或复杂流程 Agent,状态数据库不是可选项,而是必需品。
二、15:25 — 访谈:Agent 在实际研发工作流中的落地与模型选型
第二场是多人访谈,聚焦 Agent 融入代码迭代、信息收集及日常监控 的实战经验。嘉宾们分享了一个反直觉的共识:任务完成率才是检验模型价值的唯一真理。
在模型选型上,嘉宾们提出了 “主副 Agent 分层协作” 策略:
| 角色 | 职责 | 模型选择 |
|---|---|---|
| 主 Agent | 全局规划、任务拆分、最终 Review | 强模型(如 Claude Opus、GPT 系列) |
| 副 Agent | 具体执行、代码生成、监控告警 | 弱模型 / 高性价比模型(如 DeepSeek) |
这种架构的优势显而易见:在最靠后的交付质量环节用最 frontier 的模型,中间开发环节用速度快、便宜的模型。
更值得关注的是,嘉宾们旗帜鲜明地反对 Benchmark 分数通胀。一个从 90 分提升到 92 分的模型,对非算法工程师而言几乎没有体感差异——脱离实际业务场景的高分往往具有误导性。
“不管这个模型再怎么好,它的 token 消耗再低,速度多快,它有没有完成这个事才是最主要的。”
三、主会场 — 构建可靠 AI Agent:从模型能力到工程化治理
主会场的深度对谈围绕 Step 3.7 Flash 在 Agent 与企业知识工作场景的落地展开。嘉宾提出了一个极具穿透力的观点:Coding 之后的下一站,是 Office 全家桶等白领知识工作场景。
企业级 Agent 的竞争力被拆解为三个维度:
- 信息获取:多模态搜索、跨平台整合
- 内容处理:专业分析、跨端整合
- 产物交付:美学标准、结构化输出
而工程化治理的核心,可以用一句话概括:模型只能提议,Runtime 才能提交。
这意味着生产级 Agent 必须剥离模型的直接执行权,将其定位为”提议者”。只有当输出通过外部验证器校验后,才由 Runtime 层进行原子化提交。这种架构思想贯穿了整场对话:
- 拒绝海量记忆:与其追求百万级上下文,不如采用”关键事实隔离”策略
- Harness 泛化性:模型迭代应关注跨工具链的一致性,而非过度适配单一框架
- 人在回路:实时打断干预 + 过程监督 + Pattern 设计
“危险往往不在于模型生成了错误的内容,而在于它生成了看起来成功但实际上违背事实的内容。”
四、跨场共识:6 个关键结论
将三场分享串联起来,可以提炼出以下 6 个跨场共识:
| # | 共识 | 来源场次 |
|---|---|---|
| 1 | 可靠性 > 能力:强模型不等于高可靠,生产环境取决于极端情况下的兜底机制 | 主会场 + 课程 |
| 2 | 架构重于工具:真正实现业务的是 Harness 架构,不是 MCP 工具或 Skill 本身 | 课程 + 主会场 |
| 3 | Human-in-the-loop:始终是保障可控性与对齐业务目标的最后一道防线 | 三场共有 |
| 4 | 实用主义选型:抛开纸面参数,以真实业务场景中的”好用”程度作为黄金标准 | 访谈 + 主会场 |
| 5 | 分层协作:强模型做规划/Review,弱模型做执行/监控,是降本增效的必经之路 | 访谈 + 主会场 |
| 6 | 提议与提交分离:模型仅负责生成可能性,架构负责决定哪些可能性可以进入系统 | 课程 + 主会场 |
五、你怎么看?
这次 Agent Builders Gathering 最让你有共鸣的观点是什么?是”主副 Agent 分层”的实用主义,还是”外部校验器”的极端安全主义?欢迎在评论区讨论。
🤔 你怎么看 Agent 工程化治理中的”可靠性优先”原则?欢迎在评论区讨论。
本文基于 6 月 13 日 Agent Builders Gathering 深圳站现场纪要整理,图片来源于会议现场记录。
















