摘要:本文汇总 6 月 13 日 Agent Builders Gathering 深圳站三场分享的核心观点,按时间线梳理出外部校验架构、模型选型策略与可靠性工程实践的 6 个关键共识,并附现场图片记录。


一、14:43 — 课程:Agent 外部校验架构

第一场课程由讲师系统讲解了 Agent 外部校验器 在工业级系统中的核心作用。核心论点非常明确:决策权必须从模型转移到外部架构

Agent 外部校验架构课程现场

传统 Skill 和 Prompt 方案的问题在于,它们虽然能引导模型,但最终决定权仍然在模型手中——模型仍然可能产生幻觉或输出不符合规范的内容。而外部校验器的设计哲学是:

  • 独立于模型:校验规则由业务方预设,模型无法修改
  • 结构化清洗:将模型输出完全结构化后,再提交给系统决策
  • 强制人工确认:高风险场景必须设置机械性的人工确认节点

外部校验机制与Skill/Prompt的决策权归属对比

针对长文本生成的一致性问题,讲师提出了状态注入 + 链路审计的双保险方案:

  • 状态注入:建立人物关系、环境变化等核心事实数据库,每次生成时注入提示词
  • 链路审计:记录 Agent 每一步操作,通过前后对照推断是否存在逻辑冲突或遗忘

💡 开发者提示:如果你在做长篇小说生成或复杂流程 Agent,状态数据库不是可选项,而是必需品。


二、15:25 — 访谈:Agent 在实际研发工作流中的落地与模型选型

第二场是多人访谈,聚焦 Agent 融入代码迭代、信息收集及日常监控 的实战经验。嘉宾们分享了一个反直觉的共识:任务完成率才是检验模型价值的唯一真理

Agent落地与模型选型访谈现场

在模型选型上,嘉宾们提出了 “主副 Agent 分层协作” 策略:

角色 职责 模型选择
主 Agent 全局规划、任务拆分、最终 Review 强模型(如 Claude Opus、GPT 系列)
副 Agent 具体执行、代码生成、监控告警 弱模型 / 高性价比模型(如 DeepSeek)

这种架构的优势显而易见:在最靠后的交付质量环节用最 frontier 的模型,中间开发环节用速度快、便宜的模型

更值得关注的是,嘉宾们旗帜鲜明地反对 Benchmark 分数通胀。一个从 90 分提升到 92 分的模型,对非算法工程师而言几乎没有体感差异——脱离实际业务场景的高分往往具有误导性

“不管这个模型再怎么好,它的 token 消耗再低,速度多快,它有没有完成这个事才是最主要的。”


三、主会场 — 构建可靠 AI Agent:从模型能力到工程化治理

主会场的深度对谈围绕 Step 3.7 Flash 在 Agent 与企业知识工作场景的落地展开。嘉宾提出了一个极具穿透力的观点:Coding 之后的下一站,是 Office 全家桶等白领知识工作场景

构建可靠AI Agent主会场现场

企业级 Agent 的竞争力被拆解为三个维度:

  1. 信息获取:多模态搜索、跨平台整合
  2. 内容处理:专业分析、跨端整合
  3. 产物交付:美学标准、结构化输出

而工程化治理的核心,可以用一句话概括:模型只能提议,Runtime 才能提交

构建可靠AI Agent深度对谈现场

这意味着生产级 Agent 必须剥离模型的直接执行权,将其定位为”提议者”。只有当输出通过外部验证器校验后,才由 Runtime 层进行原子化提交。这种架构思想贯穿了整场对话:

  • 拒绝海量记忆:与其追求百万级上下文,不如采用”关键事实隔离”策略
  • Harness 泛化性:模型迭代应关注跨工具链的一致性,而非过度适配单一框架
  • 人在回路:实时打断干预 + 过程监督 + Pattern 设计

“危险往往不在于模型生成了错误的内容,而在于它生成了看起来成功但实际上违背事实的内容。”


四、跨场共识:6 个关键结论

将三场分享串联起来,可以提炼出以下 6 个跨场共识

# 共识 来源场次
1 可靠性 > 能力:强模型不等于高可靠,生产环境取决于极端情况下的兜底机制 主会场 + 课程
2 架构重于工具:真正实现业务的是 Harness 架构,不是 MCP 工具或 Skill 本身 课程 + 主会场
3 Human-in-the-loop:始终是保障可控性与对齐业务目标的最后一道防线 三场共有
4 实用主义选型:抛开纸面参数,以真实业务场景中的”好用”程度作为黄金标准 访谈 + 主会场
5 分层协作:强模型做规划/Review,弱模型做执行/监控,是降本增效的必经之路 访谈 + 主会场
6 提议与提交分离:模型仅负责生成可能性,架构负责决定哪些可能性可以进入系统 课程 + 主会场

五、你怎么看?

这次 Agent Builders Gathering 最让你有共鸣的观点是什么?是”主副 Agent 分层”的实用主义,还是”外部校验器”的极端安全主义?欢迎在评论区讨论。

🤔 你怎么看 Agent 工程化治理中的”可靠性优先”原则?欢迎在评论区讨论。


本文基于 6 月 13 日 Agent Builders Gathering 深圳站现场纪要整理,图片来源于会议现场记录。