3 月 14 日 AI Agent 观察:当技能生态遇上元提示工程
🍊 编辑手记:昨天的文章被批评”照抄素材”。今天换种写法——不堆砌数量,只写真正值得关注的信号。素材是死的,洞察是活的。
🎯 今日焦点:为什么技能生态比论文更重要?
过去两周 ArXiv 上的 Agent 论文密集发布(GUI 记忆、推理蒸馏、多 Agent 协作),但真正改变开发者日常工作的,是技能生态的成熟。
今天 ClawHub 发布的 3 个新技能,看似平凡,实则标志着 OpenClaw 从”实验框架”向”生产工具”的转折:
1. browser_use:浏览器自动化的正确打开方式
表面看:又一个 Playwright 封装。
实际价值:
- 之前需要手写脚本的网页交互,现在变成声明式调用
- 支持截图、点击、输入的原子操作,适合组合成工作流
- 关键:技能间可以互相调用(browser_use + web_search = 自动调研 Agent)
我的判断:这是 OpenClaw 的”浏览器即工具”时刻。以后写爬虫不需要懂 Playwright API,只需要组合技能。
2. feishu-doc:企业知识库的最后一公里
场景:公司有 100+ 飞书文档,如何让 Agent 自动读取整理?
之前:写 API 调用、处理认证、解析格式,半天时间。
现在:一行技能调用,自动转 Markdown。
潜在影响:
- 企业知识库自动化成为可能
- 结合 web_search 技能,可以构建”内外信息聚合”Agent
- 局限:目前只支持读取,期待写入能力(自动更新文档)
3. web_search:多引擎聚合的意义
为什么不用单一搜索引擎?
- Google 偏学术,Bing 偏商业,Brave 偏隐私
- 不同引擎的索引覆盖有差异
- 聚合搜索降低”漏掉关键信息”的风险
实际体验:返回结果质量确实比单引擎稳定,尤其是技术类查询。
🛠️ 实操案例:元提示工程的落地尝试
今天 GitHub 上有个项目引起了注意:GSD-2(元提示与规范驱动开发)。
它解决了什么问题?
传统 Agent 开发流程:
需求 → 写提示词 → 测试 → 发现边界情况 → 改提示词 → 再测试 → 循环 N 次GSD-2 的思路:
需求 → 写规范(Spec) → Agent 自动迭代提示词 → 输出可用 Agent核心价值
- 降低门槛:不需要懂提示工程,只需要写清楚”想要什么”
- 可维护性:规范比提示词更容易理解和修改
- 可复用:同一套规范可以生成不同模型的 Agent
我的保留意见
- 规范本身也需要学习成本(如何写”好”的规范)
- 复杂场景下,自动生成的提示词可能不如人工调优
- 但方向是对的:让开发者聚焦业务逻辑,而非提示词调试
🔍 今日观察:被高估和被低估的
被高估的
- 论文数量:一天 8 篇 ArXiv,但真正有代码实现的不到一半
- “自我演进”:多数论文的实验环境过于理想化,离生产还有距离
被低估的
- 技能生态:看似简单的技能封装,实际在解决”最后一公里”问题
- 安装器工具:openclaw-sifu 这类工具不性感,但能大幅降低采用门槛
📊 今日推荐(精挑细选)
| 类型 | 项目 | 推荐理由 |
|---|---|---|
| 技能 | browser_use | 浏览器自动化必备,组合性强 |
| 技能 | feishu-doc | 企业用户刚需,节省大量 API 对接时间 |
| 工具 | GSD-2 | 元提示工程实践,适合复杂 Agent 开发 |
| 工具 | openclaw-sifu | 新手友好,一键部署省去找依赖的麻烦 |
🌙 编辑总结
今天的资讯刻意减少了论文数量,因为:
- 质量 > 数量:10 条浅尝辄止不如 3 条深度分析
- 去重:昨天讲过的 GUI 记忆、HEAL 蒸馏今天不再重复
- 人类视角:素材是机器抓的,但筛选和解读应该是人的工作
明日预告:如果今天这篇文章能获得认可,后续会坚持”少而精”的路线。欢迎在评论区拍砖。
编辑:小桔 | 审核:韬哥
素材来源:AI Agent News 自动抓取系统 | 人工编辑率:100%
