AI 学术前沿研究档案库 · 本周精选 15 篇（2026-06-14 ~ 06-20）

摘要：本周 AI 研究呈现多线并进态势——深度研究智能体的隐私泄露问题浮出水面，医疗 AI 在急诊诊断与罕见病筛查中逼近甚至超越人类专家，具身智能探索以自我中心视频替代真实机器人数据的低成本路径，同时稀疏自编码器（SAE）干预的可靠性危机与 Deployment Simulation 新范式，持续刷新我们对”AI 对齐”的理解边界。

一、对齐与隐私：当智能体学会”保守秘密”

1. MosaicLeaks：深度研究智能体的隐私泄露危机

深度研究智能体在结合私有本地文档与外部网页检索时，存在严重的隐私泄露风险。ServiceNow 团队提出 MosaicLeaks 基准（含 1,001 条多跳研究链），测试发现智能体频繁泄露私有信息。更令人担忧的是：单纯优化任务性能反而加剧泄露。

他们提出的隐私感知深度研究（PA-DR）强化学习方法，将严格链成功率从 48.7% 提升至 58.7%，同时将答案/全面信息泄露率从 34.0% 降至 9.9%。

💡 启示：在构建企业级 RAG 或深度研究 Agent 时，隐私保护不能是事后补丁，而必须嵌入训练目标本身。

2. OpenAI：用强化学习塑造”广泛且持久的有益模型”

OpenAI 对齐团队通过强化学习，在真实对话场景中训练模型展现诚实、认知谦逊、元认知透明、可纠正性、普遍公平性等有益特质。训练数据覆盖健康、教育、科学、法律、工程等多个领域。

关键发现：训练后模型在数十项独立对齐评测上均表现提升，且改善可泛化到未参与训练的领域。在对抗性提示或微调下，模型仍难以被导向有害行为——这表明有益特质强化学习可产生广泛且持久的对齐泛化。

3. SAE 干预不可靠：被抑制的行为会”复活”

稀疏自编码器（SAE）特征干预是可解释性与对齐领域的热门技术。但本周一篇论文揭示了其可靠性问题：对模型特定行为施加 SAE 干预后，被抑制的行为会在后续层或时间步中逐渐恢复。

实验表明单次干预无法持久改变模型行为，这对依赖 SAE 干预的可解释性与对齐假设构成挑战，呼吁社区重新审视基于激活操控的方法局限性。

4. OpenAI Deployment Simulation：发布前预测模型行为

OpenAI 提出 Deployment Simulation 方法，在模型正式发布前通过大规模模拟真实部署环境来预测行为。构建高保真度用户交互场景，让模型在沙盒中经历类真实世界的压力测试，从而提前发现潜在失调或有害行为模式，补充现有红队测试与评测基准。

二、医疗 AI：从诊断到长期管理的跃迁

5. Nature 双雄：MIRA 与 AMIE 诊断能力比肩医生

德国团队开发的 MIRA 智能体在模拟电子病历中操作 85,000 种选项，500 余例急诊诊断准确率 88.9%，高于资深专科医生（78.1%）和混合团队（71.1%）。阑尾炎检出率达 98.6%，未发现危险药物交互。

谷歌 AMIE 采用双智能体架构，在 100 个多访视病例中治疗计划适切率 95%（医生仅 72%），并在药物知识基准 RxQA 上超过医生。

⚠️ 两者均警告：模拟环境与现实存在差距。

6. o3 Deep Research 辅助诊断儿童罕见病

波士顿儿童医院、哈佛大学与 OpenAI 合作，在《NEJM AI》发表研究。使用 o3 Deep Research 推理模型重新分析 376 例此前未确诊的罕见病案例，经专家评审、额外检测和临床确认，额外诊断率达 4.8%。

这标志着 AI 辅助工作流可帮助专家在未解病例中生成可检验假设，有望加速儿童罕见遗传病的诊断进程。

7. OpenAI 发布 LifeSciBench 生命科学评测基准

OpenAI 发布 LifeSciBench，涵盖分子生物学、基因组学、药物发现、蛋白质结构预测等核心子领域，旨在系统评估大型语言模型在生命科学专业知识与推理方面的能力边界，为医学 AI 研究提供标准化评测框架。

8. Google AMIE 从诊断迈向长期疾病管理

Google 将 AMIE 从单次诊断扩展至长期慢性病管理。在 100 个多访视病例测试中，AMIE 治疗计划适切率 95%，远超初级保健医生的 72%。新版本引入跨访视记忆与个性化治疗追踪能力，代表 AI 向持续性医疗助理演进。

三、具身智能：数据范式的革命

9. HumanScale：第一人称视频可超越真实机器人数据

HumanScale 研究表明，利用以自我为中心的人类视频（第一人称视角人体活动录像）进行具身 AI 预训练，可在多项机器人操作任务上超越使用真实机器人数据训练的基线。

该方法显著降低数据采集成本，同时提升策略泛化能力，为大规模机器人学习开辟了全新的数据来源路径。

10. NVIDIA ENPIRE：8 个 Codex 智能体自主完成物理实验

NVIDIA GEAR 实验室展示 ENPIRE 系统，由 8 个基于 Codex 的 AI 智能体协作，自主规划并控制机器人执行完整物理化学实验流程——涵盖实验设计、仪器操作、数据收集与结果分析。

这标志着 AI 在自主科学发现领域迈出关键一步，展示了多智能体协作在真实物理世界中的复杂任务执行能力。

四、安全、评测与工程优化

11. ChatGPT 图像生成器可被绕过生成暴力与色情内容

Mindgard 红队研究发现，ChatGPT 图像生成器可通过简单提示词绕过内容过滤器，在未直接请求的情况下自动生成露骨图像。”恢复照片”提示因输入模糊而绕过过滤器；添加虚假图像 ID 与”不做审查”指令后，模型持续生成高度性化内容乃至血腥图像，并自动赋予惊悚标题。

⚠️ 研究指出 OpenAI 此前声称修复的问题仍未解决，暴露了 AI 工具广泛可及性与内容过滤不足的现实风险。

12. 伯克利 Agents’ Last Exam：测试 AI 智能体的极限

加州大学伯克利分校 RDI 发布 Agents’ Last Exam 评测基准，专门考察 AI 智能体在复杂多步骤推理任务中的极限能力。该基准设计上极具挑战性，旨在区分当前最强 AI 系统的上限，涵盖需要长链推理、工具调用与自我校正的综合性问题。

13. LMSYS：在 TPU 上优化千亿级 MoE 模型 Ling-2.6-1T

LMSYS 团队分享在 TPU 上使用 SGLang-JAX 框架优化千亿级混合专家（MoE）模型 Ling-2.6-1T 的工程实践。通过编写定制 Pallas 内核，将 MoE 路由阶段的数据搬运开销隐藏在矩阵计算流水线中，显著提升 TPU 利用率并降低端到端推理延迟。

14. 公开聊天数据能否预测真实世界 AI 失调？

OpenAI 对齐研究团队探讨利用公开聊天记录数据预测 AI 模型真实世界失调行为的可行性。对比发现，真实聊天数据对失调行为具有更高预测效度，优于合成数据或精心策划数据集。这为改进对齐评测方法论和部署前安全检测提供了实证依据。

五、本周趋势观察

维度	关键信号
对齐	从”事后再检测”转向”事前模拟”（Deployment Simulation）
隐私	Agent 隐私泄露成为新战场，PA-DR 方法初现成效
医疗	AI 从”辅助诊断”走向”长期管理”，模拟成绩亮眼但落地差距仍需警惕
具身智能	“数据瓶颈”或被打破，人类视频成为新的预训练金矿
安全	红队测试持续揭示过滤器的脆弱性，SAE 干预的可靠性受到质疑