面壁智能发布 MiniCPM-o 4.5:首个端侧全双工多模态模型,视觉能力对标 Gemini 2.5 Flash
核心要点
- 模型:MiniCPM-o 4.5(9B 参数)
- 发布时间:2026 年 2 月 3 日
- 发布方:面壁智能(OpenBMB)
- 核心突破:全双工多模态实时交互——输入(视频+音频)和输出(语音+文字)同时进行,互不阻塞
- 视觉性能:OpenCompass 77.6 分,9B 参数超越 GPT-4o、 Gemini 2.0 Pro,对标 Gemini 2.5 Flash
- 语音能力:双语实时对话、语音克隆(超越 CosyVoice2)
- 开源:已登陆 Hugging Face、ModelScope,支持 Mac 本地部署(WebRTC Demo)
一、全双工:让 AI 真正”看见、听懂、开口”
传统 AI 交互是半双工的——你说完了,AI 才能开始听;AI 说话时,你无法继续输入。这像对讲机,而非人类对话。
MiniCPM-o 4.5 带来的**全双工(Full-Duplex)**能力,颠覆了这一点:
输入流(视频帧 + 音频)与输出流(生成的文字 + 合成的语音)同时运行,互不阻塞。
这意味着你可以一边看着画面,一边听 AI 说话,AI 也能在你说话时实时分析画面内容——真正接近人类”边看边听边说”的交流方式。
更难得的是,4.5 支持主动交互(Proactive Interaction):不是被动等你问,而是能主动发起提醒或评论。比如你举起一件衣服,AI 可能主动说”这件和你的裤子不太搭”。
二、视觉能力:9B 参数如何超越 GPT-4o?
MiniCPM-o 4.5 在 OpenCompass 综合评测中取得 77.6 分,仅用 9B 参数就超越了多个闭源旗舰:
| 模型 | 参数量 | OpenCompass 得分 |
|---|---|---|
| MiniCPM-o 4.5 | 9B | 77.6 |
| GPT-4o | — | 相当 |
| Gemini 2.0 Pro | — | 超越 |
| Qwen2.5-VL 72B | 72B | 超越 |
同时 4.5 还支持**思考模式(Thinking Mode)和指令模式(Instruct Mode)**两种行为,一个模型覆盖效率和性能的不同需求。
三、语音能力:双语对话 + 语音克隆
基于 CosyVoice2 和自研语音编码,MiniCPM-o 4.5 的语音能力有几大亮点:
① 双语实时对话:中英文无缝切换,无需手动选择语言。
② 语音克隆:只需一段参考音频,就能复刻你的音色。之前这个能力只有闭源 API 提供,现在开源模型也能做到。
③ 超越 CosyVoice2:在语音克隆任务上,面壁团队表示 MiniCPM-o 4.5 的克隆效果已超越 CosyVoice2 本身。
四、OCR 和视频理解:单图、视频、多图全部 SOTA
在视觉领域,MiniCPM-o 4.5 延续了 MiniCPM-V 系列的强势表现:
- 单图理解:领先 GPT-4V
- 多图联合理解:20B 以下参数最强
- 高分辨率图片:支持最高 180 万像素(相当于 6K 分辨率)
- 高帧率视频:支持最高 10fps 视频流实时处理
这意味着在手机上做实时视频理解、多图对比分析、高密度文档 OCR 等任务,MiniCPM-o 4.5 都能胜任。
五、本地部署:Mac 上跑全双工 Demo
面壁智能同步上线了基于 WebRTC 的实时 Demo,支持在 Mac 等本地设备上部署运行,无需云端。
配合 llama.cpp 优化方案,消费级硬件也能跑起来。这对于关注隐私、不希望数据上云的场景尤为重要。
六、快速上手
1 | from transformers import AutoModelForCausalLM, AutoTokenizer |
Hugging Face 直接下载:https://huggingface.co/openbmb/MiniCPM-o-4.5
总结
MiniCPM-o 4.5 证明了两件事:
- 端侧模型也能有旗舰级多模态能力——9B 参数做到了以前需要几十 B 才能做到的事
- 全双工是多模态交互的下一代范式——不是慢慢打字等回复,而是像和真人对话一样自然
这是开源社区在多模态实时交互领域的一次重要突破。
相关链接:
- GitHub:https://github.com/OpenBMB/MiniCPM-o
- Hugging Face:https://huggingface.co/openbmb/MiniCPM-o-4.5
- 技术报告:MiniCPM_o_45_technical_report.pdf(GitHub)








