核心要点

  • 模型:MiniCPM-o 4.5(9B 参数)
  • 发布时间:2026 年 2 月 3 日
  • 发布方:面壁智能(OpenBMB)
  • 核心突破:全双工多模态实时交互——输入(视频+音频)和输出(语音+文字)同时进行,互不阻塞
  • 视觉性能:OpenCompass 77.6 分,9B 参数超越 GPT-4o、 Gemini 2.0 Pro,对标 Gemini 2.5 Flash
  • 语音能力:双语实时对话、语音克隆(超越 CosyVoice2)
  • 开源:已登陆 Hugging Face、ModelScope,支持 Mac 本地部署(WebRTC Demo)

一、全双工:让 AI 真正”看见、听懂、开口”

传统 AI 交互是半双工的——你说完了,AI 才能开始听;AI 说话时,你无法继续输入。这像对讲机,而非人类对话。

MiniCPM-o 4.5 带来的**全双工(Full-Duplex)**能力,颠覆了这一点:

输入流(视频帧 + 音频)与输出流(生成的文字 + 合成的语音)同时运行,互不阻塞

这意味着你可以一边看着画面,一边听 AI 说话,AI 也能在你说话时实时分析画面内容——真正接近人类”边看边听边说”的交流方式。

更难得的是,4.5 支持主动交互(Proactive Interaction):不是被动等你问,而是能主动发起提醒或评论。比如你举起一件衣服,AI 可能主动说”这件和你的裤子不太搭”。


二、视觉能力:9B 参数如何超越 GPT-4o?

MiniCPM-o 4.5 在 OpenCompass 综合评测中取得 77.6 分,仅用 9B 参数就超越了多个闭源旗舰:

模型 参数量 OpenCompass 得分
MiniCPM-o 4.5 9B 77.6
GPT-4o 相当
Gemini 2.0 Pro 超越
Qwen2.5-VL 72B 72B 超越

同时 4.5 还支持**思考模式(Thinking Mode)指令模式(Instruct Mode)**两种行为,一个模型覆盖效率和性能的不同需求。


三、语音能力:双语对话 + 语音克隆

基于 CosyVoice2 和自研语音编码,MiniCPM-o 4.5 的语音能力有几大亮点:

① 双语实时对话:中英文无缝切换,无需手动选择语言。

② 语音克隆:只需一段参考音频,就能复刻你的音色。之前这个能力只有闭源 API 提供,现在开源模型也能做到。

③ 超越 CosyVoice2:在语音克隆任务上,面壁团队表示 MiniCPM-o 4.5 的克隆效果已超越 CosyVoice2 本身。


四、OCR 和视频理解:单图、视频、多图全部 SOTA

在视觉领域,MiniCPM-o 4.5 延续了 MiniCPM-V 系列的强势表现:

  • 单图理解:领先 GPT-4V
  • 多图联合理解:20B 以下参数最强
  • 高分辨率图片:支持最高 180 万像素(相当于 6K 分辨率)
  • 高帧率视频:支持最高 10fps 视频流实时处理

这意味着在手机上做实时视频理解、多图对比分析、高密度文档 OCR 等任务,MiniCPM-o 4.5 都能胜任。


五、本地部署:Mac 上跑全双工 Demo

面壁智能同步上线了基于 WebRTC 的实时 Demo,支持在 Mac 等本地设备上部署运行,无需云端。

配合 llama.cpp 优化方案,消费级硬件也能跑起来。这对于关注隐私、不希望数据上云的场景尤为重要。


六、快速上手

1
2
3
4
5
6
7
8
9
10
11
12
13
14
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_path = "openbmb/MiniCPM-o-4.5"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(
model_path, trust_remote_code=True, device_map="auto"
)

# 全双工模式示例
with torch.no_grad():
inputs = tokenizer(["你的问题"], return_tensors="pt").to(model.device)
outputs = model.generate(**inputs)
print(tokenizer.batch_decode(outputs))

Hugging Face 直接下载:https://huggingface.co/openbmb/MiniCPM-o-4.5


总结

MiniCPM-o 4.5 证明了两件事:

  1. 端侧模型也能有旗舰级多模态能力——9B 参数做到了以前需要几十 B 才能做到的事
  2. 全双工是多模态交互的下一代范式——不是慢慢打字等回复,而是像和真人对话一样自然

这是开源社区在多模态实时交互领域的一次重要突破。

相关链接: