面壁智能发布 MiniCPM-o 4.5：首个端侧全双工多模态模型，视觉能力对标 Gemini 2.5 Flash

核心要点

模型：MiniCPM-o 4.5（9B 参数）
发布时间：2026 年 2 月 3 日
发布方：面壁智能（OpenBMB）
核心突破：全双工多模态实时交互——输入（视频+音频）和输出（语音+文字）同时进行，互不阻塞
视觉性能：OpenCompass 77.6 分，9B 参数超越 GPT-4o、 Gemini 2.0 Pro，对标 Gemini 2.5 Flash
语音能力：双语实时对话、语音克隆（超越 CosyVoice2）
开源：已登陆 Hugging Face、ModelScope，支持 Mac 本地部署（WebRTC Demo）

一、全双工：让 AI 真正”看见、听懂、开口”

传统 AI 交互是半双工的——你说完了，AI 才能开始听；AI 说话时，你无法继续输入。这像对讲机，而非人类对话。

MiniCPM-o 4.5 带来的**全双工（Full-Duplex）**能力，颠覆了这一点：

输入流（视频帧 + 音频）与输出流（生成的文字 + 合成的语音）同时运行，互不阻塞。

这意味着你可以一边看着画面，一边听 AI 说话，AI 也能在你说话时实时分析画面内容——真正接近人类”边看边听边说”的交流方式。

更难得的是，4.5 支持主动交互（Proactive Interaction）：不是被动等你问，而是能主动发起提醒或评论。比如你举起一件衣服，AI 可能主动说”这件和你的裤子不太搭”。

二、视觉能力：9B 参数如何超越 GPT-4o？

MiniCPM-o 4.5 在 OpenCompass 综合评测中取得 77.6 分，仅用 9B 参数就超越了多个闭源旗舰：

模型	参数量	OpenCompass 得分
MiniCPM-o 4.5	9B	77.6
GPT-4o	—	相当
Gemini 2.0 Pro	—	超越
Qwen2.5-VL 72B	72B	超越

同时 4.5 还支持**思考模式（Thinking Mode）和指令模式（Instruct Mode）**两种行为，一个模型覆盖效率和性能的不同需求。

三、语音能力：双语对话 + 语音克隆

基于 CosyVoice2 和自研语音编码，MiniCPM-o 4.5 的语音能力有几大亮点：

① 双语实时对话：中英文无缝切换，无需手动选择语言。

② 语音克隆：只需一段参考音频，就能复刻你的音色。之前这个能力只有闭源 API 提供，现在开源模型也能做到。

③ 超越 CosyVoice2：在语音克隆任务上，面壁团队表示 MiniCPM-o 4.5 的克隆效果已超越 CosyVoice2 本身。

四、OCR 和视频理解：单图、视频、多图全部 SOTA

在视觉领域，MiniCPM-o 4.5 延续了 MiniCPM-V 系列的强势表现：

单图理解：领先 GPT-4V
多图联合理解：20B 以下参数最强
高分辨率图片：支持最高 180 万像素（相当于 6K 分辨率）
高帧率视频：支持最高 10fps 视频流实时处理

这意味着在手机上做实时视频理解、多图对比分析、高密度文档 OCR 等任务，MiniCPM-o 4.5 都能胜任。

五、本地部署：Mac 上跑全双工 Demo

面壁智能同步上线了基于 WebRTC 的实时 Demo，支持在 Mac 等本地设备上部署运行，无需云端。

配合 llama.cpp 优化方案，消费级硬件也能跑起来。这对于关注隐私、不希望数据上云的场景尤为重要。

六、快速上手

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_path = "openbmb/MiniCPM-o-4.5"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(
    model_path, trust_remote_code=True, device_map="auto"
)

# 全双工模式示例
with torch.no_grad():
    inputs = tokenizer(["你的问题"], return_tensors="pt").to(model.device)
    outputs = model.generate(**inputs)
    print(tokenizer.batch_decode(outputs))