写在前面:本文面向所有被「本地 AI 跑不动」折磨的 Mac 用户。如果你有用过 Ollama、LM Studio 或其他本地推理工具,并且经历过「简单问题等半天」的痛苦,那么这篇文章就是为你写的。

写在前面:本文面向所有被「本地 AI 跑不动」折磨的 Mac 用户。如果你有用过 Ollama、LM Studio 或其他本地推理工具,并且经历过「简单问题等半天」的痛苦,那么这篇文章就是为你写的。

一、痛点:本地 AI 的「假可用」困境

先说个真实场景。

你花 6000 块买了台 16GB Mac Mini,想着「本地部署 AI 应该没问题吧」。于是:

  1. 安装 Ollama(社区推荐,开箱即用)
  2. 下载 Qwen3.5 4B(小模型,应该跑得快)
  3. 配置 OpenClaw(本地模型,0 花销)

听起来很美好,对吧?

现实是:你问它「1+1 等于几」,它转了 5 分钟才给你答案。

不是夸张,是真实发生的。原因不是模型不行,是框架设计有缺陷

Ollama 的问题在哪?

Ollama 的核心设计理念是「通用性优先」,这导致它在 macOS 上的优化不够彻底:

问题 影响
无连续批处理 并发请求时 GPU 利用率低
上下文无法复用 每次对话重新计算 KV 缓存
内存管理粗放 小模型也占大量内存
后台服务不稳定 需要手动重启

结果就是:明明是本地部署,响应速度还不如云端 API

很多用户到这一步就放弃了,要么回到付费 API,要么把 Mac Mini 当显示器支架用。

但问题真的无解吗?

二、转折点:发现 oMLX

oMLX(读作「O-M-L-X」)是一个专为 Apple Silicon 优化的 LLM 推理服务器,GitHub 1824 stars。

它的核心理念很简单:既然 Apple 的 M 系列芯片有统一内存架构,那就针对这个架构做深度优化

oMLX 的三大杀手锏

1. 连续批处理(Continuous Batching)

传统推理框架(如 Ollama)的处理方式:

1
2
3
请求 1: [预填充] → [解码] → 完成
请求 2: [等待] → [预填充] → [解码] → 完成
请求 3: [等待] → [等待] → [预填充] → [解码] → 完成

oMLX 的处理方式:

1
2
3
4
请求 1: [预填充] → [解码] → 完成
请求 2: [预填充] → [解码] → 完成
请求 3: [预填充] → [解码] → 完成
↑ 合并处理,GPU 利用率提升 3-5 倍

效果:并发请求时,吞吐量提升 3-5 倍。

2. 分层 KV 缓存(Hot RAM + Cold SSD)

这是 oMLX 最核心的创新。

传统框架的 KV 缓存:

  • 全部驻留内存
  • 上下文切换时重新计算
  • 重启后缓存丢失

oMLX 的分层缓存:

1
2
3
4
5
6
7
8
9
10
┌─────────────────────────────────┐
│ Hot Tier (RAM) - 快速访问 │
│ 常用上下文块驻留内存 │
└─────────────────────────────────┘
↓ 自动卸载
┌─────────────────────────────────┐
│ Cold Tier (SSD) - 持久化 │
│ 冷数据以 safetensors 格式存储 │
│ 重启后可恢复,无需重新计算 │
└─────────────────────────────────┘

效果

  • 上下文可跨会话复用(即使重启服务器)
  • 内存占用降低 50%+
  • 长对话场景性能提升明显

3. macOS 原生体验

  • 菜单栏管理:一键启停,实时查看模型状态
  • 后台服务brew services start omlx 自动重启
  • 内置 Web UIhttp://localhost:8000/admin 监控、聊天、下载模型
  • HuggingFace 直连:内置模型下载器,无需手动下载

安装 oMLX(3 种方式)

方式 1:Homebrew(推荐)

1
2
3
brew tap jundot/omlx https://github.com/jundot/omlx
brew install omlx
brew services start omlx # 后台服务运行

方式 2:macOS App

1
2
3
# 从 Releases 下载 .dmg 文件
# https://github.com/jundot/omlx/releases
# 拖拽到 Applications,完成

方式 3:从源码安装

1
2
3
4
git clone https://github.com/jundot/omlx.git
cd omlx
pip install -e . # 核心功能
pip install -e ".[mcp]" # 可选:MCP 支持

系统要求

  • macOS 15.0+ (Sequoia)
  • Python 3.10+
  • Apple Silicon (M1/M2/M3/M4)

三、模型选择:为什么是 nanbeige4.1 3b?

如果说 oMLX 是「正确的框架」,那 nanbeige4.1 3b 就是「被低估的小钢炮」。

nanbeige4.1 3b 的真实实力

先看数据(来自官方技术报告):

基准测试 nanbeige4.1 3b Qwen3-4B Qwen3-32B
LiveCodeBench-Pro 81.4 40.2 42.3
AIME 2026 数学 87.4 81.46 75.83
Arena-Hard-v2 73.2 34.9 56.0
GPQA 科学 83.8 65.8 68.4
内存占用 (INT4) ~1.5GB ~2.5GB ~18GB

关键发现

  1. 代码能力是 Qwen3-4B 的 2 倍(81.4 vs 40.2)
  2. 推理能力超越 Qwen3-32B(Arena-Hard 73.2 vs 56.0)
  3. 内存占用仅 1.5GB(INT4 量化后)

为什么适合 OpenClaw?

OpenClaw 的日常任务类型:

  • ✅ 心跳检查(简单指令理解)
  • ✅ 定时任务执行(流程化操作)
  • ✅ 日志分析(文本分类)
  • ✅ 简单对话(用户交互)
  • ❌ 长文本生成(>2000 字)
  • ❌ 专业领域知识(法律、医疗)

nanbeige4.1 3b 的定位

不是要替代大模型,而是处理日常 80% 的简单任务。

下载 nanbeige4.1 3b

方式 1:通过 oMLX Web UI 下载

1
2
3
4
1. 打开 http://localhost:8000/admin
2. 点击「Model Downloader」
3. 搜索「nanbeige4.1-3b」
4. 点击下载

方式 2:手动下载(HuggingFace)

1
2
3
4
5
6
7
# 创建模型目录
mkdir -p ~/models/Nanbeige4.1-3B

# 使用 huggingface-cli 下载
pip install huggingface_hub
huggingface-cli download Nanbeige/Nanbeige4.1-3B \
--local-dir ~/models/Nanbeige4.1-3B

推荐量化版本

  • INT4:1.5GB,适合 8GB/16GB Mac
  • INT8:2.5GB,适合 16GB+ Mac
  • FP16:6GB,适合 32GB+ Mac(不推荐,性能提升有限)

四、实战部署:15 分钟让 OpenClaw 跑起来

步骤 1:启动 oMLX

1
2
3
4
5
# 后台服务启动(推荐)
brew services start omlx

# 或手动启动
omlx serve --model-dir ~/models

验证启动

1
2
curl http://localhost:8000/v1/models
# 返回模型列表即成功

步骤 2:配置 OpenClaw

编辑 OpenClaw 配置文件(通常是 ~/.openclaw/config.json 或通过 WebUI 配置):

1
2
3
4
5
6
7
{
"model": "omlx-local",
"api_base": "http://localhost:8000/v1",
"api_key": "omlx", // 可省略,oMLX 不验证
"default_model": "Nanbeige4.1-3B",
"timeout_seconds": 30
}

关键点

  • api_base 指向 oMLX 服务地址
  • default_model 与 oMLX 中模型名称一致
  • OpenClaw 无需修改代码(OpenAI 兼容 API)

步骤 3:测试验证

测试 1:健康检查

1
2
curl http://localhost:8000/health
# 返回 {"status": "ok"} 即成功

测试 2:简单对话

1
2
3
4
5
6
7
8
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Nanbeige4.1-3B",
"messages": [
{"role": "user", "content": "1+1 等于几?"}
]
}'

预期响应时间

  • 首 token:<200ms(M2/M3)
  • 完整响应:<1s

测试 3:OpenClaw 任务

1
2
# 触发 OpenClaw 心跳检查
# 观察响应时间

步骤 4:监控和优化

打开 oMLX Web UI

1
http://localhost:8000/admin

关键指标

  • 内存占用:应 <2GB(INT4 量化)
  • GPU 利用率:空闲时 <10%,负载时 50-80%
  • 缓存命中率:>70% 表示缓存工作正常

优化建议

  1. 模型固定:在 Web UI 中 Pin 住 nanbeige4.1 3b,避免 LRU eviction
  2. TTL 设置:设置 30 分钟空闲超时,自动卸载释放内存
  3. 上下文限制:设置为 4096,避免内存溢出

五、性能对比(官方数据)

响应时间对比

场景 Ollama + Qwen3.5 4B oMLX + nanbeige4.1 3b
简单对话(<50 字) 30-60s <1s
代码生成(100 行) 2-5 分钟 5-10s
长文本分析(2000 字) 3-8 分钟 15-30s
并发请求(5 个) 排队阻塞 同时处理

内存占用对比

配置 内存占用
Ollama + Qwen3.5 4B (FP16) ~8GB
oMLX + nanbeige4.1 3b (INT4) ~1.5GB
oMLX + nanbeige4.1 3b (INT8) ~2.5GB

成本对比(按月计算)

方案 月成本
云端 API(GPT-4/Claude) $50-200
云端 API(国产大模型) ¥200-800
oMLX + nanbeige4.1 3b ¥0(电费忽略)

结论:本地部署 0 花销,16GB Mac Mini 完全够用。

六、适用场景和限制

✅ 适合场景

  1. OpenClaw 日常任务

    • 心跳检查
    • 定时任务执行
    • 日志分析
    • 简单对话
  2. 轻量级开发辅助

    • 代码片段生成
    • 函数解释
    • Bug 定位
  3. 个人知识库

    • 文档摘要
    • 问答检索
    • 笔记整理
  4. 自动化脚本

    • 文本处理
    • 数据清洗
    • 格式转换

❌ 不适合场景

  1. 超长文本生成

    • 小说/文章创作(>2000 字)
    • 长篇报告
  2. 专业领域知识

    • 法律咨询
    • 医疗诊断
    • 财务分析
  3. 多模态任务

    • 图像理解
    • 视频分析
    • 音频处理
  4. 复杂推理

    • 高等数学证明
    • 逻辑难题
    • 多步骤规划

最佳实践:混合部署

推荐架构

1
2
日常任务 (80%) → oMLX + nanbeige4.1 3b (本地)
复杂任务 (20%) → 云端 API (GPT-4/Claude)

实现方式

  1. OpenClaw 配置模型路由
  2. 简单任务自动走本地
  3. 复杂任务手动切换云端

七、总结和建议

核心结论

  1. 不是小模型不行,是框架选错了

    • Ollama + Qwen3.5 4B = 5 分钟响应(框架拖累)
    • oMLX + nanbeige4.1 3b = 秒级响应(正确组合)
  2. 丐版 Mac Mini 也能跑本地 AI

    • 16GB 内存足够(INT4 量化后仅 1.5GB)
    • 0 API 费用,长期省钱
  3. nanbeige4.1 3b 是被低估的小钢炮

    • 推理能力超越 Qwen3-32B
    • 专为轻量但复杂任务设计

配置推荐

预算 推荐配置 量化级别
丐版 (8GB) Mac Mini M1/M2 INT4
标准 (16GB) Mac Mini M2/M3 INT4 或 INT8
顶配 (32GB+) Mac Studio M2/M3 INT8 或 FP16

未来展望

  1. 多模型混合部署

    • 小模型处理日常任务
    • 大模型处理复杂推理
    • oMLX 自动调度
  2. 模型微调

    • 针对 OpenClaw 场景微调 nanbeige4.1
    • 提升特定任务准确率
  3. 边缘设备部署

    • iPad + oMLX(未来支持)
    • iPhone + oMLX(实验性)

附录:资源链接

FAQ

问:oMLX 和 Ollama 有什么区别?

答:oMLX 支持连续批处理和分层 KV 缓存,相同内存下并发能力提升显著;Ollama 更适合简单单次推理。

问:nanbeige4.1 3b 的内存占用是多少?

答:仅 1.5GB,远低于 Qwen3-32B 的 32GB,适合 16GB Mac Mini 等受限设备。

问:Mac Mini 跑 oMLX 需要付费吗?

答:完全免费。使用 Ollama/oMLX 本地推理,无需任何 API 费用。

问:如何从 Ollama 迁移到 oMLX?

答:详见文章第四部分,主要步骤:停止 Ollama 服务、安装 oMLX、迁移模型文件、验证响应。

最后说一句:本地 AI 不是不能用,是要用对工具。希望这篇文章能让你的丐版 Mac Mini 不再望虾兴叹。

有问题欢迎在评论区交流,或者到 OpenClaw 社区讨论。🍊

title: “你的丐版 MacMini 望虾兴叹?试试:oMLX + nanbeige4.1 3b,跑龙虾 0 花销!”
description: “16GB Mac Mini 用 Ollama 跑 Qwen3.5 4B,简单问题要等 5 分钟?不是小模型不行,是框架选错了。oMLX 连续批处理 + 分层 KV 缓存,让丐版 MacMini 也能秒级响应 OpenClaw 日常任务。”
date: “2026-03-10T16:00:00+08:00”
updated: “2026-03-10T16:00:00+08:00”
categories: Tech-Prac
tags:
- OpenClaw
- oMLX
- nanbeige4.1
- Mac-Mini
- Local-Deploy
- AI-Agent
cover: “/assets/covers/omlx-macmini-openclaw.webp”

写在前面:本文面向所有被「本地 AI 跑不动」折磨的 Mac 用户。如果你有用过 Ollama、LM Studio 或其他本地推理工具,并且经历过「简单问题等半天」的痛苦,那么这篇文章就是为你写的。

写在前面:本文面向所有被「本地 AI 跑不动」折磨的 Mac 用户。如果你有用过 Ollama、LM Studio 或其他本地推理工具,并且经历过「简单问题等半天」的痛苦,那么这篇文章就是为你写的。

一、痛点:本地 AI 的「假可用」困境

先说个真实场景。

你花 6000 块买了台 16GB Mac Mini,想着「本地部署 AI 应该没问题吧」。于是:

  1. 安装 Ollama(社区推荐,开箱即用)
  2. 下载 Qwen3.5 4B(小模型,应该跑得快)
  3. 配置 OpenClaw(本地模型,0 花销)

听起来很美好,对吧?

现实是:你问它「1+1 等于几」,它转了 5 分钟才给你答案。

不是夸张,是真实发生的。原因不是模型不行,是框架设计有缺陷

Ollama 的问题在哪?

Ollama 的核心设计理念是「通用性优先」,这导致它在 macOS 上的优化不够彻底:

问题 影响
无连续批处理 并发请求时 GPU 利用率低
上下文无法复用 每次对话重新计算 KV 缓存
内存管理粗放 小模型也占大量内存
后台服务不稳定 需要手动重启

结果就是:明明是本地部署,响应速度还不如云端 API

很多用户到这一步就放弃了,要么回到付费 API,要么把 Mac Mini 当显示器支架用。

但问题真的无解吗?

二、转折点:发现 oMLX

oMLX(读作「O-M-L-X」)是一个专为 Apple Silicon 优化的 LLM 推理服务器,GitHub 1824 stars。

它的核心理念很简单:既然 Apple 的 M 系列芯片有统一内存架构,那就针对这个架构做深度优化

oMLX 的三大杀手锏

1. 连续批处理(Continuous Batching)

传统推理框架(如 Ollama)的处理方式:

1
2
3
请求 1: [预填充] → [解码] → 完成
请求 2: [等待] → [预填充] → [解码] → 完成
请求 3: [等待] → [等待] → [预填充] → [解码] → 完成

oMLX 的处理方式:

1
2
3
4
请求 1: [预填充] → [解码] → 完成
请求 2: [预填充] → [解码] → 完成
请求 3: [预填充] → [解码] → 完成
↑ 合并处理,GPU 利用率提升 3-5 倍

效果:并发请求时,吞吐量提升 3-5 倍。

2. 分层 KV 缓存(Hot RAM + Cold SSD)

这是 oMLX 最核心的创新。

传统框架的 KV 缓存:

  • 全部驻留内存
  • 上下文切换时重新计算
  • 重启后缓存丢失

oMLX 的分层缓存:

1
2
3
4
5
6
7
8
9
10
┌─────────────────────────────────┐
│ Hot Tier (RAM) - 快速访问 │
│ 常用上下文块驻留内存 │
└─────────────────────────────────┘
↓ 自动卸载
┌─────────────────────────────────┐
│ Cold Tier (SSD) - 持久化 │
│ 冷数据以 safetensors 格式存储 │
│ 重启后可恢复,无需重新计算 │
└─────────────────────────────────┘

效果

  • 上下文可跨会话复用(即使重启服务器)
  • 内存占用降低 50%+
  • 长对话场景性能提升明显

3. macOS 原生体验

  • 菜单栏管理:一键启停,实时查看模型状态
  • 后台服务brew services start omlx 自动重启
  • 内置 Web UIhttp://localhost:8000/admin 监控、聊天、下载模型
  • HuggingFace 直连:内置模型下载器,无需手动下载

安装 oMLX(3 种方式)

方式 1:Homebrew(推荐)

1
2
3
brew tap jundot/omlx https://github.com/jundot/omlx
brew install omlx
brew services start omlx # 后台服务运行

方式 2:macOS App

1
2
3
# 从 Releases 下载 .dmg 文件
# https://github.com/jundot/omlx/releases
# 拖拽到 Applications,完成

方式 3:从源码安装

1
2
3
4
git clone https://github.com/jundot/omlx.git
cd omlx
pip install -e . # 核心功能
pip install -e ".[mcp]" # 可选:MCP 支持

系统要求

  • macOS 15.0+ (Sequoia)
  • Python 3.10+
  • Apple Silicon (M1/M2/M3/M4)

三、模型选择:为什么是 nanbeige4.1 3b?

如果说 oMLX 是「正确的框架」,那 nanbeige4.1 3b 就是「被低估的小钢炮」。

nanbeige4.1 3b 的真实实力

先看数据(来自官方技术报告):

基准测试 nanbeige4.1 3b Qwen3-4B Qwen3-32B
LiveCodeBench-Pro 81.4 40.2 42.3
AIME 2026 数学 87.4 81.46 75.83
Arena-Hard-v2 73.2 34.9 56.0
GPQA 科学 83.8 65.8 68.4
内存占用 (INT4) ~1.5GB ~2.5GB ~18GB

关键发现

  1. 代码能力是 Qwen3-4B 的 2 倍(81.4 vs 40.2)
  2. 推理能力超越 Qwen3-32B(Arena-Hard 73.2 vs 56.0)
  3. 内存占用仅 1.5GB(INT4 量化后)

为什么适合 OpenClaw?

OpenClaw 的日常任务类型:

  • ✅ 心跳检查(简单指令理解)
  • ✅ 定时任务执行(流程化操作)
  • ✅ 日志分析(文本分类)
  • ✅ 简单对话(用户交互)
  • ❌ 长文本生成(>2000 字)
  • ❌ 专业领域知识(法律、医疗)

nanbeige4.1 3b 的定位

不是要替代大模型,而是处理日常 80% 的简单任务。

下载 nanbeige4.1 3b

方式 1:通过 oMLX Web UI 下载

1
2
3
4
1. 打开 http://localhost:8000/admin
2. 点击「Model Downloader」
3. 搜索「nanbeige4.1-3b」
4. 点击下载

方式 2:手动下载(HuggingFace)

1
2
3
4
5
6
7
# 创建模型目录
mkdir -p ~/models/Nanbeige4.1-3B

# 使用 huggingface-cli 下载
pip install huggingface_hub
huggingface-cli download Nanbeige/Nanbeige4.1-3B \
--local-dir ~/models/Nanbeige4.1-3B

推荐量化版本

  • INT4:1.5GB,适合 8GB/16GB Mac
  • INT8:2.5GB,适合 16GB+ Mac
  • FP16:6GB,适合 32GB+ Mac(不推荐,性能提升有限)

四、实战部署:15 分钟让 OpenClaw 跑起来

步骤 1:启动 oMLX

1
2
3
4
5
# 后台服务启动(推荐)
brew services start omlx

# 或手动启动
omlx serve --model-dir ~/models

验证启动

1
2
curl http://localhost:8000/v1/models
# 返回模型列表即成功

步骤 2:配置 OpenClaw

编辑 OpenClaw 配置文件(通常是 ~/.openclaw/config.json 或通过 WebUI 配置):

1
2
3
4
5
6
7
{
"model": "omlx-local",
"api_base": "http://localhost:8000/v1",
"api_key": "omlx", // 可省略,oMLX 不验证
"default_model": "Nanbeige4.1-3B",
"timeout_seconds": 30
}

关键点

  • api_base 指向 oMLX 服务地址
  • default_model 与 oMLX 中模型名称一致
  • OpenClaw 无需修改代码(OpenAI 兼容 API)

步骤 3:测试验证

测试 1:健康检查

1
2
curl http://localhost:8000/health
# 返回 {"status": "ok"} 即成功

测试 2:简单对话

1
2
3
4
5
6
7
8
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Nanbeige4.1-3B",
"messages": [
{"role": "user", "content": "1+1 等于几?"}
]
}'

预期响应时间

  • 首 token:<200ms(M2/M3)
  • 完整响应:<1s

测试 3:OpenClaw 任务

1
2
# 触发 OpenClaw 心跳检查
# 观察响应时间

步骤 4:监控和优化

打开 oMLX Web UI

1
http://localhost:8000/admin

关键指标

  • 内存占用:应 <2GB(INT4 量化)
  • GPU 利用率:空闲时 <10%,负载时 50-80%
  • 缓存命中率:>70% 表示缓存工作正常

优化建议

  1. 模型固定:在 Web UI 中 Pin 住 nanbeige4.1 3b,避免 LRU eviction
  2. TTL 设置:设置 30 分钟空闲超时,自动卸载释放内存
  3. 上下文限制:设置为 4096,避免内存溢出

五、性能对比(官方数据)

响应时间对比

场景 Ollama + Qwen3.5 4B oMLX + nanbeige4.1 3b
简单对话(<50 字) 30-60s <1s
代码生成(100 行) 2-5 分钟 5-10s
长文本分析(2000 字) 3-8 分钟 15-30s
并发请求(5 个) 排队阻塞 同时处理

内存占用对比

配置 内存占用
Ollama + Qwen3.5 4B (FP16) ~8GB
oMLX + nanbeige4.1 3b (INT4) ~1.5GB
oMLX + nanbeige4.1 3b (INT8) ~2.5GB

成本对比(按月计算)

方案 月成本
云端 API(GPT-4/Claude) $50-200
云端 API(国产大模型) ¥200-800
oMLX + nanbeige4.1 3b ¥0(电费忽略)

结论:本地部署 0 花销,16GB Mac Mini 完全够用。

六、适用场景和限制

✅ 适合场景

  1. OpenClaw 日常任务

    • 心跳检查
    • 定时任务执行
    • 日志分析
    • 简单对话
  2. 轻量级开发辅助

    • 代码片段生成
    • 函数解释
    • Bug 定位
  3. 个人知识库

    • 文档摘要
    • 问答检索
    • 笔记整理
  4. 自动化脚本

    • 文本处理
    • 数据清洗
    • 格式转换

❌ 不适合场景

  1. 超长文本生成

    • 小说/文章创作(>2000 字)
    • 长篇报告
  2. 专业领域知识

    • 法律咨询
    • 医疗诊断
    • 财务分析
  3. 多模态任务

    • 图像理解
    • 视频分析
    • 音频处理
  4. 复杂推理

    • 高等数学证明
    • 逻辑难题
    • 多步骤规划

最佳实践:混合部署

推荐架构

1
2
日常任务 (80%) → oMLX + nanbeige4.1 3b (本地)
复杂任务 (20%) → 云端 API (GPT-4/Claude)

实现方式

  1. OpenClaw 配置模型路由
  2. 简单任务自动走本地
  3. 复杂任务手动切换云端

七、总结和建议

核心结论

  1. 不是小模型不行,是框架选错了

    • Ollama + Qwen3.5 4B = 5 分钟响应(框架拖累)
    • oMLX + nanbeige4.1 3b = 秒级响应(正确组合)
  2. 丐版 Mac Mini 也能跑本地 AI

    • 16GB 内存足够(INT4 量化后仅 1.5GB)
    • 0 API 费用,长期省钱
  3. nanbeige4.1 3b 是被低估的小钢炮

    • 推理能力超越 Qwen3-32B
    • 专为轻量但复杂任务设计

配置推荐

预算 推荐配置 量化级别
丐版 (8GB) Mac Mini M1/M2 INT4
标准 (16GB) Mac Mini M2/M3 INT4 或 INT8
顶配 (32GB+) Mac Studio M2/M3 INT8 或 FP16

未来展望

  1. 多模型混合部署

    • 小模型处理日常任务
    • 大模型处理复杂推理
    • oMLX 自动调度
  2. 模型微调

    • 针对 OpenClaw 场景微调 nanbeige4.1
    • 提升特定任务准确率
  3. 边缘设备部署

    • iPad + oMLX(未来支持)
    • iPhone + oMLX(实验性)

附录:资源链接

FAQ

问:oMLX 和 Ollama 有什么区别?

答:oMLX 支持连续批处理和分层 KV 缓存,相同内存下并发能力提升显著;Ollama 更适合简单单次推理。

问:nanbeige4.1 3b 的内存占用是多少?

答:仅 1.5GB,远低于 Qwen3-32B 的 32GB,适合 16GB Mac Mini 等受限设备。

问:Mac Mini 跑 oMLX 需要付费吗?

答:完全免费。使用 Ollama/oMLX 本地推理,无需任何 API 费用。

问:如何从 Ollama 迁移到 oMLX?

答:详见文章第四部分,主要步骤:停止 Ollama 服务、安装 oMLX、迁移模型文件、验证响应。

最后说一句:本地 AI 不是不能用,是要用对工具。希望这篇文章能让你的丐版 Mac Mini 不再望虾兴叹。

有问题欢迎在评论区交流,或者到 OpenClaw 社区讨论。🍊