换用Ollama新引擎后，我的Mac推理速度翻倍，但更惊喜的是这个

一生相爱

2026-06-30 22:42:24

每次本地大模型发布新引擎，评论区都会分成两派：一派兴奋地晒出速度对比，另一派担心量化会不会悄悄拉低回答质量。这次Ollama把MLX引擎推给我时，我原本也只打算测一测生成速度，结果却被一个更隐蔽的变化抓住了注意力。我的设备是16GB内存的MacBook Air M5，算不上跑本地模型的好配置，之前也就能勉强带动70亿参数以下的小模型。问题不在能不能跑，而是一跑起来，整个系统都像踩了刹车。Ollama的老版引擎消耗资源毫不客气，编译代码时切个窗口都要等上两秒。
升级到新版引擎后，变化肉眼可见。Ollama把推理管线大量迁入苹果的MLX框架，深度利用了Apple Silicon的统一内存架构。CPU和GPU不再各管各的内存池，而是共享同一片物理内存，这就省掉了大量来回搬运数据的开销。同时，它通过MLX的即时编译器把多个GPU操作合并成更大的Metal内核，减少调度损耗，GPU采样也被加速。官方说法是输出速度比先前的Q4_K_M实现大约提升20%，实际用下来的体感，短请求的响应几乎快了一倍——我问个脚本怎么写，敲完回车，答案就开始往外跳，毫无迟滞。这正对我的工作流：我很少跑长文本生成长文，日常就是零碎的编程提问、自动化脚本调试，一天下来几十个短对话。过去每次提问都要等上几秒，现在每个请求的延迟都压到感知不到的程度。多出来的这20%，落在短交互里被放大了。速度提升虽然爽，但真正让我改观的是小模型回答的质量。Ollama的新引擎开始支持NVIDIA的NVFP4量化格式。量化在给模型瘦身的同时，总会丢掉一部分原始权重里的信息，过去很多小模型被量化后，回答容易变得干瘪、跑偏。但现在用新引擎加载Qwen3-Coder-Next这类编码专用的小模型，配合Claude Code这样的工具套件，代码补全和解释的准确度上升了一个小台阶，不再有那种“好像说了，又好像什么都没说”的漂浮感。这个变化在Claude Code、Aider等多代理工作流里尤其明显，因为代理之间互相传话，一个环节失准就会被放大，底模回答得更扎实，整个协作链条就不容易断。所以这场引擎升级，吃准了Apple Silicon的统一内存，把速度拉了上去，同时借着新量化格式把信息密度也往上提了一截。现在的本地模型在我这台没什么肌肉的Mac上，终于从“能跑就行”变成了“真正想用”。

相关阅读