升级到新版引擎后,变化肉眼可见。Ollama把推理管线大量迁入苹果的MLX框架,深度利用了Apple Silicon的统一内存架构。CPU和GPU不再各管各的内存池,而是共享同一片物理内存,这就省掉了大量来回搬运数据的开销。同时,它通过MLX的即时编译器把多个GPU操作合并成更大的Metal内核,减少调度损耗,GPU采样也被加速。官方说法是输出速度比先前的Q4_K_M实现大约提升20%,实际用下来的体感,短请求的响应几乎快了一倍——我问个脚本怎么写,敲完回车,答案就开始往外跳,毫无迟滞。这正对我的工作流:我很少跑长文本生成长文,日常就是零碎的编程提问、自动化脚本调试,一天下来几十个短对话。过去每次提问都要等上几秒,现在每个请求的延迟都压到感知不到的程度。多出来的这20%,落在短交互里被放大了。速度提升虽然爽,但真正让我改观的是小模型回答的质量。Ollama的新引擎开始支持NVIDIA的NVFP4量化格式。量化在给模型瘦身的同时,总会丢掉一部分原始权重里的信息,过去很多小模型被量化后,回答容易变得干瘪、跑偏。但现在用新引擎加载Qwen3-Coder-Next这类编码专用的小模型,配合Claude Code这样的工具套件,代码补全和解释的准确度上升了一个小台阶,不再有那种“好像说了,又好像什么都没说”的漂浮感。这个变化在Claude Code、Aider等多代理工作流里尤其明显,因为代理之间互相传话,一个环节失准就会被放大,底模回答得更扎实,整个协作链条就不容易断。所以这场引擎升级,吃准了Apple Silicon的统一内存,把速度拉了上去,同时借着新量化格式把信息密度也往上提了一截。现在的本地模型在我这台没什么肌肉的Mac上,终于从“能跑就行”变成了“真正想用”。
换用Ollama新引擎后,我的Mac推理速度翻倍,但更惊喜的是这个
每次本地大模型发布新引擎,评论区都会分成两派:一派兴奋地晒出速度对比,另一派担心量化会不会悄悄拉低回答质量。这次Ollama把MLX引擎推给我时,我原本也只打算测一测生成速度,结果却被一个更隐蔽的变化抓住了注意力。我的设备是16GB内存的MacBook Air M5,算不上跑本地模型的好配置,之前也就能勉强带动70亿参数以下的小模型。问题不在能不能跑,而是一跑起来,整个系统都像踩了刹车。Ollama的老版引擎消耗资源毫不客气,编译代码时切个窗口都要等上两秒。
升级到新版引擎后,变化肉眼可见。Ollama把推理管线大量迁入苹果的MLX框架,深度利用了Apple Silicon的统一内存架构。CPU和GPU不再各管各的内存池,而是共享同一片物理内存,这就省掉了大量来回搬运数据的开销。同时,它通过MLX的即时编译器把多个GPU操作合并成更大的Metal内核,减少调度损耗,GPU采样也被加速。官方说法是输出速度比先前的Q4_K_M实现大约提升20%,实际用下来的体感,短请求的响应几乎快了一倍——我问个脚本怎么写,敲完回车,答案就开始往外跳,毫无迟滞。这正对我的工作流:我很少跑长文本生成长文,日常就是零碎的编程提问、自动化脚本调试,一天下来几十个短对话。过去每次提问都要等上几秒,现在每个请求的延迟都压到感知不到的程度。多出来的这20%,落在短交互里被放大了。速度提升虽然爽,但真正让我改观的是小模型回答的质量。Ollama的新引擎开始支持NVIDIA的NVFP4量化格式。量化在给模型瘦身的同时,总会丢掉一部分原始权重里的信息,过去很多小模型被量化后,回答容易变得干瘪、跑偏。但现在用新引擎加载Qwen3-Coder-Next这类编码专用的小模型,配合Claude Code这样的工具套件,代码补全和解释的准确度上升了一个小台阶,不再有那种“好像说了,又好像什么都没说”的漂浮感。这个变化在Claude Code、Aider等多代理工作流里尤其明显,因为代理之间互相传话,一个环节失准就会被放大,底模回答得更扎实,整个协作链条就不容易断。所以这场引擎升级,吃准了Apple Silicon的统一内存,把速度拉了上去,同时借着新量化格式把信息密度也往上提了一截。现在的本地模型在我这台没什么肌肉的Mac上,终于从“能跑就行”变成了“真正想用”。
升级到新版引擎后,变化肉眼可见。Ollama把推理管线大量迁入苹果的MLX框架,深度利用了Apple Silicon的统一内存架构。CPU和GPU不再各管各的内存池,而是共享同一片物理内存,这就省掉了大量来回搬运数据的开销。同时,它通过MLX的即时编译器把多个GPU操作合并成更大的Metal内核,减少调度损耗,GPU采样也被加速。官方说法是输出速度比先前的Q4_K_M实现大约提升20%,实际用下来的体感,短请求的响应几乎快了一倍——我问个脚本怎么写,敲完回车,答案就开始往外跳,毫无迟滞。这正对我的工作流:我很少跑长文本生成长文,日常就是零碎的编程提问、自动化脚本调试,一天下来几十个短对话。过去每次提问都要等上几秒,现在每个请求的延迟都压到感知不到的程度。多出来的这20%,落在短交互里被放大了。速度提升虽然爽,但真正让我改观的是小模型回答的质量。Ollama的新引擎开始支持NVIDIA的NVFP4量化格式。量化在给模型瘦身的同时,总会丢掉一部分原始权重里的信息,过去很多小模型被量化后,回答容易变得干瘪、跑偏。但现在用新引擎加载Qwen3-Coder-Next这类编码专用的小模型,配合Claude Code这样的工具套件,代码补全和解释的准确度上升了一个小台阶,不再有那种“好像说了,又好像什么都没说”的漂浮感。这个变化在Claude Code、Aider等多代理工作流里尤其明显,因为代理之间互相传话,一个环节失准就会被放大,底模回答得更扎实,整个协作链条就不容易断。所以这场引擎升级,吃准了Apple Silicon的统一内存,把速度拉了上去,同时借着新量化格式把信息密度也往上提了一截。现在的本地模型在我这台没什么肌肉的Mac上,终于从“能跑就行”变成了“真正想用”。