<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      Ollama 0.19 來(lái)了

      0
      分享至


      Ollama 0.19 版來(lái)了,直接在 Apple Silicon 上用 MLX 重寫(xiě)了推理引擎,速度飆到了一個(gè)讓人難以忽視的水平。

      還有英偉達(dá) NVPF4 傍身,強(qiáng)強(qiáng)聯(lián)合,贏麻了。

      Ollama 0.19:MLX 駕到

      Ollama 一直是 Mac 用戶跑本地大模型的首選

      但說(shuō)實(shí)話,之前的速度只能算"能用",跟云端推理比起來(lái)還是差了點(diǎn)意思。

      這次 0.19 版本,Ollama 做了一個(gè)根本性的改變:底層推理引擎直接換成了 Apple 的 MLX 框架。

      MLX 是 Apple 專門為自家芯片的統(tǒng)一內(nèi)存架構(gòu)(Unified Memory Architecture)打造的機(jī)器學(xué)習(xí)框架。

      簡(jiǎn)單說(shuō),CPU 和 GPU 共享同一塊內(nèi)存,數(shù)據(jù)不用來(lái)回拷貝,天然就快。之前 Ollama 用的是 llama.cpp 的推理后端,現(xiàn)在直接上了 MLX,等于換了個(gè)渦輪增壓。

      效果有多猛?來(lái)看官方數(shù)據(jù)(基于 M5 芯片 + Qwen3.5-35B-A3B 模型):

      指標(biāo)

      Ollama 0.19 (MLX + NVFP4)

      Ollama 0.18 (llama.cpp + Q4_K_M)

      提升

      Prefill(預(yù)填充)

      1810 tokens/s

      1154 tokens/s

      +57%Decode(生成)

      112 tokens/s

      58 tokens/s

      +93%

      Prefill 速度提了 57%,生成速度幾乎翻倍

      跑 Coding Agent 的時(shí)候,那種"嗖嗖嗖"往外吐代碼的感覺(jué),爽。

      而且 Ollama 還透露,用 int4 量化時(shí)數(shù)據(jù)更好看:prefill 能到 1851 token/s,decode 到 134 token/s。

      在 M5、M5 Pro 和 M5 Max 上,Ollama 還能利用新的GPU Neural Accelerators來(lái)同時(shí)加速首 token 延遲(TTFT)和生成速度。

      NVFP4:英偉達(dá)的 4 位浮點(diǎn)量化格式

      這次 Ollama 選用的量化格式是 NVIDIA 的NVFP4,這個(gè)值得多聊兩句。

      你可能會(huì)問(wèn):Mac 上跑大模型,跟英偉達(dá)有什么關(guān)系?

      關(guān)系大了

      NVFP4 是英偉達(dá)基于 Blackwell GPU 架構(gòu)推出的一種 4 位浮點(diǎn)數(shù)格式,最大的特點(diǎn)就是在極低精度下仍然保持很高的模型準(zhǔn)確率。

      Ollama 把它引入到 MLX 推理中,目的是讓本地用戶跑出來(lái)的結(jié)果和云端生產(chǎn)環(huán)境盡量一致。

      傳統(tǒng)量化(比如之前的 Q4_K_M)雖然也是 4 位,但精度損失比較明顯。NVFP4 的兩個(gè)核心設(shè)計(jì)讓它脫穎而出:

      1. 高精度縮放因子

      每 16 個(gè)值組成一個(gè)"微塊"(micro-block),共享一個(gè) FP8(E4M3)格式的縮放因子。相比 MXFP4 的 32 值一組 + 粗粒度的 power-of-two 縮放,NVFP4 的分組更細(xì)、縮放更準(zhǔn)。

      2. 雙層縮放策略

      在微塊級(jí)別 FP8 縮放之上,還有一個(gè)張量級(jí)別的 FP32 二級(jí)縮放因子,兩層一起工作,大幅降低量化誤差。

      英偉達(dá)官方給出的 DeepSeek-R1-0528 測(cè)試數(shù)據(jù)很有說(shuō)服力:

      評(píng)測(cè)

      FP8

      NVFP4

      精度差異

      MMLU-PRO

      85%

      84%

      GPQA Diamond

      81%

      80%

      Math-500

      98%

      98%

      0

      AIME 2024

      89%

      91%

      在 AIME 2024 上 NVFP4 甚至比 FP8 還高了 2%。你沒(méi)看錯(cuò),4 位量化比 8 位的分還高。

      對(duì) Ollama 用戶來(lái)說(shuō),NVFP4 意味著你本地跑的模型和云端推理服務(wù)(用 TensorRT-LLM、vLLM 部署的)結(jié)果幾乎一致。以前本地量化和云端之間總有一條"質(zhì)量鴻溝",現(xiàn)在這條溝被大幅填平了。

      更多關(guān)于 NVFP4 的技術(shù)細(xì)節(jié),可以看英偉達(dá)官方博客:https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/

      緩存升級(jí):Agent 場(chǎng)景更絲滑

      除了推理引擎大換血,0.19 在緩存機(jī)制上也做了三項(xiàng)重要改進(jìn),主要面向 Coding Agent 和多輪對(duì)話場(chǎng)景:

      • 更低的內(nèi)存占用:跨會(huì)話復(fù)用緩存。跑 Claude Code 這類工具時(shí),多個(gè)分支會(huì)話共享系統(tǒng)提示的緩存,內(nèi)存利用率更高。

      • 智能檢查點(diǎn):Ollama 會(huì)在 prompt 的關(guān)鍵位置保存緩存快照,后續(xù)請(qǐng)求命中緩存的概率更高,prompt 處理更快。

      • 更聰明的淘汰策略:共享前綴的緩存不會(huì)因?yàn)榕f分支被清理而丟失,存活時(shí)間更長(zhǎng)。

      這三點(diǎn)對(duì) Agent 場(chǎng)景特別友好——Claude Code、OpenCode、Codex 這些 AI 編程工具,底下都是不停地發(fā) prompt 給大模型,緩存命中率高了,整體響應(yīng)就快了。

      快速上手

      下載 Ollama 0.19 預(yù)覽版:https://ollama.com/download

      ?? 目前需要 32GB 以上統(tǒng)一內(nèi)存的 Mac

      目前優(yōu)先支持的是 Qwen3.5-35B-A3B 模型(Alibaba 最新的 MoE 模型,35B 參數(shù)但只激活 3B),采樣參數(shù)已經(jīng)針對(duì)編程任務(wù)做了優(yōu)化。

      Claude Code 用戶:

      ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4

      OpenClaw 用戶:

      ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4

      直接跑模型聊天:

      ollama run qwen3.5:35b-a3b-coding-nvfp4

      模型名稱里的nvfp4就是告訴你用的 NVFP4 量化格式。Ollama 后續(xù)會(huì)支持更多模型和架構(gòu),同時(shí)也會(huì)跟 NVIDIA 的 Model Optimizer 打通,讓你可以導(dǎo)入更多 NVFP4 優(yōu)化的模型。

      社區(qū)實(shí)測(cè):M5 Max vs M4 Max

      說(shuō)到 Apple Silicon 上的推理性能,這里推薦一個(gè)開(kāi)源的MLX 推理速度測(cè)試工具

      inference-speed-tests:https://github.com/itsmostafa/inference-speed-tests

      這個(gè)項(xiàng)目和 Ollama 無(wú)關(guān),它用的是mlx-lm直接跑推理基準(zhǔn)測(cè)試。但對(duì)于想了解自己 Mac 芯片在本地大模型推理上到底什么水平的人來(lái)說(shuō),它太有用了。

      有網(wǎng)友用它對(duì)比了M5 MaxM4 Max(都是 16 寸、128GB、40 核 GPU 的頂配),結(jié)論很有參考價(jià)值:

      短 prompt(512 tokens 輸出上限):

      • Prompt 處理速度:M5 Max 提升14%~42%

      • 生成吞吐量:M5 Max 提升14%~17%

      長(zhǎng) prompt(~21K tokens 的摘要任務(wù),壓力測(cè)試內(nèi)存帶寬):

      • 生成速度提升類似

      • Prompt 處理差距巨大:M5 Max快了 2~3 倍

      長(zhǎng)上下文處理快 2~3 倍,這個(gè)數(shù)據(jù)對(duì)實(shí)際使用影響很大。你想想,跑 Agent 的時(shí)候動(dòng)不動(dòng)就是幾萬(wàn) token 的上下文,prompt 處理快了就意味著首 token 來(lái)得更快,整個(gè)交互體驗(yàn)就上了一個(gè)臺(tái)階。

      怎么用這個(gè)工具:

      # 安裝
      git clone https://github.com/itsmostafa/inference-speed-tests
      cd inference-speed-tests
      uv sync

      # 跑個(gè)基準(zhǔn)測(cè)試
      uv run src/main.py mlx-community/Qwen3-8B-4bit -n 1

      # 跑多個(gè)模型對(duì)比
      uv run src/main.py mlx-community/Qwen3-8B-4bit mlx-community/Qwen3-14B-4bit

      # 長(zhǎng)文本壓力測(cè)試
      uv run src/main.py mlx-community/Qwen3-8B-4bit \
      --dataset cnn_dailymail --dataset-config 3.0.0 --dataset-field article

      結(jié)果會(huì)自動(dòng)按你的機(jī)器型號(hào)保存到results/目錄下,包含 prompt tps、generation tps、TTFT、峰值內(nèi)存、總時(shí)間等詳細(xì)指標(biāo)。如果你有新機(jī)器,跑完提個(gè) PR 到倉(cāng)庫(kù),就能給社區(qū)貢獻(xiàn)你的數(shù)據(jù)。

      總結(jié)

      Ollama 0.19 這次更新的核心就三件事:

      1. MLX 引擎替換:Apple Silicon 上推理速度翻倍級(jí)提升

      2. NVFP4 量化格式:英偉達(dá)的 4 位精度方案,精度損失極小,本地推理結(jié)果跟云端一致

      3. 緩存大升級(jí):Agent 和多輪對(duì)話場(chǎng)景更流暢

      對(duì) Mac 用戶來(lái)說(shuō),這是 Ollama 有史以來(lái)最重要的一次更新。之前那種"本地跑模型就是慢"的印象,現(xiàn)在該更新了。M4/M5 芯片 + 128GB 統(tǒng)一內(nèi)存 + MLX + NVFP4,這套組合拳打下來(lái),本地推理的體驗(yàn)已經(jīng)逼近可用的門檻。

      • Ollama 博客原文:https://ollama.com/blog/mlx

      • Ollama 下載:https://ollama.com/download

      • NVFP4 技術(shù)詳解(英偉達(dá)官方):https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/

      • 社區(qū)推理速度測(cè)試工具:https://github.com/itsmostafa/inference-speed-tests

      制作不易,如果這篇文章覺(jué)得對(duì)你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見(jiàn)!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      北京機(jī)器人半馬賽場(chǎng)現(xiàn)高顏值機(jī)器人Coser,現(xiàn)場(chǎng)觀眾爭(zhēng)相合影

      北京機(jī)器人半馬賽場(chǎng)現(xiàn)高顏值機(jī)器人Coser,現(xiàn)場(chǎng)觀眾爭(zhēng)相合影

      極目新聞
      2026-04-19 11:28:27
      殺害羅大美的兇手余金生被執(zhí)行死刑!他瘋狂成魔有兩個(gè)原因

      殺害羅大美的兇手余金生被執(zhí)行死刑!他瘋狂成魔有兩個(gè)原因

      細(xì)品名人
      2026-04-20 07:40:08
      日本突襲!28萬(wàn)億市場(chǎng),中國(guó)被踢出局,高市早苗亮出3張底牌

      日本突襲!28萬(wàn)億市場(chǎng),中國(guó)被踢出局,高市早苗亮出3張底牌

      觸摸史跡
      2026-04-20 13:58:05
      超百萬(wàn)兵力集結(jié),美伊總決戰(zhàn)在即?中國(guó)態(tài)度已明確,和美奉陪到底

      超百萬(wàn)兵力集結(jié),美伊總決戰(zhàn)在即?中國(guó)態(tài)度已明確,和美奉陪到底

      無(wú)情有思ss
      2026-04-17 01:20:47
      CBA季后賽突遭變故!北控因違規(guī)派主力被判0比20慘敗

      CBA季后賽突遭變故!北控因違規(guī)派主力被判0比20慘敗

      kio魚(yú)
      2026-04-19 17:20:17
      陳云晚年首次披露:遵義會(huì)議上這兩個(gè)人死活不同意毛主席,吵得面紅耳赤

      陳云晚年首次披露:遵義會(huì)議上這兩個(gè)人死活不同意毛主席,吵得面紅耳赤

      老杉說(shuō)歷史
      2026-03-21 17:38:44
      WTA500斯圖加特站:萊巴金娜再提保時(shí)捷,張帥搶車失敗

      WTA500斯圖加特站:萊巴金娜再提保時(shí)捷,張帥搶車失敗

      全網(wǎng)球APP
      2026-04-20 11:10:31
      任澤平退款730萬(wàn):價(jià)值4500萬(wàn)的恒大花瓶

      任澤平退款730萬(wàn):價(jià)值4500萬(wàn)的恒大花瓶

      超先聲
      2026-04-17 16:34:01
      伊朗萬(wàn)噸大船闖美軍封鎖線,特朗普暴怒!美官員干脆直接點(diǎn)名中國(guó)

      伊朗萬(wàn)噸大船闖美軍封鎖線,特朗普暴怒!美官員干脆直接點(diǎn)名中國(guó)

      林子說(shuō)事
      2026-04-20 13:19:47
      中東,突發(fā)大消息!伊朗革命衛(wèi)隊(duì)向油輪開(kāi)火!伊朗最高領(lǐng)袖發(fā)聲

      中東,突發(fā)大消息!伊朗革命衛(wèi)隊(duì)向油輪開(kāi)火!伊朗最高領(lǐng)袖發(fā)聲

      證券時(shí)報(bào)e公司
      2026-04-18 20:38:43
      莫氏雞煲?guī)凸すべY曝光,引全網(wǎng)羨慕,老莫透露后續(xù)打算,太通透

      莫氏雞煲?guī)凸すべY曝光,引全網(wǎng)羨慕,老莫透露后續(xù)打算,太通透

      阿萊美食匯
      2026-04-16 16:00:21
      每體:梅西收購(gòu)科爾內(nèi)利亞后,俱樂(lè)部已開(kāi)始銷售其周邊產(chǎn)品

      每體:梅西收購(gòu)科爾內(nèi)利亞后,俱樂(lè)部已開(kāi)始銷售其周邊產(chǎn)品

      懂球帝
      2026-04-20 12:59:04
      極端情況下,切爾西可能要靠輸給利物浦來(lái)獲得歐冠資格

      極端情況下,切爾西可能要靠輸給利物浦來(lái)獲得歐冠資格

      懂球帝
      2026-04-20 00:22:46
      萬(wàn)科跟投員工千人聯(lián)合簽名

      萬(wàn)科跟投員工千人聯(lián)合簽名

      地產(chǎn)微資訊
      2026-04-17 16:03:16
      建議中老年人:若不差錢,少吃饅頭和米飯,多吃4種主食,身體棒

      建議中老年人:若不差錢,少吃饅頭和米飯,多吃4種主食,身體棒

      馬蹄燙嘴說(shuō)美食
      2026-04-20 03:33:58
      美國(guó)“密謀兵變”,以色列80年魔咒成真?正在復(fù)燃的美國(guó)反猶本色

      美國(guó)“密謀兵變”,以色列80年魔咒成真?正在復(fù)燃的美國(guó)反猶本色

      南宗歷史
      2026-04-19 23:11:51
      讓人揪心的事終究來(lái)了?央行定調(diào),5月后房產(chǎn)、存款或?qū)⒂瓉?lái)調(diào)整

      讓人揪心的事終究來(lái)了?央行定調(diào),5月后房產(chǎn)、存款或?qū)⒂瓉?lái)調(diào)整

      復(fù)轉(zhuǎn)這些年
      2026-04-19 23:17:41
      杜鋒展望山西!直指困難,回應(yīng)胡明軒徐杰身體狀態(tài)與拉科加盟話題

      杜鋒展望山西!直指困難,回應(yīng)胡明軒徐杰身體狀態(tài)與拉科加盟話題

      籃球資訊達(dá)人
      2026-04-20 13:25:26
      60多歲大爺相親,只要年輕漂亮的,只要夠漂亮,錢還可以再加!

      60多歲大爺相親,只要年輕漂亮的,只要夠漂亮,錢還可以再加!

      哄動(dòng)一時(shí)啊
      2026-04-19 11:42:21
      戴帽子會(huì)引發(fā)腦梗?醫(yī)生含淚勸告:70歲以后,這3件事一定要盯緊

      戴帽子會(huì)引發(fā)腦梗?醫(yī)生含淚勸告:70歲以后,這3件事一定要盯緊

      荷蘭豆愛(ài)健康
      2026-04-19 22:24:42
      2026-04-20 14:39:00
      Ai學(xué)習(xí)的老章 incentive-icons
      Ai學(xué)習(xí)的老章
      Ai學(xué)習(xí)的老章
      3335文章數(shù) 11137關(guān)注度
      往期回顧 全部

      科技要聞

      藍(lán)色起源一級(jí)火箭完美回收 客戶衛(wèi)星未入軌

      頭條要聞

      媒體:伊朗剛說(shuō)不談 美國(guó)立即開(kāi)打

      頭條要聞

      媒體:伊朗剛說(shuō)不談 美國(guó)立即開(kāi)打

      體育要聞

      七大獎(jiǎng)項(xiàng)候選官宣!文班或全票DPOY

      娛樂(lè)要聞

      鹿晗生日上熱搜,被關(guān)曉彤撕下體面

      財(cái)經(jīng)要聞

      月之暗面IPO迷局

      汽車要聞

      把天門山搬進(jìn)廠?開(kāi)仰望U8沖上45度坡的那刻 我腿軟了

      態(tài)度原創(chuàng)

      健康
      旅游
      教育
      藝術(shù)
      軍事航空

      干細(xì)胞抗衰4大誤區(qū),90%的人都中招

      旅游要聞

      北京經(jīng)開(kāi)區(qū)重磅發(fā)布2026年文商旅體活動(dòng)

      教育要聞

      都說(shuō)慣子如殺子,這3種隱形溺愛(ài),希望你一件都沒(méi)做過(guò)……

      藝術(shù)要聞

      王羲之《換鵝帖》尚在人間,驚艷無(wú)比!

      軍事要聞

      特朗普:美艦向伊朗貨船開(kāi)火炸出個(gè)洞

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版