<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      24小時90次實驗,全程AI寫代碼,他獨自復現蘋果三年前的論文成果

      0
      分享至

      內存墻是計算機體系結構中的一個經典瓶頸,簡單來說,就是處理器的運算速度飛快,但內存的容量和傳輸速度卻遠遠跟不上需求。

      尤其是像 Qwen3.5-397B 這樣擁有 3,970 億參數的巨型模型,即使經過 4 比特壓縮,其體積也高達 209 GB,是頂級消費級筆記本內存容量的 4 倍以上。在傳統的推理模式下,這意味著你必須擁有數張價值不菲的專業顯卡集群才能勉強運行。

      近日,來自美國最大的醫療保健和藥房連鎖公司之一 CVS Health 的人工智能平臺副總裁丹·伍茲(Dan Woods)完成了一項看似不可能的挑戰:他運行了一個名為 Flash-MoE的項目,成功在一臺僅有 48GB 內存的 MacBook Pro 上離線運行了擁有 3,970 億參數的 Qwen3.5-397B,運行速度達到約 5.7 tokens/秒,峰值可到 7.07 tokens/秒。


      圖 | 伍茲(來源:社交媒體 X)

      對伍茲而言,在本地設備上運行頂級規模的大模型,是他多年來的愿望。早在三年前,蘋果就發布過一篇名為“LLM in a flash: Efficient Large Language Model Inference with Limited Memory”的論文,明確指出通過從閃存流式傳輸權重,運行超出內存容量的大模型完全可行。他一直期待這一天的到來,但即便蘋果的硬件架構似乎為這一技術量身定制,官方卻始終沒有推出對應的落地方案。

      伍茲深知,編寫底層 Metal 著色器、Objective-C 推理引擎以及復雜的 I/O 優化并不在自己的專業領域內。但隨著 Claude Opus 4.6 的進化和 Claude Code 智能體化工程的成熟,時機終于來了。

      他將研究思路和論文交給 Claude Code,并采用安德烈·卡帕西(Andrej Karpathy)“自動研究”模式的變體,讓 Claude 在 24 小時內運行了 90 個實驗,以確定最佳推理策略、量化方法和架構選擇。從 5,000 行的 Objective-C 推理引擎到 1,100 行的 Metal 著色器,再到 2 比特重分配量化管線及全部測試代碼,沒有一行是由他親手編寫的,全部出自 Claude 之手。

      在相關論文中,伍茲還將 Claude Opus 4.6 列為第一作者。


      (來源:GitHub)

      在傳統的稠密模型中,每生成一個字,模型中的每一個參數都必須參與計算。Qwen3.5-397B 是一款極具代表性的超大規模混合專家模型(MoE)。這類模型并非所有參數同時工作,而是被拆分成為數百個“專家”模塊,每個 Token 只激活少數專家,其余模塊均處于閑置,天生具備極高的權重稀疏性。Qwen3.5-397B,總參數量為 3,970 億,但每個 token 僅激活 17B 參數。

      Qwen3.5-397B 擁有 512 個專家,但在處理每個 Token 時,默認只會激活 10 個專家。伍茲進一步發現,即使只激活 4 個專家,模型的邏輯推理、數學和編程能力依然保持卓越,而一旦激活數量少于 3 個,模型輸出會直接崩潰。這意味著在任何一個計算瞬間,只有不到 2% 的專家權重是真正需要的。

      因此,伍茲的想法是:如果能把這部分需要的權重從高速 NVMe 固態硬盤(SSD)快速傳輸到內存/顯卡,就不用把整個模型塞進內存,相當于讓固態硬盤成為模型的“外部內存”,流式給模型供能。

      蘋果 M3 Max 的統一內存架構(CPU、GPU、SSD 共享一個地址空間,內存帶寬達 400GB/s)和 3 倍于前代的 NVMe 速度,剛好提供了硬件基礎,能在模型計算的時間內,把需要的專家權重傳過來。


      (來源:GitHub)

      為了實現這一想法,伍茲做了一些創新改進。

      首先是給模型權重“瘦身”,在原有 4 比特量化的基礎上,對專家權重做 2 比特二次量化,單個專家大小從 7.08MB 降至 3.93MB,總存儲需求從 209GB 降到 120GB,數據傳輸量直接減少 44%,且每層量化誤差僅 0.001-0.003,模型輸出質量幾乎沒有損失。

      其次,在 MacBook Pro M3 Max 上,NVMe SSD 的順序讀取速度高達 17.5 GB/s。伍茲利用這一特性,開發了一套基于 C 語言和 Metal 指令集的管線,核心路徑上完全沒有 Python,也沒有使用任何現成的 ML 框架,把計算分成三個命令緩沖區,讓 CPU 準備下一層的同時,GPU 在算當前層,實現重疊執行,減少等待。

      最令人意外的是緩存策略的反常識優化。研究人員最初為提升速度搭建了 9.8GB 的應用層緩存,結果卻發現速度不升反降。深入研究后發現,蘋果硅芯片的硬件內存壓縮器會因這類 GPU 可見緩存瘋狂工作,每秒數萬次的解壓縮消耗了大量 CPU 資源和內存帶寬,反而擠占了數據傳輸和計算的資源。最終研究人員果斷刪掉所有應用層緩存,讓 macOS 系統的頁緩存完全接管,這一調整直接讓模型運行速度提升 38%,解壓縮操作幾乎降至零。

      一系列優化下來,這款 3,970 億參數的大模型在 48GB 內存的筆記本上,僅占用 6.5GB 內存就能穩定運行,每層計算耗時僅 2.9 毫秒,其中固態硬盤的數據傳輸是最大瓶頸,占比近 50%。經測試,模型在 2 比特量化下的輸出質量與 4 比特幾乎無差別,能正確完成數字因式分解、編寫規范 Python 代碼、用通俗類比解釋科學概念等任務,完全達到實用標準。

      伍茲指出,當前系統僅受限于 SSD 帶寬,理論吞吐量底線可達 18.6 tokens/秒,而目前的 5.74 tokens/秒僅利用了硬件的部分潛能,仍有巨大提升空間。隨著蘋果 SSD 帶寬每代約 20% 的穩步增長,預計在未來 2 到 3 代硬件更迭內,在個人筆記本上以 10 tokens/秒以上速度運行 4,000 億參數模型將成為常態。

      他還表示,這種方法同樣適用于 DeepSeek-V3 等其他以專家權重為主導的 MoE 模型。

      1https://github.com/danveloper/flash-moe/blob/main/paper/flash_moe.pdf

      運營/排版:何晨龍

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      國航平壤航線無票可售,似已暫停

      國航平壤航線無票可售,似已暫停

      新浪財經
      2026-04-07 01:10:33
      女子假信佛與多位高僧發生不當關系,秘密錄制5600段視頻。

      女子假信佛與多位高僧發生不當關系,秘密錄制5600段視頻。

      特約前排觀眾
      2026-02-09 00:05:05
      “我老公喜歡大胸,能做多大做多大”,女子身高174,體重47公斤,想做隆胸手術被醫生勸退,醫生:她本身是A減,一心想做E杯

      “我老公喜歡大胸,能做多大做多大”,女子身高174,體重47公斤,想做隆胸手術被醫生勸退,醫生:她本身是A減,一心想做E杯

      觀威海
      2026-04-07 10:15:03
      大轟炸!全線大跳水!特朗普威脅:“一個文明將徹底消亡"

      大轟炸!全線大跳水!特朗普威脅:“一個文明將徹底消亡"

      鳳凰網財經
      2026-04-07 21:53:21
      遼寧勝福建!萊迪哈維好使,趙繼偉狀態回暖,付豪打成基本盤!

      遼寧勝福建!萊迪哈維好使,趙繼偉狀態回暖,付豪打成基本盤!

      籃球資訊達人
      2026-04-07 21:29:58
      特朗普再發威脅:若伊朗不在7日20時前“投降” 將打擊其民用設施

      特朗普再發威脅:若伊朗不在7日20時前“投降” 將打擊其民用設施

      財聯社
      2026-04-07 03:04:07
      4億美元,灰飛煙滅

      4億美元,灰飛煙滅

      中國新聞周刊
      2026-04-05 18:06:30
      杜月笙面館吃飯,一伙地痞流氓找他要保護費,杜月笙:嫌命長嗎?

      杜月笙面館吃飯,一伙地痞流氓找他要保護費,杜月笙:嫌命長嗎?

      千秋文化
      2026-04-01 20:35:51
      趙心童談世錦賽奪冠后壓力:不想讓球迷失望,就開始怕輸了

      趙心童談世錦賽奪冠后壓力:不想讓球迷失望,就開始怕輸了

      畫夕
      2026-04-07 18:38:48
      現役球員進NBA名人堂的概率!4人100%,哈登99%,利拉德出乎意料

      現役球員進NBA名人堂的概率!4人100%,哈登99%,利拉德出乎意料

      麥子的籃球故事
      2026-04-07 17:44:51
      聯合國警告特朗普:美國若襲擊伊朗發電廠和橋梁或涉戰爭罪;目前伊朗已有多個橋梁遭襲

      聯合國警告特朗普:美國若襲擊伊朗發電廠和橋梁或涉戰爭罪;目前伊朗已有多個橋梁遭襲

      魯中晨報
      2026-04-07 20:25:03
      隨著47歲蘭帕德率隊0-0,萊斯特城1-1,英冠最新積分榜出爐

      隨著47歲蘭帕德率隊0-0,萊斯特城1-1,英冠最新積分榜出爐

      側身凌空斬
      2026-04-07 05:19:04
      74年李先念找到李德生,沉默半晌后說:要你辭職,是毛主席的建議

      74年李先念找到李德生,沉默半晌后說:要你辭職,是毛主席的建議

      鶴羽說個事
      2026-03-27 22:49:42
      詐尸了!哈梅內伊死而復生?特朗普大秀軍功,伊朗做出了一個舉動

      詐尸了!哈梅內伊死而復生?特朗普大秀軍功,伊朗做出了一個舉動

      倔強旳牽強
      2026-04-07 11:52:35
      大陸給高規格禮遇,鄭麗文接下鮮花,坐高鐵到南京前,她喊出12字

      大陸給高規格禮遇,鄭麗文接下鮮花,坐高鐵到南京前,她喊出12字

      哄動一時啊
      2026-04-07 22:20:56
      回加拿大生活的大山,60歲須發皆白很滄桑,重慶妻子仍風韻猶存

      回加拿大生活的大山,60歲須發皆白很滄桑,重慶妻子仍風韻猶存

      素衣讀史
      2026-03-31 15:11:31
      孫儷的“上海小院”火了,院里種菜曬衣服養狗,滿滿都是煙火氣

      孫儷的“上海小院”火了,院里種菜曬衣服養狗,滿滿都是煙火氣

      趣文說娛
      2026-04-06 21:37:13
      看來美帝是真的準備打地面戰爭了

      看來美帝是真的準備打地面戰爭了

      仰望星空的一粒沙子
      2026-04-04 19:18:21
      又傷一個,MVP這下沒有懸念了?強行帶傷打卡,這是真想要啊

      又傷一個,MVP這下沒有懸念了?強行帶傷打卡,這是真想要啊

      體育新角度
      2026-04-07 12:48:22
      周杰倫現身意大利摩德納 定制專屬法拉利V12超級跑車

      周杰倫現身意大利摩德納 定制專屬法拉利V12超級跑車

      快科技
      2026-04-07 15:14:06
      2026-04-07 23:28:49
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16549文章數 514854關注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      特朗普恐嚇4小時摧毀伊朗 伊朗稱"打穿"海法未見攔截

      頭條要聞

      特朗普恐嚇4小時摧毀伊朗 伊朗稱"打穿"海法未見攔截

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產

      財經要聞

      10萬億財政轉移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態體驗

      態度原創

      房產
      本地
      數碼
      教育
      公開課

      房產要聞

      重磅!三亞擬出安居房新政!

      本地新聞

      跟著歌聲游安徽,聽古村回響

      數碼要聞

      榮耀官宣WIN系列游戲本:4月23日發布!

      教育要聞

      第一個「寫進政府工作報告」的春假,研學賽道加速分化

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版