<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      全球最強推理引擎還快2倍,斯坦福、普林斯頓破解大模型串行魔咒

      0
      分享至

      機器之心編輯部


      在大語言模型推理領域,雖然「推測解碼」(Speculative Decoding,SD)已成為加速生成的標準配置,但它依然存在一個致命弱點: drafting(草擬)和 verification(驗證)之間必須串行進行。

      近日,來自斯坦福、普林斯頓大學和 Together AI 的研究團隊提出SSD 框架及其優化算法 SAGUARO,成功實現了草擬和驗證的并行化。



      • 論文鏈接:https://arxiv.org/pdf/2603.03251
      • GitHub 鏈接:https://github.com/tanishqkumar/ssd

      據介紹,該算法推理速度比世界上最強大的推理引擎都快 2 倍。



      「推測性推測解碼」(Speculative Speculative Decoding,簡稱 SSD),是一種新型的推測性解碼 (SD)。在傳統的 SD 中,一個小且快速的模型會先猜測大且慢的模型可能生成的下幾個 token,然后大模型通過一次前向傳播驗證這些猜測,草擬和驗證是依次進行的。

      而在 SSD 中,這兩個過程是并行發生的,完全消除了運行小模型的開銷。



      并行執行草擬和驗證是很棘手的,因為你無法在某事物存在之前對其進行驗證,也無法推測你不知道的前綴之外的內容。在 SSD 中,研究者預先設定驗證結果,并在獨立硬件上進行驗證的同時進行推測。這樣一來,如果其中一種驗證結果出現,推測就能立即生效。

      雖然論文對算法進行了詳盡的理論描述,但在實踐中,研究者大部分時間都花在如何讓它與現代推理引擎中各種優化技術(Paged Attention、Prefix Caching、CUDAGraphs 等)協同工作上。

      作者 Tanishq Kumar 表示,「真的,我花在了解 CPU/GPU 同步問題上的時間遠遠超過了我的預期」。



      要使新算法達到 SOTA 水平,需要精心設計系統和算法。總的來說,SSD 推動了延遲 - 吞吐量帕累托前沿的發展,其方式與普通推測解碼推進標準自回歸算法的發展非常相似。



      Tanishq Kumar 稱:「我對快速推理感到興奮,因為我非常關注的一個人工智能工作負載是超長時域推理。想象一下,一個擁有大量 B200 的數據中心完全用于運行一個模型,該模型需要處理數十億個 token 來證明 P 與 NP 的區別。在這種情況下,延遲減半就意味著可以進行雙倍深度的思考!」



      SSD 如何實現草擬與驗證并行?

      現代 AI 對推理速度有著極高的要求。然而,標準的語言模型解碼是按順序生成單個 token,未能利用現代硬件上可用的大規模并行計算。

      推測性解碼(SD)是一種為了解決這個問題而引入的技術。它使用一個快速的「草擬模型」來預測目標模型可能將生成的下幾個 token,而不是從目標模型中進行緩慢的自回歸采樣,然后通過目標模型的并行前向傳播驗證這些 token。這一驗證是按照一個算法進行的,確保生成的 token 是從目標模型的分布中采樣的。

      在每次驗證中,目標模型決定接受多少個推測的 token,并采樣一個額外的獎勵 token,該 token 跟隨所有已接受的 token。盡管推測性解碼有效,但它本身仍受限于串行依賴:必須等待當前驗證完成后,才能開始下一輪推測。

      那么,我們能否消除草擬和驗證之間的順序依賴呢?

      研究者引入推測性推測解碼(SSD),這是一個旨在并行化草擬和驗證的統一框架。

      在 SD 中,草擬模型必須等待驗證完成,才能開始推測下一輪,而在 SSD 中,草擬模型會預測最可能的驗證結果,并在驗證進行的同時,針對所有可能的結果進行并行的提前推測。如果這些預準備的結果中的任何一個發生,草擬模型可以立即將預推測的 token 發送給驗證器,從而避免草擬階段的開銷。與普通的推測性解碼一樣,SSD 也是無損的。不同之處在于,SSD 的草擬模型部署在與目標模型不同的硬件上。

      優化 SSD 算法主要面臨三大挑戰。

      首先,草擬模型必須準確預測驗證結果,這不僅包括接受了多少個推測的 Token,還包括采樣的獎勵 token。其次,推測器的接受率與其預測驗證結果的能力之間存在微妙的權衡,必須謹慎處理以最大化加速比。此外,任何 SSD 算法都必須具備處理預測失敗的回退策略,因為在大批處理量和高隨機性(Temperature)下,預測失敗會頻繁發生,若處理不當,即時補救的開銷將抵消異步帶來的收益。

      為此,他們推出了Saguaro,這是一個優化的 SSD 算法,針對上述挑戰進行了定向優化。

      • 將預測驗證結果的問題轉化為約束優化問題,并引入了一種技術,利用最可能的草擬 logits 來預測獎勵 token,準確率最高可達 90%。
      • 識別了預測準確性與生成高質量推測之間的張力,并開發了一種能夠平衡二者的采樣算法。
      • 探討了處理預測失敗的多種策略,發現最優回退策略隨批處理大小而異。通過采用這些優化,盡管 Saguaro 在處理每個批次元素時進行了更多計算(同時解碼多種可能的結果),其表現仍比標準 SD 高出 20%。

      總的來看,Saguaro 相比優化的推測性解碼實現了高達 2 倍的加速,相比自回歸生成實現了高達 5 倍的加速,并在各種批處理規模下均顯著提升了吞吐量與延遲的帕累托前沿。

      不過,該領域仍有許多值得探索的方向。SSD 可以自然地與 EAGLE 技術以及token-tree推測(Token-tree speculation)相結合,但這種聯合設計及其權衡空間在很大程度上尚未被發掘。

      此外,通過擴展草擬設備的數量以及推測緩存,延遲可以進一步減少,盡管回報最終會遞減。最后,在集群層面跨多個目標模型部署共享推測端點——類似于預填充-解碼分解)——是另一個自然的研究方向。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      董宇輝言論炸上熱搜,人設一夜崩塌!

      董宇輝言論炸上熱搜,人設一夜崩塌!

      財經三分鐘pro
      2026-04-07 15:45:52
      CBA焦點戰:廣東對陣吉林,4個好消息1個壞消息

      CBA焦點戰:廣東對陣吉林,4個好消息1個壞消息

      老淸醫學科普
      2026-04-10 07:49:58
      打中了!伊朗今天太猛了!

      打中了!伊朗今天太猛了!

      財經要參
      2026-04-05 23:06:21
      隆戈丨米蘭嘗試免簽,球員主動示好

      隆戈丨米蘭嘗試免簽,球員主動示好

      米蘭圈
      2026-04-10 08:57:21
      王寶強和女友開京牌大G到青島,馮清人高馬大,襯得寶強像小嬌夫

      王寶強和女友開京牌大G到青島,馮清人高馬大,襯得寶強像小嬌夫

      八怪娛
      2026-04-07 15:02:12
      伊朗小女孩請求用粉色導彈打擊以色列,伊斯蘭革命衛隊:安排

      伊朗小女孩請求用粉色導彈打擊以色列,伊斯蘭革命衛隊:安排

      大象新聞
      2026-04-07 17:49:08
      有種痛苦叫“回農村蓋房”,自己住不上又賣不掉,徹底淪為不動產

      有種痛苦叫“回農村蓋房”,自己住不上又賣不掉,徹底淪為不動產

      裝修秀
      2026-04-09 10:50:03
      霍爾木茲海峽,大消息!特朗普,最新發聲!原油拉升,黃金、白銀走低!

      霍爾木茲海峽,大消息!特朗普,最新發聲!原油拉升,黃金、白銀走低!

      證券時報e公司
      2026-04-10 07:52:16
      周杰倫現在真的有點太隨意了吧。
演唱會公然說新歌歌詞沒背熟

      周杰倫現在真的有點太隨意了吧。 演唱會公然說新歌歌詞沒背熟

      小光侃娛樂
      2026-04-09 15:55:03
      1996年,何道泉中將給鄧公寫信承認錯誤,之后被調到國防大學任職

      1996年,何道泉中將給鄧公寫信承認錯誤,之后被調到國防大學任職

      我不是沃神
      2026-04-10 09:45:03
      警惕:上了年紀再過性生活,最怕這2點!保護男性精氣,做好4點

      警惕:上了年紀再過性生活,最怕這2點!保護男性精氣,做好4點

      周哥一影視
      2026-04-08 12:20:15
      人民日報:減少基層機關事業單位職工考核,響應中央的減負政策!

      人民日報:減少基層機關事業單位職工考核,響應中央的減負政策!

      細說職場
      2026-04-09 14:14:38
      50年得知兒子被陳賡槍斃,龍云怒闖中南海,毛主席:你回云南看看

      50年得知兒子被陳賡槍斃,龍云怒闖中南海,毛主席:你回云南看看

      銅臭的歷史味
      2026-04-10 02:19:44
      太秀了,我把自己蒸餾成了 Skill!已開源

      太秀了,我把自己蒸餾成了 Skill!已開源

      程序員魚皮
      2026-04-09 18:48:42
      中甲3場4球天才橫空出世,U23國足鋒線黑馬引安東尼奧關注

      中甲3場4球天才橫空出世,U23國足鋒線黑馬引安東尼奧關注

      小僫搞笑解說
      2026-04-10 10:07:20
      大范甘迪曬本賽季各大獎項選票:約基奇MVP,文班DPOY

      大范甘迪曬本賽季各大獎項選票:約基奇MVP,文班DPOY

      林子說事
      2026-04-10 08:31:57
      降價10萬后,奧迪A6L的登味似乎沒那么重了。。。

      降價10萬后,奧迪A6L的登味似乎沒那么重了。。。

      差評XPIN
      2026-04-10 00:09:39
      繼德國之后,英國也開始貼出“中文標語”?中國游客:不能夠接受

      繼德國之后,英國也開始貼出“中文標語”?中國游客:不能夠接受

      潮鹿逐夢
      2026-04-02 12:31:48
      美媒:若中國不償還百年前的債務,美國也將不承認欠華8600億美元

      美媒:若中國不償還百年前的債務,美國也將不承認欠華8600億美元

      文史達觀
      2025-03-18 12:54:58
      為何劉亦菲單身至今?不是沒人想娶,看完這些照片你就明白了!

      為何劉亦菲單身至今?不是沒人想娶,看完這些照片你就明白了!

      黔鄉小姊妹
      2026-04-10 11:16:33
      2026-04-10 12:19:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12721文章數 142621關注度
      往期回顧 全部

      科技要聞

      程序員驚喜,每月100美元!OpenAI推新套餐

      頭條要聞

      牛彈琴:巴基斯坦被以色列激怒了 這是一個不祥的信號

      頭條要聞

      牛彈琴:巴基斯坦被以色列激怒了 這是一個不祥的信號

      體育要聞

      17歲賺了一百萬美元,25歲被CBA裁員

      娛樂要聞

      夏克立婚內出軌 曾參加《爸爸去哪兒》

      財經要聞

      愛爾眼科一院長被指猥褻 總部:已被停職

      汽車要聞

      全新一代理想 L8 五座旗艦+5C增程系統 三季度交付

      態度原創

      健康
      親子
      時尚
      教育
      軍事航空

      干細胞抗衰4大誤區,90%的人都中招

      親子要聞

      科普|孩子反復鼻癢、咳嗽?您需要了解“鼻炎-哮喘綜合征”

      越來越流行的松弛感穿搭,照著穿就很好看

      教育要聞

      五部門:加快普及中小學生的人工智能教育

      軍事要聞

      黎真主黨發射火箭彈 回應以違反停火協議

      無障礙瀏覽 進入關懷版