<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      ICLR 2026 |?越推越快!?首個面向「Test-Time Scaling」的投機解碼基準

      0
      分享至


      SpecTTS-Bench:首個面向「Test-Time Scaling」的投機解碼基準,收割冗余紅利,越推越快!

      本文由來自香港城市大學、華為的多位研究者共同完成。第一作者為來自香港城市大學的博士生孫圣印和來自華為的研究員李一鳴,通信作者為來自香港城市大學的助理教授馬辰。

      在推理大模型的應用里,一個樸素但有效的策略正在成為共識:推理階段擴展(Test-Time Scaling, TTS)—— 在推理階段額外分配計算(例如反復思考,多輪推理),往往能顯著提升推理大模型解決復雜問題的正確率與穩健性。但TTS應用于推理大模型的代價也同樣明顯:大量冗余、重復的推理軌跡被生成出來,吞噬了推理時延與算力預算,讓模型的“更聰明”變得“不夠劃算”。

      基于此,本文提出了首個面向TTS的投機解碼(Speculative Decoding)加速綜合基準。評測結果顯示,在結構化且重復密集的 TTS 場景里,樸素的N-gram方法更能精準“吃到”重復帶來的紅利,釋放出不容忽視的加速潛力。

      論文標題:Scaling Up, Speeding Up: A Benchmark of Speculative Decoding for Efficient LLM Test-Time Scaling


      論文地址:
      https://arxiv.org/abs/2509.04474

      論文代碼:
      https://github.com/sunshy-1/SpecTTS-Bench


      圖1 TTS的過程中大量冗余和重復的推理軌跡示例。

      1. 「疊床架屋」為什么 TTS 會“慢得不劃算”?

      隨著大模型能力的持續提升,業界逐漸意識到一個重要現象——即所謂的 Scaling Law 在推理階段同樣成立。簡單來說,只要在推理階段投入更多的計算資源,就能夠在一定程度上換取更強的復雜推理能力。換句話說,即便模型參數規模固定,通過擴大推理時的“思考深度”或“思考廣度”,同樣可能獲得更高質量的輸出。典型方式包括:

      ? Best-of-N:針對同一個問題,模型生成多條不同的推理路徑或候選答案,然后再通過評分機制或后驗判斷,選出最優方案;

      ? Multi-round Thinking:讓模型以多輪“想—寫—再想—再寫”的形式進行自我復審和反思,不斷修正先前的推理錯誤或補充遺漏的邏輯。

      然而,這種范式并非沒有代價。它的核心問題在于推理效率極低,往往會出現所謂的“疊床架屋式冗余計算”。在多輪或多樣采樣的過程中,模型往往會反復生成類似的分析開頭、重復的中間結論、固定化的檢查步驟,甚至對前文內容進行機械式重述。這些內容雖然表面上增加了推理“長度”,但實際信息增益有限。結果就是,TTS的推理過程不可避免地充斥著大量重復和無效的計算軌跡——算力在自說自話的過程里被浪費掉了。這也帶來了一個頗為尷尬的現實:我們確實找到了提升大模型上限、激發其潛在推理能力的有效路徑,但同時必須付出極高的計算代價與延遲成本。換言之,TTS 在質量與效率之間形成了難以調和的矛盾——它能讓模型“更聰明”,卻讓推理過程“慢得不劃算”。

      2. 「以小博大」:投機解碼如何破解“慢思考”困局?

      面對TTS帶來的巨大算力消耗,投機解碼提供了一種高效的計算范式,旨在緩解大模型推理過程中的訪存瓶頸。其核心機制在于解耦了“生成”與“驗證”兩個過程:系統首先利用一個參數量較小、推理速度極快的“草稿模型”(Draft Model)預先生成一系列候選 Token,隨后由參數量龐大的“目標模型”(Target Model)以并行計算的方式對這些候選序列進行批量驗證。由于大模型在處理單個 Token 和并行處理多個 Token 時的延遲差異較小,這種“預測-驗證”機制能夠顯著減少目標模型昂貴的串行前向傳播次數,從而在保證輸出分布與目標模型完全一致(即無損加速)的前提下,大幅提升整體推理吞吐量。

      在TTS的具體實踐中,無論是通過Best-of-N尋找最優解,還是通過多輪迭代進行自我修正,其計算過程本質上都伴隨著大量的文本重復。例如,在生成多個推理路徑時,不同樣本間往往共享著長段的公共前綴或標準化的思維模板;而在迭代修正過程中,模型又不可避免地需要復述上下文或對既有文本進行微調。這種由采樣策略和迭代機制直接導致的重復性,恰恰是投機解碼能夠利用的最大紅利。內容的高頻重復顯著降低了預測難度,使得草稿模型能夠以極高的命中率通過驗證。因此,TTS 場景下算力擴張所帶來的文本冗余,反而在投機解碼的機制下轉化為加速推理的關鍵杠桿。


      圖2 針對高效TTS的投機解碼方法框架。

      3. 「SpecTTS-Bench」首個面向 TTS 的投機解碼評測基準

      為了系統性地量化投機解碼在TTS推理場景下的效能,本文構建了首個面向 TTS 的投機解碼評測基準。該基準不僅制定了統一且嚴格的實驗協議,更全面覆蓋了當前最具代表性的兩大 TTS 范式:旨在通過廣度搜索尋找最優解的 Best-of-N 采樣,以及通過深度迭代提升推理質量的多輪思考。在投機解碼方法論的維度上,本文涵蓋了多樣化的技術路徑,包含如下四大類:

      ? 基于模型(Model-based)的方法,即經典的利用同源小模型生成候選序列、再由目標模型驗證的范式;

      ? 基于訓練(Training-based)的方法,側重于通過特定訓練優化推測器或策略,使其更緊密地貼合目標模型的分布特征;

      ? 基于 N-gram(N-gram-based)的方法,直接利用文本統計規律中的重復模式進行極低成本的快速預測。

      4. 「群雄逐鹿」九種投機解碼方法在兩類主流TTS框架中的統一評測

      本基準對九種投機解碼方法在兩類主流 TTS框架中進行了統一評測,涵蓋 Best-of-N(圖3)與多輪思考(圖4)兩大典型場景。實驗選取了DeepSeek-R1-Distill-Llama-8B(DSL-8B)和 Qwen3-8B(QW3-8B)模型,在 AIME24/25、MATH500 及GPQA 等高難度推理基準上對比了各方法的平均接受Token數(MAT)與端到端加速比(Speed)。

      評測結果揭示了一個關鍵發現:在結構化且重復密集的 TTS 場景中,能夠利用歷史信息的非訓練N-gram方法展現出驚人的適應性。如圖3所示,在 DSL-8B (T=0) 的貪婪解碼設定下,SAM方法表現尤為亮眼,其在 GPQA 任務上取得了3.57的MAT和3.20×的加速比,整體評測中也保持了平均2.66×的穩健加速。這表明,TTS 推理過程中產生的思維鏈包含大量重復的推理步驟和格式化表達,樸素的N-gram或基于歷史匹配的機制(如SAM)能夠精準利用這些重復模式帶來的紅利。

      基于這一洞察,我們進一步驗證了將N-gram機制與基于訓練的投機解碼方法相結合的混合策略。實驗數據顯示,SAM[EAGLE-3]這種混合策略集兩者之長,在各類設定下均實現了性能突破。特別是在圖3的DSL-8B (T=0) 貪婪解碼場景中,SAM[EAGLE-3]在GPQA任務上的MAT達到了驚人的7.00,并在整體評測中實現了最高3.97×的加速比。同樣,在QW3-8B 的多輪思考場景(圖4)中,該混合策略依然保持領先,穩定提供約2.7×至3.5×的加速收益。


      圖3 不同投機解碼方法在Best-of-N場景中的性能。


      圖4 不同投機解碼方法在多輪思考場景中的性能。

      5. 「以簡馭繁」:重塑大模型推理的效率邊界


      圖5 Scaling Up, Speeding Up!N-gram投機解碼方法(SAM,PIA,SAM[EAGLE-3])在TTS中越推越快。(a) Best-of-N(T=0)。(b) Best-of-N(T=0.6)。(c) 多輪思考(T=0.6)。

      本基準不僅為TTS場景中的大模型推理提供了標準化的度量衡,更揭示了“重復即紅利”這一關鍵洞察。在追求模型“深思熟慮”的道路上,簡單的 N-gram 機制與混合策略展現出了“四兩撥千斤”的潛力,有效緩解了長思維鏈帶來的推理時延。我們期待這一基準能推動社區進一步挖掘推理結構中的加速潛力,讓“越推越快”成為TTS的新常態。

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      新華社點名曝光:拼多多暴力抗法細節!

      新華社點名曝光:拼多多暴力抗法細節!

      仕道
      2026-04-18 20:55:32
      網友稱山西一酒店回訪電話暴露其行程致家庭破碎,酒店回應:正?;卦L,但電話沒接通

      網友稱山西一酒店回訪電話暴露其行程致家庭破碎,酒店回應:正?;卦L,但電話沒接通

      瀟湘晨報
      2026-04-18 22:04:11
      事發浦東機場!女子稱兩次拒絕幫陌生人帶行李,多名網友:我也遇到過!

      事發浦東機場!女子稱兩次拒絕幫陌生人帶行李,多名網友:我也遇到過!

      上觀新聞
      2026-04-18 20:28:04
      烏克蘭基輔槍擊事件已致5人死亡 槍手身份公布

      烏克蘭基輔槍擊事件已致5人死亡 槍手身份公布

      財聯社
      2026-04-19 00:18:15
      世上最失敗4大工程:損失慘重,中國占倆!卻說有意料之外效果?

      世上最失敗4大工程:損失慘重,中國占倆!卻說有意料之外效果?

      三毛看世界
      2026-04-17 16:43:17
      廠妹的生活

      廠妹的生活

      微微熱評
      2026-04-19 09:02:11
      6個家庭天塌了!成都面包車追尾致6死5傷,原因公布,真相太氣人

      6個家庭天塌了!成都面包車追尾致6死5傷,原因公布,真相太氣人

      奇思妙想草葉君
      2026-04-18 23:52:46
      47:52!美投票結果出來了,特朗普態度轉變,希拉里:美處于弱勢

      47:52!美投票結果出來了,特朗普態度轉變,希拉里:美處于弱勢

      流史歲月
      2026-04-18 16:00:03
      大媽走道閘被砸傷后續:大媽自曝身份,索賠2萬,車主堅決不妥協

      大媽走道閘被砸傷后續:大媽自曝身份,索賠2萬,車主堅決不妥協

      奇思妙想草葉君
      2026-04-18 12:40:12
      決裂?姆巴佩硬剛皇馬!拒絕克洛普執教,力挺一人入主

      決裂?姆巴佩硬剛皇馬!拒絕克洛普執教,力挺一人入主

      奶蓋熊本熊
      2026-04-19 00:32:00
      1000萬美元投向中國,美國民主基金會又在憋什么壞水?

      1000萬美元投向中國,美國民主基金會又在憋什么壞水?

      補壹刀
      2026-04-18 14:04:08
      新型啃老正在流行,68歲老人哭訴:你們的孝順讓我有苦說不出

      新型啃老正在流行,68歲老人哭訴:你們的孝順讓我有苦說不出

      蟬吟槐蕊
      2026-04-18 08:26:05
      張雪機車,全球訂單狂飆

      張雪機車,全球訂單狂飆

      第一財經資訊
      2026-04-18 18:42:46
      火箭沒杜蘭特真不行!多出手27次仍輸球,無牽制點后沒一個能進的

      火箭沒杜蘭特真不行!多出手27次仍輸球,無牽制點后沒一個能進的

      籃球資訊達人
      2026-04-19 11:52:39
      離譜!iPhone 忠誠度飆到 96.4%,創歷史新高

      離譜!iPhone 忠誠度飆到 96.4%,創歷史新高

      新浪財經
      2026-04-18 18:47:00
      何潤東回應亮相“蘇超”為何不騎馬:10年前一定騎馬,現在50多歲了,“一摔下來就幻滅,對項羽不太尊重,想給大家留下美好印象”

      何潤東回應亮相“蘇超”為何不騎馬:10年前一定騎馬,現在50多歲了,“一摔下來就幻滅,對項羽不太尊重,想給大家留下美好印象”

      揚子晚報
      2026-04-19 09:12:34
      死亡之瞳感染全隊!41歲勒布朗19+13+8創六紀錄 經受住單核考驗

      死亡之瞳感染全隊!41歲勒布朗19+13+8創六紀錄 經受住單核考驗

      顏小白的籃球夢
      2026-04-19 11:21:33
      如何更理性客觀看待“雷軍北京到上海1313Km續航測試?”

      如何更理性客觀看待“雷軍北京到上海1313Km續航測試?”

      新浪財經
      2026-04-18 19:09:53
      多次遭特朗普大罵“紙老虎”“毫無用處”,北約“罕見”大動作:30國駐北約大使集體訪日!日本已囤積44.4噸核材料,足夠造5500枚核彈頭

      多次遭特朗普大罵“紙老虎”“毫無用處”,北約“罕見”大動作:30國駐北約大使集體訪日!日本已囤積44.4噸核材料,足夠造5500枚核彈頭

      揚子晚報
      2026-04-19 07:55:51
      博主給涼山孤兒蓋房,用村里水得交200,還遭工人背刺,網友炸鍋

      博主給涼山孤兒蓋房,用村里水得交200,還遭工人背刺,網友炸鍋

      奇思妙想草葉君
      2026-04-18 13:14:56
      2026-04-19 13:48:49
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7200文章數 20744關注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀錄!300臺機器人狂飆半馬

      頭條要聞

      牛彈琴:伊朗遭到特朗普"羞辱"被激怒 結果印度遭了殃

      頭條要聞

      牛彈琴:伊朗遭到特朗普"羞辱"被激怒 結果印度遭了殃

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂要聞

      張天愛評論區淪陷!被曝卷入小三風波

      財經要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬 極氪8X為什么這么多人買?

      態度原創

      數碼
      本地
      房產
      家居
      公開課

      數碼要聞

      小米REDMI Buds 8預熱:11mm高性能動圈單元,單耳輕至5g

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      房產要聞

      官宣簽約最強城更!??跇鞘校蝗粴⑷肷衩胤科?!

      家居要聞

      法式線條 時光靜淌

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版