網易首頁 > 網易號 > 正文申請入駐

微軟發布首個測試時擴展大規模研究，還給出了終極指南

2025-12-10 18:39:30　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：Panda

如果說大模型的預訓練（Pre-training）是一場拼算力、拼數據的「軍備競賽」，那么測試時擴展（Test-time scaling, TTS）更像是一場在推理階段進行的「即時戰略游戲」。

現在的共識是：讓模型在回答問題前「多想一會兒」，往往能得到更好的結果。這聽起來像是一個完美的免費午餐：只要能在推理時動態分配更多計算資源，就能讓模型的智商原地起飛。

但問題來了：我們該怎么讓 LLM「多想」？

好比讓一群學生做題：是讓一個學生反復修改答案（序列策略）？還是讓一百個學生同時做題然后投票（并行策略）？亦或是讓他們開個會討論一下（混合策略）？

更重要的是，有些「學生」（模型）雖然聰明，但想得越多反而越容易鉆牛角尖；而另一些則必須深思熟慮才能解出難題。

究竟哪個 TTS 策略才是那個「天選之子」？

為了結束這場盲人摸象般的爭論，微軟終于出手了。

他們進行了一項針對 TTS 的系統性研究：涵蓋了從 7B 到 235B 參數量的 8 個開源 LLM，在 4 個推理數據集上瘋狂生成了超過 300 億個 token。

論文標題：The Art of Scaling Test-Time Compute for Large Language Models
論文地址：https://arxiv.org/abs/2512.02008

這項研究不僅打破了「一種策略通吃」的幻想，還發現了一個顛覆認知的現象：模型之間存在著明顯的性格差異，分化為「短視界」和「長視界」兩大陣營。

基于這些洞見，微軟團隊更是直接甩出了一套綜合了問題難度、模型類型和計算預算的「實用配方」。下面，讓我們一起走進這項揭示了 LLM 推理本質的重磅研究。

測試時擴展方法簡介

LLM 的測試時擴展策略多種多樣，通常分為并行、序列、混合 / 元方法（meta）以及內部計算機制（圖 2）。雖然每類方法在特定設置下都顯示出潛力，但沒有單一策略是普遍最佳的

并行擴展策略

通過聚合多個獨立采樣的推理路徑的答案來提升性能。Self-consistency 對多樣的推理路徑進行采樣并選擇出現頻率最高的最終答案，顯著提升了算術和符號任務的性能。Best-of-n 采樣作為一種簡單的并行方法被廣泛使用，不過最近也有人提出了更具原則性的投票策略，如加權多數投票和多智能體驗證（MAV）。Short-m@k 利用了早停機制：它并行運行 k 條推理鏈，并根據完成路徑的比例提前終止。

序列擴展策略

通過迭代式的修正、重啟或回溯來擴展推理深度。思維鏈（CoT）提示是一個基礎理念，隨后的工作如 STaR 和 Reflexion 探索了通過試錯或語言自我反思進行修正。思維樹（ToT）和思維圖（GoT）通過結構化的廣度優先或 DAG 風格搜索進一步擴展了這一點。AlphaGeometry 將符號證明搜索與 LLM 結合，以實現步驟級的序列控制。S1 微調模型以教授自我修正策略，利用了更高的測試時計算量。

混合擴展策略

該策略融合了以上兩個維度。Meta-Reasoner 使用上下文多臂老虎機根據感知的任務難度動態選擇 TTS 策略。AgentTTS 和 START 部署智能體（具有工具調用能力的 LLM）在直接生成或更復雜的推理之間進行切換。PEARL 交替進行草稿生成與修正，模擬自我改進循環。這些元調度器（meta-schedulers）認識到僅靠深度或并行擴展是不夠的，旨在根據模型行為和提示動態調整策略。相比之下，內部擴展策略修改模型在推理過程中的內部計算量，而不顯式調整外部樣本數或推理步驟數。HALT-CoT 和 SoftCoT++ 的方法是估計答案的不確定性，如果置信度高則提前終止。

沒有哪種策略是普遍最佳的。多項實證研究加強了這一觀點，即沒有 TTS 策略能持續占據主導地位。

微軟這項研究分析的算法包括最先完成搜索（First Finish Search, FFS，算法 1）、最后完成搜索（Last Finish Search, LFS，算法 2）和束搜索（Beam Search），前兩者由變量 k 和 N 參數化，而后者僅由 N 參數化。

FFS-k@N 意味著采樣 N 個輸出并在最短的 k 個樣本中執行多數投票（MV）以確定結果；而 LFS-k@N 僅僅涉及選擇最長的 k 個樣本而非最短的，隨后對這些樣本進行多數投票。

束搜索涉及維護一組高概率的部分假設（partial hypotheses），并在解碼過程中不斷更新這些前綴。

研究結果

束搜索顯示出逆擴展或無擴展

研究的第一個爆點來自于對經典算法束搜索（Beam Search）的宣判。

在實驗中，研究人員觀察到了一個極其反直覺的現象：在「短視界」和「非推理」這兩個模型家族中，束搜索表現出了一致的逆擴展（inverse-scaling）模式：隨著束大小 N 的增加，性能單調下降（圖 1）。

看圖便知，對于像 R1 和 QwQ-32B 這樣的模型，一旦束大小（Beam Size, N）超過 2，準確率不僅沒有提升，反而像坐過山車一樣急劇下降。

即便是 GPT-OSS-120B 和 Qwen3-32B 這樣的「長視界」模型，增加 N 也未能帶來收益，準確率曲線要么躺平，要么緩慢下滑。

這意味著什么？意味著在束搜索上投入更多的計算量（增加 N 會消耗更多 token），不僅是浪費，甚至是有害的。簡直是花錢買罪受。

推理路徑長度與質量的相關性

這項研究最核心的貢獻，在于揭示了推理路徑長度與質量之間復雜的相關性。這對于深入理解像 FFS 和 LFS 這樣基于長度的過濾策略至關重要。

FFS 和 LFS 基于兩個截然相反的觀點：越短越好和越長越好。

為了調查哪種假設（或哪些假設）適用于特定模型，該團隊報告了給定推理路徑長度區間和問題難度下的準確率（表 1）。

請注意，問題難度是通過所有模型和路徑的平均準確率來衡量的，而報告的準確率是通過特定模型的所有輸出來衡量的。一個關鍵的考量是，問題難度與推理路徑長度存在混淆（confounded，圖 3）：短路徑通常源于較容易的問題，而長路徑往往對應較難的問題。

為緩解這種混淆效應，他們將分析限制在同時具有短路徑和長路徑的任務上。對于每個此類數據集，他們分別計算短路徑和長路徑的單一準確率值，然后在數據集之間平均這些值，從而防止數據集大小的差異不成比例地影響聚合結果。

結果，他們將六個推理模型清晰地劃分為兩大陣營：

1. 短視界模型

代表成員：R1, QwQ-32B, DAPO-32B
行為特征：對于給定的問題難度，更短的推理路徑比更長的路徑更可能是正確的。

這意味著這些模型在推理時往往「直擊要害」，如果它們開始長篇大論，很可能是在「胡言亂語」或者陷入了無效循環。

有趣的是，DAPO-32B 盡管使用了 GRPO 等技術，依然表現出與 R1 相似的長度偏置，說明目前的后訓練技術在緩解長度偏置方面可能還很有限。

2. 長視界模型

代表成員：Qwen3-32B, GPT-OSS-120B
行為特征：它們的表現更為復雜且「世故」。

在簡單問題上，它們傾向于較短的路徑。但在困難問題上，它們則偏好較長的路徑。

這類模型展現出了更強的適應性：遇到難題時，它們確實在利用額外的計算步驟進行有效推理，而非無效空轉。

深度分析：預算與策略的博弈

既然模型性格迥異，那么在給定的計算預算（Token 消耗量）下，我們該如何選擇最佳的 k 和 N？

研究團隊通過分析 FFS-k@N 和 LFS-k@N 的性能曲線，發現了幾個關鍵趨勢：

LFS 的奧義在于「全員投票」

對于 LFS 系列方法，給定總計算量下的最大性能總是當 k 很大時（即 k=N）實現。注意，當 k=N 時，LFS 實際上就退化成了多數投票（MV-N）。

結論非常簡單粗暴：在消耗相同 token 的情況下，直接做多數投票（MV@N）總是優于刻意篩選最長路徑的 LFS-k@N。

FFS 的微妙權衡

對于短視界模型：較大的 N 值總是最好的。這意味著你應該采樣很多樣本，然后從中選出最短的那一批進行投票。

對于長視界模型：存在權衡。如果你想用高計算量換取高性能，你必須選擇較小的 N（本質上是執行簡單解碼）；而在非推理模型上則相反。

這一分析告訴我們，最佳 TTS 策略是隨著預算的增加而動態擴展的

終極配方：如何為你的模型選擇 TTS 策略？

基于上述海量實驗數據，微軟團隊總結出了一套極具操作性的「決策矩陣」。這不僅是理論分析，更是給算法工程師們的實戰手冊。

讓我們來拆解這個配方的內在邏輯：

場景一：如果你使用的是「短視界模型」（如 R1, QwQ）

這類模型有個特點：無論題目難易，它們總是覺得「長話短說」的答案更靠譜。

低計算預算時：使用 FFS，且設定 k=1。即：采樣 N 個答案，直接挑最短的那個作為最終答案。簡單、快速、有效。

高計算預算時：使用 FFS，且設定 k=N（等同于 MV@N）。即：采樣 N 個答案，因為 N 個最短路徑就是所有路徑，所以這實際上就是標準的多數投票。

核心邏輯：對于短視界模型，性能隨 N 的增大而提升。因此，只要預算允許，把 N 拉滿，做多數投票即可。

場景二：如果你使用的是「長視界模型」（如 Qwen3）

這類模型比較「糾結」，策略選擇稍微復雜一些。

面對高難度問題（High Difficulty）：模型傾向于長路徑。由于 LFS@N 隨 N 增加而提升：

高計算預算：使用大 N 的 MV@N。
低計算預算：使用小 N（理想情況下 N=1）的簡單解碼（SD）。

這里有一個有趣的結論：在保持 k=N 的情況下（即 MV），性能隨 k 增大而提升。

面對低難度問題（Low Difficulty）：此時模型偏好短路徑（殺雞焉用牛刀）。

高計算預算：使用大 k 的 FFS。
低計算預算：使用小 k 的 FFS。

在這種設置下，設定 N=k（即 MV@N）依然是穩健的選擇。

總結來看，盡管模型類型和任務難度千差萬別，但最終的「配方」卻表現出了驚人的殊途同歸：對于絕大多數情況，多數投票（MV@N）或者是其變體（如 FFS 中的 k=N）往往是性價比最高的選擇。特別是對于「短視界」模型，不要試圖通過讓它「多想」來強行提升效果，更多時候，從大量的快速回答中通過投票篩選出共識，才是正確的打開方式。

微軟的這項研究，實際上是在為 LLM 的推理能力「祛魅」。它告訴我們，測試時擴展并不是簡單地堆砌算力，更不是盲目地追求更長的思維鏈。

理解模型的「視界」屬性是設計高效推理系統的第一步。而在算力昂貴的今天，這份基于 300 億 token 實測得出的決策配方，無疑為我們節省了大量的試錯成本。

下一次，當你準備讓你的模型「再想一下」時，不妨先查查這份配方，看看你是否正在為一個「短視界」的模型，強加它并不擅長的長考重擔

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.