<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      微軟發布首個測試時擴展大規模研究,還給出了終極指南

      0
      分享至



      機器之心報道

      編輯:Panda

      如果說大模型的預訓練(Pre-training)是一場拼算力、拼數據的「軍備競賽」,那么測試時擴展(Test-time scaling, TTS)更像是一場在推理階段進行的「即時戰略游戲」。

      現在的共識是:讓模型在回答問題前「多想一會兒」,往往能得到更好的結果。這聽起來像是一個完美的免費午餐:只要能在推理時動態分配更多計算資源,就能讓模型的智商原地起飛。

      但問題來了:我們該怎么讓 LLM「多想」?

      好比讓一群學生做題:是讓一個學生反復修改答案(序列策略)?還是讓一百個學生同時做題然后投票(并行策略)?亦或是讓他們開個會討論一下(混合策略)?

      更重要的是,有些「學生」(模型)雖然聰明,但想得越多反而越容易鉆牛角尖;而另一些則必須深思熟慮才能解出難題。

      究竟哪個 TTS 策略才是那個「天選之子」?

      為了結束這場盲人摸象般的爭論,微軟終于出手了。

      他們進行了一項針對 TTS 的系統性研究:涵蓋了從 7B 到 235B 參數量的 8 個開源 LLM,在 4 個推理數據集上瘋狂生成了超過 300 億 個 token。



      • 論文標題:The Art of Scaling Test-Time Compute for Large Language Models
      • 論文地址:https://arxiv.org/abs/2512.02008

      這項研究不僅打破了「一種策略通吃」的幻想,還發現了一個顛覆認知的現象:模型之間存在著明顯的性格差異,分化為「短視界」和「長視界」兩大陣營。

      基于這些洞見,微軟團隊更是直接甩出了一套綜合了問題難度、模型類型和計算預算的「實用配方」。下面,讓我們一起走進這項揭示了 LLM 推理本質的重磅研究。

      測試時擴展方法簡介

      LLM 的測試時擴展策略多種多樣,通常分為并行、序列、混合 / 元方法(meta)以及內部計算機制(圖 2)。雖然每類方法在特定設置下都顯示出潛力,但沒有單一策略是普遍最佳的



      并行擴展策略

      通過聚合多個獨立采樣的推理路徑的答案來提升性能。Self-consistency 對多樣的推理路徑進行采樣并選擇出現頻率最高的最終答案,顯著提升了算術和符號任務的性能。Best-of-n 采樣作為一種簡單的并行方法被廣泛使用,不過最近也有人提出了更具原則性的投票策略,如加權多數投票和多智能體驗證(MAV)。Short-m@k 利用了早停機制:它并行運行 k 條推理鏈,并根據完成路徑的比例提前終止。

      序列擴展策略

      通過迭代式的修正、重啟或回溯來擴展推理深度。思維鏈(CoT)提示是一個基礎理念,隨后的工作如 STaR 和 Reflexion 探索了通過試錯或語言自我反思進行修正。思維樹(ToT)和思維圖(GoT)通過結構化的廣度優先或 DAG 風格搜索進一步擴展了這一點。AlphaGeometry 將符號證明搜索與 LLM 結合,以實現步驟級的序列控制。S1 微調模型以教授自我修正策略,利用了更高的測試時計算量。

      混合擴展策略

      該策略融合了以上兩個維度。Meta-Reasoner 使用上下文多臂老虎機根據感知的任務難度動態選擇 TTS 策略。AgentTTS 和 START 部署智能體(具有工具調用能力的 LLM)在直接生成或更復雜的推理之間進行切換。PEARL 交替進行草稿生成與修正,模擬自我改進循環。這些元調度器(meta-schedulers)認識到僅靠深度或并行擴展是不夠的,旨在根據模型行為和提示動態調整策略。相比之下,內部擴展策略修改模型在推理過程中的內部計算量,而不顯式調整外部樣本數或推理步驟數。HALT-CoT 和 SoftCoT++ 的方法是估計答案的不確定性,如果置信度高則提前終止。

      沒有哪種策略是普遍最佳的。多項實證研究加強了這一觀點,即沒有 TTS 策略能持續占據主導地位。

      微軟這項研究分析的算法包括最先完成搜索(First Finish Search, FFS,算法 1)、最后完成搜索(Last Finish Search, LFS,算法 2)和束搜索(Beam Search),前兩者由變量 k 和 N 參數化,而后者僅由 N 參數化。





      FFS-k@N 意味著采樣 N 個輸出并在最短的 k 個樣本中執行多數投票(MV)以確定結果;而 LFS-k@N 僅僅涉及選擇最長的 k 個樣本而非最短的,隨后對這些樣本進行多數投票。

      束搜索涉及維護一組高概率的部分假設(partial hypotheses),并在解碼過程中不斷更新這些前綴。

      研究結果

      束搜索顯示出逆擴展或無擴展

      研究的第一個爆點來自于對經典算法束搜索(Beam Search)的宣判。

      在實驗中,研究人員觀察到了一個極其反直覺的現象:在「短視界」和「非推理」這兩個模型家族中,束搜索表現出了一致的逆擴展(inverse-scaling) 模式:隨著束大小 N 的增加,性能單調下降(圖 1)。



      看圖便知,對于像 R1 和 QwQ-32B 這樣的模型,一旦束大小(Beam Size, N)超過 2,準確率不僅沒有提升,反而像坐過山車一樣急劇下降。

      即便是 GPT-OSS-120B 和 Qwen3-32B 這樣的「長視界」模型,增加 N 也未能帶來收益,準確率曲線要么躺平,要么緩慢下滑。

      這意味著什么?意味著在束搜索上投入更多的計算量(增加 N 會消耗更多 token),不僅是浪費,甚至是有害的。簡直是花錢買罪受。

      推理路徑長度與質量的相關性

      這項研究最核心的貢獻,在于揭示了推理路徑長度與質量之間復雜的相關性。這對于深入理解像 FFS 和 LFS 這樣基于長度的過濾策略至關重要。

      FFS 和 LFS 基于兩個截然相反的觀點:越短越好和越長越好。

      為了調查哪種假設(或哪些假設)適用于特定模型,該團隊報告了給定推理路徑長度區間和問題難度下的準確率(表 1)。



      請注意,問題難度是通過所有模型和路徑的平均準確率來衡量的,而報告的準確率是通過特定模型的所有輸出來衡量的。一個關鍵的考量是,問題難度與推理路徑長度存在混淆(confounded,圖 3):短路徑通常源于較容易的問題,而長路徑往往對應較難的問題。



      為緩解這種混淆效應,他們將分析限制在同時具有短路徑和長路徑的任務上。對于每個此類數據集,他們分別計算短路徑和長路徑的單一準確率值,然后在數據集之間平均這些值,從而防止數據集大小的差異不成比例地影響聚合結果。

      結果,他們將六個推理模型清晰地劃分為兩大陣營:

      1. 短視界模型

      • 代表成員:R1, QwQ-32B, DAPO-32B
      • 行為特征:對于給定的問題難度,更短的推理路徑比更長的路徑更可能是正確的。

      這意味著這些模型在推理時往往「直擊要害」,如果它們開始長篇大論,很可能是在「胡言亂語」或者陷入了無效循環。

      有趣的是,DAPO-32B 盡管使用了 GRPO 等技術,依然表現出與 R1 相似的長度偏置,說明目前的后訓練技術在緩解長度偏置方面可能還很有限。

      2. 長視界模型

      • 代表成員:Qwen3-32B, GPT-OSS-120B
      • 行為特征:它們的表現更為復雜且「世故」。

      在簡單問題上,它們傾向于較短的路徑。但在困難問題上,它們則偏好較長的路徑。

      這類模型展現出了更強的適應性:遇到難題時,它們確實在利用額外的計算步驟進行有效推理,而非無效空轉。

      深度分析:預算與策略的博弈

      既然模型性格迥異,那么在給定的計算預算(Token 消耗量)下,我們該如何選擇最佳的 k 和 N?



      研究團隊通過分析 FFS-k@N 和 LFS-k@N 的性能曲線,發現了幾個關鍵趨勢:

      LFS 的奧義在于「全員投票」

      對于 LFS 系列方法,給定總計算量下的最大性能總是當 k 很大時(即 k=N)實現。注意,當 k=N 時,LFS 實際上就退化成了 多數投票(MV-N)。

      結論非常簡單粗暴:在消耗相同 token 的情況下,直接做多數投票(MV@N)總是優于刻意篩選最長路徑的 LFS-k@N。

      FFS 的微妙權衡

      對于短視界模型: 較大的 N 值總是最好的。這意味著你應該采樣很多樣本,然后從中選出最短的那一批進行投票。

      對于長視界模型:存在權衡。如果你想用高計算量換取高性能,你必須選擇較小的 N(本質上是執行簡單解碼);而在非推理模型上則相反。

      這一分析告訴我們,最佳 TTS 策略是隨著預算的增加而動態擴展的

      終極配方:如何為你的模型選擇 TTS 策略?

      基于上述海量實驗數據,微軟團隊總結出了一套極具操作性的「決策矩陣」。這不僅是理論分析,更是給算法工程師們的實戰手冊。



      讓我們來拆解這個配方的內在邏輯:

      場景一:如果你使用的是「短視界模型」(如 R1, QwQ)

      這類模型有個特點:無論題目難易,它們總是覺得「長話短說」的答案更靠譜。

      低計算預算時:使用 FFS,且設定 k=1。即:采樣 N 個答案,直接挑最短的那個作為最終答案。簡單、快速、有效。

      高計算預算時: 使用 FFS,且設定 k=N(等同于 MV@N)。即:采樣 N 個答案,因為 N 個最短路徑就是所有路徑,所以這實際上就是標準的多數投票。

      核心邏輯:對于短視界模型,性能隨 N 的增大而提升。因此,只要預算允許,把 N 拉滿,做多數投票即可。

      場景二:如果你使用的是「長視界模型」(如 Qwen3)

      這類模型比較「糾結」,策略選擇稍微復雜一些。

      面對高難度問題(High Difficulty):模型傾向于長路徑。由于 LFS@N 隨 N 增加而提升:

      • 高計算預算: 使用大 N 的 MV@N。
      • 低計算預算: 使用小 N(理想情況下 N=1)的簡單解碼(SD)。

      這里有一個有趣的結論:在保持 k=N 的情況下(即 MV),性能隨 k 增大而提升。

      面對低難度問題(Low Difficulty):此時模型偏好短路徑(殺雞焉用牛刀)。

      • 高計算預算: 使用大 k 的 FFS。
      • 低計算預算: 使用小 k 的 FFS。

      在這種設置下,設定 N=k(即 MV@N)依然是穩健的選擇。

      總結來看,盡管模型類型和任務難度千差萬別,但最終的「配方」卻表現出了驚人的殊途同歸:對于絕大多數情況,多數投票(MV@N) 或者是其變體(如 FFS 中的 k=N)往往是性價比最高的選擇。特別是對于「短視界」模型,不要試圖通過讓它「多想」來強行提升效果,更多時候,從大量的快速回答中通過投票篩選出共識,才是正確的打開方式。

      微軟的這項研究,實際上是在為 LLM 的推理能力「祛魅」。它告訴我們,測試時擴展并不是簡單地堆砌算力,更不是盲目地追求更長的思維鏈。

      理解模型的「視界」屬性是設計高效推理系統的第一步。而在算力昂貴的今天,這份基于 300 億 token 實測得出的決策配方,無疑為我們節省了大量的試錯成本。

      下一次,當你準備讓你的模型「再想一下」時,不妨先查查這份配方,看看你是否正在為一個「短視界」的模型,強加它并不擅長的長考重擔

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      為避免遭到烏克蘭無人艇襲擊,俄影子油輪緊貼土耳其海岸線航行

      為避免遭到烏克蘭無人艇襲擊,俄影子油輪緊貼土耳其海岸線航行

      山河路口
      2025-12-18 22:06:08
      跟英偉達差距甚遠!國產GPU三巨頭總市值超1萬億 基本都在虧損

      跟英偉達差距甚遠!國產GPU三巨頭總市值超1萬億 基本都在虧損

      快科技
      2025-12-18 07:24:03
      6國已派兵過南海,菲防長通告中國,不許出手,中方直接噴射水炮

      6國已派兵過南海,菲防長通告中國,不許出手,中方直接噴射水炮

      探史
      2025-12-17 20:07:38
      負債百萬、露宿街頭、裝瘋賣傻,星光大道的草根歌手現狀太落魄

      負債百萬、露宿街頭、裝瘋賣傻,星光大道的草根歌手現狀太落魄

      夢史
      2025-12-18 12:00:26
      男女相親均隱瞞未離婚,半年后男子稱遭女子老公帶人毆打,對方反問:偷別人老婆你還有理?

      男女相親均隱瞞未離婚,半年后男子稱遭女子老公帶人毆打,對方反問:偷別人老婆你還有理?

      觀威海
      2025-12-18 10:54:05
      美國洛馬怎么也沒想到,沒繳中國的990億罰單,后果竟如此嚴重!

      美國洛馬怎么也沒想到,沒繳中國的990億罰單,后果竟如此嚴重!

      青青子衿
      2025-12-12 22:03:33
      方程豹首款轎車諜照曝光!網友:價格合適必火

      方程豹首款轎車諜照曝光!網友:價格合適必火

      汽車網評
      2025-12-18 21:00:50
      知情人士:戴琳基本上把身邊能借的人都問了,被借的錢基本都打水漂了

      知情人士:戴琳基本上把身邊能借的人都問了,被借的錢基本都打水漂了

      懂球帝
      2025-12-16 19:09:07
      別瞧不起200萬存款:在中國,能拿出這筆錢你已是富人

      別瞧不起200萬存款:在中國,能拿出這筆錢你已是富人

      流蘇晚晴
      2025-12-18 18:34:22
      “全球大模型第一股”, 來了?

      “全球大模型第一股”, 來了?

      每日經濟新聞
      2025-12-18 00:17:48
      終于定了!寧波都市圈升級“國家級”,1700萬人身價要漲!

      終于定了!寧波都市圈升級“國家級”,1700萬人身價要漲!

      蜉蝣說
      2025-12-18 14:32:09
      特朗普靠譜了?面對全球觀眾說:“我們得買中國貨,不買不行。”

      特朗普靠譜了?面對全球觀眾說:“我們得買中國貨,不買不行。”

      荊楚寰宇文樞
      2025-12-18 22:16:26
      佟麗婭高露私下聚餐,丫丫迷糊忘帶手機,高露十萬外套低調似路人

      佟麗婭高露私下聚餐,丫丫迷糊忘帶手機,高露十萬外套低調似路人

      小咪侃娛圈
      2025-12-17 14:18:55
      四川頭號國企蜀道集團19戶并表一級企業全名單

      四川頭號國企蜀道集團19戶并表一級企業全名單

      娛樂八卦木木子
      2025-12-18 14:31:26
      父母雙亡,未婚未育!她確認去世,撕開一個比吃絕戶還可怕的社會困境

      父母雙亡,未婚未育!她確認去世,撕開一個比吃絕戶還可怕的社會困境

      脆皮先生
      2025-12-17 20:17:54
      又放大招了!為鼓勵生孩,2026年實施生孩“零自付”,評論區炸鍋

      又放大招了!為鼓勵生孩,2026年實施生孩“零自付”,評論區炸鍋

      火山詩話
      2025-12-15 18:11:48
      加倉103%!北向資金重倉押注機器人隱形掃地僧,英偉達低估龍頭

      加倉103%!北向資金重倉押注機器人隱形掃地僧,英偉達低估龍頭

      財報翻譯官
      2025-12-18 20:33:23
      【俠客島】王文華被查

      【俠客島】王文華被查

      海外網
      2025-12-18 13:19:07
      夫妻性生活中的“小動作”技巧:讓妻子“爽”到骨子里的四個秘訣

      夫妻性生活中的“小動作”技巧:讓妻子“爽”到骨子里的四個秘訣

      精彩分享快樂
      2025-12-04 13:26:44
      中央這次動真格,直接戳破了高校教育的“虛假繁榮”!

      中央這次動真格,直接戳破了高校教育的“虛假繁榮”!

      達文西看世界
      2025-12-15 13:04:22
      2025-12-19 00:44:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11950文章數 142513關注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創業大賽總決賽收官

      頭條要聞

      在野黨參議員問了句日本"存亡危機" 高市早苗瞬間冷臉

      頭條要聞

      在野黨參議員問了句日本"存亡危機" 高市早苗瞬間冷臉

      體育要聞

      紐約尼克斯,板正的球隊

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經濟犯罪

      財經要聞

      尹艷林:呼吁加快2.5億新市民落戶進程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩"的證明

      態度原創

      時尚
      藝術
      健康
      數碼
      本地

      陳妍希這婚,離晚了

      藝術要聞

      卡洛斯·杜蘭:不只是薩金特的老師!

      這些新療法,讓化療不再那么痛苦

      數碼要聞

      小米18系列再次被確認:國產雙層OLED+矩陣模組,友商有壓力了!

      本地新聞

      云游安徽|決戰烽火照古今,千秋一脈看宿州

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产成人亚洲日韩欧美婷婷亚片| 天堂…中文在线最新版在线| 日韩人妻一区二区三区蜜桃视频| 中文字幕人成无码免费视频| 亚洲精品成人片在线观看精品字幕| 久久天天躁夜夜躁狠狠85| 亚洲资源站| 丁香婷婷社区| 亚洲色9在线| 国产乱人伦无码视频| 夜福利导航| 峡江县| 日韩成人精品中文字幕18禁| 国产成人精品一区二三区在线观看| 99久久久精品免费观看国产| 久久无码中文字幕免费影院蜜桃| 日韩大香蕉| 欧美成人17| 国产精品免费看久久久无码| 内谢少妇xxxxx8老少交| 免费人成网上在线观看网址| 丰满午夜人妻无码AAAA| 久久亚洲V无码专区成人| 人人综合亚洲无线码另类| 成人国内精品久久久久一区| 无码国产成人午夜电影在线观看| 久久久久久久人妻无码中文字幕爆| 日产久久久久| 久久久无码精品午夜| 加勒比无码一区二区三区| 久久高清超碰AV热热久久| AV免费网站| 色欲人妻综合网站| 亚洲一区二区无码影院| 99热成人精品热久久66| www色色色com| 亚洲综合无码精品| 国产精品久久精品国产| 乱码中文字幕| 狠狠干奇米| 亚洲日韩av一区二区三区四区|