![]()
微軟最新研究揭示,大模型推理并非“算得越多越好”。通過對8個主流開源模型、超300億token的系統測試,團隊發現盲目增加計算反而會降低性能。
基于此,他們提出一套按模型特性、問題難度和預算動態選擇策略的實用方案,有望為行業節省大量無效算力開銷。
![]()
你發現沒,現在很多人一提提升大模型性能,張口就是“讓它多想一會兒”。好像只要給足算力,模型就能頓悟成佛。老周說句實在話:這根本不是免費午餐,搞不好還是毒藥。
最近,微軟放出了一項堪稱“TTS領域核彈級”的研究。
他們讓8個主流開源大模型(從70億到2350億參數),在4個推理任務上狂吐300多億個token,就為了搞清楚一件事:到底怎么“想”才最有效?結果顛覆認知:沒有萬能策略,只有“對癥下藥”。
![]()
更驚人的是,他們發現大模型居然分“性格”!一類叫“短視界”,比如R1、QwQ-32B,這種模型答題講究快準狠——答案越短越靠譜,一旦開始長篇大論,八成是在胡扯。
另一類叫“長視界”,像Qwen3-32B、GPT-OSS-120B,它們遇到難題真會深思熟慮,長路徑反而更準。
我跟你講,這就像班里兩種學霸:一個秒答神童,一個草稿寫滿三頁紙——你不能用同一套方法逼他們都“多檢查一遍”。
![]()
就連用了幾十年的束搜索(Beam Search),在這項研究里也被判了“死刑”。
數據顯示,束寬越大,準確率反而越低,尤其在短視界模型上,簡直是花錢買錯誤。這意味著,很多公司還在盲目堆beam size,純屬資源浪費。
![]()
從另一個角度看,這項研究最大的價值不是發現現象,而是給出了解法。微軟直接甩出一套“TTS決策矩陣”,告訴你:用什么模型、面對什么題、有多少算力,該怎么配策略。
比如你手握R1這類“短視界”模型——別讓它深思!低預算時,采樣多個答案,直接選最短那個;高預算時,干脆全員投票(多數投票MV@N),效果拉滿。核心就一句:信快不信慢。
![]()
但如果你用的是Qwen3這種“長視界”選手,就得看題目難度了。簡單題?照樣短答優先。難題?那就得給足空間,讓它慢慢推。
不過有意思的是,無論哪種情況,只要預算夠,多數投票幾乎總是最優解。這說明:與其賭單條路徑質量,不如靠群體智慧。
![]()
要知道,現在推理成本動輒上百萬。這套基于300億token實測的配方,等于幫企業省下了無數試錯的GPU小時。
阿里、Meta等團隊近期的實踐也印證了這一點——Qwen3上線后推理調度策略調整,正是基于類似“視界”分類邏輯。
![]()
說到底,大模型不是神,也不是傻子,它更像個有脾氣的學生。你硬逼一個擅長速答的孩子反復修改,他只會越改越亂;你放任一個需要思考的學霸隨便蒙答案,他也發揮不出水平。
微軟這項研究最犀利的地方,就是戳破了“堆算力=提智商”的幻覺。真正的智能,不在于算得多,而在于算得巧。
在算力越來越貴的今天,懂得“因模施教”,比盲目加碼更重要。下次你再想讓模型“再想想”,先問問它:你是哪種人?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.