![]()
本文由加州大學伯克利分校、德克薩斯大學奧斯汀分校、斯坦福大學、普林斯頓大學與 Together AI 的研究團隊共同完成。研究團隊致力于探索大語言模型推理優化、多模型協同與高效計算等前沿方向。
本文作者Monishwaran 和 Leon Lakhani 來自 UC Berkeley,研究方向為大語言模型。指導教師是UT Austin 助理教授徐晨豐(研究方向為高效機器學習)和Stanford 教授 James Zou(研究方向為機器學習、計算生物學等)。
![]()
- 論文鏈接:https://arxiv.org/abs/2604.07725
- 項目主頁:https://squeeze-evolve.github.io
- 代碼倉庫:https://github.com/squeeze-evolve/squeeze-evolve
![]()
每個大語言模型都有其能力天花板。增加推理預算、生成更多候選、運行更多優化循環 —— 單個模型只是在重復同樣的先驗知識、同樣的失敗模式、同樣的盲點。其生成的答案種群會逐漸收斂并停滯不前。
如果突破天花板的方法不是更大的模型,而是一套協同進化的模型系統呢?
這就是 Squeeze Evolve 的核心理念:一個多模型進化框架,通過編排具有不同優勢、失敗模式和推理風格的模型,在無需任何外部驗證器的情況下,產生任何單一模型都無法單獨實現的能力。
研究背景
測試時擴展(Test-time Scaling)通過生成多個候選答案并通過選擇和重組進行迭代優化,使模型能夠「更深入地思考」。當與外部驗證器配合使用時,這種進化方法已在代碼生成和科學發現領域取得突破。
然而,在許多重要領域(例如等離子體模擬、濕實驗室實驗、開放式數學推理等),驗證要么成本過高、速度過慢,要么根本不可用。進化必須在沒有真實反饋的情況下進行。
這就是無驗證器進化,它面臨一個根本性問題:單模型種群會崩潰。
沒有外部校正時,模型會放大它已經知道如何識別和重現的軌跡。丟棄數量極少但正確的方案。因此,多樣性在進化中至關重要。一旦多樣性喪失,就無法恢復,后續循環只能重組幸存軌跡的后代,陷入狹窄的解空間模式。
這就是為什么單純擴大單個模型的推理預算會遇到收益遞減。瓶頸不是算力,而是多樣性。
![]()
方法概述
不同模型具有不同的先驗知識、不同的訓練數據分布、不同的失敗模式。當它們參與同一個進化過程時,能夠維持單一模型無法獨立保持的互補譜系。
一個推理模型可能擅長多步邏輯推理,但在空間推理上表現不佳。一個指令微調模型可能整體較弱,但帶來不同的歸納偏置,保留了推理模型會剪枝的解決路徑。即使是一個小得多的模型也能做出有意義的貢獻 —— 不是因為它 individually 更強,而是因為它以不同的方式犯錯。
這就是 Squeeze Evolve 能夠超越任何單一模型能力的機制。多模型編排不僅僅是成本工程 —— 它是能力放大器。
研究團隊發現了三個關鍵實證結果:
- 初始化主導最終準確性:Loop 0(初始種群)的質量是最終性能的最強預測因子。在 AIME 2025 上,反轉初始化模型和重組模型的角色會導致準確率下降高達 23 個百分點。最強模型必須錨定起始種群。
- 當候選集足夠強時,弱模型是強大的聚合器:當一個組已經包含正確軌跡時,即使小得多的模型也能有效聚合它們 —— 接近 100% 的準確率。昂貴模型的優勢集中在最難、最不確定的組上。在其他地方,便宜模型不僅足夠,而且充分。
- 模型置信度預測哪里需要能力:從 token 對數概率導出的組置信度(Group Confidence, GC)能夠清晰地區分包含正確軌跡的組和不包含的組。這個信號是沒有任何成本的(在推理過程中產生),適用于不同模型家族,并直接告訴我們哪些組需要昂貴模型,哪些可以安全地交給便宜模型處理。
![]()
實驗評估
研究團隊在數學推理、視覺理解、科學發現等多個領域進行了系統驗證。相比單模型 RSA 基線:
- AIME 2025:GPT-OSS-20B 與 GPT-5 mini 組合后以 55% 成本超越 GPT-5 mini(95.4% vs 94.2%)
![]()
- MMMU-Pro:使用 Qwen3.5-35B-A3B 和 Kimi-2.5-Thingking 的組合以 43% 的成本超越 Kimi-2.5-Thingking 單模型(79.1% vs 78.6%)
![]()
- ARC-AGI-V2:使用 Gemini3 3.1 Pro 大幅超越此前的 RSA 方法 (3.7x 成本節約,93.3?97.5% 準確率提升)
![]()
- 圓堆積問題:無需驗證器的情況下使用開源模型(GPT-OSS 120B + 20B)效果匹配基于驗證器的閉源 AlphaEvolve 基線方法(使用 Gemini-2.0 Pro + Flash)
![]()
- 在所有 8 個基準測試上成本降低 1.4–3.3x,吞吐量提升 4–10x
![]()
總結與展望
Squeeze Evolve 的核心洞見是:單個模型的天花板不是模型系統的天花板。
通過將現有的測試時擴展方法統一到共同的進化框架中,研究團隊揭示了一個設計空間,在這個空間中,模型根據它們的能力在何處具有最高邊際效用被分配到進化角色。結果不僅僅是更便宜的推理 —— 而是真正更強的推理。協同進化的模型產生它們單獨無法產生的解決方案。
這將測試時擴展從「在更大的模型上花更多錢」重新定義為多模型系統優化問題。前沿不是僅由單個模型能力推動的 —— 而是由你如何智能地編排已有模型推動的。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.