網易首頁 > 網易號 > 正文申請入駐

Squeeze Evolve：無需驗證器實現推理新SOTA

2026-04-27 12:49:03　來源: 機器之心Pro

河北舉報

分享至

本文由加州大學伯克利分校、德克薩斯大學奧斯汀分校、斯坦福大學、普林斯頓大學與 Together AI 的研究團隊共同完成。研究團隊致力于探索大語言模型推理優化、多模型協同與高效計算等前沿方向。

本文作者Monishwaran 和 Leon Lakhani 來自 UC Berkeley，研究方向為大語言模型。指導教師是UT Austin 助理教授徐晨豐（研究方向為高效機器學習）和Stanford 教授 James Zou（研究方向為機器學習、計算生物學等）。

論文鏈接：https://arxiv.org/abs/2604.07725
項目主頁：https://squeeze-evolve.github.io
代碼倉庫：https://github.com/squeeze-evolve/squeeze-evolve

每個大語言模型都有其能力天花板。增加推理預算、生成更多候選、運行更多優化循環 —— 單個模型只是在重復同樣的先驗知識、同樣的失敗模式、同樣的盲點。其生成的答案種群會逐漸收斂并停滯不前。

如果突破天花板的方法不是更大的模型，而是一套協同進化的模型系統呢？

這就是 Squeeze Evolve 的核心理念：一個多模型進化框架，通過編排具有不同優勢、失敗模式和推理風格的模型，在無需任何外部驗證器的情況下，產生任何單一模型都無法單獨實現的能力。

研究背景

測試時擴展（Test-time Scaling）通過生成多個候選答案并通過選擇和重組進行迭代優化，使模型能夠「更深入地思考」。當與外部驗證器配合使用時，這種進化方法已在代碼生成和科學發現領域取得突破。

然而，在許多重要領域（例如等離子體模擬、濕實驗室實驗、開放式數學推理等），驗證要么成本過高、速度過慢，要么根本不可用。進化必須在沒有真實反饋的情況下進行。

這就是無驗證器進化，它面臨一個根本性問題：單模型種群會崩潰。

沒有外部校正時，模型會放大它已經知道如何識別和重現的軌跡。丟棄數量極少但正確的方案。因此，多樣性在進化中至關重要。一旦多樣性喪失，就無法恢復，后續循環只能重組幸存軌跡的后代，陷入狹窄的解空間模式。

這就是為什么單純擴大單個模型的推理預算會遇到收益遞減。瓶頸不是算力，而是多樣性。

方法概述

不同模型具有不同的先驗知識、不同的訓練數據分布、不同的失敗模式。當它們參與同一個進化過程時，能夠維持單一模型無法獨立保持的互補譜系。

一個推理模型可能擅長多步邏輯推理，但在空間推理上表現不佳。一個指令微調模型可能整體較弱，但帶來不同的歸納偏置，保留了推理模型會剪枝的解決路徑。即使是一個小得多的模型也能做出有意義的貢獻 —— 不是因為它 individually 更強，而是因為它以不同的方式犯錯。

這就是 Squeeze Evolve 能夠超越任何單一模型能力的機制。多模型編排不僅僅是成本工程 —— 它是能力放大器。

研究團隊發現了三個關鍵實證結果：

初始化主導最終準確性：Loop 0（初始種群）的質量是最終性能的最強預測因子。在 AIME 2025 上，反轉初始化模型和重組模型的角色會導致準確率下降高達 23 個百分點。最強模型必須錨定起始種群。
當候選集足夠強時，弱模型是強大的聚合器：當一個組已經包含正確軌跡時，即使小得多的模型也能有效聚合它們 —— 接近 100% 的準確率。昂貴模型的優勢集中在最難、最不確定的組上。在其他地方，便宜模型不僅足夠，而且充分。
模型置信度預測哪里需要能力：從 token 對數概率導出的組置信度（Group Confidence, GC）能夠清晰地區分包含正確軌跡的組和不包含的組。這個信號是沒有任何成本的（在推理過程中產生），適用于不同模型家族，并直接告訴我們哪些組需要昂貴模型，哪些可以安全地交給便宜模型處理。

實驗評估

研究團隊在數學推理、視覺理解、科學發現等多個領域進行了系統驗證。相比單模型 RSA 基線：

AIME 2025：GPT-OSS-20B 與 GPT-5 mini 組合后以 55% 成本超越 GPT-5 mini（95.4% vs 94.2%）

MMMU-Pro：使用 Qwen3.5-35B-A3B 和 Kimi-2.5-Thingking 的組合以 43% 的成本超越 Kimi-2.5-Thingking 單模型（79.1% vs 78.6%）

ARC-AGI-V2：使用 Gemini3 3.1 Pro 大幅超越此前的 RSA 方法（3.7x 成本節約，93.3?97.5% 準確率提升）

圓堆積問題：無需驗證器的情況下使用開源模型（GPT-OSS 120B + 20B）效果匹配基于驗證器的閉源 AlphaEvolve 基線方法（使用 Gemini-2.0 Pro + Flash）

在所有 8 個基準測試上成本降低 1.4–3.3x，吞吐量提升 4–10x

總結與展望

Squeeze Evolve 的核心洞見是：單個模型的天花板不是模型系統的天花板。

通過將現有的測試時擴展方法統一到共同的進化框架中，研究團隊揭示了一個設計空間，在這個空間中，模型根據它們的能力在何處具有最高邊際效用被分配到進化角色。結果不僅僅是更便宜的推理 —— 而是真正更強的推理。協同進化的模型產生它們單獨無法產生的解決方案。

這將測試時擴展從「在更大的模型上花更多錢」重新定義為多模型系統優化問題。前沿不是僅由單個模型能力推動的 —— 而是由你如何智能地編排已有模型推動的。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.