<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Squeeze Evolve:無需驗證器實現推理新SOTA

      0
      分享至



      本文由加州大學伯克利分校、德克薩斯大學奧斯汀分校、斯坦福大學、普林斯頓大學與 Together AI 的研究團隊共同完成。研究團隊致力于探索大語言模型推理優化、多模型協同與高效計算等前沿方向。

      本文作者Monishwaran 和 Leon Lakhani 來自 UC Berkeley,研究方向為大語言模型。指導教師是UT Austin 助理教授徐晨豐(研究方向為高效機器學習)和Stanford 教授 James Zou(研究方向為機器學習、計算生物學等)。



      • 論文鏈接:https://arxiv.org/abs/2604.07725
      • 項目主頁:https://squeeze-evolve.github.io
      • 代碼倉庫:https://github.com/squeeze-evolve/squeeze-evolve



      每個大語言模型都有其能力天花板。增加推理預算、生成更多候選、運行更多優化循環 —— 單個模型只是在重復同樣的先驗知識、同樣的失敗模式、同樣的盲點。其生成的答案種群會逐漸收斂并停滯不前。

      如果突破天花板的方法不是更大的模型,而是一套協同進化的模型系統呢?

      這就是 Squeeze Evolve 的核心理念:一個多模型進化框架,通過編排具有不同優勢、失敗模式和推理風格的模型,在無需任何外部驗證器的情況下,產生任何單一模型都無法單獨實現的能力。

      研究背景

      測試時擴展(Test-time Scaling)通過生成多個候選答案并通過選擇和重組進行迭代優化,使模型能夠「更深入地思考」。當與外部驗證器配合使用時,這種進化方法已在代碼生成和科學發現領域取得突破。

      然而,在許多重要領域(例如等離子體模擬、濕實驗室實驗、開放式數學推理等),驗證要么成本過高、速度過慢,要么根本不可用。進化必須在沒有真實反饋的情況下進行。

      這就是無驗證器進化,它面臨一個根本性問題:單模型種群會崩潰。

      沒有外部校正時,模型會放大它已經知道如何識別和重現的軌跡。丟棄數量極少但正確的方案。因此,多樣性在進化中至關重要。一旦多樣性喪失,就無法恢復,后續循環只能重組幸存軌跡的后代,陷入狹窄的解空間模式。

      這就是為什么單純擴大單個模型的推理預算會遇到收益遞減。瓶頸不是算力,而是多樣性。



      方法概述

      不同模型具有不同的先驗知識、不同的訓練數據分布、不同的失敗模式。當它們參與同一個進化過程時,能夠維持單一模型無法獨立保持的互補譜系。

      一個推理模型可能擅長多步邏輯推理,但在空間推理上表現不佳。一個指令微調模型可能整體較弱,但帶來不同的歸納偏置,保留了推理模型會剪枝的解決路徑。即使是一個小得多的模型也能做出有意義的貢獻 —— 不是因為它 individually 更強,而是因為它以不同的方式犯錯。

      這就是 Squeeze Evolve 能夠超越任何單一模型能力的機制。多模型編排不僅僅是成本工程 —— 它是能力放大器。

      研究團隊發現了三個關鍵實證結果:

      1. 初始化主導最終準確性:Loop 0(初始種群)的質量是最終性能的最強預測因子。在 AIME 2025 上,反轉初始化模型和重組模型的角色會導致準確率下降高達 23 個百分點。最強模型必須錨定起始種群。
      2. 當候選集足夠強時,弱模型是強大的聚合器:當一個組已經包含正確軌跡時,即使小得多的模型也能有效聚合它們 —— 接近 100% 的準確率。昂貴模型的優勢集中在最難、最不確定的組上。在其他地方,便宜模型不僅足夠,而且充分。
      3. 模型置信度預測哪里需要能力:從 token 對數概率導出的組置信度(Group Confidence, GC)能夠清晰地區分包含正確軌跡的組和不包含的組。這個信號是沒有任何成本的(在推理過程中產生),適用于不同模型家族,并直接告訴我們哪些組需要昂貴模型,哪些可以安全地交給便宜模型處理。



      實驗評估

      研究團隊在數學推理、視覺理解、科學發現等多個領域進行了系統驗證。相比單模型 RSA 基線:

      • AIME 2025:GPT-OSS-20B 與 GPT-5 mini 組合后以 55% 成本超越 GPT-5 mini(95.4% vs 94.2%)



      • MMMU-Pro:使用 Qwen3.5-35B-A3B 和 Kimi-2.5-Thingking 的組合以 43% 的成本超越 Kimi-2.5-Thingking 單模型(79.1% vs 78.6%)



      • ARC-AGI-V2:使用 Gemini3 3.1 Pro 大幅超越此前的 RSA 方法 (3.7x 成本節約,93.3?97.5% 準確率提升)



      • 圓堆積問題:無需驗證器的情況下使用開源模型(GPT-OSS 120B + 20B)效果匹配基于驗證器的閉源 AlphaEvolve 基線方法(使用 Gemini-2.0 Pro + Flash)



      • 在所有 8 個基準測試上成本降低 1.4–3.3x,吞吐量提升 4–10x



      總結與展望

      Squeeze Evolve 的核心洞見是:單個模型的天花板不是模型系統的天花板。

      通過將現有的測試時擴展方法統一到共同的進化框架中,研究團隊揭示了一個設計空間,在這個空間中,模型根據它們的能力在何處具有最高邊際效用被分配到進化角色。結果不僅僅是更便宜的推理 —— 而是真正更強的推理。協同進化的模型產生它們單獨無法產生的解決方案。

      這將測試時擴展從「在更大的模型上花更多錢」重新定義為多模型系統優化問題。前沿不是僅由單個模型能力推動的 —— 而是由你如何智能地編排已有模型推動的。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      英媒:前米蘭球員博列洛因私處藥膏遭禁賽,曾稱一天親熱37次

      英媒:前米蘭球員博列洛因私處藥膏遭禁賽,曾稱一天親熱37次

      懂球帝
      2026-04-26 18:37:16
      韓媒稱:國羽三巨頭實力驚人,陳雨菲休戰仍主宰全局,輕松壓制東道主

      韓媒稱:國羽三巨頭實力驚人,陳雨菲休戰仍主宰全局,輕松壓制東道主

      kio魚
      2026-04-27 13:26:00
      出差墊5100只報250,我不吵不鬧,下次派出差任務,任務傳三圈沒人接

      出差墊5100只報250,我不吵不鬧,下次派出差任務,任務傳三圈沒人接

      夜闌故事集
      2025-09-24 11:45:02
      鵝肉立大功!中科院研究發現:鵝肉可促進免疫細胞再生,可多吃

      鵝肉立大功!中科院研究發現:鵝肉可促進免疫細胞再生,可多吃

      Thurman在昆明
      2026-04-23 17:05:10
      尚界汽車法務部:北京國際車展現場有觀眾蓄意破壞展車內飾,造成車輛損傷,已做好取證

      尚界汽車法務部:北京國際車展現場有觀眾蓄意破壞展車內飾,造成車輛損傷,已做好取證

      都市快報橙柿互動
      2026-04-25 12:33:09
      瞞不住了!霍汶希放棄掙扎,張敬軒復出夢碎,網友:絕不買賬!

      瞞不住了!霍汶希放棄掙扎,張敬軒復出夢碎,網友:絕不買賬!

      樂悠悠娛樂
      2026-04-27 13:16:31
      民進黨高層竟敢偷偷離臺,大陸火速行動!美國來陰的,鄭麗文拼了

      民進黨高層竟敢偷偷離臺,大陸火速行動!美國來陰的,鄭麗文拼了

      點燃好奇心
      2026-04-27 14:18:19
      五連敗黯然下課,本以為徹底涼涼,他卻被英超強隊瘋搶

      五連敗黯然下課,本以為徹底涼涼,他卻被英超強隊瘋搶

      瀾歸序
      2026-04-27 01:24:52
      100 日元兌 4.33 元:日本用三十年,把自己熬成了 “廉價國家”

      100 日元兌 4.33 元:日本用三十年,把自己熬成了 “廉價國家”

      深析古今
      2026-03-31 10:10:57
      清北、浙大集體“退群”!多所985取消綜評招生,張雪峰一語成讖

      清北、浙大集體“退群”!多所985取消綜評招生,張雪峰一語成讖

      妍妍教育日記
      2026-04-26 08:00:15
      內塔被上百國通緝,中方不再沉默,在安理會出手,公開清算以色列

      內塔被上百國通緝,中方不再沉默,在安理會出手,公開清算以色列

      墨印齋
      2026-04-26 15:00:25
      多存錢,50歲以后,存款達到“這個數”,你的家庭就很有底氣了!

      多存錢,50歲以后,存款達到“這個數”,你的家庭就很有底氣了!

      貓叔東山再起
      2026-04-27 12:10:07
      美媒獨家:白宮記者晚宴槍手科爾·艾倫“反特朗普宣言”全文

      美媒獨家:白宮記者晚宴槍手科爾·艾倫“反特朗普宣言”全文

      寒律
      2026-04-27 02:29:47
      東體:莫雷諾能參加慈善賽是辦到簽證,瓜林和阿爾貝茨未成行

      東體:莫雷諾能參加慈善賽是辦到簽證,瓜林和阿爾貝茨未成行

      懂球帝
      2026-04-27 12:06:25
      俄防長:俄中軍事合作尤為迫切

      俄防長:俄中軍事合作尤為迫切

      俄羅斯衛星通訊社
      2026-04-25 16:06:53
      此論調不可取:整個北約打不過俄羅斯?把德國逼下場會讓俄軍絕望

      此論調不可取:整個北約打不過俄羅斯?把德國逼下場會讓俄軍絕望

      寰球經緯所
      2026-04-24 15:00:27
      跑馬人最慘遭遇:酒店不隔音,隔壁情侶的“聲音”讓我徹底崩潰

      跑馬人最慘遭遇:酒店不隔音,隔壁情侶的“聲音”讓我徹底崩潰

      馬拉松跑步健身
      2026-04-26 21:41:40
      兒子深夜生幻覺屢次性侵母親,婦女終于無法忍受,凌晨揮刀

      兒子深夜生幻覺屢次性侵母親,婦女終于無法忍受,凌晨揮刀

      長安一孤客
      2026-04-26 13:18:18
      官宣 | 張效瑞,臨時接手主教練!

      官宣 | 張效瑞,臨時接手主教練!

      硯底沉香
      2026-04-27 13:21:39
      張軍被查,才看懂林丹有多狠!

      張軍被查,才看懂林丹有多狠!

      情感大頭說說
      2026-04-27 13:26:29
      2026-04-27 14:59:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12868文章數 142636關注度
      往期回顧 全部

      科技要聞

      打1折!DeepSeek輸入緩存降價

      頭條要聞

      美海軍考慮從外國購買軍艦和零部件:日韓成潛在選擇

      頭條要聞

      美海軍考慮從外國購買軍艦和零部件:日韓成潛在選擇

      體育要聞

      最抽象的天才,正在改變瓜迪奧拉

      娛樂要聞

      《奔跑吧14》剛播就把一手好牌打稀爛

      財經要聞

      DeepSeek融資、字節加碼 AI開始真燒錢了

      汽車要聞

      在不確定中尋找確定性:大眾汽車的中國解法

      態度原創

      旅游
      數碼
      健康
      家居
      公開課

      旅游要聞

      春日暢游抱犢崮 山水漂流樂享愜意春光

      數碼要聞

      一人千面喚醒場景革命,情緒價值激活凈水器增長密碼

      干細胞如何讓燒燙傷皮膚"再生"?

      家居要聞

      江景風格 流動的秩序

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品国产福利在线观看91啪| 午夜精品视频在线看| 中文字幕熟妇人妻在线视频| 男同av| 国产在线精品一区二区在线看| 国产精品久久久久久人妻精品动漫| 亚洲av综合av一区| 亚洲精品国产精品制服丝袜| 潮喷视频免费| 亚洲午夜精品久久久久久app| www.艹| 精品亚洲综合一区二区三区| 无尺码精品产品日韩| 视频在线只有精品日韩| 亚洲精品国产av成拍色拍个| 91免费视频观看| 亚洲乱色一区二区三区丝袜 | av高清| 亚洲福利视频一区二区| 亚洲国产福利成人一区二区| 亚洲黄色片| 国产亚洲精品久久久闺蜜| 亚洲成人黄色电影| 欧美一区二区三区在线观看| 亚洲黄色精品| 久久精品国产只有精品96| www夜插内射视频网站| 国产高清在线a视频大全| xxx69国产| 白丝精品一区二区三区| 又大又粗又爽免费视频a片| 甘孜县| 久久久久国色av免费看| 99热门精品一区二区三区无码| 一本色道久久88加勒比—综合| 加勒比无码一区二区三区| 久久精品欧美一区二区三区麻豆 | 中文国产日韩欧美二视频| 午夜国产理论| 夜鲁鲁鲁夜夜综合视频欧美| 亚洲精品久荜中文字幕|