![]()
新智元報道
編輯:元宇
【新智元導讀】6位前DeepMind成員以元系統重塑大模型調用方式,該系統推出的Gemini 3 Pro優化技術在ARC-AGI-2上以54%的成績奪得榜首,而成本僅為此前最優方法的一半。
最近,6名前Google DeepMind研究員、工程師又搞大事了。
他們的新初創公司Poetiq沒去研發更大、更聰明的模型,而是搭建了一個元系統,該系統可以讓前沿大模型自動生成解決特定任務的策略和模型組合。
這樣不僅解決了前沿模型難以單獨解決復雜真實世界問題的痛點,還將整體推理成本降低了一半。
12月8日,ARC Prize官宣驗證了該團隊的成果。
![]()
由Poetiq推出的Gemini 3 Pro優化技術,在ARC-AGI-2 leaderboard上創下新SOTA,得分高達54%,每任務計算成本僅31美元。
這一突破遠超此前模型的最優表現,在leaderboard上力壓群雄。
Poetiq團隊揭秘
![]()
Poetiq初創團隊均來自Google DeepMind
Poetiq是一個精干且高度技術型的團隊,由6名來自Google DeepMind的研究員與工程師組成。
該創始團隊成員一共擁有53年的專業經驗,他們在Poetiq的目標是「以更優的推理,鋪就通過安全超級智能的最快路徑」。
![]()
12月5日,這家成立不到一年的公司自豪地宣布:
「Poetiq系統已經大幅超越現有方法,并樹立了新的行業最佳表現。」
![]()
如上圖所示,Poetiq系統在ARC-AGI-2半私有評估集上創下新紀錄。
11月20日,Poetiq已經公布了自己在ARC-AGI-2上的強勁表現,此次ARC Prize對Poetiq公布的成績進行了官方驗證。
![]()
Poetiq開發的一套純Gemini配置參與了ARC Prize的官方評估。
該系統以每題30.57美元的成本取得了54%的成績,打破了此前Gemini 3 Deep Think創下的每題成本77.16美元、45%的最佳成績。
Poetiq團隊表示,在ARC-AGI-2公共數據集上,Poetiq系統建立了全新的帕累托前沿,不僅超越以往成果,還進一步推動了成本效益推理的邊界。
Poetiq團隊將這一成績,歸結為它的元系統。
元系統
在任意模型上構建智能
Poetiq的方法是在任意模型之上構建智能。
其元系統旨在利用任何現成的前沿模型,自動生成能解決特定任務的完整系統,無需構建甚至不需要微調自己的大前沿模型。
這也是為什么Poetiq能在Gemini 3與GPT-5.1發布后數小時內,就將它們快速接入并取得SOTA表現的原因。
![]()
![]()
如上圖所示,Poetiq元系統在ARC-AGI-1和ARC-AGI-2上不僅全面刷新了以往成績,也再次推進了低成本推理的邊界。
相比之下,Gemini 3 Deep Think(預覽版)成本明顯更高,準確率卻更低。Poetiq(Gemini-3-a、b、c)展示了Poetiq如何利用多個大語言模型,在任意成本目標下實現最大化性能。
Poetiq系統可以通過多次調用Gemini-3來程序化地處理ARC-AGI-1和ARC-AGI-2的問題,從而在廣泛的計算區間內實現帕累托最優。
Poetiq(Grok-4-Fast)主打極致成本效率,構建于Grok-4-Fast Reasoning模型之上。不僅比原模型報告的結果更便宜、準確率更高,還能達到與價格高兩個數量級的模型相當的準確度。
Poetiq(GPT-OSS-b)基于開源權重模型GPT-OSS-120B,在單題不到1美分的成本下仍取得了非常亮眼的準確率。
Poetiq(GPT-OSS-a)基于GPT-OSS-120B的低思考版本,用來展示極限成本條件下的系統表現。
以上這些方案雖然各自都能獨立運行,但它們共同的底層是Poetiq靈活的元系統。
這個元系統的核心優勢之一即能自動選擇模型組合與策略,甚至會自行判斷何時要寫代碼、又該由哪個模型負責寫代碼。
Poetiq的遞歸、自我改進系統完全不依賴特定大模型,在接入最新模型時也能充分展現其能力。
使用Poetiq元系統強化主流模型
為了進一步展示Poetiq元系統的能力,研究人員將其應用到多個來自Google DeepMind、OpenAI、Anthropic和xAI的最新模型上。
每一次,Poetiq都實現了「更高準確率+更低成本」的組合。
![]()
![]()
上圖中展示了12個模型(包括ChatGPT、Claude Haiku、Gemini、Grok 4、GPT-OSS)在ARC-AGI-1上經過Poetiq處理后的表現。
Poetiq是如何做到的?秘訣其實只有一句話:
從上到下,全靠大語言模型。
Poetiq使用大模型來構建系統、改進系統、也讓系統本身運行起來。
正是這種靈活、強大且遞歸的系統架構,讓Poetiq能快速取得如此一系列SOTA成果。
Poetiq選擇開源的具體配置,主要為了展示2個重要理念:
提示詞只是接口層,并非智能本體
系統在一個循環式的解題流程中運行:它不會只問一次,而是先讓大模型生成一個可能的答案(有時包括代碼),根據反饋進行分析,然后再繼續利用模型改進答案。
這種多步驟、自我完善的方式,讓系統能逐步構建并打磨最終解答。
自我檢查
系統會自主檢查自己的進展,決定什么時候信息足夠、結果可靠,從而自動結束流程。
這種自我監控機制能有效避免浪費算力,讓整體成本更低。
為什么選擇ARC-AGI?
Poetiq認為ARC-AGI是驗證自身核心理念的理想測試場。
大模型蘊含了大量人類知識,但在復雜推理任務上經常出現不穩定的情況。
一個原因是模型表現高度依賴提示詞,而其隨機性會讓知識提取變得不夠可靠,從而使推理步驟難以預測。
真正的挑戰在于:如何發現一種推理策略,既能找出需要的信息,又能在找到信息時順利將其組合起來,并智能判斷下一步該做什么。
Poetiq的核心目標,就是為了讓這一過程能夠自動化并不斷優化。
Poetiq所構建的系統并不預設推理策略,而是讓模型自主發現最適配的推理方式,并能在現實限制(預算、Token或算力)內工作。
這將釋放生成式AI在復雜推理方面的真正潛力。
Poetiq的系統能在短時間內適配任務特性與模型特性,而ARC-AGI測試的是模型抽象推理、歸納、邏輯、生成策略能力,這和Poetiq系統的優勢也是相互匹配的。
為了使Poetiq的元系統能夠隨著每次解決新任務而持續進化,任務的多樣性也非常關鍵。
為此,Poetiq的團隊正在讓系統攻克更多基準任務,涵蓋多種推理與檢索需求。
此外,Poetiq系統的優點是擅長與其他系統協作。
該系統可以用來優化現有大型系統內部的AI組件。
如果能夠在不修改模型本身的前提下,利用前沿模型中豐富的世界知識來解決長時序任務,如果能讓底層知識提取機制更適配大模型,也許就不需要進行模型調優,這些正是Poetiq下一步努力的方向之一。
參考資料:
https://poetiq.ai/posts/arcagi_verified/%20
https://x.com/arcprize/status/1997743855203148038?s=20
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.