<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      6位前DeepMind老將打造「AI指揮官」,一半成本刷新SOTA

      0
      分享至


      新智元報道

      編輯:元宇

      【新智元導讀】6位前DeepMind成員以元系統重塑大模型調用方式,該系統推出的Gemini 3 Pro優化技術在ARC-AGI-2上以54%的成績奪得榜首,而成本僅為此前最優方法的一半。

      最近,6名前Google DeepMind研究員、工程師又搞大事了。

      他們的新初創公司Poetiq沒去研發更大、更聰明的模型,而是搭建了一個元系統,該系統可以讓前沿大模型自動生成解決特定任務的策略和模型組合。

      這樣不僅解決了前沿模型難以單獨解決復雜真實世界問題的痛點,還將整體推理成本降低了一半。

      12月8日,ARC Prize官宣驗證了該團隊的成果。


      由Poetiq推出的Gemini 3 Pro優化技術,在ARC-AGI-2 leaderboard上創下新SOTA,得分高達54%,每任務計算成本僅31美元。

      這一突破遠超此前模型的最優表現,在leaderboard上力壓群雄。

      Poetiq團隊揭秘


      Poetiq初創團隊均來自Google DeepMind

      Poetiq是一個精干且高度技術型的團隊,由6名來自Google DeepMind的研究員與工程師組成。

      該創始團隊成員一共擁有53年的專業經驗,他們在Poetiq的目標是「以更優的推理,鋪就通過安全超級智能的最快路徑」。


      12月5日,這家成立不到一年的公司自豪地宣布:

      「Poetiq系統已經大幅超越現有方法,并樹立了新的行業最佳表現。」


      如上圖所示,Poetiq系統在ARC-AGI-2半私有評估集上創下新紀錄。

      11月20日,Poetiq已經公布了自己在ARC-AGI-2上的強勁表現,此次ARC Prize對Poetiq公布的成績進行了官方驗證。


      Poetiq開發的一套純Gemini配置參與了ARC Prize的官方評估。

      該系統以每題30.57美元的成本取得了54%的成績,打破了此前Gemini 3 Deep Think創下的每題成本77.16美元、45%的最佳成績。

      Poetiq團隊表示,在ARC-AGI-2公共數據集上,Poetiq系統建立了全新的帕累托前沿,不僅超越以往成果,還進一步推動了成本效益推理的邊界。

      Poetiq團隊將這一成績,歸結為它的元系統。

      元系統

      在任意模型上構建智能

      Poetiq的方法是在任意模型之上構建智能。

      其元系統旨在利用任何現成的前沿模型,自動生成能解決特定任務的完整系統,無需構建甚至不需要微調自己的大前沿模型。

      這也是為什么Poetiq能在Gemini 3與GPT-5.1發布后數小時內,就將它們快速接入并取得SOTA表現的原因。



      如上圖所示,Poetiq元系統在ARC-AGI-1和ARC-AGI-2上不僅全面刷新了以往成績,也再次推進了低成本推理的邊界。

      • 相比之下,Gemini 3 Deep Think(預覽版)成本明顯更高,準確率卻更低。Poetiq(Gemini-3-a、b、c)展示了Poetiq如何利用多個大語言模型,在任意成本目標下實現最大化性能。

      • Poetiq系統可以通過多次調用Gemini-3來程序化地處理ARC-AGI-1和ARC-AGI-2的問題,從而在廣泛的計算區間內實現帕累托最優。

      • Poetiq(Grok-4-Fast)主打極致成本效率,構建于Grok-4-Fast Reasoning模型之上。不僅比原模型報告的結果更便宜、準確率更高,還能達到與價格高兩個數量級的模型相當的準確度。

      • Poetiq(GPT-OSS-b)基于開源權重模型GPT-OSS-120B,在單題不到1美分的成本下仍取得了非常亮眼的準確率。

      • Poetiq(GPT-OSS-a)基于GPT-OSS-120B的低思考版本,用來展示極限成本條件下的系統表現。

      以上這些方案雖然各自都能獨立運行,但它們共同的底層是Poetiq靈活的元系統。

      這個元系統的核心優勢之一即能自動選擇模型組合與策略,甚至會自行判斷何時要寫代碼、又該由哪個模型負責寫代碼。

      Poetiq的遞歸、自我改進系統完全不依賴特定大模型,在接入最新模型時也能充分展現其能力。

      使用Poetiq元系統強化主流模型

      為了進一步展示Poetiq元系統的能力,研究人員將其應用到多個來自Google DeepMind、OpenAI、Anthropic和xAI的最新模型上。

      每一次,Poetiq都實現了「更高準確率+更低成本」的組合。



      上圖中展示了12個模型(包括ChatGPT、Claude Haiku、Gemini、Grok 4、GPT-OSS)在ARC-AGI-1上經過Poetiq處理后的表現。

      Poetiq是如何做到的?秘訣其實只有一句話:

      從上到下,全靠大語言模型。

      Poetiq使用大模型來構建系統、改進系統、也讓系統本身運行起來。

      正是這種靈活、強大且遞歸的系統架構,讓Poetiq能快速取得如此一系列SOTA成果。

      Poetiq選擇開源的具體配置,主要為了展示2個重要理念:

      提示詞只是接口層,并非智能本體

      系統在一個循環式的解題流程中運行:它不會只問一次,而是先讓大模型生成一個可能的答案(有時包括代碼),根據反饋進行分析,然后再繼續利用模型改進答案。

      這種多步驟、自我完善的方式,讓系統能逐步構建并打磨最終解答。

      自我檢查

      系統會自主檢查自己的進展,決定什么時候信息足夠、結果可靠,從而自動結束流程。

      這種自我監控機制能有效避免浪費算力,讓整體成本更低。

      為什么選擇ARC-AGI?

      Poetiq認為ARC-AGI是驗證自身核心理念的理想測試場。

      大模型蘊含了大量人類知識,但在復雜推理任務上經常出現不穩定的情況。

      一個原因是模型表現高度依賴提示詞,而其隨機性會讓知識提取變得不夠可靠,從而使推理步驟難以預測。

      真正的挑戰在于:如何發現一種推理策略,既能找出需要的信息,又能在找到信息時順利將其組合起來,并智能判斷下一步該做什么。

      Poetiq的核心目標,就是為了讓這一過程能夠自動化并不斷優化。

      Poetiq所構建的系統并不預設推理策略,而是讓模型自主發現最適配的推理方式,并能在現實限制(預算、Token或算力)內工作。

      這將釋放生成式AI在復雜推理方面的真正潛力。

      Poetiq的系統能在短時間內適配任務特性與模型特性,而ARC-AGI測試的是模型抽象推理、歸納、邏輯、生成策略能力,這和Poetiq系統的優勢也是相互匹配的。

      為了使Poetiq的元系統能夠隨著每次解決新任務而持續進化,任務的多樣性也非常關鍵。

      為此,Poetiq的團隊正在讓系統攻克更多基準任務,涵蓋多種推理與檢索需求。

      此外,Poetiq系統的優點是擅長與其他系統協作。

      該系統可以用來優化現有大型系統內部的AI組件。

      如果能夠在不修改模型本身的前提下,利用前沿模型中豐富的世界知識來解決長時序任務,如果能讓底層知識提取機制更適配大模型,也許就不需要進行模型調優,這些正是Poetiq下一步努力的方向之一。

      參考資料:

      https://poetiq.ai/posts/arcagi_verified/%20

      https://x.com/arcprize/status/1997743855203148038?s=20

      秒追ASI

      ?點贊、轉發、在看一鍵三連?

      點亮星標,鎖定新智元極速推送!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      抵達深圳,張明池正式簽約,新球隊曝光,目標沖冠,杜鋒期待

      抵達深圳,張明池正式簽約,新球隊曝光,目標沖冠,杜鋒期待

      樂聊球
      2025-12-17 12:09:20
      東風導彈泄密案:間諜郭萬鈞一家三口,全部被處以死刑

      東風導彈泄密案:間諜郭萬鈞一家三口,全部被處以死刑

      冰點歷史
      2025-07-15 09:33:13
      受傷不到48小時,王楚欽首次露面,擔心的事發生,馬龍無辜被牽連

      受傷不到48小時,王楚欽首次露面,擔心的事發生,馬龍無辜被牽連

      攬星河的筆記
      2025-12-17 19:10:03
      清朝條約上熱搜之后,拼多多上立馬上架了一大堆

      清朝條約上熱搜之后,拼多多上立馬上架了一大堆

      映射生活的身影
      2025-12-13 22:16:42
      萬億順差背后,為什么“擴大內需”成了最緊迫的事?

      萬億順差背后,為什么“擴大內需”成了最緊迫的事?

      知本設
      2025-12-13 10:32:01
      李平康:戴琳經常辱罵母親 徐亮:誰都有難處 大家多些寬容和理解

      李平康:戴琳經常辱罵母親 徐亮:誰都有難處 大家多些寬容和理解

      刀鋒體育
      2025-12-17 09:04:37
      火箭輸球太冤!戰掘金裁判報告出爐:加時三次錯漏判都是火箭吃虧

      火箭輸球太冤!戰掘金裁判報告出爐:加時三次錯漏判都是火箭吃虧

      羅說NBA
      2025-12-17 06:52:03
      范曾:當今書法家,老夫也是第一!五百年來書法,我不輕讓褚虞。

      范曾:當今書法家,老夫也是第一!五百年來書法,我不輕讓褚虞。

      生活新鮮市
      2025-12-16 09:03:09
      童瑤胸貼露出來了

      童瑤胸貼露出來了

      手工制作阿殲
      2025-12-15 12:20:21
      48年蔣介石得知遼沈戰役落敗后,立即下令處決謝士炎,這是為何?

      48年蔣介石得知遼沈戰役落敗后,立即下令處決謝士炎,這是為何?

      醉飲前山
      2024-11-22 10:05:49
      黎智英遭裁決,美國大魚被供出,30國勢力同時冒頭,逼中方放人?

      黎智英遭裁決,美國大魚被供出,30國勢力同時冒頭,逼中方放人?

      涵豆說娛
      2025-12-16 14:46:22
      兩名小伙在南寧“三品王”用餐后,又加購500碗米粉!品牌經理:太震撼了,想找到他們…

      兩名小伙在南寧“三品王”用餐后,又加購500碗米粉!品牌經理:太震撼了,想找到他們…

      南寧吃喝玩樂
      2025-12-17 13:00:50
      天下要大亂了,美國公布最新戰略:為了中國,特朗普決心放棄世界

      天下要大亂了,美國公布最新戰略:為了中國,特朗普決心放棄世界

      Ck的蜜糖
      2025-12-16 10:49:41
      李小璐寫真生圖高清

      李小璐寫真生圖高清

      翩翩明星
      2025-11-14 09:39:36
      這眼鏡美嬌娘造型雀實美,太頂了!

      這眼鏡美嬌娘造型雀實美,太頂了!

      貴圈真亂
      2025-12-17 13:44:12
      慈禧逃難山西,求借10萬兩救命,喬致庸:給四十萬,但要一物來換

      慈禧逃難山西,求借10萬兩救命,喬致庸:給四十萬,但要一物來換

      古書記史
      2025-12-11 22:18:10
      大消息突襲!加息預期引爆拋售!

      大消息突襲!加息預期引爆拋售!

      魏家東
      2025-12-17 19:03:37
      沐曦接力造富:股民中一簽賺36萬,梁文鋒大賺4500萬,私募大佬葛衛東收益翻17倍

      沐曦接力造富:股民中一簽賺36萬,梁文鋒大賺4500萬,私募大佬葛衛東收益翻17倍

      搜狐科技
      2025-12-17 17:28:42
      美救人失敗,當著8方代表的面,中方審判準時開始,黎智英被裁決

      美救人失敗,當著8方代表的面,中方審判準時開始,黎智英被裁決

      鐵錘簡科
      2025-12-16 20:08:34
      每體:邁阿密國際拒絕簽萊萬,續約蘇亞雷斯的優先級更高

      每體:邁阿密國際拒絕簽萊萬,續約蘇亞雷斯的優先級更高

      懂球帝
      2025-12-17 19:03:21
      2025-12-17 19:55:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14122文章數 66388關注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      中方被指對日本提出批評并要多國支持立場 外交部回應

      頭條要聞

      中方被指對日本提出批評并要多國支持立場 外交部回應

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      狗仔曝熱播劇姐弟戀真談了???

      財經要聞

      重磅信號!收入分配制度或迎重大突破

      汽車要聞

      一車多動力+雙姿態 長城歐拉5上市 限時9.18萬元起

      態度原創

      旅游
      健康
      家居
      藝術
      公開課

      旅游要聞

      新聞8點見丨Z世代年輕人的冰雪游;快評:控煙黑科技需答好隱私考題

      這些新療法,讓化療不再那么痛苦

      家居要聞

      溫馨獨棟 駝色與淺色碰撞

      藝術要聞

      毛主席書寫林則徐詩詞,字跡超凡,引發關注。

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产欧美日韩一区二区加勒比| 四虎国产精品成人免费久久| 国产亚洲成人网站| 久久国产亚洲精品无码| 少妇无码太爽了在线播放| 亚洲精品国产成人AV流浆| 高清| 亚洲人妻自拍| 黑人巨大无码中文字幕无码| 成人AV专区精品无码国产| 蜜臂av| 亚洲国产精品成人综合色五月| 推油少妇久久99久久99久久| 国产va| 亚洲激情AV| AV成人| 精品久久久久久久久午夜福利 | 国产高清在线精品一区| 美女裸奶100%无遮挡免费网站| av色综合久久天堂av色综合在| 中文字幕有码在线| 天堂a无码a无线孕交| 超级碰碰色偷偷免费视频| 屁屁影院ccyy备用地址| 久久精品亚洲精品国产色婷| 99国产精品免费视频观看8| 一本色道无码DVD色诱| 久久亚洲精品中文字幕| 天美传媒xxxxhd videos3| 3P视频在线| 司法| 亚洲中文字幕无码久久2017| 日韩一区二区三区三级| 国产V在线| 无码人妻黑人中文字幕| 国产精品一区二区三乱码| 日韩有码中文字幕国产| 91亚洲色图| 国产v亚洲v天堂a无码| 欧美超大胆裸体xx视频| 亚洲图片另类|