<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      無需再訓練微調,一個輔助系統讓GPT-5.2準確率飆到創紀錄的75%

      0
      分享至



      編輯 | 杜偉、陳陳

      什么?決定 AI 上限的已不再是底座模型,而是外圍的「推理編排」(Orchestration)。

      在 LLM 完全不變的前提下,僅靠一套 Agentic System,就能讓 AI 的智力表現原地暴漲一截。

      在看了「AI 推理和自我改進系統」初創公司 Poetiq 的最新評測之后,有人得出了這樣的結論。



      部分截圖

      近日,Poetiq 表示其使用 ARC-AGI-2 測試集,在他們的系統上(稱為 meta-system)運行了 GPT-5.2 X-High。該測試集通常被用來衡量當前 SOTA 模型在復雜抽象推理任務上的表現。

      結果顯示,在相同的 Poetiq 測試平臺上,GPT?5.2 X?High 在完整的 PUBLIC-EVAL 數據集上的成績高達 75%,這比之前的 SOTA 高出了約 15%,同時每個問題的成本低于 8 美元。

      這里的 PUBLIC-EVAL 是 ARC 測試的一部分,前者一般包含基礎推理任務和標準的 NLP、數學推理測試,適合廣泛的模型評測,數據集更為公開、標準;后者包含更多復雜且富有挑戰性的推理問題,考察模型的抽象推理、常識推理、創新能力等,是針對高水平模型的推理極限測試。



      下圖展示了各個 SOTA 模型在 PUBLIC-EVAL 數據集上的成績分布:



      Poetiq 還特別強調了,其沒有對 GPT-5.2 進行任何再訓練或模型特定的優化。

      在如此短的時間內,相較于 Poetiq 之前在 PUBLIC-EVAL 數據集上測試的其他模型,GPT-5.2 在準確率和價格方面實現了顯著改進。

      Poetiq 進一步做出設想:如果在 PUBLIC-EVAL 測試中表現好的規律能夠延續到 ARC Prize 官方的 SEMI-PRIVATE 測試中,那么「GPT-5.2 X-High + Poetiq」會比以往任何系統配置都更強、更好。

      ARC Prize 總裁 Greg Kamradt 表示,「很高興看到 Poetiq 發布 GPT-5.2 X-High 的結果。如果這個成績能保持下去,他們的系統看起來能很好地處理模型交換。不過,在 OpenAI API 的基礎設施問題解決之前,結果還沒有得到完全驗證。」

      這里的模型交換指的是:系統通過切換不同的模型來應對不同的任務需求,而無需對系統或模型進行大規模的調整或重新訓練。



      OpenAI 總裁 Greg Brockman 也轉推表示:GPT-5.2 在 ARC-AGI-2 上超越人類基準成績。



      對于全新的測試結果,評論區提出了更多問題,比如「每個任務平均需要多長時間」。

      Poetiq 回復稱,「我們現在沒有專門收集這些統計數據,最簡單的問題大概在 8 到 10 分鐘后就能完成,而最難的問題必須在 12 小時之前終止,以保持在時間限制內。所以,未來肯定還有改進的空間。」



      還有人指出「大部分改進似乎來自于測試框架和協調機制,而不是任何模型特定的調優。沒有訓練變更的情況下,ARC-AGI-2 上提高了大約 15%,這表明僅在搜索、路由和終止邏輯方面就還有很大的提升空間」。

      可問題是:為什么在這個設置中,X-High 每個任務的成本比 High 還要低?是因為它通過更早找到正確的解決方案而更快收斂,還是因為測試框架更積極地修剪了無效的推理過程?

      對于這個問題,Poetiq 肯定了「X-High 只是比 High 更快地收斂到正確的答案」這一觀點。



      6 人團隊打造 Meta-system 系統

      Poetiq 是一支由 6 位研究員和工程師組成的團隊,有多位核心成員來自 Google DeepMind 。

      • Ian Fischer (聯合創始人 & 聯席 CEO): 曾是 Google DeepMind 的資深研究員;
      • Shumeet Baluja (聯合創始人 & 聯席 CEO): 同樣出身于 Google/DeepMind 的資深專家。



      Poetiq 能夠取得上述成績,關鍵在于其構建的meta-system(元系統)。

      Meta-system 不依賴特定的大模型,可以與任何前沿模型配合使用(如 Gemini 3、GPT-5.1、Grok 等),而不是訓練或微調模型本身,這意味著它能隨著新模型發布快速適配并提升性能。

      Poetiq meta-system 構建了一種迭代式推理過程,其與傳統一次性生成答案的方法不同,有兩個主要機制:

      • 迭代式的問題求解循環:系統并不是只向模型提出一次問題,而是利用大語言模型(LLM)生成一個潛在的解決方案,隨后接收反饋、分析反饋,并再次調用 LLM 對方案進行改進。這種多步驟、自我改進的過程,使系統能夠逐步構建并不斷完善最終答案。
      • 自我審計(Self-Auditing):系統能夠自主審計自身的運行進度,并自行判斷何時已經獲得足夠的信息、當前解決方案是否令人滿意,從而決定終止整個過程。這種自我監控機制對于避免不必要的計算浪費、有效降低整體成本至關重要。

      Poetiq 還特別強調,他們所有 meta-system 的適配工作是在新模型發布前完成的,而且系統從未直接接觸過 ARC-AGI 任務集,但依然在多個不同模型上取得跨版本、跨模型族的性能提升,說明 meta-system 對 reasoning 策略具有良好的泛化能力。

      正是這種靈活、強大且具備遞歸能力的架構,使得 Poetiq 這樣一支小規模團隊,能夠在極短時間內取得一系列最先進(SOTA)的成果。

      對于這個 meta-system,有人認為「太棒了。在模型之上構建智能,而不是在模型內部構建,意味著可以在幾個小時內適配新模型,非常高明。適配開源模型,并且成功遷移到新的封閉模型,這表明捕捉到的東西是推理過程本身的基本規律,而不是模型特定的怪癖?!?/p>



      參考鏈接:
      https://poetiq.ai/posts/arcagi_verified/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      WTCC首日開賽!王欣瑜遺憾落敗,斯瓦泰克力克萊巴金娜

      WTCC首日開賽!王欣瑜遺憾落敗,斯瓦泰克力克萊巴金娜

      全網球APP
      2025-12-26 23:02:43
      15點30分!天津女排對陣全勝上海,攔網是軟肋,蔡斌低調回應

      15點30分!天津女排對陣全勝上海,攔網是軟肋,蔡斌低調回應

      跑者排球視角
      2025-12-26 21:59:43
      龐家還有后手,捐贈記錄不僅完好無損,還在龐氏舊宅公開展出

      龐家還有后手,捐贈記錄不僅完好無損,還在龐氏舊宅公開展出

      扶蘇聊歷史
      2025-12-26 17:45:17
      婚可以離,但人必須美到死?

      婚可以離,但人必須美到死?

      聽風聽你
      2025-12-24 22:50:01
      上汽集團新車官宣:2026年1月6日,正式上市!

      上汽集團新車官宣:2026年1月6日,正式上市!

      高科技愛好者
      2025-12-26 23:02:48
      中國首批L3級自動駕駛汽車開啟規?;下愤\行

      中國首批L3級自動駕駛汽車開啟規模化上路運行

      界面新聞
      2025-12-26 17:38:05
      北京89-85新疆 球員評價:3人優秀,3人及格,4人低迷

      北京89-85新疆 球員評價:3人優秀,3人及格,4人低迷

      籃球資訊達人
      2025-12-27 00:30:37
      美國過年,中國第三架殲36升空,樣子又變了,已進入下一階段

      美國過年,中國第三架殲36升空,樣子又變了,已進入下一階段

      頭條爆料007
      2025-12-26 17:46:35
      日媒:中國已指示旅行社把訪日游客數量減少至6成

      日媒:中國已指示旅行社把訪日游客數量減少至6成

      隨波蕩漾的漂流瓶
      2025-12-25 15:02:34
      最近,美國連續扣押多艘中國商船,中國是如何反擊的?

      最近,美國連續扣押多艘中國商船,中國是如何反擊的?

      阿胡
      2025-12-23 17:56:32
      陸遜止步白帝城真相:劉備麾下除趙云外 7 猛將鎮守,無人敢攻

      陸遜止步白帝城真相:劉備麾下除趙云外 7 猛將鎮守,無人敢攻

      嘮叨說歷史
      2025-12-24 18:11:14
      南昌起義中,朱德是第九軍副軍長,那軍長是誰?建國后擔任何職?

      南昌起義中,朱德是第九軍副軍長,那軍長是誰?建國后擔任何職?

      方圓文史
      2025-12-25 16:06:56
      總裁夫人董花花,她吃了回頭草,沒敢離婚,也沒成大女主

      總裁夫人董花花,她吃了回頭草,沒敢離婚,也沒成大女主

      涼湫瑾言
      2025-12-25 21:45:29
      蘿莉島的骯臟超乎想象,克林頓喜歡年輕女孩,科學家霍金竟也去過

      蘿莉島的骯臟超乎想象,克林頓喜歡年輕女孩,科學家霍金竟也去過

      小熊侃史
      2025-12-21 07:05:12
      “堅持計劃生育一百年不動搖”的彭佩云去世,她父親的人生更傳奇

      “堅持計劃生育一百年不動搖”的彭佩云去世,她父親的人生更傳奇

      文史微鑒
      2025-12-24 23:47:43
      C羅40歲仍狂飆:千球倒計時,傳奇永不謝幕

      C羅40歲仍狂飆:千球倒計時,傳奇永不謝幕

      星耀國際足壇
      2025-12-26 23:08:30
      合肥一水果店老板疑卷充值款跑路,數百名會員曾充值幾百至上萬元,多部門已介入調查

      合肥一水果店老板疑卷充值款跑路,數百名會員曾充值幾百至上萬元,多部門已介入調查

      大象新聞
      2025-12-27 00:45:04
      “親爹咋能這么糟蹋閨女?”父親拍下女兒視頻,網友都看不下去了

      “親爹咋能這么糟蹋閨女?”父親拍下女兒視頻,網友都看不下去了

      妍妍教育日記
      2025-12-12 23:15:07
      明朝十六帝,為何只剩十三陵,那三皇帝到底埋哪去了?

      明朝十六帝,為何只剩十三陵,那三皇帝到底埋哪去了?

      長風文史
      2025-12-26 15:50:16
      阻斷美對臺軍售途徑!特朗普給出答案:公??垩?,武器裝備大陸

      阻斷美對臺軍售途徑!特朗普給出答案:公海扣押,武器裝備大陸

      現代小青青慕慕
      2025-12-25 20:19:07
      2025-12-27 07:48:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12000文章數 142521關注度
      往期回顧 全部

      科技要聞

      收割3000億!拼多多"土辦法"熬死所有巨頭

      頭條要聞

      官方披露:把青海原副省長拉下馬的環保案件賠了50億

      頭條要聞

      官方披露:把青海原副省長拉下馬的環保案件賠了50億

      體育要聞

      開翻航母之后,他決定親手造一艘航母

      娛樂要聞

      王傳君生病后近照變化大,面部浮腫

      財經要聞

      投資巨鱷羅杰斯最新持倉:只留四種資產

      汽車要聞

      兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

      態度原創

      親子
      房產
      數碼
      本地
      公開課

      親子要聞

      彤彤今天開心了!

      房產要聞

      炸裂,三亞360億超級清單發布,又一批重大配套要來了!

      數碼要聞

      盛色推出“OF24TC”23.8英寸顯示器:1080P 144Hz,499元

      本地新聞

      云游安徽|踏訪池州,讀懂山水間的萬年史書

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 韩产日产国产欧产| 69天堂| 国产免费AV网站| 亚洲综合另类小说色区色噜噜| 久久久久女人精品毛片| 久久久久亚洲av成人网址| 一区二区av| 桑植县| 亚洲综合色成在线播放| 日韩亚洲欧美中文高清| 国产一区二区三区AV在线无码观看| 伊人久久五月| 亚洲va综合va国产va中文| 亚洲中文无码av永久不收费| a级大胆欧美人体大胆666| 91久久偷偷做嫩草影院免费看| 国产熟女精品传媒| 亚洲欧洲另类| 国产又色又爽又黄刺激视频| 91国在线啪精品一区| 精品久久久久久久久久中文字幕| 免费无码黄十八禁网站| 久久午夜夜伦鲁鲁一区二区| 国内精品久久久久久中文字幕| 亚洲精品久久久久久久蜜桃臀 | 在线v片免费观看视频| 日本一区二区三本视频在线观看| 91一区二区| 成人性生交大片免费看中文| 狠狠噜天天噜日日噜| 曰批永久免费40分钟免费观看软件| 狠狠干奇米| 偷偷色噜狠狠狠狠的777米奇| 日韩无码一区二区三区四区| 无套内谢少妇毛片aaaa片免费 | 人妻精品久久久久中文字幕86| 激情无码人妻又粗又大| 亚洲熟妇av日韩熟妇在线| 夜夜国自一区| 大香蕉欧美| 伊人色综合久久天天五月婷|