<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      無需再訓練微調(diào),一個輔助系統(tǒng)讓GPT-5.2準確率飆到創(chuàng)紀錄的75%

      0
      分享至



      編輯 | 杜偉、陳陳

      什么?決定 AI 上限的已不再是底座模型,而是外圍的「推理編排」(Orchestration)。

      在 LLM 完全不變的前提下,僅靠一套 Agentic System,就能讓 AI 的智力表現(xiàn)原地暴漲一截。

      在看了「AI 推理和自我改進系統(tǒng)」初創(chuàng)公司 Poetiq 的最新評測之后,有人得出了這樣的結(jié)論。



      部分截圖

      近日,Poetiq 表示其使用 ARC-AGI-2 測試集,在他們的系統(tǒng)上(稱為 meta-system)運行了 GPT-5.2 X-High。該測試集通常被用來衡量當前 SOTA 模型在復雜抽象推理任務(wù)上的表現(xiàn)。

      結(jié)果顯示,在相同的 Poetiq 測試平臺上,GPT?5.2 X?High 在完整的 PUBLIC-EVAL 數(shù)據(jù)集上的成績高達 75%,這比之前的 SOTA 高出了約 15%,同時每個問題的成本低于 8 美元。

      這里的 PUBLIC-EVAL 是 ARC 測試的一部分,前者一般包含基礎(chǔ)推理任務(wù)和標準的 NLP、數(shù)學推理測試,適合廣泛的模型評測,數(shù)據(jù)集更為公開、標準;后者包含更多復雜且富有挑戰(zhàn)性的推理問題,考察模型的抽象推理、常識推理、創(chuàng)新能力等,是針對高水平模型的推理極限測試。



      下圖展示了各個 SOTA 模型在 PUBLIC-EVAL 數(shù)據(jù)集上的成績分布:



      Poetiq 還特別強調(diào)了,其沒有對 GPT-5.2 進行任何再訓練或模型特定的優(yōu)化。

      在如此短的時間內(nèi),相較于 Poetiq 之前在 PUBLIC-EVAL 數(shù)據(jù)集上測試的其他模型,GPT-5.2 在準確率和價格方面實現(xiàn)了顯著改進。

      Poetiq 進一步做出設(shè)想:如果在 PUBLIC-EVAL 測試中表現(xiàn)好的規(guī)律能夠延續(xù)到 ARC Prize 官方的 SEMI-PRIVATE 測試中,那么「GPT-5.2 X-High + Poetiq」會比以往任何系統(tǒng)配置都更強、更好。

      ARC Prize 總裁 Greg Kamradt 表示,「很高興看到 Poetiq 發(fā)布 GPT-5.2 X-High 的結(jié)果。如果這個成績能保持下去,他們的系統(tǒng)看起來能很好地處理模型交換。不過,在 OpenAI API 的基礎(chǔ)設(shè)施問題解決之前,結(jié)果還沒有得到完全驗證。」

      這里的模型交換指的是:系統(tǒng)通過切換不同的模型來應對不同的任務(wù)需求,而無需對系統(tǒng)或模型進行大規(guī)模的調(diào)整或重新訓練



      OpenAI 總裁 Greg Brockman 也轉(zhuǎn)推表示:GPT-5.2 在 ARC-AGI-2 上超越人類基準成績。



      對于全新的測試結(jié)果,評論區(qū)提出了更多問題,比如「每個任務(wù)平均需要多長時間」。

      Poetiq 回復稱,「我們現(xiàn)在沒有專門收集這些統(tǒng)計數(shù)據(jù),最簡單的問題大概在 8 到 10 分鐘后就能完成,而最難的問題必須在 12 小時之前終止,以保持在時間限制內(nèi)。所以,未來肯定還有改進的空間。」



      還有人指出「大部分改進似乎來自于測試框架和協(xié)調(diào)機制,而不是任何模型特定的調(diào)優(yōu)。沒有訓練變更的情況下,ARC-AGI-2 上提高了大約 15%,這表明僅在搜索、路由和終止邏輯方面就還有很大的提升空間」。

      可問題是:為什么在這個設(shè)置中,X-High 每個任務(wù)的成本比 High 還要低?是因為它通過更早找到正確的解決方案而更快收斂,還是因為測試框架更積極地修剪了無效的推理過程?

      對于這個問題,Poetiq 肯定了「X-High 只是比 High 更快地收斂到正確的答案」這一觀點。



      6 人團隊打造 Meta-system 系統(tǒng)

      Poetiq 是一支由 6 位研究員和工程師組成的團隊,有多位核心成員來自 Google DeepMind 。

      • Ian Fischer (聯(lián)合創(chuàng)始人 & 聯(lián)席 CEO): 曾是 Google DeepMind 的資深研究員;
      • Shumeet Baluja (聯(lián)合創(chuàng)始人 & 聯(lián)席 CEO): 同樣出身于 Google/DeepMind 的資深專家。



      Poetiq 能夠取得上述成績,關(guān)鍵在于其構(gòu)建的meta-system(元系統(tǒng))

      Meta-system 不依賴特定的大模型,可以與任何前沿模型配合使用(如 Gemini 3、GPT-5.1、Grok 等),而不是訓練或微調(diào)模型本身,這意味著它能隨著新模型發(fā)布快速適配并提升性能。

      Poetiq meta-system 構(gòu)建了一種迭代式推理過程,其與傳統(tǒng)一次性生成答案的方法不同,有兩個主要機制:

      • 迭代式的問題求解循環(huán):系統(tǒng)并不是只向模型提出一次問題,而是利用大語言模型(LLM)生成一個潛在的解決方案,隨后接收反饋、分析反饋,并再次調(diào)用 LLM 對方案進行改進。這種多步驟、自我改進的過程,使系統(tǒng)能夠逐步構(gòu)建并不斷完善最終答案。
      • 自我審計(Self-Auditing):系統(tǒng)能夠自主審計自身的運行進度,并自行判斷何時已經(jīng)獲得足夠的信息、當前解決方案是否令人滿意,從而決定終止整個過程。這種自我監(jiān)控機制對于避免不必要的計算浪費、有效降低整體成本至關(guān)重要。

      Poetiq 還特別強調(diào),他們所有 meta-system 的適配工作是在新模型發(fā)布前完成的,而且系統(tǒng)從未直接接觸過 ARC-AGI 任務(wù)集,但依然在多個不同模型上取得跨版本、跨模型族的性能提升,說明 meta-system 對 reasoning 策略具有良好的泛化能力。

      正是這種靈活、強大且具備遞歸能力的架構(gòu),使得 Poetiq 這樣一支小規(guī)模團隊,能夠在極短時間內(nèi)取得一系列最先進(SOTA)的成果。

      對于這個 meta-system,有人認為「太棒了。在模型之上構(gòu)建智能,而不是在模型內(nèi)部構(gòu)建,意味著可以在幾個小時內(nèi)適配新模型,非常高明。適配開源模型,并且成功遷移到新的封閉模型,這表明捕捉到的東西是推理過程本身的基本規(guī)律,而不是模型特定的怪癖。」



      參考鏈接:
      https://poetiq.ai/posts/arcagi_verified/

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      36歲吳曦已經(jīng)與上海申花續(xù)約1年,將隨隊前往海外進行拉練

      36歲吳曦已經(jīng)與上海申花續(xù)約1年,將隨隊前往海外進行拉練

      大眼瞄世界
      2025-12-25 23:15:41
      白銀還能更瘋狂?庫存耗盡、金銀比坍塌,資深分析師喊出300美元天價

      白銀還能更瘋狂?庫存耗盡、金銀比坍塌,資深分析師喊出300美元天價

      華爾街見聞官方
      2025-12-26 21:26:53
      藏不住了,當年陸挺的《江南春》,是從徐湘江手里購買的

      藏不住了,當年陸挺的《江南春》,是從徐湘江手里購買的

      吃瓜盟主
      2025-12-24 15:26:30
      深田詠美——你所不知道的辛酸史

      深田詠美——你所不知道的辛酸史

      素然追光
      2025-12-10 00:25:54
      2025年,消失的公司年會。

      2025年,消失的公司年會。

      愛吃糖的貓cat
      2025-12-24 19:01:36
      中原保時捷大瓜!“三朵金花”銷冠坐擁百萬粉絲,另謀高就投友商

      中原保時捷大瓜!“三朵金花”銷冠坐擁百萬粉絲,另謀高就投友商

      火山詩話
      2025-12-26 06:53:51
      片約不斷,演啥毀啥,央視《老舅》這倆戲混子,趁早收手吧

      片約不斷,演啥毀啥,央視《老舅》這倆戲混子,趁早收手吧

      查爾菲的筆記
      2025-12-18 16:03:46
      慕尼黑至北京航班備降阿拉木圖 機上一名乘客病亡

      慕尼黑至北京航班備降阿拉木圖 機上一名乘客病亡

      新京報
      2025-12-26 18:56:02
      海南封關(guān)成照妖鏡,東南亞國家挨個現(xiàn)行,新加坡直言不準自給自足

      海南封關(guān)成照妖鏡,東南亞國家挨個現(xiàn)行,新加坡直言不準自給自足

      離離言幾許
      2025-12-26 14:16:02
      王勇已任南海區(qū)委書記,曾先后任順德區(qū)區(qū)長、南海區(qū)區(qū)長

      王勇已任南海區(qū)委書記,曾先后任順德區(qū)區(qū)長、南海區(qū)區(qū)長

      南方都市報
      2025-12-26 22:08:22
      60:51票!臺島彈劾提案通過,賴清德時代或告終,盧秀燕一針見血

      60:51票!臺島彈劾提案通過,賴清德時代或告終,盧秀燕一針見血

      素年文史
      2025-12-26 17:19:56
      嚴防死守36年,利智還是輸了,李連杰終是沒放下一直虧欠的“她”

      嚴防死守36年,利智還是輸了,李連杰終是沒放下一直虧欠的“她”

      法老不說教
      2025-12-24 18:25:17
      幫關(guān)于京圈干部大整頓的背后,大哥這分析太透徹了

      幫關(guān)于京圈干部大整頓的背后,大哥這分析太透徹了

      阿天愛旅行
      2025-12-27 03:34:48
      海外訂單飆漲375%!新西蘭富豪瘋搶國產(chǎn)長壽設(shè)備:不交貨就睡工廠

      海外訂單飆漲375%!新西蘭富豪瘋搶國產(chǎn)長壽設(shè)備:不交貨就睡工廠

      思思夜話
      2025-12-26 17:40:14
      942 天零出場!利物浦傳奇遭解約,30 歲斷崖式下滑

      942 天零出場!利物浦傳奇遭解約,30 歲斷崖式下滑

      瀾歸序
      2025-12-27 01:07:57
      美女白色露臍T恤配藍色瑜伽褲,性感值拉滿,簡直是行走的 荷爾蒙

      美女白色露臍T恤配藍色瑜伽褲,性感值拉滿,簡直是行走的 荷爾蒙

      小喬古裝漢服
      2025-09-24 07:20:03
      山東打響第一槍,38名在編教師集體轉(zhuǎn)崗

      山東打響第一槍,38名在編教師集體轉(zhuǎn)崗

      山東教育
      2025-12-26 08:09:47
      真當中國不敢動手?中方向全世界宣布,退出5000億大項目,菲慌了

      真當中國不敢動手?中方向全世界宣布,退出5000億大項目,菲慌了

      瞳哥視界
      2025-12-25 20:48:12
      五個城市迎來新任代市長

      五個城市迎來新任代市長

      上觀新聞
      2025-12-26 19:04:06
      克林頓披露:當年為了打贏朝鮮戰(zhàn)爭,美國共投入了200萬軍隊

      克林頓披露:當年為了打贏朝鮮戰(zhàn)爭,美國共投入了200萬軍隊

      阿柒的訊
      2025-12-25 19:57:39
      2025-12-27 06:55:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12000文章數(shù) 142521關(guān)注度
      往期回顧 全部

      科技要聞

      收割3000億!拼多多"土辦法"熬死所有巨頭

      頭條要聞

      老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

      頭條要聞

      老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

      體育要聞

      開翻航母之后,他決定親手造一艘航母

      娛樂要聞

      王傳君生病后近照變化大,面部浮腫

      財經(jīng)要聞

      投資巨鱷羅杰斯最新持倉:只留四種資產(chǎn)

      汽車要聞

      兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

      態(tài)度原創(chuàng)

      藝術(shù)
      手機
      時尚
      教育
      家居

      藝術(shù)要聞

      閆平 2025油畫作品欣賞

      手機要聞

      vivo藍河:以開源和賽事,撬動AGI時代底層技術(shù)生態(tài)

      我們?yōu)槭裁葱枰?jié)日穿搭?

      教育要聞

      2026云南專升本大綱解析!三分鐘鎖定重點

      家居要聞

      格調(diào)時尚 智慧品質(zhì)居所

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 亚洲熟妇色自偷自拍另类| 无码人妻精品中文字幕| 桐庐县| 亚洲综合图| 狠狠躁夜夜躁人人爽天天天天97| 人妻第一页| AV在线亚洲天堂| 亚洲av片在线免费观看| 亚洲色成人网站www永久男男| 伊人久久大香线蕉精品,亚洲国产一成人久久精品,久久99精品久久久久久三级,亚 | 久久一本人碰碰人碰| 中文字幕熟女| 在线天堂最新版资源| 少妇高潮喷水在线观看| 亚州精品一二区| 一本一道人人妻人人妻αV| 久久精品免费观看国产| 乱女伦露脸对白在线播放| 亚洲无码综合网| 黄片不卡| 亚洲欧美视频| 黑人巨大超大另类videos| 日韩肏屄| 免费无码又黄又爽又刺激| 亚洲综合无码一区二区三区| 太仆寺旗| 色欲av在线| 超碰10000| 亚洲美女视频在线| 日韩激情一区二区| 最新av中文字幕无码专区| 在线观看成人永久免费网站| 欧美日韩无套内射另类| 成 人色 网 站 欧美大片在线观看| 内乡县| 制服丝袜亚洲无码| 岳乳丰满一区二区三区| A级毛片100部免费看| 亚洲暴爽av天天爽日日碰| 久久婷婷综合色丁香五月| 中文字幕一区二区人妻|