![]()
新智元報道
編輯:元宇
【新智元導讀】如同智能手機一樣,大模型也進入了一個「能力過剩」時代,即大模型本身的能力與人類使用方式之間存在著巨大斷層。
剛剛,GPT-5.2刷新了一項新紀錄!
![]()
OpenAI聯(lián)合創(chuàng)始人Greg Brockman發(fā)帖稱使用GPT-5.2在ARC-AGI-2基準測試上,表現(xiàn)超過了人類基線水平。
在基準測試時技能爆表,但一到實際應用就「掉鏈子」,OpenAI前首席科學家Ilya Sutskever提到的這種大模型「性能悖論」我們并不陌生。
這也是AGI評估領域一個長期存在的難題——如何區(qū)分大模型「真正的推理能力」與「刷題型能力」。
而ARC-AGI-2的出現(xiàn)正好打破了這一難題。
ARC-AGI-2的全稱為「Abstraction and Reasoning Corpus for Artificial General Intelligence-Version 2」,是ARC系列基準的最新升級版本。
該基準由Fran?ois Chollet(Keras之父、前Google Brain研究員)及其團隊在2025年推出,其設計初衷十分明確:
測試AI是否具備AGI所必需的抽象、歸納與遷移推理能力,而非記憶或統(tǒng)計模式匹配。
ARC系列與傳統(tǒng)NLP或多模態(tài)benchmark最大的不同在于:它沒有大規(guī)模訓練集,每道題目都是從未見過的新任務,因此不存在通過「刷數(shù)據(jù)」獲得高分的可能。
它要求AI像人類一樣具備真正的推理和舉一反三的能力。
Chollet曾多次公開表示,如果一個系統(tǒng)只能在見過的數(shù)據(jù)分布上表現(xiàn)良好,那它并不具備AGI所需的能力。
因此,ARC基準測試剛好直擊大模型的「軟肋」。
從「及格」到「優(yōu)等生」
一次關鍵跨越
![]()
新紀錄的刷新者,并非單一模型,而是一個名為Poetiq(GPT-5.2X-High)的系統(tǒng)。
Poetiq是一家專注于元系統(tǒng)(Meta-System)架構的AI公司。
其核心理念并不是訓練一個更大的模型,而是通過軟件層面的系統(tǒng)設計,自動構建「會調(diào)用模型的系統(tǒng)」。
Poetiq(GPT-5.2X-High)在ARC-AGI-2數(shù)據(jù)集上實現(xiàn)了75%準確率,每問題成本不到8美元,超越前SOTA 15個百分點。
在Poetiq(GPT-5.2X-High)系統(tǒng)出現(xiàn)之前,GPT-5.2(X-High)已經(jīng)非常接近人類平均水平。
ARC-AGI-2榜單中,人類平均準確率約為60%,GPT-5.2X-High的成績與之幾乎持平,代表了當時AI在該基準上的最強推理能力。
但Poetiq的加入,使GPT-5.2(X-High)的得分從60%直接拉升到了75%,從勉強及格(人類平均水平)邁入了優(yōu)等生的行列(顯著超越人類平均水平)。
在同一榜單上,還能看到Gemini 3 Deep Think(Preview)的身影。
該模型主打「深度思考(Deep Think)」技術,在ARC-AGI-2上的成績約為46%,明顯落后于GPT-5.2系列,并且成本相對后者也略高。
![]()
Poetiq表示,整個過程沒有對GPT-5.2進行任何訓練或者特定優(yōu)化。
這正是Poetiq元系統(tǒng)的初衷,旨在自動構建完整的系統(tǒng),通過調(diào)用任何現(xiàn)有的前沿模型來解決特定任務。
![]()
從15%的提升數(shù)據(jù)來看,Poetiq對于基礎模型性能的提升幅度還是非常明顯的。
它的存在證明了不需要堆算力,通過優(yōu)秀的軟件架構也能大幅提升AI性能。
從這個角度上,它也驗證了接下來OpenAI的一個判斷——
當前大模型,正逐漸進入「能力過剩」階段。
大模型「能力過剩」時代
![]()
就在同一天,OpenAI官方也在X平臺發(fā)布了一項關于2026年的預測。
在這條推文中,OpenAI明確提到一個關鍵詞:Capability Overhang(能力過剩)。
核心意思是:
當前模型「能夠做到的事情」,與人們「實際使用AI的方式」(產(chǎn)生效果)之間,存在巨大的斷層。
OpenAI認為,未來AGI的進展將不再僅取決于模型本身的突破,還將取決于:
人們是否知道如何有效使用AI
AI是否真正融入現(xiàn)實工作與生活
系統(tǒng)是否能將模型能力轉化為實際價值
因此,在2026年,OpenAI將繼續(xù)前沿研究,同時重點投入于應用層、系統(tǒng)層、人機協(xié)同,尤其強調(diào)醫(yī)療、商業(yè)和日常生活場景。
人機協(xié)同
AGI的另一半拼圖
OpenAI這篇官方推文涉及一個人機協(xié)同的問題。
實現(xiàn)AGI,是需要模型和人協(xié)同發(fā)揮作用:AGI不只靠模型升級,更要「教人用AI」。
通過正確的使用AI,充分發(fā)揮出AI的潛能,這樣才能讓AI開始從「炫技」轉向「普惠」,真正影響億萬人生活。
這一觀點也得到了社區(qū)的強烈回應。
于是,樂觀的網(wǎng)友稱「直接把我整個人自動化吧」!
![]()
也有網(wǎng)友提到,真正的挑戰(zhàn)在于如何將AI融入工作流程中:見過太多組織買了「AI」,卻從未改變?nèi)魏我粋€流程。
![]()
大模型真的「能力過剩」了嗎?
那么,是不是真如OpenAI所說的,大模型的能力已經(jīng)過剩了呢?
通過上面Poetiq所公布的Poetiq(GPT-5.2X-High)在ARC-AGI-2上的表現(xiàn),75%的得分超過了人類平均水平(60%)15個百分點。
此前OpenAI官方在介紹GPT-5時強調(diào)其在解決復雜跨學科問題上達到了專家級基準,后被外界引申為「博士級智能」。
這說明GPT-5等大模型在某些專業(yè)任務中表現(xiàn)類似于人類博士的專業(yè)水平。
從模型本身來說,也許并未完全過剩,但從「未被充分釋放的能力」角度來看,已經(jīng)嚴重過剩。
其中,有模型設計者方的原因,比如他們沒有緊跟用戶的使用場景,「不再與用戶并肩同行了」。
![]()
也可能由于前沿模型在推理和創(chuàng)新上缺乏根本性的突破。
![]()
還有模型本身迭代得太快,用戶不得不在日常生活中不斷棄用已經(jīng)「成功上手」的模型。
![]()
Poetiq 的出現(xiàn),以及OpenAI對「能力過剩」的判斷,共同指向了未來AI領域的一個新方向:
下一階段的AI競爭,不再只是模型參數(shù)之爭,而是系統(tǒng)、流程與人機協(xié)同的競爭。
參考資料:
https://x.com/poetiq_ai/status/2003546910427361402
https://x.com/OpenAI/status/2003594025098785145
秒追ASI
?點贊、轉發(fā)、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.