<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      GPT-5.2考贏人類!OpenAI警告:大模型能力已過剩,AGI天花板不是AI

      0
      分享至


      新智元報道

      編輯:元宇

      【新智元導讀】如同智能手機一樣,大模型也進入了一個「能力過剩」時代,即大模型本身的能力與人類使用方式之間存在著巨大斷層。

      剛剛,GPT-5.2刷新了一項新紀錄!


      OpenAI聯(lián)合創(chuàng)始人Greg Brockman發(fā)帖稱使用GPT-5.2在ARC-AGI-2基準測試上,表現(xiàn)超過了人類基線水平。

      在基準測試時技能爆表,但一到實際應用就「掉鏈子」,OpenAI前首席科學家Ilya Sutskever提到的這種大模型「性能悖論」我們并不陌生。

      這也是AGI評估領域一個長期存在的難題——如何區(qū)分大模型「真正的推理能力」與「刷題型能力」。

      而ARC-AGI-2的出現(xiàn)正好打破了這一難題。

      ARC-AGI-2的全稱為「Abstraction and Reasoning Corpus for Artificial General Intelligence-Version 2」,是ARC系列基準的最新升級版本。

      該基準由Fran?ois Chollet(Keras之父、前Google Brain研究員)及其團隊在2025年推出,其設計初衷十分明確:

      測試AI是否具備AGI所必需的抽象、歸納與遷移推理能力,而非記憶或統(tǒng)計模式匹配。

      ARC系列與傳統(tǒng)NLP或多模態(tài)benchmark最大的不同在于:它沒有大規(guī)模訓練集,每道題目都是從未見過的新任務,因此不存在通過「刷數(shù)據(jù)」獲得高分的可能。

      它要求AI像人類一樣具備真正的推理和舉一反三的能力。

      Chollet曾多次公開表示,如果一個系統(tǒng)只能在見過的數(shù)據(jù)分布上表現(xiàn)良好,那它并不具備AGI所需的能力。

      因此,ARC基準測試剛好直擊大模型的「軟肋」。

      從「及格」到「優(yōu)等生」

      一次關鍵跨越


      新紀錄的刷新者,并非單一模型,而是一個名為Poetiq(GPT-5.2X-High)的系統(tǒng)。

      Poetiq是一家專注于元系統(tǒng)(Meta-System)架構的AI公司。

      其核心理念并不是訓練一個更大的模型,而是通過軟件層面的系統(tǒng)設計,自動構建「會調(diào)用模型的系統(tǒng)」。

      Poetiq(GPT-5.2X-High)在ARC-AGI-2數(shù)據(jù)集上實現(xiàn)了75%準確率,每問題成本不到8美元,超越前SOTA 15個百分點。

      在Poetiq(GPT-5.2X-High)系統(tǒng)出現(xiàn)之前,GPT-5.2(X-High)已經(jīng)非常接近人類平均水平。

      ARC-AGI-2榜單中,人類平均準確率約為60%,GPT-5.2X-High的成績與之幾乎持平,代表了當時AI在該基準上的最強推理能力。

      但Poetiq的加入,使GPT-5.2(X-High)的得分從60%直接拉升到了75%,從勉強及格(人類平均水平)邁入了優(yōu)等生的行列(顯著超越人類平均水平)。

      在同一榜單上,還能看到Gemini 3 Deep Think(Preview)的身影。

      該模型主打「深度思考(Deep Think)」技術,在ARC-AGI-2上的成績約為46%,明顯落后于GPT-5.2系列,并且成本相對后者也略高。


      Poetiq表示,整個過程沒有對GPT-5.2進行任何訓練或者特定優(yōu)化。

      這正是Poetiq元系統(tǒng)的初衷,旨在自動構建完整的系統(tǒng),通過調(diào)用任何現(xiàn)有的前沿模型來解決特定任務。


      從15%的提升數(shù)據(jù)來看,Poetiq對于基礎模型性能的提升幅度還是非常明顯的。

      它的存在證明了不需要堆算力,通過優(yōu)秀的軟件架構也能大幅提升AI性能。

      從這個角度上,它也驗證了接下來OpenAI的一個判斷——

      當前大模型,正逐漸進入「能力過剩」階段。

      大模型「能力過剩」時代


      就在同一天,OpenAI官方也在X平臺發(fā)布了一項關于2026年的預測。

      在這條推文中,OpenAI明確提到一個關鍵詞:Capability Overhang(能力過剩)。

      核心意思是:

      當前模型「能夠做到的事情」,與人們「實際使用AI的方式」(產(chǎn)生效果)之間,存在巨大的斷層。

      OpenAI認為,未來AGI的進展將不再僅取決于模型本身的突破,還將取決于:

      • 人們是否知道如何有效使用AI

      • AI是否真正融入現(xiàn)實工作與生活

      • 系統(tǒng)是否能將模型能力轉化為實際價值

      因此,在2026年,OpenAI將繼續(xù)前沿研究,同時重點投入于應用層、系統(tǒng)層、人機協(xié)同,尤其強調(diào)醫(yī)療、商業(yè)和日常生活場景。

      人機協(xié)同

      AGI的另一半拼圖

      OpenAI這篇官方推文涉及一個人機協(xié)同的問題。

      實現(xiàn)AGI,是需要模型和人協(xié)同發(fā)揮作用:AGI不只靠模型升級,更要「教人用AI」。

      通過正確的使用AI,充分發(fā)揮出AI的潛能,這樣才能讓AI開始從「炫技」轉向「普惠」,真正影響億萬人生活。

      這一觀點也得到了社區(qū)的強烈回應。

      于是,樂觀的網(wǎng)友稱「直接把我整個人自動化吧」!


      也有網(wǎng)友提到,真正的挑戰(zhàn)在于如何將AI融入工作流程中:見過太多組織買了「AI」,卻從未改變?nèi)魏我粋€流程。


      大模型真的「能力過剩」了嗎?

      那么,是不是真如OpenAI所說的,大模型的能力已經(jīng)過剩了呢?

      通過上面Poetiq所公布的Poetiq(GPT-5.2X-High)在ARC-AGI-2上的表現(xiàn),75%的得分超過了人類平均水平(60%)15個百分點。

      此前OpenAI官方在介紹GPT-5時強調(diào)其在解決復雜跨學科問題上達到了專家級基準,后被外界引申為「博士級智能」。

      這說明GPT-5等大模型在某些專業(yè)任務中表現(xiàn)類似于人類博士的專業(yè)水平。

      從模型本身來說,也許并未完全過剩,但從「未被充分釋放的能力」角度來看,已經(jīng)嚴重過剩。

      其中,有模型設計者方的原因,比如他們沒有緊跟用戶的使用場景,「不再與用戶并肩同行了」。


      也可能由于前沿模型在推理和創(chuàng)新上缺乏根本性的突破。


      還有模型本身迭代得太快,用戶不得不在日常生活中不斷棄用已經(jīng)「成功上手」的模型。


      Poetiq 的出現(xiàn),以及OpenAI對「能力過剩」的判斷,共同指向了未來AI領域的一個新方向:

      下一階段的AI競爭,不再只是模型參數(shù)之爭,而是系統(tǒng)、流程與人機協(xié)同的競爭。

      參考資料:

      https://x.com/poetiq_ai/status/2003546910427361402

      https://x.com/OpenAI/status/2003594025098785145

      秒追ASI

      ?點贊、轉發(fā)、在看一鍵三連?

      點亮星標,鎖定新智元極速推送!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      南博疑云 | 一幅“偽作”為何估價8800萬?

      南博疑云 | 一幅“偽作”為何估價8800萬?

      新民周刊
      2026-01-11 12:08:08
      沉默4天后,大陸通知全世界,賴清德隨時可能被抓,鄭麗文懸了?

      沉默4天后,大陸通知全世界,賴清德隨時可能被抓,鄭麗文懸了?

      軒逸阿II
      2026-01-11 00:43:40
      剛剛,國家釋放重大信號!《人民日報》:腦機接口加快接入現(xiàn)實

      剛剛,國家釋放重大信號!《人民日報》:腦機接口加快接入現(xiàn)實

      徐德文科學頻道
      2026-01-11 21:29:14
      死傷抗議者過多,伊朗醫(yī)院系統(tǒng)被壓垮!醫(yī)護連做心肺復蘇的時間都沒有

      死傷抗議者過多,伊朗醫(yī)院系統(tǒng)被壓垮!醫(yī)護連做心肺復蘇的時間都沒有

      互聯(lián)網(wǎng)大觀
      2026-01-11 14:31:51
      瑞典軍工發(fā)布導彈視頻:1枚導彈命中摧毀中國052d型驅逐艦!

      瑞典軍工發(fā)布導彈視頻:1枚導彈命中摧毀中國052d型驅逐艦!

      達文西看世界
      2026-01-11 19:10:20
      特朗普:臺灣屬于中國,中方武統(tǒng)是它的自由,但動手美國會不高興

      特朗普:臺灣屬于中國,中方武統(tǒng)是它的自由,但動手美國會不高興

      我心縱橫天地間
      2026-01-10 14:51:24
      中國U23男足戰(zhàn)勝澳大利亞隊 距亞洲杯出線一步之遙

      中國U23男足戰(zhàn)勝澳大利亞隊 距亞洲杯出線一步之遙

      極目新聞
      2026-01-11 21:38:26
      28歲華裔天才成百億富豪,卻獻計特朗普封鎖中國AI技術,他咋想的

      28歲華裔天才成百億富豪,卻獻計特朗普封鎖中國AI技術,他咋想的

      策略述
      2026-01-11 15:10:07
      葉文斌媽媽被傳限制出境,惡意尋子的陰謀論來了

      葉文斌媽媽被傳限制出境,惡意尋子的陰謀論來了

      映射生活的身影
      2026-01-11 14:33:05
      俄方爆料!“美軍一開始就沒打算讓任何人活下來”

      俄方爆料!“美軍一開始就沒打算讓任何人活下來”

      浙江之聲
      2026-01-11 18:23:51
      以色列在行動,伊朗導彈部隊指揮官遭刺殺,庫爾德武裝發(fā)起進攻

      以色列在行動,伊朗導彈部隊指揮官遭刺殺,庫爾德武裝發(fā)起進攻

      史政先鋒
      2026-01-11 15:58:18
      柬埔寨鐵籠拉人后續(xù)!警方已找到三輪車主,籠子是買來養(yǎng)動物的

      柬埔寨鐵籠拉人后續(xù)!警方已找到三輪車主,籠子是買來養(yǎng)動物的

      夜深愛雜談
      2026-01-11 20:24:26
      北京輸球揪出最大毒瘤!他上場17分鐘,投籃5中0,下滑太嚴重了

      北京輸球揪出最大毒瘤!他上場17分鐘,投籃5中0,下滑太嚴重了

      籃球專區(qū)
      2026-01-11 21:59:43
      U23亞洲杯一夜亂了:泰國絕平伊拉克起死回生 國足再拿1分就出線

      U23亞洲杯一夜亂了:泰國絕平伊拉克起死回生 國足再拿1分就出線

      侃球熊弟
      2026-01-12 00:05:34
      回國了我才敢說:委內(nèi)瑞拉,是我去過的所有國家中,最被低估的!

      回國了我才敢說:委內(nèi)瑞拉,是我去過的所有國家中,最被低估的!

      另子維愛讀史
      2026-01-09 21:09:05
      又贏麻了?KK園區(qū)清零?衛(wèi)星圖打臉擴建,媒體宣傳網(wǎng)友不買賬為啥

      又贏麻了?KK園區(qū)清零?衛(wèi)星圖打臉擴建,媒體宣傳網(wǎng)友不買賬為啥

      眼光很亮
      2026-01-11 15:03:16
      國運來了誰也擋不住!100年前北洋政府隨手簽的條約,如今贏麻了

      國運來了誰也擋不住!100年前北洋政府隨手簽的條約,如今贏麻了

      云霄紀史觀
      2026-01-09 09:55:07
      2026年新成語:惡意尋子!該警惕了,細節(jié)越挖越心寒!

      2026年新成語:惡意尋子!該警惕了,細節(jié)越挖越心寒!

      你食不食油餅
      2026-01-11 06:41:42
      李晨官宣結婚,夫妻合照曝光,全網(wǎng)恭喜,終于等到這一天

      李晨官宣結婚,夫妻合照曝光,全網(wǎng)恭喜,終于等到這一天

      觀察鑒娛
      2026-01-11 14:50:05
      32歲貨車司機中毒去世留下兩娃,眾卡友已為其募捐18萬,還有人愿承擔其小女兒15年上學費用

      32歲貨車司機中毒去世留下兩娃,眾卡友已為其募捐18萬,還有人愿承擔其小女兒15年上學費用

      極目新聞
      2026-01-11 19:42:23
      2026-01-12 05:03:00
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺領航智能+時代
      14313文章數(shù) 66452關注度
      往期回顧 全部

      科技要聞

      “我們與美國的差距也許還在拉大”

      頭條要聞

      美軍突襲委內(nèi)瑞拉俄制防空系統(tǒng)失聯(lián) 俄方回應

      頭條要聞

      美軍突襲委內(nèi)瑞拉俄制防空系統(tǒng)失聯(lián) 俄方回應

      體育要聞

      U23國足形勢:末輪不負泰國即確保晉級

      娛樂要聞

      留幾手為閆學晶叫屈?稱網(wǎng)友自卑敏感

      財經(jīng)要聞

      外賣平臺"燒錢搶存量市場"迎來終局?

      汽車要聞

      2026款宋Pro DM-i長續(xù)航補貼后9.98萬起

      態(tài)度原創(chuàng)

      本地
      旅游
      家居
      數(shù)碼
      公開課

      本地新聞

      云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

      旅游要聞

      山東濟南趵突泉,游客100萬元古錢幣掉水里:水下探測器打撈上岸

      家居要聞

      木色留白 演繹現(xiàn)代自由

      數(shù)碼要聞

      科技有AI,連接全球:海信家電參展CES 2026,定義智慧生活新圖景

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 影音先锋国产| 亚洲男人最新版本天堂| 天堂无码在线| 久久XXX| 久青草久青草视频在线观看| 中文字幕精品亚洲二区| 国产精品久久国产精品99 gif| 人妻丰满精品一区二区A片| 最新亚洲春色AV无码专区| 在线看片免费不卡人成视频| 国产动作大片中文字幕| 亚洲黄色在线看| 2020无码专区人妻系列日韩| 国产九九在线视频| 国精产品无码| 五月婷婷久久中文字幕| 国产成人无码a区在线| 久久综合干| 四虎影视4hu4虎成人| 国产日产欧产精品精品| 淮北市| 日韩精品一区二区三区视频| av色天堂| 97se亚洲精品一区| 中文字幕在线亚洲| 欧美人与动zozo在线播放| 欧美牲交a欧美牲交aⅴ一| 一本大道AV人久久综合| 欧美疯狂做受xxxx高潮小说| 国产黄三级高清在线观看播放| 久久婷婷综合色丁香五月| 同德县| 亚洲欧美日韩愉拍自拍| 亚洲无码丝袜| 超碰热| 精品老熟妇| 欧美久久久久中文字幕| 无码手机线免费观看| 图片区小说区视频区综合| 一边吃奶一边做动态图| 嘉义市|