<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      GPT-5.2考贏人類!OpenAI警告:大模型能力已過剩,AGI天花板不是AI

      0
      分享至


      新智元報道

      編輯:元宇

      【新智元導讀】如同智能手機一樣,大模型也進入了一個「能力過剩」時代,即大模型本身的能力與人類使用方式之間存在著巨大斷層。

      剛剛,GPT-5.2刷新了一項新紀錄!


      OpenAI聯合創始人Greg Brockman發帖稱使用GPT-5.2在ARC-AGI-2基準測試上,表現超過了人類基線水平。

      在基準測試時技能爆表,但一到實際應用就「掉鏈子」,OpenAI前首席科學家Ilya Sutskever提到的這種大模型「性能悖論」我們并不陌生。

      這也是AGI評估領域一個長期存在的難題——如何區分大模型「真正的推理能力」與「刷題型能力」。

      而ARC-AGI-2的出現正好打破了這一難題。

      ARC-AGI-2的全稱為「Abstraction and Reasoning Corpus for Artificial General Intelligence-Version 2」,是ARC系列基準的最新升級版本。

      該基準由Fran?ois Chollet(Keras之父、前Google Brain研究員)及其團隊在2025年推出,其設計初衷十分明確:

      測試AI是否具備AGI所必需的抽象、歸納與遷移推理能力,而非記憶或統計模式匹配。

      ARC系列與傳統NLP或多模態benchmark最大的不同在于:它沒有大規模訓練集,每道題目都是從未見過的新任務,因此不存在通過「刷數據」獲得高分的可能。

      它要求AI像人類一樣具備真正的推理和舉一反三的能力。

      Chollet曾多次公開表示,如果一個系統只能在見過的數據分布上表現良好,那它并不具備AGI所需的能力。

      因此,ARC基準測試剛好直擊大模型的「軟肋」。

      從「及格」到「優等生」

      一次關鍵跨越


      新紀錄的刷新者,并非單一模型,而是一個名為Poetiq(GPT-5.2X-High)的系統。

      Poetiq是一家專注于元系統(Meta-System)架構的AI公司。

      其核心理念并不是訓練一個更大的模型,而是通過軟件層面的系統設計,自動構建「會調用模型的系統」。

      Poetiq(GPT-5.2X-High)在ARC-AGI-2數據集上實現了75%準確率,每問題成本不到8美元,超越前SOTA 15個百分點。

      在Poetiq(GPT-5.2X-High)系統出現之前,GPT-5.2(X-High)已經非常接近人類平均水平。

      ARC-AGI-2榜單中,人類平均準確率約為60%,GPT-5.2X-High的成績與之幾乎持平,代表了當時AI在該基準上的最強推理能力。

      但Poetiq的加入,使GPT-5.2(X-High)的得分從60%直接拉升到了75%,從勉強及格(人類平均水平)邁入了優等生的行列(顯著超越人類平均水平)。

      在同一榜單上,還能看到Gemini 3 Deep Think(Preview)的身影。

      該模型主打「深度思考(Deep Think)」技術,在ARC-AGI-2上的成績約為46%,明顯落后于GPT-5.2系列,并且成本相對后者也略高。


      Poetiq表示,整個過程沒有對GPT-5.2進行任何訓練或者特定優化。

      這正是Poetiq元系統的初衷,旨在自動構建完整的系統,通過調用任何現有的前沿模型來解決特定任務。


      從15%的提升數據來看,Poetiq對于基礎模型性能的提升幅度還是非常明顯的。

      它的存在證明了不需要堆算力,通過優秀的軟件架構也能大幅提升AI性能。

      從這個角度上,它也驗證了接下來OpenAI的一個判斷——

      當前大模型,正逐漸進入「能力過剩」階段。

      大模型「能力過剩」時代


      就在同一天,OpenAI官方也在X平臺發布了一項關于2026年的預測。

      在這條推文中,OpenAI明確提到一個關鍵詞:Capability Overhang(能力過剩)。

      核心意思是:

      當前模型「能夠做到的事情」,與人們「實際使用AI的方式」(產生效果)之間,存在巨大的斷層。

      OpenAI認為,未來AGI的進展將不再僅取決于模型本身的突破,還將取決于:

      • 人們是否知道如何有效使用AI

      • AI是否真正融入現實工作與生活

      • 系統是否能將模型能力轉化為實際價值

      因此,在2026年,OpenAI將繼續前沿研究,同時重點投入于應用層、系統層、人機協同,尤其強調醫療、商業和日常生活場景。

      人機協同

      AGI的另一半拼圖

      OpenAI這篇官方推文涉及一個人機協同的問題。

      實現AGI,是需要模型和人協同發揮作用:AGI不只靠模型升級,更要「教人用AI」。

      通過正確的使用AI,充分發揮出AI的潛能,這樣才能讓AI開始從「炫技」轉向「普惠」,真正影響億萬人生活。

      這一觀點也得到了社區的強烈回應。

      于是,樂觀的網友稱「直接把我整個人自動化吧」!


      也有網友提到,真正的挑戰在于如何將AI融入工作流程中:見過太多組織買了「AI」,卻從未改變任何一個流程。


      大模型真的「能力過剩」了嗎?

      那么,是不是真如OpenAI所說的,大模型的能力已經過剩了呢?

      通過上面Poetiq所公布的Poetiq(GPT-5.2X-High)在ARC-AGI-2上的表現,75%的得分超過了人類平均水平(60%)15個百分點。

      此前OpenAI官方在介紹GPT-5時強調其在解決復雜跨學科問題上達到了專家級基準,后被外界引申為「博士級智能」。

      這說明GPT-5等大模型在某些專業任務中表現類似于人類博士的專業水平。

      從模型本身來說,也許并未完全過剩,但從「未被充分釋放的能力」角度來看,已經嚴重過剩。

      其中,有模型設計者方的原因,比如他們沒有緊跟用戶的使用場景,「不再與用戶并肩同行了」。


      也可能由于前沿模型在推理和創新上缺乏根本性的突破。


      還有模型本身迭代得太快,用戶不得不在日常生活中不斷棄用已經「成功上手」的模型。


      Poetiq 的出現,以及OpenAI對「能力過剩」的判斷,共同指向了未來AI領域的一個新方向:

      下一階段的AI競爭,不再只是模型參數之爭,而是系統、流程與人機協同的競爭。

      參考資料:

      https://x.com/poetiq_ai/status/2003546910427361402

      https://x.com/OpenAI/status/2003594025098785145

      秒追ASI

      ?點贊、轉發、在看一鍵三連?

      點亮星標,鎖定新智元極速推送!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      痛心!日照34歲醫生疑自殺離世,疑痔瘡手術疼痛導致,醫院回應

      痛心!日照34歲醫生疑自殺離世,疑痔瘡手術疼痛導致,醫院回應

      鋭娛之樂
      2026-01-09 16:05:30
      河北一所大學破產!

      河北一所大學破產!

      新牛城
      2026-01-12 10:01:15
      古代犯人發配需要衙役押送,往返幾千里路,衙役是不是也很遭罪?

      古代犯人發配需要衙役押送,往返幾千里路,衙役是不是也很遭罪?

      掠影后有感
      2026-01-10 13:57:42
      馬斯克拋出2026年九大“瘋狂”預言:科技狂飆下的未來圖景

      馬斯克拋出2026年九大“瘋狂”預言:科技狂飆下的未來圖景

      娛樂督察中
      2026-01-11 13:48:02
      CBA最新消息!曝上海男籃裁掉弗格,趙繼偉正式復出

      CBA最新消息!曝上海男籃裁掉弗格,趙繼偉正式復出

      體壇瞎白話
      2026-01-12 10:32:51
      送別!南京大學李慶余教授逝世,享年89歲

      送別!南京大學李慶余教授逝世,享年89歲

      魯中晨報
      2026-01-12 17:25:27
      王毅外長推遲訪問索馬里,35年來屬首次,駁斥索馬里蘭不實之詞

      王毅外長推遲訪問索馬里,35年來屬首次,駁斥索馬里蘭不實之詞

      麓谷隱士
      2026-01-12 09:22:40
      每天一個水煮蛋是“死亡催化劑”?提醒:想健康吃蛋,5個錯別犯

      每天一個水煮蛋是“死亡催化劑”?提醒:想健康吃蛋,5個錯別犯

      健康科普365
      2026-01-11 20:30:03
      “四九”可能成為今年最冷的“九”:本周末起,一股強冷空氣將制造大范圍降溫,還可能激發較大范圍雨雪天氣

      “四九”可能成為今年最冷的“九”:本周末起,一股強冷空氣將制造大范圍降溫,還可能激發較大范圍雨雪天氣

      魯中晨報
      2026-01-12 19:09:16
      蔡少芬慶祝結婚18周年,與老公過二人世界,張晉望妻眼太甜了

      蔡少芬慶祝結婚18周年,與老公過二人世界,張晉望妻眼太甜了

      偵探娛樂
      2026-01-12 19:54:27
      內訌爆發!曝快船兩大核心矛盾激化!公開指責,表達不滿!

      內訌爆發!曝快船兩大核心矛盾激化!公開指責,表達不滿!

      King迪哥侃球
      2026-01-11 21:58:15
      大動作:庫班包圍圈正在形成,庫皮揚斯克烏軍再次潰敗!

      大動作:庫班包圍圈正在形成,庫皮揚斯克烏軍再次潰敗!

      勝研集
      2026-01-12 14:07:03
      1月12日俄烏:英國越來越強硬了

      1月12日俄烏:英國越來越強硬了

      山河路口
      2026-01-12 22:24:28
      開年A股風格分化:滬指跑輸個股均值,超級大盤超八成收跌,中小盤股扛旗領跑

      開年A股風格分化:滬指跑輸個股均值,超級大盤超八成收跌,中小盤股扛旗領跑

      財聯社
      2026-01-12 18:36:06
      為什么我們影院可以播放英語、日語原聲,卻從不播“粵語”原聲?

      為什么我們影院可以播放英語、日語原聲,卻從不播“粵語”原聲?

      心靈得以滋養
      2026-01-12 10:17:46
      周定洋告別成都蓉城:人生最艱難決定!在對的時間開啟新挑戰

      周定洋告別成都蓉城:人生最艱難決定!在對的時間開啟新挑戰

      奧拜爾
      2026-01-12 22:13:14
      這條荒唐新聞,引起公憤了!

      這條荒唐新聞,引起公憤了!

      胖胖說他不胖
      2026-01-11 10:00:11
      午間突發利好,固態電池量產!這9個龍頭又集體漲停了

      午間突發利好,固態電池量產!這9個龍頭又集體漲停了

      鵬哥投研
      2026-01-12 15:57:47
      合川文旅發力了!集結十八家餐館提供刨豬湯,呆呆家是真撐不住了

      合川文旅發力了!集結十八家餐館提供刨豬湯,呆呆家是真撐不住了

      八斗小先生
      2026-01-12 17:11:15
      破案!能贏遼寧44分,杜鋒卻早早鳴金收兵原因找到,粵媒說出實情

      破案!能贏遼寧44分,杜鋒卻早早鳴金收兵原因找到,粵媒說出實情

      后仰大風車
      2026-01-12 09:10:12
      2026-01-12 23:55:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14319文章數 66454關注度
      往期回顧 全部

      科技要聞

      面對SpaceX瘋狂“下餃子” 中國正面接招

      頭條要聞

      外媒問王毅調整索馬里行程是否出于安全考慮 中方回應

      頭條要聞

      外媒問王毅調整索馬里行程是否出于安全考慮 中方回應

      體育要聞

      一場安東尼奧式勝利,給中國足球帶來驚喜

      娛樂要聞

      蔡少芬結婚18周年,與張晉過二人世界

      財經要聞

      倍輕松信披迷霧 實控人占用資金金額存疑

      汽車要聞

      增配不加價 北京現代 第五代 勝達2026款上市

      態度原創

      健康
      游戲
      家居
      本地
      教育

      血常規3項異常,是身體警報!

      任天堂社長承諾:多款備受期待的熱門IP新作開發中!

      家居要聞

      包絡石木為生 野性舒適

      本地新聞

      云游內蒙|“包”你再來?一座在硬核里釀出詩意的城

      教育要聞

      勸退:英國挨罵率最高的專業!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲综合av在线在线播放| 成人影片一区免费观看| 国产播放91色在线观看| 波多野结衣一级毛片| 风流少妇bbwbbw69视频| 国产女同疯狂摩擦奶6| 69精品人人人人人人| 美女一区二区三区在线观看视频| 在线a√天堂中文www| 国产精品理论片| 久久人妻无码一区二区| 男女裸体影院高潮| 无码偷拍| 97亚洲色欲色欲综合网| 超碰人人摸| 伊人色亚洲| 久久国内精品自在自线91| 久久精品国产亚洲av麻豆不卡| 人人爽人人爽人人片av免费| 精品久久人人妻人人做精品| 蜜桃视频网站| 精品人妻V| 亚洲色9在线| 不卡动漫av| 午夜视频在线观看区二区| 亚洲日韩中文字幕在线播放| 天天燥日日燥| 国精产品自偷自偷ym使用方法| 99精品国产高清一区二区| 亚洲熟妇久久国产精品| 亚洲AV成人片不卡无码| 中文字幕丝袜精品久久| 永丰县| 正在播放国产真实哭都没用| 欧美538顶级| 超碰热| 秋霞91大神| 夜夜躁狠狠躁日日躁av| 国产乱码精品一区二三区蜜臂| 国产色亚洲| 日韩激情一区二区|