<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<style id="918dz"></style>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

GPT-5.2考贏人類！OpenAI警告：大模型能力已過剩，AGI天花板不是AI

2026-01-10 22:12:55　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：元宇

【新智元導讀】如同智能手機一樣，大模型也進入了一個「能力過剩」時代，即大模型本身的能力與人類使用方式之間存在著巨大斷層。

剛剛，GPT-5.2刷新了一項新紀錄！

OpenAI聯合創始人Greg Brockman發帖稱使用GPT-5.2在ARC-AGI-2基準測試上，表現超過了人類基線水平。

在基準測試時技能爆表，但一到實際應用就「掉鏈子」，OpenAI前首席科學家Ilya Sutskever提到的這種大模型「性能悖論」我們并不陌生。

這也是AGI評估領域一個長期存在的難題——如何區分大模型「真正的推理能力」與「刷題型能力」。

而ARC-AGI-2的出現正好打破了這一難題。

ARC-AGI-2的全稱為「Abstraction and Reasoning Corpus for Artificial General Intelligence-Version 2」，是ARC系列基準的最新升級版本。

該基準由Fran?ois Chollet（Keras之父、前Google Brain研究員）及其團隊在2025年推出，其設計初衷十分明確：

測試AI是否具備AGI所必需的抽象、歸納與遷移推理能力，而非記憶或統計模式匹配。

ARC系列與傳統NLP或多模態benchmark最大的不同在于：它沒有大規模訓練集，每道題目都是從未見過的新任務，因此不存在通過「刷數據」獲得高分的可能。

它要求AI像人類一樣具備真正的推理和舉一反三的能力。

Chollet曾多次公開表示，如果一個系統只能在見過的數據分布上表現良好，那它并不具備AGI所需的能力。

因此，ARC基準測試剛好直擊大模型的「軟肋」。

從「及格」到「優等生」

一次關鍵跨越

新紀錄的刷新者，并非單一模型，而是一個名為Poetiq（GPT-5.2X-High）的系統。

Poetiq是一家專注于元系統（Meta-System）架構的AI公司。

其核心理念并不是訓練一個更大的模型，而是通過軟件層面的系統設計，自動構建「會調用模型的系統」。

Poetiq（GPT-5.2X-High）在ARC-AGI-2數據集上實現了75%準確率，每問題成本不到8美元，超越前SOTA 15個百分點。

在Poetiq（GPT-5.2X-High）系統出現之前，GPT-5.2(X-High)已經非常接近人類平均水平。

ARC-AGI-2榜單中，人類平均準確率約為60%，GPT-5.2X-High的成績與之幾乎持平，代表了當時AI在該基準上的最強推理能力。

但Poetiq的加入，使GPT-5.2(X-High)的得分從60%直接拉升到了75%，從勉強及格（人類平均水平）邁入了優等生的行列（顯著超越人類平均水平）。

在同一榜單上，還能看到Gemini 3 Deep Think（Preview）的身影。

該模型主打「深度思考（Deep Think）」技術，在ARC-AGI-2上的成績約為46%，明顯落后于GPT-5.2系列，并且成本相對后者也略高。

Poetiq表示，整個過程沒有對GPT-5.2進行任何訓練或者特定優化。

這正是Poetiq元系統的初衷，旨在自動構建完整的系統，通過調用任何現有的前沿模型來解決特定任務。

從15%的提升數據來看，Poetiq對于基礎模型性能的提升幅度還是非常明顯的。

它的存在證明了不需要堆算力，通過優秀的軟件架構也能大幅提升AI性能。

從這個角度上，它也驗證了接下來OpenAI的一個判斷——

當前大模型，正逐漸進入「能力過剩」階段。

大模型「能力過剩」時代

就在同一天，OpenAI官方也在X平臺發布了一項關于2026年的預測。

在這條推文中，OpenAI明確提到一個關鍵詞：Capability Overhang（能力過剩）。

核心意思是：

當前模型「能夠做到的事情」，與人們「實際使用AI的方式」（產生效果）之間，存在巨大的斷層。

OpenAI認為，未來AGI的進展將不再僅取決于模型本身的突破，還將取決于：

人們是否知道如何有效使用AI
AI是否真正融入現實工作與生活
系統是否能將模型能力轉化為實際價值

因此，在2026年，OpenAI將繼續前沿研究，同時重點投入于應用層、系統層、人機協同，尤其強調醫療、商業和日常生活場景。

人機協同

AGI的另一半拼圖

OpenAI這篇官方推文涉及一個人機協同的問題。

實現AGI，是需要模型和人協同發揮作用：AGI不只靠模型升級，更要「教人用AI」。

通過正確的使用AI，充分發揮出AI的潛能，這樣才能讓AI開始從「炫技」轉向「普惠」，真正影響億萬人生活。

這一觀點也得到了社區的強烈回應。

于是，樂觀的網友稱「直接把我整個人自動化吧」！

也有網友提到，真正的挑戰在于如何將AI融入工作流程中：見過太多組織買了「AI」，卻從未改變任何一個流程。

大模型真的「能力過剩」了嗎？

那么，是不是真如OpenAI所說的，大模型的能力已經過剩了呢？

通過上面Poetiq所公布的Poetiq（GPT-5.2X-High）在ARC-AGI-2上的表現，75%的得分超過了人類平均水平（60%）15個百分點。

此前OpenAI官方在介紹GPT-5時強調其在解決復雜跨學科問題上達到了專家級基準，后被外界引申為「博士級智能」。

這說明GPT-5等大模型在某些專業任務中表現類似于人類博士的專業水平。

從模型本身來說，也許并未完全過剩，但從「未被充分釋放的能力」角度來看，已經嚴重過剩。

其中，有模型設計者方的原因，比如他們沒有緊跟用戶的使用場景，「不再與用戶并肩同行了」。

也可能由于前沿模型在推理和創新上缺乏根本性的突破。

還有模型本身迭代得太快，用戶不得不在日常生活中不斷棄用已經「成功上手」的模型。

Poetiq 的出現，以及OpenAI對「能力過剩」的判斷，共同指向了未來AI領域的一個新方向：

下一階段的AI競爭，不再只是模型參數之爭，而是系統、流程與人機協同的競爭。

參考資料：

https://x.com/poetiq_ai/status/2003546910427361402

https://x.com/OpenAI/status/2003594025098785145

秒追ASI

?點贊、轉發、在看一鍵三連?

點亮星標，鎖定新智元極速推送！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

山姆·奧特曼的炒作史

DeepTech深科技 2025-12-24 14:02:44
0 跟貼 0
吳恩達：圖靈測試不夠用了，我會設計一個AGI專用版

量子位 2026-01-10 12:49:23
3 跟貼 3

前谷歌研究員發文：算力崇拜時代該結束了

機器之心Pro 2026-01-12 18:27:12
2 跟貼 2

Anthropic CEO自曝：Claude本可搶跑ChatGPT，我們按下了暫停鍵

新智元 2026-01-12 12:38:56
2 跟貼 2
唐杰、楊植麟、林俊旸、姚順雨：他們眼中的 AGI 三個轉折點

虎嗅APP 2026-01-12 00:15:07
2 跟貼 2

深度｜AGI是不是一個陰謀論？

DeepTech深科技 2025-12-08 15:01:46
0 跟貼 0

CES 2026揭示的AI三場變革：從眼鏡到機器人、從家庭到工業

36氪 2026-01-12 12:33:03
3 跟貼 3
CES 2026 觀察｜從“秀肌肉”到“干臟活”，中國機器人率先走入“實干時代” 軟硬協同仍是業界的共同挑戰

每日經濟新聞 2026-01-12 22:01:07
0 跟貼 0

Anthropic掏出新模型，進軍醫療硬剛OpenAI，能讀5萬家醫院病歷

智東西 2026-01-12 19:35:52
0 跟貼 0
矩陣超智發布新一代人形機器人MATRIX-3，定義物理智能機器人新標桿 | 公司動態

鈦媒體APP 2026-01-12 21:39:09
0 跟貼 0
具身數據戰開打！普通人都能上手，邊采邊篩，只喂機器人愛吃的

量子位 2026-01-12 12:20:02
0 跟貼 0
機器人終于有自己的真機評測大考了

量子位 2025-10-15 20:05:44
0 跟貼 0
行業最大規模具身數據集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟貼 0
行業最大規模具身數據集！出自簡智機器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟貼 0
大模型也會賭博上癮！理智出走！

量子位 2025-11-03 07:06:08
0 跟貼 0
荒野求生（機器狗全自主版），2025ATEC挑戰真實戶外無遙操

量子位 2025-12-08 19:24:34
0 跟貼 0
陶哲軒：AI看似在推理，其實是在背答案

量子位 2026-01-05 09:20:21
0 跟貼 0
機器人管家Figure 03來了，承包一切家務！

量子位 2025-10-11 10:13:00
0 跟貼 0
AI視頻是如何生成的？

DeepTech深科技 2026-01-12 17:09:47
10 跟貼 10
未來醫生摘得全球第一，臨床安全有效性評估新基準

量子位 2025-11-19 11:14:03
0 跟貼 0
高通萬衛星談終端大模型優勢：個性化與數據推理

量子位 2025-12-11 03:38:41
0 跟貼 0
五八智能四足機器人平臺Q20A，適用于千行百業

量子位 2025-09-30 15:35:41
0 跟貼 0
英偉達巧用8B模型秒掉GPT-5 開源了

量子位 2025-12-06 14:07:18
31 跟貼 31
GPT-5編程成績有貓膩！自刪23道測試題，關鍵基準還是自己提的

量子位 2025-08-12 13:12:51
15 跟貼 15
國乒新年首站男女單均丟冠:女隊可原諒男隊形勢嚴峻

文匯報 2026-01-12 11:12:10
2106 跟貼 2106
我們可能沒有技術，但我們會抄啊

萌哥電影 2026-01-09 17:59:23
1 跟貼 1
大姐給小瓶分裝梨膏，手工操作氣定神閑，真正的技術一滴不漏！

公干的搞笑社 2026-01-11 09:41:44
1 跟貼 1
真正的大佬根本不怕被拍

萌哥電影 2026-01-12 17:48:52
1 跟貼 1
字節、阿里、美團罕見“會師”：自變量機器人獲10億元融資 2026年具身智競爭轉向

每日經濟新聞 2026-01-12 21:30:28
0 跟貼 0
100年后，外賣員全都變成了機器人，再也沒有人類送外賣，短片

火影電影 2026-01-09 17:55:11
5 跟貼 5
仿造發明機器，卻加大員工難度，最核心的技術沒學到手

海星旅行 2026-01-12 09:43:40
0 跟貼 0
一路向南，告別Z99次列車！

新民晚報 2026-01-12 13:23:24
325 跟貼 325
反轉了！居然全是演的！視頻已清空

洪觀新聞 2026-01-12 11:16:01
381 跟貼 381
霍啟剛主動公開個人財產：35套物業曝光，遍及港澳、內地與法、英，多項房產與郭晶晶共同持有

大象新聞 2026-01-12 00:17:04
1250 跟貼 1250
南方路機：南方路機目前已接入DeepSeek大模型

每日經濟新聞 2026-01-12 23:15:06
0 跟貼 0
費米悖論的終極答案：外星人不是不在，而是他們都躲在黑暗里

六六冷知識 2026-01-09 15:11:00
1 跟貼 1
垃圾進垃圾出，大模型刷多了垃圾推文，智商驟降還變自戀狂

機器之心Pro 2025-10-24 18:51:47
0 跟貼 0
《ARC Raiders》遠征超火爆 100萬玩家自愿重置

3DM游戲 2026-01-10 13:51:08
0 跟貼 0
深度長文：宇宙誕生于138億年前的奇點，奇點又是怎么出現的？

宇宙時空 2026-01-12 09:26:38
1 跟貼 1
核聚變競賽變天：不拼大裝置改拼強磁場，中國押注一條更險的路

DeepTech深科技 2026-01-12 13:10:39
3 跟貼 3

痛心！日照34歲醫生疑自殺離世，疑痔瘡手術疼痛導致，醫院回應

痛心！日照34歲醫生疑自殺離世，疑痔瘡手術疼痛導致，醫院回應

鋭娛之樂

2026-01-09 16:05:30

河北一所大學破產！

新牛城

2026-01-12 10:01:15

古代犯人發配需要衙役押送，往返幾千里路，衙役是不是也很遭罪？

古代犯人發配需要衙役押送，往返幾千里路，衙役是不是也很遭罪？

掠影后有感

2026-01-10 13:57:42

馬斯克拋出2026年九大“瘋狂”預言：科技狂飆下的未來圖景

馬斯克拋出2026年九大“瘋狂”預言：科技狂飆下的未來圖景

娛樂督察中

2026-01-11 13:48:02

CBA最新消息！曝上海男籃裁掉弗格，趙繼偉正式復出

CBA最新消息！曝上海男籃裁掉弗格，趙繼偉正式復出

體壇瞎白話

2026-01-12 10:32:51

送別！南京大學李慶余教授逝世，享年89歲

送別！南京大學李慶余教授逝世，享年89歲

魯中晨報

2026-01-12 17:25:27

王毅外長推遲訪問索馬里，35年來屬首次，駁斥索馬里蘭不實之詞

王毅外長推遲訪問索馬里，35年來屬首次，駁斥索馬里蘭不實之詞

麓谷隱士

2026-01-12 09:22:40

每天一個水煮蛋是“死亡催化劑”？提醒：想健康吃蛋，5個錯別犯

每天一個水煮蛋是“死亡催化劑”？提醒：想健康吃蛋，5個錯別犯

健康科普365

2026-01-11 20:30:03

“四九”可能成為今年最冷的“九”：本周末起，一股強冷空氣將制造大范圍降溫，還可能激發較大范圍雨雪天氣

“四九”可能成為今年最冷的“九”：本周末起，一股強冷空氣將制造大范圍降溫，還可能激發較大范圍雨雪天氣

魯中晨報

2026-01-12 19:09:16

蔡少芬慶祝結婚18周年，與老公過二人世界，張晉望妻眼太甜了

蔡少芬慶祝結婚18周年，與老公過二人世界，張晉望妻眼太甜了

偵探娛樂

2026-01-12 19:54:27

內訌爆發！曝快船兩大核心矛盾激化！公開指責，表達不滿！

內訌爆發！曝快船兩大核心矛盾激化！公開指責，表達不滿！

King迪哥侃球

2026-01-11 21:58:15

大動作：庫班包圍圈正在形成，庫皮揚斯克烏軍再次潰敗！

大動作：庫班包圍圈正在形成，庫皮揚斯克烏軍再次潰敗！

勝研集

2026-01-12 14:07:03

1月12日俄烏：英國越來越強硬了

1月12日俄烏：英國越來越強硬了

山河路口

2026-01-12 22:24:28

開年A股風格分化：滬指跑輸個股均值，超級大盤超八成收跌，中小盤股扛旗領跑

開年A股風格分化：滬指跑輸個股均值，超級大盤超八成收跌，中小盤股扛旗領跑

財聯社

2026-01-12 18:36:06

為什么我們影院可以播放英語、日語原聲，卻從不播“粵語”原聲？

為什么我們影院可以播放英語、日語原聲，卻從不播“粵語”原聲？

心靈得以滋養

2026-01-12 10:17:46

周定洋告別成都蓉城：人生最艱難決定！在對的時間開啟新挑戰

周定洋告別成都蓉城：人生最艱難決定！在對的時間開啟新挑戰

奧拜爾

2026-01-12 22:13:14

這條荒唐新聞，引起公憤了！

胖胖說他不胖

2026-01-11 10:00:11

午間突發利好，固態電池量產！這9個龍頭又集體漲停了

午間突發利好，固態電池量產！這9個龍頭又集體漲停了

鵬哥投研

2026-01-12 15:57:47

合川文旅發力了！集結十八家餐館提供刨豬湯，呆呆家是真撐不住了

合川文旅發力了！集結十八家餐館提供刨豬湯，呆呆家是真撐不住了

八斗小先生

2026-01-12 17:11:15

破案！能贏遼寧44分，杜鋒卻早早鳴金收兵原因找到，粵媒說出實情

破案！能贏遼寧44分，杜鋒卻早早鳴金收兵原因找到，粵媒說出實情

后仰大風車

2026-01-12 09:10:12

AI產業主平臺領航智能+時代

14319文章數 66454關注度

往期回顧全部

科技要聞

面對SpaceX瘋狂“下餃子” 中國正面接招

頭條要聞

外媒問王毅調整索馬里行程是否出于安全考慮中方回應

頭條要聞

外媒問王毅調整索馬里行程是否出于安全考慮中方回應

體育要聞

一場安東尼奧式勝利，給中國足球帶來驚喜

娛樂要聞

蔡少芬結婚18周年，與張晉過二人世界

財經要聞

倍輕松信披迷霧實控人占用資金金額存疑

汽車要聞

增配不加價北京現代第五代勝達2026款上市

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

游戲

家居

本地

教育

血常規3項異常，是身體警報！

任天堂社長承諾：多款備受期待的熱門IP新作開發中!

家居要聞

包絡石木為生野性舒適

溫暖色調大空間不冷清
溫潤質感打造干凈空間
歐式風格純粹優雅氣質

本地新聞

云游內蒙｜“包”你再來？一座在硬核里釀出詩意的城

教育要聞

勸退：英國挨罵率最高的專業！

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：亚洲综合av在线在线播放| 成人影片一区免费观看| 国产播放91色在线观看| 波多野结衣一级毛片| 风流少妇bbwbbw69视频| 国产女同疯狂摩擦奶6| 69精品人人人人人人| 美女一区二区三区在线观看视频| 在线a√天堂中文www| 国产精品理论片| 久久人妻无码一区二区| 男女裸体影院高潮| 无码偷拍| 97亚洲色欲色欲综合网| 超碰人人摸| 伊人色亚洲| 久久国内精品自在自线91| 久久精品国产亚洲av麻豆不卡| 人人爽人人爽人人片av免费| 精品久久人人妻人人做精品| 蜜桃视频网站| 精品人妻V| 亚洲色9在线| 不卡动漫av| 午夜视频在线观看区二区| 亚洲日韩中文字幕在线播放| 天天燥日日燥| 国精产品自偷自偷ym使用方法| 99精品国产高清一区二区| 亚洲熟妇久久国产精品| 亚洲AV成人片不卡无码| 中文字幕丝袜精品久久| 永丰县| 正在播放国产真实哭都没用| 欧美538顶级| 超碰热| 秋霞91大神| 夜夜躁狠狠躁日日躁av| 国产乱码精品一区二三区蜜臂| 国产色亚洲| 日韩激情一区二区|

<abbr id="65csm"></abbr><pre id="65csm"><fieldset id="65csm"></fieldset></pre>

<p id="65csm"></p>