<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<legend id="zcawt"><track id="zcawt"><dfn id="zcawt"></dfn></track></legend>

<blockquote id="zcawt"><rt id="zcawt"></rt></blockquote>

網(wǎng)易首頁

網(wǎng)易新聞
網(wǎng)易公開課
網(wǎng)易紅彩
網(wǎng)易嚴選
郵箱大師
網(wǎng)易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網(wǎng)易官方手機郵箱應用

移動端
網(wǎng)易公開課
網(wǎng)易嚴選
支付
郵箱

網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

GPT-5.2考贏人類！OpenAI警告：大模型能力已過剩，AGI天花板不是AI

2026-01-10 22:12:55　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：元宇

【新智元導讀】如同智能手機一樣，大模型也進入了一個「能力過剩」時代，即大模型本身的能力與人類使用方式之間存在著巨大斷層。

剛剛，GPT-5.2刷新了一項新紀錄！

OpenAI聯(lián)合創(chuàng)始人Greg Brockman發(fā)帖稱使用GPT-5.2在ARC-AGI-2基準測試上，表現(xiàn)超過了人類基線水平。

在基準測試時技能爆表，但一到實際應用就「掉鏈子」，OpenAI前首席科學家Ilya Sutskever提到的這種大模型「性能悖論」我們并不陌生。

這也是AGI評估領域一個長期存在的難題——如何區(qū)分大模型「真正的推理能力」與「刷題型能力」。

而ARC-AGI-2的出現(xiàn)正好打破了這一難題。

ARC-AGI-2的全稱為「Abstraction and Reasoning Corpus for Artificial General Intelligence-Version 2」，是ARC系列基準的最新升級版本。

該基準由Fran?ois Chollet（Keras之父、前Google Brain研究員）及其團隊在2025年推出，其設計初衷十分明確：

測試AI是否具備AGI所必需的抽象、歸納與遷移推理能力，而非記憶或統(tǒng)計模式匹配。

ARC系列與傳統(tǒng)NLP或多模態(tài)benchmark最大的不同在于：它沒有大規(guī)模訓練集，每道題目都是從未見過的新任務，因此不存在通過「刷數(shù)據(jù)」獲得高分的可能。

它要求AI像人類一樣具備真正的推理和舉一反三的能力。

Chollet曾多次公開表示，如果一個系統(tǒng)只能在見過的數(shù)據(jù)分布上表現(xiàn)良好，那它并不具備AGI所需的能力。

因此，ARC基準測試剛好直擊大模型的「軟肋」。

從「及格」到「優(yōu)等生」

一次關鍵跨越

新紀錄的刷新者，并非單一模型，而是一個名為Poetiq（GPT-5.2X-High）的系統(tǒng)。

Poetiq是一家專注于元系統(tǒng)（Meta-System）架構的AI公司。

其核心理念并不是訓練一個更大的模型，而是通過軟件層面的系統(tǒng)設計，自動構建「會調(diào)用模型的系統(tǒng)」。

Poetiq（GPT-5.2X-High）在ARC-AGI-2數(shù)據(jù)集上實現(xiàn)了75%準確率，每問題成本不到8美元，超越前SOTA 15個百分點。

在Poetiq（GPT-5.2X-High）系統(tǒng)出現(xiàn)之前，GPT-5.2(X-High)已經(jīng)非常接近人類平均水平。

ARC-AGI-2榜單中，人類平均準確率約為60%，GPT-5.2X-High的成績與之幾乎持平，代表了當時AI在該基準上的最強推理能力。

但Poetiq的加入，使GPT-5.2(X-High)的得分從60%直接拉升到了75%，從勉強及格（人類平均水平）邁入了優(yōu)等生的行列（顯著超越人類平均水平）。

在同一榜單上，還能看到Gemini 3 Deep Think（Preview）的身影。

該模型主打「深度思考（Deep Think）」技術，在ARC-AGI-2上的成績約為46%，明顯落后于GPT-5.2系列，并且成本相對后者也略高。

Poetiq表示，整個過程沒有對GPT-5.2進行任何訓練或者特定優(yōu)化。

這正是Poetiq元系統(tǒng)的初衷，旨在自動構建完整的系統(tǒng)，通過調(diào)用任何現(xiàn)有的前沿模型來解決特定任務。

從15%的提升數(shù)據(jù)來看，Poetiq對于基礎模型性能的提升幅度還是非常明顯的。

它的存在證明了不需要堆算力，通過優(yōu)秀的軟件架構也能大幅提升AI性能。

從這個角度上，它也驗證了接下來OpenAI的一個判斷——

當前大模型，正逐漸進入「能力過剩」階段。

大模型「能力過剩」時代

就在同一天，OpenAI官方也在X平臺發(fā)布了一項關于2026年的預測。

在這條推文中，OpenAI明確提到一個關鍵詞：Capability Overhang（能力過剩）。

核心意思是：

當前模型「能夠做到的事情」，與人們「實際使用AI的方式」（產(chǎn)生效果）之間，存在巨大的斷層。

OpenAI認為，未來AGI的進展將不再僅取決于模型本身的突破，還將取決于：

人們是否知道如何有效使用AI
AI是否真正融入現(xiàn)實工作與生活
系統(tǒng)是否能將模型能力轉化為實際價值

因此，在2026年，OpenAI將繼續(xù)前沿研究，同時重點投入于應用層、系統(tǒng)層、人機協(xié)同，尤其強調(diào)醫(yī)療、商業(yè)和日常生活場景。

人機協(xié)同

AGI的另一半拼圖

OpenAI這篇官方推文涉及一個人機協(xié)同的問題。

實現(xiàn)AGI，是需要模型和人協(xié)同發(fā)揮作用：AGI不只靠模型升級，更要「教人用AI」。

通過正確的使用AI，充分發(fā)揮出AI的潛能，這樣才能讓AI開始從「炫技」轉向「普惠」，真正影響億萬人生活。

這一觀點也得到了社區(qū)的強烈回應。

于是，樂觀的網(wǎng)友稱「直接把我整個人自動化吧」！

也有網(wǎng)友提到，真正的挑戰(zhàn)在于如何將AI融入工作流程中：見過太多組織買了「AI」，卻從未改變?nèi)魏我粋€流程。

大模型真的「能力過剩」了嗎？

那么，是不是真如OpenAI所說的，大模型的能力已經(jīng)過剩了呢？

通過上面Poetiq所公布的Poetiq（GPT-5.2X-High）在ARC-AGI-2上的表現(xiàn)，75%的得分超過了人類平均水平（60%）15個百分點。

此前OpenAI官方在介紹GPT-5時強調(diào)其在解決復雜跨學科問題上達到了專家級基準，后被外界引申為「博士級智能」。

這說明GPT-5等大模型在某些專業(yè)任務中表現(xiàn)類似于人類博士的專業(yè)水平。

從模型本身來說，也許并未完全過剩，但從「未被充分釋放的能力」角度來看，已經(jīng)嚴重過剩。

其中，有模型設計者方的原因，比如他們沒有緊跟用戶的使用場景，「不再與用戶并肩同行了」。

也可能由于前沿模型在推理和創(chuàng)新上缺乏根本性的突破。

還有模型本身迭代得太快，用戶不得不在日常生活中不斷棄用已經(jīng)「成功上手」的模型。

Poetiq 的出現(xiàn)，以及OpenAI對「能力過剩」的判斷，共同指向了未來AI領域的一個新方向：

下一階段的AI競爭，不再只是模型參數(shù)之爭，而是系統(tǒng)、流程與人機協(xié)同的競爭。

參考資料：

https://x.com/poetiq_ai/status/2003546910427361402

https://x.com/OpenAI/status/2003594025098785145

秒追ASI

?點贊、轉發(fā)、在看一鍵三連?

點亮星標，鎖定新智元極速推送！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

山姆·奧特曼的炒作史

DeepTech深科技 2025-12-24 14:02:44
0 跟貼 0
笑死！xAI員工竟用Claude寫代碼？這回Anthropic反手拔了馬斯克的網(wǎng)線

新智元 2026-01-10 17:25:23
2 跟貼 2

吳恩達：圖靈測試不夠用了，我會設計一個AGI專用版

量子位 2026-01-10 12:49:23
3 跟貼 3

OpenAI上線健康助理，AI持續(xù)滲透個人健康管理領域

經(jīng)濟觀察報 2026-01-09 20:49:56
0 跟貼 0
Ilya賣掉SSI？特斯拉接盤xAI、蘋果AI翻身…硅谷爽文「劇透」2026

新智元 2026-01-11 17:05:32
2 跟貼 2

對話鹿明機器人：在具身智能的“數(shù)據(jù)荒”里，做一個送水人｜AI Founder 請回答

鈦媒體APP 2026-01-11 12:48:38
0 跟貼 0

唐杰、楊植麟、林俊旸、姚順雨：他們眼中的 AGI 三個轉折點

虎嗅APP 2026-01-12 00:15:07
0 跟貼 0
物理AI落地的標桿答案，深庭紀給出了戶外陪伴的最優(yōu)解

鈦媒體APP 2026-01-10 19:49:08
2 跟貼 2

深度｜AGI是不是一個陰謀論？

DeepTech深科技 2025-12-08 15:01:46
0 跟貼 0
AI又要顛覆數(shù)學？陶哲軒緊急發(fā)聲：停止造神！

新智元 2026-01-11 17:04:26
3 跟貼 3
陶哲軒：AI看似在推理，其實是在背答案

量子位 2026-01-05 09:20:21
0 跟貼 0
行業(yè)最大規(guī)模具身數(shù)據(jù)集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟貼 0
荒野求生（機器狗全自主版），2025ATEC挑戰(zhàn)真實戶外無遙操

量子位 2025-12-08 19:24:34
0 跟貼 0
行業(yè)最大規(guī)模具身數(shù)據(jù)集！出自簡智機器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟貼 0
大模型也會賭博上癮！理智出走！

量子位 2025-11-03 07:06:08
0 跟貼 0
沒人提問了但Stack Overflow賺錢更多！AI沒有趕盡殺絕

量子位 2026-01-11 19:53:16
0 跟貼 0
未來醫(yī)生摘得全球第一，臨床安全有效性評估新基準

量子位 2025-11-19 11:14:03
0 跟貼 0
高通萬衛(wèi)星談終端大模型優(yōu)勢：個性化與數(shù)據(jù)推理

量子位 2025-12-11 03:38:41
0 跟貼 0
五八智能四足機器人平臺Q20A，適用于千行百業(yè)

量子位 2025-09-30 15:35:41
0 跟貼 0
英偉達巧用8B模型秒掉GPT-5 開源了

量子位 2025-12-06 14:07:18
31 跟貼 31
南博疑云 | 一幅“偽作”為何估價8800萬？

新民周刊 2026-01-11 12:08:08
16426 跟貼 16426
GPT-5編程成績有貓膩！自刪23道測試題，關鍵基準還是自己提的

量子位 2025-08-12 13:12:51
15 跟貼 15
民間有高人，自己動手做出南水北調(diào)的模型，這技術水平太高明了

電工維修技術 2026-01-07 10:12:56
1 跟貼 1
我們可能沒有技術，但我們會抄啊

萌哥電影 2026-01-09 17:59:23
1 跟貼 1
100年后，外賣員全都變成了機器人，再也沒有人類送外賣，短片

火影電影 2026-01-09 17:55:11
5 跟貼 5
清華“學霸們”同臺熱議唐杰、姚順雨、楊植麟“摸脈”大模型發(fā)展

每日經(jīng)濟新聞 2026-01-11 17:00:06
0 跟貼 0
丹麥尷尬：抵制美國代價高昂卻眼睜睜看著格陵蘭離開

澎湃新聞 2026-01-11 13:26:56
4799 跟貼 4799
大姐給小瓶分裝梨膏，手工操作氣定神閑，真正的技術一滴不漏！

公干的搞笑社 2026-01-11 09:41:44
1 跟貼 1
比電動車還強的，皮卡模型，能帶動一個成年男子爬坡

筆筆皆笑 2026-01-10 14:17:38
1 跟貼 1
費米悖論的終極答案：外星人不是不在，而是他們都躲在黑暗里

六六冷知識 2026-01-09 15:11:00
1 跟貼 1
人還是輸給了智能駕駛

佟音bro 2026-01-09 16:45:18
5 跟貼 5
垃圾進垃圾出，大模型刷多了垃圾推文，智商驟降還變自戀狂

機器之心Pro 2025-10-24 18:51:47
0 跟貼 0
國外AI無人直播，一個房間幾十臺設備，難道主播也要失業(yè)！

搞笑派大星 2026-01-07 10:12:52
20 跟貼 20
致命誤區(qū)！老板們必看的避坑指南，四象限教你如何讓產(chǎn)品起死回生

米果說識 2026-01-11 19:33:14
0 跟貼 0
《ARC Raiders》遠征超火爆 100萬玩家自愿重置

3DM游戲 2026-01-10 13:51:08
0 跟貼 0
翠萍才是這不劇里真正的高手

小叮當剪輯 2026-01-09 09:18:23
0 跟貼 0
櫻桃豐收幕后揭秘：機械采摘到智能分揀，全程高效保鮮護質(zhì)

全球見聞筆記 2026-01-10 07:57:59
1 跟貼 1
預售價31.3萬起智能化動力全面迭代升級全新奧迪Q5L值得期待？

天天汽車 2026-01-11 08:00:00
0 跟貼 0
諸葛亮發(fā)明的防盜機關，真正的有進無出，不愧是古人的智慧！

文鴻愛搞笑 2026-01-10 16:52:33
26 跟貼 26
主播抨擊《ARC Raiders》作弊猖獗開發(fā)商正在應對

3DM游戲 2026-01-10 15:07:38
0 跟貼 0

南博疑云 | 一幅“偽作”為何估價8800萬？

南博疑云 | 一幅“偽作”為何估價8800萬？

新民周刊

2026-01-11 12:08:08

沉默4天后，大陸通知全世界，賴清德隨時可能被抓，鄭麗文懸了？

沉默4天后，大陸通知全世界，賴清德隨時可能被抓，鄭麗文懸了？

軒逸阿II

2026-01-11 00:43:40

剛剛，國家釋放重大信號！《人民日報》：腦機接口加快接入現(xiàn)實

剛剛，國家釋放重大信號！《人民日報》：腦機接口加快接入現(xiàn)實

徐德文科學頻道

2026-01-11 21:29:14

死傷抗議者過多，伊朗醫(yī)院系統(tǒng)被壓垮！醫(yī)護連做心肺復蘇的時間都沒有

死傷抗議者過多，伊朗醫(yī)院系統(tǒng)被壓垮！醫(yī)護連做心肺復蘇的時間都沒有

互聯(lián)網(wǎng)大觀

2026-01-11 14:31:51

瑞典軍工發(fā)布導彈視頻:1枚導彈命中摧毀中國052d型驅逐艦！

瑞典軍工發(fā)布導彈視頻:1枚導彈命中摧毀中國052d型驅逐艦！

達文西看世界

2026-01-11 19:10:20

特朗普：臺灣屬于中國，中方武統(tǒng)是它的自由，但動手美國會不高興

特朗普：臺灣屬于中國，中方武統(tǒng)是它的自由，但動手美國會不高興

我心縱橫天地間

2026-01-10 14:51:24

中國U23男足戰(zhàn)勝澳大利亞隊距亞洲杯出線一步之遙

中國U23男足戰(zhàn)勝澳大利亞隊距亞洲杯出線一步之遙

極目新聞

2026-01-11 21:38:26

28歲華裔天才成百億富豪，卻獻計特朗普封鎖中國AI技術，他咋想的

28歲華裔天才成百億富豪，卻獻計特朗普封鎖中國AI技術，他咋想的

策略述

2026-01-11 15:10:07

葉文斌媽媽被傳限制出境，惡意尋子的陰謀論來了

葉文斌媽媽被傳限制出境，惡意尋子的陰謀論來了

映射生活的身影

2026-01-11 14:33:05

俄方爆料！“美軍一開始就沒打算讓任何人活下來”

俄方爆料！“美軍一開始就沒打算讓任何人活下來”

浙江之聲

2026-01-11 18:23:51

以色列在行動，伊朗導彈部隊指揮官遭刺殺，庫爾德武裝發(fā)起進攻

以色列在行動，伊朗導彈部隊指揮官遭刺殺，庫爾德武裝發(fā)起進攻

史政先鋒

2026-01-11 15:58:18

柬埔寨鐵籠拉人后續(xù)！警方已找到三輪車主，籠子是買來養(yǎng)動物的

柬埔寨鐵籠拉人后續(xù)！警方已找到三輪車主，籠子是買來養(yǎng)動物的

夜深愛雜談

2026-01-11 20:24:26

北京輸球揪出最大毒瘤！他上場17分鐘，投籃5中0，下滑太嚴重了

北京輸球揪出最大毒瘤！他上場17分鐘，投籃5中0，下滑太嚴重了

籃球專區(qū)

2026-01-11 21:59:43

U23亞洲杯一夜亂了：泰國絕平伊拉克起死回生國足再拿1分就出線

U23亞洲杯一夜亂了：泰國絕平伊拉克起死回生國足再拿1分就出線

侃球熊弟

2026-01-12 00:05:34

回國了我才敢說：委內(nèi)瑞拉，是我去過的所有國家中，最被低估的！

回國了我才敢說：委內(nèi)瑞拉，是我去過的所有國家中，最被低估的！

另子維愛讀史

2026-01-09 21:09:05

又贏麻了？KK園區(qū)清零？衛(wèi)星圖打臉擴建，媒體宣傳網(wǎng)友不買賬為啥

又贏麻了？KK園區(qū)清零？衛(wèi)星圖打臉擴建，媒體宣傳網(wǎng)友不買賬為啥

眼光很亮

2026-01-11 15:03:16

國運來了誰也擋不住！100年前北洋政府隨手簽的條約，如今贏麻了

國運來了誰也擋不住！100年前北洋政府隨手簽的條約，如今贏麻了

云霄紀史觀

2026-01-09 09:55:07

2026年新成語：惡意尋子！該警惕了，細節(jié)越挖越心寒！

2026年新成語：惡意尋子！該警惕了，細節(jié)越挖越心寒！

你食不食油餅

2026-01-11 06:41:42

李晨官宣結婚，夫妻合照曝光，全網(wǎng)恭喜，終于等到這一天

李晨官宣結婚，夫妻合照曝光，全網(wǎng)恭喜，終于等到這一天

觀察鑒娛

2026-01-11 14:50:05

32歲貨車司機中毒去世留下兩娃，眾卡友已為其募捐18萬，還有人愿承擔其小女兒15年上學費用

32歲貨車司機中毒去世留下兩娃，眾卡友已為其募捐18萬，還有人愿承擔其小女兒15年上學費用

極目新聞

2026-01-11 19:42:23

AI產(chǎn)業(yè)主平臺領航智能+時代

14313文章數(shù) 66452關注度

往期回顧全部

科技要聞

“我們與美國的差距也許還在拉大”

頭條要聞

美軍突襲委內(nèi)瑞拉俄制防空系統(tǒng)失聯(lián) 俄方回應

頭條要聞

美軍突襲委內(nèi)瑞拉俄制防空系統(tǒng)失聯(lián) 俄方回應

體育要聞

U23國足形勢:末輪不負泰國即確保晉級

娛樂要聞

留幾手為閆學晶叫屈？稱網(wǎng)友自卑敏感

財經(jīng)要聞

外賣平臺"燒錢搶存量市場"迎來終局？

汽車要聞

2026款宋Pro DM-i長續(xù)航補貼后9.98萬起

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

旅游

家居

數(shù)碼

公開課

本地新聞

云游內(nèi)蒙｜“包”你再來？一座在硬核里釀出詩意的城

旅游要聞

山東濟南趵突泉，游客100萬元古錢幣掉水里：水下探測器打撈上岸

家居要聞

木色留白演繹現(xiàn)代自由

溫暖色調(diào) 大空間不冷清
溫潤質(zhì)感打造干凈空間
歐式風格純粹優(yōu)雅氣質(zhì)

數(shù)碼要聞

科技有AI，連接全球：海信家電參展CES 2026，定義智慧生活新圖景

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
你的工作機密，保護好了嗎？
李彥宏：百度離破產(chǎn)30天

© 1997-2026 網(wǎng)易公司版權所有 About NetEase | 公司簡介 | 聯(lián)系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：影音先锋国产| 亚洲男人最新版本天堂| 天堂无码在线| 久久XXX| 久青草久青草视频在线观看| 中文字幕精品亚洲二区| 国产精品久久国产精品99 gif| 人妻丰满精品一区二区A片| 最新亚洲春色AV无码专区| 在线看片免费不卡人成视频| 国产动作大片中文字幕| 亚洲黄色在线看| 2020无码专区人妻系列日韩| 国产九九在线视频| 国精产品无码| 五月婷婷久久中文字幕| 国产成人无码a区在线| 久久综合干| 四虎影视4hu4虎成人| 国产日产欧产精品精品| 淮北市| 日韩精品一区二区三区视频| av色天堂| 97se亚洲精品一区| 中文字幕在线亚洲| 欧美人与动zozo在线播放| 欧美牲交a欧美牲交aⅴ一| 一本大道AV人久久综合| 欧美疯狂做受xxxx高潮小说| 国产黄三级高清在线观看播放| 久久婷婷综合色丁香五月| 同德县| 亚洲欧美日韩愉拍自拍| 亚洲无码丝袜| 超碰热| 精品老熟妇| 欧美久久久久中文字幕| 无码手机线免费观看| 图片区小说区视频区综合| 一边吃奶一边做动态图| 嘉义市|

<sub id="tultl"></sub>

<cite id="tultl"></cite>

<em id="tultl"></em><style id="tultl"><rp id="tultl"></rp></style>

<em id="tultl"><rt id="tultl"><form id="tultl"></form></rt></em>