<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<tfoot id="a575f"><strike id="a575f"></strike></tfoot>

<rt id="a575f"><strong id="a575f"></strong></rt>

<tfoot id="a575f"><fieldset id="a575f"></fieldset></tfoot>

<wbr id="a575f"><sup id="a575f"><bdo id="a575f"></bdo></sup></wbr>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

全球頂尖大模型一夜慘遭血洗！最難測試人類拿滿分，AI第一名得0.2%分

2026-03-26 18:14:12　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：Aeneas 好困

【新智元導讀】今夜，整個AI圈震動了。全球最難AGI測試ARC-AGI-3一上線，就把全球頂尖AI打到集體失聲，人類滿分通關，最強模型Opus 4.6得分僅0.2%，還不到1%。AI這是一夜被打回「原始人」了。

就在今天，這條消息把整個AI圈給震了。

眾望所歸的，全球唯一尚未飽和的智能體基準測試ARC-AGI-3出爐了，直接血洗了全球頂尖大模型。

在這個測試中，人類得分100%，AI的得分普遍低于1%。

這個差距，比珠穆朗瑪峰還高。

最慘烈的是，在上一代測試中還能拿下69.2%高分的「模范生」Opus 4.6，在ARC-AGI-3面前直接現了原形，得分僅為0.2%。

這位曾經橫掃各大榜單的「學霸」，連蒙帶猜都拿不到1分。

這面鏡子，照出了當前AI能力中最深的裂縫。

在最近的采訪中，老黃認為我們已經實現了AGI。但是ARC-AGI-3顯示，或許如今的AI連1%的AGI都沒有實現。

ARC-AGI-3，到底有多變態

它的前身ARC-AGI-1和ARC-AGI-2，已經是AI圈出了名的「魔鬼測試」。

那些測試里，AI需要觀察幾個示例，然后推斷出網格變換的規律，完成新任務。

聽起來不難？但就是這些看起來像幼兒園連線題的東西，曾經讓無數大模型鎩羽而歸。

而到了ARC-AGI-3，難度直接換了個維度：從「靜態題」變成了「互動游戲」。

150多個手工設計的交互式游戲環境，包含1000多個關卡。

每個游戲都有自己的內在邏輯、隱藏規則和通關條件。但沒有任何說明文檔，沒有自然語言提示，沒有人告訴你「左邊的按鈕會開門」或者「收集三個紅色方塊就能過關」。

AI智能體被丟進去，只能看到當前畫面，選擇一個動作，觀察結果，再決定下一步。

它只能像盲人摸象一樣，一步一步試探，然后在大腦里拼湊出一個「這個世界可能是這樣運作的」的模型。

這正是ARC Prize基金會想測的四件事。

探索：能不能通過主動與環境互動來獲取關鍵信息？
建模：能不能把零散的觀察凝聚成一個可以預測未來狀態的世界模型？
目標獲取：沒有人下達指令，能不能自己判斷出「我應該以什么為目標」？
規劃與執行：能不能規劃出行動路徑，并根據環境反饋隨時修正？

「幾何級數」的羞辱：0.2%是怎么來的？

評分標準同樣殘忍。

ARC-AGI-3的評分不看「有沒有通關」，而是看「效率」，而且是和人類比效率。

這在AI基準測試的歷史上，還是頭一回。

受Chollet那篇《論智能的衡量》的啟發，ARC Prize團隊把「智能」操作化為一個轉換率：

你從環境中獲取信息的效率有多高？你把這些信息轉化為正確行動的速度有多快？

假設人類解決這個游戲需要10步，而AI用了100步，那AI的得分是多少？

不是10%，而是1%。

公式是：(人類步數/AI步數)2。人類10步，AI 100步，那就是(10/100)2=0.01=1%。

如果AI用了200步，這一數字就是0.25%；500步就是0.04%。

這一下，把AI所有的「蠻力」路都堵死了。

以前AI可以靠窮舉，把所有可能的操作試一遍，總能試出正確路徑。

但在這種評分體系下，你多試一步，分數就斷崖式下跌。

現在，你就知道了Opus 4.6得分只有0.2%的意味——

假設人類解決某個游戲用了10步，0.2%=0.002，開平方≈0.0447，10÷0.0447≈224步。

這已經不是「笨」了，這是在迷宮里原地轉圈到天荒地老。

當這種差距被如此強烈地展示出來，很多以為AGI近在眼前的人，都震驚了。

350步 vs 兩三下：成績單全景

在正式發布之前，ARC-AGI-3跑了一輪為期30天的開發者預覽。

三款公開游戲從地圖導航到圖案匹配再到水位調節，題目類型各異，但有一個共同點：人類覺得簡單，AI覺得要命。

1200多名人類玩家參與了測試，完成了3900多場游戲。

大部分人不僅輕松過關，還玩得很開心，有些執著的玩家甚至一路「速通」挑戰到了理論最優步數。

人類基線：100%。AI這邊，前沿大模型得分全部低于1%。

預覽期的冠軍叫StochasticGoose，來自Tufa Labs。

它不是大模型，而是一個基于卷積神經網絡的動作學習型智能體，用簡單的強化學習來預測哪些操作會導致畫面變化。最終得分12.58%，已經是所有參賽系統里最高的了。

但即便是這個冠軍，在一款調水位的游戲里，開局也花了將近350步做無效的點擊操作。

350步。人類大概只需要點兩三下就能搞明白的事。

更反直覺的是，排行榜的前三名全是非LLM方案——CNN、基于規則的狀態圖探索、無需訓練的幀圖搜索。

一個基于CNN的方案，比GPT-5.x系列高出12個百分點以上。而那些接入了前沿大模型的智能體，成績反而經常墊底，有的甚至頻繁崩潰。

AI把自己坑了

ARC團隊還發現一個特別有意思的現象。

AI的主要失敗模式之一是：「以為自己在玩另一個游戲」。

比如，你被蒙上眼睛，扔進一個房間。

你摸到了一個圓形的物體，于是你斷定：「這是個籃球場，我應該投籃。」但事實上，你拿的可能是一個西瓜，而房間其實是一個廚房。

AI犯的就是這樣的錯。

它在一個全新的環境里，看到一些初始的視覺信息，然后迅速給自己「腦補」了一個游戲框架，接著就沿著這個錯誤的假設瘋狂執行計劃，越走越偏，越偏越遠。

它不會停下來想：等等，我怎么好像一直沒得到正反饋？是不是我的假設錯了？

因為當前的AI，缺乏一種「元認知」能力。也就是說，它不知道自己不知道。

這解釋了為什么大模型反而墊底。

參數量越大、預訓練知識越豐富的模型，越容易把陌生環境「腦補」成自己見過的東西，然后死磕到底。

而那些輕量級的CNN智能體和圖搜索系統，反倒因為沒有「先入為主」的包袱，能老老實實地從環境反饋中學習。

為什么人類能輕松通關？

ARC團隊在文檔里寫了一句話：「人類不會蠻力行事。他們會構建思維模型，檢驗想法，并迅速改進。」

首先第一步，人類會構建思維模型。

一個人類玩家面對一個全新游戲時，第一件事不是「瞎點」，而是觀察。幾分鐘之內，一個粗糙但可用的「世界模型」就建成了。

第二步，人類會檢驗想法。

如果結果和預期一致，模型得到強化。如果不一致，模型立即修正。

第三步，人類會迅速改進。錯了就改，改了再試。

這種「探索-建模-驗證-修正」的循環，在人類身上幾乎是本能的。

而AI呢？只是一個「記住了很多答案」的應試高手，它的「學習」和人類的「學習」根本不是一個物種。

人類的學習是在線、交互、假設驅動的；AI的學習是離線、數據驅動、模式匹配的。

ARC-AGI-3沒有任何「題海戰術」可以覆蓋，它考的是「怎么學習」。這恰恰是目前AI最弱的一環。

目前，這場挑戰賽的獎金池高達85萬美元，其中70萬美元是給「滿分通關者」的終極大獎。

參賽者必須完全開源代碼，并且在無網環境下接受評估。這意味著你不能偷偷調用云端大模型，不能偷偷聯網查資料。

和人類這個珠穆朗瑪峰的差距，有AI能克服嗎？

讓我們靜待結果。

參考資料：

https://x.com/Hesamation/status/2036861818321146306

https://arcprize.org/arc-agi/3

https://docs.arcprize.org/

https://x.com/fchollet/status/2036881543973790004

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

GPT-6，曝光了

量子位 2026-04-05 12:49:09
9 跟貼 9
山姆·奧特曼的炒作史

DeepTech深科技 2025-12-24 14:02:44
0 跟貼 0

7個頂級AI集體撒謊，為救“同伴”篡改文件、偷運數據

鈦媒體APP 2026-04-07 11:01:25
0 跟貼 0

90 后正在掌管中國 AI，憑實力活成了「爽文」主角

愛范兒 2026-01-19 18:14:14
0 跟貼 0
MiniMax來承包你的桌面了-4

機器之心Pro 2026-01-20 20:19:42
0 跟貼 0

大模型的下半場，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0

深度｜AGI是不是一個陰謀論？

DeepTech深科技 2025-12-08 15:01:46
0 跟貼 0
告別昂貴賬單，Token直降68%，多智能體動態協作編程來了

機器之心Pro 2026-04-07 13:16:40
0 跟貼 0

逼AI當山頂洞人！Claude防話癆插件爆火，網友：受夠了AI廢話

新智元 2026-04-06 17:13:12
1 跟貼 1
AI用一晚睡眠數據預測多種疾病風險，準確率最高85%

DeepTech深科技 2026-04-07 19:08:11
0 跟貼 0
壞了，我成AI的乙方了！Anthropic論文爆火，誰還敢無腦Copy？

新智元 2026-04-07 20:12:55
0 跟貼 0
黃仁勛：AGI時代已經到來，“龍蝦開公司”不是夢！

財聯社 2026-03-26 23:15:59
0 跟貼 0
機器人交稅養打工人！奧特曼AI新政曝光，上4休3要成真？

新智元 2026-04-07 20:12:55
0 跟貼 0
目前的手游哪些游戲肝度最高？

老宮小菜譜 2026-04-06 16:56:28
13 跟貼 13
足壇巨星私下都愛玩什么游戲

雨果體育sss 2026-04-07 07:55:20
0 跟貼 0
小狗配合小孩玩游戲，狗：你趕緊倒想啥呢，這小主人生氣就完了

搞笑笑場 2026-04-07 11:31:28
1 跟貼 1
爸爸為了玩游戲，把孩子封在紙箱里，沒想到成了哄娃神器

星夜生活說 2026-04-05 10:12:23
0 跟貼 0
寶媽陪娃做游戲，卻被姥姥誤以為欺負娃，最后挨打也太冤枉！

搞笑的小熊 2026-04-06 11:39:34
1 跟貼 1
小姐姐膽子太大，蹦極這種游戲我看一眼都怕，倒貼錢都不玩！

搞笑也姐 2026-04-04 23:44:19
1 跟貼 1
吃雞游戲里的三級頭防彈性能有多強？

超話看世界 2026-04-04 12:13:58
1 跟貼 1
鬼手想點誰就點誰？LaSM讓GUI智能體把注意力「收回來」

機器之心Pro 2026-04-07 14:27:35
0 跟貼 0
《紐約客》10826字調查：把AGI的鑰匙交給奧特曼，我們是否搞錯了人

硅星GenAI 2026-04-07 14:24:37
0 跟貼 0
奧特曼深度坦白！關停Sora、綁定五角大樓，萬億OpenAI藏不住了

魏家東 2026-04-05 09:41:10
3 跟貼 3
豆包「最新版」首發別克，智能座艙進入大模型時代

雷峰網 2026-04-07 18:13:11
0 跟貼 0
你小時候玩過這樣的游戲嗎？

科學大搜索 2026-04-06 13:25:26
1 跟貼 1
面壁智能完成新一輪融資,26年累計融資超10億,躋身基模獨角獸行列

機器之心Pro 2026-04-07 13:19:53
0 跟貼 0
兩人竹竿上對峙，竟然還有這種游戲？

科學大搜索 2026-04-06 13:35:32
1 跟貼 1
情侶兩人玩游戲，注意看女生動作，這是一點都不慣著！

搞笑儲備站 2026-04-06 15:04:30
1 跟貼 1
夫妻倆玩你畫我畫游戲，結果丈夫越畫越不對，這一巴掌打得真不冤

皮球看生活 2026-04-07 08:50:23
0 跟貼 0
解控王莊周暴打夢琪！這游戲竟然有這英雄嗎？

山鬼年少 2026-04-07 13:19:51
1 跟貼 1
聯想去年收入破六千億，Windows AI PC份額全球第一

快科技 2026-04-05 15:11:31
0 跟貼 0
孩子遇險父親沉迷游戲冷眼旁觀，母親及時出手讓人揪心！

新鮮熱點 2026-04-05 14:54:04
19 跟貼 19
模組救場還是官方重做?GTA4重制版引發玩家激烈爭論

游民星空 2026-04-07 19:05:13
0 跟貼 0
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
爸爸帶孩子玩結果給自己轉暈了網友：這游戲挺費爸爸的

重慶城市TV 2026-04-07 17:54:28
0 跟貼 0
PackingStar雙智能體博弈，攻克14維難題

量子位 2026-02-16 13:12:43
0 跟貼 0
爆火！把智能體當游戲角色來玩，一個人就是一個公司

機器之心Pro 2026-02-12 18:04:44
0 跟貼 0
法傷王司馬懿暴打妲己！還是反甲好用啊！

山鬼年少 2026-04-05 12:22:11
1 跟貼 1
我終于找到讓娃不想打游戲的方法了！

CC在美國呢 2026-04-06 10:29:41
0 跟貼 0
這款游戲到底有什么魔法，讓文旅官方都跟著跑？

封面新聞 2026-04-06 14:47:43
0 跟貼 0

美拯救大兵“Bravo”更多驚險細節曝光：靠尋呼機式定位器求救，回答私密問題驗身

美拯救大兵“Bravo”更多驚險細節曝光：靠尋呼機式定位器求救，回答私密問題驗身

紅星新聞

2026-04-07 13:13:17

業績暴增！300821，“20cm”漲停

業績暴增！300821，“20cm”漲停

數據寶

2026-04-07 10:43:16

603950，宣布重大資產重組！明天復牌！

603950，宣布重大資產重組！明天復牌！

證券時報e公司

2026-04-07 19:30:31

快訊！特朗普“怒批”日本了！

達文西看世界

2026-04-07 17:17:02

第一集就上頭，Netflix這部美劇拍得夠精彩

第一集就上頭，Netflix這部美劇拍得夠精彩

i書與房

2026-04-07 16:37:49

張雪母親是一名作家，發文講述母子故事：抵押房子貸款55萬幫兒子創業，張雪騎車撞人她賠了3萬多

張雪母親是一名作家，發文講述母子故事：抵押房子貸款55萬幫兒子創業，張雪騎車撞人她賠了3萬多

極目新聞

2026-04-07 15:59:36

中央官宣，基本養老金調整有望，去年2%，今年能與去年持平嗎？

中央官宣，基本養老金調整有望，去年2%，今年能與去年持平嗎？

孤城落葉

2026-04-06 21:42:03

親日辱華、知三當三？這一次，57歲的陳紅被兒子丈夫“害”慘了

親日辱華、知三當三？這一次，57歲的陳紅被兒子丈夫“害”慘了

青橘罐頭

2026-04-07 15:00:20

伊朗首都響起密集爆炸聲

新華社

2026-04-07 15:55:05

被抓后家中查出20噸黃金，秘密移民國外？趙本山私生活謠言太離譜

被抓后家中查出20噸黃金，秘密移民國外？趙本山私生活謠言太離譜

往史過眼云煙

2026-04-06 22:16:19

周杰倫劃水爭議升級！在日本高亢唱滿兩小時，國內敷衍兄弟幫唱

周杰倫劃水爭議升級！在日本高亢唱滿兩小時，國內敷衍兄弟幫唱

萌神木木

2026-04-07 13:32:18

410次開房記錄曝光！從臨時工“睡”到副處長，她只用了不到3年

410次開房記錄曝光！從臨時工“睡”到副處長，她只用了不到3年

愛寫的櫻桃

2026-04-06 08:05:03

太浪漫了！小伙苦尋18次偶遇的短發女孩，成都東站多個大屏被炸鍋

太浪漫了！小伙苦尋18次偶遇的短發女孩，成都東站多個大屏被炸鍋

火山詩話

2026-04-07 05:20:23

兵敗如山倒？多家日企接連撤離中國，中日制造或已迎來了大反轉

兵敗如山倒？多家日企接連撤離中國，中日制造或已迎來了大反轉

史智文道

2026-04-07 15:04:35

廣州市中心正在悄悄 “搬家”？這 2 個區域正在強勢崛起！

廣州市中心正在悄悄 “搬家”？這 2 個區域正在強勢崛起！

記錄生活日常阿蜴

2026-04-07 17:03:25

江蘇南通一大蔥種植地被謠傳可免費拔遭眾人哄搶，種植戶表示損失超20萬元，被挖走近40畝，警方介入

江蘇南通一大蔥種植地被謠傳可免費拔遭眾人哄搶，種植戶表示損失超20萬元，被挖走近40畝，警方介入

瀟湘晨報

2026-04-07 17:12:51

它是“樹上人參”，春天遇見使勁吃，錯過要等1年，比薺菜營養

它是“樹上人參”，春天遇見使勁吃，錯過要等1年，比薺菜營養

阿龍美食記

2026-04-06 13:56:32

49年他婉拒了新中國外長職務：若不拒絕，恐怕開國元帥名單要改寫

49年他婉拒了新中國外長職務：若不拒絕，恐怕開國元帥名單要改寫

浩渺青史

2026-03-25 13:59:19

白酒再次被關注！醫生發現：腦梗病人喝白酒，不用多久或有4變化

白酒再次被關注！醫生發現：腦梗病人喝白酒，不用多久或有4變化

蜉蝣說

2026-04-07 17:45:02

金華很多人都在挖！今年特別便宜！幾乎每個人都在吃……

金華很多人都在挖！今年特別便宜！幾乎每個人都在吃……

浙中在線

2026-04-07 20:29:37

AI產業主平臺領航智能+時代

14918文章數 66754關注度

往期回顧全部

科技要聞

滿嘴謊言！OpenAI奧特曼黑料大起底

頭條要聞

美軍拯救飛行員差一點失敗從40英里外用攝像頭對準他

頭條要聞

美軍拯救飛行員差一點失敗從40英里外用攝像頭對準他

體育要聞

官宣簽約“AI球員”，這支球隊被罵慘了...

娛樂要聞

女首富陳麗華離世被曝生前已分好遺產

財經要聞

10萬億財政轉移支付，被誰拿走了？

汽車要聞

不止是大極狐首款MPV問道V9靜態體驗

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

旅游

數碼

家居

公開課

本地新聞

跟著歌聲游安徽，聽古村回響

旅游要聞

上游觀察｜兩天春假，卻讓孩子擁抱了整個春天

數碼要聞

1999元就能買Mini LED電視海信Vidda小鋼炮S Mini開售

家居要聞

雅致愜意感知生活之美

溫馨多元愛的具象化
歲月靜好典雅新章
經典配色晝色銀河

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<ruby id="iagfp"></ruby>

<pre id="iagfp"><menuitem id="iagfp"></menuitem></pre>

<strike id="iagfp"><rt id="iagfp"></rt></strike>