<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      全球頂尖大模型一夜慘遭血洗!最難測試人類拿滿分,AI第一名得0.2%分

      0
      分享至


      新智元報道

      編輯:Aeneas 好困

      【新智元導讀】今夜,整個AI圈震動了。全球最難AGI測試ARC-AGI-3一上線,就把全球頂尖AI打到集體失聲,人類滿分通關,最強模型Opus 4.6得分僅0.2%,還不到1%。AI這是一夜被打回「原始人」了。

      就在今天,這條消息把整個AI圈給震了。

      眾望所歸的,全球唯一尚未飽和的智能體基準測試ARC-AGI-3出爐了,直接血洗了全球頂尖大模型。

      在這個測試中,人類得分100%,AI的得分普遍低于1%。


      這個差距,比珠穆朗瑪峰還高。

      最慘烈的是,在上一代測試中還能拿下69.2%高分的「模范生」Opus 4.6,在ARC-AGI-3面前直接現了原形,得分僅為0.2%。


      這位曾經橫掃各大榜單的「學霸」,連蒙帶猜都拿不到1分。

      這面鏡子,照出了當前AI能力中最深的裂縫。


      在最近的采訪中,老黃認為我們已經實現了AGI。但是ARC-AGI-3顯示,或許如今的AI連1%的AGI都沒有實現。


      ARC-AGI-3,到底有多變態

      它的前身ARC-AGI-1和ARC-AGI-2,已經是AI圈出了名的「魔鬼測試」。


      那些測試里,AI需要觀察幾個示例,然后推斷出網格變換的規律,完成新任務。

      聽起來不難?但就是這些看起來像幼兒園連線題的東西,曾經讓無數大模型鎩羽而歸。

      而到了ARC-AGI-3,難度直接換了個維度:從「靜態題」變成了「互動游戲」。


      150多個手工設計的交互式游戲環境,包含1000多個關卡。

      每個游戲都有自己的內在邏輯、隱藏規則和通關條件。但沒有任何說明文檔,沒有自然語言提示,沒有人告訴你「左邊的按鈕會開門」或者「收集三個紅色方塊就能過關」。


      AI智能體被丟進去,只能看到當前畫面,選擇一個動作,觀察結果,再決定下一步。

      它只能像盲人摸象一樣,一步一步試探,然后在大腦里拼湊出一個「這個世界可能是這樣運作的」的模型。


      這正是ARC Prize基金會想測的四件事。

      • 探索:能不能通過主動與環境互動來獲取關鍵信息?

      • 建模:能不能把零散的觀察凝聚成一個可以預測未來狀態的世界模型?

      • 目標獲取:沒有人下達指令,能不能自己判斷出「我應該以什么為目標」?

      • 規劃與執行:能不能規劃出行動路徑,并根據環境反饋隨時修正?


      「幾何級數」的羞辱:0.2%是怎么來的?

      評分標準同樣殘忍。

      ARC-AGI-3的評分不看「有沒有通關」,而是看「效率」,而且是和人類比效率。

      這在AI基準測試的歷史上,還是頭一回。


      受Chollet那篇《論智能的衡量》的啟發,ARC Prize團隊把「智能」操作化為一個轉換率:

      你從環境中獲取信息的效率有多高?你把這些信息轉化為正確行動的速度有多快?

      假設人類解決這個游戲需要10步,而AI用了100步,那AI的得分是多少?

      不是10%,而是1%。

      公式是:(人類步數/AI步數)2。人類10步,AI 100步,那就是(10/100)2=0.01=1%。

      如果AI用了200步,這一數字就是0.25%;500步就是0.04%。


      這一下,把AI所有的「蠻力」路都堵死了。

      以前AI可以靠窮舉,把所有可能的操作試一遍,總能試出正確路徑。

      但在這種評分體系下,你多試一步,分數就斷崖式下跌。

      現在,你就知道了Opus 4.6得分只有0.2%的意味——

      假設人類解決某個游戲用了10步,0.2%=0.002,開平方≈0.0447,10÷0.0447≈224步。

      這已經不是「笨」了,這是在迷宮里原地轉圈到天荒地老。

      當這種差距被如此強烈地展示出來,很多以為AGI近在眼前的人,都震驚了。


      350步 vs 兩三下:成績單全景

      在正式發布之前,ARC-AGI-3跑了一輪為期30天的開發者預覽。

      三款公開游戲從地圖導航到圖案匹配再到水位調節,題目類型各異,但有一個共同點:人類覺得簡單,AI覺得要命。



      1200多名人類玩家參與了測試,完成了3900多場游戲。

      大部分人不僅輕松過關,還玩得很開心,有些執著的玩家甚至一路「速通」挑戰到了理論最優步數。

      人類基線:100%。AI這邊,前沿大模型得分全部低于1%。


      預覽期的冠軍叫StochasticGoose,來自Tufa Labs。

      它不是大模型,而是一個基于卷積神經網絡的動作學習型智能體,用簡單的強化學習來預測哪些操作會導致畫面變化。最終得分12.58%,已經是所有參賽系統里最高的了。

      但即便是這個冠軍,在一款調水位的游戲里,開局也花了將近350步做無效的點擊操作。

      350步。人類大概只需要點兩三下就能搞明白的事。

      更反直覺的是,排行榜的前三名全是非LLM方案——CNN、基于規則的狀態圖探索、無需訓練的幀圖搜索。

      一個基于CNN的方案,比GPT-5.x系列高出12個百分點以上。而那些接入了前沿大模型的智能體,成績反而經常墊底,有的甚至頻繁崩潰。


      AI把自己坑了

      ARC團隊還發現一個特別有意思的現象。

      AI的主要失敗模式之一是:「以為自己在玩另一個游戲」。

      比如,你被蒙上眼睛,扔進一個房間。

      你摸到了一個圓形的物體,于是你斷定:「這是個籃球場,我應該投籃。」但事實上,你拿的可能是一個西瓜,而房間其實是一個廚房。

      AI犯的就是這樣的錯。

      它在一個全新的環境里,看到一些初始的視覺信息,然后迅速給自己「腦補」了一個游戲框架,接著就沿著這個錯誤的假設瘋狂執行計劃,越走越偏,越偏越遠。


      它不會停下來想:等等,我怎么好像一直沒得到正反饋?是不是我的假設錯了?

      因為當前的AI,缺乏一種「元認知」能力。也就是說,它不知道自己不知道。

      這解釋了為什么大模型反而墊底。

      參數量越大、預訓練知識越豐富的模型,越容易把陌生環境「腦補」成自己見過的東西,然后死磕到底。

      而那些輕量級的CNN智能體和圖搜索系統,反倒因為沒有「先入為主」的包袱,能老老實實地從環境反饋中學習。


      為什么人類能輕松通關?

      ARC團隊在文檔里寫了一句話:「人類不會蠻力行事。他們會構建思維模型,檢驗想法,并迅速改進。」

      首先第一步,人類會構建思維模型。

      一個人類玩家面對一個全新游戲時,第一件事不是「瞎點」,而是觀察。幾分鐘之內,一個粗糙但可用的「世界模型」就建成了。

      第二步,人類會檢驗想法。

      如果結果和預期一致,模型得到強化。如果不一致,模型立即修正。

      第三步,人類會迅速改進。錯了就改,改了再試。

      這種「探索-建模-驗證-修正」的循環,在人類身上幾乎是本能的。

      而AI呢?只是一個「記住了很多答案」的應試高手,它的「學習」和人類的「學習」根本不是一個物種。

      人類的學習是在線、交互、假設驅動的;AI的學習是離線、數據驅動、模式匹配的。

      ARC-AGI-3沒有任何「題海戰術」可以覆蓋,它考的是「怎么學習」。這恰恰是目前AI最弱的一環。


      目前,這場挑戰賽的獎金池高達85萬美元,其中70萬美元是給「滿分通關者」的終極大獎。

      參賽者必須完全開源代碼,并且在無網環境下接受評估。這意味著你不能偷偷調用云端大模型,不能偷偷聯網查資料。


      和人類這個珠穆朗瑪峰的差距,有AI能克服嗎?

      讓我們靜待結果。

      參考資料:

      https://x.com/Hesamation/status/2036861818321146306

      https://arcprize.org/arc-agi/3

      https://docs.arcprize.org/

      https://x.com/fchollet/status/2036881543973790004

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美拯救大兵“Bravo”更多驚險細節曝光:靠尋呼機式定位器求救,回答私密問題驗身

      美拯救大兵“Bravo”更多驚險細節曝光:靠尋呼機式定位器求救,回答私密問題驗身

      紅星新聞
      2026-04-07 13:13:17
      業績暴增!300821,“20cm”漲停

      業績暴增!300821,“20cm”漲停

      數據寶
      2026-04-07 10:43:16
      603950,宣布重大資產重組!明天復牌!

      603950,宣布重大資產重組!明天復牌!

      證券時報e公司
      2026-04-07 19:30:31
      快訊!特朗普“怒批”日本了!

      快訊!特朗普“怒批”日本了!

      達文西看世界
      2026-04-07 17:17:02
      第一集就上頭,Netflix這部美劇拍得夠精彩

      第一集就上頭,Netflix這部美劇拍得夠精彩

      i書與房
      2026-04-07 16:37:49
      張雪母親是一名作家,發文講述母子故事:抵押房子貸款55萬幫兒子創業,張雪騎車撞人她賠了3萬多

      張雪母親是一名作家,發文講述母子故事:抵押房子貸款55萬幫兒子創業,張雪騎車撞人她賠了3萬多

      極目新聞
      2026-04-07 15:59:36
      中央官宣,基本養老金調整有望,去年2%,今年能與去年持平嗎?

      中央官宣,基本養老金調整有望,去年2%,今年能與去年持平嗎?

      孤城落葉
      2026-04-06 21:42:03
      親日辱華、知三當三?這一次,57歲的陳紅被兒子丈夫“害”慘了

      親日辱華、知三當三?這一次,57歲的陳紅被兒子丈夫“害”慘了

      青橘罐頭
      2026-04-07 15:00:20
      伊朗首都響起密集爆炸聲

      伊朗首都響起密集爆炸聲

      新華社
      2026-04-07 15:55:05
      被抓后家中查出20噸黃金,秘密移民國外?趙本山私生活謠言太離譜

      被抓后家中查出20噸黃金,秘密移民國外?趙本山私生活謠言太離譜

      往史過眼云煙
      2026-04-06 22:16:19
      周杰倫劃水爭議升級!在日本高亢唱滿兩小時,國內敷衍兄弟幫唱

      周杰倫劃水爭議升級!在日本高亢唱滿兩小時,國內敷衍兄弟幫唱

      萌神木木
      2026-04-07 13:32:18
      410次開房記錄曝光!從臨時工“睡”到副處長,她只用了不到3年

      410次開房記錄曝光!從臨時工“睡”到副處長,她只用了不到3年

      愛寫的櫻桃
      2026-04-06 08:05:03
      太浪漫了!小伙苦尋18次偶遇的短發女孩,成都東站多個大屏被炸鍋

      太浪漫了!小伙苦尋18次偶遇的短發女孩,成都東站多個大屏被炸鍋

      火山詩話
      2026-04-07 05:20:23
      兵敗如山倒?多家日企接連撤離中國,中日制造或已迎來了大反轉

      兵敗如山倒?多家日企接連撤離中國,中日制造或已迎來了大反轉

      史智文道
      2026-04-07 15:04:35
      廣州市中心正在悄悄 “搬家”?這 2 個區域正在強勢崛起!

      廣州市中心正在悄悄 “搬家”?這 2 個區域正在強勢崛起!

      記錄生活日常阿蜴
      2026-04-07 17:03:25
      江蘇南通一大蔥種植地被謠傳可免費拔遭眾人哄搶,種植戶表示損失超20萬元,被挖走近40畝,警方介入

      江蘇南通一大蔥種植地被謠傳可免費拔遭眾人哄搶,種植戶表示損失超20萬元,被挖走近40畝,警方介入

      瀟湘晨報
      2026-04-07 17:12:51
      它是“樹上人參”,春天遇見使勁吃,錯過要等1年,比薺菜營養

      它是“樹上人參”,春天遇見使勁吃,錯過要等1年,比薺菜營養

      阿龍美食記
      2026-04-06 13:56:32
      49年他婉拒了新中國外長職務:若不拒絕,恐怕開國元帥名單要改寫

      49年他婉拒了新中國外長職務:若不拒絕,恐怕開國元帥名單要改寫

      浩渺青史
      2026-03-25 13:59:19
      白酒再次被關注!醫生發現:腦梗病人喝白酒,不用多久或有4變化

      白酒再次被關注!醫生發現:腦梗病人喝白酒,不用多久或有4變化

      蜉蝣說
      2026-04-07 17:45:02
      金華很多人都在挖!今年特別便宜!幾乎每個人都在吃……

      金華很多人都在挖!今年特別便宜!幾乎每個人都在吃……

      浙中在線
      2026-04-07 20:29:37
      2026-04-07 20:56:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14918文章數 66754關注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      美軍拯救飛行員差一點失敗 從40英里外用攝像頭對準他

      頭條要聞

      美軍拯救飛行員差一點失敗 從40英里外用攝像頭對準他

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產

      財經要聞

      10萬億財政轉移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態體驗

      態度原創

      本地
      旅游
      數碼
      家居
      公開課

      本地新聞

      跟著歌聲游安徽,聽古村回響

      旅游要聞

      上游觀察|兩天春假,卻讓孩子擁抱了整個春天

      數碼要聞

      1999元就能買Mini LED電視 海信Vidda小鋼炮S Mini開售

      家居要聞

      雅致愜意 感知生活之美

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版