<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      全球頂尖大模型集體翻車!ARC-AGI-3測試,人類滿分AI最高0.2%

      0
      分享至



      就在今天,一條消息炸遍整個AI圈——全球唯一尚未飽和的智能體基準測試ARC-AGI-3正式出爐,直接把全球頂尖大模型“打回原形”。人類在測試中拿下100%滿分,而最頂尖的AI模型得分普遍低于1%,曾經的“學霸”ClaudeOpus4.6更是僅得0.2%。這場測試像一面照妖鏡,戳破了“AGI已至”的泡沫,也讓所有人看清:當下的AI,離真正的通用智能,還差著一座珠穆朗瑪峰的距離。



      一、慘烈成績單:人類滿分,AI連1分都拿不到

      ARC-AGI-3的測試結果,用“慘烈”二字形容毫不為過。1200多名普通人類玩家參與測試,完成3900多場游戲,整體基線得分100%。大多數人不僅輕松通關,還能玩出“速通”操作,甚至挑戰理論最優步數——對人類而言,這些游戲更像是輕松的休閑項目,而非高難度測試。

      反觀AI陣營,結果堪稱“集體潰敗”。在上一代ARC-AGI-2測試中拿下69.2%高分的ClaudeOpus4.6,到了ARC-AGI-3直接“現原形”,得分僅0.2%,是純大模型里的第一名。其余包括GPT系列、Gemini系列在內的所有前沿大模型,得分全部低于1%,有的甚至頻繁崩潰,分數趨近于0。



      更反直覺的是,測試排行榜前三名全是非大模型方案:基于卷積神經網絡(CNN)的StochasticGoose、基于規則的狀態圖探索、無需訓練的幀圖搜索。其中StochasticGoose以12.58%的得分成為預覽期冠軍,比GPT-5.x系列高出12個百分點以上。但即便如此,它在一款調水位游戲中,開局仍花了近350步做無效點擊,而人類只需要兩三下就能摸清規則。



      這組數據背后,是AI與人類智能的本質差距——人類是“會學習的智能”,而當下的AI,只是“會匹配模式的工具”。



      二、ARC-AGI-3到底有多“變態”?從靜態題到互動游戲的維度升級

      ARC-AGI系列一直是AI圈的“魔鬼測試”,前兩代ARC-AGI-1、ARC-AGI-2就以“抽象推理”難倒無數模型。而ARC-AGI-3,直接把難度拉到了全新維度:從“靜態題”變成了“無提示互動游戲”。





      測試包含150多個手工設計的交互式游戲環境,1000多個關卡。每個游戲都有專屬邏輯、隱藏規則和通關條件,但沒有任何說明文檔、沒有自然語言提示、沒有任何操作指引——AI不知道“左邊按鈕會開門”,也不知道“收集三個紅色方塊能過關”,只能像盲人摸象一樣,通過觀察畫面、執行動作、反饋結果,一步步拼湊對世界的認知。





      ARCPrize基金會設計這套測試,核心是測AI的四大核心能力:

      探索:能否主動與環境互動,獲取關鍵信息?

      建模:能否把零散觀察,凝聚成可預測未來的世界模型?

      目標獲?。簾o人下達指令,能否自主判斷“該以什么為目標”?

      規劃與執行:能否規劃行動路徑,并根據反饋隨時修正?

      這四項能力,恰恰是人類與生俱來的本能,卻是當下AI的致命短板。



      更“殘忍”的是它的評分標準——不看“是否通關”,只看“效率”,且直接對標人類效率。評分公式為:(人類步數/AI步數)2。比如人類10步解決的問題,AI用了100步,得分僅1%;用了200步,得分0.25%;用了500步,得分僅0.04%。這種規則直接堵死了AI的“蠻力窮舉”之路——多試一步,分數就斷崖式下跌。Opus4.6的0.2%,換算下來意味著它解決人類10步的問題,需要走約224步,完全是在迷宮里原地轉圈。

      三、AI為何慘敗?缺的不是算力,是“元認知”

      ARC團隊在測試中發現一個關鍵現象:AI的主要失敗模式,是“以為自己在玩另一個游戲”。就像一個人被蒙眼扔進廚房,摸到圓形物體就斷定是籃球,開始瘋狂“投籃”——AI在全新環境中,看到初始視覺信息,會迅速“腦補”一個熟悉的游戲框架,然后沿著錯誤假設死磕到底,越走越偏,卻從不停下來反思:“我的假設是不是錯了?”

      這背后,是當下AI缺乏元認知能力——它不知道自己不知道,更不會主動修正錯誤認知。參數量越大、預訓練知識越豐富的大模型,反而越容易陷入這個陷阱。它們被海量數據“喂”出了強烈的“先入為主”,遇到陌生場景,第一反應是匹配已知模式,而非從零探索;而輕量級CNN、圖搜索系統,因為沒有“知識包袱”,反而能老老實實地從環境反饋中學習,成績反而更好。



      反觀人類,面對全新游戲時,會本能地完成“探索-建模-驗證-修正”的循環:

      先觀察,幾分鐘內搭建粗糙但可用的“世界模型”;

      再驗證,根據結果強化或修正模型;

      最后快速迭代,錯了就改,改了再試。

      人類的學習是在線、交互、假設驅動的,而AI的學習是離線、數據驅動、模式匹配的。ARC-AGI-3沒有“題海戰術”可依賴,考的正是“如何學習”——這恰恰是目前AI最弱的一環。

      四、AGI之爭:黃仁勛說“已實現”,測試說“還差99%”

      就在ARC-AGI-3發布前,英偉達CEO黃仁勛在采訪中直言“我們已經實現了AGI”,引發行業熱議。但ARC-AGI-3的結果,無疑給這一觀點潑了一盆冷水——當下的AI,或許連1%的AGI都沒實現。





      關于AGI的定義,學界和產業界一直存在分歧。黃仁勛的定義偏向實用主義:“AI能否啟動、運營一家價值超10億美元的公司”,大幅降低了AGI門檻。而學界主流觀點,如Bengio團隊提出的定義,將AGI視為“能匹配或超越受過良好教育成年人的認知廣度和熟練度”,涵蓋推理、記憶、感知等10項核心能力,總分100分才算達標。

      ARC-AGI-3的測試邏輯,更貼合學界對AGI的核心要求——通用學習能力。它不考AI記住了多少知識,而考AI能否在無提示、無經驗的全新環境中,自主探索、建模、規劃并高效解決問題。從這個角度看,當下所有大模型都遠未達標,它們只是在特定任務上表現出色的“窄AI”,而非真正的“通用智能”。

      目前,ARC-AGI-3挑戰賽獎金池高達85萬美元,其中70萬美元留給“滿分通關者”,且要求參賽者完全開源代碼、在無網環境下評估——杜絕了調用云端大模型、聯網查資料的“作弊”可能。



      這場測試撕開了AI行業的“遮羞布”,也讓所有人清醒:AGI不是靠堆算力、擴參數就能實現的,它需要突破“元認知”“自主學習”等底層認知瓶頸。人類與AI的差距,從來不是算力,而是“會思考、會學習、會反思”的本能。

      ARC-AGI-3的出現,不是否定AI的進步,而是為AGI研究指明了更清晰的方向——未來的AI,不能再做“只會刷題的應試高手”,而要成為“會學習、會探索、會修正”的真正智能體。至于這座天塹何時能被跨越,我們只能靜待時間給出答案。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      故事:749局退休高人口述:陸家嘴有人渡劫的真相,讓人毛骨悚然

      故事:749局退休高人口述:陸家嘴有人渡劫的真相,讓人毛骨悚然

      詭譎怪談
      2025-01-18 14:09:34
      蘇林,再次首訪中國

      蘇林,再次首訪中國

      新民周刊
      2026-04-10 09:05:29
      不要再向以色列提供一架戰斗機!

      不要再向以色列提供一架戰斗機!

      武器縱論
      2026-04-09 22:35:26
      張雪峰被“復活”引爭議!網友:八奇技之一,拘靈遣將!

      張雪峰被“復活”引爭議!網友:八奇技之一,拘靈遣將!

      品牌新
      2026-04-10 08:57:40
      2026駕駛證全面調整!C1/C2車主必看:換證、年齡、扣分全變了

      2026駕駛證全面調整!C1/C2車主必看:換證、年齡、扣分全變了

      復轉這些年
      2026-04-09 11:26:53
      蘋果給折疊屏起了個新名字,國產廠商連夜抄作業

      蘋果給折疊屏起了個新名字,國產廠商連夜抄作業

      薛定諤的BUG
      2026-04-09 17:06:08
      小米食堂發布新品“小米”冰激凌:標準、Pro、Max版,售價分別為5.99元、6.99元、8.99元

      小米食堂發布新品“小米”冰激凌:標準、Pro、Max版,售價分別為5.99元、6.99元、8.99元

      魯中晨報
      2026-04-10 09:32:05
      姐不僅圓又大,還是個肉墩,就在家自拍,不讓別人看

      姐不僅圓又大,還是個肉墩,就在家自拍,不讓別人看

      飛娛日記
      2026-03-19 07:26:09
      巴基斯坦狠批以色列,并部署空軍進入伊朗

      巴基斯坦狠批以色列,并部署空軍進入伊朗

      世家寶
      2026-04-10 13:49:33
      記者現場直擊!伊斯蘭堡嚴陣以待

      記者現場直擊!伊斯蘭堡嚴陣以待

      環球網資訊
      2026-04-10 13:56:00
      鄭麗文一行在上海參訪 點贊大陸經濟活力與城市魅力

      鄭麗文一行在上海參訪 點贊大陸經濟活力與城市魅力

      新華社
      2026-04-09 15:36:11
      剛從朝鮮回來,說點不中聽的:朝鮮的真實面目,可能讓你很意外

      剛從朝鮮回來,說點不中聽的:朝鮮的真實面目,可能讓你很意外

      復轉這些年
      2026-04-10 11:41:03
      公安局副局長開會時猝死,年僅45歲

      公安局副局長開會時猝死,年僅45歲

      南方都市報
      2026-04-10 12:36:30
      鄭麗文訪陸的“北京時刻”:大陸的誠意滿滿,高規格接待

      鄭麗文訪陸的“北京時刻”:大陸的誠意滿滿,高規格接待

      魔都姐姐雜談
      2026-04-10 12:13:04
      一句“叔叔放我這兒吧”看哭全網:離婚后她成了父母都不要的孩子

      一句“叔叔放我這兒吧”看哭全網:離婚后她成了父母都不要的孩子

      行者聊官
      2026-04-10 08:26:17
      虎父無犬子!關鍵時刻拯救球隊,2戰轟下65分,名記:他才21歲啊

      虎父無犬子!關鍵時刻拯救球隊,2戰轟下65分,名記:他才21歲啊

      金山話體育
      2026-04-10 08:36:17
      全紅嬋報警:潛伏裁判給低分,郭晶晶看出貓膩,過往不公徹底曝光

      全紅嬋報警:潛伏裁判給低分,郭晶晶看出貓膩,過往不公徹底曝光

      眼光很亮
      2026-04-08 14:51:46
      王志文連斜眼都不敢?昔日大佬被打碎,太揪心!

      王志文連斜眼都不敢?昔日大佬被打碎,太揪心!

      喜歡歷史的阿繁
      2026-04-10 01:32:21
      鄭麗文在北京新造型!穿藍紫色西服彰顯貴氣,還雙手背后很有氣勢

      鄭麗文在北京新造型!穿藍紫色西服彰顯貴氣,還雙手背后很有氣勢

      八八尚語
      2026-04-10 12:58:23
      43歲男子和富婆車震后,富婆還想要更多,2016年他將51歲富婆殺死

      43歲男子和富婆車震后,富婆還想要更多,2016年他將51歲富婆殺死

      漢史趣聞
      2026-04-06 19:17:12
      2026-04-10 14:44:49
      魏家東 incentive-icons
      魏家東
      一個人的營銷商學院!
      2624文章數 12232關注度
      往期回顧 全部

      科技要聞

      馬斯克狂發大火箭也養不起AI 年虧50億美元

      頭條要聞

      牛彈琴:巴基斯坦被以色列激怒了 這是一個不祥的信號

      頭條要聞

      牛彈琴:巴基斯坦被以色列激怒了 這是一個不祥的信號

      體育要聞

      17歲賺了一百萬美元,25歲被CBA裁員

      娛樂要聞

      夏克立婚內出軌 曾參加《爸爸去哪兒》

      財經要聞

      愛爾眼科一院長被指猥褻 總部:已被停職

      汽車要聞

      搭載第二代刀片電池及閃充技術 騰勢N8L閃充版預售35萬起

      態度原創

      本地
      旅游
      教育
      公開課
      軍事航空

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      旅游要聞

      亞洲游客拋棄中東,扎堆郵輪與短途游

      教育要聞

      二年級培優,難倒99%的學生

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普:對美國與伊朗達成和平協議“非常樂觀”

      無障礙瀏覽 進入關懷版