<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      剛剛,全球最難考試驚天大反轉!黑馬AI沖破36%,頂流模型集體翻車

      0
      分享至


      新智元報道

      編輯:Aeneas KingHZ

      【新智元導讀】就在昨天,ARC-AGI-3剛把全球頂尖大模型按在地上摩擦,結果一家名不見經傳的公司卻給出驚天消息:他們的AI在首日就取得了36.08%的成績!這匹黑馬究竟靠什么撕開全球最難AI考試的鐵幕?是真突破,還是另有玄機?

      驚天大反轉!

      就在昨天,給AI的最難測試ARC-AGI-3橫空出世,全球大模型一夜被血洗。

      最強的頂流模型Opus 4.6,都只拿了0.2%分,簡直慘不忍睹。與此同時,人類卻大大領先,拿到了滿分的好成績。


      這讓圍觀群眾們大吃一驚:無論是老黃,還是提出AGI概念發明人,都認為如今我們已經到達了AGI,難道我們真的離AGI如此遙遠?

      出人意料的是,短短一天內,ARC-AGI-3就被破解了!

      就在剛剛,一家名為Symbolica的公司宣布稱:

      使用Agentica框架,我們在ARC-AGI-3測試中首日就取得了36.08%成績,全面碾壓CoT模型基線。



      182個關卡中,他們已經順利通關了113個。25個可用游戲中,他們完成了7個。

      全球最難考試,被一把撕開缺口!


      Symbolica首日爆冷,沖上36%

      就在人們還在為Opus 4.6那可憐的0.2%得分唏噓不已,甚至開始懷疑「AGI是否只是大廠編織的幻夢」時,轉機就以驚喜的方式降臨了。


      Symbolica的Agentica框架,為什么在ARC-AGI-3發布首日就能交出36.08%的驚人成績單?


      Agentica(Symbolica)基于Symbolica構建的ARC-AGI-3專用智能體系統。

      要知道,在ARC-AGI-3那個近乎變態的評分公式——(人類步數 / AI步數)^2——面前,大模型領頭羊們還都在迷霧里原地打轉呢。36.08%這個分數,簡直是降維打擊。


      要理解Symbolica為什么能贏,首先要明白Opus 4.6和GPT-5.4是怎么輸的。

      ARC-AGI-3與前兩代最大的不同,就在于它不是「靜態看圖說話」,而是一個交互式黑盒游戲。

      當一個基于純粹LLM的智能體進入游戲,它最致命的弱點是:試圖用聯想代替邏輯,用模式匹配代替實驗。

      大模型在面對未知環境時,會利用龐大的預訓練知識庫進行「腦補」。看到紅色方塊和藍色線條,可能就會聯想到「推箱子」或者「水位平衡」,然后基于這個錯誤的假設瘋狂輸出CoT。

      如果假設錯了,它也不會停下來反思,而是會在錯誤的道路上越跑越遠,直到步數耗盡,得分歸零。

      ARC-AGI-3恰好針對AI的這些弱點,在100%可由人類解決的環境中,衡量AI的三大能力:

      • 隨時間推移的技能獲取效率

      • 稀疏反饋下的長程規劃能力

      • 跨多步、由經驗驅動的適應能力

      而Symbolica的Agentica框架,走出了一條完全不同的技術路徑!

      Agentica原生支持多智能體架構,并具備設計上的可并行性。它會自動將復雜任務拆解為子問題,并將工作委派給子智能體并行完成。

      這意味著智能體能夠保持高效推進,開箱即用地更快完成任務!


      Agentica是一個類型安全的AI框架,能夠讓LLM智能體與代碼無縫集成:包括函數、類、活動對象,乃至整個SDK。

      此前,憑借強大的長程推理任務,Symbolica就曾在ARC-AGI-2上取得SOTA成績,Agentica SDK為此立下了汗馬功勞。

      核心秘訣:Arcgentica RLM harness

      從GitHub頁面中,我們在IDEA.md這個文件中,發現了Agentica框架的絕技——ARC-AGI-3智能體框架(Agent Harnesses)。


      GitHub地址:https://github.com/symbolica-ai/ARC-AGI-3-Agents

      Agent Harnesses,是最近的絕對熱詞了,在Anthropic的官方博客和業內各位大咖的討論中,它一直在被不斷提及。


      如果說2025年是智能體黃金時代的起點,那么2026年將聚焦于智能體框架(Agent Harnesses)。

      智能體框架是一種圍繞AI模型構建的基礎設施,用于管理長時間運行的任務,但它本身并不是智能體。

      這次,Agentica從零開始理解游戲機制,而且在沒有任何特定游戲提示的情況下,解決多個關卡謎題。


      這個基于Agentica SDK構建的Arcgentica RLM框架,有何特別之處?

      首先,是游戲無關性。

      ARC-AGI-3之所以難,是因為它剝離了所有自然語言提示。人類能過關,是因為我們擁有物理直覺。

      為此,Agentica采取了最極端的「游戲無關性」(Game-agnostic)策略。

      智能體不知道顏色代表什么,動作的作用是什么,或者獲勝條件是什么,僅通過與游戲互動并觀察變化來推斷一切。

      這種空白狀態,反而成就了它。

      第二,是「統籌者 + 專業子智能體」的模式。

      頂級統籌者,從不直接操作游戲,它將任務委派給子智能體,積累知識,并決定下一步的行動。


      專業子智能體包含:探索器、理論家、測試器和解題機(explorers,theorists,testers,solvers)

      如果它開始查看網格,其上下文就會被像素數據填滿,從而失去戰略思考能力。子智能體以簡短的文本摘要形式匯報,而不是原始數據。

      這種非中心化計策結構的精妙設計,讓它規避了Opus 4.6等模型中「同一個大腦既要看像素、又要記規則、還要指揮動作」的嚴重缺陷。

      第三,是它的「共享記憶」機制。

      游戲期間,所有智能體共享一個memories數據庫。子智能體在工作過程中會記錄已確認的事實(場景布局、機制、獲勝條件)和假設(并明確標記)。

      新智能體在啟動前會查詢記憶,因此它們可以繼承集體知識。


      第四,是「關卡切換」機制。

      關卡切換:當一個關卡被解出后,下一個關卡會在同一次操作中直接加載,返回的畫面已經是新關卡。

      只有當所有關卡都通關時,才會觸發state=WIN;單個關卡的完成則通過觀察levels_completed的增加來判斷。

      第五點,Agentica有嚴苛的行動預算管理,每一枚token都要花在刀刃上。

      所有關卡的總操作次數是有限的(約 800 次)。調度器會通過make_bounded_submit_action(limit)為各個子智能體分配操作額度。系統會要求智能體避免重復操作,除非確實卡住。

      而且,會優先進行有針對性的嘗試,而不是暴力式的窮舉探索。

      另外,還有子智能體需要按需分配工具、調度器需要在復用與重啟之間權衡等規定。

      要知道ARC-AGI-3的官方定位,正是強調「需要探索、感知 → 規劃 → 行動、記憶、目標獲取與對齊等能力」。

      而Agentica的分工與控制策略,幾乎是對這些能力的「工程化拆解」:

      探索(Exploration):由子智能體探索器(explorers)在動作預算下執行,盡量用差分觀測提取「機制線索」。

      計劃/推理(Planning/rule inference):由子智能體理論家(theorists)在「不允許submit_action」的約束下推導規則,降低無意義動作消耗。

      記憶(Memory): memories 數據庫的顯式化讓跨關卡策略復用更直接,降低「重復學習」的動作與token 成本。

      長程適配:關卡過渡由 levels_completed 檢測,統籌者(orchestrator)決定沿用策略還是重新進入探索循環。

      顯然,這套機制與ARC-AGI-3的評分結構(后期關權重更高、效率平方懲罰)十分適配——它鼓勵系統把動作花在「信息增益最高」的實驗上,并盡快把策略遷移到更高權重關卡。

      36.08%的高分,是否有水分?

      不過,36%的成績無疑是耀眼的,但在經過ARC Prize官方驗證之前,Symbolica的「爆冷」依然籠罩著幾層迷霧。

      Symbolica也承認,這一成績,目前沒有得到ARC-AGI-3組委會的官方認證。


      材料中有一句非常關鍵的話:「unverified competition score」 (未經驗證的成績)

      Symbolica目前的成績是基于其自行搭建的環境,還是嚴格復刻了官方的評估流程?這需要打一個問號。

      而且,公布的得分明細表中,也有一些不尋常的細節。

      比如,Symbolica指出「通過ARC-AGI-3 API獲取的人類基線分數表明,游戲cn04總共有6個關卡。這與通過API獲取的相應游戲的關卡數量不符。」


      如果官方數據存在版本混亂,那分數的有效性也就令人質疑。

      另外,在得分明細圖中可以看出,像LP85AR25等游戲得分極高(80%-97%),而SP80BP35等游戲得分極低(0.2%-0.7%)。



      這種嚴重的兩極分化,是否是過擬合導致的?

      畢竟,如果是真正的通用智能,應該在所有游戲上表現都相對均衡。

      人心所向:AGI的終極測試

      昨天,ARC-AGI-3一出,就獲得了萬眾矚目,得到OpenAI、谷歌、xAI等多位AI大佬的認可。





      昨日,ARC-AGI-3正式發布時,奧特曼更是到現場力挺。



      這個新的基準測試,被公認為始終通向AGI的「北極星」。

      長期以來,AI界的度量衡被鎖死在靜態基準的框架里。

      然而,當OpenClaw這類「暴力進化」的AI智能體出現,行業顯然急需一把解剖刀,去切開「主動式智能」的黑盒:比如深不見底的探索欲,毫秒級的感知決策,復雜的路徑規劃,以及近乎直覺的目標對齊。


      賽題:https://www.kaggle.com/competitions/arc-prize-2026-arc-agi-3/data

      ARC-AGI-3祭出的考題,是在逼問AI:在完全陌生的規則面前,你是否具備人類那種抽象與推理的本能?


      ARC AGI 3技術報告見下列鏈接:

      https://arcprize.org/media/ARC_AGI_3_Technical_Report.pdf

      在這里,每款游戲都需要智能體進行探索、理解并解決。滿分(100%)意味著AI智能體能夠像人類一樣高效地通關所有游戲。


      目前,最好成績為0.25,也就是相當于人類基線的25%。


      ARC-AGI-3更重要的意義,不是發布新的AI測試,不是草根逆襲AI巨頭的爽文,而是開啟了新智能體類型——智能體思考。

      巧合的是,幾乎于ARC-AGI-3發布同時,林俊旸發表了對過去兩年的總結,指出了相同的趨勢:

      自主性思考(agentic thinking)將成為主流的思考方式。

      即使面對極其困難的數學或編程任務,一個真正先進的(AI)系統也應有權進行搜索、模擬、執行、檢查、驗證和修正。


      本質上,智能體式思考,是模型通過行動來進行推理,關注的是模型在與環境交互的過程中能否持續取得進展。

      他指出AI推理能力核心問題從「模型能否思考足夠長時間」轉變為「模型能否以維持有效行動的方式進行思考」。

      ARC-AGI-3的背后宗旨,和林俊旸的思考,無疑不謀而合了。

      巧合之處,恐怕就是行業的下一個方向。

      參考資料:

      https://x.com/JustinLin610/status/2037116325210829168

      https://github.com/symbolica-ai/ARC-AGI-3-Agents

      https://www.symbolica.ai/blog/arc-agi-3

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      教師大局定了:若無意外,2026年中國教師隊伍可能會有3大變化

      教師大局定了:若無意外,2026年中國教師隊伍可能會有3大變化

      王姐懶人家常菜
      2026-04-07 04:04:11
      國央企“軟裁員”有多狠?不罵不裁不找茬,四招讓你主動提離職

      國央企“軟裁員”有多狠?不罵不裁不找茬,四招讓你主動提離職

      復轉這些年
      2026-04-05 17:50:56
      【意甲】阿萊格里:爭冠失敗!AC米蘭0-1客負那不勒斯

      【意甲】阿萊格里:爭冠失敗!AC米蘭0-1客負那不勒斯

      體壇周報
      2026-04-07 08:20:12
      本賽季至今,約基奇一共拿到33次三雙,東契奇8次,那威少呢?

      本賽季至今,約基奇一共拿到33次三雙,東契奇8次,那威少呢?

      兵哥籃球故事
      2026-04-07 15:29:49
      廣東3消息!杜鋒強調球隊困難,焦泊喬婉拒歸隊,薩姆納傷缺兩周

      廣東3消息!杜鋒強調球隊困難,焦泊喬婉拒歸隊,薩姆納傷缺兩周

      多特體育說
      2026-04-06 22:44:40
      莫蘭特灰熊生涯倒計時?重發神秘推文引猜測,這回真要走?

      莫蘭特灰熊生涯倒計時?重發神秘推文引猜測,這回真要走?

      仰臥撐FTUer
      2026-04-07 19:45:42
      金正恩稱韓國總統的道歉乃“寬宏大量之人”的行為

      金正恩稱韓國總統的道歉乃“寬宏大量之人”的行為

      遁走的兩輪
      2026-04-07 19:58:01
      戰爭有多燒錢,網友說我講一下我家里的局部戰爭你就明白

      戰爭有多燒錢,網友說我講一下我家里的局部戰爭你就明白

      侃神評故事
      2026-04-06 11:45:08
      初選結果出爐,藍營候選人落敗,張啟楷發聲!黃國昌耐人尋味

      初選結果出爐,藍營候選人落敗,張啟楷發聲!黃國昌耐人尋味

      愛意隨風起呀
      2026-04-07 16:19:47
      民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

      民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

      李橑在北漂
      2026-04-02 10:22:26
      中國不記隔夜仇!巴拿馬接到通知,美國終于下場,巴政府自食惡果

      中國不記隔夜仇!巴拿馬接到通知,美國終于下場,巴政府自食惡果

      書紀文譚
      2026-04-06 23:14:24
      29記三分仍輸球!騎士142-126大勝灰熊,哈登缺席9人上雙

      29記三分仍輸球!騎士142-126大勝灰熊,哈登缺席9人上雙

      郝小小看體育
      2026-04-07 11:21:56
      再見諸葛馬龍!掘金給火箭送大禮,卡馬拉轟30+5比伊森強

      再見諸葛馬龍!掘金給火箭送大禮,卡馬拉轟30+5比伊森強

      籃球看比賽
      2026-04-07 13:18:10
      張雪峰前妻終于表態!稱只想和女兒安靜生活,直言前夫承受了太多

      張雪峰前妻終于表態!稱只想和女兒安靜生活,直言前夫承受了太多

      萌神木木
      2026-04-07 16:07:31
      陳麗華去世,享年85歲:吃了唐僧肉,留下半條金寶街和一個唐僧

      陳麗華去世,享年85歲:吃了唐僧肉,留下半條金寶街和一個唐僧

      烏娛子醬
      2026-04-07 11:20:35
      馬斯克曾突然變臉,撕下美國遮羞布:沒了中國,誰也別想造電動車

      馬斯克曾突然變臉,撕下美國遮羞布:沒了中國,誰也別想造電動車

      近史談
      2026-04-02 19:12:33
      我接妻子下班,一男子突然拉住我,兄弟這我女友

      我接妻子下班,一男子突然拉住我,兄弟這我女友

      林林先生
      2026-03-26 15:05:39
      寶媽哭訴:脫褲子那一刻就沒了尊嚴!生娃七個尷尬瞬間,你中幾個

      寶媽哭訴:脫褲子那一刻就沒了尊嚴!生娃七個尷尬瞬間,你中幾個

      菁媽育兒
      2026-04-04 21:42:23
      伊朗總統說已準備好犧牲,超1400萬伊朗人愿為國捐軀

      伊朗總統說已準備好犧牲,超1400萬伊朗人愿為國捐軀

      每日經濟新聞
      2026-04-07 18:59:53
      起風了,特朗普被送醫救治?生命垂危消息傳開,魯比奧有望當總統

      起風了,特朗普被送醫救治?生命垂危消息傳開,魯比奧有望當總統

      回京歷史夢
      2026-04-07 18:43:24
      2026-04-07 20:43:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14918文章數 66754關注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      美軍拯救飛行員差一點失敗 從40英里外用攝像頭對準他

      頭條要聞

      美軍拯救飛行員差一點失敗 從40英里外用攝像頭對準他

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產

      財經要聞

      10萬億財政轉移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態體驗

      態度原創

      游戲
      藝術
      教育
      數碼
      公開課

      模組救場還是官方重做?GTA4重制版引發玩家激烈爭論

      藝術要聞

      美麗風光看不盡

      教育要聞

      教育部:學位論文抽檢,改革!

      數碼要聞

      1999元就能買Mini LED電視 海信Vidda小鋼炮S Mini開售

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版