<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<blockquote id="cpmxq"><p id="cpmxq"></p></blockquote>

<em id="cpmxq"></em>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

剛剛，全球最難考試驚天大反轉！黑馬AI沖破36%，頂流模型集體翻車

2026-03-27 13:32:12　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：Aeneas KingHZ

【新智元導讀】就在昨天，ARC-AGI-3剛把全球頂尖大模型按在地上摩擦，結果一家名不見經傳的公司卻給出驚天消息：他們的AI在首日就取得了36.08%的成績！這匹黑馬究竟靠什么撕開全球最難AI考試的鐵幕？是真突破，還是另有玄機？

驚天大反轉！

就在昨天，給AI的最難測試ARC-AGI-3橫空出世，全球大模型一夜被血洗。

最強的頂流模型Opus 4.6，都只拿了0.2%分，簡直慘不忍睹。與此同時，人類卻大大領先，拿到了滿分的好成績。

這讓圍觀群眾們大吃一驚：無論是老黃，還是提出AGI概念發明人，都認為如今我們已經到達了AGI，難道我們真的離AGI如此遙遠？

出人意料的是，短短一天內，ARC-AGI-3就被破解了！

就在剛剛，一家名為Symbolica的公司宣布稱：

使用Agentica框架，我們在ARC-AGI-3測試中首日就取得了36.08%成績，全面碾壓CoT模型基線。

182個關卡中，他們已經順利通關了113個。25個可用游戲中，他們完成了7個。

全球最難考試，被一把撕開缺口！

Symbolica首日爆冷，沖上36%

就在人們還在為Opus 4.6那可憐的0.2%得分唏噓不已，甚至開始懷疑「AGI是否只是大廠編織的幻夢」時，轉機就以驚喜的方式降臨了。

Symbolica的Agentica框架，為什么在ARC-AGI-3發布首日就能交出36.08%的驚人成績單？

Agentica（Symbolica）基于Symbolica構建的ARC-AGI-3專用智能體系統。

要知道，在ARC-AGI-3那個近乎變態的評分公式——(人類步數 / AI步數)^2——面前，大模型領頭羊們還都在迷霧里原地打轉呢。36.08%這個分數，簡直是降維打擊。

要理解Symbolica為什么能贏，首先要明白Opus 4.6和GPT-5.4是怎么輸的。

ARC-AGI-3與前兩代最大的不同，就在于它不是「靜態看圖說話」，而是一個交互式黑盒游戲。

當一個基于純粹LLM的智能體進入游戲，它最致命的弱點是：試圖用聯想代替邏輯，用模式匹配代替實驗。

大模型在面對未知環境時，會利用龐大的預訓練知識庫進行「腦補」。看到紅色方塊和藍色線條，可能就會聯想到「推箱子」或者「水位平衡」，然后基于這個錯誤的假設瘋狂輸出CoT。

如果假設錯了，它也不會停下來反思，而是會在錯誤的道路上越跑越遠，直到步數耗盡，得分歸零。

ARC-AGI-3恰好針對AI的這些弱點，在100%可由人類解決的環境中，衡量AI的三大能力：

隨時間推移的技能獲取效率
稀疏反饋下的長程規劃能力
跨多步、由經驗驅動的適應能力

而Symbolica的Agentica框架，走出了一條完全不同的技術路徑！

Agentica原生支持多智能體架構，并具備設計上的可并行性。它會自動將復雜任務拆解為子問題，并將工作委派給子智能體并行完成。

這意味著智能體能夠保持高效推進，開箱即用地更快完成任務！

Agentica是一個類型安全的AI框架，能夠讓LLM智能體與代碼無縫集成：包括函數、類、活動對象，乃至整個SDK。

此前，憑借強大的長程推理任務，Symbolica就曾在ARC-AGI-2上取得SOTA成績，Agentica SDK為此立下了汗馬功勞。

核心秘訣：Arcgentica RLM harness

從GitHub頁面中，我們在IDEA.md這個文件中，發現了Agentica框架的絕技——ARC-AGI-3智能體框架（Agent Harnesses）。

GitHub地址：https://github.com/symbolica-ai/ARC-AGI-3-Agents

Agent Harnesses，是最近的絕對熱詞了，在Anthropic的官方博客和業內各位大咖的討論中，它一直在被不斷提及。

如果說2025年是智能體黃金時代的起點，那么2026年將聚焦于智能體框架（Agent Harnesses）。

智能體框架是一種圍繞AI模型構建的基礎設施，用于管理長時間運行的任務，但它本身并不是智能體。

這次，Agentica從零開始理解游戲機制，而且在沒有任何特定游戲提示的情況下，解決多個關卡謎題。

這個基于Agentica SDK構建的Arcgentica RLM框架，有何特別之處？

首先，是游戲無關性。

ARC-AGI-3之所以難，是因為它剝離了所有自然語言提示。人類能過關，是因為我們擁有物理直覺。

為此，Agentica采取了最極端的「游戲無關性」（Game-agnostic）策略。

智能體不知道顏色代表什么，動作的作用是什么，或者獲勝條件是什么，僅通過與游戲互動并觀察變化來推斷一切。

這種空白狀態，反而成就了它。

第二，是「統籌者 + 專業子智能體」的模式。

頂級統籌者，從不直接操作游戲，它將任務委派給子智能體，積累知識，并決定下一步的行動。

專業子智能體包含：探索器、理論家、測試器和解題機（explorers，theorists，testers，solvers）

如果它開始查看網格，其上下文就會被像素數據填滿，從而失去戰略思考能力。子智能體以簡短的文本摘要形式匯報，而不是原始數據。

這種非中心化計策結構的精妙設計，讓它規避了Opus 4.6等模型中「同一個大腦既要看像素、又要記規則、還要指揮動作」的嚴重缺陷。

第三，是它的「共享記憶」機制。

游戲期間，所有智能體共享一個memories數據庫。子智能體在工作過程中會記錄已確認的事實（場景布局、機制、獲勝條件）和假設（并明確標記）。

新智能體在啟動前會查詢記憶，因此它們可以繼承集體知識。

第四，是「關卡切換」機制。

關卡切換：當一個關卡被解出后，下一個關卡會在同一次操作中直接加載，返回的畫面已經是新關卡。

只有當所有關卡都通關時，才會觸發state=WIN；單個關卡的完成則通過觀察levels_completed的增加來判斷。

第五點，Agentica有嚴苛的行動預算管理，每一枚token都要花在刀刃上。

所有關卡的總操作次數是有限的（約 800 次）。調度器會通過make_bounded_submit_action(limit)為各個子智能體分配操作額度。系統會要求智能體避免重復操作，除非確實卡住。

而且，會優先進行有針對性的嘗試，而不是暴力式的窮舉探索。

另外，還有子智能體需要按需分配工具、調度器需要在復用與重啟之間權衡等規定。

要知道ARC-AGI-3的官方定位，正是強調「需要探索、感知 → 規劃 → 行動、記憶、目標獲取與對齊等能力」。

而Agentica的分工與控制策略，幾乎是對這些能力的「工程化拆解」：

探索（Exploration）：由子智能體探索器（explorers）在動作預算下執行，盡量用差分觀測提取「機制線索」。

計劃/推理（Planning/rule inference）：由子智能體理論家（theorists）在「不允許submit_action」的約束下推導規則，降低無意義動作消耗。

記憶（Memory）： memories 數據庫的顯式化讓跨關卡策略復用更直接，降低「重復學習」的動作與token 成本。

長程適配：關卡過渡由 levels_completed 檢測，統籌者（orchestrator）決定沿用策略還是重新進入探索循環。

顯然，這套機制與ARC-AGI-3的評分結構（后期關權重更高、效率平方懲罰）十分適配——它鼓勵系統把動作花在「信息增益最高」的實驗上，并盡快把策略遷移到更高權重關卡。

36.08%的高分，是否有水分？

不過，36%的成績無疑是耀眼的，但在經過ARC Prize官方驗證之前，Symbolica的「爆冷」依然籠罩著幾層迷霧。

Symbolica也承認，這一成績，目前沒有得到ARC-AGI-3組委會的官方認證。

材料中有一句非常關鍵的話：「unverified competition score」（未經驗證的成績）

Symbolica目前的成績是基于其自行搭建的環境，還是嚴格復刻了官方的評估流程？這需要打一個問號。

而且，公布的得分明細表中，也有一些不尋常的細節。

比如，Symbolica指出「通過ARC-AGI-3 API獲取的人類基線分數表明，游戲cn04總共有6個關卡。這與通過API獲取的相應游戲的關卡數量不符。」

如果官方數據存在版本混亂，那分數的有效性也就令人質疑。

另外，在得分明細圖中可以看出，像LP85、AR25等游戲得分極高（80%-97%），而SP80、BP35等游戲得分極低（0.2%-0.7%）。

這種嚴重的兩極分化，是否是過擬合導致的？

畢竟，如果是真正的通用智能，應該在所有游戲上表現都相對均衡。

人心所向：AGI的終極測試

昨天，ARC-AGI-3一出，就獲得了萬眾矚目，得到OpenAI、谷歌、xAI等多位AI大佬的認可。

昨日，ARC-AGI-3正式發布時，奧特曼更是到現場力挺。

這個新的基準測試，被公認為始終通向AGI的「北極星」。

長期以來，AI界的度量衡被鎖死在靜態基準的框架里。

然而，當OpenClaw這類「暴力進化」的AI智能體出現，行業顯然急需一把解剖刀，去切開「主動式智能」的黑盒：比如深不見底的探索欲，毫秒級的感知決策，復雜的路徑規劃，以及近乎直覺的目標對齊。

賽題：https://www.kaggle.com/competitions/arc-prize-2026-arc-agi-3/data

ARC-AGI-3祭出的考題，是在逼問AI：在完全陌生的規則面前，你是否具備人類那種抽象與推理的本能？

ARC AGI 3技術報告見下列鏈接：

https://arcprize.org/media/ARC_AGI_3_Technical_Report.pdf

在這里，每款游戲都需要智能體進行探索、理解并解決。滿分（100%）意味著AI智能體能夠像人類一樣高效地通關所有游戲。

目前，最好成績為0.25，也就是相當于人類基線的25%。

ARC-AGI-3更重要的意義，不是發布新的AI測試，不是草根逆襲AI巨頭的爽文，而是開啟了新智能體類型——智能體思考。

巧合的是，幾乎于ARC-AGI-3發布同時，林俊旸發表了對過去兩年的總結，指出了相同的趨勢：

自主性思考（agentic thinking）將成為主流的思考方式。

即使面對極其困難的數學或編程任務，一個真正先進的（AI）系統也應有權進行搜索、模擬、執行、檢查、驗證和修正。

本質上，智能體式思考，是模型通過行動來進行推理，關注的是模型在與環境交互的過程中能否持續取得進展。

他指出AI推理能力核心問題從「模型能否思考足夠長時間」轉變為「模型能否以維持有效行動的方式進行思考」。

ARC-AGI-3的背后宗旨，和林俊旸的思考，無疑不謀而合了。

巧合之處，恐怕就是行業的下一個方向。

參考資料：

https://x.com/JustinLin610/status/2037116325210829168

https://github.com/symbolica-ai/ARC-AGI-3-Agents

https://www.symbolica.ai/blog/arc-agi-3

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

易中天，獲獎勵20萬元

極目新聞 2026-04-06 21:04:19
26218 跟貼 26218
陳麗華47歲倒追遲重瑞財富傳承披露：1兒2女均在富華

極目新聞 2026-04-07 12:39:33
1721 跟貼 1721

“祖先給的特權”，河南網友稱祖墳在景區祭祖免票，景區回應：沒過檢票口，一般是附近住戶的祖墳

大風新聞 2026-04-06 15:06:12
2294 跟貼 2294

“虧大了”？浙江多個小區物業主動撤場，業主卻稱：錢花得冤，背后有筆算不攏的賬

環球網資訊 2026-04-07 14:42:45
1 跟貼 1
國家繼續實施調控成品油價格適當調整

財聯社 2026-04-07 15:04:33
1125 跟貼 1125

毛新宇攜家人到楊開慧烈士陵園祭掃

政知新媒體 2026-04-05 08:48:13
2610 跟貼 2610

趙心童創“三冠”新紀錄，英媒直呼：其統治力“令對手膽寒”

環球網資訊 2026-04-07 06:56:17
125 跟貼 125
鄭麗文率團抵達南京開始大陸參訪行程

央視新聞客戶端 2026-04-07 19:03:20
42 跟貼 42

張雪公布自己設計的跨界踏板車設計圖，最新回應：正在制作踏板摩托，這款踏板偏運動越野風格，售價可能比傳統的貴一點

魯中晨報 2026-04-07 17:13:05
0 跟貼 0
紫牛頭條｜對話張雪師父“牙哥：賽車夢想托付張雪，我的夢想是為中國飛機出份力

揚子晚報 2026-04-06 22:26:58
179 跟貼 179
廣州外賣騎手去年平均薪酬15萬，快遞員、貨車司機收入下降

南方都市報 2026-04-07 18:12:09
27 跟貼 27
廣州越秀白云或現嚴重回南天！近期全省雨霧頻繁空氣濕度偏高

南方都市報 2026-04-07 10:20:10
66 跟貼 66
美國眾議院民主黨議員推動彈劾防長赫格塞思

新京報 2026-04-07 12:30:07
60 跟貼 60
楊元慶，捐贈2億元！

證券時報 2026-04-06 22:44:23
883 跟貼 883
夏航季東航將采用國產大飛機C919執飛上海航線

黑龍江新聞網 2026-04-06 22:32:19
790 跟貼 790
中國3月外匯儲備33421.23億美元

界面新聞 2026-04-07 16:08:50
244 跟貼 244
賽力斯：公司不承擔其他品牌門店的建店、運營相關費用

每日經濟新聞 2026-04-07 15:53:45
10 跟貼 10
下個小長假，不是“五一”？！

最江陰 2026-04-07 11:07:24
337 跟貼 337
家國永念｜一個有希望的民族不能沒有英雄

國際在線 2026-04-07 10:18:15
723 跟貼 723
28年26場訪談，余華《我只要寫作，就是回家》出新版

澎湃新聞 2026-04-07 08:26:28
58 跟貼 58
福建警方通報“車輛墜河致5人遇難”

新快報新聞 2026-04-07 20:14:14
0 跟貼 0
爆胎貨車遇險情，漢中警車護送保平安

縱享漢中 2026-04-07 20:10:53
0 跟貼 0
一庫房突發火情，甘肅榆中應急管理局：主要為輪胎及家電著火，未造成人員傷亡，起火原因調查中

環球網資訊 2026-04-07 20:13:04
0 跟貼 0
飛向月球不到48小時 "阿耳忒彌斯2號"廁所先撐不住了

澎湃新聞 2026-04-06 22:05:04
0 跟貼 0

教師大局定了：若無意外，2026年中國教師隊伍可能會有3大變化

教師大局定了：若無意外，2026年中國教師隊伍可能會有3大變化

王姐懶人家常菜

2026-04-07 04:04:11

國央企“軟裁員”有多狠？不罵不裁不找茬，四招讓你主動提離職

國央企“軟裁員”有多狠？不罵不裁不找茬，四招讓你主動提離職

復轉這些年

2026-04-05 17:50:56

【意甲】阿萊格里：爭冠失敗！AC米蘭0-1客負那不勒斯

【意甲】阿萊格里：爭冠失敗！AC米蘭0-1客負那不勒斯

體壇周報

2026-04-07 08:20:12

本賽季至今，約基奇一共拿到33次三雙，東契奇8次，那威少呢？

本賽季至今，約基奇一共拿到33次三雙，東契奇8次，那威少呢？

兵哥籃球故事

2026-04-07 15:29:49

廣東3消息！杜鋒強調球隊困難，焦泊喬婉拒歸隊，薩姆納傷缺兩周

廣東3消息！杜鋒強調球隊困難，焦泊喬婉拒歸隊，薩姆納傷缺兩周

多特體育說

2026-04-06 22:44:40

莫蘭特灰熊生涯倒計時？重發神秘推文引猜測，這回真要走？

莫蘭特灰熊生涯倒計時？重發神秘推文引猜測，這回真要走？

仰臥撐FTUer

2026-04-07 19:45:42

金正恩稱韓國總統的道歉乃“寬宏大量之人”的行為

金正恩稱韓國總統的道歉乃“寬宏大量之人”的行為

遁走的兩輪

2026-04-07 19:58:01

戰爭有多燒錢，網友說我講一下我家里的局部戰爭你就明白

戰爭有多燒錢，網友說我講一下我家里的局部戰爭你就明白

侃神評故事

2026-04-06 11:45:08

初選結果出爐，藍營候選人落敗，張啟楷發聲！黃國昌耐人尋味

初選結果出爐，藍營候選人落敗，張啟楷發聲！黃國昌耐人尋味

愛意隨風起呀

2026-04-07 16:19:47

民進黨，極有可能在下一屆臺灣地區選舉后，成為長期一家獨大政黨

民進黨，極有可能在下一屆臺灣地區選舉后，成為長期一家獨大政黨

李橑在北漂

2026-04-02 10:22:26

中國不記隔夜仇！巴拿馬接到通知，美國終于下場，巴政府自食惡果

中國不記隔夜仇！巴拿馬接到通知，美國終于下場，巴政府自食惡果

書紀文譚

2026-04-06 23:14:24

29記三分仍輸球！騎士142-126大勝灰熊，哈登缺席9人上雙

29記三分仍輸球！騎士142-126大勝灰熊，哈登缺席9人上雙

郝小小看體育

2026-04-07 11:21:56

再見諸葛馬龍！掘金給火箭送大禮，卡馬拉轟30+5比伊森強

再見諸葛馬龍！掘金給火箭送大禮，卡馬拉轟30+5比伊森強

籃球看比賽

2026-04-07 13:18:10

張雪峰前妻終于表態！稱只想和女兒安靜生活，直言前夫承受了太多

張雪峰前妻終于表態！稱只想和女兒安靜生活，直言前夫承受了太多

萌神木木

2026-04-07 16:07:31

陳麗華去世，享年85歲：吃了唐僧肉，留下半條金寶街和一個唐僧

陳麗華去世，享年85歲：吃了唐僧肉，留下半條金寶街和一個唐僧

烏娛子醬

2026-04-07 11:20:35

馬斯克曾突然變臉，撕下美國遮羞布：沒了中國，誰也別想造電動車

馬斯克曾突然變臉，撕下美國遮羞布：沒了中國，誰也別想造電動車

近史談

2026-04-02 19:12:33

我接妻子下班，一男子突然拉住我，兄弟這我女友

我接妻子下班，一男子突然拉住我，兄弟這我女友

林林先生

2026-03-26 15:05:39

寶媽哭訴：脫褲子那一刻就沒了尊嚴！生娃七個尷尬瞬間，你中幾個

寶媽哭訴：脫褲子那一刻就沒了尊嚴！生娃七個尷尬瞬間，你中幾個

菁媽育兒

2026-04-04 21:42:23

伊朗總統說已準備好犧牲，超1400萬伊朗人愿為國捐軀

伊朗總統說已準備好犧牲，超1400萬伊朗人愿為國捐軀

每日經濟新聞

2026-04-07 18:59:53

起風了，特朗普被送醫救治？生命垂危消息傳開，魯比奧有望當總統

起風了，特朗普被送醫救治？生命垂危消息傳開，魯比奧有望當總統

回京歷史夢

2026-04-07 18:43:24

AI產業主平臺領航智能+時代

14918文章數 66754關注度

往期回顧全部

科技要聞

滿嘴謊言！OpenAI奧特曼黑料大起底

頭條要聞

美軍拯救飛行員差一點失敗從40英里外用攝像頭對準他

頭條要聞

美軍拯救飛行員差一點失敗從40英里外用攝像頭對準他

體育要聞

官宣簽約“AI球員”，這支球隊被罵慘了...

娛樂要聞

女首富陳麗華離世被曝生前已分好遺產

財經要聞

10萬億財政轉移支付，被誰拿走了？

汽車要聞

不止是大極狐首款MPV問道V9靜態體驗

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

藝術

教育

數碼

公開課

模組救場還是官方重做?GTA4重制版引發玩家激烈爭論

藝術要聞

美麗風光看不盡

教育要聞

教育部：學位論文抽檢，改革！

數碼要聞

1999元就能買Mini LED電視海信Vidda小鋼炮S Mini開售

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<cite id="e1s6z"><track id="e1s6z"></track></cite>

<cite id="e1s6z"><track id="e1s6z"></track></cite>

<wbr id="e1s6z"><cite id="e1s6z"></cite></wbr>