網易首頁 > 網易號 > 正文申請入駐

比肩OpenAI Simple Codex，中國團隊闖入Terminal-Bench全球第二

2026-02-10 18:40:14　來源: 機器之心Pro

北京舉報

分享至

機器之心發布

Anthropic 和 OpenAI 硬碰硬推出 Claude Opus 4.6 和 GPT-5.3-Codex 后，基礎大模型的較量正式進入了實戰比拼階段。模型規劃更加謹慎，維持更長時間的自主工作流等能力提升正在試圖回應大模型商業化落地 “最后一公里” 的能力要求和用戶期待。

在兩家頂尖模型的硬核指標評測中，Opus 4.6 和 5.3-Codex 都不約而同的亮出了各自在 Terminal-Bench 2.0 上的比分，例如 Opus 4.6 用其在 Agentic Terminal Coding Task 上的 65.4% 證明其模型的出色表現，Sam Altman 通過 5.3-Codex 在 Terminal-Bench 2.0 上達到 77.3%（75.1%）的成績，宣稱其擁有目前最佳的編碼性能。

就在這個被 Anthropic 和 OpenAI 視為衡量 Agent 真實工程能力全球權威基準 Terminal-Bench 2.0 榜單上，中國團隊 Feeling AI 憑借 CodeBrain-1，搭載最新 GPT-5.3-Codex 底座模型，一舉沖到 72.9%(70.3%) 并躋身全球排行榜第二，成為榜單前 10 中唯一的中國團隊。

全球前二！僅次于 OpenAI Simple Codex

先直接來看 Feeling AI 的 CodeBrain-1 在 Terminal-Bench 2.0 上的排名和評測情況。

CodeBrain-1 緊追 Open AI 的 Simple Codex（GPT-5.3-Codex），Factory 的 Droid 使用 Anthropic 最新基模 Claude Opus 4.6 排名第三。

Terminal Bench 覆蓋的任務類型非常廣泛，其中既包括復雜的系統操作，也包含大量需要在真實終端環境中完成的編碼任務。而 CodeBrain-1 的核心關注點，是 “代碼能否被正確寫出并運行”。在技術實現上，CodeBrain-1 專注打磨了兩個直接影響 “能否成功且高效地完成任務” 的環節。

Useful Context Searching：只用 “真正有用” 的上下文。在復雜任務中，信息不是越多越好，而是是否相關，減少噪音可以有效避免 LLM 的幻覺問題。CodeBrain-1 會根據當前任務需求和已有 Code Base 索引，充分利用 LSP (Language Server Protocol) 的功能，提高關聯信息的檢索效率，有效輔助 Code Generation 的過程。比如當我們需要為一個游戲 Bot 規劃任務時，需要先了解如何使用該 Bot 的 API。CodeBrain-1 在 Coding 過程中，借助 LSP Search 準確獲取了 move_to (target)、do (action) 等相關方法的簽名、文檔和已有 Code Base 內的使用實例等信息，有效降低了關聯信息檢索的損耗和上下文干擾。
Validation Feedback：讓失敗真正變成信息。CodeBrain-1 可以從 LSP Diagnostics 當中高效定位，并補充錯誤相關的代碼和文檔，有效縮減 Generate -> Validate 的循環過程。比如 CodeBrain-1 編寫的代碼中出現了調用 on (observation, exec)（一個定義 Bot Reaction 的方法）時，出現了參數 exec 類型錯誤的問題，這時，LSP 除報錯 argument type mismatch 之外，還會額外提供該方法的 caller 示例、錯誤參數相關文檔、以及 exec 這個參數在實現中如何被使用等輔助信息。
團隊從 Terminal Bench 中篩選出了一個更聚焦硬核 coding 任務的子集， 47 條均可以使用單一程序語言（Python）完成的任務。在這一子集中，CodeBrain-1 也表現出了穩定而一致的完成能力：關聯代碼和文檔檢索更高效；在代碼檢查和驗證失敗時，能更快定位問題。

Rank Agent Model Py Tasks Coding Tasks All Tasks

1 Simple Codex GPT-5.3-Codex 73.9% 72.7% 74.9%

2 CodeBrain-1 GPT-5.3-Codex 72.3% 70.2% 70.3%

3 Droid Claude Opus 4.6 70.2% 66.8% 69.9%

4 Mux GPT-5.3-Codex 71.9% 69.2% 68.5%

5 Droid GPT-5.2 66.0% 61.6% 65.1%

6 Ante Gemini 3 Pro 66.8% 62.7% 64.9%

7 Terminus 2 GPT-5.3-Codex 64.7% 61.4% 64.7%

8 Junie CLI Gemini 3 Flash 68.9% 62.7% 64.3%

9 Droid Claude Opus 4.5 62.1% 58.3% 63.1%

10 Terminus 2 Claude Opus 4.6 67.2% 63.1% 62.9%

此外，在 Token 的消耗方面，CodeBrain-1 也展現出了不俗的表現，可持續降低用戶成本。對比 Anthropic 發布的技術文檔，當基模均使用 claude opus 4.6 時，使用CodeBrain-1 和 Claude Code 在兩者均成功的 Py Tasks 子任務上所消耗的總 Token 大幅縮減了超 15%。

CodeBrain-1—— 會動態調整計劃與策略的 “大腦”

CodeBrain-1 在 Terminal-Bench 2.0 上的強勢表現還不僅僅體現在真實命令行終端（CLI）環境下的端到端任務執行能力。更重要的，團隊進一步的賦予了它更高階的能力 —— 會動態調整計劃與策略的 “大腦”，它通過優化任務的執行邏輯和錯誤反饋機制，顯著提升了模型在真實終端環境下的操作成功率。

例如在大多數游戲中，角色的 “智能” 主要由游戲策劃與 Gameplay 程序提前定義，包括行為規則、觸發條件、狀態切換和響應邏輯。這種方式在工程上是可控的，但也存在明顯限制：行為往往是靜態的、可枚舉的；想要表現出 “更聰明” 的反應，通常需要大量手工規則和長期打磨；一旦環境復雜或情況超出預期，智能表現就會迅速退化。這也是為什么高智能特性往往意味著極高的開發與維護成本。

CodeBrain-1 提出了一種不同的解決方式。并非讓 AI 直接 “隨意發揮”，而是反過來調整分工方式。比如在游戲設計階段，只由人類定義智能的 “維度” 和 “基調”，將具體行為與策略的生成，交給 AI 在受限空間內動態完成。在這種模式下，設計者不再需要窮舉每一種行為，而是定義人類用戶在意什么（目標、偏好、性格維度），記住什么（觀察、歷史、群體經驗）以及在什么范圍內可以調整計劃與策略。CodeBrain-1 則負責在這些約束條件內，動態生成 “智能” 所對應的可執行程序，并根據實際反饋不斷調整。

這里的 “計劃和策略” 既可以作用在個體層面，也可以作用在群體層面。對個體而言，它意味著角色可以根據自身目標、記憶和觀察結果，持續調整日程、行為選擇和對他人的態度對群體而言，它意味著一個組織可以形成共享記憶，并基于外部條件變化，調整整體規劃和響應規則。

Terminal-Bench 2.0 和 CodeBrain-1 的含金量

Terminal-Bench 是由斯坦福大學與 Laude Institute 共同開發的開源基準測試套件，專門用于評估 AI 智能體在真實命令行終端（CLI）環境下的端到端任務執行能力。相較于傳統的代碼生成評測，它的核心特點包括：

真實的操作環境：測試在隔離的 Docker 容器中進行，AI 必須像人類工程師一樣，在真實的 Linux 環境中進行編譯、調試、訓練模型或部署服務。
長程硬任務 (Hard Tasks)：包含 89 個精心設計的任務，覆蓋軟件工程、系統管理、科學計算和數據處理等領域。這些任務通常需要多個步驟，無法通過簡單的模式匹配來完成。
嚴苛的自動驗證：每個任務都配備了人類編寫的標準答案和自動驗證腳本。系統根據任務產出（如生成的證書、修復的代碼或運行的服務）進行 0/1 判定，確保結果的可靠性。
2.0 版升級重點：相比 1.0 版本，2.0 顯著提升了任務難度和驗證的嚴格程度。目前頂級大模型在該基準上的得分通常低于 65%，暴露出 AI 在處理復雜系統級任務時的瓶頸。

Terminal-Bench 2.0 的任務難度很高，即使是頂尖模型也未能實現完美的解決率。CodeBrain-1 首次上榜就殺到了全球第二的位置，含金量不言而喻。以 GPT 系列模型為例，模型通常具有極強的 Reasoning Chain，但有時會產生 “想得太多” 導致的執行延遲。CodeBrain-1 作為 “節流閥” 和 “校準器”，引導模型只在關鍵報錯點進行深度思考，而在常規 CLI 操作中保持高效率，這也將是拉開大模型商業落地差距的核心技術點。

強大的 Agent 框架可以彌補 “模型” 與 “真實環境” 的鴻溝。打開一個終端，執行命令，捕獲報錯信息，并將錯誤反饋給模型讓其修正。如果沒有這個框架，模型只能 “紙上談兵”。
Agent 框架在狀態管理與長程規劃 (Long-term Planning) 上至關重要。Terminal-Bench 2.0 的任務通常包含幾十個步驟。基礎模型往往容易在復雜的上下文中 “迷路” 或產生幻覺。而 Agent 框架充當了記憶和規劃模塊。它記錄了已經執行過哪些命令、當前目錄結構是什么、哪些嘗試失敗了，確保模型始終朝著最終目標前進。
解決 “自我修正” 循環，這是 CodeBrain-1 的核心價值。在真實終端中，代碼運行報錯是常態。單純的只依賴模型可能會陷入循環報錯，Agent 框架則引入的推理閉環 (Reasoning Loop)。它會分析 stderr（標準錯誤輸出），通過內置的邏輯過濾干擾信息，只把關鍵沖突反饋給模型，引導模型實現高效的 “試錯 - 改進”。
此外，工具調用標準化和成本與效率優化也不容忽視。模型的能力在不斷進化的同時，推理成本昂貴的問題始終無法繞開，Agent 框架通過預處理和結構化提示詞，減少了模型所需的上下文長度（Token），讓任務執行得既快又省。

OpenAI 在其官網技術博客中明確將 Simple Codex 定義為 “針對長程軟件工程任務的最優解”。模型和 Agent 框架的組合似于 “賽車手 + F1 賽車”。好的模型就是那個頂尖的賽車手，而 Agent 框架則是那臺專為奪冠調教的賽車。一個能駕馭全球頂尖模型的中國框架，意味著中國團隊在 AI 時代的 “高級操作系統” 競爭中正躋身全球更前沿的位置。

大模型商業落地的最后一公里

CodeBrain-1 并不是一個 “更會說話” 的 AI，而是一個由 Code 組成、能夠持續調整計劃與策略的執行型大腦。

OpenAI 聯合創始人 Andrej Karpathy 認為模型作為 AI 的內核至關重要，但 Agent 框架作為 AI 的操作系統也不容忽視。我們不應該只關注模型寫代碼的能力，更應該關注它在復雜環境中的自主解決問題能力。Sam Altman 在 GPT-5.3-Codex 發布后宣稱 Codex 從一個能夠編寫和審查代碼的代理，變成了一個幾乎可以執行開發人員和專業人士在計算機上任何操作的代理。

基礎模型公司雖然強大，但各行各業的垂直場景都離不開良好的的工程框架，不論是更系統的 Agent 框架還是小而美的開發者效率工具，這些離用戶更近一步的機會都暗藏著巨大的商業價值。

AI 的第一波浪潮是模型（Model-centric），而第二波浪潮將是應用與工作流（Workflow-centric）。紅杉資本曾預言，未來的勝者是那些能控制工作流的公司，資本無法忽視那些能夠將模型能力轉化為實際產出的 “強大能力”。

Feeling AI 認為動態交互是世界模型通向 AGI 的終極拼圖。他們把世界模型的實現分成了 InteractBrain（理解、記憶與規劃），InteractSkill（能力與執行）和 InteractRender（渲染與呈現）三層。MemBrain 幾天前剛在Agentic Memory 領域拿下全球 SOTA，CodeBrain 作為會動態調整計劃與策略的 “大腦” 又迅速躋身全球前列，“世界模型 InteractBrain” 在一周內被這家創業公司用 “MemBrain+CodeBrain” 兩張牌強勢證明了。

在 OpenAI 和 Anthropic 主導的生態位下，中國團隊作為 “框架定義者” 殺入競爭，這也代表了中國 AI 技術創新路徑的獨特性。他們看上去在走一條沒有捷徑的道路，攻破每一城也絕非易事，但這也許正是中國的創業者們孜孜不倦試圖回答的 “硬核難題”。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.