網易首頁 > 網易號 > 正文申請入駐

國內量化圈的第二個AI選手來了，開源模型代碼跑分超 GPT-5.1

2026-01-02 16:32:06　來源: DeepTech深科技

北京舉報

分享至

2026 年開年，國內量化私募九坤投資創始團隊旗下的至知研究院（IQuest Research）發布了首代開源代碼大模型系列 IQuest－Coder－V1。

這家研究機構聲稱，其 40B 參數的旗艦模型在 SWE－bench Verified 基準測試中拿下了 81.4％的成績，超越了 Claude Sonnet 4.5 的 77.2％和 GPT－5.1 的 76.3％。模型已在 GitHub 和 Hugging Face 上全面開源，涵蓋 7B、14B、40B 三種參數規模，以及標準版和 Loop 變體。

圖丨IQuest－Coder－V1的架構（來源：GitHub）

至知研究院由九坤投資創始團隊發起設立，定位為獨立于量化投研體系的 AI 研究平臺。

九坤本身是國內最早將深度學習大規模應用于量化投資的機構之一，2020 年投資過億建成 AI 超算集群“北溟”，旗下三大實驗室長期從事數據、算法和交易執行研究。繼幻方量化孵化出 DeepSeek 之后，這是又一家從量化圈走出來的 AI 研究力量。

IQuest－Coder－V1 技術報告中最值得關注的是 Code－Flow 訓練范式對 commit 演化數據的利用。傳統代碼模型基于靜態代碼文件訓練，相當于讓模型看一堆代碼快照。IQuest－Coder 的做法不同：它試圖讓模型學習代碼倉庫的演化軌跡——不只是代碼長什么樣，還要學習代碼是怎么一步步改出來的。

具體來說，他們為每個代碼倉庫構建了形如（R_old， P， R_new）的三元組訓練數據。R_old 代表項目在某個穩定開發階段的代碼狀態，P 是捕捉兩個狀態差異的 Patch 信息（即 commit 變更），R_new 則是迭代后的新狀態。

選取起點時有個講究：他們避開了項目早期不穩定的探索性代碼和后期碎片化的維護性修改，專門聚焦于項目生命周期 40％到 80％區間的“成熟期”。理由是這個階段的代碼庫相對穩定，變更模式更能反映真實的軟件開發邏輯。

這個思路有一定道理。程序員在修 bug 或加新功能時，腦子里轉的不是“這段代碼是什么”，而是“這段代碼要從什么狀態變成什么狀態”。

Commit 記錄天然包含了這種“變更意圖”——為什么改、改了哪里、改完之后整體結構如何調整。如果模型能從大量 commit 歷史中學到這種模式，理論上應該比只看靜態代碼更擅長理解“怎么改代碼”。

這也解釋了為什么 IQuest－Coder 在 SWE－bench 這類需要生成 patch 修復 issue 的任務上表現突出——任務形式本身就和訓練數據的結構高度吻合。技術報告中提到的一個發現印證了這點：倉庫演化數據（repository transition data）在任務規劃能力上提供了比靜態快照更好的訓練信號。

圖丨研究團隊展示的太陽系模擬示例（來源：IQuest Lab）

預訓練階段，IQuest－Coder 先用通用數據和代碼數據打底，隨后用高質量代碼語料進行退火（Annealing）。這部分比較常規。中間訓練階段則分兩期進行：他們在 32K 上下文長度下注入了推理數據、Agent 軌跡和代碼數據的混合，隨后將上下文擴展到 128K，加入倉庫級的長序列樣本。

Agent 軌跡數據包含完整的“行動－觀察－修正”循環——命令執行、日志輸出、錯誤信息、測試結果等環境反饋。技術報告的說法是，推理數據提供符號層面的邏輯腳手架，Agent 軌跡則提供“閉環智能”，讓模型學會根據環境反饋調整行為。他們聲稱在高質量代碼退火之后、后訓練之前注入這類數據，能在分布偏移下穩定模型性能。

后訓練階段分成兩條路徑：Thinking 路徑先用包含顯式推理軌跡的數據做監督微調，再用強化學習優化推理能力；Instruct 路徑則用通用和代碼指令數據做監督微調，再用 RL 增強指令遵循能力。

技術報告聲稱，Thinking 版本在長程任務中展現出了自主錯誤恢復（error－recovery）能力，而這種能力在標準 Instruct SFT 路徑中幾乎觀察不到。換言之，RL 可能是解鎖代碼模型“自主調試”能力的關鍵。

圖丨訓練流程（來源：GitHub）

架構方面，Loop 變體的設計比較有意思。LoopCoder 采用循環 Transformer 架構，讓參數共享的 Transformer 塊執行兩次固定迭代。第一次迭代正常處理輸入嵌入，第二次迭代同時計算兩種注意力：全局注意力（iteration 2 的 queries attend to iteration 1 的所有 key－value 對）和局部注意力（維持因果性的常規自注意力）。

兩種注意力的輸出通過一個基于 query 表示的學習門控機制加權混合。這種設計的目的是在有限參數規模下獲得更高的有效計算深度，即用參數共享換取更多計算步驟，在部署效率和模型能力之間找平衡。

后訓練的 Thinking 路徑也值得一提。技術報告聲稱，通過強化學習訓練的 Thinking 版本在長程任務中展現出了自主錯誤恢復（error－recovery）能力，而這種能力在標準 Instruct SFT 路徑中幾乎觀察不到。如果屬實，這意味著 RL 可能是解鎖代碼模型“自主調試”能力的關鍵，模型不只是生成代碼，還能在出錯后自我修正。

根據技術報告，IQuest－Coder－V1－40B－Loop－Instruct 在 SWE－bench Verified 上取得了 81.4％的解決率，在 BigCodeBench 上拿下 49.9％，在 BFCL（Berkeley Function Calling Leaderboard，伯克利函數調用排行榜）V3 上達到 73.8％，在 Mind2Web 上取得 62.5％，在 Terminal－Bench v1.0 上達到 51.3％。而 Thinking 版本在 LiveCodeBench v6 上的成績是 81.1％，在 CRUXEval 的 Input－COT 和 Output－COT 上分別達到 98.5％和 99.4％。

圖丨基準測試結果（來源：IQuest－Coder－V1）

當然，SWE－bench Verified 只覆蓋 Python 且僅含 500 個樣本，社區對“針對榜單優化”的擔憂一直存在。其在實際使用中的表現如何，有待社區的進一步測試反饋。

從技術貢獻看，IQuest－Coder－V1 最有價值的部分可能是對 commit 演化數據的系統性利用。這個方向此前在學術界有過探索，但在開源模型的大規模訓練中應用得并不多。技術報告承諾會開源完整訓練流程和中間檢查點，這對研究代碼模型如何學習軟件工程能力將是有價值的參考。至于跑分能否轉化為實際生產力，要等更多開發者上手實測才能下結論。

參考資料：

1. https://iquestlab.github.io/#/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.