九坤投資旗下的至知創新研究院發布了開源編程Agent模型IQuest-Coder-V1。至知研究院在AI領域名氣不大,但這個模型的benchmark數據直接對標了行業頂尖水平。
母公司是量化私募,發布時間是1月,這兩個特征組合在一起,很容易讓人想起去年同期的DeepSeek R1。
事實上,去年DeepSeek R1發布的時候也是相同的情況,一個知名度不高的公司,發布了一個行業頂尖的模型。
那么IQuest-Coder-V1會是下一個“DeepSeek時刻”嗎?
暫時還不好下結論。
根據JetBrains的《2025 開發者生態系統現狀報告》,全球85%的開發者已經在使用AI工具,全球41%的代碼由AI生成,但這些工具大多停留在輔助層面。
從OpenAI到Anthropic,各家在2025年底密集推出的agent產品,都將代碼作為突破口。
所以至少可以肯定,編程Agent就是下一個風口。
01
IQuest-Coder-V1不是一個簡單的代碼補全工具,而是一個能夠自主完成軟件工程全流程的代碼大語言模型。
過去的AI編程助手的作用是自動補全,你寫一半代碼,它幫你接下去。而IQuest-Coder-V1則是能夠從零開始理解需求、設計架構、編寫代碼、測試調試,甚至進行多輪迭代優化。
IQuest-Coder-V1有三個很關鍵的技術點。
第一是40B的參數規模。相比GPT-5和Gemini 3等動輒數千億參數的模型,40B只是它們的幾十分之一左右。
也就是說,IQuest-Coder-V1可以在性能稍好的消費級硬件上運行,而不需要專業的數據中心級別算力。
第二個特點是Loop架構。
這個名字很直白,模型會循環迭代自己的輸出。就像程序員寫完代碼會回過頭檢查、修改、重構一樣,Loop架構讓模型在生成代碼后能夠反思和改進。
但Loop架構不是簡單的多次調用,而是將迭代優化的過程內化到模型架構中。簡單概括就是IQuest-Coder-V1會超額完成任務,以確保最終輸出的結果覆蓋用戶的需求。
Loop版本讓模型“走兩遍”相同的神經網絡,就像你讀文章時會回頭重讀關鍵段落,第二遍往往能發現第一遍沒注意到的問題。
第三個特點是code-flow訓練范式。
傳統的代碼模型學習的是代碼片段,學習的是靜態的語法和API調用模式。用大白話來解釋,AI可以完美復刻它所學習的代碼,卻不理解為什么要這么寫。
但IQuest-Coder-V1學習的是軟件如何一步步演化出來的,學習的是動態的邏輯演進。這讓模型不僅理解“這段代碼是什么”,還理解“這段代碼為什么這樣寫”、“下一步應該怎么改”。
IQuest-Coder-V1使用32k高質量軌跡數據進行強化學習訓練,這些軌跡通過multi-agent role-playing自動生成。
系統會模擬用戶、Agent、Server三方交互,用戶提出需求,Agent編寫代碼,Server返回執行結果,整個過程無需人工標注。訓練目標不是單次代碼生成,而是完整的軟件演化過程。
這些技術設計在benchmark上得到了驗證。在SWE-Bench Verified這個衡量真實軟件工程能力的測試中,IQuest-Coder-V1達到了81.4%的準確率,超過了Claude Sonnet 4.5的77.2%。在LiveCodeBench v6上的表現是81.1%,在BigCodeBench上是49.9%。
![]()
IQuest-Coder-V1來自九坤投資創始團隊發起設立的至知創新研究院。這個研究院獨立于九坤的量化投研體系,其職能是研究多個AI應用方向。
九坤投資本身是中國最早一批量化私募之一,成立于2012年,目前管理規模超過600億人民幣,和明汯、幻方、靈均并稱量化“四大天王”。
創始人王琛擁有清華大學數學物理學士和計算機博士學位,師從圖靈獎唯一華人得主姚期智院士。聯合創始人姚齊聰是北京大學數學學士、金融數學碩士。
兩人都來自華爾街頂級對沖基金千禧年(Millennium),2010年看準中國股指期貨上市的機遇回國創業。
九坤從2020年開始建設名為"北溟"的超算集群,內部設有AI Lab、Data Lab和水滴實驗室。
這些基礎設施原本服務于量化投資業務,現在也為大模型研發提供了算力支持。
量化機構擁有大規模算力集群和數據處理能力,這與大模型訓練的資源需求相匹配。同時在人才結構上,量化投資和AI研究都需要數學、計算機背景的研究人員,這使得量化機構進入大模型領域時有一定的基礎。
從量化投資到開源大模型,這條路徑并不突兀。
量化機構本身就擁有大規模算力集群和海量數據處理能力,這與大模型訓練的需求高度契合。更重要的是,量化投資和AI研究在人才結構上有很大重疊,都需要數學、計算機、物理背景的研究型人才。
因此從發展角度看,IQuest-Coder-V1更像是九坤在AI方面的自然延伸,并非簡單跟風。
02
但不可否認的是,IQuest和DeepSeek,兩者有著驚人的相似性。
它們都來自中國量化基金,都展示了在資源受限情況下通過工程創新實現技術突破的能力。但仔細觀察會發現,兩者選擇了完全相反的方向。
DeepSeek追求的是“廣度”。從DeepSeek-V3到R1,梁文鋒團隊的目標是打造通用對話能力,要做中國的GPT。
它要回答各種領域的問題,要能寫詩、講故事、分析時事、解決數學題。這是一個橫向擴張的路徑,覆蓋盡可能多的應用場景。
IQuest-Coder-V1追求的是“精度”。它專注在代碼這個垂直領域,在SWE-Bench這樣的專業測試上做到極致。它不關心能不能寫詩,只關心能不能像真正的程序員一樣理解需求、設計系統、解決bug。
有意思的是,就在IQuest-Coder-V1發布的同一天,DeepSeek團隊也有新動作。
包括創始人梁文鋒在內的19位研究者發布了關于mHC(manifold-constrained hyperconnection,流形約束超連接)架構的論文。這篇論文解決的是超連接網絡在大規模訓練中的不穩定性問題。
雖然DeepSeek團隊在研究工作上保持一定的更新頻率,然而在產品方面,他們卻顯得有些落后,至今仍然沒有拿出R2和V4。
![]()
2025年,AI領域的競爭焦點是對話能力和推理能力,各家比的是誰能更好地回答問題,誰的推理過程更清晰。到了2026年,這個焦點已經轉向Agent能力,比的是AI能否自主完成復雜的多步驟任務。
Agent能力的核心是“執行”,而不僅僅是“理解”和“回答”。
就拿代碼舉例,一個對話型AI可以告訴你如何修復代碼中的bug,但Agent能直接幫你改好代碼、運行測試、提交修改。這是完全不同的能力層級。
DeepSeek團隊在研究層面確實很活躍,不斷發表論文推進底層技術。可一旦落實到產品就會發現,DeepSeek仍然主要是一個對話型AI。用戶提問,它給答案,這是它的主要使用場景。
DeepSeek目前還沒有推出真正的Agent產品,沒有像IQuest-Coder那樣能自主完成整個軟件開發流程的能力。
誠然,DeepSeek在Alpha Arena這樣的AI炒幣/炒股比賽中表現很亮眼,證明了量化基金訓練出的模型“真的懂市場”,能讀懂K線、解析新聞、做出交易決策。
而量化投資的本質是用算法理解市場規律,尋找價格波動中的模式。進一步說明DeepSeek具有“理解復雜系統”的能力。
但需要指出的是,即使在金融市場表現出色,這種能力仍停留在“理解”和“分析”層面。DeepSeek可以分析市場、給出建議,但它作為產品還沒有發展出完整的自主交易能力。
從炒股到寫代碼,幻方和九坤的AI都在展示同一種傾向,就是更強的執行導向。這或許能解釋為什么量化基金能在AI領域做出成果,因為他們的基因就是“讓算法自主決策”,而不是“讓算法回答問題”。
現在關于AI的競爭不只是比誰的論文更多,更重要的是落地,是誰能把技術轉化成用戶可以直接使用的工具。
市場已經等了太久,梁文鋒該發新產品了。
03
IQuest-Coder-V1對標的是Claude Opus 4.5。這個定位很明確,81.4%對80.9%的benchmark數據也確實亮眼。
再加上Anthropic對華態度的強硬,也讓人們對Quest-Coder-V1投入了更多的希望。但“取代Claude Opus 4.5”這個問題需要更冷靜的分析。
Claude Opus 4.5的優勢不只在模型能力,更在于完整的產品生態。它有原生的VS Code擴展,有Claude Code這樣面向終端的交互式開發工具,支持MCP協議的工具生態,有企業級的安全合規標準,還有無數真實項目打磨出的用戶體驗。這些都不是一個剛發布的模型能夠在短期內復制的。
更重要的是用戶習慣。Claude發布得早,程序員群體已經習慣了它的“工作方式”,知道什么時候該信任它,什么時候該介入,如何高效協作。
![]()
這種使用習慣的養成需要時間,需要在無數次試錯中建立起來。一個新模型即使benchmark數據更好,也需要相當長的時間來培養用戶信任。
benchmark和實際應用之間確實存在差距。
雖說SWE-Bench Verified測試的是在真實代碼倉庫中解決issue的能力,這比簡單的代碼補全要復雜得多。然而即使在這樣的測試中表現出色,也不等于在日常開發中就能無縫替代人類程序員。
實際工作中的需求往往是模糊的,在產品經理與開發者的溝通過程中,需求往往會改變很多,而這些都是benchmark上沒有的。
不過IQuest-Coder-V1的機遇在于另一些維度。它是開源的,這意味著企業可以自己部署,可以根據需要調整和優化,不需要擔心數據被第三方服務商獲取。對于金融、醫療、國防等對數據安全有嚴格要求的行業,這是實實在在的價值。
這種開源代碼大模型的體驗,完全區別于Claude用戶。Claude的用戶更多是習慣了云服務、愿意為便利性付費、對數據隱私沒有極端要求的開發者。IQuest-Coder-V1的潛在用戶應該是需要數據自主可控的企業、想要深度定制的技術團隊、或者就是喜歡折騰開源工具的開發者。
就比如做像九坤和幻方這樣做量化的,他們的算法就是企業的命脈,不可能上傳到公有云。
當然,開源也有開源的問題。沒有專門的產品團隊來打磨用戶體驗,沒有客服來解決使用中的問題,遇到bug只能自己想辦法或者等社區修復。這些都是開源模型相比商業產品的劣勢。
有一種觀點認為,像是IQuest-Coder-V1這樣帶有一定agent功能的代碼大模型,可能是通向通用agent以及AGI的第一步。
這個觀點的邏輯在于,代碼是結構化的、邏輯清晰的任務,相比其他開放性任務更容易驗證對錯。測試通過與否,這種二元反饋為agent提供了明確的學習信號。
更重要的是,編程任務本身需要的能力是通用agent所需的核心能力。
從SWE-Bench這樣的benchmark來看,它測試的不只是代碼生成,而是理解需求、規劃步驟、調試錯誤、迭代改進等能力。這個過程和解決其他復雜任務的模式是相通的。
代碼環境提供了一個相對可控的訓練場,一旦在這里證明了它的Agent能力,擴展到其他領域的技術路徑就會更清晰。
所以,九坤可能也在下一盤大棋。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.