![]()
智東西
編譯 王欣逸
編輯 程茜
智東西12月10日消息,昨晚,法國大模型獨角獸Mistral AI發布并開源編程系列模型Devstral 2,該系列分為兩個不同規格的模型Devstral 2 132B和Devstral Small 2 24B。此外,Mistral還同時推出了原生CLI工具Mistral Vibe,能實現端到端的代碼自動化。此次發布距Mistral 3系列模型才過去一周。
![]()
Devstral 2參數為123B,支持256K上下文窗口,可以探索代碼庫,并能在保持架構層面上下文理解的同時,進行跨文件協調更改;Devstral Small 2參數為24B,同樣具備256K上下文窗口,支持快速推理和反饋,可以定制和本地部署,同時還支持圖像輸入,可應用于多模態Agents。
在SWE-bench Verified編程基準測試中,Devstral 2取得了72.2%的成績,優于Qwen 3 coder plus、Kimi K2 Thinking等開源模型,僅次于DeepSeek V3.2;Devstral Small 2取得了68.8%的成績,超過GPT-OOS-120B,和GLM 4.6持平;在針對實際編程任務進行的人工測試中,Devstral 2表現優于DeepSeek V3.2。基準測試結果如下:
![]()
此外,在部署上,Devstral 2至少需要四塊H100級GPU,更輕量化的Devstral Small 2可以在消費級硬件上本地運行。
Mistral Vibe是一個由Devstral驅動的開源命令行編程助手,集成了文件操作、代碼搜索、版本控制及命令執行等工具。
Mistral AI是一家法國創企,成立于2023年,由前DeepMind和Meta研究人員成立,專注于開源模型開發。今年9月,該公司宣布獲得17億歐元(約合人民幣139.9億元)C輪融資,估值達到117億歐元(約合人民幣962.6億元),英偉達曾三次投資這家公司。
一、基準測試位列開源第二,和頂尖閉源還有性能差距
據Mistral官網,Devstral 2 123B支持探索代碼庫,能跨多個文件協調修改,還能保持上下文理解。它可以跟蹤框架依賴、檢測故障,并能通過修正后重試,從而解決如修復錯誤、改造遺留系統等復雜挑戰。
該模型支持微調,可針對特定編程語言進行優化,適配大型企業代碼庫的需求。
不過,Devstral 2以修改版的MIT協議發布,這一協議對大企業進行了限制:月收入超過2000萬美元(約合人民幣1.41億元)的公司,在未獲得Mistral單獨商業許可的情況下,無法使用該模型。
更輕量化的模型Devstral Small 2 24B支持快速推理、迭代反饋和定制,可本地部署,同時還支持圖像輸入,可應用于多模態Agents。
從基準測試來看,Devstral 2模型位列開源模型的第二名,并正趕超頂尖閉源模型。
Devstral 2在SWE-bench Verified編程基準測試中取得了72.2%的得分,Devstral Small 2取得了68%的得分,在開源模型中已經達到了領先水平,Devstral 2的得分僅次于DeepSeek V3.2。
![]()
Devstral 2系列模型的亮點在于小參數設計,其模型在關鍵基準測試中展現出和頂尖開源模型齊平的性能,卻僅需后者幾分之一的參數量。
得分只比Devstral 2高0.9%的DeepSeek V3.2,其參數大小是Devstral 2的5倍,是Devstral Small 2的28倍,而表現次于Devstral 2的Kimi K2 Thinking,其參數大小是Devstral 2的8倍,是Devstral Small 2的41倍。
![]()
不過,Devstral 2系列模型與頂尖閉源模型之間還存在差距。
人工評測結果顯示,在Cline構建的任務場景中,Devstral 2相對DeepSeek V3.2優勢明顯,勝率為42.8%,敗率為28.6%。然而,Devstral 2相對頂尖閉源模型Claude Sonnet 4.5敗下陣來,勝率僅為21.4%,敗率為53.1%。
![]()
二、端到端代碼自動化,能進行架構級推理
Mistral Vibe是基于Devstral模型構建的開源命令行編程助手,能通過自然語言交互,接入IDE,實現對代碼庫的探索、修改與變更執行。
![]()
Mistral Vibe提供了一個交互式對話界面,集成了文件操作、代碼搜索、版本控制及命令執行等工具。
它能自動掃描用戶文件結構及Git狀態,提供相關上下文信息,能理解整個代碼庫的架構,并進行架構級推理,此外,它還擁有智能引用、持久化歷史、自動補全和可自定義主題等功能。
開發者可以通過腳本編程方式運行Mistral Vibe,啟用工具執行的自動批準功能,通過簡潔的config.toml配置文件管理本地模型與供應商設置,靈活控制工具權限。
結語:平衡高性能與小參數,為企業提供了低門檻解決方案
從Mistral 3到Devstral 2系列、Mistral Vibe,Mistral AI正以相當快的進擊速度參與AI競爭,并在模型的高性能與輕量化間實現了平衡,從測試結果看,Devstral Small 2模型在參數僅為24B的情況下,依然優于不少開源模型,和GLM 4.6打平。
Mistral AI在公告中提到,Devstral 2系列模型專為生產級工作流打造,并被定位為下一代SOTA編程模型。盡管和頂尖閉源編程模型還有很大差距,不過,對大多數企業而言,Devstral 2和Devstral Small 2可以作為一個低門檻的初步解決方案,尤其是在和Mistral Vibe的搭配使用上,Devstral 2系列模型或將在特定的生產環節發揮作用。
來源:Mistral AI
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.