![]()
中國AI公司Z.ai近日發布了GLM-5.1,這是一款專為智能體軟件工程設計的開源編程模型。此次發布正值AI廠商紛紛從自動補全式編程工具,向能夠長時間、低人工干預地處理軟件任務的系統轉型之際。
Z.ai表示,GLM-5.1能夠在數百次迭代中保持穩定性能,這一特性使其有別于在長時間運行中逐漸失效的其他模型。
舉例來說,該公司表示GLM-5.1在一項向量數據庫優化任務中,經過超過600次迭代、6000次工具調用,最終達到每秒21500次查詢的速度,約為單次50輪會話中最優結果的六倍。
Z.ai在一份研究說明中指出,GLM-5.1在多項軟件工程基準測試中超越了其前代產品GLM-5,尤其在代碼倉庫生成、終端問題解決和反復代碼優化方面表現突出。在SWE-Bench Pro測試上,GLM-5.1得分為58.4,而GLM-5為55.1,并超過了OpenAI的GPT-5.4、Anthropic的Opus 4.6以及谷歌的Gemini 3.1 Pro在該基準上的成績。
GLM-5.1已在MIT許可證下發布,可通過Z.ai的開發者平臺獲取,模型權重也已公開發布,支持本地部署。這對希望更好掌控工具部署方式的企業而言具有較大吸引力。
Z.ai將長時間穩定運行性能定位為核心差異化優勢,因為許多當前模型在經歷相對較少的輪次后便會停滯或出現漂移,限制了其在復雜多步驟軟件任務中的實用性。
Pareekh Consulting首席執行官Pareekh Jain表示,行業正從能夠回答提示詞的工具,邁向能夠在較少監督下完成更長時間任務的系統。
Jain說,問題已不再是"我能問AI什么",而是"我能把接下來八小時的工作交給它做什么"。
對于企業而言,這意味著早上將一張工單交給智能體,到下班時便能收到經過數百次實驗和代碼分析后生成的優化方案。
Forrester副總裁兼首席分析師Charlie Dai表示:"這一能力契合了大規模代碼重構、遷移項目和持續故障處理等實際需求。這表明,長時間運行的自主智能體正變得越來越實用,前提是企業需要配套引入治理、監控和升級機制來管控風險。"
GLM-5.1采用MIT許可證發布,對金融、醫療、國防等監管嚴格或安全敏感行業尤為重要。
Jain從四個維度分析了其意義:第一,成本方面,其定價遠低于高端商業模型,自托管方式讓企業可以自主控制費用,而非按調用次數付費;第二,數據治理方面,敏感代碼和數據無需發送至外部API,在金融、醫療和國防等領域尤為關鍵;第三,定制化方面,企業可以不受限制地根據自身代碼庫和內部工具對模型進行調整。
Jain提到的第四個因素是地緣政治風險。盡管該模型是開源的,但其與中國基礎設施和相關實體的關聯,仍可能引發部分美國企業的合規顧慮。
Dai表示,MIT許可證使企業更容易在自有系統上運行該模型,并根據內部需求和治理策略進行調整。"對許多采購方來說,GLM-5.1是商業模型之外一個可行的戰略選項,尤其是在監管約束、知識產權敏感性或長期平臺控制最為重要的場景下。"
Z.ai引用了三項基準測試:SWE-Bench Pro用于測試復雜軟件工程任務;NL2Repo用于評估代碼倉庫生成能力;Terminal-Bench 2.0則評估真實場景下基于終端的問題解決能力。
Omdia首席分析師Lian Jye Su表示:"這些基準測試專門考察編程智能體的高級編程能力,在這些測試中名列前茅,意味著在規劃到執行的可靠性、更少的提示詞返工以及更快的交付速度等方面表現優異。不過,這些測試與企業實際情況之間仍存在距離。"
Su指出,公開基準測試仍無法反映私有代碼庫、遺留系統和代碼審查工作流的真實復雜性。他補充說,基準結果來自受控環境,與生產環境存在差異,但隨著越來越多團隊采用智能體架構,這一差距正在縮小。
Q&A
Q1:GLM-5.1與普通AI編程工具有什么區別?
A:GLM-5.1專為智能體軟件工程設計,核心優勢在于能在數百次迭代中保持穩定性能,而普通AI編程工具在長時間運行后往往會逐漸失效。例如,GLM-5.1在一項向量數據庫優化任務中,經過超600次迭代后仍能持續提升性能,最終查詢速度達到單次短會話最優結果的六倍,更適合大規模重構、遷移和持續故障處理等復雜工程任務。
Q2:GLM-5.1開源對企業意味著什么?
A:GLM-5.1采用MIT許可證開源發布,企業可以本地部署,主要有四方面好處:一是成本更低,自托管可自主控制費用;二是數據安全,敏感代碼無需發送至外部API;三是可自由定制,適配自身代碼庫和內部工具;四是規避部分供應商依賴風險。對金融、醫療等監管嚴格的行業尤其具有實用價值。
Q3:GLM-5.1在基準測試中的表現如何?
A:GLM-5.1在SWE-Bench Pro上得分58.4,超過前代GLM-5的55.1,并超過了OpenAI GPT-5.4、Anthropic Opus 4.6和谷歌Gemini 3.1 Pro的成績。此外在NL2Repo(代碼倉庫生成)和Terminal-Bench 2.0(終端問題解決)上也表現出色。不過分析師指出,這些測試仍與企業私有代碼庫的真實復雜性存在一定差距。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.