網易首頁 > 網易號 > 正文申請入駐

GLM-5.1發布：Z.ai推出可長時間自主運行的AI編程智能體

2026-04-14 22:13:19　來源: 至頂AI實驗室

北京舉報

分享至

中國AI公司Z.ai近日發布了GLM-5.1，這是一款專為智能體軟件工程設計的開源編程模型。此次發布正值AI廠商紛紛從自動補全式編程工具，向能夠長時間、低人工干預地處理軟件任務的系統轉型之際。

Z.ai表示，GLM-5.1能夠在數百次迭代中保持穩定性能，這一特性使其有別于在長時間運行中逐漸失效的其他模型。

舉例來說，該公司表示GLM-5.1在一項向量數據庫優化任務中，經過超過600次迭代、6000次工具調用，最終達到每秒21500次查詢的速度，約為單次50輪會話中最優結果的六倍。

Z.ai在一份研究說明中指出，GLM-5.1在多項軟件工程基準測試中超越了其前代產品GLM-5，尤其在代碼倉庫生成、終端問題解決和反復代碼優化方面表現突出。在SWE-Bench Pro測試上，GLM-5.1得分為58.4，而GLM-5為55.1，并超過了OpenAI的GPT-5.4、Anthropic的Opus 4.6以及谷歌的Gemini 3.1 Pro在該基準上的成績。

GLM-5.1已在MIT許可證下發布，可通過Z.ai的開發者平臺獲取，模型權重也已公開發布，支持本地部署。這對希望更好掌控工具部署方式的企業而言具有較大吸引力。

Z.ai將長時間穩定運行性能定位為核心差異化優勢，因為許多當前模型在經歷相對較少的輪次后便會停滯或出現漂移，限制了其在復雜多步驟軟件任務中的實用性。

Pareekh Consulting首席執行官Pareekh Jain表示，行業正從能夠回答提示詞的工具，邁向能夠在較少監督下完成更長時間任務的系統。

Jain說，問題已不再是"我能問AI什么"，而是"我能把接下來八小時的工作交給它做什么"。

對于企業而言，這意味著早上將一張工單交給智能體，到下班時便能收到經過數百次實驗和代碼分析后生成的優化方案。

Forrester副總裁兼首席分析師Charlie Dai表示："這一能力契合了大規模代碼重構、遷移項目和持續故障處理等實際需求。這表明，長時間運行的自主智能體正變得越來越實用，前提是企業需要配套引入治理、監控和升級機制來管控風險。"

GLM-5.1采用MIT許可證發布，對金融、醫療、國防等監管嚴格或安全敏感行業尤為重要。

Jain從四個維度分析了其意義：第一，成本方面，其定價遠低于高端商業模型，自托管方式讓企業可以自主控制費用，而非按調用次數付費；第二，數據治理方面，敏感代碼和數據無需發送至外部API，在金融、醫療和國防等領域尤為關鍵；第三，定制化方面，企業可以不受限制地根據自身代碼庫和內部工具對模型進行調整。

Jain提到的第四個因素是地緣政治風險。盡管該模型是開源的，但其與中國基礎設施和相關實體的關聯，仍可能引發部分美國企業的合規顧慮。

Dai表示，MIT許可證使企業更容易在自有系統上運行該模型，并根據內部需求和治理策略進行調整。"對許多采購方來說，GLM-5.1是商業模型之外一個可行的戰略選項，尤其是在監管約束、知識產權敏感性或長期平臺控制最為重要的場景下。"

Z.ai引用了三項基準測試：SWE-Bench Pro用于測試復雜軟件工程任務；NL2Repo用于評估代碼倉庫生成能力；Terminal-Bench 2.0則評估真實場景下基于終端的問題解決能力。

Omdia首席分析師Lian Jye Su表示："這些基準測試專門考察編程智能體的高級編程能力，在這些測試中名列前茅，意味著在規劃到執行的可靠性、更少的提示詞返工以及更快的交付速度等方面表現優異。不過，這些測試與企業實際情況之間仍存在距離。"

Su指出，公開基準測試仍無法反映私有代碼庫、遺留系統和代碼審查工作流的真實復雜性。他補充說，基準結果來自受控環境，與生產環境存在差異，但隨著越來越多團隊采用智能體架構，這一差距正在縮小。

Q&A

Q1：GLM-5.1與普通AI編程工具有什么區別？

A：GLM-5.1專為智能體軟件工程設計，核心優勢在于能在數百次迭代中保持穩定性能，而普通AI編程工具在長時間運行后往往會逐漸失效。例如，GLM-5.1在一項向量數據庫優化任務中，經過超600次迭代后仍能持續提升性能，最終查詢速度達到單次短會話最優結果的六倍，更適合大規模重構、遷移和持續故障處理等復雜工程任務。

Q2：GLM-5.1開源對企業意味著什么？

A：GLM-5.1采用MIT許可證開源發布，企業可以本地部署，主要有四方面好處：一是成本更低，自托管可自主控制費用；二是數據安全，敏感代碼無需發送至外部API；三是可自由定制，適配自身代碼庫和內部工具；四是規避部分供應商依賴風險。對金融、醫療等監管嚴格的行業尤其具有實用價值。

Q3：GLM-5.1在基準測試中的表現如何？

A：GLM-5.1在SWE-Bench Pro上得分58.4，超過前代GLM-5的55.1，并超過了OpenAI GPT-5.4、Anthropic Opus 4.6和谷歌Gemini 3.1 Pro的成績。此外在NL2Repo（代碼倉庫生成）和Terminal-Bench 2.0（終端問題解決）上也表現出色。不過分析師指出，這些測試仍與企業私有代碼庫的真實復雜性存在一定差距。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.