![]()
![]()
智譜GLM-5驗證了Agentic Engineering的可行性,但成本正在變得更顯性。
作者|周悅
編輯|王博
今天,智譜上線并開源GLM-5,其在Coding與Agent能力上,取得開源SOTA表現,在真實編程場景的使用體感逼近 Claude Opus 4.5,擅長復雜系統工程與長程Agent任務。
![]()
在全球權威的Artificial Analysis榜單中,GLM-5位居全球第四、開源第一,圖片來源:智譜
這一發布直接刺激了資本市場,智譜股價一度漲超41%。截至收盤,智譜股價報402港元/股,漲幅為28.68%,市值為1792.3億港元。
值得注意的是,智譜稱GLM-5為“Agentic Engineering時代最好的開源模型”。
什么是Agentic Engineering?為什么智譜要強調這個概念呢?
1.從“氛圍”到“工程”
如果說AI行業需要尋找一位能精準捕捉技術風向的觀測者,特斯拉前AI總監、OpenAI創始成員Andrej Karpathy無疑是最佳人選。
2025年2月,他提出Vibe Coding(氛圍編碼)概念。開發者不再逐行寫代碼,而是用自然語言描述意圖,讓模型在一種更像即興創作的狀態里生成實現。這種體驗帶來了一段明顯的“編程蜜月期”:生成更快、試錯更便宜、上手更輕松。
但一年后,Karpathy拋出了一個更現實的概念:Agentic Engineering(代理工程)。他的關注點不再是單純地追求生成代碼,而是試圖讓AI交付完整的工程閉環。
從“氛圍”到“工程”的轉變,折射出一個更直觀的行業變化:寫代碼的門檻在降低,但讓模型跑完工程的門檻并沒有同步下降。
在「甲子光年」看來,要讓Agentic Engineering真的跑起來,需要滿足兩個條件:模型能力強,成本可接受。
我們把它粗略概括為一個便于理解的表達:Agentic Engineering的擴散性 ≈ 能力閾值 × 成本閾值。
前者決定可行性,后者決定普及率。沒有足夠的智能,循環會放大錯誤;能力足夠時,成本會變成新的瓶頸。這種范式往往會更早落在預算更充足、對收斂速度更敏感的團隊里。
今天,智譜GLM-5的發布與GLM Coding Plan價格體系調整,讓這兩個變量在同一個時間點上顯得更清晰。
![]()
Andrej Karpathy發布博文,圖片來源:X平臺
理解這次轉變,需要還原開發者的真實工作流。
在Vibe Coding時代,一個后端開發者使用Cursor等編程工具時,典型循環往往是:人類輸入—模型輸出—人類驗證—模型修改——人類確認。它提高了生成效率,但沒有消除人工介入的難題。
Karpathy對此的總結很精準:“很好、很有趣,而且幾乎能行得通。(It was good and fun and it almost worked)”
關鍵就在“幾乎”。
當任務開始變長、上下文變復雜、回歸測試變多時,人類介入的頻率并不會下降,開發者依然需要反復確認。瓶頸逐漸從代碼生成速度轉向開發者的驗證速度。
Agentic Engineering試圖打破的,正是這種線性依賴,讓模型把“找—改—測—再改—再測”的閉環盡量跑完,人類更多在關鍵節點介入,最終對結果負責。開發者的角色也隨之變化,從寫代碼的人變成更像“監督者”。
在這樣的語境下,GLM-5之所以值得被討論,是因為它為開源模型能否更接近代碼代理工作流,提供了一個可觀察樣本,也就是把公式左側的變量(能力閾值)推到了一個更高的位置。
根據智譜披露的結果,在衡量AI解決真實GitHub問題能力的權威榜單SWE-bench Verified上,GLM-5取得了77.8的成績,這一數據逼近了閉源模型的第一梯隊。與此同時,在部分第三方公開榜單下,GLM-5也處于開源模型的前列。
這些分數當然不是全部意義,但它們至少指向一個變化:在給定代碼倉庫、給定驗證條件的任務設定下,開源模型完成更長程的規劃、反思與自我修正,正在變得更可行。
![]()
大模型評估結果,圖片來源:智譜
從智譜披露的技術路徑來看,GLM-5在幾個關鍵維度上做了面向長流程任務的強化:
參數規模擴展:參數規模擴展至744B(激活40B),預訓練數據量提升,增強了通用智能;
異步強化學習:引入“Slime”框架和異步智能體強化學習算法,使模型能夠從長程交互中持續學習;
稀疏注意力機制:集成DeepSeek Sparse Attention,保證了在處理長上下文時的效果無損,提升token效率。
更值得注意的是,智譜表示,GLM-5已完成與華為昇騰、摩爾線程、寒武紀、昆侖芯、沐曦、燧原、海光等多家國產算力平臺的深度推理適配與優化。這說明,在部署路徑上,它正在探索一種更可落地的工程組合方式。
這共同指向了一個結論:開源模型在“更接近工程閉環”這一維度上,正在跨過更高的能力門檻。
2.現實的成本問題
當能力門檻被抬上去之后,公式右側的變量“成本閾值”會更快變成現實問題。
Agentic Engineering的核心邏輯是“循環”。一次真實的修復任務往往并不是一問一答,而是多輪定位、修改、測試與復盤。在這種模式下,Token消耗與推理時長通常會顯著高于普通對話。
換句話說,它不是“更省錢地寫代碼”,而是用更密集的算力去置換人類的時間。
2月12日,智譜發布價格調整說明,宣布 GLM Coding Plan取消首購優惠,整體價格上調,漲幅自30%起,將原因歸于需求增長與高負載下的穩定性與服務質量保障。
這些信息共同指向一個更明確的現實:當模型開始被更頻繁地當作生產力工具使用,成本會更早變成賬單。
因此,“漲價”本身不必被簡化為單一結論。更準確的說法是:能力閾值在上升,成本閾值也更顯性。
GLM-5的案例一定程度說明,未來的軟件工程可能會呈現出一種分層態勢:
在Vibe Coding層,對于日常、短程的輔助開發,低成本、快響應的模型依然是主流;
在Agentic Engineering層,面向關鍵任務、復雜架構調整或必須快速收斂的問題,更強的代理工程能力,更像一種需要付費的“加速券”——用更高的推理預算,換取更快的工程收斂。
對大公司和追求極致效率的團隊來說,這是一筆算得過來的投入;而對于更廣泛的個人開發者,這或許意味著需要更精細地計算 ROI(投資回報率)。
我們或許已經看到了一個更接近現實的結論:模型能力決定Agentic Engineering正在走向現實;成本,決定它能擴散到多遠。
(封面圖來源:AI生成)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.