![]()
這項由智譜AI公司與清華大學聯合開展的研究發表于2026年2月的arXiv預印本平臺,論文編號為arXiv:2602.15763v1。有興趣深入了解技術細節的讀者可以通過該編號在arXiv平臺查詢完整論文。
在人工智能編程的發展歷程中,我們正經歷著一個關鍵轉折點。過去,程序員與AI協作編程往往依靠的是一種"感覺流"的方式——人類提出需求,AI根據理解生成代碼,這個過程充滿了不確定性和反復調整。而現在,智譜AI推出的GLM-5模型標志著我們正式進入"工程智能"時代,AI開始具備獨立規劃、實施和迭代的完整工程能力。
GLM-5是一個參數規模達到7440億的超大型語言模型,其中激活參數為400億。這個模型的突破性在于它不再是被動的代碼生成工具,而是具備了真正的工程思維能力。就像從手工作坊升級到現代化工廠一樣,GLM-5能夠自主進行項目規劃,分解復雜任務,并在整個開發過程中持續優化和調整策略。
模型的訓練過程就像培養一位全能工程師。研究團隊首先讓它學習了28.5萬億個token的基礎知識,這相當于讓它閱讀了人類歷史上幾乎所有的代碼庫和技術文檔。接著,他們特別加強了模型在長文本理解方面的能力,將其上下文理解長度擴展到20萬token,這意味著它能夠完整理解和處理大型軟件項目的全部代碼結構。
最令人印象深刻的是GLM-5的"思考"能力。在處理復雜編程任務時,它會在每次生成代碼前進行深入思考,分析問題的本質,制定解決方案,甚至預測可能出現的問題。這種能力被稱為"交錯思考",就像一位經驗豐富的工程師在動手前總是先在腦海中構思整個實現方案一樣。
更有趣的是,GLM-5還具備"保持思考"的能力,特別是在處理多輪對話的編程任務時。傳統的AI模型往往在新的對話輪次中"忘記"之前的思考過程,需要重新分析問題。而GLM-5就像擁有了持久記憶的工程師,能夠在整個項目開發過程中保持思路的連貫性,避免重復性的分析工作。
在實際應用效果方面,GLM-5的表現確實令人矚目。在多個國際權威編程測試中,它都取得了開源模型中的最高分數。特別是在SWE-bench這個被譽為"編程界的高考"的測試中,GLM-5獲得了77.8分的成績,這個分數已經接近一些頂級商業模型的表現。
更重要的是,GLM-5在真實世界的軟件開發任務中展現出了前所未有的能力。研究團隊設計了一套全新的評測體系CC-Bench-V2,專門測試AI模型在真實軟件開發環境中的表現。這套測試不是簡單的代碼片段生成,而是要求模型完成完整的前端開發、后端工程和長期項目維護任務。在這些更接近真實工作場景的測試中,GLM-5展現了接近人類軟件工程師的工作能力。
一、從"感覺流編程"到"工程智能"的技術變革
理解GLM-5的革命性意義,需要從編程協作方式的根本變化說起。傳統的AI編程輔助就像是一個技術很好但缺乏規劃能力的助手。你告訴它"我需要一個網站",它會立即開始寫代碼,但往往缺乏整體的架構思考,容易在復雜項目中迷失方向。這種工作方式被稱為"感覺流編程"——完全依賴直覺和即時反應。
GLM-5代表的"工程智能"則完全不同。它就像一位經驗豐富的項目經理兼技術專家,收到需求后會首先進行系統性的分析:項目的整體架構應該如何設計?需要哪些技術棧?可能遇到哪些技術難點?如何分階段實施?這種系統性的工程思維正是GLM-5的核心優勢。
這種轉變的技術基礎來自于幾個關鍵創新。首先是模型規模的大幅提升。GLM-5采用了專家混合(MoE)架構,將總參數量擴展到7440億,但同時保持400億的激活參數,這就像擁有了一個超大規模的專家團隊,每次只調用最相關的專家來解決特定問題。
更重要的創新是引入了DeepSeek稀疏注意力機制(DSA)。這個技術的巧妙之處在于它讓模型能夠處理極長的上下文信息,而不會因為計算量的爆炸性增長而變得緩慢。想象一下,這就像給模型配備了一副特殊的"眼鏡",能夠在浩如煙海的信息中迅速定位到最關鍵的部分,從而在處理大型項目時保持高效率。
在訓練方法上,GLM-5采用了全新的異步強化學習框架。傳統的模型訓練就像工廠的流水線,每個環節都必須等待上一個環節完成。而GLM-5的訓練更像是一個高效的協作團隊,不同的訓練任務可以并行進行,大大提高了訓練效率。這種創新使得模型能夠在學習編程技能的同時,也學會了項目管理和工程規劃的能力。
二、核心技術架構:構建AI工程師的"大腦"
GLM-5的技術架構就像是為AI工程師精心設計的"大腦結構"。這個大腦由多個相互協作的"思維中心"組成,每個中心負責不同類型的任務處理。
模型的基礎架構采用了混合專家系統,就像一個擁有256個不同領域專家的智囊團。當遇到前端開發問題時,會自動調用前端專家;處理數據庫問題時,則切換到數據庫專家。這種設計確保了模型在各個技術領域都能提供專業水準的解決方案。
特別值得關注的是GLM-5的注意力機制創新。傳統的注意力機制在處理長文本時會遇到計算量激增的問題,就像試圖同時關注房間里的每一個細節一樣費力。GLM-5引入的稀疏注意力機制則更加智能,它能夠自動識別文本中的關鍵信息,將注意力集中在最重要的部分,這樣既保證了理解的準確性,又大大提高了處理效率。
在多令牌預測方面,GLM-5采用了參數共享策略。這項技術讓模型在生成代碼時不是逐個字符地輸出,而是能夠一次生成多個相關的代碼片段。這就像從一個字母一個字母地書寫升級到了整個單詞甚至句子的流暢書寫,大大提高了代碼生成的速度和連貫性。
模型的上下文處理能力也得到了顯著增強。GLM-5能夠處理長達20萬token的上下文信息,這意味著它能夠完整理解一個中等規模軟件項目的全部代碼庫。這種長上下文理解能力使得模型在處理復雜項目時能夠保持全局視野,避免局部優化導致的整體架構問題。
三、革命性訓練方法:從基礎學習到工程實踐
GLM-5的訓練過程就像培養一位從零開始的工程師成長為資深專家的完整歷程。整個訓練分為幾個精心設計的階段,每個階段都有明確的學習目標和能力提升指標。
基礎預訓練階段就像讓模型接受通用教育。研究團隊為GLM-5準備了28.5萬億token的訓練數據,這些數據涵蓋了代碼庫、技術文檔、學術論文等各種技術資料。模型通過學習這些材料,建立了扎實的編程基礎知識和對各種技術概念的深入理解。
中期訓練階段則專注于培養模型的工程實踐能力。這個階段的訓練數據主要來自真實的軟件開發項目,包括GitHub上的問題解決記錄、代碼審查歷史、項目開發文檔等。模型通過學習這些真實案例,掌握了如何在實際項目中應用技術知識。
最創新的部分是后訓練階段,這里采用了全新的異步強化學習方法。傳統的強化學習就像讓學生一個接一個地完成作業,而GLM-5的異步學習更像是讓多個學生同時學習不同的技能,然后將學到的經驗相互分享。這種方法大大提高了學習效率,使模型能夠在更短的時間內掌握更多樣化的技能。
特別值得一提的是模型的"思考"能力訓練。研究團隊專門設計了交錯思考和保持思考的訓練方法。交錯思考訓練讓模型學會在生成代碼前先進行系統性思考,分析問題、規劃方案、預測風險。保持思考訓練則讓模型學會在多輪對話中保持思路的連貫性,避免重復性的分析工作。
在強化學習的具體實施上,GLM-5采用了分階段的訓練策略。首先是推理強化學習,專注于提升模型的邏輯分析和問題解決能力。然后是智能體強化學習,訓練模型的項目規劃和任務管理能力。最后是通用強化學習,將各種技能整合成一個統一的工程能力體系。
四、突破性能表現:在各項測試中的卓越成績
GLM-5在各項評測中的表現就像一位全能選手在多項比賽中都獲得了優異成績。這些測試不僅包括傳統的編程能力評估,還涵蓋了更貼近真實工作場景的工程實踐能力測試。
在推理能力測試方面,GLM-5在"人類最后考試"這個極具挑戰性的測試中獲得了50.4分,這個成績在開源模型中排名第一,甚至超過了一些知名的商業模型。這項測試被認為是衡量AI模型綜合智能水平的重要指標,GLM-5的優異表現證明了它具備了接近人類專家級別的推理能力。
在編程專項測試中,GLM-5的表現更加突出。在SWE-bench驗證集這個被譽為"軟件工程界高考"的測試中,GLM-5獲得了77.8分的成績,顯著超過了同規模的其他開源模型。這項測試要求模型解決GitHub上真實的軟件問題,包括bug修復、功能實現、代碼重構等各種實際開發任務。
在多語言編程能力方面,GLM-5在SWE-bench多語言測試中取得了73.3分的成績,這證明了它不僅精通單一編程語言,而且能夠熟練處理多種編程語言的混合項目。現代軟件開發往往涉及多種技術棧,GLM-5的這種多語言能力對實際應用具有重要意義。
更令人印象深刻的是GLM-5在智能體任務中的表現。在BrowseComp這個測試網頁瀏覽和信息處理能力的基準測試中,GLM-5獲得了75.9分的成績,遠超其他開源模型。這項測試模擬了現實中的信息檢索和處理場景,要求模型能夠像人類一樣瀏覽網頁、理解內容、提取信息并完成指定任務。
在長期規劃能力方面,GLM-5在Vending-Bench 2測試中表現優異。這個測試模擬了經營一個自動販賣機生意的完整過程,要求模型在一年的模擬時間內做出各種商業決策。GLM-5最終實現了4432美元的賬戶余額,在所有開源模型中排名第一,接近商業模型的水平。
五、實際應用能力:真實工程場景的表現
為了更準確地評估GLM-5在真實工程環境中的能力,研究團隊開發了全新的CC-Bench-V2評測體系。這套評測系統不同于傳統的代碼片段生成測試,而是要求模型完成完整的軟件開發項目,就像真正的軟件工程師一樣工作。
在前端開發測試中,GLM-5需要根據需求描述獨立完成完整的網頁應用開發。測試涵蓋了HTML、React、Vue等多種前端技術棧,要求模型不僅能生成正確的代碼,還要確保生成的應用能夠正常運行并滿足所有功能要求。GLM-5在這項測試中的構建成功率達到了100%,這意味著它生成的代碼幾乎總是能夠成功編譯和運行。
在具體的功能實現方面,GLM-5展現了接近專業前端開發者的能力水平。在HTML項目中,它的實例成功率達到38.9%,檢查項成功率為76.3%。這意味著雖然完全符合所有要求的項目占比還不夠高,但大部分功能需求都能得到正確實現。在React和Vue項目中,GLM-5同樣表現出了扎實的技術功底。
后端工程能力測試更加接近真實的軟件開發工作。測試項目涵蓋了Python、Go、C++、Rust、Java、TypeScript等多種編程語言,任務類型包括功能實現、bug修復、性能優化等各種實際開發場景。GLM-5在這項測試中的通過率為25.8%,雖然看起來不高,但要知道這些都是真實的、復雜的工程問題,能夠達到這個水平已經相當不錯了。
長期項目維護能力測試可能是最具挑戰性的部分。這項測試要求模型像真正的開發者一樣,在大型代碼庫中定位問題、理解項目結構、實施多步驟的改進方案。在代碼庫探索任務中,GLM-5的成功率達到了65.6%,這表明它具備了在復雜項目中快速定位關鍵信息的能力。在多步驟任務鏈測試中,GLM-5的成功率為52.3%,雖然與頂級商業模型還有差距,但已經展現了處理復雜長期項目的能力。
六、中國芯片生態適配:技術自主可控的重要進展
GLM-5項目的一個重要特色是它從設計之初就充分考慮了中國芯片生態系統的特點和需求。研究團隊與華為昇騰、摩爾線程、海光、寒武紀、昆侖芯、沐曦、燧原等七個主流國產芯片平臺深度合作,實現了全棧優化適配。
這種適配工作就像為不同品牌的汽車定制專用零件一樣復雜。每種芯片架構都有其獨特的計算特點和優化要求,需要針對性的技術方案。以華為昇騰Atlas系列為例,研究團隊實施了混合精度W4A8量化策略,通過精巧的壓縮算法將750GB參數的GLM-5模型成功部署到單臺Atlas 800T A3機器上。
在具體的優化技術方面,團隊開發了多個高性能融合內核,包括閃電索引器、稀疏閃存注意力、多頭潛在注意力預處理優化等。這些技術創新就像為引擎安裝了渦輪增壓器一樣,大大提升了模型在國產芯片上的運行效率。
特別值得一提的是推理引擎的專門優化。團隊對vLLM-Ascend和SGLang兩個主流推理引擎進行了深度適配,實現了異步調度、上下文管理、并行策略等多個層面的優化。通過這些優化,GLM-5在單個國產節點上的性能已經能夠媲美雙GPU國際集群,同時在長序列場景下的部署成本降低了50%。
這種全面的生態適配不僅僅是技術層面的成就,更代表了中國在AI基礎設施方面向自主可控邁出的重要一步。當國外芯片和軟件面臨供應限制時,這種自主可控的技術棧就顯得尤為重要。
七、匿名發布實驗:真實能力的客觀驗證
GLM-5項目最有趣的一個環節是"Pony Alpha"匿名發布實驗。這個實驗就像一次"盲品測試",研究團隊在OpenRouter平臺上匿名發布了GLM-5模型,讓開發者社區在不知道模型來源的情況下進行測試和評價。
這種匿名測試的價值在于它完全排除了品牌和先入為主印象的影響。開發者們只能根據模型的實際表現來判斷其能力水平,這提供了最客觀、最真實的評價反饋。在測試期間,Pony Alpha迅速在社區中獲得了極高的評價,特別是在復雜編程任務、智能體工作流和角色扮演場景中表現出色。
有趣的是,社區用戶對模型來源的猜測五花八門。約25%的用戶認為這是Claude Sonnet 5的泄露版本,20%認為是DeepSeek V4,10%認為是Grok模型,其余用戶才猜測是GLM-5。這種猜測分布本身就說明了GLM-5已經達到了與頂級商業模型相當的性能水平。
當研究團隊最終公布Pony Alpha就是GLM-5時,整個社區都感到了驚訝。這個結果有力證明了中國自主研發的大模型已經具備了與國際頂尖產品競爭的實力。更重要的是,這次匿名測試讓GLM-5的能力得到了國際開發者社區的認可,超越了地緣政治因素的影響。
這個實驗也反映出當前AI模型評估中存在的一些有趣現象。用戶往往會根據模型的品牌和來源產生預設印象,而匿名測試能夠更好地反映模型的真實能力水平。對于推動AI技術的客觀發展來說,這種評估方式具有重要的參考價值。
八、未來展望:工程智能時代的開啟
GLM-5的發布標志著AI編程輔助進入了一個全新的時代。從技術發展的角度看,我們正在見證從"工具型AI"向"伙伴型AI"的轉變,AI不再只是被動執行指令的工具,而是能夠主動思考、規劃和協作的智能伙伴。
這種轉變對軟件開發行業可能產生深遠影響。傳統的軟件開發流程中,項目規劃、架構設計、代碼實現、測試調試等環節往往需要不同專業背景的人員協作完成。而GLM-5這樣的AI工程師已經具備了貫穿整個開發流程的綜合能力,這可能會重新定義軟件開發團隊的組織結構和工作方式。
從更廣闊的視角來看,GLM-5代表的工程智能理念可能會擴展到軟件開發之外的其他工程領域。無論是機械設計、電路設計還是建筑規劃,都需要類似的系統性思維和工程實踐能力。隨著這類技術的不斷成熟,我們可能會看到AI在各個工程領域發揮越來越重要的作用。
當然,技術發展也帶來了新的挑戰和思考。當AI具備了接近人類工程師的能力時,如何在保持技術創新活力的同時,確保人類在創造性工作中的主導地位?如何建立人機協作的新模式,讓AI成為人類能力的增強器而非替代者?這些都是值得深入探討的問題。
從開源生態的角度來看,GLM-5的開源發布對整個AI社區具有重要意義。它不僅提供了一個高性能的基礎模型,還展示了一套完整的工程智能實現方案。這為其他研究團隊和開發者提供了寶貴的技術參考,有助于推動整個領域的快速發展。
說到底,GLM-5的意義不僅在于它展現了當前AI技術的最高水平,更在于它為我們描繪了一個AI與人類深度協作的未來圖景。在這個圖景中,AI不再是冰冷的工具,而是具備工程思維、能夠獨立規劃和執行的智能伙伴。這種伙伴關系可能會重新定義我們對工作、創造和協作的理解。
當我們站在這個技術變革的關鍵節點上,GLM-5就像一個重要的里程碑,標志著我們已經跨過了AI輔助編程的初級階段,正在邁向AI工程智能的新時代。這個時代的特征不是簡單的任務自動化,而是真正的智能協作和創造性合作。對于每一個關注技術發展的人來說,這都是一個值得關注和思考的重要時刻。
Q&A
Q1:GLM-5相比傳統AI編程助手有什么本質區別?
A:GLM-5最大的區別在于它從"感覺流編程"升級到了"工程智能"。傳統AI只是根據指令生成代碼片段,而GLM-5具備了完整的工程思維,能夠進行項目規劃、架構設計、任務分解和長期維護。它就像從技術助手升級成了項目經理兼技術專家。
Q2:GLM-5的7440億參數規模是否意味著使用成本很高?
A:實際上GLM-5采用了混合專家架構,雖然總參數達到7440億,但每次只激活400億參數,這大大降低了計算成本。加上稀疏注意力機制和中國芯片生態的深度優化,GLM-5在長序列場景下的部署成本比同類模型降低了50%。
Q3:普通開發者現在可以使用GLM-5嗎?
A:GLM-5已經開源發布,開發者可以通過GitHub平臺獲取模型和相關代碼。同時,它也通過多個推理服務提供商和AI網關平臺提供服務,包括Amazon Bedrock、Google Cloud等國際平臺以及國內的多個服務商,普通開發者可以根據自己的需求選擇合適的使用方式。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.