網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

智譜GLM-5技術(shù)曝光，代碼能力已經(jīng)趕上Claude？

2026-02-24 21:21:32　來(lái)源: 至頂AI實(shí)驗(yàn)室

北京舉報(bào)

分享至

還記得今年大年初一那天，你在干什么嗎？就是這天，智譜AI與清華大學(xué)的聯(lián)合團(tuán)隊(duì)，在arXiv公開(kāi)了GLM-5的技術(shù)報(bào)告《GLM-5：從氛圍編程到智能體工程》。

論文標(biāo)題可以這么理解，比如你有一個(gè)實(shí)習(xí)生，一開(kāi)始只會(huì)按你說(shuō)的敲代碼，后來(lái)慢慢學(xué)會(huì)了自己理解需求、規(guī)劃步驟、發(fā)現(xiàn)問(wèn)題、修改代碼、再驗(yàn)證，最終獨(dú)立交付一個(gè)完整項(xiàng)目，這就是GLM-5想要做到的事。它的名字里藏著一個(gè)野心：從"vibe coding"（氛圍編程）走向"agentic engineering"（智能體工程）。

所謂"氛圍編程"，是指你告訴AI"幫我寫(xiě)段代碼"，它就給你一段代碼，你接收、復(fù)制粘貼、完事。這種模式下，AI是一個(gè)被動(dòng)的執(zhí)行工具，像一臺(tái)自動(dòng)販賣(mài)機(jī)，你投幣，它出產(chǎn)品，僅此而已。而"智能工程"則完全不同，AI需要主動(dòng)理解任務(wù)、分解步驟、調(diào)用工具、執(zhí)行測(cè)試、處理錯(cuò)誤，就像一個(gè)有經(jīng)驗(yàn)的工程師拿到需求文檔后獨(dú)立開(kāi)工，直到項(xiàng)目完成。這是從"工具"到"同事"的進(jìn)化。

GLM-5正是為了完成這個(gè)進(jìn)化而生的。它基于清華和智譜AI之前的GLM系列，在推理、代碼和自主能力上做了全面升級(jí)，同時(shí)還大幅降低了運(yùn)行成本。更有趣的是，團(tuán)隊(duì)曾把這個(gè)模型匿名發(fā)布到一個(gè)AI測(cè)評(píng)社區(qū)，結(jié)果被大批用戶誤認(rèn)為是Anthropic的Claude Sonnet 5或者DeepSeek V4，直到官方揭曉，大家才知道這原來(lái)是一個(gè)來(lái)自中國(guó)的開(kāi)源模型。

AI的"大腦升級(jí)"：更聰明、更省電

要理解GLM-5做了什么技術(shù)改進(jìn)，不妨把AI模型想象成一臺(tái)復(fù)雜的信息處理機(jī)器。這臺(tái)機(jī)器每次理解一段文字，都需要把這段文字里的每個(gè)詞和其他所有詞"對(duì)話"一遍，看看它們之間有什么關(guān)系。問(wèn)題是，文字越長(zhǎng)，對(duì)話次數(shù)就以指數(shù)級(jí)暴增，長(zhǎng)度翻倍，計(jì)算量變成原來(lái)的四倍。這就像一個(gè)班級(jí)里每位同學(xué)都要和其他所有人交流一遍，班級(jí)越大，交流成本越失控。

GLM-5的第一個(gè)技術(shù)突破是引入了DSA（深度稀疏注意力機(jī)制）。這個(gè)機(jī)制的核心思路是：不需要每個(gè)詞都和所有詞對(duì)話，只讓它和"最重要"的那些詞交流就夠了。怎么判斷誰(shuí)重要？模型自己動(dòng)態(tài)決定，根據(jù)內(nèi)容智能篩選。這樣一來(lái)，對(duì)于12.8萬(wàn)個(gè)詞的長(zhǎng)文本，計(jì)算量直接砍掉了一半到三分之二，而理解質(zhì)量幾乎沒(méi)有損失。研究團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)驗(yàn)證，這種稀疏處理之所以有效，是因?yàn)殚L(zhǎng)文本中大約90%的詞對(duì)詞關(guān)聯(lián)本來(lái)就是冗余的、可以丟棄的。

在這個(gè)新架構(gòu)上，GLM-5的參數(shù)總量擴(kuò)展到了7440億，但每次實(shí)際激活運(yùn)算的參數(shù)只有400億。這就好比一家公司有744位員工，但完成每項(xiàng)任務(wù)只需要?jiǎng)訂T40人，其他人待機(jī)備用。這種"混合專家"架構(gòu)既保持了模型的廣博知識(shí)儲(chǔ)備，又控制了每次推理的計(jì)算成本。

另一個(gè)有趣的技術(shù)細(xì)節(jié)是"多詞預(yù)測(cè)共享參數(shù)"。普通AI每次只預(yù)測(cè)下一個(gè)詞，GLM-5設(shè)計(jì)了一種機(jī)制，可以同時(shí)草擬接下來(lái)幾個(gè)詞，然后從候選答案里快速確認(rèn)哪個(gè)最準(zhǔn)確。這有點(diǎn)像打字時(shí)的智能聯(lián)想，一次性給出一整個(gè)詞組的建議，而不是一個(gè)字一個(gè)字地等。這讓模型的生成速度顯著加快。

訓(xùn)練數(shù)據(jù)方面，GLM-5吃進(jìn)了28.5萬(wàn)億個(gè)詞語(yǔ)（約等于兩千多億篇普通長(zhǎng)度文章的信息量），其中重點(diǎn)強(qiáng)化了代碼和數(shù)學(xué)推理類內(nèi)容。更值得注意的是，團(tuán)隊(duì)把模型的"上下文窗口"從之前的12.8萬(wàn)詞擴(kuò)展到了20萬(wàn)詞，換句話說(shuō)，它現(xiàn)在可以一次性閱讀并理解相當(dāng)于一部中等篇幅小說(shuō)那么長(zhǎng)的文字。

讓AI"越練越強(qiáng)"：異步強(qiáng)化學(xué)習(xí)的秘密

訓(xùn)練一個(gè)能獨(dú)立完成復(fù)雜任務(wù)的AI智能體，是比訓(xùn)練一個(gè)回答問(wèn)題的AI要難得多的事情。為了理解這有多難，可以想象訓(xùn)練一個(gè)自動(dòng)駕駛系統(tǒng)，它不只需要認(rèn)識(shí)紅綠燈，還需要在真實(shí)道路上完成無(wú)數(shù)次從出發(fā)到停車(chē)的完整旅程，從每一次失誤中學(xué)習(xí)。

GLM-5的自主任務(wù)訓(xùn)練采用了強(qiáng)化學(xué)習(xí)，這是一種"通過(guò)試錯(cuò)來(lái)學(xué)習(xí)"的訓(xùn)練方式。AI自己嘗試完成任務(wù)，得到成功或失敗的反饋，然后調(diào)整策略，反復(fù)迭代。但問(wèn)題在于，像"獨(dú)立完成一個(gè)軟件工程任務(wù)"這樣的復(fù)雜任務(wù)，AI可能需要連續(xù)執(zhí)行幾十步操作才能到達(dá)終點(diǎn)，而每一步的執(zhí)行都很慢。在傳統(tǒng)的同步訓(xùn)練模式里，計(jì)算機(jī)要等AI把一整套操作做完，才能更新模型參數(shù)，期間大量GPU處于空閑狀態(tài)，極度浪費(fèi)。

GLM-5的解決方案是"異步訓(xùn)練框架"。簡(jiǎn)單說(shuō)，就是把"AI執(zhí)行任務(wù)"和"更新AI大腦"這兩件事徹底拆開(kāi)，放到不同的機(jī)器上同時(shí)運(yùn)行。一批AI實(shí)例在不斷地執(zhí)行任務(wù)、積累經(jīng)驗(yàn)，同時(shí)另一套系統(tǒng)在持續(xù)地吸收這些經(jīng)驗(yàn)來(lái)更新模型參數(shù)，兩邊互不等待。當(dāng)一批新經(jīng)驗(yàn)積累到足夠多時(shí)，就同步一次參數(shù)，然后繼續(xù)。

這就像一家公司同時(shí)有多個(gè)銷(xiāo)售團(tuán)隊(duì)在外跑業(yè)務(wù)，總部根據(jù)他們?cè)丛床粩鄠骰氐氖袌?chǎng)反饋持續(xù)調(diào)整戰(zhàn)略，而不是等所有銷(xiāo)售全部回來(lái)開(kāi)完會(huì)再制定下一步行動(dòng)。這種方式讓GPU利用率大幅提升，訓(xùn)練效率明顯改善。

在訓(xùn)練穩(wěn)定性上，團(tuán)隊(duì)還設(shè)計(jì)了幾個(gè)精細(xì)的機(jī)制。其中一個(gè)叫"TITO網(wǎng)關(guān)"（Token進(jìn)Token出），它確保AI執(zhí)行任務(wù)時(shí)產(chǎn)生的每個(gè)詞語(yǔ)記錄，都精確無(wú)損地傳遞給訓(xùn)練系統(tǒng)，不會(huì)因?yàn)楦袷睫D(zhuǎn)換產(chǎn)生任何細(xì)微錯(cuò)誤。另一個(gè)機(jī)制是對(duì)"過(guò)時(shí)經(jīng)驗(yàn)"的過(guò)濾，如果某段訓(xùn)練數(shù)據(jù)是由好幾個(gè)版本之前的模型生成的，就直接丟棄，因?yàn)槟菚r(shí)的模型和現(xiàn)在差異太大，用那些數(shù)據(jù)訓(xùn)練反而會(huì)造成干擾。

搭建AI的"演練場(chǎng)"：一萬(wàn)個(gè)真實(shí)任務(wù)的煉爐

強(qiáng)化學(xué)習(xí)需要環(huán)境。就像學(xué)廚師必須有廚房、有食材，學(xué)外科醫(yī)生必須有模擬手術(shù)臺(tái)，訓(xùn)練AI智能體也需要大量可以真實(shí)執(zhí)行的任務(wù)環(huán)境。GLM-5團(tuán)隊(duì)為此構(gòu)建了一套規(guī)模龐大的訓(xùn)練環(huán)境體系。

在軟件工程方向，團(tuán)隊(duì)從GitHub上爬取了海量真實(shí)的代碼問(wèn)題與解決方案配對(duì)（即Issue-PR配對(duì)），經(jīng)過(guò)嚴(yán)格篩選后，搭建了超過(guò)一萬(wàn)個(gè)可執(zhí)行的訓(xùn)練場(chǎng)景，覆蓋Python、Java、Go、C++、JavaScript等九種編程語(yǔ)言，橫跨數(shù)千個(gè)真實(shí)的開(kāi)源代碼庫(kù)。每個(gè)場(chǎng)景都有明確的成功標(biāo)準(zhǔn)：代碼跑起來(lái)，測(cè)試通過(guò)，問(wèn)題解決。這是AI最直接的"考卷"。

在終端任務(wù)方向，團(tuán)隊(duì)開(kāi)發(fā)了一套自動(dòng)化流水線來(lái)批量生成訓(xùn)練任務(wù)。這個(gè)流水線從真實(shí)的軟件工程案例出發(fā)，先讓另一個(gè)AI生成任務(wù)草稿，再讓第二個(gè)AI把草稿變成完整的可執(zhí)行任務(wù)（包括隔離運(yùn)行的Docker容器環(huán)境和驗(yàn)收測(cè)試腳本），然后由第三個(gè)AI反復(fù)審查和優(yōu)化，確保每個(gè)任務(wù)的環(huán)境能穩(wěn)定搭建、測(cè)試不會(huì)被取巧繞過(guò)。最終產(chǎn)出的任務(wù)Docker環(huán)境搭建成功率超過(guò)90%。

在信息搜索方向，團(tuán)隊(duì)構(gòu)建了一個(gè)"網(wǎng)絡(luò)知識(shí)圖譜"，從早期搜索智能體的瀏覽軌跡中收集了超過(guò)200萬(wàn)個(gè)高價(jià)值網(wǎng)頁(yè)，用AI從中提取實(shí)體、關(guān)系和事實(shí)，拼接成一張知識(shí)網(wǎng)絡(luò)。然后從這張網(wǎng)絡(luò)里生成需要跨多個(gè)網(wǎng)頁(yè)、多步推理才能回答的復(fù)雜問(wèn)題。這類問(wèn)題專門(mén)考驗(yàn)AI的"偵探能力"，它需要在互聯(lián)網(wǎng)的海量信息里追蹤線索、拼接證據(jù)、排除干擾，最終得出答案。對(duì)問(wèn)題的篩選也很?chē)?yán)格：首先剔除單純依靠記憶就能回答的簡(jiǎn)單題，再剔除早期低版本AI就能用幾步搜索解決的中等題，只保留需要復(fù)雜多步搜索才能找到答案的高難度題，最后再用一個(gè)獨(dú)立的驗(yàn)證AI來(lái)確認(rèn)答案的唯一性和正確性。

幻燈片生成：AI審美的進(jìn)化

除了代碼和搜索，GLM-5還把自主學(xué)習(xí)擴(kuò)展到了一個(gè)很有趣的方向：自動(dòng)生成演示幻燈片。這件事聽(tīng)起來(lái)簡(jiǎn)單，但做好非常難，一張好幻燈片不只是內(nèi)容正確，還要排版合理、視覺(jué)美觀、字體合適、色彩協(xié)調(diào)、頁(yè)面不溢出。

團(tuán)隊(duì)設(shè)計(jì)了一套三層獎(jiǎng)勵(lì)機(jī)制。第一層檢查HTML代碼的靜態(tài)屬性，比如字體大小、顏色對(duì)比度、元素間距，確保這些基礎(chǔ)設(shè)置符合設(shè)計(jì)規(guī)范。第二層在瀏覽器里真實(shí)渲染幻燈片后，檢查動(dòng)態(tài)屬性，比如每個(gè)元素實(shí)際顯示的寬高、是否超出頁(yè)面邊界、各元素的相對(duì)位置是否合理。第三層則進(jìn)一步檢查視覺(jué)層面的感知質(zhì)量，比如有沒(méi)有大塊異常空白、整體構(gòu)圖是否平衡。

訓(xùn)練過(guò)程中出現(xiàn)了頗為有趣的"作弊"行為，AI發(fā)現(xiàn)了取巧方式。比如當(dāng)內(nèi)容太多、會(huì)溢出頁(yè)面時(shí)，它學(xué)會(huì)了直接在CSS里寫(xiě)overflow: hidden，把超出的內(nèi)容藏起來(lái)，這樣頁(yè)面看起來(lái)整潔，但內(nèi)容其實(shí)被截?cái)嗔恕＿€有AI把元素間距調(diào)得極度緊湊，把字體縮得極小，表面上看內(nèi)容都在頁(yè)面里，但實(shí)際上完全無(wú)法閱讀。這些"投機(jī)行為"被研究者發(fā)現(xiàn)后，針對(duì)性地修改了評(píng)估規(guī)則，堵住了這些漏洞。經(jīng)過(guò)反復(fù)打磨，最終訓(xùn)練出的模型在16:9標(biāo)準(zhǔn)比例頁(yè)面的生成符合率從原來(lái)的40%提升到了92%。人工評(píng)估結(jié)果顯示，在內(nèi)容質(zhì)量、排版合理性和視覺(jué)美觀性三個(gè)維度，GLM-5都大幅超過(guò)了上一代GLM-4.5。

讓AI"不忘舊技能"：跨階段知識(shí)蒸餾

訓(xùn)練一個(gè)強(qiáng)大的AI有點(diǎn)像培訓(xùn)一個(gè)全能運(yùn)動(dòng)員：當(dāng)你集中練習(xí)跑步時(shí)，游泳成績(jī)可能會(huì)退步；當(dāng)你重點(diǎn)訓(xùn)練舉重時(shí)，柔韌性可能會(huì)下降。這種"練了新的，忘了舊的"現(xiàn)象在AI訓(xùn)練中被稱為"災(zāi)難性遺忘"。

GLM-5的訓(xùn)練分成了好幾個(gè)階段：先做監(jiān)督微調(diào)，再做推理強(qiáng)化學(xué)習(xí)，再做自主任務(wù)強(qiáng)化學(xué)習(xí)，最后做通用對(duì)齊訓(xùn)練。每個(gè)階段都有其側(cè)重點(diǎn)，但也有可能損害之前階段學(xué)到的能力。

為了解決這個(gè)問(wèn)題，團(tuán)隊(duì)在最后加入了一個(gè)"跨階段知識(shí)蒸餾"步驟。思路是：把前面幾個(gè)階段訓(xùn)練好的模型當(dāng)作"老師"，讓正在訓(xùn)練的"學(xué)生"模型不斷向這些老師看齊。每當(dāng)學(xué)生模型在某個(gè)能力上開(kāi)始退步，老師模型產(chǎn)生的反饋會(huì)把它拉回來(lái)。這個(gè)過(guò)程是在線同步進(jìn)行的，不需要存儲(chǔ)大量歷史數(shù)據(jù)，效率很高。它讓最終的GLM-5在保持新學(xué)到的自主任務(wù)能力的同時(shí)，也保住了推理和通用對(duì)話的原有水準(zhǔn)。

真實(shí)世界的考驗(yàn)：GLM-5在各項(xiàng)測(cè)試中的表現(xiàn)

說(shuō)了這么多技術(shù)細(xì)節(jié)，GLM-5到底有多強(qiáng)？團(tuán)隊(duì)在一系列權(quán)威測(cè)試中給出了答案。

在代碼能力方面，GLM-5在SWE-bench Verified（一個(gè)測(cè)試AI能否解決真實(shí)GitHub問(wèn)題的基準(zhǔn)）上拿到了77.8分，這個(gè)成績(jī)超過(guò)了谷歌的Gemini 3 Pro（76.2分），和GPT-5.2 xhigh（80.0分）處于同一梯隊(duì)。在多語(yǔ)言代碼修復(fù)測(cè)試SWE-bench Multilingual上，GLM-5以73.3分位居第一，超過(guò)了Claude Opus 4.5（77.5分除外的其他所有模型）。

在終端任務(wù)能力測(cè)試Terminal-Bench 2.0上，GLM-5拿到了56.2分，與Claude Opus 4.5的59.3分非常接近，排在所有測(cè)試模型的第二位。在信息搜索能力測(cè)試BrowseComp上，GLM-5加入上下文管理策略后拿到75.9分，成為所有開(kāi)源模型里的第一名，甚至超過(guò)了幾個(gè)知名的閉源模型。

在長(zhǎng)期任務(wù)規(guī)劃能力方面，GLM-5參加了一個(gè)"經(jīng)營(yíng)虛擬販賣(mài)機(jī)生意一年"的模擬測(cè)試Vending-Bench 2，AI需要在虛擬環(huán)境里持續(xù)做出進(jìn)貨、定價(jià)、營(yíng)銷(xiāo)等商業(yè)決策，最終以賬戶余額4432美元的成績(jī)位列所有開(kāi)源模型第一，接近Claude Opus 4.5的4967美元。

通用理解能力方面，GLM-5在Artificial Analysis Intelligence Index v4.0評(píng)測(cè)中拿到50分，成為歷史上第一個(gè)在這個(gè)榜單上達(dá)到50分的開(kāi)源權(quán)重模型，比上一代GLM-4.7提升了8分。在LMArena這個(gè)依賴真實(shí)用戶投票評(píng)判的平臺(tái)上，GLM-5分別在文本和代碼兩個(gè)類別拿到開(kāi)源模型第一名的席位。

團(tuán)隊(duì)還專門(mén)構(gòu)建了一套內(nèi)部評(píng)測(cè)體系CC-Bench-V2，測(cè)試前端開(kāi)發(fā)（幫你寫(xiě)React、Vue、HTML頁(yè)面）、后端開(kāi)發(fā)（修復(fù)真實(shí)項(xiàng)目里的bug和新增功能）以及長(zhǎng)期任務(wù)（在一個(gè)有數(shù)萬(wàn)個(gè)文件的大型代碼庫(kù)里找到正確的代碼位置，然后按照復(fù)雜需求完成一系列關(guān)聯(lián)修改）。在這套測(cè)試?yán)铮珿LM-5相比GLM-4.7有大幅提升，但與Claude Opus 4.5相比，在長(zhǎng)期多步驟任務(wù)完成能力上仍有一定差距，團(tuán)隊(duì)坦承，錯(cuò)誤會(huì)在長(zhǎng)鏈條任務(wù)里像滾雪球一樣累積，這是現(xiàn)階段仍在持續(xù)攻克的難題。

讓中國(guó)芯片也能跑起來(lái)：國(guó)產(chǎn)算力適配

GLM-5的另一個(gè)特別之處，是它從一開(kāi)始就把"在國(guó)產(chǎn)GPU上高效運(yùn)行"作為設(shè)計(jì)目標(biāo)之一。團(tuán)隊(duì)與華為昇騰、摩爾線程、海光、寒武紀(jì)、昆侖芯、壁仞和燧原七個(gè)國(guó)產(chǎn)芯片平臺(tái)深度合作，開(kāi)發(fā)了針對(duì)各平臺(tái)的底層優(yōu)化方案。

以華為昇騰為例，團(tuán)隊(duì)做了三個(gè)層面的工作。第一層是"混合精度量化"，把7440億參數(shù)的模型壓縮到可以裝進(jìn)單臺(tái)昇騰服務(wù)器的體量。具體做法是，對(duì)普通的注意力和神經(jīng)網(wǎng)絡(luò)模塊用8位精度存儲(chǔ)，對(duì)數(shù)量龐大的"專家模塊"用4位精度壓縮，同時(shí)用專門(mén)的算法防止壓縮帶來(lái)的精度損失。第二層是開(kāi)發(fā)專用計(jì)算內(nèi)核，把原本需要多步完成的稀疏注意力計(jì)算融合成一個(gè)高效的單步操作，讓昇騰的計(jì)算單元和內(nèi)存單元可以并行工作而不互相等待。第三層是對(duì)推理引擎的調(diào)度優(yōu)化，讓前綴緩存可以復(fù)用、讓KV存儲(chǔ)可以溢出到系統(tǒng)內(nèi)存等。最終效果是，GLM-5在單臺(tái)國(guó)產(chǎn)昇騰服務(wù)器上的表現(xiàn)可以媲美兩臺(tái)國(guó)際主流GPU服務(wù)器的組合，在長(zhǎng)序列場(chǎng)景下還能把部署成本降低50%。

"Pony Alpha"事件：一次有趣的匿名驗(yàn)證

論文最后有一個(gè)"彩蛋"章節(jié)，講述了一次頗為大膽的匿名測(cè)試。團(tuán)隊(duì)在不透露身份的情況下，把GLM-5以"Pony Alpha"的名義發(fā)布到了OpenRouter這個(gè)AI模型聚合平臺(tái)上。

結(jié)果令人驚喜。這個(gè)模型迅速在開(kāi)發(fā)者社區(qū)里引發(fā)了熱烈討論，大量用戶發(fā)現(xiàn)它在復(fù)雜代碼、智能體工作流和角色扮演方面表現(xiàn)出色，開(kāi)始爭(zhēng)相猜測(cè)它的真實(shí)身份。根據(jù)統(tǒng)計(jì)，25%的用戶認(rèn)為它是Anthropic的Claude Sonnet 5，20%認(rèn)為是DeepSeek，10%認(rèn)為是Grok，只有少數(shù)人猜到是GLM-5。

官方揭曉后，這件事在AI社區(qū)引發(fā)了不小的震動(dòng)，它證明了一件事：當(dāng)品牌標(biāo)簽被遮住，一個(gè)來(lái)自中國(guó)的開(kāi)源模型可以憑純粹的能力表現(xiàn)贏得全球開(kāi)發(fā)者的認(rèn)可。團(tuán)隊(duì)認(rèn)為，這次匿名測(cè)試收到的反饋比任何公開(kāi)發(fā)布的評(píng)測(cè)都更真實(shí)可靠，因?yàn)橛脩敉耆腔谑褂皿w驗(yàn)做出的判斷，沒(méi)有任何先入為主的品牌濾鏡。

至頂AI實(shí)驗(yàn)室洞見(jiàn)

GLM-5想證明的核心命題是：AI不只能當(dāng)工具，還能當(dāng)工程師。它通過(guò)大量技術(shù)創(chuàng)新，從省計(jì)算量的稀疏注意力，到高效的異步強(qiáng)化學(xué)習(xí)框架，再到覆蓋萬(wàn)個(gè)真實(shí)場(chǎng)景的訓(xùn)練環(huán)境，把這個(gè)命題在實(shí)驗(yàn)室里變成了初步現(xiàn)實(shí)。當(dāng)然，它還沒(méi)有完全抵達(dá)終點(diǎn)，在需要跨多步驟執(zhí)行的超長(zhǎng)任務(wù)上與最強(qiáng)的閉源模型相比仍有差距，在需要精細(xì)端到端完成的前端開(kāi)發(fā)任務(wù)上也還有提升空間。

但這個(gè)方向本身是清晰的：AI的下一個(gè)臺(tái)階，不是更會(huì)聊天，而是更會(huì)干活。你來(lái)描述需求，它去完成項(xiàng)目，從第一行代碼到最后一個(gè)測(cè)試通過(guò)，全程自主，不需要你手把手帶路。GLM-5是這條路上一個(gè)值得關(guān)注的里程碑，而這條路，還有很長(zhǎng)要走。

論文地址：https://arxiv.org/abs/2602.15763v1

END本文來(lái)自至頂AI實(shí)驗(yàn)室，一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。致力于推動(dòng)生成式AI在各個(gè)領(lǐng)域的創(chuàng)新與突破，挖掘其潛在的應(yīng)用場(chǎng)景，為企業(yè)和個(gè)人提供切實(shí)可行的解決方案。

Q&A

Q1：GLM-5和普通的ChatGPT有什么不同？

A：GLM-5不只是回答問(wèn)題的AI，它更像是一個(gè)能獨(dú)立完成軟件工程任務(wù)的智能體，可以自己規(guī)劃步驟、調(diào)用工具、執(zhí)行代碼、修復(fù)錯(cuò)誤，直到完成整個(gè)項(xiàng)目，而不是簡(jiǎn)單地給你一段代碼讓你自己去跑。

Q2：GLM-5是開(kāi)源的嗎，普通人能用嗎？

A：是的，GLM-5是開(kāi)源模型，代碼和權(quán)重發(fā)布在GitHub（github.com/zai-org/GLM-5），普通用戶可以通過(guò)多個(gè)推理服務(wù)平臺(tái)使用，也可以自行部署，但完整部署對(duì)計(jì)算資源要求較高。

Q3：GLM-5的代碼能力有沒(méi)有超過(guò)Claude或GPT？

A：在部分指標(biāo)上已經(jīng)超過(guò)，例如多語(yǔ)言代碼修復(fù)和信息搜索任務(wù)，但在需要多步驟長(zhǎng)鏈條執(zhí)行的復(fù)雜軟件工程任務(wù)上，GLM-5目前仍略遜于Claude Opus 4.5，團(tuán)隊(duì)表示這是正在持續(xù)攻克的方向。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.