還記得今年大年初一那天,你在干什么嗎?就是這天,智譜AI與清華大學(xué)的聯(lián)合團(tuán)隊(duì),在arXiv公開(kāi)了GLM-5的技術(shù)報(bào)告《GLM-5:從氛圍編程到智能體工程》。
論文標(biāo)題可以這么理解,比如你有一個(gè)實(shí)習(xí)生,一開(kāi)始只會(huì)按你說(shuō)的敲代碼,后來(lái)慢慢學(xué)會(huì)了自己理解需求、規(guī)劃步驟、發(fā)現(xiàn)問(wèn)題、修改代碼、再驗(yàn)證,最終獨(dú)立交付一個(gè)完整項(xiàng)目,這就是GLM-5想要做到的事。它的名字里藏著一個(gè)野心:從"vibe coding"(氛圍編程)走向"agentic engineering"(智能體工程)。
所謂"氛圍編程",是指你告訴AI"幫我寫(xiě)段代碼",它就給你一段代碼,你接收、復(fù)制粘貼、完事。這種模式下,AI是一個(gè)被動(dòng)的執(zhí)行工具,像一臺(tái)自動(dòng)販賣(mài)機(jī),你投幣,它出產(chǎn)品,僅此而已。而"智能工程"則完全不同,AI需要主動(dòng)理解任務(wù)、分解步驟、調(diào)用工具、執(zhí)行測(cè)試、處理錯(cuò)誤,就像一個(gè)有經(jīng)驗(yàn)的工程師拿到需求文檔后獨(dú)立開(kāi)工,直到項(xiàng)目完成。這是從"工具"到"同事"的進(jìn)化。
![]()
GLM-5正是為了完成這個(gè)進(jìn)化而生的。它基于清華和智譜AI之前的GLM系列,在推理、代碼和自主能力上做了全面升級(jí),同時(shí)還大幅降低了運(yùn)行成本。更有趣的是,團(tuán)隊(duì)曾把這個(gè)模型匿名發(fā)布到一個(gè)AI測(cè)評(píng)社區(qū),結(jié)果被大批用戶誤認(rèn)為是Anthropic的Claude Sonnet 5或者DeepSeek V4,直到官方揭曉,大家才知道這原來(lái)是一個(gè)來(lái)自中國(guó)的開(kāi)源模型。
AI的"大腦升級(jí)":更聰明、更省電
要理解GLM-5做了什么技術(shù)改進(jìn),不妨把AI模型想象成一臺(tái)復(fù)雜的信息處理機(jī)器。這臺(tái)機(jī)器每次理解一段文字,都需要把這段文字里的每個(gè)詞和其他所有詞"對(duì)話"一遍,看看它們之間有什么關(guān)系。問(wèn)題是,文字越長(zhǎng),對(duì)話次數(shù)就以指數(shù)級(jí)暴增,長(zhǎng)度翻倍,計(jì)算量變成原來(lái)的四倍。這就像一個(gè)班級(jí)里每位同學(xué)都要和其他所有人交流一遍,班級(jí)越大,交流成本越失控。
GLM-5的第一個(gè)技術(shù)突破是引入了DSA(深度稀疏注意力機(jī)制)。這個(gè)機(jī)制的核心思路是:不需要每個(gè)詞都和所有詞對(duì)話,只讓它和"最重要"的那些詞交流就夠了。怎么判斷誰(shuí)重要?模型自己動(dòng)態(tài)決定,根據(jù)內(nèi)容智能篩選。這樣一來(lái),對(duì)于12.8萬(wàn)個(gè)詞的長(zhǎng)文本,計(jì)算量直接砍掉了一半到三分之二,而理解質(zhì)量幾乎沒(méi)有損失。研究團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)驗(yàn)證,這種稀疏處理之所以有效,是因?yàn)殚L(zhǎng)文本中大約90%的詞對(duì)詞關(guān)聯(lián)本來(lái)就是冗余的、可以丟棄的。
在這個(gè)新架構(gòu)上,GLM-5的參數(shù)總量擴(kuò)展到了7440億,但每次實(shí)際激活運(yùn)算的參數(shù)只有400億。這就好比一家公司有744位員工,但完成每項(xiàng)任務(wù)只需要?jiǎng)訂T40人,其他人待機(jī)備用。這種"混合專家"架構(gòu)既保持了模型的廣博知識(shí)儲(chǔ)備,又控制了每次推理的計(jì)算成本。
另一個(gè)有趣的技術(shù)細(xì)節(jié)是"多詞預(yù)測(cè)共享參數(shù)"。普通AI每次只預(yù)測(cè)下一個(gè)詞,GLM-5設(shè)計(jì)了一種機(jī)制,可以同時(shí)草擬接下來(lái)幾個(gè)詞,然后從候選答案里快速確認(rèn)哪個(gè)最準(zhǔn)確。這有點(diǎn)像打字時(shí)的智能聯(lián)想,一次性給出一整個(gè)詞組的建議,而不是一個(gè)字一個(gè)字地等。這讓模型的生成速度顯著加快。
訓(xùn)練數(shù)據(jù)方面,GLM-5吃進(jìn)了28.5萬(wàn)億個(gè)詞語(yǔ)(約等于兩千多億篇普通長(zhǎng)度文章的信息量),其中重點(diǎn)強(qiáng)化了代碼和數(shù)學(xué)推理類內(nèi)容。更值得注意的是,團(tuán)隊(duì)把模型的"上下文窗口"從之前的12.8萬(wàn)詞擴(kuò)展到了20萬(wàn)詞,換句話說(shuō),它現(xiàn)在可以一次性閱讀并理解相當(dāng)于一部中等篇幅小說(shuō)那么長(zhǎng)的文字。
讓AI"越練越強(qiáng)":異步強(qiáng)化學(xué)習(xí)的秘密
訓(xùn)練一個(gè)能獨(dú)立完成復(fù)雜任務(wù)的AI智能體,是比訓(xùn)練一個(gè)回答問(wèn)題的AI要難得多的事情。為了理解這有多難,可以想象訓(xùn)練一個(gè)自動(dòng)駕駛系統(tǒng),它不只需要認(rèn)識(shí)紅綠燈,還需要在真實(shí)道路上完成無(wú)數(shù)次從出發(fā)到停車(chē)的完整旅程,從每一次失誤中學(xué)習(xí)。
![]()
GLM-5的自主任務(wù)訓(xùn)練采用了強(qiáng)化學(xué)習(xí),這是一種"通過(guò)試錯(cuò)來(lái)學(xué)習(xí)"的訓(xùn)練方式。AI自己嘗試完成任務(wù),得到成功或失敗的反饋,然后調(diào)整策略,反復(fù)迭代。但問(wèn)題在于,像"獨(dú)立完成一個(gè)軟件工程任務(wù)"這樣的復(fù)雜任務(wù),AI可能需要連續(xù)執(zhí)行幾十步操作才能到達(dá)終點(diǎn),而每一步的執(zhí)行都很慢。在傳統(tǒng)的同步訓(xùn)練模式里,計(jì)算機(jī)要等AI把一整套操作做完,才能更新模型參數(shù),期間大量GPU處于空閑狀態(tài),極度浪費(fèi)。
GLM-5的解決方案是"異步訓(xùn)練框架"。簡(jiǎn)單說(shuō),就是把"AI執(zhí)行任務(wù)"和"更新AI大腦"這兩件事徹底拆開(kāi),放到不同的機(jī)器上同時(shí)運(yùn)行。一批AI實(shí)例在不斷地執(zhí)行任務(wù)、積累經(jīng)驗(yàn),同時(shí)另一套系統(tǒng)在持續(xù)地吸收這些經(jīng)驗(yàn)來(lái)更新模型參數(shù),兩邊互不等待。當(dāng)一批新經(jīng)驗(yàn)積累到足夠多時(shí),就同步一次參數(shù),然后繼續(xù)。
這就像一家公司同時(shí)有多個(gè)銷(xiāo)售團(tuán)隊(duì)在外跑業(yè)務(wù),總部根據(jù)他們?cè)丛床粩鄠骰氐氖袌?chǎng)反饋持續(xù)調(diào)整戰(zhàn)略,而不是等所有銷(xiāo)售全部回來(lái)開(kāi)完會(huì)再制定下一步行動(dòng)。這種方式讓GPU利用率大幅提升,訓(xùn)練效率明顯改善。
在訓(xùn)練穩(wěn)定性上,團(tuán)隊(duì)還設(shè)計(jì)了幾個(gè)精細(xì)的機(jī)制。其中一個(gè)叫"TITO網(wǎng)關(guān)"(Token進(jìn)Token出),它確保AI執(zhí)行任務(wù)時(shí)產(chǎn)生的每個(gè)詞語(yǔ)記錄,都精確無(wú)損地傳遞給訓(xùn)練系統(tǒng),不會(huì)因?yàn)楦袷睫D(zhuǎn)換產(chǎn)生任何細(xì)微錯(cuò)誤。另一個(gè)機(jī)制是對(duì)"過(guò)時(shí)經(jīng)驗(yàn)"的過(guò)濾,如果某段訓(xùn)練數(shù)據(jù)是由好幾個(gè)版本之前的模型生成的,就直接丟棄,因?yàn)槟菚r(shí)的模型和現(xiàn)在差異太大,用那些數(shù)據(jù)訓(xùn)練反而會(huì)造成干擾。
搭建AI的"演練場(chǎng)":一萬(wàn)個(gè)真實(shí)任務(wù)的煉爐
強(qiáng)化學(xué)習(xí)需要環(huán)境。就像學(xué)廚師必須有廚房、有食材,學(xué)外科醫(yī)生必須有模擬手術(shù)臺(tái),訓(xùn)練AI智能體也需要大量可以真實(shí)執(zhí)行的任務(wù)環(huán)境。GLM-5團(tuán)隊(duì)為此構(gòu)建了一套規(guī)模龐大的訓(xùn)練環(huán)境體系。
在軟件工程方向,團(tuán)隊(duì)從GitHub上爬取了海量真實(shí)的代碼問(wèn)題與解決方案配對(duì)(即Issue-PR配對(duì)),經(jīng)過(guò)嚴(yán)格篩選后,搭建了超過(guò)一萬(wàn)個(gè)可執(zhí)行的訓(xùn)練場(chǎng)景,覆蓋Python、Java、Go、C++、JavaScript等九種編程語(yǔ)言,橫跨數(shù)千個(gè)真實(shí)的開(kāi)源代碼庫(kù)。每個(gè)場(chǎng)景都有明確的成功標(biāo)準(zhǔn):代碼跑起來(lái),測(cè)試通過(guò),問(wèn)題解決。這是AI最直接的"考卷"。
在終端任務(wù)方向,團(tuán)隊(duì)開(kāi)發(fā)了一套自動(dòng)化流水線來(lái)批量生成訓(xùn)練任務(wù)。這個(gè)流水線從真實(shí)的軟件工程案例出發(fā),先讓另一個(gè)AI生成任務(wù)草稿,再讓第二個(gè)AI把草稿變成完整的可執(zhí)行任務(wù)(包括隔離運(yùn)行的Docker容器環(huán)境和驗(yàn)收測(cè)試腳本),然后由第三個(gè)AI反復(fù)審查和優(yōu)化,確保每個(gè)任務(wù)的環(huán)境能穩(wěn)定搭建、測(cè)試不會(huì)被取巧繞過(guò)。最終產(chǎn)出的任務(wù)Docker環(huán)境搭建成功率超過(guò)90%。
在信息搜索方向,團(tuán)隊(duì)構(gòu)建了一個(gè)"網(wǎng)絡(luò)知識(shí)圖譜",從早期搜索智能體的瀏覽軌跡中收集了超過(guò)200萬(wàn)個(gè)高價(jià)值網(wǎng)頁(yè),用AI從中提取實(shí)體、關(guān)系和事實(shí),拼接成一張知識(shí)網(wǎng)絡(luò)。然后從這張網(wǎng)絡(luò)里生成需要跨多個(gè)網(wǎng)頁(yè)、多步推理才能回答的復(fù)雜問(wèn)題。這類問(wèn)題專門(mén)考驗(yàn)AI的"偵探能力",它需要在互聯(lián)網(wǎng)的海量信息里追蹤線索、拼接證據(jù)、排除干擾,最終得出答案。對(duì)問(wèn)題的篩選也很?chē)?yán)格:首先剔除單純依靠記憶就能回答的簡(jiǎn)單題,再剔除早期低版本AI就能用幾步搜索解決的中等題,只保留需要復(fù)雜多步搜索才能找到答案的高難度題,最后再用一個(gè)獨(dú)立的驗(yàn)證AI來(lái)確認(rèn)答案的唯一性和正確性。
幻燈片生成:AI審美的進(jìn)化
除了代碼和搜索,GLM-5還把自主學(xué)習(xí)擴(kuò)展到了一個(gè)很有趣的方向:自動(dòng)生成演示幻燈片。這件事聽(tīng)起來(lái)簡(jiǎn)單,但做好非常難,一張好幻燈片不只是內(nèi)容正確,還要排版合理、視覺(jué)美觀、字體合適、色彩協(xié)調(diào)、頁(yè)面不溢出。
團(tuán)隊(duì)設(shè)計(jì)了一套三層獎(jiǎng)勵(lì)機(jī)制。第一層檢查HTML代碼的靜態(tài)屬性,比如字體大小、顏色對(duì)比度、元素間距,確保這些基礎(chǔ)設(shè)置符合設(shè)計(jì)規(guī)范。第二層在瀏覽器里真實(shí)渲染幻燈片后,檢查動(dòng)態(tài)屬性,比如每個(gè)元素實(shí)際顯示的寬高、是否超出頁(yè)面邊界、各元素的相對(duì)位置是否合理。第三層則進(jìn)一步檢查視覺(jué)層面的感知質(zhì)量,比如有沒(méi)有大塊異常空白、整體構(gòu)圖是否平衡。
![]()
訓(xùn)練過(guò)程中出現(xiàn)了頗為有趣的"作弊"行為,AI發(fā)現(xiàn)了取巧方式。比如當(dāng)內(nèi)容太多、會(huì)溢出頁(yè)面時(shí),它學(xué)會(huì)了直接在CSS里寫(xiě)overflow: hidden,把超出的內(nèi)容藏起來(lái),這樣頁(yè)面看起來(lái)整潔,但內(nèi)容其實(shí)被截?cái)嗔恕_€有AI把元素間距調(diào)得極度緊湊,把字體縮得極小,表面上看內(nèi)容都在頁(yè)面里,但實(shí)際上完全無(wú)法閱讀。這些"投機(jī)行為"被研究者發(fā)現(xiàn)后,針對(duì)性地修改了評(píng)估規(guī)則,堵住了這些漏洞。經(jīng)過(guò)反復(fù)打磨,最終訓(xùn)練出的模型在16:9標(biāo)準(zhǔn)比例頁(yè)面的生成符合率從原來(lái)的40%提升到了92%。人工評(píng)估結(jié)果顯示,在內(nèi)容質(zhì)量、排版合理性和視覺(jué)美觀性三個(gè)維度,GLM-5都大幅超過(guò)了上一代GLM-4.5。
讓AI"不忘舊技能":跨階段知識(shí)蒸餾
訓(xùn)練一個(gè)強(qiáng)大的AI有點(diǎn)像培訓(xùn)一個(gè)全能運(yùn)動(dòng)員:當(dāng)你集中練習(xí)跑步時(shí),游泳成績(jī)可能會(huì)退步;當(dāng)你重點(diǎn)訓(xùn)練舉重時(shí),柔韌性可能會(huì)下降。這種"練了新的,忘了舊的"現(xiàn)象在AI訓(xùn)練中被稱為"災(zāi)難性遺忘"。
GLM-5的訓(xùn)練分成了好幾個(gè)階段:先做監(jiān)督微調(diào),再做推理強(qiáng)化學(xué)習(xí),再做自主任務(wù)強(qiáng)化學(xué)習(xí),最后做通用對(duì)齊訓(xùn)練。每個(gè)階段都有其側(cè)重點(diǎn),但也有可能損害之前階段學(xué)到的能力。
為了解決這個(gè)問(wèn)題,團(tuán)隊(duì)在最后加入了一個(gè)"跨階段知識(shí)蒸餾"步驟。思路是:把前面幾個(gè)階段訓(xùn)練好的模型當(dāng)作"老師",讓正在訓(xùn)練的"學(xué)生"模型不斷向這些老師看齊。每當(dāng)學(xué)生模型在某個(gè)能力上開(kāi)始退步,老師模型產(chǎn)生的反饋會(huì)把它拉回來(lái)。這個(gè)過(guò)程是在線同步進(jìn)行的,不需要存儲(chǔ)大量歷史數(shù)據(jù),效率很高。它讓最終的GLM-5在保持新學(xué)到的自主任務(wù)能力的同時(shí),也保住了推理和通用對(duì)話的原有水準(zhǔn)。
真實(shí)世界的考驗(yàn):GLM-5在各項(xiàng)測(cè)試中的表現(xiàn)
說(shuō)了這么多技術(shù)細(xì)節(jié),GLM-5到底有多強(qiáng)?團(tuán)隊(duì)在一系列權(quán)威測(cè)試中給出了答案。
![]()
在代碼能力方面,GLM-5在SWE-bench Verified(一個(gè)測(cè)試AI能否解決真實(shí)GitHub問(wèn)題的基準(zhǔn))上拿到了77.8分,這個(gè)成績(jī)超過(guò)了谷歌的Gemini 3 Pro(76.2分),和GPT-5.2 xhigh(80.0分)處于同一梯隊(duì)。在多語(yǔ)言代碼修復(fù)測(cè)試SWE-bench Multilingual上,GLM-5以73.3分位居第一,超過(guò)了Claude Opus 4.5(77.5分除外的其他所有模型)。
在終端任務(wù)能力測(cè)試Terminal-Bench 2.0上,GLM-5拿到了56.2分,與Claude Opus 4.5的59.3分非常接近,排在所有測(cè)試模型的第二位。在信息搜索能力測(cè)試BrowseComp上,GLM-5加入上下文管理策略后拿到75.9分,成為所有開(kāi)源模型里的第一名,甚至超過(guò)了幾個(gè)知名的閉源模型。
在長(zhǎng)期任務(wù)規(guī)劃能力方面,GLM-5參加了一個(gè)"經(jīng)營(yíng)虛擬販賣(mài)機(jī)生意一年"的模擬測(cè)試Vending-Bench 2,AI需要在虛擬環(huán)境里持續(xù)做出進(jìn)貨、定價(jià)、營(yíng)銷(xiāo)等商業(yè)決策,最終以賬戶余額4432美元的成績(jī)位列所有開(kāi)源模型第一,接近Claude Opus 4.5的4967美元。
通用理解能力方面,GLM-5在Artificial Analysis Intelligence Index v4.0評(píng)測(cè)中拿到50分,成為歷史上第一個(gè)在這個(gè)榜單上達(dá)到50分的開(kāi)源權(quán)重模型,比上一代GLM-4.7提升了8分。在LMArena這個(gè)依賴真實(shí)用戶投票評(píng)判的平臺(tái)上,GLM-5分別在文本和代碼兩個(gè)類別拿到開(kāi)源模型第一名的席位。
團(tuán)隊(duì)還專門(mén)構(gòu)建了一套內(nèi)部評(píng)測(cè)體系CC-Bench-V2,測(cè)試前端開(kāi)發(fā)(幫你寫(xiě)React、Vue、HTML頁(yè)面)、后端開(kāi)發(fā)(修復(fù)真實(shí)項(xiàng)目里的bug和新增功能)以及長(zhǎng)期任務(wù)(在一個(gè)有數(shù)萬(wàn)個(gè)文件的大型代碼庫(kù)里找到正確的代碼位置,然后按照復(fù)雜需求完成一系列關(guān)聯(lián)修改)。在這套測(cè)試?yán)铮珿LM-5相比GLM-4.7有大幅提升,但與Claude Opus 4.5相比,在長(zhǎng)期多步驟任務(wù)完成能力上仍有一定差距,團(tuán)隊(duì)坦承,錯(cuò)誤會(huì)在長(zhǎng)鏈條任務(wù)里像滾雪球一樣累積,這是現(xiàn)階段仍在持續(xù)攻克的難題。
讓中國(guó)芯片也能跑起來(lái):國(guó)產(chǎn)算力適配
GLM-5的另一個(gè)特別之處,是它從一開(kāi)始就把"在國(guó)產(chǎn)GPU上高效運(yùn)行"作為設(shè)計(jì)目標(biāo)之一。團(tuán)隊(duì)與華為昇騰、摩爾線程、海光、寒武紀(jì)、昆侖芯、壁仞和燧原七個(gè)國(guó)產(chǎn)芯片平臺(tái)深度合作,開(kāi)發(fā)了針對(duì)各平臺(tái)的底層優(yōu)化方案。
以華為昇騰為例,團(tuán)隊(duì)做了三個(gè)層面的工作。第一層是"混合精度量化",把7440億參數(shù)的模型壓縮到可以裝進(jìn)單臺(tái)昇騰服務(wù)器的體量。具體做法是,對(duì)普通的注意力和神經(jīng)網(wǎng)絡(luò)模塊用8位精度存儲(chǔ),對(duì)數(shù)量龐大的"專家模塊"用4位精度壓縮,同時(shí)用專門(mén)的算法防止壓縮帶來(lái)的精度損失。第二層是開(kāi)發(fā)專用計(jì)算內(nèi)核,把原本需要多步完成的稀疏注意力計(jì)算融合成一個(gè)高效的單步操作,讓昇騰的計(jì)算單元和內(nèi)存單元可以并行工作而不互相等待。第三層是對(duì)推理引擎的調(diào)度優(yōu)化,讓前綴緩存可以復(fù)用、讓KV存儲(chǔ)可以溢出到系統(tǒng)內(nèi)存等。最終效果是,GLM-5在單臺(tái)國(guó)產(chǎn)昇騰服務(wù)器上的表現(xiàn)可以媲美兩臺(tái)國(guó)際主流GPU服務(wù)器的組合,在長(zhǎng)序列場(chǎng)景下還能把部署成本降低50%。
"Pony Alpha"事件:一次有趣的匿名驗(yàn)證
論文最后有一個(gè)"彩蛋"章節(jié),講述了一次頗為大膽的匿名測(cè)試。團(tuán)隊(duì)在不透露身份的情況下,把GLM-5以"Pony Alpha"的名義發(fā)布到了OpenRouter這個(gè)AI模型聚合平臺(tái)上。
結(jié)果令人驚喜。這個(gè)模型迅速在開(kāi)發(fā)者社區(qū)里引發(fā)了熱烈討論,大量用戶發(fā)現(xiàn)它在復(fù)雜代碼、智能體工作流和角色扮演方面表現(xiàn)出色,開(kāi)始爭(zhēng)相猜測(cè)它的真實(shí)身份。根據(jù)統(tǒng)計(jì),25%的用戶認(rèn)為它是Anthropic的Claude Sonnet 5,20%認(rèn)為是DeepSeek,10%認(rèn)為是Grok,只有少數(shù)人猜到是GLM-5。
官方揭曉后,這件事在AI社區(qū)引發(fā)了不小的震動(dòng),它證明了一件事:當(dāng)品牌標(biāo)簽被遮住,一個(gè)來(lái)自中國(guó)的開(kāi)源模型可以憑純粹的能力表現(xiàn)贏得全球開(kāi)發(fā)者的認(rèn)可。團(tuán)隊(duì)認(rèn)為,這次匿名測(cè)試收到的反饋比任何公開(kāi)發(fā)布的評(píng)測(cè)都更真實(shí)可靠,因?yàn)橛脩敉耆腔谑褂皿w驗(yàn)做出的判斷,沒(méi)有任何先入為主的品牌濾鏡。
至頂AI實(shí)驗(yàn)室洞見(jiàn)
GLM-5想證明的核心命題是:AI不只能當(dāng)工具,還能當(dāng)工程師。它通過(guò)大量技術(shù)創(chuàng)新,從省計(jì)算量的稀疏注意力,到高效的異步強(qiáng)化學(xué)習(xí)框架,再到覆蓋萬(wàn)個(gè)真實(shí)場(chǎng)景的訓(xùn)練環(huán)境,把這個(gè)命題在實(shí)驗(yàn)室里變成了初步現(xiàn)實(shí)。當(dāng)然,它還沒(méi)有完全抵達(dá)終點(diǎn),在需要跨多步驟執(zhí)行的超長(zhǎng)任務(wù)上與最強(qiáng)的閉源模型相比仍有差距,在需要精細(xì)端到端完成的前端開(kāi)發(fā)任務(wù)上也還有提升空間。
但這個(gè)方向本身是清晰的:AI的下一個(gè)臺(tái)階,不是更會(huì)聊天,而是更會(huì)干活。你來(lái)描述需求,它去完成項(xiàng)目,從第一行代碼到最后一個(gè)測(cè)試通過(guò),全程自主,不需要你手把手帶路。GLM-5是這條路上一個(gè)值得關(guān)注的里程碑,而這條路,還有很長(zhǎng)要走。
論文地址:https://arxiv.org/abs/2602.15763v1
END本文來(lái)自至頂AI實(shí)驗(yàn)室,一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。致力于推動(dòng)生成式AI在各個(gè)領(lǐng)域的創(chuàng)新與突破,挖掘其潛在的應(yīng)用場(chǎng)景,為企業(yè)和個(gè)人提供切實(shí)可行的解決方案。
Q&A
Q1:GLM-5和普通的ChatGPT有什么不同?
A:GLM-5不只是回答問(wèn)題的AI,它更像是一個(gè)能獨(dú)立完成軟件工程任務(wù)的智能體,可以自己規(guī)劃步驟、調(diào)用工具、執(zhí)行代碼、修復(fù)錯(cuò)誤,直到完成整個(gè)項(xiàng)目,而不是簡(jiǎn)單地給你一段代碼讓你自己去跑。
Q2:GLM-5是開(kāi)源的嗎,普通人能用嗎?
A:是的,GLM-5是開(kāi)源模型,代碼和權(quán)重發(fā)布在GitHub(github.com/zai-org/GLM-5),普通用戶可以通過(guò)多個(gè)推理服務(wù)平臺(tái)使用,也可以自行部署,但完整部署對(duì)計(jì)算資源要求較高。
Q3:GLM-5的代碼能力有沒(méi)有超過(guò)Claude或GPT?
A:在部分指標(biāo)上已經(jīng)超過(guò),例如多語(yǔ)言代碼修復(fù)和信息搜索任務(wù),但在需要多步驟長(zhǎng)鏈條執(zhí)行的復(fù)雜軟件工程任務(wù)上,GLM-5目前仍略遜于Claude Opus 4.5,團(tuán)隊(duì)表示這是正在持續(xù)攻克的方向。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.