日前,智譜 GLM-5發(fā)布,引發(fā)業(yè)界關(guān)注。海外知名科技賬號(hào) BridgeMind 發(fā)文稱,“GLM-5 是一個(gè)基準(zhǔn)測(cè)試很強(qiáng)、但難以在真實(shí)工作中生存的模型”。其表示自己花了一整天時(shí)間進(jìn)行實(shí)測(cè),并公布了多項(xiàng)對(duì)比數(shù)據(jù)。
![]()
根據(jù)其披露的數(shù)據(jù),在“人工分析智能指數(shù)”這一基準(zhǔn)測(cè)試中,GLM-5成績(jī)不低,與Claude Opus 4.5并列50分,僅比Opus 4.6低3分。從這一指標(biāo)來(lái)看,GLM-5在通用能力測(cè)試中表現(xiàn)接近業(yè)界頭部水平。
但在Bridge Bench這一強(qiáng)調(diào)真實(shí)世界編程任務(wù)的測(cè)試中,結(jié)果出現(xiàn)明顯差距。Claude Opus 4.6總分60.1,平均響應(yīng)時(shí)間8.3秒,完成130個(gè)任務(wù)中的130個(gè)。GPT 5.2 Codex總分58.3,平均響應(yīng)時(shí)間19.9秒,完成129個(gè)任務(wù)。GLM-5總分為41.5,平均響應(yīng)時(shí)間達(dá)到156.7秒,僅完成約75個(gè)任務(wù)。
從分類成績(jī)看,GLM-5在調(diào)試和算法類任務(wù)上仍有一定表現(xiàn),調(diào)試得分70.1,算法61.5,但在安全、生成和UI等項(xiàng)目上明顯落后,其中UI僅13.1分,安全23.2分。整體完成率和響應(yīng)速度成為其在實(shí)際開(kāi)發(fā)環(huán)境中的主要短板。
BridgeMind 表示,基準(zhǔn)測(cè)試成績(jī)并不能完全代表模型在生產(chǎn)環(huán)境中的表現(xiàn)。他認(rèn)為,在真實(shí)復(fù)雜任務(wù)下,響應(yīng)速度、穩(wěn)定性和任務(wù)完成率更具參考價(jià)值。
目前相關(guān)數(shù)據(jù)尚未見(jiàn)官方回應(yīng),也缺乏更大規(guī)模的第三方交叉驗(yàn)證。但這一測(cè)試已引發(fā)不少網(wǎng)友討論,GLM-5 在真實(shí)開(kāi)發(fā)場(chǎng)景中的表現(xiàn)是否可靠,仍需更多公開(kāi)、透明的實(shí)測(cè)數(shù)據(jù)支持。
【相關(guān)閱讀】
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.