日前,智譜 GLM-5發布,引發業界關注。海外知名科技賬號 BridgeMind 發文稱,“GLM-5 是一個基準測試很強、但難以在真實工作中生存的模型”。其表示自己花了一整天時間進行實測,并公布了多項對比數據。
![]()
根據其披露的數據,在“人工分析智能指數”這一基準測試中,GLM-5成績不低,與Claude Opus 4.5并列50分,僅比Opus 4.6低3分。從這一指標來看,GLM-5在通用能力測試中表現接近業界頭部水平。
但在Bridge Bench這一強調真實世界編程任務的測試中,結果出現明顯差距。Claude Opus 4.6總分60.1,平均響應時間8.3秒,完成130個任務中的130個。GPT 5.2 Codex總分58.3,平均響應時間19.9秒,完成129個任務。GLM-5總分為41.5,平均響應時間達到156.7秒,僅完成約75個任務。
從分類成績看,GLM-5在調試和算法類任務上仍有一定表現,調試得分70.1,算法61.5,但在安全、生成和UI等項目上明顯落后,其中UI僅13.1分,安全23.2分。整體完成率和響應速度成為其在實際開發環境中的主要短板。
BridgeMind 表示,基準測試成績并不能完全代表模型在生產環境中的表現。他認為,在真實復雜任務下,響應速度、穩定性和任務完成率更具參考價值。
目前相關數據尚未見官方回應,也缺乏更大規模的第三方交叉驗證。但這一測試已引發不少網友討論,GLM-5 在真實開發場景中的表現是否可靠,仍需更多公開、透明的實測數據支持。
【相關閱讀】
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.