
今年春節,這些大模型廠商屬于是一點寂寞也耐不住了。
輪流發射,啊不,應該說是輪流在噴射新的模型出來。
除了萬眾矚目的 DeepSeek 還在憋氣,其他大模型公司都沒少閑著。。。
字節前幾天搞了個 Seedance 2.0,靠著逼真的視頻效果先下一城。
而智譜則是在海外整了個新活:
經常關注大模型發布的差友們這幾天應該有刷到,前幾天,程序員非常愛用的 AI 聚合平臺,Openrouter 那邊上架了一款匿名模型 —— Pony Alpha。
![]()
結果大家一上手使用后發現哥們是真能干事啊,定叫它好評如潮。
![]()
于是,熱情吃瓜的海外網友就開始了經典的模型猜猜猜游戲,開始推測這個匿名模型是哪一家的手筆。
![]()
有說是 DeepSeek V4 的,也有說是 Grok 4.2 的,還有說是 llama 5 的。
還有人因為 Pony 這個代號,直接開始猜它是騰訊的新模型的。。。
可以說是眾說紛紜。
![]()
而昨天,謎底正式揭曉了。
不裝了,我攤牌了。
這個化名為 pony 的新東西,正是來自于智譜的GLM-5,而且還是個開源的模型。
![]()
世超打開 GLM-5 的基準測試成績翻了一下,在智譜最看中的代碼能力這塊,GLM-5 直接逼近了大家公認的 AI 編碼冠軍,Claude Opus 4.5。
![]()
當然,現在各種各樣的 AI 排行榜太多了,大家可能不太理解智譜這次測的這個 CC-bench-V2 又是個啥排行榜,代表了啥?
我簡單看了一下,智譜這次測的這個 CC-bench-V2,主要考驗的是你模型補全代碼的能力有多強。
說人話一點,就是把模型丟到一個沒寫完的工程里,然后看它能不能自個兒哼哧哼哧把項目給做完。
這塊考的分越高,說明這次 GLM-5 處理復雜任務的能力越強。
眾所周知,現在大家想讓 AI 干的活那是越來越復雜,生成幾個簡單的 Html 文件已經難不倒這些 AI 大模型了。
而想要把大項目給做好,那就需要讓模型具備這種處理復雜任務的能力。
另外還有個有趣的測試結果是,GLM-5 發生幻覺概率非常低。
當一個問題它不知道的時候,GLM-5 會有很大的概率直接說不知道,而不是原地開始胡編亂造。
![]()
給孩子教的非常實誠了屬于是。
既能干活,又不容易產生幻覺。。。GLM-5 的這波更新,屬于完全沖著要讓 AI 好好干活去整的。
在官網上世超還看到一個非常驚艷的案例,他們直接讓 GLM-5 復刻了一個我的世界。
![]()
我下過來體驗了一下,發現整個游戲只需要依賴瀏覽器就能運行。
能跑能挖能疊方塊,操作手感非常流暢。

看別人拿 GLM-5 給整的這么猛,世超決定自己也簡單試一試。
先來點簡單點的活,拿前兩天特別火的洗車問題來考考它。
我想洗車,我家距離洗車店只有 50 米,請問你推薦我走路去還是開車去呢?
別看這個問題簡單,前幾天整懵了一堆大模型,不管是 DeepSeek 還是 OpenAI,還是其他的大模型。。。都全軍覆沒
![]()
這些大模型都覺得 50 米的距離太近了,誰開車啊,于是轉頭建議大家走路去洗車。。。
![]()
而 GLM-5 面對這個問題,則是直接看透了問題的本質 ——人不開車怎么洗車呢?然后完成了一波干凈利索的輸出。
![]()
當然,這種簡單的邏輯題不翻車只能算合格,接下來,世超準備給它上點難度,看看它寫代碼的水平。
不知道差友們前段時間有沒看過一個叫《技能五子棋》的喜劇。
劇里的演員們就在傳統五子棋的基礎上,加入了各種各樣花里胡哨的技能元素。
比如,“飛沙走石” 這個技能,就是把棋盤上對方的一枚棋子給拿起來丟掉。

再比如“靜如止水”這個技能,就是給對面玩家上定身術,讓他不能繼續下棋。
所以世超決定用 AI 來快速復刻一下這個整活游戲。
咱們就敲這么一段話,接下來全部交個 GLM 自由發揮。
![]()
結果不到三分鐘,它就給我搓完了。
![]()
打開一看,整的還挺有模有樣的。。。

不但我要求它安排的四個技能都整上去了,還給自動生成了另外四個技能。
但是仔細一玩就露餡了。
點擊了飛沙走石(移除對面一個棋子)的技能,把對面的棋子給扔掉了之后,
按理來說要么是我繼續下棋,要么是對面下棋對吧。
這兩種情況還在我的理解范圍中,AI 給我寫成哪種邏輯我都能理解。
但是 GLM 在這個 A or B 的選擇題中,選了 or。
它讓我選擇給對面的棋子下到哪里,明顯是神志不清邏輯錯亂了。

不過好在它也很聽勸,把我們的需求再和它復述一下,那它很快就能 Get 到我們想要什么效果。
![]()
這樣一來,我們就得到了一個可以和 AI 原地對戰的技能五子棋游戲。

坦白說,現在 AI 寫代碼早就不是什么稀奇事了,能寫出這種量級的 Demo 只能說是 GLM-5 的基本操作,還比較在世超的意料之中。
但比較遺憾的是,因為這次上手的時間實在太短,世超沒法拿那些真正復雜的業務代碼去狠狠“拷打”一下它,看看它在那種成百上千個文件的大項目里,是不是還能保持這種清醒。
不過大家別急,今年世超手頭正好攢了一堆復雜的爛攤子需求,準備年后面慢慢丟給它去跑一跑。
等后面深度體驗了一段時間,真的摸清了它的上限和脾氣,再來和大伙做個更詳細的匯報。
撰文:早起
編輯:江江 & 面線
美編:素描
圖片、資料來源:智譜官網、X、網絡
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.