網易首頁 > 網易號 > 正文申請入駐

Claude Opus 4.6一天內被超兩次，這次來自國產模型

2026-04-08 17:01:39　來源: AppSo

廣東舉報

分享至

前兩天 APPSO 提到，大模型即將迎來史上最殘酷的一個月，這就來了。

而Claude Opus 4.6 「不幸」成為背景板，一天之內被超越兩次。

早上，在 SWE-bench Pro 上拿下 77.8%，把 Opus 4.6 的 57.3% 甩在身后。這個分數意味著它能在真實 GitHub 倉庫里定位并修復高難度工程 Bug，已經超過了絕大多數人類程序員。

可 Mythos Preview 暫時不對普通用戶開放，與此同時，另外一個超 Opus 4.6 的模型出現了——智譜開源了 GLM-5.1。

GLM-5.1 SWE-bench Pro 得分 58.4%，超過 Opus 4.6 的 57.3%，也超過 GPT-5.4 的 57.7%。

HuggingFace CEO Clement Delangue 也發推祝賀：「SWE-Bench Pro 上表現最好的模型現在在 HuggingFace 上開源了！歡迎 GLM 5.1！」

全球第三，開源第一。雖然沒等來 DeepSeek V4，但開源新一哥還是來了，依然是咱們國產大模型。

說實話，我第一反應是又來了，大模型的「榜單狂歡」，每次發布會都是「史詩級進步」，各家模型在榜單上各領風數小時，這次的劇本有什么不同呢。

APPSO 看完 GLM-5.1 的技術細節和體驗后，帶你看看這個模型是什么水平

從 20 步到 1700 步，持續工作 8 小時

GLM-5.1 最讓人沒想到的，不是跑分，是它能工作多久。

智譜有一個案例讓我印象比較深。8 小時從零構建 Linux 桌面系統。

不是寫幾個 demo 文件那種「構建」，是真的從零開始，畫架構、寫代碼、跑測試、修 bug，歷時 8 小時整，執行了 1200 多步，最后產出了一套功能完善的 Linux 桌面系統。

包括完整的桌面、窗口管理器、狀態欄、應用程序、VPN 管理器、中文字體支持、游戲庫，4.8MB 的配套文件。這相當于一個 4 人團隊一周的工作量。

全程沒有人參與測試、審查代碼。GLM-5.1 甚至給自己的代碼寫了回歸測試，而且跑過了。

知乎程序員博主 Toyama nao 做了個更狠的測試。他給 GLM-5.1 扔了三個工程項目：用 Swift 寫 macOS 的 OpenGL 渲染器、用 Flutter 開發全功能聊天軟件同時用 Golang 開發服務端、自選技術棧開發純網頁端視頻剪輯應用。每個項目跑 10-12 輪提示詞，每輪 1500-2000 字。

結果 GLM-5.1 成為第一個通過他全部測試工程的國產模型，也是第一個正式超越 Sonnet 4.5 Thinking 的國產模型。

他的評價是：「GLM-5.1 大幅擴展了編程的適應范圍，不再是前端 only 戰神，也不只是 oneshot 樣子貨，是可以在復雜工況下充當編程主力。」但他也指出了問題：「超長上下文時容易幻覺爆炸，如果遇到 2 輪改不好一個問題，不要抱有僥幸，直接重開。」

去年年底，AI 智能體大約只能完成 20 個步驟。GLM-5.1 現在可以完成 1700 個步驟。這是模型能不能真正「獨立工作」的分水嶺。

智譜在技術報告里解釋了關鍵突破點：以前的模型，包括 GLM-5，會在早期快速取得收益后就進入瓶頸期。它們反復嘗試已知的優化手段，但無法在一條路走不通時主動切換策略。

GLM-5.1 的訓練目標就是突破這個瓶頸，讓模型能夠在一個固定策略內進行增量調優，當收益趨于停滯時，主動分析 Benchmark 日志、定位當前瓶頸，然后跳轉到結構性不同的方案。

向量數據庫優化案例就是典型的「階梯型」優化軌跡。GLM-5.1 用了 655 次迭代，把查詢吞吐從 3108 QPS 一路推到 21472 QPS，提升了 6.9 倍。

這個過程中，模型自己完成了從全庫掃描切到 IVF 分桶召回、引入半精度壓縮、加入量化粗排、做兩級路由，再到提前剪枝的整套優化鏈條。每一次跳躍都伴隨著短暫的 Recall 下降，因為模型在探索新方向時會暫時打破約束，隨后再調回來。這個「打破-修復」的循環本身就是有效優化的標志。

在 KernelBench Level 3 優化基準上，GLM-5.1 對 50 個真實機器學習計算負載進行了超過 24 小時的不間斷迭代，最終取得 3.6 倍的幾何平均加速比，顯著高于 torch.compile max-autotune 模式的 1.49 倍。

模型自主編寫定制 Triton Kernel 和 CUDA Kernel，運用 cuBLASLt epilogue 融合并實施 shared memory tiling 與 CUDA Graph 優化，覆蓋了從高層算子融合到微架構級調優的完整技術棧。

還有一個更有意思的測試：Vending Bench 2。這個基準要求模型模擬經營一年的自動售貨機業務，需要長期規劃和資源管理。GLM-5.1 最終賬戶余額達到 $4,432，在開源模型中排名第一，接近 Claude Opus 4.5 的水平。

744B 參數，零英偉達芯片，成本降低 97%

GLM-5.1 的技術規格值得細看：744B 參數的混合專家模型（MoE），每個 token 激活 40B 參數，28.5T tokens 訓練數據，集成了 DeepSeek Sparse Attention（DSA）來降低部署成本同時保持長上下文能力。200K 上下文窗口，最大輸出 131,072 tokens。

更關鍵的是，整個模型全部使用華為昇騰 910B 芯片訓練，沒有英偉達 GPU 參與。在算力被卡脖子的情況下，國產模型依然能做到全球第三、開源第一。

開發者 Beau Johnson 把自己部署的 OpenClaw 背后的模型從 Claude Opus 4.6 切換到 GLM-5.1，體驗上沒有任何差別，但成本從 1000 美元暴砍至 30 美元左右，降低了 97%。

GLM-5.1 的輸入成本是 Claude Opus 的 1/5，輸出成本是 1/8。簡單來說：接近 Opus 的能力，20% 的價格。

而且GLM-5.1 是開源的。MIT License，最寬松的開源許可證之一。你可以拿去改，拿去商用，拿去做任何事。支持 vLLM、SGLang、xLLM 等主流推理框架，可以直接在本地部署。

當然 GLM-5.1 也不是沒有提升的空間，部分開發者反饋，GLM-5.1 的推理速度只有 44.3 tokens/秒，在同類產品沒太大優勢。復雜任務甚至要一小時起步，哪怕 Pro 套餐額度是 Claude 的 15 倍，也可能不太夠用。

這些問題都是真實存在的。GLM-5.1 不是完美的，但這不妨礙它成為一個里程碑。

GLM-5.1 的意義，不在于它比 Opus 4.6 強多少，而在于它證明了，在算力被卡脖子的情況下，國產模型依然能做到開源第一。而且它是開源的，任何人都可以用，任何人都可以改。

你睡覺的 8 小時，現在可以是 AI 上班的 8 小時了。而且這個 AI ，是開源的，是國產的，是任何人都可以用的。

附開源與體驗方式

1.官方 API 接入

BigModel開放平臺：https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1
Z.ai：https://docs.z.ai/guides/llm/glm-5.1

2.產品體驗

GLM-5.1即將登陸Z.ai：https://chat.z.ai
GLM-5.1已納入GLM Coding Plan(Max/Pro/Lite)，支持Claude Code、OpenCode等主流開發工具。

3.開源鏈接

GitHub：https://github.com/zai-org/GLM-5
Hugging Face：https://huggingface.co/zai-org/GLM-5.1
ModelScope：https://modelscope.cn/models/ZhipuAI/GLM-5.1

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關鏈接）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.