網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

智譜IPO敲鐘前，連夜把開源編程大模型SOTA了

2025-12-23 08:18:31　來源: 量子位

北京舉報

分享至

魚羊 henry 發(fā)自麥蒿寺
量子位 | 公眾號 QbitAI

2025倒計時，新SOTA模型涌現(xiàn)沒有放緩跡象。

一夜之間，編程SOTA模型易主，而且上線即開源，依然來自中國大模型公司——

智譜AI，GLM-4.7。

這波更新，技術(shù)報告里滿眼都是Coding，Coding，還是Coding。

而能力的提升，帶來的最直觀效果是：

AIME 25和人類最后考試（HLE）等基準中，GLM-4.7分數(shù)超GPT-5.1；

SWE-Bench分數(shù)達（73.8%，+5.8%），創(chuàng)開源新高。

官方Demo顯示，寫個植物大戰(zhàn)僵尸不費勁：

總而言之，模型這么一發(fā)，雙旦的節(jié)慶氛圍一下到位了（doge）。

官網(wǎng)Chatbot和API均已就位，現(xiàn)在就能在線開玩。

Demo來吧，展示

在前端生成質(zhì)量上，GLM-4.7展現(xiàn)出明顯升級：頁面結(jié)構(gòu)更干凈、組件層級更清晰。

相比GLM-4.6，更像是現(xiàn)代的Web UI，網(wǎng)友元素中更加美觀。

在PPT與視覺物料生成方面，GLM-4.7標題層級明確、元素尺寸更合理。

在復(fù)雜幾何結(jié)構(gòu)與空間關(guān)系的表達上，GLM-4.7模型能夠保持較好的結(jié)構(gòu)一致性與細節(jié)穩(wěn)定性。

3D資產(chǎn)的生成質(zhì)量也有顯著提升。

刷新開源SOTA

這次最新的模型主打編程，相較前代GLM-4.6，GLM-4.7在編碼能力、交互體驗與復(fù)雜推理等多個維度實現(xiàn)了系統(tǒng)性升級。

復(fù)雜推理能力（Reasoning）：全面提升，HLE（含工具）42.8（+12.4 vs GLM-4.6），MMUL-Pro 84.3，GPQA-Diamond 85.7，數(shù)學與推理能力更穩(wěn)更強。
核心編碼能力（Code Agent）：多語言與終端任務(wù)顯著增強，SWE-bench Verified 73.8（+5.8）、SWE-bench Multilingual 66.7（+12.9）、Terminal Bench 2.0 41.0（+16.5），支持“先思考、再行動”模式。
工具使用能力（General Agent）：工具調(diào)用更高效，BrowseComp 52.0（+6.9）、BrowseComp w/ Context Management 67.5（+10.0）、τ2-Bench 87.4（+12.2），網(wǎng)頁瀏覽與工具鏈管理表現(xiàn)更優(yōu)。

此外，GLM-4.7在對話、創(chuàng)意寫作、角色扮演等場景中同樣有提升，系統(tǒng)性增強了編碼、推理與工具使用能力。

交錯式思考和保留式思考

技術(shù)方面，GLM-4.7強化了自GLM-4.5起引入的交錯式思考（Interleaved Thinking），并進一步引入了保留式思考（Preserved thinking）和輪級思考（Turn-level Thinking）。

交錯式思考

GLM在工具調(diào)用之間、收到工具結(jié)果之后繼續(xù)思考。

這讓模型能夠進行更復(fù)雜的分布推理，提升了指令遵從和生成質(zhì)量：

在決定下一步行動前先解讀每次的工具輸出，把多次工具調(diào)用和推理步驟串聯(lián)起來，并根據(jù)中間結(jié)果做出更細粒度的決策。

保留式思考

在編碼場景中，GLM-4.7引入了一種新的思考模式：

模型會自動在多回合對話中保留所有思考快，復(fù)用已有推理而不是從頭重新推理。這減少了信息丟失和不一致性，使得模型更適用于長程、復(fù)雜任務(wù)。還能在真實任務(wù)中節(jié)省更多tokens。

輪級思考

輪級思考是一種按輪控制推理計算的能力，即在同一個會話中，每一輪請求都可以獨立選擇開啟/關(guān)閉思考。

這使得GLM-4.7具備以下優(yōu)勢：

更靈活的成本/時延控制：對“問個事實/改個措辭”等輕量輪次可關(guān)閉思考，追求快速響應(yīng)；對“復(fù)雜規(guī)劃/多約束推理/代碼調(diào)試”等重任務(wù)輪次可開啟思考，提升正確率與穩(wěn)定性。
更順滑的多輪體驗：思考開關(guān)在會話內(nèi)可隨時切換，模型能在不同輪次間保持對話連貫與輸出風格一致，讓用戶感覺“聰明時更聰明、簡單時更快”。
更適合Agent/工具調(diào)用場景：在需要快速執(zhí)行的工具輪次可降低推理開銷，在需要綜合工具結(jié)果做決策的輪次再開啟深度思考，實現(xiàn)效率與質(zhì)量的動態(tài)平衡。

更多技術(shù)詳情，智譜官方也附上了詳細技術(shù)報告。

BTW，智譜這個月還真上了“節(jié)日限定優(yōu)惠”。

每月最低20元即可暢享GLM-4.7，用上Claude Pro套餐3倍用量。

又是一位好價格屠夫呀。

而且GLM-4.7的深夜炸場，也算是已經(jīng)沖刺IPO上市的智譜，帶來的最新技術(shù)證明。

目前智譜已經(jīng)通過了港交所上市聆訊，IPO敲鐘僅剩下最后100米。

而GLM-4.7可能也是智譜上市之前，最重要的模型更新了……吧？

[1]https://z.ai/blog/glm-4.7

[2]https://x.com/Zai_org/status/2003156119087382683

— 完 —

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.