智譜GLM-4.7：Coding和Agentic能力直逼Gemini 3和Claude 4.5｜后端大幅提升

2025-12-23 11:53:03　來源: AI進化論花生

北京舉報

分享至

之前給大家寫過很多文章介紹GLM-4.5和GLM-4.6了，對我來說，智譜最近幾代模型都是Claude模型的最佳開源平替之一，是性價比極高的選擇，他們也是國內(nèi)最關(guān)注Coding領(lǐng)域的大模型公司之一，持續(xù)在Coding領(lǐng)域發(fā)力，你可以從最近幾個模型版本的迭代看出他們的進步。

昨晚，智譜又開源了GLM-4.7，先看官方數(shù)據(jù)，這次智譜交的答卷確實亮眼。

幾個關(guān)鍵數(shù)字：

AIME25考了95.7分，這是數(shù)學(xué)推理榜單，開源SOTA。

SWE-bench Verified達到73.8%，比GLM-4.6提升了5.8個百分點（這個數(shù)據(jù)還挺猛）。這個榜單測的是解決GitHub真實issue的能力，開源第一。

HLE（人類終極測驗）在使用工具的模式下考了42.8分，甚至超過了GPT-5.1 High模式，說明推理能力和工具調(diào)用結(jié)合的能力都相當(dāng)強

還有τ2-Bench（工具調(diào)用）87.4分，甚至超過了Claude Sonnet 4.5。

除了官方公布的數(shù)據(jù)，我還特意去LMArena看了下真實用戶的評測對比，發(fā)現(xiàn)GLM-4.7不只是妥妥的開源第一，也是超過了GPT-5.2（常規(guī)和Medium版本）和Claude Sonnet 4.5，這是上千個用戶在盲測情況下給出的評價，我覺得挺值得信任的，說明GLM-4.7在應(yīng)對不同的編程任務(wù)時，都有相當(dāng)穩(wěn)定的好表現(xiàn)。

智譜這次針對Claude Code、Kilo Code、TRAE、Cline、Roo Code做了專項優(yōu)化，支持"先思考、再行動"的工作模式。說人話就是：它知道自己在干什么，不是無腦輸出。

我從昨晚開始就一直在測試，分別用智譜的ChatBot https://chat.z.ai/ 和用API接入Claude Code跑了5個真實案例，我用完的感受是審美、Coding和Agentic能力都達到了Claude Sonnet 4.5無差的水平。

五大案例實測

我之前在介紹GLM系列模型的時候，都是把他們接入Claude Code使用的，但這次我發(fā)現(xiàn)他們的chatbot https://chat.z.ai/ 也升級了不少，尤其是主頁上列出的「AI PPT」「全棧開發(fā)」「靈感畫布」都明顯是針對特定場景優(yōu)化過的。官方提到他們是增加了Skills工具模塊。說白了就是能調(diào)用更多工具，處理更復(fù)雜的任務(wù)。

所以在這次測試里，我就把前兩個任務(wù)交給z.ai完成，后面三個任務(wù)再用Claude Code + GLM-4.7去做，尤其是最后一個任務(wù)，我會去讓GLM-4.7去完成我那包含上千字prompt，以及10個以上流程要求的自動化寫作工作流，看看他到底能不能完美遵循指令完成。

任務(wù)一：制作阿凡達 PPT

我給了個很簡單的Prompt：

幫我查找信息深入介紹下《阿凡達》系列，以及他的導(dǎo)演，我要思考下要不要去看這個電影

GLM-4.7的執(zhí)行流程讓我印象深刻，整個過程像是一個"專項優(yōu)化過的Claude Code"。

它先理解需求，知道我要"深入介紹"，不是淺嘗輒止。然后開始搜索：《阿凡達》系列電影信息、導(dǎo)演詹姆斯·卡梅隆資料、影評和觀眾評價。搜完之后會思考，判斷哪些信息重要，怎么組織。接著查找高質(zhì)量的電影海報和導(dǎo)演照片。最后生成PPT：封面、導(dǎo)演介紹、阿凡達1、2、3的介紹、系列特點、觀影建議。

整個過程中，GLM-4.7不停地思考、搜索、驗證。每一條信息都被用到了實際的PPT中，沒有浪費。

生成的PPT質(zhì)量超出預(yù)期。

版式是16:9寬屏完美適配，沒有溢出。這是GLM-4.7的重點優(yōu)化，以前這是最頭疼的問題。配色是深藍+金色方案，符合電影的科幻氛圍，不是那種一眼就看出是AI生成的配色。圖片也很贊，自動搜索到高質(zhì)量的電影海報、導(dǎo)演照片、拍攝花絮，每張圖都貼合主題。

內(nèi)容也不是簡單的資料堆砌，而是有邏輯的介紹。信息準確、結(jié)構(gòu)清晰、有深度。

更關(guān)鍵的是，這個PPT可以在網(wǎng)頁上直接編輯內(nèi)容，也可以導(dǎo)出為可編輯的pptx文檔。

我的感受：Agentic能力確實強，給一個模糊的需求，它能自己分解、執(zhí)行、驗證。審美也在線，版式、配色、圖片選擇都很專業(yè)，不需要手動調(diào)整。從需求到成品，5分鐘搞定。

案例鏈接：https://chat.z.ai/space/h0hugaszyqv0-ppt

任務(wù)二：制作澳大利亞鳥類海報

有加我微信或者關(guān)注我即刻的朋友，大概能知道我最近在澳洲有多愛看鳥，澳洲實在有太多有趣又獨特的小動物里。

所以第二個案例，我想讓GLM-4.7幫我制作一個關(guān)于澳洲鳥類的介紹海報。

這個任務(wù)還是在z.ai上執(zhí)行，這次用"靈感畫板"功能。

Prompt：

幫我制作一個吸引鳥類愛好者來澳大利亞旅行的宣傳海報

這個任務(wù)比PPT更抽象，需要GLM-4.7理解目標受眾、設(shè)計風(fēng)格、視覺元素。

GLM-4.7的執(zhí)行過程和做PPT時一樣，像是專項優(yōu)化過的Claude Code。我知道現(xiàn)在很多人喜歡用Nano Banana Pro去生成海報或者信息卡片的，那確實會是更省事的方式。不過如果要考慮復(fù)雜內(nèi)容中圖片的真實和文字的穩(wěn)定性的話，帶Agentic和Coding能力的模型會把這個任務(wù)完成得更好。

它先理解需求：目標受眾是鳥類愛好者，目的是吸引來澳大利亞旅行，風(fēng)格要有吸引力、專業(yè)感。然后思考設(shè)計方案：視覺元素用澳大利亞特色鳥類（葵花鸚鵡、琴鳥、笑翠鳥），配色方案用自然、明亮的色系，排版要重點突出。接著搜索澳大利亞鳥類高清圖片、自然風(fēng)光，驗證鳥類品種名稱和地理位置。最后生成海報：主視覺、標題、明星鳥種、推薦目的地等。

不停思考、搜索、驗證，確保信息準確。

生成的海報質(zhì)量也很贊。

主視覺是高質(zhì)量的澳大利亞鳥類圖片，色彩鮮艷、細節(jié)清晰。排版的信息層級清晰，視覺動線流暢：標題→主視覺→推薦觀鳥地→聯(lián)系方式，一氣呵成。配色是明亮的自然色系，符合"觀鳥旅行"的主題，不會太花哨，也不會太單調(diào)。文案也不是干巴巴的介紹，而是有感染力的文字。

鳥類品種名稱、地理位置都準確，這是Agentic能力的體現(xiàn)。

和PPT一樣，海報也可以在網(wǎng)頁上直接編輯，或?qū)С龈咔鍒D片。

我的感受：創(chuàng)意能力很強，從抽象需求到具體設(shè)計方案，轉(zhuǎn)化很流暢。審美在線，排版、配色、圖片選擇都很專業(yè)。信息準確性也很高，沒有亂編。

案例鏈接：https://chat.z.ai/space/b0yuzae7svj0-ppt

任務(wù)三：制作設(shè)計師個人主頁

我們再回到Claude Code來測測GLM-4.7 Agentic能力和Coding審美。

下面是我最常用的一段網(wǎng)頁設(shè)計提示詞，包含產(chǎn)品經(jīng)理→設(shè)計師→前端工程師的完整流程，很考驗?zāi)Ｐ蛯?fù)雜的、結(jié)構(gòu)化的Prompt的遵循能力。

Prompt簡化版本如下：

# 1. 你的任務(wù)
## 1.1 目標描述
- 根據(jù)我的描述,幫我創(chuàng)建一個設(shè)計出色,內(nèi)容豐富,用戶體驗友好的網(wǎng)站。
- 網(wǎng)站主題：AI工具導(dǎo)航站

 # 2. 工作流程

 ## 作為產(chǎn)品經(jīng)理執(zhí)行工作
### 2.1.1 采用逆向工作法,先撰寫1000字深入思考過產(chǎn)品的PRFAQ
### 2.1.2 需求洞察,穿透用戶表述,補齊顯性與隱性需求
### 2.1.3 結(jié)構(gòu)輸出PRD文檔,明確目標用戶、功能、優(yōu)先級

 ## 作為設(shè)計師執(zhí)行工作
### 2.2.1 執(zhí)行設(shè)計靈感采樣
- 從靈感池中隨機采樣2位藝術(shù)家/設(shè)計師
- 給出"靈感 → 網(wǎng)頁實現(xiàn)"的轉(zhuǎn)譯說明
- 靈感池包含：Josef Müller-Brockmann、John Maeda、Dieter Rams等60+位

 ### 2.2.2 交互與視覺方案
### 2.2.3 設(shè)計系統(tǒng)（色彩、字體、柵格）

 ## 作為前端工程師完成代碼
### 2.3.1 交付完整的 HTML/CSS/JS 代碼
### 2.3.2 三斷點響應(yīng)式
### 2.3.3 必須引入真實圖片（Picsum等）

完整Prompt大約200行，包含詳細的設(shè)計原則、代碼要求、靈感來源池等。

模型對提示詞的遵從性確實非常的好，每一步都是按照我的要求來執(zhí)行，先完成的產(chǎn)品經(jīng)理部分的工作，然后又繼續(xù)設(shè)計師的工作，并且按照我的要求對設(shè)計風(fēng)格進行了采用。

最后實現(xiàn)的結(jié)果也非常符合我的預(yù)期，在保持簡潔的設(shè)計師風(fēng)格的前提下，維持了相當(dāng)?shù)囊曈X克制和審美要求，完全不是一眼AI的那種網(wǎng)頁。

任務(wù)四：播客App原型設(shè)計

長期關(guān)注花叔的同學(xué)應(yīng)該都了解，我去做iOS app開發(fā)時，最喜歡的一個步驟就是先用AI來幫我生成幾套原型。原型一方面是能讓自己的想法獲得更視覺化地呈現(xiàn)，幫助自己思考想要獲得一個什么樣的產(chǎn)品。

另一方面也是通過這個步驟，你可以讓AI做出好得多的設(shè)計，如果你一上來就讓AI Coding工具直接寫swift代碼的話，那做出的產(chǎn)品常常是沒法看的。

這個任務(wù)我用的Prompt是：

# App 原型設(shè)計提示詞

 ## 目標
我想開發(fā)一個 {類似小宇宙的播客app},現(xiàn)在需要輸出高保真的原型圖,請通過以下方式幫我完成所有界面的原型設(shè)計,并確保這些原型界面可以直接用于開發(fā)：

 ## 1、用戶體驗分析
- 先分析這個 App 的主要功能和用戶需求,確定核心交互邏輯。

 ## 2、產(chǎn)品界面規(guī)劃
- 作為產(chǎn)品經(jīng)理,定義關(guān)鍵界面,確保信息架構(gòu)合理。

 ## 3、高保真 UI 設(shè)計
- 作為 UI 設(shè)計師,設(shè)計貼近真實 iOS/Android 設(shè)計規(guī)范的界面,使用現(xiàn)代化的 UI 元素,使其具有良好的視覺體驗。

 ## 4、HTML 原型實現(xiàn)
- 使用 HTML + Tailwind CSS（或 Bootstrap）生成所有原型界面,并使用 FontAwesome（或其他開源 UI 組件）讓界面更加精美、接近真實的 App 設(shè)計。
- 拆分代碼文件,保持結(jié)構(gòu)清晰：

 ### 4.1 頁面文件要求
- 每個界面應(yīng)作為獨立的 HTML 文件存放,例如 home.html、profile.html、settings.html 等。
- index.html 作為主入口,不直接寫入所有界面的 HTML 代碼,而是使用 iframe 的方式嵌入這些 HTML 片段,并將所有頁面直接平鋪展示在 index 頁面中,而不是跳轉(zhuǎn)鏈接。

 ### 4.2 真實感增強
- 界面尺寸應(yīng)模擬 iPhone 15 Pro,并讓界面圓角化,使其更像真實的手機界面。
- 使用真實的 UI 圖片,而非占位符圖片（可從 Unsplash、Pexels、Apple 官方 UI 資源中選擇）。
- 添加頂部狀態(tài)欄（模擬 iOS 狀態(tài)欄）,并包含 App 導(dǎo)航欄（類似 iOS 底部 Tab Bar）。

 ## 5、交付要求
- 請按照以上要求生成完整的 HTML 代碼,并確保其可用于實際開發(fā)。

這是一次性得到的效果圖：

設(shè)計的原型中包含了首頁、播放器、訂閱、個人中心、播客詳情、搜索等頁面，非常完整。這套提示詞最早是從Claude 3.7發(fā)布的時候開發(fā)的。一直到Claude 4時代，模型返回的結(jié)果一般都會出些問題，比如部分圖片會是裂開的，圓角矩形或者劉海屏效果不好，又或者很多網(wǎng)頁根本不會在手機樣式的容器內(nèi)等等。

現(xiàn)在GLM-4.7和Claude Sonnet 4.5提供的感受可以說是完全一致了，一次性完美成功。

任務(wù)五：自動化寫作

這是最重要的案例。

首先說下這個任務(wù)的測試前提是，我在10月份搭建完成了這套Claude Code自動化寫作系統(tǒng)，既能寫文章，也能幫我寫視頻腳本、自動整理信息等，詳情可以看這篇文章的介紹：

而在文章寫作部分，你可以理解為這套agent是搭建在兩個嵌套的Claude.md文檔基礎(chǔ)上的，因為我期望這套現(xiàn)在系統(tǒng)適配的能力越來越多，所以現(xiàn)在這兩個claude.md文件分別膨脹到了570行和1212行，非常恐怖。

但所實現(xiàn)的效果也確實很強，現(xiàn)在已經(jīng)至少能幫我節(jié)省80%以上的寫作時間了。

我要交給GLM-4.7的是這么個任務(wù)，我早上看到了YouTube上YC做了期關(guān)于AI泡沫的視頻播客，我希望寫篇文章介紹這期視頻播客的內(nèi)容。

我提供的提示詞要求無比簡單

我想寫一篇介紹這個視頻所討論的內(nèi)容的公眾號文章：https://www.youtube.com/watch?v=cqrJzG03ENE

然后GLM-4.7就開始吭呲吭呲干活了

Phase 1: 視頻處理（自動化）

GLM-4.7自動識別出輸入的是YouTube視頻鏈接，隨后完整執(zhí)行了視頻處理標準流程：下載字幕、提取純文本、抓取視頻信息、內(nèi)容分析等步驟，準確識別了視頻主題、核心議題與主要信息。

Phase 2: 選題討論

緊接著，GLM-4.7沒有直接開寫，而是先基于內(nèi)容提出了兩種不同的選題方案，并給出各自的大綱結(jié)構(gòu)及優(yōu)劣分析，等待用戶選擇（我選擇了“AI泡沫真相”視角的方案A）。

Phase 3: 知識管理

確定選題后，GLM-4.7整理提煉出視頻關(guān)鍵信息和議題，形成知識條目，方便后續(xù)引用和內(nèi)容生成。

Phase 4: 風(fēng)格學(xué)習(xí)

自動讀取參考文檔與過往范文，分析吸收目標寫作風(fēng)格和審校要點。

Phase 5: 創(chuàng)作初稿

根據(jù)上述整理與風(fēng)格學(xué)習(xí)，生成了結(jié)構(gòu)和風(fēng)格都接近目標的高質(zhì)量初稿。

Phase 6: 三遍審校

內(nèi)容審校：確保文章事實準確、結(jié)構(gòu)合理、邏輯清晰、關(guān)鍵信息完整，不添加無來源內(nèi)容。
風(fēng)格審校：對AI腔、流水線表達等問題逐段優(yōu)化，讓整體語言更自然、更具“人味”。
細節(jié)打磨：修正錯別字、句式、節(jié)奏等小問題，進一步提升可讀性。

整體來看，GLM-4.7完整還原了復(fù)雜工作流，分步驟自動完成了視頻處理、知識提煉、選題、風(fēng)格學(xué)習(xí)、創(chuàng)作與三輪審校，每一步均有對應(yīng)落地動作和流程細節(jié)，除了必要的選題之外，不需要我的額外指令或干預(yù)。

可以說，你用GLM-4.7+Claude Code就能搭建出和我相同質(zhì)量的，屬于你自己的自動化寫作agent了。

測完這5個案例，有個很明確的感受：GLM-4.7是開源模型的新標桿。

Coding和Agentic能力確實直逼Gemini 3和Claude 4.5。特別是審美提升，讓AI生成的內(nèi)容真的"能用"了，國產(chǎn)開源模型真的起來了。

還有個我想單獨提一下的：后端。

這次測試能這么順利，很大程度上是因為GLM-4.7的后端確實很穩(wěn)。五個案例里，有四個都是復(fù)雜的多步驟任務(wù)（特別是最后一個自動化寫作，涉及上百次工具調(diào)用），整個過程沒有任何卡頓或失敗。

想給產(chǎn)品加AI功能或者注冊/登錄能力，只需要把后端接入文檔提供給他，基本上也是一次性完成。和之前用過的幾個主流模型相比，GLM-4.7在后端穩(wěn)定性上確實有明顯優(yōu)勢。

這點可能不太容易被注意到，但實際用的時候差別很大。

我的建議是：

如果你想做內(nèi)容創(chuàng)作，比如PPT、海報等，可以試試z.ai。

想做開發(fā)，試試Claude Code + GLM-4.7。

對了，我發(fā)現(xiàn)智譜主頁還在做一個GLM Coding Plan體驗卡的活動，我是Pro用戶，可以給5個同學(xué)送7天體驗卡，告訴我你想做什么項目，我會把我的體驗卡邀請鏈接送給前五個回復(fù)自己想做的項目內(nèi)容的同學(xué)。

以及，我發(fā)現(xiàn)他們還有個“拼好模”，通過我的二維碼注冊購買，可以享受額外10%的優(yōu)惠，以及，我也能回回血，獲得一些贈金，用來維持我的Pro訂閱，給大家多做做測試的。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.