網易首頁 > 網易號 > 正文申請入駐

丟張圖就能復刻：GLM-5V-Turbo視覺Coding實測

2026-04-03 07:12:32　來源: AI進化論花生

北京舉報

分享至

用龍蝦干活的朋友應該都遇到過這種情況：你想分享一張截圖讓它幫你分析，或者發張設計稿讓它參考著寫代碼，結果發現——它是個瞎子。

你只能用文字把圖片或者你腦子里想呈現的東西描述一遍。「左邊有個藍色卡片，右邊是柱狀圖，標題用的粗體白字...」寫了半天，它理解的和你看到的還是兩回事。

智譜剛發布了GLM-5V-Turbo。和之前的GLM-5-Turbo最大的區別就一個字：能看了。

而且挺有趣的是，5V-Turbo定位不是一個獨立的視覺理解模型，而是Agent基座（我知道這個表達很有AI感，但我真特么是手寫的）。看完不是目的，動手才是。看懂截圖之后能調用工具、寫代碼、執行、驗證結果，整個鏈路跑通。

我之前一直在用GLM系列模型做Claude Code的主替模型之一。glm-4.7的時候就覺得還挺不錯，能連續執行一個小時以上的任務，管理多個子agent批量執行也沒問題。但純文本模型始終有個繞不過去的短板：遇到需要「看」的任務就抓瞎。這次5V加了原生視覺能力，我第一時間想試試它在實際Agent工作流里到底能補上多少。

Benchmark：看不懂？讓5V-Turbo幫你重新設計

說實話，現在各家發的Benchmark表我已經越來越看不懂了。Design2Code、BrowseComp-VL、ClawEval Pass3，這些到底在衡量什么？二十行數字看完也不知道該得出什么結論。

正好拿來當第一個測試。把官方的兩張Benchmark截圖直接扔給AutoClaw里的5V-Turbo：

幫我用經濟學人風格去重構這兩張圖表的設計。視覺設計上更符合我的風格和審美；給圖表加上標題；交互式圖表；左側很多指標不太好理解，每行加一句話解釋幫助普通用戶理解；最最最重要的，讀取和復刻出來的圖表數據一定要100%準確。

19個指標、3-4個模型、超過60個數值，5V-Turbo全部讀對了。數據我逐個核對過，零錯誤。

更有意思的是它自己提煉的結論：「看圖的事，交給GLM-5V；寫代碼的事，Claude仍是標桿。」

12/19的最佳成績屬于5V-Turbo（多模態+ToolUse為主），9/19屬于Claude Opus 4.6（代碼+Agent為主）。

然后是四組可視化。終于能看懂每個指標在說什么了：

視覺理解全面領先。雷達圖里5V-Turbo的紅色輪廓幾乎包住了其他兩個模型。Design2Code 94.8（網頁截圖→前端代碼）、BrowseComp-VL 51.9（視覺網頁瀏覽與操作）、V* 89.0（綜合視覺理解）。

桌面不如人，手機遙遙領先。GUI Agent三個平臺的結果挺有意思：OSWorld（macOS桌面）三家接近，Claude 72.2略勝；AndroidWorld（手機App操控）5V-Turbo 75.7，領先Kimi 32個百分點；WebVoyager（瀏覽器導航）88.5，也是最高。

純代碼：Claude的地盤，但差距不大。后端、前端、代碼庫探索三項Claude都領先，5V-Turbo和純文本版GLM-5-Turbo基本持平。美團內測說「原生多模態能力的引入并未削弱其編程邏輯」，我自己測下來也是這個感受。Agent編程：差距最大的戰場。PinchBench（多輪編輯代碼）、ClawEval（三次嘗試內通過率）、ZClawBench（智譜自研綜合基準），Claude Opus 4.6每項都是最高分，5V-Turbo排第二。

最后兩張數據表，每個指標帶一句話中文解釋。Design2Code下面寫著「網頁截圖→前端代碼」，ClawEval Pass3下面寫著「三次嘗試內通過率」。這種處理對普通讀者友好多了。

代碼與Agent編程數據

接入教程

三種接入方式，都不復雜。

AutoClaw（智譜出品的澳龍）

最簡單的方式。AutoClaw已經內置了GLM-5V-Turbo，在底部模型選擇器里直接切換就行，消耗AutoClaw積分即可使用，不需要額外配置API。

如果你想用自己的API key（比如有獨立的智譜賬號額度），也可以走自定義模型：設置 → 模型與API → 添加自定義模型，服務商選智譜，模型ID填 glm-5v-turbo，Base URL填：https://open.bigmodel.cn/api/paas/v4

OpenClaw

配置方式類似AutoClaw的自定義模型接入，其實我很建議你直接把官方接入文檔丟給Claude Code或者龍蝦，讓他們自己搞定。 GLM-5V-Turbo官方接入文檔：https://docs.bigmodel.cn/cn/guide/models/vlm/glm-5v-turbo

Claude Code

在 ~/.claude/settings.json 里配置：

{
  "env": {
    "ANTHROPIC_DEFAULT_HAIKU_MODEL": "glm-5v-turbo",
    "ANTHROPIC_DEFAULT_SONNET_MODEL": "glm-5v-turbo",
    "ANTHROPIC_DEFAULT_OPUS_MODEL": "glm-5v-turbo",
    "ANTHROPIC_AUTH_TOKEN": "你的智譜API Key",
    "ANTHROPIC_BASE_URL": "https://open.bigmodel.cn/api/anthropic",
    "API_TIMEOUT_MS": "3000000",
    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": 1
  }
}

重啟命令行窗口，輸入/status確認模型切換成功。也可以在對話中用/model glm-5v-turbo臨時切換。

PPT截圖復刻

最直觀的場景：給5V-Turbo一張PPT截圖，讓它直接輸出HTML代碼復刻。

我用了一張「AI Agent 2026趨勢報告」的幻燈片做測試，深色背景、左側標題加三個要點、右側柱狀圖表，很典型的商務PPT風格。

分析這張PPT的設計，輸出HTML代碼復刻它。

它不光把整體布局還原了（左文右圖、深色背景、紅色強調色），連圖表里的柱狀圖顏色漸變方向都對了。文字層級也清晰：左上角的小標簽、大標題、三個帶編號的要點、底部品牌名，位置和大小基本一致。OCR零錯誤，所有數字、中英文、標點都識別對了。

這個場景很實用。你看到一個好看的PPT模板，想用類似的風格但不想從零做。截個圖扔給5V-Turbo，輸出HTML版本，在這個基礎上改內容就行。

封面風格遷移

作為B站UP主，我經常需要設計視頻封面。以前想參考別人的封面風格，只能靠肉眼看、憑感覺模仿。

5V-Turbo能做的不只是「描述一下」，它能把視覺分析直接變成AI生圖的prompt。

我拿了一張B站科技區常見的封面做測試：

暗黑代碼背景、大字標題配描邊、右下角chibi角色。讓5V-Turbo分析設計要素，提取出配色方案、字體風格、構圖比例、角色特征，然后我基于這些參數寫了一段中文prompt給AI生圖，內容改成「GLM-5V 視覺革命」，角色換成戴眼鏡的男生：

暗色代碼背景的bokeh光效、白→藍漸變英文標題、金黃色描邊中文「視覺革命」、紫發戴圓框眼鏡的chibi角色雙手捧臉的驚訝表情。文字零錯誤，風格幾乎1:1還原。

5V-Turbo在這個鏈路里扮演的角色算是設計翻譯官：它把一張圖片里的視覺信息拆解成了可描述的參數，讓你不需要懂設計也能精確地告訴生圖模型你要什么。

財報桑基圖批量復刻

前面兩個場景是單張圖。這次來個更有挑戰性的：一整份PDF文檔里的復雜圖表。

我從莊明浩老師那找了一份App Economy Insights出品的「How They Make Money」。40多MB的PDF，62頁，里面全是各大公司的財報桑基圖（Sankey diagram）。這種圖的信息密度很高：一張里面20+個數據節點，包含金額、同比變化、利潤率、占營收比例，左邊業務板塊匯入總營收，右邊分流到毛利潤、成本、運營費用、凈利潤。

我直接把整個PDF扔給AutoClaw里的5V-Turbo，就一句話：

幫我去讀取并且復刻下這個PDF中耐克那一頁的財報頁面，我們把主要內容翻譯成中文，樣式盡量維持和原來的一致

注意這個任務的難度：一個40MB、62頁的PDF，我沒告訴它耐克在第幾頁，也沒截圖，就給了個文件讓它自己找。

接下來的過程挺能體現Agent能力的。5V-Turbo發現PDF有40多MB超過了工具限制，就自動換了命令行工具處理；然后它開始逐頁翻閱62頁PDF尋找耐克的那一頁，從第34頁一路翻到第52頁沒找到，又折回去最終在第7頁定位到了；提取高清圖片后讀取所有數據，最后生成了完整的HTML復刻。

整個過程我沒有做任何干預，它自己處理了「文件太大→換工具」「找不到→繼續翻」這些中間問題。這就是Agent基座和普通視覺模型的區別：不只是看懂，還能在遇到障礙時自主調整策略。

GLM-5v-turbo復刻的版本

復刻程度談不上100%，但想想它做了什么：從一個40MB、62頁的PDF里自己翻到目標頁面，看懂一張包含20多個數據節點的復雜桑基圖，把所有數據提取出來，然后生成一個完整的HTML頁面還原了圖表結構和樣式。輸出的HTML直接用瀏覽器打開就能看到效果，每個數字都可編輯。

我覺得至少以后讀論文之類的，英文圖表都完全可以讓龍蝦先去中文化一波，會比你直接用翻譯API強不少。

5V-Turbo還配了一組官方Skills：PDF-to-WEB、PDF-to-PPT、Web-Replication、PRD-to-App，都是需要模型看懂視覺內容然后輸出代碼的場景，感興趣的可以去 ClawHub 搜索下載。 GLM官方Skills合集：https://clawhub.ai/jaredforreal/glm-master-skill

說回來，5V-Turbo值不值得切換？

如果你在用龍蝦，而且工作流里有「看圖→寫代碼」的需求，我覺得非常值得。之前遇到需要看的場景只能靠文字描述或者外掛OCR，現在模型原生就能看懂，省掉了中間環節。

它最適合兩類任務：多模態Coding（發截圖/設計稿直接輸出前端代碼）和視覺Agent（龍蝦看懂界面后自主操作）。本質上就是給你的AI Agent裝了一雙眼睛。

接入方式：智譜開放平臺、Z.ai、Coding Plan均可使用。AutoClaw直接內置了，OpenClaw和Claude Code改一下配置就行，前面有詳細教程。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.