01
一個把后端逼瘋的需求
我有個朋友,特別喜歡寵物,有一天他找到我,神秘兮兮地說:“我想到了一個絕妙的點子,你能不能幫我實現了?”
我說:“什么點子?”
他說:“我想弄一個寵物領養平臺.....”
我一聽就打斷他:“得了吧,這樣的平臺太多了,你再做一個也沒啥意義......”
可他就是喜歡,執意要做,說什么“也不想賺大錢,就在寵物圈里用。”
我被纏得沒辦法,又想到了最近AI Coding工具比較火,也許我很快就能給他鼓搗一個網站出來,就答應了。
真正做的時候,我就后悔了,我是做后端開發的,當年選擇后端,一個重大的原因就是害怕做界面,我做的界面一點兒美感都沒有。
但是既然答應了,也只能硬著頭皮上了,在AI Coding工具的輔助下,迅速就生成了第一版:
![]()
我把界面截圖發給他看,他說:“哥,你這界面設計得也太‘素凈’了吧,感覺還是20年前的風格......”
我說:“這已經達到我的美學極限了,你看看那邊框還有陰影呢!”
他半天沒吭聲,然后給我甩過來一張圖:“就照著這個做!”
![]()
我一看就傻眼了,這哪里是我一個后端程序員能干的事兒? 這得找專業設計師和前端啊。
正在發愁期間,我突然想到了最近智譜開源的GLM-4.6V,我看介紹說有非常大的突破,不再僅僅是一個“視覺問答”模型,而是具備了“視覺執行”能力——能夠根據視覺輸入直接調用工具(Function Call),打通從感知到行動的閉環。
而且我之前還購買過智譜的Coding Plan,他們可以通過MCP讀取圖片,然后生成對應的代碼。
![]()
GLM-4.6V 在 MMBench、MathVista 等 30+ 評測中表現優異。106B 版本比肩 2 倍參數量的 Qwen3-VL-235B;9B 的 Flash 版本性能超過 Qwen3-VL-8B。
![]()
它還有超長的128k 上下文(約等于 150 頁文檔或 1 小時視頻),支持“過目不忘”的長視頻理解和多文檔分析。
既然如此,那我就可以把朋友的圖發給GLM-4.6V,讓它直接給我生成HTML頁面,然后我再和后端集成一下不就行了?
02
截圖直接變網頁
說干就干,立刻打開chat.z.ai ,選擇GLM-4.6V 模型。
選擇“網頁復刻”,把圖片傳上去,要求它生成html代碼。
![]()
值得注意的是,朋友給的截圖中是有圖片素材的,我要求它把圖片也生成,不要弄個占位符在那里,很難看。
但這對GLM-4.6V就提出了新的要求,它必須得能精確地理解截圖的內容,從中找出對應的圖片,然后還得去網上搜索,然后放到指定位置。
很快,GLM-4.6V就把網頁給復刻了出來:
![]()
雖然不能說是100%一樣,但也八九不離十了,尤其是它找到了正確的圖片,放到了正確的位置,這一點確實是很驚艷。
我也試了一些其他的工具,它們做出的效果就差不少了,布局一般不說,關鍵是那大面積的圖片空白,看著非常難受。
![]()
我把新頁面發給了朋友,他看了下又提了個要求:“紫色不好看,改一下。”
這難不住我,我只需要告訴GLM-4.6V改個顏色就行,只要朋友能忍受我這直男的審美。
![]()
新顏色很快出爐:
![]()
朋友看到后,又提出了新需求:
“那個Meet Them的框太大了,弄小一些”,
“哥,英文的怎么行,得改成中文啊”
我被折騰得不勝其煩,最后干脆讓他自己去用GLM-4.6V去設計了,反正也是自然語言交互,不用什么專業程序員的能力。
等朋友弄好了,我把它集成起來就行。
我把注意力轉向了智譜GLM-4.6V提供的MCP Server,程序員肯定要在IDE中使用嘛。
智譜的視覺MCP Server 支持Claude Code,Cline等多種AI Coding客戶端,我用VS Code的插件Cline,配置起來也非常簡單:
![]()
}API Key需要到智譜AI開放平臺(https://bigmodel.cn/)上去申請一下,這里不再詳述。
在Cline中用起來也非常簡單,只需要@一個圖片,然后就可以讓它工作了。
![]()
生成的效果如下:
![]()
03
視覺執行大師
看到這里,你可能覺得,這個GLM-4.6V是不是只能編程啊? 這種看法就太狹隘了,GLM-4.6V是具備“原生視覺執行能力”,各種視覺相關的任務都可以干。
GLM-4.6V能自主規劃、調用搜索/清洗工具,并處理返回的圖表或截圖,實現真正的 Agent 閉環。
比如,你上傳一幅一幅的圖片,它就可以獨立完成從「看圖」、「比價」、「生成導購清單」的完整鏈路。
你給它發一個足球比賽的視頻,它就能自動找到哪個隊在什么時候進的球,形成一個比分時間軸總結。
至于復雜圖文理解,多模態工具調用跟是不在話下,比如,我發給它一個PDF,要求它轉換成一個圖文并茂的文章:
![]()
可以看出,GLM-4.6V不單是從PDF中總結了文字內容,更是把相關的圖片也提取了出來,組織成了一篇圖文并茂的文章。

04
值得親自嘗試
GLM-4.6V展示的效果,簡直就是后端程序員處理UI需求的救星,看到它的效果,恐怕你也想試試了吧?
現在該模型已全面接入智譜 GLM Coding Plan,通過 MCP 協議大幅提升前端復刻與可視化調試效率。
我去官網看了下,現在智譜正在進行跨年特惠限時促銷,Coding Plan非常誘人,目前首月最低僅需20元!有邀請券還可享9折優惠,擁有 Claude Code 三倍用量!
同時還贈送智譜AI輸入法,用語音的方式直接調用大模型的能力,連打字都不用了。
![]()
季付和年付還有額外折扣,這波羊毛不薅的話實在是可惜了!
強烈建議大家來試一試,體驗一下GLM-4.6V的便捷和強大:
https://bigmodel.cn/glm-coding
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.