這篇文章,由AI一鍵直出??
今天,智譜發布并開源了GLM-4.6V多模態模型,一個是向云端服務的106B基礎版,一個是面向本地部署的9B輕量版。
模型下載:
https://huggingface.co/collections/zai-org/glm-46v
API調用平臺:
https://www.bigmodel.cn
MCP調用入口:
https://docs.bigmodel.cn/cn/coding-plan/mcp/vision-mcp-server
開頭這篇文章,便是由GLM-4.6V-106B直接生成。
可以看到,GLM-4.6V除了在視覺理解上能夠“看懂”多模態內容外,還具備工具調用能力(Function Call)能夠直接做“執行”。
官方說,這是一個原生具備多模態工具調用能力的模型。比如,可以處理圖文混排、識圖購物、導購以及各種Agent場景的復雜視覺任務。
省流:感知→理解→執行,都在一個推理鏈里完成,無需外部工程化。
![]()
一手實測
我知道,這么說,你可能還是沒懂。下面,我們來看點實際的。
打開Z.ai,選擇模型“GLM-4.6V”,根據任務需要選擇合適的工具,開啟“深度思考”,進行體驗。
![]()
這里,簡單分享幾點技巧:
①建議所有場景都開啟深度思考,除非是明確的簡單行為,比如OCR識別。
②不需要把所有工具都勾選,建議根據自己的任務情況來選擇。比如coding任務,它不太需要圖像處理、圖像搜索和購物搜索,那就把4個工具都關掉。
③如果不知道自己需要什么樣的工具,可以點下方的膠囊入口。
![]()
這里內置了6個場景:識圖搜圖、圖文掃描、文檔解讀、視頻理解、商品比價和數理解題。
1)復刻網頁
我們先來復刻一個網頁,比如復刻抖音電腦版。
請給我這個網頁截圖的HTML Code,如果網頁包含圖片素材,一定要給我圖片,不要用Placeholder替代。
![]()
這是成品,跟抖音網頁版幾乎一模一樣。
![]()
復刻小紅書。
![]()
提示詞:復刻這個網頁。如果網頁包含圖片素材,請聯網搜索與內容適配的圖片進行替代,不要使用占位圖。
復刻OpenAI News。
![]()
提示詞:請給我這個網頁截圖的HTML Code,如果網頁包含圖片素材,一定要給我圖片,不要用Placeholder替代。
個人體驗來看,GLM-4.6V的前端能力離Gemini 3 Pro還差了那么一點。但話又說回來,又有誰的前端能力能比得過Gemini 3呢?
不同的是,GLM-4.6V的前端復刻支持多輪視覺交互修改,可以在生成的網頁截圖上框選區域進行修改,比如“把這個按鈕向左移一點,顏色改為橘紅色”。
案例來自官方視頻
2)文檔解讀+寫作
之前,很多模型一直解決不了的圖文同時輸出能力,GLM-4.6V這次做到了。
比如,我們拿一份Transformer論文給它,然后輸入提示詞:
根據附件論文,寫一篇圖文并茂的微信公眾號文章來介紹這篇論文,語言要通俗易懂、生動有趣,盡量讓小學生也能聽懂。使用圖文并茂的markdown格式輸出。
然后,就得到了一篇圖文并茂的公眾號文章。
(可上下滑動,查看全圖)
所有配圖都來自論文中的真實架構圖和圖表,不是生圖,也不是聯網找圖。而是模型自己定位內容所在的頁面和區域,然后調用工具進行截圖和嵌入,輸出圖文并茂的文章。
從對信息的理解,到工具的調用,到內容的生成,均由GLM-4.6V在同一推理鏈路內完成。
在我見過的VLM模型中,GLM-4.6V應該是第一個做到的,非常牛逼。
它的場景非常豐富,特別是對于我這樣還在堅持圖文創作的博主來說,非常受用。
比如,我們可以讓它對比論文。
提示詞:根據這兩篇論文的圖表,對比一下Transformer 和 ViT 模型的差異,并思考和闡述下一步改進 ViT 模型的思路。
(可上下滑動,查看全圖)
又比如,讓它直接搜索《瘋狂動物城2》,生成一篇圖文并茂的影評文章。
(可上下滑動,查看全圖)
3)商品比價
最近,為了更快的vibe working,特地買了一個麥克風接電腦上,可以更快的口噴文章、口噴代碼需求。
![]()
正好,讓GLM-4.6V幫我比下價,查下大家的評價。
(可上下滑動,查看全圖)
這信息找的,還挺準的。感覺,我以后都不用逛購物平臺了,直接問它就行。
4)識別疑難雜字
豆瓣上有個小組,叫「史上寫字最爛小組」,里面的字個個奇葩,但又個個真實。
畢竟,這世上能寫出好看、齊整字的人,本就鳳毛麟角。相反,那些寫出爛字、疑難雜字的人,才是更普遍的大多數。
比如,這位爺爺在ICU留下的字,就直接把我干沉默了。
![]()
沉默的原因在于,一是我也猜不出這是什么字,二是問了GLM-4.6V也不行,遺憾未能幫到這位朋友。
但這些字,對于GLM-4.6V來說,就小菜一碟了。
比如這個,如果我沒有背過“君不見”這幾個字,我還真不知道他在說什么。
![]()
發給GLM-4.6V,一下子把全文寫出來了。
![]()
看到這,我相信你可能也有和我一樣的疑問:是不是因為模型背過這首詩?所以能秒懂。
于是,我又換了張圖。說實話,我根本不懂他想表達什么。
![]()
發給GLM-4.6V后,這下終于懂了。
![]()
5)地圖推理
這是我11月去北京在大聰明的酒吧拍的。
![]()
問GLM-4.6V,輕松推導出是在北京中關村創業大街。
![]()
這是我10月去昆明拍的。
![]()
它也能輕松推理出是昆明老街,完全正確。
![]()
提示詞:你正在參加一場地圖推理游戲,附件的圖片是我11某個早晨在飛機上拍攝的,請盡可能地推導出圖片所在的位置,我要具體的、詳細的位置,比如某某路或者某某街區。
6)圖片反推
這是來自沃垠AI群里的一張圖片,用戶用NBP生成的,拿來上課非常好使。
![]()
我試著用GLM-4.6V反推了一下提示詞。
![]()
得到提示詞:
Traditional Chinese ink - wash style educational infographic titled "Water Journey: Chinese Vocabulary Memory Aid", illustrating the water radical (氵) through nature. Features a flowing river (江, Jiāng - River), river (河, Hé - River), lake (湖, Hú - Lake), ocean (海, Hǎi - Ocean), and swim (泳, Yǒng - Swim) with Chinese characters, pinyin, and English translations. Includes mountains, pine trees, waterfalls, clouds, small boats, and swimmers. Soft pastel color palette with beige background, blue water, earthy mountain tones. Composition shows water flow from river to lake to ocean, with arrows indicating direction. Detailed landscape with traditional Chinese artistic elements, suitable for language learning.
中文:傳統中國水墨風格教育信息圖,標題為“Water Journey: Chinese Vocabulary Memory Aid”(《水之旅:中文詞匯記憶輔助》),通過自然展示水部首(氵)。畫面包含流動的江(江,Jiāng - River)、河(河,Hé - River)、湖(湖,Hú - Lake)、海(海,Hǎi - Ocean)和游泳(泳,Yǒng - Swim),配有漢字、拼音和英文翻譯。包含山脈、松樹、瀑布、云朵、小船和游泳者。柔和的 pastel 色彩,米色背景,藍色水域,土色調的山脈。構圖展示水流從河流到湖泊再到海洋,箭頭指示方向。細節豐富的景觀,具有傳統中國藝術元素,適合語言學習。
發到即夢上,沒想到直接就生成了類似的圖。
![]()
以后,用GLM-4.6V做反推真的太容易了。
7)視頻理解
我把GLM-4.6V官方介紹視頻里的多個功能,用3倍速剪在了一塊。
發給GLM-4.6V問:這支視頻講了什么?
![]()
GLM-4.6V的回答還是挺準的,而且精確定位到了幀數。
![]()
從個人實測來看,GML-4.6V的工具調用能力(Function Call)非常出色,而且是原生就支持。
做到了「圖像即參數,結果即上下文」。
雖然在一些能力上(比如寫作、前端)還達不到頂尖,這需要更強力的基模,但這一手工具調用能力就已經是很多VLM不能比的了。
所以,這是一個天然適合做Agentic基座的模型,可以為真實業務場景賦能。
自GLM-4.6以來,我們看到,智譜正在開發者生態爆發相當大的潛力。
今天,又一個強力VLM模型來襲,而且已經加入智譜Coding Plan。
而這,只是智譜開源周的Day 1。
說實話,有點期待接下來的幾天了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.