網易首頁 > 網易號 > 正文申請入駐

國產多模態AI再開源！實測截圖轉網頁、搜圖購物，價格減半

2025-12-09 19:13:31　來源: 智東西

北京舉報

分享至

智東西
作者王涵
編輯心緣

智東西12月9日報道，昨晚，智譜開源了其GLM-4.6V系列多模態大模型，包括面向云端與高性能集群場景的基礎版GLM-4.6V（106B-A12B）以及面向本地部署與低延遲應用的輕量版GLM-4.6V-Flash（9B）。

此外，今天上午，智譜還開源了大模型交互智能體AutoGLM，類似于“豆包手機助手”，該智能體在去年10月發布之時曾被業內視為“全球首個具備手機操作能力的AI Agent”。

▲GLM-4.6V開源主頁（圖源：Hugging Face）

▲AutoGLM開源主頁（圖源：Hugging Face）

據官方介紹，GLM-4.6V能夠完成智能圖文混排與內容創作、識圖購物與導購、前端復刻與多輪視覺交互開發以及長上下文的文檔與視頻理解等任務，智東西第一時間對其進行了體驗。

在實際體驗中，GLM-4.6V的圖像搜索、全網比價以及長文本和視頻的理解能力表現較為穩定，其生成文字和網頁的速度快、內容準。但圖文混排能力上，其所生成的圖片一直無法顯示。對于模糊指令，GLM-4.6V的理解有些許偏差。

GLM-4.6V系列模型將訓練時上下文窗口提升到128k tokens，其首次在模型架構中將Function Call（工具調用）能力原生融入視覺模型。

在性能上，在同等參數規模下，GLM-4.6V系列模型在多模態交互、邏輯推理和長上下文等關鍵能力上取得SOTA表現。

其中，9B版本的GLM-4.6V-Flash在覆蓋了通用視覺問答、多模態推理、多智能體、多模態長文本、圖表識別以及空間定位能力的34項測試中，有22項的分數超過Qwen3-VL-8B，106B參數12B激活的GLM-4.6V表現則與有著2倍參數量的Qwen3-VL-235B相接近。

▲GLM-4.6V系列模型基準測試（圖源：z.ai/blog/glm-4.6v）

價格上，GLM-4.6V系列相較于GLM-4.5V降價50%，API調用價格低至輸入1元/百萬tokens，輸出3元/百萬tokens，GLM-4.6V-Flash全面免費。

▲GLM-4.6V系列模型價格表（圖源：智譜AI）

GLM-4.6V開源地址：

GitHub：

https://github.com/zai-org/GLM-V

Hugging Face：

https://huggingface.co/collections/zai-org/glm-46v

魔搭社區：

https://modelscope.cn/collections/GLM-46V-37fabc27818446

GLM-4.6V體驗地址：

https://chat.z.ai/

一、智能圖文混排：可生成推文大綱，但無法顯示圖片

首先是智能圖文混排與內容創作能力，GLM-4.6V構建了原生多模態工具調用能力，可以直接理解圖像、截圖、文檔頁面等多模態數據，無需先轉為文字描述再解析。

我們上傳了GLM-4.5V的技術報告，要求其生成一篇圖文并茂的微信公眾號文章。大約1-2分鐘，GLM-4.6V就完成了對整個文檔的閱讀和理解，輸出了包含標題、導語、五個章節以及結語的完整公眾號文章，但經過多次嘗試，其依舊無法顯示出圖片。

▲智能圖文混排

二、識圖購物與導購：自動比價一氣呵成，但模糊搜索理解不到位

為了體驗GLM-4.6V識圖購物與導購功能，我們直接輸入“幫我搜索現在iPhone 17 Pro Max在各平臺的價格。”

GLM-4.6V會自動調用相關工具在全網中搜索，并且形成商品名、平臺、品牌、商品圖、商品鏈接以及店鋪名的比價表格，直接點擊鏈接即可跳轉到購買頁面。

▲商品比價

我們還可以直接讓GLM-4.6V搜索《瘋狂動物城2》中尼克狐尼克的同款眼鏡，其通過圖像搜索功能直接搜索出了其同款眼鏡的實拍圖。

▲模糊搜索導購

三、網頁復刻：一張圖絲滑生成網頁代碼，但圖標更換不對

我們上傳了一張X平臺的登錄頁面截圖，要求用戶GLM-4.6V生成HTML代碼和網頁預覽。

▲截圖生成網頁代碼

▲生成網頁預覽

收到指令后，GLM-4.6V就立刻開始逐行生成HTML代碼，并顯示出預覽頁面。可以看出，其生成的“仿X”登錄網頁與原網頁幾乎一模一樣。

此外，GLM-4.6V還支持多輪視覺交互，直接根據結果用自然語言指令修改網頁的色彩、調整按鈕位置等。

比如，我們在上一輪輸出的基礎上，要求其將網頁主題色改為天藍色，圖標X改為Z，但還保持原風格。可以看到，針對修改主題色的要求，GLM-4.6V完成的很完善，但對于圖標X改為Z的指令，其誤生成了一個“向上箭頭”形狀。

▲修改網頁元素

四、長上下文的文檔理解：可同時處理多篇中英文論文，長文檔理解準確

GLM-4.6V將視覺編碼器與語言模型的上下文對齊能力提升至128k，在實際應用中，128k上下文約等于150頁的文檔、200頁PPT或一小時視頻。

為驗證其長上下文的文檔理解能力，我們直接甩給GLM-4.6V三篇網絡平臺治理領域的論文，其中有兩篇中文文獻和一篇英文文獻，讓其閱讀以上論文，并生成一篇學習筆記。

▲生成論文學習筆記

從GLM-4.6V生成的效果來看，圖片依舊沒有顯示出來，但文字部分內容齊備，邏輯清晰，將每篇文獻中的核心觀點和結論都清晰地羅列了出來，英文文獻處理也沒有錯漏。

五、視頻理解：能快速解析視頻內容和拍攝技巧，但視頻大小有限制

最后，GLM-4.6V還可以理解長視頻內容，用戶可以上傳一部200M以內的MP4影片，要求其分析視頻的拍攝手法和內容、結構等。

比如，我們上傳了一段6分48秒的視頻制作技巧分享視頻，想要其總結一下視頻的思路和內容，并給一些做攝影類自媒體的建議。

▲視頻內容理解（上下滑動查看完整圖片）

GLM-4.6V在幾秒鐘之內就給出了包含視頻思路、敘事技巧、鏡頭運用和設備選用等的完整詳解，并且給出了循序漸進的四條成為攝影博主的建議，回答準確且清晰完整。

結語：GLM-4.6V降低了視覺模型接入門檻

從實際體驗來說，GLM-4.6V在日常工作上已經能幫不少忙，但生成效果還不太穩定，生成公眾號文章時圖片出不來、改網頁細節時仍會有瑕疵，但其價格降到了上一個版本的一半，輕量版還免費，對于想嘗試多模態AI的個人或小團隊來說，門檻確實降低了不少。

在當前各家AI能力越來越接近的情況下，誰能把體驗做得更順暢、成本更低，誰就可能吸引更多開發者。

在官方推文中，智譜團隊寫到本周是其開源發布周，將會有更多成果開源，值得期待。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.