上上周一的晚上,智譜開源了當今最好的模型之一,GLM-4.5。
然后,這個周一,又是突如其來的,開源了他們現在最好的多模態模型:
GLM-4.5v。
![]()
也是4.5系列的,用GLM-4.1V-Thinking的技術路線把GLM-4.5-Air重新訓練了一遍,實現了視覺多模態的能力。
模型參數106B總參數,12B激活,這個規模在開源多模態模型里已經算是大塊頭了。
模型能力也有點東西,在所有的開源多模態模型中,42個評測基準,41個SOTA了。
![]()
我說實話,這個看著,還是有點嚇人的,我已經很久沒看到這么全的評測基準列表了。。。
說明GLM-4.5v,這波是真的自信。
模型已經在多平臺開源了,可以任選一個下載。
Github:https://github.com/zai-org/GLM-V
Hugging Face:https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102
不過106B的量級,消費級還是難部署,如果想用的話,可以去智譜他們的z.ai上用。
嗯,網址就是z.ai。
![]()
我也第一時間去做了一下測試。
這里先測的,是用的是專門做評測的朋友拓界AI給的多模態測試題。
比如第一道是游標卡尺的讀數,這玩意讀起來還是挺費勁的,整數小數要分開讀,得非常仔細才行。
反正我是看的一臉懵逼。
![]()
而GLM-4.5V,花了一小會,就寫出正確答案了。
![]()
思考過程并不是非常的冗長復雜,很簡潔,所以很快就出來了,這個非常的好評。
然后是第二題,小貓摸球問題,我是已經看花眼了,看這玩意看的我眼睛疼,真的。
問題就是:到底哪個貓摸到了毛線球。
![]()
GLM-4.5V也找到正確的答案,還給了正經的操作方法。
![]()
我眼花著驗證了兩次,確實是AI沒毛病。
在視覺推理能力上,GLM-4.5v確實有點東西,而且速度快的離譜。
我又試了一個經典的,識別地理位置的case。
就是橫店明清宮苑的圖片,想看看它能不能正確的分辨出來。
![]()
這個測試其實挺有難度的,因為橫店的明清宮苑是按照故宮1:1復制的,連細節都做得很到位。
如果模型只是簡單地識別建筑風格,很容易就會判斷錯誤。
GPT-5-Thinking在深度思考以后,就來了一個非常抽象的答案。
![]()
華清宮什么鬼?
而GLM-4.5V答得很正確,指出了這里是橫店的明清宮苑。
這個回答挺讓我驚艷的,而是因為它能在如此相似的場景中做出準確判斷。這說明模型不是簡單的模式匹配,而是真的具備了一定的視覺推理能力。
![]()
但我有點沒看懂它是怎么分析出來的,于是我又問了一下它,為什么是橫店不是故宮。
這回它給出了詳細的解答,分了三個點,講的相當有理有據。
![]()
牛逼。
那再試試內景,我找了一個宮殿內景的圖片,問他這是哪里。
這輪沒有正確回答出來,我還追問了一下,它還是肯定的說是故宮。
![]()
說實話,連我自己看這個內景圖都有點拿不準,畢竟橫店的復制度確實很高,內景的裝飾、色彩、布局都做得很像。
看看GPT-5-Thinking,錯了。
![]()
這個題,連我心中最強的視覺推理模型o3都錯了。
![]()
橫店搓的太像了,真的匠人精神,實在沒招。。。
模型在這種情況下出錯,也是情有可原。
還有一個我覺得很酷的功能。
目前只有Gemini有的,原生的視頻理解。
![]()
這里我說一下,很多產品說自己有視頻理解能力,或者總結視頻,其實不是的。
他們更多的是吧視頻里的音頻提取出來,找到人說話的部分,然后STT音頻轉文字變成文字稿,最后再找個大模型總結,不是原生的靠模型能力的視頻理解。
我發給它一個我下載下來的二十世紀影業官方的25周年《泰坦尼克號》的混剪,讓GLM-4.5V看看里面包含了哪些經典畫面。
![]()
要知道,視頻理解一直是多模態模型的難點。
模型需要理解時間序列、畫面轉換、場景連貫性等等,這對模型能力和算力的要求是幾何級增長的。
GLM-4.5V非常有意思,也確實是讓我我比較驚喜的,它思考了一會,給了我一個很全面的回答。
![]()
我特地回到視頻,看了下對應的時間點。
所有的時間點都一一對應,完全沒毛病。
![]()
![]()
展開它的思考過程,我發現它是真的能理解畫面之間的邏輯關系和故事脈絡。
GLM-4.5V不是簡單地逐幀識別,而是把這些場景串聯成一個完整的敘事序列。
從船頭的浪漫時刻,到災難降臨后的生離死別,再到最后的救援場面。
![]()
不僅識別出了視頻中的關鍵畫面,還能準確標注時間點。
這種時空理解能力,在開源模型里確實難得一見。
當然,視頻理解也有限制。我試了一下,它只能處理200M以內的視頻,再大就不行了。不過對于大多數應用場景來說,這個限制還算合理。
同時,注意是MP4格式,不要傳成MOV啥的了。
![]()
我還試了下視覺定位功能,它能根據指令在圖片里做標記。
![]()
我扔了一張流浪地球3的開機大合照,讓他幫忙框選出郭導。
![]()
圈的很正確。
![]()
找出燒烤簽子也是不在話下,標記的很精準。
![]()
甚至還有一個超級騷的。
圈出他最擅長的運動。。。
![]()
果然是籃球。。。
GLM-4.5V實在是太懂了。
除了視覺定位,還有一個很有意思的功能。
網頁復刻。
![]()
我直接扔給它一個網頁截圖,讓它給我復刻出來。
![]()
![]()
結果真的震撼到我了,你看這個效果。
![]()
框架、結構幾乎一樣,除了一些設計的樣式有一些區別。
不過,講個大實話,我覺得比智譜自己的官網都好看= =
這種看圖寫代碼的能力,以前基本上就是Gemini、Claude這些頂級閉源模型的專利。
現在開源模型也能做到這種水平,真的是一個巨大的進步。
而且,模型完全開源,你可以直接下載權重,部署在自己的服務器上。
GLM-4.5V的API定價也相當良心。
輸入只要2 元/M tokens,輸出6 元/M tokens,這個價格在多模態模型里算是相當便宜了。
最后,總結一下。
曾經的國產之光,智譜好像回來了。
連續兩個開源GLM-4.5和GLM-4.5V,效果都非常的強。
忽然想起上周OpenAI開源的oss,還有GPT-5這一系列的騷操作。
他們好像是那種守著一座巨大城堡的國王。
偶爾會大發慈悲,從城堡里扔出一些金幣,希望平民們就得感恩戴德地沖上去瘋搶。
而國內的這些大模型廠商,更像一個熱衷于基建的狂人,他根本不屑于守著城堡,他每天都在我們家門口修路、建橋、蓋發電站,然后把鑰匙直接塞到我們手上,說:
隨便用,兄弟,不夠再跟我說。
所以,當我這兩次,都說智譜牛逼的時候。
我相比表達加贊美的,不僅僅是它在41個基準測試中取得的SOTA。
我贊美的,是這種持續不斷的、近乎于偏執的開放精神。
海外Close AI,國內天天Open AI。
AI的未來,不應該只掌握在少數幾個巨頭的服務器里,從GPT-4o的下線引發的風波,就能看出影響。
它更應該,也必須,綻放在我們每一個人的硬盤上。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克、dongyi
>/ 投稿或爆料,請聯系郵箱:wzglyay@virxact.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.