![]()
作為天天跟科技新聞打交道的博主,我得說,這波操作直接把AI的空間認知能力拉到了新高度。
![]()
G2VLM就不一樣了,它不光能認出椅子、桌子,還能精準判斷它們的距離、高度,甚至知道是正著放還是歪著放。
這種能力放在以前,得是專門的三維建模軟件才能做到。
更牛的是,它在SPAR-Bench測試中,總分比GPT-4o還高18.5分,穩居第一。
在好幾個空間推理測試里,它都拿到了頂尖成績。
本來以為AI要搞定這種事,得靠海量參數堆出來,沒想到G2VLM只有4B參數,比那些千億參數的模型小多了。
![]()
這充分說明,它靠的不是蠻力,而是設計巧妙的雙專家架構。
這種“以巧勝拙”的思路,或許會成為未來AI模型研發的新方向。
G2VLM的設計靈感,居然來自我們的大腦,人腦處理視覺信息有兩條路,一條管“是什么”,一條管“在哪里”。
![]()
研發團隊把這個原理用到了模型上,打造了兩位“專家”。
語義感知專家則負責認東西、理解場景,跟我們平時用的AI差不多。
![]()
這兩位專家不是各干各的,靠共享注意力機制隨時交流。
語義專家說“這里有個沙發”,幾何專家馬上就能補充沙發的距離、高度等信息。
如此看來,這種分工協作的模式,比單一功能的模型高效多了。
![]()
![]()
第一階段專門訓練幾何感知專家,把語義專家“凍結”起來。
這個過程得用數十臺頂級顯卡連續跑好幾天,計算資源消耗不小。
![]()
語義專家被喚醒后,學會了利用幾何專家的信息回答問題。
幾何專家也會根據需求微調自己,讓提供的空間信息更適配推理場景。
![]()
經過這樣的磨合,兩位專家配合得越來越默契,G2VLM的綜合能力也越來越強。
G2VLM的出現,可不是只用來刷測試成績的,它的應用場景特別廣。
![]()
最直接的就是機器人領域,有了它,機器人能更靈活地拿取物品,以后家里的智能助手或許能真正幫我們干活了。
在AR/VR領域,它能讓虛擬世界更真實,玩游戲、看虛擬場景時,沉浸感會大大提升。
自動駕駛汽車也能受益,它能幫助車輛更精準地判斷障礙物距離,提高行駛安全性。
![]()
在教育領域,它還能幫學生更好地理解空間幾何問題。
![]()
00后博士帶隊搞出這么硬核的成果,不得不讓人佩服。
G2VLM的出現,不僅讓AI懂了幾何、會了推理,還為多個行業的智能化升級提供了可能。
未來,隨著技術不斷優化,說不定我們身邊會出現更多具備超強空間能力的智能設備。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.