![]()
這項由香港大學的周勝超、齊曉娟領導,聯合騰訊PCG ARC實驗室的陳宇鑫、葛育英等研究者完成的研究,發表于2025年12月的arXiv預印本平臺,論文編號為arXiv:2512.20557v1。研究團隊針對當前視覺語言模型在理解動態場景中物體空間關系變化方面的不足,開發了一套名為DSR Suite的完整框架,讓AI能夠像人類一樣理解和推理三維空間中物體隨時間的運動變化。
想象你正在看一場足球比賽的錄像,需要判斷兩名球員之間的距離如何變化,或者預測一個球員接下來會朝哪個方向移動。對人類來說,這種空間推理能力是天生的,我們能夠輕松理解三維世界中物體的位置關系和運動趨勢。然而,對于目前的AI系統來說,這卻是一個巨大的挑戰。
當前的視覺語言模型雖然在靜態圖像理解方面表現出色,但在處理動態場景時卻顯得力不從心。它們往往只能識別畫面中的物體,卻無法準確理解這些物體在三維空間中如何移動,相互之間的距離如何變化,或者從不同觀察角度看到的場景會是什么樣子。這種局限性嚴重阻礙了AI在機器人導航、自動駕駛、增強現實等需要實時空間理解的應用中的發展。
研究團隊深刻認識到這個問題的核心在于缺乏高質量的訓練數據和有效的評估基準。現有的數據集要么局限于靜態場景,要么只涉及簡單的短時間運動,無法為AI提供足夠豐富的動態空間推理學習材料。更重要的是,傳統方法在將三維幾何信息融入視覺語言模型時,往往會因為信息過載而影響模型的通用性能。
為了解決這些問題,研究團隊開發了一套革命性的解決方案。他們首先構建了一個自動化數據生成流水線,能夠從真實世界的視頻中提取豐富的幾何和運動信息,包括相機位置、點云數據、物體輪廓、朝向角度和三維運動軌跡。基于這些信息,他們創建了兩個核心數據集:用于訓練的DSR-Train和用于評估的DSR-Bench。
更令人興奮的是,團隊還提出了一個輕量級的幾何選擇模塊GSM,這個模塊就像一個智能篩選器,能夠根據具體問題從大量的三維信息中精準提取相關的幾何知識,避免無關信息對模型造成干擾。這種設計巧妙地解決了幾何信息融入與通用性能保持之間的矛盾。
一、破解動態空間推理的數據難題
要讓AI學會動態空間推理,首先需要解決的就是訓練數據的問題。研究團隊面臨的挑戰可以比作教一個從未見過真實世界的孩子理解物體運動規律——你需要為他提供大量生動、準確的運動場景示例。
團隊從Koala-36M這個包含3600萬個真實世界視頻的大型數據庫開始篩選。這些視頻涵蓋了從體育比賽到日常生活的各種場景,為AI提供了豐富多樣的學習素材。然而,并非所有視頻都適合用于空間推理訓練。許多視頻中的物體基本靜止不動,或者只有微小的位置變化,這對于學習動態空間關系來說毫無價值。
為了篩選出真正有用的視頻,團隊設計了一套智能過濾系統。對于訓練數據,他們使用DeepSeek-R1語言模型根據視頻描述進行初步篩選,挑選出那些描述了明顯物體運動的視頻。對于更精確的評估數據,他們則使用Gemini-2.5-Pro直接分析視頻內容,確保選中的視頻確實包含有意義的空間動態變化。這種雙重過濾機制就像有兩道質量檢查門,確保最終選中的視頻都具有豐富的空間推理學習價值。
篩選過程還考慮了視頻的時長。太短的視頻無法展現完整的運動過程,太長的視頻則會增加計算負擔。團隊最終選擇了20秒到120秒的視頻段,這個時長既能包含足夠的時間信息,又保持了處理的效率。經過這輪精心篩選,他們從海量視頻中挑選出10000個用于訓練的高質量視頻和575個用于評估的精選視頻。
接下來,團隊需要從這些視頻中提取出AI能夠理解的幾何和運動信息。這個過程就像為每個視頻制作一份詳細的"空間說明書",記錄下每個物體在每個時刻的位置、朝向、運動速度等關鍵信息。
在場景層面,他們使用π?模型來估計相機的位置和姿態,并生成局部點云數據。這些信息告訴AI攝像機是如何移動的,場景的三維結構是怎樣的。在物體層面,他們首先使用DeepSeek-R1識別視頻中的主要物體類別,將它們分為"主體"(如人、動物等能主動移動的對象)和"客體"(如車輛、物品等被動移動的對象)兩大類。
然后,團隊使用Grounded SAM2技術對每個物體進行精確的跟蹤和分割,生成時間上連貫的物體輪廓。這些輪廓被投影到三維點云上,計算出每個物體在每個時刻的三維中心位置,形成完整的運動軌跡。對于主體類物體,他們還使用Orient Anything模型估計其朝向角度,包括方位角、仰角和滾動角。
為了確保數據質量,團隊還設置了嚴格的過濾條件:只保留那些在整個時間段內都清晰可見的物體,剔除那些經常被遮擋或消失的對象。這樣得到的幾何數據既準確又完整,為后續的問答生成奠定了堅實基礎。
通過這套精心設計的數據處理流水線,研究團隊成功將原本只有視覺信息的視頻轉換成了包含豐富三維幾何信息的訓練材料。這些數據不僅保留了真實世界的復雜性和多樣性,還提供了AI學習空間推理所需的精確幾何標注。
二、構建全面的動態空間推理問答系統
有了豐富的幾何數據作為基礎,研究團隊接下來面臨的挑戰是如何將這些復雜的三維信息轉換成AI能夠學習的問答形式。這個過程就像為每個視頻場景編寫一套完整的空間推理考試題,既要覆蓋各種可能的推理類型,又要確保問題的準確性和答案的可靠性。
團隊設計了兩種不同類型的問答生成方式。第一種是基于預定義模板的標準化問答,這類問題專門針對核心的空間推理技能進行訓練。第二種是自由形式的問答,通過語言模型自動生成,用于評估更全面的推理能力。
在模板化問答中,研究團隊識別出了六種最重要的空間推理類型。距離推理關注兩個物體之間的距離如何隨時間變化,比如"在視頻的前10秒內,紅色汽車和藍色汽車之間的距離是如何變化的?"方向推理則考察一個物體相對于另一個物體的方向變化,例如"從攝像機的角度看,行人相對于建筑物的方向如何改變?"
朝向推理專門針對那些有明確正面的物體(如人、動物),分析它們的朝向角度變化。速度推理評估單個物體的運動速度如何變化,而速度比較則要求AI判斷兩個物體誰運動得更快。方向預測是一種前瞻性推理,要求根據物體的歷史運動軌跡預測其未來的移動方向。
特別值得注意的是,團隊在問答設計中引入了觀察視角的概念。在現實世界中,同樣的物體運動從不同角度觀察會得到完全不同的結果。一個向前移動的人,從他正面看是在接近,從他背后看則是在遠離。為了讓AI掌握這種視角轉換能力,研究團隊設計了兩種觀察模式:絕對視角和相對視角。
絕對視角就像拍照時固定攝像機的位置和角度,所有的空間關系都相對于這個固定參考系來描述。相對視角則像跟拍,觀察者的位置和角度會隨著某個特定物體(通常是人或主要角色)的移動而動態變化。這種設計大大增加了空間推理的復雜性和真實性。
在答案設計上,團隊摒棄了傳統的數值化答案,轉而采用定性描述。這種選擇有其深層原因:從單目視頻重建的三維信息本身就是相對尺度的,不具有絕對的度量意義。更重要的是,人類在日常生活中進行空間推理時,也更多依賴定性判斷而非精確測量。
答案被設計成過程性的描述,記錄整個變化過程而非單一時刻的狀態。例如,距離變化的答案可能是"先保持基本不變,然后逐漸增大,最后又快速減小"。這種描述方式更符合人類的認知習慣,也更能反映AI對連續時間過程的理解能力。
團隊還建立了嚴格的答案生成規則。對于距離和速度類問題,他們定義了"基本不變"、"變大"、"變小"等基礎判斷標準。當兩個連續時刻的數值變化在特定閾值范圍內時,被認為是"基本不變";超出閾值則判斷為"變大"或"變小"。
對于方向和朝向類問題,答案以空間方位的組合形式給出,如"前方"、"左上方"、"后右下方"等。這些方位判斷基于向量夾角計算,當某個方向的角度分量小于特定閾值時,該方向被包含在答案中。
為了增加問答的語言多樣性和推理復雜度,團隊還引入了基于大語言模型的自由問答生成。他們向DeepSeek-R1提供視頻的三維軌跡數據、物體身份和觀察視角信息,要求模型生成既不能僅憑二維視覺信息解答、又不涉及精確數值計算的問題。這類問題往往更加靈活和開放,能夠評估AI的綜合空間理解能力。
通過這套問答生成系統,研究團隊最終構建了包含50000個訓練問答對的DSR-Train數據集和1484個精心標注的DSR-Bench評估基準。這些問答覆蓋了從基礎的距離判斷到復雜的多物體交互推理的各種空間認知任務。
三、精心打造的評估基準展現研究深度
DSR-Bench作為這項研究的評估基準,其設計體現了研究團隊對動態空間推理任務的深刻理解。這個基準包含的1484個問題分布在12個模板化類型和1個自由形式類型中,涵蓋了六個主要的真實世界場景類別。
這六個場景類別的分布體現了研究的全面性:體育與娛樂類占比21%,涵蓋各種運動比賽和戶外活動;交通與車輛操作類占22%,包括駕駛、行車和交通場景;藝術表演類占21%,包含舞蹈、音樂演出等動態表演;手工勞作類占11%,涉及各種制作和建造活動;日常生活與愛好類占14%,包括日常家務和休閑活動;自然與野生動物類占11%,展現動物的自然行為。
這種分布確保了AI在各種不同環境和情境下都能得到充分的測試。每個場景都有其獨特的空間動態特征:體育場景中的快速移動和復雜交互,交通場景中的規律性運動和相對位置變化,藝術表演中的優雅流暢動作,都為AI提供了不同類型的挑戰。
更重要的是,研究團隊對DSR-Bench進行了全面的人工精煉。雖然問答的初始生成是自動化的,但每一個問題和答案都經過了人工審核和調整,確保其準確性和合理性。這種精細化處理保證了評估結果的可靠性。
為了驗證DSR-Bench的質量和獨特性,研究團隊將其與現有的空間推理基準進行了詳細對比。他們發現,大多數現有基準要么局限于靜態場景,要么只考慮兩幀之間的簡單變化,缺乏對長時間動態過程的評估。
在三維知識需求方面,團隊設計了兩個互補的評估維度。物體級評估考察問題是否需要理解物體的三維屬性(如朝向、形狀、大小),場景級評估則判斷問題是否可以僅通過二維變化來回答。通過這兩個維度的組合,可以將基準的三維知識需求分為弱、中等、強三個等級。
評估結果顯示,DSR-Bench在三維知識需求方面達到了"強"等級,相比之下,其他基準大多停留在"弱"或"中等"水平。這表明DSR-Bench能夠真正測試AI的三維空間理解能力,而非僅僅是二維圖像變化的識別。
在答案精細度方面,DSR-Bench的優勢更加明顯。傳統基準通常只提供粗粒度的答案,如"變大"或"向左",而DSR-Bench提供的是細粒度的過程描述,如"先基本不變然后逐漸變大"。這種設計要求AI不僅要識別變化的結果,更要理解變化的整個過程。
通過對比分析,研究團隊證明了DSR-Bench在評估動態空間推理能力方面的獨特價值。它不僅填補了現有基準在長時間動態推理評估方面的空白,還為未來的相關研究提供了一個高質量的標準化測試平臺。
四、突破性的幾何選擇模塊設計
在解決了數據和評估問題之后,研究團隊面臨的下一個挑戰是如何有效地將三維幾何信息融入視覺語言模型。傳統方法往往采用直接添加或交叉注意力的方式,但這些方法存在一個根本性問題:幾何信息的過載會損害模型在通用任務上的表現。
這個問題可以用一個生動的比喻來理解。傳統方法就像給一個學生的書包里塞滿各種參考資料,希望他能在考試中用到。結果往往是學生被沉重的書包壓得喘不過氣,在真正需要某本書時反而找不到。更糟糕的是,這些額外的資料可能會分散學生的注意力,影響他在其他科目上的表現。
研究團隊提出的幾何選擇模塊GSM采用了一種全新的思路。這個模塊就像一個智能圖書管理員,能夠根據具體的問題快速找到相關的幾何知識,并以緊湊的形式提供給模型。這種按需提取的機制既保證了相關信息的充分利用,又避免了無關信息的干擾。
GSM的核心設計包含兩個連續的Q-Former結構,這種設計體現了研究團隊對信息處理過程的深刻洞察。第一個Q-Former被稱為語義壓縮器,它的任務是理解和壓縮問題的語義內容。當AI收到一個關于"兩輛汽車距離變化"的問題時,語義壓縮器會提取出"距離"、"變化"、"汽車"等關鍵概念,并將這些概念編碼成模型能夠理解的內部表示。
第二個Q-Former被稱為相關幾何選擇器,它根據語義壓縮器提供的問題理解,從大量的三維幾何信息中精確提取相關知識。如果問題涉及距離變化,選擇器就會重點關注物體位置軌跡信息;如果問題涉及朝向變化,選擇器就會關注角度信息。這種有針對性的選擇大大減少了信息噪聲。
GSM的另一個巧妙之處在于其輸出的固定性。無論輸入的三維幾何數據有多復雜,GSM始終輸出固定數量(32個)的幾何token。這種設計類似于將一本厚厚的百科全書濃縮成一頁精華筆記,既保留了最重要的信息,又大大減輕了模型的處理負擔。
這些幾何token會與原始的視覺token和文本token合并,形成完整的輸入序列送入語言模型。這種后期融合的策略保持了原有模型結構的完整性,不需要對預訓練的視覺編碼器進行修改,大大降低了實施的復雜度。
GSM的設計還考慮了不同基礎模型和幾何編碼器的兼容性。無論是配合不同的視頻理解模型,還是使用不同的三維重建系統,GSM都能夠有效工作。這種架構無關性使得該方法具有廣泛的應用潛力。
在參數效率方面,GSM也表現出了明顯的優勢。相比于直接融合方法需要處理大量可變長度的三維token,GSM只需要處理固定的32個幾何token,大大減少了計算開銷和內存占用。這種效率提升在處理長視頻和復雜場景時尤為重要。
更重要的是,GSM成功解決了幾何信息融入與通用性能保持之間的矛盾。實驗證明,使用GSM的模型在動態空間推理任務上獲得顯著提升的同時,在通用視頻理解任務上的表現幾乎沒有下降。這種平衡是傳統直接融合方法難以達到的。
GSM的創新還體現在其對問題長度變化的魯棒性上。通過語義壓縮器的設計,無論輸入問題是簡短的詞組還是復雜的長句,最終都會被壓縮成固定長度的表示。這種設計保證了模型處理各種形式問題時的穩定性。
五、令人矚目的實驗結果驗證
研究團隊在DSR-Bench上進行的全面評估展現了他們方法的顯著優勢。他們將自己的模型與多個類別的先進模型進行了對比,包括GPT-4o、GPT-5等專有模型,LLaVA-Video、VideoRefer等視頻理解專用模型,以及Qwen系列、InternVL系列等通用多模態模型,還有VLM-3R、VG-LLM等專門針對空間推理設計的模型。
實驗結果令人印象深刻。在平均性能方面,研究團隊的模型達到了58.9%的準確率,顯著超越了所有對比模型。即使是表現最好的對比模型VG-LLM也只達到了38.4%的準確率,這意味著新方法的性能提升超過了20個百分點。
更為詳細的分析顯示,這種提升在各個子任務上都是全面的。在絕對距離推理任務上,新模型達到了87.0%的準確率,相比最強對比模型提升了近30個百分點。在相對方向推理任務上,新模型的準確率為76.1%,也遠超其他模型的表現。
特別值得注意的是,即使是專門設計用于空間推理的模型,如VLM-3R和VG-LLM,在動態場景中的表現也遠不如新方法。這表明靜態空間推理的技術并不能直接遷移到動態場景中,需要專門針對時間維度的設計和訓練。
有趣的是,一些大型的通用模型在某些子任務上表現出了不錯的能力。例如,Qwen3-VL-30B在絕對速度推理上達到了44.0%的準確率,顯示出大規模預訓練的價值。然而,這些模型在需要復雜時空推理的任務上仍然表現不佳,說明僅靠規模擴大并不足以解決動態空間推理的挑戰。
研究團隊還進行了詳細的消融實驗來驗證各個組件的貢獻。他們比較了四種不同的訓練策略:基線模型(僅在一般數據上預訓練)、直接微調(SFT)、直接添加三維特征(Addition)和使用GSM的方法。
結果顯示,僅僅在DSR-Train上進行微調就能將性能從23.5%提升到54.4%,證明了專用訓練數據的重要性。直接添加三維特征的方法進一步將性能提升到57.7%,但在通用視頻理解任務上出現了明顯的性能下降(從60.2%降到48.6%)。
相比之下,使用GSM的方法在達到相似空間推理性能(57.4%)的同時,在通用任務上的性能損失微乎其微(僅從60.2%降到59.9%)。這一對比清晰地展示了GSM在平衡專用能力和通用性能方面的優勢。
團隊還探索了不同查詢數量對GSM性能的影響。他們發現,增加查詢數量能夠提升空間推理性能,但也會帶來通用性能的下降。32個查詢被證明是一個很好的平衡點,既能獲得較好的空間推理能力,又能保持通用性能的穩定。
數據規模的實驗進一步驗證了方法的可擴展性。隨著訓練數據從5000個增加到50000個問答對,模型性能從47.3%穩步提升到58.9%,顯示出良好的數據利用效率。這表明繼續增加高質量的訓練數據有望進一步提升性能。
為了驗證方法的通用性,研究團隊還在其他空間推理基準上進行了測試。在VLM4D和STI-Bench等評估集上,他們的方法同樣取得了最佳性能,證明了DSR-Train的訓練價值不局限于自建的評估集。
六、方法的廣泛應用潛力展示
為了展示動態空間推理能力的實際應用價值,研究團隊進行了一系列擴展實驗。他們首先探索了將靜態和動態空間推理能力結合的可能性。通過混合靜態空間推理數據(800K問答對)和他們的DSR-Train數據進行訓練,模型在DSR-Bench上達到了60.2%的性能,同時在靜態空間推理基準VSI-Bench上也取得了56.1%的優異表現。
這個結果表明,靜態和動態空間推理能力并不沖突,反而可能存在互補關系。一個同時掌握兩種能力的AI系統將具有更全面的空間理解能力,能夠處理更廣泛的實際應用場景。
更令人興奮的是,團隊將訓練好的模型應用到了MineDojo游戲環境中,這是一個模擬Minecraft游戲的復雜3D世界。在這個環境中,AI代理需要與各種動態對象進行交互,如狩獵動物、對抗敵對生物等。這些任務都需要精確的動態空間推理能力。
實驗結果顯示,使用DSR-Train訓練的模型在動物相關任務上的成功率達到26.5%,在敵對生物任務上達到22.3%,相比基線模型分別提升了約10個百分點。這種提升直接轉化為了更好的游戲表現,證明了動態空間推理能力在實際代理任務中的價值。
特別有趣的是,僅使用靜態空間推理數據訓練的模型在這些動態任務上的表現提升有限(動物任務16.3%,敵對生物任務12.4%),再次證明了動態空間推理的獨特性和重要性。這表明在需要實時交互的應用中,專門的動態空間推理訓練是不可替代的。
研究團隊還驗證了他們的方法在不同基礎模型上的有效性。將GSM和DSR-Train應用到Qwen3-VL-8B模型上,同樣取得了顯著的性能提升,證明了方法的通用性。這種架構無關性使得該技術可以很容易地集成到現有的各種視覺語言模型中。
在問答類型分布的實驗中,團隊發現模板化問答和自由形式問答的合理組合對最終性能至關重要。純模板化問答能夠很好地訓練基礎空間推理技能,但在靈活性上有所不足;純自由形式問答雖然語言更自然,但可能缺乏系統性的技能覆蓋。最佳的配比是80%的模板化問答配合20%的自由形式問答。
這些擴展實驗不僅驗證了方法的有效性,更重要的是展示了其在實際應用中的潛在價值。從游戲AI到機器人導航,從自動駕駛到增強現實,任何需要理解和預測動態三維環境的應用都可能從這項技術中受益。
七、技術創新的深層意義
這項研究的意義遠遠超出了技術層面的改進。它代表了AI空間理解能力從二維向四維(三維空間加時間)的重要跨越。在此之前,大多數AI系統只能理解靜態的三維場景或簡單的二維運動,而這項工作首次讓AI具備了理解復雜時空動態的能力。
從認知科學的角度來看,動態空間推理是人類智能的核心組成部分。我們在日常生活中不斷地進行著這類推理:判斷一輛迎面而來的汽車是否會與我們相撞,預測一個球的落點,或者規劃在人群中的行走路徑。這種能力的獲得標志著AI在模擬人類認知方面邁出了重要一步。
該研究的數據生成方法也具有重要的方法論價值。傳統的數據標注往往需要大量人工,成本高昂且容易出錯。研究團隊開發的自動化流水線展示了如何利用現有的視覺基礎模型來生成高質量的訓練數據,這種思路可能會影響未來AI訓練數據的獲取方式。
GSM的設計理念同樣具有廣泛的啟發意義。它解決的核心問題——如何在不損害通用性能的前提下增強專用能力——是多模態AI發展中的一個普遍挑戰。類似的選擇性融合思路可能會在其他需要整合多種信息源的AI任務中得到應用。
從技術發展的角度看,這項工作為未來的具身AI和機器人技術奠定了重要基礎。在現實世界中工作的機器人必須能夠理解和預測動態環境中物體的行為。無論是工廠里的協作機器人需要避開移動的工人,還是家庭服務機器人需要在有寵物和兒童的環境中導航,動態空間推理都是必不可少的核心能力。
該研究還可能對自動駕駛技術產生重要影響。當前的自動駕駛系統主要依賴于專門設計的感知和預測模塊,而這項工作展示了通用的視覺語言模型在獲得適當訓練后也能具備精確的動態空間推理能力。這種能力的通用性可能有助于解決自動駕駛中的長尾問題。
在增強現實和虛擬現實應用中,動態空間推理能力同樣至關重要。未來的AR/VR系統需要實時理解真實世界中的物體運動,并據此調整虛擬內容的呈現。這項技術為實現更自然、更智能的混合現實體驗提供了可能。
說到底,這項研究最重要的貢獻可能在于它為AI系統提供了一種更接近人類的空間認知方式。當AI能夠像人類一樣理解和推理四維時空中的物體運動時,它們就能更好地融入我們的日常生活,成為真正有用的智能助手。這不僅僅是技術能力的提升,更是AI向通用人工智能目標邁進的重要一步。
Q&A
Q1:DSR Suite是什么技術?
A:DSR Suite是香港大學和騰訊聯合開發的一套讓AI學會動態空間推理的完整框架。它包括一個自動化數據生成流水線,能從真實世界視頻中提取三維幾何信息;DSR-Train訓練數據集和DSR-Bench評估基準;以及一個叫GSM的幾何選擇模塊,能讓AI像人類一樣理解物體在三維空間中隨時間的運動變化。
Q2:動態空間推理和普通的圖像識別有什么區別?
A:普通圖像識別只能識別畫面中有什么物體,而動態空間推理需要理解這些物體在三維空間中如何移動、相互之間的距離如何變化、從不同角度看會是什么樣子。就像看足球比賽時,普通AI只能識別出"這是球員",而具備動態空間推理的AI能判斷"兩個球員之間的距離在縮小,球員A正在向左前方移動"。
Q3:GSM幾何選擇模塊為什么重要?
A:GSM解決了一個關鍵問題:如何在不影響AI通用能力的前提下增強空間推理能力。傳統方法直接添加大量三維信息會讓AI"消化不良",影響其他任務的表現。GSM像一個智能篩選器,只提取與具體問題相關的幾何信息,既保證了空間推理的準確性,又維持了AI在其他任務上的正常表現。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.