網易首頁 > 網易號 > 正文申請入駐

MIT和NVIDIA研究團隊讓機器像人類一樣理解運動

2025-12-25 21:33:02　來源: 科技行者

北京舉報

分享至

這項開創性研究由MIT（麻省理工學院）的甘雨露教授領導，聯合NVIDIA、密歇根大學、加州大學伯克利分校和斯坦福大學的研究團隊共同完成，發表于2025年12月的arXiv預印本服務器，論文編號為arXiv:2512.10927v1。這項名為"FoundationMotion"的研究首次實現了讓計算機自動理解和標記視頻中物體運動的突破性技術。

當我們看一段視頻時，大腦能夠瞬間理解其中發生的各種動作——汽車向右轉彎、手伸向茶杯、機器人抓取物品。然而對于計算機來說，準確理解這些看似簡單的動作卻是一個巨大挑戰。就好比讓一個從未見過世界的人突然觀看電影，他們可能認出畫面中有人和物體，但很難理解這些人物在做什么、物體如何移動、動作之間的先后關系。

研究團隊發現，即使是最先進的視頻分析系統也經常在理解基礎動作上出錯。比如當Gemini這樣的頂級AI模型面對"汽車正在右轉"這樣的簡單場景時，有時會完全識別錯誤。這個問題的根源在于訓練這些AI系統所需的高質量運動數據極其稀缺。傳統的視頻標注工作需要專業人員花費數分鐘來標記短短幾秒鐘的視頻片段，這種人工標注方式不僅成本高昂，而且難以大規模推廣。

為了解決這個根本性問題，研究團隊開發了一套完全自動化的數據制作流水線。這個系統就像一個超級聰明的視頻分析助手，能夠自動觀看視頻、追蹤其中的物體、理解它們的運動軌跡，然后用自然語言描述這些動作。通過這套系統，研究團隊成功制作了包含46萬7千個視頻片段和相應問答對的大規模數據集，為訓練更好的視頻理解AI提供了豐富的素材。

一、自動化運動標注的技術革新

研究團隊面臨的第一個挑戰就像教會一個助手如何精確觀察和記錄運動。傳統方法需要人工逐一標記視頻中每個物體的位置和動作，這個過程既繁瑣又容易出錯。研究團隊設計的自動化系統則像一個經驗豐富的體育解說員，能夠同時關注畫面中的多個運動目標，并實時追蹤它們的軌跡。

整個技術流程就像一條精密的生產線，分為四個主要環節。首先是視頻預處理環節，系統會自動截取5到10秒長的視頻片段，確保每個片段都包含足夠的運動信息。這就好比選擇最精彩的比賽片段一樣，既要保證內容豐富，又要控制在合適的長度范圍內。

接下來是物體檢測和追蹤環節，這是整個系統的核心技術。研究團隊采用了兩套互補的檢測策略。第一套是通用物體檢測系統，能夠識別視頻中的各種常見物品，比如汽車、桌子、杯子等。這套系統首先使用最新的Qwen2.5-VL大語言模型分析視頻的第一幀畫面，智能識別出畫面中的主要物體類別，然后使用專門的目標檢測模型精確定位這些物體的位置。

第二套是專門針對人體動作設計的檢測系統。由于區分左手和右手、精確定位手部動作對于理解人類行為至關重要，研究團隊開發了專門的人體檢測流水線。這套系統能夠先識別出畫面中的人物，然后詳細分析每個人的身體姿態，最后精確定位左手和右手的位置以及它們與其他物體的交互關系。

在物體追蹤方面，研究團隊使用了最先進的SAM2（Segment Anything Model 2）技術。這就像給每個運動物體分配了一個專屬的"身份證"，無論物體如何移動、遮擋或變形，系統都能準確追蹤它們的完整運動軌跡。為了確保追蹤的準確性，系統還會定期對追蹤結果進行校正，就像GPS導航會不斷更新位置信息一樣。

二、智能語言描述生成系統

擁有了精確的物體軌跡數據后，下一個挑戰是如何將這些數字化的軌跡信息轉換為人類能夠理解的自然語言描述。這就像需要一個翻譯員，能夠將復雜的數學坐標轉換為"汽車向右轉彎"、"手伸向茶杯"這樣直觀的描述。

研究團隊設計的語言生成系統采用了GPT-4o-mini作為核心引擎。系統不僅會接收視頻畫面作為輸入，還會同時分析包含物體運動軌跡的結構化數據文件。這種多模態輸入方式就像給AI提供了視覺和數據兩套感官系統，讓它能夠更準確地理解運動的細節。

為了確保生成的描述足夠詳細和準確，研究團隊設計了涵蓋七個維度的描述框架。這個框架要求系統從動作識別、時間順序、物體關聯、空間位置、重復模式、運動特征和空間關系等多個角度來分析和描述運動。比如在描述一個人倒水的動作時，系統不僅要識別出"倒水"這個動作，還要說明是用哪只手操作、水從哪里倒向哪里、整個動作的持續時間等詳細信息。

三、問答對生成與評估體系

除了生成運動描述外，研究團隊還開發了自動生成問答對的系統。這個系統就像一個經驗豐富的老師，能夠根據視頻內容設計出各種類型的測試題目，用來評估AI模型對運動的理解程度。

問答系統設計了五種不同類型的問題。動作識別類問題主要測試模型能否準確識別具體的動作，比如"這個人在做什么動作"。時間順序類問題考查模型對動作先后關系的理解，比如"哪個動作先發生"。物體關聯類問題檢驗模型能否正確關聯動作與執行動作的物體或人物。空間位置類問題評估模型對動作發生位置的理解。重復計數類問題測試模型能否準確計算重復動作的次數。

每個問題都設計為四選一的選擇題格式，系統會自動生成三個錯誤選項作為干擾項。這些干擾項并非隨機生成，而是根據視頻內容精心設計，確保它們在邏輯上合理但在細節上錯誤。這種設計就像精心設計的考試題目，能夠有效區分模型理解程度的高低。

四、大規模數據集的構建成果

通過這套完全自動化的技術流水線，研究團隊成功構建了一個包含46.7萬個視頻片段和46.7萬個問答對的大規模數據集。這個數據集的規模相當于傳統人工標注方法需要數百名專業人員工作數年才能完成的工作量。

數據集中的視頻片段平均長度約為17.5秒，每個視頻平均包含約10個問答對，這意味著平均每秒鐘的視頻對應1.67個問題，達到了相當高的標注密度。問題的平均長度為55.9個字符，既保證了問題的簡潔性，又確保了足夠的描述性。

為了驗證數據質量，研究團隊特別設計了對比實驗。他們比較了僅使用視頻生成的問答對和同時使用視頻加軌跡數據生成的問答對的質量差異。結果顯示，添加軌跡數據后，在精細動作準確性、運動細節描述、時間連貫性和問題相關性等各個維度上都有顯著提升。比如在精細動作準確性方面，質量評分從5.8分提升到8.4分，提升幅度達到45%。

五、模型訓練與性能提升

利用這個大規模數據集，研究團隊對多個開源視頻理解模型進行了微調訓練。訓練過程就像讓學生通過大量練習題來提高成績一樣，通過學習大量的運動標注實例，AI模型逐漸掌握了理解各種運動的能力。

研究團隊選擇了三個代表性的模型進行訓練測試：NVILA-Video系列（包括8B和15B參數版本）和Qwen2.5-VL-7B模型。訓練過程采用了標準的微調技術，使用較低的學習率和余弦學習率調度策略，確保模型能夠穩定地吸收新的運動理解知識。

訓練結果令人驚喜。以NVILA-Video-15B模型為例，在MotionBench基準測試上的準確率提升了1.0個百分點，在自動駕駛車輛運動理解任務上提升了7.1個百分點，在機器人運動理解任務上更是大幅提升了14.9個百分點。這些提升意味著模型現在能夠更準確地理解各種復雜的運動場景。

更加令人矚目的是，經過訓練的中等規模開源模型甚至能夠在某些任務上超越大型閉源模型的性能。比如訓練后的NVILA-Video-15B模型在自動駕駛場景理解上達到了91.5%的準確率，超越了Gemini-2.5-Flash的84.1%和Qwen-2.5-VL-72B的83.3%。這就像一個經過專門訓練的中學生在特定科目上超越了沒有接受過專門訓練的大學生一樣。

六、多領域應用驗證

為了驗證系統的通用性，研究團隊在四個不同領域構建了專門的測試基準。這些測試就像針對不同專業領域設計的專門考試，能夠全面評估AI模型在各種實際應用場景中的表現。

在自動駕駛領域，研究團隊基于著名的nuScenes數據集構建了測試基準，包含1968個關于車輛運動的問答對和108個關于駕駛員手部動作的問答對。這些問題涵蓋了諸如"前方車輛向哪個方向行駛"、"駕駛員正在進行什么操作"等實際駕駛場景中需要理解的關鍵問題。

在日常生活場景中，研究團隊從"100 Days of Hands"數據集中選擇視頻，手工標注了832個關于手部動作和手物交互的問答對。這些問題聚焦于人們日常生活中的各種手部操作，比如"這個人在用哪只手操作"、"手部動作的方向是什么"等。

在機器人應用領域，研究團隊收集了YouTube上的機器人操作視頻，標注了102個關于機器人動作的問答對。這些問題主要關注機器人手臂的運動和操作行為，對于推動機器人技術發展具有重要意義。

測試結果顯示，在所有這些不同領域中，使用FoundationMotion數據集訓練的模型都取得了一致的性能提升。這種跨領域的改進證明了該技術的普適性和實用價值。比如在日常生活場景中，Qwen2.5-VL-7B模型的準確率從61.4%提升到73.1%，提升幅度達到11.7個百分點。

七、技術細節與創新突破

研究團隊在技術實現上做出了多項創新。在攝像機運動過濾方面，他們使用了專門的VGGT技術來檢測和排除攝像機運動劇烈的視頻片段。這就像在拍攝時使用防抖功能一樣，確保分析的視頻足夠穩定，便于準確追蹤物體運動。

在物體檢測精度優化方面，研究團隊采用了分別查詢的策略，即對每種物體類別單獨進行檢測，而不是一次性檢測所有類別。這種方法雖然增加了計算量，但顯著提升了檢測的準確性，特別是對于小物體和部分遮擋的物體。

為了確保時間一致性，研究團隊設計了分層的標識符分配方案。人物使用0-99的ID范圍，其身體部位使用相關的子ID（比如ID為5的人，其左手ID為51，右手ID為54），而物體使用1000以上的ID。這種設計就像給家庭成員分配相關的電話號碼一樣，既保證了唯一性，又體現了相互關系。

八、質量驗證與對比分析

為了驗證數據質量，研究團隊進行了詳細的對比分析。他們將不同問答類型的貢獻分別進行了測試。結果發現，重復計數類問題對模型性能提升最大，準確率從基準的48%提升到55%，提升了14.6個百分點。這類問題之所以貢獻最大，是因為它們需要模型具備精確的時間感知和計數能力，這正是傳統方法的薄弱環節。

運動相關物體問題和位置相關運動問題也帶來了顯著提升，準確率都達到了53%，提升了10.4個百分點。這說明這些問題類型能夠有效訓練模型理解物體與動作之間的關聯關系以及動作的空間特性。

研究團隊還對比了相同訓練數據量下FoundationMotion數據集與其他數據集的效果。結果顯示，FoundationMotion數據集不僅帶來了更大的性能提升，還避免了某些情況下的性能下降。比如在NVILA-Video-15B模型上，傳統PLM數據集在某些任務上會導致性能下降5.0個百分點，而FoundationMotion數據集則帶來了7.1個百分點的提升。

九、數據集統計特征分析

研究團隊對生成的數據集進行了詳細的統計分析。在答案分布方面，四個選項（A、B、C、D）的正確答案分布非常均勻，每個選項約占25%，這表明數據生成過程沒有出現偏差，避免了模型學習到位置偏好而非內容理解。

在問題長度分布方面，大多數問題的長度集中在30到80個字符之間，既保證了問題的完整性，又避免了過于冗長。這個長度范圍正好符合人類閱讀習慣，便于快速理解和回答。

在視頻時長分布方面，大部分視頻片段的長度集中在3到7秒之間。這個時長設置基于運動理解的最優平衡點——既要包含完整的動作序列，又要避免過長的視頻帶來的信息冗余和計算負擔。

十、實際應用前景與局限性

這項研究的應用前景非常廣闊。在自動駕駛領域，準確理解周圍車輛和行人的運動意圖對于確保行車安全至關重要。傳統系統可能只能識別出"前方有車輛"，而基于這項技術的系統則能夠理解"前方車輛正在變道"或"行人正在穿越馬路"，從而做出更智能的駕駛決策。

在機器人技術方面，這項技術能夠幫助機器人更好地理解人類的動作意圖，從而在協作任務中表現得更加自然和高效。比如在工廠環境中，機器人能夠通過觀察工人的手部動作來預測下一步需要什么工具，提前做好準備。

在視頻內容分析領域，這項技術可以大大改善視頻搜索和推薦系統的效果。用戶可以通過"尋找包含揮手動作的視頻"或"找出有人在跳舞的片段"這樣的自然語言描述來精確搜索視頻內容。

在醫療健康領域，這項技術可以用于分析患者的運動模式，幫助醫生診斷運動障礙或評估康復效果。比如通過分析帕金森病患者的手部震顫模式，為醫生提供客觀的病情評估依據。

然而，研究團隊也誠實地指出了當前技術的局限性。最主要的限制是目前的系統主要處理二維平面的運動理解，對于三維空間中的復雜運動還存在理解不足的問題。比如在分析手部的精細操作時，系統難以準確理解每個手指關節的三維運動軌跡，這對于需要精確手部控制的機器人應用來說還存在不足。

另一個局限是在處理快速運動或運動模糊的場景時，系統的追蹤準確性可能會下降。這就像人眼在觀看高速運動的物體時也會出現模糊一樣，當前的技術在處理這類場景時仍有改進空間。

此外，系統對于一些文化背景相關的手勢或動作的理解還存在局限。不同文化背景下相同的手勢可能有不同的含義，這種細微的差別目前還難以完全捕捉。

說到底，這項研究最重要的貢獻在于開創了一條全新的技術路徑。通過完全自動化的方法，研究團隊不僅解決了高質量運動數據稀缺的問題，還證明了在特定領域進行專門訓練的中等規模模型可以超越大型通用模型的表現。這就像專業運動員在自己的專項上往往比全能選手表現更出色一樣。

更重要的是，這套技術為未來的研究提供了堅實的基礎設施。其他研究團隊可以利用這個數據集和技術框架來訓練更好的視頻理解模型，推動整個領域的發展。研究團隊已經承諾開源所有代碼、數據和評估基準，這將大大加速相關技術的發展和應用。

從更廣闊的視角來看，這項研究代表了人工智能從簡單的模式識別向真正的場景理解邁出的重要一步。當AI系統能夠像人類一樣自然地理解運動和動作時，它們就能更好地與人類協作，在各種實際應用中發揮更大的價值。無論是讓自動駕駛汽車更安全，讓機器人助手更智能，還是讓視頻分析更精準，這項技術都有望在未來幾年內帶來實際的改變。

當然，從研究成果到實際應用還需要時間。但這項研究已經為我們展示了一個令人興奮的未來圖景：AI不僅能看懂世界，還能理解世界中正在發生的各種動作和變化。對于普通人來說，這意味著我們將擁有更智能的設備、更安全的交通系統、更高效的工作助手，以及更精準的娛樂內容推薦。這項技術的成熟和普及，將讓我們的生活變得更加便利和安全。

Q&A

Q1：FoundationMotion技術是什么？

A：FoundationMotion是由MIT和NVIDIA等機構聯合開發的AI技術，能夠自動分析視頻中的物體運動并生成準確的文字描述。它就像一個智能的視頻解說員，可以精確識別和描述各種動作，比如"汽車向右轉彎"或"手伸向茶杯"等運動細節。

Q2：為什么需要專門訓練AI理解運動？

A：目前的AI系統雖然能識別物體，但很難準確理解運動。即使是先進的模型也經常在基礎動作識別上出錯，比如分不清汽車是在左轉還是右轉。這主要是因為缺乏高質量的運動標注數據，傳統人工標注成本高昂且效率低下。

Q3：FoundationMotion技術有哪些實際應用？

A：這項技術應用前景廣泛，包括讓自動駕駛汽車更準確理解道路狀況、幫助機器人更好地與人類協作、改善視頻搜索和推薦系統，以及在醫療領域分析患者運動模式來輔助診斷。它能讓AI設備更智能地理解和響應現實世界中的各種運動。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.