網易首頁 > 網易號 > 正文申請入駐

港大突破：AI在虛擬世界中學會真實駕駛技能

2025-12-25 21:27:28　來源: 科技行者

北京舉報

分享至

當我們談論自動駕駛汽車的未來時，一個看似簡單卻至關重要的問題始終困擾著研究人員：如何讓AI在安全的環境中學會應對各種復雜的駕駛場景？香港大學的研究團隊在2024年12月14日發表了一項突破性研究，題為"GenieDrive: Towards Physics-Aware Driving World Model with 4D Occupancy Guided Video Generation"，為這個問題提供了令人驚喜的解決方案。這項研究由香港大學、華為諾亞方舟實驗室和華中科技大學的研究人員共同完成，論文編號為arXiv:2512.12751v1。

設想這樣一個場景：你正在教一個新手司機開車，但不是在真實道路上冒險，而是在一個無比真實的虛擬世界中。這個虛擬世界不僅看起來像真的一樣，更重要的是，它完全遵循真實世界的物理規律。當你告訴虛擬車輛"向左轉"時，它不會突然消失或做出不合理的動作，而是嚴格按照物理定律完成轉彎動作。這正是GenieDrive技術要實現的核心目標。

傳統的自動駕駛訓練方法面臨一個根本性問題，就像讓一個從未見過廚房的人僅僅通過觀看烹飪視頻就學會做菜一樣困難。現有的AI系統往往只能從大量駕駛視頻中學習表面模式，卻無法真正理解駕駛行為背后的物理原理。比如，當AI看到大部分訓練視頻中的車輛都在直行時，它可能會產生一種偏見，認為汽車應該一直直行，即使接收到轉彎指令也會固執地保持直行狀態。

研究團隊深入分析了這個問題，發現癥結在于現有方法缺乏對物理世界的真正理解。他們提出的解決方案就像為AI配備了一副"物理眼鏡"，讓它能夠看懂和遵循真實世界的物理規律。GenieDrive的核心創新在于引入了一個稱為"4D占用空間"的概念，這聽起來很抽象，但我們可以用一個簡單的比喻來理解它。

如果把駕駛環境比作一個巨大的立體拼圖，那么4D占用空間就是記錄這個拼圖中每個位置在每個時刻被什么物體占用的完整信息。這不僅包括靜態的建筑物和道路，還包括動態的汽車、行人甚至飛鳥。更重要的是，它還記錄了這些物體如何隨時間移動和變化，就像一部超級詳細的四維電影。

這種方法的巧妙之處在于，它將復雜的駕駛場景分解為兩個相對簡單的步驟。首先，AI學會預測未來的4D占用空間，就像一個熟練的象棋大師能夠提前幾步預見棋盤上的變化。然后，AI再將這個抽象的占用空間轉換為我們能看到的真實駕駛視頻，就像將建筑師的藍圖轉化為實際的建筑。

為了讓這個過程更加高效，研究團隊開發了一種名為"三平面變分自編碼器"的技術。這個名字聽起來很復雜，但實際上就像一個超級壓縮算法。想象你要把一本厚厚的百科全書放進一個小小的U盤里，你需要一種特殊的壓縮方法既能大幅減小文件大小，又能保證重要信息不丟失。研究團隊的方法能夠將原本需要大量存儲空間的3D場景信息壓縮到原來的58%，同時還能提高重建質量。

研究團隊還引入了"互相控制注意力機制"，這是一個聽起來很學術但實際上很直觀的概念。就像一個經驗豐富的司機在開車時會同時關注前方道路、后視鏡、速度表和方向盤的反饋一樣，這個機制讓AI能夠同時處理來自環境觀察和駕駛指令的信息，并讓它們相互影響、相互調節。

當涉及到視頻生成時，研究團隊面臨的挑戰就像要讓一個只會畫單個物體的畫家學會繪制復雜的全景畫。傳統的視頻生成模型通常只能處理單一視角的視頻，但真實的駕駛需要同時考慮多個攝像頭的視角。為了解決這個問題，他們開發了"標準化多視角注意力"技術，這就像為畫家提供了一套特殊的工具，讓他能夠同時協調處理來自不同角度的信息，確保生成的多視角視頻保持一致性和連貫性。

在性能測試方面，GenieDrive的表現令人印象深刻。在occupancy預測準確度方面，它比之前最好的方法提高了7.2%，同時運行速度達到了每秒41幀，而且只需要340萬個參數，這個數字比許多競爭方法少了幾十倍甚至上百倍。這就像制造出了一輛既省油又跑得快的超級跑車。

在視頻生成質量方面，GenieDrive同樣表現出色。它能夠生成長達20秒的多視角駕駛視頻，視頻質量評分比之前的方法提高了20.7%。更重要的是，當研究人員給它下達"左轉"或"右轉"的指令時，生成的視頻能夠準確反映這些駕駛動作，而不是像某些傳統方法那樣無視指令繼續直行。

研究團隊在著名的NuScenes數據集上進行了大量實驗。NuScenes是一個包含700個訓練場景和150個驗證場景的大型自動駕駛數據集，就像是自動駕駛研究領域的標準考場。他們使用的預訓練視頻生成模型是Wan2.1-1.3B，整個實驗在配備8塊NVIDIA L40S GPU的服務器上進行。

最有趣的是GenieDrive展現出的"物理意識"能力。當研究團隊用同樣的起始場景但不同的駕駛指令來測試不同的系統時，發現只有GenieDrive能夠為所有三種指令（左轉、直行、右轉）生成合理的駕駛視頻。其他先進的系統，如Vista和Epona，雖然在直行指令上表現良好，但在處理轉彎指令時要么表現出微弱的轉彎傾向，要么完全無視指令，要么生成不一致的場景。

這種差異的根本原因在于GenieDrive使用的4D占用空間作為物理約束。就像建筑師必須遵循物理定律設計建筑一樣，GenieDrive在生成駕駛視頻時必須遵循其預測的4D空間結構，這確保了生成的視頻在物理上是合理的。

在技術實現的細節上，研究團隊采用了一種巧妙的端到端訓練策略。與傳統方法先訓練壓縮模型再訓練預測模型的兩階段方式不同，他們讓這兩個部分同時學習和優化，就像讓舞蹈搭檔在練習中逐漸磨合，最終達到完美配合。這種方法顯著提升了整體性能，但有趣的是，當他們在其他方法上嘗試這種端到端訓練時，效果反而變差了，這說明這種訓練方式需要與特定的模型設計相匹配才能發揮效果。

GenieDrive還展現出了出色的可編輯性。研究人員可以很容易地在預測的4D占用空間中添加或刪除物體，然后生成相應的駕駛視頻。比如，他們可以在道路上"虛擬地"放置一個障礙物，然后觀察AI如何規劃繞行路徑。這種能力對于測試自動駕駛系統在各種罕見場景下的表現非常有價值。

從效率角度來看，GenieDrive在訓練時間、GPU使用量和推理速度方面都有顯著優勢。傳統方法往往需要32到128個GPU訓練192到1080小時，而GenieDrive只需要8個GPU訓練一周時間。在推理時，它的平均生成速度為每幀4.36秒，顯存消耗僅為11.72GB，可以在單個GPU上運行，而某些競爭方法需要39.76GB顯存并且需要8個GPU并行處理。

研究團隊還展示了GenieDrive在模擬到現實轉換方面的能力。他們使用CARLA模擬器生成的虛擬駕駛場景，然后用GenieDrive將這些場景轉換為真實感的駕駛視頻。結果顯示，生成的視頻不僅準確反映了模擬場景中的駕駛行為，還保留了環境細節如植被和車輛。這種能力可以幫助縮小模擬訓練和真實世界應用之間的差距。

在更長時間的occupancy預測測試中，GenieDrive表現出了優異的穩定性。當預測時間延長到4秒、5秒甚至6秒時，其他方法的性能急劇下降，而GenieDrive仍能保持相對穩定的預測準確度。這種長期穩定性對于生成更長的駕駛視頻序列至關重要。

研究團隊深入分析了各個技術組件的貢獻。他們發現，互相控制注意力機制對于準確建模駕駛控制對occupancy演化的影響非常關鍵。沒有這個機制，系統在處理長期預測時性能會顯著下降。同樣，標準化多視角注意力對于穩定的視頻生成微調也必不可少。移除標準化會導致明顯的網格偽影和模糊輸出，而移除多視角注意力則會造成多視角之間的不一致。

值得注意的是，端到端訓練策略的成功與模型的具體設計密切相關。研究團隊發現，連續表示（而非離散表示）是端到端訓練成功的關鍵因素。當他們在模型中添加向量量化時，端到端訓練的效果就會下降，這驗證了他們選擇連續表示的正確性。

在與其他最先進方法的比較中，GenieDrive在多個維度都表現出色。在occupancy預測方面，它不僅準確度最高，參數量也最少，推理速度最快。在視頻生成方面，雖然一些方法可能在特定指標上有所優勢，但GenieDrive是唯一一個能在保持高質量的同時支持真正可控的多視角長視頻生成的系統。

這項研究的意義遠不止于技術層面的突破。它為自動駕駛系統的開發提供了一個全新的范式：通過物理感知的世界模型來理解和預測駕駛環境的變化，而不是簡單地從視頻數據中學習表面模式。這種方法不僅能提高自動駕駛系統的可靠性，還能為安全測試和驗證提供強有力的工具。

說到底，GenieDrive代表了自動駕駛AI從"模仿學習"向"物理理解"的重要轉變。就像人類司機不僅要學會操作車輛，更要理解道路交通的物理規律一樣，GenieDrive讓AI系統具備了真正的物理感知能力。這不僅提高了系統的可靠性和可控性，還為創建更安全、更智能的自動駕駛系統鋪平了道路。

雖然這項技術目前還處在研究階段，但它展示的潛力是巨大的。未來，我們可能會看到基于類似原理的自動駕駛系統能夠在各種復雜場景下做出更加合理和安全的決策。對于普通消費者來說，這意味著未來的自動駕駛汽車可能會更加可靠和安全。

歸根結底，這項研究為我們描繪了一個未來圖景：AI不再是簡單地復制人類的駕駛動作，而是真正理解了駕駛的物理本質。當這樣的技術最終走向實用化時，我們或許能夠真正實現安全、可靠的全自動駕駛，讓每個人都能享受到科技進步帶來的便利。有興趣了解更多技術細節的讀者可以通過論文編號arXiv:2512.12751v1查找完整研究論文。

Q&A

Q1：GenieDrive的4D占用空間是什么？

A：4D占用空間就像一個記錄駕駛環境中每個位置在每個時刻被什么物體占用的完整信息系統。它不僅包括靜態的建筑物和道路，還包括動態的汽車、行人，并且記錄這些物體如何隨時間移動變化，為AI提供物理世界的真實理解基礎。

Q2：GenieDrive與傳統自動駕駛AI有什么區別？

A：傳統AI只能從駕駛視頻中學習表面模式，容易產生偏見，比如大部分視頻是直行就偏向直行。而GenieDrive通過物理感知的世界模型真正理解駕駛的物理規律，能夠準確響應轉彎等各種駕駛指令，就像從"模仿學習"進化到"物理理解"。

Q3：普通人什么時候能用上這種技術？

A：目前GenieDrive還在研究階段，主要用于自動駕駛系統的開發和測試。雖然不能確定具體時間，但這項技術為開發更安全可靠的自動駕駛汽車鋪平了道路，未來可能會讓自動駕駛車輛在各種復雜場景下做出更合理的決策。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.