馬路如虎口,路口更是危險地帶。當車輛、行人、自行車在十字路口交織穿行,這復雜場景背后隱藏著無數精細的互動行為模式。傳統表達方式要么過于冗長,要么缺乏關鍵信息,難以精準捕捉這些行為的本質。現在,一種名為"有序原子活動"的新表示法橫空出世,它能將混亂的交通場景分解為一系列有序的原子活動,每個活動都包含行動者與其行為,并標記它們之間的時序關系。這一創新不僅為自動駕駛系統提供了前所未有的理解能力,更為交通場景檢索、分析與評估開辟了全新途徑。在數字化駕駛世界的迷宮中,它會是我們找到出路的關鍵鑰匙嗎?
![]()
路口危機
在交通事故統計中,十字路口一直是事故高發區。根據研究數據,大約40%的交通事故發生在十字路口。這并不奇怪,因為路口是各種交通參與者——汽車、行人、自行車——相遇的地方,形成了復雜的交互網絡。想象一下,當你駕車準備在十字路口左轉,同時有行人正在過馬路,對向車道有車輛直行,還有自行車從你右側穿過。在短短幾秒內,你需要處理多個移動目標的信息,并做出安全決策。
對于人類駕駛員來說,這種復雜場景的處理往往依靠經驗和直覺。但對于智能交通系統或自動駕駛汽車而言,準確理解和預測這種交互場景成為一項極具挑戰性的任務。問題的核心在于:如何有效地表示和理解這些復雜的交通場景?
傳統的表示方法各有局限。自然語言描述雖然直觀易懂,但往往過于冗長和主觀。例如,描述"一輛汽車在路口右轉,同時有一群行人在前方穿過馬路,另一輛車從左側穿過,還有一輛車在前方沿相反方向穿過",這樣的描述不僅冗長,而且缺乏對交通參與者運動方向和目標的明確信息,難以用于高效的場景檢索和分析。
道路場景圖是另一種流行的表示方法,它將每個道路使用者表示為具有位置、速度和方向等低層次狀態的節點,而邊則捕捉道路使用者之間的配對關系,如"跟隨"。但這種方法未能表示行為者動作與底層道路拓撲之間的高層次語義關聯,這對場景評估至關重要。
基于屬性的表示方法雖有前景,但現有研究尚未探索行為與道路場景結構之間的鴻溝。此外,道路場景圖和基于屬性的方法都未能處理場景的時間發展,也缺乏活動順序信息。
在十字路口,時序信息尤為重要。例如,當一輛車讓行于行人或另一輛車時,理解這種讓行關系對預測未來行為至關重要。沒有時序信息,智能系統可能無法區分誰在讓行給誰,從而導致危險的決策失誤。
交通場景理解面臨著從感知到行為分析的一系列挑戰。現有的表示方法要么太簡單,無法捕捉復雜的互動;要么太復雜,難以高效處理;要么缺乏時序信息,無法理解動態變化的場景。在這種背景下,需要一種新的表示方法,既能捕捉交通參與者的行為,又能與道路拓撲結構相關聯,同時還能表示時序發展。
拆解復雜
![]()
針對上述挑戰,有序原子活動表示法應運而生。這種表示法的核心思想是將每個互動場景分解為一組有序的原子活動,每個活動由一個動作和相應的參與者組成,而順序則表示場景的時間發展。
什么是原子活動?簡單來說,它是交通場景中最基本的行為單元,包含兩個核心元素:行動和行動者。行動是一種高層次的語義運動模式,它與周圍的道路拓撲結構緊密相連。行動者則是執行該行動的交通參與者,如汽車、行人或自行車。
為了將行動與道路拓撲關聯起來,有序原子活動表示法巧妙地將道路場景分解為區域和角落,每個區域和角落都有獨特的ID標識。以一個四向十字路口為例,它被分解為四個區域(Z1、Z2、Z3、Z4)和四個角落(C1、C2、C3、C4),按照逆時針方向排列,相對于自車位置進行標記。
這種表示方法讓我們能夠精確地描述交通參與者的行動。例如,一次右轉動作可以表示為Z1→Z2,表示從初始位置到目的地的運動模式。更復雜的情況,如"一群行人在前方穿過馬路",可以表示為C1→C4:P+,其中C1和C4是兩個角落,→表示運動方向,P+表示執行該動作的一群行人。
有序原子活動表示法的另一個重要特點是能夠表示活動的時序關系。通過標記活動發生的順序,這種表示法能夠捕捉場景的時間發展。這對識別重要的互動關系,如讓行,尤為重要。例如,在上面提到的場景中,行人群體、同向穿過車輛和自車活動的順序可以表示讓行關系。
行動者分為七類:汽車(C)、自行車騎行者(K)、行人(P)、自車(E)、汽車群體(C+)、自行車騎行者群體(K+)和行人群體(P+)。這種分類方式既簡潔又全面,能夠覆蓋道路上常見的所有交通參與者類型。
活動順序的標記基于活動開始的時間,即當代理開始穿越時。但對于讓行動作,讓行的代理會被標記為后發生,無論動作何時開始或結束。例如,當一輛車在十字路口讓行于行人時,盡管車輛可能最終在行人之前穿過區域,但行人應該被標記為先發生。這種標記策略無法通過時間戳自動生成,需要人工觀察來正確標注活動順序。
有序原子活動的設計不僅簡化了交通場景的表示,還能夠捕捉復雜的互動關系。例如,自車右轉并讓行前方穿過的一群行人和左側穿過的車輛,同時另一輛車從前方沿相反方向穿過。這種復雜的場景可以使用有序原子活動簡潔而準確地表示。
此外,有序原子活動是在視頻級別設計的,使其具有高度可擴展性,并減輕了標注負擔。相比于逐幀標注每個交通參與者的行為,視頻級別的標注更加高效,同時也能捕捉場景的整體動態。
通過將復雜的交通場景分解為一系列有序的原子活動,這種表示方法為交通場景理解提供了一種新的范式。它不僅能夠準確描述交通參與者的行為,還能與道路拓撲結構相關聯,同時捕捉場景的時間發展,為智能交通系統和自動駕駛汽車提供了更深入理解交通場景的能力。
數據扎根
![]()
OATS數據集的誕生為交通場景理解提供了堅實的基礎。這個數據集包含1026個視頻片段,每個片段約20秒長,全部來自美國舊金山灣區的真實行車記錄。每個視頻片段都被標注了有序原子活動,共涉及59個活動類別,總計6512個標注活動實例。這些數據不僅數量龐大,更覆蓋了各種復雜的交通互動場景。
數據采集平臺使用了裝備精良的車輛,配備3個Point Grey Grasshopper攝像機,分辨率為19201200像素,一個Velodyne HDL-64E S2激光雷達傳感器和高精度GPS。所有傳感器數據都通過ROS和定制硬件軟件進行同步和時間戳標記。這些設備確保了采集數據的高質量和精確性。
數據標注過程同樣嚴謹。考慮到駕駛員和交通代理行為的復雜性涉及不同層次的認知過程,尤其在復雜的互動場景中,數據選擇和標注協議必須精心設計。從數小時的錄制中手動選擇包含適當場景的短片段是第一步。這些片段涵蓋了車輛進入和離開十字路口的完整過程。
為確保標注一致性,研究團隊采用了嚴格的質量控制策略。每個視頻先由兩名獨立的人類標注者進行標注,這些標注者都是居住在美國的有經驗的駕駛員,以確保他們熟悉道路規則、標志等。最后,由內部專家標注者審核并獲得最終版本。標注的一致性和有效性通過計算組內相關系數(ICC)來證明,OATS數據集的ICC值達到0.91,按照標準這表示"極好"的一致性。
OATS數據集不僅規模龐大,標注也極為精細。圖2展示了數據集中各原子活動類別的分布情況,按降序排列。從圖中可以看出,標簽分布并不均勻,這反映了真實世界數據的特點。例如,包含一組演員的活動(如Z3-Z1:K+)非常罕見,而更常見的活動如Z3→Z1:C或C2→C3:P則更為頻繁。
基于這一豐富的數據集,研究團隊提出了三個核心任務:多標簽原子活動識別、活動順序預測和互動場景檢索。多標簽原子活動識別旨在從視頻中識別出所有發生的原子活動;活動順序預測則試圖預測這些活動發生的順序;互動場景檢索則是根據查詢條件從數據庫中找出相似的交通場景。
為解決這些任務,研究團隊提出了一個基于圖卷積網絡的框架。這個框架如圖3所示,能夠同時建模交通參與者的外觀和運動特征。給定一個視頻序列,系統首先使用預訓練的Mask R-CNN和Deep SORT提取場景中演員的軌跡。然后從視頻中選擇Z個幀,使用Inception-v3骨干網絡和RoIAlign提取N個交通代理的外觀特征。同時,從軌跡使用代理的邊界框提取運動特征。
![]()
完成特征提取過程后,系統將運動和外觀特征分別通過單獨的圖卷積網絡,每個節點代表一個演員。最后,融合兩個圖中學習到的特征,用于多標簽原子活動識別。
與先前的基于圖的算法不同,該系統通過使用跟蹤來構建圖形。給定交通場景中具有相應軌跡的N個代理集合,系統構建了一個時空圖Gat,其中Vat是圖Gat的頂點集,At是鄰接矩陣。在圖中,aijt模擬t時間兩個代理之間的外觀關系。
這種基于圖卷積網絡的方法有效地捕捉了交通參與者之間的復雜互動。通過同時建模外觀和運動特征,系統能夠準確識別原子活動,預測活動順序,并進行場景檢索。
研究團隊對OATS數據集進行了廣泛的實驗,與多種最先進的視頻理解算法進行了比較。表2顯示了多標簽原子活動識別任務中不同算法的性能比較。結果表明,給定我們的場景涉及場景中的多個代理,跨越約20秒的視頻,僅通過視頻級特征隱式關注代理無法成功識別活動。對于顯式建模視頻中對象的算法,結果有所改善。雖然這些面向對象的模型比純視頻建模表現更好,但它們專注于代理的外觀建模,而不是運動建模。由于原子活動包含動作和演員,外觀和運動都應該被明確建模。
圖4和表6分別展示了活動順序預測和場景檢索任務的結果。雖然提出的方法在這些任務上表現優于現有方法,但絕對數字仍然很低,表明任務具有挑戰性,鼓勵未來的研究。
未踏之路
盡管有序原子活動表示法及相關技術已取得初步成果,但道路仍很漫長,挑戰依然存在。從實驗結果來看,即使是最先進的方法在三個提出的任務上也未能達到令人滿意的性能。具體而言,在多標簽活動識別、活動順序預測和互動場景檢索方面,表現最好的算法分別只達到26.7%的mAP、16.1%的匹配分數和16.6%的Recall@top50。
這些結果清晰地表明,要成功識別場景中的多個原子活動,模型需要檢測和跟蹤移動的道路使用者,將其時空動作與底層道路拓撲相關聯,并捕捉群體的概念。這些需求超出了當前技術的能力范圍,為未來研究指明了方向。
多標簽原子活動識別面臨的挑戰尤為明顯。表2顯示,即使是表現最好的方法也只達到26.7%的mAP,遠低于其他視頻理解任務的性能。這一結果表明,交通場景中的活動識別比一般的活動識別更加復雜。原因在于交通場景中有多個移動的代理,每個代理都有自己的軌跡和行為,而這些行為又與道路拓撲緊密相關。
活動順序預測任務更加具有挑戰性。表5顯示,即使是專門設計的方法也只能達到16.08%的匹配分數(不含開始和結束標記)。這表明預測多個活動的正確順序是極其困難的。在交通場景中,個體活動在不同時間開始,它們的進展同時發生,這使得識別多個活動及其相應順序變得極具挑戰性。
![]()
場景檢索任務同樣面臨巨大挑戰。表6顯示,即使使用更簡單的設置(只有13個活動的子集),最佳方法的Recall@top50也只有16.56%。這反映了基于多標簽分類的檢索系統的局限性,也表明需要更復雜的表示方法來捕捉交通場景的豐富語義。
群體行為建模是另一個急需解決的問題。當前模型未能明確區分個體和群體行動,如P+、C+和K+。區分個體和群體行動可以在下游應用中發揮重要作用。例如,一群行人和單個行人的行為模式可能完全不同,影響自動駕駛系統的決策。
此外,當前的活動順序預測主要依賴于現有方法,而表5的結果表明,需要更復雜的方法來解決這一具有挑戰性的任務。未來的研究可以探索更適合交通場景時序建模的方法,或許可以借鑒自然語言處理領域的序列建模技術。
值得注意的是,盡管實時推理不是本文的重點,但提出的模型速度相當快。場景檢索雖然是離線用例,但模型在多標簽分類上大約需要40毫秒,在活動順序預測上需要約70毫秒,使用單個Nvidia Quadro RTX 6000 GPU,從應用角度來看是可行的。
![]()
更精細的場景理解對自動駕駛系統具有重要價值。通過準確理解交通參與者的行為和互動,自動駕駛系統可以做出更安全、更有效的決策。例如,識別出一個行人正準備穿過馬路,系統可以提前減速;了解其他車輛的讓行意圖,可以避免不必要的停車或危險的沖突。
有序原子活動表示法及OATS數據集為交通場景理解領域帶來了新的挑戰和機遇。通過將交通場景分解為有序的原子活動,這種方法提供了一種新的視角來理解復雜的交通互動。雖然現有技術在解決相關任務上仍面臨挑戰,但這正是未來研究的方向和機會。
參考資料
Agarwal, N., &; Chen, Y.-T. (2023). Ordered Atomic Activity for Fine-grained Interactive Traffic Scenario Understanding. ICCV 2023.
Wang, J., &; Cheng, J. (2019). Group Activity Recognition with Actor-Relation Graphs. IEEE.
Yang, T., Yan, X., &; Gao, Y. (2020). Action-Guided Attention Mining and Relation Reasoning Network for Human-Object Interaction Detection. IJCAI.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.