網易首頁 > 網易號 > 正文申請入駐

DEVI模型如何從自我視角視頻中學會識別物體？

2025-05-17 23:52:08　來源: 清風鑒史

廣東舉報

分享至

你有沒有想過，計算機如何在沒有任何人工標注的幫助下，自動識別出視頻中的物體？在人工智能研究的前沿，一種名為DEVI的創新方法正在挑戰這一難題。它巧妙地利用了我們日常生活中佩戴相機時的自然行為——環顧四周、靠近物體或繞著物體走動——來學習識別周圍的物體。這種方法不需要繁瑣的標注工作，而是通過觀察同一物體在不同角度、不同光照條件下的樣子，逐漸＂理解＂什么是物體。這一突破性研究如何將人類的自然行為轉化為機器的學習能力？它又如何改變我們對計算機視覺未來的想象？

自我視角的獨特性

當我們戴上一臺相機，記錄自己眼睛所見的一切，這種視頻就叫做自我視角視頻。這類視頻與我們在電影、電視或網絡上看到的普通視頻有很大不同。普通視頻通常是精心設計的，攝影師會選擇最佳角度，調整光線，確保畫面中的主體清晰可見。而自我視角視頻則完全不同，它記錄的是真實生活中的原始場景，沒有經過任何剪輯或美化。

自我視角視頻的一個顯著特點是其復雜性。想象一下，當你走進一個廚房，你的視野中可能同時出現鍋碗瓢盆、食材、電器等多種物體，它們大小不一，形狀各異，有些甚至部分重疊。這種場景的復雜程度遠超傳統視頻數據集中的簡單場景。在Ego4D數據集中，這類復雜場景隨處可見，它包含了約3，600小時的日常生活視頻，記錄了人們做飯、打掃、修理物品等各種活動。

這些視頻是＂非劇本化＂的，意味著視頻中的行為是自然發生的，沒有預先設計或指導。這與傳統的＂互聯網圖像＂有很大區別。傳統圖像數據集如COCO或ImageNet中的圖片往往是經過精心選擇的，物體通常位于畫面中央，背景簡單，光線充足。而自我視角視頻中的物體可能出現在畫面的任何位置，大小不一，甚至被部分遮擋。

視頻流的不規則性也是自我視角視頻的一大特點。當我們移動頭部或行走時，相機的視角會不斷變化，導致視頻中的物體看起來不斷變化形狀、大小和亮度。這種不規則的視頻流對計算機視覺算法提出了巨大挑戰。

但這些挑戰同時也帶來了機遇。當人們在環境中活動時，他們經常會從不同角度觀察同一物體，或者接近某個物體以查看細節。這種自然行為提供了同一物體在不同視角和光照條件下的多樣樣本。DEVI模型正是利用了這一特性。

傳統視頻與自我視角視頻有著根本性的差異。傳統視頻數據集如DAVIS或YT-8K通常使用固定或穩定的相機，跟蹤特定物體，視頻中的運動主要來自物體本身的移動或動作。而在自我視角視頻中，相機隨著人的頭部移動，物體通常是靜止的，視角變化主要來自于佩戴者的頭部移動或行走。這種差異使得自我視角視頻特別適合應用類似于雙向反射分布函數（BRDF）的計算外觀方法。

自我視角視頻中鏡頭運動的特殊價值不容忽視。當人們環顧四周或接近物體時，他們無意中提供了同一物體在不同視角和距離下的多個樣本。這種自然采樣過程是DEVI模型設計的核心靈感來源，它使模型能夠學習物體在不同視角和光照條件下的一致表示。

DEVI模型原理

DEVI模型的設計靈感來源于計算外觀方法，特別是雙向反射分布函數（BRDF）和雙向紋理函數（BTF）。這些方法在計算機圖形學中廣泛應用，用于描述物體表面在不同視角和光照條件下的反射特性。簡單來說，BRDF描述了當光線從一個方向照射到物體表面時，有多少光線會從另一個方向反射出去。這個函數對于理解物體在不同條件下的外觀至關重要。

DEVI模型借鑒了這一思想，利用自我視角視頻中人們自然移動產生的視角變化，來采樣同一物體在不同視角和光照條件下的外觀。當人們環顧四周或繞著物體走動時，自我視角視頻記錄了同一物體從不同角度和距離的多個視圖。DEVI模型利用這些自然采樣的多視圖數據，學習物體的一致表示。

這種學習方式是完全自監督的，不需要任何人工標注。傳統的物體檢測模型通常需要大量帶有邊界框標注的訓練數據，這類標注需要專業人員手動繪制，費時費力且難以擴展到大型或復雜數據集。自監督學習則不同，它從原始數據中自動學習有用的特征表示，無需外部監督信號。

DEVI模型采用了兩個創新的損失函數來實現這種自監督學習：多視角損失和尺度回歸損失。多視角損失利用人們在環視或繞物體行走時產生的不同視角，最大化對應于同一物體的不同視角補丁之間的特征相似性。也就是說，即使物體在不同角度下看起來有很大差異，模型也能學會將它們識別為同一物體。

尺度回歸損失則處理人們接近或遠離物體時產生的尺度變化，最大化同一物體在不同尺度下的特征相似性。當我們接近一個物體時，它在視野中變大；當我們遠離時，它變小。尺度回歸損失確保模型能夠在這些尺度變化中保持一致的物體表示。

DEVI模型的另一個關鍵組件是物體殘差模塊，它有助于處理復雜場景和模糊補丁。在復雜場景中，一個圖像塊可能包含多個物體或物體的一部分，這使得類別分配變得模糊。物體殘差模塊通過學習補丁與多個類別中心的相似性，實現了對模糊補丁的有效表示。這種軟分配方式允許模型同時考慮多個可能的類別，從而更好地處理復雜場景。

具體來說，當面對一個包含多個物體的大尺度補丁（如一個既有碗又有水果盒的廚房場景）時，傳統方法可能會強制將整個補丁分配給單一類別。而物體殘差模塊則允許補丁同時與多個類別相關聯，按照相似程度不同分配不同的權重。這種靈活的表示方式使模型能夠更好地理解復雜場景中的物體組成。

與現有方法相比，DEVI模型在復雜場景理解方面有顯著優勢。傳統的自監督物體檢測方法往往依賴于全局圖像特征，這些特征缺乏細粒度細節，導致物體定位和注意力覆蓋較差。DEVI通過學習局部、細粒度的補丁特征，克服了這一限制。

更重要的是，DEVI模型是端到端訓練的，不需要預訓練權重或中間任務。許多現有方法依賴復雜的多階段訓練過程：先進行自監督預訓練，然后生成物體發現預測，接著聚類發現的物體特征，最后訓練一個檢測器。這種流水線中的任何一個環節失敗都可能影響整個系統的性能。相比之下，DEVI的端到端訓練方式更加簡潔高效，且在性能上超過了這些復雜的多階段方法。

性能顯著領先

DEVI模型在實際應用中表現出色，特別是在自我視角視頻數據集上的測試結果令人矚目。研究團隊在兩個主要的自我視角數據集上進行了全面測試：Ego4D和EgoObjects。Ego4D是一個超大規模的數據集，包含約3，600小時的自我視角視頻，記錄了人們在現實世界中的各種活動。這些視頻場景極為復雜，充滿了各種大小、形狀不一的物體，為測試模型在復雜環境中的表現提供了理想條件。EgoObjects則相對簡單些，包含約110小時的視頻，主要聚焦于物體中心的場景。

測試結果顯示，在Ego4D這個高復雜度的數據集上，DEVI模型在多項指標上都超過了現有的自監督方法。具體來說，DEVI在AP50（交并比為0.5的平均精度）上達到了6.51%，比基準方法高出了4.11個百分點。在平均召回率上，DEVI同樣表現出色，在AR1、AR10和AR100（每張圖像分別返回1個、10個和100個邊界框時的平均召回率）上分別達到了2.91%、14.12%和22.03%，超過基準方法0.11%、1.32%和5.03%。

在EgoObjects數據集上，DEVI的表現更加突出。AP50達到14.96%，AR100高達39.43%。這些數據充分證明了DEVI在物體檢測任務上的卓越性能。

更讓人驚訝的是，DEVI實現這些優異成績的同時，還大大簡化了模型復雜度。與需要多階段訓練過程的現有方法相比，DEVI采用端到端的訓練方式，無需預訓練或中間任務，顯著減少了訓練時間和計算資源消耗。

為了進一步驗證模型的有效性，研究團隊將DEVI與多個最先進的自監督檢測方法進行了比較，包括LOST和FreeSOLO。這些方法都采用了復雜的多階段流水線：先進行自監督預訓練，然后生成物體發現預測，接著聚類發現的物體特征，最后訓練檢測器。

以FreeSOLO為例，它需要三個獨立的訓練階段：自監督預訓練以生成物體發現掩碼，在生成的掩碼上訓練以生成偽標簽，然后在生成的偽標簽上訓練以獲得最終預測。這一冗長的訓練過程需要大約72小時，還需要大量計算資源（實驗中使用了8個Tesla V100-32GB GPU），且不包括任何中間推理或評估步驟。相比之下，DEVI使用相同的計算資源只需約36小時就能完成端到端訓練，無需任何預訓練或多訓練階段，且達到了最先進的性能。

DEVI的一個顯著優勢是其對非自我視角數據集的泛化能力。為了測試這一點，研究團隊在Ego4D數據集上訓練DEVI，然后在COCO驗證集上進行評估。COCO是一個廣泛使用的圖像數據集，包含日常場景中的各種物體。值得注意的是，DEVI在訓練過程中完全沒有接觸過任何COCO數據。

測試結果令人印象深刻：盡管存在域不匹配問題，DEVI仍能在COCO數據集上取得有競爭力的表現。在AP50上達到8.03%，在AR1、AR10和AR100上分別達到3.31%、15.64%和25.93%。這些數字超過了在COCO上訓練的LOST方法，分別高出3.30%、1.32%、11.77%和17.70%。DEVI甚至與在COCO上訓練的FreeSOLO方法相比也表現得十分接近。

DEVI對視角變化和光照條件的穩健性是其另一個突出特點。研究團隊通過可視化連續幀及其對應的聚類掩碼來驗證這一點。結果表明，即使物體的視角和光照條件發生變化，DEVI仍能保持一致的聚類分配，這表明模型學習到了對視角和光照變化不敏感的特征表示。

這一特性在實際應用中極為重要。想象一下，當一個人在廚房中移動，從不同角度觀察冰箱、爐灶或餐具時，理想的物體檢測系統應該能夠在任何視角下一致地識別這些物體。DEVI正是朝著這個方向邁出了重要一步。

未來發展方向

盡管DEVI在自監督物體檢測領域取得了顯著進展，但它仍存在一些局限性。一個主要挑戰是如何處理高度動態的場景，即場景中的物體也在移動的情況。當前的DEVI模型主要利用自我視角視頻中佩戴者的移動來采樣物體的多視圖，而假設物體本身相對靜止。這在許多日常場景中是合理的，但在更加動態的環境中可能會失效，比如追蹤移動的車輛或人物。

未來的研究可以探索將物體運動建模納入框架，使模型能夠區分因佩戴者移動和物體自身移動導致的視角變化。這可能需要結合光流估計或運動分割等技術，以便更準確地跟蹤和匹配時間上的補丁。

另一個潛在的改進方向是增強模型對極端視角變化的魯棒性。當前的DEVI模型在中等視角變化下表現良好，但在極端視角變化（如物體從正面直接變為背面）時可能會遇到困難。通過整合更長時間序列的信息或結合3D幾何約束，可能有助于解決這一問題。

DEVI的物體殘差模塊也有改進空間。目前的設計允許模型學習類別特定的特征，但預定義的聚類數量可能限制了模型的表達能力。一個更靈活的方法是允許模型自適應地確定最適合數據的聚類數量，可能通過非參數貝葉斯方法或其他自適應聚類技術。

自監督學習在復雜視覺任務中的應用前景廣闊。DEVI展示了自監督方法在物體檢測這一傳統上依賴大量標注數據的任務上的潛力。這種方法可以擴展到其他視覺任務，如實例分割、物體跟蹤或甚至3D場景理解。

特別值得關注的是自監督學習在資源受限環境中的應用。在許多實際應用場景中，收集大規模標注數據可能不現實或成本過高。例如，在醫療影像分析、工業檢測或特定領域機器人視覺等領域，專業標注數據極為稀缺且昂貴。自監督方法可以充分利用未標注數據，大大減少對人工標注的依賴。

減少標注依賴的技術發展方向是自監督學習研究的核心目標之一。DEVI通過利用自我視角視頻的特性實現了完全無標注的物體檢測，這為未來的研究提供了寶貴思路。未來的研究可能會探索如何將這種方法擴展到更多領域和任務，或者如何結合少量標注數據（弱監督或半監督學習）以進一步提高性能。

另一個有前途的方向是多模態自監督學習。例如，結合視覺和語言信息可能有助于學習更豐富的物體表示。在自我視角數據收集過程中，用戶可能會自然地描述他們正在觀察或使用的物體，這些語音數據可以作為額外的監督信號，無需明確的標注過程。

DEVI模型開創了一種新的物體檢測范式，它展示了如何通過利用數據的內在結構和特性，實現高效的自監督學習。隨著自我視角設備（如智能眼鏡和頭戴式顯示器）的普及，這類方法將變得越來越重要。它們不僅可以減少對昂貴標注數據的依賴，還能適應個性化和動態變化的視覺環境，為增強現實、虛擬現實和智能助手等應用提供更自然、更適應性強的視覺理解能力。

參考資料

Akiva， P.， Huang， J.， Liang， K. J.， Kovvuri， R.， Chen， X.， Feiszli， M.， Dana， K.， &； Hassner， T. （2023）. Self-Supervised Object Detection from Egocentric Videos. ICCV 2023.
Ego4D Dataset: Large-scale egocentric video dataset containing approximately 3，600 hours of daily-life activity videos.
EgoObjects Dataset: Egocentric video dataset with approximately 110 hours of recordings， focusing on object-centric scenes.

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.