![]()
這項由香港浸會大學周凱陽教授領導、聯合騰訊優圖實驗室共同開展的突破性研究,發表于2024年12月的計算機視覺頂級會議論文集,研究編號為arXiv:2512.21334。有興趣深入了解的讀者可以通過該編號查詢完整論文內容。
當你在觀看直播時,主播可能會問"現在屏幕上有幾個人?"或"剛才那個動作叫什么?"傳統的AI就像一個總是遲到的學生,必須等你把整個視頻看完才能回答問題。而這項研究開發的Streamo系統,就像一個機敏的助理,能夠一邊看直播一邊實時回答各種問題,甚至預測接下來會發生什么。
傳統視頻AI的工作方式就像看錄像回放——必須拿到完整視頻才能分析內容。這種"馬后炮"式的工作方式在直播、監控、實時互動等場景中完全派不上用場。研究團隊意識到,真正有用的視頻AI應該像人類一樣,能夠一邊看一邊理解,一邊分析一邊響應。
為了解決這個問題,研究團隊創建了一個名為Streamo的系統,這個系統的核心創新在于給AI裝上了"三種工作狀態的開關"。就像一個經驗豐富的客服代表,Streamo會根據當前看到的內容選擇"保持沉默"、"準備回答"或"立即響應"。當直播中出現無關內容時,它選擇靜靜觀看;當相關事件正在發生但尚未完結時,它進入待機狀態;只有當獲得足夠信息能夠給出完整回答時,它才會開口說話。
更令人印象深刻的是,研究團隊還構建了一個包含46.5萬個樣本的大規模訓練數據集Streamo-Instruct-465K。這個數據集就像一本超級詳細的"實時互動教科書",包含了五種不同類型的任務訓練:實時解說(像體育解說員一樣描述正在發生的事情)、事件描述(總結發生了什么重要事件)、動作識別(識別具體的行為步驟)、時間定位(準確找到某個事件發生的時間段)、以及時間敏感問答(回答那些答案會隨時間變化的問題)。
Streamo的工作原理可以用"智能交通指揮員"來比喻。傳統AI就像只能在路口安裝固定紅綠燈的舊系統,而Streamo像是一個能夠實時觀察路況、靈活調整信號的智能指揮員。它會持續觀察視頻流,當發現有人問"現在路上有幾輛車?"時,它不會等到所有車都通過路口才回答,而是實時觀察并在合適的時機給出準確答案。
在數據處理方面,研究團隊采用了一種巧妙的"多輪對話"訓練方式。他們將長視頻切分成一秒一秒的片段,每個片段都標記了明確的時間邊界,就像給視頻制作了詳細的時間碼表。在訓練過程中,AI學會了在每個時間點判斷應該采取什么行動:是繼續觀察、準備回應,還是立即給出答案。
為了解決訓練中的"沉默時間過多"問題,研究團隊設計了一個智能的權重調整機制。就像調教一個過于害羞的學生,他們使用特殊的"焦點損失"技術,讓AI更容易學會何時應該開口說話,而不是總是選擇保持沉默。這種技術會根據每個回答的難度和出現頻率自動調整學習重點,確保AI既不會話癆般無休止地說話,也不會過于沉默錯過重要的回應時機。
研究團隊還開發了一個專門的測試基準Streamo-Bench,用來評估AI在復雜多任務場景中的表現。這個測試就像是給AI安排的"綜合能力考試",包含300個視頻和3000個不同類型的任務。測試內容涵蓋了前向時間定位(根據之前的內容預測未來事件的時間)、后向時間定位(根據后續內容回溯之前事件的時間)、實時解說、密集描述以及時間敏感問答等多個方面。
在性能表現上,Streamo在各種測試中都表現出色。在OVO-Bench這個權威測試中,Streamo-7B模型的綜合得分達到55.61分,比之前最好的在線視頻模型高出13.83分。更有趣的是,即使用1fps訓練的模型在2fps測試中也能工作得很好,表明這種方法具有很強的適應性。
在離線視頻理解能力方面,Streamo不僅保持了原有的分析能力,還有所提升。在MVBench、TempCompass、VideoMME等標準測試中,Streamo都取得了比基礎模型更好的成績。這就像是一個學會了即興表演的演員,不僅沒有丟失原有的劇本表演能力,反而因為實時反應能力的增強而變得更加全面。
在技術實現細節上,研究團隊采用了端到端的訓練方式,避免了傳統方法中需要單獨訓練決策模塊的復雜性。他們使用Qwen2.5-VL作為基礎模型,凍結視覺編碼器,只更新連接器和語言模型部分。訓練過程使用單個epoch、512的批次大小和1e-5的學習率,每個視頻被分割成一秒鐘的片段,以1fps采樣幀率進行處理。
研究團隊進行了詳細的消融實驗,證明了焦點損失機制的重要性。在沒有狀態感知重新加權的情況下,模型性能會嚴重下降,因為類別不平衡問題會導致模型過度傾向于預測沉默狀態。通過引入自適應的焦點權重和基于頻率的alpha權重,模型能夠更好地學習何時進行響應。
Streamo系統的應用前景廣闊。在直播領域,它可以為主播提供實時的內容分析和觀眾問題回答;在監控系統中,它能夠實時識別和報告異常事件;在教育場景中,它可以為在線課程提供實時的內容解釋和問題解答;在娛樂領域,它能夠為游戲直播或體育賽事提供智能解說。
與現有的在線視頻模型相比,Streamo的優勢在于其統一的端到端設計。以往的方法通常需要一個單獨的決策模塊來判斷何時調用離線模型,這種設計不僅增加了計算開銷,還限制了系統的響應靈活性。Streamo將決策制定和內容生成融合在一個統一的框架中,實現了更高效和準確的實時處理。
研究團隊也誠實地指出了當前系統的局限性。主要挑戰在于處理超長序列時的內存和延遲成本。隨著視頻流長度的增加,系統需要維護的上下文信息會急劇增長,這對硬件資源提出了更高要求。未來的改進方向包括集成KV緩存管理、視覺標記剪枝、滑動窗口注意力機制以及自適應幀壓縮等技術,以提高訓練和推理效率,擴展有效上下文長度。
這項研究的意義不僅在于技術層面的突破,更在于它為人工智能與實時視頻內容的交互開辟了新的可能性。它展示了如何讓AI系統真正理解動態變化的視覺世界,并能夠像人類一樣進行實時的理解和響應。隨著直播、短視頻、實時監控等應用場景的快速發展,這種能夠進行實時視頻理解的AI技術將變得越來越重要。
說到底,Streamo代表了視頻AI從"被動分析"向"主動理解"的重要轉變。它不再是那個只能在電影結束后才能告訴你劇情的AI,而是能夠陪你一起看電影、實時回答你疑問的智能伙伴。這種技術進步不僅提升了AI的實用性,也為未來更加智能和互動的數字體驗奠定了基礎。對于普通用戶來說,這意味著我們很快就能享受到更加智能、響應更及時的視頻相關服務,無論是觀看直播、學習在線課程還是使用監控系統,都會有一個真正理解我們需求的AI助手陪伴左右。
Q&A
Q1:Streamo和傳統視頻AI有什么區別?
A:傳統視頻AI就像看錄像回放,必須等整個視頻播完才能分析內容,而Streamo能夠一邊看直播一邊實時理解和回答問題。它有三種工作狀態:保持沉默、準備回答和立即響應,能夠根據視頻內容的變化靈活調整自己的行為,就像一個機敏的助理。
Q2:Streamo-Instruct-465K數據集包含哪些內容?
A:這是一個包含46.5萬個樣本的大規模訓練數據集,就像一本超級詳細的實時互動教科書。它包含五種任務類型:實時解說(像體育解說員描述正在發生的事)、事件描述(總結重要事件)、動作識別(識別具體行為)、時間定位(找到事件發生時間)以及時間敏感問答(回答隨時間變化的問題)。
Q3:Streamo的實際應用場景有哪些?
A:Streamo的應用前景非常廣泛,包括為直播主播提供實時內容分析,為監控系統提供異常事件實時識別,為在線教育提供實時內容解釋,為游戲直播和體育賽事提供智能解說等。它能讓AI真正參與到需要實時理解和響應的各種視頻場景中。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.