網易首頁 > 網易號 > 正文申請入駐

香港浸會大學團隊讓AI實時看懂直播視頻

2025-12-26 17:27:05　來源: 科技行者

北京舉報

分享至

這項由香港浸會大學周凱陽教授領導、聯合騰訊優圖實驗室共同開展的突破性研究，發表于2024年12月的計算機視覺頂級會議論文集，研究編號為arXiv:2512.21334。有興趣深入了解的讀者可以通過該編號查詢完整論文內容。

當你在觀看直播時，主播可能會問"現在屏幕上有幾個人？"或"剛才那個動作叫什么？"傳統的AI就像一個總是遲到的學生，必須等你把整個視頻看完才能回答問題。而這項研究開發的Streamo系統，就像一個機敏的助理，能夠一邊看直播一邊實時回答各種問題，甚至預測接下來會發生什么。

傳統視頻AI的工作方式就像看錄像回放——必須拿到完整視頻才能分析內容。這種"馬后炮"式的工作方式在直播、監控、實時互動等場景中完全派不上用場。研究團隊意識到，真正有用的視頻AI應該像人類一樣，能夠一邊看一邊理解，一邊分析一邊響應。

為了解決這個問題，研究團隊創建了一個名為Streamo的系統，這個系統的核心創新在于給AI裝上了"三種工作狀態的開關"。就像一個經驗豐富的客服代表，Streamo會根據當前看到的內容選擇"保持沉默"、"準備回答"或"立即響應"。當直播中出現無關內容時，它選擇靜靜觀看；當相關事件正在發生但尚未完結時，它進入待機狀態；只有當獲得足夠信息能夠給出完整回答時，它才會開口說話。

更令人印象深刻的是，研究團隊還構建了一個包含46.5萬個樣本的大規模訓練數據集Streamo-Instruct-465K。這個數據集就像一本超級詳細的"實時互動教科書"，包含了五種不同類型的任務訓練：實時解說（像體育解說員一樣描述正在發生的事情）、事件描述（總結發生了什么重要事件）、動作識別（識別具體的行為步驟）、時間定位（準確找到某個事件發生的時間段）、以及時間敏感問答（回答那些答案會隨時間變化的問題）。

Streamo的工作原理可以用"智能交通指揮員"來比喻。傳統AI就像只能在路口安裝固定紅綠燈的舊系統，而Streamo像是一個能夠實時觀察路況、靈活調整信號的智能指揮員。它會持續觀察視頻流，當發現有人問"現在路上有幾輛車？"時，它不會等到所有車都通過路口才回答，而是實時觀察并在合適的時機給出準確答案。

在數據處理方面，研究團隊采用了一種巧妙的"多輪對話"訓練方式。他們將長視頻切分成一秒一秒的片段，每個片段都標記了明確的時間邊界，就像給視頻制作了詳細的時間碼表。在訓練過程中，AI學會了在每個時間點判斷應該采取什么行動：是繼續觀察、準備回應，還是立即給出答案。

為了解決訓練中的"沉默時間過多"問題，研究團隊設計了一個智能的權重調整機制。就像調教一個過于害羞的學生，他們使用特殊的"焦點損失"技術，讓AI更容易學會何時應該開口說話，而不是總是選擇保持沉默。這種技術會根據每個回答的難度和出現頻率自動調整學習重點，確保AI既不會話癆般無休止地說話，也不會過于沉默錯過重要的回應時機。

研究團隊還開發了一個專門的測試基準Streamo-Bench，用來評估AI在復雜多任務場景中的表現。這個測試就像是給AI安排的"綜合能力考試"，包含300個視頻和3000個不同類型的任務。測試內容涵蓋了前向時間定位（根據之前的內容預測未來事件的時間）、后向時間定位（根據后續內容回溯之前事件的時間）、實時解說、密集描述以及時間敏感問答等多個方面。

在性能表現上，Streamo在各種測試中都表現出色。在OVO-Bench這個權威測試中，Streamo-7B模型的綜合得分達到55.61分，比之前最好的在線視頻模型高出13.83分。更有趣的是，即使用1fps訓練的模型在2fps測試中也能工作得很好，表明這種方法具有很強的適應性。

在離線視頻理解能力方面，Streamo不僅保持了原有的分析能力，還有所提升。在MVBench、TempCompass、VideoMME等標準測試中，Streamo都取得了比基礎模型更好的成績。這就像是一個學會了即興表演的演員，不僅沒有丟失原有的劇本表演能力，反而因為實時反應能力的增強而變得更加全面。

在技術實現細節上，研究團隊采用了端到端的訓練方式，避免了傳統方法中需要單獨訓練決策模塊的復雜性。他們使用Qwen2.5-VL作為基礎模型，凍結視覺編碼器，只更新連接器和語言模型部分。訓練過程使用單個epoch、512的批次大小和1e-5的學習率，每個視頻被分割成一秒鐘的片段，以1fps采樣幀率進行處理。

研究團隊進行了詳細的消融實驗，證明了焦點損失機制的重要性。在沒有狀態感知重新加權的情況下，模型性能會嚴重下降，因為類別不平衡問題會導致模型過度傾向于預測沉默狀態。通過引入自適應的焦點權重和基于頻率的alpha權重，模型能夠更好地學習何時進行響應。

Streamo系統的應用前景廣闊。在直播領域，它可以為主播提供實時的內容分析和觀眾問題回答；在監控系統中，它能夠實時識別和報告異常事件；在教育場景中，它可以為在線課程提供實時的內容解釋和問題解答；在娛樂領域，它能夠為游戲直播或體育賽事提供智能解說。

與現有的在線視頻模型相比，Streamo的優勢在于其統一的端到端設計。以往的方法通常需要一個單獨的決策模塊來判斷何時調用離線模型，這種設計不僅增加了計算開銷，還限制了系統的響應靈活性。Streamo將決策制定和內容生成融合在一個統一的框架中，實現了更高效和準確的實時處理。

研究團隊也誠實地指出了當前系統的局限性。主要挑戰在于處理超長序列時的內存和延遲成本。隨著視頻流長度的增加，系統需要維護的上下文信息會急劇增長，這對硬件資源提出了更高要求。未來的改進方向包括集成KV緩存管理、視覺標記剪枝、滑動窗口注意力機制以及自適應幀壓縮等技術，以提高訓練和推理效率，擴展有效上下文長度。

這項研究的意義不僅在于技術層面的突破，更在于它為人工智能與實時視頻內容的交互開辟了新的可能性。它展示了如何讓AI系統真正理解動態變化的視覺世界，并能夠像人類一樣進行實時的理解和響應。隨著直播、短視頻、實時監控等應用場景的快速發展，這種能夠進行實時視頻理解的AI技術將變得越來越重要。

說到底，Streamo代表了視頻AI從"被動分析"向"主動理解"的重要轉變。它不再是那個只能在電影結束后才能告訴你劇情的AI，而是能夠陪你一起看電影、實時回答你疑問的智能伙伴。這種技術進步不僅提升了AI的實用性，也為未來更加智能和互動的數字體驗奠定了基礎。對于普通用戶來說，這意味著我們很快就能享受到更加智能、響應更及時的視頻相關服務，無論是觀看直播、學習在線課程還是使用監控系統，都會有一個真正理解我們需求的AI助手陪伴左右。

Q&A

Q1：Streamo和傳統視頻AI有什么區別？

A：傳統視頻AI就像看錄像回放，必須等整個視頻播完才能分析內容，而Streamo能夠一邊看直播一邊實時理解和回答問題。它有三種工作狀態：保持沉默、準備回答和立即響應，能夠根據視頻內容的變化靈活調整自己的行為，就像一個機敏的助理。

Q2：Streamo-Instruct-465K數據集包含哪些內容？

A：這是一個包含46.5萬個樣本的大規模訓練數據集，就像一本超級詳細的實時互動教科書。它包含五種任務類型：實時解說（像體育解說員描述正在發生的事）、事件描述（總結重要事件）、動作識別（識別具體行為）、時間定位（找到事件發生時間）以及時間敏感問答（回答隨時間變化的問題）。

Q3：Streamo的實際應用場景有哪些？

A：Streamo的應用前景非常廣泛，包括為直播主播提供實時內容分析，為監控系統提供異常事件實時識別，為在線教育提供實時內容解釋，為游戲直播和體育賽事提供智能解說等。它能讓AI真正參與到需要實時理解和響應的各種視頻場景中。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.