![]()
這項由華為研究院和香港中文大學多媒體實驗室聯合開展的研究于2026年4月5日發表在arXiv預印本平臺上,論文編號為arXiv:2604.04184v1。感興趣的讀者可以通過這個編號找到完整的研究報告。
**一個全新的視頻聊天時代正在到來**
在我們每天刷短視頻、看直播的時候,有沒有想過這樣一個問題:為什么AI助手只能在我們問完問題后才回答,而不能像人一樣邊看邊聊,甚至主動提醒我們注意有趣的內容呢?就像你和朋友一起看電影時,朋友會突然說"注意這個細節"或者"這里有個彩蛋"一樣自然。
華為研究院和香港中文大學的研究團隊正是為了解決這個問題,開發出了一個名為AURA的AI系統。AURA的全稱是"Always-On Understanding and Real-Time Assistance",翻譯過來就是"始終在線理解和實時助手"。這個系統的神奇之處在于,它能像一個聰明的朋友一樣,一邊觀看連續的視頻流,一邊隨時準備回答你的問題,甚至主動告訴你有趣的發現。
過去的AI視頻理解系統就像圖書館管理員,你必須先把一本完整的書(完整視頻)交給它,它看完后才能回答你的問題。而AURA更像是一個坐在你身邊的朋友,能夠實時看著正在播放的電視節目,隨時跟你互動交流。當你問"剛才那個人穿的什么顏色的衣服"時,它能立即回答;當畫面中出現有趣的內容時,它還能主動提醒你注意。
這種突破的意義遠不止于技術本身。在我們的日常生活中,從直播購物到在線教育,從視頻會議到娛樂互動,這種能夠實時理解視頻內容并進行智能交互的技術,將徹底改變我們與數字世界的互動方式。研究團隊不僅在理論上實現了這個突破,還開發出了一個真正能用的演示系統,能夠以每秒2幀的速度實時運行,并且集成了語音識別和語音合成功能,讓人機對話變得更加自然流暢。
**一、破解實時視頻理解的三大難題**
要讓AI真正像人一樣實時觀看視頻并進行互動,研究團隊面臨著三個核心挑戰,就像要訓練一個完美的同聲傳譯員一樣復雜。
第一個挑戰是"選擇性沉默"問題。AI需要學會什么時候該說話,什么時候該保持安靜。就像你和朋友一起看電影時,朋友不會每分每秒都在說話,而是在關鍵時刻才發表意見。傳統的AI系統要么完全沉默等待指令,要么喋喋不休地描述看到的一切。AURA必須學會在合適的時機開口,既不能太安靜錯過重要信息,也不能太話癆干擾用戶體驗。
第二個挑戰是"時機判斷"問題。有些問題可以立即回答,比如"現在屏幕上有幾個人";有些問題需要等待更多信息才能回答,比如"這個故事的結局是什么"。AURA需要像一個經驗豐富的解說員,知道什么時候給出即時回答,什么時候需要耐心等待更多線索。這種智能判斷能力是實現真正互動體驗的關鍵。
第三個挑戰是"無限記憶管理"問題。人類觀看視頻時,大腦會自動篩選和壓縮記憶,重要信息保留得更久,瑣碎細節很快被遺忘。但AI系統的"記憶"是有限的,不能無限制地積累視頻信息和對話歷史。研究團隊需要設計一套智能的記憶管理機制,讓AI能夠在有限的"大腦容量"內,既保持對最新內容的敏感,又不丟失重要的歷史信息。
為了解決這些挑戰,研究團隊創新性地提出了"交互式視頻流上下文管理"機制。這個機制就像給AI配備了一個智能的"注意力管理系統",能夠合理分配注意力資源,在連續的視頻流和用戶互動中找到最佳平衡點。
**二、三種聊天模式讓AI更像人**
研究團隊為AURA設計了三種不同的聊天模式,就像訓練一個多才多藝的解說員,讓它能夠應對各種不同的互動需求。
實時問答模式是最基礎但也最重要的能力。當你問"這個人穿的是什么顏色的衣服"時,AI能夠基于當前看到的畫面立即給出準確回答。這種模式處理的是那些基于當前或歷史畫面就能回答的問題,就像你問朋友剛才看到了什么一樣直接。
主動式問答模式展現了AI的"預測思維"能力。有時候用戶提出的問題需要等待未來的畫面才能回答。比如你問"這個人接下來會走向哪里",AI會記住這個問題,然后耐心觀察后續的視頻內容,在看到答案后主動回復。這種"延遲滿足"的交互方式讓AI顯得更加智能和體貼。
多輪回應模式是最高級的互動形式。當用戶說"請提醒我每次看到小馬玩偶時告訴我",AI會持續監控視頻內容,每當發現相關內容就主動提醒。這種模式讓AI變成了一個貼心的觀察助手,能夠根據用戶的興趣持續提供個性化的關注點。
這三種模式的巧妙之處在于它們可以無縫切換和組合。在同一個視頻觀看過程中,用戶可能既需要即時問答,也會設置一些需要延遲回答的問題,還可能要求AI持續關注某些特定內容。AURA能夠同時管理這些不同類型的交互需求,就像一個經驗豐富的導游,既能回答游客的即時疑問,也能在合適的時機主動介紹重要景點。
**三、智能記憶管理:在有限空間里裝下無限內容**
面對連續不斷的視頻流和越來越長的對話歷史,AURA采用了一個類似"智能檔案管理員"的策略來處理記憶問題。
這個記憶管理系統采用了"雙重滑動窗口"的設計思路。對于視頻內容,系統像一個有著短期記憶的觀察者,只保留最近30秒的視頻畫面。為什么只保留這么短的時間呢?研究發現,視頻中的信息密度非常高,而用戶關心的內容通常與最近發生的事情密切相關。就像人們在看直播時,注意力主要集中在當前和最近幾分鐘的內容上。
對于文字對話記錄,系統采用了不同的策略。文字信息雖然占用的存儲空間較小,但往往包含重要的用戶意圖和歷史背景。因此,系統會保留最近的10輪問答交互。當視頻記憶超出限制時,系統會巧妙地刪除過期的視頻片段和對應的沉默標記,但保留有價值的文字對話內容。
這種設計的智慧之處在于它模仿了人類的記憶特點:我們對視覺信息的短期記憶容量有限,但對重要對話內容的記憶可以保持更久。當你和朋友討論剛看完的電影時,你可能記不清每個鏡頭的細節,但能清楚記得之前討論過的重要話題。
為了進一步提高效率,研究團隊還設計了"預緩存復用機制"。傳統的做法是每次新增內容就立即刪除最老的內容,但這樣會導致系統頻繁重新計算,就像搬家時每增加一件物品就要重新整理所有家具一樣低效。AURA的方法是允許記憶稍微超出限制,然后批量清理,這樣既保持了系統效率,又避免了頻繁的重新計算。
**四、從零開始構建訓練數據**
要訓練AURA學會這些復雜的互動技能,研究團隊面臨的第一個問題是:去哪里找合適的訓練數據?現有的視頻問答數據集主要針對離線場景,無法滿足實時流式互動的需求。這就像要訓練一個同聲傳譯員,卻發現市面上只有書面翻譯的教材。
研究團隊設計了一個"粗細結合"的數據生成引擎,整個過程像一個精心設計的內容工廠,有五個不同的生產車間。
第一個車間是"視頻預處理工廠"。團隊從互聯網收集了大量高質量視頻,涵蓋體育、生活記錄、紀錄片、科普內容、電視節目、電影、課程、游戲和動畫等多個領域。所有視頻都被重新編碼為統一的格式,并調整到每秒2幀的標準幀率。這個步驟就像把各種不同格式的原材料標準化處理,為后續加工做好準備。
第二個車間是"問答合成工廠",這里又分為兩條生產線。第一條生產線專門制造實時問答和主動式問答數據。系統首先讓AI觀看視頻并生成場景描述,然后基于這些描述創建問答對,并為每個問答指定精確的時間戳。對于實時問答,問題和答案在同一時刻產生;對于主動式問答,問題先于答案出現。第二條生產線專門制造多輪回應數據,重點處理那些需要持續關注和多次回應的復雜互動場景。
第三個車間是"問答精煉工廠"。初步生成的問答往往在難度和表達方式上比較單一。這個車間的任務是增加多樣性:為實時問答增加不同難度級別的問題,從簡單的物體識別到復雜的推理分析;為其他類型的問答改寫問題表達,用不同的語言風格表達同樣的含義,讓AI能夠理解各種不同的用戶表達習慣。
第四個車間是"流式結構化工廠"。這里將帶有時間戳的問答數據轉換為符合實際使用場景的訓練樣本。系統會模擬真實的觀看情況,為每個回答創建對應的視頻窗口和對話歷史,確保AI在訓練時看到的信息與實際使用時完全一致。
第五個車間是"質量檢驗工廠"。所有生成的數據都要經過嚴格的質量檢查,確保回答有視覺依據、事實準確、時間合理,避免AI學會生成沒有根據的內容。只有通過質量檢驗的數據才會被用于最終訓練。
經過這五個車間的精密配合,研究團隊最終構建了一個包含約11.5萬個流式視頻問答樣本的訓練數據集,為AURA的智能訓練提供了堅實基礎。
**五、訓練AI學會恰當的沉默**
在訓練AURA時,研究團隊遇到了一個特別的挑戰:如何讓AI學會在合適的時候保持沉默?這個問題比聽起來要復雜得多。
在正常的視頻觀看過程中,AI大部分時間都應該保持安靜,只在必要時才開口說話。但這種"沉默占主導"的特性給訓練帶來了意想不到的困難。如果簡單地讓AI學習所有的行為,它很可能會過度學習沉默行為,變成一個過分安靜的助手,即使用戶問問題也不回答。
研究團隊提出了"沉默-言語平衡損失"的訓練策略。這種方法就像訓練一個演員學會掌握臺詞和停頓的節奏。系統會特別關注兩種類型的行為:沉默時刻和說話時刻,并給它們分配平衡的學習權重。具體來說,對于沉默標記,系統會根據樣本中沉默次數的倒數來調整學習強度;對于有內容的回答,系統給予正常的學習權重。這樣AI既能學會適時沉默,又不會過度抑制自己的表達能力。
另一個訓練難點是確定哪些回答應該作為學習目標。由于訓練數據是通過滑動窗口截取的,不是所有的歷史回答都有充分的視覺證據支持。研究團隊采用了"謹慎監督"的原則:只讓AI學習那些在當前視覺和對話證據下完全合理的回答,跳過那些可能缺乏足夠支撐的歷史回答。這種方法確保AI學到的都是有根有據的回答模式,避免產生沒有依據的幻覺性內容。
最終的訓練過程使用了約17.4萬個樣本,包括11.5萬個流式視頻樣本和5.9萬個傳統視頻問答樣本。整個訓練在32個高性能GPU上進行,采用較小的學習率進行精細調節,確保AI既能掌握新的流式互動技能,又不會忘記原有的視頻理解能力。
**六、實時運行的技術魔法**
讓AURA在現實世界中實時運行,面臨著巨大的技術挑戰。研究團隊需要解決的核心問題是:如何在有限的計算資源上實現毫秒級的響應速度?
研究團隊開發了一套巧妙的"緩存復用機制"來解決這個問題。傳統的做法是每次處理新的視頻片段時都要重新計算所有的中間結果,就像每次做菜都要重新洗鍋一樣低效。AURA采用了類似"預熱鍋具"的策略:提前計算并保存中間結果,新內容到來時只需要增量計算新的部分。
具體來說,當視頻窗口需要刪除舊內容時,系統不會立即刪除,而是允許窗口稍微超出預設大小。只有當積累的多余內容達到一定量時,系統才會批量清理并重新計算緩存。這種"批處理清理"的方法大大減少了重復計算,提高了系統效率。
為了進一步優化性能,系統還采用了多種并行處理技術。語音識別、文本生成和語音合成三個模塊可以異步運行,當AURA在思考回答時,語音識別模塊仍然可以繼續監聽用戶的新問題。這種流水線式的處理方式最大化了系統的響應速度。
在實際部署中,研究團隊使用了兩塊高性能GPU:一塊專門運行AURA主模型,另一塊同時運行語音識別和語音合成服務。這種分離式部署既保證了各個模塊的獨立性,又優化了資源利用效率。
最終的系統性能表現相當出色:語音識別處理9.41秒的中文語音指令平均需要84.2毫秒;AURA主模型的首token響應時間平均為75.0毫秒;語音合成的首片段延遲為93.0毫秒。從用戶說話到聽到AI回應的端到端延遲約為312.2毫秒,這個速度已經接近自然對話的流暢度要求。
**七、效果驗證:AI真的學會了嗎?**
為了驗證AURA是否真正掌握了實時視頻互動的能力,研究團隊在三個專門的測試基準上進行了全面評估。
在StreamingBench測試中,AURA獲得了73.1%的綜合準確率,超過了所有開源競爭對手。更重要的是,這種優勢是全方位的:在實時視覺理解、多源信息理解和上下文理解三個主要方面,AURA都取得了最好的成績。在18個細分任務中,AURA在14個任務上排名第一,顯示出強大的綜合能力。
在OVO-Bench測試中,AURA達到了65.3%的整體準確率,比最強的開源競爭對手高出4.2個百分點。特別值得注意的是,在需要"向前預測"的任務上,AURA僅比最好的模型低1.2%,這表明它確實學會了基于當前信息預測未來事件的能力。
在OmniMMI測試中,AURA以25.4%的準確率獲得第一名,在9個評估指標中的5個指標上都名列前茅。特別令人驚喜的是,AURA在"主動提醒"任務上獲得了37.5%的成績,而一些競爭對手完全無法完成這類任務。
除了準確性測試,研究團隊還驗證了AURA在傳統視頻理解任務上的表現,確保新技能的學習沒有影響基礎能力。結果顯示,雖然在某些指標上有輕微下降,但AURA基本保持了與基礎模型相當的離線視頻理解能力。這證明了訓練方法的有效性:AI既學會了新的流式互動技能,又保留了原有的核心能力。
**八、訓練方法的關鍵作用**
為了驗證訓練過程中各個設計決策的重要性,研究團隊進行了對比實驗。結果清晰地展示了"沉默-言語平衡損失"訓練策略的關鍵作用。
當使用傳統的均勻訓練方法時,AI的整體表現從25.4%下降到16.4%,下降幅度高達35%。更嚴重的是,在"主動提醒"任務上,傳統方法訓練出的AI完全無法工作,準確率從37.5%直接降為0%。這個對比鮮明地說明了專門訓練策略的必要性。
深入分析發現,使用傳統方法訓練的AI出現了"過度沉默"的問題:它學會了在任何情況下都保持安靜,即使用戶明確要求主動提醒也不會響應。這種現象完美驗證了研究團隊的預期:如果不特別處理沉默和說話的平衡問題,AI很容易偏向于更"安全"的沉默行為。
這個實驗結果不僅證明了技術方法的正確性,也揭示了訓練AI進行復雜交互的一個重要原則:必須在訓練過程中明確平衡不同類型行為的學習權重,不能簡單地讓AI"自然學習"。
**九、走向實用的關鍵一步**
AURA的成功不僅在于技術突破,更在于它向實際應用邁出了關鍵一步。研究團隊不滿足于實驗室中的測試結果,而是構建了一個真正可用的演示系統,集成了語音識別和語音合成功能,用戶可以通過自然語言與系統進行實時互動。
這個演示系統的意義遠超技術驗證。它證明了流式視頻AI從概念到應用的可行性路徑。用戶可以一邊觀看視頻,一邊用語音提問,AI會通過語音回答,整個交互過程就像與一個懂視頻內容的朋友聊天一樣自然。
系統的實時性能表現也達到了實用標準。以每秒2幀的速度處理視頻,雖然不如電影的24幀那么流暢,但對于理解視頻內容來說已經足夠。更重要的是,300多毫秒的端到端響應時間讓對話感覺非常自然,用戶不會感到明顯的延遲。
研究團隊還開放了AURA模型和實時推理框架的代碼,為其他研究者和開發者提供了繼續改進和應用的基礎。這種開放態度加速了整個領域的發展,讓更多人能夠基于這項工作開發出各種實際應用。
從技術發展的角度看,AURA代表了AI視頻理解從"被動響應"向"主動交互"轉變的重要里程碑。它不再是等待用戶完整上傳視頻后才開始工作的傳統系統,而是能夠與用戶一起"觀看"實時內容并進行自然交流的智能伙伴。這種轉變為未來的應用場景打開了巨大的想象空間:從實時直播互動到在線教育輔助,從視頻會議智能助手到娛樂內容的個性化解說。
說到底,AURA的價值不只是技術上的進步,更是向我們展示了AI與人類交互的新可能性。它讓我們看到,AI不必總是等待指令的被動工具,也可以成為主動參與、適時響應的智能伙伴。當然,這只是一個開始,距離完全成熟的應用還有很多挑戰需要克服,但AURA已經為這個方向指明了清晰的道路。歸根結底,這項研究告訴我們,讓AI真正理解我們的視覺世界并與我們自然互動,不再是遙不可及的科幻想象,而是正在變為現實的技術可能。對于我們普通用戶來說,這意味著未來觀看視頻的體驗將變得更加豐富和互動,AI助手將成為我們數字生活中更加貼心和智能的伙伴。
Q&A
Q1:AURA和傳統的視頻AI助手有什么區別?
A:傳統視頻AI就像圖書館管理員,必須等你提供完整視頻后才能回答問題。而AURA更像坐在你身邊的朋友,能實時觀看正在播放的視頻,隨時回答你的問題,甚至主動提醒你注意有趣的內容。最大的區別是AURA能處理連續的視頻流并進行實時互動。
Q2:AURA需要什么樣的硬件才能運行?
A:目前AURA的演示系統運行在兩塊80GB顯存的高性能GPU上,一塊運行主模型,另一塊處理語音識別和合成。雖然硬件要求較高,但研究團隊已經通過各種優化技術讓系統能夠以每秒2幀的速度實時運行,響應延遲僅約300毫秒。
Q3:AURA能在哪些場景下使用?
A:AURA的應用場景非常廣泛,包括實時直播互動、在線教育輔助、視頻會議智能助手、娛樂內容個性化解說等。比如在看直播時它能回答你關于畫面內容的問題,在上網課時能主動提醒重要知識點,讓視頻觀看體驗變得更加智能和互動。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.