![]()
新智元報道
編輯:LRST
【新智元導(dǎo)讀】視頻生成模型總是「記性不好」?生成幾秒鐘后物體就變形、背景就穿幫?北大、中大等機構(gòu)聯(lián)合發(fā)布EgoLCD,借鑒人類「長短時記憶」機制,首創(chuàng)稀疏KV緩存+LoRA動態(tài)適應(yīng)架構(gòu),徹底解決長視頻「內(nèi)容漂移」難題,在EgoVid-5M基準(zhǔn)上刷新SOTA!讓AI像人一樣擁有連貫的第一人稱視角記憶。
隨著Sora、Genie等模型的爆發(fā),視頻生成正從「圖生動」邁向「世界模擬器」的宏大目標(biāo)。
然而,在通往「無限時長」視頻生成的路上,橫亙著一只攔路虎——「內(nèi)容漂移」(Content Drift)。
你是否發(fā)現(xiàn),現(xiàn)有的視頻生成模型在生成長視頻時,往往也是「金魚記憶」:前一秒還是藍(lán)色瓷磚,后一秒變成了白色墻壁;原本手里的杯子,拿著拿著就變成了奇怪的形狀;
對于第一人稱(Egocentric)視角這種晃動劇烈、交互復(fù)雜的場景,模型更是極其容易「迷失」。
生成長視頻不難,難的是「不忘初心」。
近日,來自北京大學(xué)、中山大學(xué)、浙江大學(xué)、中科院和清華大學(xué)的研究團(tuán)隊,提出了一種全新的長上下文擴(kuò)散模型EgoLCD,不僅引入了「類腦的長短時記憶」設(shè)計,還提出了一套全新的結(jié)構(gòu)化敘事Promp方案,成功讓AI在生成長視頻時「記住」場景布局和物體特征。
![]()
論文地址:https://arxiv.org/abs/2512.04515
項目主頁:https://aigeeksgroup.github.io/EgoLCD
在EgoVid-5M基準(zhǔn)測試中,EgoLCD在時間一致性和生成質(zhì)量上全面碾壓OpenSora、SVD等主流模型,向構(gòu)建具身智能世界模型邁出了關(guān)鍵一步!
![]()
核心痛點
AI為什么會「失憶」?
在長視頻生成中,傳統(tǒng)的自回歸(AR)模型非常容易出現(xiàn)生成式遺忘。
這就像讓一個人蒙眼畫畫,畫著畫著就偏離了最初的構(gòu)圖。對于第一人稱視頻(如Ego4D數(shù)據(jù)集)來說,劇烈的相機抖動和復(fù)雜的手物交互,讓這種「漂移」更加致命。
傳統(tǒng)的Transformer雖然有注意力機制,但面對長序列,計算量呈二次方爆炸根本存不下那么多歷史信息;而簡單的滑動窗口又會丟掉早期的關(guān)鍵信息。
EgoLCD (Egocentric Video Generation with Long Context Diffusion) 將長視頻生成重新定義為一個「高效且穩(wěn)定的內(nèi)存管理問題」。
![]()
長短時記憶系統(tǒng) (Long-Short Memory)
EgoLCD 設(shè)計了一種類似人類大腦的雙重記憶機制:
長期記憶(Long-Term Sparse KV Cache):不再傻傻地緩存所有Token,而是利用稀疏注意力機制,只存儲和檢索最關(guān)鍵的「語義錨點」(比如房間的布局、關(guān)鍵物體的特征)。這不僅大大降低了顯存占用,還鎖死了全局一致性。
短期記憶(Attention+LoRA):利用LoRA作為隱式記憶單元,增強短窗口注意力的適應(yīng)性,快速捕捉當(dāng)前視角的劇烈變化(如手的快速移動)。
一句話總結(jié):長期記憶負(fù)責(zé)「穩(wěn)」,短期記憶負(fù)責(zé)「快」。
記憶調(diào)節(jié)損失 (Memory Regulation Loss)
為了防止模型在訓(xùn)練時「偷懶」,團(tuán)隊設(shè)計了一種特殊的損失函數(shù)。它強制模型生成的每一幀,都要與從長期記憶庫中檢索到的「歷史片段」保持語義對齊。
這就像給AI戴上了一個「緊箍咒」,一旦它生成的畫面開始「胡編亂造」(漂移),Loss就會懲罰它,迫使它回歸原本的設(shè)定。
結(jié)構(gòu)化敘事提示 (Structured Narrative Prompting, SNP)
EgoLCD拋棄了簡單的文本提示,采用了一種分段式的、包含時間邏輯的結(jié)構(gòu)化劇本。
訓(xùn)練時:使用GPT-4o生成極其詳盡的幀級描述,訓(xùn)練模型將視覺細(xì)節(jié)與文字嚴(yán)格對應(yīng)。
推理時:SNP充當(dāng)「外部顯性記憶」,通過檢索前序片段的Prompt,引導(dǎo)當(dāng)前片段的生成,確保故事線和視覺風(fēng)格的連貫。
性能炸裂
![]()
![]()
為了公正地評測「不遺忘」的能力,研究團(tuán)隊甚至專門開發(fā)了一套新指標(biāo)——NRDP (Normalized Referenced Drifting Penalty),專門用來懲罰那些「虎頭蛇尾」、越往后質(zhì)量越差的模型。
實驗結(jié)果顯示:
一致性碾壓:在NRDP-Subject(主體一致性)和NRDP-Background(背景一致性)上,EgoLCD取得了壓倒性優(yōu)勢,漂移率極低。
超越基線:相比SVD、DynamiCrafter和OpenSora等頂流模型,EgoLCD在EgoVid-5M基準(zhǔn)上的CD-FVD(時序連貫性)和動作一致性指標(biāo)均為最佳。
極長生成:展示了長達(dá)60秒的連貫視頻生成(如一名演講者從黃昏講到深夜),人物衣著、背景樓宇細(xì)節(jié)始終如一,沒有發(fā)生形變!
通往具身智能的「黑客帝國」
EgoLCD不僅僅是一個視頻生成模型,它更像是一個「第一人稱世界模擬器」。
通過生成長時程、高一致性的第一人稱視頻,EgoLCD能夠為具身智能(機器人)提供海量的訓(xùn)練數(shù)據(jù),模擬復(fù)雜的物理交互和長序列任務(wù)(如做飯、修理)。
正如Sora讓人們看到了世界模型的雛形,EgoLCD則讓「通過視頻教會機器人理解世界」的夢想,變得前所未有的清晰。
參考資料:
https://arxiv.org/abs/2512.04515
秒追ASI
?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點亮星標(biāo),鎖定新智元極速推送!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.