生成不遺忘，「超長時序」世界模型！北大EgoLCD長短時記憶加持

2025-12-24 13:19:46　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導(dǎo)讀】視頻生成模型總是「記性不好」？生成幾秒鐘后物體就變形、背景就穿幫？北大、中大等機構(gòu)聯(lián)合發(fā)布EgoLCD，借鑒人類「長短時記憶」機制，首創(chuàng)稀疏KV緩存+LoRA動態(tài)適應(yīng)架構(gòu)，徹底解決長視頻「內(nèi)容漂移」難題，在EgoVid-5M基準(zhǔn)上刷新SOTA！讓AI像人一樣擁有連貫的第一人稱視角記憶。

隨著Sora、Genie等模型的爆發(fā)，視頻生成正從「圖生動」邁向「世界模擬器」的宏大目標(biāo)。

然而，在通往「無限時長」視頻生成的路上，橫亙著一只攔路虎——「內(nèi)容漂移」（Content Drift）。

你是否發(fā)現(xiàn)，現(xiàn)有的視頻生成模型在生成長視頻時，往往也是「金魚記憶」：前一秒還是藍(lán)色瓷磚，后一秒變成了白色墻壁；原本手里的杯子，拿著拿著就變成了奇怪的形狀；

對于第一人稱（Egocentric）視角這種晃動劇烈、交互復(fù)雜的場景，模型更是極其容易「迷失」。

生成長視頻不難，難的是「不忘初心」。

近日，來自北京大學(xué)、中山大學(xué)、浙江大學(xué)、中科院和清華大學(xué)的研究團(tuán)隊，提出了一種全新的長上下文擴(kuò)散模型EgoLCD，不僅引入了「類腦的長短時記憶」設(shè)計，還提出了一套全新的結(jié)構(gòu)化敘事Promp方案，成功讓AI在生成長視頻時「記住」場景布局和物體特征。

論文地址：https://arxiv.org/abs/2512.04515

項目主頁：https://aigeeksgroup.github.io/EgoLCD

在EgoVid-5M基準(zhǔn)測試中，EgoLCD在時間一致性和生成質(zhì)量上全面碾壓OpenSora、SVD等主流模型，向構(gòu)建具身智能世界模型邁出了關(guān)鍵一步！

核心痛點

AI為什么會「失憶」？

在長視頻生成中，傳統(tǒng)的自回歸（AR）模型非常容易出現(xiàn)生成式遺忘。

這就像讓一個人蒙眼畫畫，畫著畫著就偏離了最初的構(gòu)圖。對于第一人稱視頻（如Ego4D數(shù)據(jù)集）來說，劇烈的相機抖動和復(fù)雜的手物交互，讓這種「漂移」更加致命。

傳統(tǒng)的Transformer雖然有注意力機制，但面對長序列，計算量呈二次方爆炸根本存不下那么多歷史信息；而簡單的滑動窗口又會丟掉早期的關(guān)鍵信息。

EgoLCD (Egocentric Video Generation with Long Context Diffusion) 將長視頻生成重新定義為一個「高效且穩(wěn)定的內(nèi)存管理問題」。

長短時記憶系統(tǒng) (Long-Short Memory)

EgoLCD 設(shè)計了一種類似人類大腦的雙重記憶機制：

長期記憶（Long-Term Sparse KV Cache）：不再傻傻地緩存所有Token，而是利用稀疏注意力機制，只存儲和檢索最關(guān)鍵的「語義錨點」（比如房間的布局、關(guān)鍵物體的特征）。這不僅大大降低了顯存占用，還鎖死了全局一致性。

短期記憶（Attention+LoRA）：利用LoRA作為隱式記憶單元，增強短窗口注意力的適應(yīng)性，快速捕捉當(dāng)前視角的劇烈變化（如手的快速移動）。

一句話總結(jié)：長期記憶負(fù)責(zé)「穩(wěn)」，短期記憶負(fù)責(zé)「快」。

記憶調(diào)節(jié)損失 (Memory Regulation Loss)

為了防止模型在訓(xùn)練時「偷懶」，團(tuán)隊設(shè)計了一種特殊的損失函數(shù)。它強制模型生成的每一幀，都要與從長期記憶庫中檢索到的「歷史片段」保持語義對齊。

這就像給AI戴上了一個「緊箍咒」，一旦它生成的畫面開始「胡編亂造」（漂移），Loss就會懲罰它，迫使它回歸原本的設(shè)定。

結(jié)構(gòu)化敘事提示 (Structured Narrative Prompting, SNP)

EgoLCD拋棄了簡單的文本提示，采用了一種分段式的、包含時間邏輯的結(jié)構(gòu)化劇本。

訓(xùn)練時：使用GPT-4o生成極其詳盡的幀級描述，訓(xùn)練模型將視覺細(xì)節(jié)與文字嚴(yán)格對應(yīng)。

推理時：SNP充當(dāng)「外部顯性記憶」，通過檢索前序片段的Prompt，引導(dǎo)當(dāng)前片段的生成，確保故事線和視覺風(fēng)格的連貫。

性能炸裂

為了公正地評測「不遺忘」的能力，研究團(tuán)隊甚至專門開發(fā)了一套新指標(biāo)——NRDP (Normalized Referenced Drifting Penalty)，專門用來懲罰那些「虎頭蛇尾」、越往后質(zhì)量越差的模型。

實驗結(jié)果顯示：

一致性碾壓：在NRDP-Subject（主體一致性）和NRDP-Background（背景一致性）上，EgoLCD取得了壓倒性優(yōu)勢，漂移率極低。

超越基線：相比SVD、DynamiCrafter和OpenSora等頂流模型，EgoLCD在EgoVid-5M基準(zhǔn)上的CD-FVD（時序連貫性）和動作一致性指標(biāo)均為最佳。

極長生成：展示了長達(dá)60秒的連貫視頻生成（如一名演講者從黃昏講到深夜），人物衣著、背景樓宇細(xì)節(jié)始終如一，沒有發(fā)生形變！

通往具身智能的「黑客帝國」

EgoLCD不僅僅是一個視頻生成模型，它更像是一個「第一人稱世界模擬器」。

通過生成長時程、高一致性的第一人稱視頻，EgoLCD能夠為具身智能（機器人）提供海量的訓(xùn)練數(shù)據(jù)，模擬復(fù)雜的物理交互和長序列任務(wù)（如做飯、修理）。

正如Sora讓人們看到了世界模型的雛形，EgoLCD則讓「通過視頻教會機器人理解世界」的夢想，變得前所未有的清晰。

參考資料：

https://arxiv.org/abs/2512.04515

秒追ASI

?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點亮星標(biāo)，鎖定新智元極速推送！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.