網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

南洋理工大學(xué)與字節(jié)跳動(dòng)實(shí)現(xiàn)AI記憶式長視頻生成

2025-12-24 16:35:44　來源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由南洋理工大學(xué)S-Lab實(shí)驗(yàn)室與字節(jié)跳動(dòng)智能創(chuàng)作團(tuán)隊(duì)合作完成的研究于2024年12月發(fā)表，論文標(biāo)題為"StoryMem: Multi-shot Long Video Storytelling with Memory"。研究團(tuán)隊(duì)由張凱文、江黎明、王昂天等多位研究人員組成，其中江黎明擔(dān)任項(xiàng)目負(fù)責(zé)人，潘新剛教授為通訊作者。感興趣的讀者可以通過arXiv:2512.19539查閱完整論文。

說起制作一部完整的故事視頻，就像導(dǎo)演拍攝一部電影一樣，需要確保每個(gè)鏡頭之間的人物、場景和風(fēng)格保持一致。傳統(tǒng)的AI視頻生成技術(shù)就像只會(huì)拍單張照片的攝影師，雖然每張照片都很精美，但當(dāng)你把它們連起來講一個(gè)完整故事時(shí)，卻發(fā)現(xiàn)主角在不同鏡頭里長相不一樣，背景也變來變?nèi)ィ耆珶o法形成連貫的敘事。

研究團(tuán)隊(duì)發(fā)現(xiàn)了這個(gè)問題的核心所在：現(xiàn)有的視頻生成模型缺乏"記憶能力"。就像一個(gè)患有失憶癥的導(dǎo)演，每次拍攝新鏡頭時(shí)都忘記了之前拍過什么，自然無法保持故事的連貫性。為了解決這個(gè)問題，研究人員受到人類記憶機(jī)制的啟發(fā)，開發(fā)了一套名為StoryMem的創(chuàng)新系統(tǒng)。這個(gè)系統(tǒng)的巧妙之處在于，它為AI配備了一個(gè)"視覺記憶庫"，就像給導(dǎo)演配了一個(gè)專業(yè)的劇務(wù)助理，隨時(shí)提醒他之前的拍攝內(nèi)容，確保新鏡頭與整個(gè)故事保持一致。

這項(xiàng)研究的突破性意義不僅在于技術(shù)本身，更在于它為普通人創(chuàng)作高質(zhì)量故事視頻打開了新的可能。過去，制作一部連貫的故事視頻需要專業(yè)團(tuán)隊(duì)和昂貴設(shè)備，現(xiàn)在只需要一段文字描述，AI就能自動(dòng)生成分鐘級(jí)的完整故事，每個(gè)鏡頭都與前后呼應(yīng)，人物始終保持一致。這意味著未來的內(nèi)容創(chuàng)作將更加民主化，每個(gè)人都可能成為自己故事的導(dǎo)演。

一、記憶的魔法：讓AI學(xué)會(huì)"不忘記"的秘訣

要理解StoryMem系統(tǒng)的工作原理，我們可以把它比作一個(gè)會(huì)記筆記的聰明學(xué)生。傳統(tǒng)的視頻生成AI就像每次考試都重新開始復(fù)習(xí)的學(xué)生，雖然單科成績不錯(cuò)，但無法在不同科目之間建立聯(lián)系。而StoryMem就像一個(gè)善于做筆記和總結(jié)的學(xué)霸，不僅能記住重要信息，還能在需要時(shí)快速調(diào)取相關(guān)內(nèi)容。

這個(gè)"記憶系統(tǒng)"的核心是一個(gè)被稱為M2V（Memory-to-Video）的創(chuàng)新設(shè)計(jì)。研究團(tuán)隊(duì)巧妙地將這個(gè)記憶機(jī)制嵌入到現(xiàn)有的視頻生成模型中，就像給原本只會(huì)畫單張畫的畫家配備了一本參考相冊(cè)。當(dāng)AI需要生成新的故事鏡頭時(shí)，它會(huì)翻閱這本"相冊(cè)"，找到與當(dāng)前鏡頭相關(guān)的歷史畫面，確保新創(chuàng)作的內(nèi)容與之前的風(fēng)格、人物和場景保持一致。

具體來說，這個(gè)記憶庫存儲(chǔ)的是從之前生成鏡頭中精心挑選的關(guān)鍵幀。就像一個(gè)專業(yè)攝影師在拍攝過程中會(huì)標(biāo)記重要的瞬間一樣，系統(tǒng)會(huì)自動(dòng)識(shí)別并保存那些包含重要角色、關(guān)鍵場景或獨(dú)特視覺元素的畫面。這些關(guān)鍵幀不是隨意選擇的，而是通過一套智能的語義分析系統(tǒng)進(jìn)行篩選，確保保存的都是對(duì)后續(xù)故事發(fā)展最有幫助的視覺信息。

為了讓這個(gè)記憶機(jī)制真正發(fā)揮作用，研究團(tuán)隊(duì)還開發(fā)了一種名為"負(fù)向RoPE偏移"的技術(shù)。這聽起來很復(fù)雜，但實(shí)際上就像給時(shí)間軸做標(biāo)記一樣簡單。在傳統(tǒng)的視頻處理中，每一幀都有自己的時(shí)間位置，但記憶中的畫面來自過去的不同時(shí)刻。研究團(tuán)隊(duì)巧妙地給這些記憶畫面分配了負(fù)數(shù)的時(shí)間標(biāo)記，讓AI明確知道這些是"過去發(fā)生的事情"，而不是當(dāng)前正在創(chuàng)作的內(nèi)容。這樣一來，AI就能正確理解時(shí)間關(guān)系，既參考?xì)v史信息，又專注于創(chuàng)造當(dāng)下的鏡頭。

更令人稱贊的是，這整個(gè)系統(tǒng)的訓(xùn)練過程相對(duì)簡單高效。研究團(tuán)隊(duì)沒有從零開始訓(xùn)練一個(gè)全新的模型，而是在現(xiàn)有的高質(zhì)量視頻生成模型基礎(chǔ)上，通過LoRA（低秩適應(yīng)）技術(shù)進(jìn)行微調(diào)。這就像給一個(gè)已經(jīng)很優(yōu)秀的畫家提供額外的繪畫技巧培訓(xùn)，而不是從頭教一個(gè)新手畫畫。這種方法不僅大大減少了計(jì)算資源的需求，還確保了生成視頻的高畫質(zhì)，因?yàn)榈讓拥囊曨l生成能力得到了完整保留。

二、精準(zhǔn)記憶的藝術(shù)：如何選擇值得保留的瞬間

在人類的記憶中，我們不會(huì)記住生活中的每一個(gè)細(xì)節(jié)，而是選擇性地保留那些重要的、有意義的時(shí)刻。StoryMem系統(tǒng)同樣具備這種"選擇性記憶"的能力，但它的選擇標(biāo)準(zhǔn)更加科學(xué)和精確。

系統(tǒng)采用了一種被稱為"語義關(guān)鍵幀選擇"的策略。就像一個(gè)經(jīng)驗(yàn)豐富的電影剪輯師會(huì)挑選最能代表故事情節(jié)的鏡頭一樣，StoryMem使用CLIP模型來理解每一幀畫面的語義內(nèi)容。這個(gè)過程就像給每張圖片寫標(biāo)簽，描述其中包含的人物、物體、動(dòng)作和場景。然后系統(tǒng)會(huì)比較這些"標(biāo)簽"，找出那些包含新信息或重要變化的關(guān)鍵幀。

選擇過程采用了一種動(dòng)態(tài)閾值機(jī)制。系統(tǒng)首先會(huì)選定每個(gè)鏡頭的第一幀作為基準(zhǔn)，然后逐幀分析后續(xù)內(nèi)容。當(dāng)系統(tǒng)發(fā)現(xiàn)某一幀的內(nèi)容與最近選擇的關(guān)鍵幀差異較大時(shí)，它就會(huì)將這一幀標(biāo)記為新的關(guān)鍵幀。這個(gè)"差異較大"的判斷標(biāo)準(zhǔn)會(huì)根據(jù)已選擇幀的數(shù)量動(dòng)態(tài)調(diào)整：如果選擇的幀數(shù)還沒達(dá)到上限，標(biāo)準(zhǔn)就相對(duì)寬松；如果接近上限，標(biāo)準(zhǔn)就會(huì)變得更嚴(yán)格，確保只有最重要的變化才能被記錄。

但僅僅有語義上的重要性還不夠，系統(tǒng)還需要確保選擇的畫面在視覺質(zhì)量上足夠好。這就引入了"美學(xué)偏好過濾"機(jī)制。就像一個(gè)挑剔的攝影師不會(huì)把模糊或曝光不當(dāng)?shù)恼掌湃胱髌芳粯樱琒toryMem使用HPSv3美學(xué)評(píng)分模型來評(píng)估每個(gè)候選關(guān)鍵幀的視覺質(zhì)量。只有那些在語義重要性和視覺質(zhì)量兩個(gè)維度都表現(xiàn)優(yōu)秀的畫面，才會(huì)被正式納入記憶庫。

這種雙重篩選機(jī)制確保了記憶庫的高質(zhì)量。模糊不清的畫面、構(gòu)圖混亂的鏡頭或者包含明顯錯(cuò)誤的幀都會(huì)被自動(dòng)過濾掉，只保留那些既能提供有用信息又具備良好視覺效果的關(guān)鍵幀。這樣一來，當(dāng)系統(tǒng)在生成新鏡頭時(shí)參考這些記憶，得到的結(jié)果自然也會(huì)更加清晰和美觀。

為了防止記憶庫無限制增長，研究團(tuán)隊(duì)還設(shè)計(jì)了一套"記憶管理策略"。這個(gè)策略結(jié)合了"記憶沉淀"和"滑動(dòng)窗口"兩種機(jī)制。記憶沉淀就像人類的長期記憶，會(huì)保留故事開始時(shí)的幾個(gè)關(guān)鍵畫面作為"錨點(diǎn)"，確保整個(gè)故事的基調(diào)和主要角色始終保持一致。滑動(dòng)窗口則像短期記憶，專注于最近幾個(gè)鏡頭的內(nèi)容，捕捉故事的即時(shí)發(fā)展和局部變化。當(dāng)記憶庫達(dá)到容量上限時(shí)，系統(tǒng)會(huì)優(yōu)先刪除較老的短期記憶，同時(shí)保留那些重要的長期錨點(diǎn)。

三、超越單鏡頭的創(chuàng)新：從獨(dú)立片段到連貫敘事

傳統(tǒng)的AI視頻生成就像一個(gè)只會(huì)畫靜物的畫家，每次都能創(chuàng)作出精美的單幅作品，但要畫連環(huán)畫時(shí)就顯得力不從心了。StoryMem的革命性突破在于，它將這種"單幅畫家"升級(jí)成了"連環(huán)畫大師"，能夠創(chuàng)作出情節(jié)連貫、風(fēng)格統(tǒng)一的長篇視覺故事。

這個(gè)轉(zhuǎn)變的關(guān)鍵在于重新定義了視頻生成的數(shù)學(xué)框架。研究團(tuán)隊(duì)沒有試圖用一個(gè)巨大的模型同時(shí)處理所有鏡頭（這會(huì)消耗巨大的計(jì)算資源），也沒有簡單地讓每個(gè)鏡頭各自為政（這會(huì)導(dǎo)致不一致問題）。相反，他們采用了一種類似于"連載小說"的創(chuàng)作方式：每一章節(jié)（鏡頭）都基于前面的內(nèi)容進(jìn)行創(chuàng)作，同時(shí)為后面的章節(jié)提供基礎(chǔ)。

具體來說，系統(tǒng)將整個(gè)故事生成過程分解為一系列條件生成步驟。每個(gè)新鏡頭的生成都會(huì)同時(shí)考慮兩個(gè)輸入：當(dāng)前鏡頭的文字描述和從記憶庫中提取的相關(guān)視覺信息。這就像一個(gè)作家在寫新章節(jié)時(shí)，既要參考編輯給出的大綱要求，又要翻閱之前寫過的內(nèi)容，確保人物性格、故事背景和敘事風(fēng)格保持一致。

這種方法的巧妙之處在于它充分利用了現(xiàn)有高質(zhì)量模型的能力，而不是從頭開始訓(xùn)練。研究團(tuán)隊(duì)基于先進(jìn)的Wan2.2-I2V模型進(jìn)行改造，這個(gè)模型本身就具備出色的單鏡頭生成能力。通過添加記憶機(jī)制和適當(dāng)?shù)奈⒄{(diào)，系統(tǒng)在保持原有畫質(zhì)優(yōu)勢的同時(shí)，獲得了跨鏡頭一致性的新能力。這就像給一個(gè)已經(jīng)很熟練的畫家提供了一套專業(yè)的參考工具，讓他能夠創(chuàng)作更加復(fù)雜和連貫的作品。

為了驗(yàn)證這種方法的有效性，研究團(tuán)隊(duì)還構(gòu)建了一個(gè)全新的評(píng)估基準(zhǔn)ST-Bench。這個(gè)基準(zhǔn)包含30個(gè)不同風(fēng)格的故事腳本，每個(gè)故事包含8到12個(gè)鏡頭的詳細(xì)描述，涵蓋了從現(xiàn)實(shí)主義到奇幻風(fēng)格的各種類型。這就像為畫家準(zhǔn)備了一套標(biāo)準(zhǔn)化的考試題目，用來測試他們?cè)诓煌黝}和風(fēng)格下的創(chuàng)作能力。

測試結(jié)果令人印象深刻。在跨鏡頭一致性方面，StoryMem比傳統(tǒng)方法提升了28.7%，比之前最先進(jìn)的方法提升了9.4%。更重要的是，這種提升并沒有以犧牲單鏡頭質(zhì)量為代價(jià)。系統(tǒng)在保持高畫質(zhì)的同時(shí)，還在語義準(zhǔn)確性和美學(xué)質(zhì)量方面都達(dá)到了業(yè)界領(lǐng)先水平。用戶研究也顯示，普通觀眾能夠明顯感受到StoryMem生成視頻的優(yōu)越性，在角色一致性和故事連貫性方面都給出了更高的評(píng)價(jià)。

四、技術(shù)細(xì)節(jié)的巧思：讓復(fù)雜變簡單的工程藝術(shù)

要讓AI真正理解并運(yùn)用記憶，需要解決許多技術(shù)挑戰(zhàn)。StoryMem最令人稱道的地方在于，它用相對(duì)簡單優(yōu)雅的方法解決了這些復(fù)雜問題，就像一個(gè)巧妙的機(jī)械裝置，用最少的零件實(shí)現(xiàn)最大的功能。

首先是記憶信息的編碼問題。記憶中的關(guān)鍵幀需要與當(dāng)前正在生成的視頻幀融合，但兩者來自不同的時(shí)間和上下文。研究團(tuán)隊(duì)采用了"潛在空間拼接"的方法，將記憶幀和當(dāng)前幀都轉(zhuǎn)換為相同的數(shù)學(xué)表示形式，然后在這個(gè)抽象空間中進(jìn)行融合。這就像把不同時(shí)期拍攝的照片都轉(zhuǎn)換為同一種格式，然后可以放在同一個(gè)相冊(cè)中進(jìn)行比較和參考。

時(shí)間位置編碼是另一個(gè)關(guān)鍵挑戰(zhàn)。在視頻處理中，每一幀都有明確的時(shí)間位置，但記憶幀來自過去的不同時(shí)刻，如何讓AI正確理解這種時(shí)間關(guān)系？研究團(tuán)隊(duì)創(chuàng)造性地使用了"負(fù)向時(shí)間標(biāo)記"。簡單來說，如果當(dāng)前鏡頭的幀被標(biāo)記為0、1、2、3...，那么記憶幀就被標(biāo)記為-5、-4、-3...這樣AI就能清楚地知道哪些是歷史信息，哪些是當(dāng)前內(nèi)容，同時(shí)還能理解它們之間的相對(duì)時(shí)間關(guān)系。

訓(xùn)練數(shù)據(jù)的準(zhǔn)備也體現(xiàn)了研究團(tuán)隊(duì)的巧思。與其收集大量昂貴的長視頻數(shù)據(jù)，他們選擇了一種更聰明的方法：將現(xiàn)有的高質(zhì)量短視頻進(jìn)行智能分組。通過視覺相似度分析，系統(tǒng)會(huì)找到那些在角色、場景或風(fēng)格上相關(guān)的視頻片段，然后將它們組合成"人工故事"進(jìn)行訓(xùn)練。這就像用現(xiàn)有的短篇小說片段重新組合成新的連載故事，既利用了現(xiàn)有的高質(zhì)量內(nèi)容，又創(chuàng)造了訓(xùn)練所需的長序列數(shù)據(jù)。

模型的微調(diào)策略同樣值得稱道。研究團(tuán)隊(duì)沒有對(duì)整個(gè)龐大的模型進(jìn)行全面訓(xùn)練，而是使用了LoRA（低秩適應(yīng)）技術(shù)，只對(duì)模型的關(guān)鍵部分進(jìn)行針對(duì)性調(diào)整。這種方法就像給一臺(tái)高端汽車安裝新的導(dǎo)航系統(tǒng)，而不是重新制造整臺(tái)車。這樣既保持了原有的高性能，又添加了新功能，同時(shí)大大降低了計(jì)算成本和訓(xùn)練時(shí)間。

在推理階段，系統(tǒng)還實(shí)現(xiàn)了高效的記憶管理。每次生成新鏡頭后，系統(tǒng)會(huì)自動(dòng)分析新產(chǎn)生的內(nèi)容，提取有價(jià)值的關(guān)鍵幀，并將其與現(xiàn)有記憶進(jìn)行比較。如果發(fā)現(xiàn)新的重要信息，就會(huì)更新記憶庫；如果記憶庫已滿，就會(huì)根據(jù)重要性和時(shí)效性原則，智能地決定保留哪些信息，丟棄哪些信息。這個(gè)過程就像一個(gè)經(jīng)驗(yàn)豐富的圖書管理員，不斷整理和更新收藏，確保最有價(jià)值的資料始終可用。

五、擴(kuò)展應(yīng)用的想象空間：從講故事到個(gè)性化創(chuàng)作

StoryMem的價(jià)值不僅僅局限于生成連貫的故事視頻，它更像一個(gè)多功能的創(chuàng)作工具箱，可以適應(yīng)各種不同的視頻創(chuàng)作需求。研究團(tuán)隊(duì)展示了幾種令人興奮的擴(kuò)展應(yīng)用，每一種都為未來的內(nèi)容創(chuàng)作開辟了新的可能性。

其中最實(shí)用的擴(kuò)展是MI2V（Memory + Image-to-Video）模式。這種模式解決了故事鏡頭之間轉(zhuǎn)換生硬的問題。在傳統(tǒng)的分鏡創(chuàng)作中，不同鏡頭之間往往存在明顯的切換痕跡，就像電影中突兀的剪輯。MI2V模式允許系統(tǒng)重用前一個(gè)鏡頭的最后一幀作為下一個(gè)鏡頭的起始畫面，創(chuàng)造出更加流暢自然的視覺過渡。這就像一個(gè)熟練的攝影師在拍攝時(shí)會(huì)考慮鏡頭之間的連接，確保整個(gè)序列看起來像一個(gè)連續(xù)的視覺流。

更加激動(dòng)人心的是MR2V（Memory + Reference-to-Video）功能，它為個(gè)性化內(nèi)容創(chuàng)作打開了全新的大門。用戶可以提供自己的照片或喜歡的角色圖片作為"種子記憶"，系統(tǒng)就能圍繞這些特定的人物或?qū)ο髣?chuàng)作故事。這意味著每個(gè)人都可以讓自己成為故事的主角，或者為自己的寵物、朋友創(chuàng)作專屬的視頻內(nèi)容。這種功能就像擁有了一個(gè)私人電影導(dǎo)演，能夠根據(jù)你的具體需求創(chuàng)作定制化的視覺故事。

系統(tǒng)還展現(xiàn)出了處理復(fù)雜敘事結(jié)構(gòu)的能力。通過在故事腳本中添加場景切換標(biāo)記，創(chuàng)作者可以控制故事的節(jié)奏和轉(zhuǎn)換方式。當(dāng)需要表現(xiàn)時(shí)間跳躍或場景轉(zhuǎn)換時(shí)，系統(tǒng)會(huì)創(chuàng)建明顯的切換效果；而在需要連續(xù)敘事時(shí)，系統(tǒng)則會(huì)創(chuàng)造平滑的過渡。這種靈活性讓StoryMem能夠適應(yīng)從簡單的日常vlog到復(fù)雜的劇情片等各種創(chuàng)作需求。

在實(shí)際應(yīng)用場景中，這項(xiàng)技術(shù)可能會(huì)徹底改變內(nèi)容創(chuàng)作的生態(tài)。教育領(lǐng)域可以用它來創(chuàng)作生動(dòng)的歷史重現(xiàn)或科學(xué)解說視頻；企業(yè)可以快速制作產(chǎn)品演示或培訓(xùn)材料；獨(dú)立創(chuàng)作者可以用極低的成本制作高質(zhì)量的故事內(nèi)容。更重要的是，這種技術(shù)降低了視頻創(chuàng)作的門檻，讓那些有好故事但缺乏技術(shù)技能的人也能表達(dá)自己的創(chuàng)意。

研究團(tuán)隊(duì)還發(fā)現(xiàn)，用戶可以通過調(diào)整記憶選擇策略來影響最終的創(chuàng)作風(fēng)格。比如，如果在記憶選擇時(shí)更注重人物特寫，生成的故事就會(huì)更加關(guān)注角色情感；如果更注重環(huán)境和場景，生成的內(nèi)容就會(huì)有更強(qiáng)的氛圍感。這種可調(diào)節(jié)性讓系統(tǒng)能夠適應(yīng)不同創(chuàng)作者的風(fēng)格偏好和具體項(xiàng)目需求。

六、真實(shí)世界的表現(xiàn)：當(dāng)理論遭遇實(shí)際測試

任何技術(shù)創(chuàng)新都需要經(jīng)受現(xiàn)實(shí)世界的檢驗(yàn)，StoryMem也不例外。為了全面評(píng)估系統(tǒng)的實(shí)際表現(xiàn)，研究團(tuán)隊(duì)進(jìn)行了大量的對(duì)比實(shí)驗(yàn)和用戶研究，結(jié)果既驗(yàn)證了技術(shù)的先進(jìn)性，也揭示了一些需要繼續(xù)改進(jìn)的地方。

在定量評(píng)估方面，團(tuán)隊(duì)使用了三個(gè)主要維度的指標(biāo)。首先是美學(xué)質(zhì)量，這衡量的是生成視頻的視覺美感和技術(shù)質(zhì)量。StoryMem在這方面表現(xiàn)優(yōu)異，生成的視頻在色彩和諧度、畫面清晰度和整體美感方面都達(dá)到了很高的水準(zhǔn)，與目前最好的單鏡頭生成模型相當(dāng)。這證明了系統(tǒng)在添加記憶功能的同時(shí)，沒有損害原有的視頻質(zhì)量。

其次是提示跟隨能力，即生成的視頻內(nèi)容與文字描述的匹配程度。StoryMem在全局語義理解方面表現(xiàn)突出，能夠準(zhǔn)確把握整個(gè)故事的主題和情感基調(diào)。雖然在單鏡頭的細(xì)節(jié)描述跟隨方面略有下降，但這是為了保持整體一致性而做出的合理權(quán)衡。就像一個(gè)優(yōu)秀的改編導(dǎo)演會(huì)為了電影的整體效果而調(diào)整原著的某些細(xì)節(jié)一樣，這種取舍是必要和明智的。

最重要的是跨鏡頭一致性指標(biāo)，這正是StoryMem要解決的核心問題。測試結(jié)果非常令人鼓舞：與傳統(tǒng)方法相比，StoryMem在整體一致性方面提升了28.7%，在最相關(guān)鏡頭對(duì)的一致性方面提升了9.4%。這意味著生成的故事視頻中，人物外觀、服裝風(fēng)格、場景布置等關(guān)鍵元素在不同鏡頭間保持了更高的一致性。

用戶研究的結(jié)果更加直觀地反映了技術(shù)的實(shí)用價(jià)值。研究團(tuán)隊(duì)邀請(qǐng)了普通用戶觀看并比較不同方法生成的故事視頻，然后從多個(gè)維度進(jìn)行評(píng)分。結(jié)果顯示，用戶普遍認(rèn)為StoryMem生成的視頻更具故事性和觀賞性。特別值得注意的是，用戶對(duì)角色一致性和敘事連貫性的改善感受最為明顯，這正是系統(tǒng)設(shè)計(jì)要解決的核心問題。

但測試也揭示了一些局限性。在處理復(fù)雜多角色場景時(shí)，純視覺記憶有時(shí)會(huì)出現(xiàn)混淆。比如當(dāng)故事中出現(xiàn)多個(gè)相似外觀的角色時(shí)，系統(tǒng)可能無法準(zhǔn)確區(qū)分誰是誰，導(dǎo)致角色特征的錯(cuò)誤匹配。研究團(tuán)隊(duì)發(fā)現(xiàn)，通過在文字描述中添加更詳細(xì)的角色信息可以顯著改善這個(gè)問題，但這也意味著系統(tǒng)還有進(jìn)一步智能化的空間。

另一個(gè)挑戰(zhàn)來自于鏡頭轉(zhuǎn)換的平滑度。雖然MI2V模式大大改善了轉(zhuǎn)換的自然性，但當(dāng)相鄰鏡頭的運(yùn)動(dòng)速度差異很大時(shí)，連接處仍然可能顯得不夠自然。這就像兩個(gè)不同節(jié)拍的音樂片段強(qiáng)行拼接，雖然旋律是連貫的，但節(jié)奏上的突變還是會(huì)被察覺到。研究團(tuán)隊(duì)認(rèn)為，未來通過擴(kuò)展幀間重疊的范圍可能會(huì)進(jìn)一步改善這個(gè)問題。

七、未來展望：技術(shù)邊界與發(fā)展方向

StoryMem的成功只是長視頻生成領(lǐng)域的一個(gè)重要里程碑，而不是終點(diǎn)。研究團(tuán)隊(duì)在論文中誠實(shí)地討論了當(dāng)前方法的局限性，并為未來的改進(jìn)指出了明確的方向。

當(dāng)前最主要的挑戰(zhàn)來自于記憶機(jī)制的"視覺局限性"。現(xiàn)在的系統(tǒng)只能存儲(chǔ)和理解視覺信息，就像一個(gè)只能看圖片而不能讀文字說明的圖書管理員。在復(fù)雜的多角色故事中，僅憑視覺特征有時(shí)難以準(zhǔn)確識(shí)別和跟蹤不同的人物。未來的改進(jìn)方向是開發(fā)"多模態(tài)記憶"系統(tǒng)，讓AI同時(shí)理解視覺和文字信息，建立更精確的角色和場景關(guān)聯(lián)。

另一個(gè)重要的發(fā)展方向是實(shí)現(xiàn)更智能的"實(shí)體感知記憶"。當(dāng)前的系統(tǒng)主要基于整體畫面的視覺相似性進(jìn)行記憶管理，但人類的記憶更多是基于具體的人物、物體和概念。未來的系統(tǒng)可能會(huì)發(fā)展出類似于"人物檔案"和"場景圖譜"的結(jié)構(gòu)化記憶方式，為每個(gè)重要角色和場景建立獨(dú)立的記憶檔案，實(shí)現(xiàn)更精確的一致性控制。

技術(shù)架構(gòu)方面，研究團(tuán)隊(duì)也看到了進(jìn)一步優(yōu)化的空間。目前的方法主要適用于基于Diffusion Transformer的模型架構(gòu)，但隨著更先進(jìn)的視頻生成架構(gòu)的出現(xiàn)，記憶機(jī)制也需要相應(yīng)的升級(jí)和適配。特別是隨著多模態(tài)大模型的發(fā)展，未來可能會(huì)出現(xiàn)原生支持長序列記憶的視頻生成模型。

在應(yīng)用層面，StoryMem為整個(gè)內(nèi)容創(chuàng)作行業(yè)帶來了新的想象空間。電影制作可能會(huì)出現(xiàn)"AI預(yù)覽"環(huán)節(jié)，導(dǎo)演可以快速生成故事概念的視覺化預(yù)覽；教育內(nèi)容制作可能會(huì)變得更加個(gè)性化和生動(dòng)；社交媒體內(nèi)容創(chuàng)作的門檻將進(jìn)一步降低，讓更多人能夠表達(dá)自己的創(chuàng)意想法。

更深層次的影響可能來自于這種技術(shù)對(duì)敘事藝術(shù)本身的改變。當(dāng)技術(shù)工具變得足夠智能和易用時(shí)，創(chuàng)作者可以將更多精力投入到故事本身，而不是技術(shù)實(shí)現(xiàn)細(xì)節(jié)。這可能會(huì)催生新的敘事形式和表達(dá)方式，就像當(dāng)年攝影技術(shù)的普及改變了視覺藝術(shù)一樣。

研究團(tuán)隊(duì)還指出了一些需要整個(gè)學(xué)術(shù)界共同努力的挑戰(zhàn)。評(píng)估長視頻生成質(zhì)量仍然是一個(gè)開放問題，需要開發(fā)更完善的評(píng)估標(biāo)準(zhǔn)和工具。ST-Bench的發(fā)布是這個(gè)方向的重要貢獻(xiàn)，但還需要更大規(guī)模、更多樣化的基準(zhǔn)數(shù)據(jù)集來全面評(píng)估不同方法的表現(xiàn)。

說到底，StoryMem代表的不僅僅是一項(xiàng)技術(shù)突破，更是AI創(chuàng)作能力向人類水平邁進(jìn)的重要一步。它證明了通過巧妙的系統(tǒng)設(shè)計(jì)和對(duì)人類認(rèn)知機(jī)制的深入理解，我們可以讓AI獲得類似人類的"記憶"和"連貫思考"能力。這種能力的獲得，標(biāo)志著AI從單純的"工具"向"創(chuàng)作伙伴"的轉(zhuǎn)變，為人機(jī)協(xié)作創(chuàng)作開啟了新的篇章。

當(dāng)普通人也能輕松創(chuàng)作出電影級(jí)別的故事視頻時(shí)，當(dāng)每個(gè)人的創(chuàng)意都能通過智能工具得到專業(yè)級(jí)的表達(dá)時(shí)，我們或許正在見證一個(gè)全民創(chuàng)作時(shí)代的到來。StoryMem只是這個(gè)時(shí)代的開端，更多的突破和可能性還在等待著我們?nèi)グl(fā)現(xiàn)和實(shí)現(xiàn)。對(duì)于任何關(guān)注AI發(fā)展和內(nèi)容創(chuàng)作未來的人來說，這項(xiàng)研究都值得持續(xù)關(guān)注，因?yàn)樗赡苷诟膶懳覀冎v述和分享故事的方式。

Q&A

Q1：StoryMem技術(shù)是如何讓AI記住之前生成的視頻內(nèi)容的？

A：StoryMem為AI配備了一個(gè)"視覺記憶庫"，就像給導(dǎo)演配了專業(yè)劇務(wù)助理。系統(tǒng)會(huì)自動(dòng)從每個(gè)生成的鏡頭中挑選關(guān)鍵畫面，存儲(chǔ)角色外觀、場景布置等重要視覺信息。生成新鏡頭時(shí)，AI會(huì)查閱這個(gè)記憶庫，確保新內(nèi)容與之前保持一致。這個(gè)過程通過語義分析和美學(xué)評(píng)分進(jìn)行智能篩選，只保留最有價(jià)值的關(guān)鍵幀。

Q2：普通人可以用StoryMem創(chuàng)作什么類型的視頻內(nèi)容？

A：StoryMem支持多種創(chuàng)作需求，從日常vlog到復(fù)雜劇情片都可以制作。用戶只需提供文字故事描述，系統(tǒng)就能生成分鐘級(jí)的連貫故事視頻。還支持個(gè)性化創(chuàng)作，可以上傳自己的照片作為主角，或?yàn)閷櫸锱笥讯ㄖ茖俟适隆＝逃ぷ髡呖梢灾谱鳉v史重現(xiàn)或科學(xué)解說，企業(yè)可以快速制作產(chǎn)品演示，創(chuàng)作門檻大大降低。

Q3：StoryMem生成的視頻質(zhì)量與傳統(tǒng)方法相比有什么優(yōu)勢？

A：StoryMem在跨鏡頭一致性方面比傳統(tǒng)方法提升了28.7%，角色外觀、服裝風(fēng)格、場景布置等在不同鏡頭間保持高度一致。同時(shí)保持了原有的高畫質(zhì)，在美學(xué)質(zhì)量和整體語義理解方面都達(dá)到業(yè)界領(lǐng)先水平。用戶研究顯示，觀眾普遍認(rèn)為StoryMem生成的視頻更具故事性和觀賞性，特別是在角色一致性和敘事連貫性方面改善明顯。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.