![]()
這是一項由中國科學院大學、阿里巴巴高德地圖事業部、中國科學院自動化研究所以及清華大學、東南大學的研究團隊共同完成的突破性研究。論文由吳美琪、朱家樹、馮曉坤、陳楚彬、朱晨等多位研究者撰寫,已發表在2025年10月的學術預印本平臺上,論文編號為arXiv:2510.14847v2。
一、為什么AI總是在想象力上失手
你有沒有試過給AI描述一個奇異的場景,比如"一只駱駝在沙漠里打包行李"或者"一只熊在草地上操控遙控器"?如果你試過,你可能會發現AI生成的視頻往往顯得生硬、不自然,甚至完全無法理解你的意思。這不是因為AI不夠聰明,而是因為它遇到了一個根本性的問題:它從未見過這樣的場景。
現在的視頻生成模型在處理日常、真實的場景時表現得相當不錯。你讓它生成一個"人在沙灘上走路"的視頻,它可能做得很好。但當你要求它生成一些想象力十足的、超現實的場景時,效果就會急劇下降。這背后的原因很有意思——這些奇異場景涉及的概念之間距離很遠,它們在真實世界中幾乎不會同時出現。
想象你在學習一門新語言。如果你學的是"蘋果"和"紅色"這樣經常一起出現的詞匯,學起來很容易。但如果要你學"紫色的數學"這樣的組合,就會困難得多,因為這兩個概念在現實中幾乎沒有關聯。AI也是這樣。它的訓練數據主要來自真實世界的視頻,而真實世界中,駱駝就是駱駝,它們走路、吃草,很少去"打包行李"。當AI被要求生成這樣的場景時,它就陷入了困境。
二、ImagerySearch:讓AI學會做白日夢
阿里和中科院的研究團隊提出了一個巧妙的解決方案,叫做ImagerySearch。這個方法的靈感來自一個有趣的心理學理論——人類在想象奇異場景時,會花更多的時間和精力來構建心理意象。換句話說,當你想象"一只熊操控遙控器"時,你的大腦會比想象"一個人走路"時更加努力地工作。
ImagerySearch就是按照這個原理來設計的。它包含兩個核心部分,像是兩個相互配合的工具。第一個工具叫做"語義距離感知的動態搜索空間",簡單來說就是讓AI根據你描述的場景有多"奇異"來調整自己的工作方式。如果你描述的是一個很常見的場景,AI就可以快速生成;如果你描述的是一個非常奇異的場景,AI就會放慢腳步,花更多時間和計算資源來探索各種可能性。
這就像你在做一道菜。如果是炒青菜這樣的簡單菜肴,你可以快速完成。但如果要做一道從未見過的創意菜肴,你就需要更多時間來嘗試不同的配料和烹飪方法。AI也是這樣——對于常見的場景,它可以直接套用已知的模式;對于奇異的場景,它需要更多的"嘗試"。
第二個工具叫做"自適應意象獎勵"。這是一個評分系統,用來判斷AI生成的視頻有多好。但這個評分系統不是固定的,它會根據你描述的場景的復雜程度來調整自己的評分標準。對于簡單場景,它會嚴格要求視頻的美觀度;對于復雜場景,它會更加關注視頻是否準確理解了你的描述。這就像一個老師在改卷子,對于簡單題目要求高,對于難題只要學生理解了核心概念就給分。
三、如何衡量AI的想象力:LDT-Bench的誕生
但問題來了——如果我們要評估AI在想象力上的進步,用什么標準呢?現有的評估方法都是針對真實場景設計的,對于奇異場景就不太適用了。研究團隊意識到這一點,決定創建一個全新的評估基準,名叫LDT-Bench。
LDT-Bench的構建過程相當有趣。研究團隊首先從大規模的圖像和視頻數據庫中提取了物體和動作。他們從ImageNet-1K中獲取了1938種物體(從駱駝到遙控器,應有盡有),從Kinetics-600等視頻數據庫中獲取了901種動作(從走路到打包,五花八門)。然后,他們用一個巧妙的方法來找出那些"最不相關"的配對。
想象你有一張巨大的地圖,上面標記了所有物體和動作的位置。距離越遠的兩個點,就代表它們在現實世界中越不可能同時出現。研究團隊就是按照這個邏輯,找出了距離最遠的配對,比如"駱駝打包行李"或"熊操控遙控器"。最終,他們構建了一個包含2839個提示的數據集,涵蓋了各種奇異的場景組合。
但僅有提示還不夠,還需要一套評估方法。研究團隊設計了一個叫做ImageryQA的評估框架,包含三個部分。第一部分叫ElementQA,它檢查視頻中是否出現了提示中提到的物體和動作。比如,如果提示是"熊操控遙控器",它就會問"視頻中出現了熊嗎?""熊在操控遙控器嗎?"第二部分叫AlignQA,它評估視頻的視覺質量和美學效果。第三部分叫AnomalyQA,它檢查視頻中是否出現了不自然的現象,比如物體突然消失或運動違反物理規律。
這三部分評估就像一個全面的體檢。ElementQA檢查你是否理解了醫生的指示,AlignQA檢查你的整體健康狀況,AnomalyQA檢查是否有任何異常情況。
四、ImagerySearch的工作原理:一場精心編排的舞蹈
現在讓我們深入了解ImagerySearch具體是如何工作的。為了理解這一點,我們需要先了解視頻生成的基本原理。
現代的視頻生成模型使用一種叫做擴散的技術。簡單來說,這就像是在倒放一個視頻。在正常的視頻中,你看到的是從模糊到清晰的過程。但在擴散模型中,過程是反向的——模型從完全的噪聲開始,逐步去除噪聲,最終生成一個清晰的視頻。這個過程分為很多步驟,通常需要幾十甚至幾百步才能完成。
ImagerySearch在這個過程中插入了一些"檢查點"。在這些檢查點處,模型會生成幾個不同的候選視頻,然后用評分系統給它們打分,最后只保留最好的那些,繼續進行后續的去噪過程。這就像是在烹飪一道復雜的菜肴時,每隔一段時間就嘗一下味道,如果不對就調整調料,然后繼續烹飪。
但這里有個聰明的地方——模型不是在每一步都做這樣的檢查,而是只在特定的幾個關鍵步驟做檢查。研究團隊通過分析發現,相鄰的去噪步驟對視頻的改變很小,只有在某些特定的步驟才會產生顯著的變化。所以,他們選擇了四個關鍵的檢查點(第5、20、30、45步),這樣既能保證質量,又不會浪費太多的計算資源。
現在讓我們回到ImagerySearch的兩個核心部分。第一部分——語義距離感知的動態搜索空間——的工作方式是這樣的:首先,模型會計算你的提示中各個概念之間的"距離"。這個距離是通過一個文本編碼器(比如T5或CLIP)來計算的。編碼器會把每個詞轉換成一個數字向量,然后計算向量之間的距離。距離越大,說明這兩個概念在現實世界中越不相關。
一旦計算出了這個距離,模型就會根據距離來調整搜索空間的大小。具體的公式很簡單:候選視頻的數量等于基礎數量乘以一個與語義距離成正比的因子。換句話說,如果你的提示涉及的概念距離很遠,模型就會生成更多的候選視頻;如果距離很近,模型就會生成較少的候選視頻。這樣做的好處是,對于簡單的任務,模型可以快速完成;對于復雜的任務,模型有更多的機會找到好的解決方案。
第二部分——自適應意象獎勵——是一個更復雜的評分系統。它綜合考慮了多個因素,包括視頻的運動質量、文本與視頻的對齊程度、視覺質量等。但關鍵的是,這些因素的權重不是固定的,而是會根據語義距離動態調整。對于語義距離大的提示,模型會更加強調文本對齊的重要性;對于語義距離小的提示,模型會更加關注視覺質量。
這就像是一個評委在評判藝術作品。對于一個傳統的風景畫,評委會嚴格要求色彩的準確性和構圖的美感。但對于一個超現實主義作品,評委就會更加關注藝術家是否成功傳達了他的創意意圖,而不是過分強調技術細節。
五、實驗結果:數字背后的故事
研究團隊進行了大量的實驗來驗證ImagerySearch的有效性。他們在兩個主要的數據集上進行了測試:自己創建的LDT-Bench和現有的VBench。
在LDT-Bench上,結果相當令人印象深刻。基礎模型Wan2.1的總體評分是48.28分。當應用了ImagerySearch后,評分提升到了57.11分,提升幅度達到了8.83個百分點。這是一個相當顯著的改進。更有趣的是,與其他最先進的測試時間縮放方法(比如Video-T1和EvoSearch)相比,ImagerySearch也表現得更好。這說明ImagerySearch不僅有效,而且相比現有的方法有明顯的優勢。
在更細致的評估中,我們可以看到ImagerySearch在三個方面都有改進。在ElementQA上(檢查物體和動作是否出現),從1.66分提升到2.01分。在AlignQA上(檢查視覺質量),從31.62分提升到36.82分。在AnomalyQA上(檢查異常現象),從15.00分提升到18.28分。這說明ImagerySearch在所有方面都有改進,不是某一個方面特別強,而是全面提升。
在VBench上的表現也很不錯。VBench是一個更加全面的評估基準,包含了多個維度的評估,比如美學質量、背景一致性、動態程度等。在這個基準上,ImagerySearch的平均評分是83.48分,比基礎模型Wan2.1的78.53分提高了4.95個百分點。更重要的是,ImagerySearch在動態程度和主體一致性這兩個維度上表現特別突出,這正是處理奇異場景所需要的。
六、穩定性和可擴展性:ImagerySearch的隱藏優勢
除了在評分上的提升,研究團隊還發現了ImagerySearch的另外兩個重要優勢。
第一個優勢是穩定性。當語義距離增加時(也就是說,提示變得越來越奇異),不同的模型的表現會出現很大的波動。基礎模型Wan2.1的表現會隨著語義距離的增加而急劇下降。其他的測試時間縮放方法也會出現明顯的波動。但ImagerySearch的表現相對穩定,即使在面對最奇異的場景時,也能保持相對一致的質量。這就像是一個經驗豐富的廚師,無論菜肴有多復雜,都能保持相對穩定的質量。
第二個優勢是可擴展性。研究團隊測試了當增加計算資源時,模型的表現如何變化。他們用一個叫做"函數評估次數"的指標來衡量計算量。結果顯示,ImagerySearch的表現隨著計算量的增加而持續改進,而其他方法的表現在增加到一定程度后就停止改進了。這說明ImagerySearch能更有效地利用額外的計算資源。
七、消融研究:每個部分都很重要
為了確保ImagerySearch的兩個核心部分都是必要的,研究團隊進行了消融研究。這就像是在做一道菜時,逐個移除一個配料,看看效果如何。
當只使用基礎模型時,VBench的評分是78.53分。當添加語義距離感知的動態搜索空間時,評分提升到81.30分。當添加自適應意象獎勵時,評分提升到82.11分。當兩個部分都使用時,評分達到83.48分。這清楚地表明,兩個部分都有貢獻,而且它們的貢獻是相加的,這說明它們是互補的。
研究團隊還測試了使用固定搜索空間大小而不是動態調整的效果。結果顯示,固定大小的搜索空間(無論是0.5倍還是0.9倍)的表現都不如動態調整的好。這進一步證實了動態調整的重要性。
八、與其他方法的比較:為什么ImagerySearch更勝一籌
研究團隊還比較了ImagerySearch與其他幾種搜索策略的表現,比如Best-of-N(簡單地生成N個視頻,然后選擇最好的)和粒子采樣(一種更復雜的采樣方法)。結果顯示,ImagerySearch的表現都更好。這說明,不僅是動態調整很重要,ImagerySearch采用的具體搜索策略也是經過精心設計的。
九、實際應用的啟示
這項研究對于視頻生成技術的實際應用有什么啟示呢?首先,它表明了一個重要的事實:現有的視頻生成模型在處理真實場景時表現很好,但在處理創意、奇異的場景時仍然有很大的改進空間。這對于那些希望使用AI來創作創意內容的人來說是個好消息——雖然現在還不完美,但通過更聰明的方法,我們可以顯著改進。
其次,這項研究展示了一個有趣的方向:不一定要重新訓練模型或收集更多的訓練數據,只需要在推理時使用更聰明的策略,就可以顯著改進性能。這對于那些無法訪問大量訓練數據或計算資源的人來說特別有價值。
第三,這項研究提出的LDT-Bench為未來的研究提供了一個有用的評估工具。現在,研究者可以用這個基準來測試他們的模型在處理創意場景時的能力,而不僅僅是在處理真實場景時的能力。
十、未來的可能性
雖然ImagerySearch已經取得了顯著的成果,但研究團隊也指出了未來的改進方向。他們計劃探索更靈活的獎勵機制,可能會考慮使用強化學習或其他高級技術來進一步優化獎勵函數。他們也可能會考慮如何將這種方法擴展到其他類型的生成任務,比如圖像生成或文本生成。
此外,隨著視頻生成模型本身的不斷進步,ImagerySearch這樣的推理時優化方法可能會變得越來越重要。因為即使模型本身變得更強大,處理創意任務的難度仍然會存在,而聰明的推理策略可以幫助模型更好地應對這些挑戰。
十一、對AI創意能力的思考
這項研究觸及了一個深層的問題:AI是否真的能夠進行創意思考?ImagerySearch的成功表明,至少在某種程度上,AI可以通過更聰明的推理策略來模擬創意思考的過程。它不是通過理解創意的本質,而是通過更多地探索可能性空間,并更聰明地評估這些可能性。
這就像是一個作家在創作一部新穎的小說時,不是憑空想象,而是通過大量的閱讀、思考和修改來逐步完善自己的作品。AI也可以通過類似的過程來生成創意內容,雖然底層的機制可能完全不同。
說到底,ImagerySearch的核心貢獻在于它展示了一個重要的原則:有時候,解決問題的關鍵不在于擁有更多的知識或更強大的工具,而在于如何更聰明地使用現有的工具。這個原則不僅適用于AI,也適用于人類的許多活動。
Q&A
Q1:ImagerySearch是什么,它為什么能幫助AI生成更好的創意視頻?
A:ImagerySearch是一種在視頻生成過程中使用的智能搜索策略。它根據你描述的場景有多"奇異"來動態調整AI的工作方式——對于常見場景快速處理,對于奇異場景則花更多時間和資源探索。它包含兩個核心部分:一個根據概念距離調整搜索范圍的系統,和一個根據場景復雜度調整評分標準的系統。這樣AI就能更好地處理那些在現實中很少出現的創意場景。
Q2:LDT-Bench是什么,為什么需要創建這樣一個新的評估基準?
A:LDT-Bench是一個專門用來評估AI在處理創意、奇異場景時能力的數據集和評估框架。它包含2839個提示,涵蓋了各種不常見的物體和動作組合。現有的評估方法主要針對真實場景設計,對于創意場景就不太適用。LDT-Bench填補了這個空白,讓研究者能夠系統地測試和改進AI的創意能力。
Q3:ImagerySearch相比現有的視頻生成方法有什么具體的優勢?
A:ImagerySearch在多個方面都有優勢。在LDT-Bench上,它比基礎模型提升了8.83個百分點。與其他最先進的方法相比,它也表現更好。更重要的是,當場景變得越來越奇異時,ImagerySearch的表現相對穩定,而其他方法的表現會急劇下降。此外,ImagerySearch能更有效地利用額外的計算資源,當增加計算量時,它的表現會持續改進。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.