![]()
這項由香港科技大學、蟻集團等機構聯合開展的研究發表于2024年12月,研究團隊開發了名為WorldCanvas的AI框架。有興趣深入了解的讀者可以通過論文編號arXiv:2512.16924v1查詢完整論文。研究的核心作者包括王翰林、歐陽豪、王秋雨等來自不同知名院校的研究者,陳啟峰教授擔任通訊作者。
在電影制作中,導演需要與演員反復溝通才能拍出理想的鏡頭。如今,一種全新的AI技術讓這個過程變得像用畫筆作畫一樣簡單。你只需要在屏幕上畫出想要的運動路徑,輸入一段文字描述,再放入一張參考圖片,AI就能自動生成完全符合你創意的視頻片段。
這聽起來像科幻電影的情節,但香港科技大學的研究團隊真的做到了。他們開發的WorldCanvas系統就像一個魔法畫布,任何人都能在上面創造出生動的視頻世界。更令人驚喜的是,這個系統不僅能讓靜態角色動起來,還能讓它們按照你的想法進行復雜的互動,甚至能處理角色暫時消失又重新出現的情況,始終保持前后一致。
傳統的視頻生成AI通常只能根據文字描述產生大概的畫面,就像你告訴畫家"畫一個人在跑步",結果可能千差萬別。而WorldCanvas的創新之處在于,它把控制權完全交給了用戶。就好比你不僅告訴畫家要畫什么,還能精確指導每一筆的走向,最終得到的作品完全符合你的構思。
這種精確控制是通過三種信息的巧妙結合實現的。軌跡信息就像舞臺上演員的走位圖,告訴AI角色應該在何時何地做什么動作。參考圖片則像是角色的身份證照片,確保AI生成的角色外觀始終保持一致。而文字描述則是劇本,說明角色要執行什么樣的動作和情感表達。這三種信息相互配合,就像一個完整的電影制作方案。
研究團隊在設計這套系統時遇到的最大挑戰是如何讓AI理解復雜的多角色場景。設想一個場景:兩個小女孩在公園里玩耍,一個在前面哭泣并用手擦眼淚,另一個從后面走過來蹲下安慰。傳統AI很難準確區分哪個動作對應哪個角色,經常會搞混。
為了解決這個問題,研究團隊開發了一種叫做"空間感知加權交叉注意"的技術。這個名字聽起來很復雜,但原理其實很簡單。就像一個聰明的舞臺導演,AI會特別關注每個角色周圍的區域,并將相應的文字描述精確匹配到對應的角色身上。這樣,AI就能準確理解"前面的女孩哭泣"指的是哪個角色,"后面的女孩蹲下"又是指哪個角色。
更有趣的是,這套系統還能處理一些看似不可能的情況。比如一條鯊魚從沙漠的沙子中跳出來,再潛入沙中,然后又跳出來。雖然這在現實中完全不可能發生,但AI能夠理解這種"反常識"的創意,并生成相應的視頻效果,甚至還會添加鯊魚跳躍時濺起沙塵的細節。
在數據準備方面,研究團隊就像烹飪大師準備食材一樣精心。他們從公開視頻中篩選出高質量的片段,然后使用專門的追蹤算法記錄每個物體的運動軌跡。接著,他們讓先進的AI模型觀察這些帶有軌跡標記的視頻,并要求它描述每條軌跡對應的動作。這樣,AI就學會了如何將抽象的運動路徑與具體的動作描述聯系起來。
最關鍵的創新在于軌跡的處理方式。以往的系統只是簡單地記錄物體的位置坐標,就像在地圖上標記幾個點。而WorldCanvas則把軌跡當作包含豐富信息的"故事線"。軌跡上點與點之間的距離暗示了運動速度:點密集的地方表示緩慢移動,點稀疏的地方表示快速移動。軌跡還包含可見性標記,告訴AI角色在什么時候應該出現或消失。
這種精細的軌跡處理讓系統能夠生成極其逼真的動作。當你畫出一個籃球的拋物線軌跡時,AI不僅知道球的飛行路徑,還能根據軌跡的密度變化自動調整球的飛行速度,讓整個投籃動作看起來完全符合物理定律。
在實際測試中,WorldCanvas展現出了令人印象深刻的能力。研究團隊設計了一個復雜場景:一位老人和一輛汽車同時進入畫面,老人在看到汽車后向后退步,汽車急剎車避免撞到老人,最后老人走出畫面。這個場景涉及多個角色的協調動作和因果關系。傳統的視頻生成AI往往會產生混亂的結果,比如讓老人去追汽車,或者完全忽略兩者之間的互動。而WorldCanvas則能準確生成符合邏輯的完整序列。
更令人驚嘆的是系統的一致性維護能力。當一個角色暫時離開畫面然后重新出現時,AI能夠保持角色的外觀、身份和場景的連續性。這就像一個有記憶的畫家,即使畫布被暫時遮擋,重新露出時也能準確接續之前的內容。
為了驗證系統的效果,研究團隊進行了詳細的對比實驗。他們將WorldCanvas與當前最先進的視頻生成模型進行比較,包括Wan2.2、ATI和Frame In-N-Out等。結果顯示,WorldCanvas在軌跡跟蹤準確度、語義理解能力和視頻質量等多個方面都顯著超越了這些基準模型。
在用戶研究中,研究團隊邀請了15位參與者,包括視頻制作研究人員、藝術家和普通用戶,對不同模型生成的視頻進行評價。結果顯示,在軌跡跟蹤、文本遵循、文本-軌跡對齊、參考圖片保真度和整體視頻質量五個維度上,WorldCanvas都獲得了壓倒性的支持,獲得了75%以上的"最佳"選票。
這項技術的潛在應用前景廣闊。在電影制作領域,導演可以快速制作概念驗證視頻,在正式拍攝前就能看到想象中的畫面效果。在游戲開發中,設計師可以輕松創建復雜的角色動畫和場景演示。在教育領域,老師可以制作生動的教學視頻來解釋復雜概念。甚至普通用戶也能用它來制作個性化的社交媒體內容。
當然,這項技術也面臨一些挑戰。在處理極其復雜的空間變換或需要高度邏輯推理的場景時,系統偶爾會出現不完美的結果。比如當相機做360度旋轉時,畫面中的物體可能會出現輕微的模糊或不一致。另外,當角色暫時離開視野時,系統有時無法完全準確地推理出角色在視野外應該發生的變化。
盡管存在這些局限,WorldCanvas代表了視頻生成AI的一個重要里程碑。它不僅僅是一個技術工具,更像是一個創意伙伴,能夠理解用戶的想法并將其轉化為視覺現實。隨著技術的進一步完善,我們可能很快就會看到一個人人都能成為視頻創作者的時代到來。
從技術角度看,這項研究還為更高級的AI系統奠定了基礎。能夠理解和生成復雜時空事件的AI,距離真正的通用人工智能又近了一步。這樣的系統不僅能生成視頻,還能理解世界的運作方式,這對于開發能夠在真實世界中安全運行的AI代理具有重要意義。
研究團隊已經將相關代碼和模型開源,這意味著全球的研究者和開發者都能基于這項工作繼續創新。相信在不久的將來,我們會看到更多基于WorldCanvas的應用出現,讓視頻創作變得像畫畫一樣簡單自然。
Q&A
Q1:WorldCanvas是什么樣的AI系統?
A:WorldCanvas是香港科技大學團隊開發的視頻生成AI框架,用戶只需手繪運動軌跡、輸入文字描述,再加入參考圖片,就能讓AI自動生成符合創意的視頻片段,就像在魔法畫布上創作一樣簡單。
Q2:WorldCanvas比其他視頻生成AI強在哪里?
A:傳統AI只能根據文字生成大概畫面,而WorldCanvas通過軌跡、文字和參考圖片的結合,讓用戶能精確控制角色的動作、位置和外觀。它還能處理多角色互動場景,保持角色前后一致性,甚至能生成反常識的創意場景。
Q3:普通人能用WorldCanvas制作視頻嗎?
A:目前WorldCanvas還在研究階段,研究團隊已經開源了相關代碼。雖然普通用戶暫時無法直接使用,但隨著技術發展,未來可能會出現基于這項技術的消費級應用,讓視頻創作變得像畫畫一樣簡單。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.