網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

計算所 x 上交大論文：只用雙人數(shù)據(jù)，也能生成多人動畫丨CVPR 2026

2026-03-12 19:58:16　來源: AI科技評論

廣東舉報

分享至

MultiAnimate：利用身份編碼與空間關系建模提升互動生成穩(wěn)定性。

作者丨鄭佳美

編輯丨岑峰

在視覺生成領域，從圖像生成到視頻生成，研究的核心問題正逐漸從“能否生成內(nèi)容”轉向“能否生成可控且結構正確的內(nèi)容”。

尤其是在人物動畫生成任務中，研究人員不僅希望模型能夠生成具有真實感的畫面，還希望生成過程能夠受到精確控制，例如通過輸入人物圖像與動作姿態(tài)序列，使模型自動生成連續(xù)的人物動畫。在這一方向上，姿態(tài)驅(qū)動的人物圖像動畫已經(jīng)取得了顯著進展。然而，這些方法大多集中于單人物場景，當生成對象擴展到多人物時，問題的復雜度會顯著增加。

而在在多人物動畫生成過程中，模型不僅需要保持每個人物外觀的穩(wěn)定性，還必須在動態(tài)過程中正確建立人物與動作之間的對應關系，并處理人物之間的空間交互。如果模型無法持續(xù)區(qū)分不同人物，生成結果就容易出現(xiàn)身份混淆、動作錯位或空間關系不合理等問題。因此，如何在復雜互動過程中保持人物身份一致，并同時建模多人物之間的空間關系，已經(jīng)成為多人物視頻生成研究中的關鍵挑戰(zhàn)。

在這樣的研究背景下，來自中國科學院計算技術研究所與上海交通大學等機構的研究團隊提出了一種新的多人物動畫生成框架，并發(fā)表了題為《MultiAnimate: Pose-Guided Image Animation Made Extensible》的研究工作。這項研究通過引入人物身份標識機制以及基于人物掩碼的空間關系建模方法，使生成模型能夠在多人物互動過程中持續(xù)區(qū)分不同個體，并保持人物外觀與動作的一致性。

值得注意的是，這個方法在訓練階段只使用雙人數(shù)據(jù)，卻能夠在推理階段擴展到三人甚至更多人物的動畫生成任務，為多人物視頻生成提供了一種具有良好擴展性的解決思路。

從雙人到多人：模型生成能力的驗證

從實驗的整體來看，MultiAnimate 在多人物動畫生成任務中明顯優(yōu)于現(xiàn)有方法，并且具有很強的擴展能力和泛化能力。

研究人員首先在 Swing Dance 數(shù)據(jù)集上測試模型性能。這個數(shù)據(jù)集包含大量雙人舞蹈視頻，人物之間的互動非常復雜，例如旋轉、交換位置以及身體接觸等。實驗結果顯示，MultiAnimate 生成的視頻在視覺上更加真實，人物動作與輸入姿態(tài)更加一致，視頻幀之間的連續(xù)性更好，同時人物身份保持更加穩(wěn)定。

相比之下，其他方法在復雜交互場景中容易出現(xiàn)多種問題。例如，當兩個人旋轉或靠近時，模型容易出現(xiàn)身份混亂的現(xiàn)象，人物外觀可能被混淆，甚至出現(xiàn)衣服突然交換的情況。當兩個人互相遮擋時，一些模型會產(chǎn)生遮擋錯誤，導致身體部位生成不正確，例如手臂位置異常。

此外，在復雜動作過程中，一些方法還會導致背景質(zhì)量下降，出現(xiàn)背景模糊或者抖動的現(xiàn)象。而 MultiAnimate 在整個視頻生成過程中能夠保持每個人的外觀一致，動作順序合理，人物之間的空間關系穩(wěn)定，這說明該方法在理解多人物空間關系方面具有更強的能力。

研究團隊還在 Gen-dataset 上對模型進行了測試。這個數(shù)據(jù)集由視頻生成模型自動生成，包含兩人或三人場景，并且具有不同背景環(huán)境和不同動作組合。實驗結果表明，即使模型沒有專門在該數(shù)據(jù)集上進行訓練，仍然能夠生成質(zhì)量較高的視頻。

具體表現(xiàn)為動作控制準確，人物外觀保持一致，并且視頻在時間維度上具有良好的連續(xù)性。不過研究人員也發(fā)現(xiàn)，由于場景更加復雜，在某些視覺感知指標上優(yōu)勢略小，這說明模型在更加復雜環(huán)境中的表現(xiàn)仍然存在進一步提升的空間。

在泛化能力測試中，研究團隊使用來自社交媒體的視頻作為測試數(shù)據(jù)，這些視頻包含三人舞蹈、四人舞蹈以及最多七人同時參與的舞蹈場景。這些數(shù)據(jù)完全沒有參與模型訓練。

實驗結果發(fā)現(xiàn)，即使模型只使用兩個人的視頻進行訓練，仍然能夠生成三人動畫以及更多人物參與的互動動畫，并且可以正確區(qū)分不同人物，保持每個人物的身份一致，同時能夠正確生成多人物之間的空間關系。這說明模型具有很強的擴展能力，也意味著訓練人數(shù)與最終生成人數(shù)并不完全一致，模型能夠推廣到更加復雜的多人物場景。

此外，研究還展示了大量生成視頻的畫面對比結果?？梢暬治霭l(fā)現(xiàn)，一些已有方法例如 MimicMotion 和 DisPose 在動畫生成初期就可能出現(xiàn)人物身份混亂的情況，例如人物衣服顏色突然發(fā)生變化，或者兩個角色在交換位置之后身份發(fā)生混淆。

還有一些方法例如 UniAnimate-DiT 和 VACE 在簡單動作階段表現(xiàn)較好，但在復雜的人物互動之后仍然容易出現(xiàn)身份交換以及遮擋錯誤等問題。相比之下，MultiAnimate 在整個視頻生成過程中都能夠保持人物身份穩(wěn)定，動作生成合理，并且人物之間的空間關系正確，因此在視覺效果上明顯優(yōu)于其他方法。

MultiAnimate 的構建與驗證路徑

為了得到上述實驗結果，研究人員先是于數(shù)據(jù)準備階段，在實驗中使用了三類數(shù)據(jù)。第一類是 Swing Dance 數(shù)據(jù)集，這是一個雙人舞蹈視頻數(shù)據(jù)集，總時長約為 30 小時，包含 680 對舞者。

數(shù)據(jù)中存在大量旋轉動作、人物互動動作以及頻繁的人物遮擋現(xiàn)象，因此非常適合用于訓練模型理解多人物之間的空間關系。在訓練過程中，模型通過這些視頻學習兩個人如何進行互動，如何在動作過程中保持人物身份一致，以及在人物相互遮擋時如何正確處理空間關系。

第二類數(shù)據(jù)是 Gen-dataset 數(shù)據(jù)集，研究團隊利用視頻生成模型 Wan2.2 自動生成了 2079 個視頻，每個視頻長度約為 5 秒。這些視頻包含兩人或三人的場景，并具有不同的背景環(huán)境和不同的動作組合。使用這一數(shù)據(jù)集的目的主要有兩個，一是增加訓練場景的多樣性，二是提高模型的泛化能力。

第三類數(shù)據(jù)來自社交媒體平臺 TikTok 的舞蹈視頻，這些視頻中通常包含三到七個人同時跳舞，動作復雜且場景多樣。這部分數(shù)據(jù)只用于測試模型性能，并不參與訓練，主要用于驗證模型是否能夠推廣到更多人物的場景。

在模型訓練之前，研究人員還對視頻數(shù)據(jù)進行了預處理。預處理主要包括兩個步驟。第一步是姿態(tài)提取，研究人員使用人體姿態(tài)檢測模型提取人物的骨架信息，這些骨架信息可以表示人物的手臂位置、腿部位置以及整體身體姿態(tài)。

通過這些骨架序列，模型能夠根據(jù)姿態(tài)信息驅(qū)動人物動作生成。第二步是人物掩碼提取，研究人員使用視頻分割方法生成每個人物的追蹤掩碼。掩碼能夠表示在每一幀圖像中哪些像素屬于人物 A，哪些像素屬于人物 B，從而使模型能夠區(qū)分不同的人物。

模型訓練過程分為兩個階段。在第一階段訓練中，研究人員使用 Swing Dance 數(shù)據(jù)集對模型進行訓練，訓練目標是讓模型學習雙人之間的互動關系。訓練設置為大約 40 個訓練周期，總訓練步數(shù)約為 7000 步，每個GPU的 batch size 為 1，訓練過程中使用兩張 A100 GPU。在這一階段訓練完成后，模型最多可以支持三個人的動畫生成。

第二階段訓練是在第一階段的基礎上繼續(xù)進行，研究人員加入 Gen-dataset 數(shù)據(jù)集進行訓練，其主要目的是提高模型對不同場景環(huán)境的適應能力。第二階段訓練約進行 3 個周期，總訓練步數(shù)約為 2400 步。除此之外，研究團隊還訓練了一個擴展版本模型，這一模型可以支持最多七個人的動畫生成。擴展模型仍然使用雙人數(shù)據(jù)進行訓練，但通過新的訓練策略使模型能夠?qū)W習區(qū)分更多人物，該模型訓練了 24 個周期。

在對比實驗中，研究人員將 MultiAnimate 與多個已有模型進行了比較，包括 UniAnimate-DiT、MimicMotion、DisPose 和 VACE。實驗主要比較視頻質(zhì)量、動作生成的準確性、人物身份一致性以及視頻時間連續(xù)性等方面。實驗結果顯示，MultiAnimate 在幾乎所有指標上都優(yōu)于這些方法。

此外，研究團隊還進行了消融實驗，用于驗證各個模塊設計是否有效。消融實驗主要測試了兩種設計。第一種是基于人物掩碼的 Mask-driven 設計，如果去掉這一設計，模型在生成視頻時容易出現(xiàn)人物身份混亂以及空間關系錯誤的問題。

實驗結果說明，掩碼設計能夠幫助模型更好地理解人物之間的位置關系。第二種是 Identifier 模塊設計，其中包括 Identifier Assigner 和 Identifier Adapter 兩個模塊，這兩個模塊的作用是為每個人物分配唯一的身份標識。如果去掉這兩個模塊，模型在多人物場景中容易出現(xiàn)身份交換和動作混亂的現(xiàn)象。實驗結果表明，這兩個模塊能夠顯著提升模型在多人物動畫生成中的穩(wěn)定性。

突破多人物動畫生成的關鍵瓶頸

總的來說，這項研究的實驗意義主要體現(xiàn)在三個方面。首先，在多人物動畫生成任務中，傳統(tǒng)方法大多只針對單人物動畫進行研究，當場景中出現(xiàn)多人時，模型往往容易出現(xiàn)身份混亂、動作錯誤以及空間關系不正確等問題。針對這一情況，研究團隊提出了 MultiAnimate 方法，通過身份標識機制、人物掩碼以及空間關系建模，使模型能夠在生成視頻時正確區(qū)分不同人物，并保持人物之間的空間關系，從而提升了多人物動畫生成的穩(wěn)定性和準確性。

其次，在人物數(shù)量的擴展能力方面，傳統(tǒng)方法通常需要按照固定人數(shù)進行訓練，例如兩人模型只能生成兩人動畫，如果需要生成更多人物的動畫，就需要重新收集數(shù)據(jù)并重新訓練模型。而在這一研究中，研究人員發(fā)現(xiàn)，只使用兩人數(shù)據(jù)進行訓練，模型仍然可以生成三人甚至更多人物參與的動畫，這說明模型在多人物場景中的擴展能力得到了明顯提升。

最后，在數(shù)據(jù)利用效率方面，收集包含多人物互動的視頻數(shù)據(jù)往往成本較高，因此獲取大規(guī)模多人物數(shù)據(jù)集比較困難。研究結果表明，只需要少量雙人數(shù)據(jù)，就能夠訓練出支持多人物動畫生成的模型，這在實際應用中具有重要價值。

MultiAnimate 背后的科研工作者

論文的通訊作者為安竹林，現(xiàn)為中國科學院計算技術研究所的副研究員，同時也是博士生導師，長期從事人工智能和計算機視覺相關研究工作。他在中國科學院獲得博士學位后，一直在該研究機構從事科研與人才培養(yǎng)工作。

研究方向方面，安竹林的研究主要集中在神經(jīng)網(wǎng)絡加速和計算機視覺兩個領域。他的研究關注如何提高深度學習模型的效率，以及如何將深度學習技術應用到視覺理解和視覺生成任務中，例如圖像識別、視頻分析以及視覺模型優(yōu)化等問題。

在研究成果方面，安竹林及其研究團隊圍繞深度學習模型效率和視覺任務展開了多項研究。另一些研究則關注視覺任務中的模型設計與性能提升，通過改進算法方法來提高圖像識別或視覺理解的效果。這些研究不僅推動了計算機視覺技術的發(fā)展，也為深度學習模型在實際場景中的應用提供了重要技術基礎。

參考鏈接：https://oldoc.github.io/

論文的另一位通訊作者為劉松華，目前任職于上海交通大學人工智能學院，擔任助理教授，主要從事計算機視覺與人工智能相關研究。在進入高校任教之前，他曾在新加坡國立大學完成博士學位，研究方向集中在深度學習與視覺生成等領域。

在研究方向方面，劉松華的工作主要集中在計算機視覺和機器學習領域，重點關注視覺生成模型、數(shù)據(jù)蒸餾、模型適配以及深度學習模型效率提升等問題。這些研究內(nèi)容主要圍繞如何提高生成模型的質(zhì)量、效率以及在實際場景中的應用能力展開。

在學術成果方面，他在人工智能和計算機視覺領域發(fā)表了多篇學術論文，相關研究成果被多個國際重要學術會議收錄。同時，他還參與提出了多種視覺生成與圖像處理方法，例如利用神經(jīng)網(wǎng)絡自動生成繪畫筆觸的繪畫生成方法，以及通過改進注意力機制提升圖像風格遷移效果的方法。這些研究成果在圖像生成、藝術風格遷移以及視覺內(nèi)容生成等方向具有一定影響。

參考鏈接： https://huage001.github.io/

未經(jīng)「AI科技評論」授權，嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.