網易首頁 > 網易號 > 正文申請入駐

華中科技大學團隊揭秘：為什么AI視頻總是數錯物體數量？

2026-04-17 23:37:29　來源: 科技行者

天津舉報

分享至

這項由華中科技大學、浙江大學與Afari Intelligent Drive聯合開展的研究，以arXiv預印本形式于2026年4月9日發布，編號為arXiv:2604.08546。有興趣深入了解的讀者可以通過該編號查詢完整論文。

你有沒有試過讓AI幫你生成一段視頻，比如"三只貓在客廳里追逐嬉戲"，結果視頻里只跑出來兩只貓，或者干脆出來了四只？再比如你需要一段教學視頻，描述"四名建筑工人和兩臺挖掘機在施工"，AI給你生成的畫面里，挖掘機的數量完全不對？這種讓人哭笑不得的狀況，其實是當今最先進的AI視頻生成系統共同面臨的頑固問題——它們很擅長畫出漂亮的畫面，卻經常數不清楚自己畫了幾個東西。

華中科技大學等機構的研究團隊把這個問題認真研究了一番，并提出了一套叫做NUMINA的解決方案。這個名字聽起來有些神秘，但它的核心思路其實相當直接：先讓AI認清楚自己到底畫了幾個物體，發現數量不對之后，再悄悄引導它糾正。整個過程不需要重新訓練AI模型，就像是給一個已經學會開車的人指路，而不是讓他重新學開車。

**一、AI為什么總是數不清楚？**

要理解這個問題，先得知道現代AI視頻生成系統是怎么工作的。這類系統通常基于一種叫做"擴散變換器"（Diffusion Transformer，簡稱DiT）的架構。通俗地說，這套系統的工作方式有點像一個畫家從一張滿是隨機噪點的畫布上，根據文字描述，一步一步地擦去多余的噪點，最終讓一幅清晰的畫面浮現出來。

在這個過程中，AI通過一種叫"注意力機制"的方式理解文字描述。你可以把注意力機制理解為AI讀句子時的"眼神焦點"——它會特別盯住句子中某些詞，然后把這些詞和畫面中的某些區域聯系起來。對于名詞、動詞、形容詞，AI的眼神焦點非常精準，能清晰地把"貓"這個詞和畫面中貓的位置對應起來。但研究團隊通過可視化分析發現，當句子中出現"三只"、"四個"這樣的數字詞時，AI的"眼神"卻變得散漫而模糊，無法形成清晰聚焦的響應。

這就引出了第一個根本原因：數字詞的語義太弱。AI系統在訓練過程中，數字詞得到的"關注訓練"遠不如名詞和形容詞充分，導致它在生成畫面時根本沒有充分理解"三只"意味著什么空間布局約束。

第二個原因則更為隱蔽。這類AI系統為了計算效率，會把視頻在空間和時間兩個維度上大幅壓縮后再處理，就像把一張精細地圖縮小到郵票大小。在這個極度壓縮的微觀世界里，兩個相鄰的同類物體（比如挨在一起的兩只貓）在AI眼中極難被區分為兩個獨立個體，它們的"邊界"模糊不清，自然就會導致數量混亂。

理論上，重新訓練AI模型是能解決這些問題的，但代價極其高昂——需要海量帶精確數量標注的數據集，以及巨大的計算資源，而且調整數字詞的處理方式還可能破壞AI在其他方面（比如畫面質量、運動流暢度）的能力。正因如此，研究團隊選擇了另一條路：在不改變模型本身的前提下，設計一個外掛的"引導系統"，在視頻生成過程中實時糾偏。

**二、NUMINA是如何當"數數監督員"的？**

NUMINA的工作分為兩個清晰的階段，就像一位質檢員的工作流程：先檢查產品是否合格，再對不合格的地方進行修正。

第一階段叫做"數量偏差識別"。在AI開始生成視頻的早期階段（大約在第20步降噪步驟時，總共50步），NUMINA就介入進來，悄悄窺探AI內部的注意力地圖。

這里有個關鍵發現。研究團隊通過對AI內部數百個"注意力頭"（可以理解為AI大腦里同時運作的許多個"小專家"，每個專家負責關注畫面的不同側面）進行系統分析，發現只有極少數幾個注意力頭天然地具備"物體邊界感知"能力。大多數小專家的視野是模糊的或者只關注大類別，但偶爾有一兩個小專家能清晰地把不同個體之間的邊界畫出來。

NUMINA設計了一套自動篩選機制來找到這些"最佳小專家"。對于自注意力頭（專門處理畫面內部結構的專家），篩選標準包含三個維度：前景與背景的對比度是否夠強、畫面中間尺度的空間結構是否豐富、物體邊緣是否清晰銳利。把這三項指標加權求和，得分最高的那個注意力頭就被選中，作為畫面中物體分布的空間參考。與此同時，對于交叉注意力頭（專門處理文字與畫面關聯的專家），NUMINA為每個需要計數的名詞詞語（比如"人"、"狗"）分別找一個激活響應最集中、最聚焦的專家頭，用來確定該類物體在畫面中的位置區域。

有了這兩類信息之后，NUMINA把它們融合起來。它先用一種叫均值漂移的聚類算法把畫面切分成一塊一塊的區域，然后用交叉注意力的焦點區域篩選出哪些區域真正對應目標物體，最終得到一張明確的"物體分布地圖"——每個物體占據哪里，一共有幾個，一目了然。

至此，如果地圖上顯示"人"的數量是2個，但文字描述說應該是3個，偏差就被識別出來了。

第二階段叫做"數量對齊生成"。發現偏差之后，NUMINA不會粗暴地直接修改AI的畫面，因為那樣很可能破壞已有畫面的自然感和質量。它采用的是一種"保守修正"策略，就像外科醫生的微創手術原則：能少動刀就少動刀，只處理必須處理的部分。

如果物體太多了，需要刪掉幾個，NUMINA會優先選擇地圖上面積最小的那個實例刪除，因為小實例對整體畫面構圖的影響最小，刪掉它最不容易留下明顯痕跡。

如果物體太少了，需要增加幾個，NUMINA會先看看現有物體里最小的那個作為模板，把它的形狀和位置復制一份，然后計算在畫面哪個位置放置這個新物體最合適。這個位置計算綜合考慮了三件事：新物體不能和已有物體的位置重疊、新物體應該放在已有物體整體分布的中心附近（保持構圖自然）、從前一幀到當前幀新物體的位置不能跳動太大（保持時間上的穩定性）。

當物體分布地圖修正完畢后，NUMINA進入真正的生成引導環節。它通過修改AI內部注意力計算時的偏置項來實現引導：在需要讓某個區域生成目標物體的地方，強化AI對該區域與目標詞的關聯；在需要消除某個區域不該有的物體的地方，把AI對該區域的關注強度壓到接近零。這種引導的強度會隨著生成步驟的推進逐漸減弱——在生成初期（決定物體布局的階段）引導力度最強，在生成后期（打磨細節的階段）引導力度最輕，讓AI有足夠的自由度來呈現自然的視覺質感。

**三、NUMINA在實際測試中的表現如何？**

為了系統評測NUMINA，研究團隊專門設計了一個名為CountBench的測試集，包含210個精心構造的文字描述，涵蓋了1到8個物體的計數場景，以及同時包含1到3種不同類別物體的復合場景。這些描述最初由GPT-5輔助生成，再經過人工審核篩選，確保描述自然合理、不重復。

評測采用了三個指標。計數準確率（CountAcc）用來衡量生成視頻里物體數量是否和文字描述一致；時間一致性（TC）用來衡量視頻從一幀到下一幀之間物體數量是否保持穩定，不會忽多忽少；CLIP分數用來衡量生成視頻與文字描述在整體語義上的契合程度。物體計數依靠GroundingDINO這一開放域目標檢測工具來自動完成。

研究團隊在三個規模不同的Wan系列模型上進行了測試，分別是參數量為13億（1.3B）、50億（5B）和140億（14B）的版本。作為對比，研究還測試了兩種最常見的樸素改進方案：第一種是"種子搜索"，即對同一個描述連續生成5個不同版本的視頻，挑其中計數最準確的那個；第二種是"提示詞增強"，即用大語言模型把描述文字擴展得更詳細，希望更豐富的描述能幫AI更好地理解數量要求。

結果顯示，在最小的1.3B模型上，原始模型的計數準確率只有42.3%，意味著超過一半的情況下物體數量是錯的。種子搜索把準確率提升到45.5%，提示詞增強提升到47.2%，而NUMINA把準確率提升到了49.7%，提升幅度達到7.4個百分點，且只需生成一次，不需要反復試驗。在5B模型上，NUMINA帶來4.9個百分點的提升；在14B模型上，NUMINA帶來5.5個百分點的提升。一個值得關注的細節是，加了NUMINA的1.3B小模型（49.7%）居然超過了完全沒有任何輔助的5B大模型（47.8%），這說明NUMINA的引導效果彌補了相當一部分參數量帶來的能力差距。

CLIP分數方面，NUMINA也帶來了提升，尤其在1.3B模型上從33.9上升到35.6，說明正確的物體布局不只是讓數字對了，也讓整個畫面與文字描述更加貼合。時間一致性同樣有所提升，這意味著NUMINA在糾正物體數量的同時，沒有讓視頻出現忽閃忽現的不穩定感。

按物體數量細分來看，規律非常清晰：物體數量越多，原始模型越力不從心，NUMINA的優勢也越明顯。對于"2個物體"的場景，原始模型準確率68.7%，還算過得去；但到了"3個物體"，準確率急劇跌落到44.5%；到了"8個物體"，準確率只剩下可憐的11.3%。NUMINA在"3個物體"場景下提升了16.2個百分點，在"8個物體"場景下將準確率從11.3%幾乎翻番提升到20.7%。雖然高數量場景下絕對準確率依然不高，但相對改善的幅度是極為可觀的。

研究團隊還與Sora2、Veo3.1、Grok Imagine等頂級商業視頻生成系統進行了定性對比，發現即使是這些最先進的商業產品，在"三名騎手參加馬術比賽和三只山羊"這類復合計數場景下也頻繁出錯，而NUMINA引導的Wan模型生成結果在數量上更加準確，布局也保持了自然感。

**四、NUMINA的各個設計選擇是否真的都有必要？**

研究團隊還做了大量消融實驗，逐一驗證每個設計決定的必要性。

關于在哪個時間點截取注意力地圖，實驗發現在第20步時截取是最佳選擇。太早（比如第10步），注意力模式還沒有形成足夠清晰的物體邊界；太晚（比如第40步以上），注意力模式又開始碎片化或者過度融合，反而失去了物體分離性。從效率角度看，在第20步停止預生成、提取信息，意味著預生成階段只用走完整50步中的40%，大幅節省了計算量。

關于如何選擇最佳注意力頭，實驗發現隨機選一個注意力頭只能把準確率從42.3%提升到44.1%，把所有注意力頭平均之后準確率反而更低（43.0%），而按照NUMINA設計的評分準則選出最佳單個頭，準確率能提升到49.7%。這個對比有力地證明了"物體邊界感知能力"是極少數注意力頭的稀有特質，把它和其他不具備這種特質的頭平均在一起，反而會稀釋掉有用的信息。

關于用來確定新增物體位置的三項成本，實驗逐步驗證了每一項的貢獻。只用"不重疊"約束，準確率提升2.8個百分點；加入"靠近已有物體中心"約束，再提升1.8個百分點；進一步加入"幀間位置穩定"約束，再提升2.0個百分點；三項全部結合，最終達到7.4個百分點的最大提升。時間穩定約束的貢獻之所以如此顯著，是因為視頻不同于單張圖片，物體在各幀之間的空間一致性直接決定了視頻是否自然。

關于物體刪除和添加哪個更重要，實驗發現單獨開啟添加功能的提升（5.4個百分點）遠大于單獨開啟刪除功能的提升（1.5個百分點）。這說明原始AI模型的主要問題在于"畫少了"而不是"畫多了"，即該出現的物體沒出現，而不是憑空多畫了什么東西。兩者結合使用效果最佳，且協同效果略優于簡單相加，說明兩種操作之間存在相互配合的關系。

關于用AI的注意力地圖來定位物體是否真的比用外部目標檢測工具更好，實驗表明注意力地圖引導的方法比GroundingDINO檢測器引導的方法高出2.2個百分點。原因在于注意力地圖是AI"內部語言"，天然與AI理解畫面的方式高度契合，能捕捉到尚在成形中的、模糊的物體雛形，而外部檢測器只能處理已經渲染清晰的畫面。

**五、NUMINA能在不同的AI系統之間通用嗎？**

研究團隊還專門驗證了NUMINA在另一類架構（Multi-Modal Diffusion Transformer，MMDiT）上的效果，具體測試對象是CogVideoX-5B模型。這種架構與Wan系列不同，它把文字和視覺的特征混合在同一套注意力機制里處理，沒有獨立的交叉注意力模塊。

為了適應這種架構，研究團隊對策略做了相應調整：把MMDiT中視覺部分與視覺部分之間的注意力視為自注意力，把文字部分與視覺部分之間的注意力視為交叉注意力，然后沿用同樣的選頭和引導邏輯。實驗結果顯示，在CogVideoX-5B上，原始模型計數準確率40.2%，種子搜索提升2.5個百分點，提示詞增強提升2.3個百分點，而NUMINA提升4.2個百分點達到44.4%，同時時間一致性和CLIP分數均有改善。這證明NUMINA的核心思路具有跨架構的遷移性，不是只能在特定模型上發揮作用的"針對性補丁"。

此外，NUMINA還可以與另一種推理加速技術EasyCache結合使用。EasyCache通過在相鄰步驟之間緩存重用計算結果來降低計算量。結合后，NUMINA的運行時間從431秒降低到355秒，計數準確率僅微降0.3個百分點到49.4%，VRAM占用保持不變。考慮到種子搜索需要運行5次才能選出最佳結果，其時間開銷是單次運行的5倍，NUMINA即使在不使用加速的情況下，綜合效率也遠優于種子搜索。

研究團隊還通過VBench平臺上的主體一致性指標（用來衡量同一個物體在視頻不同幀之間外觀的穩定性）進行了額外驗證。結果顯示，NUMINA在所有測試模型上的主體一致性分數均與原始模型持平或略有提升，進一步說明NUMINA的糾偏過程不會引入視覺上的閃爍或不穩定。

視覺生成質量方面，在VBench的美學質量和成像質量兩個子指標上，NUMINA處理后的視頻與原始模型相比基本持平，美學質量甚至略有提升（從61.5%到63.5%），說明修正數量的過程并沒有以犧牲畫面好看程度為代價。用戶盲測中，研究團隊邀請了10名參與者對100對隨機視頻進行主觀評分，結果61%的參與者偏好NUMINA生成的視頻，39%偏好原始模型生成的視頻，印證了客觀指標的結論。

**六、NUMINA還做不到什么？**

盡管NUMINA在各方面都取得了顯著的改進，研究團隊也坦誠地指出了它的局限性。

一個典型的失敗場景出現在處理"三只鸚鵡模仿三聲口哨"這類描述時。因為AI的注意力頭在分析鸚鵡時，有時候會過分聚焦于最顯眼的部分（比如鳥頭），而忽視鳥的身體，導致同一只鳥的頭部和身體被NUMINA當成了兩個獨立的物體，最終地圖上出現了錯誤的數量判斷，這個錯誤又被帶入到最終的視頻生成中，形成無法挽回的偏差。這個問題的根源在于原始注意力信號本身是粗粒度的，沒有精確的"整體-部分"結構感知能力。

另一個尚未解決的領域是極高密度的場景，比如"50只鳥"、"100個人"這類描述。NUMINA的設計目標是1到8個物體的精確計數，面對數量級別更大的場景，其地圖構建和引導策略都需要根本性的重新設計。

歸根結底，NUMINA給我們展示的是一種頗具啟發性的思路：不需要重新訓練一個大型AI模型，只需要在它的生成過程中插入一個輕量級的"理解-檢測-糾偏"循環，就能顯著改善它在特定能力維度上的表現。這對于AI系統的實際部署和改進來說，具有相當的參考價值。畢竟，重新訓練一個大模型需要的資源往往是普通研究團隊難以承受的，而這種"不改模型本身，改流程"的思路，提供了一條更具可行性的改進路徑。

當下，視頻生成技術正快速進入教育、影視、游戲等各類生產性場景，精確數量控制會是越來越多應用的剛性需求——教學視頻里講"三種元素"就必須是三種，產品演示視頻里講"兩個按鈕"就必須是兩個。NUMINA所代表的方向，是讓AI不只"看起來很智能"，而是能在具體的語義細節上做到真正精準。這條路上，還有很長的路要走，但這個方向本身，值得被認真對待。

Q&A

Q1：NUMINA框架解決的是什么問題？

A：NUMINA解決的是AI視頻生成系統無法準確生成指定數量物體的問題。比如，當用戶輸入"三只貓在奔跑"，現有的主流視頻生成模型經常生成出來兩只或四只貓。NUMINA通過分析模型內部的注意力信號來識別數量偏差，再通過引導交叉注意力來糾正生成結果，整個過程不需要重新訓練模型，屬于訓練無關的推理階段干預方案。

Q2：NUMINA框架比直接多生成幾次視頻然后挑最好的方案效果好在哪？

A：多次生成挑選（即"種子搜索"）在Wan2.1-1.3B模型上需要生成5次視頻才能把計數準確率從42.3%提升到45.5%，耗時是單次生成的5倍。NUMINA只需生成一次，就能把準確率提升到49.7%，效果更好、速度更快。而且NUMINA還能與推理加速技術EasyCache結合，進一步壓縮時間開銷，綜合性價比遠高于反復嘗試隨機種子的方式。

Q3：NUMINA框架目前有哪些無法處理的情況？

A：NUMINA目前在兩類情況下表現欠佳。第一類是物體部件被誤判為獨立個體的情況，比如鸚鵡的頭部有時會被注意力機制單獨識別為一個"物體"，導致計數比實際偏多，從而引發錯誤引導。第二類是超高密度計數場景，NUMINA的設計目標是1到8個物體的精確計數，對于幾十乃至上百個物體的場景，其內部的地圖構建和引導邏輯都尚未針對性優化，效果存在局限。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.