![]()
這項由華中科技大學、浙江大學與Afari Intelligent Drive聯合開展的研究,以arXiv預印本形式于2026年4月9日發布,編號為arXiv:2604.08546。有興趣深入了解的讀者可以通過該編號查詢完整論文。
你有沒有試過讓AI幫你生成一段視頻,比如"三只貓在客廳里追逐嬉戲",結果視頻里只跑出來兩只貓,或者干脆出來了四只?再比如你需要一段教學視頻,描述"四名建筑工人和兩臺挖掘機在施工",AI給你生成的畫面里,挖掘機的數量完全不對?這種讓人哭笑不得的狀況,其實是當今最先進的AI視頻生成系統共同面臨的頑固問題——它們很擅長畫出漂亮的畫面,卻經常數不清楚自己畫了幾個東西。
華中科技大學等機構的研究團隊把這個問題認真研究了一番,并提出了一套叫做NUMINA的解決方案。這個名字聽起來有些神秘,但它的核心思路其實相當直接:先讓AI認清楚自己到底畫了幾個物體,發現數量不對之后,再悄悄引導它糾正。整個過程不需要重新訓練AI模型,就像是給一個已經學會開車的人指路,而不是讓他重新學開車。
**一、AI為什么總是數不清楚?**
要理解這個問題,先得知道現代AI視頻生成系統是怎么工作的。這類系統通常基于一種叫做"擴散變換器"(Diffusion Transformer,簡稱DiT)的架構。通俗地說,這套系統的工作方式有點像一個畫家從一張滿是隨機噪點的畫布上,根據文字描述,一步一步地擦去多余的噪點,最終讓一幅清晰的畫面浮現出來。
在這個過程中,AI通過一種叫"注意力機制"的方式理解文字描述。你可以把注意力機制理解為AI讀句子時的"眼神焦點"——它會特別盯住句子中某些詞,然后把這些詞和畫面中的某些區域聯系起來。對于名詞、動詞、形容詞,AI的眼神焦點非常精準,能清晰地把"貓"這個詞和畫面中貓的位置對應起來。但研究團隊通過可視化分析發現,當句子中出現"三只"、"四個"這樣的數字詞時,AI的"眼神"卻變得散漫而模糊,無法形成清晰聚焦的響應。
這就引出了第一個根本原因:數字詞的語義太弱。AI系統在訓練過程中,數字詞得到的"關注訓練"遠不如名詞和形容詞充分,導致它在生成畫面時根本沒有充分理解"三只"意味著什么空間布局約束。
第二個原因則更為隱蔽。這類AI系統為了計算效率,會把視頻在空間和時間兩個維度上大幅壓縮后再處理,就像把一張精細地圖縮小到郵票大小。在這個極度壓縮的微觀世界里,兩個相鄰的同類物體(比如挨在一起的兩只貓)在AI眼中極難被區分為兩個獨立個體,它們的"邊界"模糊不清,自然就會導致數量混亂。
理論上,重新訓練AI模型是能解決這些問題的,但代價極其高昂——需要海量帶精確數量標注的數據集,以及巨大的計算資源,而且調整數字詞的處理方式還可能破壞AI在其他方面(比如畫面質量、運動流暢度)的能力。正因如此,研究團隊選擇了另一條路:在不改變模型本身的前提下,設計一個外掛的"引導系統",在視頻生成過程中實時糾偏。
**二、NUMINA是如何當"數數監督員"的?**
NUMINA的工作分為兩個清晰的階段,就像一位質檢員的工作流程:先檢查產品是否合格,再對不合格的地方進行修正。
第一階段叫做"數量偏差識別"。在AI開始生成視頻的早期階段(大約在第20步降噪步驟時,總共50步),NUMINA就介入進來,悄悄窺探AI內部的注意力地圖。
這里有個關鍵發現。研究團隊通過對AI內部數百個"注意力頭"(可以理解為AI大腦里同時運作的許多個"小專家",每個專家負責關注畫面的不同側面)進行系統分析,發現只有極少數幾個注意力頭天然地具備"物體邊界感知"能力。大多數小專家的視野是模糊的或者只關注大類別,但偶爾有一兩個小專家能清晰地把不同個體之間的邊界畫出來。
NUMINA設計了一套自動篩選機制來找到這些"最佳小專家"。對于自注意力頭(專門處理畫面內部結構的專家),篩選標準包含三個維度:前景與背景的對比度是否夠強、畫面中間尺度的空間結構是否豐富、物體邊緣是否清晰銳利。把這三項指標加權求和,得分最高的那個注意力頭就被選中,作為畫面中物體分布的空間參考。與此同時,對于交叉注意力頭(專門處理文字與畫面關聯的專家),NUMINA為每個需要計數的名詞詞語(比如"人"、"狗")分別找一個激活響應最集中、最聚焦的專家頭,用來確定該類物體在畫面中的位置區域。
有了這兩類信息之后,NUMINA把它們融合起來。它先用一種叫均值漂移的聚類算法把畫面切分成一塊一塊的區域,然后用交叉注意力的焦點區域篩選出哪些區域真正對應目標物體,最終得到一張明確的"物體分布地圖"——每個物體占據哪里,一共有幾個,一目了然。
至此,如果地圖上顯示"人"的數量是2個,但文字描述說應該是3個,偏差就被識別出來了。
第二階段叫做"數量對齊生成"。發現偏差之后,NUMINA不會粗暴地直接修改AI的畫面,因為那樣很可能破壞已有畫面的自然感和質量。它采用的是一種"保守修正"策略,就像外科醫生的微創手術原則:能少動刀就少動刀,只處理必須處理的部分。
如果物體太多了,需要刪掉幾個,NUMINA會優先選擇地圖上面積最小的那個實例刪除,因為小實例對整體畫面構圖的影響最小,刪掉它最不容易留下明顯痕跡。
如果物體太少了,需要增加幾個,NUMINA會先看看現有物體里最小的那個作為模板,把它的形狀和位置復制一份,然后計算在畫面哪個位置放置這個新物體最合適。這個位置計算綜合考慮了三件事:新物體不能和已有物體的位置重疊、新物體應該放在已有物體整體分布的中心附近(保持構圖自然)、從前一幀到當前幀新物體的位置不能跳動太大(保持時間上的穩定性)。
當物體分布地圖修正完畢后,NUMINA進入真正的生成引導環節。它通過修改AI內部注意力計算時的偏置項來實現引導:在需要讓某個區域生成目標物體的地方,強化AI對該區域與目標詞的關聯;在需要消除某個區域不該有的物體的地方,把AI對該區域的關注強度壓到接近零。這種引導的強度會隨著生成步驟的推進逐漸減弱——在生成初期(決定物體布局的階段)引導力度最強,在生成后期(打磨細節的階段)引導力度最輕,讓AI有足夠的自由度來呈現自然的視覺質感。
**三、NUMINA在實際測試中的表現如何?**
為了系統評測NUMINA,研究團隊專門設計了一個名為CountBench的測試集,包含210個精心構造的文字描述,涵蓋了1到8個物體的計數場景,以及同時包含1到3種不同類別物體的復合場景。這些描述最初由GPT-5輔助生成,再經過人工審核篩選,確保描述自然合理、不重復。
評測采用了三個指標。計數準確率(CountAcc)用來衡量生成視頻里物體數量是否和文字描述一致;時間一致性(TC)用來衡量視頻從一幀到下一幀之間物體數量是否保持穩定,不會忽多忽少;CLIP分數用來衡量生成視頻與文字描述在整體語義上的契合程度。物體計數依靠GroundingDINO這一開放域目標檢測工具來自動完成。
研究團隊在三個規模不同的Wan系列模型上進行了測試,分別是參數量為13億(1.3B)、50億(5B)和140億(14B)的版本。作為對比,研究還測試了兩種最常見的樸素改進方案:第一種是"種子搜索",即對同一個描述連續生成5個不同版本的視頻,挑其中計數最準確的那個;第二種是"提示詞增強",即用大語言模型把描述文字擴展得更詳細,希望更豐富的描述能幫AI更好地理解數量要求。
結果顯示,在最小的1.3B模型上,原始模型的計數準確率只有42.3%,意味著超過一半的情況下物體數量是錯的。種子搜索把準確率提升到45.5%,提示詞增強提升到47.2%,而NUMINA把準確率提升到了49.7%,提升幅度達到7.4個百分點,且只需生成一次,不需要反復試驗。在5B模型上,NUMINA帶來4.9個百分點的提升;在14B模型上,NUMINA帶來5.5個百分點的提升。一個值得關注的細節是,加了NUMINA的1.3B小模型(49.7%)居然超過了完全沒有任何輔助的5B大模型(47.8%),這說明NUMINA的引導效果彌補了相當一部分參數量帶來的能力差距。
CLIP分數方面,NUMINA也帶來了提升,尤其在1.3B模型上從33.9上升到35.6,說明正確的物體布局不只是讓數字對了,也讓整個畫面與文字描述更加貼合。時間一致性同樣有所提升,這意味著NUMINA在糾正物體數量的同時,沒有讓視頻出現忽閃忽現的不穩定感。
按物體數量細分來看,規律非常清晰:物體數量越多,原始模型越力不從心,NUMINA的優勢也越明顯。對于"2個物體"的場景,原始模型準確率68.7%,還算過得去;但到了"3個物體",準確率急劇跌落到44.5%;到了"8個物體",準確率只剩下可憐的11.3%。NUMINA在"3個物體"場景下提升了16.2個百分點,在"8個物體"場景下將準確率從11.3%幾乎翻番提升到20.7%。雖然高數量場景下絕對準確率依然不高,但相對改善的幅度是極為可觀的。
研究團隊還與Sora2、Veo3.1、Grok Imagine等頂級商業視頻生成系統進行了定性對比,發現即使是這些最先進的商業產品,在"三名騎手參加馬術比賽和三只山羊"這類復合計數場景下也頻繁出錯,而NUMINA引導的Wan模型生成結果在數量上更加準確,布局也保持了自然感。
**四、NUMINA的各個設計選擇是否真的都有必要?**
研究團隊還做了大量消融實驗,逐一驗證每個設計決定的必要性。
關于在哪個時間點截取注意力地圖,實驗發現在第20步時截取是最佳選擇。太早(比如第10步),注意力模式還沒有形成足夠清晰的物體邊界;太晚(比如第40步以上),注意力模式又開始碎片化或者過度融合,反而失去了物體分離性。從效率角度看,在第20步停止預生成、提取信息,意味著預生成階段只用走完整50步中的40%,大幅節省了計算量。
關于如何選擇最佳注意力頭,實驗發現隨機選一個注意力頭只能把準確率從42.3%提升到44.1%,把所有注意力頭平均之后準確率反而更低(43.0%),而按照NUMINA設計的評分準則選出最佳單個頭,準確率能提升到49.7%。這個對比有力地證明了"物體邊界感知能力"是極少數注意力頭的稀有特質,把它和其他不具備這種特質的頭平均在一起,反而會稀釋掉有用的信息。
關于用來確定新增物體位置的三項成本,實驗逐步驗證了每一項的貢獻。只用"不重疊"約束,準確率提升2.8個百分點;加入"靠近已有物體中心"約束,再提升1.8個百分點;進一步加入"幀間位置穩定"約束,再提升2.0個百分點;三項全部結合,最終達到7.4個百分點的最大提升。時間穩定約束的貢獻之所以如此顯著,是因為視頻不同于單張圖片,物體在各幀之間的空間一致性直接決定了視頻是否自然。
關于物體刪除和添加哪個更重要,實驗發現單獨開啟添加功能的提升(5.4個百分點)遠大于單獨開啟刪除功能的提升(1.5個百分點)。這說明原始AI模型的主要問題在于"畫少了"而不是"畫多了",即該出現的物體沒出現,而不是憑空多畫了什么東西。兩者結合使用效果最佳,且協同效果略優于簡單相加,說明兩種操作之間存在相互配合的關系。
關于用AI的注意力地圖來定位物體是否真的比用外部目標檢測工具更好,實驗表明注意力地圖引導的方法比GroundingDINO檢測器引導的方法高出2.2個百分點。原因在于注意力地圖是AI"內部語言",天然與AI理解畫面的方式高度契合,能捕捉到尚在成形中的、模糊的物體雛形,而外部檢測器只能處理已經渲染清晰的畫面。
**五、NUMINA能在不同的AI系統之間通用嗎?**
研究團隊還專門驗證了NUMINA在另一類架構(Multi-Modal Diffusion Transformer,MMDiT)上的效果,具體測試對象是CogVideoX-5B模型。這種架構與Wan系列不同,它把文字和視覺的特征混合在同一套注意力機制里處理,沒有獨立的交叉注意力模塊。
為了適應這種架構,研究團隊對策略做了相應調整:把MMDiT中視覺部分與視覺部分之間的注意力視為自注意力,把文字部分與視覺部分之間的注意力視為交叉注意力,然后沿用同樣的選頭和引導邏輯。實驗結果顯示,在CogVideoX-5B上,原始模型計數準確率40.2%,種子搜索提升2.5個百分點,提示詞增強提升2.3個百分點,而NUMINA提升4.2個百分點達到44.4%,同時時間一致性和CLIP分數均有改善。這證明NUMINA的核心思路具有跨架構的遷移性,不是只能在特定模型上發揮作用的"針對性補丁"。
此外,NUMINA還可以與另一種推理加速技術EasyCache結合使用。EasyCache通過在相鄰步驟之間緩存重用計算結果來降低計算量。結合后,NUMINA的運行時間從431秒降低到355秒,計數準確率僅微降0.3個百分點到49.4%,VRAM占用保持不變。考慮到種子搜索需要運行5次才能選出最佳結果,其時間開銷是單次運行的5倍,NUMINA即使在不使用加速的情況下,綜合效率也遠優于種子搜索。
研究團隊還通過VBench平臺上的主體一致性指標(用來衡量同一個物體在視頻不同幀之間外觀的穩定性)進行了額外驗證。結果顯示,NUMINA在所有測試模型上的主體一致性分數均與原始模型持平或略有提升,進一步說明NUMINA的糾偏過程不會引入視覺上的閃爍或不穩定。
視覺生成質量方面,在VBench的美學質量和成像質量兩個子指標上,NUMINA處理后的視頻與原始模型相比基本持平,美學質量甚至略有提升(從61.5%到63.5%),說明修正數量的過程并沒有以犧牲畫面好看程度為代價。用戶盲測中,研究團隊邀請了10名參與者對100對隨機視頻進行主觀評分,結果61%的參與者偏好NUMINA生成的視頻,39%偏好原始模型生成的視頻,印證了客觀指標的結論。
**六、NUMINA還做不到什么?**
盡管NUMINA在各方面都取得了顯著的改進,研究團隊也坦誠地指出了它的局限性。
一個典型的失敗場景出現在處理"三只鸚鵡模仿三聲口哨"這類描述時。因為AI的注意力頭在分析鸚鵡時,有時候會過分聚焦于最顯眼的部分(比如鳥頭),而忽視鳥的身體,導致同一只鳥的頭部和身體被NUMINA當成了兩個獨立的物體,最終地圖上出現了錯誤的數量判斷,這個錯誤又被帶入到最終的視頻生成中,形成無法挽回的偏差。這個問題的根源在于原始注意力信號本身是粗粒度的,沒有精確的"整體-部分"結構感知能力。
另一個尚未解決的領域是極高密度的場景,比如"50只鳥"、"100個人"這類描述。NUMINA的設計目標是1到8個物體的精確計數,面對數量級別更大的場景,其地圖構建和引導策略都需要根本性的重新設計。
歸根結底,NUMINA給我們展示的是一種頗具啟發性的思路:不需要重新訓練一個大型AI模型,只需要在它的生成過程中插入一個輕量級的"理解-檢測-糾偏"循環,就能顯著改善它在特定能力維度上的表現。這對于AI系統的實際部署和改進來說,具有相當的參考價值。畢竟,重新訓練一個大模型需要的資源往往是普通研究團隊難以承受的,而這種"不改模型本身,改流程"的思路,提供了一條更具可行性的改進路徑。
當下,視頻生成技術正快速進入教育、影視、游戲等各類生產性場景,精確數量控制會是越來越多應用的剛性需求——教學視頻里講"三種元素"就必須是三種,產品演示視頻里講"兩個按鈕"就必須是兩個。NUMINA所代表的方向,是讓AI不只"看起來很智能",而是能在具體的語義細節上做到真正精準。這條路上,還有很長的路要走,但這個方向本身,值得被認真對待。
Q&A
Q1:NUMINA框架解決的是什么問題?
A:NUMINA解決的是AI視頻生成系統無法準確生成指定數量物體的問題。比如,當用戶輸入"三只貓在奔跑",現有的主流視頻生成模型經常生成出來兩只或四只貓。NUMINA通過分析模型內部的注意力信號來識別數量偏差,再通過引導交叉注意力來糾正生成結果,整個過程不需要重新訓練模型,屬于訓練無關的推理階段干預方案。
Q2:NUMINA框架比直接多生成幾次視頻然后挑最好的方案效果好在哪?
A:多次生成挑選(即"種子搜索")在Wan2.1-1.3B模型上需要生成5次視頻才能把計數準確率從42.3%提升到45.5%,耗時是單次生成的5倍。NUMINA只需生成一次,就能把準確率提升到49.7%,效果更好、速度更快。而且NUMINA還能與推理加速技術EasyCache結合,進一步壓縮時間開銷,綜合性價比遠高于反復嘗試隨機種子的方式。
Q3:NUMINA框架目前有哪些無法處理的情況?
A:NUMINA目前在兩類情況下表現欠佳。第一類是物體部件被誤判為獨立個體的情況,比如鸚鵡的頭部有時會被注意力機制單獨識別為一個"物體",導致計數比實際偏多,從而引發錯誤引導。第二類是超高密度計數場景,NUMINA的設計目標是1到8個物體的精確計數,對于幾十乃至上百個物體的場景,其內部的地圖構建和引導邏輯都尚未針對性優化,效果存在局限。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.