<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      華中科技大學團隊揭秘:為什么AI視頻總是數錯物體數量?

      0
      分享至


      這項由華中科技大學、浙江大學與Afari Intelligent Drive聯合開展的研究,以arXiv預印本形式于2026年4月9日發布,編號為arXiv:2604.08546。有興趣深入了解的讀者可以通過該編號查詢完整論文。

      你有沒有試過讓AI幫你生成一段視頻,比如"三只貓在客廳里追逐嬉戲",結果視頻里只跑出來兩只貓,或者干脆出來了四只?再比如你需要一段教學視頻,描述"四名建筑工人和兩臺挖掘機在施工",AI給你生成的畫面里,挖掘機的數量完全不對?這種讓人哭笑不得的狀況,其實是當今最先進的AI視頻生成系統共同面臨的頑固問題——它們很擅長畫出漂亮的畫面,卻經常數不清楚自己畫了幾個東西。

      華中科技大學等機構的研究團隊把這個問題認真研究了一番,并提出了一套叫做NUMINA的解決方案。這個名字聽起來有些神秘,但它的核心思路其實相當直接:先讓AI認清楚自己到底畫了幾個物體,發現數量不對之后,再悄悄引導它糾正。整個過程不需要重新訓練AI模型,就像是給一個已經學會開車的人指路,而不是讓他重新學開車。

      **一、AI為什么總是數不清楚?**

      要理解這個問題,先得知道現代AI視頻生成系統是怎么工作的。這類系統通常基于一種叫做"擴散變換器"(Diffusion Transformer,簡稱DiT)的架構。通俗地說,這套系統的工作方式有點像一個畫家從一張滿是隨機噪點的畫布上,根據文字描述,一步一步地擦去多余的噪點,最終讓一幅清晰的畫面浮現出來。

      在這個過程中,AI通過一種叫"注意力機制"的方式理解文字描述。你可以把注意力機制理解為AI讀句子時的"眼神焦點"——它會特別盯住句子中某些詞,然后把這些詞和畫面中的某些區域聯系起來。對于名詞、動詞、形容詞,AI的眼神焦點非常精準,能清晰地把"貓"這個詞和畫面中貓的位置對應起來。但研究團隊通過可視化分析發現,當句子中出現"三只"、"四個"這樣的數字詞時,AI的"眼神"卻變得散漫而模糊,無法形成清晰聚焦的響應。

      這就引出了第一個根本原因:數字詞的語義太弱。AI系統在訓練過程中,數字詞得到的"關注訓練"遠不如名詞和形容詞充分,導致它在生成畫面時根本沒有充分理解"三只"意味著什么空間布局約束。

      第二個原因則更為隱蔽。這類AI系統為了計算效率,會把視頻在空間和時間兩個維度上大幅壓縮后再處理,就像把一張精細地圖縮小到郵票大小。在這個極度壓縮的微觀世界里,兩個相鄰的同類物體(比如挨在一起的兩只貓)在AI眼中極難被區分為兩個獨立個體,它們的"邊界"模糊不清,自然就會導致數量混亂。

      理論上,重新訓練AI模型是能解決這些問題的,但代價極其高昂——需要海量帶精確數量標注的數據集,以及巨大的計算資源,而且調整數字詞的處理方式還可能破壞AI在其他方面(比如畫面質量、運動流暢度)的能力。正因如此,研究團隊選擇了另一條路:在不改變模型本身的前提下,設計一個外掛的"引導系統",在視頻生成過程中實時糾偏。

      **二、NUMINA是如何當"數數監督員"的?**

      NUMINA的工作分為兩個清晰的階段,就像一位質檢員的工作流程:先檢查產品是否合格,再對不合格的地方進行修正。

      第一階段叫做"數量偏差識別"。在AI開始生成視頻的早期階段(大約在第20步降噪步驟時,總共50步),NUMINA就介入進來,悄悄窺探AI內部的注意力地圖。

      這里有個關鍵發現。研究團隊通過對AI內部數百個"注意力頭"(可以理解為AI大腦里同時運作的許多個"小專家",每個專家負責關注畫面的不同側面)進行系統分析,發現只有極少數幾個注意力頭天然地具備"物體邊界感知"能力。大多數小專家的視野是模糊的或者只關注大類別,但偶爾有一兩個小專家能清晰地把不同個體之間的邊界畫出來。

      NUMINA設計了一套自動篩選機制來找到這些"最佳小專家"。對于自注意力頭(專門處理畫面內部結構的專家),篩選標準包含三個維度:前景與背景的對比度是否夠強、畫面中間尺度的空間結構是否豐富、物體邊緣是否清晰銳利。把這三項指標加權求和,得分最高的那個注意力頭就被選中,作為畫面中物體分布的空間參考。與此同時,對于交叉注意力頭(專門處理文字與畫面關聯的專家),NUMINA為每個需要計數的名詞詞語(比如"人"、"狗")分別找一個激活響應最集中、最聚焦的專家頭,用來確定該類物體在畫面中的位置區域。

      有了這兩類信息之后,NUMINA把它們融合起來。它先用一種叫均值漂移的聚類算法把畫面切分成一塊一塊的區域,然后用交叉注意力的焦點區域篩選出哪些區域真正對應目標物體,最終得到一張明確的"物體分布地圖"——每個物體占據哪里,一共有幾個,一目了然。

      至此,如果地圖上顯示"人"的數量是2個,但文字描述說應該是3個,偏差就被識別出來了。

      第二階段叫做"數量對齊生成"。發現偏差之后,NUMINA不會粗暴地直接修改AI的畫面,因為那樣很可能破壞已有畫面的自然感和質量。它采用的是一種"保守修正"策略,就像外科醫生的微創手術原則:能少動刀就少動刀,只處理必須處理的部分。

      如果物體太多了,需要刪掉幾個,NUMINA會優先選擇地圖上面積最小的那個實例刪除,因為小實例對整體畫面構圖的影響最小,刪掉它最不容易留下明顯痕跡。

      如果物體太少了,需要增加幾個,NUMINA會先看看現有物體里最小的那個作為模板,把它的形狀和位置復制一份,然后計算在畫面哪個位置放置這個新物體最合適。這個位置計算綜合考慮了三件事:新物體不能和已有物體的位置重疊、新物體應該放在已有物體整體分布的中心附近(保持構圖自然)、從前一幀到當前幀新物體的位置不能跳動太大(保持時間上的穩定性)。

      當物體分布地圖修正完畢后,NUMINA進入真正的生成引導環節。它通過修改AI內部注意力計算時的偏置項來實現引導:在需要讓某個區域生成目標物體的地方,強化AI對該區域與目標詞的關聯;在需要消除某個區域不該有的物體的地方,把AI對該區域的關注強度壓到接近零。這種引導的強度會隨著生成步驟的推進逐漸減弱——在生成初期(決定物體布局的階段)引導力度最強,在生成后期(打磨細節的階段)引導力度最輕,讓AI有足夠的自由度來呈現自然的視覺質感。

      **三、NUMINA在實際測試中的表現如何?**

      為了系統評測NUMINA,研究團隊專門設計了一個名為CountBench的測試集,包含210個精心構造的文字描述,涵蓋了1到8個物體的計數場景,以及同時包含1到3種不同類別物體的復合場景。這些描述最初由GPT-5輔助生成,再經過人工審核篩選,確保描述自然合理、不重復。

      評測采用了三個指標。計數準確率(CountAcc)用來衡量生成視頻里物體數量是否和文字描述一致;時間一致性(TC)用來衡量視頻從一幀到下一幀之間物體數量是否保持穩定,不會忽多忽少;CLIP分數用來衡量生成視頻與文字描述在整體語義上的契合程度。物體計數依靠GroundingDINO這一開放域目標檢測工具來自動完成。

      研究團隊在三個規模不同的Wan系列模型上進行了測試,分別是參數量為13億(1.3B)、50億(5B)和140億(14B)的版本。作為對比,研究還測試了兩種最常見的樸素改進方案:第一種是"種子搜索",即對同一個描述連續生成5個不同版本的視頻,挑其中計數最準確的那個;第二種是"提示詞增強",即用大語言模型把描述文字擴展得更詳細,希望更豐富的描述能幫AI更好地理解數量要求。

      結果顯示,在最小的1.3B模型上,原始模型的計數準確率只有42.3%,意味著超過一半的情況下物體數量是錯的。種子搜索把準確率提升到45.5%,提示詞增強提升到47.2%,而NUMINA把準確率提升到了49.7%,提升幅度達到7.4個百分點,且只需生成一次,不需要反復試驗。在5B模型上,NUMINA帶來4.9個百分點的提升;在14B模型上,NUMINA帶來5.5個百分點的提升。一個值得關注的細節是,加了NUMINA的1.3B小模型(49.7%)居然超過了完全沒有任何輔助的5B大模型(47.8%),這說明NUMINA的引導效果彌補了相當一部分參數量帶來的能力差距。

      CLIP分數方面,NUMINA也帶來了提升,尤其在1.3B模型上從33.9上升到35.6,說明正確的物體布局不只是讓數字對了,也讓整個畫面與文字描述更加貼合。時間一致性同樣有所提升,這意味著NUMINA在糾正物體數量的同時,沒有讓視頻出現忽閃忽現的不穩定感。

      按物體數量細分來看,規律非常清晰:物體數量越多,原始模型越力不從心,NUMINA的優勢也越明顯。對于"2個物體"的場景,原始模型準確率68.7%,還算過得去;但到了"3個物體",準確率急劇跌落到44.5%;到了"8個物體",準確率只剩下可憐的11.3%。NUMINA在"3個物體"場景下提升了16.2個百分點,在"8個物體"場景下將準確率從11.3%幾乎翻番提升到20.7%。雖然高數量場景下絕對準確率依然不高,但相對改善的幅度是極為可觀的。

      研究團隊還與Sora2、Veo3.1、Grok Imagine等頂級商業視頻生成系統進行了定性對比,發現即使是這些最先進的商業產品,在"三名騎手參加馬術比賽和三只山羊"這類復合計數場景下也頻繁出錯,而NUMINA引導的Wan模型生成結果在數量上更加準確,布局也保持了自然感。

      **四、NUMINA的各個設計選擇是否真的都有必要?**

      研究團隊還做了大量消融實驗,逐一驗證每個設計決定的必要性。

      關于在哪個時間點截取注意力地圖,實驗發現在第20步時截取是最佳選擇。太早(比如第10步),注意力模式還沒有形成足夠清晰的物體邊界;太晚(比如第40步以上),注意力模式又開始碎片化或者過度融合,反而失去了物體分離性。從效率角度看,在第20步停止預生成、提取信息,意味著預生成階段只用走完整50步中的40%,大幅節省了計算量。

      關于如何選擇最佳注意力頭,實驗發現隨機選一個注意力頭只能把準確率從42.3%提升到44.1%,把所有注意力頭平均之后準確率反而更低(43.0%),而按照NUMINA設計的評分準則選出最佳單個頭,準確率能提升到49.7%。這個對比有力地證明了"物體邊界感知能力"是極少數注意力頭的稀有特質,把它和其他不具備這種特質的頭平均在一起,反而會稀釋掉有用的信息。

      關于用來確定新增物體位置的三項成本,實驗逐步驗證了每一項的貢獻。只用"不重疊"約束,準確率提升2.8個百分點;加入"靠近已有物體中心"約束,再提升1.8個百分點;進一步加入"幀間位置穩定"約束,再提升2.0個百分點;三項全部結合,最終達到7.4個百分點的最大提升。時間穩定約束的貢獻之所以如此顯著,是因為視頻不同于單張圖片,物體在各幀之間的空間一致性直接決定了視頻是否自然。

      關于物體刪除和添加哪個更重要,實驗發現單獨開啟添加功能的提升(5.4個百分點)遠大于單獨開啟刪除功能的提升(1.5個百分點)。這說明原始AI模型的主要問題在于"畫少了"而不是"畫多了",即該出現的物體沒出現,而不是憑空多畫了什么東西。兩者結合使用效果最佳,且協同效果略優于簡單相加,說明兩種操作之間存在相互配合的關系。

      關于用AI的注意力地圖來定位物體是否真的比用外部目標檢測工具更好,實驗表明注意力地圖引導的方法比GroundingDINO檢測器引導的方法高出2.2個百分點。原因在于注意力地圖是AI"內部語言",天然與AI理解畫面的方式高度契合,能捕捉到尚在成形中的、模糊的物體雛形,而外部檢測器只能處理已經渲染清晰的畫面。

      **五、NUMINA能在不同的AI系統之間通用嗎?**

      研究團隊還專門驗證了NUMINA在另一類架構(Multi-Modal Diffusion Transformer,MMDiT)上的效果,具體測試對象是CogVideoX-5B模型。這種架構與Wan系列不同,它把文字和視覺的特征混合在同一套注意力機制里處理,沒有獨立的交叉注意力模塊。

      為了適應這種架構,研究團隊對策略做了相應調整:把MMDiT中視覺部分與視覺部分之間的注意力視為自注意力,把文字部分與視覺部分之間的注意力視為交叉注意力,然后沿用同樣的選頭和引導邏輯。實驗結果顯示,在CogVideoX-5B上,原始模型計數準確率40.2%,種子搜索提升2.5個百分點,提示詞增強提升2.3個百分點,而NUMINA提升4.2個百分點達到44.4%,同時時間一致性和CLIP分數均有改善。這證明NUMINA的核心思路具有跨架構的遷移性,不是只能在特定模型上發揮作用的"針對性補丁"。

      此外,NUMINA還可以與另一種推理加速技術EasyCache結合使用。EasyCache通過在相鄰步驟之間緩存重用計算結果來降低計算量。結合后,NUMINA的運行時間從431秒降低到355秒,計數準確率僅微降0.3個百分點到49.4%,VRAM占用保持不變。考慮到種子搜索需要運行5次才能選出最佳結果,其時間開銷是單次運行的5倍,NUMINA即使在不使用加速的情況下,綜合效率也遠優于種子搜索。

      研究團隊還通過VBench平臺上的主體一致性指標(用來衡量同一個物體在視頻不同幀之間外觀的穩定性)進行了額外驗證。結果顯示,NUMINA在所有測試模型上的主體一致性分數均與原始模型持平或略有提升,進一步說明NUMINA的糾偏過程不會引入視覺上的閃爍或不穩定。

      視覺生成質量方面,在VBench的美學質量和成像質量兩個子指標上,NUMINA處理后的視頻與原始模型相比基本持平,美學質量甚至略有提升(從61.5%到63.5%),說明修正數量的過程并沒有以犧牲畫面好看程度為代價。用戶盲測中,研究團隊邀請了10名參與者對100對隨機視頻進行主觀評分,結果61%的參與者偏好NUMINA生成的視頻,39%偏好原始模型生成的視頻,印證了客觀指標的結論。

      **六、NUMINA還做不到什么?**

      盡管NUMINA在各方面都取得了顯著的改進,研究團隊也坦誠地指出了它的局限性。

      一個典型的失敗場景出現在處理"三只鸚鵡模仿三聲口哨"這類描述時。因為AI的注意力頭在分析鸚鵡時,有時候會過分聚焦于最顯眼的部分(比如鳥頭),而忽視鳥的身體,導致同一只鳥的頭部和身體被NUMINA當成了兩個獨立的物體,最終地圖上出現了錯誤的數量判斷,這個錯誤又被帶入到最終的視頻生成中,形成無法挽回的偏差。這個問題的根源在于原始注意力信號本身是粗粒度的,沒有精確的"整體-部分"結構感知能力。

      另一個尚未解決的領域是極高密度的場景,比如"50只鳥"、"100個人"這類描述。NUMINA的設計目標是1到8個物體的精確計數,面對數量級別更大的場景,其地圖構建和引導策略都需要根本性的重新設計。

      歸根結底,NUMINA給我們展示的是一種頗具啟發性的思路:不需要重新訓練一個大型AI模型,只需要在它的生成過程中插入一個輕量級的"理解-檢測-糾偏"循環,就能顯著改善它在特定能力維度上的表現。這對于AI系統的實際部署和改進來說,具有相當的參考價值。畢竟,重新訓練一個大模型需要的資源往往是普通研究團隊難以承受的,而這種"不改模型本身,改流程"的思路,提供了一條更具可行性的改進路徑。

      當下,視頻生成技術正快速進入教育、影視、游戲等各類生產性場景,精確數量控制會是越來越多應用的剛性需求——教學視頻里講"三種元素"就必須是三種,產品演示視頻里講"兩個按鈕"就必須是兩個。NUMINA所代表的方向,是讓AI不只"看起來很智能",而是能在具體的語義細節上做到真正精準。這條路上,還有很長的路要走,但這個方向本身,值得被認真對待。

      Q&A

      Q1:NUMINA框架解決的是什么問題?

      A:NUMINA解決的是AI視頻生成系統無法準確生成指定數量物體的問題。比如,當用戶輸入"三只貓在奔跑",現有的主流視頻生成模型經常生成出來兩只或四只貓。NUMINA通過分析模型內部的注意力信號來識別數量偏差,再通過引導交叉注意力來糾正生成結果,整個過程不需要重新訓練模型,屬于訓練無關的推理階段干預方案。

      Q2:NUMINA框架比直接多生成幾次視頻然后挑最好的方案效果好在哪?

      A:多次生成挑選(即"種子搜索")在Wan2.1-1.3B模型上需要生成5次視頻才能把計數準確率從42.3%提升到45.5%,耗時是單次生成的5倍。NUMINA只需生成一次,就能把準確率提升到49.7%,效果更好、速度更快。而且NUMINA還能與推理加速技術EasyCache結合,進一步壓縮時間開銷,綜合性價比遠高于反復嘗試隨機種子的方式。

      Q3:NUMINA框架目前有哪些無法處理的情況?

      A:NUMINA目前在兩類情況下表現欠佳。第一類是物體部件被誤判為獨立個體的情況,比如鸚鵡的頭部有時會被注意力機制單獨識別為一個"物體",導致計數比實際偏多,從而引發錯誤引導。第二類是超高密度計數場景,NUMINA的設計目標是1到8個物體的精確計數,對于幾十乃至上百個物體的場景,其內部的地圖構建和引導邏輯都尚未針對性優化,效果存在局限。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      76項研究證明:6種堅果降血脂大比拼,第一名居然是它!每天吃10顆,降脂、補纖維、抗炎

      76項研究證明:6種堅果降血脂大比拼,第一名居然是它!每天吃10顆,降脂、補纖維、抗炎

      掌上腎醫
      2026-04-19 16:19:00
      沙溢當眾毆打李晨,被告上仲裁會:永遠不要輕易評價一個人

      沙溢當眾毆打李晨,被告上仲裁會:永遠不要輕易評價一個人

      圓夢的小老頭
      2026-03-15 03:37:22
      鴻蒙智行旗艦MPV智界V9內飾細節曝光,4月22日開啟預訂

      鴻蒙智行旗艦MPV智界V9內飾細節曝光,4月22日開啟預訂

      IT之家
      2026-04-19 12:08:46
      新澳門六合彩第109期,特,三中三,內幕推薦

      新澳門六合彩第109期,特,三中三,內幕推薦

      背包客的自我修養
      2026-04-19 14:40:36
      這種飲料正在摧毀你的胰島細胞!很多糖尿病,都和這種飲料有關!

      這種飲料正在摧毀你的胰島細胞!很多糖尿病,都和這種飲料有關!

      蜉蝣說
      2026-01-29 14:46:50
      英超瘋狂一夜:絕殺頻現,保級隊驚天逆轉

      英超瘋狂一夜:絕殺頻現,保級隊驚天逆轉

      余憁搞笑段子
      2026-04-20 00:20:16
      杜德偉憑《風林火山》“李文狄”一角 首奪金像獎最佳男配角 感謝梁家輝徹夜教戲

      杜德偉憑《風林火山》“李文狄”一角 首奪金像獎最佳男配角 感謝梁家輝徹夜教戲

      草莓解說體育
      2026-04-20 01:23:13
      北影節紅毯:高圓圓美的驚心動魄,被周冬雨嚇了一跳,高葉太敢穿

      北影節紅毯:高圓圓美的驚心動魄,被周冬雨嚇了一跳,高葉太敢穿

      糊咖娛樂
      2026-04-17 11:24:40
      140年來最強厄爾尼諾要出現了?氣溫將沖擊高溫極限!真的嗎?

      140年來最強厄爾尼諾要出現了?氣溫將沖擊高溫極限!真的嗎?

      史行途
      2026-04-19 14:25:26
      傻狍子找了長腿格格替身

      傻狍子找了長腿格格替身

      毒舌扒姨太
      2026-04-18 22:40:31
      淪為共享單車的女色虎

      淪為共享單車的女色虎

      深度報
      2026-03-05 22:39:27
      郵報:切爾西將高管薪酬提高了80%;恩佐、福法納等人或離隊

      郵報:切爾西將高管薪酬提高了80%;恩佐、福法納等人或離隊

      懂球帝
      2026-04-19 07:37:08
      26家企業涉醫藥商業賄賂案!知名藥企退市摘牌,17個中成藥被暫停掛網,金賽、樂普、綠葉亮了

      26家企業涉醫藥商業賄賂案!知名藥企退市摘牌,17個中成藥被暫停掛網,金賽、樂普、綠葉亮了

      新浪財經
      2026-04-18 18:07:40
      短短一年炎癥變癌癥?醫生提醒:患上5種炎癥不能拖,小心癌變

      短短一年炎癥變癌癥?醫生提醒:患上5種炎癥不能拖,小心癌變

      39健康網
      2026-04-19 18:38:55
      1949年,毛澤東去戲院看戲,指著一人說:你看,他真是一副奴才相

      1949年,毛澤東去戲院看戲,指著一人說:你看,他真是一副奴才相

      涼州辭
      2026-04-18 15:50:03
      潘粵明評價獲證實!董潔22年后與藍顏知己再牽手

      潘粵明評價獲證實!董潔22年后與藍顏知己再牽手

      獨舞獨舞
      2026-01-18 06:37:17
      遭公開控訴雙面人后,王陽被曝大瓜,才發現蔣欣當年決策有多高明

      遭公開控訴雙面人后,王陽被曝大瓜,才發現蔣欣當年決策有多高明

      阿褲趣聞君
      2026-04-17 23:11:38
      臺灣回歸新方案浮出水面:國民黨若同意,解放軍或無需動武

      臺灣回歸新方案浮出水面:國民黨若同意,解放軍或無需動武

      全球沸點直擊
      2026-04-19 19:12:42
      阿斯:皇馬去年12月就想換掉阿隆索,如今認為白白浪費一個月

      阿斯:皇馬去年12月就想換掉阿隆索,如今認為白白浪費一個月

      懂球帝
      2026-04-19 04:48:55
      全面反華?特朗普提名駐韓大使,關鍵時刻,韓國擬對華收33%關稅

      全面反華?特朗普提名駐韓大使,關鍵時刻,韓國擬對華收33%關稅

      軒逸阿II
      2026-04-20 02:11:47
      2026-04-20 03:23:00
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業世界
      8048文章數 562關注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀錄!300臺機器人狂飆半馬

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂要聞

      何潤東漲粉百萬!內娛隔空掀桌第一人

      財經要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬 極氪8X為什么這么多人買?

      態度原創

      教育
      游戲
      親子
      房產
      時尚

      教育要聞

      655家單位、1.29萬個崗位,湖南用心幫大學生找工作

      如何將ZH-1火力最大化?《戰艦世界》15.3版本造船廠加點攻略

      親子要聞

      孩子總打噴嚏、起疹子,時過敏嗎?

      房產要聞

      官宣簽約最強城更!海口樓市,突然殺入神秘房企!

      裝修“精神角落”,就是這么上癮

      無障礙瀏覽 進入關懷版