網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

浙江大學(xué)教AI"玩拼圖"：讓機(jī)器真正聽懂視頻，而不是偷懶走捷徑

2026-04-17 23:46:17　來源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由浙江大學(xué)與小米公司聯(lián)合開展的研究發(fā)表于2026年4月，論文編號(hào)為arXiv:2604.08209，題為"OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering"，有興趣深入了解的讀者可以通過該編號(hào)查詢完整論文。

研究團(tuán)隊(duì)面對(duì)的核心難題，可以用一句話來描述：如何讓AI在同時(shí)擁有眼睛和耳朵的情況下，真正地把兩者結(jié)合起來用，而不是偷懶只靠其中一個(gè)感官來解題？

一、為什么教AI"看"視頻這件事，比你想象的難多了

電視機(jī)和收音機(jī)的區(qū)別，大家都很清楚。視頻里有畫面、有聲音，兩者共同講述一個(gè)故事。對(duì)人類來說，同時(shí)接收視覺和聽覺信息、然后融合理解，是一件再自然不過的事。但對(duì)于AI來說，這件事出奇地難做到。

目前最先進(jìn)的大型語言模型，在純文字的任務(wù)上已經(jīng)相當(dāng)厲害，比如解數(shù)學(xué)題、寫代碼，甚至與人對(duì)話。這類成功很大程度上依賴一種叫"強(qiáng)化學(xué)習(xí)后訓(xùn)練"的技術(shù)——簡(jiǎn)單理解，就是給AI出題、判斷答案對(duì)不對(duì)、然后獎(jiǎng)勵(lì)或懲罰它，逐步讓它越來越聰明。然而，把這套方法搬到視頻和音頻的領(lǐng)域里，卻遇到了一個(gè)幾乎無法繞過的麻煩：沒有足夠多的高質(zhì)量標(biāo)注數(shù)據(jù)。

數(shù)學(xué)題有標(biāo)準(zhǔn)答案，代碼能運(yùn)行就是對(duì)。但要讓AI理解一段視頻里視覺和聽覺的深層聯(lián)系，就需要人工去標(biāo)注大量"這個(gè)畫面配這段聲音，它們之間的關(guān)系是這樣的"，這種工作既昂貴又耗時(shí)，根本做不到大規(guī)模展開。

浙江大學(xué)和小米的研究團(tuán)隊(duì)從另一個(gè)角度切入：能不能找一個(gè)不需要人工標(biāo)注的任務(wù)，讓AI在完成這個(gè)任務(wù)的過程中，自然地學(xué)會(huì)整合視覺和聽覺信息？他們想到了一個(gè)絕妙的類比——拼圖游戲。

二、把視頻打亂再還原：一個(gè)既簡(jiǎn)單又深刻的訓(xùn)練游戲

核心思路是這樣的：拿一段視頻，把它剪成若干小片段，然后打亂順序給AI看，要求AI把正確的順序還原出來。就像給你一本書的六個(gè)章節(jié)，但順序被打亂了，你需要根據(jù)內(nèi)容判斷哪章在前、哪章在后。

這個(gè)任務(wù)之所以精妙，在于它有天然的"標(biāo)準(zhǔn)答案"——視頻原本的時(shí)間順序就是正確答案，完全不需要人類去標(biāo)注。同時(shí)，要想把順序還原得好，AI就不得不認(rèn)真分析每個(gè)片段里發(fā)生了什么，以及片段之間的邏輯關(guān)系，這正是理解視頻所需要的核心能力。

研究團(tuán)隊(duì)把這套方法命名為OmniJigsaw（"全感官拼圖"）。他們把每個(gè)視頻均勻切成6個(gè)片段，然后在切割處各丟掉5%的內(nèi)容，目的是防止AI靠相鄰片段的邊界拼接特征作弊——就像拼圖時(shí)不讓你通過紙板背面的紋路來匹配，必須真正看圖案內(nèi)容。打亂后的片段交給AI，AI需要用思維鏈（一步步列出推理過程）來分析，最終給出原始順序。

三、當(dāng)AI擁有"雙眼"和"耳朵"時(shí)，它會(huì)選擇只用其中一個(gè)

研究團(tuán)隊(duì)最初的做法是最直接的：給AI完整的視頻片段（既有畫面又有聲音），讓它同時(shí)依靠?jī)煞N信息來判斷順序。這個(gè)策略被稱為"聯(lián)合模態(tài)整合"（JMI）。

結(jié)果出乎意料地令人失望。AI在這種情況下的表現(xiàn)，反而不如只給它看畫面或只讓它聽聲音的版本。

研究團(tuán)隊(duì)把這個(gè)現(xiàn)象命名為"雙模態(tài)捷徑效應(yīng)"。道理其實(shí)不難理解：當(dāng)你同時(shí)給了AI兩條路，它會(huì)自然地選擇那條更容易走的路。如果一段視頻的畫面內(nèi)容足夠明顯，AI就只靠畫面來判斷；如果音頻里有清晰的語音線索，AI就只靠聲音來判斷。兩種模態(tài)并存，反而給了它"偷懶"的機(jī)會(huì)——它不需要把兩者結(jié)合起來，就能大概率答對(duì)題目，于是它就沒有動(dòng)力去真正學(xué)會(huì)融合理解。

從訓(xùn)練角度來看，這種"偷懶"是災(zāi)難性的。AI雖然答對(duì)了題，但它沒有學(xué)到真正有價(jià)值的技能，就好像學(xué)生在考試中靠猜答案拿到了分?jǐn)?shù)，但實(shí)際上什么都沒學(xué)會(huì)。

為了解決這個(gè)問題，研究團(tuán)隊(duì)設(shè)計(jì)了兩種更聰明的訓(xùn)練策略。

四、第一種解法：在整段視頻層面，逼著AI只用一種感官

第一種策略叫做"樣本級(jí)模態(tài)選擇"（SMS）。它的工作方式分兩步：首先，讓AI分析整段視頻，判斷這個(gè)視頻的時(shí)間線索主要來自畫面還是聲音。比如一段烹飪教學(xué)視頻，廚師的操作步驟在畫面上非常清晰，那畫面就是主導(dǎo)模態(tài)；而一段播客節(jié)目，說話人一直坐在那里幾乎不動(dòng)，聲音里的內(nèi)容才是真正的故事線，那音頻就是主導(dǎo)模態(tài)。

確定了主導(dǎo)模態(tài)之后，系統(tǒng)就只保留那個(gè)模態(tài)的信息，把另一個(gè)模態(tài)完全遮掉，然后再讓AI做拼圖排序。這樣，AI就沒有"走捷徑"的機(jī)會(huì)，必須認(rèn)認(rèn)真真地分析它面前的那一種信息，深度理解其中的時(shí)間邏輯。

這個(gè)方法有效地消除了"捷徑效應(yīng)"，因?yàn)楦揪蜎]有第二條路可走。不過，它也有局限性：一段視頻的主導(dǎo)模態(tài)是在整體層面判斷的，但實(shí)際上，同一段視頻里，某些片段可能畫面最重要，另一些片段可能聲音最關(guān)鍵。一刀切的全局判斷，會(huì)錯(cuò)過這種局部的細(xì)節(jié)。

五、第二種解法：更精細(xì)的操作，逐片段決定用哪只感官

第二種策略叫做"片段級(jí)模態(tài)遮蔽"（CMM），也是研究中效果最好的方法。它的邏輯更進(jìn)一步：不是在整個(gè)視頻層面做決定，而是對(duì)每一個(gè)小片段單獨(dú)評(píng)估，決定這個(gè)片段應(yīng)該保留畫面、保留聲音、還是兩者都保留。

具體操作分兩個(gè)階段。第一階段，AI先按正常順序看完所有6個(gè)片段，然后為每個(gè)片段做一個(gè)"模態(tài)標(biāo)簽"的決定——比如：第1片畫面里有明顯動(dòng)作變化，標(biāo)記為"只保留畫面"；第3片里有關(guān)鍵對(duì)白，標(biāo)記為"只保留聲音"；第5片里畫面和聲音都有不可或缺的信息，標(biāo)記為"兩者都保留"。整體上，研究團(tuán)隊(duì)要求這6個(gè)片段的標(biāo)簽不能全是一種，必須有一定的混搭，這樣才能真正鍛煉AI跨模態(tài)整合的能力。

第二階段，按照這些標(biāo)簽處理打亂順序后的片段——被標(biāo)為"只看畫面"的，就把聲音替換為靜音；被標(biāo)為"只聽聲音"的，就把畫面替換為全黑。然后把這些處理過的片段打亂順序，交給AI去排序。

這時(shí)候，AI面臨的挑戰(zhàn)就完全不同了。某些片段只有畫面，某些只有聲音，還有些兩者都有。要把正確的順序拼出來，AI必須在分析不同片段時(shí)不停地在"看"和"聽"兩種模式之間切換，并且把從不同模態(tài)獲得的零散線索拼接成一個(gè)完整的時(shí)間圖譜。這正是真正的跨模態(tài)理解能力。

從訓(xùn)練曲線來看，CMM策略下AI的任務(wù)獎(jiǎng)勵(lì)增長(zhǎng)得更慢，這是因?yàn)轭}目更難了，AI不得不做更深層的分析。但最終，它學(xué)到的能力更扎實(shí)，在各種下游任務(wù)上的表現(xiàn)也更出色。

六、一套挑剔的"質(zhì)檢流水線"，確保拼圖本身值得拼

研究團(tuán)隊(duì)很早就意識(shí)到一個(gè)關(guān)鍵問題：拼圖本身必須是好拼圖。如果給AI的訓(xùn)練素材是一段幾乎沒有變化的視頻——比如一小時(shí)的會(huì)議錄像，畫面一直是同一間會(huì)議室，聲音是均勻的背景噪聲——那么打亂順序之后，AI幾乎無法判斷哪段在前哪段在后，這種數(shù)據(jù)對(duì)訓(xùn)練完全沒有價(jià)值，甚至?xí)a(chǎn)生負(fù)面效果。

為此，他們?cè)O(shè)計(jì)了一條嚴(yán)格的兩階段篩選流水線。

第一階段用輕量級(jí)的信號(hào)檢測(cè)方法快速過濾。首先，視頻必須同時(shí)有畫面和聲音，缺少任何一種的直接淘汰。然后，檢查畫面的動(dòng)態(tài)性：通過計(jì)算相鄰幀之間的平均絕對(duì)差值，如果超過70%的幀之間幾乎沒有變化，就認(rèn)定這是一段低動(dòng)態(tài)視頻，直接丟棄。接著是音頻質(zhì)量檢查：用音量能量（RMS）來判斷是否大部分時(shí)間是靜音，用頻譜變化率（Spectral Flux）來判斷聲音是否單調(diào)無變化，不通過這兩項(xiàng)檢查的視頻同樣淘汰。還有一項(xiàng)獨(dú)特的檢測(cè)：用專門的語音活動(dòng)檢測(cè)模型（Silero VAD）來分析視頻中語音內(nèi)容的比例，要求在30%到80%之間——太低說明幾乎沒有語音信息，太高則說明畫面上可能沒什么有意義的視覺變化，兩者都不適合作為訓(xùn)練素材。

通過第一階段篩選的視頻，還要接受第二階段的語義層面審查。研究團(tuán)隊(duì)用一個(gè)相對(duì)輕量的多模態(tài)大模型（Qwen2.5-VL-7B）來擔(dān)任"審查員"。這個(gè)模型會(huì)看200幀均勻采樣的畫面，思考這段視頻是否具備清晰的因果進(jìn)展（比如先放材料、再烹飪、再出鍋）、視覺狀態(tài)是否有明顯變化、事件之間是否有邏輯連貫性、是否存在明確的時(shí)間標(biāo)志。如果這段視頻是循環(huán)重復(fù)的動(dòng)作、畫面太相似以至于順序無法判斷、或者各片段之間缺乏內(nèi)在聯(lián)系，就會(huì)被標(biāo)記為不合格。

整個(gè)審查過程要求模型先在特定標(biāo)簽內(nèi)寫下推理過程，最后輸出"是"或"否"的判定，只有兩者都通過才算合格。

從實(shí)際數(shù)據(jù)來看，這條流水線的淘汰率相當(dāng)高。研究團(tuán)隊(duì)從三個(gè)來源共收集了約49619個(gè)原始視頻樣本，經(jīng)過第一階段信號(hào)篩選，剩下約9046個(gè)；再經(jīng)過第二階段語義篩選，最終只保留了8220個(gè)高質(zhì)量樣本，淘汰率超過83%。這8220個(gè)樣本被稱為OmniJigsaw-8K數(shù)據(jù)集，其中8156個(gè)用于訓(xùn)練，64個(gè)用于驗(yàn)證。

七、獎(jiǎng)懲機(jī)制：不只是答對(duì)就給糖，必須全部答對(duì)才能吃大餐

訓(xùn)練AI的過程需要設(shè)計(jì)合理的獎(jiǎng)懲機(jī)制，研究團(tuán)隊(duì)在這方面也做了細(xì)致的考量。

基本獎(jiǎng)勵(lì)由兩部分組成。第一部分是"位置準(zhǔn)確率"：AI給出的每個(gè)片段位置，如果與正確位置吻合，就得一分，6個(gè)片段滿分6分，取平均值。第二部分是"鄰接準(zhǔn)確率"：檢查AI給出的順序中，相鄰兩個(gè)片段是否也和正確順序中相鄰的兩個(gè)片段一致。這一指標(biāo)的價(jià)值在于，即使整體排序不完全正確，也能鼓勵(lì)A(yù)I識(shí)別出局部的正確關(guān)系，體現(xiàn)部分推理成功。兩部分各占50%權(quán)重。

除此之外，還有格式獎(jiǎng)勵(lì)：如果AI按照要求的格式（先寫思考過程，再寫最終答案）來回答，就額外加0.2分，這是鼓勵(lì)A(yù)I進(jìn)行深度推理而非直接猜答案。還有重復(fù)懲罰：如果AI在思考過程中不斷重復(fù)相同的文字（一段20字以上的內(nèi)容重復(fù)出現(xiàn)超過3次），就扣0.5分，防止它在不知所措時(shí)靠"水字?jǐn)?shù)"來湊答案。

最精妙的設(shè)計(jì)是一個(gè)"準(zhǔn)確率折扣因子"。這個(gè)因子的規(guī)則是：只有當(dāng)AI把6個(gè)片段全部排對(duì)時(shí)，才能拿到全額的位置和鄰接獎(jiǎng)勵(lì)；只要有一個(gè)片段排錯(cuò)，這兩項(xiàng)獎(jiǎng)勵(lì)就會(huì)打折到原來的20%。

這個(gè)設(shè)計(jì)背后的邏輯非常有趣：在強(qiáng)化學(xué)習(xí)中，AI通常會(huì)嘗試找到"代價(jià)最小的成功路徑"。如果排對(duì)5個(gè)、排錯(cuò)1個(gè)也能得到不錯(cuò)的獎(jiǎng)勵(lì)，AI就可能滿足于這種"差不多就行"的狀態(tài)，不再努力追求完美答案。折扣因子人為地放大了"完全正確"和"差一點(diǎn)"之間的差距，讓AI感受到：差一點(diǎn)點(diǎn)和差很多在獎(jiǎng)勵(lì)上沒有本質(zhì)區(qū)別，只有全對(duì)才是真正的成功。實(shí)驗(yàn)結(jié)果表明，加入這個(gè)折扣因子后，AI在訓(xùn)練過程中持續(xù)探索、持續(xù)進(jìn)步，而去掉折扣因子的對(duì)照組則很快陷入停滯。

八、15個(gè)測(cè)試場(chǎng)地，全面檢驗(yàn)AI的視聽理解能力

研究團(tuán)隊(duì)用15個(gè)不同的標(biāo)準(zhǔn)測(cè)試集來評(píng)估OmniJigsaw訓(xùn)練出來的AI能力，涵蓋視頻理解、音頻理解和視聽協(xié)同推理三大類。

在視頻理解方面，研究團(tuán)隊(duì)使用了8個(gè)測(cè)試集，涵蓋從基礎(chǔ)時(shí)間感知到高層認(rèn)知推理的各個(gè)維度。AoTBench專門測(cè)試AI對(duì)"時(shí)間箭頭"的感知，也就是能否判斷事件發(fā)生的先后順序；TempCompass和TUNA-Bench測(cè)試AI對(duì)視頻內(nèi)容細(xì)節(jié)的細(xì)粒度理解；Video-Holmes和Video-TT則考驗(yàn)更高層次的推理能力，需要AI像偵探一樣從視頻中搜集線索來回答復(fù)雜問題；MLVU、MLVU-Test和Video-MME則關(guān)注長(zhǎng)視頻的全局理解和多任務(wù)綜合表現(xiàn)。

基準(zhǔn)模型是Qwen3-Omni-30B-A3B-Instruct，這是一個(gè)已經(jīng)相當(dāng)強(qiáng)大的多模態(tài)大模型。經(jīng)過OmniJigsaw的CMM策略訓(xùn)練之后，它在MLVU-Test上提升了4.38分，在AoTBench上提升了4.02分，在Video-TT上提升了2.70分，在TUNA-Bench上提升了2.72分，在幾乎所有視頻測(cè)試集上都有明顯提升。

在音頻理解方面，測(cè)試集包括MMAU-Pro（綜合聽覺理解）、MMAU-test-mini（層次化推理）、MMSU（細(xì)粒度感知）和MMAR（需要深度推理的音頻場(chǎng)景）。CMM策略在MMAR上帶來了2.50分的提升，在MMAU-Pro上提升了1.98分。值得一提的是，CMM策略下訓(xùn)練出來的AI，在音頻理解上的表現(xiàn)甚至超過了只靠音頻片段訓(xùn)練的"純音頻拼圖"版本，說明視覺信息的融合確實(shí)幫助AI更好地理解了聲音。

在視聽協(xié)同推理方面，測(cè)試集包括DailyOmni（測(cè)試視聽時(shí)間對(duì)齊）、IntentBench（測(cè)試行為和意圖推理）和OmniVideoBench（需要同時(shí)利用視覺和音頻線索才能回答的問題）。CMM策略在OmniVideoBench上提升了1.70分，在IntentBench上提升了1.49分，在DailyOmni上提升了1.17分，全面驗(yàn)證了跨模態(tài)協(xié)同推理能力的提升。

研究還專門比較了有音頻和無音頻兩種評(píng)測(cè)模式下的表現(xiàn)，發(fā)現(xiàn)OmniJigsaw在兩種情況下都有穩(wěn)定提升，說明它不只是學(xué)會(huì)了利用音頻信息，而是真正提升了底層的推理能力。

九、當(dāng)你給AI"更多信息"，它反而學(xué)得更差

研究過程中一個(gè)反直覺的發(fā)現(xiàn)值得單獨(dú)來說。研究團(tuán)隊(duì)專門比較了CMM、JMI（全信息聯(lián)合訓(xùn)練）以及只用視頻或只用音頻的單模態(tài)訓(xùn)練這四種策略，發(fā)現(xiàn)了一個(gè)非常有趣的規(guī)律。

單模態(tài)的視頻拼圖訓(xùn)練，能有效提升AI的視頻理解能力；單模態(tài)的音頻拼圖訓(xùn)練，能有效提升AI的音頻理解能力——這都符合預(yù)期。但是，JMI（同時(shí)提供視頻和音頻的全信息訓(xùn)練）卻在視頻理解和音頻理解兩方面都比對(duì)應(yīng)的單模態(tài)訓(xùn)練更差，而不是更好。

從訓(xùn)練過程的獎(jiǎng)勵(lì)曲線來看，JMI策略下AI的任務(wù)完成率最高，說明它確實(shí)能答出更多題。但正因?yàn)槿绱耍鼪]有動(dòng)力深入分析每個(gè)片段的內(nèi)容——有一條容易走的路，它就走那條路。訓(xùn)練過程中它的推理記錄里甚至出現(xiàn)了"全程只依賴語言線索"這樣的表述，說明它在完全忽視視覺信息。

CMM策略恰好反過來。因?yàn)椴煌蔚哪B(tài)被隨機(jī)遮掉，AI每次都不知道下一個(gè)片段能給它什么信息，必須認(rèn)真對(duì)待每一個(gè)有效的信息來源，才能把六個(gè)片段的順序拼出來。這種"信息不完整"的壓力，反而逼出了更深度的學(xué)習(xí)。

這個(gè)發(fā)現(xiàn)對(duì)AI訓(xùn)練領(lǐng)域來說很有啟發(fā)意義：給模型更多信息，不一定會(huì)帶來更好的學(xué)習(xí)效果；有時(shí)候，策略性地限制信息、制造適當(dāng)?shù)男畔⑷笨?，反而能逼迫模型發(fā)展出更強(qiáng)的能力。

十、定性分析：從AI的"思考過程"里，看見真正的理解

研究團(tuán)隊(duì)還專門比較了CMM和JMI兩種策略訓(xùn)練后AI在答題時(shí)的思考過程，發(fā)現(xiàn)了明顯的質(zhì)量差異。

JMI策略訓(xùn)練出來的AI，在分析一段烹飪教學(xué)視頻時(shí)，它的思考記錄里出現(xiàn)了"全程完全只依賴語言線索、沒有任何視覺分析"這樣的表述，最終給出了錯(cuò)誤答案。這說明它在處理畫面內(nèi)容時(shí)走了捷徑，沒有真正融合視覺信息。

CMM策略訓(xùn)練出來的AI，在處理同一段視頻時(shí)，它會(huì)分別描述每個(gè)片段的視覺內(nèi)容（比如"第4片展示了最終清理干凈的魚排，畫面非常清晰，展示了成品"）和音頻內(nèi)容（比如"第5片的男人正在直接對(duì)著鏡頭講話，音頻帶來了與即時(shí)切割動(dòng)作無直接關(guān)聯(lián)的新信息，音頻是這個(gè)片段的核心"），然后把這些分析綜合起來，按照"準(zhǔn)備→操作→精細(xì)處理→完成→講解技巧"的邏輯推導(dǎo)出正確順序，最終給出了正確答案。

這個(gè)對(duì)比清楚地展示了兩種訓(xùn)練策略在培養(yǎng)AI能力上的本質(zhì)差異：一個(gè)只是學(xué)會(huì)了"猜題技巧"，另一個(gè)學(xué)會(huì)了"真正理解視頻"。

說到底，OmniJigsaw這項(xiàng)研究的核心貢獻(xiàn)在于：它找到了一種幾乎不需要人類標(biāo)注就能大規(guī)模訓(xùn)練AI跨模態(tài)理解能力的方法。通過一個(gè)看似簡(jiǎn)單的拼圖游戲，配上精心設(shè)計(jì)的模態(tài)遮蔽策略、嚴(yán)格的數(shù)據(jù)篩選流水線和合理的獎(jiǎng)懲機(jī)制，它讓AI在同時(shí)擁有"眼睛"和"耳朵"的情況下，真正學(xué)會(huì)了把兩者結(jié)合起來用，而不是偷懶只靠其中一個(gè)。

這對(duì)我們來說意味著什么？未來的視頻助手、會(huì)議總結(jié)工具、教育視頻分析系統(tǒng)，都可能因?yàn)檫@類技術(shù)而變得更聰明——不只是聽懂你說了什么，也不只是看懂畫面里發(fā)生了什么，而是真正像人一樣同時(shí)理解聲音和畫面之間的關(guān)系，然后給出更準(zhǔn)確、更有洞察的分析。

當(dāng)然，研究團(tuán)隊(duì)也坦誠地指出了幾個(gè)局限：這項(xiàng)研究只在一個(gè)基礎(chǔ)模型上做了實(shí)驗(yàn)，能否推廣到不同規(guī)模的模型還需要驗(yàn)證；數(shù)據(jù)篩選流程是在訓(xùn)練前一次性完成的，無法根據(jù)AI當(dāng)前的能力水平動(dòng)態(tài)調(diào)整難度；視頻片段的劃分方式還比較簡(jiǎn)單，都是等長(zhǎng)切割，更復(fù)雜的切割策略可能帶來更好的效果；獎(jiǎng)勵(lì)機(jī)制目前只關(guān)注排序是否正確，如果能加入對(duì)推理質(zhì)量的評(píng)價(jià)，效果可能會(huì)進(jìn)一步提升。

有興趣深入了解這項(xiàng)研究全部細(xì)節(jié)的讀者，可以通過arXiv編號(hào)2604.08209查詢完整論文。

Q&A

Q1：OmniJigsaw訓(xùn)練出來的AI，在日常生活里能有什么具體用處？

A：經(jīng)過OmniJigsaw方法訓(xùn)練的AI，在理解視頻內(nèi)容方面明顯更準(zhǔn)確。比如，用它來總結(jié)一段會(huì)議錄像時(shí)，它不只會(huì)轉(zhuǎn)錄說話內(nèi)容，還能結(jié)合畫面中人物的動(dòng)作、展示的圖表來理解會(huì)議的實(shí)際進(jìn)展；分析一段教學(xué)視頻時(shí)，它能同時(shí)理解畫面里的操作步驟和講解音頻，給出更完整的內(nèi)容描述。任何需要同時(shí)看畫面和聽聲音才能真正理解的場(chǎng)景，都能從中受益。

Q2：OmniJigsaw的"雙模態(tài)捷徑效應(yīng)"是怎么發(fā)現(xiàn)的，又是怎么解決的？

A：研究團(tuán)隊(duì)最初直接把完整的視頻（同時(shí)含畫面和聲音）用來訓(xùn)練AI做拼圖排序，結(jié)果發(fā)現(xiàn)AI的表現(xiàn)反而不如只提供畫面或只提供聲音的版本。通過分析AI的思考記錄，他們發(fā)現(xiàn)AI在兩種信息都有的情況下，會(huì)選擇更容易分析的那個(gè)模態(tài)來解題，完全忽視另一個(gè)。解決方案是CMM策略：對(duì)每個(gè)視頻片段單獨(dú)決定保留哪種模態(tài)的信息，強(qiáng)制AI在不同片段之間切換使用視覺和聽覺，沒有"走捷徑"的機(jī)會(huì)。

Q3：OmniJigsaw數(shù)據(jù)篩選流水線為什么要淘汰掉83%以上的原始視頻？

A：因?yàn)槠磮D游戲本身必須是"可解的"，才有訓(xùn)練價(jià)值。如果視頻幾乎沒有變化（比如靜態(tài)畫面、單調(diào)噪聲），打亂順序后AI根本無法判斷哪段在前、哪段在后，這種訓(xùn)練樣本不只沒有價(jià)值，還會(huì)給AI錯(cuò)誤的信號(hào)。第一階段通過信號(hào)檢測(cè)快速排除靜態(tài)視頻和音頻質(zhì)量差的樣本，第二階段用語義模型判斷視頻是否有清晰的時(shí)間因果邏輯和狀態(tài)變化。只有同時(shí)通過兩關(guān)的視頻，才能保證AI在訓(xùn)練時(shí)面對(duì)的是真正"值得拼"的拼圖。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.