<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      浙江大學(xué)教AI"玩拼圖":讓機(jī)器真正聽懂視頻,而不是偷懶走捷徑

      0
      分享至


      這項(xiàng)由浙江大學(xué)與小米公司聯(lián)合開展的研究發(fā)表于2026年4月,論文編號(hào)為arXiv:2604.08209,題為"OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering",有興趣深入了解的讀者可以通過該編號(hào)查詢完整論文。

      研究團(tuán)隊(duì)面對(duì)的核心難題,可以用一句話來描述:如何讓AI在同時(shí)擁有眼睛和耳朵的情況下,真正地把兩者結(jié)合起來用,而不是偷懶只靠其中一個(gè)感官來解題?

      一、為什么教AI"看"視頻這件事,比你想象的難多了

      電視機(jī)和收音機(jī)的區(qū)別,大家都很清楚。視頻里有畫面、有聲音,兩者共同講述一個(gè)故事。對(duì)人類來說,同時(shí)接收視覺和聽覺信息、然后融合理解,是一件再自然不過的事。但對(duì)于AI來說,這件事出奇地難做到。

      目前最先進(jìn)的大型語言模型,在純文字的任務(wù)上已經(jīng)相當(dāng)厲害,比如解數(shù)學(xué)題、寫代碼,甚至與人對(duì)話。這類成功很大程度上依賴一種叫"強(qiáng)化學(xué)習(xí)后訓(xùn)練"的技術(shù)——簡(jiǎn)單理解,就是給AI出題、判斷答案對(duì)不對(duì)、然后獎(jiǎng)勵(lì)或懲罰它,逐步讓它越來越聰明。然而,把這套方法搬到視頻和音頻的領(lǐng)域里,卻遇到了一個(gè)幾乎無法繞過的麻煩:沒有足夠多的高質(zhì)量標(biāo)注數(shù)據(jù)。

      數(shù)學(xué)題有標(biāo)準(zhǔn)答案,代碼能運(yùn)行就是對(duì)。但要讓AI理解一段視頻里視覺和聽覺的深層聯(lián)系,就需要人工去標(biāo)注大量"這個(gè)畫面配這段聲音,它們之間的關(guān)系是這樣的",這種工作既昂貴又耗時(shí),根本做不到大規(guī)模展開。

      浙江大學(xué)和小米的研究團(tuán)隊(duì)從另一個(gè)角度切入:能不能找一個(gè)不需要人工標(biāo)注的任務(wù),讓AI在完成這個(gè)任務(wù)的過程中,自然地學(xué)會(huì)整合視覺和聽覺信息?他們想到了一個(gè)絕妙的類比——拼圖游戲。

      二、把視頻打亂再還原:一個(gè)既簡(jiǎn)單又深刻的訓(xùn)練游戲

      核心思路是這樣的:拿一段視頻,把它剪成若干小片段,然后打亂順序給AI看,要求AI把正確的順序還原出來。就像給你一本書的六個(gè)章節(jié),但順序被打亂了,你需要根據(jù)內(nèi)容判斷哪章在前、哪章在后。

      這個(gè)任務(wù)之所以精妙,在于它有天然的"標(biāo)準(zhǔn)答案"——視頻原本的時(shí)間順序就是正確答案,完全不需要人類去標(biāo)注。同時(shí),要想把順序還原得好,AI就不得不認(rèn)真分析每個(gè)片段里發(fā)生了什么,以及片段之間的邏輯關(guān)系,這正是理解視頻所需要的核心能力。

      研究團(tuán)隊(duì)把這套方法命名為OmniJigsaw("全感官拼圖")。他們把每個(gè)視頻均勻切成6個(gè)片段,然后在切割處各丟掉5%的內(nèi)容,目的是防止AI靠相鄰片段的邊界拼接特征作弊——就像拼圖時(shí)不讓你通過紙板背面的紋路來匹配,必須真正看圖案內(nèi)容。打亂后的片段交給AI,AI需要用思維鏈(一步步列出推理過程)來分析,最終給出原始順序。

      三、當(dāng)AI擁有"雙眼"和"耳朵"時(shí),它會(huì)選擇只用其中一個(gè)

      研究團(tuán)隊(duì)最初的做法是最直接的:給AI完整的視頻片段(既有畫面又有聲音),讓它同時(shí)依靠?jī)煞N信息來判斷順序。這個(gè)策略被稱為"聯(lián)合模態(tài)整合"(JMI)。

      結(jié)果出乎意料地令人失望。AI在這種情況下的表現(xiàn),反而不如只給它看畫面或只讓它聽聲音的版本。

      研究團(tuán)隊(duì)把這個(gè)現(xiàn)象命名為"雙模態(tài)捷徑效應(yīng)"。道理其實(shí)不難理解:當(dāng)你同時(shí)給了AI兩條路,它會(huì)自然地選擇那條更容易走的路。如果一段視頻的畫面內(nèi)容足夠明顯,AI就只靠畫面來判斷;如果音頻里有清晰的語音線索,AI就只靠聲音來判斷。兩種模態(tài)并存,反而給了它"偷懶"的機(jī)會(huì)——它不需要把兩者結(jié)合起來,就能大概率答對(duì)題目,于是它就沒有動(dòng)力去真正學(xué)會(huì)融合理解。

      從訓(xùn)練角度來看,這種"偷懶"是災(zāi)難性的。AI雖然答對(duì)了題,但它沒有學(xué)到真正有價(jià)值的技能,就好像學(xué)生在考試中靠猜答案拿到了分?jǐn)?shù),但實(shí)際上什么都沒學(xué)會(huì)。

      為了解決這個(gè)問題,研究團(tuán)隊(duì)設(shè)計(jì)了兩種更聰明的訓(xùn)練策略。

      四、第一種解法:在整段視頻層面,逼著AI只用一種感官

      第一種策略叫做"樣本級(jí)模態(tài)選擇"(SMS)。它的工作方式分兩步:首先,讓AI分析整段視頻,判斷這個(gè)視頻的時(shí)間線索主要來自畫面還是聲音。比如一段烹飪教學(xué)視頻,廚師的操作步驟在畫面上非常清晰,那畫面就是主導(dǎo)模態(tài);而一段播客節(jié)目,說話人一直坐在那里幾乎不動(dòng),聲音里的內(nèi)容才是真正的故事線,那音頻就是主導(dǎo)模態(tài)。

      確定了主導(dǎo)模態(tài)之后,系統(tǒng)就只保留那個(gè)模態(tài)的信息,把另一個(gè)模態(tài)完全遮掉,然后再讓AI做拼圖排序。這樣,AI就沒有"走捷徑"的機(jī)會(huì),必須認(rèn)認(rèn)真真地分析它面前的那一種信息,深度理解其中的時(shí)間邏輯。

      這個(gè)方法有效地消除了"捷徑效應(yīng)",因?yàn)楦揪蜎]有第二條路可走。不過,它也有局限性:一段視頻的主導(dǎo)模態(tài)是在整體層面判斷的,但實(shí)際上,同一段視頻里,某些片段可能畫面最重要,另一些片段可能聲音最關(guān)鍵。一刀切的全局判斷,會(huì)錯(cuò)過這種局部的細(xì)節(jié)。

      五、第二種解法:更精細(xì)的操作,逐片段決定用哪只感官

      第二種策略叫做"片段級(jí)模態(tài)遮蔽"(CMM),也是研究中效果最好的方法。它的邏輯更進(jìn)一步:不是在整個(gè)視頻層面做決定,而是對(duì)每一個(gè)小片段單獨(dú)評(píng)估,決定這個(gè)片段應(yīng)該保留畫面、保留聲音、還是兩者都保留。

      具體操作分兩個(gè)階段。第一階段,AI先按正常順序看完所有6個(gè)片段,然后為每個(gè)片段做一個(gè)"模態(tài)標(biāo)簽"的決定——比如:第1片畫面里有明顯動(dòng)作變化,標(biāo)記為"只保留畫面";第3片里有關(guān)鍵對(duì)白,標(biāo)記為"只保留聲音";第5片里畫面和聲音都有不可或缺的信息,標(biāo)記為"兩者都保留"。整體上,研究團(tuán)隊(duì)要求這6個(gè)片段的標(biāo)簽不能全是一種,必須有一定的混搭,這樣才能真正鍛煉AI跨模態(tài)整合的能力。

      第二階段,按照這些標(biāo)簽處理打亂順序后的片段——被標(biāo)為"只看畫面"的,就把聲音替換為靜音;被標(biāo)為"只聽聲音"的,就把畫面替換為全黑。然后把這些處理過的片段打亂順序,交給AI去排序。

      這時(shí)候,AI面臨的挑戰(zhàn)就完全不同了。某些片段只有畫面,某些只有聲音,還有些兩者都有。要把正確的順序拼出來,AI必須在分析不同片段時(shí)不停地在"看"和"聽"兩種模式之間切換,并且把從不同模態(tài)獲得的零散線索拼接成一個(gè)完整的時(shí)間圖譜。這正是真正的跨模態(tài)理解能力。

      從訓(xùn)練曲線來看,CMM策略下AI的任務(wù)獎(jiǎng)勵(lì)增長(zhǎng)得更慢,這是因?yàn)轭}目更難了,AI不得不做更深層的分析。但最終,它學(xué)到的能力更扎實(shí),在各種下游任務(wù)上的表現(xiàn)也更出色。

      六、一套挑剔的"質(zhì)檢流水線",確保拼圖本身值得拼

      研究團(tuán)隊(duì)很早就意識(shí)到一個(gè)關(guān)鍵問題:拼圖本身必須是好拼圖。如果給AI的訓(xùn)練素材是一段幾乎沒有變化的視頻——比如一小時(shí)的會(huì)議錄像,畫面一直是同一間會(huì)議室,聲音是均勻的背景噪聲——那么打亂順序之后,AI幾乎無法判斷哪段在前哪段在后,這種數(shù)據(jù)對(duì)訓(xùn)練完全沒有價(jià)值,甚至?xí)a(chǎn)生負(fù)面效果。

      為此,他們?cè)O(shè)計(jì)了一條嚴(yán)格的兩階段篩選流水線。

      第一階段用輕量級(jí)的信號(hào)檢測(cè)方法快速過濾。首先,視頻必須同時(shí)有畫面和聲音,缺少任何一種的直接淘汰。然后,檢查畫面的動(dòng)態(tài)性:通過計(jì)算相鄰幀之間的平均絕對(duì)差值,如果超過70%的幀之間幾乎沒有變化,就認(rèn)定這是一段低動(dòng)態(tài)視頻,直接丟棄。接著是音頻質(zhì)量檢查:用音量能量(RMS)來判斷是否大部分時(shí)間是靜音,用頻譜變化率(Spectral Flux)來判斷聲音是否單調(diào)無變化,不通過這兩項(xiàng)檢查的視頻同樣淘汰。還有一項(xiàng)獨(dú)特的檢測(cè):用專門的語音活動(dòng)檢測(cè)模型(Silero VAD)來分析視頻中語音內(nèi)容的比例,要求在30%到80%之間——太低說明幾乎沒有語音信息,太高則說明畫面上可能沒什么有意義的視覺變化,兩者都不適合作為訓(xùn)練素材。

      通過第一階段篩選的視頻,還要接受第二階段的語義層面審查。研究團(tuán)隊(duì)用一個(gè)相對(duì)輕量的多模態(tài)大模型(Qwen2.5-VL-7B)來擔(dān)任"審查員"。這個(gè)模型會(huì)看200幀均勻采樣的畫面,思考這段視頻是否具備清晰的因果進(jìn)展(比如先放材料、再烹飪、再出鍋)、視覺狀態(tài)是否有明顯變化、事件之間是否有邏輯連貫性、是否存在明確的時(shí)間標(biāo)志。如果這段視頻是循環(huán)重復(fù)的動(dòng)作、畫面太相似以至于順序無法判斷、或者各片段之間缺乏內(nèi)在聯(lián)系,就會(huì)被標(biāo)記為不合格。

      整個(gè)審查過程要求模型先在特定標(biāo)簽內(nèi)寫下推理過程,最后輸出"是"或"否"的判定,只有兩者都通過才算合格。

      從實(shí)際數(shù)據(jù)來看,這條流水線的淘汰率相當(dāng)高。研究團(tuán)隊(duì)從三個(gè)來源共收集了約49619個(gè)原始視頻樣本,經(jīng)過第一階段信號(hào)篩選,剩下約9046個(gè);再經(jīng)過第二階段語義篩選,最終只保留了8220個(gè)高質(zhì)量樣本,淘汰率超過83%。這8220個(gè)樣本被稱為OmniJigsaw-8K數(shù)據(jù)集,其中8156個(gè)用于訓(xùn)練,64個(gè)用于驗(yàn)證。

      七、獎(jiǎng)懲機(jī)制:不只是答對(duì)就給糖,必須全部答對(duì)才能吃大餐

      訓(xùn)練AI的過程需要設(shè)計(jì)合理的獎(jiǎng)懲機(jī)制,研究團(tuán)隊(duì)在這方面也做了細(xì)致的考量。

      基本獎(jiǎng)勵(lì)由兩部分組成。第一部分是"位置準(zhǔn)確率":AI給出的每個(gè)片段位置,如果與正確位置吻合,就得一分,6個(gè)片段滿分6分,取平均值。第二部分是"鄰接準(zhǔn)確率":檢查AI給出的順序中,相鄰兩個(gè)片段是否也和正確順序中相鄰的兩個(gè)片段一致。這一指標(biāo)的價(jià)值在于,即使整體排序不完全正確,也能鼓勵(lì)A(yù)I識(shí)別出局部的正確關(guān)系,體現(xiàn)部分推理成功。兩部分各占50%權(quán)重。

      除此之外,還有格式獎(jiǎng)勵(lì):如果AI按照要求的格式(先寫思考過程,再寫最終答案)來回答,就額外加0.2分,這是鼓勵(lì)A(yù)I進(jìn)行深度推理而非直接猜答案。還有重復(fù)懲罰:如果AI在思考過程中不斷重復(fù)相同的文字(一段20字以上的內(nèi)容重復(fù)出現(xiàn)超過3次),就扣0.5分,防止它在不知所措時(shí)靠"水字?jǐn)?shù)"來湊答案。

      最精妙的設(shè)計(jì)是一個(gè)"準(zhǔn)確率折扣因子"。這個(gè)因子的規(guī)則是:只有當(dāng)AI把6個(gè)片段全部排對(duì)時(shí),才能拿到全額的位置和鄰接獎(jiǎng)勵(lì);只要有一個(gè)片段排錯(cuò),這兩項(xiàng)獎(jiǎng)勵(lì)就會(huì)打折到原來的20%。

      這個(gè)設(shè)計(jì)背后的邏輯非常有趣:在強(qiáng)化學(xué)習(xí)中,AI通常會(huì)嘗試找到"代價(jià)最小的成功路徑"。如果排對(duì)5個(gè)、排錯(cuò)1個(gè)也能得到不錯(cuò)的獎(jiǎng)勵(lì),AI就可能滿足于這種"差不多就行"的狀態(tài),不再努力追求完美答案。折扣因子人為地放大了"完全正確"和"差一點(diǎn)"之間的差距,讓AI感受到:差一點(diǎn)點(diǎn)和差很多在獎(jiǎng)勵(lì)上沒有本質(zhì)區(qū)別,只有全對(duì)才是真正的成功。實(shí)驗(yàn)結(jié)果表明,加入這個(gè)折扣因子后,AI在訓(xùn)練過程中持續(xù)探索、持續(xù)進(jìn)步,而去掉折扣因子的對(duì)照組則很快陷入停滯。

      八、15個(gè)測(cè)試場(chǎng)地,全面檢驗(yàn)AI的視聽理解能力

      研究團(tuán)隊(duì)用15個(gè)不同的標(biāo)準(zhǔn)測(cè)試集來評(píng)估OmniJigsaw訓(xùn)練出來的AI能力,涵蓋視頻理解、音頻理解和視聽協(xié)同推理三大類。

      在視頻理解方面,研究團(tuán)隊(duì)使用了8個(gè)測(cè)試集,涵蓋從基礎(chǔ)時(shí)間感知到高層認(rèn)知推理的各個(gè)維度。AoTBench專門測(cè)試AI對(duì)"時(shí)間箭頭"的感知,也就是能否判斷事件發(fā)生的先后順序;TempCompass和TUNA-Bench測(cè)試AI對(duì)視頻內(nèi)容細(xì)節(jié)的細(xì)粒度理解;Video-Holmes和Video-TT則考驗(yàn)更高層次的推理能力,需要AI像偵探一樣從視頻中搜集線索來回答復(fù)雜問題;MLVU、MLVU-Test和Video-MME則關(guān)注長(zhǎng)視頻的全局理解和多任務(wù)綜合表現(xiàn)。

      基準(zhǔn)模型是Qwen3-Omni-30B-A3B-Instruct,這是一個(gè)已經(jīng)相當(dāng)強(qiáng)大的多模態(tài)大模型。經(jīng)過OmniJigsaw的CMM策略訓(xùn)練之后,它在MLVU-Test上提升了4.38分,在AoTBench上提升了4.02分,在Video-TT上提升了2.70分,在TUNA-Bench上提升了2.72分,在幾乎所有視頻測(cè)試集上都有明顯提升。

      在音頻理解方面,測(cè)試集包括MMAU-Pro(綜合聽覺理解)、MMAU-test-mini(層次化推理)、MMSU(細(xì)粒度感知)和MMAR(需要深度推理的音頻場(chǎng)景)。CMM策略在MMAR上帶來了2.50分的提升,在MMAU-Pro上提升了1.98分。值得一提的是,CMM策略下訓(xùn)練出來的AI,在音頻理解上的表現(xiàn)甚至超過了只靠音頻片段訓(xùn)練的"純音頻拼圖"版本,說明視覺信息的融合確實(shí)幫助AI更好地理解了聲音。

      在視聽協(xié)同推理方面,測(cè)試集包括DailyOmni(測(cè)試視聽時(shí)間對(duì)齊)、IntentBench(測(cè)試行為和意圖推理)和OmniVideoBench(需要同時(shí)利用視覺和音頻線索才能回答的問題)。CMM策略在OmniVideoBench上提升了1.70分,在IntentBench上提升了1.49分,在DailyOmni上提升了1.17分,全面驗(yàn)證了跨模態(tài)協(xié)同推理能力的提升。

      研究還專門比較了有音頻和無音頻兩種評(píng)測(cè)模式下的表現(xiàn),發(fā)現(xiàn)OmniJigsaw在兩種情況下都有穩(wěn)定提升,說明它不只是學(xué)會(huì)了利用音頻信息,而是真正提升了底層的推理能力。

      九、當(dāng)你給AI"更多信息",它反而學(xué)得更差

      研究過程中一個(gè)反直覺的發(fā)現(xiàn)值得單獨(dú)來說。研究團(tuán)隊(duì)專門比較了CMM、JMI(全信息聯(lián)合訓(xùn)練)以及只用視頻或只用音頻的單模態(tài)訓(xùn)練這四種策略,發(fā)現(xiàn)了一個(gè)非常有趣的規(guī)律。

      單模態(tài)的視頻拼圖訓(xùn)練,能有效提升AI的視頻理解能力;單模態(tài)的音頻拼圖訓(xùn)練,能有效提升AI的音頻理解能力——這都符合預(yù)期。但是,JMI(同時(shí)提供視頻和音頻的全信息訓(xùn)練)卻在視頻理解和音頻理解兩方面都比對(duì)應(yīng)的單模態(tài)訓(xùn)練更差,而不是更好。

      從訓(xùn)練過程的獎(jiǎng)勵(lì)曲線來看,JMI策略下AI的任務(wù)完成率最高,說明它確實(shí)能答出更多題。但正因?yàn)槿绱耍鼪]有動(dòng)力深入分析每個(gè)片段的內(nèi)容——有一條容易走的路,它就走那條路。訓(xùn)練過程中它的推理記錄里甚至出現(xiàn)了"全程只依賴語言線索"這樣的表述,說明它在完全忽視視覺信息。

      CMM策略恰好反過來。因?yàn)椴煌蔚哪B(tài)被隨機(jī)遮掉,AI每次都不知道下一個(gè)片段能給它什么信息,必須認(rèn)真對(duì)待每一個(gè)有效的信息來源,才能把六個(gè)片段的順序拼出來。這種"信息不完整"的壓力,反而逼出了更深度的學(xué)習(xí)。

      這個(gè)發(fā)現(xiàn)對(duì)AI訓(xùn)練領(lǐng)域來說很有啟發(fā)意義:給模型更多信息,不一定會(huì)帶來更好的學(xué)習(xí)效果;有時(shí)候,策略性地限制信息、制造適當(dāng)?shù)男畔⑷笨?,反而能逼迫模型發(fā)展出更強(qiáng)的能力。

      十、定性分析:從AI的"思考過程"里,看見真正的理解

      研究團(tuán)隊(duì)還專門比較了CMM和JMI兩種策略訓(xùn)練后AI在答題時(shí)的思考過程,發(fā)現(xiàn)了明顯的質(zhì)量差異。

      JMI策略訓(xùn)練出來的AI,在分析一段烹飪教學(xué)視頻時(shí),它的思考記錄里出現(xiàn)了"全程完全只依賴語言線索、沒有任何視覺分析"這樣的表述,最終給出了錯(cuò)誤答案。這說明它在處理畫面內(nèi)容時(shí)走了捷徑,沒有真正融合視覺信息。

      CMM策略訓(xùn)練出來的AI,在處理同一段視頻時(shí),它會(huì)分別描述每個(gè)片段的視覺內(nèi)容(比如"第4片展示了最終清理干凈的魚排,畫面非常清晰,展示了成品")和音頻內(nèi)容(比如"第5片的男人正在直接對(duì)著鏡頭講話,音頻帶來了與即時(shí)切割動(dòng)作無直接關(guān)聯(lián)的新信息,音頻是這個(gè)片段的核心"),然后把這些分析綜合起來,按照"準(zhǔn)備→操作→精細(xì)處理→完成→講解技巧"的邏輯推導(dǎo)出正確順序,最終給出了正確答案。

      這個(gè)對(duì)比清楚地展示了兩種訓(xùn)練策略在培養(yǎng)AI能力上的本質(zhì)差異:一個(gè)只是學(xué)會(huì)了"猜題技巧",另一個(gè)學(xué)會(huì)了"真正理解視頻"。

      說到底,OmniJigsaw這項(xiàng)研究的核心貢獻(xiàn)在于:它找到了一種幾乎不需要人類標(biāo)注就能大規(guī)模訓(xùn)練AI跨模態(tài)理解能力的方法。通過一個(gè)看似簡(jiǎn)單的拼圖游戲,配上精心設(shè)計(jì)的模態(tài)遮蔽策略、嚴(yán)格的數(shù)據(jù)篩選流水線和合理的獎(jiǎng)懲機(jī)制,它讓AI在同時(shí)擁有"眼睛"和"耳朵"的情況下,真正學(xué)會(huì)了把兩者結(jié)合起來用,而不是偷懶只靠其中一個(gè)。

      這對(duì)我們來說意味著什么?未來的視頻助手、會(huì)議總結(jié)工具、教育視頻分析系統(tǒng),都可能因?yàn)檫@類技術(shù)而變得更聰明——不只是聽懂你說了什么,也不只是看懂畫面里發(fā)生了什么,而是真正像人一樣同時(shí)理解聲音和畫面之間的關(guān)系,然后給出更準(zhǔn)確、更有洞察的分析。

      當(dāng)然,研究團(tuán)隊(duì)也坦誠地指出了幾個(gè)局限:這項(xiàng)研究只在一個(gè)基礎(chǔ)模型上做了實(shí)驗(yàn),能否推廣到不同規(guī)模的模型還需要驗(yàn)證;數(shù)據(jù)篩選流程是在訓(xùn)練前一次性完成的,無法根據(jù)AI當(dāng)前的能力水平動(dòng)態(tài)調(diào)整難度;視頻片段的劃分方式還比較簡(jiǎn)單,都是等長(zhǎng)切割,更復(fù)雜的切割策略可能帶來更好的效果;獎(jiǎng)勵(lì)機(jī)制目前只關(guān)注排序是否正確,如果能加入對(duì)推理質(zhì)量的評(píng)價(jià),效果可能會(huì)進(jìn)一步提升。

      有興趣深入了解這項(xiàng)研究全部細(xì)節(jié)的讀者,可以通過arXiv編號(hào)2604.08209查詢完整論文。

      Q&A

      Q1:OmniJigsaw訓(xùn)練出來的AI,在日常生活里能有什么具體用處?

      A:經(jīng)過OmniJigsaw方法訓(xùn)練的AI,在理解視頻內(nèi)容方面明顯更準(zhǔn)確。比如,用它來總結(jié)一段會(huì)議錄像時(shí),它不只會(huì)轉(zhuǎn)錄說話內(nèi)容,還能結(jié)合畫面中人物的動(dòng)作、展示的圖表來理解會(huì)議的實(shí)際進(jìn)展;分析一段教學(xué)視頻時(shí),它能同時(shí)理解畫面里的操作步驟和講解音頻,給出更完整的內(nèi)容描述。任何需要同時(shí)看畫面和聽聲音才能真正理解的場(chǎng)景,都能從中受益。

      Q2:OmniJigsaw的"雙模態(tài)捷徑效應(yīng)"是怎么發(fā)現(xiàn)的,又是怎么解決的?

      A:研究團(tuán)隊(duì)最初直接把完整的視頻(同時(shí)含畫面和聲音)用來訓(xùn)練AI做拼圖排序,結(jié)果發(fā)現(xiàn)AI的表現(xiàn)反而不如只提供畫面或只提供聲音的版本。通過分析AI的思考記錄,他們發(fā)現(xiàn)AI在兩種信息都有的情況下,會(huì)選擇更容易分析的那個(gè)模態(tài)來解題,完全忽視另一個(gè)。解決方案是CMM策略:對(duì)每個(gè)視頻片段單獨(dú)決定保留哪種模態(tài)的信息,強(qiáng)制AI在不同片段之間切換使用視覺和聽覺,沒有"走捷徑"的機(jī)會(huì)。

      Q3:OmniJigsaw數(shù)據(jù)篩選流水線為什么要淘汰掉83%以上的原始視頻?

      A:因?yàn)槠磮D游戲本身必須是"可解的",才有訓(xùn)練價(jià)值。如果視頻幾乎沒有變化(比如靜態(tài)畫面、單調(diào)噪聲),打亂順序后AI根本無法判斷哪段在前、哪段在后,這種訓(xùn)練樣本不只沒有價(jià)值,還會(huì)給AI錯(cuò)誤的信號(hào)。第一階段通過信號(hào)檢測(cè)快速排除靜態(tài)視頻和音頻質(zhì)量差的樣本,第二階段用語義模型判斷視頻是否有清晰的時(shí)間因果邏輯和狀態(tài)變化。只有同時(shí)通過兩關(guān)的視頻,才能保證AI在訓(xùn)練時(shí)面對(duì)的是真正"值得拼"的拼圖。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      存儲(chǔ)芯片,要崩盤了嗎?

      存儲(chǔ)芯片,要崩盤了嗎?

      君臨財(cái)富
      2026-04-19 22:55:54
      別再尬演“萬人迷”!滿臉褶子疙瘩、鼻孔朝天,這皮囊能迷倒誰?

      別再尬演“萬人迷”!滿臉褶子疙瘩、鼻孔朝天,這皮囊能迷倒誰?

      雨月海星
      2026-04-18 05:25:40
      美國、俄羅斯、歐洲猛然發(fā)現(xiàn)一件頭疼事:低估了中國,高估了自己

      美國、俄羅斯、歐洲猛然發(fā)現(xiàn)一件頭疼事:低估了中國,高估了自己

      文史達(dá)觀
      2025-03-27 12:59:20
      夫妻分房睡,大部分逃不過這個(gè)結(jié)局

      夫妻分房睡,大部分逃不過這個(gè)結(jié)局

      風(fēng)起見你
      2026-04-15 06:47:16
      別再只看中超豪門了!重慶銅梁龍的崛起,藏著中國足球的真正出路

      別再只看中超豪門了!重慶銅梁龍的崛起,藏著中國足球的真正出路

      圣西羅的太陽
      2026-04-19 07:42:38
      散步就能降血脂?國外研究:降血脂有4個(gè)最佳方法,不是散步

      散步就能降血脂?國外研究:降血脂有4個(gè)最佳方法,不是散步

      白宸侃片
      2026-04-19 21:51:18
      比梅努更重要!曼聯(lián)新星碾壓切爾西,紅魔新核已崛起

      比梅努更重要!曼聯(lián)新星碾壓切爾西,紅魔新核已崛起

      奶蓋熊本熊
      2026-04-20 00:20:08
      西媒:導(dǎo)彈飛向德黑蘭,邊境未現(xiàn)難民潮

      西媒:導(dǎo)彈飛向德黑蘭,邊境未現(xiàn)難民潮

      參考消息
      2026-04-16 16:48:07
      砍下個(gè)人季后賽新高!湖人后場(chǎng)新援接下來能否保持這樣的水準(zhǔn)呢?

      砍下個(gè)人季后賽新高!湖人后場(chǎng)新援接下來能否保持這樣的水準(zhǔn)呢?

      稻谷與小麥
      2026-04-20 01:31:20
      “DeepSeek首次融資”傳聞?wù)饎?dòng)市場(chǎng)!寒武紀(jì)、沐曦股份、摩爾線程和張雪機(jī)車的天使投資人都回應(yīng)了

      “DeepSeek首次融資”傳聞?wù)饎?dòng)市場(chǎng)!寒武紀(jì)、沐曦股份、摩爾線程和張雪機(jī)車的天使投資人都回應(yīng)了

      證券時(shí)報(bào)
      2026-04-19 22:52:02
      有理也要讓三分,別人才會(huì)更喜歡你。

      有理也要讓三分,別人才會(huì)更喜歡你。

      說情感世界
      2026-04-12 17:21:09
      黑色絲襪+尖頭高跟涼鞋+短款改良旗袍,微胖的小姐姐穿起來也好看

      黑色絲襪+尖頭高跟涼鞋+短款改良旗袍,微胖的小姐姐穿起來也好看

      牛彈琴123456
      2026-04-19 16:05:47
      狂降16℃!中雨大雨馬上到武漢,還有8級(jí)大風(fēng)……緊急提醒:及時(shí)關(guān)窗

      狂降16℃!中雨大雨馬上到武漢,還有8級(jí)大風(fēng)……緊急提醒:及時(shí)關(guān)窗

      極目新聞
      2026-04-19 14:06:31
      溫州市區(qū)又一條美食街火了!全是人

      溫州市區(qū)又一條美食街火了!全是人

      溫曉生
      2026-04-19 22:49:57
      這跟不穿有啥區(qū)別?張萌開叉到胃,文詠珊副乳松弛,張?zhí)鞇鄞笥滞?>
    </a>
        <h3>
      <a href=嫹筆牂牂
      2026-04-16 07:31:11
      這五個(gè)號(hào)碼千萬不要接,一旦接聽,銀行卡里的錢都可能秒沒

      這五個(gè)號(hào)碼千萬不要接,一旦接聽,銀行卡里的錢都可能秒沒

      笑熬漿糊111
      2026-04-20 00:05:15
      探索女性愉悅:解鎖陰蒂高潮的奇妙之旅

      探索女性愉悅:解鎖陰蒂高潮的奇妙之旅

      精彩分享快樂
      2026-04-19 07:05:06
      75年陳毅小兒子與粟裕女兒的一張合影,兩人門當(dāng)戶對(duì),十分般配

      75年陳毅小兒子與粟裕女兒的一張合影,兩人門當(dāng)戶對(duì),十分般配

      浩渺青史
      2026-04-20 00:39:48
      伊萬卡大秀禿嚕了皮的膝蓋。她的膝蓋怎么會(huì)禿嚕了皮呢?

      伊萬卡大秀禿嚕了皮的膝蓋。她的膝蓋怎么會(huì)禿嚕了皮呢?

      一口娛樂
      2026-04-18 13:00:29
      越吃血管越通!建議中老年:常吃“2菜1果”,心臟舒服,安穩(wěn)過春

      越吃血管越通!建議中老年:常吃“2菜1果”,心臟舒服,安穩(wěn)過春

      江江食研社
      2026-04-16 19:42:38
      2026-04-20 03:07:00
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      8048文章數(shù) 562關(guān)注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

      頭條要聞

      半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

      頭條要聞

      半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂要聞

      何潤東漲粉百萬!內(nèi)娛隔空掀桌第一人

      財(cái)經(jīng)要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬 極氪8X為什么這么多人買?

      態(tài)度原創(chuàng)

      健康
      藝術(shù)
      親子
      房產(chǎn)
      公開課

      干細(xì)胞抗衰4大誤區(qū),90%的人都中招

      藝術(shù)要聞

      超模施特洛耶克寫真曝光,簡(jiǎn)直美到窒息,別錯(cuò)過!

      親子要聞

      孩子總打噴嚏、起疹子,時(shí)過敏嗎?

      房產(chǎn)要聞

      官宣簽約最強(qiáng)城更!海口樓市,突然殺入神秘房企!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版