<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      浙江大學(xué)團(tuán)隊(duì)發(fā)布UniVBench:首個(gè)統(tǒng)一視頻基礎(chǔ)模型評(píng)測(cè)基準(zhǔn)

      0
      分享至


      這項(xiàng)由浙江大學(xué)、字節(jié)跳動(dòng)和浙江實(shí)驗(yàn)室聯(lián)合開展的研究發(fā)表于2026年2月25日的arXiv預(yù)印本平臺(tái),論文編號(hào)為arXiv:2602.21835v1。有興趣深入了解的讀者可以通過該編號(hào)查詢完整論文。

      當(dāng)我們談?wù)撊斯ぶ悄艿陌l(fā)展時(shí),視頻理解和生成技術(shù)可以說是當(dāng)下最激動(dòng)人心的領(lǐng)域之一。就像一位全能藝術(shù)家既要能欣賞電影又要能拍攝電影一樣,現(xiàn)在的AI系統(tǒng)也在朝著能夠同時(shí)理解視頻內(nèi)容和生成視頻內(nèi)容的方向發(fā)展。不過,要評(píng)判這樣一位"全能藝術(shù)家"的真實(shí)水平,我們需要一套全面而公正的考試體系。

      傳統(tǒng)的視頻AI評(píng)測(cè)就像是讓一位全才藝術(shù)家分別參加繪畫考試、音樂考試和舞蹈考試,每個(gè)考試都有不同的評(píng)分標(biāo)準(zhǔn),最后我們很難知道這位藝術(shù)家的綜合實(shí)力到底如何。更麻煩的是,繪畫考試可能用的是畢加索的作品做題目,音樂考試用的是貝多芬的樂曲,而舞蹈考試又用了芭蕾舞劇片段——這些素材可能在訓(xùn)練階段就被AI"學(xué)"過了,就像學(xué)生提前知道了考試答案一樣,考試結(jié)果自然不夠準(zhǔn)確。

      浙江大學(xué)的研究團(tuán)隊(duì)敏銳地發(fā)現(xiàn)了這個(gè)問題。他們注意到,現(xiàn)有的視頻AI評(píng)測(cè)基準(zhǔn)存在三個(gè)根本性的局限性。首先是各自為政的評(píng)測(cè)方式,理解視頻的AI和生成視頻的AI用的是完全不同的評(píng)測(cè)標(biāo)準(zhǔn),就像用測(cè)量身高的尺子去稱體重一樣不合理。其次是內(nèi)容來源的問題,許多評(píng)測(cè)用的都是網(wǎng)上的視頻片段,這些內(nèi)容很可能在AI訓(xùn)練過程中就見過,評(píng)測(cè)結(jié)果的可信度大打折扣。最后是評(píng)測(cè)維度的不完整,現(xiàn)有的基準(zhǔn)往往只關(guān)注某幾個(gè)方面,比如只看畫面質(zhì)量不看故事連貫性,或者只看色彩搭配不看鏡頭運(yùn)動(dòng),無法全面衡量AI的真實(shí)能力。

      為了解決這些問題,研究團(tuán)隊(duì)開發(fā)了一個(gè)名為UniVBench的全新評(píng)測(cè)基準(zhǔn)。這就像是為全能藝術(shù)家設(shè)計(jì)了一套完整的綜合考試,不僅涵蓋了繪畫、音樂、舞蹈等各個(gè)藝術(shù)門類,還確保了考試內(nèi)容的原創(chuàng)性和評(píng)分標(biāo)準(zhǔn)的一致性。

      一、重新定義視頻AI的能力邊界

      要理解UniVBench的創(chuàng)新之處,我們首先需要明白現(xiàn)在的視頻AI到底在做什么。回到我們的藝術(shù)家比喻,傳統(tǒng)的AI更像是專業(yè)的單項(xiàng)選手:有些專門"看畫"(視頻理解),能夠準(zhǔn)確描述一幅畫里有什么內(nèi)容、用了什么技法、表達(dá)了什么情感;有些專門"作畫"(視頻生成),能夠根據(jù)描述創(chuàng)作出相應(yīng)的畫作。而新一代的統(tǒng)一視頻基礎(chǔ)模型則試圖成為真正的全能藝術(shù)家,既能看懂也能創(chuàng)作。

      但是,如何評(píng)判一位全能藝術(shù)家的水平呢?研究團(tuán)隊(duì)認(rèn)為,需要從六個(gè)核心任務(wù)來考察:視頻理解(就像藝術(shù)評(píng)論)、文本生成視頻、參考圖像生成視頻、文本指令視頻編輯、參考圖像視頻編輯,以及最具挑戰(zhàn)性的視頻重構(gòu)任務(wù)。

      這里的視頻重構(gòu)任務(wù)特別有意思,它就像是讓藝術(shù)家先欣賞一幅畫,然后用自己的話描述這幅畫,最后再根據(jù)自己的描述重新畫一遍。如果重新畫出來的作品與原作高度相似,說明這位藝術(shù)家不僅理解能力強(qiáng),創(chuàng)作能力也很強(qiáng)。這個(gè)任務(wù)巧妙地將理解和生成兩個(gè)能力結(jié)合起來,成為檢驗(yàn)AI綜合實(shí)力的試金石。

      更重要的是,研究團(tuán)隊(duì)為這套評(píng)測(cè)體系設(shè)定了八個(gè)主要維度和二十一個(gè)細(xì)分維度,就像是制定了一套詳細(xì)的藝術(shù)評(píng)判標(biāo)準(zhǔn)。這些維度涵蓋了視頻的方方面面:從畫面風(fēng)格到主體對(duì)象,從動(dòng)作表現(xiàn)到背景場(chǎng)景,從鏡頭運(yùn)動(dòng)到光影效果,從色彩搭配到空間關(guān)系。每一個(gè)維度都有具體的評(píng)判細(xì)則,確保評(píng)測(cè)的全面性和公正性。

      二、構(gòu)建無污染的評(píng)測(cè)環(huán)境

      解決了評(píng)什么的問題,接下來就是用什么來評(píng)的問題。這就像是為藝術(shù)家準(zhǔn)備考試題目,既要有足夠的難度和區(qū)分度,又要確保考生之前沒有見過這些題目。

      研究團(tuán)隊(duì)采用了一個(gè)非常巧妙的方法:他們沒有使用現(xiàn)成的網(wǎng)絡(luò)視頻,而是專門制作了全新的原創(chuàng)內(nèi)容。整個(gè)制作過程就像是一部精心策劃的紀(jì)錄片拍攝。首先,十五位具有視頻制作背景的專業(yè)人員接受了詳細(xì)的培訓(xùn),學(xué)習(xí)如何按照研究團(tuán)隊(duì)制定的八個(gè)維度標(biāo)準(zhǔn)來創(chuàng)作視頻腳本。這些專家需要確保每個(gè)腳本都覆蓋了所有評(píng)測(cè)維度,同時(shí)保持?jǐn)⑹碌倪B貫性和邏輯性。

      腳本完成后,團(tuán)隊(duì)使用頂級(jí)的商業(yè)視頻生成接口(包括海螺、快影、Veo3等)來制作視頻。但制作過程并不是一次性完成的,而是采用了嚴(yán)格的三重質(zhì)量控制機(jī)制。就像電影制作中的多輪審核一樣,每個(gè)視頻都要經(jīng)過自動(dòng)化預(yù)篩選、專家組評(píng)審和質(zhì)量專員終檢三個(gè)環(huán)節(jié)。只有在所有環(huán)節(jié)都獲得通過的視頻才能進(jìn)入最終的評(píng)測(cè)集。平均下來,每個(gè)視頻需要經(jīng)過2.3次生成嘗試才能達(dá)到標(biāo)準(zhǔn)。

      最終,研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含200個(gè)高質(zhì)量視頻的評(píng)測(cè)集,其中100個(gè)是單鏡頭視頻,100個(gè)是多鏡頭視頻(平均每個(gè)視頻包含3.72個(gè)鏡頭)。這些視頻不僅在技術(shù)層面達(dá)到了專業(yè)標(biāo)準(zhǔn),更重要的是完全避免了版權(quán)問題和數(shù)據(jù)污染問題,為公平評(píng)測(cè)奠定了堅(jiān)實(shí)基礎(chǔ)。

      除了視頻本身,研究團(tuán)隊(duì)還為每個(gè)視頻準(zhǔn)備了詳細(xì)的文字描述、多格式的編輯指令和參考圖像。其中,參考圖像庫(kù)包含864張精心挑選的圖片,涵蓋了人物主體、動(dòng)物主體、非生物主體等各種類型,以及現(xiàn)實(shí)主義、動(dòng)畫、藝術(shù)、科幻、服飾、材質(zhì)等六大風(fēng)格類別。這樣的配置確保了評(píng)測(cè)任務(wù)的多樣性和挑戰(zhàn)性。

      三、智能化評(píng)測(cè)系統(tǒng)的技術(shù)突破

      有了好的考試內(nèi)容,還需要一位公正而專業(yè)的考官。傳統(tǒng)的視頻評(píng)測(cè)往往依賴單一的數(shù)值指標(biāo),就像只用一把尺子來衡量藝術(shù)作品的價(jià)值一樣,顯然是不夠的。研究團(tuán)隊(duì)開發(fā)了一個(gè)名為UniV-Eval的智能評(píng)測(cè)系統(tǒng),它就像是一位經(jīng)驗(yàn)豐富的藝術(shù)評(píng)論家,能夠從多個(gè)角度深入分析作品的優(yōu)劣。

      這個(gè)智能評(píng)測(cè)系統(tǒng)的工作流程非常巧妙。當(dāng)它拿到一個(gè)需要評(píng)測(cè)的視頻時(shí),首先會(huì)進(jìn)行任務(wù)規(guī)劃和內(nèi)容分解。對(duì)于多鏡頭視頻,系統(tǒng)會(huì)自動(dòng)識(shí)別鏡頭切換點(diǎn),將復(fù)雜的長(zhǎng)視頻分解為若干個(gè)獨(dú)立的鏡頭單元。然后,它會(huì)根據(jù)不同的評(píng)測(cè)任務(wù),將參考圖像和編輯指令與相應(yīng)的鏡頭進(jìn)行匹配。這就像是一位細(xì)心的老師在批改作文時(shí),會(huì)逐段逐句地進(jìn)行分析,確保不遺漏任何重要細(xì)節(jié)。

      接下來是最核心的鏡頭級(jí)別精細(xì)化評(píng)測(cè)。系統(tǒng)會(huì)對(duì)每個(gè)鏡頭進(jìn)行九個(gè)主要類別的詳細(xì)分析:主體對(duì)象、相對(duì)位置、動(dòng)作表現(xiàn)、背景場(chǎng)景、色彩信息、光照信息、視頻風(fēng)格、氛圍營(yíng)造和鏡頭信息。每個(gè)主要類別又進(jìn)一步細(xì)分為具體的子項(xiàng)目,總共形成21個(gè)細(xì)分維度的評(píng)測(cè)體系。

      這種評(píng)測(cè)方式的優(yōu)勢(shì)在于它的可解釋性和可追溯性。傳統(tǒng)的評(píng)測(cè)方法可能只給出一個(gè)總分,比如"這個(gè)視頻質(zhì)量得分85分",但無法告訴你具體哪里好哪里不好。而UniV-Eval會(huì)生成一份詳細(xì)的"診斷報(bào)告",明確指出視頻在哪些方面表現(xiàn)出色,哪些方面需要改進(jìn)。比如,它可能會(huì)指出"鏡頭運(yùn)動(dòng)流暢度優(yōu)秀,但主體對(duì)象的一致性存在問題,在第3秒到第9.8秒之間出現(xiàn)了動(dòng)作不協(xié)調(diào)的情況"。

      為了確保評(píng)測(cè)結(jié)果的可靠性,研究團(tuán)隊(duì)還進(jìn)行了大規(guī)模的人工驗(yàn)證實(shí)驗(yàn)。他們隨機(jī)選擇了10%的評(píng)測(cè)數(shù)據(jù),邀請(qǐng)專業(yè)的人類評(píng)審員進(jìn)行獨(dú)立評(píng)分,然后與智能評(píng)測(cè)系統(tǒng)的結(jié)果進(jìn)行對(duì)比。結(jié)果顯示,系統(tǒng)的判斷與人類專家的意見一致性達(dá)到了85%,這個(gè)數(shù)字充分證明了評(píng)測(cè)系統(tǒng)的專業(yè)性和準(zhǔn)確性。

      四、揭示當(dāng)前AI視頻技術(shù)的真實(shí)水平

      當(dāng)這套全新的評(píng)測(cè)基準(zhǔn)應(yīng)用到現(xiàn)有的主流視頻AI模型時(shí),結(jié)果既在意料之中又令人深思。研究團(tuán)隊(duì)測(cè)試了包括商業(yè)化產(chǎn)品(如GPT-5、Gemini 2.5 Pro、Seed 1.6等)和開源模型(如CogVideoX、CoDi-2、Omni-Video等)在內(nèi)的多個(gè)主流系統(tǒng)。

      測(cè)試結(jié)果就像是一場(chǎng)全能運(yùn)動(dòng)會(huì),每個(gè)參賽選手都有自己的強(qiáng)項(xiàng)和弱項(xiàng),但沒有一個(gè)能在所有項(xiàng)目上都表現(xiàn)突出。在視頻理解任務(wù)中,Gemini 2.5 Pro表現(xiàn)最為出色,平均得分達(dá)到54.1%,就像是一位經(jīng)驗(yàn)豐富的電影評(píng)論家,能夠準(zhǔn)確理解視頻的內(nèi)容和意圖。相比之下,統(tǒng)一模型Showo-2在這個(gè)任務(wù)上只得到了16.3%的分?jǐn)?shù),顯示出目前的統(tǒng)一模型在理解能力上還有很大的提升空間。

      在視頻生成任務(wù)中,情況有所不同。Seedance-1.0-Pro憑借77.9%的高分成為最強(qiáng)的生成模型,就像是一位技藝精湛的導(dǎo)演,能夠根據(jù)劇本創(chuàng)作出高質(zhì)量的視頻作品。但有趣的是,即使是這樣的優(yōu)秀模型,在某些維度上仍然存在明顯的短板。

      特別值得注意的是動(dòng)作維度,這是所有模型的共同薄弱環(huán)節(jié)。無論是理解類任務(wù)還是生成類任務(wù),動(dòng)作維度的得分普遍偏低。這就像是讓藝術(shù)家描述或創(chuàng)作動(dòng)態(tài)場(chǎng)景時(shí)總是顯得力不從心,說明當(dāng)前的AI在處理復(fù)雜時(shí)序動(dòng)態(tài)信息方面還面臨著技術(shù)挑戰(zhàn)。相比之下,生成模型在色彩、光照和視頻風(fēng)格等靜態(tài)屬性上表現(xiàn)更為出色,這些維度的得分明顯高于動(dòng)作維度。

      最引人深思的是視頻重構(gòu)任務(wù)的結(jié)果。這個(gè)任務(wù)最能體現(xiàn)統(tǒng)一模型的真實(shí)水平,因?yàn)樗枰P褪紫葴?zhǔn)確理解視頻內(nèi)容,然后基于理解生成新的視頻。測(cè)試結(jié)果顯示,即使是表現(xiàn)最好的Wan2.1-VACE-14B模型也只達(dá)到了62.7%的得分。更重要的是,通過對(duì)比原始視頻、文本生成視頻和重構(gòu)視頻三者之間的差異,研究團(tuán)隊(duì)發(fā)現(xiàn)重構(gòu)視頻與原始視頻的不一致性最為明顯,這表明在理解到生成的信息傳遞過程中存在顯著的損失。

      五、技術(shù)挑戰(zhàn)與未來發(fā)展方向

      通過深入的案例分析,研究團(tuán)隊(duì)進(jìn)一步揭示了當(dāng)前視頻AI技術(shù)面臨的具體挑戰(zhàn)。以一個(gè)典型的測(cè)試案例為例,原始視頻展示的是兩只動(dòng)物走向鏡頭前方并向觀眾揮手的場(chǎng)景。當(dāng)使用文本描述生成視頻時(shí),由于有準(zhǔn)確的文字描述作為指導(dǎo),大多數(shù)模型都能生成相對(duì)合理的結(jié)果。但在重構(gòu)任務(wù)中,模型需要先自己理解視頻內(nèi)容,再基于自己的理解重新生成,結(jié)果顯示幾乎所有模型都無法準(zhǔn)確捕捉到"兩只動(dòng)物走向鏡頭前方并揮手"這個(gè)關(guān)鍵動(dòng)作序列。

      另一個(gè)案例更加有趣。原始視頻顯示一只貓進(jìn)入恐龍?jiān)煨偷膶櫸锔C,而寵物窩的嘴巴在貓進(jìn)入時(shí)會(huì)張開。這個(gè)細(xì)節(jié)看似簡(jiǎn)單,但對(duì)AI來說卻是極大的挑戰(zhàn),因?yàn)樗婕暗轿矬w間的交互邏輯和因果關(guān)系。測(cè)試結(jié)果顯示,大多數(shù)模型生成的視頻都缺失了這個(gè)關(guān)鍵的交互細(xì)節(jié),說明當(dāng)前AI在理解和生成復(fù)雜時(shí)空關(guān)系方面還有很長(zhǎng)的路要走。

      研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:在參考圖像生成視頻的任務(wù)中,當(dāng)視頻涉及多個(gè)鏡頭切換時(shí),模型往往難以保持參考對(duì)象的一致性。比如,第一個(gè)鏡頭中的人物形象可能與后續(xù)鏡頭中的同一人物出現(xiàn)明顯差異,就像演員在電影中途突然換了臉一樣。這個(gè)問題反映了當(dāng)前技術(shù)在處理長(zhǎng)時(shí)序一致性方面的局限性。

      通過與傳統(tǒng)評(píng)測(cè)指標(biāo)的對(duì)比,研究團(tuán)隊(duì)還展示了新評(píng)測(cè)系統(tǒng)的優(yōu)勢(shì)。傳統(tǒng)的BLEU分?jǐn)?shù)主要關(guān)注文本層面的詞匯重疊,在面對(duì)長(zhǎng)度差異較大的視頻描述時(shí)往往失去準(zhǔn)確性。而基于大語言模型的評(píng)判方法雖然能提供一定的語義分析,但往往只給出整體性的評(píng)價(jià),缺乏細(xì)粒度的診斷信息。相比之下,UniV-Eval能夠提供可追溯的多維度分析,明確指出具體問題所在,為模型改進(jìn)提供了清晰的指導(dǎo)方向。

      六、對(duì)未來AI發(fā)展的深遠(yuǎn)影響

      UniVBench的發(fā)布不僅僅是一個(gè)評(píng)測(cè)工具的誕生,更像是為整個(gè)AI視頻技術(shù)領(lǐng)域樹立了一座新的里程碑。它的意義就像是在一個(gè)沒有統(tǒng)一度量衡的市場(chǎng)里引入了標(biāo)準(zhǔn)的尺子和秤,讓不同的產(chǎn)品可以在同一個(gè)標(biāo)準(zhǔn)下進(jìn)行公平比較。

      從技術(shù)發(fā)展的角度來看,這套評(píng)測(cè)基準(zhǔn)為研究人員提供了明確的努力方向。就像運(yùn)動(dòng)員有了明確的訓(xùn)練目標(biāo)和評(píng)判標(biāo)準(zhǔn),AI研究者現(xiàn)在也能更有針對(duì)性地改進(jìn)自己的算法。特別是那些試圖開發(fā)統(tǒng)一視頻基礎(chǔ)模型的團(tuán)隊(duì),可以利用這套基準(zhǔn)來診斷自己模型的具體問題,然后有的放矢地進(jìn)行優(yōu)化。

      從產(chǎn)業(yè)應(yīng)用的角度來看,UniVBench為視頻AI技術(shù)的商業(yè)化提供了重要的質(zhì)量保證工具。就像汽車行業(yè)有碰撞測(cè)試標(biāo)準(zhǔn)、電器行業(yè)有安全認(rèn)證標(biāo)準(zhǔn)一樣,視頻AI行業(yè)現(xiàn)在也有了自己的"質(zhì)檢標(biāo)準(zhǔn)"。這將幫助用戶更好地選擇適合自己需求的AI產(chǎn)品,同時(shí)也推動(dòng)整個(gè)行業(yè)向更高質(zhì)量的方向發(fā)展。

      更重要的是,這項(xiàng)研究揭示了當(dāng)前技術(shù)發(fā)展的不均衡性。研究結(jié)果表明,盡管AI在某些方面(如靜態(tài)畫面生成、色彩搭配等)已經(jīng)達(dá)到了相當(dāng)高的水平,但在動(dòng)態(tài)理解、時(shí)序一致性、復(fù)雜交互等方面還有很大的提升空間。這種不均衡性提醒我們,真正的AI視頻理解和生成技術(shù)還需要更多的技術(shù)突破。

      研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前工作的局限性。雖然200個(gè)高質(zhì)量視頻足以進(jìn)行全面的評(píng)測(cè),但對(duì)于訓(xùn)練大規(guī)模統(tǒng)一視頻模型來說還遠(yuǎn)遠(yuǎn)不夠。因此,他們計(jì)劃在未來大幅擴(kuò)展數(shù)據(jù)集的規(guī)模,不僅用于評(píng)測(cè),更要用于訓(xùn)練更強(qiáng)大的統(tǒng)一模型。這就像是從建造一個(gè)精致的樣品房發(fā)展到建造整個(gè)社區(qū),需要更多的資源投入和時(shí)間積累。

      此外,當(dāng)前的評(píng)測(cè)主要集中在技術(shù)層面的指標(biāo),未來還需要加入更多關(guān)于實(shí)用性、創(chuàng)意性、倫理性等方面的評(píng)判標(biāo)準(zhǔn)。畢竟,一個(gè)真正優(yōu)秀的視頻AI不僅要技術(shù)過硬,還要能夠創(chuàng)造有價(jià)值、有意義的內(nèi)容。

      說到底,UniVBench的出現(xiàn)標(biāo)志著視頻AI技術(shù)評(píng)測(cè)進(jìn)入了一個(gè)新的時(shí)代。它不僅為當(dāng)前技術(shù)發(fā)展提供了一面鏡子,讓我們看清現(xiàn)狀,更為未來的技術(shù)突破指明了方向。就像GPS為旅行者提供準(zhǔn)確的位置信息和最優(yōu)路徑一樣,這套評(píng)測(cè)基準(zhǔn)將幫助AI研究者更好地導(dǎo)航在技術(shù)發(fā)展的道路上。

      隨著越來越多的研究團(tuán)隊(duì)開始使用這套標(biāo)準(zhǔn),我們有理由相信,視頻AI技術(shù)將迎來更加快速和均衡的發(fā)展。也許在不久的將來,我們就能看到真正意義上的全能視頻AI助手,它們不僅能夠理解我們的視頻內(nèi)容,還能根據(jù)我們的需求創(chuàng)造出令人驚嘆的視頻作品。而所有這一切的起點(diǎn),正是像UniVBench這樣嚴(yán)謹(jǐn)而全面的評(píng)測(cè)基準(zhǔn)的建立。

      有興趣深入了解這項(xiàng)開創(chuàng)性研究的讀者,可以通過論文編號(hào)arXiv:2602.21835v1查詢完整的技術(shù)細(xì)節(jié),相關(guān)代碼和數(shù)據(jù)集也已在GitHub上開源,為整個(gè)研究社區(qū)的發(fā)展貢獻(xiàn)了寶貴的資源。

      Q&A

      Q1:UniVBench與現(xiàn)有視頻評(píng)測(cè)基準(zhǔn)有什么不同?

      A:UniVBench最大的不同在于它是首個(gè)統(tǒng)一評(píng)測(cè)基準(zhǔn),能同時(shí)評(píng)估視頻理解、生成、編輯和重構(gòu)等六個(gè)核心任務(wù)。現(xiàn)有基準(zhǔn)都是針對(duì)單一任務(wù)設(shè)計(jì)的,就像分別考繪畫、音樂、舞蹈,而UniVBench是綜合藝術(shù)考試。更重要的是,它使用完全原創(chuàng)的200個(gè)高質(zhì)量視頻,避免了數(shù)據(jù)污染問題,確保評(píng)測(cè)結(jié)果更加公正準(zhǔn)確。

      Q2:視頻重構(gòu)任務(wù)為什么這么重要?

      A:視頻重構(gòu)任務(wù)是檢驗(yàn)AI綜合能力的試金石。它要求AI先理解視頻內(nèi)容,用文字描述出來,再根據(jù)自己的描述重新生成視頻。如果重構(gòu)視頻與原視頻高度相似,說明AI的理解和生成能力都很強(qiáng)。研究發(fā)現(xiàn),即使是最好的模型在這個(gè)任務(wù)上也只能達(dá)到62.7%的準(zhǔn)確率,表明現(xiàn)有AI在理解到生成的信息傳遞過程中存在顯著損失。

      Q3:普通用戶如何利用UniVBench的研究成果?

      A:雖然UniVBench主要是為AI研究者設(shè)計(jì)的專業(yè)工具,但它的研究成果對(duì)普通用戶也有重要意義。通過這套基準(zhǔn)的測(cè)試結(jié)果,用戶可以更清楚地了解不同AI視頻工具的真實(shí)能力和局限性,從而做出更明智的選擇。比如,如果你主要需要視頻理解功能,可以優(yōu)先考慮在理解任務(wù)上得分較高的模型;如果需要生成功能,則選擇生成任務(wù)表現(xiàn)更好的工具。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      伊朗向美航母發(fā)射4枚導(dǎo)彈

      伊朗向美航母發(fā)射4枚導(dǎo)彈

      每日經(jīng)濟(jì)新聞
      2026-03-01 22:32:10
      3000萬打工人逃離北上廣,卻不知道縣城已被161個(gè)家族瓜分

      3000萬打工人逃離北上廣,卻不知道縣城已被161個(gè)家族瓜分

      流蘇晚晴
      2026-02-27 18:06:43
      美媒感慨:若不是中國(guó)還在反抗特朗普,幾乎全世界都向他投降了

      美媒感慨:若不是中國(guó)還在反抗特朗普,幾乎全世界都向他投降了

      悅心知足
      2026-02-21 23:03:46
      曼聯(lián)2-1水晶宮,賽后評(píng)分:B費(fèi)7.8分,塞斯科7.7分,馬奎爾7.3分

      曼聯(lián)2-1水晶宮,賽后評(píng)分:B費(fèi)7.8分,塞斯科7.7分,馬奎爾7.3分

      卡靈頓分析師
      2026-03-02 01:00:55
      伊朗吃肉的時(shí)候,對(duì)中國(guó)防得嚴(yán)嚴(yán)實(shí)實(shí),生怕中國(guó)占一點(diǎn)便宜

      伊朗吃肉的時(shí)候,對(duì)中國(guó)防得嚴(yán)嚴(yán)實(shí)實(shí),生怕中國(guó)占一點(diǎn)便宜

      百態(tài)人間
      2026-02-24 15:37:37
      俄反對(duì)派媒體公布俄軍陣亡驚人數(shù)據(jù)

      俄反對(duì)派媒體公布俄軍陣亡驚人數(shù)據(jù)

      小眼睛小世界
      2026-02-27 09:20:27
      切爾西單賽季英超7名球員染紅,歷史上只有兩隊(duì)比他們更多

      切爾西單賽季英超7名球員染紅,歷史上只有兩隊(duì)比他們更多

      懂球帝
      2026-03-02 02:19:20
      中東多地遭伊朗報(bào)復(fù)性打擊,迪拜帆船酒店遭襲起火

      中東多地遭伊朗報(bào)復(fù)性打擊,迪拜帆船酒店遭襲起火

      觀察者網(wǎng)
      2026-03-01 12:13:04
      成龍代言又添“受害者”:老牌空調(diào)巨頭宣布破產(chǎn)

      成龍代言又添“受害者”:老牌空調(diào)巨頭宣布破產(chǎn)

      帥真商業(yè)
      2026-02-28 19:08:58
      河北孟村殺妻案最新消息,堂哥說已經(jīng)被執(zhí)行

      河北孟村殺妻案最新消息,堂哥說已經(jīng)被執(zhí)行

      九方魚論
      2026-03-01 20:14:28
      特朗普萬萬沒想到,伊朗最強(qiáng)司令接班,哈梅內(nèi)伊最后“陽謀”奏效

      特朗普萬萬沒想到,伊朗最強(qiáng)司令接班,哈梅內(nèi)伊最后“陽謀”奏效

      林子說事
      2026-03-02 01:29:31
      香菇再次被關(guān)注!醫(yī)生發(fā)現(xiàn):癌癥患者吃香菇,不用多久或有5改善

      香菇再次被關(guān)注!醫(yī)生發(fā)現(xiàn):癌癥患者吃香菇,不用多久或有5改善

      讀懂世界歷史
      2026-02-12 21:48:53
      美媒:因芯片含有中國(guó)稀土,臺(tái)積電無法向美國(guó)供應(yīng)半導(dǎo)體芯片

      美媒:因芯片含有中國(guó)稀土,臺(tái)積電無法向美國(guó)供應(yīng)半導(dǎo)體芯片

      粵語音樂噴泉
      2026-03-01 13:41:46
      伊朗德黑蘭被炸給世界上了一課:中國(guó)防空系統(tǒng)到底有多恐怖?

      伊朗德黑蘭被炸給世界上了一課:中國(guó)防空系統(tǒng)到底有多恐怖?

      荷蘭豆愛健康
      2026-03-01 22:22:27
      網(wǎng)傳新能源汽車開征“里程稅” 收費(fèi)0.12元/公里 多地回應(yīng)

      網(wǎng)傳新能源汽車開征“里程稅” 收費(fèi)0.12元/公里 多地回應(yīng)

      快科技
      2026-02-27 21:58:15
      周杰倫和田馥甄的瓜,沖上熱搜第一

      周杰倫和田馥甄的瓜,沖上熱搜第一

      背包旅行
      2026-02-27 17:05:44
      突發(fā)!20名女排球員喪生,伊朗排協(xié)損失太大

      突發(fā)!20名女排球員喪生,伊朗排協(xié)損失太大

      跑者排球視角
      2026-03-01 10:08:21
      美“福特”號(hào)航母駛離希臘克里特島

      美“福特”號(hào)航母駛離希臘克里特島

      財(cái)聯(lián)社
      2026-02-26 16:57:07
      徹底沒油!本賽季打完,這6大球星大概率退役!5人還是全明星常客

      徹底沒油!本賽季打完,這6大球星大概率退役!5人還是全明星常客

      毒舌NBA
      2026-03-01 20:18:44
      2-1 倫敦德比神劇情:本隊(duì)后衛(wèi)打進(jìn)3球 12.7億豪門面對(duì)死敵三連斬

      2-1 倫敦德比神劇情:本隊(duì)后衛(wèi)打進(jìn)3球 12.7億豪門面對(duì)死敵三連斬

      狍子歪解體壇
      2026-03-02 02:27:49
      2026-03-02 02:44:49
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      7389文章數(shù) 553關(guān)注度
      往期回顧 全部

      科技要聞

      榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

      頭條要聞

      特朗普警告伊朗“不要報(bào)復(fù)” 伊朗外長(zhǎng)回應(yīng)

      頭條要聞

      特朗普警告伊朗“不要報(bào)復(fù)” 伊朗外長(zhǎng)回應(yīng)

      體育要聞

      火箭輸給熱火:烏度卡又輸斯波教練

      娛樂要聞

      黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

      財(cái)經(jīng)要聞

      中東局勢(shì)升級(jí) 如何影響A股、黃金和原油

      汽車要聞

      理想汽車2月交付26421輛 歷史累計(jì)交付超159萬輛

      態(tài)度原創(chuàng)

      家居
      時(shí)尚
      藝術(shù)
      游戲
      數(shù)碼

      家居要聞

      素色肌理 品意式格調(diào)

      今年春天最流行的4件衛(wèi)衣,照著穿就很好看

      藝術(shù)要聞

      看!這位伊朗超模如何顛覆你的美麗認(rèn)知!

      以《生化危機(jī)》命名?Capcom解答對(duì)RE引擎的誤讀

      數(shù)碼要聞

      榮耀Magic V6海外發(fā)布:厚度僅8.75mm三年內(nèi)第四次打破紀(jì)錄

      無障礙瀏覽 進(jìn)入關(guān)懷版