網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

浙江大學(xué)團(tuán)隊(duì)發(fā)布UniVBench：首個(gè)統(tǒng)一視頻基礎(chǔ)模型評(píng)測(cè)基準(zhǔn)

2026-02-27 22:01:06　來源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由浙江大學(xué)、字節(jié)跳動(dòng)和浙江實(shí)驗(yàn)室聯(lián)合開展的研究發(fā)表于2026年2月25日的arXiv預(yù)印本平臺(tái)，論文編號(hào)為arXiv:2602.21835v1。有興趣深入了解的讀者可以通過該編號(hào)查詢完整論文。

當(dāng)我們談?wù)撊斯ぶ悄艿陌l(fā)展時(shí)，視頻理解和生成技術(shù)可以說是當(dāng)下最激動(dòng)人心的領(lǐng)域之一。就像一位全能藝術(shù)家既要能欣賞電影又要能拍攝電影一樣，現(xiàn)在的AI系統(tǒng)也在朝著能夠同時(shí)理解視頻內(nèi)容和生成視頻內(nèi)容的方向發(fā)展。不過，要評(píng)判這樣一位"全能藝術(shù)家"的真實(shí)水平，我們需要一套全面而公正的考試體系。

傳統(tǒng)的視頻AI評(píng)測(cè)就像是讓一位全才藝術(shù)家分別參加繪畫考試、音樂考試和舞蹈考試，每個(gè)考試都有不同的評(píng)分標(biāo)準(zhǔn)，最后我們很難知道這位藝術(shù)家的綜合實(shí)力到底如何。更麻煩的是，繪畫考試可能用的是畢加索的作品做題目，音樂考試用的是貝多芬的樂曲，而舞蹈考試又用了芭蕾舞劇片段——這些素材可能在訓(xùn)練階段就被AI"學(xué)"過了，就像學(xué)生提前知道了考試答案一樣，考試結(jié)果自然不夠準(zhǔn)確。

浙江大學(xué)的研究團(tuán)隊(duì)敏銳地發(fā)現(xiàn)了這個(gè)問題。他們注意到，現(xiàn)有的視頻AI評(píng)測(cè)基準(zhǔn)存在三個(gè)根本性的局限性。首先是各自為政的評(píng)測(cè)方式，理解視頻的AI和生成視頻的AI用的是完全不同的評(píng)測(cè)標(biāo)準(zhǔn)，就像用測(cè)量身高的尺子去稱體重一樣不合理。其次是內(nèi)容來源的問題，許多評(píng)測(cè)用的都是網(wǎng)上的視頻片段，這些內(nèi)容很可能在AI訓(xùn)練過程中就見過，評(píng)測(cè)結(jié)果的可信度大打折扣。最后是評(píng)測(cè)維度的不完整，現(xiàn)有的基準(zhǔn)往往只關(guān)注某幾個(gè)方面，比如只看畫面質(zhì)量不看故事連貫性，或者只看色彩搭配不看鏡頭運(yùn)動(dòng)，無法全面衡量AI的真實(shí)能力。

為了解決這些問題，研究團(tuán)隊(duì)開發(fā)了一個(gè)名為UniVBench的全新評(píng)測(cè)基準(zhǔn)。這就像是為全能藝術(shù)家設(shè)計(jì)了一套完整的綜合考試，不僅涵蓋了繪畫、音樂、舞蹈等各個(gè)藝術(shù)門類，還確保了考試內(nèi)容的原創(chuàng)性和評(píng)分標(biāo)準(zhǔn)的一致性。

一、重新定義視頻AI的能力邊界

要理解UniVBench的創(chuàng)新之處，我們首先需要明白現(xiàn)在的視頻AI到底在做什么。回到我們的藝術(shù)家比喻，傳統(tǒng)的AI更像是專業(yè)的單項(xiàng)選手：有些專門"看畫"（視頻理解），能夠準(zhǔn)確描述一幅畫里有什么內(nèi)容、用了什么技法、表達(dá)了什么情感；有些專門"作畫"（視頻生成），能夠根據(jù)描述創(chuàng)作出相應(yīng)的畫作。而新一代的統(tǒng)一視頻基礎(chǔ)模型則試圖成為真正的全能藝術(shù)家，既能看懂也能創(chuàng)作。

但是，如何評(píng)判一位全能藝術(shù)家的水平呢？研究團(tuán)隊(duì)認(rèn)為，需要從六個(gè)核心任務(wù)來考察：視頻理解（就像藝術(shù)評(píng)論）、文本生成視頻、參考圖像生成視頻、文本指令視頻編輯、參考圖像視頻編輯，以及最具挑戰(zhàn)性的視頻重構(gòu)任務(wù)。

這里的視頻重構(gòu)任務(wù)特別有意思，它就像是讓藝術(shù)家先欣賞一幅畫，然后用自己的話描述這幅畫，最后再根據(jù)自己的描述重新畫一遍。如果重新畫出來的作品與原作高度相似，說明這位藝術(shù)家不僅理解能力強(qiáng)，創(chuàng)作能力也很強(qiáng)。這個(gè)任務(wù)巧妙地將理解和生成兩個(gè)能力結(jié)合起來，成為檢驗(yàn)AI綜合實(shí)力的試金石。

更重要的是，研究團(tuán)隊(duì)為這套評(píng)測(cè)體系設(shè)定了八個(gè)主要維度和二十一個(gè)細(xì)分維度，就像是制定了一套詳細(xì)的藝術(shù)評(píng)判標(biāo)準(zhǔn)。這些維度涵蓋了視頻的方方面面：從畫面風(fēng)格到主體對(duì)象，從動(dòng)作表現(xiàn)到背景場(chǎng)景，從鏡頭運(yùn)動(dòng)到光影效果，從色彩搭配到空間關(guān)系。每一個(gè)維度都有具體的評(píng)判細(xì)則，確保評(píng)測(cè)的全面性和公正性。

二、構(gòu)建無污染的評(píng)測(cè)環(huán)境

解決了評(píng)什么的問題，接下來就是用什么來評(píng)的問題。這就像是為藝術(shù)家準(zhǔn)備考試題目，既要有足夠的難度和區(qū)分度，又要確保考生之前沒有見過這些題目。

研究團(tuán)隊(duì)采用了一個(gè)非常巧妙的方法：他們沒有使用現(xiàn)成的網(wǎng)絡(luò)視頻，而是專門制作了全新的原創(chuàng)內(nèi)容。整個(gè)制作過程就像是一部精心策劃的紀(jì)錄片拍攝。首先，十五位具有視頻制作背景的專業(yè)人員接受了詳細(xì)的培訓(xùn)，學(xué)習(xí)如何按照研究團(tuán)隊(duì)制定的八個(gè)維度標(biāo)準(zhǔn)來創(chuàng)作視頻腳本。這些專家需要確保每個(gè)腳本都覆蓋了所有評(píng)測(cè)維度，同時(shí)保持?jǐn)⑹碌倪B貫性和邏輯性。

腳本完成后，團(tuán)隊(duì)使用頂級(jí)的商業(yè)視頻生成接口（包括海螺、快影、Veo3等）來制作視頻。但制作過程并不是一次性完成的，而是采用了嚴(yán)格的三重質(zhì)量控制機(jī)制。就像電影制作中的多輪審核一樣，每個(gè)視頻都要經(jīng)過自動(dòng)化預(yù)篩選、專家組評(píng)審和質(zhì)量專員終檢三個(gè)環(huán)節(jié)。只有在所有環(huán)節(jié)都獲得通過的視頻才能進(jìn)入最終的評(píng)測(cè)集。平均下來，每個(gè)視頻需要經(jīng)過2.3次生成嘗試才能達(dá)到標(biāo)準(zhǔn)。

最終，研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含200個(gè)高質(zhì)量視頻的評(píng)測(cè)集，其中100個(gè)是單鏡頭視頻，100個(gè)是多鏡頭視頻（平均每個(gè)視頻包含3.72個(gè)鏡頭）。這些視頻不僅在技術(shù)層面達(dá)到了專業(yè)標(biāo)準(zhǔn)，更重要的是完全避免了版權(quán)問題和數(shù)據(jù)污染問題，為公平評(píng)測(cè)奠定了堅(jiān)實(shí)基礎(chǔ)。

除了視頻本身，研究團(tuán)隊(duì)還為每個(gè)視頻準(zhǔn)備了詳細(xì)的文字描述、多格式的編輯指令和參考圖像。其中，參考圖像庫(kù)包含864張精心挑選的圖片，涵蓋了人物主體、動(dòng)物主體、非生物主體等各種類型，以及現(xiàn)實(shí)主義、動(dòng)畫、藝術(shù)、科幻、服飾、材質(zhì)等六大風(fēng)格類別。這樣的配置確保了評(píng)測(cè)任務(wù)的多樣性和挑戰(zhàn)性。

三、智能化評(píng)測(cè)系統(tǒng)的技術(shù)突破

有了好的考試內(nèi)容，還需要一位公正而專業(yè)的考官。傳統(tǒng)的視頻評(píng)測(cè)往往依賴單一的數(shù)值指標(biāo)，就像只用一把尺子來衡量藝術(shù)作品的價(jià)值一樣，顯然是不夠的。研究團(tuán)隊(duì)開發(fā)了一個(gè)名為UniV-Eval的智能評(píng)測(cè)系統(tǒng)，它就像是一位經(jīng)驗(yàn)豐富的藝術(shù)評(píng)論家，能夠從多個(gè)角度深入分析作品的優(yōu)劣。

這個(gè)智能評(píng)測(cè)系統(tǒng)的工作流程非常巧妙。當(dāng)它拿到一個(gè)需要評(píng)測(cè)的視頻時(shí)，首先會(huì)進(jìn)行任務(wù)規(guī)劃和內(nèi)容分解。對(duì)于多鏡頭視頻，系統(tǒng)會(huì)自動(dòng)識(shí)別鏡頭切換點(diǎn)，將復(fù)雜的長(zhǎng)視頻分解為若干個(gè)獨(dú)立的鏡頭單元。然后，它會(huì)根據(jù)不同的評(píng)測(cè)任務(wù)，將參考圖像和編輯指令與相應(yīng)的鏡頭進(jìn)行匹配。這就像是一位細(xì)心的老師在批改作文時(shí)，會(huì)逐段逐句地進(jìn)行分析，確保不遺漏任何重要細(xì)節(jié)。

接下來是最核心的鏡頭級(jí)別精細(xì)化評(píng)測(cè)。系統(tǒng)會(huì)對(duì)每個(gè)鏡頭進(jìn)行九個(gè)主要類別的詳細(xì)分析：主體對(duì)象、相對(duì)位置、動(dòng)作表現(xiàn)、背景場(chǎng)景、色彩信息、光照信息、視頻風(fēng)格、氛圍營(yíng)造和鏡頭信息。每個(gè)主要類別又進(jìn)一步細(xì)分為具體的子項(xiàng)目，總共形成21個(gè)細(xì)分維度的評(píng)測(cè)體系。

這種評(píng)測(cè)方式的優(yōu)勢(shì)在于它的可解釋性和可追溯性。傳統(tǒng)的評(píng)測(cè)方法可能只給出一個(gè)總分，比如"這個(gè)視頻質(zhì)量得分85分"，但無法告訴你具體哪里好哪里不好。而UniV-Eval會(huì)生成一份詳細(xì)的"診斷報(bào)告"，明確指出視頻在哪些方面表現(xiàn)出色，哪些方面需要改進(jìn)。比如，它可能會(huì)指出"鏡頭運(yùn)動(dòng)流暢度優(yōu)秀，但主體對(duì)象的一致性存在問題，在第3秒到第9.8秒之間出現(xiàn)了動(dòng)作不協(xié)調(diào)的情況"。

為了確保評(píng)測(cè)結(jié)果的可靠性，研究團(tuán)隊(duì)還進(jìn)行了大規(guī)模的人工驗(yàn)證實(shí)驗(yàn)。他們隨機(jī)選擇了10%的評(píng)測(cè)數(shù)據(jù)，邀請(qǐng)專業(yè)的人類評(píng)審員進(jìn)行獨(dú)立評(píng)分，然后與智能評(píng)測(cè)系統(tǒng)的結(jié)果進(jìn)行對(duì)比。結(jié)果顯示，系統(tǒng)的判斷與人類專家的意見一致性達(dá)到了85%，這個(gè)數(shù)字充分證明了評(píng)測(cè)系統(tǒng)的專業(yè)性和準(zhǔn)確性。

四、揭示當(dāng)前AI視頻技術(shù)的真實(shí)水平

當(dāng)這套全新的評(píng)測(cè)基準(zhǔn)應(yīng)用到現(xiàn)有的主流視頻AI模型時(shí)，結(jié)果既在意料之中又令人深思。研究團(tuán)隊(duì)測(cè)試了包括商業(yè)化產(chǎn)品（如GPT-5、Gemini 2.5 Pro、Seed 1.6等）和開源模型（如CogVideoX、CoDi-2、Omni-Video等）在內(nèi)的多個(gè)主流系統(tǒng)。

測(cè)試結(jié)果就像是一場(chǎng)全能運(yùn)動(dòng)會(huì)，每個(gè)參賽選手都有自己的強(qiáng)項(xiàng)和弱項(xiàng)，但沒有一個(gè)能在所有項(xiàng)目上都表現(xiàn)突出。在視頻理解任務(wù)中，Gemini 2.5 Pro表現(xiàn)最為出色，平均得分達(dá)到54.1%，就像是一位經(jīng)驗(yàn)豐富的電影評(píng)論家，能夠準(zhǔn)確理解視頻的內(nèi)容和意圖。相比之下，統(tǒng)一模型Showo-2在這個(gè)任務(wù)上只得到了16.3%的分?jǐn)?shù)，顯示出目前的統(tǒng)一模型在理解能力上還有很大的提升空間。

在視頻生成任務(wù)中，情況有所不同。Seedance-1.0-Pro憑借77.9%的高分成為最強(qiáng)的生成模型，就像是一位技藝精湛的導(dǎo)演，能夠根據(jù)劇本創(chuàng)作出高質(zhì)量的視頻作品。但有趣的是，即使是這樣的優(yōu)秀模型，在某些維度上仍然存在明顯的短板。

特別值得注意的是動(dòng)作維度，這是所有模型的共同薄弱環(huán)節(jié)。無論是理解類任務(wù)還是生成類任務(wù)，動(dòng)作維度的得分普遍偏低。這就像是讓藝術(shù)家描述或創(chuàng)作動(dòng)態(tài)場(chǎng)景時(shí)總是顯得力不從心，說明當(dāng)前的AI在處理復(fù)雜時(shí)序動(dòng)態(tài)信息方面還面臨著技術(shù)挑戰(zhàn)。相比之下，生成模型在色彩、光照和視頻風(fēng)格等靜態(tài)屬性上表現(xiàn)更為出色，這些維度的得分明顯高于動(dòng)作維度。

最引人深思的是視頻重構(gòu)任務(wù)的結(jié)果。這個(gè)任務(wù)最能體現(xiàn)統(tǒng)一模型的真實(shí)水平，因?yàn)樗枰Ｐ褪紫葴?zhǔn)確理解視頻內(nèi)容，然后基于理解生成新的視頻。測(cè)試結(jié)果顯示，即使是表現(xiàn)最好的Wan2.1-VACE-14B模型也只達(dá)到了62.7%的得分。更重要的是，通過對(duì)比原始視頻、文本生成視頻和重構(gòu)視頻三者之間的差異，研究團(tuán)隊(duì)發(fā)現(xiàn)重構(gòu)視頻與原始視頻的不一致性最為明顯，這表明在理解到生成的信息傳遞過程中存在顯著的損失。

五、技術(shù)挑戰(zhàn)與未來發(fā)展方向

通過深入的案例分析，研究團(tuán)隊(duì)進(jìn)一步揭示了當(dāng)前視頻AI技術(shù)面臨的具體挑戰(zhàn)。以一個(gè)典型的測(cè)試案例為例，原始視頻展示的是兩只動(dòng)物走向鏡頭前方并向觀眾揮手的場(chǎng)景。當(dāng)使用文本描述生成視頻時(shí)，由于有準(zhǔn)確的文字描述作為指導(dǎo)，大多數(shù)模型都能生成相對(duì)合理的結(jié)果。但在重構(gòu)任務(wù)中，模型需要先自己理解視頻內(nèi)容，再基于自己的理解重新生成，結(jié)果顯示幾乎所有模型都無法準(zhǔn)確捕捉到"兩只動(dòng)物走向鏡頭前方并揮手"這個(gè)關(guān)鍵動(dòng)作序列。

另一個(gè)案例更加有趣。原始視頻顯示一只貓進(jìn)入恐龍?jiān)煨偷膶櫸锔C，而寵物窩的嘴巴在貓進(jìn)入時(shí)會(huì)張開。這個(gè)細(xì)節(jié)看似簡(jiǎn)單，但對(duì)AI來說卻是極大的挑戰(zhàn)，因?yàn)樗婕暗轿矬w間的交互邏輯和因果關(guān)系。測(cè)試結(jié)果顯示，大多數(shù)模型生成的視頻都缺失了這個(gè)關(guān)鍵的交互細(xì)節(jié)，說明當(dāng)前AI在理解和生成復(fù)雜時(shí)空關(guān)系方面還有很長(zhǎng)的路要走。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：在參考圖像生成視頻的任務(wù)中，當(dāng)視頻涉及多個(gè)鏡頭切換時(shí)，模型往往難以保持參考對(duì)象的一致性。比如，第一個(gè)鏡頭中的人物形象可能與后續(xù)鏡頭中的同一人物出現(xiàn)明顯差異，就像演員在電影中途突然換了臉一樣。這個(gè)問題反映了當(dāng)前技術(shù)在處理長(zhǎng)時(shí)序一致性方面的局限性。

通過與傳統(tǒng)評(píng)測(cè)指標(biāo)的對(duì)比，研究團(tuán)隊(duì)還展示了新評(píng)測(cè)系統(tǒng)的優(yōu)勢(shì)。傳統(tǒng)的BLEU分?jǐn)?shù)主要關(guān)注文本層面的詞匯重疊，在面對(duì)長(zhǎng)度差異較大的視頻描述時(shí)往往失去準(zhǔn)確性。而基于大語言模型的評(píng)判方法雖然能提供一定的語義分析，但往往只給出整體性的評(píng)價(jià)，缺乏細(xì)粒度的診斷信息。相比之下，UniV-Eval能夠提供可追溯的多維度分析，明確指出具體問題所在，為模型改進(jìn)提供了清晰的指導(dǎo)方向。

六、對(duì)未來AI發(fā)展的深遠(yuǎn)影響

UniVBench的發(fā)布不僅僅是一個(gè)評(píng)測(cè)工具的誕生，更像是為整個(gè)AI視頻技術(shù)領(lǐng)域樹立了一座新的里程碑。它的意義就像是在一個(gè)沒有統(tǒng)一度量衡的市場(chǎng)里引入了標(biāo)準(zhǔn)的尺子和秤，讓不同的產(chǎn)品可以在同一個(gè)標(biāo)準(zhǔn)下進(jìn)行公平比較。

從技術(shù)發(fā)展的角度來看，這套評(píng)測(cè)基準(zhǔn)為研究人員提供了明確的努力方向。就像運(yùn)動(dòng)員有了明確的訓(xùn)練目標(biāo)和評(píng)判標(biāo)準(zhǔn)，AI研究者現(xiàn)在也能更有針對(duì)性地改進(jìn)自己的算法。特別是那些試圖開發(fā)統(tǒng)一視頻基礎(chǔ)模型的團(tuán)隊(duì)，可以利用這套基準(zhǔn)來診斷自己模型的具體問題，然后有的放矢地進(jìn)行優(yōu)化。

從產(chǎn)業(yè)應(yīng)用的角度來看，UniVBench為視頻AI技術(shù)的商業(yè)化提供了重要的質(zhì)量保證工具。就像汽車行業(yè)有碰撞測(cè)試標(biāo)準(zhǔn)、電器行業(yè)有安全認(rèn)證標(biāo)準(zhǔn)一樣，視頻AI行業(yè)現(xiàn)在也有了自己的"質(zhì)檢標(biāo)準(zhǔn)"。這將幫助用戶更好地選擇適合自己需求的AI產(chǎn)品，同時(shí)也推動(dòng)整個(gè)行業(yè)向更高質(zhì)量的方向發(fā)展。

更重要的是，這項(xiàng)研究揭示了當(dāng)前技術(shù)發(fā)展的不均衡性。研究結(jié)果表明，盡管AI在某些方面（如靜態(tài)畫面生成、色彩搭配等）已經(jīng)達(dá)到了相當(dāng)高的水平，但在動(dòng)態(tài)理解、時(shí)序一致性、復(fù)雜交互等方面還有很大的提升空間。這種不均衡性提醒我們，真正的AI視頻理解和生成技術(shù)還需要更多的技術(shù)突破。

研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前工作的局限性。雖然200個(gè)高質(zhì)量視頻足以進(jìn)行全面的評(píng)測(cè)，但對(duì)于訓(xùn)練大規(guī)模統(tǒng)一視頻模型來說還遠(yuǎn)遠(yuǎn)不夠。因此，他們計(jì)劃在未來大幅擴(kuò)展數(shù)據(jù)集的規(guī)模，不僅用于評(píng)測(cè)，更要用于訓(xùn)練更強(qiáng)大的統(tǒng)一模型。這就像是從建造一個(gè)精致的樣品房發(fā)展到建造整個(gè)社區(qū)，需要更多的資源投入和時(shí)間積累。

此外，當(dāng)前的評(píng)測(cè)主要集中在技術(shù)層面的指標(biāo)，未來還需要加入更多關(guān)于實(shí)用性、創(chuàng)意性、倫理性等方面的評(píng)判標(biāo)準(zhǔn)。畢竟，一個(gè)真正優(yōu)秀的視頻AI不僅要技術(shù)過硬，還要能夠創(chuàng)造有價(jià)值、有意義的內(nèi)容。

說到底，UniVBench的出現(xiàn)標(biāo)志著視頻AI技術(shù)評(píng)測(cè)進(jìn)入了一個(gè)新的時(shí)代。它不僅為當(dāng)前技術(shù)發(fā)展提供了一面鏡子，讓我們看清現(xiàn)狀，更為未來的技術(shù)突破指明了方向。就像GPS為旅行者提供準(zhǔn)確的位置信息和最優(yōu)路徑一樣，這套評(píng)測(cè)基準(zhǔn)將幫助AI研究者更好地導(dǎo)航在技術(shù)發(fā)展的道路上。

隨著越來越多的研究團(tuán)隊(duì)開始使用這套標(biāo)準(zhǔn)，我們有理由相信，視頻AI技術(shù)將迎來更加快速和均衡的發(fā)展。也許在不久的將來，我們就能看到真正意義上的全能視頻AI助手，它們不僅能夠理解我們的視頻內(nèi)容，還能根據(jù)我們的需求創(chuàng)造出令人驚嘆的視頻作品。而所有這一切的起點(diǎn)，正是像UniVBench這樣嚴(yán)謹(jǐn)而全面的評(píng)測(cè)基準(zhǔn)的建立。

有興趣深入了解這項(xiàng)開創(chuàng)性研究的讀者，可以通過論文編號(hào)arXiv:2602.21835v1查詢完整的技術(shù)細(xì)節(jié)，相關(guān)代碼和數(shù)據(jù)集也已在GitHub上開源，為整個(gè)研究社區(qū)的發(fā)展貢獻(xiàn)了寶貴的資源。

Q&A

Q1：UniVBench與現(xiàn)有視頻評(píng)測(cè)基準(zhǔn)有什么不同？

A：UniVBench最大的不同在于它是首個(gè)統(tǒng)一評(píng)測(cè)基準(zhǔn)，能同時(shí)評(píng)估視頻理解、生成、編輯和重構(gòu)等六個(gè)核心任務(wù)。現(xiàn)有基準(zhǔn)都是針對(duì)單一任務(wù)設(shè)計(jì)的，就像分別考繪畫、音樂、舞蹈，而UniVBench是綜合藝術(shù)考試。更重要的是，它使用完全原創(chuàng)的200個(gè)高質(zhì)量視頻，避免了數(shù)據(jù)污染問題，確保評(píng)測(cè)結(jié)果更加公正準(zhǔn)確。

Q2：視頻重構(gòu)任務(wù)為什么這么重要？

A：視頻重構(gòu)任務(wù)是檢驗(yàn)AI綜合能力的試金石。它要求AI先理解視頻內(nèi)容，用文字描述出來，再根據(jù)自己的描述重新生成視頻。如果重構(gòu)視頻與原視頻高度相似，說明AI的理解和生成能力都很強(qiáng)。研究發(fā)現(xiàn)，即使是最好的模型在這個(gè)任務(wù)上也只能達(dá)到62.7%的準(zhǔn)確率，表明現(xiàn)有AI在理解到生成的信息傳遞過程中存在顯著損失。

Q3：普通用戶如何利用UniVBench的研究成果？

A：雖然UniVBench主要是為AI研究者設(shè)計(jì)的專業(yè)工具，但它的研究成果對(duì)普通用戶也有重要意義。通過這套基準(zhǔn)的測(cè)試結(jié)果，用戶可以更清楚地了解不同AI視頻工具的真實(shí)能力和局限性，從而做出更明智的選擇。比如，如果你主要需要視頻理解功能，可以優(yōu)先考慮在理解任務(wù)上得分較高的模型；如果需要生成功能，則選擇生成任務(wù)表現(xiàn)更好的工具。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.