![]()
10月27日消息,美團(tuán)LongCat團(tuán)隊(duì)今日發(fā)布并開(kāi)源LongCat-Video視頻生成模型,以統(tǒng)一模型在文生、圖生視頻基礎(chǔ)任務(wù)上達(dá)到開(kāi)源SOTA(最先進(jìn)水平)。
不同于以往針對(duì)單一任務(wù)訓(xùn)練的模型,LongCat-Video通過(guò)多任務(wù)聯(lián)合訓(xùn)練機(jī)制,在同一框架內(nèi)即可處理零幀、單幀及多幀條件輸入。
![]()
此外,LongCat-Video重點(diǎn)突破了長(zhǎng)視頻生成難題,原生支持輸出5分鐘級(jí)別的視頻。相比常見(jiàn)模型在長(zhǎng)時(shí)序生成中易出現(xiàn)的畫面漂移、色彩偏移等問(wèn)題,該模型通過(guò)在視頻續(xù)寫任務(wù)上的原生預(yù)訓(xùn)練,保持了較高的時(shí)間一致性與視覺(jué)穩(wěn)定性。
近年來(lái),“世界模型”被業(yè)界認(rèn)為是通往下一代人工智能的核心方向。它能在時(shí)空維度上建模物理規(guī)律與場(chǎng)景邏輯,使AI具備理解、預(yù)測(cè)甚至重構(gòu)現(xiàn)實(shí)世界的能力。
在這一背景下,視頻生成模型被視為構(gòu)建“世界模型”的關(guān)鍵路徑。通過(guò)視頻生成任務(wù)壓縮幾何、語(yǔ)義與物理知識(shí),AI可以在數(shù)字空間中模擬真實(shí)世界的運(yùn)行過(guò)程。
美團(tuán)LongCat團(tuán)隊(duì)表示,LongCat-Video的推出是公司邁向這一目標(biāo)的關(guān)鍵一步。未來(lái),該模型將與自動(dòng)駕駛、具身智能等業(yè)務(wù)相結(jié)合,為美團(tuán)在連接“原子世界”和“比特世界”方面提供技術(shù)支撐。
![]()
文生視頻任務(wù)中,LongCat-Video可以根據(jù)提示詞準(zhǔn)確還原不少腦洞大開(kāi)的畫面
據(jù)介紹,LongCat-Video可生成720p分辨率、30幀率的高清視頻,其突出特點(diǎn)在于能夠原生生成長(zhǎng)達(dá)5分鐘的連貫視頻內(nèi)容。模型通過(guò)視頻續(xù)寫預(yù)訓(xùn)練、塊稀疏注意力等機(jī)制,旨在解決長(zhǎng)視頻生成中常見(jiàn)的畫面斷裂、質(zhì)量下降等問(wèn)題,保持時(shí)序一致性與運(yùn)動(dòng)合理性。
在效率方面,針對(duì)高分辨率、高幀率視頻生成的計(jì)算瓶頸,LongCat-Video通過(guò)“二階段粗到精生成(C2F)+ 塊稀疏注意力(BSA)+ 模型蒸餾”三重優(yōu)化,視頻推理速度提升至10.1倍,實(shí)現(xiàn)效率與質(zhì)量的最優(yōu)平衡。
![]()
LongCat-Video視頻生成模型視頻推理速度提升至10.1倍
在內(nèi)部評(píng)測(cè)體系中,美團(tuán)構(gòu)建了一套覆蓋文本生成視頻與圖像生成視頻兩大核心任務(wù)的基準(zhǔn),評(píng)估維度包括文本對(duì)齊、視覺(jué)質(zhì)量、運(yùn)動(dòng)質(zhì)量與總體表現(xiàn),并在圖生視頻任務(wù)中額外增加了圖像一致性指標(biāo)。
為確保評(píng)測(cè)的科學(xué)性,團(tuán)隊(duì)采用人工與自動(dòng)雙軌評(píng)估機(jī)制,其中人工評(píng)價(jià)分為絕對(duì)打分與相對(duì)偏好兩種方式,所有樣本均由多名標(biāo)注員獨(dú)立評(píng)分,最終通過(guò)加權(quán)平均得出結(jié)果。
自動(dòng)評(píng)測(cè)部分則由內(nèi)部訓(xùn)練的多模態(tài)“判官模型”完成,與人工結(jié)果的相關(guān)性高達(dá)0.92,保證了客觀性。
據(jù)發(fā)布的評(píng)測(cè)結(jié)果顯示,LongCat-Video在文生視頻任務(wù)的四個(gè)核心指標(biāo)中,視覺(jué)質(zhì)量得分幾乎與谷歌的Veo3持平,整體質(zhì)量超越了PixVerse-V5和國(guó)內(nèi)領(lǐng)先的開(kāi)源模型Wan2.2。
![]()
在運(yùn)動(dòng)質(zhì)量方面,LongCat-Video生成的視頻動(dòng)作流暢、鏡頭移動(dòng)自然,展現(xiàn)出較強(qiáng)的物理合理性。在文本對(duì)齊度上,LongCat-Video表現(xiàn)略差于Veo3。
在圖生視頻任務(wù)中,LongCat-Video畫面細(xì)節(jié)豐富、風(fēng)格真實(shí),但在圖像一致性和動(dòng)作連貫性上仍有改進(jìn)空間。技術(shù)報(bào)告認(rèn)為,模型在處理高精度參考幀時(shí)對(duì)細(xì)節(jié)的保持較為謹(jǐn)慎,這在視覺(jué)質(zhì)量上帶來(lái)加分,卻略微影響了動(dòng)態(tài)平滑度。
![]()
![]()
LongCat-Video視頻生成模型在文生、圖生視頻基礎(chǔ)任務(wù)上達(dá)到開(kāi)源SOTA
在公開(kāi)評(píng)測(cè)平臺(tái)VBench 2.0上,LongCat-Video在“常識(shí)理解”一項(xiàng)中以70.94%的得分位居所有開(kāi)源模型第一,總分達(dá)到62.11%,僅次于谷歌Veo 3與生數(shù)Vidu Q1等商用閉源模型。
作為構(gòu)建"世界模型"的技術(shù)嘗試,LongCat-Video未來(lái)或可應(yīng)用于自動(dòng)駕駛模擬、具身智能等需要長(zhǎng)時(shí)序建模的場(chǎng)景。該模型的發(fā)布標(biāo)志著美團(tuán)在視頻生成與物理世界模擬領(lǐng)域邁出重要一步。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.