品玩12月18日訊,據(jù)龍貓LongCat公眾號報道,美團(tuán)LongCat團(tuán)隊正式發(fā)布并開源了其最新的虛擬人視頻生成模型LongCat-Video-Avatar。該模型在動作擬真度、長視頻穩(wěn)定性與身份一致性三個關(guān)鍵維度上實現(xiàn)顯著突破,在多項權(quán)威評測中達(dá)到開源領(lǐng)域的SOTA(最先進(jìn))領(lǐng)先水平。
LongCat-Video-Avatar模型基于團(tuán)隊此前開源的LongCat-Video基座打造,延續(xù)了一個模型支持多任務(wù)的核心設(shè)計,原生支持音畫同步視頻生成等核心功能。針對虛擬人技術(shù)中常見的動作僵硬、靜音段表現(xiàn)不自然以及生成長視頻時畫質(zhì)退化、身份漂移等痛點,該模型通過底層架構(gòu)的全面創(chuàng)新予以解決。
在具體技術(shù)上,團(tuán)隊通過創(chuàng)新的解耦無條件引導(dǎo)方法,讓虛擬人在說話的間歇也能自然眨眼、調(diào)整姿態(tài);同時,其首創(chuàng)的跨片段隱空間拼接技術(shù)則從根本上避免了傳統(tǒng)視頻續(xù)寫方式導(dǎo)致的質(zhì)量累積損耗,使得模型在生成長達(dá)5分鐘的視頻時仍能保持穩(wěn)定的色彩與清晰細(xì)節(jié)。
定量評測結(jié)果顯示,在HDTF、CelebV-HQ等公開數(shù)據(jù)集上,LongCat-Video-Avatar在唇音同步精度和視頻一致性指標(biāo)上均表現(xiàn)出色。基于大規(guī)模人工主觀評測也證實,該模型在自然度與真實感上優(yōu)于包括InfiniteTalk、HeyGen在內(nèi)的主流開源與商業(yè)模型。美團(tuán)表示,此次開源旨在為數(shù)字人相關(guān)應(yīng)用的開發(fā)者提供一個進(jìn)化的、可用的強(qiáng)大技術(shù)基座。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.