周一美團發布了他們第一個AI視頻模型,
LongCat-Video,
13.6B參數,單個模型就能完成文生視頻,圖生視頻,視頻續寫,以及生成超長視頻,輸出的視頻參數是720p,30fps 。但我自己電腦有點拖不動比較完整/長時間的測試,所以發動了面子果實,找到美團LongCat團隊幫我開了內部測試權限。
![]()
所以在這篇文章你能看到LongCat-Video完全真實的效果,它到底能不能生成5分鐘不崩的長視頻,以及美團為什么要做AI視頻?
先說結論,
美團LongCat-Video給我的感覺是,它玩的就是真實。
就比如這個視頻,你能看出從第幾秒開始是我用LongCat-Video續寫出來的嗎?
答案是2秒之后全部都是生成的內容,整個畫面延續了原片自行車行駛的速度、環境,動態非常流暢真實。
LongCat-Video很擅長這種第一視角的穿越視頻,甚至可以一次性生成5分鐘的穿越視頻,中間過程非常自然連貫,與真實世界非常相似。
技術團隊給LongCat-Video的定位是世界模型,跟普通的視頻模型追求生成風格多樣、場景多樣的視頻的目標不同,世界模型,要理解現實世界的動態、物理規律和因果關系。
英偉達在GTC上反復強調這個概念,他們給出的應用case,是給智能汽車模擬不同的交通流量模式、路況、天氣和光照,是給機器人開發空間智能,是給交通樞紐給人群提供視頻分析。
換而言之,世界模型的核心,不是電影制作機,它是模擬器,能投射出真實世界的狀態。
所以我們這次測評,會專注于它對物理世界和因果邏輯的理解,盡可能的去看LongCat-Video對于真實世界的呈現程度。首先我做了一個經典滑板動作,和以往不同,我這次強調讓它做出一個指定的Ollie動作,
對于這種非普遍的固定動作的完成,我沒有補充說明,LongCat-Video靠“Ollie”這個提示詞就跳起來然后穩穩落地,畫面中各個元素的變化,包括人物和滑板之間的力作用里都很真實,可惜的是滑板本體轉動的時候出現變形。
再看看LongCat-Video做出來的吃播視頻,
是真的有在吃進去,食物進到了嘴巴里的同時盤子中的分量在減少,并且人物是有相應的表現力吃播表情的,如果清晰度和畫面的打光可以少點銳化就好了。以后美團點外賣不會給每道菜都插入吃播吧。。。
再來就是人物講解說話的鏡頭,
重點看人物的嘴形、眨眼、手部動作,雖然目前是沒有聲音的,但一分鐘的畫面里面沒有出現過嘴形來回循環播放的片段,而且手部晃動這個香水的時候,瓶子里的液體也會對應細微晃動。
看完這幾個case,我最大的感受是,LongCat-Video的世界觀是樸素且正確的。
它可能畫不出Sora那種宏大瑰麗、充滿想象力的超現實史詩,但它能模擬出一個我們每天生活的、符合牛頓定律的世界。 而對于美團來說,后者遠比前者重要一百倍。
最后我搞了點大白話說一下這次LongCat-Video的技術亮點,
為什么可以原生輸出5分鐘的不穿幫的視頻,

它依托了一種叫視頻續寫任務的預訓練方式。在訓練的時候,LongCat-Video看的不是零碎的短片,而是大量的連續劇。它的大腦天生就在思考接下來會發生什么,而不是這個畫面應該長什么樣。
模型在看連續劇的時候,不是一幀一幀地看,而是一段一段、一個事件一個事件地看。它理解的是“動作的起承轉合”,這是一種叫Block-Causal Attention的機制,這樣生成的長時間的動作不會輕易斷裂。
在生成長視頻時,LongCat-Video還會把前面算過的不變的東西,比如背景里的那棟樓,先緩存起來,不用每一幀都重新算一遍,這樣就可以提升到5分鐘了
https://meituan-longcat.github.io/LongCat-Video/
這里面還有更多放出來的case,可以看到更多風格,現實交互和人物運動等等等等。
其實AI視頻發展到現在,視頻生成模型的分野已經出現了。
一類是為內容服務的,要的是視覺奇觀,是多樣化的畫面風格,是創造一個又一個故事。
而另一類,就是世界模型,它們的目標是模擬現實,是做推演,為產業提供數據模擬。
他們并不是完全獨立,切割開的,一個好的世界模型也會是好的視頻模型。
對美團來說是早晚會踏出的一步,
他們的核心業務,本質上就是一場規模龐大,每秒都在發生的物理實驗。
不需要AI去生成一個賽博朋克城市,
但需要AI告訴他們,
幾點鐘,哪個路口會開始堵車? 一個騎手在暴雨天氣下,穿過一個有積水的十字路口,需要額外多花多少秒? 一個無人機配送包裹,在十五公里的時速下,側面吹來的三級風,會如何影響它的電量消耗和穩定性?
這些,全部都是世界模型可以解決的問題。
我期待它能接入更多來自美團自有業務的真實世界數據,
模擬一場從國貿到望京的晚高峰擁堵,模擬一個外賣訂單在雷暴天氣下的最優配送路徑,模擬一棟寫字樓在午餐高峰期的電梯運行和人流動態?
當一個AI視頻模型開始真正理解并模擬我們腳下的這片土地時,
它就不再是少數人的工具。
這是美團做AI視頻,
讓我感到興奮的點。
@ 作者 / 卡爾 & 阿湯
最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉發|評論
如果想要第一時間收到推送,不妨給我個星標
更多的內容正在不斷填坑中……
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.