一張男人奔跑的圖片,距離一個有運鏡、背景音,和實物碰撞的電影級逃亡片段有多遠?
![]()
(Seedance 2.0官方生成的電影級逃亡片段截圖)
2月12日,字節跳動正式上線新一代AI視頻生成模型Seedance 2.0,并接入旗下生成式AI創作平臺“即夢”以及豆包App。幾天前,Seedance 2.0開啟內測,其前序模型為誕生于去年6月的Seedance 1.0。于是,實現上述變換只需這樣一句表述:“鏡頭跟隨黑衣男子快速逃亡,后面一群人在追,鏡頭轉為側面跟拍,人物驚慌撞倒路邊的水果攤爬起來繼續逃,人群慌亂的聲音。”
內測開啟的幾天里,抖音等眾多國內外社交媒體和短視頻平臺被Seedance 2.0生成的視頻“攻占”,許多海外創作者在X平臺上發帖,尋求以+86開頭的手機號,用以體驗Seedance 2.0。在官方使用手冊上,Seedance 2.0自稱為“殺死比賽(kill the game)”的一代模型。
2月12日,埃隆·馬斯克在社交平臺上點評,“這發生得也太快了(It's happening fast)”。賈樟柯也在個人微博賬號發文稱:“Seedance 2.0確實厲害,我準備用它做個短片。”有美國導演稱,“這沒準會顛覆好萊塢”。多位受訪者向《中國新聞周刊》指出,AI視頻生成領域競爭激烈。美國谷歌的Veo 3.1模型此前領跑全球,OpenAI的Sora 2以及快手于2月5日上線的可靈3.0模型都各有千秋。然而,Seedance 2.0或許已顛覆這一格局,它在角色一致性、物理真實性等方面“一騎絕塵”。
一句話打造一個視頻的時代,或許真的到來了。
不再“抽卡”?
2月10日,周鵬的父親在抖音平臺上發布了一個由Seedance 2.0制作的視頻,內容是打斗場面,短短幾天內便獲得超過百萬播放量,以及4000多贊。
“沒有人指導,我爸自己靠一個視頻‘起號’了。這樣的例子還不少。”周鵬現在是全職AI視頻創作者,也是最早一批體驗Seedance 2.0的用戶。他告訴《中國新聞周刊》,Seedance 2.0在AI和自媒體創作圈內爆火,源于其模型能力的大幅躍升。
最顯著的便是物理一致性。Seedance 2.0單次輸出視頻時長不超過15秒,周鵬說,要讓視頻中的主要人物在所有切換視角的鏡頭里都保持形象一致,且維持15秒,非常不容易。以往的AI視頻,往往存在人物面容衣著變化、表情與情緒不符、身體重心錯誤、與環境互動不自然等痕跡。除人物外,復雜物品零部件例如車輛后視鏡等,也常在不同鏡頭中出現又消失,很難保持一致。
而Seedance 2.0在這方面的表現令人驚訝。“它能最大程度符合真實物理規律。”周鵬表示,打斗場景涉及許多物理規律,模型“翻車率”很高,但在近乎白話的提示詞和參考視頻的條件下,Seedance 2.0生成的招式動作細致,人物的走位合理,受擊反饋也很真實。也就是說,AI視頻真正開始“以假亂真”了。
要做到這一點,首先需要多模態輸入。Seedance 2.0 目前支持圖像、視頻、音頻、文本四種模態輸入,最多支持12條上傳素材。快思慢想研究院院長田豐告訴《中國新聞周刊》,在實測中,Seedance 2.0能精準復刻參考視頻的運鏡、動作節奏和特效,實現“指哪打哪”的精確控制。周鵬分析,創作者可以上傳一個音頻,讓模型生成的人物按音頻的聲線說話,這樣就不用像傳統創作一樣后期配音,大大減少了工作量。
Seedance 2.0模型架構本身也做出了創新。雖然其技術報告尚未公布,但從Seedance 1.0的技術報告來看,在傳統的擴散模型基礎上,該模型采用了“雙分支擴散變換器架構”。傳統模型生成視頻和音頻是分開的兩件事:先生成畫面,再貼聲音,因此有嘴型對不上、腳步踩不準、背景音樂割裂等弊端。田豐介紹,在“雙分支擴散變換器架構”下,視頻與音頻的聯合生成,同步生長,比如飛馳汽車的輪胎特寫應配有巨大的引擎轟鳴聲、輪胎摩擦地面的聲音,模型在理解這類畫面時就會自動生成音頻。人物口型匹配精度也可達毫秒級,而Veo在音畫同步方面仍存在明顯缺陷。
此外,Seedance 2.0還通過位置編碼技術優化多鏡頭切換,解決人物突變問題,使得AI視頻從單鏡頭擺拍,進化為擁有動畫級分鏡的作品。受訪者的共識是,Seedance 2.0的出現,稱得上是視頻生成領域的“DeepSeek時刻”。新加坡南洋理工大學計算機學院助理教授劉子緯對《中國新聞周刊》稱,無論是畫質還是動態一致性Seedance 2.0都顯著優于目前最強模型Veo,且首次突破了多鏡頭敘事生成,把AI視頻推到了短視頻或者說亞影視級的高度。
“抽卡”是一致性外的另一行業傳統痛點。由于AI生成的視頻畫面具備隨機性,用戶需要多次使用同一提示詞,才能得到相對滿意的結果,俗稱抽卡。同類模型單個鏡頭的抽卡次數可以達7次以上,從而帶來可觀的制作成本,以及冗長的制作周期。那么Seedance 2.0解決了抽卡問題嗎?
在實測中,多位受訪者發現,Seedance 2.0的單次生成可用率達90%以上,平均抽卡1—2次即可獲得滿意結果。周鵬指出,這是因為模型中加入了獨特的AI代理(Agent),將創作者近乎白話的提示詞進行再加工,用模型更能理解的語言作為輸入,這樣免去了創作者打磨提示詞的過程,模型也不用再反復去猜創作者的意圖。在創作中,Seedance 2.0也使用獨特的“@素材名”模式,來讓創作者指定素材的使用方法,從而讓模型準確理解每個素材的用途。
不過,仍有創作者告訴《中國新聞周刊》,Seedance 2.0不能完全杜絕抽卡。《中國新聞周刊》在即夢平臺使用單張圖片和提示詞生成了一段10秒鐘的視頻,單次嘗試下確實得到了人物穩定、劇情符合描述的作品。不過在讓人物“脫去外衣”這一AI非常難處理的精細指令下,Seedance 2.0的表現仍不完美。
目前在即夢平臺,Seedance 2.0對注冊用戶免費開放。由于用戶人數激增,雖然視頻生成時間小于60秒,但《中國新聞周刊》生成上述視頻的排隊時間長達9小時。
將徹底引爆AI短劇市場
周鵬將自己這類AI創作者形容為“懷春少女”,一面期待技術的更迭,一面又擔憂技術更迭得太快了。
事實也許更偏向后者。一名海外博主發布了Seedance 2.0的效果視頻,馬斯克在2月12日轉發了該帖,并評論稱“這發生得也太快了”。周鵬用Seedance 2.0制作這類視頻時,只需要“隨便找幾張圖,花十分鐘”,就能完成以前好幾個小時的工作。在他看來,創作者腦子里的任何創意幾乎都能被快速實現,一部短片電影的創作時長不會超過一個小時。
技術壁壘逐漸被抹平之外,制作成本也有了可觀的降低。田豐表示,綜合業界測評,傳統短劇單集制作成本約5萬元,5秒特效鏡頭成本約3000元。Seedance 2.0出現后,5秒特效鏡頭成本降至3元,5分鐘視頻成本壓縮至千元級,這已經達到網劇、漫劇的自動化生產級別,將徹底引爆AI短劇市場,并最終重塑影視和特效行業。
“這是真正的創作平權,每個人都是導演。”周鵬感慨。不過,他也指出,這不一定是好事。目前,用戶只需要保存短視頻平臺的爆款轉場視頻,利用Seedance 2.0將自己的人臉貼上去,就能輕松復制爆款轉場。這不僅顛覆了AI創作邏輯,也顛覆了自媒體規則。周鵬認為,這可能帶來網絡安全隱患。
Seedance 2.0內測兩天后,字節跳動緊急叫停了真人臉部素材的使用。官方使用手冊指明,系統會自動攔截此類素材,上傳后將無法生成視頻內容。這一舉措旨在保護內容安全與守護平臺規范。不過,多位創作者表示,創作者本人的照片或視頻在通過人臉識別后,仍可用于創作。
田豐指出,限制真實人臉上傳是出于防范深度偽造的必要舉措。如果Seedance 2.0可憑上傳的單張照片、念幾個字的聲音采樣,就能逼真復刻真人形象、聲線及動作習慣,那么偽造詐騙視頻的成本將變得極低。未來,建立AI創作的安全邊界尤為重要,不僅要強制標注AI內容、限制敏感內容輸入,還要加強內容審核機制。
大概半年前,周鵬還是名不見經傳的獨立AI創作者,如今已開始接手大型商單。“按每分鐘視頻來算,半年前我接商單的單價是一萬元,現在最高的能做到7萬元。”不過,他認為,這個價格保不住太久,因為工具的更新讓創作者逐漸丟失價值,AI創作者將很快面臨價值危機。
在AI創作時代,人類創作的價值究竟是什么?田豐指出,無限模仿不等于無限創造,人類創作的核心價值將從技術執行轉向創意與情感表達。清華大學智能產業研究院首席研究員聶再清對《中國新聞周刊》稱,視頻制作技術壁壘的降低總體上對創作者是利好,可以用更低成本制作出更有價值的視頻產品。相應地,制作細節的精細打磨以及背后哲理思考的表達,將變得更有價值。
“以后就是純憑創意、純講故事的時代。”周鵬說,就像大語言模型消解了人類知識壁壘一樣,AI視頻模型將消解創作壁壘。一切還只是開端。
記者:周游
(nolan.y.zhou@gmail.com)
編輯:杜瑋
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.