金磊 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
這一次,我真的分不清視頻到底是不是AI生成的了。
來,咱們先來看一下這段演技飆升的視頻片段:
![]()
視頻地址:https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
- Prompt:女子泣不成聲,說臺(tái)詞:“江辰……你一定要活著回來,好嗎?……答應(yīng)我”。女子邊說話邊將右手抬起撫摸男子的臉。背景音樂傷感。影視級(jí)。
這臺(tái)詞、這演技、這眼神、這口型,不說是AI生成的,一般人絕對(duì)會(huì)以為是哪個(gè)電影里的片段。
但重點(diǎn)還不是效果的逼真——
因?yàn)檫@10s的片段,人物對(duì)白配音、視頻背景音樂和音效,統(tǒng)統(tǒng)都是通過上面的Prompt一鍋出的。
這就是剛剛火山引擎在FORCE原動(dòng)力大會(huì)上推出的最新豆包視頻生成模型Seedance 1.5 Pro。
主打的就是音畫高精同步,一鏡入戲。
![]()
就這個(gè)功能一出,打造一個(gè)有趣好玩的小短片,那真是分分鐘的事情了。
例如我們以這位AI女主角為原型:
![]()
然后就可以用Seedance 1.5 Pro搞一個(gè)“川劇”——《至辣園》:
![]()
視頻地址:https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
從這兩個(gè)實(shí)測(cè)案例中,我們不難看出,這次豆包視頻生成模型Seedance 1.5 Pro整體亮點(diǎn)可以總結(jié)為:
- 音畫高精度同步:不論是背景音樂、音效還是人物對(duì)話,都能按照劇情發(fā)展保持高度一致。
- 支持多人多方言:原生支持如四川話、粵語、上海話、臺(tái)灣腔等多種方言,并且精準(zhǔn)捕捉方言獨(dú)特的韻律和情感張力 。
- 影視級(jí)效果:不論是視覺、敘事張力、鏡頭語言,都已經(jīng)達(dá)到了真假難辨的程度。
- 語義理解更強(qiáng):對(duì)于鏡頭敘事的理解更加準(zhǔn)確,有利于專業(yè)級(jí)內(nèi)容的創(chuàng)作;同時(shí),抽卡率也更低了。
目前,Seedance 1.5 Pro已經(jīng)上線即夢(mèng)AI和豆包APP和火山方舟體驗(yàn)中心,大家都可以去體驗(yàn)哦~
企業(yè)用戶自12月23日起,也可以在火山引擎使用該模型API。
那么接下來,我們就通過進(jìn)一步、多角度的實(shí)測(cè),來考驗(yàn)一下Seedance 1.5 Pro的水平。
不僅好看,還挺好用
AI視頻生成到底夠不夠真,其實(shí)最主要需要關(guān)注的就是音畫會(huì)不會(huì)出現(xiàn)bug、夠不夠一致性,運(yùn)鏡是否夠?qū)I(yè),以及涉及到方言等內(nèi)容時(shí),是否能夠精準(zhǔn)表達(dá)等。
因此,接下來的進(jìn)一步實(shí)測(cè),我們就主要圍繞這幾個(gè)維度來展開。
音畫夠同步:不會(huì)穿幫的那種
我們以即夢(mèng)為例,Seedance 1.5 Pro生成視頻的操作方式是首尾幀的方式
![]()
在這個(gè)測(cè)試中,我們先上傳這張圖片:
![]()
然后附上這么一句Prompt:
- 緩緩拉遠(yuǎn),鏡頭帶輕微震顫,指尖微蜷(隱帶殺勢(shì)),衣服隨風(fēng)飄動(dòng)。表情眼瞼半垂又驟抬。隨后,急速推近面部特寫,嘴角扯出極淡的冷笑,壓迫感滿滿,并且冰冷蔑視地說話:“憑你也敢挑釁我的權(quán)威!”
來看下生成的效果:
![]()
視頻地址:https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
不難看出,Seedance 1.5 Pro完全get到了Prompt要表達(dá)的核心要素,并且音畫同步得非常精準(zhǔn),是有點(diǎn)電影里東方不敗的氣場(chǎng)了。
同樣的方法,我們?cè)賮硪痪溥@樣的Prompt:
- 黑客帝國(guó)風(fēng)格的發(fā)布會(huì)。純黑背景,只有一束頂光。 穿著黑色高領(lǐng)衫的 科技狂人,手里把玩著一枚小小的 AI Pin, 他舉起AI pin,用冷靜且極具煽動(dòng)力的男聲:“For the last decade, our smartest devices have demanded our eyes. ……” 緩慢推鏡頭(Dolly In),直到AI Pin 占據(jù)整個(gè)畫面。
![]()
視頻地址:
https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
周潤(rùn)發(fā)百萬級(jí)運(yùn)鏡也能復(fù)刻
AI視頻生成的另一個(gè)要素便是運(yùn)鏡的效果了。
在這次實(shí)測(cè)中,我們就來實(shí)測(cè)一下Seedance 1.5 Pro是否可以復(fù)刻前不久周潤(rùn)發(fā)在MAMA頒獎(jiǎng)典禮中的名場(chǎng)面——百萬級(jí)運(yùn)鏡。
我們的首幀和尾幀分別是:
![]()
![]()
復(fù)刻周潤(rùn)發(fā)百萬運(yùn)鏡的Prompt是這樣的:
- 西裝男子從舞臺(tái)深處一直往前走,鏡頭從遠(yuǎn)推近到人物的面部,鏡頭環(huán)繞切到人物背面,再慢慢往遠(yuǎn)處推。
![]()
視頻地址:https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
嗯,是有那個(gè)feel了~
多個(gè)人、多語言,統(tǒng)統(tǒng)都能hold住
正如我們剛才提到的,Seedance 1.5 Pro現(xiàn)在可以支持多個(gè)人、多個(gè)方言“一鍋出”,現(xiàn)在你需要做的就是告訴她“誰,說了什么”。
例如下面的Prompt:
- 畫面中的3個(gè)角色對(duì)話的情節(jié):首先右邊熊貓用憨厚的四川話說:“我來自中國(guó)四川。” 然后左邊的小男孩用西班牙語說:“Yo soy de Espa?a”。接著右邊的熊貓用憨厚的四川話問:“為什么我們說著不一樣的語言,卻能對(duì)話呢?”最后中間的小女孩用可愛、開心的音色,微笑著說英語:“Because the AI world is full of magic!” 女孩說完后,停頓一下,3個(gè)角色相互看著彼此,開心的笑了起來。 全程緩慢的環(huán)繞運(yùn)鏡。奇幻的背景音樂。
![]()
視頻地址:https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
從上述多個(gè)深度實(shí)測(cè)來看,Seedance 1.5 Pro確實(shí)是做到了音畫精準(zhǔn)同步、影視級(jí)鏡頭和理解、支持多人對(duì)話和方言。
總體體驗(yàn)下來,方便、快,或許就是最直接的感受了,只要不是過于復(fù)雜的場(chǎng)景,基本都是“一條過”。
不過目前Seedance 1.5 Pro還不支持參考圖生成的方式,不然在操作上會(huì)更加靈活。
但除此之外,火山引擎總裁譚待今天在現(xiàn)場(chǎng)還劇透了一個(gè)即將推出的新功能——Draft樣片。
這個(gè)功能要解決的還是AI視頻生成中的一個(gè)老大難的問題:抽卡。
簡(jiǎn)單來說,就是在真正出成片之前,你可以先生成一個(gè)低分辨率的草稿版視頻,用來快速試效果、調(diào)方向;同時(shí)還能把畫面里的關(guān)鍵元素先鎖住,確保和最終成片在內(nèi)容上高度一致。
這樣每一次修改,反饋都更明確,也更可控,基本能做到“你看到的,就是最后會(huì)得到的”。
按照官方給出的數(shù)據(jù),Draft樣片能把整體創(chuàng)作效率提升約65%,同時(shí)減少60%無效創(chuàng)作成本。
技術(shù)底牌也公開了
在AI視頻生成領(lǐng)域,過去我們常說聲畫兩張皮,也就是視頻歸視頻,音頻歸音頻,后期強(qiáng)行縫合。
但Seedance 1.5 pro之所以能做到一鏡入戲,核心在于它把視覺和聽覺從底層邏輯上進(jìn)行了徹底的同構(gòu)。
從技術(shù)角度來看,主要包含四個(gè)方面的工作創(chuàng)新。
![]()
△Seedance 1.5 pro 訓(xùn)推框架圖
首先是原生音視頻聯(lián)合生成架構(gòu)。
不同于傳統(tǒng)的串聯(lián)式架構(gòu)(先視頻后音頻),Seedance 1.5 pro 采用了一套基于 MMDiT(Multi-Modal Diffusion Transformer) 的原生聯(lián)合生成框架。
它建立了一個(gè)雙分支的DiT架構(gòu),通過深度跨模態(tài)信息交互機(jī)制,讓視覺流和聽覺流在潛在空間(Latent Space)里實(shí)時(shí)通信。
這意味著,當(dāng)模型生成角色說話的口型時(shí),它同時(shí)就在計(jì)算對(duì)應(yīng)的音頻波形。這種“雙向奔赴”的架構(gòu),從底層消滅了音畫不同步的違和感。
其次是高質(zhì)量音視頻數(shù)據(jù)框架。
火山方舟團(tuán)隊(duì)設(shè)計(jì)了一個(gè)極其復(fù)雜的多階段數(shù)據(jù)Pipeline。他們不僅篩選了數(shù)以億計(jì)的高清視頻,還特別注重音視頻的一致性配比。
通過自動(dòng)化標(biāo)注系統(tǒng),為視頻注入了豐富的視覺描述和匹配的音頻語義信息。這套框架不僅能識(shí)別“一個(gè)男人在說話”,還能精確標(biāo)注出“四川話、憨厚音色、帶有環(huán)境回聲”等極具細(xì)節(jié)的特征,為模型打下了深厚的數(shù)據(jù)底子。
還有一套精細(xì)化的后訓(xùn)練優(yōu)化流程。
為了讓生成的視頻更有靈性,團(tuán)隊(duì)在預(yù)訓(xùn)練之外,引入了針對(duì)音視頻場(chǎng)景定制的RLHF(人類反饋強(qiáng)化學(xué)習(xí)) 算法。通過建立多維度的獎(jiǎng)勵(lì)模型(Reward Model),從視覺美感、運(yùn)動(dòng)連貫性、音頻保真度以及最重要的音畫匹配度進(jìn)行全方位調(diào)優(yōu)。
一言蔽之,就是反復(fù)磨練它在微表情、運(yùn)鏡張力以及聲音情感表達(dá)上的處理能力。
最后就是高效推理加速技術(shù)。
視頻生成一向是巨燒算力的任務(wù),但Seedance 1.5 pro在落地體驗(yàn)上玩了一把大的。
通過多階段蒸餾技術(shù)和高效推理加速框架,團(tuán)隊(duì)成功將推理速度提升了 10倍以上。
這意味著專業(yè)創(chuàng)作者在即夢(mèng)或豆包上點(diǎn)擊生成,不再需要漫長(zhǎng)的進(jìn)度條折磨,真正實(shí)現(xiàn)了所見即所得。
從實(shí)驗(yàn)和評(píng)測(cè)結(jié)果上來看,也是印證了上述四項(xiàng)技術(shù)創(chuàng)新的正確性。
![]()
在針對(duì)視頻與音頻能力的綜合評(píng)測(cè)中,Seedance 1.5 pro 在審美(Aesthetics)、運(yùn)動(dòng)質(zhì)量(Motion)以及音畫對(duì)齊(Alignment) 等核心指標(biāo)上均處于行業(yè)領(lǐng)先地位。
特別是在挑戰(zhàn)性極高的多語言對(duì)白和方言口型匹配任務(wù)中,其表現(xiàn)顯著優(yōu)于目前的開源及閉源主流模型。
![]()
AI視頻生成,到了真可以上崗時(shí)刻
除了Seedance 1.5 pro之外,國(guó)內(nèi)外大模型玩家近期也是密集交卷,視頻生成賽道早已進(jìn)入周更模式。
但觀察這些密集發(fā)布的新作,不難發(fā)現(xiàn)一個(gè)共同趨勢(shì):它們不再追求單純的像素級(jí)高清,而是在向“夠好用”和“夠逼真”這兩個(gè)實(shí)用維度急速進(jìn)化。
豆包視頻生成模型Seedance 1.5 pro正是這一趨勢(shì)的集大成者。
它不僅解決了演技問題(更細(xì)膩的表情和動(dòng)作),更通過原生的音畫同步,解決了臺(tái)詞和情緒的融合問題。
這種從單一模態(tài)向全模態(tài)創(chuàng)作的跨越,讓AI視頻真正具備了低成本制作短劇、廣告片甚至輔助影視創(chuàng)作的實(shí)戰(zhàn)能力。
![]()
視頻地址:https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
或許在不久的將來,我們不需要尋找昂貴的配音演員,不需要復(fù)雜的后期對(duì)口型,甚至連方言的韻律和環(huán)境音的質(zhì)感,AI都能一次性給到。
AI視頻直接上崗時(shí)刻,已至。
火山方舟體驗(yàn)中心地址:
https://exp.volcengine.com/ark/vision?launch=seedance
Seedance 1.5 Pro論文地址:
https://arxiv.org/pdf/2512.13507
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.