網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

不兒，這誰還能看出是AI演的視頻啊

2025-12-18 17:48:02　來源: 量子位

上海舉報(bào)

分享至

金磊發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

這一次，我真的分不清視頻到底是不是AI生成的了。

來，咱們先來看一下這段演技飆升的視頻片段：

視頻地址：https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg

Prompt：女子泣不成聲，說臺(tái)詞：“江辰……你一定要活著回來，好嗎？……答應(yīng)我”。女子邊說話邊將右手抬起撫摸男子的臉。背景音樂傷感。影視級(jí)。

這臺(tái)詞、這演技、這眼神、這口型，不說是AI生成的，一般人絕對(duì)會(huì)以為是哪個(gè)電影里的片段。

但重點(diǎn)還不是效果的逼真——

因?yàn)檫@10s的片段，人物對(duì)白配音、視頻背景音樂和音效，統(tǒng)統(tǒng)都是通過上面的Prompt一鍋出的。

這就是剛剛火山引擎在FORCE原動(dòng)力大會(huì)上推出的最新豆包視頻生成模型Seedance 1.5 Pro。

主打的就是音畫高精同步，一鏡入戲。

就這個(gè)功能一出，打造一個(gè)有趣好玩的小短片，那真是分分鐘的事情了。

例如我們以這位AI女主角為原型：

然后就可以用Seedance 1.5 Pro搞一個(gè)“川劇”——《至辣園》：

視頻地址：https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg

從這兩個(gè)實(shí)測(cè)案例中，我們不難看出，這次豆包視頻生成模型Seedance 1.5 Pro整體亮點(diǎn)可以總結(jié)為：

音畫高精度同步：不論是背景音樂、音效還是人物對(duì)話，都能按照劇情發(fā)展保持高度一致。
支持多人多方言：原生支持如四川話、粵語、上海話、臺(tái)灣腔等多種方言，并且精準(zhǔn)捕捉方言獨(dú)特的韻律和情感張力。
影視級(jí)效果：不論是視覺、敘事張力、鏡頭語言，都已經(jīng)達(dá)到了真假難辨的程度。
語義理解更強(qiáng)：對(duì)于鏡頭敘事的理解更加準(zhǔn)確，有利于專業(yè)級(jí)內(nèi)容的創(chuàng)作；同時(shí)，抽卡率也更低了。

目前，Seedance 1.5 Pro已經(jīng)上線即夢(mèng)AI和豆包APP和火山方舟體驗(yàn)中心，大家都可以去體驗(yàn)哦~

企業(yè)用戶自12月23日起，也可以在火山引擎使用該模型API。

那么接下來，我們就通過進(jìn)一步、多角度的實(shí)測(cè)，來考驗(yàn)一下Seedance 1.5 Pro的水平。

不僅好看，還挺好用

AI視頻生成到底夠不夠真，其實(shí)最主要需要關(guān)注的就是音畫會(huì)不會(huì)出現(xiàn)bug、夠不夠一致性，運(yùn)鏡是否夠?qū)I(yè)，以及涉及到方言等內(nèi)容時(shí)，是否能夠精準(zhǔn)表達(dá)等。

因此，接下來的進(jìn)一步實(shí)測(cè)，我們就主要圍繞這幾個(gè)維度來展開。

音畫夠同步：不會(huì)穿幫的那種

我們以即夢(mèng)為例，Seedance 1.5 Pro生成視頻的操作方式是首尾幀的方式

在這個(gè)測(cè)試中，我們先上傳這張圖片：

然后附上這么一句Prompt：

緩緩拉遠(yuǎn)，鏡頭帶輕微震顫，指尖微蜷（隱帶殺勢(shì)），衣服隨風(fēng)飄動(dòng)。表情眼瞼半垂又驟抬。隨后，急速推近面部特寫，嘴角扯出極淡的冷笑，壓迫感滿滿，并且冰冷蔑視地說話：“憑你也敢挑釁我的權(quán)威！”

來看下生成的效果：

視頻地址：https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg

不難看出，Seedance 1.5 Pro完全get到了Prompt要表達(dá)的核心要素，并且音畫同步得非常精準(zhǔn)，是有點(diǎn)電影里東方不敗的氣場(chǎng)了。

同樣的方法，我們?cè)賮硪痪溥@樣的Prompt：

黑客帝國(guó)風(fēng)格的發(fā)布會(huì)。純黑背景，只有一束頂光。穿著黑色高領(lǐng)衫的科技狂人，手里把玩著一枚小小的 AI Pin，他舉起AI pin，用冷靜且極具煽動(dòng)力的男聲：“For the last decade, our smartest devices have demanded our eyes. ……” 緩慢推鏡頭（Dolly In），直到AI Pin 占據(jù)整個(gè)畫面。

視頻地址：
https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg

周潤(rùn)發(fā)百萬級(jí)運(yùn)鏡也能復(fù)刻

AI視頻生成的另一個(gè)要素便是運(yùn)鏡的效果了。

在這次實(shí)測(cè)中，我們就來實(shí)測(cè)一下Seedance 1.5 Pro是否可以復(fù)刻前不久周潤(rùn)發(fā)在MAMA頒獎(jiǎng)典禮中的名場(chǎng)面——百萬級(jí)運(yùn)鏡。

我們的首幀和尾幀分別是：

復(fù)刻周潤(rùn)發(fā)百萬運(yùn)鏡的Prompt是這樣的：

西裝男子從舞臺(tái)深處一直往前走，鏡頭從遠(yuǎn)推近到人物的面部，鏡頭環(huán)繞切到人物背面，再慢慢往遠(yuǎn)處推。

視頻地址：https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg

嗯，是有那個(gè)feel了~

多個(gè)人、多語言，統(tǒng)統(tǒng)都能hold住

正如我們剛才提到的，Seedance 1.5 Pro現(xiàn)在可以支持多個(gè)人、多個(gè)方言“一鍋出”，現(xiàn)在你需要做的就是告訴她“誰，說了什么”。

例如下面的Prompt：

畫面中的3個(gè)角色對(duì)話的情節(jié)：首先右邊熊貓用憨厚的四川話說：“我來自中國(guó)四川。” 然后左邊的小男孩用西班牙語說：“Yo soy de Espa?a”。接著右邊的熊貓用憨厚的四川話問：“為什么我們說著不一樣的語言，卻能對(duì)話呢？”最后中間的小女孩用可愛、開心的音色，微笑著說英語：“Because the AI world is full of magic!” 女孩說完后，停頓一下，3個(gè)角色相互看著彼此，開心的笑了起來。全程緩慢的環(huán)繞運(yùn)鏡。奇幻的背景音樂。

視頻地址：https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg

從上述多個(gè)深度實(shí)測(cè)來看，Seedance 1.5 Pro確實(shí)是做到了音畫精準(zhǔn)同步、影視級(jí)鏡頭和理解、支持多人對(duì)話和方言。

總體體驗(yàn)下來，方便、快，或許就是最直接的感受了，只要不是過于復(fù)雜的場(chǎng)景，基本都是“一條過”。

不過目前Seedance 1.5 Pro還不支持參考圖生成的方式，不然在操作上會(huì)更加靈活。

但除此之外，火山引擎總裁譚待今天在現(xiàn)場(chǎng)還劇透了一個(gè)即將推出的新功能——Draft樣片。

這個(gè)功能要解決的還是AI視頻生成中的一個(gè)老大難的問題：抽卡。

簡(jiǎn)單來說，就是在真正出成片之前，你可以先生成一個(gè)低分辨率的草稿版視頻，用來快速試效果、調(diào)方向；同時(shí)還能把畫面里的關(guān)鍵元素先鎖住，確保和最終成片在內(nèi)容上高度一致。

這樣每一次修改，反饋都更明確，也更可控，基本能做到“你看到的，就是最后會(huì)得到的”。

按照官方給出的數(shù)據(jù)，Draft樣片能把整體創(chuàng)作效率提升約65%，同時(shí)減少60%無效創(chuàng)作成本。

技術(shù)底牌也公開了

在AI視頻生成領(lǐng)域，過去我們常說聲畫兩張皮，也就是視頻歸視頻，音頻歸音頻，后期強(qiáng)行縫合。

但Seedance 1.5 pro之所以能做到一鏡入戲，核心在于它把視覺和聽覺從底層邏輯上進(jìn)行了徹底的同構(gòu)。

從技術(shù)角度來看，主要包含四個(gè)方面的工作創(chuàng)新。

△Seedance 1.5 pro 訓(xùn)推框架圖

首先是原生音視頻聯(lián)合生成架構(gòu)。

不同于傳統(tǒng)的串聯(lián)式架構(gòu)（先視頻后音頻），Seedance 1.5 pro 采用了一套基于 MMDiT（Multi-Modal Diffusion Transformer）的原生聯(lián)合生成框架。

它建立了一個(gè)雙分支的DiT架構(gòu)，通過深度跨模態(tài)信息交互機(jī)制，讓視覺流和聽覺流在潛在空間（Latent Space）里實(shí)時(shí)通信。

這意味著，當(dāng)模型生成角色說話的口型時(shí)，它同時(shí)就在計(jì)算對(duì)應(yīng)的音頻波形。這種“雙向奔赴”的架構(gòu)，從底層消滅了音畫不同步的違和感。

其次是高質(zhì)量音視頻數(shù)據(jù)框架。

火山方舟團(tuán)隊(duì)設(shè)計(jì)了一個(gè)極其復(fù)雜的多階段數(shù)據(jù)Pipeline。他們不僅篩選了數(shù)以億計(jì)的高清視頻，還特別注重音視頻的一致性配比。

通過自動(dòng)化標(biāo)注系統(tǒng)，為視頻注入了豐富的視覺描述和匹配的音頻語義信息。這套框架不僅能識(shí)別“一個(gè)男人在說話”，還能精確標(biāo)注出“四川話、憨厚音色、帶有環(huán)境回聲”等極具細(xì)節(jié)的特征，為模型打下了深厚的數(shù)據(jù)底子。

還有一套精細(xì)化的后訓(xùn)練優(yōu)化流程。

為了讓生成的視頻更有靈性，團(tuán)隊(duì)在預(yù)訓(xùn)練之外，引入了針對(duì)音視頻場(chǎng)景定制的RLHF（人類反饋強(qiáng)化學(xué)習(xí)）算法。通過建立多維度的獎(jiǎng)勵(lì)模型（Reward Model），從視覺美感、運(yùn)動(dòng)連貫性、音頻保真度以及最重要的音畫匹配度進(jìn)行全方位調(diào)優(yōu)。

一言蔽之，就是反復(fù)磨練它在微表情、運(yùn)鏡張力以及聲音情感表達(dá)上的處理能力。

最后就是高效推理加速技術(shù)。

視頻生成一向是巨燒算力的任務(wù)，但Seedance 1.5 pro在落地體驗(yàn)上玩了一把大的。

通過多階段蒸餾技術(shù)和高效推理加速框架，團(tuán)隊(duì)成功將推理速度提升了 10倍以上。

這意味著專業(yè)創(chuàng)作者在即夢(mèng)或豆包上點(diǎn)擊生成，不再需要漫長(zhǎng)的進(jìn)度條折磨，真正實(shí)現(xiàn)了所見即所得。

從實(shí)驗(yàn)和評(píng)測(cè)結(jié)果上來看，也是印證了上述四項(xiàng)技術(shù)創(chuàng)新的正確性。

在針對(duì)視頻與音頻能力的綜合評(píng)測(cè)中，Seedance 1.5 pro 在審美（Aesthetics）、運(yùn)動(dòng)質(zhì)量（Motion）以及音畫對(duì)齊（Alignment）等核心指標(biāo)上均處于行業(yè)領(lǐng)先地位。

特別是在挑戰(zhàn)性極高的多語言對(duì)白和方言口型匹配任務(wù)中，其表現(xiàn)顯著優(yōu)于目前的開源及閉源主流模型。

AI視頻生成，到了真可以上崗時(shí)刻

除了Seedance 1.5 pro之外，國(guó)內(nèi)外大模型玩家近期也是密集交卷，視頻生成賽道早已進(jìn)入周更模式。

但觀察這些密集發(fā)布的新作，不難發(fā)現(xiàn)一個(gè)共同趨勢(shì)：它們不再追求單純的像素級(jí)高清，而是在向“夠好用”和“夠逼真”這兩個(gè)實(shí)用維度急速進(jìn)化。

豆包視頻生成模型Seedance 1.5 pro正是這一趨勢(shì)的集大成者。

它不僅解決了演技問題（更細(xì)膩的表情和動(dòng)作），更通過原生的音畫同步，解決了臺(tái)詞和情緒的融合問題。

這種從單一模態(tài)向全模態(tài)創(chuàng)作的跨越，讓AI視頻真正具備了低成本制作短劇、廣告片甚至輔助影視創(chuàng)作的實(shí)戰(zhàn)能力。

視頻地址：https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg

或許在不久的將來，我們不需要尋找昂貴的配音演員，不需要復(fù)雜的后期對(duì)口型，甚至連方言的韻律和環(huán)境音的質(zhì)感，AI都能一次性給到。

AI視頻直接上崗時(shí)刻，已至。

火山方舟體驗(yàn)中心地址：
https://exp.volcengine.com/ark/vision?launch=seedance

Seedance 1.5 Pro論文地址：
https://arxiv.org/pdf/2512.13507

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.