金磊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
昨天春晚張杰獻唱的《馭風歌》大家都聽了吧?氣勢是相當磅礴了。
但你知道嗎?其實這首歌的表演,背后還有一個AI彩蛋:

沒錯,就是背景視頻里那幅流動的巨型水墨畫卷中,那一群氣勢磅礴、奔騰而來的駿馬——
完全是用豆包Seedance 2.0生成的!
要知道,讓水墨風格的馬在舞臺背景的畫中靈動起來,這對模型的國風美學理解和泛化能力是巨大的挑戰(zhàn),很多國外模型在處理“中國水墨風”時集體翻車……
唯獨Seedance 2.0,不僅讀懂了國風,還抗住了春晚舞臺超級嚴格的審核考驗。
之所以如此,是因為Seedance 2.0著實是能打:
- 物理特性遵循:馬匹奔跑遵循生物力學與物理邏輯,關(guān)節(jié)運動流暢自然,兼具力量韻律與水墨神韻。
- 超強指令遵循:語義理解增強,可精準執(zhí)行動作、表情、運鏡及動態(tài)副詞指令,顯著提升視頻續(xù)寫的可控性。
- 多模態(tài)素材參考:支持圖、文、視頻等多素材參考,融入傳統(tǒng)文化語料,深度理解并還原水墨藝術(shù)邏輯。
除此之外,豆包還聯(lián)動了Seedream模型,先由它生成神韻十足的靜態(tài)底圖,再由Seedance 2.0讓它動起來。
但如果細細觀察各個節(jié)目,你會發(fā)現(xiàn):
今年的春晚,豆包含量巨高。
Seedance 2.0不僅用在了張杰的節(jié)目
在歌舞創(chuàng)意秀《賀花神》中,舞臺設(shè)計玩了一個大膽的創(chuàng)意:
特邀了來自舞蹈、戲曲、影視等不同領(lǐng)域的十幾位明星同臺。導演組希望為每一位“花神”代表的景別,定制一人一景的中式視覺奇觀。
這就要求AI具備細節(jié)的微觀控制能力,比如植物緩慢綻放,紋理、層次、光影的細微變化,而Seedance 2.0,再次做到了。

這也再次展現(xiàn)了Seedance 2.0精細控制能力,能夠精準遵循指令,把控復雜的視覺變化,在高審美要求下保持一致性。
是從“能生成”到“能控制”的一次進化了。
除此之外,在王安宇、黃子弘凡、范丞丞和胡先煦表演的《快樂小馬》中,幾個卡通吉祥物小馬在臺上跳著可愛的舞蹈,那動作絲滑得就像真人捕捉的一樣。

它背后用到的則是Seedance 2.0的視頻動作遷移能力。
這個技術(shù)的難點在于拓撲結(jié)構(gòu)的不同,畢竟真人的身體結(jié)構(gòu)和卡通小馬的結(jié)構(gòu)不一,傳統(tǒng)的做法,是動畫師要給卡通模型綁骨骼、K幀,工作量相當?shù)木薮蟆?/p>
但在Seedance 2.0加持下,實現(xiàn)了一鍵直出。你給它一段真人跳舞視頻,再給一張卡通小馬的圖,模型就能智能理解動作背后的運動邏輯,把它完美適配到卡通形象上。
最關(guān)鍵的是原圖保持能力,卡通小馬在劇烈跳舞時,毛發(fā)、顏色、五官比例竟然紋絲不動,沒有出現(xiàn)AI視頻常見的閃爍或崩壞。
不僅如此,為了滿足央視春晚8K高清、50FPS高幀的要求,豆包還搬來了火山引擎視頻云團隊
火山引擎拿出了一套MIPP多維度智能畫質(zhì)增強框架,上演了一場智能精修:
- 規(guī)格上:利用超分算法,把720P硬生生拔高到8K;利用插幀技術(shù),把24幀補到50幀,絲滑度瞬間翻倍。
- 畫質(zhì)上:利用視頻理解技術(shù),模型知道哪里是人臉、哪里是背景,針對性地進行畫質(zhì)指標決策。配合去噪、銳化等增強原子算法,把AIGC內(nèi)容常見的微小瑕疵抹平。
簡單說,大模型負責造夢,火山引擎負責把夢變得高清。
多個劉浩存,也是火山引擎做的
如果說視頻生成是二維層面的魔法,那么在創(chuàng)意節(jié)目《夢底》中,火山引擎帶來的則是空間維度的震撼。
在這個節(jié)目里,劉浩存在舞臺上翩翩起舞,而她的身后竟然出現(xiàn)了多個和她一模一樣的分身,而且每個分身都在不同的位置做著不同的舞蹈動作,構(gòu)成了如夢似幻的群舞畫面。

注意,這可不是大屏幕上放個錄像那么簡單。
當現(xiàn)場的攝像機推拉搖移時,你會發(fā)現(xiàn)那似乎6個分身的透視關(guān)系是完全正確的,就像6個真人在那里一樣。甚至當舞臺的一束追光打過去,虛擬人的身上竟然有了真實的光影變化,連地上的影子都和現(xiàn)場燈光實時互動!
這背后是火山引擎的空間視頻技術(shù)——4D高斯?jié)姙R(4DGS)。
首先是采集與重建。在節(jié)目籌備期,70臺工業(yè)級相機陣列對著演員一頓狂拍,通過4DGS算法,把演員重建成了4D數(shù)字資產(chǎn)。
這里引入豆包大模型解決了兩個核心瓶頸:
- 渲染性能:6個高精度數(shù)字人同臺,顯卡要爆炸怎么辦?技術(shù)團隊利用字節(jié)Seed 3D模型預制了“影子幾何”,簡化了計算量,讓渲染效率大幅提升。
- 近景細節(jié):為了防止近景穿幫,引入了字節(jié)Seed的DA3(Depth Anything v3)模型。這個模型能從單圖中推斷出極高精度的深度信息,為光影計算提供了完美的“法線先驗”,皮膚質(zhì)感逼真得嚇人。
其次,火山引擎打通了舞臺燈光的DMX控制協(xié)議。現(xiàn)場燈光師推了一個推桿,真實的燈亮了,這個信號同時也毫秒級地傳給了渲染引擎,虛擬燈光也跟著亮。
所以,你在電視上看到的,是虛擬的劉浩存“活”在真實的舞臺光場里。這種虛實難辨的沉浸感,才是元宇宙該有的樣子。
春晚的機器人身上,處處是豆包
昨天春晚舞臺上,宇樹機器人表演的《武BOT》也是備受關(guān)注,打起拳來虎虎生風,動作整齊劃一,甚至還能和演員進行復雜的互動。
以前的機器人表演,更多是寫好的程序控制。但今年《武BOT》里的機器人,是真的“長腦子”了。它們能看懂舞臺障礙,能聽懂人話,還能帶有感情地說話。

不僅如此,昨天春晚還有像蔡明節(jié)目用到的松延動力機器人,還包括魔法原子機器人等亮相春晚的機器人,都不同程度的用上了豆包大模型
這背后,是豆包大模型全家桶在給機器人賦能:
- 眼(VLM):靠豆包視覺理解模型,機器人能通過攝像頭實時識別舞臺環(huán)境,哪里有人、哪里有道具,避障決策那是相當絲滑。
- 腦(LLM):豆包大語言模型為機器人提供了核心的語義理解能力。它不再是執(zhí)行死板的代碼,而是理解了“請走到舞臺中央”、“開始起勢”這種自然語言指令。
- 嘴(TTS 2.0):這是最絕的。豆包語音合成模型 2.0,徹底告別了“AI棒讀”。
這個TTS 2.0具備深度語義理解和上下文理解能力。也就是說,它知道這句話是在春晚上說的,要喜慶、要激動。它能根據(jù)多輪對話的語境,精準控制語速、停頓和情感。
春晚首次實現(xiàn)AI互動
說完臺上,再看臺下。
今年春晚,大家拿起手機打開豆包APP,生成的那些新春頭像、定制祝福語,其實是春晚歷史上首次由大模型驅(qū)動的AI互動。
這和以前的“搖一搖”搶紅包有本質(zhì)區(qū)別。
以前的互動,是事務型(I/O密集型),就像自動售貨機,你點一下,系統(tǒng)給你發(fā)個紅包,邏輯是預設(shè)好的。
現(xiàn)在的互動,是計算密集型,是一個“感知-規(guī)劃-行動”的Agent過程。你發(fā)一張照片,豆包要理解意圖、規(guī)劃畫圖路徑、調(diào)用生成模型、進行安全審核……
算力消耗的差距,也是巨大的。
對于單個請求來說,生成一張圖的算力消耗(Tops)是發(fā)一個紅包的無數(shù)倍。當春晚口播響起,億萬流量瞬間涌入,這對后臺的挑戰(zhàn)簡直是毀滅級的。
火山引擎方舟平臺在這里立了大功。
為了頂住這波洪峰,方舟平臺拿出了一套教科書級的解決方案:
- 調(diào)度層:把機房連成“聯(lián)邦”。通過跨機房、跨區(qū)域的彈性伸縮,方舟把物理隔離的數(shù)十個機房組成集群聯(lián)邦。哪里有空閑算力,流量就往哪里去。
- 推理層:壓榨硬件極限。從算子層面的手寫優(yōu)化(Attention、GEMM等),到系統(tǒng)層面的Prefill/Decode分離,方舟把每一張顯卡的性能都榨干了。
- 秒級響應:配合自研的HPA(自動擴縮容)系統(tǒng)和分布式緩存,超大模型的權(quán)重加載時間從分鐘級被壓縮到了秒級。
可以說,你生成的每一張龍年頭像背后,都是一次高效的算力調(diào)度。
還有抖音直播春晚的AI無障礙字幕
在抖音的春晚直播間,還有一個容易被忽視、但極具溫度的技術(shù)落地——AI無障礙直播字幕
![]()
這事兒其實還是蠻難的。
春晚是全語言類節(jié)目,有相聲、有小品,語速快、梗多,而且還有方言,再加上現(xiàn)場觀眾的掌聲、歡呼聲、背景音樂,噪聲環(huán)境極其復雜。
豆包·語音識別模型在這里秀了一把肌肉:
- 多方言魯棒性:不管是粵語還是陜北話,通通拿捏。
- 上下文感知:它能結(jié)合歷史對話推理。比如說了上句“包餃子”,下句識別時就會傾向于與春節(jié)相關(guān)的詞匯,而不是風馬牛不相及的詞,召回率提升了15%以上。
- 低時延流式識別:真正做到了“話音剛落,字已上屏”。
科技的溫度,往往就藏在這些細節(jié)里。
豆包的朋友圈,有夠廣的
看完了這些,我們不得不感嘆:今年的春晚,豆包真的是無處不在。
而在互動環(huán)節(jié)中,豆包提供的那些科技大禮包,更是暴露了它龐大到驚人的朋友圈。你抽到的獎品,基本都來自使用了豆包大模型的火山引擎客戶。
隨便列幾個名字,都是行業(yè)巨頭:
- 車圈:奔馳、特斯拉、比亞迪、蔚小理……2025年新車的大模型搭載量,豆包是第一。服務了超9成的主流車企。
- 手機/PC圈:小米、OPPO、vivo、榮耀、三星、聯(lián)想……全球Top10手機廠商里有9家在跟火山引擎合作。
- 具身智能圈:宇樹、銀河通用、智元機器人……40多家公司都在用。
為什么大家都選豆包?
這次春晚其實就是最好的買家秀
從春晚前就爆火全球的Seedance 2.0,到那個能抗住春晚直播壓力的方舟平臺,再到對中國文化理解深刻的圖像與視頻生成能力。
字節(jié)跳動用一場春晚證明了:大模型不是只能活在Demo里,它是真的能扛事兒,真的能落地,真的能創(chuàng)造價值。
從張杰身后的那一匹馬,到億萬用戶手中的那個豆包。
好用,才是AI的硬道理。
— 完 —
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.