![]()
2月17日晚8點,馬年春晚準(zhǔn)時開場,火山引擎數(shù)據(jù)中心進入了最為緊張的時刻。
與往年不同,這一次服務(wù)器面臨的挑戰(zhàn)不僅僅是視頻流的分發(fā),根據(jù)春晚后公布的數(shù)據(jù),除夕當(dāng)天,豆包AI互動總數(shù)高達19億次,直播的某一秒,當(dāng)舞臺上的水墨畫隨風(fēng)而動時,或許正有一個觀眾在豆包上輸入了生成一張賽博風(fēng)格全家福的指令。
算力服務(wù)器集群必須在毫秒級內(nèi)完成數(shù)千萬億次浮點運算,確保用戶手機上的圖片在數(shù)秒內(nèi)生成。
所以,在2026年馬年春晚的舞臺上,“豆包們”都在做什么?又是怎么做到的?
在節(jié)目《馭風(fēng)歌》中,導(dǎo)演組要求背景中的水墨畫必須動態(tài)化,畫中的馬匹不僅要跑起來,且數(shù)量、形態(tài)不能有任何偏差。
這創(chuàng)意難就難在審美,市面上的海外視頻生成模型大多基于寫實風(fēng)格訓(xùn)練,無法理解中國水墨畫的留白與暈染邏輯。
直接生成的視頻往往像生硬的3D貼圖,破壞了原作的二維質(zhì)感。
豆包Seedance 2.0團隊在訓(xùn)練階段輸入了大量中國傳統(tǒng)文化語料,模型因此建立了對水墨筆觸的理解。
最終呈現(xiàn)在舞臺背景上的畫面,馬匹在奔跑時保留了墨色暈染的動態(tài)變化,畫面沒有出現(xiàn)常見的結(jié)構(gòu)崩壞。
![]()
在視頻生成之前,豆包圖像創(chuàng)作模型Seedream 5.0 Lite還承擔(dān)了關(guān)鍵幀的設(shè)計工作。
它根據(jù)導(dǎo)演的草圖布局,生成了兼具原畫神韻與新構(gòu)圖的靜態(tài)圖像,為后續(xù)的視頻生成提供了符合邏輯的藍本。
除了風(fēng)格遷移,視頻生成技術(shù)面臨的另一個通病是違反物理規(guī)律。在以往的AI視頻中,人物或動物在運動時常出現(xiàn)滑步、肢體扭曲或穿模現(xiàn)象,而在《馭風(fēng)歌》的奔跑畫面中,馬匹的四肢關(guān)節(jié)運動、受力反饋十分符合生物學(xué)結(jié)構(gòu)。
![]()
這種對物理規(guī)律的控制力延續(xù)到了《快樂小馬》這一節(jié)目中。
這一節(jié)目把真人的街舞動作安在四足卡通形象上,站在技術(shù)角度來看,核心難點在于兩者的拓撲結(jié)構(gòu)截然不同,一個是雙足直立,一個是四足著地。
傳統(tǒng)的動畫制作流程需要為每個舞蹈動作進行3D骨骼綁定和手動K幀,工作量以周計算。Seedance 2.0通過對骨架結(jié)構(gòu)的智能匹配,理解了動作背后的運動邏輯,直接讓四足卡通形象模仿了雙足真人的舞蹈動作,且保持了卡通形象的材質(zhì)和外觀細節(jié)不發(fā)生劣化。
![]()
這種對動作的理解力同樣體現(xiàn)在節(jié)目《賀花神》中。
在舞臺上,《賀花神》展現(xiàn)了植物緩慢綻放的微觀細節(jié),鏡頭伴隨復(fù)雜的光影變化,Seedance 2.0很好地執(zhí)行了這些復(fù)雜的視覺指令,畫面沒有出現(xiàn)噪點和抖動。
![]()
在節(jié)目《夢底》中,舞臺上出現(xiàn)了數(shù)個和主演一模一樣的數(shù)字分身。
這些分身擁有真實的立體結(jié)構(gòu),當(dāng)現(xiàn)場攝像機進行推拉搖移時,觀眾可以看到分身的側(cè)臉輪廓和光影變化符合透視規(guī)律。
![]()
為了實現(xiàn)多人同臺渲染的性能優(yōu)化,技術(shù)團隊利用字節(jié)Seed3D模型提前生成了影子的幾何外殼,大幅降低了實時計算量,同時,通過字節(jié)DA3模型提供的深度信息,系統(tǒng)實現(xiàn)了虛擬燈光與現(xiàn)場物理燈光的毫秒級同步,確保了數(shù)字分身的影子能隨現(xiàn)場燈光變化而變化。
![]()
如果說舞臺背景的視頻生成是事前制作,那么直播期間的AI互動則是對算力基礎(chǔ)設(shè)施的一場大考。
傳統(tǒng)的春晚互動,無論是搖一搖還是搶紅包,在技術(shù)上屬于IO密集型任務(wù),其本質(zhì)是數(shù)據(jù)庫的讀寫操作,系統(tǒng)發(fā)放的是預(yù)設(shè)好的庫存金額。
今年的AI互動形式發(fā)生了質(zhì)變。
數(shù)據(jù)顯示,僅在除夕當(dāng)天,豆包面向全國觀眾送出了10萬份科技好禮,“豆包過年”活動幫助用戶生成了超過5000萬張新春主題頭像和超過1億條新春祝福。
用戶在豆包App中上傳圖片、生成拜年圖或祝福語,屬于計算密集型任務(wù)。這是一條實時創(chuàng)作的鏈路,先感知用戶的開放式指令,再規(guī)劃執(zhí)行鏈路,最后調(diào)用多個模型實時生成內(nèi)容。
面對這種級別的吞吐,火山引擎方舟平臺采用了集群聯(lián)邦技術(shù),將物理隔離的數(shù)十個機房打通,在調(diào)度系統(tǒng)中,不同機房的資源水位被實時監(jiān)控。系統(tǒng)感知底層異構(gòu)硬件的拓撲結(jié)構(gòu),利用親和性裝箱算法,將任務(wù)分配給最合適的芯片,即便在流量波動劇烈時,聯(lián)邦調(diào)度器也能實現(xiàn)秒級跨機房資源平移。
即使模型生成了視頻,距離春晚大屏的播出標(biāo)準(zhǔn)仍有差距。目前Seedance 2.0的原生輸出規(guī)格為720P分辨率和24幀率,而春晚大屏的播出標(biāo)準(zhǔn)是8K分辨率和50幀率。
補齊這一規(guī)格差距的是火山引擎視頻云技術(shù),基于火山引擎 MIPP 多維度智能畫質(zhì)增強框架,技術(shù)團隊利用超分算法,在不改變畫面內(nèi)容的情況下提升分辨率,通過插幀服務(wù),將視頻幀率提升至50幀。
具身智能是馬年春晚的絕對主角,相比起蛇年春晚,馬年舞臺上出現(xiàn)的機器人展示了更自然的交互能力,以往的機器人語音交互常帶有明顯的機械感,語氣平淡,缺乏情感起伏,而此次登臺的機器人接入了豆包語音合成模型2.0。
![]()
該模型具備深度語義理解能力,能夠根據(jù)文本內(nèi)容自動調(diào)整語氣和停頓,機器人在講笑話和講故事時,聲音的情緒表達截然不同,交互體驗接近真實的人際溝通,結(jié)合豆包模型的視覺理解能力,馬年春晚上的機器人能夠?qū)崟r識別前方人員的衣著顏色并進行避障決策,實現(xiàn)了眼、腦、口的協(xié)同。
![]()
在這個除夕夜,舞臺上的機器人在表演,它們遵循著既定的程序,為觀眾提供娛樂,而在看不見的后臺,豆包大模型在工作,它處理著數(shù)億萬用戶實時的請求,支撐著創(chuàng)意的落地。
相比于臺前的表演,這種在幕后的實戰(zhàn),或許才是AI技術(shù)真正成熟的開始。
(作者 鄭晨燁)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.