文|陸莫斯
編輯|王二
如果還有“春晚最喜愛的節目評選”,2026年春晚你投哪個?
“春晚最夯”
“MVP”
“每一幀都是絕美”
這是2026春晚《賀花神》節目的網友評論。
當白居易舟行水上,吟出“猶在水中央”;

當繪畫大家徐渭潑墨成花;

當王昭君凝眉轉身回望中原,一撥琵琶;

我的中國文化DNA動了。
直到節目結束,主持人念出“火山引擎用豆包大模型圖像和視頻生成能力打造十二花神視效”,很多觀眾才意識到,AI的能力已經走到了這一步。
這也是有史以來AI含量和科技含量最大的一屆央視春晚。
這首先是一場給十幾億人的AI視覺奇觀。
不止有美輪美奐《賀花神》,在歌舞節目《夢底》中,當演員劉浩存在舞臺上伸展舞姿,五個逼真的數字分身,也在舞臺背景上演繹著一番悲歡離合。鏡頭移動、現場燈光變化時,分身的視角和光影也會實時同步。

吸引了很多人目光的,還有蔡明的機器人小品:機器人能在后空翻之余,還能懟人逗悶子——“如果真孫子和機器人孫子掉河里,奶奶先救誰?”“機器人:我倆一起掉河里,你就被電死了。”——在豆包剛在“科技春晚”懟過羅永浩之后,這只是在更多人面前的小露一手。

當主持人數次拿起手機,對屏幕前的觀眾喊話:讓大家打開豆包App,生成一句馬年的祝福、讓豆包根據自己的形象生成拜年頭像……
這些時刻都頗具意味。
站在2026年的起點,談論AGI的終極想象已經陷入流俗——大部分的人類想象,都沒有超出過《Her》或者《鋼鐵俠》里全知全能的AI助手。
相較之下,距離我們更近的現實,正在劇烈地發生變化。
在除夕當天,豆包AI互動總數達19億,“豆包過年”活動,就已經幫助用戶生成超過5000萬張新春主題頭像、生成超過1億條新春祝福。除夕當天,火山引擎豆包大模型的峰值TPM(每分鐘token數)正是在春晚主持人宣布用豆包進行第二輪互動之的這一分鐘內,豆包大模型推理吞吐量達到633億tokens。
AI界的“技術奇觀”仍在繼續。從去年的Google的Nano Banana,到近期的“小龍蝦”Clawdbot、字節視頻生成模型Seedance 2.0,都在共同趨向一條主線:每一次技術爆發后,傳遞到C端用戶中的速度在迅速加快。
擁有資金實力的大廠們用紅包、春晚、AI點奶茶等大戰,加速了這些“奇觀”的爆發。這讓2026年的春節大戰,已經足以被記錄為一個歷史性時刻。
這個時刻有兩個維度:一個是技術邊界的突破——AI第一次在國民舞臺上,完成了此前不可能的創作;另一個時刻在于使用門檻的迅速降低——觀眾們第一次發現,AI不再是遙遠的技術競賽,而是在自己身邊,能“幫得上忙”的助手。
AI視效怎么才能滿足頂級甲方?
這個“幫得上忙”的時刻,先發生在了春晚導演組的準備過程中。
2026年春晚前夕,看到水墨奔馬從靜態畫卷中躍然而出,從頭到尾保持一致,依然威風凜凜時,火山引擎工程師小林終于放下心來。
在導演組確認效果達標前,沒有人能預料到效果如此之好——包括春晚導演組和火山引擎自己。

△來源:歌曲《馭風歌》,背景動畫用Seedance 2.0生成
一個多月前,春晚導演組把一份節目需求遞給了火山引擎團隊,要求看似簡單:一張徐悲鴻風格的水墨畫,畫上幾匹風格各異的馬,能讓馬跑起來就行,哪怕原地踏步也可以。
大模型的邊界在哪里,能不能實現?至少,在接到春晚導演組的節目要求時,火山引擎工程師小林并沒有答案。“非常忐忑。”他對36氪回憶道。
當時,字節正忙于訓練新一代的旗艦生成模型Seedance 2.0,進度只有約30%左右。
AI視頻生成模型特別適合春晚這種節奏快、變化多、不斷需要迭代的項目。在火山引擎團隊接手之前,春晚導演組已經嘗試了市面上幾乎所有主流的視頻生成模型,但最后發現,在水墨畫這個場景上,都不如人意。
水墨風格的影像語料本來就極度稀缺,大多數國外模型根本不理解什么是水墨畫,又因為水墨畫以寫意為主,而非寫實。在沒有分鏡腳本、動態參考時,很難有人說清“水墨畫動起來應該是什么樣子”。
但嘗試之后,團隊發現,導演組想要實現的效果——風格遷移、參考生成、細粒度動態控制——恰好與他們正在訓練的Seedance 2.0的技術方向非常契合。
春晚導演組就這樣成了Seedance 2.0的全球第一位頂級用戶。
頂級甲方的好處在于,甲方們的藝術素養是一流的。
一開始,駿馬身上用寫意手法畫的紋路和毛發,奔跑時身上的紋路該怎么動?火山引擎的理科生團隊想象不出來,只能請導演組的老師手繪出腦海中下一幀的版本,再反復用AI跑視頻,去逼近那個“對”的感覺。

△來源:歌曲《馭風歌》
即便模型能生成馬的動態視頻,又會遇上更棘手的一致性問題:畫上有六匹馬,每匹顏色、長相、氣質都不同。哪怕能夠生成馬奔跑起來的視頻。同時,六匹馬的樣子很難保持平衡,甚至數量也會在下一幀發生變化。
在這些基礎上,還要確保畫面也足夠精致逼真。否則,在春晚舞臺背后的真HDR和8k超高清屏幕上,面對著十幾億觀眾,最細小的瑕疵和失誤都難以被容忍。
火山引擎的解決辦法是:遵循“先可用后滿意”的迭代邏輯,先生成關鍵幀,再基于關鍵幀生成動態視頻,而非直接用文字描述生成。
“我們沒有為春晚單獨微調模型,”字節相關團隊表示。團隊對模型在每個訓練階段的能力邊界有著清晰認知——知道它能做什么、不能做什么。隨著訓練進度推進,他們不斷在能力邊界內,把模型能力用到極限。
在春晚項目的推進過程中,來自導演組的反饋也反哺了模型訓練環節。“最高峰的時候,我們每周可以迭代數十到超過一百個視頻版本,這是傳統影視團隊不可能達到的頻率。”他表示。
但僅僅過了一個月,火山引擎團隊就拿出了驚人的結果:將一張靜態水墨畫,變成了一段分鐘級、包含分散、聚合、特寫、交互等復雜分鏡的動態影像。每一匹馬不僅跑了起來,都保持著自己的性格和特質,六匹馬會在畫面中分散、聚合、互動,最后回到一張完整的畫面里。
如今的Seedance 2.0模型最高僅能支持到720P 24 FPS的直出內容,與春晚的畫質要求有差距。為此,火山引擎團隊甚至還建立了一套畫質精修體系——這套體系會先分析畫面里的人、運動、細節紋理等等要素,用多種算法組合,把畫質規格提升到春晚可播出的標準。
另一個有意思的現象是,一開始,在導演組還不清楚模型能力時,需要模型團隊不斷先提出方案,推到創作者面前。
但當模型可用性提升到80%-90%以上,創作主導權發生了逆轉——導演組開始隨心所欲地提出創意要求,模型能夠穩定響應各種精細化的藝術控制指令,分鏡的設計權又回到了導演手中。
中國AI的“黑神話時刻”是怎么發生的?
不論是在《賀花神》中起舞、吟詩的十二個花神、《馭風歌》節目里奔騰的駿馬,還是豆包App的春節AI互動,都離不開一個關鍵詞:字節視頻生成模型Seedance 2.0。
Seedance 2.0在臨近春節前上線,引起的全球轟動仍在持續,甚至被游戲科學創始人馮驥稱為“中國AI圈的黑神話時刻”。
為什么它能夠有如此大的影響力?
這是因為,視頻生成模型第一次完成了從生成一段畫面,到完成一個完整作品的跨越。
以往的視頻生成模型,更多是生成批量零碎畫面的工具。創作者本質上是在“抽卡”——先要畫好分鏡表,根據每個分鏡的要求(近景、中景、遠景,畫面內容等)。生成的10個視頻中,可能只有1-2個能用,大量的時間還要耗費后期制作上,比如讓生成的視頻里人物、背景保持一致。
在不少用例中,我們都能夠看到,僅是簡單的一段話,描寫出故事情節、畫面風格,Seedance 2.0就直接能夠生成一段15-30秒、帶鏡頭調度、保持角色一致、音畫同步的視頻,可用率高達八成以上。
重點在于,Seedance生成的視頻,鏡頭間的切換是帶有“導演思想”的,這根本性地改變了創作體驗,真正做到了讓創作者指揮AI拍電影,模型完成相當大部分的“思考”工作。
要讓模型懂得真正理解世界,這需要模型全方位的能力都達到基準線。
字節相關團隊用了一個比喻:基礎大模型的訓練,木桶效應非常顯著——就像是,面對一個60分的考生,很難挖掘亮點;但當考生到了90分,所有閃光點才會被看見。Seedance 2.0 的突破,不是某個單一能力的躍升,而是過去影響可用性的短板被系統性地解決后,用戶體驗發生了質變。
相比上一代模型,Seedance2.0進步的一個重要原因是訓練標準。在2.0的訓練過程中,Seedance團隊建立了一套新的Benchmark(評測體系):第一層保證畫面中的實體正確、運動不崩壞;第二層才追求更高的視覺表現力和遵循能力。
換句話說,在模型的能力演進曲線完全沒有收斂時,多模態模型的進步,很大程度上還需要依賴基礎模型能力的提升。
在明白這個道理前,字節也交過一些學費。
36氪了解到,從2023年開始做AI時,字節并沒有更多追求在更大的參數上訓練模型,而是先訓練一個參數較小的基礎模型,推出C端應用,根據用戶反饋來快速迭代產品,當時,基礎模型的規模更多是“夠用就好”。
所以,盡管豆包依靠字節的抖音,語音、圖像等多模態功能做得非常好,但一開始總被用戶嫌棄“有點傻”,限制了豆包的能力泛化到更多專業場景。
2025年的DeepSeek時刻之后,國內大廠都結結實實在RL(強化學習)上卷了一整年。字節不僅加大了基礎模型的投入,并且讓模型團隊和AI應用一定程度解耦——模型團隊追求模型的智能上限,產品團隊則繼續圍繞豆包App為主的產品進行高速迭代,從用戶的使用場景中提取需求,反哺給模型團隊。
Seedance 2.0的上一個版本1.5 pro,就驗證了這種路線的可行性。當時,模型其實已經可以做到聲畫同步,比如生成一個室內的畫面,聲音會對應地變得更集中;戶外的畫面則匹配一個更悠遠、空曠的聲音。
所以,當基礎模型Seed 2.0的能力有大幅提升——Seedance 2.0也變得更聰明了。相較前代版本,2.0擁有了自己的“導演意圖”,生成的視頻分鏡是符合故事敘述邏輯的,這滿足了更多專業創作者的需求。
更大規模的爆發來自工程上的降本。保持角色一致、到達更高可用度,讓Seedance 2.0在應用側邁了一大步,如果抽卡頻率能降至25%(即2次),成本可降至1.4元/秒,降幅高達68%。
這讓大眾用戶更容易能創作出有品味的AI視頻。于是,抖音、B站、小紅書等平臺迅速出現了大量地整活類二創,進一步促進了全球范圍內的破圈。
怎么喊十幾億人來玩AI
2015年的春晚,當央視春晚主持人說出“拿起手機搖一搖”時,中國的移動互聯網歷史被改寫了。那一夜,微信用戶搖了110億次手機,2億人在搶紅包的過程中綁定了銀行卡。
馬云后來把這次突襲稱為“珍珠港事件”——他用了8年時間積累的支付寶用戶,被微信用一個晚上追平了。
不過,微信紅包的成功有一個前提:移動支付技術在2015年時已經成熟,用戶需要的只是一個“為什么要用”的理由。
但如今的AI,可能比大家想象的階段還要更早。
除夕夜,十幾億人在同時用AI生成紅包封面和祝福語時,看似簡單的操作背后,就是一場艱巨的基建保障戰爭。
AI的基建還遠未到成熟之時。一位火山引擎人士對36氪算了一筆賬:傳統的搶紅包基本只用CPU算力,一次請求的算力消耗在十萬分之一Tops以內。通過大模型生成祝福語和祝福圖片,單次請求需要累計消耗約10 Tops算力——對于單個請求而言,算力消耗差有百萬倍之多。
那么,字節為什么要在春晚場景中,用百萬倍的算力猛推多模態紅包、祝福語;阿里千問為什么要狂撒補貼,讓AI幫人類點奶茶?
1998年的《商業周刊》采訪中,蘋果創始人喬布斯曾說:“人們不知道他們想要什么,直到你把它擺在他們面前。”
在ChatGPT橫空出世之后的頭三年,無數AI應用創業者都在做類似的事情:去猜測用戶的需求,造了錘子找釘子。
但誰真正找到了答案?Agent時代來臨后,Anthropic憑借押注Coding路線,用Claude Code一舉反攻企業側市場,幾乎有反超OpenAI的勢頭;DeepSeek則極致的工程降本和展示思考鏈的產品設計,向全球展示了“AI會思考”的神奇時刻,給中國的大廠打了個樣。
不同在于,美國會花更大力氣,專注在大模型本身,比如繼續堆巨量算力以迭代模型;但在中國,絕大多數互聯網巨頭都是憑借消費者應用崛起,競爭更為激烈。
在國內,技術突破和搶占C端場景的用戶心智,只能是雙線并行。
除了技術處于發展早期之外,技術的迭代速度,也比當年的支付大戰時更快——大廠們現在面對的問題可以說更加艱巨,無論是市場教育成本還是基建。
但好處在于,如果C端應用保持快速增長的態勢,和底層的基礎設施會一起成長。
比如,高速快速成長的火山引擎已經成為字節的AI能力底座和出口,正在變得越來也健壯。截至2025年12月,豆包大模型日均token使用量就突破50萬億,較去年同期增長超過10倍,火山2025年的收入也已經快速增長,突破200億元。
C端應用場景和B端服務互補式地增長,已經成為一種常態。比如,在市場心智還沒還固定前,不少人也會因為字節在豆包App、即夢和其他AI應用的良好體驗,選擇采購火山的AI云服務;相應地,火山也被倒逼著,在一種極限狀態下快速迭代基礎設施。
無論是豆包讓十幾億人第一次體驗多模態能力,還是阿里千問AI請奶茶,本質上理念相同:在自家模型擁有SOTA能力時,迅速讓更多的C端用戶,在合適的時機,用上AI能力。
這是一場資金、技術、應用場景缺一不可的綜合戰役。
換言之,模型領先只是這場戰役的前提。未來,決定一家企業成敗的關鍵,是技術范式發生改變之時,誰能將斷代領先的模型能力,迅速轉化為用戶可以感知到的產品功能——讓不用AI的人第一次體驗多模態、辦事能力,這已經決定下一個時代生態位、建立護城河的關鍵問題。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.