![]()
文:王智遠 | ID:Z201440
我拿到了字節內測的 Seedance 2.0 的體驗資格。
作為一個在科技、商業圈摸爬滾打多年的人,我自認對 AI 的祛魅程度已經很高了;從 ChatGPT 到 Sora,從 Kimi 到 Claude,什么樣的「大風大浪」沒見過?
但這一次,連續玩了兩天,消耗完所有額度后,我看著屏幕上那個熟悉又陌生的畫面,腦子里只蹦出一個念頭:那個我們喊了兩年的「視頻行業 GPT-3.5 時刻」,好像真的要來了。
01
拿到資格后的第一件事,我沒有去生成什么宏大的好萊塢大片,就想接地氣地看看它的底子硬不硬?它到底能不能理解「人」,能不能理解「我」。
做了四個實驗,結果一個比一個讓我心驚。
首先,翻出了一張之前主持活動時的自拍照,穿著西裝,我給它的指令很簡單:用這張圖生成一段 Vlog 風格的視頻,內容是祝大家馬年快樂。
一分多鐘,視頻生成了。這在以前需要抽卡好幾次,但這次,它不僅把我要求的背景、桌面全換了,而且遵循指令的能力強得離譜。
它在「執行」我的意志,這種順滑感,就像你身邊坐了一個合作了十年的老美工,你剛開口,他就知道你要什么調性;雖然眼神有點呆滯,把我處理的有點胖。
然后,我又想搞點搞怪的;前兩天抖音上刷到一個「雪王大戰奧特曼」的視頻,我就跟它說:給我做一個雪王大戰奧特曼
AI 立馬彈窗:版權限制,做不了。
害,但我沒死心,我說:那你幫我去掉版權元素,神奇的一幕發生了。它給我生成了一個 4:3 畫幅的視頻,里面的「雪王」和「奧特曼」似是而非,非常抽象,但那個「大戰」的荒誕感、那個動作的流暢度,毫無違和感。
它聽懂了我要那個「梗」,那個Vibe(氛圍)。
第三個實驗,我上傳了一張我的健身照。這次我沒給具體指令,我只敲了一行字:你搜一下這個人,這個人是博主王智遠,然后以他的口吻說一段話。
這就有點「超綱」了,因為不僅考驗視頻生成,還考驗它的多模態搜索、知識庫調用、聲音克隆、以及對「王智遠」個人 IP 風格的理解。
結果它真的做出來了。視頻里的「我」,穿著健身衣,用一種我平時寫文章那種調調在說話,然后,我把視頻發到社群里,大家的第一反應是:你別說,還真像。
最讓我后背發涼的是最后一個實驗。
我用了一張好朋友頭像,他去九華山燒香拜佛的一張自拍,我說:幫我生成一個視頻,這是分眾傳媒的老宋,他剛去燒完香,我需要讓他拍一個 vlog,內容大概就是祝大家馬年快樂。
片刻之后,屏幕上的老宋「活」了。
背景是九華山的香火繚繞,他雙手合十,嘴唇微動,發出的聲音、說話的語氣,就是老宋本人;那個「口條」、流暢度,簡直 6 到飛起。
如果不告訴你這是 AI 生成的,把水印去掉,我相信 99% 的熟人都看不出來。這四個實驗做完,我不得不承認:AI 技術的進步,已經把「真實」的防線徹底擊穿了。
當一個工具,不再需要你喂幾十張圖訓練 Lora,不再需要復雜的參數調試,僅僅憑一張照片,就能復刻長相、聲音、甚至微表情時,它就已經不是工具了。
它是現實世界的鏡像,甚至比現實更懂「戲」。
02
研究了市面上幾乎所有的頭部模型后,我發現:現在的 AI 視頻圈,早就劃開了兩條截然不同的河流。如果不理解這兩條河流的區別,就看不懂接下來的商業戰爭。
先上結論,簡單來說:OpenAI (Sora) 想當一個「物理學家」,字節 (Seedance) 想當一個「商業導演」。
啥意思呢?
大家都在刷屏說 Seedance 2.0 效果好,好在哪?你看 Tim (影視颶風) 的評測,包括我自己的體驗,你會發現:Sora 的敘事邏輯一直是「世界模擬器」(World Simulator)。
它想窮盡牛頓定律,它希望杯子掉在地上碎裂的方式符合重力加速度,它希望光影的折射符合物理規則,它希望水流的波紋符合流體力學。
它是理科生思維,它認為,只要我能 1:1 地模擬物理世界,我就能生成一切視頻。
字節不一樣。字節做的是「導演模擬器」。
我的實測里,Seedance 2.0 最強的地方在于,它懂「鏡頭語言」。它關心「這個鏡頭接那個鏡頭,情緒對不對」、「這里是不是該給個特寫」、「那里是不是該配個 BGM」。
Tim 在評測里提到一個極具代表性的細節,讓我印象深刻:他只上傳了一張人臉照片(只有正面),但 AI 自動生成了運鏡,鏡頭轉到了樓的背面,甚至展示了他背后的景象。
請問,AI 怎么知道樓的背面是什么?
從物理上講,它不知道,因為原圖里沒有信息。 但在「電影語言」里,它知道這里需要一個環繞運鏡來表達情緒,于是,它調用了潛空間里看過的那幾億條視頻數據,腦補出了一個「最符合視覺邏輯」的背面。
這恰恰是 Seedance 2.0 的可怕之處:Sora 在解構原子,Seedance 在解構「蒙太奇」。
對于我們這些做內容的人來說,后者的殺傷力要大得多。因為觀眾刷抖音、看視頻,看的不是物理定律是否嚴謹,是敘事、是節奏、是情緒。
Seedance 2.0 把運鏡、分鏡、音畫匹配,全部 AI 化了,它還自帶配樂,自帶音效,甚至自帶「剪輯節奏」,這才是它最恐怖的地方,它是成片生成器。
所以,它試圖還原的是「最好看」的那個世界。這是技術的分歧;中美兩家巨頭對 AI 終局認知的巨大分岔。而這種分岔,正在重塑整個內容產業的格局。
03
為什么說會重塑?因為在這場 AI 視頻的混戰中,沒有所謂的「最強模型」,只有最匹配基因的「生態位」。
把視野拉開,看看中國這幾家互聯網巨頭,字節、快手、阿里、騰訊、百度,大家都在發模型,卷參數,但骨子里的「靈魂」截然不同的。這完全是一場「屁股決定腦袋」的戰爭。
先說快手。在 Seedance 2.0 刷屏之前,其實是快手的可靈 (Kling) 在默默扛大旗。
很多人可能不知道,快手是這里面最「悶聲發財」的一個,我去查了一下數據,可靈的商業化跑得非常快。
自 2024 年中啟動商業化后增長迅猛,2025 年全年收入預計達 1.4 億美元(約 10 億元人民幣),僅 7 個月累計收入便突破 1 億元,2025 年 12 月單月收入更是突破 2000 萬美元。
為什么這么快?因為快手的老鐵文化講究「真實」,它的基因決定了它是「現實復刻者」。
靈走的路線是極度的「寫實流」。你會發現現在的網文推文圈短劇圈,幾乎人手一個可靈會員。
對于這些從底層殺出來的創作者來說,他們需要「吃面條不糊臉」、「摔倒動作連貫」、「物理規律不崩」。快手不跟你講什么宏大敘事,它就告訴你:用我,能干活,能變現。它是實打實的生產力工具
再看阿里,它在乎能不能生成「超級導購」。
你看阿里推的技術,比如EMO (讓照片開口說話)Animate Anyone (讓模特動起來),核心都在解決一個問題:怎么讓「人」在視頻里賣貨
這背后的商業算盤是:
給你一張模特圖,一鍵生成換裝走秀視頻,省了請模特的錢;給你一張客服照片,一鍵生成對口型的講解視頻,省了請主播的錢。
阿里把 AI 視頻變成了「SaaS 服務」,基因是電商、交易。
騰訊最近搞了個大動作,混元視頻 (Hunyuan) 開源。這一招其實非常「騰訊」。它的基因是社交(微信)和內容生態(公眾號、視頻號),它需要的是做 AI 視頻時代的「水和電」
它走的是「安卓路線」,把底座交出去,讓全行業的開發者都在它的模型上長出應用;它支持 120 秒長視頻,強調中文原生的理解,就是為了讓未來的表情包、朋友圈視頻、公眾號配圖,都跑在它的基建上。
不過,目前還沒有完全把基礎設施用透到C端上,這效率明顯跟字節沒法比。
至于百度,現在的打法非常聚焦B 端。它的MuseSteamer (蒸汽機)模型,去搜一下就會發現,它很少在 C 端大張旗鼓地宣傳,是悶頭在給企業做服務。
它的邏輯是「工業化」,怎么幫企業批量生產營銷視頻,怎么做數字人分身。這一套標準的「工程師思維」,也是百度一貫的 To B 基因的延續。
所以,看懂了嗎?
字節想讓你玩(娛樂工具),快手想幫你拍(現實復刻),阿里想幫你賣(電商工具),騰訊想幫你連(社交基建),百度想幫你造(工業生產)。
在這場諸神黃昏的戰役里,商業基因才是宿命。
04
對于我們每一個身處其中的從業者來說,最大的沖擊才剛剛開始。因為當巨頭把各自的「殺手锏」都磨好之后,我們要面對的,就不再是「好不好用」的問題,而是,工作流將徹底崩塌。
不信,你回想下:
以前我們要拍一個像「老宋拜佛」那樣的短視頻,或者做一個「雪王大戰奧特曼」,需要什么樣的流程?
策劃寫腳本,畫分鏡,定調性;老宋得親自去九華山(差旅成本),得有攝影師(人力成本),得調光(時間成本),得收音(設備成本)。
剪輯師剪片子,配樂師找 BGM,調色師調色,特效師加特效;交付,最后才能出一支成片。
這條鏈條上充滿了「摩擦力」,溝通的誤解、執行的偏差、昂貴的人力。現在呢?Seedance 2.0 告訴我:一張照片加一句「祝大家馬年快樂」 等于成片。
請注意,這中間發生了什么?
中間消失了;攝影師消失了,燈光師消失了,剪輯師消失了,甚至連那個「去九華山」的過程都消失了;這就是硅谷最近很火的一個概念,叫「意圖界面」(Intent UI)。
以前人機交互是命令式,你得打開 App,點按鈕,拉軌道,設參數。 現在的交互是意圖式:你不需要 App,只要輸出「意圖」,AI 直接給你「結果」。
這種變化,對于行業來說是毀滅性的「降維打擊」。
我在想,未來的視頻公司,可能真的不需要龐大的制作團隊了。 傳統的「編導+攝像+剪輯」的鐵三角模式,正在迅速解體。
未來可能只有一個「擁有審美和意圖的人」;這個人負責做夢,負責定義「什么是好」,Seedance 負責把夢境落地,負責執行「如何做」。
所以,這是組織架構的一種粉碎。
當一個人加AI 就能完成以前一個團隊一周的工作量時,那些平庸的、只會執行指令的、沒有獨特審美的流水線從業者,將無處遁形。
以后,職場上可能只有兩類人能活得很好: 第一類是極度的藝術家。AI 目前只能模仿平庸,模仿不了天才。那種 1% 的頂級審美和創造力,依然是人類的護城河。
第二類是極度的「超級個體」。他們懂業務、懂邏輯、懂人性,并且能熟練駕馭 AI 算力。他們一個人就是一個隊伍,一人即公司。
而夾在中間的那 90%,只會切片子、只會打燈光、只會畫分鏡的「工具人」,如果不進化,他們的職業生涯可能真的要進入倒計時了。
不過,當這種「神跡」般的強大擺在我們面前時,背后其實還有一堆「細活雜活」等著我們要處理。
比如說,關于「契約」的問題。
Seedance 2.0 為什么能復刻老宋?因為我們都在互聯網上「裸奔」;過去發的每一條視頻、每一張自拍,都成了它的訓練數據。
問題是,AI 用我們的臉、語料訓練成了超級模型,然后轉頭向我們收會員費。但這中間,有沒有給我們分紅?哪怕是一句告知?
并沒有。我們默認簽署了一份「不對等」的賣身契,我們提供了礦石,卻要花錢買自己煉出來的金子。
再比如,「信任成本」的問題;如果一張照片就能讓老宋「拜佛」,甚至讓他去「罵人」、去「表態」,那這個社會的信任基石就崩了。
眼見不再為實。以后你在視頻里看到我王智遠說了什么驚世駭俗的話,你第一反應得是:這是王智遠說的,還是 AI 里的「王智遠」說的?
還有「版權爛賬」。
我生成的「雪王大戰奧特曼」,雖然好笑,如果不加限制,奧特曼的版權方可能會把生成平臺告到破產;AI 現在的「懂梗」,本質是在法律的邊緣瘋狂試探。
這些問題技術解決不了,只能靠人去磨、靠行業、規則推動;我為工具的進化感到狂喜,但也為那層正在消失的、定義我們生而為人的「真實」,感到深深的敬畏。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.