
現在是2026年2月13日。
如果你還沒能搞清楚現在的 AI 有多強,那請你立刻去看下目前 B 站上最火的 AI 短片——《牌子》。(文末左下角點擊閱讀原文可觀看)
7 分鐘視頻,上線一周,1000 多萬次播放,80 多萬點贊,30 多萬投幣。
《流浪地球》導演郭帆看到后轉發(fā)點贊,YouTube 上也是一堆老外被震驚,彈幕里大家喊著封神,評論區(qū)有人在逐幀分析劇情。差評編輯部的后期們也在上班時間,討論到底是怎么做的。
![]()
視頻一開始,一個人戴著帽子走進森林,在看到一個“禁戴帽子”的牌子后,他原地被“消失”了。鏡頭迅速下拉,帽子滾到畫面前方。
接著音樂一起,短片名《SIGN》出現在屏幕前。

再緊接著鏡頭一個絲滑轉場,SIGN 成了汽車里的一個按鈕,收音機正在播報新聞:
火星上發(fā)現了一塊神秘“?”警示牌,地球上也開始出現越來越多看不懂的牌子。這些告示牌一出現,警告的事情就會立即發(fā)生,即便它不符合常理。

隨著鏡頭晃動著轉向車窗外,路邊突然出現“奶牛從天而降”的警告牌,下一秒奶牛真的從山坡上滑下來。
后視鏡里映出司機的臉,奶牛摔下來的灰塵四濺,急剎車的慣性讓司機來了一個大踉蹌。看到這些,差評君已經坐不住了,要知道這些物理細節(jié)一直都是 AI 視頻最容易穿幫的地方啊。
接下來更絕。
一個長達 20 秒左右的十字路口鏡頭,幾乎是一鏡到底的感覺。上一個牌子的效果還在觸發(fā),下一個牌子已經到來,滑倒的行人、騎著自行車的熊、各種超自然事件一個接一個在畫面里發(fā)生。

要知道 AI 視頻模型通常只能生成幾秒鐘片段,時間一長,場景、人物都會漂移、變形。我真無法想象這個鏡頭是怎么撐住的。
最后一張報紙飛過來擋住畫面,當它被吹走后,我們又被帶到了下一個場景。轉場絲滑到你根本意識不到這是拼接出來的。

整支片子 7 分鐘,幾乎每一幀都是這個密度。
劇情也同樣扎實:
越來越多看不懂的告示牌讓世界陷入混亂,一個巨大的“不言不視不聞”的警告牌從月球砸向地球,人類的文字開始被吞噬,無法溝通交流,秩序逐漸崩塌。

好在人類發(fā)現了交流的本質在于表情、手勢。于是大家利用 emoji 重建了溝通方式。
![]()
最后我們飛回火星踢翻了那塊牌子,并插上新的牌子:

這條視頻是 UP 主 DiDi_OK 參加 B 站首屆 AI 創(chuàng)作大賽的參賽作品。 1 月 5 日,B 站面向全球創(chuàng)作者啟動了這場比賽,第一名獎金 100 萬,3 月 20 日截稿。比賽還沒結束,這條片子已經提前炸場了。
看完這條視頻,我的第一反應就是,這哥們是誰?他究竟怎么做到的?我甚至想立刻知道他每個鏡頭、每一幀都用了哪些模型和提示詞?
托朋友聯系上 DiDi_OK 之后,差評君立刻就把語音撥過去了。
DiDi_OK 是河南鄭州人,在英國留學學的 3D 動畫,畢業(yè)后進了倫敦 WPP 總部,全球最大的廣告?zhèn)鞑ゼ瘓F之一,干了快 4 年。
早在三年前,公司就要求全員接觸 AI,但那會兒的 AI 視頻是什么水平呢?差評君估摸著也就威爾·史密斯第一次吃意面的水平吧。

但他當時排斥的,倒不是 AI 本身,只是覺得沒到 AI 夠用的那個時間:我用 Blender 自己做都比你快,不伺候。
去年 4 月,Runway 推出了 Gen4,他發(fā)現畫面開始有物理規(guī)律了,石頭可以正常地落地、彈開,心里想著“那一天終于還是來了”。
DiDi_OK 覺得這個起點夠了,就去參加了一個 AI 電影節(jié)。公司一看,行你小子,直接給他開了個 AI 導演新的崗位。
所以現在他的生活是這樣的:白天給大客戶做 AI 廣告,晚上下班回家自己做 AI 短片。有時美國客戶的時差逼得他凌晨 1 點才下班,但他還想再做一兩個小時自己的東西。
DiDi_OK 工作中
![]()
《牌子》視頻的靈感,來自于一趟圣誕假期。
去年圣誕節(jié),DiDi_OK 跑去英國最西邊的康沃爾。因為康沃爾有自己的方言和標識習慣,所以他一路上遇到一堆看不懂的牌子,導致每次經過都會小心翼翼。
最后讓他下定決心要做這個選題的,是這邊朋友家洗漱臺旁邊居然也貼著一張小紙條,上面也寫了一行字,看不懂,但他總覺得好像有什么不得了的東西。他沒問,就讓這個疑惑一直留著。
朋友家的感嘆號
![]()
圣誕節(jié)結束后 DiDi_OK 又去了土耳其,這里語言就更不通了。他跟出租車司機聊天都得兩人打開 ChatGPT,互相翻譯著對話。
這一路上他拍了很多那種看不懂的標識牌,也經歷了很多只能靠手勢和微笑交流的時刻。
土耳其牌子
![]()
慢慢地他開始想一個問題:當語言不通的時候,人和人之間的溝通會退化到什么狀態(tài)?
手勢、微笑、emoji。
這就是《牌子》視頻最后的設定:當人類語言被吞噬后,大家開始用 emoji 溝通、最終實現反擊。

靈感有了,但從靈感到一個 7 分鐘的完整故事,中間還有他 2 個月的打磨。
DiDi_OK 的習慣是在 iPhone 備忘錄里隨手記靈感,想到一句就記一句。這個視頻的劇本,他前后記了四五個不同的文檔,才開始搭出一個大概的框架。因為對劇本的高要求,有時他一覺醒來會推翻自己寫了半個月的東西。
靈感&劇本
![]()
在《牌子》的劇本定稿后,DiDi_OK 其實預判到了:比賽周期這么長,中間大概率會有新模型發(fā)布。當時他猜是 Google 的 Veo4,結果來的是 Seedance 2.0,效果比他預想的還猛。
但這在他計劃之內——寫劇本的時候他就定了一個原則:故事要能扛住技術迭代。
他認為 AI 再怎么發(fā)展,最好的狀態(tài)也不過是無限接近實拍和傳統(tǒng) CG 的效果。既然如此,那從古至今的規(guī)律就不會變,好故事永遠是好故事。
當然在技術上,他也努力做了億點點模型超標。
比如十字路口那個鏡頭,DiDi_OK 明知道當時的模型做那種復雜場景很吃力,但他偏要在那個點上死磕,把技術表現往前推。這樣就算新模型出來了,觀眾回頭看也不會覺得過時。
![]()
說到這,重點也來了,大家一定特好奇:
《牌子》到底是怎么做出來的?為什么 DiDi_OK 的 AI 這么聽他話,能把視頻一致性做得這么強?
嗯,首先,你要失望了。DiDi_OK 的 AI 視頻模型也不聽話。
DiDi_OK 說他沒有做分鏡的習慣,不是他不想做,是因為至少在當時的 AI 水平下,就算畫了分鏡它也不聽你的。
所以他后來的策略是靠“體感”。把滿意度區(qū)間設在 80 到 100 分之間,專業(yè)積累讓他知道什么是 80 分,而 AI 偶爾會暴擊到 100 分以上。
但滿意也是要代價的,代價就是無限抽卡。
十字路口那個 15-20 秒的鏡頭,是整個視頻里成本最高的。
DiDi_OK 有一次閑著無聊數了一下生成記錄:他每次點 4 個一組批量生成,菜單里排了 1000 多組。也就是說,單算那一個鏡頭,他生成了三四千條視頻。
![]()
水獺那個鏡頭也折磨人。
因為畫面里同時出現大量動物,AI 很難保證每一只都沒有 bug。數量一多,模型就顧不上別的了,有時候鏡頭會莫名鎖定在一個士兵的臉上。DiDi_OK 只能把已經滿意的構圖和運鏡保留下來,再用視頻生視頻的方式重新跑一遍細節(jié)。
![]()
傳單和二維碼的鏡頭也一樣。
他希望有一張傳單剛好撲到鏡頭前面,好讓上面二維碼能被觀眾掃出來。這種事你沒法跟 AI 商量,只能一遍遍地生成,指望老天爺給你一次機會。
![]()
DiDi_OK 后來總結出一套應對挫敗的方法。
他就一口氣閉著眼點生成,成本點夠 1000 塊錢的,然后就去看電影、打游戲,回來再一個一個看。反正別盯著進度條,不然看著從 99% 終于到 100%,點開一看很差勁,就會覺得有內傷。
另外他不會死守一個模型,每個鏡頭他會根據需求選擇不同的工具:
Nana Banana 生圖最好,尤其能輸出 4K;Veo 的嘴型同步和穩(wěn)定性最強,只要涉及人物對話就用它,但運鏡很呆板,角色老是正對鏡頭站畫面正中間說話;可靈的運鏡有張力,能做很大的推拉,但畫面容易拉伸變形;Runway 的物理效果最牛,但不穩(wěn)定。
![]()
至于很多人好奇的,《牌子》如何做到不同場景看起來風格統(tǒng)一,如何保持一致性的。
其實 DiDi_OK 用了一個聰明的辦法:他堅持寫實風格、低飽和度,而且大部分角色只出現一次。
![]()
觀眾覺得一致,不是因為同一個角色貫穿始終,而是因為整體美術調性始終在一個框架內。這個思路來自他做游戲概念設計和 3D 動畫時的積累。
當然了,并不是一切工作都能 100% 交給 AI。
比如貪吃蛇吃文字那個片段,蛇和文字都是 AI 生成的,但要做到可控,就得先把它們轉化成帶透明通道的素材,再通過后期合成疊在一起。
貪吃蛇追蹤細節(jié)
![]()
《牌子》驚艷大家的不只是畫面。
它的配樂像一條隱形的情緒線,前段壓抑懸疑,中段混亂加速,到最后 emoji 反攻的時候一下子昂揚起來,整段音樂是跟著故事的心跳走的。
這段配樂,是 DiDi_OK 花了整整一周,用 Suno 生成了 1500 多次磨出來的。最關鍵的是,他自己完全不懂樂理,連五線譜都不認識。
他判斷好壞的辦法很簡單,讓女朋友聽。女朋友全程不知道他在做什么片子,沒有泡在創(chuàng)作環(huán)境里,就是一個純粹的第一次聽眾。DiDi_OK 說,一個沒聽過這首歌的腦子,對他來說非常寶貴。
![]()
整個視頻,DiDi_OK 前后打磨了兩個月。劇本一個多月,AI 生成制作 23 天,也自費了不少錢。
聊到最后,差評君問了那個所有人都想問的問題:AI 會取代導演嗎?
DiDi_OK 的回答是,不會。
他說 AI 再怎么發(fā)展,大前提不會變。它最好的狀態(tài)就是完全等于實拍和傳統(tǒng) CG 的效果。那么,從古至今有一個事情是不用 AI 大家都會的,就是寫字。
“寫小說誰都可以寫,誰都不犯法,但并不是每個人最后都去寫小說了,也不是說會寫字的人最后都做到了一個自己滿意的狀態(tài)。”
貪吃蛇 AI 素材
![]()
DiDi_OK 認為 AI 最能幫助到的那類人需要同時滿足兩個條件:知道自己想要什么,也知道別人想要什么。但這兩個條件其實蠻苛刻,“很多人包括我也未必知道自己到底想要什么,而知道別人想要什么就更難。”
DiDi_OK家里工作區(qū)
![]()
其實差評君覺得,DiDi_OK 自己的經歷就是最好的樣本。
他從小學畫畫,考上了倫敦藝術大學,做過游戲概念設計師,做過 3D 動畫師,現在又變成了 AI 導演。每一次轉型,上一個技能看起來都被“替代”了,他不再需要花幾百個小時手動建模、手動上色、手動調動畫。
但是他之前積累的審美判斷、敘事能力、對畫面的理解,沒有一樣被浪費。
甚至可以說,這些看不見的積累恰恰是他能把 AI 用好的原因。
他之所以知道哪種敘述方式更吸引人,知道如何用音樂調動情緒,知道 80 分的畫面和 60 分的區(qū)別在哪,全靠那些“被替代”的年頭里攢下來的東西。
![]()
包括《牌子》這個故事本身。
“警示牌帶來混亂,emoji 重建溝通”這個靈感,不是 AI 從數據庫里算出來的,是從康沃爾看不懂的路牌和土耳其出租車后座上迸發(fā)出來的。
AI 是能生成畫面,但它沒有生活。沒看過告示牌,沒坐過那趟出租車,就寫不出那個故事,更沒法用情緒曲線、符號敘事、鏡頭語言去構成了一個完整的導演意圖,去打動成千上萬人。
![]()
就像 DiDi_OK 說,他之所以喜歡在 B 站發(fā)作品,是因為彈幕,“一個作品加入了大家所有人的想法之后,才算是正式完成”,大家的想法也是 AI 沒法給到的東西。
![]()
所以 AI 真正替代的東西是什么?
是那些你花在機械執(zhí)行上的時間。建模、渲染、調參數、一幀一幀修動畫,這些事 AI 確實越來越能干。但你腦子里那套判斷系統(tǒng),觀眾在這個節(jié)點需要什么情緒,AI 還做不了。
軟件行業(yè)也一樣,AI 出來后,產品思維、理解意圖、關鍵決策是開發(fā)者們的重心。
前兩天差評君自己用 AI 寫了兩個 App,功能確實能跑,但交互邏輯稀碎。DiDi_OK 聽完也說了一句:一個很頂尖的程序員,他是會比我多出非常多的軟件思維、產品思維。
Node.js 之父 Ryan Dahl 今年 1 月也在 X 上寫了句話:人類寫代碼的時代已經結束了,不是說工程師沒活干了,是“直接寫語法”這件事不再是重點。
![]()
無論是做視頻、寫代碼、畫畫,AI 替掉的始終是同一樣東西:手上那些重復的機械勞動。留下來的也是同一樣東西:你腦子里那套審美、敘事、品味、判斷系統(tǒng)。
在采訪中 DiDi_OK 說了一句話,我覺得可以拿來當這篇文章的結尾——
AI 正在把創(chuàng)造的權利歸還給人。
但我想補半句:還給那些有能力接住的人。
撰文:刺猬
編輯:莽山烙鐵頭 面線
美編:素描
圖片、資料來源:DiDi_OK 提供
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.