![]()
文:王智遠 | ID:Z201440
身邊不少人國慶都在玩sora。
有人感嘆太上癮了,一句話想生成什么,就生成什么;有人發朋友吐槽,這快趕上發抖音的絲滑了;還有人,已經抓住流量密碼,做出不少爆款。
看著他們玩,我突然意識到,AI視頻的格局終于變了。
變在哪呢?過去AI工具,總讓人覺得要先「學會用」,sora不一樣,它第一次成為「人類表達的延伸」,這是一種巨大的價值觀轉向:
從「讓機器更強」,到「讓人更自然」。
它打破了從模型到內容、從內容到表達之間,那些肉眼看不見、卻能感受到的門檻。
01
但凡用AI視頻工具,都曉得像在交作業;你得先上傳圖片,再選模板,再寫提示詞,最后點「生成」,一套流程走下來,稍微哪一步不對齊,結果就跑偏。
Sora 的邏輯,正好反過來。
我說一句話,后面的事,它全搞定,什么鏡頭、配圖、節奏,都不用操心,直接把腦子里的那一幕,「顯化」出來。
這背后,可能是兩種完全不同的產品世界觀。
什么世界觀呢?
國產 AI 視頻底層,是「制作邏輯」,它服務「專業生產內容」的人,所有設計,都為了讓視頻更完整、更漂亮、更符合模板,Sora是「表達邏輯」,面對99% 想「表達自己」的人。
所以,看起來,前者靠規則;后者靠理解。前者讓視頻更精準;后者讓人更自然。
昨天刷到一個視頻。
博主用《從你的全世界路過》里豬頭那段對白,做了個國慶小短片,它把「假期」寫成了一個人,用對話的方式說再見,柔軟、細碎,卻讓人突然破防。
文案是這樣的:
還會再見嗎?下次國慶再見的時候你要變長好不好?你要變長,不要調休好不好?你走了,我下半年沒假了。沒關系,你要自己變長。國慶沒有你,我下半年怎么過啊?
我覺得挺有意思,就讓 AI 也幫我寫了一個。文案是:
你走了。我還沒準備好。國慶,我還想再見你一面;哪怕再堵一場高速,再擠一次人海。你能不能別走得那么快?就再陪我發一會兒呆也好。你一走,地鐵又開始擠,郵件又開始多,連風都變得很趕。
我也想做一個帶聲音的小短片,講那種節后第一天,人還在上班,心還在放假。于是,把這段文案丟給了可靈、即夢,豆包、還有百度蒸汽機。
一通折騰,感覺像在開盲盒,有的聲音對不上,有的節奏亂,還有的非得讓我補首幀、尾幀、再加描述……差點放棄了。
后來,試著給 Sora。我說了一句話:我現在有一段文案,請幫我做成短視頻,用我的頭像,希望你能懂我想要的感覺。
五分鐘后,視頻出來了。整個過程,我一句提示詞都沒改;畫面有點 AI 味兒,但那種「我懂你想說什么」的感覺,特別準,如下:
那一刻我明白,制作邏輯追求精準控制,表達邏輯追求情緒共鳴。我后來總結了一個詞:
表達意圖的可視化。
AI終于能幫人「說人說話」了,你不用教它該干什么,它就能把腦子里的那一幕顯現出來,這是一種新創作關系的改變。
02
我在想,同樣做視頻,服務專業創作者和普通人,最大的區別到底在哪?
經過多個作品比對,我明白了前者用工具,為了「完成一件事」;后者用工具,為了「表達一種情緒」。一個在意作品;一個在意共鳴。
什么是作品?什么是共鳴?
這么說吧,作品,像一支廣告片。打光完美、節奏精準、邏輯嚴絲合縫,但看的人不會轉發,因為那不是觀眾的生活,那是品牌在說話,像投放了一個廣子。
共鳴,更像一條傻白甜式的朋友圈。內能糙,構圖也歪,但有人看完就笑,說:,這不就是我嗎?然后,忍不住也想自己來一段。
臥槽
所以,如果 AI 視頻產品的設計邏輯圍著專業創作者轉,那它注定難規模化,因為,能撐起產品飛輪的,是那 99% 的「隨手一玩」。
不信,我給你看一組數據:
根據《中國互聯網絡發展狀況統計報告》(截至2024年12月)的數據,我國 20–29 歲網民中,使用生成式 AI 產品的比例已達到 41.5%,而在短視頻用戶群體中,這一比例還在快速上升。
這說明,今天的普通用戶,已經從「觀眾」變成了「參與者」了。
可在短視頻平臺崛起之前,情況完全不同,當時專業內容早創作者早就有,拍得精致、調色完美、構圖精準,但轉的少,被模仿的也不多,而且還讓人覺得有距離感?
這是為什么呢?
因為太像「作品」了,完美得讓人不敢靠近,很多人也覺得自己做不出來;抖音、快手爆火時,邏輯恰恰相反,扭個腰、搖個頭、對個嘴、踩個點,看起來傻,卻讓人想參與。
這就是傳播的底層邏輯:
「參與感,永遠比欣賞感更強。」
短視頻降低了表達的門檻,讓表達,本身成了一場全民游戲。換句話說,表達欲就是生產力。
它驅動參與、帶來模仿、形成社交飛輪,Sora 正好踩中了這條曲線,不教你「怎么做視頻」,成功喚醒作為人底層「想表達」的基因。
短視頻時代即使用戶眾多,不好意思出鏡的,依然占了大多數;總覺得鏡頭對著自己很怪,飯局上掏出手機拍攝更顯突兀。
那些看似「真情流露」的作品,往往也有點「演」。
Sora 2 解決了這個問題,它讓人不必再面對鏡頭,就能表達自己;知行合一,做你想做的一切。
如果把視角放回國內的 AI 視頻工具,情況就完全不同。
大多數廠商還在卷模型、卷參數、卷渲染,這些都沒錯,但忽略了一個更底層的問題:產品得先懂人,才有機會懂世界。
什么?懂人?難道以前的產品經理不懂人嗎?不是的,是理解的方式錯了。
中國人太愛「說教」了。一方面來自文化慣性,我們從小被教育「先學會,再表達」;另一方面,是技術心態,我們相信「掌握工具」比「理解人」更重要。
于是,這種思維被帶進了產品哲學。我們做產品,總想著先教用戶怎么用,而不是讓用戶直接用。
但這恰恰是 AI 的反命題;真正的智能,讓機器學人。Sora在人與機器之間,建了一座「理解的橋」。
03
還有,你有沒有發現,有的AI 視頻哪怕做得再逼真,總有種「拼出來」的感覺?Sora 2 視頻,哪怕細節還有點粗糙,可整體看起來卻很自然,讓人信服。
這是為什么?
我去查了下它的技術說明,結果發現,它跟國內主流的幾款 AI 視頻產品,從底層架構上,就不是一回事。
OpenAI 官方描述里提到,Sora 的核心思路,是「模擬世界」,它的架構是「擴散模型 + Transformer」的組合。
簡單理解,先「搭一個世界」,再讓這個世界自己動起來;所以你看它生成的視頻,人物、光線、背景都能長時間保持一致,鏡頭切換再多,邏輯也不會亂。
舉個例子:
你說「一個女孩在雨中等人」。Sora 不會去拼「女孩 + 雨 + 打傘」這些元素。
它會先想,「等人」這個情境里,風該往哪吹、雨該多大、燈光該怎么閃,然后再生成畫面。它理解的是「感覺」,不是「素材」。
再看國內幾家。
可靈(Kling)的技術報告里提到,它用的是「3D 時空聯合注意力」。重點是讓動作更連貫,能做出一鏡到底、鏡頭感很強的畫面,更像一個「運動模擬器」,解決「動得真不真」的問題。
百度蒸汽機走另一條路。
它強調「音畫一體化」,也就是,聲音、嘴型、表情、動作,全在一個模型里生成。
所以,它的多人對話視頻,口型對齊、語氣連貫、細節出色,特別適合教學、廣告、劇情類內容。,你告訴它要做什么,它執行得很到位。
即夢海螺的思路又不同。從表現上看,它們更像「拼接式生成」,「擴散 + 模板控制 + 多階段拼接」;簡單說,「拼得快、出得快、改得快」,適合平臺化的批量生產,但情緒和邏輯容易斷。
理解這一點,就知道了,不同架構,決定了不同的使用場景。
所以整個格局,大概是這樣:
Sora 在推演世界,可靈在模擬動作,蒸汽機在對齊音畫,即夢在拼接場景。
聽起來大家都在做模型,但本質不一樣,Sora 拼「理解力」,國內拼「控制力」;拼接式架構關注「結果」,世界模型架構關注「過程」,一個理解畫面,一個理解因果。
智遠一直覺得,技術架構,是產品世界觀的投影。你怎么建模世界,決定了能不能理解人。
Sora 看起來「更懂人」,它的架構在模擬「人感知世界」的方式,從光線到動作,從情緒到邏輯,都在一個連續的空間里被推演。
這是底層哲學:讓 AI 靠近人,而不是讓人去適應 AI。
04
智遠分析認為,國內 AI 視頻臨界點是理解媒介本身。
麥克盧漢在《理解媒介》中說過:「媒介是人的延伸」。這句話太經典,卻也最容易被誤解。
他并不是否定內容,而是提醒我們:形式,才是塑造人的隱形力量。攝影機讓人第一次能「凍結時間」,手機讓人隨時能「記錄世界」,而 AI,讓人可以生成情緒。
換句話說,媒介每一次進化,都是表達方式的重構。
以前,我們要拍視頻,在「展示」生活;現在,用 AI 視頻,在「想象」生活;從展示到想象,從記錄到生成,這是表達方式的一次躍遷。
我們是信息的載體,情緒的接口。AI服務于人,人又成了它的放大鏡,它讓表達半徑變大,讓情緒的觸點更高效。
所以,當 Sora 改寫視頻時,它其實在改寫媒介,它讓說話這件事,第一次變成了一種視覺語言,換句話說,你有想法,不用解釋,就能被看見。
既然人本身是媒介,那么,表達又算什么呢?
我想用兩個詞來總結,即:「共振」或「顯化」。「共振」,是讓別人感受到我;「顯化」,是讓自己看見自己。
表達,是把那些藏在腦子里、胸口里的東西,通過思想、情緒、體驗,變成外界能看見、能觸摸的形式,有時是文字,有時是語氣,有時只是一個眼神。
真正的「顯化」,追求一致性,有那么一瞬間,讓情緒、思考、身體語言,都在說同一件事。
就像拍一個視頻,是想讓當下的感覺被看見;如果一個視頻要反復剪、反復潤色,那已經不是在表達了。所以,真正高效的表達,能在五分鐘里,把腦子里的畫面「顯化」出來。
過去幾年,我們用了太多 AI 工具,能畫、能唱、能剪。
這些能力,本質上都在服務「生產」,很可惜,它還沒做到快速高效,它能生成漂亮的畫面,卻接不住那種「一閃而過的念頭」
就像我躺在床上,腦子里突然閃過長白山白雪皚皚的畫面,那一刻,我只想讓它立刻出現在我的短視頻里,可惜,AI 還沒學會這種「沖動的效率」。
從這個意義上說,OpenAI 想重新定義人機關系:讓每個人都能「拍出腦海里的電影」。
反觀國內,很多 AI 產品技術已經很成熟了,它們理解算法,卻還不理解人;所以,也就談不上什么「表達民主化」。
當表達變得像呼吸一樣自然,AI視頻創作,才算真正地回到普通人手里;或許,這,才是 AI 視頻該做的事,瞬間,彌補那些腦袋中的空缺。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.