![]()
“OpenAI 是一個(gè)端到端的組織。”
文丨程曼祺
2023 年 2 月,美團(tuán)聯(lián)合創(chuàng)始人王慧文宣布創(chuàng)立光年之外,隨后他密集拜訪了一個(gè)又一個(gè)中國頂級(jí)的 AI 研究者,每見一個(gè)他就問:“你最推薦我繼續(xù)和誰聊” 一個(gè)月后,他找到了自己的算法聯(lián)合創(chuàng)始人——當(dāng)時(shí) 31 歲的曹越。
曹越過去十年的每一個(gè)關(guān)鍵選擇,都是大模型演化的一個(gè)注腳:他在 2014 年轉(zhuǎn)向深度學(xué)習(xí),2021 年拿下 ICCV 最佳論文,2022 年加入中國最早聚焦大模型的智源研究院,2023 年成為光年之外聯(lián)創(chuàng),2024 年創(chuàng)立 Sand.ai 做視頻生成。
這篇訪談中,曹越完整分享了從研究員到創(chuàng)業(yè)者的十年歷程,也折射出整個(gè) AI 行業(yè)從萌芽到崛起的變化。
在個(gè)人選擇和趨勢(shì)判斷上,曹越有一個(gè)貫穿的視角:關(guān)注組織與協(xié)作方式。2021 年,曹越憑借 Swin Transformer 拿下 ICCV 最佳論文馬爾獎(jiǎng),但看到同年 OpenAI 發(fā)布的 CLIP 和 DALL·E 后,他很快判斷,對(duì)方的突破背后是不同的組織和思維方式:
當(dāng)時(shí)大多數(shù)國內(nèi)研究組還是論文驅(qū)動(dòng),而 OpenAI 是去思考這個(gè)領(lǐng)域有什么大的、本質(zhì)的問題,更加問題驅(qū)動(dòng)。
當(dāng)你很關(guān)注論文,就會(huì)受審稿人品味影響,去優(yōu)化所謂創(chuàng)新性……但 OpenAI 的方法反而很簡單,核心就是設(shè)計(jì)一個(gè) scalable(可規(guī)模化)的系統(tǒng),它能最大化利用算力。
這促使曹越在一年后,加入主攻大語言模型的智源研究院。當(dāng)時(shí) ChatGPT 尚未發(fā)布,大語言模型還不是行業(yè)共識(shí)。
24 年至今,曹越開始作為一號(hào)位創(chuàng)立 Sand.ai。在 Sand.ai 的兩代模型——Magi-1 到 10 月剛發(fā)布的 Gaga-1 背后,是曹越組織思路的繼續(xù)變化:從更側(cè)重模型、技術(shù)驅(qū)動(dòng),到轉(zhuǎn)向模型與產(chǎn)品/需求的深度垂直整合。
Gaga-1 的目標(biāo)很具體——讓 AI 視頻中的人物真正 “能表演”。以往敘事內(nèi)容制作的 AI 生成最大痛點(diǎn)就是:人物不一致、不能音畫同出、表演太假。
研究背景的創(chuàng)始人能多快成為專業(yè) CEO?環(huán)境又能給他們多少余裕?曹越和 Sand.ai 會(huì)以實(shí)踐寫下對(duì)這個(gè)關(guān)鍵問題的答案。
* 本期訪談也已發(fā)布「播客版」和「視頻版」。
從 ICCV 最佳論文到研究 OpenAI 組織力
“OpenAI 最核心的思路,就是設(shè)計(jì)一個(gè) scalable 的系統(tǒng),然后最大化壓榨算力。”
晚點(diǎn):過去十年,你的每個(gè)關(guān)鍵選擇都有代表性。回顧過往的 AI 經(jīng)歷,第一個(gè)在你腦海中出現(xiàn)的時(shí)刻是什么?
曹越:那還是轉(zhuǎn)向深度學(xué)習(xí)的時(shí)刻。那是 2014 年,我上大四,當(dāng)時(shí)深度學(xué)習(xí)在國內(nèi)還不怎么火,甚至有教授在個(gè)人網(wǎng)頁上明確寫:“不做超過兩層的神經(jīng)網(wǎng)絡(luò)”。
我比較幸運(yùn),當(dāng)時(shí)我的副導(dǎo)師去伯克利訪問,發(fā)現(xiàn)硅谷所有人都在討論深度學(xué)習(xí)。我們組也是國內(nèi)最早一批買了 GPU,開始做深度學(xué)習(xí)的組。接著是 17、18 年,我加入了 MSRA(微軟亞研院)的視覺組。
晚點(diǎn):這是個(gè)非常傳奇的組。
曹越:對(duì),他們?cè)?14 到 15 年做出了 ResNet(殘差神經(jīng)網(wǎng)絡(luò))。一批人在 16、17 年陸續(xù)出來,有去公司的、有創(chuàng)業(yè)的。(編者注:這里走出來的創(chuàng)業(yè)者有商湯創(chuàng)始人湯曉鷗,曠視首席科學(xué)家孫劍,Momenta 創(chuàng)始人曹旭東等。)
這個(gè)組確實(shí)有一些傳承。我最受益的有幾點(diǎn):一是你要去做最受關(guān)注的 topic,而且它是一個(gè)還有很大機(jī)會(huì)的,不是已經(jīng)收斂的 topic。二是一旦識(shí)別到一個(gè)重要機(jī)會(huì),要放足夠資源去做到極致,而這本質(zhì)是一個(gè)組織問題。
晚點(diǎn):一個(gè)很受關(guān)注的方向,往往已經(jīng)很多人在做了,怎么判斷它仍有很大提升空間?
曹越:這個(gè)還真是有一些直覺。當(dāng)你真的在一個(gè)行業(yè)里做了一段時(shí)間,思考過很多問題后,你會(huì)變敏感:一些在別人看來微妙的基礎(chǔ)信號(hào),在你這里會(huì)是非常劇烈的信號(hào)。
晚點(diǎn):我們可以講一個(gè)具體例子,就是你和亞研院同事在 21 拿到 ICCV 最佳論文馬爾獎(jiǎng)的成果 Swin Transformer,它是把 Transformer 用到視覺領(lǐng)域。你們?cè)趺纯吹竭@個(gè) topic 的?
曹越:Transformer 2017 年就出現(xiàn)了,它在整個(gè)視覺和多模態(tài)方向的普及有兩個(gè)階段:
第一個(gè)階段是將 Attention(注意力)模塊嵌入卷積神經(jīng)網(wǎng)絡(luò)(CNN)。
這個(gè)階段的主要的思路,是用 Attention 來彌補(bǔ) CNN 的缺陷。CNN 天然是局部的,感受野(一個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)中,“神經(jīng)元” 能看到的輸入?yún)^(qū)域)有限。而 Transfomer 里的 Attention 則能相對(duì)低成本地?cái)U(kuò)大感受野。
當(dāng)時(shí)還有另一條路,但做的人比較少:就是試圖用 Attention 模塊直接替代卷積。我們組 18、19 年已經(jīng)在做這個(gè)方向,但還是在跟隨之前 ResNet 的整體結(jié)構(gòu),只是替換了其中卷積的部分。
第二階是用 Transformer 的整體結(jié)構(gòu)替代 CNN。
2020 年下半年出現(xiàn)了兩個(gè)重要工作:一是 OpenAI 的 Image GPT。在 GPT-3 后,OpenAI 暴力地把 GPT 用到了計(jì)算機(jī)視覺,但因?yàn)樾Ч缓茫蠖鄶?shù)人都沒理解。
二就是 ViT,Vision Transformer。Image GPT 是直接在像素上做 Self-Attention,計(jì)算效率低;ViT 則將像素變成一個(gè) patch,比如一個(gè) 16×16 的像素塊來處理,它在 ImageNet 的圖像分類任務(wù)上取得了不錯(cuò)的效果。(注:Self-Attention 自注意力機(jī)制,是一種特殊的注意力機(jī)制,它不是讓輸出序列關(guān)注輸入序列,而是讓輸入序列中的每個(gè)元素都關(guān)注自身和其他所有元素,以捕捉序列內(nèi)部不同位置間的依賴關(guān)系。)
這給視覺方向帶來的核心認(rèn)知是:別再拘泥于 CNN,應(yīng)該嘗試引入 Transformer 的整體結(jié)構(gòu)。ViT 證明了在圖像分類里可以這么做,因此我們判斷:如果能基于 Transformer 的宏觀結(jié)構(gòu),做出能適配多數(shù)視覺任務(wù)、且效果出色的網(wǎng)絡(luò),就有機(jī)會(huì)替代基于 CNN 的一套網(wǎng)絡(luò)。
晚點(diǎn):所以 Swin Transformer 的出發(fā)點(diǎn)就是不僅用 Transformer 來做圖像分類,也讓它能更通用地適應(yīng)其他常見視覺任務(wù)?
曹越:對(duì),包括目標(biāo)檢測(cè)、語義分割等等。在這之前,計(jì)算機(jī)視覺任務(wù)的復(fù)雜度比較高,不同任務(wù)的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)一般都是 CNN(ResNet),但整個(gè)任務(wù)的系統(tǒng)會(huì)有一些差異。所以這個(gè)問題就變成了:怎么用下一代 Transformer-based 網(wǎng)絡(luò)結(jié)構(gòu)替代過去的 CNN-based 網(wǎng)絡(luò)結(jié)構(gòu)
因?yàn)槲覀兘M很早就在研究 Transformer,我們對(duì)計(jì)算機(jī)視覺里的關(guān)鍵方向,圖像分類、目標(biāo)檢測(cè)等又非常熟悉。所以我們最早在 ViT 之后,看到了這個(gè)機(jī)會(huì),而且能明確感覺到這是一個(gè)大機(jī)會(huì),原因有三點(diǎn):
- 網(wǎng)絡(luò)結(jié)構(gòu)本身是深度學(xué)習(xí)領(lǐng)域最受關(guān)注的 topic;
- 如果它能實(shí)現(xiàn),它對(duì)所有視覺任務(wù)的效果都會(huì)有較大提升;
- 有機(jī)會(huì)進(jìn)一步打破 “計(jì)算機(jī)視覺必須用卷積” 的思維藩籬。
另一個(gè)關(guān)鍵是,我們識(shí)別到這個(gè)機(jī)會(huì)后,確實(shí)動(dòng)員了很多力量,把組里能參與的人都拉進(jìn)來了,一起在各個(gè)維度上把 Swin Transformer 做到了極致,最終效果明顯優(yōu)于同期的相似工作。
晚點(diǎn):這正好是你最受益的另一點(diǎn),就是看到機(jī)會(huì)后,你們的組織能支持你們實(shí)現(xiàn)到什么程度?
曹越:是的。你要能嗅到機(jī)會(huì);也要有組織能力,能真的抓住這個(gè)機(jī)會(huì),兩者缺一不可。
不過這兩者確實(shí)有時(shí)會(huì)打架。你不能每次看到什么 topic 熱,就沖進(jìn)去做一波;這樣每個(gè)工作都做得不扎實(shí),經(jīng)不起時(shí)間考驗(yàn)。我也認(rèn)識(shí)一類人,他每做一個(gè) topic,就做得特別扎實(shí),鉆進(jìn)去特別久,但往往等做好時(shí),已經(jīng)不趕趟了。但如果比較幸運(yùn),這類人還是可以做出非常出色的工作。
晚點(diǎn):這聽起來和企業(yè)里的研發(fā)與業(yè)務(wù)決策有共通性:需要思考方向和優(yōu)先級(jí)、投多少資源、團(tuán)隊(duì)怎么協(xié)作。
曹越:不過看到 OpenAI 和 DeepMind 的一系列工作后,我意識(shí)到原有方法論的天花板很明顯。AlphaFold 的突破、以及 2021 年初,OpenAI 的 DALL·E 和 CLIP 都很說明問題。
但當(dāng)時(shí)我身邊很少有人在研究為什么 OpenAI 能做出這樣的工作,以及能給這些工作符合他們影響力的評(píng)價(jià)。大多數(shù)人的第一反應(yīng)是這么做需要很多算力,他們有算力、我們沒算力,所以跟我沒關(guān)系。其實(shí)如果能放下 ego(自我),仔細(xì)研究這兩篇工作,他們的做事方法論、mindset(思維方式)和組織形態(tài)都和當(dāng)時(shí)我們做論文的感覺非常不一樣。
所以 21 年-22 年,我經(jīng)歷了比較大的 mindset shift(思維轉(zhuǎn)換),這促使我從微軟亞研院離開,加入了智源研究院。
晚點(diǎn):你在 21 年時(shí),看到了 OpenAI 的什么做事方法?
曹越:第一是,當(dāng)時(shí)大多數(shù)國內(nèi)研究組還是論文驅(qū)動(dòng)。這帶來很多問題,比如論文有作者列表,有一作、二作,本質(zhì)上不鼓勵(lì)合作。OpenAI 也發(fā)論文,但并不把發(fā)表當(dāng)作核心目標(biāo),而是去思考這個(gè)領(lǐng)域有什么大的、本質(zhì)的問題,更加問題驅(qū)動(dòng)。
第二時(shí),當(dāng)你很關(guān)注論文,就會(huì)受審稿人品味的影響,去優(yōu)化所謂創(chuàng)新性,看能不能在方法上搞一些技巧。但 OpenAI 的方法反而很簡單,核心就是設(shè)計(jì)一個(gè) scalable(可規(guī)模化)的系統(tǒng),它能最大化利用算力。
第三點(diǎn)是組織的不同:一個(gè)論文驅(qū)動(dòng)的組織,大概率規(guī)模比較小,主要合作對(duì)象是學(xué)生。但如果你要打造一個(gè)系統(tǒng),就需要很多類型的人:有人爬數(shù)據(jù)、有人洗數(shù)據(jù)、有人訓(xùn)模型、有人做評(píng)測(cè),以及最后做 PR。
這需要一群有相似目標(biāo)和思維的人,他們都希望把系統(tǒng)做好,而不是關(guān)注自己的論文署名排序。當(dāng)時(shí)我不知道這種組織形態(tài)是什么,后來我發(fā)現(xiàn),這就是創(chuàng)業(yè)公司。
晚點(diǎn):所以你思考的起點(diǎn)是你想做出更厲害的 AI 技術(shù),然后開始研究這背后的做事方法和組織方法?
曹越:對(duì)。那時(shí)其實(shí)還有一個(gè)障礙,就是疫情。從 2020 年到 ChatGPT 出來的兩年多里,國內(nèi)和硅谷的溝通少了很多,很多學(xué)術(shù)會(huì)議都因?yàn)橐咔樽兂蛇h(yuǎn)程了。這導(dǎo)致國內(nèi)忽略了 OpenAI 的變化,實(shí)際從 2020 年開始,他們已展現(xiàn)出了非常不一樣的成果。
這就是我在 2011 年到 2022 年去智源前想得最多的事:為什么他們能做出來這么牛逼的東西?我們應(yīng)該打造一個(gè)怎樣的組織?身邊有什么人能一起做這件事?
晚點(diǎn):你當(dāng)時(shí)沒想過直接創(chuàng)業(yè)嗎?
曹越:沒有。那個(gè)時(shí)間點(diǎn),我對(duì)創(chuàng)業(yè)的認(rèn)知沒那么深。
晚點(diǎn):智源當(dāng)時(shí)是什么狀態(tài)?讓你覺得它有可能實(shí)現(xiàn)你的想法?
曹越:智源是國內(nèi)最早一批擁抱大模型的組織,它也是一個(gè)新型研發(fā)機(jī)構(gòu),不以發(fā)論文為核心指標(biāo)。智源也很早就在部署算力集群,2022 年年中就有 1500 張 A100 連在一起的集群,當(dāng)時(shí)國內(nèi)超過 1000 卡的集群非常少。它還有個(gè)目標(biāo)是開源開放,把模型開源,讓更多人用起來。
所以它有一個(gè)比較寬松的科研環(huán)境,你可以篩選出有相似 mindset 的人和你一起做一些更前沿探索;大家的目標(biāo)也是要構(gòu)建一個(gè)系統(tǒng)。
在我當(dāng)時(shí)的認(rèn)知里,智源是國內(nèi)最像 OpenAI 的組織,也是一個(gè)很好的,能讓我自己做一些探索的組織。
中國為什么沒有出現(xiàn) OpenAI?王慧文說是 “不夠富”
“到 2025 年再看,確實(shí)情況在變化:《哪吒》《黑神話》、DeepSeek、宇樹,更多案例在出現(xiàn)。那么再過五年、十年呢?”
晚點(diǎn):后來怎么開始光年之外的?
曹越:加入智源一段時(shí)間后,ChatGPT 就出來了,國內(nèi)形勢(shì)瞬間巨變。之前可能大家都沒有覺得我加入智源是一個(gè)正確的選擇。
再后來就是王慧文在朋友圈發(fā)英雄帖招募創(chuàng)業(yè)伙伴,真正點(diǎn)燃了國內(nèi)這一波大模型熱潮。
晚點(diǎn):你和王慧文是清華校友,你們之前認(rèn)識(shí)嗎?
曹越:不認(rèn)識(shí)。在 ChatGPT 出來之后到認(rèn)識(shí)老王之前,我已經(jīng)明確知道這是一個(gè)大機(jī)會(huì),而且還有很大提升空間。我當(dāng)時(shí)也意識(shí)到,不管過去是做計(jì)算機(jī)視覺還是 NLP(自然語言處理)的,都可以參與進(jìn)來。
因?yàn)槲乙蜒芯?OpenAI 一段時(shí)間了,他們的方法論和過去都不同,并不是帶著先驗(yàn)的人為經(jīng)驗(yàn)去看特定任務(wù),而是前面提到的——去思考怎么設(shè)計(jì)一個(gè) scalable 的系統(tǒng),使它可以最大化壓榨算力。
我也在想,我自己能怎么參與這個(gè)事?這首先需要做模型的能力,不僅是能復(fù)現(xiàn),而且要能做前沿探索;還要考慮錢從哪兒來,后續(xù)怎么產(chǎn)品化,組織應(yīng)該怎么建。
晚點(diǎn):所以這時(shí)你已經(jīng)在考慮自己創(chuàng)業(yè)了?
曹越:琢磨過。但結(jié)論是,這件事復(fù)雜度很高,我自己當(dāng)時(shí)的能力,在于構(gòu)建一個(gè)能訓(xùn)模型的組織,在其它方面缺的很多。所以和老王聊過后,感覺一拍即合。
晚點(diǎn):他應(yīng)該聊了很多人,為什么選擇了你?
曹越:是,他每聊一個(gè)人就會(huì)問:你在這個(gè)領(lǐng)域最推薦我繼續(xù)和誰聊?他幾乎把當(dāng)時(shí)國內(nèi)比較好的研究者都聊了一遍。為什么選我?好像沒具體提過。可能的原因之一是,我之前就從 MSRA 加入了智源,展現(xiàn)了更多對(duì)這個(gè)大方向的 conviction(確信)。
晚點(diǎn):所以王慧文當(dāng)時(shí)也和梁文鋒聊過?
曹越:應(yīng)該是有。我 23 年 3 月那會(huì)兒其實(shí)只跟老王和梁文鋒聊過。
晚點(diǎn):你和梁文鋒聊的契機(jī)是?
曹越:也是他找過來。那是 DeepSeek 的籌備期,梁文鋒當(dāng)時(shí)也和國內(nèi)很多研究者都聊了一遍。不過我見他時(shí),已經(jīng)答應(yīng)老王了。
晚點(diǎn):你前面也提到和王慧文是一拍即合,具體怎么契合法?
曹越:我第一次見老王收獲就非常多,明顯能感到這個(gè)人非常強(qiáng),認(rèn)知很深,也有很多實(shí)戰(zhàn)經(jīng)驗(yàn)。
當(dāng)時(shí)我長期在思考的一個(gè)問題是:為什么中國沒有出現(xiàn)像 OpenAI 這樣的組織?我也問了老王這個(gè)問題,他很快給了一個(gè)答案:因?yàn)閲鴥?nèi)這些互聯(lián)網(wǎng)公司,或者說我們的發(fā)展階段,導(dǎo)致我們 “不夠富”。
就是說,當(dāng)我們處于追趕階段時(shí),前面有明確的目標(biāo),你只需要以更快的速度追上,在這個(gè)階段,ROI(投資回報(bào)率)最高的是效率創(chuàng)新、模式創(chuàng)新,而非原創(chuàng)性創(chuàng)新。
而當(dāng)你越來越接近前沿時(shí),前面幾乎沒人了,方向感會(huì)變?nèi)酢_@時(shí),各個(gè)維度都需要思維轉(zhuǎn)換:
對(duì)創(chuàng)業(yè)者:追趕和原創(chuàng)性創(chuàng)新需要不一樣的能力。
對(duì)投資人,之前大家追求投 “看明白了” 的事,或 Copy to China 的項(xiàng)目。而現(xiàn)在,這類項(xiàng)目越來越少了;當(dāng)更原創(chuàng)、有風(fēng)險(xiǎn)的 idea 放到你面前,你敢不敢投?
還有整個(gè)社會(huì)對(duì)失敗的態(tài)度:原創(chuàng)性探索相比更確定性的追趕肯定會(huì)有更多失敗,但失敗中會(huì)涌現(xiàn)成功。失敗能不能得到更多包容?失敗的公司怎么退出?
相當(dāng)于整個(gè)鏈路和生態(tài)都得變化。老王當(dāng)時(shí)的認(rèn)知是很深的。到 2025 年再看,確實(shí)情況在變化:《哪吒》《黑神話》、DeepSeek、宇樹,更多案例在出現(xiàn)。那么再過五年、十年呢?我自己對(duì)未來很樂觀,我能明確感到我們處在一個(gè)轉(zhuǎn)換階段。
晚點(diǎn):你問王慧文 “為什么中國沒出現(xiàn) OpenAI?” 他說 “不夠富”;而梁文鋒做 DeepSeek 時(shí),剛好是相對(duì)富的狀態(tài)。
曹越:如果沒記錯(cuò)的話,23 年初聊的那次,梁文鋒當(dāng)時(shí)的想法就是希望能在國內(nèi)做一個(gè) OpenAI 這樣的組織,在相當(dāng)長一段時(shí)間里不以商業(yè)化為目標(biāo)。他也認(rèn)為中國需要越來越多原創(chuàng)式的創(chuàng)新。
晚點(diǎn):光年之外這段經(jīng)歷中,哪些判斷和做法是你自己現(xiàn)在創(chuàng)業(yè)依然保持的?哪些會(huì)去調(diào)整?
曹越:對(duì)人的判斷沒有變:就是招募那些畢業(yè) 3-5 年或即將畢業(yè)的 PhD(博士生),他們沉浸一線、能力出色、學(xué)習(xí)狀態(tài)處于巔峰;不用太在意他之前到底是做 NLP、視覺還是語音。這一點(diǎn)現(xiàn)在可能是共識(shí)了,但每個(gè)公司意識(shí)到的時(shí)間不太一樣。在 23 年時(shí),光年之外和 DeepSeek 已經(jīng)是這樣招人。所以當(dāng)時(shí)這兩家公司的人才競(jìng)爭最多。
另一個(gè)經(jīng)驗(yàn)是,CEO 的壓力還是非常大,所以要照顧好自己身體,控制焦慮。
晚點(diǎn):這有什么方法嗎?
曹越:對(duì)我來說,最有效的方法是思考一些人生層面的大問題,它其實(shí)能促使你去關(guān)注過程本身。
晚點(diǎn):之前我們聊到,今年 3 月 DeepSeek 大火后,你和梁文峰又見過。這緩解了你的焦慮,為什么會(huì)如此?
曹越:當(dāng)時(shí)外界對(duì) DeepSeek 很亢奮,但他自己挺平靜。其實(shí)在那個(gè)狀態(tài)下,要保持平常心超級(jí)難。我見過他后,也會(huì)有意少去關(guān)注那些可能給我輸入噪音的渠道。
“創(chuàng)業(yè)后,突然感覺什么都對(duì)了”
“這件事的另一面是,極致地追求個(gè)人成長。就像芒格說的:要得到你想要的某樣?xùn)|西,最可靠的辦法是讓你自己配得上它。”
晚點(diǎn):光年之外結(jié)束時(shí),至少對(duì)外界來說是非常突然的。你當(dāng)時(shí)是什么感受?
曹越:沒能繼續(xù)往前走,肯定會(huì)有失落。但那時(shí)我和袁老師(袁進(jìn)輝)還要處理很多事,包括組織里的同學(xué)后續(xù)怎么平滑過渡等等。所以靜下來是過了一段時(shí)間了。
晚點(diǎn):那應(yīng)該是 2023 年夏天之后,你開始籌劃創(chuàng)立 Sand.ai 了。這是一個(gè)怎樣的過程?
曹越:那時(shí)在廣泛地看,是應(yīng)該自己創(chuàng)業(yè),還是再加入一家公司。后來還是決定自己創(chuàng)業(yè),看了一些方向后決定做 AI 視頻生成。
這是一個(gè)找交集的過程:什么事會(huì)讓自己興奮?有沒有合適的團(tuán)隊(duì)一起做?這個(gè)領(lǐng)域是否空間夠大?同時(shí)未來還有巨大提升空間?
晚點(diǎn):這有點(diǎn)像你做研究時(shí)選 topic 的思路:重要的,且有巨大提升空間的?
曹越:是的,AI 視頻生成當(dāng)時(shí)還比較早期,Sora(第一代)還沒出現(xiàn);它的潛力非常大,技術(shù)側(cè)如此,商業(yè)側(cè)也是:它是一個(gè)你在解鎖不同能力后,就能解鎖不同場(chǎng)景和需求的方向,能持續(xù)很長時(shí)間。
晚點(diǎn):為什么沒有再加入一家公司?
曹越:經(jīng)歷光年之外后,很難再加入一家其它公司。老王一開始找的人都非常對(duì),他找人的方法很對(duì),從技術(shù)側(cè)的 Infra、模型再到產(chǎn)品、融資、商業(yè)化的完整性也很強(qiáng)。我們?cè)谌魏尉S度都不輸其它公司。我也不知道這個(gè)心態(tài)對(duì)不對(duì),但當(dāng)時(shí)真實(shí)感受就是,我很難決定再加入另一家公司。
晚點(diǎn):創(chuàng)業(yè)本身對(duì)你的吸引力是什么?
曹越:我發(fā)現(xiàn)創(chuàng)業(yè)特別適合我,突然感覺什么都對(duì)了。你應(yīng)該能感覺到,我不是一個(gè)非常典型的研究者。相比把一件事鉆得特別深,我更關(guān)注領(lǐng)域的大方向,關(guān)注人和組織。雖然科研也做得還不錯(cuò),但我也沒有強(qiáng)烈地想去拿教職。
那段時(shí)間我也一直在想自己是個(gè)什么樣的人?最核心的自我覺察是:ambitious,這是我的底層驅(qū)動(dòng)力。
晚點(diǎn):Ambitious 之于你具體意味著什么?是想做成一件事兒,還是想贏?
曹越:是希望能做成一件對(duì)世界有很大影響力的事。這件事的另一面是,極致地追求個(gè)人成長。就像芒格說的:“要得到你想要的某樣?xùn)|西,最可靠的辦法是讓你自己配得上它。” 當(dāng)你能對(duì)事物能有深刻認(rèn)知,并能充分訓(xùn)練自己的能力,你才有可能做出對(duì)世界有巨大影響力的事。
回溯自己過去 5 到 10 年的各種決策 ,我發(fā)現(xiàn)都是由 ambition 驅(qū)動(dòng)的:比如看到 OpenAI 的 CLIP 和 DALL-E 時(shí),有人的反應(yīng)是 “這事我做不了,我就說它不好”。而我的第一反應(yīng)是:為什么我們做不了?難道我們就比他們笨,比他們菜嗎?我覺得不是,這和組織方式有關(guān)。當(dāng)我看到和自己技能相似的人能做出非常大的成就時(shí),我希望自己也能做出有類似影響力的事。
所以真的了解創(chuàng)業(yè)后,突然感覺什么都對(duì)了:它需要一個(gè)人有相對(duì)全面的能力,它的天花板也非常高,能做成的事情非常多樣化;它對(duì)一個(gè)人的考驗(yàn)也是地獄模式,會(huì)促使個(gè)人極致成長。
晚點(diǎn):你選擇 AI 視頻,和它不在核心大模型公司的最主軸有關(guān)嗎?
曹越:競(jìng)爭是一個(gè)維度,但不是決策的主軸。本質(zhì)還是因?yàn)?AI 視頻方向的技術(shù)和商業(yè)天花板都很高。它在那個(gè)階段甚至都沒有好用的模型。所以它非常適合我這樣模型背景的創(chuàng)始人。而直接做大語言模型,那個(gè)時(shí)間點(diǎn)肯定比較晚了。
晚點(diǎn):Sand.ai 正式成立、運(yùn)營是 2024 年 1 月,正式發(fā)布第一個(gè)模型 Magi-1 是 2025 年 4 月,為什么花了一年多這么久?
曹越:因?yàn)槲覀冞x擇了自回歸(Autoregressive)這個(gè)路線。還是低估了這個(gè)路線的難度。
晚點(diǎn):為什么選擇自回歸?為什么它做起來比較難?
曹越:學(xué)界做自回歸比較早。GPT 出現(xiàn)后,一些團(tuán)隊(duì)在 2020 年、2021 年就在嘗試。當(dāng)時(shí)大家對(duì)自回歸的理解是,用一個(gè)模型結(jié)構(gòu)同時(shí)處理語言、圖像和視頻。但也是因?yàn)樗驼Z言模型端到端地做在一起,所以一開始的效果沒有一些傳統(tǒng)的擴(kuò)散模型好。
我們 24 年用自回歸做視頻生成時(shí),是認(rèn)為視頻的數(shù)據(jù)類型天然就是持續(xù)順序播放的,這和語言類似,語言也是順序去看的。能最大化壓縮語言信息的訓(xùn)練方式就是預(yù)測(cè)下一個(gè) Token。對(duì)視頻而言,最大化壓縮視頻信息的方法是不是也是持續(xù)順序地做預(yù)測(cè)?時(shí)至今日,我也覺得這個(gè)直覺是對(duì)的。
但是這個(gè)思路很新,沒有好的 reference(參考)。探索過程中,在數(shù)據(jù)、算法、Infra、預(yù)訓(xùn)練、后訓(xùn)練、評(píng)測(cè)環(huán)節(jié),都要做非常多從 0 到 1 的工作,而且每個(gè)環(huán)節(jié)都得做到極致,效果才會(huì)好,這對(duì)一個(gè)剛搭建的團(tuán)隊(duì)挑戰(zhàn)很大,也確實(shí)會(huì)面臨人手短缺。
晚點(diǎn):你們?cè)?24 年到 25 年做 Magi-1 時(shí),有多少人?
曹越:三四十人。在那個(gè)階段,一方面是對(duì)業(yè)務(wù)側(cè)的敏感度不夠——業(yè)務(wù)還是需要交付快、迭代快;另一方面,是有些低估做一個(gè)新型模型的難度。最終導(dǎo)致了 Magi-1 發(fā)布時(shí)間相對(duì)晚。
晚點(diǎn):這是否讓你們錯(cuò)過了一些業(yè)務(wù)窗口?
曹越:純畫面、單個(gè)素材的生成此前就已經(jīng)卷到了一個(gè)相對(duì)收斂的階段。今年涌現(xiàn)的新能力是音畫同出、敘事。
之前訓(xùn)練 Magi-1 的經(jīng)驗(yàn),讓組織依然有能力訓(xùn)一個(gè)不錯(cuò)的自回歸模型;同時(shí)在新階段,我們希望能做好以人物表演能力為核心的視頻生成模型。算法側(cè)會(huì)以更快交付和迭代為目標(biāo),這是和做 Magi-1 時(shí)不太一樣的。
現(xiàn)在的關(guān)鍵是要抓住音畫同出的這個(gè)窗口。對(duì)專業(yè)創(chuàng)作者而言,音畫同出能力可以生成非常真實(shí)的人物。而對(duì)大眾消費(fèi)者,它能比較低門檻地去生成一個(gè)好看、好玩、可以傳給朋友的視頻,可消費(fèi),能社交。
“Sora 2 是一個(gè)端到端的模型,OpenAI 是一個(gè)端到端的組織”
“OpenAI 做到了從產(chǎn)研到模型的較好垂直整合:在對(duì)齊目標(biāo)后,產(chǎn)品需求的梯度可以回傳到模型團(tuán)隊(duì)。”
晚點(diǎn):剛好在我們這次聊的幾天前,OpenAI 突然發(fā)布 Sora 2 和 Sora App,它的特點(diǎn)就是音畫同出,而且有一些社交玩法。我知道你第一時(shí)間用了這個(gè)產(chǎn)品,最大的感受是什么?
曹越:模型層面 Sora 2 有 3 個(gè)特性:音畫同出、能保人物 ID,但最讓我驚艷的還是,它在一個(gè)約 10 秒的時(shí)長里做到了基礎(chǔ)敘事,因?yàn)樗蟹昼R能力。而之前更主流的思路是用 Agent 來實(shí)現(xiàn)敘事,比如一個(gè)語言模型負(fù)責(zé)腳本;一個(gè)分鏡模型負(fù)責(zé)分鏡生圖,然后圖生視頻;再有配樂的相應(yīng)模型等等。
OpenAI 非常創(chuàng)新的一點(diǎn)是,它用一個(gè)端到端的模型直出了帶敘事的 10 秒短片。
晚點(diǎn):這是不是和 Sora 2 更重視 C 端用戶有關(guān)。因?yàn)楦鼘I(yè)的影像內(nèi)容制作者可能需要 Agent 這種方式去更精細(xì)地控制美術(shù)風(fēng)格、分鏡和聲音。
曹越:可能是一個(gè)反過來的過程,有了模型能力提升,才聯(lián)想到了 C 端場(chǎng)景。
為什么之前大家傾向 Agent?因?yàn)樵缙谀P筒荒芤舢嬐觯膊荒芊昼R。這時(shí),一個(gè)視頻生成模型只是制作流程里的一環(huán),仍需要人來設(shè)計(jì)腳本、分鏡和配樂……從這個(gè)工作流延伸,自然的思路是,能否用 Agent 去替代人?
但 OpenAI 的思路是,為什么不能讓模型端到端直出敘事能力?這是一個(gè)大變化。當(dāng)然它的前置條件還是模型進(jìn)展——只有畫面、沒有聲音的視頻,一般人是不想看的。最早做出音畫同出的人更有可能最先意識(shí)到,原來模型可以直出一個(gè) C 端可消費(fèi)的視頻。
晚點(diǎn):你覺得 OpenAI 是怎么實(shí)現(xiàn)端到端完成敘事能力的?
曹越:這次的技術(shù)報(bào)告很模糊,我推測(cè),Sora 2 仍基于 Diffusion (擴(kuò)散模型),但不能確定是雙向的還是單向的。不過從技術(shù)上,這些進(jìn)展都可以預(yù)期,沒有什么石破天驚的 idea:Google 5 月發(fā)的 Veo 3 已能音畫同出;而保人物 ID,關(guān)鍵是視覺和聲音的一致性,這也是被研究已久的方向。即使是敘事能力,在 Sora 之前也有模型已具備分鏡功能,Sora 2 確實(shí)分鏡做得更好。
真正讓我有認(rèn)知迭代的是 OpenAI 的組織力。我個(gè)人認(rèn)為,OpenAI 做到了從產(chǎn)研到模型的較好垂直整合:就是在對(duì)齊目標(biāo)后,產(chǎn)品需求的梯度是可以回傳到模型團(tuán)隊(duì)的。整個(gè)組織就是 “端到端” 的。
當(dāng)產(chǎn)品想實(shí)現(xiàn)某個(gè)能力時(shí),他們的第一反應(yīng)不是通過模型組合或產(chǎn)品側(cè)研發(fā)來達(dá)到目的,而是問:能不能把它直接做到模型里?
具體到 Sora 2,他們也許在某一階段對(duì)齊了目標(biāo),是要做 “敘事短片”,接著模型團(tuán)隊(duì)定義內(nèi)部 benchmark(基準(zhǔn)),然后通過模型側(cè)優(yōu)化完成目標(biāo),釋放能力。
我感覺,OpenAI 里,很多人共有的一種解決問題的哲學(xué)就是,如果一個(gè)問題有機(jī)會(huì)被端到端解決,就應(yīng)該優(yōu)先被端到端解決。
其實(shí)回顧大語言模型,OpenAI 也有類似的脈絡(luò):在 2020 年 6 月 GPT-3 出現(xiàn)后,OpenAI 的階段性重點(diǎn)就是把 GPT-3 對(duì)齊成普通人能用起來的界面。這其實(shí)就是一次垂直整合,是從需求側(cè)去看怎么用 GPT-3,所以有了之后的 InstructGPT,有了整個(gè)后訓(xùn)練過程,再到 SFT(監(jiān)督微調(diào))和 RL(強(qiáng)化學(xué)習(xí))。這是一個(gè)你有了基礎(chǔ)模型后,怎么讓人用起來的過程。(注:2022 年 1 月對(duì)外公布的 InstructGPT 在 GPT-3 基礎(chǔ)上,引入了基于人類反饋的強(qiáng)化學(xué)習(xí)即 RLHF,讓模型能生成更符合人類意圖、習(xí)慣和偏好的回答。)
這體現(xiàn)了 OpenAI 當(dāng)時(shí)就擁有一種產(chǎn)品 sense,或者說,是從模型到產(chǎn)品的端到端優(yōu)化能力。
Gaga-1 專注解決人物表演,這是敘事內(nèi)容最大的卡點(diǎn)
“之前大家在群聊里斗表情包,當(dāng)視頻生成足夠簡單,也可以斗視頻。”
晚點(diǎn):Sand.ai 也在十一之后發(fā)了新模型 Gaga-1,它的特點(diǎn)是什么?
曹越:我們的新模型能音畫同出,主要聚焦人物說話和表演。這之前,只有畫面的視頻生成內(nèi)容只能滿足敘事片中的 B-roll(如空鏡、轉(zhuǎn)場(chǎng)等),但對(duì) A-roll(有人物和角色表演的部分)就不行了。比如先生成畫面再用 AI 對(duì)口型,看起來會(huì)很怪,很難跨越 “恐怖谷”,達(dá)不到普通人的消費(fèi)門檻。而大家消費(fèi)的絕大多數(shù)視頻里,一半以上的畫面都是人。很多短劇、廣告片從業(yè)者也告訴我們,過去模型最大的卡點(diǎn)就是 “人物太假,沒有表演”。
所以今年年中開始做這一代模型時(shí),我們的目標(biāo)就是優(yōu)先解決好人物表演,這需要做好人物一致性、情緒表達(dá)、音畫同出等能力。
晚點(diǎn):在那個(gè)時(shí)間點(diǎn),這個(gè)洞察是行業(yè)共識(shí),還是一個(gè)相對(duì)獨(dú)特的判斷?
曹越:從結(jié)果看,當(dāng)時(shí)大家并不是都把這個(gè)當(dāng)重點(diǎn)。這背后是,你到底是從需求出發(fā),還是從技術(shù)出發(fā)?我們認(rèn)為應(yīng)該更多從需求出發(fā);同時(shí)能做技術(shù)判斷,知道什么可實(shí)現(xiàn)、什么不可實(shí)現(xiàn),這就更容易找到需求和模型的契合點(diǎn)。
晚點(diǎn):Gaga-1 服務(wù)的用戶是誰?優(yōu)先級(jí)排序是怎樣的?
曹越:有兩類,第一類就是敘事內(nèi)容的專業(yè)創(chuàng)作者,比如 AI 短劇、投放素材、廣告宣傳片的制作者。這些內(nèi)容都需要生動(dòng)的人物表演。
第二類就是不同 C 端消費(fèi)者,當(dāng)視頻可以音畫同出時(shí),它對(duì)普通人真的到了一個(gè) for fun 的臨界點(diǎn)。之前大家在群聊里斗表情包,那當(dāng)視頻生成足夠簡單,也可以 “斗視頻”;過去用語言表達(dá)不足以傳遞的情緒、情感,也可以用視頻,這是一個(gè)天然的社交傳播場(chǎng)景。
目前短劇制作者等相對(duì)專業(yè)的用戶優(yōu)先級(jí)最高,我們 10 月 11 日發(fā)布的 Gaga 線上產(chǎn)品,就能讓大家能充分體驗(yàn)?zāi)P湍芰Α?/p>
晚點(diǎn):什么時(shí)間點(diǎn)可能會(huì)做 C 端產(chǎn)品?
曹越:正在計(jì)劃中。我們目前認(rèn)為,模型具備敘事能力后再做 C 端比較合適。它很有可能是個(gè) APP,但需要花更多時(shí)間打磨定位,它也會(huì)是一個(gè)從模型到產(chǎn)品的端到端設(shè)計(jì)。OpenAI 確實(shí)給大家提供了很多啟發(fā)。
晚點(diǎn):你們現(xiàn)在的重點(diǎn)用戶是敘事內(nèi)容制者,他們很看重成本,Gaga-1 能做到什么水平?
曹越:我們場(chǎng)景相對(duì)聚焦,所以這代模型成本控制得比較好,不到 Sora 最便宜版本的 1/10。在這之前,實(shí)際上做一部 AI 短劇,即使表演還不太好的情況下,它和實(shí)拍間的成本差距也沒有那么大。(注:Sora 2 最便宜的標(biāo)準(zhǔn)版,每秒收費(fèi) 0.10 美元,可生成 720p 分辨率的視頻。)
晚點(diǎn):短劇之前實(shí)拍成本是多少?現(xiàn)在你們的模型能幫助降到多少?
曹越:21 年左右,實(shí)拍一部總長 60 到 100 分鐘的短劇,總成本是 10 萬左右。后來行業(yè)卷起來了,到 23 年大概要 30-40 萬,甚至更高,現(xiàn)在略有回落。
而如果用 AI 做,之前主流價(jià)格是每分鐘 2000 到 5000 元,一部劇的大致成本在 20-40 萬元。但問題是,即使花了這么多錢,AI 短劇的質(zhì)量還是沒法和實(shí)拍比。而在我們現(xiàn)在已經(jīng)做到了 1 分鐘 1 美元以下,還有盈利空間,成本下降了非常多。
晚點(diǎn):Gaga-1 的發(fā)布時(shí)間剛好趕上 Sora 2 之后,這對(duì)你們是怎樣的影響?前段時(shí)間我也和 Lovart 陳冕聊了 Sora,他認(rèn)為巨頭會(huì)加速投入類似的 AI to C 和社交產(chǎn)品,因?yàn)樽龀傻氖找婧芨撸e(cuò)過的代價(jià)又太大。這會(huì)不會(huì)擠壓小公司 “猥瑣發(fā)育” 的空間?
曹越:沒有 Sora,整個(gè)視頻方向也很受重視,本來就挺難 “猥瑣發(fā)育”。但坦率說,大公司雖然投入很大,但動(dòng)作不會(huì)那么快。同時(shí),Sora App 是否真是一個(gè) C 端平臺(tái)機(jī)會(huì),還需要觀察。我認(rèn)為,新 C 端平臺(tái)至少有兩個(gè)直接條件:是否是一種新的內(nèi)容形態(tài),是否有新的傳播鏈路。到目前為止,Sora 在這兩點(diǎn)上沒有顛覆性的表現(xiàn),它還是更像一個(gè)工具,很多人會(huì)用 Sora 做好視頻,再發(fā)到朋友圈、小紅書、抖音、快手。
晚點(diǎn):你會(huì)以哪些指標(biāo)去觀察 Sora 未來能否成為一個(gè) C 端新平臺(tái)?
曹越:最關(guān)鍵的還是留存,至少能先滿足一部分人的長期需求。再往后它能不能成為一個(gè)大的 C 端平臺(tái)?現(xiàn)在沒有人有答案。
垂直整合組織的核心就是:不同背景的人能對(duì)齊上下文
“產(chǎn)品的人更理解模型,模型的人更理解產(chǎn)品。”
晚點(diǎn):從 Magi-1 到 Gaga-1,Sand.ai 經(jīng)歷了從更側(cè)重模型驅(qū)動(dòng),到產(chǎn)品需求和模型訓(xùn)練做 “垂直整合” 的轉(zhuǎn)變,這是怎么發(fā)生的?
曹越:核心還是在于,對(duì)創(chuàng)業(yè)公司,跑通 PMF(產(chǎn)品市場(chǎng)契合)更重要。過于強(qiáng)調(diào)技術(shù)驅(qū)動(dòng),可能很難取得階段性的用戶或商業(yè)化目標(biāo);但如果完全從需求出發(fā),又有可能技術(shù)落后。怎么平衡這兩部分是最難的。
晚點(diǎn):邏輯上好像理應(yīng)如此。但為什么一開始很難做到?
曹越:這個(gè)階段本質(zhì)還是技術(shù)驅(qū)動(dòng)的。懂 PMF(產(chǎn)品市場(chǎng)契合)產(chǎn)品經(jīng)理或商業(yè)化的人,需要時(shí)間去理解模型的邊界和發(fā)展方向;而做模型的人,特別是最頂尖的那批人,他們之前大部分沒做過產(chǎn)品和業(yè)務(wù)。兩邊都要去補(bǔ)另一邊的能力。我自己就花了很多時(shí)間去學(xué)習(xí)怎么做產(chǎn)品化、商業(yè)化,怎么做組織。我目前的認(rèn)知是:需要建立一個(gè)更 “端到端優(yōu)化” 的組織,也就是一個(gè)垂直整合的組織。
晚點(diǎn):有了這個(gè)認(rèn)知后,你自己和你們團(tuán)隊(duì)有什么變化?
曹越:核心就是把模型、產(chǎn)品和運(yùn)營的人混合起來。其實(shí)就是讓大家有更多交流,“對(duì)齊上下文”。比如讓你認(rèn)為技術(shù)和產(chǎn)品的最關(guān)鍵的人之間相互 one-on-one(1 對(duì) 1 溝通);讓我自己成為一個(gè)重要的分發(fā)中心——作為算法出身的人,我今年花了最多時(shí)間在產(chǎn)品運(yùn)營。這樣,至少跟我溝通的人,上下文都是非常對(duì)齊的,組織里其它同學(xué)再和他們對(duì)齊。
我覺得一個(gè)垂直組織最核心的就是:不同背景的人,能逐漸對(duì)齊共同的上下文。產(chǎn)品的人更理解模型,模型的人更理解產(chǎn)品。
晚點(diǎn):你現(xiàn)在怎么看 “模型即產(chǎn)品”?
曹越:最早大家說 “模型即產(chǎn)品”,是表達(dá)不需要在產(chǎn)品和運(yùn)營側(cè)過多 “雕花”,稍微有點(diǎn)兒產(chǎn)品要跟著模型走的意思。早期時(shí)可能確實(shí)如此,產(chǎn)品就是為了最大化展現(xiàn)模型能力,而不要加入太多產(chǎn)品側(cè)先驗(yàn)。
但垂直整合比這要更進(jìn)一步,如果產(chǎn)品設(shè)計(jì)得足夠好,它不僅能展現(xiàn)模型能力,也能在能力相似的情況下,放大模型體驗(yàn)。Sora 2 里的 Cameo 就是個(gè)例子:這首先來自模型現(xiàn)在能音畫同出,所以你可以把人植入進(jìn)去。那這怎么成為一個(gè) C 端產(chǎn)品功能點(diǎn)?OpenAI 做了一系列設(shè)計(jì):邀請(qǐng)碼拉新、@ 熟人合拍、Cameo 授權(quán)分層等。模型和產(chǎn)品互相放大。所以在現(xiàn)在這個(gè)階段,產(chǎn)品也有很多可以迭代的空間。
晚點(diǎn):在 Gaga-1 和對(duì)應(yīng)的產(chǎn)品上,你們自己是怎么實(shí)踐“垂直整合”的?
曹越:新模型的核心是能夠生成逼真的人物表演。然后是這個(gè)目標(biāo)實(shí)現(xiàn)后,哪些功能特別重要。一個(gè)例子是保 ID,就是人物形象、樣貌、音色的一致性。
這些表象變化的背后還是組織的垂直整合,是從產(chǎn)品到模型,先對(duì)齊了 “人物表演”、“保 ID” 這些優(yōu)先級(jí)。如果是純產(chǎn)品公司,只能調(diào)模型 API,它首先很難根據(jù)產(chǎn)品側(cè)對(duì)功能的優(yōu)先級(jí),去調(diào)整模型優(yōu)化方向,同時(shí),也很難通過模型側(cè)去優(yōu)化去實(shí)現(xiàn)其它產(chǎn)品沒有的獨(dú)特用戶體驗(yàn)。
從研究員到 CEO
“沒有喜歡或不喜歡,更像是兩個(gè)角色之間存在夾角,需要時(shí)間去磨合。”
晚點(diǎn):我知道你除了通過和人聊來學(xué)習(xí)、思考之外,也很喜歡和大語言模型聊。你和 Gemini 聊得挺多的。
曹越:全球最強(qiáng)的模型已經(jīng)非常強(qiáng)了,只是很多人還沒意識(shí)到這一點(diǎn)。
我上一次明確感受到它的能力,是今年 5 月我們團(tuán)隊(duì)在討論一個(gè)算法問題,有人把問題丟給了 Gemini 2.5 Pro,它不僅補(bǔ)全了討論中被忽略的部分,還提出了一個(gè)相當(dāng)靠譜的解決方案。我們當(dāng)時(shí)開玩笑說這是 Vibe Research。
之后我開始經(jīng)常和它討論,發(fā)現(xiàn)了幾個(gè)有意思的地方:
第一,人類思考常靠類比,但類比是危險(xiǎn)的,因?yàn)閮蓚€(gè)事物間既有相似也有不相似。語言模型特別擅長拆解類比——它能準(zhǔn)確指出兩者的關(guān)聯(lián)、不關(guān)聯(lián),以及原因,讓你看到那個(gè) “看似相關(guān)、其實(shí)不然” 的結(jié)構(gòu)。
第二,它是一個(gè)極強(qiáng)的結(jié)構(gòu)化工具。比如我思考一個(gè)問題,會(huì)把想到的零散點(diǎn)輸入給模型,它能迅速把碎片整理成有邏輯的結(jié)構(gòu)。
所以它已經(jīng)成了我的思考伙伴,“Gemini 老師”。每天我可能會(huì)花一兩個(gè)小時(shí)跟它聊各種問題,它能不斷拋出新視角,幫我理解得更本質(zhì)。
晚點(diǎn):你會(huì)信任大模型更勝于人嗎?比如當(dāng)一個(gè)人和 Gemini 給你講同一個(gè)觀點(diǎn)時(shí),你的反應(yīng)會(huì)有何不同?
曹越:人與人之間最難的,是對(duì)齊上下文。當(dāng)我說出一個(gè)想法時(shí),背后有大量前提,但我只能把它壓縮成幾十個(gè)字,聽的人也只能接收這幾十個(gè)字。要真正對(duì)齊,我們得花半小時(shí)、一小時(shí)去補(bǔ)全背景,對(duì)雙方都很消耗。
而語言模型在這點(diǎn)上非常強(qiáng)。比如產(chǎn)品同學(xué)和算法同學(xué)討論時(shí),一段話里可能有三四個(gè)需要背景知識(shí)的概念;算法同學(xué)就可以把這段話發(fā)給模型,告知模型說話人的背景,讓它補(bǔ)全語境,幫助理解。我會(huì)帶頭這么做。
所以這不是更信任誰的問題,而是模型能顯著降低人與人交流的摩擦,橋接人和人之間的認(rèn)知差。這是一種底層變革,多數(shù)人還沒意識(shí)到這一點(diǎn)。
晚點(diǎn):這是不是本身也可以被做成 AI 應(yīng)用?
曹越:我知道一些朋友在做類似的,比如 AI 約會(huì)助手 app——男生截一張聊天問模型:“她這話什么意思?” 女生也會(huì)問 “他在暗示什么?” 這個(gè)場(chǎng)景的本質(zhì)就是幫人補(bǔ)齊上下文。
上下文差異和兩件事有關(guān):一是人與人的背景差異:性別、文化、成長環(huán)境;二是和聊的話題有關(guān),比如算法同學(xué)聽產(chǎn)品術(shù)語,可能晦澀,反之亦然。而語言模型掌握世界上幾乎所有的公共知識(shí),所以能比大多數(shù)人更快聽懂另一個(gè)人說什么。
晚點(diǎn):你最近和一些真人交流,有什么收獲和啟發(fā)?
曹越:現(xiàn)在應(yīng)該能體會(huì)到,和人交流的啟發(fā)沒有和 Gemini 大(笑)。
其實(shí)最直接的收獲來自潛在客戶,前陣子和影視行業(yè)一位前輩聊,他說了一句讓我印象很深的話:“所有內(nèi)容的終局都是敘事。” 敘事是讓內(nèi)容成立的基本結(jié)構(gòu):短視頻最早是 “記錄美好生活”,后來是卷觀看體驗(yàn),哪怕只有 15 秒;包括你做一個(gè) up 主,人設(shè)也是一種敘事。
晚點(diǎn):你之前有一段時(shí)間的微信簽名是:“想想伊利亞(Ilya,OpenAI 前首席科學(xué)家)怎么想?” 現(xiàn)在的學(xué)習(xí)對(duì)象發(fā)生了什么變化?
曹越:那是我研究 OpenAI 比較多的那幾年。現(xiàn)在我會(huì)想得更廣——老王、一鳴、李想、雷軍……從這些人的思維方式里抽象出他們看問題的角度。最開始也許只能體會(huì)其中一層,但可以在實(shí)踐里繼續(xù)驗(yàn)證。
晚點(diǎn):你和王慧文一起創(chuàng)業(yè)時(shí),從他身上學(xué)到了什么?
曹越:我第一次和他聊到想做 AI 視頻方向時(shí),他就給了我一個(gè)建議:去研究一下皮克斯,這家公司的商業(yè)模式很好。皮克斯的啟發(fā)在于,它從圖形學(xué)技術(shù)出發(fā)做電影,票房只是第一步,更關(guān)鍵的是角色 IP 留在公司,可以長期運(yùn)營與變現(xiàn)。而真人電影的角色心智卻會(huì)被演員帶走,制片公司很難持續(xù)沉淀 IP 資產(chǎn)。所以皮克斯既有影視業(yè)的敘事生產(chǎn)屬性,又具備 IP 產(chǎn)業(yè)的可持續(xù)收益屬性,而且一切源于技術(shù)驅(qū)動(dòng)。
晚點(diǎn):從研究者到創(chuàng)業(yè)者的轉(zhuǎn)變中,哪些部分是你喜歡的?哪些部分是你不喜歡,但不得不適應(yīng)的?
曹越:這沒有喜歡或不喜歡,更像是兩個(gè)角色之間存在夾角,需要時(shí)間去磨合。從一開始更多琢磨什么技術(shù)影響力更大,到關(guān)注什么系統(tǒng)影響力更大,再到更多關(guān)注產(chǎn)品和商業(yè)價(jià)值。
晚點(diǎn):你現(xiàn)在最優(yōu)先級(jí)的工作是什么?
曹越:就是理解清楚 AI 視頻的方向,識(shí)別未來一段時(shí)間里的最大機(jī)會(huì);打造 Sand.ai 的組織,抓住這個(gè)機(jī)會(huì)。
晚點(diǎn):你已經(jīng)看到一些眉目了?
曹越:AI 視頻的核心邏輯,是語言、圖像、視頻、聲音等模型的能力進(jìn)化。它短期仍然更像一個(gè)工具型機(jī)會(huì)。但隨著模型越來越穩(wěn)定、輸出質(zhì)量越來越高,就有可能出現(xiàn) C 端機(jī)會(huì)。這在真正思考過行業(yè)的人之間應(yīng)該是共識(shí)。
沒有共識(shí)的是 timing(時(shí)機(jī)),這也是最判斷的,現(xiàn)在沒法講太多。本質(zhì)上就是你要在判斷時(shí)機(jī)后,提前為那個(gè)方向做準(zhǔn)備。這也考驗(yàn)組織的節(jié)奏感和行動(dòng)力。哪怕你判斷對(duì)了方向,如果組織的節(jié)奏跟不上,也會(huì)錯(cuò)過機(jī)會(huì)。所以我現(xiàn)在才特別關(guān)注組織。
晚點(diǎn):最后一個(gè)問題——分享一個(gè)你最近在思考、或者接下來想驗(yàn)證的問題。
曹越:我有時(shí)會(huì)想一個(gè)開放性問題:ASI(超級(jí)智能)什么時(shí)候會(huì)出現(xiàn)?當(dāng)它真的出現(xiàn),會(huì)以怎樣的方式改變世界?語言模型的智力水平其實(shí)在持續(xù)提升——如果粗略類比人類的智商曲線,它已經(jīng)從幾十提升到一百,未來可能到一千。它和人之間的差距,可能就像人和猴子的差距那么大。大人和小孩智力差別,已足以讓前者 “哄住” 后者。那么一個(gè)智力遠(yuǎn)超人類數(shù)倍的系統(tǒng),會(huì)如何看待和影響人類社會(huì)呢?
題圖來源:Sand.ai
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.