
他是SIGGRAPH 50年歷史上第一位、也是迄今唯一一位登上大會(huì)主題演講舞臺(tái)的中國(guó)人,與英偉達(dá)黃仁勛等行業(yè)領(lǐng)袖同臺(tái)。
他是MiniMax 001號(hào)員工,正當(dāng)大語言模型如火如荼之時(shí),轉(zhuǎn)身闖進(jìn)AI 3D無人區(qū)、把三維世界重新生成一遍的冒險(xiǎn)者。
他是只用兩年就帶領(lǐng)團(tuán)隊(duì)完成三輪(每輪都是數(shù)億元)融資、估值穩(wěn)居全球AI 3D大模型公司之首的創(chuàng)業(yè)者。
他要做的事,聽起來很瘋狂但是很美好——3D版的TikTok。
他是宋亞宸(Simon),VAST創(chuàng)始人兼CEO,他要打造世界最領(lǐng)先的AI 3D大模型。
這位1997年出生的年輕創(chuàng)業(yè)者,不到兩年,帶著團(tuán)隊(duì)把3D 大模型Tripo系列從技術(shù)原型,一路推到千萬級(jí)用戶手中:8秒圖文生3D、率先驗(yàn)證3D Scaling Law、參數(shù)直上200億,把3D生成式AI直接推入“IMAX 時(shí)代”。
技術(shù)猛進(jìn)的同時(shí),商業(yè)化也跑得一樣狠。截至2025年8月,VAST的年度經(jīng)常性收入(ARR)達(dá)到1200萬美元——行業(yè)領(lǐng)先。500萬左右的專業(yè)用戶,其中80%多來自海外。TO B端,有4萬多家中小企業(yè),約700多家大企業(yè)在使用他們的工具。
但所有這些“硬指標(biāo)”,都不是這個(gè)人最迷人的地方。
真正的反差在于——他用最硬核的科技,思考的卻是最古老的命題,如何讓人類獲得最大化幸福的總和。他獲得美國(guó)約翰霍普金斯大學(xué)國(guó)際關(guān)系學(xué)和經(jīng)濟(jì)學(xué)雙學(xué)士學(xué)位,同時(shí)熱衷于研究神學(xué)。
這也是為什么,在最容易“順勢(shì)而飛”的大模型賽道,他偏偏轉(zhuǎn)頭去做一個(gè)更難、幾乎沒人敢做的事情:讓AI不只生成視頻,而是重新生成“三維世界”。
善友教授說:“我的好朋友綠洲資本張津劍跟我提起他時(shí),?了?個(gè)詞,叫'?怪獸'。他說你一定要??這個(gè)孩?,他?上有種?常罕?的?命?。所以今天我把他邀請(qǐng)到了我的播客?。”
這個(gè)人,是“理念型創(chuàng)業(yè)者”,是那種你看一眼,就知道他會(huì)去把世界重新造一遍的人。在這場(chǎng)對(duì)話中,你會(huì)聽見:
他對(duì)AI 3D的透徹理解,屬于業(yè)內(nèi)罕見的精彩分析
他如何看待技術(shù)與“人的體驗(yàn)”的本質(zhì)關(guān)系
他宏大的愿景,每個(gè)人都能實(shí)時(shí)交互地活在“自己最愛的世界”
如果你想認(rèn)識(shí)一個(gè)真正“以商入道”的年輕創(chuàng)始人,如果你想真正看見一個(gè)年輕創(chuàng)業(yè)者如何跨學(xué)科地進(jìn)化、躍遷、覺醒——這期對(duì)談,你一定要完整收聽,知識(shí)密度極高。
歡迎點(diǎn)擊收聽完整版,一起走進(jìn)這只純粹而強(qiáng)大的“小怪獸”的世界。
![]()
![]()
緣起:“讓富有創(chuàng)意的人專注于創(chuàng)意本身”
李善友:我是在兩年前了解到你的。張津劍說,我們應(yīng)該陪伴一些“小怪獸”成長(zhǎng)。他說,有些年輕人擁有自己獨(dú)立的想法,始終積極向上,但在他們所處的環(huán)境中卻感到孤獨(dú)。他的話深深觸動(dòng)了我,也就是在那個(gè)時(shí)候,我就知道了你。你先簡(jiǎn)單介紹一下你創(chuàng)業(yè)的經(jīng)歷。
宋亞宸:我在2018年加入商湯科技,當(dāng)時(shí)我是協(xié)助徐立做一些工作(徐立是商湯聯(lián)合創(chuàng)始人、CEO,也是一位計(jì)算機(jī)視覺科學(xué)家)。選擇AI加動(dòng)畫這個(gè)領(lǐng)域,一方面是因?yàn)槲覀€(gè)人對(duì)游戲和動(dòng)畫非常感興趣,覺得這個(gè)領(lǐng)域很有意思;另一方面,我在做戰(zhàn)略分析時(shí)發(fā)現(xiàn)了一個(gè)核心問題。大家通常認(rèn)為動(dòng)畫、電影、游戲等是創(chuàng)意產(chǎn)業(yè),創(chuàng)意產(chǎn)業(yè)的邏輯很簡(jiǎn)單,誰最聰明、誰最有創(chuàng)意,誰就能脫穎而出。然而,我發(fā)現(xiàn)無論是中國(guó)還是全球的動(dòng)畫產(chǎn)業(yè),實(shí)際上都是一個(gè)勞動(dòng)密集型產(chǎn)業(yè),更像是“擰螺絲”的工作。
如果你去招聘動(dòng)畫師,收到的簡(jiǎn)歷大多來自八大美院的畢業(yè)生。這些美院畢業(yè)的學(xué)生本應(yīng)極具創(chuàng)意,但他們?cè)诠ぷ髦型獜氖乱恍┲貜?fù)性的工作,比如把模型轉(zhuǎn)化為3D,或者逐幀調(diào)整動(dòng)畫,讓角色能夠跑步。這種工作就像是在擰螺絲,非常機(jī)械和重復(fù)。
這種模式使得動(dòng)畫產(chǎn)業(yè)無法真正成為創(chuàng)意產(chǎn)業(yè)。因?yàn)槟切┯袆?chuàng)意的人在長(zhǎng)期從事重復(fù)性工作后,創(chuàng)意逐漸被消磨殆盡。等到他們熬出頭成為制作人時(shí),創(chuàng)意已經(jīng)所剩無幾。這就是為什么中國(guó)很難產(chǎn)出優(yōu)質(zhì)動(dòng)畫內(nèi)容的原因之一。
我認(rèn)為動(dòng)畫產(chǎn)業(yè)不應(yīng)該是一個(gè)勞動(dòng)密集型產(chǎn)業(yè),而應(yīng)該是一個(gè)真正的創(chuàng)意產(chǎn)業(yè)。基于這個(gè)觀點(diǎn),我們面臨的一個(gè)重要問題是:如何讓這個(gè)產(chǎn)業(yè)真正回歸創(chuàng)意本質(zhì),并實(shí)現(xiàn)產(chǎn)業(yè)升級(jí)?答案是加速引入AI技術(shù)。因?yàn)锳I能夠釋放那些重復(fù)性的工作,讓創(chuàng)意人才能夠?qū)W⒂趧?chuàng)意本身,從而推動(dòng)整個(gè)產(chǎn)業(yè)的創(chuàng)新和發(fā)展。
李善友:讓AI去處理那些重復(fù)的、勞動(dòng)密集型的任務(wù),而讓富有創(chuàng)意的人專注于創(chuàng)意本身。
宋亞宸:是的。這是AI在當(dāng)時(shí)的意義所在。因此,我們很早就開始討論AIGC(AI Generated Content)的概念。
李善友:你做這件事情是哪年?
宋亞宸:應(yīng)該是19年的下半年。我們發(fā)現(xiàn)了一個(gè)問題:當(dāng)時(shí)的AI技術(shù)尚未能很好地解決這些問題。
具體來說,我們?cè)跒樵S多中國(guó)動(dòng)畫公司提供服務(wù)時(shí),遇到了兩方面的挑戰(zhàn)。一方面,中國(guó)動(dòng)畫產(chǎn)業(yè)的商業(yè)化程度較低,這些公司本身資金有限,因此我們從他們那里也難以獲得足夠的收入。另一方面,當(dāng)時(shí)的技術(shù)還不夠成熟,不足以幫助他們真正釋放創(chuàng)意,解決重復(fù)性勞動(dòng)的問題。
盡管如此,我意識(shí)到,即使技術(shù)還不夠完善,我們也可以先將AI技術(shù)應(yīng)用起來。于是,我開始親自擔(dān)任導(dǎo)演、編劇,負(fù)責(zé)內(nèi)容創(chuàng)作和IP設(shè)計(jì)等工作。我們從零開始,逐步打造了從幾十萬粉絲到幾百萬粉絲的各類IP。這一過程對(duì)我來說非常有意義,因?yàn)槲冶旧砭蜔釔蹆?nèi)容創(chuàng)作和創(chuàng)意工作。這些新的IP創(chuàng)意內(nèi)容主要以短視頻的形式呈現(xiàn)。
當(dāng)時(shí),徐立非常支持我的想法,我們還組建了一個(gè)大約四五十人的動(dòng)畫團(tuán)隊(duì),試圖在公司內(nèi)部全流程地應(yīng)用AI技術(shù)來制作動(dòng)畫。比較遺憾的是,盈利空間有限,這讓我們不得不重新考慮方向。
于是,我們開始尋找更具盈利潛力的領(lǐng)域。當(dāng)時(shí),游戲行業(yè)正處于爆發(fā)期,像《三國(guó)志戰(zhàn)略版》和《原神》等游戲都非常火爆。尤其是當(dāng)游戲與元宇宙、AI等概念結(jié)合時(shí),行業(yè)發(fā)展迅猛。
基于這種市場(chǎng)認(rèn)知,我們將現(xiàn)有的AI技術(shù)整合成游戲解決方案,開始在游戲行業(yè)推廣AI技術(shù)。后來,隨著元宇宙概念的興起,業(yè)務(wù)規(guī)模不斷擴(kuò)大。
不過,我在2021年六七月份離開了商湯,隨后正式參與創(chuàng)立了Minimax。2022年年底,我離開了Minimax。離開的重要原因之一是,我認(rèn)為當(dāng)時(shí)行業(yè)盲目跟風(fēng)投入AGI或語言大模型,這是一種情緒化的產(chǎn)物,大家都在試圖成為下一個(gè)OpenAI,但這種跟風(fēng)并不理性。
此外,我還觀察到從3D到視頻、圖片再到文字,信息密度逐漸降低,這是一個(gè)信息逐漸失真的壓縮過程。我們本身生活在一個(gè)3D世界中,孩子剛出生時(shí),如果給他一個(gè)球,他會(huì)本能地與之互動(dòng),這種互動(dòng)是天然的。然而,文字、圖片和視頻之所以在互聯(lián)網(wǎng)時(shí)代更為常見,是因?yàn)榛ヂ?lián)網(wǎng)技術(shù)還不夠成熟。實(shí)際上,世界原本并非以文字、圖片和視頻為主。我們對(duì)有文字的文物更感興趣,是因?yàn)槲淖值男畔⒚芏鹊停倭课淖帜艹橄蟪龆喾N事情。
但史前文明中,大部分東西是幾何雕塑,如工具、飾品、圖騰等,這些都是當(dāng)時(shí)主流的表達(dá)方式。隨著人類的發(fā)展,人們發(fā)現(xiàn)了顏料,開始在山洞中作畫,這種表達(dá)方式的信息密度更低,但能更生動(dòng)地表達(dá)更多內(nèi)容。后來,文字才逐漸出現(xiàn)。
同樣的道理,在互聯(lián)網(wǎng)時(shí)代,我們?cè)谟邢薜膸捄吞幚砟芰ο拢畔鞑奈淖郑ㄈ缥⒉⒉┛停╅_始,逐漸發(fā)展到圖文(如微信公眾號(hào)、小紅書),再到視頻(如抖音、快手、TikTok)。隨著互聯(lián)網(wǎng)技術(shù)的成熟,信息傳播應(yīng)該是一個(gè)逐漸“解壓縮”的過程,回歸到最真實(shí)的狀態(tài)。人們不再需要消費(fèi)壓縮的信息,而是直接消費(fèi)最真實(shí)的內(nèi)容。
在訓(xùn)練AI或開發(fā)通用大模型時(shí),用原生的、信息密度最大的數(shù)據(jù)去訓(xùn)練,顯然比用壓縮后的信息更有價(jià)值。因?yàn)樵鷶?shù)據(jù)的信息量更大,更接近事物的本質(zhì)。
![]()
洞見:“3D是世界的本質(zhì)”與一場(chǎng)技術(shù)豪賭
李善友:所以你不信“語言是通往AGI必然之路”?
宋亞宸:我認(rèn)為,對(duì)世界的理解和3D的呈現(xiàn)方式才是信息量最大的。3D是最真誠(chéng)、最真實(shí)、最可靠的信息載體和內(nèi)容媒介。我們生活在一個(gè)3D的世界中。如果要將這個(gè)世界的信息進(jìn)行壓縮,比如通過視頻來呈現(xiàn),就會(huì)出現(xiàn)兩種方式:實(shí)拍和虛擬拍攝。實(shí)拍是在現(xiàn)實(shí)世界中選擇一個(gè)位置和角度進(jìn)行拍攝;虛擬拍攝則是在人類創(chuàng)造的虛擬世界中進(jìn)行拍攝,比如《哪吒》和《阿凡達(dá)》這樣的動(dòng)畫電影。
這兩種方式都有一個(gè)共同點(diǎn):它們都有一個(gè)真實(shí)或虛擬的3D世界作為基礎(chǔ)。
現(xiàn)在出現(xiàn)了一種新的方式,叫視頻生成。這種方式的問題在于,它試圖欺騙觀眾,因?yàn)樗]有一個(gè)真實(shí)的3D世界作為基礎(chǔ)。這種做法是失真的,當(dāng)它試圖構(gòu)建一個(gè)虛假的世界時(shí),就會(huì)出現(xiàn)無數(shù)的謊言需要去圓。
例如,它會(huì)出現(xiàn)一致性問題和記憶時(shí)長(zhǎng)問題。假設(shè)視頻中有一個(gè)杯子,如果按照正常的實(shí)拍方式,拍攝者在外面拍攝了五個(gè)小時(shí)后回來,杯子肯定還在那里。但在視頻生成中,如果生成了五個(gè)小時(shí)的視頻后,它可能會(huì)忘記杯子的存在。這種幻覺、一致性和記憶問題,都源于視頻生成在說謊,它不真實(shí)。同樣的問題也出現(xiàn)在圖片生成和文字生成中。它們只是編造出來的,因此存在本質(zhì)上的問題。
所以,我們說3D才是萬能的解決方案。通過3D這種最通用的形式,我們可以提供最多的信息,用這些信息去訓(xùn)練AI。如果AI準(zhǔn)備好了,那么無論是AI生成的內(nèi)容,還是它做出的判斷,都可以再進(jìn)行壓縮。這樣生成的內(nèi)容才是最真誠(chéng)和最真實(shí)的。
比如解決視頻生成中的記憶時(shí)長(zhǎng)問題,可以在3D世界中做一個(gè)標(biāo)記,悄悄告訴AI這里有一個(gè)杯子,這樣當(dāng)它回來時(shí)就能想起杯子的存在。這種標(biāo)記可以有不同的表達(dá)方式,比如影視表達(dá)或顯示表達(dá)。例如,通過一束光或一個(gè)二維碼,機(jī)器可以計(jì)算并發(fā)現(xiàn)這里有杯子,并將其顯示出來。這需要一種3D的真實(shí)表達(dá),才能解決生成內(nèi)容中的虛假問題。這只是不同的表達(dá)形式而已。
總之,3D是最真實(shí)、信息量最大的,它最符合這個(gè)世界原本的樣子。我們?cè)?D基礎(chǔ)上進(jìn)行訓(xùn)練、調(diào)整和開發(fā),無論是AGI還是其他任何東西,這才是世界的本質(zhì)。否則,我們?cè)谥e言的基礎(chǔ)上構(gòu)建新的內(nèi)容,只能制造更多的謊言,最終出現(xiàn)各種幻覺和問題。
李善友:說得非常好,非常精彩!從實(shí)際發(fā)展來看,目前的主流趨勢(shì)確實(shí)是先從文字入手。因?yàn)槲淖质亲钤绫挥糜谟?xùn)練語言模型的,隨后逐漸發(fā)展出大語言模型。所以,很多人認(rèn)為語言是通往AGI的必經(jīng)之路。但你說得很有道理,語言本質(zhì)上是一種被壓縮的信息載體,而3D世界才是最接近真實(shí)、最未被壓縮的信息源。3D世界中蘊(yùn)含著豐富的、未經(jīng)壓縮的信息,這才是產(chǎn)生真正知識(shí)和模型的基礎(chǔ)。你的想法非常棒。
我想問的是,在你創(chuàng)業(yè)之初,或者在創(chuàng)業(yè)之前,你是先有了這個(gè)關(guān)于3D的想法,然后才決定去做的,還是看到別人在做3D相關(guān)的事情,才決定跟進(jìn)呢?換句話說,你的決定是基于自己獨(dú)立的認(rèn)知,還是基于對(duì)他人經(jīng)驗(yàn)的觀察和借鑒?
宋亞宸:首先,我們肯定是基于3D的。我們認(rèn)為3D是非常有價(jià)值的,尤其是3D帶來的可交互性,這種實(shí)時(shí)交互性是其他形式所不具備的。我們當(dāng)時(shí)有一個(gè)重要的發(fā)現(xiàn):從文字到圖片再到視頻,這些內(nèi)容形式本質(zhì)上是不可實(shí)時(shí)交互的。
雖然技術(shù)上并非完全不可交互,但人們通常不會(huì)用這些形式進(jìn)行實(shí)時(shí)交互。因此,我們把文字、圖片和視頻的內(nèi)容稱為一種體驗(yàn)方式,這種體驗(yàn)方式可以稱為“移情”(empathy),即通過“站在他人立場(chǎng)”來體驗(yàn)。例如,當(dāng)你觀看電視劇《狂飆》時(shí),你體驗(yàn)的是高啟強(qiáng)的人生;當(dāng)你閱讀小說時(shí),你體驗(yàn)的是張無忌的人生。這些內(nèi)容讓你通過觀察他人的故事來獲得體驗(yàn),而不是讓你直接參與其中。
李善友:3D讓我們不只是做一個(gè)旁觀者。
宋亞宸:沒錯(cuò),在3D世界里,核心在于“主體性”——這里的“我”是具有自主能動(dòng)性的存在。比如我可以擁有“一刀999”的強(qiáng)大能力,去闖蕩世界、征服四方,這完全是圍繞“我”展開的親身沉浸體驗(yàn)。這種體驗(yàn)和其他類型的體驗(yàn)有著本質(zhì)區(qū)別,而目前來看,這類以“我”為核心的主體性體驗(yàn),其實(shí)還不夠豐富。
李善友:那我玩2D游戲的時(shí)候,不也是我在體驗(yàn)嗎?
宋亞宸:3D形式本身就是最適合實(shí)現(xiàn)可交互體驗(yàn)的載體——畢竟人類天生就習(xí)慣于在三維空間中與周圍環(huán)境、他人產(chǎn)生互動(dòng),這種與生俱來的行為邏輯讓3D與“可交互”之間形成了極強(qiáng)的綁定關(guān)系。也正因?yàn)槿绱耍诋?dāng)下的認(rèn)知中,我們看到“3D”這個(gè)概念時(shí),幾乎就等同于默認(rèn)了它具備可交互的屬性。
李善友:3D等于可交互。
宋亞宸:目前行業(yè)已經(jīng)在朝著這個(gè)方向推進(jìn),而這一點(diǎn)也已然是既定事實(shí)。當(dāng)我們以移情的視角去體驗(yàn)各類內(nèi)容時(shí),會(huì)明顯發(fā)現(xiàn)這類體驗(yàn)已經(jīng)相當(dāng)豐富了。就像我們?nèi)粘D芙佑|到微博、小紅書、抖音、Tiktok這些社交與短視頻平臺(tái),還有奈飛、愛奇藝這類長(zhǎng)視頻平臺(tái),各類可觀看、可共情的內(nèi)容隨處可見,能滿足我們多方面的情感共鳴需求。但與之形成對(duì)比的是,那種以“主體性”為核心的體驗(yàn)卻格外稀缺:現(xiàn)實(shí)世界里,我們能自主做出選擇、主導(dǎo)行為進(jìn)程,這類親身體驗(yàn)相對(duì)豐富;可在虛擬世界中,這種由“我”掌控、自主行動(dòng)的體驗(yàn),目前還處在非常匱乏的狀態(tài)。
李善友:的確是這樣。為什么會(huì)有這種現(xiàn)象?
宋亞宸:原因在于文字、圖片和視頻已經(jīng)吸引了大眾參與創(chuàng)作,這就是所謂的UGC(用戶生成內(nèi)容)。而3D或可交互內(nèi)容,目前仍然屬于“精英”的藝術(shù),這是最本質(zhì)的區(qū)別。以前,文字內(nèi)容是非常稀缺的。例如在唐朝,能夠?qū)懺?shī)、寫小說的人可能不超過100萬,這屬于精英的藝術(shù) 。圖片也是如此,過去我們?nèi)ギ嬂瓤吹降拇蠖嗍敲组_朗基羅等大師的作品,全世界能創(chuàng)作這樣作品的人也不到100萬。視頻領(lǐng)域也類似,無論是好萊塢還是橫店,能從事專業(yè)視頻創(chuàng)作的人也不到100萬。
現(xiàn)在的3D或可交互內(nèi)容也是如此,例如騰訊、網(wǎng)易、育碧等公司,全球能從事這類創(chuàng)作的專業(yè)人員可能也不到100萬。那么,如何讓大眾也能參與到3D或可交互內(nèi)容的創(chuàng)作中呢?
關(guān)鍵在于有一個(gè)大眾級(jí)別的創(chuàng)作者工具。例如,文字創(chuàng)作有打字法,圖片和視頻創(chuàng)作有手機(jī)攝像頭,這些工具讓每個(gè)人都能以零門檻、零成本、實(shí)時(shí)地創(chuàng)作內(nèi)容。為什么一定要零門檻、零成本、實(shí)時(shí)創(chuàng)作呢?因?yàn)閁GC和PGC(專業(yè)生成內(nèi)容)最大的區(qū)別在于,大眾和專業(yè)用戶最大的區(qū)別是:專業(yè)用戶是為了賺錢,而UGC用戶不是為了錢。這是最本質(zhì)的區(qū)別。
李善友:就是在表達(dá),在娛樂。
![]()
落地:3D版TikTok,找到每個(gè)人當(dāng)下的最優(yōu)體驗(yàn)
宋亞宸:用戶參與創(chuàng)作的初衷,本就不是為了盈利,更多是為了抒發(fā)情緒,比如“裝個(gè)逼”、吐吐槽、分享自己的人生片段這類情感表達(dá),所以首先要保證他們創(chuàng)作時(shí)“不虧錢”,沒有經(jīng)濟(jì)負(fù)擔(dān)。
那么問題就轉(zhuǎn)化為:怎樣才能讓大眾真正參與進(jìn)來?這就必須滿足“零門檻、零成本、實(shí)時(shí)創(chuàng)作”的核心需求。
我們注意到,AI3D大模型恰好提供了這樣一種可能:它有機(jī)會(huì)將可交互內(nèi)容或3D內(nèi)容相關(guān)的創(chuàng)作,變成人人都能上手的大眾級(jí)工具,讓每一個(gè)普通人都能輕松參與創(chuàng)作。當(dāng)創(chuàng)作門檻被徹底打破,大量用戶涌入并產(chǎn)出內(nèi)容,就會(huì)形成一個(gè)反向循環(huán):先是創(chuàng)作工具普及帶來內(nèi)容的極大豐富,而海量?jī)?nèi)容又需要一個(gè)專門的平臺(tái)來承載和分發(fā),最終就會(huì)催生出類似“3D版TikTok”這樣的產(chǎn)品,或是一個(gè)以3DUGC為核心的生態(tài)。
一旦這樣的3DUGC生態(tài)成型,可交互內(nèi)容的數(shù)量和種類將會(huì)迎來爆發(fā)式增長(zhǎng),整個(gè)可交互世界也會(huì)變得無比豐富。試想一下,當(dāng)每個(gè)人都能自由選擇無窮多的虛擬世界或可交互內(nèi)容去親身感受,從某種意義上來說,不就是把人們口中的天堂搬到了現(xiàn)實(shí)嗎?因?yàn)槊總€(gè)人都能在當(dāng)下,找到并體驗(yàn)到對(duì)自己而言真正最優(yōu)、最極致的那種感受。
李善友:你說得特別對(duì),認(rèn)知最終要落地到實(shí)踐,這背后其實(shí)是“兩條線”并行推進(jìn),一方面認(rèn)知需要靠信息支撐,也需要實(shí)踐來落地,你剛才在認(rèn)知層面的推導(dǎo)確實(shí)相當(dāng)精彩。現(xiàn)在咱們?cè)倮氐綄?shí)踐層面:這些認(rèn)知是怎么轉(zhuǎn)化成具體行動(dòng)的?是因?yàn)槟憧吹搅四承┟鞔_的信號(hào)才這么做,還是說你開始做的時(shí)候,這個(gè)領(lǐng)域在世界上根本就是一片空白?你最開始是怎么啟動(dòng)這件事的?
宋亞宸:這件事肯定不是只有我一個(gè)人想到,世界上有很多人都看到了這個(gè)方向,并且已經(jīng)在往這個(gè)方向努力了。我們之前也悄悄做過一個(gè)類似3D版TikTok的產(chǎn)品,但后來發(fā)現(xiàn)了一個(gè)問題:當(dāng)產(chǎn)品發(fā)展到一定階段后,創(chuàng)作內(nèi)容就很難再繼續(xù)增長(zhǎng)了。我們做了很多用戶調(diào)研,聊下來之后發(fā)現(xiàn),核心癥結(jié)在于用戶需要的是零門檻、零成本的創(chuàng)作體驗(yàn),只有這樣他們才愿意主動(dòng)參與進(jìn)來。
所以我們意識(shí)到,必須先打造一款大眾級(jí)別的創(chuàng)作工具。之后我們就開始尋找合適的技術(shù)路徑,發(fā)現(xiàn)AI3D現(xiàn)在已經(jīng)顯露出了曙光,具備了落地的可能性。于是我們就集中精力把AI 3D相關(guān)的技術(shù)和產(chǎn)品認(rèn)真打磨好,也正是因?yàn)檫@樣,才有了我們現(xiàn)在的狀態(tài)。
李善友:這種3D大模型和我們熟悉的語言大模型,核心區(qū)別到底是什么?你們最開始起步的時(shí)候,是先著手搭建3D大模型,還是先開發(fā)了前端的創(chuàng)作工具?
宋亞宸:先做的大模型,工具是今年才做的事情。
李善友:你從創(chuàng)立之初就專注于大模型領(lǐng)域,推進(jìn)的則是3D大模型。這通常需要巨大的決心與遠(yuǎn)見,因?yàn)槎鄶?shù)公司會(huì)選擇先開發(fā)工具。
宋亞宸:是的。
李善友:我們聊聊3D大模型。
宋亞宸:我認(rèn)為“大模型”實(shí)際上代表的是一種思維范式的轉(zhuǎn)變。為什么這么說呢?在AI1.0時(shí)代,行業(yè)的主流思路并非追求模型規(guī)模,反而是致力于將模型做“小”。這是因?yàn)楫?dāng)時(shí)的研發(fā)邏輯相對(duì)直接:匯聚頂尖的算法科學(xué)家,針對(duì)人臉識(shí)別、異常行為檢測(cè)等一個(gè)個(gè)具體而長(zhǎng)尾的場(chǎng)景問題,通過大量手工調(diào)參與訓(xùn)練,來構(gòu)建盡可能輕量化的專用模型。模型越小,意味著訓(xùn)練與部署成本越低,商業(yè)回報(bào)也更清晰。因此,那個(gè)階段的核心是比拼誰能在解決特定問題時(shí)把模型做得更小、更高效。
而到了AI2.0時(shí)代,思考方式發(fā)生了根本變化。人們開始探索:能否通過海量數(shù)據(jù)和強(qiáng)大算力,驅(qū)動(dòng)構(gòu)建一個(gè)極其龐大且通用的模型,讓它能夠泛化到幾乎所有場(chǎng)景,一舉解決過去需要無數(shù)個(gè)小模型才能覆蓋的問題。這背后遵循著著名的scalinglaw。就像經(jīng)濟(jì)學(xué)中GDP取決于勞動(dòng)力與資本,在AI領(lǐng)域,模型性能可看作數(shù)據(jù)與算力的函數(shù)。當(dāng)兩者同步增長(zhǎng)時(shí),性能會(huì)顯著提升;但若僅一方增長(zhǎng),另一方停滯,邊際效益就會(huì)迅速遞減。這就好比有千萬工人卻只有一把鏟子,或是有千萬把鏟子卻只有一個(gè)工人,效率都無法提升。
目前我們正處在這個(gè)范式之中:算力仍在快速增長(zhǎng),但高質(zhì)量數(shù)據(jù)的供給已逐漸遇到瓶頸,導(dǎo)致算力增長(zhǎng)的邊際收益在下降。于是業(yè)界也開始反思:這是否意味著我們需要在一定程度上回歸AI 1.0的思路,重新借助一些更輕量、更專注的模型來解決特定問題?這目前尚無定論,但可以明確的是,兩種思維方式正形成一種有益的互補(bǔ)與循環(huán)。
至于語言大模型與3D大模型之間的區(qū)別,我認(rèn)為更多體現(xiàn)在技術(shù)路徑與領(lǐng)域遷移上。一種突破性技術(shù),比如Transformer出現(xiàn)后,其核心思想往往會(huì)跨越領(lǐng)域,激發(fā)其他領(lǐng)域的學(xué)者思考:“我的領(lǐng)域是否也能沿用這種范式?”這種跨領(lǐng)域的技術(shù)借鑒與思維遷移,恰恰是推動(dòng)進(jìn)步的關(guān)鍵。
無論是Diffusion、Transformer還是“大模型”本身,其核心價(jià)值都不僅僅是具體技術(shù),而更在于它們所代表的一種通用的問題解決范式。
李善友:但從外界的角度看,語言大模型已經(jīng)足夠復(fù)雜,而3D大模型從技術(shù)挑戰(zhàn)上來說,通常被認(rèn)為難度更高。
宋亞宸:困難主要來自于幾件事:第一是復(fù)合型人才的稀缺。構(gòu)建3D大模型,需要深度融合人工智能、計(jì)算機(jī)視覺與圖形學(xué)三個(gè)領(lǐng)域的專業(yè)知識(shí)。這意味著團(tuán)隊(duì)既要精通大模型所需的分布式訓(xùn)練與并行計(jì)算,又要深諳視覺信息的底層處理,還必須掌握?qǐng)D形學(xué)中復(fù)雜的幾何表達(dá)與渲染技術(shù)。這種跨學(xué)科的頂尖人才在市場(chǎng)上原本就極為罕見,可以說這是一個(gè)全新的領(lǐng)域,幾乎沒有現(xiàn)成的資深專家。因此,團(tuán)隊(duì)組建往往需要從基礎(chǔ)培養(yǎng),或依賴具備學(xué)習(xí)能力和交叉背景的年輕人才。
第二是高質(zhì)量3D數(shù)據(jù)的嚴(yán)重匱乏。正如之前提到的,由于互聯(lián)網(wǎng)生態(tài)與終端設(shè)備的限制,人類長(zhǎng)期以來消費(fèi)的主要是3D信息的“壓縮包”——即文字、圖片、視頻乃至直播流。這些都是對(duì)三維世界經(jīng)過大幅簡(jiǎn)化與投影后的二維載體。而我們真正直接消費(fèi)、可用于模型訓(xùn)練的原生、結(jié)構(gòu)化、大規(guī)模3D數(shù)據(jù)(如精細(xì)模型、點(diǎn)云、動(dòng)態(tài)場(chǎng)景等)卻少之又少。數(shù)據(jù)的缺失,從根本上制約了3D大模型的發(fā)展與訓(xùn)練效果。
第三個(gè)問題就是導(dǎo)致3D領(lǐng)域在早期的時(shí)候,缺乏很多資源,發(fā)展速度必然會(huì)受到限制。
這種變化在計(jì)算機(jī)視覺領(lǐng)域表現(xiàn)得尤為明顯。以計(jì)算機(jī)視覺領(lǐng)域的頂級(jí)會(huì)議CVPR為例,早期在圖形學(xué)的頂級(jí)會(huì)議SIGGRAPH中,大量與計(jì)算機(jī)視覺相關(guān)的論文涌現(xiàn),甚至“侵占”了SIGGRAPH的部分內(nèi)容。這是因?yàn)楫?dāng)時(shí)研究圖形學(xué)以及AI3D的人才相對(duì)稀缺,幾乎可以忽略不計(jì)。然而,僅僅經(jīng)過短短兩年時(shí)間,情況就發(fā)生了巨大轉(zhuǎn)變。如今,不僅CGRAPH本身出現(xiàn)了大量與AI、3D和圖形學(xué)相關(guān)的內(nèi)容,CVPR會(huì)議上也涌現(xiàn)出了眾多與AI、3D或圖形學(xué)相關(guān)的優(yōu)秀論文,包括最佳論文等重要獎(jiǎng)項(xiàng)。
這種轉(zhuǎn)變表明,隨著AI、3D等領(lǐng)域逐漸成為顯學(xué),吸引了大量資源和資金的投入,進(jìn)而形成了一個(gè)良性循環(huán)。回顧早期,該領(lǐng)域面臨諸多挑戰(zhàn):首先,缺乏專業(yè)人才;其次,數(shù)據(jù)資源不足;最后,由于當(dāng)時(shí)并非顯學(xué),導(dǎo)致整體資源匱乏。
李善友:當(dāng)時(shí)你既沒有相關(guān)技術(shù)背景,又作為初創(chuàng)公司資金有限,而這件事情又很難,你是怎么做起來的呢?
宋亞宸:主要是向他人請(qǐng)教,尋找合作伙伴。我們的CTO梁鼎給了我很多建議。我們?cè)谏虦峭拢舜嘶ハ嘈湃危覍?duì)他以及團(tuán)隊(duì)的技術(shù)能力非常有信心,相信他們能把技術(shù)這一塊做出來。后來,首席科學(xué)家曹巖培以及其他一些青年科學(xué)家也陸續(xù)加入,我們的技術(shù)團(tuán)隊(duì)實(shí)力很強(qiáng),我十分信任他們,于是便將精力更多地放在數(shù)據(jù)、資源等事務(wù)上。我們?cè)诙虝r(shí)間內(nèi)搭建了一個(gè)有能力的技術(shù)團(tuán)隊(duì),可以放心地將相關(guān)事務(wù)交給他們。
李善友:你們剛創(chuàng)業(yè)時(shí),全球有3D大模型嗎?
宋亞宸:可能有一些相關(guān)的論文,尤其是海外的,像Facebook、谷歌、英偉達(dá)、OpenAI等早期的一些嘗試,但還不能稱之為AI 3D大模型,應(yīng)該沒有真正意義上的大模型。
李善友:這件事很有意思。你在商湯做的是AI相關(guān)工作,主要是尋找各種應(yīng)用場(chǎng)景,然后在MiniMax接觸了大模型。如果你創(chuàng)業(yè),最容易的路徑是基于大模型進(jìn)入各種垂直領(lǐng)域,就像商湯那樣。但你沒有選擇這條道路,反而又深入了一層,這是一種理念性的創(chuàng)業(yè)。你的信心來自哪里呢?你的起步是非常不尋常的。你為什么會(huì)有這樣的信心呢?難道只是憑借一種莫名的力量?
宋亞宸:我覺得如果只是我自己去做這件事情,肯定覺得成不了,但我堅(jiān)信我們有一個(gè)非常棒的團(tuán)隊(duì),我對(duì)團(tuán)隊(duì)的信任很強(qiáng),從未懷疑過團(tuán)隊(duì)會(huì)實(shí)現(xiàn)不了目標(biāo)。
![]()
商業(yè):“這件事超出了預(yù)期,比我想象的快”
李善友:創(chuàng)業(yè)的想法是你提出的,還是CTO提出的?
宋亞宸:創(chuàng)業(yè)是我先提出來的。
李善友:那么在創(chuàng)業(yè)之初,你的驅(qū)動(dòng)力來自哪里?是什么促使你來做這個(gè)東西?
宋亞宸:我們真心覺得有這個(gè)需求。就像我們要達(dá)到某個(gè)目標(biāo),中間遇到了一個(gè)釘子,我們需要找個(gè)錘子,什么錘子合適呢?我們覺得這個(gè)錘子最合適。這確實(shí)與其他公司不同,很多AI公司是先造了一個(gè)錘子,之后可能因?yàn)槟承〇|西火了,大家就說,有了這個(gè)錘子,再去找應(yīng)用場(chǎng)景、找釘子。但我們是在創(chuàng)業(yè)過程中實(shí)實(shí)在在遇到了一個(gè)釘子,即創(chuàng)作者沒有辦法零門檻、零成本實(shí)時(shí)創(chuàng)作,我們總得找個(gè)錘子去解決這個(gè)問題,而這個(gè)東西就是最好的錘子。
李善友:我能這么理解嗎?3DTikTok這個(gè)想法是在先的。
宋亞宸:它其實(shí)是一個(gè)愿景,但要實(shí)現(xiàn)這個(gè)愿景,可能得先敲一個(gè)釘子。
李善友:對(duì),大家來創(chuàng)作,需要工具,而工具必須得有一個(gè)3D大模型。所以你是一步步推導(dǎo)到這一步的。但最終你想做的是3D內(nèi)容創(chuàng)作平臺(tái),類似3DTikTok。從需求側(cè)、場(chǎng)景側(cè)來看,你是清晰的,基于這個(gè)需求你才推導(dǎo)到這一步。
宋亞宸:我覺得3DTikTok或者說可交互內(nèi)容的平臺(tái)一定是一個(gè)長(zhǎng)期的需求,即使今天不是我做出來,明天也肯定會(huì)有別人做出來,這是一個(gè)共識(shí)。
李善友:那這幾年做下來,你們的3D大模型發(fā)展得怎么樣了?
宋亞宸:我覺得發(fā)展速度比我想象中的要快。
李善友:為什么?
宋亞宸:可能是因?yàn)槲抑敖?jīng)歷的是AI1.0時(shí)代,那個(gè)時(shí)代的技術(shù)發(fā)展沒有這么快。你會(huì)發(fā)現(xiàn)最近兩三年的技術(shù)發(fā)展速度有點(diǎn)“變態(tài)”,大家已經(jīng)麻木了。其實(shí)最近兩三年的技術(shù)發(fā)展是非常不正常的,速度太快了,大家看了太多的奇觀,導(dǎo)致對(duì)真正的技術(shù)發(fā)展已經(jīng)麻木。
李善友:現(xiàn)在是指數(shù)級(jí)進(jìn)步,大家覺得也無所謂了。
宋亞宸:比如視頻生成這件事,如果放在100年前,它絕對(duì)是一個(gè)偉大發(fā)明,可能是某個(gè)世紀(jì)的最偉大發(fā)明。但放到今天來看,它只是眾多發(fā)明中的一個(gè)感覺還不錯(cuò)的東西。
這是一件我覺得非常神奇的事情,這件事情其實(shí)超出了我的認(rèn)知。我原來覺得,可能四五年后,AI 3D大模型能夠進(jìn)入管線(3D管線是我們用計(jì)算機(jī)語言表達(dá)一個(gè)三維世界的方式),甚至超過人類水平,就已經(jīng)很好了。但現(xiàn)在短短兩三年時(shí)間,它已經(jīng)基本上做到了。我覺得這件事情超出了我的預(yù)期,比我想象的快。
李善友:總的來說,在用戶場(chǎng)景端,你們到了什么階段?
宋亞宸:我們現(xiàn)在大概有500萬左右的專業(yè)用戶在使用我們的專業(yè)工具,其中80%多來自海外。我們還做一些TO B的工作,大概有4萬多家中小企業(yè),約700多家大企業(yè)。
說到落地場(chǎng)景,我們主要有四大類:第一大類是內(nèi)容創(chuàng)作,比如游戲、動(dòng)畫、影視、短劇、CG等內(nèi)容的創(chuàng)作;第二大類是工業(yè)設(shè)計(jì),包括輕工業(yè)、重工業(yè)、柔性化生產(chǎn)、3D打印等;第三大類是展示展覽,比如電商、廣告、教育、文旅、文博等領(lǐng)域的展示展覽;第四大類是新興行業(yè),比如具身智能的仿真模擬、數(shù)字孿生、數(shù)字人、AI+游戲、世界模型、空間智能元宇宙、XR+AI眼鏡等。
李善友:你現(xiàn)在最重要的難題是在技術(shù)側(cè)還是在市場(chǎng)側(cè)?
宋亞宸:我認(rèn)為最大的難題并非單純的技術(shù)或市場(chǎng)問題,而是身處這個(gè)充滿噪音和誘惑的時(shí)代,人們是否具備足夠的耐心和定力去完成一件事。要成就一件有價(jià)值、相對(duì)偉大的事業(yè),長(zhǎng)期主義是不可或缺的。以O(shè)penAI為例,它經(jīng)過了6年的沉淀才取得了如今的成果。
做一件有價(jià)值的事情,必然需要長(zhǎng)期的積累和堅(jiān)持。在這個(gè)過程中,你會(huì)面臨諸多誘惑和恐懼,這些因素會(huì)不斷考驗(yàn)?zāi)愕亩湍托摹W罱鼉扇辏夹g(shù)發(fā)展迅猛,各領(lǐng)域變革速度飛快,人們改變方向的速度也急劇加快。然而,在這樣一個(gè)快速變化的時(shí)代,保持一定的“慢”反而有其獨(dú)特價(jià)值。
![]()
理念:每個(gè)人都有自己的幸福,這對(duì)我很重要
李善友:如果從長(zhǎng)期主義的角度來看,這件事的終極愿景是什么?
宋亞宸:愿景是為世界貢獻(xiàn)文明,為人類創(chuàng)造幸福。
李善友:我覺得你是我在學(xué)生中第一次遇到的對(duì)思想有執(zhí)念的人,而且你能擁抱世界的復(fù)雜性。你有沒有形成自己獨(dú)特的思維方式呢?
宋亞宸:我覺得我應(yīng)該是有自己獨(dú)特的思維方式的,但目前我還不太能很好地總結(jié)它。
宋亞宸:我覺得我的思考方式是比較傾向于 Mill(約翰·斯圖亞特·密爾)和 Bentham(杰瑞米·邊沁)提出的理論。(這兩位是主要的功利主義Utilitarianism的代表,功利主義是傳統(tǒng)西方倫理學(xué)中一個(gè)重要的理論,提倡追求“最大幸福”)。
我是這樣理解并運(yùn)用的,即每個(gè)人都有自己的幸福。
其實(shí),很多哲學(xué)討論的都是道德問題,而神學(xué)則在探討諸如誰是第一推動(dòng)者、誰創(chuàng)造了世界、人類從哪里來等問題。當(dāng)我們談?wù)撜軐W(xué)時(shí),我們其實(shí)是在討論道德,但我們的思維方式并非僅僅基于這些關(guān)于世界起源和創(chuàng)造的問題,而是更像是一種基于世界觀和價(jià)值觀的思考。
就思維方式而言,我認(rèn)為道德的本質(zhì)應(yīng)該是最大化幸福的總和。比如電車難題,它能很好地解釋哲學(xué)中關(guān)于道德判斷的許多問題。假設(shè)有一條鐵軌,一邊是死一個(gè)人,另一邊是死兩個(gè)人,我會(huì)選擇死一個(gè)人,因?yàn)檫@樣最大化幸福的總和就減少了。如果死一個(gè)人是 -1,那么死兩個(gè)人就是 -2,這個(gè)計(jì)算過程非常簡(jiǎn)單。
李善友:所以,“最大化幸福的總和”這句話對(duì)你來說很重要。
宋亞宸:沒錯(cuò),這其實(shí)也和我在創(chuàng)業(yè)時(shí)做的事情有關(guān)。比如,我認(rèn)為創(chuàng)業(yè)有三種主要方向,當(dāng)然創(chuàng)業(yè)的類型遠(yuǎn)不止這三種,但我認(rèn)為目前最熱門的是這三種。第一種是以快速擴(kuò)散為典型表現(xiàn),像馬斯克和愛迪生那樣,他們致力于讓人們擁有更多的資源,如汽車等;第二種是讓人們活得更長(zhǎng)久,比如各種醫(yī)療公司,他們的目標(biāo)是讓人們從原本只能活到 50 歲,到能活100歲、1000 歲,甚至是永生;而我更喜歡第三種,就像迪士尼那樣,哪怕只有五個(gè)人,這五個(gè)人只能活三天,我也希望讓這五個(gè)人在這三天內(nèi)能夠活得最開心。對(duì)我來說,這才是最重要的事情。
李善友:嗯,那你在做這件事的時(shí)候,什么對(duì)你最重要?第一性原理是什么?你的核心信念在哪里?比如馬斯克,他說要讓人類成為跨行星的物種,這件事對(duì)他很重要,他覺得如果死之前不能完成這件事,這一生就白活了。但黃仁勛肯定不是這么想的,他先考慮的是活下去。
宋亞宸:我覺得人可以選擇自己最極致的體驗(yàn),這對(duì)我來說很重要,甚至我覺得每個(gè)人都能擁有自己最極致的體驗(yàn),這件事很難得。
李善友:這是你最重要的東西,是你堅(jiān)信的信念。
宋亞宸:對(duì),我覺得這件事是最重要的。
李善友:你的能力在哪里?你的天賦在哪里?為什么你能做這件事情?
宋亞宸:我覺得這跟能不能做沒有關(guān)系,而是跟方向?qū)Σ粚?duì)有關(guān)系。我可以跑得慢,那就慢慢跑。我也可以接受這件事最后不是我一個(gè)人做成的,可能是和別人合作完成的,或者最終是別人做成的。
我不愿意去做一件看似我擅長(zhǎng),但我不相信或覺得沒有意義的事情。反過來,我可能不擅長(zhǎng)把這件事做出來。比如我對(duì)技術(shù)一無所知,但我認(rèn)為做這件事本身是重要的,至于是不是我最擅長(zhǎng),倒不那么重要。
馬云可能也不一定是最擅長(zhǎng)做阿里巴巴的,當(dāng)時(shí)可能有上萬人比他更擅長(zhǎng),但做不做這件事可能是最重要的能力。
李善友:你剛才想表達(dá)的是,這件事本身的意義。我覺得你很幸福,因?yàn)槟阏娴南嘈胚@件事對(duì)你很重要。不是每個(gè)人都能這樣。你是理念型創(chuàng)業(yè)者,而且你認(rèn)為理念對(duì)你很重要。
宋亞宸:很重要。
李善友:你絕對(duì)是少數(shù)的。所以我覺得你是個(gè)小怪獸,是我特別欣賞、喜歡并愿意陪伴的小怪獸。第二點(diǎn),我們找到了這個(gè)載體,從邏輯上推,它能通往那個(gè)目標(biāo)。
我最近看黃仁勛的人生,最打動(dòng)我的是他的人生上半場(chǎng)和下半場(chǎng)不一樣。上半場(chǎng)他做游戲芯片,充滿競(jìng)爭(zhēng),只是為了求存。下半場(chǎng)他走到GPU、CUDA、加速計(jì)算和人工智能領(lǐng)域,我覺得他在做自己。這時(shí)候應(yīng)該是沒有競(jìng)爭(zhēng)的。上半場(chǎng)他的競(jìng)爭(zhēng)方式是不競(jìng)爭(zhēng),下半場(chǎng)他成為自己了。
我相信人生是有上半場(chǎng)和下半場(chǎng)的。上半場(chǎng)是被EGO(自我)推動(dòng)的,被貪嗔癡推動(dòng)的,是人性本能推動(dòng)的。但我相信有下半場(chǎng),下半場(chǎng)是被真善美推動(dòng)的。這件事不僅僅是為了我、為了大家,還是為了宇宙。大多數(shù)人先完成上半場(chǎng),再進(jìn)入下半場(chǎng)。而你是個(gè)少有的例外,你直接站在了下半場(chǎng),這非常了不起。
我覺得人這輩子最幸福的事情就是做我此生該做的事情,在該做的事情里成為最好的自己,這就是借事修人,人事合一。這也是我說的以商入道。
打開小宇宙 app訂閱混沌創(chuàng)辦人李善友的播客節(jié)目,每?jī)芍艿闹芩臏?zhǔn)時(shí)上新,我們期待與你相見!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.