網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

97年文科生干出全球最強(qiáng)AI 3D大模型

2025-12-08 21:01:42　來源: 混沌學(xué)園官方

北京舉報(bào)

分享至

他是SIGGRAPH 50年歷史上第一位、也是迄今唯一一位登上大會(huì)主題演講舞臺(tái)的中國(guó)人，與英偉達(dá)黃仁勛等行業(yè)領(lǐng)袖同臺(tái)。

他是MiniMax 001號(hào)員工，正當(dāng)大語言模型如火如荼之時(shí)，轉(zhuǎn)身闖進(jìn)AI 3D無人區(qū)、把三維世界重新生成一遍的冒險(xiǎn)者。

他是只用兩年就帶領(lǐng)團(tuán)隊(duì)完成三輪（每輪都是數(shù)億元）融資、估值穩(wěn)居全球AI 3D大模型公司之首的創(chuàng)業(yè)者。

他要做的事，聽起來很瘋狂但是很美好——3D版的TikTok。

他是宋亞宸（Simon），VAST創(chuàng)始人兼CEO，他要打造世界最領(lǐng)先的AI 3D大模型。

這位1997年出生的年輕創(chuàng)業(yè)者，不到兩年，帶著團(tuán)隊(duì)把3D 大模型Tripo系列從技術(shù)原型，一路推到千萬級(jí)用戶手中：8秒圖文生3D、率先驗(yàn)證3D Scaling Law、參數(shù)直上200億，把3D生成式AI直接推入“IMAX 時(shí)代”。

技術(shù)猛進(jìn)的同時(shí)，商業(yè)化也跑得一樣狠。截至2025年8月，VAST的年度經(jīng)常性收入（ARR）達(dá)到1200萬美元——行業(yè)領(lǐng)先。500萬左右的專業(yè)用戶，其中80%多來自海外。TO B端，有4萬多家中小企業(yè)，約700多家大企業(yè)在使用他們的工具。

但所有這些“硬指標(biāo)”，都不是這個(gè)人最迷人的地方。

真正的反差在于——他用最硬核的科技，思考的卻是最古老的命題，如何讓人類獲得最大化幸福的總和。他獲得美國(guó)約翰霍普金斯大學(xué)國(guó)際關(guān)系學(xué)和經(jīng)濟(jì)學(xué)雙學(xué)士學(xué)位，同時(shí)熱衷于研究神學(xué)。

這也是為什么，在最容易“順勢(shì)而飛”的大模型賽道，他偏偏轉(zhuǎn)頭去做一個(gè)更難、幾乎沒人敢做的事情：讓AI不只生成視頻，而是重新生成“三維世界”。

善友教授說：“我的好朋友綠洲資本張津劍跟我提起他時(shí)，?了?個(gè)詞，叫'?怪獸'。他說你一定要??這個(gè)孩?，他?上有種?常罕?的?命?。所以今天我把他邀請(qǐng)到了我的播客?。”

這個(gè)人，是“理念型創(chuàng)業(yè)者”，是那種你看一眼，就知道他會(huì)去把世界重新造一遍的人。在這場(chǎng)對(duì)話中，你會(huì)聽見：

他對(duì)AI 3D的透徹理解，屬于業(yè)內(nèi)罕見的精彩分析
他如何看待技術(shù)與“人的體驗(yàn)”的本質(zhì)關(guān)系
他宏大的愿景，每個(gè)人都能實(shí)時(shí)交互地活在“自己最愛的世界”

如果你想認(rèn)識(shí)一個(gè)真正“以商入道”的年輕創(chuàng)始人，如果你想真正看見一個(gè)年輕創(chuàng)業(yè)者如何跨學(xué)科地進(jìn)化、躍遷、覺醒——這期對(duì)談，你一定要完整收聽，知識(shí)密度極高。

歡迎點(diǎn)擊收聽完整版，一起走進(jìn)這只純粹而強(qiáng)大的“小怪獸”的世界。

緣起：“讓富有創(chuàng)意的人專注于創(chuàng)意本身”

李善友：我是在兩年前了解到你的。張津劍說，我們應(yīng)該陪伴一些“小怪獸”成長(zhǎng)。他說，有些年輕人擁有自己獨(dú)立的想法，始終積極向上，但在他們所處的環(huán)境中卻感到孤獨(dú)。他的話深深觸動(dòng)了我，也就是在那個(gè)時(shí)候，我就知道了你。你先簡(jiǎn)單介紹一下你創(chuàng)業(yè)的經(jīng)歷。

宋亞宸：我在2018年加入商湯科技，當(dāng)時(shí)我是協(xié)助徐立做一些工作（徐立是商湯聯(lián)合創(chuàng)始人、CEO，也是一位計(jì)算機(jī)視覺科學(xué)家）。選擇AI加動(dòng)畫這個(gè)領(lǐng)域，一方面是因?yàn)槲覀€(gè)人對(duì)游戲和動(dòng)畫非常感興趣，覺得這個(gè)領(lǐng)域很有意思；另一方面，我在做戰(zhàn)略分析時(shí)發(fā)現(xiàn)了一個(gè)核心問題。大家通常認(rèn)為動(dòng)畫、電影、游戲等是創(chuàng)意產(chǎn)業(yè)，創(chuàng)意產(chǎn)業(yè)的邏輯很簡(jiǎn)單，誰最聰明、誰最有創(chuàng)意，誰就能脫穎而出。然而，我發(fā)現(xiàn)無論是中國(guó)還是全球的動(dòng)畫產(chǎn)業(yè)，實(shí)際上都是一個(gè)勞動(dòng)密集型產(chǎn)業(yè)，更像是“擰螺絲”的工作。

如果你去招聘動(dòng)畫師，收到的簡(jiǎn)歷大多來自八大美院的畢業(yè)生。這些美院畢業(yè)的學(xué)生本應(yīng)極具創(chuàng)意，但他們?cè)诠ぷ髦型獜氖乱恍┲貜?fù)性的工作，比如把模型轉(zhuǎn)化為3D，或者逐幀調(diào)整動(dòng)畫，讓角色能夠跑步。這種工作就像是在擰螺絲，非常機(jī)械和重復(fù)。

這種模式使得動(dòng)畫產(chǎn)業(yè)無法真正成為創(chuàng)意產(chǎn)業(yè)。因?yàn)槟切┯袆?chuàng)意的人在長(zhǎng)期從事重復(fù)性工作后，創(chuàng)意逐漸被消磨殆盡。等到他們熬出頭成為制作人時(shí)，創(chuàng)意已經(jīng)所剩無幾。這就是為什么中國(guó)很難產(chǎn)出優(yōu)質(zhì)動(dòng)畫內(nèi)容的原因之一。

我認(rèn)為動(dòng)畫產(chǎn)業(yè)不應(yīng)該是一個(gè)勞動(dòng)密集型產(chǎn)業(yè)，而應(yīng)該是一個(gè)真正的創(chuàng)意產(chǎn)業(yè)。基于這個(gè)觀點(diǎn)，我們面臨的一個(gè)重要問題是：如何讓這個(gè)產(chǎn)業(yè)真正回歸創(chuàng)意本質(zhì)，并實(shí)現(xiàn)產(chǎn)業(yè)升級(jí)？答案是加速引入AI技術(shù)。因?yàn)锳I能夠釋放那些重復(fù)性的工作，讓創(chuàng)意人才能夠?qū)Ｗ⒂趧?chuàng)意本身，從而推動(dòng)整個(gè)產(chǎn)業(yè)的創(chuàng)新和發(fā)展。

李善友：讓AI去處理那些重復(fù)的、勞動(dòng)密集型的任務(wù)，而讓富有創(chuàng)意的人專注于創(chuàng)意本身。

宋亞宸：是的。這是AI在當(dāng)時(shí)的意義所在。因此，我們很早就開始討論AIGC（AI Generated Content）的概念。

李善友：你做這件事情是哪年？

宋亞宸：應(yīng)該是19年的下半年。我們發(fā)現(xiàn)了一個(gè)問題：當(dāng)時(shí)的AI技術(shù)尚未能很好地解決這些問題。

具體來說，我們?cè)跒樵S多中國(guó)動(dòng)畫公司提供服務(wù)時(shí)，遇到了兩方面的挑戰(zhàn)。一方面，中國(guó)動(dòng)畫產(chǎn)業(yè)的商業(yè)化程度較低，這些公司本身資金有限，因此我們從他們那里也難以獲得足夠的收入。另一方面，當(dāng)時(shí)的技術(shù)還不夠成熟，不足以幫助他們真正釋放創(chuàng)意，解決重復(fù)性勞動(dòng)的問題。

盡管如此，我意識(shí)到，即使技術(shù)還不夠完善，我們也可以先將AI技術(shù)應(yīng)用起來。于是，我開始親自擔(dān)任導(dǎo)演、編劇，負(fù)責(zé)內(nèi)容創(chuàng)作和IP設(shè)計(jì)等工作。我們從零開始，逐步打造了從幾十萬粉絲到幾百萬粉絲的各類IP。這一過程對(duì)我來說非常有意義，因?yàn)槲冶旧砭蜔釔蹆?nèi)容創(chuàng)作和創(chuàng)意工作。這些新的IP創(chuàng)意內(nèi)容主要以短視頻的形式呈現(xiàn)。

當(dāng)時(shí)，徐立非常支持我的想法，我們還組建了一個(gè)大約四五十人的動(dòng)畫團(tuán)隊(duì)，試圖在公司內(nèi)部全流程地應(yīng)用AI技術(shù)來制作動(dòng)畫。比較遺憾的是，盈利空間有限，這讓我們不得不重新考慮方向。

于是，我們開始尋找更具盈利潛力的領(lǐng)域。當(dāng)時(shí)，游戲行業(yè)正處于爆發(fā)期，像《三國(guó)志戰(zhàn)略版》和《原神》等游戲都非常火爆。尤其是當(dāng)游戲與元宇宙、AI等概念結(jié)合時(shí)，行業(yè)發(fā)展迅猛。

基于這種市場(chǎng)認(rèn)知，我們將現(xiàn)有的AI技術(shù)整合成游戲解決方案，開始在游戲行業(yè)推廣AI技術(shù)。后來，隨著元宇宙概念的興起，業(yè)務(wù)規(guī)模不斷擴(kuò)大。

不過，我在2021年六七月份離開了商湯，隨后正式參與創(chuàng)立了Minimax。2022年年底，我離開了Minimax。離開的重要原因之一是，我認(rèn)為當(dāng)時(shí)行業(yè)盲目跟風(fēng)投入AGI或語言大模型，這是一種情緒化的產(chǎn)物，大家都在試圖成為下一個(gè)OpenAI，但這種跟風(fēng)并不理性。

此外，我還觀察到從3D到視頻、圖片再到文字，信息密度逐漸降低，這是一個(gè)信息逐漸失真的壓縮過程。我們本身生活在一個(gè)3D世界中，孩子剛出生時(shí)，如果給他一個(gè)球，他會(huì)本能地與之互動(dòng)，這種互動(dòng)是天然的。然而，文字、圖片和視頻之所以在互聯(lián)網(wǎng)時(shí)代更為常見，是因?yàn)榛ヂ?lián)網(wǎng)技術(shù)還不夠成熟。實(shí)際上，世界原本并非以文字、圖片和視頻為主。我們對(duì)有文字的文物更感興趣，是因?yàn)槲淖值男畔⒚芏鹊停倭课淖帜艹橄蟪龆喾N事情。

但史前文明中，大部分東西是幾何雕塑，如工具、飾品、圖騰等，這些都是當(dāng)時(shí)主流的表達(dá)方式。隨著人類的發(fā)展，人們發(fā)現(xiàn)了顏料，開始在山洞中作畫，這種表達(dá)方式的信息密度更低，但能更生動(dòng)地表達(dá)更多內(nèi)容。后來，文字才逐漸出現(xiàn)。

同樣的道理，在互聯(lián)網(wǎng)時(shí)代，我們?cè)谟邢薜膸捄吞幚砟芰ο拢畔鞑奈淖郑ㄈ缥⒉⒉┛停╅_始，逐漸發(fā)展到圖文（如微信公眾號(hào)、小紅書），再到視頻（如抖音、快手、TikTok）。隨著互聯(lián)網(wǎng)技術(shù)的成熟，信息傳播應(yīng)該是一個(gè)逐漸“解壓縮”的過程，回歸到最真實(shí)的狀態(tài)。人們不再需要消費(fèi)壓縮的信息，而是直接消費(fèi)最真實(shí)的內(nèi)容。

在訓(xùn)練AI或開發(fā)通用大模型時(shí)，用原生的、信息密度最大的數(shù)據(jù)去訓(xùn)練，顯然比用壓縮后的信息更有價(jià)值。因?yàn)樵鷶?shù)據(jù)的信息量更大，更接近事物的本質(zhì)。

洞見：“3D是世界的本質(zhì)”與一場(chǎng)技術(shù)豪賭

李善友：所以你不信“語言是通往AGI必然之路”？

宋亞宸：我認(rèn)為，對(duì)世界的理解和3D的呈現(xiàn)方式才是信息量最大的。3D是最真誠(chéng)、最真實(shí)、最可靠的信息載體和內(nèi)容媒介。我們生活在一個(gè)3D的世界中。如果要將這個(gè)世界的信息進(jìn)行壓縮，比如通過視頻來呈現(xiàn)，就會(huì)出現(xiàn)兩種方式：實(shí)拍和虛擬拍攝。實(shí)拍是在現(xiàn)實(shí)世界中選擇一個(gè)位置和角度進(jìn)行拍攝；虛擬拍攝則是在人類創(chuàng)造的虛擬世界中進(jìn)行拍攝，比如《哪吒》和《阿凡達(dá)》這樣的動(dòng)畫電影。

這兩種方式都有一個(gè)共同點(diǎn)：它們都有一個(gè)真實(shí)或虛擬的3D世界作為基礎(chǔ)。

現(xiàn)在出現(xiàn)了一種新的方式，叫視頻生成。這種方式的問題在于，它試圖欺騙觀眾，因?yàn)樗]有一個(gè)真實(shí)的3D世界作為基礎(chǔ)。這種做法是失真的，當(dāng)它試圖構(gòu)建一個(gè)虛假的世界時(shí)，就會(huì)出現(xiàn)無數(shù)的謊言需要去圓。

例如，它會(huì)出現(xiàn)一致性問題和記憶時(shí)長(zhǎng)問題。假設(shè)視頻中有一個(gè)杯子，如果按照正常的實(shí)拍方式，拍攝者在外面拍攝了五個(gè)小時(shí)后回來，杯子肯定還在那里。但在視頻生成中，如果生成了五個(gè)小時(shí)的視頻后，它可能會(huì)忘記杯子的存在。這種幻覺、一致性和記憶問題，都源于視頻生成在說謊，它不真實(shí)。同樣的問題也出現(xiàn)在圖片生成和文字生成中。它們只是編造出來的，因此存在本質(zhì)上的問題。

所以，我們說3D才是萬能的解決方案。通過3D這種最通用的形式，我們可以提供最多的信息，用這些信息去訓(xùn)練AI。如果AI準(zhǔn)備好了，那么無論是AI生成的內(nèi)容，還是它做出的判斷，都可以再進(jìn)行壓縮。這樣生成的內(nèi)容才是最真誠(chéng)和最真實(shí)的。

比如解決視頻生成中的記憶時(shí)長(zhǎng)問題，可以在3D世界中做一個(gè)標(biāo)記，悄悄告訴AI這里有一個(gè)杯子，這樣當(dāng)它回來時(shí)就能想起杯子的存在。這種標(biāo)記可以有不同的表達(dá)方式，比如影視表達(dá)或顯示表達(dá)。例如，通過一束光或一個(gè)二維碼，機(jī)器可以計(jì)算并發(fā)現(xiàn)這里有杯子，并將其顯示出來。這需要一種3D的真實(shí)表達(dá)，才能解決生成內(nèi)容中的虛假問題。這只是不同的表達(dá)形式而已。

總之，3D是最真實(shí)、信息量最大的，它最符合這個(gè)世界原本的樣子。我們?cè)?D基礎(chǔ)上進(jìn)行訓(xùn)練、調(diào)整和開發(fā)，無論是AGI還是其他任何東西，這才是世界的本質(zhì)。否則，我們?cè)谥e言的基礎(chǔ)上構(gòu)建新的內(nèi)容，只能制造更多的謊言，最終出現(xiàn)各種幻覺和問題。

李善友：說得非常好，非常精彩！從實(shí)際發(fā)展來看，目前的主流趨勢(shì)確實(shí)是先從文字入手。因?yàn)槲淖质亲钤绫挥糜谟?xùn)練語言模型的，隨后逐漸發(fā)展出大語言模型。所以，很多人認(rèn)為語言是通往AGI的必經(jīng)之路。但你說得很有道理，語言本質(zhì)上是一種被壓縮的信息載體，而3D世界才是最接近真實(shí)、最未被壓縮的信息源。3D世界中蘊(yùn)含著豐富的、未經(jīng)壓縮的信息，這才是產(chǎn)生真正知識(shí)和模型的基礎(chǔ)。你的想法非常棒。

我想問的是，在你創(chuàng)業(yè)之初，或者在創(chuàng)業(yè)之前，你是先有了這個(gè)關(guān)于3D的想法，然后才決定去做的，還是看到別人在做3D相關(guān)的事情，才決定跟進(jìn)呢？換句話說，你的決定是基于自己獨(dú)立的認(rèn)知，還是基于對(duì)他人經(jīng)驗(yàn)的觀察和借鑒？

宋亞宸：首先，我們肯定是基于3D的。我們認(rèn)為3D是非常有價(jià)值的，尤其是3D帶來的可交互性，這種實(shí)時(shí)交互性是其他形式所不具備的。我們當(dāng)時(shí)有一個(gè)重要的發(fā)現(xiàn)：從文字到圖片再到視頻，這些內(nèi)容形式本質(zhì)上是不可實(shí)時(shí)交互的。

雖然技術(shù)上并非完全不可交互，但人們通常不會(huì)用這些形式進(jìn)行實(shí)時(shí)交互。因此，我們把文字、圖片和視頻的內(nèi)容稱為一種體驗(yàn)方式，這種體驗(yàn)方式可以稱為“移情”（empathy），即通過“站在他人立場(chǎng)”來體驗(yàn)。例如，當(dāng)你觀看電視劇《狂飆》時(shí)，你體驗(yàn)的是高啟強(qiáng)的人生；當(dāng)你閱讀小說時(shí)，你體驗(yàn)的是張無忌的人生。這些內(nèi)容讓你通過觀察他人的故事來獲得體驗(yàn)，而不是讓你直接參與其中。

李善友：3D讓我們不只是做一個(gè)旁觀者。

宋亞宸：沒錯(cuò)，在3D世界里，核心在于“主體性”——這里的“我”是具有自主能動(dòng)性的存在。比如我可以擁有“一刀999”的強(qiáng)大能力，去闖蕩世界、征服四方，這完全是圍繞“我”展開的親身沉浸體驗(yàn)。這種體驗(yàn)和其他類型的體驗(yàn)有著本質(zhì)區(qū)別，而目前來看，這類以“我”為核心的主體性體驗(yàn)，其實(shí)還不夠豐富。

李善友：那我玩2D游戲的時(shí)候，不也是我在體驗(yàn)嗎？

宋亞宸：3D形式本身就是最適合實(shí)現(xiàn)可交互體驗(yàn)的載體——畢竟人類天生就習(xí)慣于在三維空間中與周圍環(huán)境、他人產(chǎn)生互動(dòng)，這種與生俱來的行為邏輯讓3D與“可交互”之間形成了極強(qiáng)的綁定關(guān)系。也正因?yàn)槿绱耍诋?dāng)下的認(rèn)知中，我們看到“3D”這個(gè)概念時(shí)，幾乎就等同于默認(rèn)了它具備可交互的屬性。

李善友：3D等于可交互。

宋亞宸：目前行業(yè)已經(jīng)在朝著這個(gè)方向推進(jìn)，而這一點(diǎn)也已然是既定事實(shí)。當(dāng)我們以移情的視角去體驗(yàn)各類內(nèi)容時(shí)，會(huì)明顯發(fā)現(xiàn)這類體驗(yàn)已經(jīng)相當(dāng)豐富了。就像我們?nèi)粘Ｄ芙佑|到微博、小紅書、抖音、Tiktok這些社交與短視頻平臺(tái)，還有奈飛、愛奇藝這類長(zhǎng)視頻平臺(tái)，各類可觀看、可共情的內(nèi)容隨處可見，能滿足我們多方面的情感共鳴需求。但與之形成對(duì)比的是，那種以“主體性”為核心的體驗(yàn)卻格外稀缺：現(xiàn)實(shí)世界里，我們能自主做出選擇、主導(dǎo)行為進(jìn)程，這類親身體驗(yàn)相對(duì)豐富；可在虛擬世界中，這種由“我”掌控、自主行動(dòng)的體驗(yàn)，目前還處在非常匱乏的狀態(tài)。

李善友：的確是這樣。為什么會(huì)有這種現(xiàn)象？

宋亞宸：原因在于文字、圖片和視頻已經(jīng)吸引了大眾參與創(chuàng)作，這就是所謂的UGC（用戶生成內(nèi)容）。而3D或可交互內(nèi)容，目前仍然屬于“精英”的藝術(shù)，這是最本質(zhì)的區(qū)別。以前，文字內(nèi)容是非常稀缺的。例如在唐朝，能夠?qū)懺?shī)、寫小說的人可能不超過100萬，這屬于精英的藝術(shù) 。圖片也是如此，過去我們?nèi)ギ嬂瓤吹降拇蠖嗍敲组_朗基羅等大師的作品，全世界能創(chuàng)作這樣作品的人也不到100萬。視頻領(lǐng)域也類似，無論是好萊塢還是橫店，能從事專業(yè)視頻創(chuàng)作的人也不到100萬。

現(xiàn)在的3D或可交互內(nèi)容也是如此，例如騰訊、網(wǎng)易、育碧等公司，全球能從事這類創(chuàng)作的專業(yè)人員可能也不到100萬。那么，如何讓大眾也能參與到3D或可交互內(nèi)容的創(chuàng)作中呢？

關(guān)鍵在于有一個(gè)大眾級(jí)別的創(chuàng)作者工具。例如，文字創(chuàng)作有打字法，圖片和視頻創(chuàng)作有手機(jī)攝像頭，這些工具讓每個(gè)人都能以零門檻、零成本、實(shí)時(shí)地創(chuàng)作內(nèi)容。為什么一定要零門檻、零成本、實(shí)時(shí)創(chuàng)作呢？因?yàn)閁GC和PGC（專業(yè)生成內(nèi)容）最大的區(qū)別在于，大眾和專業(yè)用戶最大的區(qū)別是：專業(yè)用戶是為了賺錢，而UGC用戶不是為了錢。這是最本質(zhì)的區(qū)別。

李善友：就是在表達(dá)，在娛樂。

落地：3D版TikTok，找到每個(gè)人當(dāng)下的最優(yōu)體驗(yàn)

宋亞宸：用戶參與創(chuàng)作的初衷，本就不是為了盈利，更多是為了抒發(fā)情緒，比如“裝個(gè)逼”、吐吐槽、分享自己的人生片段這類情感表達(dá)，所以首先要保證他們創(chuàng)作時(shí)“不虧錢”，沒有經(jīng)濟(jì)負(fù)擔(dān)。

那么問題就轉(zhuǎn)化為：怎樣才能讓大眾真正參與進(jìn)來？這就必須滿足“零門檻、零成本、實(shí)時(shí)創(chuàng)作”的核心需求。

我們注意到，AI3D大模型恰好提供了這樣一種可能：它有機(jī)會(huì)將可交互內(nèi)容或3D內(nèi)容相關(guān)的創(chuàng)作，變成人人都能上手的大眾級(jí)工具，讓每一個(gè)普通人都能輕松參與創(chuàng)作。當(dāng)創(chuàng)作門檻被徹底打破，大量用戶涌入并產(chǎn)出內(nèi)容，就會(huì)形成一個(gè)反向循環(huán)：先是創(chuàng)作工具普及帶來內(nèi)容的極大豐富，而海量?jī)?nèi)容又需要一個(gè)專門的平臺(tái)來承載和分發(fā)，最終就會(huì)催生出類似“3D版TikTok”這樣的產(chǎn)品，或是一個(gè)以3DUGC為核心的生態(tài)。

一旦這樣的3DUGC生態(tài)成型，可交互內(nèi)容的數(shù)量和種類將會(huì)迎來爆發(fā)式增長(zhǎng)，整個(gè)可交互世界也會(huì)變得無比豐富。試想一下，當(dāng)每個(gè)人都能自由選擇無窮多的虛擬世界或可交互內(nèi)容去親身感受，從某種意義上來說，不就是把人們口中的天堂搬到了現(xiàn)實(shí)嗎？因?yàn)槊總€(gè)人都能在當(dāng)下，找到并體驗(yàn)到對(duì)自己而言真正最優(yōu)、最極致的那種感受。

李善友：你說得特別對(duì)，認(rèn)知最終要落地到實(shí)踐，這背后其實(shí)是“兩條線”并行推進(jìn)，一方面認(rèn)知需要靠信息支撐，也需要實(shí)踐來落地，你剛才在認(rèn)知層面的推導(dǎo)確實(shí)相當(dāng)精彩。現(xiàn)在咱們?cè)倮氐綄?shí)踐層面：這些認(rèn)知是怎么轉(zhuǎn)化成具體行動(dòng)的？是因?yàn)槟憧吹搅四承┟鞔_的信號(hào)才這么做，還是說你開始做的時(shí)候，這個(gè)領(lǐng)域在世界上根本就是一片空白？你最開始是怎么啟動(dòng)這件事的？

宋亞宸：這件事肯定不是只有我一個(gè)人想到，世界上有很多人都看到了這個(gè)方向，并且已經(jīng)在往這個(gè)方向努力了。我們之前也悄悄做過一個(gè)類似3D版TikTok的產(chǎn)品，但后來發(fā)現(xiàn)了一個(gè)問題：當(dāng)產(chǎn)品發(fā)展到一定階段后，創(chuàng)作內(nèi)容就很難再繼續(xù)增長(zhǎng)了。我們做了很多用戶調(diào)研，聊下來之后發(fā)現(xiàn)，核心癥結(jié)在于用戶需要的是零門檻、零成本的創(chuàng)作體驗(yàn)，只有這樣他們才愿意主動(dòng)參與進(jìn)來。

所以我們意識(shí)到，必須先打造一款大眾級(jí)別的創(chuàng)作工具。之后我們就開始尋找合適的技術(shù)路徑，發(fā)現(xiàn)AI3D現(xiàn)在已經(jīng)顯露出了曙光，具備了落地的可能性。于是我們就集中精力把AI 3D相關(guān)的技術(shù)和產(chǎn)品認(rèn)真打磨好，也正是因?yàn)檫@樣，才有了我們現(xiàn)在的狀態(tài)。

李善友：這種3D大模型和我們熟悉的語言大模型，核心區(qū)別到底是什么？你們最開始起步的時(shí)候，是先著手搭建3D大模型，還是先開發(fā)了前端的創(chuàng)作工具？

宋亞宸：先做的大模型，工具是今年才做的事情。

李善友：你從創(chuàng)立之初就專注于大模型領(lǐng)域，推進(jìn)的則是3D大模型。這通常需要巨大的決心與遠(yuǎn)見，因?yàn)槎鄶?shù)公司會(huì)選擇先開發(fā)工具。

宋亞宸：是的。

李善友：我們聊聊3D大模型。

宋亞宸：我認(rèn)為“大模型”實(shí)際上代表的是一種思維范式的轉(zhuǎn)變。為什么這么說呢？在AI1.0時(shí)代，行業(yè)的主流思路并非追求模型規(guī)模，反而是致力于將模型做“小”。這是因?yàn)楫?dāng)時(shí)的研發(fā)邏輯相對(duì)直接：匯聚頂尖的算法科學(xué)家，針對(duì)人臉識(shí)別、異常行為檢測(cè)等一個(gè)個(gè)具體而長(zhǎng)尾的場(chǎng)景問題，通過大量手工調(diào)參與訓(xùn)練，來構(gòu)建盡可能輕量化的專用模型。模型越小，意味著訓(xùn)練與部署成本越低，商業(yè)回報(bào)也更清晰。因此，那個(gè)階段的核心是比拼誰能在解決特定問題時(shí)把模型做得更小、更高效。

而到了AI2.0時(shí)代，思考方式發(fā)生了根本變化。人們開始探索：能否通過海量數(shù)據(jù)和強(qiáng)大算力，驅(qū)動(dòng)構(gòu)建一個(gè)極其龐大且通用的模型，讓它能夠泛化到幾乎所有場(chǎng)景，一舉解決過去需要無數(shù)個(gè)小模型才能覆蓋的問題。這背后遵循著著名的scalinglaw。就像經(jīng)濟(jì)學(xué)中GDP取決于勞動(dòng)力與資本，在AI領(lǐng)域，模型性能可看作數(shù)據(jù)與算力的函數(shù)。當(dāng)兩者同步增長(zhǎng)時(shí)，性能會(huì)顯著提升；但若僅一方增長(zhǎng)，另一方停滯，邊際效益就會(huì)迅速遞減。這就好比有千萬工人卻只有一把鏟子，或是有千萬把鏟子卻只有一個(gè)工人，效率都無法提升。

目前我們正處在這個(gè)范式之中：算力仍在快速增長(zhǎng)，但高質(zhì)量數(shù)據(jù)的供給已逐漸遇到瓶頸，導(dǎo)致算力增長(zhǎng)的邊際收益在下降。于是業(yè)界也開始反思：這是否意味著我們需要在一定程度上回歸AI 1.0的思路，重新借助一些更輕量、更專注的模型來解決特定問題？這目前尚無定論，但可以明確的是，兩種思維方式正形成一種有益的互補(bǔ)與循環(huán)。

至于語言大模型與3D大模型之間的區(qū)別，我認(rèn)為更多體現(xiàn)在技術(shù)路徑與領(lǐng)域遷移上。一種突破性技術(shù)，比如Transformer出現(xiàn)后，其核心思想往往會(huì)跨越領(lǐng)域，激發(fā)其他領(lǐng)域的學(xué)者思考：“我的領(lǐng)域是否也能沿用這種范式？”這種跨領(lǐng)域的技術(shù)借鑒與思維遷移，恰恰是推動(dòng)進(jìn)步的關(guān)鍵。

無論是Diffusion、Transformer還是“大模型”本身，其核心價(jià)值都不僅僅是具體技術(shù)，而更在于它們所代表的一種通用的問題解決范式。

李善友：但從外界的角度看，語言大模型已經(jīng)足夠復(fù)雜，而3D大模型從技術(shù)挑戰(zhàn)上來說，通常被認(rèn)為難度更高。

宋亞宸：困難主要來自于幾件事：第一是復(fù)合型人才的稀缺。構(gòu)建3D大模型，需要深度融合人工智能、計(jì)算機(jī)視覺與圖形學(xué)三個(gè)領(lǐng)域的專業(yè)知識(shí)。這意味著團(tuán)隊(duì)既要精通大模型所需的分布式訓(xùn)練與并行計(jì)算，又要深諳視覺信息的底層處理，還必須掌握?qǐng)D形學(xué)中復(fù)雜的幾何表達(dá)與渲染技術(shù)。這種跨學(xué)科的頂尖人才在市場(chǎng)上原本就極為罕見，可以說這是一個(gè)全新的領(lǐng)域，幾乎沒有現(xiàn)成的資深專家。因此，團(tuán)隊(duì)組建往往需要從基礎(chǔ)培養(yǎng)，或依賴具備學(xué)習(xí)能力和交叉背景的年輕人才。

第二是高質(zhì)量3D數(shù)據(jù)的嚴(yán)重匱乏。正如之前提到的，由于互聯(lián)網(wǎng)生態(tài)與終端設(shè)備的限制，人類長(zhǎng)期以來消費(fèi)的主要是3D信息的“壓縮包”——即文字、圖片、視頻乃至直播流。這些都是對(duì)三維世界經(jīng)過大幅簡(jiǎn)化與投影后的二維載體。而我們真正直接消費(fèi)、可用于模型訓(xùn)練的原生、結(jié)構(gòu)化、大規(guī)模3D數(shù)據(jù)（如精細(xì)模型、點(diǎn)云、動(dòng)態(tài)場(chǎng)景等）卻少之又少。數(shù)據(jù)的缺失，從根本上制約了3D大模型的發(fā)展與訓(xùn)練效果。

第三個(gè)問題就是導(dǎo)致3D領(lǐng)域在早期的時(shí)候，缺乏很多資源，發(fā)展速度必然會(huì)受到限制。

這種變化在計(jì)算機(jī)視覺領(lǐng)域表現(xiàn)得尤為明顯。以計(jì)算機(jī)視覺領(lǐng)域的頂級(jí)會(huì)議CVPR為例，早期在圖形學(xué)的頂級(jí)會(huì)議SIGGRAPH中，大量與計(jì)算機(jī)視覺相關(guān)的論文涌現(xiàn)，甚至“侵占”了SIGGRAPH的部分內(nèi)容。這是因?yàn)楫?dāng)時(shí)研究圖形學(xué)以及AI3D的人才相對(duì)稀缺，幾乎可以忽略不計(jì)。然而，僅僅經(jīng)過短短兩年時(shí)間，情況就發(fā)生了巨大轉(zhuǎn)變。如今，不僅CGRAPH本身出現(xiàn)了大量與AI、3D和圖形學(xué)相關(guān)的內(nèi)容，CVPR會(huì)議上也涌現(xiàn)出了眾多與AI、3D或圖形學(xué)相關(guān)的優(yōu)秀論文，包括最佳論文等重要獎(jiǎng)項(xiàng)。

這種轉(zhuǎn)變表明，隨著AI、3D等領(lǐng)域逐漸成為顯學(xué)，吸引了大量資源和資金的投入，進(jìn)而形成了一個(gè)良性循環(huán)。回顧早期，該領(lǐng)域面臨諸多挑戰(zhàn)：首先，缺乏專業(yè)人才；其次，數(shù)據(jù)資源不足；最后，由于當(dāng)時(shí)并非顯學(xué)，導(dǎo)致整體資源匱乏。

李善友：當(dāng)時(shí)你既沒有相關(guān)技術(shù)背景，又作為初創(chuàng)公司資金有限，而這件事情又很難，你是怎么做起來的呢？

宋亞宸：主要是向他人請(qǐng)教，尋找合作伙伴。我們的CTO梁鼎給了我很多建議。我們?cè)谏虦峭拢舜嘶ハ嘈湃危覍?duì)他以及團(tuán)隊(duì)的技術(shù)能力非常有信心，相信他們能把技術(shù)這一塊做出來。后來，首席科學(xué)家曹巖培以及其他一些青年科學(xué)家也陸續(xù)加入，我們的技術(shù)團(tuán)隊(duì)實(shí)力很強(qiáng)，我十分信任他們，于是便將精力更多地放在數(shù)據(jù)、資源等事務(wù)上。我們?cè)诙虝r(shí)間內(nèi)搭建了一個(gè)有能力的技術(shù)團(tuán)隊(duì)，可以放心地將相關(guān)事務(wù)交給他們。

李善友：你們剛創(chuàng)業(yè)時(shí)，全球有3D大模型嗎？

宋亞宸：可能有一些相關(guān)的論文，尤其是海外的，像Facebook、谷歌、英偉達(dá)、OpenAI等早期的一些嘗試，但還不能稱之為AI 3D大模型，應(yīng)該沒有真正意義上的大模型。

李善友：這件事很有意思。你在商湯做的是AI相關(guān)工作，主要是尋找各種應(yīng)用場(chǎng)景，然后在MiniMax接觸了大模型。如果你創(chuàng)業(yè)，最容易的路徑是基于大模型進(jìn)入各種垂直領(lǐng)域，就像商湯那樣。但你沒有選擇這條道路，反而又深入了一層，這是一種理念性的創(chuàng)業(yè)。你的信心來自哪里呢？你的起步是非常不尋常的。你為什么會(huì)有這樣的信心呢？難道只是憑借一種莫名的力量？

宋亞宸：我覺得如果只是我自己去做這件事情，肯定覺得成不了，但我堅(jiān)信我們有一個(gè)非常棒的團(tuán)隊(duì)，我對(duì)團(tuán)隊(duì)的信任很強(qiáng)，從未懷疑過團(tuán)隊(duì)會(huì)實(shí)現(xiàn)不了目標(biāo)。

商業(yè)：“這件事超出了預(yù)期，比我想象的快”

李善友：創(chuàng)業(yè)的想法是你提出的，還是CTO提出的？

宋亞宸：創(chuàng)業(yè)是我先提出來的。

李善友：那么在創(chuàng)業(yè)之初，你的驅(qū)動(dòng)力來自哪里？是什么促使你來做這個(gè)東西？

宋亞宸：我們真心覺得有這個(gè)需求。就像我們要達(dá)到某個(gè)目標(biāo)，中間遇到了一個(gè)釘子，我們需要找個(gè)錘子，什么錘子合適呢？我們覺得這個(gè)錘子最合適。這確實(shí)與其他公司不同，很多AI公司是先造了一個(gè)錘子，之后可能因?yàn)槟承〇|西火了，大家就說，有了這個(gè)錘子，再去找應(yīng)用場(chǎng)景、找釘子。但我們是在創(chuàng)業(yè)過程中實(shí)實(shí)在在遇到了一個(gè)釘子，即創(chuàng)作者沒有辦法零門檻、零成本實(shí)時(shí)創(chuàng)作，我們總得找個(gè)錘子去解決這個(gè)問題，而這個(gè)東西就是最好的錘子。

李善友：我能這么理解嗎？3DTikTok這個(gè)想法是在先的。

宋亞宸：它其實(shí)是一個(gè)愿景，但要實(shí)現(xiàn)這個(gè)愿景，可能得先敲一個(gè)釘子。

李善友：對(duì)，大家來創(chuàng)作，需要工具，而工具必須得有一個(gè)3D大模型。所以你是一步步推導(dǎo)到這一步的。但最終你想做的是3D內(nèi)容創(chuàng)作平臺(tái)，類似3DTikTok。從需求側(cè)、場(chǎng)景側(cè)來看，你是清晰的，基于這個(gè)需求你才推導(dǎo)到這一步。

宋亞宸：我覺得3DTikTok或者說可交互內(nèi)容的平臺(tái)一定是一個(gè)長(zhǎng)期的需求，即使今天不是我做出來，明天也肯定會(huì)有別人做出來，這是一個(gè)共識(shí)。

李善友：那這幾年做下來，你們的3D大模型發(fā)展得怎么樣了？

宋亞宸：我覺得發(fā)展速度比我想象中的要快。

李善友：為什么？

宋亞宸：可能是因?yàn)槲抑敖?jīng)歷的是AI1.0時(shí)代，那個(gè)時(shí)代的技術(shù)發(fā)展沒有這么快。你會(huì)發(fā)現(xiàn)最近兩三年的技術(shù)發(fā)展速度有點(diǎn)“變態(tài)”，大家已經(jīng)麻木了。其實(shí)最近兩三年的技術(shù)發(fā)展是非常不正常的，速度太快了，大家看了太多的奇觀，導(dǎo)致對(duì)真正的技術(shù)發(fā)展已經(jīng)麻木。

李善友：現(xiàn)在是指數(shù)級(jí)進(jìn)步，大家覺得也無所謂了。

宋亞宸：比如視頻生成這件事，如果放在100年前，它絕對(duì)是一個(gè)偉大發(fā)明，可能是某個(gè)世紀(jì)的最偉大發(fā)明。但放到今天來看，它只是眾多發(fā)明中的一個(gè)感覺還不錯(cuò)的東西。

這是一件我覺得非常神奇的事情，這件事情其實(shí)超出了我的認(rèn)知。我原來覺得，可能四五年后，AI 3D大模型能夠進(jìn)入管線（3D管線是我們用計(jì)算機(jī)語言表達(dá)一個(gè)三維世界的方式），甚至超過人類水平，就已經(jīng)很好了。但現(xiàn)在短短兩三年時(shí)間，它已經(jīng)基本上做到了。我覺得這件事情超出了我的預(yù)期，比我想象的快。

李善友：總的來說，在用戶場(chǎng)景端，你們到了什么階段？

宋亞宸：我們現(xiàn)在大概有500萬左右的專業(yè)用戶在使用我們的專業(yè)工具，其中80%多來自海外。我們還做一些TO B的工作，大概有4萬多家中小企業(yè)，約700多家大企業(yè)。

說到落地場(chǎng)景，我們主要有四大類：第一大類是內(nèi)容創(chuàng)作，比如游戲、動(dòng)畫、影視、短劇、CG等內(nèi)容的創(chuàng)作；第二大類是工業(yè)設(shè)計(jì)，包括輕工業(yè)、重工業(yè)、柔性化生產(chǎn)、3D打印等；第三大類是展示展覽，比如電商、廣告、教育、文旅、文博等領(lǐng)域的展示展覽；第四大類是新興行業(yè)，比如具身智能的仿真模擬、數(shù)字孿生、數(shù)字人、AI+游戲、世界模型、空間智能元宇宙、XR+AI眼鏡等。

李善友：你現(xiàn)在最重要的難題是在技術(shù)側(cè)還是在市場(chǎng)側(cè)？

宋亞宸：我認(rèn)為最大的難題并非單純的技術(shù)或市場(chǎng)問題，而是身處這個(gè)充滿噪音和誘惑的時(shí)代，人們是否具備足夠的耐心和定力去完成一件事。要成就一件有價(jià)值、相對(duì)偉大的事業(yè)，長(zhǎng)期主義是不可或缺的。以O(shè)penAI為例，它經(jīng)過了6年的沉淀才取得了如今的成果。

做一件有價(jià)值的事情，必然需要長(zhǎng)期的積累和堅(jiān)持。在這個(gè)過程中，你會(huì)面臨諸多誘惑和恐懼，這些因素會(huì)不斷考驗(yàn)?zāi)愕亩湍托摹Ｗ罱鼉扇辏夹g(shù)發(fā)展迅猛，各領(lǐng)域變革速度飛快，人們改變方向的速度也急劇加快。然而，在這樣一個(gè)快速變化的時(shí)代，保持一定的“慢”反而有其獨(dú)特價(jià)值。

理念：每個(gè)人都有自己的幸福，這對(duì)我很重要

李善友：如果從長(zhǎng)期主義的角度來看，這件事的終極愿景是什么？

宋亞宸：愿景是為世界貢獻(xiàn)文明，為人類創(chuàng)造幸福。

李善友：我覺得你是我在學(xué)生中第一次遇到的對(duì)思想有執(zhí)念的人，而且你能擁抱世界的復(fù)雜性。你有沒有形成自己獨(dú)特的思維方式呢？

宋亞宸：我覺得我應(yīng)該是有自己獨(dú)特的思維方式的，但目前我還不太能很好地總結(jié)它。

宋亞宸：我覺得我的思考方式是比較傾向于 Mill（約翰·斯圖亞特·密爾）和 Bentham（杰瑞米·邊沁）提出的理論。（這兩位是主要的功利主義Utilitarianism的代表，功利主義是傳統(tǒng)西方倫理學(xué)中一個(gè)重要的理論，提倡追求“最大幸福”）。

我是這樣理解并運(yùn)用的，即每個(gè)人都有自己的幸福。

其實(shí)，很多哲學(xué)討論的都是道德問題，而神學(xué)則在探討諸如誰是第一推動(dòng)者、誰創(chuàng)造了世界、人類從哪里來等問題。當(dāng)我們談?wù)撜軐W(xué)時(shí)，我們其實(shí)是在討論道德，但我們的思維方式并非僅僅基于這些關(guān)于世界起源和創(chuàng)造的問題，而是更像是一種基于世界觀和價(jià)值觀的思考。

就思維方式而言，我認(rèn)為道德的本質(zhì)應(yīng)該是最大化幸福的總和。比如電車難題，它能很好地解釋哲學(xué)中關(guān)于道德判斷的許多問題。假設(shè)有一條鐵軌，一邊是死一個(gè)人，另一邊是死兩個(gè)人，我會(huì)選擇死一個(gè)人，因?yàn)檫@樣最大化幸福的總和就減少了。如果死一個(gè)人是 -1，那么死兩個(gè)人就是 -2，這個(gè)計(jì)算過程非常簡(jiǎn)單。

李善友：所以，“最大化幸福的總和”這句話對(duì)你來說很重要。

宋亞宸：沒錯(cuò)，這其實(shí)也和我在創(chuàng)業(yè)時(shí)做的事情有關(guān)。比如，我認(rèn)為創(chuàng)業(yè)有三種主要方向，當(dāng)然創(chuàng)業(yè)的類型遠(yuǎn)不止這三種，但我認(rèn)為目前最熱門的是這三種。第一種是以快速擴(kuò)散為典型表現(xiàn)，像馬斯克和愛迪生那樣，他們致力于讓人們擁有更多的資源，如汽車等；第二種是讓人們活得更長(zhǎng)久，比如各種醫(yī)療公司，他們的目標(biāo)是讓人們從原本只能活到 50 歲，到能活100歲、1000 歲，甚至是永生；而我更喜歡第三種，就像迪士尼那樣，哪怕只有五個(gè)人，這五個(gè)人只能活三天，我也希望讓這五個(gè)人在這三天內(nèi)能夠活得最開心。對(duì)我來說，這才是最重要的事情。

李善友：嗯，那你在做這件事的時(shí)候，什么對(duì)你最重要？第一性原理是什么？你的核心信念在哪里？比如馬斯克，他說要讓人類成為跨行星的物種，這件事對(duì)他很重要，他覺得如果死之前不能完成這件事，這一生就白活了。但黃仁勛肯定不是這么想的，他先考慮的是活下去。

宋亞宸：我覺得人可以選擇自己最極致的體驗(yàn)，這對(duì)我來說很重要，甚至我覺得每個(gè)人都能擁有自己最極致的體驗(yàn)，這件事很難得。

李善友：這是你最重要的東西，是你堅(jiān)信的信念。

宋亞宸：對(duì)，我覺得這件事是最重要的。

李善友：你的能力在哪里？你的天賦在哪里？為什么你能做這件事情？

宋亞宸：我覺得這跟能不能做沒有關(guān)系，而是跟方向?qū)Σ粚?duì)有關(guān)系。我可以跑得慢，那就慢慢跑。我也可以接受這件事最后不是我一個(gè)人做成的，可能是和別人合作完成的，或者最終是別人做成的。

我不愿意去做一件看似我擅長(zhǎng)，但我不相信或覺得沒有意義的事情。反過來，我可能不擅長(zhǎng)把這件事做出來。比如我對(duì)技術(shù)一無所知，但我認(rèn)為做這件事本身是重要的，至于是不是我最擅長(zhǎng)，倒不那么重要。

馬云可能也不一定是最擅長(zhǎng)做阿里巴巴的，當(dāng)時(shí)可能有上萬人比他更擅長(zhǎng)，但做不做這件事可能是最重要的能力。

李善友：你剛才想表達(dá)的是，這件事本身的意義。我覺得你很幸福，因?yàn)槟阏娴南嘈胚@件事對(duì)你很重要。不是每個(gè)人都能這樣。你是理念型創(chuàng)業(yè)者，而且你認(rèn)為理念對(duì)你很重要。

宋亞宸：很重要。

李善友：你絕對(duì)是少數(shù)的。所以我覺得你是個(gè)小怪獸，是我特別欣賞、喜歡并愿意陪伴的小怪獸。第二點(diǎn)，我們找到了這個(gè)載體，從邏輯上推，它能通往那個(gè)目標(biāo)。

我最近看黃仁勛的人生，最打動(dòng)我的是他的人生上半場(chǎng)和下半場(chǎng)不一樣。上半場(chǎng)他做游戲芯片，充滿競(jìng)爭(zhēng)，只是為了求存。下半場(chǎng)他走到GPU、CUDA、加速計(jì)算和人工智能領(lǐng)域，我覺得他在做自己。這時(shí)候應(yīng)該是沒有競(jìng)爭(zhēng)的。上半場(chǎng)他的競(jìng)爭(zhēng)方式是不競(jìng)爭(zhēng)，下半場(chǎng)他成為自己了。

我相信人生是有上半場(chǎng)和下半場(chǎng)的。上半場(chǎng)是被EGO（自我）推動(dòng)的，被貪嗔癡推動(dòng)的，是人性本能推動(dòng)的。但我相信有下半場(chǎng)，下半場(chǎng)是被真善美推動(dòng)的。這件事不僅僅是為了我、為了大家，還是為了宇宙。大多數(shù)人先完成上半場(chǎng)，再進(jìn)入下半場(chǎng)。而你是個(gè)少有的例外，你直接站在了下半場(chǎng)，這非常了不起。

我覺得人這輩子最幸福的事情就是做我此生該做的事情，在該做的事情里成為最好的自己，這就是借事修人，人事合一。這也是我說的以商入道。

打開小宇宙 app訂閱混沌創(chuàng)辦人李善友的播客節(jié)目，每?jī)芍艿闹芩臏?zhǔn)時(shí)上新，我們期待與你相見！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.