過(guò)去,我們經(jīng)歷和見(jiàn)證了不同模態(tài) APP 在不同階段的發(fā)展:從 QQ 和天涯的文本模態(tài),到博客、QQ 空間、微博的圖文模態(tài),往后到土豆、優(yōu)酷等視頻模態(tài),再到現(xiàn)在以抖音、快手為代表的短視頻。
就在創(chuàng)業(yè)者們用 AI 在文本、圖像、視頻生成的領(lǐng)域中“卷生卷死”之際,生境科技(Sengine Technology)的 CEO 劉紫東帶領(lǐng)團(tuán)隊(duì)選擇了另一條路徑——空間。他認(rèn)為,每個(gè)時(shí)代真正的機(jī)會(huì)來(lái)自新的模態(tài),而不是在舊模態(tài)里做得更精致。空間,正是像視頻一樣可以被大眾創(chuàng)作、交互和變現(xiàn)的下一代模態(tài)。
世界模型有多條技術(shù)路線:有以時(shí)間理解、動(dòng)作幀預(yù)測(cè)為核心的視頻大模型(如 DeepMind 的 Gennie 3),有專注隱式空間表達(dá)(楊立昆),還有一個(gè)主要的類別,就是 3D 場(chǎng)景生成。其中,又細(xì)分成基于 3D 高斯?jié)姖u的純視覺(jué)表皮還原(李飛飛的 World Labs)和離散實(shí)體的組合與布局(如Autodesk、普林斯頓 infinigen)等。
劉紫東認(rèn)為后者更貼近實(shí)際應(yīng)用,他將空間生成還原為兩個(gè)最基本的問(wèn)題:擺什么,以及擺在哪。這種構(gòu)建空間的敘事邏輯更多基于人類的實(shí)際需求,而非生成一層表皮的純視覺(jué)方案。“英偉達(dá)、Autodesk 等大廠和 MIT、普林斯頓等高校實(shí)驗(yàn)室都在持續(xù)研究這條技術(shù)路線,但是我們的算法是最先能達(dá)到商業(yè)落地的。”他說(shuō)。
在這條獨(dú)特技術(shù)路徑背后,是一條同樣不尋常的學(xué)術(shù)軌跡。劉紫東本科畢業(yè)于東南大學(xué)建筑學(xué)院,后在英國(guó)倫敦大學(xué)學(xué)院獲得計(jì)算設(shè)計(jì)碩士學(xué)位,之后赴美國(guó)德州大學(xué)奧斯汀分校攻讀博士學(xué)位,主要研究方向是空間 AI 生成。2023 年,他敏銳地意識(shí)到這條賽道正在出現(xiàn)窗口期——在他看來(lái),除了空間,其他模態(tài)的“舊戰(zhàn)場(chǎng)”已經(jīng)結(jié)束。
在近期 DeepTech 與劉紫東的深度對(duì)話中,我們談到了對(duì)空間智能行業(yè)的理解、賽道的選擇、技術(shù)差異性路徑、商業(yè)落地和未來(lái)發(fā)展趨勢(shì)等。他將空間智能創(chuàng)業(yè)所處的階段,類比為抖音在 PC 互聯(lián)網(wǎng)時(shí)代競(jìng)爭(zhēng)中,率先識(shí)別并切入移動(dòng)互聯(lián)網(wǎng)的那個(gè)關(guān)鍵節(jié)點(diǎn)。
基于 AI 生成空間的核心技術(shù),生境科技已在多個(gè)方向展開(kāi)探索。其中最引人關(guān)注的是其自研的全球首款空間 AI 游戲——森盒 SenBOX3,它就像是一個(gè)空間編輯器,用戶只需要用一句話、一張照片就能自動(dòng)生成專屬的“夢(mèng)想家園”。
這款產(chǎn)品被不少玩家理解為 AI 版《我的世界》,在尚未正式上線的情況下,基于獨(dú)特的共創(chuàng)和個(gè)性化創(chuàng)作,全網(wǎng)相關(guān)內(nèi)容累計(jì)吸引百萬(wàn)級(jí)粉絲關(guān)注,其中 15 至 25 歲的女性用戶占據(jù)相當(dāng)比例。
![]()
(來(lái)源:劉紫東)
與此同時(shí),該公司也發(fā)展了面向 B 端的 API 業(yè)務(wù),服務(wù)客戶包括松下、Ashley、萬(wàn)華等。盡管這部分業(yè)務(wù)已帶來(lái)千萬(wàn)元級(jí)的營(yíng)收,但劉紫東更愿意將其視為“順手做”的延展,而非公司的核心重心。
在做出創(chuàng)業(yè)決定時(shí),他并不諱言自己的代際焦慮。作為一名 95 后,劉紫東曾悲觀地判斷,與 60 后、70 后和 80 后相比,90 后、95 后這一代人的學(xué)歷紅利已經(jīng)不在。因此當(dāng)機(jī)會(huì)來(lái)臨時(shí),他幾乎沒(méi)有猶豫,選擇放棄博士學(xué)位回國(guó)創(chuàng)業(yè)。
劉紫東將效率視為真正的技術(shù)壁壘,因此并不懼怕后來(lái)者。除了技術(shù)的原創(chuàng)性,他的底氣一部分還來(lái)自于身后的“智囊團(tuán)”:不僅由其博士生導(dǎo)師丹尼爾·庫(kù)勒(Daniel Koehler)教授擔(dān)任公司首席科學(xué)家顧問(wèn),還獲得了中國(guó)工程院孟建民院士和“大疆教父”李澤湘教授的支持。截至目前,生境科技已完成 Pre-A 與 Pre-A+ 輪近億元融資。
在他的設(shè)想中,空間 AI 的終點(diǎn)并不僅是一款游戲或一個(gè)內(nèi)容社區(qū),而是逐步演化為一個(gè)室內(nèi)版的“谷歌地球(Google Earth)”——一個(gè)與實(shí)體經(jīng)濟(jì)深度耦合、可以承載交易與社交的空間智能平臺(tái)。
以下是對(duì)話內(nèi)容,在不改變?cè)馇疤嵯陆?jīng)編輯和整理。
逃離舊戰(zhàn)場(chǎng):空間是 AI 領(lǐng)域少有的“新大陸”
DeepTech:你是基于怎樣的判斷,認(rèn)為空間 AI 賽道有潛在的發(fā)展機(jī)會(huì)?
劉紫東:要回答這個(gè)問(wèn)題,我想先談?wù)劄槭裁窗l(fā)展其他的模態(tài)不行。從商業(yè)角度來(lái)看,各大廠在文本、圖像、視頻等模態(tài)具有顯著優(yōu)勢(shì),如果發(fā)展這些傳統(tǒng)模態(tài),用戶獲取成本很高。這不是技術(shù)問(wèn)題而是分發(fā)和規(guī)模的問(wèn)題,實(shí)際上創(chuàng)業(yè)公司在結(jié)構(gòu)上已經(jīng)輸了。
我們是從模態(tài)的角度來(lái)判斷的。顯然,文字、圖像、視頻格局基本已定,目前都屬于“舊戰(zhàn)場(chǎng)”。其實(shí),每個(gè)模態(tài)都有自己的代表性 APP,每個(gè)時(shí)代也有屬于自己的模態(tài),而機(jī)會(huì)往往來(lái)自于新模態(tài)的產(chǎn)生。
以創(chuàng)立于 2016 年的抖音為例,它最厲害的是推薦算法,如果它只是做今日頭條的業(yè)務(wù),可能只比新浪、搜狐新聞好用一點(diǎn),但不可能有如此強(qiáng)的用戶感知差異,也就沒(méi)有今天的體量。
抖音正是在大家聚集在瀏覽器、殺毒軟件、彈窗、門(mén)戶網(wǎng)站等 PC 端“戰(zhàn)場(chǎng)”時(shí),選擇了一條不同的發(fā)展路徑——視頻模態(tài)。直到今天,它 90% 的體量仍然來(lái)自這里。我記得張一鳴當(dāng)時(shí)曾說(shuō)過(guò):“不要留戀 PC 互聯(lián)網(wǎng)舊戰(zhàn)場(chǎng),抓住移動(dòng)互聯(lián)網(wǎng)機(jī)遇。”
我覺(jué)得現(xiàn)在同樣是到了這樣一個(gè)時(shí)機(jī),當(dāng)領(lǐng)域都還在“卷”圖像、文本、視頻這些舊模態(tài)時(shí),我們已經(jīng)有了一個(gè)清晰的判斷:新的空間模態(tài)里才是唯一的“新大陸”。
DeepTech:也就是說(shuō),你認(rèn)為空間是繼 AI 生成文本、圖像、視頻之后的下一個(gè)前沿。
劉紫東:是的。一種新模態(tài)的崛起離不開(kāi)技術(shù)成熟的發(fā)展,這從根本上降低了內(nèi)容生產(chǎn)和消費(fèi)的門(mén)檻。就像過(guò)去拍攝視頻需要扛著攝像機(jī),拍攝和剪輯都非常麻煩。直到手機(jī)攝影錄像功能普及,內(nèi)容生產(chǎn)才變得簡(jiǎn)單、門(mén)檻大幅降低。在消費(fèi)側(cè),手機(jī)屏幕提供了更好的觀看體驗(yàn),網(wǎng)速也提升到了 4G、5G 時(shí)代。生產(chǎn)和消費(fèi)兩端的共同作用,讓視頻變得又好看又容易實(shí)現(xiàn),它的火爆也就成了必然。
從文字到圖片、視頻再到空間,每個(gè)模態(tài)帶來(lái)的信息密度不一樣。文字已經(jīng)存在幾千年了,后面才有圖像。到了視頻,它不僅有聲音還有時(shí)間維度,能更好地描述故事。人類是傾向于更多維度的感知以及更豐富的信息層級(jí),所以,能比視頻還更高維、更加貼近現(xiàn)實(shí)的就是空間。與視頻相比,空間天然有交互、漫游和自主性。
另一方面,剛好在最近幾年,空間在內(nèi)容的生產(chǎn)和消費(fèi)生態(tài)方面也在迅速成熟和便捷。內(nèi)容生產(chǎn)體現(xiàn)在 AI 制造 3D 資產(chǎn)和圖轉(zhuǎn) 3D 等成本大幅下降。從消費(fèi)層面來(lái)看,虛幻引擎已服務(wù)于 3D 場(chǎng)景渲染。隨著其畫(huà)質(zhì)越來(lái)越好,已經(jīng)逐漸支持手機(jī)芯片,例如寫(xiě)實(shí)化游戲逐漸搬上移動(dòng)端。從長(zhǎng)遠(yuǎn)來(lái)看,在 Vision Pro、AR、VR 方面的布局也在迅速加快。
所以綜合來(lái)看,我們得出一句“暴論”:從創(chuàng)業(yè)公司的視角看,空間模態(tài)可能是目前少數(shù)仍具備結(jié)構(gòu)性機(jī)會(huì)的方向之一。
DeepTech:空間與傳統(tǒng)的 3D 單體技術(shù)有怎樣的不同?
劉紫東:空間與 3D 單體的技術(shù)路徑不太一樣。3D 單體通過(guò)一張圖片就能推理還原出物體,而空間需要一系列圖片才能重建。簡(jiǎn)單來(lái)說(shuō),3D 單體解決的是“單個(gè)物體長(zhǎng)什么樣”,而空間解決的是“物體如何有序擺放構(gòu)成滿足人類需求的場(chǎng)景”。從城市規(guī)劃到室內(nèi)設(shè)計(jì),都無(wú)非是把東西擺來(lái)擺去的過(guò)程。
DeepTech:這個(gè)方向應(yīng)該有很多潛在的商業(yè)機(jī)會(huì),那各家大廠為何不自己做空間智能這個(gè)方向呢?
劉紫東:因?yàn)榇髲S在這方面喪失了兩個(gè)既有的優(yōu)勢(shì):一是場(chǎng)景和用戶優(yōu)勢(shì),它沒(méi)有一款以 3D 空間為主題的 APP;另一方面,在技術(shù)、數(shù)據(jù)和模型算法方面也不占優(yōu)勢(shì)。現(xiàn)在,大家對(duì)于“什么是空間”還在爭(zhēng)議中,它的技術(shù)路徑不像圖像、文本、算法工程那么好找,還在劇烈的波動(dòng)中。所以,對(duì)大廠來(lái)說(shuō)可能“一會(huì)想干,一會(huì)又放棄”,因此很難組建團(tuán)隊(duì)。
建筑學(xué)底層的創(chuàng)新和革命:另類世界模型,核心是“擺什么、怎么擺”
DeepTech:生境科技在做的事情是否可以理解為通過(guò)“空間理解+AI 生成”,來(lái)做下一代基礎(chǔ)設(shè)施?它和現(xiàn)在大家高度關(guān)注的世界模型是一回事嗎?
劉紫東:現(xiàn)在,谷歌、李飛飛、楊立昆(Yann LeCun)都在借助世界模型,來(lái)探索對(duì)物理世界的理解。谷歌做的是文生視頻大模型;李飛飛的空間智能模型 Marble 致力于 3D 高斯?jié)姖u(Gaussian Splatting);楊立昆則聚焦于更抽象的世界表征。
![]()
(來(lái)源:劉紫東)
我們正在做的事情與李飛飛的技術(shù)方向比較貼近,但屬于完全不同的范式。她是從純視覺(jué)的維度來(lái)理解空間,方向是文生圖、圖轉(zhuǎn)空間。盡管可通過(guò)文字方式做修改,但由于鏈路太長(zhǎng),本質(zhì)上屬于“拿大炮打蚊子”。另外就是,視覺(jué)表皮生成的技術(shù)路線擅長(zhǎng)換風(fēng)格,但在其它任務(wù)是結(jié)構(gòu)性地能力缺失。
這一點(diǎn)在室內(nèi)空間生成方面更加明顯,Marble 不僅精度較低會(huì)導(dǎo)致所生成的空間有些比較模糊的地方,而且無(wú)法輸入足夠多的限制條件。雖然其技術(shù)可以實(shí)現(xiàn)生成用戶提出的“童話世界”等切換風(fēng)格需求,但無(wú)法基于這樣的需求生成空間,例如“基于三室兩廳特定的布局生成空間,我的家庭是三口之家,我喜歡打麻將,爸爸喜歡打游戲”。此外,其很難做二次編輯和交互。
![]()
(來(lái)源:劉紫東)
DeepTech:除了技術(shù)的路徑,生境科技在做的事情和世界模型還有哪些本質(zhì)的不同呢?
劉紫東:從構(gòu)建空間的敘事邏輯來(lái)看,我們也有本質(zhì)的區(qū)別。空間可以分成兩類:一類是由自然規(guī)律主導(dǎo)的空間,另一類是由人類活動(dòng)主導(dǎo)的空間。實(shí)際上,這兩類空間的形成邏輯并不完全相同。
具體而言,自然空間生成完全依賴自然規(guī)律和物理規(guī)律,但在人類的人造空間,從城市到人類的棲息地,再?gòu)某鞘械浇ㄖ俚绞覂?nèi),其生成邏輯物理定律可能只占 30%,剩下的 70% 與人類的需求密切相關(guān)。
所以,要生成從城市到室內(nèi)的空間不是一個(gè)純視覺(jué)邏輯,而是包括更多的社會(huì)心理學(xué)邏輯維度,例如功能、美學(xué)、日照采光、隱私和心理學(xué)等因素。我們只有把這些維度背后的參數(shù)特征提取出來(lái),生成的空間才是能滿足人類需求的。
可以說(shuō)我們相當(dāng)于創(chuàng)造了一個(gè)新學(xué)科,在這一理解空間的路徑和技術(shù)范式上,我們目前是非常少見(jiàn)、甚至可以說(shuō)是獨(dú)特的。實(shí)際上,我們用了很多建筑學(xué)的關(guān)于人造空間的思維,然后又把它 AI 化做空間編碼,這是前所未有的。可以說(shuō),我們?cè)谧龅?AI 生成空間是建筑學(xué)非常底層的一次創(chuàng)新和革命。
我們解決的是擺放、規(guī)劃和布局的問(wèn)題,這個(gè)問(wèn)題過(guò)去從未有人單獨(dú)來(lái)研究。無(wú)論是城市還是室內(nèi)的空間,所有的空間生成問(wèn)題都可以拆解成兩個(gè)子問(wèn)題:一個(gè)是擺什么,另一個(gè)是把建筑/物品擺在哪里。
總結(jié)來(lái)說(shuō),李飛飛的空間智能生成的是一層“皮”,更關(guān)注的是整體的視覺(jué)風(fēng)格;而我們認(rèn)為對(duì)于人類所建造的空間,需要更專業(yè)的其他信息來(lái)補(bǔ)充。
DeepTech:它背后的核心邏輯是什么?
劉紫東:這個(gè)邏輯其實(shí)和推薦算法有相似之處。推薦算法面對(duì)海量?jī)?nèi)容,并根據(jù)用戶此時(shí)此刻的個(gè)性化的特征——無(wú)論是人物標(biāo)簽、當(dāng)前行為還是潛在訴求,推薦出用戶最喜歡的視頻或商品。
但推薦算法主要解決的是選擇問(wèn)題,我們?cè)谧龅目臻g生成,不僅需要從海量 3D 資產(chǎn)中選擇合適的物品,還要解決擺放的問(wèn)題——把這些選中的物品合理地布置在空間里。
推薦算法并非抖音首創(chuàng),但后者將其產(chǎn)品化并做到極致,從這個(gè)意義上來(lái)說(shuō),抖音推動(dòng)了一個(gè)新學(xué)科的發(fā)展。我們?cè)谧龅氖虑橥瑯邮菍⒁环N新技術(shù)的邏輯轉(zhuǎn)化為成熟的產(chǎn)品與應(yīng)用,相當(dāng)于空間生成領(lǐng)域的“推薦算法”。
游戲是巨頭爭(zhēng)霸縫隙中的綠洲,年?duì)I收千萬(wàn)的 B 端生意只是“順手做”
DeepTech:我們看到 AI 家園類游戲——森盒 SenBOX3 在全網(wǎng)非常火爆,生境科技目前在主推這款游戲,有哪些因素的考慮?
劉紫東:我們的核心技術(shù)是 AI 空間生成,現(xiàn)在 90% 以上的精力都在做這款游戲,這也是全球第一個(gè) AI 版《我的世界》。
![]()
(來(lái)源:劉紫東)
這個(gè)決定源于我們對(duì)創(chuàng)業(yè)公司類型的清醒認(rèn)知:軟件公司的類型涵蓋社交、電商、內(nèi)容,包括知乎、抖音、小紅書(shū)、豆瓣等等。現(xiàn)在的趨勢(shì)是,涉及到這三大類的業(yè)務(wù)都是巨頭壟斷。過(guò)去 10 年沒(méi)有公司在這方面賺到錢(qián)。
軟件公司的成長(zhǎng)曲線太陡峭了:要么是無(wú)限大,要么是 0,沒(méi)有中間地帶,所以這些生意沒(méi)得做。我們經(jīng)常說(shuō),豆包都是免費(fèi)的,AI ToC 軟件怎么賺錢(qián)呢?但是我們發(fā)現(xiàn),在軟件公司內(nèi)有一個(gè)例外的領(lǐng)域——游戲。游戲的商業(yè)市場(chǎng)交易很好,用戶的付費(fèi)意識(shí)很強(qiáng)。
另一方面,游戲內(nèi)容與整個(gè)產(chǎn)業(yè)生態(tài)很好,個(gè)人游戲工作室也能賺到一點(diǎn)錢(qián),非常適合創(chuàng)業(yè)。它不是一家獨(dú)大,它的上限也夠高,比如既有像大家都熟悉的王者榮耀、吃雞這些游戲,也有大量的小游戲。它就像個(gè)熱帶雨林一樣,有大象、長(zhǎng)頸鹿、老虎,還有螞蟻。所以我們盤(pán)算下來(lái),要做軟件只能做游戲,做其他的都是死路。
![]()
圖丨由生境科技空間智能技術(shù)生成的“夢(mèng)想臥室”(來(lái)源:劉紫東)
DeepTech:那剩下 10% 的精力,公司還在發(fā)展哪些業(yè)務(wù)呢?
劉紫東:我們還在做兩個(gè)方向。一是通過(guò)具身智能機(jī)器人數(shù)據(jù)合成平臺(tái) SimHub 提供海量的家庭數(shù)據(jù),訓(xùn)練機(jī)器人對(duì)空間智能的感知能力。目前,我們已經(jīng)與一些機(jī)器人廠商,包括掃地機(jī)器人廠商合作。但這個(gè)市場(chǎng)規(guī)模相對(duì)有限,而且我們只是批量造數(shù)據(jù),不涉及定制化服務(wù)。我覺(jué)得造數(shù)據(jù)就像挖石油一樣,造好了有人愿意買(mǎi)我就賣(mài)一點(diǎn)。
二是 Sengine API,我們與一些大型電商平臺(tái)合作,通過(guò) API 對(duì)接,包括國(guó)內(nèi)外的頭部企業(yè)松下、Ashley、萬(wàn)華等等。
我們提出了一個(gè)概念叫“空間購(gòu)物車”。過(guò)去用戶將目標(biāo)商品放入購(gòu)物車,并不知道這商品買(mǎi)回家是否合適,下單后可能還要退貨。我們的理念是:將你家的毛坯房模型用 AI 空間生成技術(shù)做出來(lái),然后用戶把相關(guān)商品添加到空間購(gòu)物車后,就可以把它們擺到你家。這樣就能一目了然地看到這些東西擺在你家是什么樣子、搭得好不好看。
這兩個(gè)方向用的也都是我們 AI 生成空間的能力,但其實(shí)這兩件事都是順手做的,我們最核心的、最好玩的仍然是自己開(kāi)發(fā)的這款游戲。
DeepTech:其實(shí)相當(dāng)于公司在 B 端和 C 端雙線作戰(zhàn),這種路徑是階段性的策略,還是長(zhǎng)期的并行路線呢?
劉紫東:我們還是以 C 端為主。實(shí)際上,新一代的 AI 公司做 B 端和過(guò)去傳統(tǒng)意義上的 B 端已經(jīng)有所不同。上一代做 SaaS 的更多是定制開(kāi)發(fā)的軟件,大部分能力沒(méi)法復(fù)用。比如以設(shè)計(jì)平臺(tái)酷家樂(lè)為代表的公司,如果它做 B 端生意,就會(huì)陷入無(wú)止境的定制開(kāi)發(fā)。
而現(xiàn)在的模型公司,尤其是像我們這種有自己獨(dú)特模型能力、具有商業(yè)變現(xiàn)能力的公司來(lái)說(shuō),做 B 端和做 C 端可以共享一套模型能力,我們按次數(shù)收費(fèi),定制化的程度非常低,更多體現(xiàn)在模型能力的復(fù)用上。對(duì)于我們目前的產(chǎn)品和模型能力來(lái)說(shuō),B 端業(yè)務(wù)只是順手做的,盡管服務(wù)的是一些頭部的大客戶但我自己不太 care,我主要還是關(guān)心這款游戲。
DeepTech:發(fā)展數(shù)據(jù)合成平臺(tái),是因?yàn)樯吃跀?shù)據(jù)方面具有優(yōu)勢(shì),還是說(shuō)在某些方面具有稀缺性呢?
劉紫東:我覺(jué)得與其說(shuō)數(shù)據(jù)優(yōu)勢(shì),不如說(shuō)我們理解數(shù)據(jù)的維度和別人不一樣。比如,如果在清朝時(shí)挖到了油田并不會(huì)有太廣泛的影響力,因?yàn)槟菚r(shí)候還沒(méi)有汽車。我們擅長(zhǎng)的是,更懂得如何充分利用數(shù)據(jù)背后的信息以及提取特征的維度。
另外,有些創(chuàng)業(yè)公司會(huì)覺(jué)得擁有 1 萬(wàn)套自己的獨(dú)家數(shù)據(jù)非常厲害。但我并不這樣認(rèn)為,獨(dú)家數(shù)據(jù)的量太少了。如果要訓(xùn)練一個(gè)大的空間通用智能,一定是從全球互聯(lián)網(wǎng)上的億級(jí)、百億級(jí)數(shù)據(jù)里來(lái)學(xué)習(xí)。
所以問(wèn)題的關(guān)鍵在于,如何利用互聯(lián)網(wǎng)上海量的公共資源。任何私有數(shù)據(jù)庫(kù)都無(wú)法與互聯(lián)網(wǎng)的公共數(shù)據(jù)庫(kù)相媲美,關(guān)鍵在于如何理解它以及如何對(duì)其學(xué)習(xí)。
我們的創(chuàng)新點(diǎn)一方面是我們理解數(shù)據(jù)的維度更多,另一方面是我們訓(xùn)練了一種多模態(tài)對(duì)齊的方法,通過(guò)看圖片學(xué)習(xí)空間設(shè)計(jì),有點(diǎn)類似建筑師:不用走遍全世界,而是通過(guò)看圖片在腦海里補(bǔ)出建筑整體的形象。
DeepTech:剛才你提到在提取特征數(shù)據(jù)的維度上,可能和別人做的不太一樣。你能具體說(shuō)說(shuō)這些特征在哪些方面比較不一樣嗎?
劉紫東:我們關(guān)注的是一些更具體的內(nèi)容,比如空間是否走得通順、利用率高不高、使用起來(lái)方不方便、感受起來(lái)舒不舒服、采光好不好、隱私有沒(méi)有得到注意等等。
從范式上來(lái)說(shuō),我覺(jué)得大致可以分成兩類。一類是在研究世界本源的科學(xué)研究,比如研究鋰電池、自動(dòng)駕駛、火箭發(fā)射。還有一類以人為中心的研究,比如抖音研究推薦算法,它并沒(méi)有標(biāo)準(zhǔn)答案,只要數(shù)據(jù)好、能把握時(shí)尚趨勢(shì)和潮流即可。從這個(gè)角度看,我們更多做的是抖音這一類的研究。我們的目標(biāo)是滿足更多用戶,讓他們更開(kāi)心、更舒服。
DeepTech:具身智能現(xiàn)在是比較火熱的領(lǐng)域,大家也都在討論這個(gè)話題。除了我們剛談到的空間智能為具身訓(xùn)練數(shù)據(jù),有沒(méi)有可能幫助它做更多的事情?
劉紫東:我覺(jué)得這方面可以參考自動(dòng)駕駛,它可以理解成是道路級(jí)的通用空間智能。但應(yīng)用場(chǎng)景到了室內(nèi),有些情況變得不一樣。首先,數(shù)據(jù)采集變得更難、更復(fù)雜。因?yàn)榈缆分辽倏梢蚤_(kāi)一輛車,裝個(gè)攝像頭就能像行車記錄儀一樣把數(shù)據(jù)錄入下來(lái)。
但是,室內(nèi)場(chǎng)景下沒(méi)有這樣的機(jī)器人。現(xiàn)在大部分掃地機(jī)器人的精度很低,而且它的高度太低,不能對(duì)整個(gè)空間做全面掃描,而且還涉及到隱私問(wèn)題。此外,室內(nèi)的情況比道路更復(fù)雜。道路的物體種類較少,例如大車、小車、行人、摩托車、斑馬線等。而室內(nèi)的復(fù)雜性體現(xiàn)在,不僅物品是 3D 的,還可能各角度都有。
另一方面,機(jī)器人的任務(wù)更復(fù)雜。自動(dòng)駕駛主要是躲避問(wèn)題,但是對(duì)于室內(nèi)機(jī)器人來(lái)說(shuō),它需要主動(dòng)操作和理解空間。舉個(gè)例子,在家里找 U 盤(pán),這個(gè)事情不僅僅是空間掃描的問(wèn)題。
更多時(shí)候它可能是藏在某個(gè)抽屜里,需要先推理出來(lái),U 盤(pán)大概率會(huì)放在哪個(gè)房間,然后去臥室或客廳搜索的時(shí)候,要知道抽屜可以拉開(kāi),如果翻一下沒(méi)找到下一步應(yīng)該去哪里找。所以,這件事情需要對(duì)空間本身有很深層次的理解。
從這方面來(lái)看,它可能比自動(dòng)駕駛還難。因此,當(dāng)把這些事情想通后,我們覺(jué)得未來(lái)機(jī)器人真的要走進(jìn)家庭是個(gè)長(zhǎng)期的目標(biāo),至少還需要十年時(shí)間。對(duì)我們來(lái)說(shuō),它一定是必經(jīng)之路。剛才提到的三個(gè)難點(diǎn)卡在大家面前,所以領(lǐng)域內(nèi)數(shù)據(jù)稀缺。而我們剛好是造數(shù)據(jù)的,所以我們技術(shù)的作用就顯得非常重要。
DeepTech:也就是說(shuō),相當(dāng)于可以幫助具身智能領(lǐng)域解決其未完全解決的問(wèn)題。
劉紫東:是的。現(xiàn)在具身智能領(lǐng)域看起來(lái)很熱鬧,其實(shí)解決的問(wèn)題還相對(duì)有限。我們把機(jī)器人歸納為三大階段:
第一階段是解決小腦的運(yùn)動(dòng)問(wèn)題,比如在后空翻、打拳擊、跑步時(shí),保持機(jī)器人自己不摔倒,這個(gè)問(wèn)題其實(shí)已經(jīng)基本解決了。大概十年前美國(guó)通過(guò)強(qiáng)化學(xué)習(xí)和物理仿真做了一套系統(tǒng),之后有了現(xiàn)在的相關(guān)技術(shù)。
第二個(gè)階段解決的是操作問(wèn)題,比如機(jī)器人站在臺(tái)面上疊衣服、倒水,或拿蘋(píng)果、拿杯子等任務(wù)。這也是最近兩年最火的話題,V2A(Voice to Action,語(yǔ)音到行動(dòng))對(duì)機(jī)器人說(shuō)一段話,通過(guò)環(huán)境感知后執(zhí)行任務(wù)。但是,這樣的環(huán)境感知和執(zhí)行其實(shí)空間智能很弱,它基本上是在固定的、單一的場(chǎng)景執(zhí)行比較固定的任務(wù)。
這與找 U 盤(pán)、端茶遞水,或在商場(chǎng)里找?guī)@類的任務(wù)根本不是一回事。實(shí)際上,這些復(fù)雜的空間任務(wù)就是第三階段要解決的問(wèn)題——主動(dòng)理解空間智能,它并不是純視覺(jué)理解的問(wèn)題。
![]()
(來(lái)源:劉紫東)
DeepTech:所以,相當(dāng)于現(xiàn)在還沒(méi)有正式地進(jìn)入到訓(xùn)練空間智能階段?
劉紫東:可以這么說(shuō)。現(xiàn)在的機(jī)器人訓(xùn)練一般是在工廠或樣板間、實(shí)驗(yàn)室,可能 100 平米、200 平米。讓一個(gè)機(jī)器人在里面走來(lái)走去,不停地做小的模型訓(xùn)練。所以它沒(méi)有泛化能力,但解決特定場(chǎng)景已經(jīng)足夠用。所以,現(xiàn)在還是初步的空間智能,整個(gè)行業(yè)還沒(méi)有正式地開(kāi)展這方面的工作。
研發(fā)效率即技術(shù)壁壘,不懼“后來(lái)者”
DeepTech:剛才我們也談到了,盡管大型公司有資源優(yōu)勢(shì),但生境形成了和他們差異化的發(fā)展方向。那么,公司在這個(gè)領(lǐng)域有哪些技術(shù)壁壘,或者說(shuō)在保持技術(shù)原創(chuàng)性方面做了哪些努力或嘗試呢?
劉紫東:我并不認(rèn)為世界上有什么堅(jiān)不可摧的技術(shù)壁壘。我們過(guò)去的敘事邏輯是,什么東西是別人永遠(yuǎn)都實(shí)現(xiàn)不了,只有我能實(shí)現(xiàn)的。但現(xiàn)在,我們對(duì)技術(shù)的理解和認(rèn)知也在不斷加深。我認(rèn)為所謂的技術(shù)壁壘,本質(zhì)上就是你的研發(fā)效率。
如果你的研發(fā)效率比別人高 10 倍,那客觀上就形成了技術(shù)壁壘,這是一個(gè)永無(wú)止境的賽跑。這種效率體現(xiàn)在成本和時(shí)間兩個(gè)方面:如果用更少的資源、更短的時(shí)間走得更前,那就會(huì)保持領(lǐng)先。
所以,技術(shù)壁壘的本質(zhì)還是企業(yè)的研發(fā)效率。這取決于整個(gè)研發(fā)架構(gòu)的設(shè)計(jì)、系統(tǒng)的優(yōu)化以及團(tuán)隊(duì)的文化、人才的選拔機(jī)制、招聘機(jī)制和晉升機(jī)制,它是由綜合的因素決定的。我們的技術(shù)端是絕對(duì)原創(chuàng)的,所以也不懼怕后來(lái)者借鑒,當(dāng)別人借鑒的速度還沒(méi)有我們?cè)瓌?chuàng)的速度快的時(shí)候,壁壘就形成了。
從結(jié)果上來(lái)看,我們并不是世界上第一家做空間生成的公司。實(shí)際上在我們之前早幾年,像酷家樂(lè)、三維家、居然設(shè)計(jì)家(Homestyler)、Autodesk、英偉達(dá)都曾想過(guò)做空間擺放。另一方面,學(xué)界對(duì)這個(gè)方向的研究已有幾十年了,最近幾年也非常火。我們是用最短的時(shí)間,用最低的成本走在了最前面,證明了自己的執(zhí)行力。
DeepTech:生境在做的事情其實(shí)是一個(gè)全新的角度,包括我們剛才提到的創(chuàng)造了一個(gè)新 的學(xué)科。這和你在本科期間從事建筑方面的研究學(xué)習(xí)是不是也有非常密切的關(guān)系?
劉紫東:對(duì),其中最重要的是把人類的空間理解成功能,這并不是常識(shí)。其實(shí)在過(guò)去幾千年,建筑學(xué)也不是這么來(lái)看待空間的,甚至我在剛開(kāi)始學(xué)習(xí)建筑學(xué)的時(shí)候也沒(méi)有空間的概念。但是在 100 年前,建筑學(xué)有一次革命,現(xiàn)代主義建筑號(hào)召要“以人為本”。也就是說(shuō),從城市規(guī)劃到室內(nèi)設(shè)計(jì),再到家庭設(shè)計(jì)都是按照人的需求進(jìn)行設(shè)計(jì)。
現(xiàn)在主流的處理空間的方法,還是傳統(tǒng)的自然語(yǔ)言處理(NLP)和計(jì)算機(jī)視覺(jué)(CV)方式的延伸。基于 CV 的 3D 建模更擅長(zhǎng)的是單體生成,這方面并沒(méi)有太多的技術(shù)稀缺性。我們公司也有很好的圖轉(zhuǎn) 3D 單體的模型,現(xiàn)在倉(cāng)庫(kù)里面已經(jīng)有 100 萬(wàn)個(gè)單體了。
但是問(wèn)題的關(guān)鍵在于,如何針對(duì)用戶特定的需求,從這個(gè)倉(cāng)庫(kù)中選擇出來(lái)合適的商品,綜合各種因素,擺放到合適的位置。本科期間,我們做了大量關(guān)于這方面能力的建筑學(xué)訓(xùn)練和認(rèn)知升維。這也是為什么我們現(xiàn)在這么稀缺和獨(dú)特,能把這個(gè)事情落地的原因。
DeepTech:決定成立公司做創(chuàng)業(yè)這件事,是你在德州大學(xué)奧斯汀分校讀博期間發(fā)生的。是怎樣的契機(jī)讓你覺(jué)得時(shí)機(jī)非常成熟了,已經(jīng)不能再等而是必須立刻休學(xué)去做這件事?
劉紫東:我覺(jué)得是兩方面。一方面是從宏觀層面來(lái)說(shuō),與 60 后、70 后、80 后相比,我們 90 后、95 后這一代人是被時(shí)代拋棄掉的一代。學(xué)歷紅利已不再,時(shí)代沒(méi)有給我們太多機(jī)會(huì),所以我是很絕望地活著的。對(duì)我來(lái)說(shuō)走創(chuàng)業(yè)這條路是“沒(méi)得選”,我非常珍惜技術(shù)創(chuàng)新的機(jī)會(huì),當(dāng)機(jī)會(huì)來(lái)了一定要抓住。
從微觀上來(lái)說(shuō),當(dāng)時(shí)我在國(guó)外通過(guò)一些創(chuàng)新項(xiàng)目和比賽已經(jīng)小有名氣。2022 年底,隨著 ChatGPT 的火爆,有些國(guó)內(nèi)外的投資人認(rèn)為我們做 AI 生成空間挺好玩,就聯(lián)系到我。所以,我?guī)缀鯖](méi)有什么遲疑就休學(xué)了,然后于 2023 年 4 月在深圳成立了這家公司。
DeepTech:你本身是 95 后,團(tuán)隊(duì)也是一支年輕的團(tuán)隊(duì),你是如何管理團(tuán)隊(duì)的呢?
劉紫東:作為公司的 CEO,我和整個(gè)團(tuán)隊(duì)的相處模式會(huì)隨著公司的情況的發(fā)展而有所變化。公司剛開(kāi)始成立時(shí)只有幾個(gè)人、十幾個(gè)人,去年發(fā)展到 30 多人,現(xiàn)在已經(jīng)有 70 多人了。我更傾向于直接管理,我覺(jué)得減少中間層級(jí),可以降低溝通成本和提升效率。但是這需要對(duì)管理者和執(zhí)行者都有更高的綜合素質(zhì)。這確實(shí)是一段挺奇妙的人生經(jīng)歷。我很難描述現(xiàn)在的狀態(tài),它有點(diǎn)來(lái)得太快了,有點(diǎn)像拔苗助長(zhǎng)的感覺(jué)。我其實(shí)也經(jīng)常陷入一種反思,感覺(jué)一切都挺不可思議的。
DeepTech:空間生成是一個(gè)新的領(lǐng)域,它又涉及到很多學(xué)科交叉,你是如何管理和建設(shè)這支團(tuán)隊(duì)的呢?
劉紫東:主要以培養(yǎng)為主,因?yàn)?AI 領(lǐng)域變化很快。我們的團(tuán)隊(duì)成員不一定非得是對(duì)口的,可能只是大方向相近,然后我們?cè)倬珳?zhǔn)培養(yǎng)、逐步上手。尤其是比較前沿的方向或沒(méi)有標(biāo)準(zhǔn)答案的領(lǐng)域,我們更加傾向于招學(xué)生,然后通過(guò)校企合作來(lái)進(jìn)行培養(yǎng)。整體上來(lái)說(shuō),公司在 3D 空間內(nèi)容生成的核心技術(shù)壁壘都是我們自己創(chuàng)造出來(lái)的。在這方面,我們覺(jué)得智商和意愿比直接經(jīng)驗(yàn)高很多倍。
DeepTech:那目前公司的發(fā)展?fàn)顟B(tài)和你最初預(yù)設(shè)的相比,是按照原來(lái)預(yù)設(shè)的來(lái)發(fā)展的嗎?
劉紫東:一部分比預(yù)想的更慢,一部分則更快。我們的產(chǎn)品研發(fā)和賺錢(qián)進(jìn)度比我們想象中要慢,因?yàn)槲覀冊(cè)阶鲈桨l(fā)現(xiàn)事情的復(fù)雜性。但另一方面,我們也更有信心,因?yàn)槲覀儾冗^(guò)的坑,后面進(jìn)入到這個(gè)領(lǐng)域的人還得再踩一遍。所以,研發(fā)和賺錢(qián)的進(jìn)度比我們預(yù)期的更慢,但融資的進(jìn)度、團(tuán)隊(duì)規(guī)模的擴(kuò)張速度比我們預(yù)期中更快。
DeepTech:那在進(jìn)展慢的方面會(huì)有壓力嗎?
劉紫東:那倒沒(méi)有,和想象中的進(jìn)度不太一樣是一件很正常的事情。雖然我們有些地方慢一點(diǎn),但整體上還是一個(gè)非常能打的、欣欣向榮的團(tuán)隊(duì)。我們剛開(kāi)始覺(jué)得一年能做出來(lái)的事情,現(xiàn)在做了兩年多,但別人做了 10 年也沒(méi)做出來(lái)。并不是有一家競(jìng)品公司做出來(lái)了產(chǎn)品,我們沒(méi)做出來(lái),現(xiàn)在的情況是,我們進(jìn)行了世界上目前非常少見(jiàn)的、產(chǎn)品化程度最高的嘗試,所以我還是比較驕傲的。
空間 AI 的終極外延:不僅是工具,更是元宇宙的商業(yè)生態(tài)
DeepTech:最后請(qǐng)幫我們暢想一下,隨著技術(shù)的發(fā)展和團(tuán)隊(duì)逐漸走上軌道,在與用戶的交互方式方面可能會(huì)出現(xiàn)哪些顛覆性的改變?
劉紫東:我覺(jué)得這個(gè)會(huì)千差萬(wàn)別。首先,游戲領(lǐng)域會(huì)在全球范圍內(nèi)出現(xiàn)的第一個(gè)類似現(xiàn)在抖音地位的、基于空間模態(tài)的娛樂(lè)內(nèi)容社交平臺(tái)。它既有娛樂(lè)屬性,也有社交屬性。最終可能是一個(gè)平臺(tái),也可能是兩個(gè)平臺(tái)。
人們會(huì)在這個(gè)平臺(tái)上做幾件事情:
第一,成為一個(gè)風(fēng)靡全球的、時(shí)尚和有活力的游戲內(nèi)容社區(qū),以青少年群體為主,然后向二三十歲的中青年群體蔓延。
第二,演化為包含實(shí)體經(jīng)濟(jì)的元宇宙電商平臺(tái),類似于室內(nèi)版的“谷歌地球(Google Earth)”,人們可以在該平臺(tái)社交、購(gòu)物,甚至直播等各種活動(dòng)。用戶可以通過(guò)這個(gè)平臺(tái),足不出戶地去全球各地的家庭做客。既有個(gè)體戶在這個(gè)元宇宙平臺(tái)上開(kāi)店售賣(mài)商品,也有大連鎖店在上面開(kāi) Shopping Mall。
當(dāng)然,我們還有一個(gè)更近期的目標(biāo),所有與設(shè)計(jì)和空間改造相關(guān)的都可以通過(guò)我們的平臺(tái)作為流量入口。比如買(mǎi)畫(huà)、地毯、床單、窗簾、擺件、花草……甚至布置兒童房等。
它們很可能是同步進(jìn)行的。首先它是款游戲,然后會(huì)進(jìn)行現(xiàn)實(shí)的鏡像。之后會(huì)有實(shí)際的需求在平臺(tái)產(chǎn)生,接下來(lái)就會(huì)有買(mǎi)賣(mài)、有交易,再往后就會(huì)有商家在上面開(kāi)店。
![]()
(來(lái)源:劉紫東)
DeepTech:所以,也可以說(shuō)它是虛擬現(xiàn)實(shí)之間真正的元宇宙平臺(tái)?
劉紫東:元宇宙這個(gè)詞在五年前已經(jīng)被用濫了,它之所以沒(méi)發(fā)展起來(lái)原因還是卡在了技術(shù)問(wèn)題。過(guò)去的元宇宙其實(shí)都是用雇傭大量場(chǎng)景地編手工建模搭建出來(lái)的場(chǎng)景,那不是真正的元宇宙。隨著空間模態(tài)技術(shù)的成熟,每個(gè)人可以便捷地把自己家復(fù)制到網(wǎng)上、創(chuàng)造 3D 資產(chǎn)以及做渲染,所以現(xiàn)在我們覺(jué)得真正的元宇宙時(shí)機(jī)到來(lái)了。
DeepTech:總結(jié)來(lái)說(shuō),AI 生成空間相當(dāng)于改變了生產(chǎn)關(guān)系,也就是把之前特別高的門(mén)檻或者難以做到的事情,現(xiàn)在做成普通用戶人人都能參與、能實(shí)現(xiàn)的一種工具。
劉紫東:對(duì),這是其中的一個(gè)方面。我們通過(guò) AI 讓更多用戶能夠體驗(yàn)到個(gè)性化設(shè)計(jì)的樂(lè)趣,相當(dāng)于幫他們跨越了一個(gè)維度,顯著降低了技術(shù)的實(shí)現(xiàn)門(mén)檻。
但其實(shí)我們做的事情并不只是提供了一個(gè)工具那么簡(jiǎn)單,而是提供了一種可以激發(fā)大規(guī)模創(chuàng)意以及互動(dòng)的基礎(chǔ)能力。一種已經(jīng)被驗(yàn)證的生態(tài)型公司的經(jīng)典路徑是:商業(yè)來(lái)自于流量,流量來(lái)自于內(nèi)容,內(nèi)容來(lái)自于工具。所以,當(dāng)我們有了一個(gè)好工具之后,它會(huì)產(chǎn)生好的內(nèi)容,好的內(nèi)容又會(huì)吸引更多用戶,而當(dāng)平臺(tái)聚集了海量用戶后,各種商業(yè)機(jī)會(huì)就都來(lái)了。
如果說(shuō)過(guò)去十年,工具型平臺(tái)的終點(diǎn)是內(nèi)容社區(qū),那么空間 AI 的終點(diǎn),很可能是一個(gè)涵蓋內(nèi)容社區(qū)、電商和社交的、真實(shí)世界的數(shù)字鏡像與商業(yè)生態(tài)。
運(yùn)營(yíng)/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.