<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      港中深韓曉光:3DGen,人類(lèi)安全感之戰(zhàn)丨GAIR 2025

      0
      分享至



      構(gòu)建世界模型,為什么不能只靠「煉丹」?

      作者丨吳彤

      編輯丨林覺(jué)民

      在香港中文大學(xué)(深圳),助理教授韓曉光的實(shí)驗(yàn)室名為GAP,意為“像素、點(diǎn)與多邊形的生成與分析”。現(xiàn)在看來(lái),這個(gè)名字,也隱喻著他希望彌合真實(shí)世界和虛擬世界之間的“鴻溝”的意思。

      2018年,韓曉光加入這所大學(xué)時(shí),是當(dāng)時(shí)唯一專(zhuān)注于計(jì)算機(jī)圖形學(xué)研究的教師。2024年,他嘗試從三維重建拓展至具身智能與世界模型,又一次如入無(wú)人之境。

      在小紅書(shū)上,他的賬號(hào)@韓曉光,簡(jiǎn)介僅有兩行:港中深理工學(xué)院助理教授、圖形學(xué)與三維視覺(jué)。他將小紅書(shū)視為傳播平臺(tái),也視為個(gè)人思考的整理場(chǎng)所,會(huì)公開(kāi)討論“顯式3D是否還有必要”、“世界模型為何需要可解釋性”等專(zhuān)業(yè)問(wèn)題,也會(huì)記錄與學(xué)生討論時(shí)獲得的啟發(fā)。

      這種直接、平實(shí)的分享,吸引了一批對(duì)技術(shù)本質(zhì)感興趣的讀者,也代表了韓曉光這類(lèi)青年教師群體打破學(xué)術(shù)邊界的自覺(jué)實(shí)踐。從某一種角度看,構(gòu)建世界模型需要理解真實(shí)世界的運(yùn)行邏輯,而他的線上互動(dòng),本身就是一場(chǎng)持續(xù)進(jìn)行的、小規(guī)模的“世界模擬”。

      在韓曉光的敘述中,他研究演進(jìn)是自然發(fā)生的。從三維重建到動(dòng)態(tài)生成,再到服務(wù)于機(jī)器人的虛擬環(huán)境構(gòu)建,核心始終是“三維內(nèi)容的生成與理解”。

      前段時(shí)間,他曾在2025年10月的國(guó)際計(jì)算機(jī)視覺(jué)大會(huì)(ICCV),他與三十多位來(lái)自學(xué)術(shù)界與工業(yè)界的研究者見(jiàn)了面。他們聊了很多,包括:視覺(jué)內(nèi)容生成需要3D嗎?視覺(jué)內(nèi)容生成如何做到物理真實(shí)?學(xué)術(shù)界還應(yīng)該做視頻生成嗎?三維數(shù)字人還有必要做嗎?具身智能數(shù)據(jù)應(yīng)該走哪條路線?具身觸覺(jué)感知的必要性和現(xiàn)狀?學(xué)術(shù)界怎么做具身智能?三維生成的架構(gòu)用AR還是Diffusion?

      但其實(shí),這些小問(wèn)題都指向一個(gè)大問(wèn)題:我們離一個(gè)真正理解世界運(yùn)行規(guī)律的 AI 還有多遠(yuǎn)?

      過(guò)去一年,整個(gè)行業(yè)在“世界模型”熱潮中的集體探索與路徑分歧。有人相信數(shù)據(jù)與算力終將煉出無(wú)所不能的模型,也有人堅(jiān)持必須為 AI 注入人類(lèi)可理解的結(jié)構(gòu)與邏輯。

      韓曉光說(shuō),他要做后者。

      近日,在雷峰網(wǎng)舉辦的第八屆GAIR全球人工智能與機(jī)器人大會(huì)現(xiàn)場(chǎng),韓曉光教授做了題為《3DGen:人類(lèi)安全感之戰(zhàn)》的分享,以下為他的演講內(nèi)容,雷峰網(wǎng)做了不改變?cè)獾木庉嫛?/strong>

      01

      三維生成發(fā)展歷程

      我今天想講的是三維生成。剛才幾位嘉賓有提到數(shù)字人、視頻生成和具身智能?,F(xiàn)在當(dāng)我們談?wù)撊S生成時(shí),大家能聯(lián)想到什么?如果是這個(gè)領(lǐng)域的研究者,可能會(huì)想到騰訊混元3D生成。

      首先,我想梳理一下三維生成的發(fā)展歷程。

      實(shí)際上,在深度學(xué)習(xí)興起之前,三維生成的概念已經(jīng)存在。當(dāng)時(shí)就有許多研究者思考:深度學(xué)習(xí)既然能很好地生成圖像,那能否生成3D內(nèi)容?


      因此,最初的方向就是嘗試從單張圖像生成三維模型,準(zhǔn)確說(shuō)三維生成在早期階段主要聚焦于“類(lèi)別限定”。這是什么意思呢?就是針對(duì)椅子、車(chē)輛、角色、頭發(fā)、人臉、人體等不同類(lèi)別,分別訓(xùn)練一個(gè)模型。那時(shí)候還沒(méi)有“大模型”的概念,但深度學(xué)習(xí)模型已經(jīng)廣泛應(yīng)用。


      而“開(kāi)放世界”的三維生成,大約從兩、三年前(2023年左右)的Dreamfusion工作開(kāi)始興起。當(dāng)時(shí)我們可以通過(guò)優(yōu)化的方式生成3D模型,但速度較慢,通常需要一兩個(gè)小時(shí)。在這個(gè)階段,隨著Stable Diffusion等文本到圖像模型的成熟,研究者開(kāi)始探索能否用文本直接生成3D模型,這就是“文生3D”,我們稱(chēng)之為開(kāi)放世界生成,因?yàn)樗辉偈茴?lèi)別限制,任何文本都可以生成對(duì)應(yīng)的3D模型。


      隨后的一段時(shí)間里,出現(xiàn)了許多以“Dreamer”為后綴的研究工作,這些都是Dreamfusion之后的一系列進(jìn)展。這些工作都致力于提升文本到3D的生成效果,但基本都基于優(yōu)化方法,生成速度較慢,通常需要半小時(shí)到一小時(shí)才能產(chǎn)出一個(gè)模型。


      而現(xiàn)在,我們進(jìn)入了大模型時(shí)代。

      首先,Adobe推出了一個(gè)名為L(zhǎng)arge Reconstruction Model的模型,它利用海量數(shù)據(jù)訓(xùn)練,能夠從單張圖像重建三維模型。隨后,最早是由上海科大在Clay這項(xiàng)工作里,率先提出了“原生模型”的概念。發(fā)展到現(xiàn)在,我們已經(jīng)看到了像“混元3D”等許多商業(yè)公司和軟件,這類(lèi)應(yīng)用已經(jīng)非常多?,F(xiàn)在,例如混元3D的3.0版本,你隨便輸入一張圖片,它真的能生成一個(gè)在普通人看來(lái)幾乎沒(méi)什么瑕疵的三維模型。


      02

      三維生成發(fā)展趨勢(shì)

      接下來(lái),我想分享當(dāng)前業(yè)界關(guān)注的三維生成的前沿方向與發(fā)展趨勢(shì)。

      首先是更精細(xì)。這意味著我們需要在幾何層面實(shí)現(xiàn)極致的細(xì)節(jié)表現(xiàn),讓生成物體表面的幾何信息無(wú)比豐富。例如數(shù)美萬(wàn)物的Spark 3D。

      另一個(gè)重要趨勢(shì)是更結(jié)構(gòu)化。在游戲等行業(yè),一個(gè)三維模型通常需要被拆解成不同部件,比如衣服、身體、頭發(fā)需要分開(kāi),以便設(shè)計(jì)師進(jìn)行獨(dú)立編輯。如果生成模型是為了3D打印或制造,那這種結(jié)構(gòu)化的分解就更為必要,因?yàn)檎鎸?shí)世界的物體本身就是由多個(gè)部件組裝而成的?;煸?D的“X-Part”工作就是一個(gè)例子,它能夠生成游戲角色并將其部件合理地拆分開(kāi)。

      第三個(gè)方向是更對(duì)齊。現(xiàn)在的商業(yè)軟件可以從一張圖重建3D模型,但如果你仔細(xì)觀察,生成結(jié)果與輸入圖像往往存在細(xì)節(jié)不對(duì)應(yīng)的問(wèn)題。比如,一張圖里的柵欄有5條橫杠,生成模型里可能變成了6條。這是當(dāng)前生成模型固有的難題。我們組的一項(xiàng)工作就致力于解決這個(gè)“對(duì)齊”問(wèn)題,力求讓生成的三維模型在結(jié)構(gòu)上與輸入的二維圖像嚴(yán)格對(duì)應(yīng)。


      03

      三維生成的尷尬

      以上我簡(jiǎn)單梳理了三維生成至今的發(fā)展脈絡(luò),然而,三維生成一直面臨一個(gè)尷尬,尤其是在視頻生成技術(shù)出現(xiàn)之后。

      這個(gè)尷尬是什么呢?

      我相信大家可能都玩過(guò)游戲或看過(guò)CG動(dòng)畫(huà)電影。在傳統(tǒng)游戲或動(dòng)畫(huà)制作中,創(chuàng)建一個(gè)角色需要非常繁瑣的流程。這里我展示幾個(gè)例子:首先需要概念設(shè)計(jì)和草圖,然后基于草圖進(jìn)行3D建模——這又涉及低模/高模制作、拓?fù)鋬?yōu)化,之后還要進(jìn)行紋理貼圖、骨骼綁定、制作動(dòng)畫(huà),最后再進(jìn)行渲染。但你會(huì)發(fā)現(xiàn),盡管中間過(guò)程極其復(fù)雜,包含了大量三維工作,最終的產(chǎn)出形式依然是視頻。

      這就是尷尬所在。


      當(dāng)視頻生成(如Sora)出現(xiàn)后,一個(gè)文本指令就能直接輸出視頻,中間完全跳過(guò)了所有復(fù)雜的三維流程。這對(duì)于我們圖形學(xué)、游戲和三維生成領(lǐng)域的人來(lái)說(shuō),無(wú)疑是一個(gè)沖擊。

      很多同行,包括我自己在內(nèi),都曾一度懷疑:在視頻生成如此強(qiáng)大的時(shí)代,3D內(nèi)容創(chuàng)作還有存在的必要嗎?

      這確實(shí)是近期行業(yè)內(nèi)許多人關(guān)注和討論的問(wèn)題。但三維生成自有其“求生欲”,我們不會(huì)輕易被取代。這種“求生欲”源于我們發(fā)現(xiàn)視頻生成技術(shù)當(dāng)前存在的一些核心局限。

      首先是物理不夠真實(shí),視頻生成在模擬復(fù)雜物理交互和長(zhǎng)期一致性上仍有困難。

      其次是3D空間不一致,物體在運(yùn)動(dòng)中的形態(tài)和透視可能發(fā)生不合理變化。

      最重要的是內(nèi)容可控性不足。比如,我想把生成視頻中的一個(gè)玻璃杯換成特定形狀或顏色,在傳統(tǒng)三維流程中這是輕而易舉的編輯,但在純文本驅(qū)動(dòng)的視頻生成中,目前還難以實(shí)現(xiàn)這種精細(xì)、可控的修改。

      這些發(fā)現(xiàn)讓我們重拾了信心。視頻生成還做不到這些,這說(shuō)明基于三維的、結(jié)構(gòu)化、可編輯的內(nèi)容創(chuàng)作流程,依然擁有不可替代的價(jià)值。


      然而,真正的危機(jī)依然存在。我們不是說(shuō)視頻生成“不可控”嗎?但今年,Sora2 和谷歌的 Veo3 相繼推出,它們已經(jīng)展示出了初步的“可控”能力。至少,可控的雛形已經(jīng)顯現(xiàn)。這種可控性體現(xiàn)在哪里?比如,我可以控制視角的變化。生成的不僅是一個(gè)固定視角的視頻,而是可以進(jìn)行交互,就像玩游戲一樣切換畫(huà)面,實(shí)現(xiàn)場(chǎng)景漫游。雖然這還只是粗糙的可控,但真正的危機(jī)感已然來(lái)臨。


      于是,一系列根本性問(wèn)題擺在我們面前:視頻生成模型真的不需要3D嗎?

      就此,我問(wèn)過(guò)許多業(yè)內(nèi)人士。許多從事3D工作的人認(rèn)為,視頻模型可能還是需要3D的;而許多做視頻模型的人則覺(jué)得不需要。那么,究竟需不需要呢?

      我可能給不出確定的答案,但可以梳理一下思路。在我看來(lái),當(dāng)前視頻模型面臨兩個(gè)似乎尚未找到完美解決方案的核心難題:

      1. 細(xì)節(jié)可控:正如我之前提到的,你生成了一段視頻,但能否精細(xì)修改視頻中人物的臉型、衣著、發(fā)型,這種對(duì)細(xì)節(jié)的精準(zhǔn)控制目前依然非常困難。

      2. 長(zhǎng)程記憶:目前生成的視頻長(zhǎng)度有限,比如一兩分鐘。但想象一下,如果生成一個(gè)室內(nèi)漫游視頻,當(dāng)你走進(jìn)一個(gè)房間又離開(kāi),再回到這個(gè)房間時(shí),模型很可能“忘記”了房間原來(lái)的樣子,生成的內(nèi)容與之前不一致。這說(shuō)明模型缺乏對(duì)已生成內(nèi)容的持久記憶。


      那么,視頻模型到底需不需要3D?要解決上述的“細(xì)節(jié)可控”和“長(zhǎng)程記憶”問(wèn)題,3D或許能提供一種思路。利用3D的方式,大概可以分為四種路徑:

      第一種,完全不用3D。這是目前主流的端到端范式:輸入一個(gè)條件(如文本),通過(guò)一個(gè)龐大的神經(jīng)網(wǎng)絡(luò),直接輸出視頻。整個(gè)過(guò)程是純2D的,依賴(lài)海量視頻數(shù)據(jù)訓(xùn)練。這也是現(xiàn)有視頻模型的基本邏輯。

      第二種,利用3D仿真作為“世界模擬器”。我們知道,3D仿真本身就在嘗試構(gòu)建一個(gè)世界模型,只是目前仿真結(jié)果還不夠真實(shí)。那么,是否可以將其作為第一步:先根據(jù)用戶輸入的條件(如文本),通過(guò)3D仿真引擎生成一個(gè)CG視頻(如游戲畫(huà)面或動(dòng)畫(huà))。這個(gè)視頻是高度可控的,但問(wèn)題在于它不真實(shí),有明顯的CG感。于是,可以在其后接入一個(gè)神經(jīng)網(wǎng)絡(luò),專(zhuān)門(mén)負(fù)責(zé)將CG視頻“轉(zhuǎn)化”為看起來(lái)真實(shí)的視頻。

      第三種,將3D信息作為控制信號(hào)輸入。既然純視頻生成不可控,那能否將3D信息作為額外的控制條件,注入到生成網(wǎng)絡(luò)中?其框架是:在輸入生成條件的同時(shí),也輸入3D信息。例如,要生成一個(gè)室內(nèi)漫游視頻,可以先對(duì)室內(nèi)場(chǎng)景進(jìn)行三維重建。這個(gè)重建的三維模型,本身就充當(dāng)了一種“記憶”,記錄了場(chǎng)景的空間結(jié)構(gòu)。基于這個(gè)三維記憶,再去生成漫游視頻,就有可能實(shí)現(xiàn)更長(zhǎng)的、空間一致的視頻內(nèi)容。

      第四種,用3D合成數(shù)據(jù)來(lái)輔助訓(xùn)練。第一種2D“端到端”范式最大的瓶頸是缺乏高質(zhì)量、可控的訓(xùn)練數(shù)據(jù)。網(wǎng)上的視頻數(shù)據(jù)雖然多,但不可控。那么,能不能利用3D仿真技術(shù),批量生成大量可控的、帶標(biāo)注的視頻數(shù)據(jù)?然后用這些合成數(shù)據(jù),作為訓(xùn)練信號(hào)或損失函數(shù)的一部分,來(lái)引導(dǎo)和增強(qiáng)純端到端的視頻生成模型。

      04

      世界模型需要3D嗎?

      回到我們今天的主題“世界模型”。現(xiàn)在一提到世界模型,很多人會(huì)直接聯(lián)想到視頻模型。

      這里有一個(gè)根本性問(wèn)題:我們?yōu)槭裁匆鍪澜缒P??因?yàn)槲覀冃枰斑€原”或“數(shù)字化”一個(gè)虛擬世界。視頻是對(duì)世界的一種數(shù)字化記錄,3D則是另一種形式的數(shù)字化。那么,世界模型究竟需不需要3D?

      要回答這個(gè)問(wèn)題,首先要厘清“世界模型”是什么。

      我認(rèn)為,世界模型的核心出發(fā)點(diǎn),是對(duì)我們所生活的真實(shí)世界進(jìn)行數(shù)字化,用計(jì)算的方式理解和表達(dá)其中蘊(yùn)含的規(guī)律。有了這個(gè)模型,我們才能進(jìn)行預(yù)測(cè)——這是世界模型一個(gè)極其關(guān)鍵的功能。


      在我看來(lái),世界模型大概可以分為三類(lèi):

      第一類(lèi),是服務(wù)于“人類(lèi)共同體”的宏觀世界模型。這其實(shí)是我們?nèi)祟?lèi)一直在做的事:試圖“窺探天機(jī)”。從古代的司天監(jiān)觀測(cè)天象,到現(xiàn)在的天氣預(yù)報(bào)、全球氣候模擬,再到生命科學(xué)探索自然規(guī)律,甚至從某種“造物主”視角去推演文明、社會(huì)的興衰與可能的災(zāi)禍。我們?cè)趪L試?yán)斫獠㈩A(yù)測(cè)這個(gè)物理世界和社會(huì)系統(tǒng)運(yùn)行的根本規(guī)律。不過(guò),這或許不是當(dāng)前AI語(yǔ)境下“世界模型”討論的重點(diǎn)。

      第二類(lèi),是服務(wù)于“個(gè)人”的體驗(yàn)與探索模型。我們每個(gè)人與生俱來(lái)有一種最深層的需求:探索未知。但人類(lèi)個(gè)體是渺小的,我們無(wú)法親身抵達(dá)世界的每一個(gè)角落,更無(wú)法觸及想象的邊界。因此,我們需要一個(gè)虛擬世界。想象一下,如果能像《頭號(hào)玩家》那樣,戴上VR設(shè)備,就能坐在家中沉浸式地游歷世界任何地方——無(wú)論是真實(shí)世界的數(shù)字復(fù)刻,還是人類(lèi)純粹創(chuàng)造的幻想之境。這種深度、個(gè)性化的體驗(yàn),是驅(qū)動(dòng)我們創(chuàng)造虛擬世界的核心動(dòng)力之一。

      在這個(gè)虛擬世界里,我們需要什么樣的規(guī)律呢?可交互性是核心。你不僅需要看、需要聽(tīng),還需要能夠操作、漫游,甚至能感受到觸覺(jué)反饋。要建立這樣一個(gè)可交互的虛擬世界,我們就必須研究和數(shù)字化其中大量的物理與交互規(guī)律。

      這引出了世界模型的第三類(lèi),也是當(dāng)前討論最多的:給機(jī)器用的世界模型

      比如,用于自動(dòng)駕駛汽車(chē)或具身智能機(jī)器人。這是一個(gè)“具身”的世界模型。以自動(dòng)駕駛為例,汽車(chē)在決定一個(gè)動(dòng)作(比如變道、轉(zhuǎn)動(dòng)方向盤(pán))時(shí),需要能根據(jù)這個(gè)動(dòng)作,預(yù)測(cè)世界(周?chē)h(huán)境、其他交通參與者)接下來(lái)會(huì)發(fā)生什么變化。這就是世界模型在增強(qiáng)機(jī)器智能方面的關(guān)鍵作用。

      從以上三類(lèi)來(lái)看,要實(shí)現(xiàn)可交互的世界模型,3D似乎是必要的。再舉VR的例子,如果只有視頻模型,當(dāng)你轉(zhuǎn)動(dòng)視角或進(jìn)行操作時(shí),它可以給你視覺(jué)反饋。但當(dāng)我們進(jìn)一步需要真實(shí)的觸覺(jué)反饋,去感受物體的大小、形狀和質(zhì)地時(shí),就必須依賴(lài)對(duì)三維空間的精確理解和建模。因此,在可交互的需求下,3D是不可或缺的。

      05

      具身智能需要3D嗎?

      接著這個(gè)話題,就關(guān)聯(lián)到,具身智能是否需要3D?


      雖然我研究不深,但當(dāng)前的主流方法是向人類(lèi)學(xué)習(xí)。我們之所以要造人形機(jī)器人,就是希望它能完成人類(lèi)能做的所有事情。那么,要“向人類(lèi)學(xué)習(xí)”,我們就必須研究人類(lèi)是如何與世界交互的:如何拿杯子、倒水、做飯。要研究這些,第一步就是對(duì)人類(lèi)與物體的交互過(guò)程進(jìn)行數(shù)字化。比如,左下角的例子展示了人手抓取物體的過(guò)程。我們必須對(duì)這種交互進(jìn)行精確的、動(dòng)態(tài)的捕捉與還原,才能深入理解人手操作的機(jī)理。從這個(gè)角度看,3D乃至4D的還原是必要的基礎(chǔ)

      其次,如果不從人類(lèi)示范中學(xué)習(xí),我們還可以讓機(jī)器人在真實(shí)或仿真的世界中去主動(dòng)探索,就像人類(lèi)通過(guò)實(shí)踐和強(qiáng)化學(xué)習(xí)來(lái)發(fā)展智能一樣。但讓機(jī)器人在物理世界無(wú)限制地探索是困難且危險(xiǎn)的。因此,我們需要仿真環(huán)境。這就必然要求我們能夠創(chuàng)造和生成可交互的三維場(chǎng)景。有了這樣的虛擬場(chǎng)景,機(jī)器人才能在其中安全、高效地進(jìn)行大量試錯(cuò)和強(qiáng)化學(xué)習(xí)。從這個(gè)角度看,具身智能同樣離不開(kāi)3D。

      除了這些“虛擬”世界的需求,還有一個(gè)實(shí)實(shí)在在、無(wú)法繞過(guò)3D的領(lǐng)域從數(shù)字到實(shí)體的制造。


      我們不僅需要在虛擬環(huán)境中與一個(gè)杯子互動(dòng),最終可能還要將這個(gè)杯子真正打印或制造出來(lái),實(shí)現(xiàn)個(gè)性化定制。無(wú)論是三維打印、智能制造,還是CAD模型生成(這也是當(dāng)前3D生成的熱點(diǎn)方向),這個(gè)“從虛到實(shí)”的過(guò)程,3D是絕對(duì)的基礎(chǔ)。例如,我們正在進(jìn)行的牙齒生成項(xiàng)目,目的就是為了制造出精確的牙齒模型,這完全依賴(lài)于高質(zhì)量的三維數(shù)據(jù)。

      06

      技術(shù)路線之爭(zhēng):顯式與隱式之爭(zhēng)

      最后不得不談一個(gè)核心的技術(shù)路線之爭(zhēng):顯式與隱式之爭(zhēng)。


      我先解釋一下這兩個(gè)概念。假設(shè)我們有一個(gè)具身智能任務(wù):一個(gè)機(jī)械爪要抓起一個(gè)盤(pán)子,我們需要預(yù)測(cè)它提起盤(pán)子后會(huì)不會(huì)掉下來(lái)。

      隱式路徑是怎么做的呢,就是構(gòu)建一個(gè)端到端的神經(jīng)網(wǎng)絡(luò),輸入一張圖片,直接輸出預(yù)測(cè)結(jié)果。為此,我需要準(zhǔn)備大量數(shù)據(jù)來(lái)訓(xùn)練它。其核心在于一個(gè)稱(chēng)為 “潛變量”(Latent) 的東西。模型的有效性依賴(lài)于這個(gè)潛變量,它將所有輸入信息(包括其中隱含的物理規(guī)律)都編碼在其中。我們相信,通過(guò)大量數(shù)據(jù)訓(xùn)練,這個(gè)潛變量自身就學(xué)習(xí)和蘊(yùn)含了完成任務(wù)所需的物理知識(shí)。這是典型的“黑箱”或端到端邏輯。

      顯式(模型驅(qū)動(dòng))路徑:與之相對(duì),顯式方法會(huì)分步進(jìn)行:

      首先,我會(huì)顯式地重建出爪子和盤(pán)子的三維模型。然后,基于這些精確的幾何模型,我分析它們是否充分接觸,再結(jié)合盤(pán)子材質(zhì)等物理參數(shù),通過(guò)明確的物理公式進(jìn)行計(jì)算,最終判斷出提起后是否會(huì)掉落。這條路徑依賴(lài)我們對(duì)世界(幾何、物理)的明確建模和理解。

      顯式方法是我們比較容易理解的,也是深度學(xué)習(xí)興起之前主流的范式;而人類(lèi)無(wú)法直觀理解的,如何運(yùn)作我們并不完全清楚,就稱(chēng)為“隱式”。

      我再舉一個(gè)開(kāi)車(chē)的例子。很多汽車(chē)會(huì)顯示一個(gè)功能:將周?chē)?chē)輛的三維模型重建出來(lái),可視化地展示給你看,并提示碰撞風(fēng)險(xiǎn)。這是顯式的方式。另一種隱式的方式是,系統(tǒng)不展示任何三維模型,只是在快撞上時(shí)給你一個(gè)文本或聲音警告。如果讓你選,開(kāi)哪種車(chē)會(huì)更有安全感?我想大多數(shù)人會(huì)選擇前者——把所有東西都可視化給我看,我才能理解和信任系統(tǒng)做出的“會(huì)撞上”或“不會(huì)撞上”的判斷。

      這里就引出了一個(gè)關(guān)鍵詞:安全感。

      我們?yōu)槭裁匆鍪澜缒P??其背后亙古不變的?dòng)機(jī),是人類(lèi)探索世界規(guī)律的渴望。而人類(lèi)之所以要探索規(guī)律,根據(jù) DeepSeek 給我的答案,是因?yàn)槲覀儗?duì)未知有著與生俱來(lái)的不安全感。正是這種對(duì)未知的恐懼,驅(qū)動(dòng)我們?nèi)ヌ剿鞔蠛?、探索太空,也?qū)動(dòng)我們?nèi)?gòu)建世界模型,以獲得對(duì)世界的理解和掌控,從而滿足我們的安全感。

      那么,在AI時(shí)代,最讓人感到不安全的是什么?對(duì)我來(lái)說(shuō),有兩個(gè)詞:“端到端” 和 “潛變量”。

      我知道它們能工作,但我不知道它們?yōu)槭裁茨芄ぷ?。不僅是普通用戶不知道,很多時(shí)候我們研究者也不完全清楚。我們只知道堆疊網(wǎng)絡(luò)層,卻不知道里面的神經(jīng)元究竟在做什么。其本質(zhì)在于,這個(gè)“潛變量”是一個(gè)高維向量,而人類(lèi)無(wú)法直觀理解高維空間。

      人類(lèi)能理解什么?我們能理解3D和4D。我們從初中學(xué)習(xí)平面幾何,到高中學(xué)習(xí)立體幾何,我們能把理解到的3D、4D概念畫(huà)在紙上。但一旦進(jìn)入5維、6維甚至更高維度,我們就無(wú)法想象了。這也是為什么會(huì)有“可視化”這個(gè)領(lǐng)域——它的核心邏輯,就是把高維的東西“拍扁”成2D或3D,以便能更容易地理解。

      所以,我再次強(qiáng)調(diào)為什么3D/4D是必要的。正是因?yàn)?D/4D是我們?nèi)祟?lèi)能夠直觀理解和感知的維度,它們能帶給我們最直接的安全感。


      最后,面對(duì)日益強(qiáng)大的AI,我認(rèn)為可解釋性是人類(lèi)保有基本尊嚴(yán)的關(guān)鍵

      我想用一個(gè)場(chǎng)景來(lái)總結(jié)。想象古代一位追求長(zhǎng)生不老的皇帝,他招攬了許多聰明的術(shù)士來(lái)煉丹。這些術(shù)士很給力,不斷進(jìn)獻(xiàn)丹藥,雖然還不能讓人長(zhǎng)生不老,但或許能強(qiáng)身健體。他們還會(huì)不斷升級(jí),拿出v2、v3版本?;实酆荛_(kāi)心,不斷給予經(jīng)費(fèi)和權(quán)力,術(shù)士的部門(mén)也越來(lái)越龐大。但這里有一個(gè)前提:皇帝(統(tǒng)治者)完全不懂煉丹的原理,他不知道這丹藥是怎么做出來(lái)的。

      那么,請(qǐng)大家想象一下,當(dāng)有一天,術(shù)士們宣布:“我們快要煉出長(zhǎng)生不老藥了!” 此時(shí)此刻,皇帝會(huì)怎么想?他又會(huì)如何對(duì)待這些術(shù)士?

      所以,我認(rèn)為真正的安全感,永遠(yuǎn)來(lái)源于效果與可解釋性之間的平衡。這一點(diǎn)至關(guān)重要。然而,在我們當(dāng)前的AI時(shí)代,這個(gè)天平已經(jīng)嚴(yán)重失衡了。我們過(guò)分追求性能(performance),過(guò)分追求效果,但可解釋性還遠(yuǎn)遠(yuǎn)不夠。而要實(shí)現(xiàn)可解釋性,3D是必不可少的途徑。因?yàn)樗峁┝宋覀內(nèi)祟?lèi)能夠直觀理解、能夠信任的基石。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      28歲女教師結(jié)婚當(dāng)天墜亡,疑似朋友圈遺言被逼婚;當(dāng)?shù)匾殃P(guān)注到此事

      28歲女教師結(jié)婚當(dāng)天墜亡,疑似朋友圈遺言被逼婚;當(dāng)?shù)匾殃P(guān)注到此事

      大風(fēng)新聞
      2025-12-17 13:12:04
      “90后”健美運(yùn)動(dòng)員王昆去世,曾橫掃CBBA賽事8連冠 協(xié)會(huì)人員:疑心臟病去世

      “90后”健美運(yùn)動(dòng)員王昆去世,曾橫掃CBBA賽事8連冠 協(xié)會(huì)人員:疑心臟病去世

      紅星新聞
      2025-12-17 12:16:45
      國(guó)家隊(duì)救市了!市場(chǎng)大逆轉(zhuǎn)!

      國(guó)家隊(duì)救市了!市場(chǎng)大逆轉(zhuǎn)!

      販財(cái)局
      2025-12-17 15:04:33
      河北一公立中學(xué),停止辦學(xué)!

      河北一公立中學(xué),停止辦學(xué)!

      新牛城
      2025-12-17 09:10:37
      公安局副局長(zhǎng)因“借款收息”等被控受賄罪,一審被判緩刑檢方抗訴

      公安局副局長(zhǎng)因“借款收息”等被控受賄罪,一審被判緩刑檢方抗訴

      半島晨報(bào)
      2025-12-17 16:49:20
      新進(jìn)展來(lái)了,上海民政局回應(yīng)繼承了獨(dú)身離世女子遺產(chǎn)卻不準(zhǔn)買(mǎi)墓地,科長(zhǎng)正在開(kāi)會(huì)研究

      新進(jìn)展來(lái)了,上海民政局回應(yīng)繼承了獨(dú)身離世女子遺產(chǎn)卻不準(zhǔn)買(mǎi)墓地,科長(zhǎng)正在開(kāi)會(huì)研究

      阿萊美食匯
      2025-12-17 10:14:06
      剛剛,美國(guó)人工腎重大突破!不透析不換腎,F(xiàn)DA已認(rèn)定!

      剛剛,美國(guó)人工腎重大突破!不透析不換腎,F(xiàn)DA已認(rèn)定!

      徐德文科學(xué)頻道
      2025-12-16 20:31:05
      國(guó)防部新聞發(fā)言人蔣斌就菲律賓國(guó)防部炒作仙賓礁水炮事件答記者問(wèn)

      國(guó)防部新聞發(fā)言人蔣斌就菲律賓國(guó)防部炒作仙賓礁水炮事件答記者問(wèn)

      界面新聞
      2025-12-17 17:14:27
      又放大招了!為鼓勵(lì)生孩,2026年實(shí)施生孩“零自付”,評(píng)論區(qū)炸鍋

      又放大招了!為鼓勵(lì)生孩,2026年實(shí)施生孩“零自付”,評(píng)論區(qū)炸鍋

      火山詩(shī)話
      2025-12-15 18:11:48
      獨(dú)居者死后財(cái)產(chǎn)“收歸國(guó)有”:民政部門(mén)應(yīng)依法澄清誤會(huì)丨中聽(tīng)

      獨(dú)居者死后財(cái)產(chǎn)“收歸國(guó)有”:民政部門(mén)應(yīng)依法澄清誤會(huì)丨中聽(tīng)

      大象新聞
      2025-12-17 12:41:03
      《阿凡達(dá)3》預(yù)售票房斷崖式下跌,網(wǎng)友:這票價(jià)他們也是真敢開(kāi)口

      《阿凡達(dá)3》預(yù)售票房斷崖式下跌,網(wǎng)友:這票價(jià)他們也是真敢開(kāi)口

      星宿影視?shū)?/span>
      2025-12-17 14:53:49
      首爾會(huì)談結(jié)束,中日韓發(fā)聯(lián)合聲明,信號(hào)明確,高市還是沒(méi)辦法對(duì)話

      首爾會(huì)談結(jié)束,中日韓發(fā)聯(lián)合聲明,信號(hào)明確,高市還是沒(méi)辦法對(duì)話

      軍機(jī)Talk
      2025-12-17 14:40:14
      房產(chǎn)稅的前身“房屋養(yǎng)老金”要來(lái)了,博主分析:明年的二手房慘了

      房產(chǎn)稅的前身“房屋養(yǎng)老金”要來(lái)了,博主分析:明年的二手房慘了

      三言四拍
      2025-12-17 11:43:14
      炸裂!網(wǎng)傳老太太睡大女婿生了娃,偷換小女兒的兒子,致外孫丟失

      炸裂!網(wǎng)傳老太太睡大女婿生了娃,偷換小女兒的兒子,致外孫丟失

      社會(huì)醬
      2025-12-17 17:12:37
      獻(xiàn)血年齡擬延長(zhǎng)至65周歲 獻(xiàn)血法修訂草案公開(kāi)征求意見(jiàn)

      獻(xiàn)血年齡擬延長(zhǎng)至65周歲 獻(xiàn)血法修訂草案公開(kāi)征求意見(jiàn)

      每日經(jīng)濟(jì)新聞
      2025-12-17 16:09:07
      貴州征求意見(jiàn):支持探索“品牌白酒質(zhì)押貸”等服務(wù),盤(pán)活酒企資產(chǎn)緩解資金壓力

      貴州征求意見(jiàn):支持探索“品牌白酒質(zhì)押貸”等服務(wù),盤(pán)活酒企資產(chǎn)緩解資金壓力

      界面新聞
      2025-12-09 13:16:31
      一個(gè)八年級(jí)“厭學(xué)”男孩,從十八樓跳下后生還丨在場(chǎng)

      一個(gè)八年級(jí)“厭學(xué)”男孩,從十八樓跳下后生還丨在場(chǎng)

      紅星新聞
      2025-12-17 09:58:25
      越南悶聲搞改革,加速建設(shè)國(guó)際金融中心

      越南悶聲搞改革,加速建設(shè)國(guó)際金融中心

      寰宇大觀察
      2025-12-16 19:13:25
      全球首款,成功試飛!

      全球首款,成功試飛!

      極目新聞
      2025-12-16 21:27:34
      攜程簽約柬埔寨引發(fā)注銷(xiāo)潮,網(wǎng)傳洪森威脅“相關(guān)國(guó)家”要公布電詐園區(qū)股東名單

      攜程簽約柬埔寨引發(fā)注銷(xiāo)潮,網(wǎng)傳洪森威脅“相關(guān)國(guó)家”要公布電詐園區(qū)股東名單

      普通人ThePeople
      2025-12-17 13:51:44
      2025-12-17 18:36:49
      雷峰網(wǎng) incentive-icons
      雷峰網(wǎng)
      關(guān)注智能與未來(lái)!
      68092文章數(shù) 656012關(guān)注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬(wàn)億靠畫(huà)餅 Waymo值千億靠跑單

      頭條要聞

      男子花十幾萬(wàn)"賭石"付款前說(shuō)是頂級(jí)貨 切開(kāi)全是邊角料

      頭條要聞

      男子花十幾萬(wàn)"賭石"付款前說(shuō)是頂級(jí)貨 切開(kāi)全是邊角料

      體育要聞

      短短一年,從爭(zhēng)冠到0勝墊底...

      娛樂(lè)要聞

      鞠婧祎收入曝光,絲芭稱(chēng)已支付1.3億

      財(cái)經(jīng)要聞

      重磅信號(hào)!收入分配制度或迎重大突破

      汽車(chē)要聞

      一車(chē)多動(dòng)力+雙姿態(tài) 長(zhǎng)城歐拉5上市 限時(shí)9.18萬(wàn)元起

      態(tài)度原創(chuàng)

      本地
      教育
      藝術(shù)
      數(shù)碼
      公開(kāi)課

      本地新聞

      云游安徽|踏過(guò)戰(zhàn)壕與石板,讀一部活的淮北史

      教育要聞

      近日,教育部發(fā)布加強(qiáng)中小學(xué)日??荚嚬芾?0條舉措。其中要求:義務(wù)教育學(xué)校日??荚噷?shí)行等級(jí)評(píng)價(jià),考試結(jié)...

      藝術(shù)要聞

      毛主席書(shū)寫(xiě)林則徐詩(shī)詞,字跡超凡,引發(fā)關(guān)注。

      數(shù)碼要聞

      AMD推出Radeon RX 9060 XT LP顯卡,9060 XT 16GB降頻版

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲色大成网站www永久一区 | 亚洲第一视频区| 中文字幕av久久爽Av| 静宁县| 国产精品成人久久电影| 国产中文99视频在线观看| 国产深夜福利| 色欲天天综合| 青草精品国产福利在线视频| 91洮色| 精品一二三| 绿春县| 丰满岳乱妇一区二区三区 | 国产精品免费久久久免费| 性爱视频网址| 欧美日韩一卡二卡| 亚洲www啪成人一区二区| 亚洲熟女少妇一区二区| 国产欧美另类精品久久久| http://国产熟女.com| 无卡无码| av大片在线无码免费| 91综合网| 免费的特黄特色大片| 丁香五月激情综合| 51国产| 丁香五月亚洲综合在线| 亚洲国产精品久久青草无码| 亚洲无码精品视频| 亚洲精品影院| 亚州色综合| 敦煌市| 日韩无码专区| 色综合久| 爆乳一区二区| 26uuu亚洲| 亚洲最大成人网站| 欧美性猛交xxxx免费看| 九九成人免费视频| 国内精品久久久久影院不卡| 一区二区av|