在新加坡南洋理工大學(xué)的一間實(shí)驗(yàn)室里,一只機(jī)械臂正在嘗試完成一個(gè)看似簡(jiǎn)單的任務(wù):抓取一個(gè)蘋果。這個(gè)動(dòng)作,對(duì)于三歲的孩童來(lái)說(shuō)不過(guò)是本能,但對(duì)于當(dāng)今最先進(jìn)的機(jī)器人而言,卻是一道難以跨越的鴻溝。
在這個(gè)人工智能的“GPT 時(shí)刻”,我們見證了 AI 以快速迭代的方式掌握了語(yǔ)言、圖像甚至代碼。大型語(yǔ)言模型已經(jīng)能在許多信息處理任務(wù)中展現(xiàn)出高效表現(xiàn)。然而,從知到行之間,橫亙著一道我們尚未完全理解的鴻溝:一個(gè)能在虛擬世界通過(guò)美國(guó)執(zhí)業(yè)醫(yī)師資格考試的 AI,卻無(wú)法在物理世界為我們可靠地端來(lái)一杯水。
這不僅是一個(gè)工程問(wèn)題,更接近一個(gè)哲學(xué)命題:如果一個(gè)智能體無(wú)法與物理世界交互、感知、行動(dòng)并承受后果,它是否真正理解了這個(gè)世界?在中國(guó)古典哲學(xué)中,“知行合一”被視為智慧的最高境界。而在今天的人工智能研究中,如何讓機(jī)器實(shí)現(xiàn)從“知”到“行”的跨越,正成為這個(gè)領(lǐng)域最前沿、也最艱難的挑戰(zhàn)。
王子為的研究經(jīng)歷,正是在這一問(wèn)題背景下展開的。從清華大學(xué)的物理系,到 AI 研究,再到具身智能(Embodied AI)——他的每一次轉(zhuǎn)向,都與技術(shù)發(fā)展趨勢(shì)密切相關(guān)。
![]()
(來(lái)源:受訪者提供)
兩次“轉(zhuǎn)向”:從物理定律到機(jī)器人鐵律
2016 年,當(dāng) AlphaGo 與李世石的圍棋對(duì)決吸引全球目光時(shí),王子為還是清華大學(xué)物理系數(shù)理基礎(chǔ)科學(xué)專業(yè)的一名學(xué)生。在當(dāng)時(shí)的學(xué)術(shù)路徑規(guī)劃中,物理系的學(xué)生,未來(lái)大多走向理論物理、高能物理或是金融工程。但這場(chǎng)人機(jī)大戰(zhàn),徹底改變了這個(gè) 20 歲年輕人的人生方向。
“當(dāng)時(shí)覺得這個(gè)東西非常神奇,有非常大的潛力。”回憶起那個(gè)轉(zhuǎn)折點(diǎn),王子為的語(yǔ)氣依然帶著當(dāng)年的激動(dòng)。這種激動(dòng)促使他做出了一個(gè)大膽的決定——從物理學(xué)轉(zhuǎn)向人工智能研究。“我們當(dāng)年有很大一部分同學(xué)都轉(zhuǎn)向了 AI 相關(guān)的工作,不管是計(jì)算機(jī)、電子還是自動(dòng)化,多多少少都受了 AlphaGo 的影響。”
但真正讓他從 AI 轉(zhuǎn)向機(jī)器人研究的,是 2020 年另一項(xiàng)發(fā)表在Nature的里程碑式工作——“Robot Chemist”。來(lái)自英國(guó)利物浦大學(xué)的 Andrew I. Cooper 教授課題組開發(fā)了機(jī)器人化學(xué)家,其可以在實(shí)驗(yàn)室“走來(lái)走去”并如同人類化學(xué)家一樣操作實(shí)驗(yàn)儀器,完成各種各樣的實(shí)驗(yàn)任務(wù)。
這項(xiàng)研究讓他意識(shí)到:相比純粹的算法研究,AI 與物理世界的結(jié)合可能是一個(gè)更具空間的方向。
同年,他開始了 AI 與機(jī)器人結(jié)合的研究,從純粹的 AI 走向具身 AI。“我記得非常的清楚,”他回憶起2020年第一次調(diào)試機(jī)器人,“看到我們自己設(shè)計(jì)的機(jī)械臂,能夠完成打包工作,把一個(gè)物體像人一樣打包進(jìn)盒子里面……那一份成就感,哪怕過(guò)去這么多年了,也是記憶猶新。”
加速的時(shí)代,CMU 的“快”與“慢”
在 AI 這個(gè)以月為迭代周期的領(lǐng)域,快是公認(rèn)的信條。算法在加速,模型在膨脹,論文在增長(zhǎng)。然而,王子為在博士畢業(yè)后前往卡內(nèi)基梅隆大學(xué)(CMU)進(jìn)行博士后研究時(shí),學(xué)到的最重要的一課,卻是“慢下來(lái)”。
“讓研究慢下來(lái),其實(shí)不容易。”王子為發(fā)現(xiàn),當(dāng)AI 與機(jī)器人結(jié)合,研究的范式就徹底變了。在純AI 領(lǐng)域,一個(gè)想法的驗(yàn)證周期可能很短:設(shè)計(jì)一個(gè)新模型,在已有的數(shù)據(jù)集上跑一下,幾個(gè)小時(shí)或幾天后,就能迅速驗(yàn)證想法是否有效。但在機(jī)器人領(lǐng)域,這個(gè)周期會(huì)被無(wú)限拉長(zhǎng)。
“要把問(wèn)題想清楚是需要時(shí)間的。”王子為舉例,在機(jī)器人上驗(yàn)證一個(gè)新算法,首先要采集數(shù)據(jù)。這個(gè)過(guò)程是物理的、實(shí)時(shí)的、昂貴的。“機(jī)器人采數(shù)據(jù)是需要時(shí)間的,是需要成本的。”采集完數(shù)據(jù),還要進(jìn)行漫長(zhǎng)的訓(xùn)練和調(diào)試。
更重要的是,物理世界遠(yuǎn)比數(shù)據(jù)集要狡猾。“比如,我們?cè)O(shè)計(jì)的框架對(duì)不同的網(wǎng)絡(luò)結(jié)構(gòu)、不同的硬件,是不是都有效?增加數(shù)據(jù)之后,在特定的問(wèn)題上,它是否會(huì)產(chǎn)生像物理學(xué)里面那種相變?”就像 GPT 模型在數(shù)據(jù)量跨越某個(gè)閾值后突然涌現(xiàn)出能力一樣。在機(jī)器人領(lǐng)域,這個(gè)涌現(xiàn)點(diǎn)在哪里?沒(méi)有人知道。
“這都是需要時(shí)間的。”他反復(fù)強(qiáng)調(diào)。
他在 CMU 參與的一個(gè)項(xiàng)目,是研究如何通過(guò)人類的語(yǔ)言或草圖,來(lái)生成樂(lè)高積木的拼接方案,并指揮機(jī)器人完成組裝。這聽起來(lái)像個(gè)玩具問(wèn)題,但其背后的技術(shù)復(fù)雜度是驚人的。這套系統(tǒng)首先需要理解人類模糊的指令(造一個(gè)帶兩個(gè)窗戶的紅房子),然后生成一個(gè)三維的、符合物理拼接邏輯的模型;接著需要規(guī)劃?rùn)C(jī)器人的每一步操作(抓取、旋轉(zhuǎn)、放置),最后才到讓機(jī)器人執(zhí)行高精度的動(dòng)作的環(huán)節(jié),并還要保證全過(guò)程的安全。
“這個(gè)工作從 2023 年就開始了,一直到今年(2025年)才有一個(gè)里程碑式的結(jié)果,但最后這篇論文也是拿到了 ICCV 的 Best Paper。”
一個(gè)看似簡(jiǎn)單的搭樂(lè)高任務(wù),耗費(fèi)了團(tuán)隊(duì)數(shù)年的時(shí)間。這種“慢”,在如今的加速社會(huì)里似乎是不可想象的。但王子為認(rèn)為,正是這種“慢”,讓他們能夠沉淀下來(lái),去發(fā)現(xiàn)一些平常容易忽略的,但是真正重要的一些問(wèn)題。
與此同時(shí),CMU 的合作氛圍為研究帶來(lái)了一種“快”。不同實(shí)驗(yàn)室在硬件、感知、移動(dòng)平臺(tái)等方面能力互補(bǔ),使項(xiàng)目推進(jìn)更為高效。這種“快”與“慢”的結(jié)合,也影響了他后來(lái)在 NTU 開展研究的方式。
蘋果掉在地上:具身智能的“阿喀琉斯之踵”
“我們實(shí)驗(yàn)室的長(zhǎng)期目標(biāo),是為機(jī)器人賦予能夠理解世界、并且能夠自主決策的大腦。”
在 NTU 的實(shí)驗(yàn)室里,王子為正試圖回答這個(gè)領(lǐng)域最核心的難題:為什么今天的機(jī)器人,本質(zhì)上仍然是模仿者,而不是決策者?他用一個(gè)極其生動(dòng)的例子,點(diǎn)出了具身智能的“阿喀琉斯之踵”——泛化性(Generalization)。
“以抓蘋果為例。蘋果放在桌子上,很多模型表現(xiàn)都能把它抓起來(lái)。這是我們通常在演示視頻里看到的。但是,如果某一次抓的時(shí)候沒(méi)抓穩(wěn),蘋果掉在地上了,那么很多的機(jī)器人的模型現(xiàn)在就會(huì)直接 fail 掉。因?yàn)樵谟?xùn)練的過(guò)程中,它可能壓根就沒(méi)有見過(guò)這種類似的數(shù)據(jù)。”
這就是當(dāng)前主流的模仿學(xué)習(xí)(Imitation Learning)范式的弱點(diǎn)。模型只是在復(fù)現(xiàn)它在訓(xùn)練數(shù)據(jù)中見過(guò)的軌跡,它并沒(méi)有真正理解這個(gè)任務(wù)。“人哪怕看到蘋果掉在地上,我理解到蘋果、桌子、地板之間的規(guī)律,以及這個(gè)世界的物理運(yùn)行規(guī)律,包括摩擦力、包括重力……它都是能夠解決的。”而機(jī)器不能。這就是“分布外”(Out-of-Distribution, OOD)問(wèn)題。當(dāng)機(jī)器人遇到一個(gè)它訓(xùn)練數(shù)據(jù)分布之外的、全新的情況時(shí),它就束手無(wú)策了。
背后的挑戰(zhàn)可以概括為三類,這也是整個(gè)行業(yè)共同面臨的“三座大山”:
其一,數(shù)據(jù)昂貴。機(jī)器人數(shù)據(jù)必須在真實(shí)物理環(huán)境中采集,每條數(shù)據(jù)往往要數(shù)十秒甚至更久,難以像語(yǔ)言模型那樣依靠大規(guī)模互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練;其二,物理精度要求高。幾毫米的誤差都可能導(dǎo)致任務(wù)失敗,小偏差的累積會(huì)迅速放大;其三,環(huán)境物理規(guī)律多變。摩擦、質(zhì)地、光照等因素的微調(diào)都會(huì)影響動(dòng)作效果,模型需要實(shí)時(shí)建模這些隱性變量。
走向“自主”:世界模型、推理鏈與強(qiáng)化學(xué)習(xí)
為了應(yīng)對(duì)上述難題,王子為團(tuán)隊(duì)正在探索三類方法。
第一條路徑,是嘗試用世界模型(World Model)打破數(shù)據(jù)詛咒。既然物理世界的數(shù)據(jù)采集那么昂貴,我們能不能讓機(jī)器人在“腦海中”采集數(shù)據(jù)?這就是世界模型的邏輯。“它根據(jù)當(dāng)前的觀察和即將要采取的一個(gè)動(dòng)作,就會(huì)提前預(yù)判后續(xù)會(huì)產(chǎn)生什么樣的后果。”王子為解釋道,“也就是說(shuō),我不需要真的去做這個(gè)事,我只需要在我腦海里面想一下,我就知道會(huì)產(chǎn)生什么樣一個(gè)后果。”
通過(guò)世界模型,機(jī)器人可以在“想象”中源源不斷地產(chǎn)生訓(xùn)練數(shù)據(jù),極大地降低數(shù)據(jù)成本。當(dāng)然,前提是這個(gè)“想象”要足夠逼真。這是王子為團(tuán)隊(duì)的重點(diǎn)方向之一,即如何生成真正跟真實(shí)的數(shù)據(jù)差距比較小的高質(zhì)量數(shù)據(jù)。
第二條路徑,是用推理鏈解決長(zhǎng)程任務(wù)。當(dāng)前的機(jī)器人模型(如 VLA,Vision-Language-Action 模型)普遍“短視”。它們能做好抓取蘋果這樣的一步動(dòng)作,但無(wú)法完成做一份早餐這樣的長(zhǎng)程任務(wù)。“做早餐,它可能需要 20 步,甚至 30 步。打開冰箱、拿出食材、洗、切、煮、端到桌子上。”王子為說(shuō),“這是一個(gè)需要推理能力的長(zhǎng)程任務(wù)。”而受大語(yǔ)言模型思維鏈(Chain-of-Thought)的啟發(fā),王子為團(tuán)隊(duì)的思路是,把長(zhǎng)任務(wù)拆解成一步一步的短任務(wù),讓機(jī)器人每次只去解決一小步。
但核心問(wèn)題是:怎么“拆”才是最優(yōu)的?人類認(rèn)為的 20 步,不一定是模型認(rèn)為最高效的 20 步。他近期的工作(如 ThinkBot 和 VLA-Reasoner)就是為了解決這個(gè)拆解問(wèn)題。他們嘗試用蒙特卡洛搜索樹和強(qiáng)化學(xué)習(xí)的方法,去搜索一個(gè)最優(yōu)的拆解方案。“機(jī)器人需要推理物體與物體之間的關(guān)系(空間上),也需要推理動(dòng)作與動(dòng)作之間的關(guān)系(時(shí)間上)。”
第三條路徑,用強(qiáng)化學(xué)習(xí)跳出模仿的范式。這是最激進(jìn),也可能最具革命性的一步。它試圖徹底解決那個(gè)“蘋果掉在地上”的 OOD 問(wèn)題。模仿學(xué)習(xí)的覆蓋面總是有限的,“人是沒(méi)有辦法去窮盡所有的分布外的情況的。“那我們能不能,”王子為設(shè)想,“不再依賴于人類的數(shù)據(jù)采集,而是說(shuō)通過(guò)自己主動(dòng)的去嘗試一些東西?”
這就是強(qiáng)化學(xué)習(xí)的回歸。讓機(jī)器人自己去探索,甚至主動(dòng)犯錯(cuò)。“比如說(shuō),它自己主動(dòng)覺得,這個(gè)蘋果如果將來(lái)掉到地上之后,我可能不確定怎么去拿,那么他就會(huì)自己主動(dòng)去嘗試,把這個(gè)蘋果弄到地上,然后去把它抓起來(lái),在這個(gè)過(guò)程中進(jìn)行學(xué)習(xí)。”這是一種根本的范式轉(zhuǎn)變:從“向人類學(xué)習(xí)”(Learning from Human)轉(zhuǎn)向“自主學(xué)習(xí)”(Self-learning)。
這標(biāo)志著機(jī)器人從一個(gè)被動(dòng)執(zhí)行的工具,開始向一個(gè)主動(dòng)探索的智能體(Agent)進(jìn)化。王子為提到,近期已有很多論文顯示,通過(guò)這種方式,機(jī)器人在某些任務(wù)上能達(dá)到接近 100% 的成功率——這是純模仿學(xué)習(xí)無(wú)法企及的高度。
從“知”到“行”:熱情是最后一公里
迄今,那只機(jī)械臂仍在不知疲倦地重復(fù)著訓(xùn)練動(dòng)作,身后的科研工作者們還在夜以繼日地調(diào)試。它還不夠完美,偶爾會(huì)失誤,會(huì)在意想不到的情況下“手足無(wú)措”。但正是這些失敗,構(gòu)成了通向理解的必經(jīng)之路。這也讓我們?cè)诓稍L的最后,不禁問(wèn)出了那個(gè)問(wèn)題:在這樣一個(gè)瞬息萬(wàn)變、充滿不確定性的領(lǐng)域,究竟什么樣的人才能走到最后?
“我認(rèn)為是要有熱情和快速學(xué)習(xí)的能力。“因?yàn)橐粋€(gè)頂級(jí)的研究者,他肯定是這個(gè)世界上對(duì)于這個(gè)細(xì)分小領(lǐng)域最了解的人,至少是之一。所以他每往前邁一小步,其實(shí)都是要面臨無(wú)限的不確定性和挑戰(zhàn)。這種情況下,研究在很多時(shí)候就是一份煎熬。只有真正對(duì)這個(gè)領(lǐng)域充滿熱情的人,期待能夠看到自己把這個(gè)東西做出來(lái)、并且覺得有成就感的人,才能夠克服這份煎熬。”
在快速演化的具身智能領(lǐng)域,研究者需要面對(duì)復(fù)雜系統(tǒng)帶來(lái)的不確定性。算法在一個(gè)場(chǎng)景中表現(xiàn)良好,換一個(gè)位置或環(huán)境后可能完全失效;不同批次的數(shù)據(jù)可能帶來(lái)截然不同的訓(xùn)練結(jié)果;許多問(wèn)題缺乏現(xiàn)成答案,需要從頭推導(dǎo)和驗(yàn)證。
為了保持學(xué)習(xí)效率,王子為在實(shí)驗(yàn)室推動(dòng)“論文快講會(huì)”,讓團(tuán)隊(duì)成員每周快速總結(jié)新的研究進(jìn)展,并相互討論。他認(rèn)為,在一個(gè)知識(shí)迭代迅速的領(lǐng)域,團(tuán)隊(duì)式學(xué)習(xí)能更好地保持對(duì)前沿的敏感。
在應(yīng)用層面,他的團(tuán)隊(duì)也在與制造行業(yè)合作,包括汽車、飛機(jī)維保、物流等場(chǎng)景,希望在真實(shí)工業(yè)環(huán)境中采集到更高質(zhì)量的數(shù)據(jù),為未來(lái)的機(jī)器人模型打下基礎(chǔ)。
具身智能仍是一個(gè)不斷發(fā)展的領(lǐng)域,從“知道”到“做到”之間仍有距離。研究者在其中要面對(duì)工程復(fù)雜度、物理系統(tǒng)的不確定性,以及長(zhǎng)期投入的要求。通往可用的通用機(jī)器人系統(tǒng),仍需要時(shí)間、耐心和持續(xù)不斷的跨學(xué)科合作。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.