楊劍飛的履歷精準地踩中了過去十年科技浪潮的每一個節(jié)點:2012 年,他進入中山大學那個為了響應互聯(lián)網(wǎng)潮而特設(shè)的“移動信息工程學院”;2014 年加入大疆實習做視覺算法,見證了無人機作為會飛的機器人的元年 ;與此同時,他頻繁出沒于上海、武漢、臺北的黑客松賽場,在 48 小時的極限編程中,反復訓練自己從 0 到 0.1 的產(chǎn)品化能力。
隨后,他在新加坡南洋理工大學、加州大學伯克利、東京大學和哈佛大學之間穿梭,最終將目光鎖定在“Physical AI”(物理人工智能)——一個試圖用多模態(tài)感知去重新解碼物理世界的宏大命題。
一年前,他回到新加坡南洋理工大學創(chuàng)立了 MARS 實驗室(Multimodal embodied AI & Robotic Systems Lab),正式開啟了他的教職生涯。
盡管如此,他仍稱自己是個“躺平”的人——求學階段享受在南洋理工的椰林泳池邊喝著啤酒看論文,晚上則化身英雄聯(lián)盟征戰(zhàn)東南亞的玩家。他堅信高效學習遠勝于耗時間。
在與我們的對話中,楊劍飛少有學究式的晦澀,更多的是一種兼具極客與產(chǎn)品經(jīng)理視角的直率。他毫不避諱地指出具身智能賽道全鏈路創(chuàng)業(yè)模式下的同質(zhì)化問題,也坦承自己比起卷模型,更在意如何讓機器人安全地與人共處并服務于人類的生活。
從看見到感知,讓機器人更懂世界
DeepTech:你在 NTU 創(chuàng)立實驗室時,選擇了“Physical AI(物理人工智能)”這個關(guān)鍵詞,為什么強調(diào)“物理”?
楊劍飛:這與我的研究背景密切相關(guān)。過去我一直在做 AI 與物理系統(tǒng)的結(jié)合(比如 IoT 和機器人),本質(zhì)上就是利用人工智能去觀測并理解物理世界。
我的研究始于計算機視覺和多模態(tài)感知,最初我以為 RGB 相機加上雷達,已經(jīng)足以構(gòu)建一個較完整的三維世界表征。但在哈佛訪學期間,與做光學和實驗物理的研究者深入交流后,我意識到我們對物理世界的認知其實非常有限。真實世界遠比視覺呈現(xiàn)復雜得多:多光譜信息、各種電磁信號、空氣中的通信波段,都是真實存在卻難以直接感知的維度。
因此,Physical AI 的核心并不只是讓機器人行動,而是回答一個更基礎(chǔ)的問題:我們?nèi)绾胃鼫蚀_、更全面地觀測物理世界,并用 AI 去解釋這些觀測?
這條路徑在其他學科也同樣成立。生命科學中,從顯微鏡到基因測序,各種技術(shù)的出現(xiàn)本質(zhì)上都是創(chuàng)造新的觀測方式,隨后再由 AI 進行分析。正因如此,我認為 Physical AI 是一個未來幾十年都值得投入的方向。它關(guān)乎 AI 的邊界,也關(guān)乎我們?nèi)绾卫斫庹鎸嵤澜绫旧怼?/p>
DeepTech:既然 Physical AI 的核心是重新定義我們?nèi)绾斡^測物理世界,那在人機交互的設(shè)備層面,你最近關(guān)注到哪些值得探索的新載體?比如,你今年初參與了 Meta Project Aria(AR 眼鏡項目)。
楊劍飛:對,這個項目主要利用 Meta 的 Aria 智能眼鏡進行場景識別,希望借此提升人與機器的交互能力。我們關(guān)注的是更長期的趨勢:未來什么設(shè)備可能取代手機,或成為新的核心交互入口?
我認為會是 XR 眼鏡。
過去十多年,XR 眼鏡受限于顯示、芯片和電池,但現(xiàn)在這些技術(shù)正在突破,使它具備成為下一代終端的條件。短期來說,XR 眼鏡可以成為和用戶自然交互的入口;長期來說,隨著邊緣算力的發(fā)展,眼鏡能夠?qū)崟r捕捉用戶看到的世界,并將這些信息反饋給家中的機器人,使其理解用戶關(guān)注的內(nèi)容,從而提供更加自然的輔助。
因此,XR 眼鏡給了 AI 一雙人類的眼睛,我們申請了 Meta Aria Project,就是與學生一起探索 XR 眼鏡與具身智能結(jié)合的可能性。目前項目仍在早期階段,但這是我們認為非常值得投入的新方向。
DeepTech:這是否意味著,你認為未來的具身智能是一種更高級、更即時的具身形態(tài)?
楊劍飛:我認為,如果討論具身智能或 Physical AI,XR 眼鏡本身就應當被視為其中的一部分。當前市面上的 XR 眼鏡之所以受限,主要在于端側(cè)算力不足,而為了控制重量,它們也無法搭載更強的處理能力,因此設(shè)備側(cè)的 AI 能力仍然非常有限。
但 Meta 的 Project Aria 與傳統(tǒng)消費級產(chǎn)品不同,它是專門為科研設(shè)計的設(shè)備,重量更大,但也配置了更強的端側(cè)算力。這使我們能夠在其上實現(xiàn)更加實時的感知處理,并探索更高級的 Physical AI 交互模式。
從這個角度看,AR 眼鏡并不僅是信息呈現(xiàn)設(shè)備,它實際上是具身智能生態(tài)中的一個重要節(jié)點,能夠在用戶與環(huán)境之間提供連續(xù)、實時的感知與反饋。
DeepTech:2026 年,你的團隊會重點投入在哪些研究方向?在具身智能即將迎來應用化階段的背景下,你認為哪些問題最值得提前布局?
楊劍飛:2026 年,我們的重點仍將放在以人為本(human-centric)的具身智能研究方向上,比如更加安全和自然的人機交互(Human-Robot Interaction)。我判斷具身智能可能在未來 3-5 年里逐步落地,而一旦進入實際應用階段,如何讓機器人以更自然、更友好、更加符合人類習慣的方式進行交互,將成為不可回避的問題。盡管這些課題在傳統(tǒng)意義上未必屬于核心性能指標,但我個人非常重視其中的人性化價值,因此也會持續(xù)深耕這一方向。
與此同時,我們團隊中負責多模態(tài)與大模型的學生也已經(jīng)開始在 VLA 方向發(fā)力。一個關(guān)鍵問題是:VLA 是否可以接入更多模態(tài),從而實現(xiàn)更精確的動作表達?在什么場景下,多模態(tài)輸入是必要的?哪些任務又不能僅依賴純視覺(pure vision)就能完成?
這些問題的背后,其實都是關(guān)于不同模態(tài)的數(shù)據(jù)如何共同影響具身智能能力的更深層探索。因此,從整體上看,我們 2026 年的研究仍將圍繞我們 MARS Lab 的兩個主線展開:多模態(tài)感知與以人為中心的具身智能。
通用機器人真正要落地在哪?
DeepTech:目前市面上出現(xiàn)不同的聲音,有些人認為最大的場景是進工廠,擰螺絲、分揀電池、搬東西;也有人認為,機械臂已經(jīng)夠用了,趨勢應該是個人和家庭。你比較看好機器人在哪些場景的應用?
楊劍飛:我認為核心仍在 to C 端。工業(yè)場景固然重要,但在高度結(jié)構(gòu)化、可預設(shè)的工廠環(huán)境里,傳統(tǒng)工業(yè)機器人本身就能做得更好。具身機器人只有在處理工業(yè)機器人難以覆蓋的問題才具備價值,例如拆解不規(guī)則物體、處理雜亂環(huán)境。但這類需求往往更適合由專門的工業(yè)自動化公司來解決,也不是通用具身智能最具潛力的方向。
具身智能真正值得期待的,是走進家庭,解決開放世界中可廣泛泛化的真實任務。但家庭場景的復雜性極高,遠非兩三年能夠完全攻克,因此廣泛落地必然是一個長期過程。
在我看來,一個關(guān)鍵節(jié)點是:在 to C 端出現(xiàn)第一個真正意義上的“殺手級應用(killer app)”。它能讓普通消費者第一次明確感受到“家里有一個具身機器人是有實際價值的”。在這個節(jié)點出現(xiàn)之前,具身智能的大規(guī)模普及都只能算是過渡階段。
DeepTech:如果說 to C 的話,人形是最好的形態(tài)嗎?
楊劍飛:在不同的 to C 場景中,不同結(jié)構(gòu)的機器人設(shè)計有著不同的優(yōu)勢,但如果討論的是通用型家用機器人,人形形態(tài)的適配性更強,大致體現(xiàn)在兩個方面。
其一是環(huán)境友好性與任務靈活性。家庭空間從本質(zhì)上就是按照“人”的尺度、動作和可達性設(shè)計的。人形機器人能夠在相同的結(jié)構(gòu)中完成多樣任務,包括上、下臺階等輪式機器人難以處理的動作;在海外大量家庭為多層 house 的情況下,這種能力尤為重要。因此,在開放家庭環(huán)境里,人形形態(tài)天然更具普適性。
其二是情感層面的可接受度。人們對小鵬機器人等產(chǎn)品產(chǎn)生關(guān)注,不僅因為其步態(tài)逼真,更因為其外觀、材質(zhì)與比例在視覺與情感上帶來了擬人化的溫度。這種溫度并不必然來自技術(shù)本身,而是來自人形結(jié)構(gòu)、織物包裹等設(shè)計細節(jié)所營造的心理連接。正如科幻作品長期呈現(xiàn)的圖景,當機器真正融入日常生活,人們往往希望它像一個人。
人形并非唯一解,但在通用家用機器人領(lǐng)域,它確實具備更強的環(huán)境適配性與情感親和力,這兩點共同構(gòu)成了它在 to C 市場的重要潛力。當然人形不一定是雙足,這是更加細節(jié)的討論了。
中國“全都要” vs 美國“單點破”
DeepTech:從你的觀察來看,中美在自身智能的發(fā)展路徑上有什么差異?
楊劍飛:在中國,產(chǎn)業(yè)發(fā)展往往沿著供應鏈自下而上展開。完整而高效的制造體系,使國內(nèi)迅速涌現(xiàn)出一批具身智能創(chuàng)業(yè)團隊。許多公司由具備北美或國內(nèi)頂尖科研背景的研究者創(chuàng)立,將硬件基礎(chǔ)與博士階段積累的軟件與模型能力結(jié)合,形成較完整的技術(shù)鏈路。
但在與二十多家創(chuàng)業(yè)者交流后,我注意到一個普遍特征:我國的公司傾向于全鏈路式創(chuàng)新。從本體、感知、控制到大模型,甚至數(shù)據(jù)采集,幾乎所有環(huán)節(jié)都在一家公司內(nèi)自研。這種方式雖能構(gòu)建統(tǒng)一的平臺與獨立的生態(tài)系統(tǒng),但也容易導致資源分散,難以在某個關(guān)鍵層面實現(xiàn)突破;加之供應鏈成熟、造一臺機器人門檻降低,同質(zhì)化問題隨之加劇。
相比之下,美國生態(tài)的分層更為清晰。許多團隊只專注某一技術(shù)層,如Physical Intelligence 主攻大模型、genesis 做仿真平臺、generalist 聚焦工業(yè)智能大模型等;硬件端則大量采購成熟的中國產(chǎn)品來驗證模型能力。這樣的模式使創(chuàng)新資源得以集中,也更容易形成差異化。當然,也有 Figure AI、Tesla Optimus 等選擇全棧路線的例外,但他們擁有少數(shù)團隊才具備的資源規(guī)模。
在模型層面也呈現(xiàn)類似差異。目前最具影響力的開源模型仍來自美國體系,如 π 系列。國內(nèi)雖然不斷有模型宣布開源,我們實驗室測試了部分模型也有不錯的性能,但整體上聲量大于可用性,尚未出現(xiàn)一個能夠真正被社區(qū)采納、持續(xù)演進的基礎(chǔ)模型。國內(nèi)缺乏長期維護開源項目、沉淀開源社區(qū)文化的土壤,也是原因之一。
從科研與產(chǎn)業(yè)雙重視角看,在開源模型能力上美國仍占優(yōu)勢;但中國在機器人硬件、供應鏈和工程化效率上的領(lǐng)先同樣顯著,也正因如此,美國許多團隊愿意直接采購中國本體。我也非常希望我國具身智能能有 DeepSeek 一樣的模型出現(xiàn)。
DeepTech:中國具身智能行業(yè)在高速發(fā)展的同時,也伴隨一定的過熱預期。你怎么看當前行業(yè)的真實進度與外界敘事之間的落差?
楊劍飛:當然,中國的優(yōu)勢同樣十分突出,尤其體現(xiàn)在制造體系和工程化能力上。依托松山湖等地高度成熟的機器人供應鏈,我們在硬件本體和人形機器人生產(chǎn)上的速度與成本控制具備全球競爭力:產(chǎn)品可以做得快、做得多、做得好,迭代周期也明顯短于海外。
這種差距在行業(yè)內(nèi)部也被越來越多的海外團隊直接承認。過去大家習慣說“做中國的特斯拉”、“做中國的谷歌”,而如今,美國創(chuàng)業(yè)者開始出現(xiàn)希望“做美國的宇樹”的說法,這本身就折射出中國硬件能力在具身智能時代的領(lǐng)先地位。
DeepTech:從產(chǎn)業(yè)結(jié)構(gòu)來看,從 2023 到 2025,機器人行業(yè)的熱度幾乎是指數(shù)級上升。在你看來,是哪些變量讓行業(yè)突然進入加速度階段?
楊劍飛:過去這一波具身智能的熱度,并非偶然,我認為真正的拐點出現(xiàn)在 2022 到 2023 年,其背后至少有三股力量共同推動。
首先是大模型的出現(xiàn)。最初大家主要關(guān)注基于大模型的智能體與線上應用,但機器人研究者很快意識到,大模型具備解決高層任務規(guī)劃的潛力。它不僅能生成動作序列,還能為機器人提供通往開放世界的思考能力。這使得原本局限在封閉環(huán)境中的機器人,有了邁向通用智能的可能。
第二個關(guān)鍵變量是算力。大模型本身依賴算力堆疊,而機器人也在經(jīng)歷同樣的算力躍遷。例如英偉達近年來推出的 Star、Jetson Nano 等邊緣計算平臺,顯著提升了端側(cè)的 AI 運行能力,推動了自動駕駛、AGV 和服務機器人等應用的實際落地。
第三,是硬件與供應鏈的成熟。以松山湖為代表的制造集群逐步形成,大疆等企業(yè)帶動了上游零部件體系的完善,催生出割草機、泳池清潔機器人等上一代產(chǎn)品的商業(yè)成功。這些積累為今天的人形機器人奠定了基礎(chǔ)。
此外,國家層面的推動同樣重要。春晚上連續(xù)兩年出現(xiàn)機器人,從側(cè)面體現(xiàn)了政策與社會層面對行業(yè)的關(guān)注,也幫助不少企業(yè)在關(guān)鍵階段獲得資源和認知紅利。綜合制造優(yōu)勢與人才供給,我相信中國在具身智能領(lǐng)域具備真正實現(xiàn)突破、甚至領(lǐng)跑的可能性。
打造機器人的“ChatGPT 時刻”
DeepTech:另一個所有人都在關(guān)心的問題是數(shù)據(jù)。機器人數(shù)據(jù)的采集成本極高,也很不連續(xù)。你認為合成數(shù)據(jù)會成為真正的解決方案嗎?還是說,數(shù)據(jù)要在未來以一種完全不同的方式被生成?
楊劍飛:在我看來,仿真數(shù)據(jù)和真實數(shù)據(jù)必然是兩條并行路線,各有優(yōu)勢也各有局限。仿真最大的好處是規(guī)模化容易,但始終存在模擬與現(xiàn)實的差距;真實數(shù)據(jù)尤其是操作類數(shù)據(jù)采集成本高,但價值更直接、可遷移性更強。
近年來也出現(xiàn)了一些提升真實數(shù)據(jù)效率的方法,例如 UMI 通過統(tǒng)一夾爪,讓 generalist 和 Sunday AI 等團隊可以快速擴展真實數(shù)據(jù)規(guī)模。這說明真實數(shù)據(jù)并非不能擴展,只是幅度無法像仿真一樣成倍增長。再比如最近 PI 發(fā)現(xiàn)大量的第一視角人類視頻訓練可以促進具身智能模型的“智能涌現(xiàn)”,而第一視角視頻相比于遙操作數(shù)據(jù)是更容易 scale up 的。
因此,大多數(shù)團隊最終都會采用混合策略:預訓練依賴大量仿真數(shù)據(jù)和視頻數(shù)據(jù),具體任務和場景落地則必須回到真實數(shù)據(jù)進行校準。同時,世界模型的路線正在興起,讓模型在類似仿真的環(huán)境中繼續(xù)強化學習,成為第三條可補充的路徑。
行業(yè)的共識逐漸清晰:有效數(shù)據(jù)不會來自單一來源,而是多種數(shù)據(jù)形式的組合。未來的關(guān)鍵不在于簡單擴大數(shù)據(jù)工廠規(guī)模,而在于探索新的數(shù)據(jù)范式,從而提高數(shù)據(jù)采集效率與利用效率。只有這樣,才能真正構(gòu)建出具有強泛化能力的具身智能模型。
DeepTech:如果機器人數(shù)據(jù)來自不同國家,它們是否會出現(xiàn)地域特性,甚至價值觀差異?
楊劍飛:這種情況在未來的確非常有可能出現(xiàn),也正是當下數(shù)據(jù)體系的核心短板之一。現(xiàn)階段的機器人數(shù)據(jù)收集往往是高度中心化的:數(shù)據(jù)通常來自同一地區(qū)、同一團隊、同一種環(huán)境與交互方式,因此不可避免地帶有特定地域與文化的行為偏差。這使得模型難以獲得真正普適的行為模式。
如果具身智能要走向全球化,它的數(shù)據(jù)體系必須像互聯(lián)網(wǎng)一樣實現(xiàn)分布式采集,來自不同國家、不同文化、不同家庭與不同工作場景的真實數(shù)據(jù)共同匯聚,形成新的 Internet——機器人數(shù)據(jù)互聯(lián)網(wǎng)。只有在這種高度差異性的數(shù)據(jù)結(jié)構(gòu)下,才有可能誕生真正意義上的“機器人領(lǐng)域的 ChatGPT 時刻”。
否則,今天許多機器人系統(tǒng)所依賴的依然只是局域網(wǎng)級別的智能,它們在特定環(huán)境下表現(xiàn)良好,但難以跨文化、跨場景遷移。要突破這一限制,構(gòu)建全球化、分布式的數(shù)據(jù)流將是關(guān)鍵步驟。
DeepTech:基礎(chǔ)模型開源與否,會決定行業(yè)走向。你認為開源基礎(chǔ)模型,會加速具身智能的發(fā)展,還是反而帶來新的不確定性?對于做機器人系統(tǒng)的人來說,開源意味著機會還是隱患?
楊劍飛:開源無疑會加速行業(yè)發(fā)展,也會帶來大量不確定性。但在技術(shù)探索的早期階段,這種不確定性本身就是創(chuàng)新的源頭。以數(shù)據(jù)采集為例,UMI 提供了一個開源夾爪,隨后社區(qū)迅速基于這一接口展開改進:有人直接使用比如 Generalist,有人將其改造成三指靈巧手例如 Sunday AI,開源硬件的啟發(fā)性在這里得到充分體現(xiàn)。
軟件層面更是如此。圍繞 PaLM-E、PaLI-X 或 π 系列模型的微調(diào)與改造已經(jīng)遍布學術(shù)界。盡管許多工作只是小規(guī)模實驗或分數(shù)優(yōu)化,但確實也有研究在模型接入新模態(tài)、更高效的數(shù)據(jù)利用、以及強化學習訓練等方向取得實質(zhì)性進展。因此,在機器人領(lǐng)域,開源基礎(chǔ)模型的價值甚至比在純軟件領(lǐng)域更大,因為它能夠同時撬動硬件、算法、數(shù)據(jù)和應用多個層面的創(chuàng)新。
我們也可以從行業(yè)的成功案例看到這一邏輯。宇樹的人形機器人之所以迅速普及,是因為幾乎所有國家的實驗室都會至少采購一臺;PaLM-E、π 系列模型之所以成為研究基礎(chǔ),是因為大量工作都建立在它們之上;在大模型領(lǐng)域,Llama 和 DeepSeek 系列發(fā)布后一年內(nèi)便積累了龐大的社區(qū)貢獻。
一家公司的資源再多,它能專注的范圍依然有限。但當它以開源方式激發(fā)了研究社區(qū)的創(chuàng)造力,社區(qū)基于其架構(gòu)所衍生的成果反過來又會強化其技術(shù)生態(tài)。這正是開源在機器人時代尤其關(guān)鍵的原因,也是推動企業(yè)最終取得成功的重要路徑。
DeepTech:近期,多所高校開始討論是否應該設(shè)立“具身智能”本科專業(yè)。作為長期從事該領(lǐng)域科研和教學的研究者,你怎么看待本科階段培養(yǎng)具身智能人才的可行性?
楊劍飛:長期以來,一個常被討論的問題是:機器人行業(yè)發(fā)展多年,為什么高校中真正設(shè)立機器人本科專業(yè)的并不多?
核心原因在于,機器人是高度系統(tǒng)化的工程領(lǐng)域,涵蓋機械、電子、控制、自動化、計算機等多學科。本科階段如果課程設(shè)計不夠聚焦,學生很容易學得很雜,卻沒有哪一項真正學深。因此,無論國內(nèi)還是海外,關(guān)于是否要在本科階段開設(shè)機器人專業(yè)一直存在爭議。
過去十多年,我認為更加推動機器人教育進步并培養(yǎng)學生實踐能力的,其實不是課程,而是競賽。系統(tǒng)化的比賽機制讓學生必須在團隊中完成整機設(shè)計、調(diào)試與迭代,這種做出來的訓練方式遠比課堂更能塑造一個準機器人工程師。我在大疆參與 RoboMaster 比賽系統(tǒng)測試時就明顯感受到,全棧型人才往往來自高校頂尖戰(zhàn)隊。
因此,本科專業(yè)更多是一種組織框架,而真正決定學生能力的,是他們是否有機會參與系統(tǒng)級工程,把一個機器人從零做成可運行的產(chǎn)品。在這個意義上,機器人教育的核心不在課程,而在工程實踐本身。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.