![]()
![]()
![]()
“誰有本事做個機器人,讓它到千家萬戶都能開門,這就叫牛。”
作者|劉楊楠 沈伊人
編輯|王博
故事要從北京亦莊說起。
在這片曾以工業與制造園區著稱的土地上,廠房林立,路網密布,各色機械設備構成了這里長期以來的底色。但在2023年,這里的氣質悄然發生了變化。
2023年冬天,北京亦莊(北京經濟技術開發區)悄然完成了一次“組局”。多方力量匯集,北京人形機器人創新中心有限公司(以下簡稱“北京人形”)注冊成立,它被賦予的使命并不掩飾其野心——打造通用機器人平臺和通用具身智能平臺,構建軟硬件協同的技術底座,為尚未成熟的人形機器人產業搭起一條更穩定的路徑。
這個故事的起點,與其說是公司成立,不如說是一群科學家和工程師的重新出發。有人在過去的創業周期中積累過經驗,也看過行業的盲區與浮躁;他們選擇再次入局,是因為始終不甘心于“機器人能跑會跳,卻難以真正落地”的現狀。
唐劍就是其中之一。
![]()
北京人形機器人創新中心有限公司CTO 唐劍
這位曾任美國雪城大學終身教授、獲得過IEEE Fellow頭銜的科學家,在學術界研究了半輩子“AI驅動的系統控制”。后來進入產業界,先后擔任滴滴智能控制首席科學家、美的公司首席AI官,積累了豐富的產業落地經驗。
2024年夏天,他來到了亦莊,成為了北京人形機器人創新中心有限公司CTO。他把這次重新出發歸因于與公司CEO熊友軍“志趣相投”,以及想要“讓人形機器人真正能進千家萬戶”的理想。
今年,因為一場人形機器人半程馬拉松,北京人形研發的“具身天工”機器人出圈了。
![]()
“具身天工Ultra”機器人獲得全球首個人形機器人半程馬拉松冠軍
這次出圈給北京人形帶來了大量關注,同時也讓公眾產生了一些誤解——“‘具身天工’只會跑步”“這只是一場秀”“機器人跑馬拉松沒有意義”。
“能跑”僅僅是北京人形“具身天工”機器人的一個標簽,在今年8月舉行的世界機器人大會上,「甲子光年」就注意到北京人形發布了具身世界模型體系、具身多模態大模型、人形機器人全自主導航系統、跨本體VLA模型等創新技術,并實現了復雜場景下的異構多本體協同工作。
就在上個月,北京人形發布了一個讓機器人真正“看見、理解并行動于世界”的具身世界模型——WoW(World-Omniscient World Model),幫助具身智能機器人快速學習掌握各項技能,助力行業打造“好用”的機器人。
其實,北京人形既不是傳統國企,也不是一般意義上的創業公司,它從誕生之初就承載著整合行業資源的使命。翻開股東名單,優必選、小米機器人、京城機電……這些在市場上或為“競爭對手”的企業,在這里成為了“同桌隊友”。
一方面,北京人形是“國家地方共建具身智能機器人創新中心”;另一方面,北京人形仍需自籌資金,直面市場競爭。
這種特殊生態位,也要求北京人形需要承擔更多商業目標之外的社會責任,攻克那些初創嫌太重、國企嫌太難、高校嫌太工程的共性難題。
在北京人形成立兩周年之際,「甲子光年」與唐劍進行了一次深入的對話。
我們能感受到的是,以唐劍為代表的北京人形技術團隊極為務實,不執念于訓練與scaling law,目標明確,就是要提升機器人操作能力,實現快速落地。目前,北京人形圍繞具身智能進行全棧布局,軟硬件并舉,大力推進開源、數據采集與行業標準。
雖然還有未完成的目標,但唐劍多年技術理想也終于有望形成現實的回環——把機器人從實驗室送進千行百業、千家萬戶。
1.人形機器人的雙重瓶頸
當前,在從實驗室研發邁向多場景應用的關鍵時期,具身智能產業正面臨著一場嚴峻考驗。
在當下的創投圈與產業界,流傳著一種觀點,“具身智能的落地,難點不在具身,難在智能。” 這種觀點認為,隨著宇樹、具身天工、松延動力等企業的努力,運動控制的上限已被不斷突破,現在的瓶頸核心在于大模型不夠聰明。
對于這個觀點,唐劍雖不否認,卻并不完全認同。
事實上,在具身智能領域,一直有一個核心共識是“硬件決定下限,軟件決定上限”,即機器人的硬件形態由場景與用戶需求定義,而軟件則用于解鎖硬件的潛能。
然而,當前行業中普遍存在一種線性的開發模式:本體團隊完成硬件后交由運控團隊,運控調試完畢再交給算法團隊。在唐劍看來,這種流水線作業并非最優解。
真正的突破需要軟硬件深度協同、雙向閉環。例如,為實現更優的運動控制,北京人形的算法團隊會向硬件團隊反饋關鍵指標,機器人不僅要輕量化,其上下肢的重量分配比例更是至關重要。只有軟硬件雙向奔赴,機器人才能實現系統性能的最大化。
只是,目前來看,機器人的硬件和軟件各有瓶頸。他將行業瓶頸分為線性瓶頸與非線性瓶頸兩大維度。
“現在其實你看到的運動表現特別出色的,都是一些小尺寸的機器。其實真正的全尺寸、真的非常類人的機器人,比如身高在1.6米以上的,在整個運動性能上還沒有表現得特別出色。” 唐劍直言。
業界公認,隨著機器人身高和體重的增長,運動控制的難度呈指數上升。目前的硬件技術路線尚未完全收斂,依然面臨著諸多物理層面的限制,唐劍將其歸類為“線性瓶頸”。
例如,關節與散熱方面, 關節的扭矩密度目前仍然較低,且在大負載運動下發熱現象嚴重,直接限制了機器人的爆發力和持久性。
在精細操作方面,靈巧手是核心。想要高自由度,體積就很難做小;想要體積小,自由度往往受限,通常只有6個,這使得精細操作(如穿針引線或復雜裝配)極難掌握。
![]()
天軼2.0在世界人形機器人運動會獲物料整理冠軍
端側算力方面,公眾在演示視頻中看到的流暢動作,后臺往往拖著一臺搭載英偉達4090顯卡的高性能工作站。真正依靠機器人板載芯片(如Orin)進行實時推理時,算力依然捉襟見肘。行業一直期待著下一代芯片(如Thor)或國產算力芯片的突破。
機器人續航方面,現有電池能量密度低,而固態電池雖然能量密度高,但循環壽命短,尚無法滿足商業化落地對續航和壽命的雙重需求。
盡管困難重重,但唐劍對此態度相對樂觀。他之所以稱其為“線性瓶頸”,是因為這些問題本質上是工程問題,“假以時日,只要有資本和人力投入下來,每年都會有一個比較大的進步。”
相比之下,更棘手、也更具不確定性的是非線性瓶頸,其核心在于軟件,包括數據、算法以及配套的軟件開發工具鏈。
“核心就是大模型的泛化能力什么時候能達到ChatGPT時刻?” 唐劍表示,“我不知道,很難講。什么時候有突破,也可能就是明年,也可能是很長,三年、五年甚至十年的時間。”
在這個非線性瓶頸中,數據以及機器人的大腦、小腦都均面臨不同程度的瓶頸。
數據方面,行業極度缺乏高質量、標準化的具身交互數據。一方面,高質量、場景化的數據集采集成本極高。單一企業難以覆蓋足夠多的場景,導致模型泛化能力受限;另一方面,很多創業公司都將辛苦采集的數據視為核心壁壘,互不開放。加之機器量產斷檔、檢測標準缺失,導致實驗室成果難以轉化為穩定可靠的產品。
此外,機器人大腦的核心發力點在于理解物理世界的運行規律,并能將想法高效反饋到動作上。而小腦則需在跑步、打拳等空間移動的基礎上,在精細化操作上尋求突破。
近期,運控算法層面出現了一波小爆發。通過引入新的算法,如應對外部擾動的魯棒性算法,小尺寸機器人的抗干擾能力大幅提升。唐劍預測,這股技術浪潮很快會傳導至全尺寸機器人,帶來運控能力的整體躍升。
但他也強調,無論是本體的輕量化設計,還是軟件的泛化能力,未來依然有巨大的提升空間。
面對上述瓶頸,行業內各玩家的布局目前更加碎片化:有人專攻小腦,有人死磕大腦,有人只做本體。這種選擇背后,往往反映了創業團隊資金和人員稟賦的局限。
2.北京人形的“具身基建”
站在獨特的生態位上,北京人形自成立之初就選擇了全棧布局。唐劍表示,整個創新中心定位為平臺型企業,提供兩大平臺。
第一個是硬件平臺,即“具身天工”和“天軼”系列機器人。這不僅是終端產品,更是開放的二次開發載體。
通用機器人平臺聚焦于物理基座,突破了高性能一體化關節與輕量化本體技術,為工業分揀、特種作業等場景提供了穩定靈活的硬件載體。
![]()
具身天工物流場景作業
外界對北京人形的認知始于“具身天工”在機器人馬拉松上的奪冠。唐劍透露,“具身天工”接下來的優化方向是提升柔順度和擬人性,“軟硬件都需要往前進步才行,這是一個相輔相成的過程。”
第二個是軟件平臺,這也是某種程度上被外界低估的。北京人形推出的“慧思開物”的一站式通用具身智能開發平臺填補了具身智能通用軟件系統的空白,旨在解決跨本體、跨場景的適配難題。
唐劍對「甲子光年」詳細解讀了“慧思開物”的技術架構。
其中,具身“大腦”負責告訴機器人該怎么干,它背后拖著兩個關鍵模型,一個是VLM(視覺-語言模型),推理時真正使用的大模型,負責感知和決策;一個是世界模型,作為一個輔助工具,幫助VLM進行自主進化和訓練。
在“慧思開物”的大腦架構中,世界模型是當下最引人注目的技術高地。
依托于圖靈獎得主楊立昆(Yann LeCun)的定義,唐劍給出了一個通俗的解釋:“比方說我現在給你一個‘狀態’(桌子上有杯子),然后給你一個‘動作’(我去抓杯子)。世界模型要做的,就是準確預測出基于這個動作,未來幾幀會發生什么。”
目前市面上存在很多視頻生成模型,但唐劍指出,評判具身世界模型的核心指標不是畫面的清晰度,而是“對物理規律的遵循”與“時空一致性”。
“一般的視頻生成模型更重視視覺效果。比如手碰到杯子,如果模型不懂物理規律,手可能會直接穿模過去,或者杯子紋絲不動。這在做宣傳視頻時沒問題,但在控制機器人時是致命的。” 唐劍解釋道。
為了實現這種物理直覺,目前大多團隊選擇“視頻模型基座+機器人數據后訓練”的路徑。北京人形也采取了這一策略:基于開源基礎模型,集中算力注入特有的300萬條機器人操作數據,整個訓練過程消耗的算力約為百卡級。
唐劍明確表示:“沒必要自己從零做預訓練,完全可以選一個特別牛的、已經預訓練好的模型。” 這就像小孩子已經通過書本(互聯網數據)認識了世界,現在要做的是帶他去工廠實地操作。
值得注意的是,北京人形研發的WoW(我悟)世界模型,并非單一模型,而是一個系統。
![]()
WoW(我悟)世界模型
這套系統基于北京人形自研的SOPHIA架構建立了一套“雙向反饋機制”, 大腦(VLM)會對世界模型生成的視頻進行反饋,這些反饋被引入強化學習(RL)架構,作為獎勵函數去微調世界模型。這種機制迫使生成的內容盡量符合物理規律,而非僅僅看起來逼真 。
在唐劍看來,包括WoW在內的所有世界模型都承載著三個關鍵使命:
一是輔助大腦自主進化,當機器人遇到新任務時,WoW結合蒙特卡洛樹搜索(MCTS)算法,在數字世界里預演無數種路徑,并由獎勵模型打分。這些“模擬數據”反過來微調VLM,讓大腦在沒有實戰的情況下學會解決問題。
二是直接生成大量符合物理規律的機器人操作軌跡視頻,解決行業最頭疼的訓練數據短缺問題。
三是直接控制機器人的操作。目前,WoW未來不僅能生成視頻,還能像VLA一樣,將生成的視頻轉化為光流,再映射到關節角度,直接生成控制信號驅動機器人。
在“大腦”提供智能的基礎上,具身“小腦”負責具體操作(Do it)。它分為兩個子平臺,一個負責具身操作,涵蓋元技能庫、泛化抓取、技能拆解和錯誤處理;一個負責具身運控, 負責全身控制、雙臂協作、穩定行走和移動導航(SLAM)。
小腦的核心則是跨本體的VLA(視覺-語言-動作)模型XR-1,負責將大腦的抽象指令轉化為具體的、毫秒級的電機控制信號,確保機器人走得穩、抓得準。
11月13日,北京人形全面開源了一項技術成果,即具身智能VLM模型——Pelican-VL(天鶘)。
在由1000多張英偉達A800 GPU組成的算力集群上,團隊消耗了數萬GPU小時,從海量原始數據中蒸餾出數億Token的高質量元數據,最終訓練出了這個覆蓋7B、72B參數規模的具身多模態大腦。在基線基礎上性能提升20.3%。
如果你對“72B參數”或“20.3% 性能提升”這樣的數字不敏感,不妨想象這樣一個場景:面對“把鞋子放鞋架、垃圾扔桶里、衣服放洗衣機”這樣一連串復雜的復合指令,搭載Pelican-VL(天鶘)的機器人能像人類一樣,先環顧房間構建語義地圖,再自動拆解任務序列,依次移動去執行。它不僅能“看圖聽話”,還能在執行中不斷根據環境變化調整計劃。
慧思開物這套“大腦+小腦”的架構形成了完整的閉環:由具身“大腦”進行任務規劃,調用具身“小腦”的技能庫執行具體動作,并將執行反饋傳遞回大腦。
不過,技術閉環只是產業快速發展的起點。真正的挑戰在于,如何讓這套系統走出實驗室,在真實、復雜的產業環境中落地應用。
3.眾人拾柴火焰高
北京人形造平臺的核心目的,實則是為具身智能軟硬件生態提供一個載體。
平臺必須向下連接多種規格、多種形態的硬件本體,上層長出豐富多元、融合各場景業務邏輯的機器人軟件應用。只有當硬件、平臺、應用三者形成閉環,才能讓具身智能的技術創新跳出“低效”“碎片化”“重復建設”的惡性循環,找到自己的“scaling law”。
而這項系統工程,無法只靠一兩家公司完成,北京人形希望成為在行業背后推一把的力量。
10月19日,在IROS 2025(2025年智能機器人與系統國際會議)期間,北京人形正式開放了慧思開物SDK,為開發者提供了從技能調用到場景部署的完整工具鏈。
“這就像當年寫安卓APP的企業,”唐劍比喻道,“很多二次開發企業可能就幾個人,核心是把不同場景的業務邏輯寫進機器人的腦袋里。” 無論是導覽、分揀還是特種作業,開發者不需要懂復雜的運控算法或大模型訓練,只需利用SDK這個“炮彈”,去攻克各自領域的山頭。
目前發布的版本主要針對具備一定基礎的高級開發者。唐劍透露,預計在明年第一季度,將釋放帶有GUI(圖形用戶界面)的版本,甚至支持低代碼/零代碼開發,進一步降低門檻。
目前的SDK已能支持具身天工、天軼、以及Franka和UR機械臂等多種本體。
除了工具鏈,北京人形還在積極打破“數據荒”。唐劍透露,北京人形近期可能會開源至少30萬條軌跡數據。這些數據不僅包含視覺信息,更關鍵的是包含了觸覺傳感器數據,這對于精細操作至關重要。
同時,作為“國地共建”中心,北京人形開始介入行業基礎規范建設,包括牽頭制定《人形機器人智能化分級》標準,并聯合北航、優必選等機構立項《具身智能從業人員能力要求》,試圖填補行業人才評價和數據規范的空白。
一切技術和生態的努力,終極目的都是讓機器人走入千行百業。但這依然步履維艱。
唐劍坦言:“我們的主要收入還是機器人銷售,客戶主要是教育科研機構。”這印證了行業的一個尷尬現狀:最先為具身智能買單的,依然是把機器人買回去做研究的人,而不是讓機器人去干活的人。
真實的應用場景需求極其復雜。目前,北京人形正在推進多個POC(概念驗證)項目,試圖跨越從Demo到“實地干活”的鴻溝。
例如,北京人形和電科院達成合作,機器人嘗試進行復雜的電力巡檢任務;在工業場景,公司也和福田康明斯工廠達成合作,讓天軼機器人嘗試連續搬運箱子。
![]()
具身天工在工廠搬箱子
唐劍告訴「甲子光年」:“現在的機器人可以接受語音指令,比如‘拿兩個箱子放在架子第二層’,這些都能實現。”
4. 讓機器人走入千家萬戶的夢想
阻礙機器人從實驗室走向千家萬戶、千行百業的最大障礙,是泛化能力。
“機器人泛化能力不夠的話,就單說開門這一個我們人類看起來很簡單的動作,一旦遇到門顏色變了、把手形狀變了,或者光線暗了一點,它就打不開了。”唐劍補充道。
這正是VLA模型和世界模型當下最真實的瓶頸。
在學術論文中,機器人往往是在固定的桌面上操作固定的物體;但在現實中,沒有兩片完全相同的樹葉,也沒有兩個完全相同的工廠環境。唐劍冷靜指出:“老實講,直到今年大家才覺得VLA進化到確實能用了。之前基本都停留在學術文章上。”
客觀來看,VLA模型在訓練時與特定的機器人本體綁定較強。換一個機器人形態,例如從人形機器人換成四足機器狗,甚至是換一種機器人本體構型,模型就需要相應后訓練數據重新適配。
目前,北京人形的XR-1已經能夠在7款機械臂上具備泛化能力,但這種泛化能力來之不易。北京人形采集了這七款機械臂的運動軌跡數據,并進行相應訓練才實現的。在實際部署到特定場景時,還需要選定最終的本體,并針對該場景采集幾十到上百條數據對模型進行微調,以確保其在該場景下達到最優性能。
整體上看,VLA模型要具備泛化能力,整個過程相對繁瑣且不夠經濟。
聊到最后,我們問了唐劍一個問題:“如果現在讓你寫一篇論文,你最想寫什么?”
唐劍沉思片刻回答,自己想去深度反思VLA架構本身到底是不是具身操作的最優解,去解決行業最底層的泛化難題。
這種對底層技術路徑的審視,也塑造了他對更宏大技術命題的獨特看法。
他不熱衷于爭論特定的架構是否收斂,也不迷信某個模型是否已經涌現智能,“我覺得有可能是殊途同歸,多種架構最終都能實現智能涌現。”
相比之下,他更看重機器人在物理世界中的實際價值:“誰有本事做個機器人,讓它到千家萬戶都能開門,這就叫牛。”
在唐劍看來,真正的具身智能不能停留在論文指標,而應體現在每一扇能被穩定打開的門上。
在2023年的冬天,唐劍就是這樣想的;而在2025年的冬天,雖然還有未完成的目標,但不同的是,他的身邊有了更多志同道合的人。
他們恰恰在踐行著北京人形作為“國家具身智能基建”的真正價值——不止于探索技術的上限,更要守住產業落地的底線,讓機器人在真實的物理世界里,穩定、可靠地把事做成。
(封面圖及文中配圖來源:北京人形)
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.