網易首頁 > 網易號 > 正文申請入駐

具身季報26Q1：宇樹招股書、人形再思考、英偉達世界模型、靈巧手

2026-04-09 09:34:07　來源: 晚點LatePost

北京舉報

分享至

不僅是比特，不僅是語言。

文丨實習生裴雨桐

訪談丨程曼祺

2026 年一季度，全球具身智能領域新變化頻出：英偉達連續發布世界動作模型多個成果，Sharpa 展示高自由度靈巧手的長程任務，宇樹、銀河等中國人形機器人公司拿出了更高水平的實機演示。而宇樹發布的招股書，也讓市場得以窺見人形機器人公司的具體財務情況。

《晚點 LatePost》出品的商業科技播客《晚點聊》推出第一期具身智能季報，邀請 Alphaist Partners 創始合伙人陳哲 Peter 作為分享嘉賓。

過去七年，陳哲在五源專注投資機器人和硬件科技，投資過海柔、松靈、本末、地瓜等公司。

這期季度總結，陳哲分享了三月中旬去 GTC 與全球從業者的交流，同時也帶到了過去兩年具身智能的發展。

在討論人形機器人的部分，我們盤點了中美幾家頭部公司，如宇樹、銀河、特斯拉 Optimus、Figure 的近期進展，以及那些在智能能力或數據上給行業帶來啟發的公司，如 Pi、Sunday 和 Generalist。

接著重點討論了當前具身智能的兩個前沿研究方向：靈巧手和世界模型。分別以 Sharpa 和英偉達的近期進展作為討論重點。

以下是播客的文字整理，有部分精簡。

Q1 核心進展與中國玩家：專注成就宇樹 G1 的成功

晚點：如果要評選 2026 年 Q1 具身智能領域的 top 5 進展或事件，你會選擇哪幾個？

陳哲：一是宇樹科技在春晚的表演。 20 多臺宇樹機器人帶來現場功夫表演，代表了目前中國在本體與運動控制方面的最高水平。

二是 Sharpa 在 CES 上展示的靈巧手 demo。他們演示了自主組裝風車的長程任務，展現了目前全球靈巧手領域的 SOTA（State Of The Art，最先進水平）。這家具身智能公司的創始人正是禾賽科技的三位創始人。

三是世界模型的突破。代表是英偉達發布的 DreamZero 和 DreamDojo 兩個應用于機器人的世界模型。這項嘗試最早源于字節跳動在 2024 年底發布的 GR-2，那是首次將互聯網級別的視頻內容應用于具身模型的預訓練過程，并直接生成動作與操作。在當時，這是 VLA 之外的一條創新路徑。今年，包括英偉達在內的更多公司都在這條路徑上做了大量優化，取得了更好的效果。

四是銀河通用在春節后發的機器人打網球 demo，展示了人形機器人能在需要高速和即時反饋的系統中表現優異。雖距離商業化還比較遠，但它讓大家看到了在現有硬件和算力基礎上實現實時任務的可能性。

銀河通用展示人形機器人打網球 demo。

五是波士頓動力在今年 CES 上宣布量產全新電動版 Atlas。作為人形機器人研究的鼻祖，他們對困難場景和落地價值有長期的深入研究。電動版 Atlas 反映了他們對人形機器人進入工業場景及實際落地的新思考。作為歐美在人形機器人領域最快實現量產的代表，其技術思路對全行業都有重要參考價值。

這些進展是我基于長期關注該領域的投資人視角，從技術、市場、商業維度的綜合觀察，不完全代表純學術突破。

晚點：去年宇樹上春晚時，很多業內人士還不以為然，覺得動作是靠機械裝置取巧；但今年春晚表演后，業內認可度很高。這背后的變化是什么？

陳哲：2025 年機器人的運動控制技術發展極其迅速。宇樹這次春晚表演所用到的技術與控制技巧，背后的學術成果大多是 2025 年中旬甚至下半年才發布的。宇樹將這些前沿工作在春晚舞臺上集中展現，效果非常驚艷。

核心變化是動捕和模仿學習能力的提升：能更快速地將真人的動作遷移到人形機器人上。同時，更先進的強化學習訓練工具，讓具身系統能在虛擬環境中將粗糙的動捕數據轉化為更穩定的策略，并執行在實體機器人上。簡而言之，就是先通過動捕或遙操作錄制人的動作，再在仿真器中不斷進行強化學習迭代，使其變得更穩定、更魯棒，最終完美遷移到宇樹的機器人本體上。

同時，20 臺機器人同臺表演，有整齊劃一的部分，也有多臺機器人配合的部分，這反映了宇樹 G1 機器人在機電能力絕對性能和一致性上的巨大優勢。

“一致性” 是最大的亮點，20 多臺量產機器人同時完成彈射、大回環、連續翻滾等復雜動作，且在不同環境干擾下保持高度一致。這不僅需要精心調參，更對硬件質量控制和運控算法穩定性提出了極高要求。這是宇樹目前相較其他公司最大的優勢。

晚點：多年前波士頓動力的視頻中，機器人也能做跑酷、空翻等類似真人的動作。宇樹現在的成果和波士頓動力當年的表現有什么區別？

陳哲：那個年代波士頓動力的跑酷動作，基本是靠老專家使用傳統控制算法（如 MPC，model-predictive control，模型預測控制器）精心調出來的。而現在的底層控制策略，是通過強化學習、仿真和端到端方法訓練的，原理截然不同，對環境擾動的適應能力遠超當年的波士頓動力。

此外，波士頓動力的視頻是經過精心剪輯的，背后有大量失敗的嘗試。即使是單臺機器完成長序列跑酷，成功率也不高。而宇樹這次是 20 多臺機器人在臺上實時保持高度一致，對可靠性的要求高了幾個量級。

另一點不同是，近一年，大量的跑酷和舞蹈動作開始加入視覺反饋和定位能力。這次上臺的 G1 機器人，每臺頭頂都配備了激光雷達，具備了初步的建圖和定位能力。

晚點：這是取得進展的部分。另一方面，目前大眾對人形機器人有哪些夸大的想象？

陳哲：很明顯，目前的舞蹈或表演動作，本質上還是事先編排好的固定程序。如果機器人受到強干擾，很難自主決策。而且這些表演主要集中在全身或下肢運動，基本沒有涉及上肢操作能力。而當前具身智能的大量研究，核心恰恰在于操作以及對復雜任務的理解。

晚點：從宇樹招股書披露的財務信息和產品收入構成看，你認為有哪些值得注意的點？

陳哲：宇樹的人形機器人業務增長非常快。2023 年發布第一款人形機器人 H1，2024 年發布 G1。隨著 G1 熱銷，人形機器人收入占比迅速攀升，23 年還不到 2%，25 年前三季度已超過 50%。這表明宇樹未來將以人形機器人為核心。四足機器人長期來看可能會在特定場景中保持穩定的市場。

機器人行業現在是典型的供給驅動，而沒到需求驅動，因為還在行業早期。就是一旦有了穩定、可量產的好產品的供給，銷量自然會來。好的供給，本身可以打開一些之前想不到的市場需求。

晚點：我看招股書印象最深的是，宇樹人形機器人的高毛利率。2025 年前三季度毛利率達到 63%。在軟硬一體的智能硬件產品中，這算非常高了吧？

陳哲：這主要是因為目前人形機器人還未進入真正的商業化落地場景，絕大部分是賣給科研市場。科研市場規模小、訂單分散，傳統科研教具有 70%-80% 的毛利率很正常。宇樹目前的定價，一方面是因為市場缺乏競爭，另一方面也是因為科研市場對價格敏感度不高。

其實更有意思的問題是：宇樹 G1 發布了 20 個月，為什么至今沒有第二家公司真正挑戰它的地位？

晚點：所以為什么呢？

陳哲：G1 的產品定義極其成功，它完全是為科教市場量身定制的。宇樹的第一款人形機器人 H1，你可以理解為是讓一只大型四足機器狗站起來。但 G1 是宇樹第一臺正向設計的人形機器人。身高從 1.8 米降到了 1.3 米左右。隨之而來的是重量大幅下降，這對電機功率密度、運動性能以及電池續航都有巨大幫助。

之所以能縮小尺寸，也是因為在科研場景，一臺 1.3 米的機器人能做的研究與 1.8 米全尺寸機器人基本沒區別。因為產品定義精準契合了場景需求，其他公司很難在這個細分領域去跟隨或競爭。

晚點：科研是一個好市場嗎？朱嘯虎曾公開表達，科研和表演都不是持續性的市場。

陳哲：所以很長一段時間里，投資人并不看好它做科教市場。如果你回到 2020 年或 2021 年，全球科研市場規模也就 10 億人民幣左右。

其實早幾年的宇樹，從來就不是一個被投資人喜歡的公司，最初融資很難。在人形機器人大規模商業化遙遙無期的情況下，很難投一個天花板如此低的市場。

除了產品定義，硬件的壁壘在于長期的驗證與測試。做出一兩臺樣機容易，但要實現成千上萬臺的可靠量產，需要極高的供應鏈打磨和質量控制能力。在做 G1 之前，宇樹已經銷售了幾萬臺四足機器人，真正走過了百萬臺電機的設計、生產和量產流程。這種時間成本和硬件門檻，是所有新入局者必須跨越的。大模型公司的領先優勢可能只有 3 到 6 個月，但硬件公司的優勢可能會維持 12 到 24 個月。

晚點：宇樹下一階段靠什么發展？現在大家明顯看到更大的機會在于機器人的智能，即大腦和小腦結合的部分。這也被視為宇樹的相對短板。根據招股書，25 年前 3 季度，宇樹的研發費用只有 9000 萬。

陳哲：他這種在經營上的謹慎是刻在基因里的，如果王興興不是這樣一個人，不是這樣一個創始人，宇樹活不到具身智能熱潮到來的這一天。

王興興和汪滔很像，他們都是為了熱愛而創業，而不是因為看到一個巨大的商業機會才創業。前幾天我見一個投資前輩，2017 年王興興就去找他融資，他問王興興你這個可以做什么？王興興答不上來，他也應該答不上來。

宇樹之前一直專注做好機器人本體，在 AI 或模型相關的研發投入上相對較少。所以宇樹是個盈利的公司，否則也很難生存。就是前面說的，它很長時間不被投資市場看好。

但這次招股書顯示，他們計劃用募資的 42 億元里的一半投入大腦研究，并且在積極推進開源工作。我對他們的長期突破有期待。

晚點：很多新的具身智能公司中，會有 AI 背景創始人、聯創或高管。但宇樹的核心管理層里沒有深度學習背景的領軍人物，這會是一個問題嗎？以及，是否一定要有這樣的人才能做好具身大腦？

陳哲：宇樹是以王興興為絕對核心的公司。我的判斷是，宇樹在大腦或智能層面，長期會采取跟隨策略。

晚點：這種策略足以維持宇樹的整體競爭力嗎？

陳哲：我認為足夠了。具身智能模型的價值體現離不開硬件本體。對宇樹而言，最關鍵的是占據全球科研人形機器人市場 “事實標準” 的生態位。只要保持這個生態位，哪怕其他公司推出了極優秀的閉源具身模型，宇樹也能連帶受益。同時，行業玩家也會持續在宇樹的硬件上開發高性能開源模型。

晚點：宇樹預計 2026 年人形機器人出貨量能達到 1 到 2 萬臺，是 2025 年的兩到三倍。你覺得能實現嗎？

陳哲：我覺得沒問題。隨著春晚的爆火和 G1 表現力的成熟，未來一兩年會有廣泛且持續的表演和租賃需求。最近一家專注于人形機器人租賃的公司 “擎天租” 的估值都已達到 30 億人民幣。從需求看，一年一兩萬臺的銷量都是線性的預測，甚至可能更多，主要取決于宇樹愿意投入多少產能。

晚點：接下來我們聊聊銀河通用的網球機器人，印象中機器人打乒乓球、打網球早就有相關的創業項目和產品了，比如專門陪練的網球發球機或輪式機器人。從銀河通用用人形機器人打網球這件事上，你看到了怎樣的技術進展？

陳哲：正因為我看過很多打網球的機器人創業項目，才深知一個實時網球機器人的技術復雜度。網球球速極快，可達 100 公里 / 小時。在有限的球場空間內，留給機器人進行軌跡預判和實時響應的時間非常短。

所以對于自由度更高、更復雜的人形機器人而言，要在極短時間內完成球路識別、判斷，并控制全身完成揮拍擊球動作，以 2026 年初的技術棧來看，是一項極其復雜的系統工程。銀河的這個 demo 真正實現了實時感知決策與全身控制的閉環，這與預先編排好的跳舞或武術表演完全不同。

從技術角度看，這個 demo 沒有顛覆性的學術創新。據我所知，他們是在春節期間租了網球場，利用大量動捕設備采集數據，并對模型進行了反復的強化學習訓練。這更多體現了公司在復雜系統工程上的強大執行力。

但對我而言，它最大的啟發在于拓寬了我們對人形機器人能力的想象邊界。在它出現前，很難想象人形機器人已經能完成這類任務。當時 Andrej Karpathy 在 X 上看到銀河的這個視頻時，第一反應也是 “這不可能是真機做出來的，肯定是 AI 生成的”。

像近期 Figure 發布的全身運控 demo 也是類似的情況，動作非常絲滑自然，雖然經過了精心的編排和剪輯，但確實是真機自主執行的，展示了人形機器人的潛力。

晚點：這些具體的展示場景，未來能遷移到其他應用上嗎？

陳哲：網球這個具體場景確實很具體，而且它大概率不是依靠機器人本體（onboard）的算力和視覺來處理球路的，而是借助了球場外部的高幀率攝像頭，且運算可能也不在端側（on device）。

但計算機科學的發展經驗告訴我們：只要這件事情被證明 “能做”，人類就一定能找到優化的方法，讓它在更小算力、更少資源下實現。所以，“能不能做” 是第一步且最關鍵的，“怎么優化” 是第二步。

這個 demo 的意義是既有下肢的高復雜度、快速移動，又有上肢復雜操作，展現了全身運控優化的能力。

晚點：總結一下，像宇樹、銀河通用、智元、魔法原子等中國全人形機器人公司，在 Q1 的整體表現和進展如何？

陳哲：整體表現超預期，一個趨勢就是全身運控能力。

在 2024 年和 2025 年，機器人的上肢操作（manipulation）和下肢運動（locomotion）還是兩個獨立的控制體系。但從今年開始，隨著硬件成熟、算法演進和數據積累，我們越來越多地看到使用單一統一模型進行全身運控和操作的趨勢。

例如，智元近期發布了新的全身運控工作，英偉達也發布了 Sonic 全身運控框架。

這標志著一個新范式的端倪。未來 12 個月，這種發展的復利和加速度將非常驚人。只要這個統一控制的范式被確立，就會有更多人去迭代和改進。我現在很難想象，到 2027 年春晚時，人形機器人會展現出怎樣驚艷的表現。

晚點：這里有個老生常談的問題。很多人認為雙足形態的價值并不大，不是讓機器人快速落地的最高優先級。

陳哲：我以前也是這么認為的。

晚點：那你是什么時候，因為什么改變了想法？

陳哲：就在最近這個季度，我受到的沖擊很大。

我認為機器人行業的制約是供給受限，當機器人能穩定交付某種能力時，就會快速釋放大量價值。

但我之前覺得，人形結構的實現難度太大了，相當于形成穩定供給的困難遠大于它的好處和價值。但我最近看了波士頓動力的幾段訪談，深受啟發。過去我們說人形的價值，老生常談的理由就是，世界是為人類設計的，所以人形最通用形態。但在平整、結構化的工廠環境里，輪式機器人已經完全能滿足移動需求。

然而，事實并非如此簡單。一個人形機器人在結構化環境中穩定移動，大約只需要 40×60 厘米的空間，就是人站立所需要的位置。而且由于腿部和身體擁有極高的自由度，它可以下探到地面，也可以向上觸達 2.3 米的高度，并能輕松搬運 10 到 20 公斤的箱子。

相比之下，如果用輪式機器人實現同樣的功能，例如搬運重物并覆蓋較大的高度范圍，其復雜度甚至遠超人形。

晚點：輪式底盤一般需要占多大面積？

陳哲：肯定遠大于 40×60 厘米。輪式機器人最大的挑戰是重心問題。以波士頓動力的復合機器人 Stretch 為例。它是在一個巨大的 AGV 底盤上加裝了單臂機械臂，為了能從高處取下約 20 公斤的箱子而不發生傾覆，整個 Stretch 的重量達到了一噸左右。

而人體結構非常神奇，我們可以通過動態調節重心和姿態來輕松完成同樣的取放動作。一個全尺寸人形機器人可能只有 60 到 80 公斤重，與近一噸的 Stretch 相比，總重量差了十幾倍。而越大的重量就意味著越多成本和能耗。

再分享一個我最新的認知：如果想做一個在空間內移動性極佳的輪式機器人，最理想的方案是 “四輪四轉”，這至少需要 8 個主動電機。如果還要像人形機器人一樣適配不同高度，還需要增加復雜的升降結構和更多電機。從電機數量和結構復雜度來看，這也不必然比雙足容易。

晚點：所以，在實現同等性能時，輪式機器人的復雜度、成本并不一定比人形低。而一旦人形機器人的技術成熟，它能解鎖許多輪式形態無法觸達的場景。

陳哲：是的。而且波士頓動力的新版電動 Atlas 給了我們一個重要信號：人形機器人不一定非要完全模仿人類的物理限制，它可以成為 “超人”。人體的現有結構是大自然進化的偶然結果，機器人完全可以超越它。

晚點：波士頓動力新版電動 Atlas 在哪些方面超越了人類結構？

陳哲：首先是高度模塊化的設計。過去的工業機械臂，每個關節的電機和減速器都是專門定制的復雜串聯結構；后來的協作臂將電機簡化為少數幾種標準件。Atlas 采用了類似邏輯，放棄了復雜的電機結構，全身使用簡單的旋轉電機，通過性能冗余實現多功能化。這大大降低了生產、組裝和維修的難度。

其次，它打破了人體的物理限制。它的頭部、軀干以及各個關節都可以進行 360 度完整旋轉。例如，如果人類需要從面朝北轉身到面朝南，需要腿和身體配合走好幾步；而 Atlas 只需要腰部電機 360 度旋轉即可。它甚至不分左右腿、左右手，結構可以互換。

這種高度模塊化、打破生理限制的設計，不僅提高了場景適應度，更極大地降低了制造和維護成本。我之所以特別提到波士頓動力這一轉變，是因為它深刻契合了美國當前制造業缺乏熟練技術工人的現狀——通過結構的簡化和性能的冗余，來解決復雜的安裝和維修難題。

美國重點公司盤點：波士頓動力 Atlas 走向 “超人”，Optimus 的繩驅之困與 Figure 的順勢而為

晚點：前面我們聊的都是中國公司以及你對人形機器人形態必要性的新認知，接下來我們聊聊美國具身智能領域的進展。首先，目前業界最關注的美國人形機器人公司有哪些？

陳哲：最受關注、聲量最大的無疑是特斯拉的 Optimus，其次是目前融資最多、估值最高的 Figure AI。老牌一些的包括波士頓動力，還有一些創業公司，比如挪威的 1X 和德州的 Apptronik（Apollo 機器人）。但市場的核心焦點依然是 Optimus 和 Figure。

晚點：像大家經常提到的 Pi、Sunday、Generalist 等，他們不算做全人形硬件的公司，而是以模型和智能為核心的公司，是嗎？

陳哲：是的，其中 Sunday 也做硬件，可以算模型+輕硬件的公司。

晚點：先從 Optimus 聊起。它是掀起這輪人形機器人風潮的引領者，也激發了中國一批公司創業。馬斯克前陣子在采訪中表示，Optimus 的第三代（Gen 3）已經設計定型。但我們從中國供應鏈了解的情況是，它原計劃在 4 月發布，現在可能要延期到 6 月下旬；原定今年 10 月的量產計劃也可能延期到明年。

陳哲：這符合預期。我之前聽說的最早計劃是今年 3 月或 Q1 發布，進度一直在 delay。行業里有句玩笑：“Elon is always right, but his timing is always wrong.”（伊隆·馬斯克總是對的，但他的時間表總是錯的。）。

據我了解，Gen 3 無論在硬件還是軟件上都面臨巨大挑戰。硬件方面，最大的挑戰是 “手”。他們正在研發一種非常有野心的高自由度 “腱繩驅動” 方案，這在量產和可靠性上遇到了極大阻力。

不過另一方面，Optimus 今年的量產目標還是挺激進的，馬斯克的預期是至少是 1 萬臺左右。

晚點：1 萬臺？比他之前說的目標又縮水了。

陳哲：確實在縮水。之前可能說過 2025 年要實現萬臺甚至 2026 年十萬、百萬臺。但考慮到現在已經 4 月了，即使是 1 萬臺的產量，挑戰也極大。

晚點：你剛才提到 Optimus 的手采用了繩驅方案。之前我們和供應鏈交流時，了解到特斯拉其實也在考慮電機直驅方案，或者說至少給部分供應商提了一些預研需求。

陳哲：其實繩驅里也有電機，只是位置不同。目前的繩驅方案是將大量電機放置在前臂，而不是手掌內。而像 Sharpa 這樣的直驅方案，是把電機直接放在每個指節的關節處。這是兩種完全不同的設計理念。

馬斯克選擇繩驅方案，是因為他認為這是一種更符合 “第一性原理” 的仿生方案。

晚點：是因為人手就是靠肌肉和肌腱來驅動的嗎？

陳哲：對，為了實現高度仿人的靈巧性，馬斯克認為繩驅是必由之路。但這帶來的工程問題非常多，這也是過去一年里我聽到他們在靈巧手上遇到巨大挑戰的原因。

組裝一只高自由度的繩驅靈巧手，意味著要在手腕和手掌狹小的空間內穿入 40 多根不同的腱繩，必須解決它們在一致性、蠕變和可靠性等種種問題。一旦某根腱繩松動或損壞需要替換，重新組裝和維修的難度極大。

晚點：聽起來像是在做手部外科手術。

陳哲：是的。有一個很有意思的問題，我們都說馬斯克選擇繩驅是因為這更符合 “第一性原理”。但也有 Tesla 工程師提出疑問：既然已經使用了電機和腱繩，它本身就不是肌肉，又何談第一性類比？

人的肌肉和組織是可以再生的，拉傷后可以通過休息和訓練康復。但對于腱繩、電機或齒輪來說，磨損是不可逆的。而且，人體肌肉擁有極高的能量密度和力矩密度，這是現有的電機遠無法比擬的。用一個完全不是肌肉的東西去強行模仿肌肉的結構，并期望達到同樣的性能，這本身可能并不符合第一性原理。

晚點：如果工程師有這種疑慮，他們能在 Optimus 內部向馬斯克反饋嗎？

陳哲：在技術路線的選擇上，馬斯克非常強勢。就像當年他堅持做自動駕駛的純視覺方案和端到端路徑一樣。

作為一個行業觀察者，我也很糾結。從歷史上看，馬斯克在很多長期技術路線的判斷上，最終都被證明是對的，哪怕當時他對抗了市場上所有的聲音。在 AutoPilot 早期，大約 16、17 年，很多人也不相信純視覺和端到端的前瞻愿景，但過去幾年通過工程和技術的不斷努力，這個愿景正在實現。

所以，繩驅靈巧手是否會經歷同樣的逆襲，我目前說不準。但至少 Optimus 在 2026 年要量產 1 萬臺，它必然會面臨巨大的工程挑戰。

晚點：接下來我們聊聊目前融資最多、估值最高的人形機器人創業公司 Figure，從業者者對它的評價是：一方面覺得它總能發布驚艷成果，另一方面又覺得這家公司風格浮夸。

陳哲：確實浮夸，我覺得他們值得拿一個 “奧斯卡最佳影視特效獎”。這可能與創始人 Brett Adcock 的經歷有關。他非常善于向投資人傳達愿景和故事。

晚點：他創辦 Figure 之前在做什么？

陳哲：他之前創辦了一家名為 Archer 的飛行汽車（eVTOL，垂直起降飛行器）公司。大概在 2021 年公司上市后不久，他就離開了并創辦了 Figure。再之前，他也成功賣掉過自己的第一家創業公司。

Brett 的特點是：總能精準踩中下一個創業熱點，吸引一群認可他愿景的投資人。而且從歷史記錄看，他的核心訴求似乎是快速把公司賣掉或推向上市。事實上，他確實從 Archer 套現退出了，而 eVTOL 行業至今仍處于非常早期的階段。我還聽說他最近又成立了一家智能硬件新公司，并投入了大量資金。

這種連續快速退出的背景，讓市場懷疑 Brett 是否具備足夠的專注度和韌性去死磕人形機器人。

晚點：為什么以前大家對馬斯克沒有這種質疑？

陳哲：因為馬斯克把事情做成了。在特斯拉或 SpaceX 真正成功之前，大眾可能也分不清他到底是個 visioner（有愿景的人）還是騙子。

所以 Brett 到底是不是一個長期主義的創始人，目前存在爭議。但不可否認，2023 年 Figure 成立時雖飽受質疑，甚至 Brett 自己也不太懂機器人，早期吸引的很多頂尖技術人才也陸續離職了；但隨著行業快速爆發和資源集中，過去一兩年 Figure 確實交出了非常扎實的成果。他們發布的幾款人形機器人以及全身運控的 demo，證明了他們在該領域是有干貨的。

晚點：Figure 是一家軟硬件都在做的公司。他們在模型這塊的業界評價如何？

陳哲：他們比較早地公布了 Helix AI 的三層架構邏輯，實現了一套從低頻、中頻到高頻的全身統一運控算法框架。從 demo 效果和內部了解到的信息來看，他們的能力在市場上非常領先。當然，除了 Optimus，美國目前也沒有太多真正在做全尺寸人形硬件和模型的公司。在這一點上，Figure 代表了目前美國市場的最高水平。

晚點：Figure 融了很多錢，說明美國也有資金愿意支持這個方向。但為什么美國這類公司很少？而國內在 2025 年下半年還不斷涌現新的具身智能創業公司。

陳哲：這與美國制造業、機器人硬件供應鏈的整體衰退密切相關。在中國，大家開玩笑說花幾百萬就能攢出一臺人形機器人樣機，但在美國，很難想象。

Figure 之所以需要融這么多錢，某種程度上也體現了美國國家戰略意志。美國希望通過重點扶持頭部企業，帶動制造業回流和復興。但大量的基礎零部件供應商在美國已經不復存在了。如果 Figure 想完全在美國本土生產人形機器人，前期的供應鏈建設投入將是極其巨大的。

晚點：另一家美國可能會扶持的公司是波士頓動力。它 1992 年就成立了，有 30 多年歷史，雖然一直沒有大規模商業化，甚至被多次收購轉手，但一直活到了現在。前面提到了他們電動版 Atlas 硬件的進展，其實他們在 Q1 還有一項進展：在模型和智能領域尋找了合作伙伴 Google DeepMind。

陳哲：這其實并不意外。一兩年前，Google DeepMind 曾與德州的 Apptronik（Apollo 機器人）合作。但據我了解，那次合作非常失敗。核心原因是 Apollo 硬件在可靠性、精度和一致性上都有問題，導致 Google 的研究員把大量時間耗費在 “讓機器人能用” 上，而不是做真正有效的 AI 研究。所以，Google 轉向選擇硬件極其成熟的波士頓動力合作，是非常明智且合理的選擇。

晚點：Google 為什么不自己做全人形機器人的硬件呢？你之前在 Google 也做過 Google Glass 等硬件項目。

陳哲：像 Google、Meta 這樣的互聯網公司做不了硬件，骨子里缺乏這個基因。做硬件是一個極其復雜的系統工程，需要整個產業鏈和供應鏈的深度配合。

晚點：這是否也跟硬件的復雜度有關？比如 Meta 的 Meta Ray-Ban 智能眼鏡似乎賣得還不錯？

陳哲：我不覺得 Meta Ray-Ban 做得有多成功。它的銷量是巨大的虧損和補貼支撐起來的。從收購 Oculus 到 Reality Labs 部門被降級，這十年間 Meta 在硬件上累計虧損了數百億美元。

Meta Ray-Ban 確實賣得很好，定價 299 或 399 美元，但一副普通的 Ray-Ban 墨鏡就應該賣這個價格，而且有 90% 以上的毛利。你可以想象每賣出一副智能眼鏡，Meta 要給 Ray-Ban 補貼多少錢。所以我覺得眼鏡業務對 Meta 來說是一門相當失敗的生意。

晚點：說回 Google 和波士頓動力的合作。他們打算如何解決生產制造的問題，如果不依靠中國供應鏈的話？

陳哲：波士頓動力目前的主要股東是現代汽車。作為一家汽車巨頭，現代在生產制造和供應鏈上能提供巨大幫助。波士頓動力的很多生產組裝和前期測試，都是在現代的工廠里完成的。這也是所謂的依靠美國盟友的力量。

晚點：美國確實在要求日韓等具備制造能力的盟友去美國本土投資，通過這種方式來補足在復雜機器人本體上的制造短板，你覺得這條路走得通嗎？

陳哲：這是一條路。但就像對電動汽車的封鎖一樣，這意味著同樣的產品在美國制造，需要付出兩到三倍的成本。這個高昂的成本長期來看必須由美國社會、客戶或消費者來承擔，問題是他們是否愿意買單。

靈巧手可能是一個被低估的創業機會

晚點：美國還有一類專注具身模型的公司，比如被很多中國從業者視為標桿的 Pi 等。他們在 Q1 有什么新進展？

陳哲：Pi 除了去年發布極具影響力的 π0.6 模型外，今年 Q1 還提出了一種解決 “長期記憶” 問題的新思路，類似于 Openclaw 的做法：通過外掛上下文方式長期記錄機器人當前狀態，并對這些狀態不斷反思，以此增強長時間操作的一致性和穩定性。

此外，他們還在真機強化學習和復雜場景執行端的在線學習方面，提出了一些新思路和框架。整體看，Pi 在跨具身形態（Cross-Embodiment）和動態環境適應性方面的研究處于全球最領先的水平。

晚點：剛剛提到的給模型增加長期記憶的等系統層的優化，中國很多從業者也注意到了，會把它表達為：具身智能系統就是一個物理世界 Agent，它不僅包含基礎模型，還有編排層、skills、工具和記憶等，它們共同組成一個能在復雜環境中完成任務的系統。

陳哲：是的。關于系統架構，Sharpa 在今年 CES 上提了一個很有啟發的新架構，分為 3 層：System 2、System 1 和 System 0。

最上層的 System 2 是一個低頻、高維的語言規劃層。它主要接收文本輸入，負責宏觀的任務規劃。

往下的 System 1 是一個較高頻的控制層。它接收視覺、圖像信息、機器人當前狀態以及 System 2 傳來的文本任務。它的輸出是粗略的運動軌跡，比如手臂關節的粗糙動作、力矩信息、夾爪開合等。這類似目前大多數 VLA 模型在做的事。

System 0 是最高頻、底層的控制模塊。它的輸入是觸覺信息以及 System 1 傳下來的粗略運動軌跡。當機器人擁有粗略軌跡和實時觸覺反饋時，就能實現具體精細動作的閉環控制。

晚點：在它摸到東西之前，觸覺信息從何而來？

陳哲：摸到之前是沒觸覺的。當 System 1 控制夾爪碰觸到物體時，往往位置是不準的，或者這種接觸狀態不足以穩定地抓起物體。這時候 System 0 就介入了。它根據實時傳回的觸覺信息和原始的任務意圖，計算出每個手指、每個關節具體該如何微調。

晚點：有實驗證明，如果屏蔽人手指的神經末梢感覺，即使看著物體，很多看似簡單的精細操作也無法完成。

陳哲：是的，甚至如果蒙上眼睛，僅靠觸覺也能完成很多任務，可見觸覺信號對于最終任務的執行至關重要。但目前主流的 VLA 模型或世界模型，訓練數據幾乎完全沒有引入觸覺信號。所以 Sharpa 的進展證明，當把觸覺引入靈巧手時，機器人能夠完成很多以前難以想象的復雜任務。

在一兩年前，具身智能或機器人領域世界前沿的研究人員可能在研究四足機器人的運控、VLA 模型，或者兩指夾爪及 UMI（Universal Manipulation Interface，用于機器人操作的通用數據采集接口）這種結構的靈巧操作。

而從去年開始，我接觸到的幾乎所有研究人員，都將靈巧手作為下一個方向。

晚點：“世界模型” 不是下一個方向嗎？

陳哲：也是。但世界模型很可能是一個由大廠主導的研究方向。世界模型的 backbone 是視頻生成模型，對算力和資源的消耗呈指數級增長，計算量遠大于文本模型。這也是為什么幾天前 OpenAI 宣布停止 Sora 產品。像 Google 每天在視頻生成模型上的研發和算力投入量級極其巨大，對于任何創業公司來說都難以想象。

晚點：連資金雄厚的 OpenAI 也是如此嗎？還是因為他們想聚焦資源去和 Anthropic 競爭？

陳哲：沒錯。目前市場對 Agent 和 Coding 的需求非常明確，而 OpenAI 在這方面有些落后，需要集中精力去應對。

但更深層的問題是，視頻生成極其消耗資源，如果沒有明確的下游消費和變現場景，對公司來說就是一個巨大的、持續的資金無底洞。這也是為什么放眼全球，目前真正把視頻生成模型做到頂級的，是字節跳動、Google、快手這樣擁有龐大 C 端應用場景的頂級互聯網公司。

晚點：現在研究員們做靈巧手研究時，主要使用哪些公司的產品？這聽起來是個不錯的創業機會。

陳哲：過去一年，海外研究人員使用最多的是星動紀元的一款 12 自由度的靈巧手。但在過去三四個月，隨著 Sharpa 的靈巧手開始向海外研究機構供貨，大家逐漸開始使用 Sharpa 的產品。

Sharpa 的靈巧手是在 2025 年 5 月亞特蘭大的 ICRA 會議上正式發布的。我當時在現場第一次體驗，效果確實非常驚艷。

晚點：22 個自由度，那就是和人手一樣，人手不含手腕也是 22 個自由度。

陳哲：對，要做復雜精細的操作，自由度不夠是無法完成的。今年初英偉達發布的 EgoScale 的數據框架就能很好地映射到 Sharpa 這種高自由度的靈巧手上。

晚點：你覺得靈巧手接下來會怎么發展？

陳哲：我認為在未來 12 到 18 個月內，市場上各家公司會展開激烈的競爭，爭奪靈巧操作和靈巧手研究的行業標準，也就是 “默認選擇” 這一生態位，類似于宇樹 G1 在人形機器人科研里的位置。這款手必須具備極高的可靠性、足夠的自由度以完成復雜操作、較低的成本，以及完善的傳感器和開發環境。

晚點：不過 Sharpa 的目標不止于此，Sharpa 創始人提到，AI 能力才是最重要的。

陳哲：他們的終極目標是做一家通用機器人公司，而不是靈巧手供應商。但這里面可能存在一個巨大的被低估的機會，就是成為靈巧手和精細操作研發的基礎設施。

我們可以從宇樹的成功路徑中吸取經驗。2019 年 MIT 開源了 Mini Cheetah。在此之前，市場上的四足機器人大多采用液壓或昂貴復雜的電機方案；而 Mini Cheetah 引入了準直驅 QDD 電機、精簡結構和開源控制算法，讓國內很多業余團隊和愛好者也能快速搭建四足機器人，催生了整個生態的繁榮。

當時涌現出大量創業公司。小米做了鐵蛋，小鵬收購了一家公司成立了鵬行智能，第一筆融資時的估值就達 5 億美金。而同期的宇樹還默默無聞。

但為什么是宇樹走到了今天？因為王興興非常本分和專注。2021 到 2024 ，他就是專注服務科教市場的研究者，他們需要便宜、好用的硬件。他沒有把錢砸向虛無縹緲的 AI 研發或 C 端量產。正是在四足領域的深厚積累，讓他們順理成章地推出了人形機器人 G1。

我認為在靈巧手市場，同樣存在一個 “G1 的生態位”。但這需要極大的克制和專注去打磨產品，才能成為中美所有靈巧手研究者的首選方案。

晚點：過完了中美重點公司的進展，你對目前中美在具身智能領域的發展情況有何整體感受？行業的普遍觀點是：與大模型初期中國明顯落后美國半代到一代不同，在具身智能領域，中美處于同一起跑線。另外，通用機器人是一個軟硬件、系統、工程、供應鏈高度結合的產物，美國在硬件供應鏈上的先天短板是個巨大的挑戰。

陳哲：我個人的感受是，在具身智能領域，我們不僅僅是沒有落后，甚至有可能處于領先狀態。

首先，在復雜的機器人硬件，無論是本體還是靈巧手上，中國公司是領先世界的。其次，在大腦層面，美國以 Pi 為代表的公司在頂尖人才、算力和數據上確實有明顯優勢。但隨著具身大腦與硬件的進一步深度耦合，無論是手部精細操作還是本體全身運控，如果未來的 AI 研究需要大量依賴復雜的人形硬件載體，那么中國在軟硬結合上的優勢只會放大，不會縮小。

英偉達帶來 WAM 世界動作模型，這是理論上比 VLA 天花板更高的路

晚點：前面討論的中美行業對比其實有個變量，就是世界模型。我們在上面也聊到了，世界模型的 backbone 是視頻生成模型，而做視頻生成又要消耗大量算力資源，這會是中國具身產業鏈的相對弱勢嗎？正好，英偉達從去年底到 3 月的 GTC 上發表了一系列和世界模型相關的成果，它們稱為 WAM 世界動作模型。可以先講一講，如何理解世界模型？

陳哲：世界模型和 VLA 模型代表了具身大腦研究的兩個主要路徑。VLA 以文本為 backbone，代表了人類通過語言進行溝通、描述和推理的能力；而世界模型以視頻為 backbone，代表了人類的視覺智能。

這兩者并不是互斥的，而是互補的。人類的智能既離不開語言，也離不開視覺。如果一個人先天失明或失聰，他依然能發展出相當程度的智能，但其智能上限會受到很大局限。對于機器人來說也是如此，世界模型將人類智能中極重要的視覺理解與泛化能力，用一種巧妙的方式賦予了機器人的大腦。

世界模型并非新概念。如果要下個定義，它就是一個基于當前觀測、能夠預測未來會發生什么的物理模型。這個概念已應用于許多不同場景。例如在自動駕駛領域，特斯拉曾提到他們有一套用于自動駕駛仿真和模擬的世界模型。

再比如 OpenAI 推出 Sora 時，從未將其定義為視頻生成模型， Sora 的定位始終是世界模型。大家對 Sora 的討論，也是因為它讓人感覺模型似乎具備了理解物理規律的能力。

像 LeCun 提出的體系也是一套世界模型，但他認為物理世界有更多可以顯性表達的規則和內在（intrinsic）信息來描述。

在機器人場景中，最直接的理解就是通過視頻生成或腦補的方式，預測物理環境會因我們的動作發生怎樣的變化。它可以用于動作仿真和策略生成。這也是為什么我們認為相比 VLA，世界模型是一種新的技術范式或模態補充。

晚點：具體到英偉達發布的世界模型相關成果， DreamZero 和 DreamDojo，它們是什么？在世界模型路線上做了哪些具體貢獻？

陳哲：DreamDojo 可以被視作一個基于視頻的世界模型仿真器，它能基于當前圖像預測并渲染世界未來的樣子。而 DreamZero 則是通過視頻生成的方式，將當前任務與環境轉化為機器人需要執行的策略和動作。

英偉達定義的 WAM 底層打破了 VLA 模型那種 “基于圖片或視頻觀測直接輸出動作序列” 的映射關系。它根據當前的視頻信息，對未來世界進行預測和建模，并通過 “腦補” 建立因果推理。在這個預測過程中，自然而然地生成符合物理規律的動作序列。

這兩項工作實質上都脫離了 VLA 以文本和動作克隆為核心的控制范式。如果類比人類智能，文字代表的是一種低頻、復雜的推理思考過程；而視頻代表的視覺智能，則是更加應激、實時且與環境高頻互動的能力。在未來的通用機器人中，這兩種能力缺一不可。

晚點：這是否意味著世界模型相比 VLA 具備了時間感？因為 VLA 只是從單幀圖像直接映射到一個動作，它無法理解前因后果。

陳哲：這個描述很準確。 VLA 作為運動生成模型之所以非常受限，是因為它底層作為 token 的輸入描述是靜態的圖片和語義文字。它之所以能生成動作序列，是因為在訓練 VLA 時，我們通常在一個已具備圖文理解能力的 VLM 基座上，強行粘貼并映射一段關節動作信息。簡而言之，它是一種帶有描述的行為克隆。因此，在遙操作場景下反復疊衣服，模型是通過記錄衣服不同折痕的圖片，建立起它與關節動作之間的固定映射。

晚點：在我們之前的具身智能測評節目中，嘉賓提到 RoboChallenge 測評里 able 30 有一個刁鉆的任務：掃二維碼。由于掃碼需要根據畫面變化來判斷掃完了沒，如果單純依賴 VLA 模型而不加外掛，當時的模型都做不了。

陳哲：首先，VLA 確實也可以像 agent 一樣加外掛。但關鍵在于， VLA 本身并不預測未來，它只是在建立特定條件下的映射關系，因此泛化能力差。比如在抓取任務中，當杯子顏色從藍色換成紅色，或位置從左邊移到右邊，它就可能失敗，因為這些樣本分布在它克隆的行為數據中可能并不存在。

而世界模型是基于海量、廣泛的視頻數據進行訓練。視頻數據涵蓋的分布要廣闊得多，也極具多樣性。如果能從廣泛的數據中學到動作規律，用來進行運動仿真驗證或策略生成，理論上能力上限會高得多。

晚點：Google 當年在 RT-2 中提出了 VLA。在用于具身智能的世界模型上，Google 這一季度有什么進展嗎？

陳哲：目前沒看到公開相關的工作，但 Google 正全力推進視頻生成模型，此外，據我所知， Google DeepMind Robotics 的研究方向與 Pi 的重合度非常高。去年 Google 推出的基于 Gemini Robotics 1.5 的成果非常出色，比同期的 Pi 更好。

這種優勢很大程度上歸功于強大的基模。Google 使用了 Gemini 做具身模型的基模，而 Pi 用的是相對小和弱的開源模型 PaliGemma（Google 開源的一個 3B 參數的 VLM 模型）。

在國內眾多具身智能公司中同樣可以觀察到：只要換一個更強的預訓練基模，即使不做其他改動，最終的具身模型效果也會顯著提升。

因此 Google 具備極強的后發優勢。如果它能訓練出更好的視頻基座模型，自然能極大賦能世界動作模型。只要 Google 認定這是一個值得投入的方向，他們到時很可能會后來居上。

晚點：英偉達這種世界模型的新方法目前有哪些不成熟的地方？比如 DreamZero 的運行速度非常慢，跑在機器人上只有 7 赫茲。

陳哲：速度問題都可以解決。計算機科學的核心邏輯是：只要找到正確的路，優化只是時間問題。優化相對容易，難的是路徑探索。GPT-3.5 剛發布時，token 生成速度也很慢，但今天已經提升了百倍甚至千倍。

其實我從 WAM 上看到的一個更關鍵的行業問題是，過去幾年，具身智能的發展都高度受惠于外部力量，先是大語言模型（LLM）和視覺語言模型（VLM），有更好的 VLM，才能訓出更好的 VLA；而世界模型則需要更好的視頻生成模型。

這意味著，具身智能這一新興領域的基礎性能提升，很大程度上是由外部力量，也就是基座模型的能力決定的。

所以世界模型在基模上的挑戰，也不能單靠具身智能公司自己解決，它有賴于能做大規模基礎模型預訓練的公司。

晚點：那相當于，具身智能公司自己并不掌握自己的命運。這又呼應了你前面講的靈巧手的機會，在與之相關的觸覺和精細操作研發上，看起來大廠和創業公司是同一個起跑線，大型科技公司也沒有歷史積累。

陳哲：是的。視頻這一模態天然不包含觸覺信號，即使視頻生成模型未來能完全遵守物理定律保持空間一致性和長時序穩定性，世界模型能閉眼 “腦補” 未來 30 秒，它依然缺失觸覺信息。

因此，未來在世界模型更成熟后，如何融合或增強觸覺信號，將是研究的重中之重。

這也恰恰是我看到很多具身創業公司正在做的事。他們深知自己很難去預訓練一個超大規模的 VLA 或世界模型，但他們可以解決靈巧手操作問題，或是觸覺與末端執行器（如夾爪、Sunday 的 Gripper）的結合問題，這些都是基模廠商無法提供的價值。

晚點：英偉達在提出 DreamDojo 和 DreamZero 的同時，還發布了 EgoScale 新數據框架，使用了超過兩萬小時的自我中心的人類數據，打破了靈巧操作遷移的規模瓶頸。這是一個怎樣的進展？

陳哲：EgoScale 采集到的數據，既可以應用于 VLA 模型，也可以應用于世界模型，并不受限于具體的預訓練方法。它先采集海量真實場景中的第一視角視頻，然后使用 Manus（一家荷蘭的動捕手套公司）的數據手套和攝像頭跟人類數據做對齊。

它屬于整個數據金字塔中的一個環節。如果我們構建一個具身智能的數據金字塔：最頂層、最高效、最精準的是機器人遙操作數據，它直接反映了任務中機器人各個關節和電機的狀態；往下是類機器人架構數據，比如 UMI 或 DexUMI 這種使用類似夾爪或靈巧手結構的末端執行器采集的數據，但其手臂和視角等自由度不受機器人本體硬件約束；再往下是 EgoScale 這種 ego-centric 的操縱數據；最底層則是海量的互聯網、YouTube 視頻數據，包含大量非人類操作的物理現象。

過去半年，業界對 ego-centric 數據的重視度急劇升溫。因為大家發現，為了實現運動的泛化性，必須引入更多樣化的數據。僅僅依靠遙操作或 UMI 方法，數據的多樣性是遠遠不夠的。

晚點：直接使用互聯網視頻數據不是最有多樣性嗎？

陳哲：這就涉及到數據質量和遷移 gap 的問題。即使是第一視角視頻，人類關節、手掌乃至上半身的自由度，遠超目前的機器人硬件。機器人無法完全復刻視頻中人類精細的手腕或手指動作，這就產生了巨大的遷移 gap，導致動作學不過去。

當然，隨著硬件越來越靈活強大，比如開發高自由度的靈巧手，這種 gap 會縮小。但無論硬件多好，機器人上肢與人類的自由度仍有差距。因此，ego-centric 視頻雖然比第三視角的 YouTube 視頻質量更好、數量龐大，但其精度和直接可用性，依然與 UMI 數據或遙操作真實數據有很大差距。

晚點：也就是說，金字塔越往上數據越貴、越少、但質量越高；越往下則反之。這個金字塔里全部都是真實數據嗎？

陳哲：仿真數據也包含在內，主要有兩種形式。一種是在完全虛擬的環境中建模生成的數據；另一種是對真實數據進行數據增強后得到的數據。仿真數據的質量通常介于 ego-centric 數據和 UMI 數據之間，它是一種重要的擴充手段。

晚點：英偉達和 Generalist 去年 10 月也發布了數據解決方案，是否意味著具身智能在數據這一瓶頸上已經基本得到解決？

陳哲：目前不是問題已經解決，而是大家看到了可能解決問題的方法與路徑。

提到 Generalist，它和另一家初創公司 Sunday 對行業的促進作用巨大，他們總能推出一些前所未有、極其巧妙，事后看來又極其合理的創新設計。

遲宬（Sunday Robotics 的聯創之一）在斯坦福時就參與了 UMI 方案的工作。它本質上是人手持一個與機器人末端 “同構” 的夾具進行動作采集，從而避免了異構帶來的 domain transfer 損失。后來，Generalist 對斯坦福的 UMI 方法進行了改良并大規模采集數據。而 Sunday 則在此基礎上，將兩指的 UMI 擴到了三指，并加入了觸覺反饋。僅僅增加這一個自由度，就能完成大量兩指夾爪無法完成的動作。

晚點：類似的用可穿戴設備采集數據的方案也是目前很多中國公司正在做的方向，比如它石、千尋等等

陳哲：是的，中國公司的優勢在于，只要有了技術路線，跟進速度極快。過去半年，類似 UMI 或 Sunday 的數據采集方案在國內快速涌現。

許多國內具身智能公司今年的目標是實現百萬小時級別的真實數據采集。但即使采集到了，數據的清洗、準確標注以及規模化還需要很長時間，我認為數據瓶頸并不會很快被解決。即使真的獲得了百萬小時的真實數據，這些數據量是否足夠支撐通用具身智能，目前還沒有定論。

晚點：除了英偉達近期的成果，世界模型在整個業界還有哪些新進展？比如 Google 的 Genie 3、SIMA 2，這些對具身領域有幫助嗎？

陳哲：這些與機器人的直接關聯不大。

具體來說，Genie 3 是一個高度基于 diffusion 的生成網絡，追求的是視覺上的高保真和美觀，對物理環境和物理規則的遵從度較弱，這對于需要訓練物理交互的機器人模型是不友好的。字節的 Seedance 著重優化了視覺表現力和藝術風格，這對具身沒什么用。

目前，世界上絕大部分機器人視覺模型的基座，使用的都是阿里開源的 Wan2.1 或 2.2（阿里通義萬相的開源視頻生成模型系列）。因為這是市面上最后一個開源版的視覺生成模型。視頻生成模型的算力消耗實在太龐大了，以至于頭部公司都不愿意繼續開源了。

晚點：連英偉達也沒有自己從頭訓練一個模型嗎？

陳哲：英偉達用的也是開源模型。現階段還在研究探索期，沒有必要從頭開始訓。不過，這也帶來了很多問題。許多研究員反饋，世界模型目前面臨的最大挑戰之一，就是現有的開源模型根本不適合具身智能。

晚點：回到之前的問題，如果隨著世界模型競爭加劇，中國公司由于算力相對較少，會不會處于劣勢？

陳哲：有可能。但如果世界模型高度依賴 SOTA 的視頻生成模型，至少字節跳動等中國頂尖大廠在資源上，并不會比 Google 少太多。

晚點：那字節也可以自己把具身模型和智能機器人做了，實際上字節也在做。

陳哲：這是所有模型創業公司，無論文本、視頻還是語音面臨的共同風險。比如 Google 的研究員就深信，終局就是大廠贏家通吃。

但即使如此，對于真正想要商業化落地的具身智能和通用機器人公司來說，依然有足夠多的事情可以做。雖然軟硬件的邊界可能會比 iOS 和 Android 時代更加模糊，但邊界依然存在。長期看，在具體垂直場景中的 Know-how 和專有數據，才是最有價值的資產。而這些長尾數據和場景經驗，大廠不一定具備。

晚點：沿著英偉達提出的世界模型新方向，有什么新的創業機會嗎？美國最近就出現了一些融資金額很高的新公司。

陳哲：確實有。比如在 GTC 大會上宣布獲得 4.5 億美元融資的 Rhoda AI 團隊，就是一家明確以世界模型為核心技術路徑的創業公司。

晚點：Rhoda 是自己從頭做視頻生成大模型，還是基于開源模型做研發？

陳哲：具體的細節他們沒透露。比較確定的是，即使他們使用了開源基座模型，也采集了大量的 ego-centric 數據做 continue train。就像 VLA 一樣，對于已經預訓練好的底層模型，沒必要重新訓，而是用自己的專有數據做微調和再訓練。

晚點：中國目前有以世界模型為主攻方向的新創業公司嗎？

陳哲：有一些。比如黃冠創立的極佳世界等。總體而言，作為創業方向，世界模型非常新，但也極其困難，這條路線的陡峭度遠超 VLA，理論上限更高，但也更難。

晚點：除了極其耗算力，還有哪些難點？

陳哲：對數據和算力的要求都很高。目前全球最好的三個視頻生成模型，恰恰出自擁有 YouTube 的 Google、擁有快手的可靈和擁有 TikTok 的字節跳動。更關鍵的是，所有優秀的算法架構和訓練配方，都是靠海量的實驗和算力堆出來的。

這正是今天所有具身智能創業公司面臨的最大挑戰：沒有足夠的算力試錯。哪怕你擁有幾十萬小時清洗標注好的優質數據，為了跑通模型、找到最優配方，也需要進行無數次的實驗和測試，而絕大多數創業公司缺乏支持這種實驗規模的算力資源。

具身算力：從數據中心到汽車，再到機器人，英偉達的統治力越來越弱

晚點：接下來聊具身智能領域中重要基礎設施話題：算力。相比大模型領域對算力的熱烈討論，業界對具身智能的算力，特別是端側算力的討論相對少。目前機器人上的主芯片是怎樣的市場格局？通常會選哪家公司的產品？

陳哲：默認的首選英偉達的車載芯片。

晚點：車載芯片？不是英偉達專門為機器人推出的 Jetson 系列嗎？

陳哲：不是。因為算力不夠，Jetson 的定位比較尷尬。

現在做端到端自動駕駛的公司，把一個模型實時壓縮到一顆 Orin 芯片上運行已經十分費力。而無論是 VLA 還是世界模型，復雜度都不比自動駕駛模型低。目前能在一兩百瓦的功耗限制下提供最大算力的解決方案，就是自動駕駛芯片。現在還沒有到要在端側節省算力的階段。

晚點：除了英偉達，還有其他公司嗎？比如高通有涉足嗎？

陳哲：國內很多具身智能公司也在和地平線合作。在量產的自動駕駛市場，英偉達和地平線各占約 40% 的份額，其他廠商占據剩下的 20%。由于技術棧的相通性，很多人自然而然地將這些成熟的車載芯片應用到了人形機器人上。

晚點：那么這個機會是不是也屬于華為？他們在高階自動駕駛領域也有相當的市場份額。

陳哲：華為確實有機會，但大廠內部有優先級問題。受限于制裁和產能，華為芯片產能要優先保供云端芯片和手機端芯片，車載芯片的優先級相對不夠，機器人的優先級就更低了。

英偉達也面臨類似的問題，他們在云端 GPU 市場擁有壓倒性的統治地位，但在車載市場就沒那么強。

再延伸到機器人領域，英偉達的優勢會被進一步削弱。因為真正的大規模量產機器人，極其考驗成本、功耗等一系列綜合指標。雖然目前具身機器人還沒到規模化量產階段，但參考其他已經商用量產的機器人，如家政機器人、掃地機器人、無人機，幾乎沒有使用英偉達的 Jetson 方案。這意味著，量產機器人芯片市場對中國及其他國家的公司是完全開放的。

晚點：已大規模量產的家用機器人市場中，主要的芯片玩家有哪些？

陳哲：最大的玩家是地瓜機器人，它是地平線分拆孵化出來的公司，專門為可量產的商用和消費級機器人提供算力解決方案。此外，還有一些主打中低端的傳統 ARM 芯片或 MCU 芯片廠商，比如全志、瑞芯微。在家用機器人市場，英偉達幾乎沒有市場份額。

晚點：所以從云端到車載，再到端側機器人，英偉達的統治力呈遞減趨勢。

陳哲：這就是一個典型的創新者的窘境，和當年的 Intel 如出一轍：Intel 在 PC 和服務器端賺得盆滿缽滿，因此不愿意去做利潤微薄的手機芯片。2005 年喬布斯找 Intel 合作開發初代 iPhone 芯片被拒，這才成就了后來的 ARM 等公司。

我認為今天地平線或地瓜機器人面臨的是同樣的歷史機遇。由于英偉達在云端業務的利潤極其豐厚，車載或機器人芯片在內部根本算不上戰略重點。

晚點：還有一個玩家是特斯拉。

陳哲：對。馬斯克非常明確地表示，未來量產的特斯拉自動駕駛汽車和 Optimus 人形機器人，將使用同一款自研芯片。他們會基于統一的架構、算力和能耗標準，為這兩個終端進行同步優化。

晚點：這也印證了，從車載到機器人，在技術棧和應用場景上具有極強的延續性。

陳哲：這意味著目前在國產自動駕駛芯片領域領先的公司，在未來的具身智能時代也將是強有力的競爭者。那些能夠在智能汽車時代實現芯片自研量產的車企，如小鵬、華為、理想、蔚來等，未來也能為具身智能提供極具競爭力的算力解決方案。

晚點：聽起來這將會是一個競爭極其激烈的市場。但通常來說，一個成熟的芯片市場最終應該不會容納這么多供應商。

陳哲：從歷史規律來看，任何一種復雜的芯片，最終市場上往往只能存活兩家主力供應商。而且市場份額通常是 “二八定律”，第一名吃掉 80%，第二名占據 20%。

因此，無論是具身機器人的整機廠商還是底層的芯片供應商，大概率都會經歷一場極其慘烈的淘汰賽，最終可能會高度集中。

晚點：你認為人形機器人的終局會是怎樣的？

陳哲：對于創業者和投資人來說，這既是巨大機會，也是巨大挑戰。人形機器人很有可能是一個高度收斂的賽道。它是一個通用、單一架構的機器人。如果產品足夠好，產量和規模將是巨大的，贏家會高度收斂。智能手機之所以高度收斂，是因為人的手就長那個樣子。在 iPhone 發明前，為了滿足不同需求，功能機形態各異，就像現在的 feature robot，有掃地的、搬運的、工業的。但一旦通用機器人形成，大概率會是一個高度集中的市場。

晚點：但汽車市場沒有手機集中？

陳哲：其實已經高度集中了。放眼全球，美國只有三大汽車公司，日本也是 3 家，韓國只有一兩家，歐洲也主要集中在 3 家。從商業視角看，集中度已經很高，而且未來還會更加集中。

隨著 AI 和自動駕駛的普及，作為軟硬一體的載體，其門檻和優勢會進一步放大。一個產品的復雜度越高、門檻越高、軟硬件復利越高，其市場集中度就必然越高；只有高度同質化的產品，集中度才會低。因此智能汽車或自動駕駛汽車未來一定會高度集中。

同理，人形機器人作為未來人類技術的集大成者，市場集中度也一定會非常高。雖然可能會有適用不同場景的型號，比如 1.8 米或 1.2 米的差異，但整體格局不會出現太多玩家。所以對創業公司而言，這既是機會也是挑戰。

晚點：對于創業公司來說，更穩健的路徑是不是去做 feature robot？在一些特定場景下的機器人，或許也不會被通用機器人取代。

陳哲：很有意思的是，今天許多成功的年輕創業者做的正是 feature robot。比如大疆的汪滔做了無人機，石頭科技做了掃地機，還有些公司在做割草機、倉儲機器人或泳池機器人。

晚點：這些做 feature robot 的公司，有可能進化成通用機器人公司嗎？

陳哲：有可能，但這對人、對組織都是巨大的挑戰。就像我們很難相信一家傳統家電或制造業公司能輕易做好復雜的機器人產品一樣，這種轉型對整個公司的組織文化和基因都會產生強烈沖擊。

晚點：蘋果最初是電腦公司，但后來又做出了智能手機。未來摘得通用機器人桂冠的公司，是一開始就做通用機器人，還是有可能從大疆、石頭科技這種單點起步？就像 “Zima Blue” 里的那個機器人，最初是個泳池機器人，最后進化成了人。

陳哲：這不太一樣，電腦本身就是一個多任務產品，具備極重的軟件和算法成分。相比之下，無人機或割草機本質上仍是單任務產品。

最終能摘得通用機器人桂冠的，一定是積累并建設了相關核心能力的公司。比如，如果 sharpa 有一天做成了通用機器人公司，我不會感到意外。因為通用機器人的核心包括光機電結構、精密工程和量產能力，而這些正是 sharpa 團隊過去 10 年驗證和打磨出來的。他們在通用機器人的成功路徑上可能已經掌握了 50% 的 recipe，只需補齊剩下的 50%。大疆也是同理，擁有強大的生產設計和開發能力，但能否補齊缺失的另一半，極度考驗團隊的學習與迭代能力。

晚點：反過來看，那些強于智能算法的公司，也有可能去補齊硬件和工程制造的短板吧？

陳哲：我覺得那是條更難的路。

宇樹上市，是一家扎實的好公司上市，不是泡沫

晚點：最后，關于資本市場的變化。今年有一個明確會貫穿全年的現象：中國具身智能公司迎來上市潮，宇樹等公司已經提交了招股書。這波上市潮整體會帶來什么影響？

陳哲：機器人將是未來 10 年中國國家級、戰略級的發展主線。無論是機器人的硬件技術，還是軟件或算法大腦，宇樹的上市都將開啟一批具備全球競爭力的中國公司發展的新階段。從市場角度看，這對創業公司和投資人都是極大的利好。

晚點：二級市場行情好確實是利好，但另一方面，資源可能會進一步向頭部集中，這對其他創業公司或許是個挑戰。

陳哲：頭部集中并不是壞事，就像電動車行業的發展一樣。對于創業公司而言，創業成功的財富效應本就是驅動大家進入這個市場投資和創業的原生動力。有了成功的標桿企業，會吸引更多人才與資本涌入。

最近我與清華、北大、交大、復旦等高校最聰明的年輕人交流，感覺可能有一大半的人都在研究具身智能。這與過去兩三年一半的聰明大腦都在做 AI 非常相似。至少，這比 2012 年時中國最頂尖的大腦都在研究如何提高廣告轉化率要好得多。

從國家科技發展的節奏來看，現在正是中國企業和學者可以引領世界前沿的時刻，我們正從追趕者轉向原創創新者。同時，具身智能發展所需的諸多要素也已成熟：大模型技術、生成技術、AI 算力以及數據中心等基礎設施的完善，共同將具身技術推向了爆發的臨界點。資源和腦力向這些有望突破的方向聚集，絕對是好事。

作為一名深信 Alpha 投資理論的風險投資人，我本能地警惕泡沫與市場 hype。但如果站在國家宏觀發展與戰略角度，這是中國引領世界的絕佳機遇。我們已具備電動車、AI 的基礎，并在半導體和算力上取得突破，完全有能力在具身智能或通用機器人領域真正領先全球。這背后的獎勵如此誘人，所以在資本市場或頂尖高校中，都能看到一股巨大的能量正在積聚。

晚點：目前很多公司都在啟動上市流程，監管層面可能不會允許這么多同質化的具身智能或機器人公司集中上市。如果出現 “有的成功上市，有的沒上成” 的情況，對接下來一級市場的投資和創業熱情會產生影響嗎？

陳哲：我認為，宇樹是一家商業質量極高的公司。它不是泡沫或概念，而是創造了真實的用戶價值和收入，且經營高效。

至于其他公司，能不能上、上了之后表現如何，都是后話。但如果上市預期破滅，肯定會打擊投資熱情，因為很多投資人的最終目的就是順利退出，沒有上市預期，大家自然就不會投了。

晚點：面對今年資本市場的不確定性，大量資金涌向一級市場具身智能創業公司的狂熱現象何時會相對平息？目前的火熱程度超出你的預期了嗎？

陳哲：很難準確判斷市場和同行的情緒，但目前的狂熱程度絕對超出了我的預期。

更關鍵的是技術發展的速度。回顧 AI 經歷的多個寒冬與周期，市場往往容易對技術的短期變化抱有過高預期。盡管我們見過科技周期的冷熱交替，但當下具身智能的浪潮確實過于狂熱。未來一段時間，市場預期必然會面臨調整，這種調整對行業的沖擊，可能比 “短期內能否上市” 要大得多。

我做過一個統計，目前中國估值超過 100 億人民幣或 15 億美元的人形或具身智能公司已超過 20 家。而在 2023 年、2024 年大模型最狂熱時，估值破百億的大模型公司也不過四五家。更何況，大模型今天已經展現出極其明確的商業化和行業應用機會，從 OpenAI 和 Anthropic 的收入就能看出，市場正在快速擁抱這項新技術。

相比之下，具身智能真正落地還需要很長時間。即使是最頭部的宇樹，目前的收入僅 2 億美元左右，但市場上卻充斥著 20 家估值超百億的公司。這需要一定的時間去吸收泡沫并完成淘汰。

晚點：接下來 1 個季度到半年，比較確定會發生的事情有哪些？

陳哲：首先，世界模型正快速成為行業研究熱點。無論是中美哪家公司，誰能在世界模型技術上拿出顯著超越 Pi 現有 VLA 技術路線的 demo 或成果，非常值得關注。

其次，隨著更多研究人員用上帶有觸覺信號、高自由度的靈巧手，未來一兩個季度極有可能會涌現出更多關于靈巧操作的研究成果。

最后是一件很有意思的事，未來 1 個月內將舉辦北京亦莊人形機器人比賽。去年舉辦時，很多人還覺得這只是個噱頭，參賽公司寥寥；但目前，全中國幾乎所有頭部人形機器人公司都在不遺余力地備戰。這種高密度、高競爭性的活動，會極大催生前沿技術與方案的迸發和突破。

晚點：早期大家可能更多是把這類比賽當笑話看。

陳哲：以前大家可能會覺得這是個政績工程，但在今年春晚過后，很多人形機器人公司都憋著一股勁，想證明自己不輸給宇樹，甚至在某些領域具備超越宇樹的能力。這種開放、公平的比賽，不僅是展現極致技術追求與競爭的絕佳土壤，也是一項民眾能理解和欣賞的活動，其表演與宣傳意義同等重要。未來，人形機器人的運動會很有可能成為機器人領域的 F1 。

晚點：最后一個問題，請分享一個此時此刻你覺得很重要、但還不知道答案的問題。

陳哲：這個問題是：人形到底是不是未來通用機器人的最優解，還是未來會演化出各種不同的形態和工作方式？

以前我對此有很多質疑，傾向于后者，就像交通工具分為汽車、飛機、輪船一樣。但現在，這個答案對我來說反而更模糊了。見證了機器人幾十年的發展史，我并不是一個盲目的技術樂觀主義者。我們深知這極難實現，但技術突破往往是非線性的。一旦跨過某個臨界點，就會進入正向加速的環境。

然而，由于機械結構、電機、能量密度等一系列物理限制，我們究竟能不能突破那個臨界點？甚至這個臨界點是否永遠無法企及？今天我依然沒有清晰的答案。但確切的是，全世界的資源、頂尖大腦和龐大算力都在涌向這個領域，試圖攻克最難的問題。因此，我無法斷言這個問題在 5 到 10 年后一定得不到解決，這也正是答案變得更加模糊的原因。

晚點：我們可以把這個問題記錄下來。未來的季度訪談中，我們可以一邊探討新問題，一邊回顧之前想法的變化。

陳哲：這其實和大模型的發展軌跡很像。從 ChatGPT 誕生至今，大模型發展了三四年。大家對 “AGI 什么時候到來”、“距離 AGI 還有多遠” 的認知，也是一個起伏震蕩的過程，但最終可能會變得越來越理性或越來越樂觀。我相信通用機器人和人形機器人的發展，也會經歷同樣的心理認知過程。

題圖來源：Sharpa

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.