網易首頁 > 網易號 > 正文申請入駐

獨家對話Sharpa核心團隊：如何把人類的“觸覺”裝進機器人的身體｜甲子光年

2026-03-25 17:41:43　來源: 甲子光年

北京舉報

分享至

要想真正做到通用機器人，除了做好觸覺AI，別無選擇。

作者｜蘇霍伊

編輯｜王博

今年以前，Sharpa都很神秘。

很多人以為Sharpa是一個做機器人靈巧手公司，因為Sharpa靈巧機械手Wave在ICRA 2025、CES 2026、GTC 2026連續亮相，還登上了今年總臺央視春晚的舞臺。它能精準發牌、打乒乓球、盤核桃，實現如同人手一般的精細化操作。

Sharpa靈巧機械手Wave在GTC上展示，圖片來源：Sharpa

但Sharpa對自己定位遠不止于此。

在GTC 2026上，Sharpa通過實物和視頻展示了其完整技術棧，包括靈巧機械手Wave、人形機器人North以及融合視覺、觸覺與語言的模型系統CraftNet。

Sharpa人形機器人North，圖片來源：「甲子光年」拍攝

Sharpa成立于2024年，全球總部位于新加坡，制造與研發中心位于中國上海，商業運營總部位于美國加州硅谷山景城。雖然Sharpa創始團隊因為過往在自動駕駛領域的經歷而受到關注，但是Sharpa一直保持著獨立運營的狀態。

近期，「甲子光年」來到了Sharpa硅谷辦公室，見到了Sharpa GTM副總裁、歐洲區總裁Alicia Veneziani和Sharpa研究科學家、學術負責人張凱峰。

這是Sharpa核心團隊成員首次與媒體進行深度對話，對于外界好奇的公司定位，Alicia Veneziani告訴「甲子光年」：“我們的秘密武器是觸覺AI，我們的核心定位是一家以觸覺AI為驅動的全棧靈巧機器人公司。”

相比主要依賴視覺的機器人動作，Sharpa更專注于觸覺驅動的機器人靈巧操作。

這一能力被認為是機器人完成復雜現實任務的關鍵門檻。宇樹科技創始人、CEO王興興近期表示：“我覺得目前對于具身智能或者機器人來說，移動和動作大部分問題已經解決掉了，但對于抓取和操作這部分，尤其觸覺相關的問題目前沒有解決，這也直接限制了具身智能或者人形機器人大規模在工廠和家庭去部署。”

過去兩年，具身智能行業的敘事幾乎被視覺與語言主導：VLM、VLA、世界模型……讓機器人看懂世界成為主線。但Sharpa選擇了一條更難、也更少人走的路徑：從“手”的感知出發，而不僅僅依賴“眼睛”。

Sharpa的技術路徑建立在兩個核心能力之上：一是通過仿真環境進行大規模技能訓練；二是結合視頻與觸覺數據，訓練其視覺-觸覺-語言-動作模型（VTLA），使機器人能夠學習人類的操作方式，并實現更高程度的自主化。

為支撐這一訓練范式，Sharpa在GTC期間宣布與英偉達聯合開發Tacmap仿真觸覺系統，作為觸覺驅動機器人學習的重要基礎設施。該框架通過共享的高精度幾何結構表示，實現了高真實度與高計算效率之間的平衡。Sharpa表示，相關仿真框架及代碼資產未來將開源，以便與更廣泛的機器人社區共享研究成果。

Alicia Veneziani和張凱峰，一位站在市場戰略前線，一位深入模型系統底層。這次對話中，我們探討了五個方面的話題：

Sharpa為什么會引發關注？
觸覺是不是靈巧操作的關鍵？
CraftNet的創新之處？
為什么英偉達會和Sharpa合作？
Sharpa的運營與商業計劃是什么？

本文為「甲子光年」對話Sharpa核心團隊實錄，經「甲子光年」整理編輯，在不改變原意的基礎上有所刪改。

1.要做就做與人類1:1同構靈巧手

甲子光年：之前很多人以為你們是一家做靈巧手的公司，所以你們對自己定位是什么？

Alicia：可能是Sharpa的靈巧手做得太好了（笑），導致很多人以為我們就是個做靈巧手的公司。

而我們的秘密武器就是觸覺以及觸覺AI，我們的核心定位是一家以觸覺AI為驅動的全棧靈巧機器人公司。

從去年5月份我們在ICRA（國際機器人與自動化會議）第一次亮相時，我們帶去的就是一整臺完整的機器人。但當時所有人的注意力全被那只手吸引了。

Alicia Veneziani，圖片來源：Sharpa

甲子光年：的確，不論是去年的ICRA，還是今年的CES和GTC，你們展位的人都不少。

Alicia：實際上，我們從一開始就沒打算只做手，我們一直在做機器人整機。

我們內部有個比喻：我們造的這只靈巧手，其實更像是汽車的發動機。我們要把各種不同的系統集成到這輛“車”里，所以我們本質上是“造車”的（做全棧機器人系統），只不過我們的手做得特別好，這只手就成了我們這輛車的核心發動機。

Sharpa GTC展位，圖片來源：Sharpa

甲子光年：這個比喻很有意思，我也發現，其實你們一直在強調機器人的“靈巧操作”以及“全身控制”，而不光是“手”。

張凱峰：這其實是我們的愿景。我們常說“We manufacture time by making robots useful”（我們通過讓機器人變得有用，來為人類創造時間）。我們想做真正能干活、有用的機器人，去承擔那些人們不愿意干的臟活累活，從而把人類的時間真正解放出來。

甲子光年：我注意到，Sharpa靈巧機械手Wave是和人類1:1同構的，所以做到1:1同構很難嗎？

張凱峰：靈巧手做到1:1同構非常難。比如要做到成年男性的手部大小，還要具備人手大部分的自由度。我們的靈巧手有很多特性，比如指尖力矩能達到兩公斤，運動頻率是四赫茲，你需要兼具速度和力量。其次，要在這么小的空間里集成強有力的電機，同時做好整個系統的集成，工程難度極大。

Alicia：我認為這取決于我們如何定義“相似”。如果我們要求外觀和功能都相似，希望機械手能像人手一樣擁有同等的自由度、完成同等范圍的精細動作，就需要把大量內部零件塞進一個極小的表面積里。這意味著必須使用超微型的驅動器，在極其有限的空間內實現同等功能，這就是保持1:1比例的難點所在。

甲子光年：但是業內也有聲音說，靈巧手硬件本身似乎并不那么重要。

Alicia：現在有個誤區，有人覺得有了AI算法控制，硬件問題就不存在了。這完全是錯的，硬件的痛點依然在那兒。所以我們堅持深耕硬件工程，才能自己設計組件并快速迭代。大部分公司的手只能往大了做，但做大了就用不了人類的工具，比如普通的剪刀。

甲子光年：之前我們也看過各種靈巧手產品。有的公司會強調手的抓握力和負載能力，你們似乎沒有強調這方面能力。

Alicia：如果他們的目標是工業里的分揀(pick and place)或搬運，那負載能力當然重要。但搬運東西真的需要人形機器人、需要靈巧手嗎？

我們的核心聚焦點是靈巧操作(dexterous tasks)。這其中可能也會涉及搬運，但那絕不是我們最核心的應用場景。所以除了負載能力，我們必須考量更多其他維度的指標。

甲子光年：為什么說22個自由度是一個非常關鍵的設計？為什么偏偏是22個？

Alicia：其實這跟“為什么要做成1:1類人手”邏輯有點類似。人手大概有27個自由度，但在機器人上，22個自由度已經完全足夠用了。這是我們在成本、工程實現難度和實際功能之間找到的一個最佳平衡點。

Sharpa靈巧機械手Wave，圖片來源：Sharpa

甲子光年：已經有其他頭部機器人公司使用了Wave，甚至它還上了春晚。你們有什么優勢能讓客戶買單？

張凱峰：我想最主要的原因有兩點。

第一，一致性，這包括我們不同批次的硬件之間高度一致，同時我們的Sim-to-Real Gap足夠小。我們自己做過很多Sim-to-Real的算法和模型，在這個過程中不斷迭代并更好地標定了我們的硬件，從而把這個Gap降到了最小。

第二，可靠性。我們的手確實能經受住高強度、長時間的使用，并且性能非常穩定。

甲子光年：Wave目前的售價是一只5萬美元，你們是怎么定價的？

Alicia：其實這并不是公開標價（list price），我們目前只為客戶提供定制報價（custom price）。

甲子光年：你們團隊是如何平衡產品性能和成本的？價格可能再降低一些嗎？

Alicia：在設計時，我們第一優先級的考量絕對是性能（performance）。我們必須確保這只手在各類場景中能真正干活。其次是極高的可靠性（reliability），因為我們著眼于長期的服務場景，它必須能扛得住長時間的持續使用。第三個考量才是成本。因為如果達不到及格的性能，成本再低也沒意義。

我們的核心聚焦點是靈巧操作，而不在搬重物。如果只是搬運，用個便宜的夾爪就夠了，客戶完全沒必要花高價買一只復雜的靈巧手。

解決技術問題后我們肯定會盯緊價格。只要我們不是用“黃金”來造手，憑借團隊扎實的硬件工程能力，我們有信心把價格降到大規模量產所需的水平。

大家看BOM（物料清單）就知道硬件底座的成本邏輯，一旦行業進入大規模量產，比如未來出貨量達到100萬臺時，規模效應自然會把成本打下來，所以我們對控制成本非常有信心。

2.沒有觸覺，是一種新形式的失明

甲子光年：今天機器人已經可以跑、跳、走，但在精細操作上仍然不如人類。從技術角度看，機器人靈巧操作的核心瓶頸是什么？

張凱峰：核心瓶頸就是數據。

靈巧操作有三類數據來源。第一類是遙操作數據。它最大的痛點是“操作員感受不到機器人的感受”，遙操作員操作起來非常不直觀（not intuitive），所以很難用這種方式去采集像手中把玩（in-hand manipulation）這類極度精細的操作數據。

第二類是以人為中心的數據采集方式。比如斯坦福大學團隊（Stanford）隊做的同構外骨骼手套DexUMI，以及麻省理工學院（MIT）和加州大學伯克利分校（UC Berkeley）聯合推出的無源手部外骨骼系統DexOP。DexUMI會帶來視覺上的Gap，因為腕部相機看到的是人戴著數據手套，而不是機械手；而DexOP則相反，它看到的是靈巧手本身，所以視覺Gap小，但是對于高自由度的靈巧手來說，它的狀態Gap會比較大。

第三類就是動捕（MOCAP）數據。其實又回到了剛才說的functional retargeting的挑戰。這個問題真的非常難，尤其是實時的重定向。我們不僅希望在空間上把人手關鍵點1:1映射過去（kinematics-based），更希望“操作語義”是一致的，這是非常困難的。

甲子光年：還有其他難點嗎？比如模型和評測維度？

張凱峰：模型維度的話，最大的挑戰在于魯棒性（robustness）和泛化能力（generalization）。你能不能做到物體級別、環境級別甚至任務級別的泛化？能不能拿出一個真正具有99.999%魯棒性的通用策略？目前還做不到。

評測方面也是限制我們算法迭代效率的瓶頸。一個是可靠性問題。今天測10次，成功率80%和70%其實說明不了太大問題，可能只是A策略比B策略碰巧多成功了一次。另一個是人力成本極高。

評測則需要大量人力去控制環境變量、重置場景、統計數據，極其消耗精力。這些都是目前限制靈巧操作發展的核心瓶頸。

甲子光年：觸覺是不是靈巧操作的關鍵？

張凱峰：我認為極其重要。

因為在操作過程中，無論是數據采集還是模型推理，都會遇到嚴重的“自遮擋”或者被物體“遮擋”的問題。此外，觸覺能賦予機器人“手感”。人類在做微操時是有精細手感的，但目前的機器人還做不到這點。

甲子光年：Alicia，我記得你們曾經提到“Tactileless is the new blindness（沒有觸覺，是一種新形式的失明）”。

Alicia：是的，我們堅信，如果沒有觸覺，有些任務機器人根本無法完成。特別是那些步驟繁瑣的Long-horizon（長視距/長程）任務，想完全依靠視覺讓機器人自主完成，如果不是不可能，也是極其困難的。

我們想想人類的操作就明白了：如果你想擦一個花瓶，你的手會繞到花瓶背面去擦，這時你的眼睛是看不到手的對吧？但你依然能擦干凈，而且不會把花瓶打碎，因為你能“摸”到它。在這種情況下，視覺是被遮擋（occluded）的。

再比如把數據線插進USB接口、或者把零件卡進去的時候，因為空間太狹小，攝像頭不可能無死角覆蓋，你根本看不到線頭插進去的瞬間。這時候，觸覺就成了唯一的解法。

同時凱峰和清華大學合作的《Spatially-anchored Tactile Awareness for Robust Dexterous Manipulation》論文，更是證明了有了觸覺，一些原本機器人根本不可能自主完成的任務，比如插USB線、安裝燈泡、發撲克牌等變得可能了。

《Spatially-anchored Tactile Awareness for Robust Dexterous Manipulation》論文，圖片來源：受訪者

有大量頂級學術研究證實了觸覺在加速機器人訓練中的作用。這就是我們如此看好觸覺AI的原因：它不僅是我們的信仰，更得到了科學界的驗證。

甲子光年：我突然覺得這挺像自動駕駛領域的情況：行業里既有特斯拉那種純視覺路線，也有“攝像頭+激光雷達”的融合方案。你們提到了機器人觸覺，其實很像激光雷達在自動駕駛中的角色。一旦機器人的視覺受阻或存在盲區，觸覺就能作為全新的數據源來補足視覺短板。

Alicia：確實很像，但我認為觸覺在機器人身上的重要性，超過了激光雷達在車上的重要性。

車的邏輯是“避障”，它所有的目標是“不要碰到任何東西”，碰到就是事故。而機器人的邏輯相反，它無時無刻不在跟這個世界“接觸”，尤其是手部。

對于那些看不見或處于視覺盲區的地方，觸覺尤其不可或缺。

甲子光年：做好觸覺，有哪些挑戰？

Alicia：這件事在技術上極其復雜，主要有三個核心維度的挑戰。Sharpa研究副總裁朱雪洲在GTC的演講就詳細提到了幾個核心原因：一方面是凱峰說的映射問題，你必須得有這樣一只帶觸覺的靈巧手，才能實現底層的物理分層；另一方面是模態競爭問題，比如視覺和觸覺之間會有模態競爭；最后還有一個關鍵點，就是計算成本的開銷問題。

3.從粗略動作到精準動作

甲子光年：具身智能的研究大致分為兩個核心方向：Locomotion（移動能力）與Manipulation（操作能力）。Sharpa提出的CraftNet是一種VTLA（Vision Tactile Language Action，視覺-觸覺-語言-動作）模型，我的理解是，你們在Locomotion與Manipulation之外增加了第三個維度：Perception（感知），對嗎？

張凱峰：我常常開玩笑說，Locomotion其實也是一種特殊的Manipulation——是人用兩只腳在“操控”地球。如果今天我們已經徹底解決了操作問題，回過頭看，一定能用同一套框架既解決移動、又解決操作。

這兩者最大的不同在于：Locomotion是將“自身狀態”調整到目標狀態，而Manipulation是將“被操作的物體”調整到目標狀態。這就要求你必須實時獲取被操作物體的姿態信息，也就是Perception。

2000年以前做機器人的人，常常假設Vision Perception（視覺感知）問題已經解決了，所以直接在action（動作）層面尋求突破點。但今天我們發現這遠遠不夠，必須把感知和動作放到一個閉環里去做。

甲子光年：CraftNet的分層設計很像人類的神經系統。System 2負責想，是推理大腦(the Reasoning Brain)；System 1負責動，是運動大腦(the Motion Brain) ；System 0負責做，是交互大腦 (the Interaction Brain) 。但是這三個系統頻率不一樣，如何避免系統之間的“打架”？

CraftNet，圖片來源：Sharpa

張凱峰：首先我介紹一下CraftNet里System 0的含義。在Locomotion領域，現在也出現了System 0的概念，比如Figure機器人模型Helix 02里就有。它的概念是：當你推機器人一下，它能下意識地保持身體平衡不摔倒，這是一種自適應的底層行為。

而在我們的Manipulation里，System 0意味著什么呢？它能把System 1輸出的“粗動作”和操作意圖，結合力覺（Force）和觸覺（Tactile）信息，轉化為一個精準的動作。

剛才我們講到遙操作、動捕等數據收集上的挑戰，這些挑戰引導我們設計了一個“coarse-to-fine（由粗到細）”的架構。也就是說，先由上層生成一個粗動作，再通過System 0把它變成精細化的操作。

關于“系統打架”的問題。其實它們并不會打架，這就像一個分頻（frequency division）設計。System1輸入的是低頻的表征，輸出一個相對高頻的動作；而到了System 0，它執行的是更高頻的底層操作。高低頻之間是解耦的，所以互不影響。

甲子光年：這么看，System 0其實更加通用。

張凱峰：對，它是非常通用的，我們把它叫做motion primitives（運動基元）。

同時，我們的System 0也非常聚焦，它聚焦在你“快要摸到、以及指尖觸碰到物體的那一瞬間”的下意識反應。

從速度反饋上也能看出來，System 1大概是10Hz的頻率，而到了System 0直接飆到100Hz了，它必須極速輸出一個下意識動作來完成微操。

甲子光年：就像我的手碰到了這個水杯，碰到的一瞬間，底層系統要立刻下意識地決定用多大的力度去抓住它，是這樣嗎？

張凱峰：除了意圖，還涉及你具體怎么去抓。正如我剛才提到的，有些動作你是很難采集到數據的，比如in-hand manipulation（手內操作/掌內操作）這種極度精細的動作。

目前業內其他家應該還沒有做到System 0這個階段。

甲子光年：相比于其他沒有System 0的同行，你們的系統反應會更快？

張凱峰：System 0要解決的核心是“操作手感”以及“最后1毫米接觸”的問題。剛才提到數據采集有挑戰，你很難采集到足夠多樣化的運動基元 (Motion Primitives)，尤其是手內操作數據。

因此我們認為，System 1最終可能只是由數據金字塔或相對低質量的數據學出來的一個Coarse action（粗略動作）。把這個手勢傳遞給System 0后，System 0會結合力覺和觸覺信息，將其“翻譯”成Precise action（精準動作），從而完成微操。

甲子光年：有些醫療手術機器人也強調精度能達到毫米級甚至亞毫米級，你們有什么不一樣？

張凱峰：本質不一樣，它們屬于專機專用機器人，和我們要做的General（通用）不一樣。我們希望做的是通用的機器人，是能幫人去干各種臟活、累活的，這些任務都不是特定、固定的。

甲子光年：在實際生活中，有沒有更貼近日常、更直觀的例子來解釋System 0的作用？

張凱峰：比如我要拿起這罐啤酒，我用的力道是恰到好處的。如果你試圖從我手里把啤酒抽走，我會下意識地增加握力——這就是System 0在起作用。

第二點，我們把這種抓取叫做Gentle Grasp（柔和抓取），手感非常柔和。如果今天沒有System 0的操作能力，機器人可能只會粗暴地Power Grasp（強力抓取）。

因為遙操作員其實是感受不到機器人抓取力度的，為了保證東西不掉，他們只能捏得很緊、用很大的力。但這不對，System 0要解決的就是這種“恰到好處”的觸覺反饋。

我們的靈巧手，即使是去操作紙牌、操作脆弱的折頁，從平面上摳起來時都不會讓它變形，而是完好無損地拿起來。

甲子光年：我們習以為常的抓取動作，其實是人類的雙手已經在潛意識里完成了極度精細的操作，但真正要在機器人手上復現時，技術難度的差別就顯現出來了。

張凱峰：對，因為人體的底層就運行著一個類似System 0的控制器（controller）。

甲子光年：過去兩年行業里都在卷VLA、VLM，而今年初Sharpa發布了CraftNet，提出了一層新的架構System 0。后來，美國機器人公司Figure提出了Helix 02，也包含了一層System 0，所以2026年會是“System 0元年”嗎？

張凱峰：我們自己并沒有去刻意這么定義。不過我們內部之前聊過，大家確實有一個共識：2026年全行業的關注點，肯定會全面聚焦到“靈巧操作”上。大家可能更關心更細化的靈巧操作。這個趨勢確實存在，至于是不是“元年”，就看各自的解讀了。

甲子光年：那為什么現在才做出System 0呢？是因為具備哪些條件嗎？

張凱峰：我覺得是整個AI的基礎設施以及底層的硬件發展到了能支撐我們做這件事的階段。

其實算法和模型非常依賴Infra的設計。比如現在有了英偉達Isaac這樣優秀的平臺，它的渲染效率非常高，特別是觸覺的渲染效率。結合我們Tacmap這樣的技術，就能去做很多觸覺的sim-to-real工作，從而解決靈巧操作底層System 0面臨的問題。

所以是整個Infra和仿真的進步，讓我們有機會把這件事做好。

4.與英偉達合力解決Sim-to-Real問題

甲子光年：你們和英偉達有哪些合作？通過合作你們想傳遞什么信息？

Alicia：主要是Tacmap仿真觸覺傳感系統和EgoScale項目。Sharpa Wave靈巧手已被NVIDIA GEAR實驗室用于數據驅動的機器人學習研究。雙方合作驗證了一條關鍵路徑：機器人可以直接從大規模人類視頻數據中學習復雜操作能力，并在真實系統中穩定執行。另外，我們還加入了NVIDIA Inception創業加速計劃。

仿真技術是我們著重投入的方向。它是加速機器人訓練的一個極具前景的方向。能在仿真領域跟英偉達這樣的巨頭合作，對推動觸覺和觸覺AI的發展十分關鍵，也能讓大家看到其對于機器人訓練和數據瓶頸突破的重要性。

甲子光年：你們宣布這次Tacmap仿真框架及代碼資產未來將開源，開源的時間節點和范圍是什么？你們為什么會選擇開源？

Alicia：關于相關成果的開源發布時間，團隊給我的預期大概在三月底吧。

這次開源的內容大概包括URDF（機器人模型）、仿真資產、Tacmap的代碼，還有強化學習（RL）的代碼庫。打個比方，你可以把Tacmap看作是英偉達Isaac Lab平臺上的一個插件，大家以后都能用。

如果我們真想把“觸覺AI是機器人下一個大風口”這個共識推出去，光靠嘴說沒用，得給大家提供上手的工具。大家親自跑一跑代碼，自然就懂它的價值了。

這個領域要想發展，單靠一家公司肯定不行。把工具開源，一方面確實能幫英偉達的Isaac Lab平臺吸引更多生態用戶，但對Sharpa來說，真正的“私心”是希望吸引更多人來研究觸覺AI。

甲子光年：在Tacmap仿真框架的合作中，Sharpa與英偉達各自都做了什么工作？

張凱峰：Sharpa和英偉達共同設計了TacMap，解決如何對視觸覺進行仿真的技術問題。英偉達主要提供底層技術支持，比如物理引擎上的Know-how，同時幫我們解決了IsaacLab底層的一些Bug。

一個新的平臺本身會有不完善的地方，英偉達協助排查后，雙方再能進行深度的聯合開發，最終由Sharpa主導實現并驗證。

Alicia：我們正在合作解決sim-to-real（仿真到現實）的差距，讓仿真平臺能更好地生成合成數據來訓練模型。有時我們也會根據具體任務，直接在仿真環境里用強化學習來訓練。

甲子光年：算力方面會有合作嗎？

張凱峰：算力方面暫時沒有，主要聚焦在仿真。

甲子光年：傳統觸覺仿真一直存在一個問題：真實性vs計算效率。這次合作解決了什么關鍵問題？

張凱峰：傳統觸覺仿真的痛點要么像是：有限元分析那樣保留了物理特性但失去計算效率，要么像簡化的投影映射有計算效率但物理特性很差。我們這次取得了很好的折中。

基于Tacmap，我們設計了一套物體和指尖穿模得到的深度圖像，把這個圖像作為sim-to-real的介質。在仿真里可以快速高效地計算deformation Map（形變圖）；而在真實世界中，我們采集大量數據，把視觸覺看到的原始圖像通過轉換模型翻譯成deformation Map。

在此基礎上我們既保留了很好的物理特性，又有極高的計算效率，同時sim-to-real的gap也非常小。基于我們的測試分析，Tacmap能夠支持in-hand manipulation的zero-shot deploy。

甲子光年：接下來聊聊EgoScale項目，我注意到NVIDIA GEAR Lab的研究團隊成功把在GR00T模型進行了20000小時以上人類視頻數據預訓練獲得的策略，遷移到搭載Sharpa Wave機械手的機器人上。實驗結果顯示，這些機器人能夠完成包括模型汽車組裝、注射器操作以及卡片分類等任務，整體任務成功率提升54%。這個數據提升代表著什么？

張凱峰：過去大家有個共識，希望能用好不同質量的數據。

最高質量的是遙操作數據，但它很難規模化、成本太高；其次是以人為中心的數據采集方式；最底層的、最便宜且最能規模化的就是人類視頻，或者帶有真實標注的動捕數據。

這次英偉達的工作讓我們看到，人類視頻數據從某種意義上帶來了scaling Law，同時也證實了在硬件側設計與人類1:1同構靈巧手的重要性。

《EgoScale: Scaling Dexterous Manipulation with Diverse Egocentric Human Data》論文，圖片來源：受訪者

甲子光年：當前具身智能行業獲取數據，主要有四種方式。第一種是仿真數據，第二類是人類行為數據，第三類是人類示教數據，第四類是真機遙操作數據。這四種方式各有優劣勢，其中人類行為數據來源主要是視頻，通過學習人類操作來訓練機器人。這類數據規模巨大，但由于人類身體結構與機器人機械結構存在差異，往往難以直接映射到機器人動作，因此存在所謂的“構型鴻溝”。你們如何避免人類行為數據帶來的“構型鴻溝”？

張凱峰：這其實耦合了兩個問題，核心是retargeting(重定向)。真正理想的重定向叫functional retargeting（功能性重定向），意思是不僅空間上的關鍵點能映射到機械手上，更要求操作語義也能夠重定向。比如我做捏（pinch）或抓握（power grasp）的動作，機器人也能準確還原這個操作的語義，也就是“指哪打哪”。

即便解決了重定向，還要保證重定向的結果是physical plausible（物理可達的），這就要求硬件設計必須和人手1:1同構。

我們某種意義上解決了底層硬件的瓶頸，保證了重定向結果物理可達。而functional retargeting目前仍是一個不斷探索的難題。

甲子光年：你是否認為“機器人訓練正在從‘機器人數據時代’，進入‘人類視頻數據時代’”？只要機器人擁有足夠類人的手部結構，人類數十億小時的操作視頻，都可能成為機器人的訓練數據嗎？

張凱峰：是的，我們正在經歷這個轉變。所謂的機器人數據，指的是通過遙操作或機器人主動采集的數據；而人類操作數據，則是人戴著DexUMI或者DexOP這種數據手套，或者通過動捕（MoCap）技術獲取的人類實操數據。當然，機器人數據最終也是必不可少的。

要想用好這些人類操作的數據，最大的難點還是剛才提到的retargeting重定向。重定向不僅要求結果在物理上可達，這就要求有1:1同構的優質硬件，還要求在功能語義上一致（functional），這本身在模型算法上就是一個巨大的挑戰。

甲子光年：所以未來機器人訓練到底會更依賴哪類數據？

張凱峰：要想打造通用的智能機器人，整個數據金字塔的每一層都必須被充分利用。整體來看，高質量的遙操作數據與以人為中心(Human-centric)采集的數據，比例大概是1:100，這是一個比較合理的比例。接著往下推，以人為中心的數據與仿真數據的比例也是1:100；最后仿真數據與海量的人類操作視頻數據同樣是1:100的百倍級增長。只有這樣層層放大，才能解決數據的困境，最終才能訓練出好的通用智能。

5.Sharpa的飛輪效應

甲子光年：Sharpa把全球總部設在新加坡，研發和制造在上海，商業運營在硅谷。這種全球化布局背后的策略是什么？

Alicia：我們的策略很簡單：去最合適的地方拿最好的資源。所以我們從一開始就是一家global by design（生而全球化）的公司。

參考汽車或消費電子等成熟產業，無論是客戶群還是供應鏈，本來就是全球化的。新加坡是亞洲的樞紐，方便吸引全球AI人才，設為總部很合理。中國有極好的AI和機器人人才庫，而且供應鏈極其發達，硬件組件的組裝和迭代速度極快，這是我們絕對不能錯過的優勢。至于美國，那里對新技術的接受和應用速度幾乎比世界上任何地方都快，所以我們在這里開展商業運營順理成章。

Sharpa硅谷辦公室展示區，North機器人在發牌，動圖來源：「甲子光年」拍攝

甲子光年：但現實中機器人商業化仍然很慢。你認為機器人規模化落地的瓶頸是什么？

Alicia：大規模部署之所以還沒發生，是因為目前發布的絕大多數機器人都在死磕移動能力，而在操作能力上投入的精力太少。

只有當機器人真正能用手干活時，它們才會變得有用，部署速度才會加快。這也是我們創立這家公司的初衷。

往深了說，這終究是一個數據問題。我們需要更多物理世界的數據來訓練機器人。

凱峰團隊正在努力讓更多觸覺數據能用于訓練機器人和CraftNet。這其實是一個飛輪效應（flywheel）：擁有帶有觸覺的優質靈巧手，我們就能生成更好的數據；有了更好的數據，就能訓練出更好的模型；模型越好，機器人就越有用，能勝任的場景就越多；場景打開了，客戶買單的意愿就越強，企業就有更多資金投入研發，從而造出更好的機器人。這就是大規模落地的底層邏輯。

甲子光年：從市場角度看，中美有什么差異？

Alicia：差異主要體現在供給側。中國的供應鏈速度實在太快了，只要市場有一點風吹草動，哪怕離真正爆發還有段距離，無數人就會立刻涌入并快速開發方案，整個生態系統的調動速度極其驚人。

中美兩國對新技術的接受度都很高，但感覺美國市場在真正大規模建立供應鏈之前，需要更多的“被說服”過程。而在中國，配合供應商、快速修正設計都極其高效。凱峰，你同意嗎？

張凱峰：完全同意。

甲子光年：在美國，市場教育成本高嗎？

Alicia：美國的科技圈，一切都發生得極快，科技從業者對新技術的接受度極高，所以你很容易就能積攢起一大批“早期采用者（Early adopters）”。

但在美國市場，真正的難題在于如何“跨越鴻溝（Cross the chasm）”，即如何從早期采用者打入主流大眾市場。對于主流客戶，你必須證明非常多的東西，他們才會買單。

但在中國，我感覺大家對待新事物的態度不太一樣。在中國，大家普遍認為“犯錯的成本，遠低于錯失機會的成本”。在其他地方（比如歐洲），人們非常害怕犯錯；但在中國，大家極其FOMO（Fear of Missing Out，錯失恐懼癥），害怕別人看到了機會而自己沒上車。所以在這種情緒下，哪怕技術還沒那么成熟，大家也會去試、去摸索。

甲子光年：如果未來機器人像智能手機一樣普及，你認為最關鍵的一次技術突破會來自哪里？

張凱峰：最關鍵的突破一定來自于“數據側的閉環”。如果我們能在某個真實的商業模式下，自動地、大規模地采集場景數據，并真正跑通“數據→模型→評測”的閉環，機器人就能像智能手機一樣普及。數據實在太關鍵了。

甲子光年：相比于行業里開源數據，你們自己其實掌握著大量極高質量的、適配你們硬件的“真機觸覺數據”。這批數據你們未來考慮開源嗎？

張凱峰：開源的事我們正在籌劃中，目前還沒有最終定論。

甲子光年：今年大家對“具身數據”的關注度空前高漲，你們如何解決數據問題？今年在其他方面有什么規劃嗎？

張凱峰：我們確實有一些布局，基本上圍繞“數據、模型、評測”這三個環節展開。我們主要攻堅自研的CraftNet，但我們也會以高校合作為手段來拓寬認知。

在數據方面，我們正在嘗試如何改進以人為中心（human-centric）的數據采集方式，同時也在攻克functional retargeting的難題，試圖把海量的動捕（MoCap）數據真正用起來。

在模型方面，針對System 0，我們希望能跑通一個更加通用的Sim-to-Real（仿真到現實）的技能Pipeline。

因為目前不同的操作技能，底層的方法論是不一樣的，我們想用一套通用的框架去解決它，目前也在推進用無監督強化學習（RL）來做整個System 0的方向。針對System 1，我們主要關注泛化性和魯棒性。

在評測方面，我們也在和學界合作，希望能解決目前評測中可靠性差（reliability）和極度耗費人力（labor-intensive）的痛點。

甲子光年：這也很符合你們全棧布局的策略。

Alicia：我們是一家全棧的具身智能公司。之所以要做全棧，是因為要想真正做到通用機器人，除了做好觸覺AI，別無選擇。

（封面圖來源：「甲子光年」拍攝）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.