![]()
深入做UMI之后,我見識到了管理之難。
作者丨高景輝
編輯丨馬曉寧
![]()
數據采集,向來是具身智能行業的一大難題。成本、精度、泛化能力,似乎構成一個不可能三角,能找到一個可以落地的平衡點已十分不易。
在此背景下,2025 年 11 月中旬 Sunday Robotics 橫空出世,向全世界的具身智能公司證明了 UMI 方案的可行性。一時之間,UMI 的行業關注度空前高漲。
而在國內,丁琰博士的數采方案「FastUMI」同樣驚艷四座,憑借低成本、高數據質量、快速部署等特點深受行業青睞,被視為具身智能數據采集的新范式。
實際上,丁琰博士是國內最早將 UMI 落地實踐的從業者。從上海 AI Lab 到一星機器人,再到如今的鹿明機器人,他始終專注于 UMI 的研究與推動,即便在早期這一方向并不被大部分人看好,他也依然堅持投入。時至今日,終于迎來“守得云開見月明”的時刻。
對于 UMI,丁琰博士有著獨特的理解。他將 UMI 視為一套完整體系,而非單純的數采工具;他的目標清晰,希望把 UMI 打造成像 AK47 一樣“簡單、可靠、低成本、好用”的工業級基礎設施;同時,他深知數采背后真正的難點,除技術之外,更考驗流程組織、人員管理與執行體系的復雜性。
今年由 GAIR 研究院與雷峰網聯合主辦的「第八屆 GAIR 全球人工智能與機器人大會」上,我們有幸邀請到了丁琰博士參與圓桌會談,分享他關于數據與 UMI 的深刻洞見。
在大會之前,我們與丁琰博士展開了一場深入對話,以便與會者探討交流。
01
UMI不只是一種數采方式,
而是一整套體系
AI科技評論:你之前說在一星有“沒做完的事情”,這個事情是指什么?FastUMI 算是其中之一嗎?
丁琰:可以說,我是中國大陸最早投入 UMI 的人,從 2024 年 3 月開始,我就堅定地押注這條路線,在當時,UMI在國內還是極其小眾的方向,整個中國具身智能圈幾乎沒有人公開選擇 UMI 這條路線。
大家對 UMI 理解往往偏于表面,會把它看成一種數據采集方式,但在我看來,UMI 是一整套完整的方法論和體系。數據會反過來決定模型、系統架構、采集流程、算法設計,甚至影響硬件形態——整個鏈條都會因此發生變化。正因如此,我始終堅信 UMI 的前景,也非常希望把這件事真正做成。但當一件自己傾注心力的事業突然中斷時,打擊是難免的。沒來得及做完的事太多:我們規劃的產品路線、硬件怎么走、數據怎么建體系、模型怎么迭代、場景如何落地、生態如何構建、又如何與全球頂尖公司競爭……這些都還在路上,都屬于“未竟之業”。
另一層“沒做完的事”,是關于我個人的。我決定離開學術界進入工業界,是下了很大決心的。我希望能在工業界扎下根,做出一些真正的成績,也讓自己學到新的東西。相比學術圈,工業界的環境要復雜得多,人是最重要也是最難的部分——你需要與各種角色打交道:技術、采購、銷售、財務、供應商、投資人……溝通和協作的成本遠超想象。這些雖然與技術本身無關,卻是我必須面對的一種成長與考驗。而對我來說,這些考驗似乎才剛剛開始,卻被迫按下了暫停鍵。所以,我希望能在鹿明繼續把這件事情做下去,把它真正做完。
AI科技評論:從一星到鹿明的過程是怎樣的?
丁琰:一星這事在業內比較少見。很多人是在今年 6 月份加入一星,而我從 4 月份就開始組建一星的技術團隊,到 10 月份公司關閉,總共經歷了 6 個月。這半年里,整個技術團隊都是由我從零搭建的,技術路線也是我在確定;數據體系、模型方案、產品規劃等核心內容也都由我主導。整個技術版圖其實非常宏大,按正常節奏至少需要兩年才能完整落地,我們已經規劃了多條產品線與技術路線。但一切都在沒有預兆的情況下戛然而止。
9 月 30 日凌晨,我還在韓國參加展會,突然接到通知說一星即將被注銷。我馬上從韓國趕回蘇州,落地之后公司就啟動了注銷流程,根本來不及反應。到 10 月 13 日,全員都已經簽完了離職協議。那段時間,各種公司和投資人幾乎每天都在聯系我,每一家都有自己的吸引點和優勢,也讓我必須盡快做出判斷。
AI科技評論:鹿明有哪些吸引你的地方?
丁琰:鹿明是很有特色的一個公司,CEO 本身是技術背景,清華本碩出身,對 UMI 方向始終抱有強烈的愿景與堅持。我是 11 月 2 號加入的鹿明,當時 UMI 在行業內還沒有真正火起來——直到11月中旬,Generalist 和 Sunday Robotics 展示了他們基于 UMI 的成果,才讓整個具身智能領域為之震撼。也正因為如此,在10月底的時候,國內幾乎沒有人愿意在 UMI 上 all in。
但鹿明與眾不同,創始團隊從一開始就堅定地要在 UMI 上重注發力,這種判斷力與決心正是吸引我加入的關鍵原因。
AI科技評論:同為鹿明CTO,你和曹俊亮博士的分工合作是怎樣的?
丁琰:我們之間的交流非常密切。我本身并非做硬件出身,因此在產品設計上非常依賴曹博的支持。比如我們計劃推出力控版本、平動版本、非平動版本以及便攜版本等多條產品線,曹博憑借豐富的量產經驗,能幫助我補齊在硬件方面的短板。同時,曹博在做產品時也需要算法團隊的支撐。例如,他希望小型人形機器人能夠執行某些操作,就會來咨詢我,讓我們從算法需求的角度參與定義硬件,而不是僅憑物理結構去做設計。我們就是通過這樣軟硬件的深度協同,才能共同打磨出真正極致的產品。
02
優秀的數采方案,
應該像「AK47」一樣
AI科技評論:你從什么時候開始做UMI的?
丁琰:我在 2024 年 3 月正式啟動了與 UMI 類似的新項目,4 月回國后便在上海 AI Lab 全力投入相關研究,一直持續到 2025 年 6 月底離職。在這一年多的時間里,我幾乎把全部精力都放在這件事上,期間發表的三四篇論文也都圍繞 FastUMI 展開。因為有足夠長時間的技術積累,我們在實驗室階段把所有關鍵路線、可行性和核心機制都驗證完了,看到了真正的曙光,我才敢把這項技術帶到一星繼續推進。可以說,FastUMI 最初誕生于學術界,而我后來在工業界做的,就是把它從一個實驗室原型,真正打磨成一個可以規模化、可量產的工業級產品。
AI科技評論:相較于UMI,傳統的遙操作方案有哪些不足?
丁琰:我最初在 AI Lab 時,其實是以數據采集顧問的身份為一家行業獨角獸提供支持。當時我們做的是一套完全傳統、依賴遙操作的數據采集體系。彼時 UMI 還沒有形成如今這樣明確的技術流派,行業更多是覺得“好像有點意思”,但幾乎沒有人愿意真正投入。那時的市場格局非常明顯:至少九成的人都在做遙操作。然而,遙操作從一開始就存在非常突出的結構性問題。
第一,遙操作的數采效率比較低。一天能采集 100 條數據就已經算是非常優秀的效率了。我在做顧問期間發現,采集員常常會產出各種奇怪的軌跡,數據分布不可控,數據質量更是參差不齊。整個過程對人依賴極高,幾乎無法實現一致性和規模化。
第二,遙操作的成本很高。由于必須依賴機器人本體進行采集,而一臺本體的價格往往在 40 萬元以上。如果你要采購五六十臺來支撐規模化數據采集,前期投入就是兩三千萬元。在業務還沒看到產出之前,這種成本對于任何公司都是沉重的壓力。
第三,遙操作的數據質量也有問題。操作員戴著 VR 去操縱機械臂,缺乏真實的力覺反饋,中間存在大量動作不連續、體感不自然的 gap。這造成的數據往往是抖動的、不穩定的、缺乏一致性的。比如一個簡單的抓取動作,如果不是熟練工,可能要重復多次才能完成,生成的軌跡非常噪聲化,而這種數據對于模型訓練來說是非常糟糕的。
第四,遙操作有數據孤島的問題。遙操作采集的數據通常高度依賴特定品牌、特定形態、特定參數的機器人本體,因此數據只能在本公司、自家機器人體系內使用。一旦換了不同的機器人、控制器或執行器,這些數據的可遷移性就非常差,訓練效果往往會大幅下降。換句話說,遙操作天然會形成數據孤島,而無法構建行業級的通用數據資產。
AI科技評論:那純視頻呢?
丁琰:純視頻方案上,學術界和工業界其實存在一個非常明顯的思維差異。在學術圈,只要一個方向足夠 novel、有趣、能寫論文,它就可以被視為一項很優秀的工作——至于能不能真正落地,并不是最核心的評價指標。但工業界完全不同。工業界追求的是那種簡單粗暴、可靠可擴展的方案。我經常半開玩笑地說,我們要做的是“像 AK47 一樣”的技術:簡單、便宜、好用、有效。而從目前來看,純視頻方案距離這種工業級標準還有明顯差距。純視頻當然能學到一些東西,但機器人面對的是真實的物理世界,而物理世界有大量必須被感知的信號:觸覺、力控、摩擦、接觸反饋,甚至聲音。純視頻無法直接獲取這些關鍵的物理信息,而這些恰恰是機器人學習和決策中非常重要的一環。因此,純視頻的數據價值不能否認,但它如何更好地在具身智能中被利用、以及能否成為主要的數據形態,還需要進一步探索。
AI科技評論:所以你選擇了UMI。
丁琰:對,UMI 的核心優勢就在于它能夠直接從物理世界采集數據,而且完全不依賴機器人本體。我們只需要把 UMI 設備戴在手腕上,用一個夾爪去模擬機器人的操作過程。畫面中呈現的只有夾爪本身——這意味著,只要未來機器人的夾爪形態與它一致,這份數據就可以無縫遷移、直接使用,是真正的“通用型物理數據”。同時,UMI 采到的是非常精準的物理世界數據,包括動作軌跡、接觸模式、力的變化等。在這種方式下,人的體感與機器動作之間的 gap 非常小,大概只有 10%–20%,采集過程流暢自然,“看到就能抓、抓了就能做”。而相比之下,遙操作的體感 gap 往往高達 80%–90%。操作員戴著 VR 遠程操控機械臂,動作延遲大、反饋不連續、缺乏真實觸感,這些都會導致軌跡抖動、動作不自然,數據質量也因此大幅下降。
AI科技評論:那種手套方案怎么樣?
丁琰:他們更多采的是五指數據,而 FastUMI 用的是二指數據,這本質上是兩個完全不同的技術賽道。手套類設備也可以算是 UMI 的一種擴展形式,但目前五指路線整體還不夠成熟。二指 UMI 的核心能力在于獲取空間中的高精度軌跡,并準確記錄夾爪的開合信息。由于二指夾爪的機械結構穩定、自由度少,因此可以直接、精準地推算出每個夾爪末端在空間中的位置,數據質量非常穩定。而五指方案的目標是獲取每一個關節在空間中的位置,自由度暴漲、解算難度成倍提升。人手有 22 個關節,要讓每個關節都保持毫米級誤差幾乎不現實。即使使用手套傳感器,單關節誤差往往仍然在厘米級,這會直接影響 replay(動作復現)效果。
AI科技評論:什么是好數據?
丁琰:本質上必須能 replay 成功 才算。當機器人按照數據執行動作時,如果不能精準還原人類的軌跡,那這份數據是無法用于訓練的。因此,五指方案雖然也是一種 UMI 思路,但如果沒有激光動捕等高成本環境輔助,其數據精度很難滿足工業級需求。而二指 UMI 的優勢就在于結構簡單、可控性強、誤差小、可 replay,真正符合可落地、可規模化的要求。
AI科技評論:目前在學術界其實也有一些UMI的方案,這些方案有哪些不足之處?
丁琰:我們應該算是全球第二家系統性開展 UMI 工作的團隊,我對首家開展UMI 團隊的工作非常尊敬,他們算是為 UMI 打開了整個技術方向的先河。那套系統整體對操作技能要求非常高,也更偏科研屬性。
第一,他們的采集設備本身非常復雜。以軌跡讀取為例,我們現在的 FastUMI 軌跡是直接從設備中讀取的,插上電腦 1~2 分鐘就能自動生成結果。而他們要讀取軌跡,首先要對 GoPro 做標定,這一步至少需要 20 分鐘;如果不是特別熟練的操作員,整個流程甚至可能需要一小時以上。
第二,他們的軌跡生成鏈路也非常長。采集時需要按照特定速度錄制視頻,錄完后要取出 SD 卡,用讀卡器插電腦,再通過 GoPro 的專用軟件導出原始數據,然后再跑一套比較復雜的代碼。光是環境配置和依賴安裝就可能需要二三十分鐘,最終才算能輸出軌跡。
但這個軌跡還不一定成功,因為他們使用的是單目相機,而單目視覺里程計本身就極其容易失敗。我們第一次嘗試他們的方案時,大概 50%~60% 的軌跡都無法正確生成。后來才發現必須嚴格控制采集速度,而且場景里必須非常豐富的視覺特征點,否則視覺定位就會崩。
AI科技評論:FastUMI做了哪些改進?
丁琰:在硬件層面,他們的 UMI 系統只能運行在特定的幾套設備上,例如 Franka 或 UR5e,夾爪必須使用 WSG-50,換成其他機器人或末端執行器基本就無法開箱即用。而這些設備動輒二三十萬元,對大多數團隊來說成本極高。為了讓 UMI 能真正做到通用普適,我們投入了大量工作去做解耦,讓任何機器人、任何夾爪都可以使用 FastUMI 這一體系,這是我們非常重要的技術突破。
在軟件層面,我們用成熟穩定的TR65完全替代了原本復雜且易失敗的軌跡計算方案。現在只需要 1~2 分鐘就能穩定算出高質量軌跡,大幅提升了數據處理效率。
在算法層面,對方的體系主要只有一個 DP 算法。我們則針對 UMI 數據的特點開發和適配了四五種不同的算法,并在數據預處理、軌跡對齊、開合建模、觸覺/力控特征提取等方面做了大量優化,使整個 UMI 算法鏈路更加完整、魯棒。
綜上,我們從硬件、軟件到算法三個維度構建了一個扎實、完整并且可規模化的 UMI 體系。之后我們還自主采集了大約1萬小時的UMI數據 ,積累了大量一線采集經驗,為體系的穩定性和可重復性進一步打下基礎。
03
整個具身智能圈子2/3的人,
都在用FastUMI Pro
AI科技評論:你們的新產品FastUMI Pro據說成本只有傳統方案的 1/5,可以具體透露一下它這個每條數據的成本是多少嗎?
丁琰:數據的成本包括前期的高額研發投入,場地、采集人工電費以及設備折舊等等,我們新產品 FastUMI Pro 的成本能僅有傳統方案的 1/5。我們現在的數據定價本質上是以“通用型數據”的模式定價。所謂通用型數據,就是一份數據可以重復售賣,并能夠在不同機器人、不同算法體系中復用。因此,如果同一條數據能多次賣出,效益就會比較理想。
AI科技評論:FastUMI Pro很輕,但輕巧就意味著精簡,有些功能會舍棄,那么在結構設計上如何平衡重量和功能?
丁琰:首先,如果希望采集員一天能夠穩定采 500~1000 條數據,設備的重量必須控制在合理范圍內,否則長時間操作會非常疲勞。因此我們把重量上限定在600g。但這項工作當時是在一星的大工業場景下推進的,涉及的物品都很重,比如汽車零部件,部分甚至達到1.5kg左右。所以我們設定了一個硬性指標:設備必須能承載 2kg 的物體,而且同時保持足夠輕巧。
這在當時是非常有挑戰的,因為學術界還沒有哪個研究型設備能做到既支持 2kg 負載,又具備工業級耐用性。早期在 AI Lab,我們使用的還是 3D 打印結構件,非常容易損壞。那段時間最痛苦的就是——基本每天都在換零件。也正因如此,到了一星之后我們下定決心重新設計一款真正工業級的 UMI 設備,于是就有了FastUMI Pro。
在硬件結構上,我們做了大量工程化優化,同時邀請專業人士對整體結構進行了系統的受力分析,明確哪些部位是主要受力點、最容易損壞。所有高應力區域,我們都采用了強度更高的特殊材料進行加固;而在螺絲孔、開合機構等容易變形的位置,我們也全面更換為更高規格的材料與結構。
至于非關鍵受力區域,我們的目標就是——能輕則輕。為此,我們嘗試了二三十種不同厚度的結構版本,每一個版本都實際打印出來測試。在最終定型中,我們把部分結構的厚度壓到1.5 mm,而最薄的區域甚至做到0.5 mm——因為這些區域幾乎不受力。可以說,我們是把每一個細節都打磨到了極致,才達成了“輕量化與高強度同時兼顧”的目標。
AI科技評論:同時它的定位精度又很高,這是如何實現的?
丁琰:這一切的實現,其實歸功于我們在軟硬件和算法上的全鏈路投入。當時我們下了一個非常重要的決心:在產品成型之前不計成本地打磨品質,因為只要規模化之后,成本最終都可以攤薄。
因此,在最初的設計階段,我們就選擇了最好的傳感器、組建了最強的算法團隊。在跑完整個 pipeline 后,我們發現定位精度會直接影響算法效果,尤其是軌跡擬合、動作復現和多模態信號解算,因此我們決定必須把定位精度做到極致,并逐個解決可能出現的 corner case。
為此,我們不僅搭建了專門的算法團隊長期攻堅,還投入了數百萬元持續打磨這個產品。在硬件、軟件、算法三端不斷迭代的過程中,FastUMI Pro 才最終具備了今天的工業級穩定性和精度。
AI科技評論:從結果來看,這個投入是完全值得的。
丁琰:對,我加入鹿明還不到一個月,FastUMI Pro 就已經銷售給了幾十家企業。整個具身智能圈里大約有三分之二的團隊都在咨詢、測試或直接使用這款產品,國內國外都有。很多團隊甚至是一口氣采購多套設備回去評估。FastUMI Pro 基本已經成為行業內驗證 UMI 能力的“標配裝備”。
AI科技評論:您說過魚眼鏡頭的FOV必須足夠大,否則會出現物體超出視野的情況,那么FastUMI Pro采用了什么方案避免這一問題?
丁琰:就像我一開始強調的那樣,UMI 從來不是一個簡單的數采方案,而是一整套系統工程。數據的形態會直接影響算法,而數據與算法又會反過來決定硬件的結構設計。早期的 UMI 基本都把相機放在腕部,視野非常受限,背景信息嚴重缺失,有些物體甚至只能看到局部,這對于算法推理來說是極不友好的,因為模型必須依賴足夠豐富、穩定的信息量才能可靠推斷。然而,很多人做 UMI 只停留在“造出一個硬件”這個層面,沒有真正完整走過從數據采集、算法訓練再到回到硬件調整的全流程,這其實是非常不對的。真正的 UMI 必須經歷一個反復迭代的閉環:先采數據,再訓練算法,再根據算法結果不斷修改硬件,只有這樣整個體系才能成熟。在我們的實際訓練中,我們發現像素必須足夠大、白平衡必須足夠穩定、抗抖性能必須足夠強,否則模型就無法復現軌跡或推斷正確動作。也正是根據算法反饋,我們最終選用了大魚眼作為當前的最優解。
為了確定攝像頭方案,我們幾乎把所有能找到的魚眼相機都買了一遍,前后大概二三十款。測試下來發現,很多魚眼的實際視角根本達不到宣傳的 180 度,要么畫面灰暗、動態范圍差,要么在快速運動時出現明顯抖動,還有不少白平衡極不穩定。所謂白平衡,就是當你用手遮住攝像頭再移開時,圖像需要瞬間恢復正常顏色;如果要兩三秒才能恢復,那么這一段數據軌跡就基本報廢了。正因為我們完整經歷了“硬件—數據—算法—再回到硬件”的閉環迭代,并用大量試錯驗證各種可能性,才最終確定了現在這個大魚眼方案。它不是隨便選出來的,而是從幾十種失敗選項里打磨出來的最優解。
![]()
04
深入做UMI后,
我見識了采集員的管理之難
AI科技評論:FastUMI Pro為什么采用實時前處理?
丁琰:只有真正深入做 UMI,才會意識到實時前處理的重要性。我個人并不太傾向于 Generalist 或 Sunday Robotics 那類更偏后處理的方案。在實際采集中我們發現,后處理模式幾乎是災難性的:你可能錄了八個小時的視頻,最終為了得到真正可用的軌跡,不但要按任務把視頻切成一段一段,還要逐條排查臟數據、刪除錯誤片段、剔除低質量樣本,整個流程極其繁瑣,成本和人力消耗巨大。相比之下,實時前處理模式能夠當場發現問題、當場修正,從源頭保證數據質量。
選擇前處理還有另一個很現實的原因——人性。數據采集員是非常難管理的。如果采用后處理方式,你把設備交給一個采集員,他干了一個星期,最后發現數據全部不能用,那么這一個星期的工錢到底付還是不付?而且問題并不總是硬件出錯,更多時候是操作不規范造成的。我們在上海 AI Lab 建采集場的時候就遇到過大量類似情況:你規定某個任務必須 10 秒完成,但采集員可能 5 秒就做完了,動作不完整、節奏不符,導致整段數據完全沒法用,而他們往往不會在意這些細節。因此,如果不在前端進行實時校驗與約束,不僅數據質量無法保證,整個采集體系也難以長久維持。
AI科技評論:這些人是從哪找的?
丁琰:這些采集員大多是按小時計費的兼職人員,工作本身也沒有太強的技術含量,他們往往無法真正保證采集結果的質量。即便你給出明確規范,他們也不一定會嚴格執行,這就進一步放大了后處理方案的不確定性和風險。
AI科技評論:不能去高校找一些大學生嗎?大學生也挺便宜的吧。
丁琰:我們在 AI Lab 找的數據采集員其實都是大學生,但各種操作不規范的問題仍然很難避免,這讓我真正見識到了管理的復雜性。那時候外包團隊只有 11 個人,管理都已經很吃力了,如果建一個一百人的數據采集工廠,恐怕會直接崩潰。所以我們后來強調“不能做后處理”,理由并不是技術,而是管理。后處理意味著采集員一整個星期都在積累潛在錯誤,等數據全都無效時已經無法挽回,也無法實時指導他們如何改正。相比之下,前處理能夠實時給工人反饋,告訴他動作哪里不達標、哪些步驟需要重做。我們第一周的合格率只有 50%-60%,但經過一兩周的實時反饋訓練之后,整體合格率顯著提升,到了最后幾周甚至有人能做到 100% 合格。后處理完全做不到這一點,因為采集和修正之間是割裂的,錯誤無法在第一時間被發現并糾正,而這一點恰恰決定了數據采集體系能否真正跑通。
AI科技評論:所以前處理沒有技術上的難點嗎?
丁琰:當然,還有一個原因來自硬件本身。硬件在最初階段可能出現的問題太多了,往往需要經過至少半年的迭代才能逐步穩定下來。只有當硬件足夠可靠、采集員也完全熟練之后,才有可能轉向后處理模式。也就是說,前處理和后處理并不是絕對對立的關系,更像是一種循序漸進、水到渠成的過程。當系統還不成熟時必須依賴前處理來保證質量;等整個鏈路穩定之后,后處理自然就能夠接上。
AI科技評論:你曾說在研發過程中踩過了很多坑,可以講一下有踩過哪些坑嗎?
丁琰:以魚眼鏡頭為例,我們最初基于控制成本的考慮,采用了一些低性能鏡頭湊合,但在實際訓練和驗證中發現,算法根本無法在這種低性能鏡頭上發揮作用,所以最終選用了將近大幾百一顆的高品質魚眼。類似地,也有人問過我們的 UMI 設備和 3D 打印出來的版本有何區別——乍一看外觀可能差不多,但真正用起來完全不是一個層級。3D 打印件本身就不穩定,采集過程中各種結構性問題會頻繁出現,導致效率極低,完全達不到工業化生產所需的可靠性,也根本無法作為一個可以拿去售賣的產品。真正的工業產品必須在強度、穩定性、耐久度、精度等方面都經得起驗證,這些都是 3D 打印無法承擔的。
AI科技評論:技術上還有其他瓶頸嗎?
丁琰:技術上的瓶頸其實更多來自算法層面。我們團隊在這一條線上不斷迭代了一年四個月,幾乎把能踩的坑都踩過一遍,深刻體會到 UMI 最難的地方根本不是硬件。如果用 100 分來衡量整體難度,硬件大概只占三四十分,而數據處理的難度卻在六七十分以上。很多人以為 UMI 看起來很簡單,好像隨便誰都能做,但他們并不知道真正的挑戰不在于把一個設備做出來,而在于如何把數據處理好,因為整個 pipeline 異常漫長、異常復雜。UMI 的“壞的一面”就在這里——它的數據極其難處理。如果用做菜來比喻,這就像遇到了一種食材,本身又便宜又美味,但處理過程極其繁瑣,需要大量技巧和耐心,否則根本做不出好菜。UMI 的數據也是一樣,只有把這道最難處理的食材處理好了,整個體系才能真正發揮價值。
AI科技評論:所以算法才是你們的技術壁壘?
丁琰:可以這么形容,我們的數據處理全鏈路,別人可能需要一年才能真正跑通,而我們已經積累了超過 1萬小時的實戰采集經驗,這本身就是非常強的壁壘。很多人看到的只是 UMI 的硬件外觀,但那只是冰山一角,真正的難點和價值都藏在水面之下的部分——也就是數據處理、算法鏈路、異常場景處理、質量控制體系、采集規范化、以及迭代出來的經驗。這些看不見的部分才決定了整個系統的可靠性與可擴展性。硬件只是入口,而真正的深水區,全在背后那條漫長而復雜的數據 pipeline。
AI科技評論:FastUMI Pro在鹿明的產品生態中扮演什么樣的角色?
丁琰:鹿明的人形機器人在運動能力方面本來就非常突出,但在操縱能力上的優勢還不夠明顯,而 FastUMI 團隊的加入讓鹿明在 manipulation(操控能力)這一關鍵維度上獲得了顯著提升。
AI科技評論:會有資源不夠分的問題嗎?
丁琰:不會,CEO喻超是一個非常有戰略定力的人,一旦認定方向,就會堅定地 All in 下去。未來鹿明的主要布局將圍繞兩條主線:一條是人形機器人本身,另一條就是 FastUMI 體系。在 UMI 方向上我們擁有非常明確的先發優勢,而且團隊對技術路線和產品節奏都非常有信心,相信能夠持續保持行業領先。
AI科技評論:鹿明未來在技術研發上有哪些重點方向?
丁琰:我更多能談的是軟件側的內容,尤其是數據。在具身智能領域,數據是高度多模態的,其復雜度遠超自動駕駛。自動駕駛幾乎不需要觸覺、力控甚至聲音數據,但這些恰恰是具身智能的基礎維度。未來還會疊加更多模態,使理解與探索的難度進一步提升。現在整個行業在“具身智能該如何獲取、理解和使用數據”這件事上的認知仍然非常不足,因此數據一定會是鹿明未來最核心的戰略重點。
另一方面是我們自研的模型架構,其實也有大量講究。并不是所有數據都能簡單混在一起做訓練,每一種數據都有其天然結構和語義特征,如何根據這些特征去構建屬于自己的 VLA 架構,才是最關鍵的。我們會圍繞數據特點對模型進行針對性的結構改進,充分釋放不同模態的價值,這也是鹿明未來研發的另一條核心主線。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.