<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      訓具身模型遇到的很多問題,在數據采集時就已經注定了丨鹿明丁琰

      0
      分享至

      衡宇 發自 凹非寺
      量子位 | 公眾號 QbitAI

      “我們只交付100%可以復現的軌跡?!?/p>

      具身智能創企鹿明機器人媒體溝通會上,聯席CTO丁琰對具身智能數據采集現狀、困境,以及最新興的采集方式UMI作了前沿的深度分享。

      他在分享中反復強調,很多團隊以為具身模型訓不出來是卡在訓練階段,實際多數問題在數據生成的起點就已經埋下了。后面再堆模型、堆算力,只是在給錯誤輸入繼續加速。

      丁琰的履歷能解釋他為什么會把“數據的可訓練性”看得這么重。

      他的研究方向是機器人學與具身智能,2024年3月從美國紐約州立大學計算機學院博士畢業。去年年底加入鹿明之前,他做過一星機器人的CTO,更早則在上海AI Lab擔任研究員。

      按他的說法,從2024年3月起,他就持續投入UMI方向,是大陸最早做UMI方向的人。



      UMI全稱叫Universal Manipulation Interface,最早來自斯坦福在2024年2月提出的一套工作。

      其核心是用與具體機器人本體解耦的方式,記錄人類在真實物理世界中的操作行為,把“操作意圖+運動軌跡+多模態感知”統一到一個通用接口里,供不同形態的機器人學習和復現。

      在去年9月之前,UMI還是一個偏冷門的方向。

      具身智能進入下半場后,數據的重要性與日俱增。

      丁琰分享道,前段時間有人歸納了具身智能在解決數據難題時的四種解法。

      • 遙操作數據,最著名的代表是智元機器人。
      • 仿真數據,代表公司是銀河通用機器人。
      • 人類視頻數據,它石智能就是這種解法的代表。
      • UMI,去年9月開始冒頭,鹿明就是代表性公司。

      鹿明基于現實需求,做出了一個名為FastUMI Pro的產品,這是一個無本體數采硬件。

      系統適配市面主流機械臂和夾爪,機身重量在600多克量級,但能夾起兩三公斤物品,場景覆蓋工廠與家庭。

      它還支持多模態輸入,包括觸覺、聽覺、六維力等。

      在UMI設備最核心的空間精度上,丁琰稱FastUMI Pro的1mm是“全球最高精度”。



      硬件產品背后,還有鹿明布局的數據采集、模型訓練生態。

      以“可復現”作為第一性原理做數據治理,丁琰帶領團隊建立了8道工業級數據質量評估體系,并承諾只交付100%可復現軌跡。

      (以下為丁琰分享的關于具身行業數采、UMI等相關內容,在不改變原意的基礎上作了編輯調整)

      具身數采的現存痛點

      2024年3月起,我就開始在做UMI,應該是大陸最早做這一塊的人。

      大家都知道,具身智能最關鍵的就是數據,海量的數據是訓練的一個必經之路。

      但是數據現在有很多痛點。

      第一個痛點就是成本,成本異常高昂。

      美國那邊,為了采集一個小時的訓練數據,大概要付出100-200美金的成本。

      現在的具身模型都還很小,PI 0的訓練數據大概是1萬個小時,Generalist的GEN 0是27萬個小時。這個規模對比GPT-3的訓練數據,還是非常小的。

      我們做了一個統計,大概相當于7.9億個小時的數據,才能在具身智能界訓出一個GPT-3規模的模型。按照現在的市場價格,需要耗費數百億美金。



      另外,具身數據整體采集效率還是比較低的。

      2023年到2024年左右,業內都是以遙操為主,一個小時大概能采集35條數據,效率異常低,成本也不可控。

      遙操還有個問題是什么呢,就是采集時,因為攝像頭記錄的是機械臂本身的運動軌跡和畫面,但每家機器人長得又都不一樣,所以用A機器人做遙操作采集的數據是很難很難用到B機器人上的,這就產生了數據孤島問題。

      大家重復造輪子,也會造成高昂的隱形成本。

      這是我們想解決的關鍵問題所在。

      用UMI數采,你為什么訓不出來模型?

      前段時間我寫了一篇小紅薯,題目叫《你為什么訓練不出來UMI的模型?》。

      我想就這次機會簡單跟大家介紹一下UMI行業的現狀。大家可能看到的更多的是冰山的一角,但浮在水下面的一個世界還是比較深的。

      一個很明顯的現狀就是什么呢?

      做UMI的人陸陸續續越來越多,但是訓出來模型的異常的少,可能一只手都數得過來。

      很多UMI設備涌現出來,大家都會強調自己低成本、能即插即用、快速部署,但是基本上你看不到什么成功的案例,就這個是非常非常有意思的現象。



      國外有兩家比較知名的公司,一個叫Sunday,一個叫Generalist,他們還是訓出模型了。

      國內目前我們覺得訓模型訓得比較好的一家就是我們,再有就是清華一家,上交一家,總共也就兩、三家能訓得出來。

      大多數情況下,要么訓不出來,要么即使是在相似的條件下能跑出來demo,時間也非常短,可能就3、4秒,也很卡頓,不絲滑。

      關于為什么大家用UMI采集出來的數據訓不出模型,最常見的解釋是“算法不是很成熟”“模型不夠大”“數據規模不足”,但是其實這些解釋都不是真正的原因。

      真正的原因根本不在于訓練階段,而在于訓練之初它就不是太對——

      大量的UMI數據從生成開始就不具備進入訓練管線的這個條件。

      說白了就是數據不合格。



      什么是可以訓練的UMI數據

      大家會有誤解,總覺得UMI數據就是人拿個夾爪,就把這個視頻數據記錄下來就行了,非常非常簡單,所有人都可以做。

      其實完全不是。

      UMI其實是AI對物理世界的理解對齊,并且在這個物理空間里面可以復現的這種交互行為。

      它必須滿足幾個條件。



      拆開了講,第一個就是說畫面要跟動作要嚴格對齊,要跟空間位置嚴格對齊;另外一個就是說因為UMI可以集成多個傳感器,每個傳感器之間也要做到毫秒級的同步。

      舉個例子,一個人想去拿眼前的一瓶水,不對齊的話得反應好幾秒,水就可能拿不起來。

      另外,一個好的軌跡必須可以在物理空間運動中可復現的。

      本質要求是希望UMI采集的數據是高一致性的、高密度的,并且可復現的時序數據結構。

      為什么大多數UMI設備采不到好的數據?

      現在大量的UMI設備采不出滿足條件的數據,兩個根本原因。

      一,核心問題是硬件能力完全不夠。

      UMI的CMOS組件或者主控芯片,性能非常差。

      導致的結果就是畫面覆蓋有限,畫質不怎么好,曝光也不怎么好,幀率比較抖動,這時候畫面就非常糟糕。

      它破壞了動作和視覺的因果關系。本來模仿學習就是我看到什么畫面就做什么動作,結果畫面和動作完全無法對齊,就會導致這個模型根本沒辦法學習。



      二,市面上很多產品不是系統設計的,而是很多現成模塊拼湊起來,用USB Hub連接的。

      這樣一來,產品的貸款架構非常脆弱,每個模塊都會搶帶寬。一旦有什么負載,就會出現掉幀等一系列問題,所以數據的質量就非常糟糕,基本沒辦法穩定復現交互記錄。

      也就是說,從硬件層面講,這些設備從一開始就沒辦法訓出模型需要的數據。

      “臟數據”和“廢數據”

      但即使設備好了,采的數據能不能訓出數據也不是一定的。

      舉個例子,別人拿到我們的設備,也不一定能訓出好的數據。

      為什么呢?這就要說數據的質量高低了。

      數據質量的高低其實并不是干凈程度,而是說有效的信息密度。

      低質量的數據,包含大量抖動、漂移、時間錯位,非常不利于學習。特別是在單視角情況(很多UMI是單個機械臂),這種噪聲不會因為你的數據量增大而被平滑掉,所以說你學出來的策略會非常非常糟糕,基本上訓不出來。

      低價值數據不是完全沒有價值。

      它還是有點價值,可以去認識這個世界,知道什么是杯子,什么是麥克風,但沒辦法從它身上學習到精確的物理交互信息

      它不知道桌上的麥克風我是怎么拿到的,我到底該正著拿還是反著拿,還是需要傾斜角度去拿。

      除了低質量的臟數據,我還把一種數據叫“廢數據”。



      廢數據是什么?

      就是很多人拿著設備直接去眾包去采集了,人怎么采就拿它怎么采。

      這種數據完全copy人類的自然行為,沒有任何設計和技巧,過于“天然去雕飾”了,基本上是不可能訓出來模型的。

      現在都在做的疊衣服,其實是最需要采集技巧的一個任務。疊衣服的時候要抖一下,抖的過程中還要注意方向、速度,才能抖好。

      但人在疊衣服的時候,很少會注意那么多tricks。

      每家具身公司都有自己的采集技巧,所以如果沒有注入任何技巧,即便拿到很好的UMI設備,采集的數據很像人的行為,但其實是廢數據,基本上模型訓練不了。

      能當然可能未來,十年、二十年,模型發展好了,這些數據可能就有用了。但目前很長一段階段這些數據基本上訓不了,所以稱為廢數據。

      硬件、數據和算法環環相扣

      正確的UMI的工程范式首先是一種系統的自洽,而不是一種簡單的功能拼接。

      傳統的路徑下面大家做機器人,首先有個硬件,硬件弄完了之后再弄軟件,弄完軟件我再弄算法,我反過頭來我再去補點數據,把這個整個loop給跑通。

      在UMI這個很特殊的場景下,這個范式是失效的。

      因為UMI是一個強耦合系統,數據會決定整個模型的性能,硬件會決定這個數據的質量;數據又會決定這個算法的性能,算法又會反向去約束我這個硬件的執行和這個數據的設計。

      硬件、數據和算法環環相扣,任何單點的這種失效都會導致訓不出優秀的模型。



      關于UMI,團隊做了什么

      博士畢業后,我從2024年3月就開始在做面向UMI的工作。

      去年9月之前,UMI在行業里還是比較冷門的,除了我和我的團隊基本沒人做。

      當時我們就有一個愿景,希望能打破這個數據獲取的這個不可能的三角,把非常高質量的數據砍到白菜價,加速應用來推進這個整個具身智能行業的發展。

      這里跟大家分享我和團隊近兩年的一些典型工作。



      首先就是FastUMI,我是這篇工作的通訊作者。

      FastUMI應該是全球首個將學術界(UMI,斯坦福,2024年2月)的工作升級成工業級別系統,然后推進它進入工業的。我們從2024年3月左右開始做這個工作,在7、8月左右完成,當年的9月中了CoRL 2025。

      FastUMI主要解決的問題是提高采集效率和數據質量。

      另外一個工作是FastUMI 100K。

      在有了一個很穩定的軟硬件系統后,我們開始擴大規模去采數據。當時我在上海AI Lab建立了一個數采長,我帶著11個人在3個月時間里,采集了10萬條真機數據,為機器學習提供了非常高質量的數據支持。

      這是全世界首個大型的UMI數據集。

      從這個工作中FastUMI團隊獲得了大規模的數據治理的經驗。

      我們還有一個工作叫Fastumi-MLM,它把UMI這項技術用于“狗+臂”。

      之前UMI都應用在單臂、雙臂或者輪式雙臂工作上。這是大陸第一個能將UMI用在這種構型機器人上的工作。

      除此之外,還有Spatial VLA、Agibot World、AskVLA等等。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      德云社職務突變不到半個月,官媒官宣王惠新動向,郭麒麟真沒說錯

      德云社職務突變不到半個月,官媒官宣王惠新動向,郭麒麟真沒說錯

      瓜汁橘長Dr
      2026-01-09 10:13:09
      漁村逆襲?“電詐惡魔”陳志老婆是四川人,150億比特幣沾滿血淚

      漁村逆襲?“電詐惡魔”陳志老婆是四川人,150億比特幣沾滿血淚

      豆腐腦觀察局
      2025-11-17 06:50:03
      突發!澳洲宣布拉黑亞洲!再見,印大利亞!

      突發!澳洲宣布拉黑亞洲!再見,印大利亞!

      澳洲紅領巾
      2026-01-09 13:37:24
      笑岔氣了!果然斷句是中國人一生的宿敵,只能說中國文化博大精深

      笑岔氣了!果然斷句是中國人一生的宿敵,只能說中國文化博大精深

      夜深愛雜談
      2025-12-19 16:39:58
      《復聯5》時長225分鐘,初代X戰警正式回歸,票房能否破50億?

      《復聯5》時長225分鐘,初代X戰警正式回歸,票房能否破50億?

      八卦南風
      2026-01-08 17:26:04
      在自家公司上班有多慘?網友:感同身受,想逃但是還不夠能力

      在自家公司上班有多慘?網友:感同身受,想逃但是還不夠能力

      解讀熱點事件
      2025-12-29 00:05:13
      賈靜雯 熟女的美背

      賈靜雯 熟女的美背

      手工制作阿殲
      2026-01-09 13:55:04
      中俄剛說打通圖們江,第一個跳出來反對的,一點不讓人意外

      中俄剛說打通圖們江,第一個跳出來反對的,一點不讓人意外

      聞香閣
      2026-01-04 11:16:35
      足球喜劇電影《改邪歸正》正式定檔于2026年1月23日

      足球喜劇電影《改邪歸正》正式定檔于2026年1月23日

      面包財經
      2026-01-07 14:46:24
      克林頓不是男人!要用雪茄助興?萊溫斯基:他把我當成“自助餐”

      克林頓不是男人!要用雪茄助興?萊溫斯基:他把我當成“自助餐”

      老蝣說體育
      2026-01-05 14:59:04
      特里斯坦-湯普森:阿德巴約和阿賈的兒子最好進NBA,別去當快遞員

      特里斯坦-湯普森:阿德巴約和阿賈的兒子最好進NBA,別去當快遞員

      懂球帝
      2026-01-09 11:00:00
      廣東媽媽入住月子中心,入住4天,剛出生9天的寶寶就不幸離世?已介入調查!

      廣東媽媽入住月子中心,入住4天,剛出生9天的寶寶就不幸離世?已介入調查!

      廣東活動
      2026-01-09 12:12:34
      伊朗抗議者完整拿下首個城市,距離成功又近了一步

      伊朗抗議者完整拿下首個城市,距離成功又近了一步

      金召點評
      2026-01-07 08:01:29
      全球首次!中國科學院靈長動物證實,40赫茲聲音療法,可持久清除大腦Aβ蛋白

      全球首次!中國科學院靈長動物證實,40赫茲聲音療法,可持久清除大腦Aβ蛋白

      醫諾維
      2026-01-07 17:15:53
      萬億央企蛀蟲終于揪出來了!離職七年難逃法網,25年腐化史現真容

      萬億央企蛀蟲終于揪出來了!離職七年難逃法網,25年腐化史現真容

      墨蘭史書
      2026-01-06 11:30:03
      7歲上初中,12歲考上浙大,如今20歲的“廣東神童”陳舒音怎樣了

      7歲上初中,12歲考上浙大,如今20歲的“廣東神童”陳舒音怎樣了

      豐譚筆錄
      2026-01-09 07:45:05
      今明兩天, 東方衛視 騰訊 愛奇藝殺瘋了, 又4部好劇同時開播, 你追哪部

      今明兩天, 東方衛視 騰訊 愛奇藝殺瘋了, 又4部好劇同時開播, 你追哪部

      小椰的奶奶
      2026-01-09 12:28:53
      “秦嵐”也太凡爾賽了吧!穿一身瑜伽服凹凸有致,巴掌腰太搶鏡

      “秦嵐”也太凡爾賽了吧!穿一身瑜伽服凹凸有致,巴掌腰太搶鏡

      巧手曉廚娘
      2025-12-30 18:59:18
      店員:實物會比圖片會大一點哦

      店員:實物會比圖片會大一點哦

      今日日本
      2026-01-08 08:33:35
      0.1秒反殺!連著2場絕殺!他46分統治加時!

      0.1秒反殺!連著2場絕殺!他46分統治加時!

      柚子說球
      2026-01-08 21:20:43
      2026-01-09 16:44:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11992文章數 176357關注度
      往期回顧 全部

      科技要聞

      市場偏愛MiniMax:開盤漲42%,市值超700億

      頭條要聞

      特朗普稱若大陸改變臺灣現狀他將"不悅" 外交部回應

      頭條要聞

      特朗普稱若大陸改變臺灣現狀他將"不悅" 外交部回應

      體育要聞

      金元時代最后的外援,來中國8年了

      娛樂要聞

      檀健次戀愛風波越演越烈 上學經歷被扒

      財經要聞

      郁亮的萬科35年:從"寶萬之爭"到"活下去"

      汽車要聞

      英偉達的野心:做一套自動駕駛的“安卓系統”

      態度原創

      游戲
      藝術
      時尚
      教育
      軍事航空

      曝Xbox發布會有神秘游戲!但別抱太大期望?

      藝術要聞

      Sean Yoro:街頭藝術界的“沖浪高手”

      60+女性穿搭“高級感”秘訣:4個日常技巧,輕松美出優雅氣質

      教育要聞

      常生龍:中小學日??荚嚬芾硇抡奶魬?,在于如何避免“穿新鞋走老路”

      軍事要聞

      特朗普:已開始從委石油資源中賺錢

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 性欧美vr高清极品| 最新中文字幕免费观看| 肥白大屁股bbwbbwhd| 91乱子伦国产乱子伦无码| 天天躁日日躁狠狠躁欧美老妇| 久激情内射婷内射蜜桃| 色综合久久久久无码专区| 精品午夜福利短视频一区| 中文无码高潮到痉挛在线视频| 亚洲少妇人妻无码视频| 婷婷五月伊人| 青青草原网站在线观看| 午夜精品久久久久成人| AV国内高清啪啪| 大香蕉一区| 国产做a爱片久久毛片a片| 中文字幕人成无码免费视频| 97激情| 亚洲羞羞| 一级做a爱视频在线播放| 全亚洲精品成人| 亚洲综合网国产精品一区| 日本熟妇色xxxxx日本免费看| 欧美日韩在线第一页免费观看| 洋洋AV| 国产一线二线三线女| 日本一区不卡高清更新二区| 无码人妻视频一区二区三区| 亚洲精品电影| 88XV日韩| 色妺妺视频网| 日韩?人妻?精品| 日本丰满护士bbw| 免费看婬乱a欧美大片| 成人国产综合| 女同久久一区二区三区 | 中文字幕一区二区三区乱码| 久久狠狠高潮亚洲精品| 丝袜人妖av在线一区二区| 中文字幕有码无码| 固安县|