一家成立不到兩年的機器人公司,把工廠流水線上的精細活兒成功率干到了99%。折疊紙盒、打包手機、維修掃地機器人——這些過去需要人類雙手和十年老師傅經(jīng)驗的工作,現(xiàn)在一臺機器一小時就能學會。
Generalist 昨天扔出 GEN-1,號稱"跨入生產(chǎn)級成功率"。不是實驗室Demo,是真正能進工廠干活的水平。速度比上一代快三倍,還能在東西掉地上的時候即興發(fā)揮,像人一樣"抖抖袋子"把玩具塞進去。
50萬小時的"數(shù)據(jù)手":機器人終于有了自己的互聯(lián)網(wǎng)
大語言模型能成,是因為有整個互聯(lián)網(wǎng)的文字可以啃。機器人沒這待遇——YouTube上沒人上傳"怎么擰螺絲"的4K教程,GitHub也沒有"抓取易碎品"的開源數(shù)據(jù)集。
Generalist 的解法很直接:造了一副可穿戴的機械爪子,叫"數(shù)據(jù)手"(data hands)。人類戴著它干活,微動作和視覺信息全被記錄下來。到現(xiàn)在攢了超過50萬小時、PB級別的物理交互數(shù)據(jù)。
CEO Kanu Gulati 在接受 Forbes 采訪時打了個比方:「這就像給機器人造了一個互聯(lián)網(wǎng),只不過不是網(wǎng)頁,是觸覺。」
這個量級什么概念?OpenAI 訓練 GPT-3 用了大約3000億個token,折合人類閱讀時間大概幾百萬年——但那是文本,復制粘貼零成本。物理數(shù)據(jù)得真人真手去錄,50萬小時是實打實的人力堆出來的。
Generalist 的工程師透露,他們早期試過用仿真數(shù)據(jù),但"物體表面的反光、手指的輕微打滑,這些細節(jié)在仿真里全是噪聲"。真手錄出來的數(shù)據(jù),機器人學完后才能應對"訓練分布之外"的突發(fā)狀況。
一小時適配:從通用模型到專用手臂
GEN-1 的核心賣點是"預訓練+微調"的機器人版本。模型先在50萬小時的人類動作數(shù)據(jù)上啃完"通識課",然后針對具體機器人的硬件形態(tài)——是單臂還是雙臂,夾爪還是五指——再做大約一小時的"轉學生適應"。
結果是折疊紙盒這類重復但精細的機械任務,成功率沖到99%。打包手機、維修掃地機器人也在同一水平線。上一代 GEN-0 去年11月發(fā)布時,Generalist 還在證明"規(guī)模法則在機器人領域也適用"——簡單說就是數(shù)據(jù)越多、算力越足,表現(xiàn)越好。當時算是概念驗證,現(xiàn)在 GEN-1 直接進了生產(chǎn)級。
速度提升三倍是個容易被忽略的細節(jié)。工廠算賬很現(xiàn)實:一臺機器人如果干得太慢,省下來的人工成本抵不上產(chǎn)能損失。三倍速意味著從"能用"變成"劃算"。
更微妙的是"即興發(fā)揮"的能力。傳統(tǒng)工業(yè)機器人像嚴格執(zhí)行菜譜的廚師,食材位置偏一厘米就抓空。GEN-1 被描述為能在"訓練分布之外"自然響應—— Forbes 報道里舉了個例子:工程師演示時,毛絨玩具卡在塑料袋口,模型自己決定"抖一下袋子"讓玩具滑進去。
這個動作不在任何訓練數(shù)據(jù)里。Generalist 的解讀是,模型把"搖晃使物體移動"這個物理直覺,從別處遷移了過來。
從"替代人手"到"替代人腦"的邊界
Generalist 的野心不止于工廠。官網(wǎng)列出的應用場景包括折疊衣物、整理汽車零件、甚至"把錢放進錢包"——這些任務的共同點是:規(guī)則模糊、物體不規(guī)則、容錯率極低。
折疊衣物是機器人領域的老大難問題。布料柔軟、褶皺隨機,每次狀態(tài)都不一樣。傳統(tǒng)方案是給每種衣服類型寫專門的抓取策略,維護成本高到離譜。GEN-1 的思路是:讓模型自己從人類動作里學"怎么處理柔軟變形體",而不是硬編碼規(guī)則。
汽車零件分揀同理。螺絲、墊片、異形卡扣混在一起,形狀、重量、表面摩擦力各不相同。人類掃一眼就能分辨,機器人過去需要視覺+力控+專用夾具的三重配置。Generalist 聲稱 GEN-1 能在同一套硬件上處理"廣泛物理技能",暗示通用性接近人類水平的靈活切換。
但"99%成功率"有個隱藏前提:任務邊界相對清晰。折疊紙盒是重復性工作,"把錢放進錢包"雖然精細,但動作序列固定。真正的開放場景——比如"幫我收拾一下亂糟糟的桌面"——GEN-1 還沒展示過。
Generalist 自己也留了個口子。官方博客提到,模型在"需要長期規(guī)劃的多步驟任務"上仍有局限。換句話說,單步物理操作接近成熟,但"先打開抽屜,找到工具,再回來修椅子"這種鏈條,還得再等等。
物理AI的"規(guī)模法則"能走多遠
GEN-0 去年發(fā)布時,Generalist 的核心論點是:機器人也能像大語言模型一樣,靠堆數(shù)據(jù)和算力實現(xiàn)能力躍遷。當時業(yè)界半信半疑——物理世界的復雜度比文本高幾個數(shù)量級,摩擦、形變、碰撞,全是連續(xù)變量。
GEN-1 算是給這個論點補了塊關鍵拼圖。50萬小時數(shù)據(jù)、PB級存儲、99%成功率,數(shù)字本身構成了一種說服。但"規(guī)模法則"在物理領域的瓶頸也很明顯:數(shù)據(jù)獲取成本。
文本數(shù)據(jù)可以爬蟲,可以購買,可以用戶生成。物理數(shù)據(jù)得真人戴著設備去錄,邊際成本降不下來。Generalist 沒有透露"數(shù)據(jù)手"的部署規(guī)模,但50萬小時如果來自1000臺設備同時采集,也得連續(xù)錄500小時——約21天。如果設備更少,周期更長。
這意味著物理AI的"規(guī)模"有天花板,至少在數(shù)據(jù)采集方式?jīng)]有革命性突破之前。Generalist 的應對策略是"數(shù)據(jù)復用":同一批人類動作數(shù)據(jù),可以適配不同機器人硬件。GEN-1 的一小時微調,本質上是用算力換數(shù)據(jù)采集時間。
另一個變量是仿真技術的進步。NVIDIA 的 Omniverse、DeepMind 的 MuJoCo,都在試圖用物理引擎生成合成數(shù)據(jù)。Generalist 的工程師承認仿真"還在追趕",但如果未來仿真-現(xiàn)實差距(sim-to-real gap)縮小,數(shù)據(jù)瓶頸會松動。
眼下 Generalist 的競爭優(yōu)勢在于先發(fā)積累的"真數(shù)據(jù)"壁壘。50萬小時不是絕對數(shù)量級上的不可超越,但時間窗口是——客戶一旦把產(chǎn)線適配給 GEN-1,切換成本會拖住遷移意愿。
生產(chǎn)級落地的真實代價
99%成功率聽起來漂亮,工廠采購經(jīng)理會追問:那1%失敗是什么情況?損壞率多少?停機維護周期多長?Generalist 的發(fā)布材料里沒有這些數(shù)字。
機器人進工廠的歷史充滿"演示很美好,量產(chǎn)很骨感"的案例。Rethink Robotics 的 Baxter 曾以"安全協(xié)作"為賣點,最終因精度不足、部署復雜而停產(chǎn)。Covariant 的機器人揀選系統(tǒng)已經(jīng)在倉庫落地,但主要處理SKU相對標準化的電商包裹。
GEN-1 的差異化在于"同一模型處理多種任務",這降低了產(chǎn)線切換時的重新編程成本。但"通用"本身也有代價:針對特定任務的優(yōu)化深度,可能不如專用方案。折疊紙盒99%,不代表折疊飛機盒、禮品盒、異形盒都是99%。
Generalist 提到正在與"多家財富500強制造商"洽談合作,但沒有公布具體客戶。量產(chǎn)部署的時間表、單臺成本、維護模式,這些決定商業(yè)可行性的關鍵信息,目前仍是空白。
一個值得注意的細節(jié)是:GEN-1 的演示視頻里,機器人手臂的末端執(zhí)行器是通用夾爪,而非針對特定任務定制的工具。這符合"通用模型"的敘事,但也意味著在極端精細場景(比如電子元件插裝),可能仍需硬件層面的專門優(yōu)化。
物理AI的競賽正在進入新階段。特斯拉的 Optimus、Figure AI 的人形機器人、Agility Robotics 的 Digit,都在爭奪"通用機器人"的定義權。Generalist 的選擇是避開人形這個高難度形態(tài),先把"操作能力"做到極致——用固定基座的機械臂,解決工廠里最實在的痛點。
這條路徑更務實,但也更依賴制造業(yè)客戶的采購節(jié)奏。經(jīng)濟下行周期里,"替代人工"的ROI計算會變得苛刻。三倍速和99%成功率是技術參數(shù),最終能不能簽單,還得看客戶算完賬之后的臉色。
Generalist 的工程師在 Forbes 采訪里留了一句話:「我們還在學習,模型也在學習。有時候它做的動作,我們都沒教過。」
這種"涌現(xiàn)式"的物理直覺,是數(shù)據(jù)堆出來的意外收獲,還是精心設計的演示效果?當?shù)谝慌?GEN-1 真正進廠24小時運轉之后,工廠夜班主管的手機會不會在凌晨兩點響起——那時候,答案才會慢慢浮現(xiàn)。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.