網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

具身Scaling Law押對了！獨(dú)角獸新品1小時(shí)學(xué)會(huì)新任務(wù)，成功率99%

2026-04-06 13:15:17　來源: 量子位

北京舉報(bào)

分享至

克雷西發(fā)自凹非寺
量子位 | 公眾號 QbitAI

機(jī)器人也開始內(nèi)卷了，一位表現(xiàn)極其離譜的“新員工”，直接拉高了機(jī)器人的“就業(yè)門檻”。

具身智能獨(dú)角獸Generalist，剛剛推出了最新的研究成果——新模型Gen-1。

在包裝手機(jī)和折疊紙箱這些精細(xì)活兒上，它把機(jī)器人的成功率從64%硬生生拉到了99%，幾乎告別了手殘職業(yè)病。

以前折疊一個(gè)標(biāo)準(zhǔn)紙箱需要慢悠悠地磨掉34秒，現(xiàn)在GEN-1僅用12.1秒就能完成，效率直接開啟了3倍速模式。

而且，GEN-1的表現(xiàn)，也用實(shí)際表現(xiàn)驗(yàn)證了機(jī)器人領(lǐng)域的Scaling Law。

機(jī)器人模型卷出新高度

GEN-1上崗后的表現(xiàn)簡直像是在倍速播放，而且即便面對維護(hù)掃地機(jī)器人200次這種枯燥任務(wù)，它也能穩(wěn)如泰山。

甚至連續(xù)裝箱1800次，也能從從容容游刃有余。

更離譜的是它處理突發(fā)狀況的腦回路。

如果零件在流水線上被意外撞歪了，它絕不會(huì)傻站在那兒報(bào)錯(cuò)，會(huì)自己切換抓取角度，甚至動(dòng)用兩只手配合著把活干完。

這種靠直覺解決問題的即興智能，讓它在處理亂七八糟的雜物時(shí)表現(xiàn)得像個(gè)干了十年的老師傅，那種死讀程序的鐵疙瘩僵硬感徹底消失了。

用人類活動(dòng)記錄訓(xùn)練機(jī)器人

為了讓GEN-1具備使機(jī)器人變身“全能打工人”的能力，研發(fā)團(tuán)隊(duì)對數(shù)據(jù)處理架構(gòu)進(jìn)行了重寫。

他們沒有死磕昂貴且難以擴(kuò)展的機(jī)器人遙操作數(shù)據(jù)這條老路，轉(zhuǎn)而通過低成本穿戴設(shè)備捕捉了數(shù)百萬項(xiàng)人類活動(dòng)記錄，讓AI像看電影一樣預(yù)習(xí)物理世界的潛規(guī)則。

這種“去機(jī)器人化”的預(yù)訓(xùn)練方案巧妙繞過了數(shù)據(jù)規(guī)模的瓶頸，讓基礎(chǔ)模型在接觸機(jī)械臂之前，就已經(jīng)從人類視角洞察了空間、時(shí)間與物理因果。

這種基于50萬小時(shí)高保真物理交互數(shù)據(jù)集練就的底座，讓它的學(xué)習(xí)效率直接起飛，達(dá)到了前代模型的10倍。

哪怕是面對從未見過的奇怪任務(wù)或陌生的機(jī)器身體，給GEN-1一個(gè)小時(shí)的實(shí)機(jī)演示，也能讓它火速入職。

另外，為了讓機(jī)器人的動(dòng)作不再卡成PPT，以及實(shí)現(xiàn)實(shí)時(shí)操控，研發(fā)團(tuán)隊(duì)還在推理端祭出了兩項(xiàng)關(guān)鍵技術(shù)。

首先是專門為物理世界打造的分頁注意力（Paged Attention）機(jī)制。

在處理PB級別的物理交互數(shù)據(jù)流時(shí)，傳統(tǒng)的內(nèi)存管理方式容易導(dǎo)致計(jì)算資源分配不均，進(jìn)而產(chǎn)生響應(yīng)延遲。

Paged Attention通過更高效地調(diào)度計(jì)算資源，解決了動(dòng)作指令發(fā)射時(shí)的調(diào)度難題，確保每一個(gè)動(dòng)作指令都能在毫秒級的時(shí)間維度內(nèi)即時(shí)發(fā)射，讓AI的反應(yīng)速度能跟上現(xiàn)實(shí)世界的物理節(jié)奏。

配合演進(jìn)的還有一套Harmonic Reasoning系統(tǒng)。它作為推理層面的核心組件，改變了以往單一路徑預(yù)測動(dòng)作的死板模式。

它允許模型在輸出指令時(shí)通過多尺度的動(dòng)態(tài)調(diào)節(jié)來引導(dǎo)權(quán)重，使其在執(zhí)行折疊紙箱或包裝手機(jī)等復(fù)雜動(dòng)態(tài)任務(wù)時(shí)，能夠展現(xiàn)出超越單一模型權(quán)重分布的性能上限。

研發(fā)團(tuán)隊(duì)為此投入數(shù)月時(shí)間優(yōu)化訓(xùn)練穩(wěn)定性，并編寫了大量自定義內(nèi)核來壓榨硬件算力的極限。

機(jī)器人領(lǐng)域的Scaling Law

GEN-1的性能跨越，證明了Scaling Law在物理世界依然有效——只要喂夠了數(shù)據(jù)和算力，機(jī)器人的腦子也會(huì)產(chǎn)生“開竅”時(shí)刻。

通過大規(guī)模預(yù)訓(xùn)練，機(jī)器人不再生硬地模仿動(dòng)作序列，自己悟出了空間、時(shí)間和因果關(guān)系的規(guī)律，感知到了物體之間的相互影響。

有了直覺之后，機(jī)器人干活就開始帶點(diǎn)“靈性”。當(dāng)任務(wù)中途出現(xiàn)沒見過的阻礙，它會(huì)自發(fā)嘗試一些教學(xué)大綱以外的操作，比如發(fā)現(xiàn)東西塞不進(jìn)去時(shí)會(huì)像人一樣晃晃袋子。

這種即興解題的能力源于它真正理解了“動(dòng)作會(huì)導(dǎo)致后果”的邏輯。

即使現(xiàn)場零件被意外撞歪，它也能憑直覺找回節(jié)奏，不需要人類像保姆一樣每一步都盯著糾錯(cuò)。

這種在真實(shí)世界摔打出來的經(jīng)驗(yàn)，讓原本懸浮在百科全書里的抽象文字變成了實(shí)打?qū)嵉男袆?dòng)力。

研發(fā)團(tuán)隊(duì)通過對齊技術(shù)，給這種即興天賦裝上了“導(dǎo)航儀”，確保機(jī)器人“臨場發(fā)揮”的動(dòng)作依然會(huì)嚴(yán)絲合縫地待在用戶設(shè)定的規(guī)范里。

這種進(jìn)化，讓機(jī)器人從一個(gè)只能按部就班的機(jī)器，變成了一個(gè)真正懂物理常識(shí)、能獨(dú)立處理復(fù)雜局面的“職場老手”。

DeepMind大牛創(chuàng)業(yè)成果

GEN-1的底層邏輯，源于資深團(tuán)隊(duì)在機(jī)器人領(lǐng)域的長期積累，創(chuàng)始人Pete Florence的技術(shù)背景，為這一方案提供了深厚的理論底色。

他曾任Google DeepMind高級研究科學(xué)家，通過Dense Object Nets等工作探索了視覺引導(dǎo)下機(jī)器人從感知到動(dòng)作的端到端學(xué)習(xí)路徑。

在谷歌PaLM團(tuán)隊(duì)工作期間，他作為核心力量參與并主導(dǎo)了PaLM-E、RT-2等多個(gè)具備代際跨越意義的機(jī)器人項(xiàng)目。

2024年，Pete Florence離開谷歌并創(chuàng)立了Generalist。

即便在他離職后的2025年3月，DeepMind在發(fā)布的Gemini Robotics論文中依然四次引用了他參與合著的研究。

https://generalistai.com/blog/apr-02-2026-GEN-1

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.