- 克雷西 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
機(jī)器人也開始內(nèi)卷了,一位表現(xiàn)極其離譜的“新員工”,直接拉高了機(jī)器人的“就業(yè)門檻”。
具身智能獨(dú)角獸Generalist,剛剛推出了最新的研究成果——新模型Gen-1。
在包裝手機(jī)和折疊紙箱這些精細(xì)活兒上,它把機(jī)器人的成功率從64%硬生生拉到了99%,幾乎告別了手殘職業(yè)病。
![]()
以前折疊一個(gè)標(biāo)準(zhǔn)紙箱需要慢悠悠地磨掉34秒,現(xiàn)在GEN-1僅用12.1秒就能完成,效率直接開啟了3倍速模式。
![]()
而且,GEN-1的表現(xiàn),也用實(shí)際表現(xiàn)驗(yàn)證了機(jī)器人領(lǐng)域的Scaling Law。
機(jī)器人模型卷出新高度
GEN-1上崗后的表現(xiàn)簡直像是在倍速播放,而且即便面對維護(hù)掃地機(jī)器人200次這種枯燥任務(wù),它也能穩(wěn)如泰山。
![]()
甚至連續(xù)裝箱1800次,也能從從容容游刃有余。
![]()
更離譜的是它處理突發(fā)狀況的腦回路。
如果零件在流水線上被意外撞歪了,它絕不會(huì)傻站在那兒報(bào)錯(cuò),會(huì)自己切換抓取角度,甚至動(dòng)用兩只手配合著把活干完。
![]()
這種靠直覺解決問題的即興智能,讓它在處理亂七八糟的雜物時(shí)表現(xiàn)得像個(gè)干了十年的老師傅,那種死讀程序的鐵疙瘩僵硬感徹底消失了。
用人類活動(dòng)記錄訓(xùn)練機(jī)器人
為了讓GEN-1具備使機(jī)器人變身“全能打工人”的能力,研發(fā)團(tuán)隊(duì)對數(shù)據(jù)處理架構(gòu)進(jìn)行了重寫。
他們沒有死磕昂貴且難以擴(kuò)展的機(jī)器人遙操作數(shù)據(jù)這條老路,轉(zhuǎn)而通過低成本穿戴設(shè)備捕捉了數(shù)百萬項(xiàng)人類活動(dòng)記錄,讓AI像看電影一樣預(yù)習(xí)物理世界的潛規(guī)則。
這種“去機(jī)器人化”的預(yù)訓(xùn)練方案巧妙繞過了數(shù)據(jù)規(guī)模的瓶頸,讓基礎(chǔ)模型在接觸機(jī)械臂之前,就已經(jīng)從人類視角洞察了空間、時(shí)間與物理因果。
這種基于50萬小時(shí)高保真物理交互數(shù)據(jù)集練就的底座,讓它的學(xué)習(xí)效率直接起飛,達(dá)到了前代模型的10倍。
哪怕是面對從未見過的奇怪任務(wù)或陌生的機(jī)器身體,給GEN-1一個(gè)小時(shí)的實(shí)機(jī)演示,也能讓它火速入職。
另外,為了讓機(jī)器人的動(dòng)作不再卡成PPT,以及實(shí)現(xiàn)實(shí)時(shí)操控,研發(fā)團(tuán)隊(duì)還在推理端祭出了兩項(xiàng)關(guān)鍵技術(shù)。
首先是專門為物理世界打造的分頁注意力(Paged Attention)機(jī)制。
在處理PB級別的物理交互數(shù)據(jù)流時(shí),傳統(tǒng)的內(nèi)存管理方式容易導(dǎo)致計(jì)算資源分配不均,進(jìn)而產(chǎn)生響應(yīng)延遲。
Paged Attention通過更高效地調(diào)度計(jì)算資源,解決了動(dòng)作指令發(fā)射時(shí)的調(diào)度難題,確保每一個(gè)動(dòng)作指令都能在毫秒級的時(shí)間維度內(nèi)即時(shí)發(fā)射,讓AI的反應(yīng)速度能跟上現(xiàn)實(shí)世界的物理節(jié)奏。
配合演進(jìn)的還有一套Harmonic Reasoning系統(tǒng)。它作為推理層面的核心組件,改變了以往單一路徑預(yù)測動(dòng)作的死板模式。
它允許模型在輸出指令時(shí)通過多尺度的動(dòng)態(tài)調(diào)節(jié)來引導(dǎo)權(quán)重,使其在執(zhí)行折疊紙箱或包裝手機(jī)等復(fù)雜動(dòng)態(tài)任務(wù)時(shí),能夠展現(xiàn)出超越單一模型權(quán)重分布的性能上限。
研發(fā)團(tuán)隊(duì)為此投入數(shù)月時(shí)間優(yōu)化訓(xùn)練穩(wěn)定性,并編寫了大量自定義內(nèi)核來壓榨硬件算力的極限。
機(jī)器人領(lǐng)域的Scaling Law
GEN-1的性能跨越,證明了Scaling Law在物理世界依然有效——只要喂夠了數(shù)據(jù)和算力,機(jī)器人的腦子也會(huì)產(chǎn)生“開竅”時(shí)刻。
通過大規(guī)模預(yù)訓(xùn)練,機(jī)器人不再生硬地模仿動(dòng)作序列,自己悟出了空間、時(shí)間和因果關(guān)系的規(guī)律,感知到了物體之間的相互影響。
有了直覺之后,機(jī)器人干活就開始帶點(diǎn)“靈性”。當(dāng)任務(wù)中途出現(xiàn)沒見過的阻礙,它會(huì)自發(fā)嘗試一些教學(xué)大綱以外的操作,比如發(fā)現(xiàn)東西塞不進(jìn)去時(shí)會(huì)像人一樣晃晃袋子。
這種即興解題的能力源于它真正理解了“動(dòng)作會(huì)導(dǎo)致后果”的邏輯。
即使現(xiàn)場零件被意外撞歪,它也能憑直覺找回節(jié)奏,不需要人類像保姆一樣每一步都盯著糾錯(cuò)。
這種在真實(shí)世界摔打出來的經(jīng)驗(yàn),讓原本懸浮在百科全書里的抽象文字變成了實(shí)打?qū)嵉男袆?dòng)力。
研發(fā)團(tuán)隊(duì)通過對齊技術(shù),給這種即興天賦裝上了“導(dǎo)航儀”,確保機(jī)器人“臨場發(fā)揮”的動(dòng)作依然會(huì)嚴(yán)絲合縫地待在用戶設(shè)定的規(guī)范里。
這種進(jìn)化,讓機(jī)器人從一個(gè)只能按部就班的機(jī)器,變成了一個(gè)真正懂物理常識(shí)、能獨(dú)立處理復(fù)雜局面的“職場老手”。
DeepMind大牛創(chuàng)業(yè)成果
GEN-1的底層邏輯,源于資深團(tuán)隊(duì)在機(jī)器人領(lǐng)域的長期積累,創(chuàng)始人Pete Florence的技術(shù)背景,為這一方案提供了深厚的理論底色。
![]()
他曾任Google DeepMind高級研究科學(xué)家,通過Dense Object Nets等工作探索了視覺引導(dǎo)下機(jī)器人從感知到動(dòng)作的端到端學(xué)習(xí)路徑。
在谷歌PaLM團(tuán)隊(duì)工作期間,他作為核心力量參與并主導(dǎo)了PaLM-E、RT-2等多個(gè)具備代際跨越意義的機(jī)器人項(xiàng)目。
2024年,Pete Florence離開谷歌并創(chuàng)立了Generalist。
即便在他離職后的2025年3月,DeepMind在發(fā)布的Gemini Robotics論文中依然四次引用了他參與合著的研究。
https://generalistai.com/blog/apr-02-2026-GEN-1
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.