4月2日,美國具身智能公司Generalist發布新一代模型GEN-1,用50萬小時真實世界的人類行為數據,實現模型在多個任務中超過99%的成功率。其解決具身智能模型數據瓶頸的新范式及隨之而來的模型效果,引起中國具身智能業界的廣泛關注。
Generalist聯合創始人、首席科學家Andy Zeng近日接受南都記者采訪時透露,公司確實計劃將GEN-1模型商業化。“這款模型將幫助我們測試市場,同時為未來更強大的模型奠定基礎。”
公開信息顯示,Andy Zeng與Generalist的首席執行官Pete Florence曾在谷歌DeepMind共事。另一位聯合創始人Andrew Barry則在波士頓動力擔任過資深機器人專家。三人于2024年上半年創立Generalist公司,獲得英偉達、貝索斯旗下基金Bezos Expeditions等機構的投資。
直到2025年11月,這家具身智能模型公司才真正打響行業知名度。當時,Generalist推出GEN-0具身基礎模型,聲稱首次在機器人領域驗證了Scaling Law(縮放定律)的存在。
GEN-0模型受到行業關注的一項關鍵原因在于,它沒有使用當時業內流行但昂貴且難以規模化的真機遙操作數據,而基于27萬小時人類操作視頻數據進行訓練。這類數據無需依賴機器人本體去采集,而是利用低成本的可穿戴設備獲取,因此又被稱為“非本體數據”。
“如果你擁有足夠高質量且多樣化的真實世界數據,那么仿真數據和遙操作數據的價值就會降低。”Andy Zeng表示,“這本質上是一個成本問題。”
此次新發布的GEN-1模型在數據規模和任務成功率上更進一步。據公司介紹,GEN-1模型基于50萬小時真實世界數據開展預訓練。在模型預訓練的基礎上,執行特定的新任務前只需再使用1小時的機器人數據進行微調。
Generalist稱,GEN-1模型實現了可靠性、運行速度與即興應變能力的結合。在多個任務中,該模型的成功率超過99%,完成任務的速度比此前最先進的模型快了大概3倍,并且展現出廣泛的涌現能力,能夠在發生意外的情況下恢復任務執行。
“為了在非結構化環境中生存,機器人必須具備在意外情況下創造性地即興解決問題的能力,而不是依賴預設的行為模式。”Generalist公司認為,即興應變能力是此前機器人技術最關鍵的缺失。
Generalist發布了GEN-1加持下的機械臂“干活”視頻片段,并與GEN-0以及另一家美國明星具身智能模型公司Physical Intelligence(Pi)的模型進行了效果對比。例如,在折疊盒子的任務中,GEN-0和Pi的π0模型使用相同的盒子,折疊耗時大約為34秒;π0.6模型在一個類似但不同的盒子上,耗時也大致相同。相比之下,GEN-1模型的速度提升了 2.8倍,能夠在約12秒內完成盒子折疊。
![]()
GEN-0(左)和GEN-1(右)模型折疊盒子的速度對比。
而在即興應變能力方面,Generalist以一個長時序的汽車套件組裝示例介紹,如果一個墊圈被碰得太遠,以至于無法被正常夾持,機器人可以選擇把它放回原位再重新抓取,或者決定用另一只手配合完成雙手抓取。Generalist稱,對于那些體積大、且容易變形的物體,如果它們處于異常狀態,模型也能夠自行找到恢復的方法。
但Generalist也承認GEN-1模型的局限性:雖然一些任務中的成功率超過99%,但并非所有嘗試過的任務都能達到如此高的成功率。此外,某些任務需要更高的成功率或速度,才能在實際應用中發揮作用。
接受《福布斯》雜志采訪時,Pete Florence將GEN-1模型的表現視為“GPT-3時刻”。
業內一直期盼著“ChatGPT時刻”的來臨,但對其何時到來莫衷一是。Andy Zeng向南都記者表示,Generalist正專注于通過下一代模型,不斷擴大機器人學習的規模,把這條技術路線往更前沿推進。
“我不知道(ChatGPT時刻)何時會到來,但我知道我們的模型一直帶來驚喜。例如,GEN-1 所展現出的即興智能就是一個令人驚喜的表現。”Andy Zeng透露,Generalist將繼續擴大模型規模,并觀察會涌現出哪些新的能力。
采寫:南都N視頻記者 楊柳
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.