![]()
![]()
出品|搜狐科技
作者|常博碩
編輯|楊 錦
近日,AI機器人公司Generalist發布了GEN-0,一個參數量超過10B的具身基礎模型。作為首個驗證了具身智能規模定律(Embodied Scaling Law)的機器人通用基礎模型,GEN-0的發布也被譽為機器人領域的“ChatGPT時刻”。
模型一經發布便引起了大量討論,更有業內人士認為,這標志著機器人行業的一個關鍵轉折點,行業正從主要依賴于模擬訓練或專門工程控制的“仿真時代”,邁向一個由大規模真實世界數據驅動的時代。![]()
![]()
海量真實數據
一步踏入Scaling Law
GEN-0是由美國機器人公司Generalist AI推出的一類具身基礎模型。它與大語言模型類似,是一個多模態模型,但專門針對機器人執行物理任務而設計。
GEN-0繼承了視覺-語言模型的優勢,同時原生支持感知與動作輸出,可以捕捉人類級別的反射行為和物理常識。在官方演示中,機器人能自主完成從拿取托盤、清潔、取放零件、封裝的長時序操作,整個過程無需人工分步指令,一氣呵成。
![]()
在訓練上,GEN-0的預訓練直接使用的是真實世界的高保真物理交互數據,而不依賴仿真環境或人類示范視頻去做訓練。
目前,Generalist已經構建了一個前所未有的真實世界操作數據集,總時長超過27萬小時,每周新增數據超過1萬小時。對27萬小時數據量沒有概念的話,可以參考這張官方發布的對比圖,對比了和目前國外一些公司訓練數據規模的差異。
![]()
不僅如此,這個數據集涵蓋了數千種任務與場景,從家庭廚房的削土豆,到工廠車間的擰螺絲、包裝組裝,從商店架上的拿取物品,到快餐店的操作,每種任務都有海量真實軌跡記錄。
這樣的訓練數據,使得模型學到的不是理想狀態下的動作,而是如何在滑動、遮擋、光照變化等擾動下完成任務。官方表示,他們發現數據質量和多樣性比絕對數量更關鍵,混合不同任務和環境的數據能讓模型學到更有用的技能。
同時據官方稱,這種高數據量已經揭示了兩個迄今為止業界一直未能發現的關鍵結論。
目前,機器人領域的基礎模型其實主要基于視覺-語言預訓練,這樣也就意味著可以將現有的多模態模型的語義泛化優勢遷移過來。但是,機器人模型Scaling Law問題一直是業界難題,也就是說目前還沒有一種很好的方式或者研究可以證明機器人的智能確實能隨著算力和數據的增加而持續提升。
但是Generalist在這方面取得了突破,這也是行業對其贊不絕口的重要原因之一。
第一是GEN-0首次在機器人領域實驗證明了規模定律(Scaling Law)的適用性,即隨著模型和數據規模的增加,性能遵循可預測的冪律關系持續提升。
研究團隊從不同規模的預訓練模型出發,對語言條件下的16個任務集進行微調,結果顯示更多預訓練數據始終帶來更低的后訓練誤差。這種可量化的關系也讓人們能夠估算要達到特定性能水平需要多少數據和算力,為機器人研發提供了明確路線。
北京大學人工智能研究院陳寶權教授在朋友圈感嘆:“這個Generalist‘通才’具身基礎大模型相當重磅! 如此,scaling law繼續高歌猛進!”
除此之外,GEN-0的研究團隊發現,機器人智能存在清晰的“相變閾值”。當模型規模不足時,即使增加數據,性能也會停滯不前,但一旦超過閾值,性能則開始呈指數級提升。下圖直觀地展示了這一現象:1B參數(藍線)模型在訓練初期便出現固化(誤差不再下降),而6B(綠)和7B(黃)模型隨著算力和數據的增加持續改進。
![]()
官方表明,7B參數是這一閾值的關鍵點,低于7B的模型難以消化海量物理交互數據,表現出學習停滯,超過7B后,模型能有效內化更多經驗,并只需極少的后訓練就能適應新任務。
Generalist 的實驗表明,物理世界中的智能在算力方面可能有一個更高的激活閾值。這一發現也印證了莫拉維克悖論,很多人類看來輕而易舉的感知和操作,反而需要更高的計算復雜度。
GEN-0還有一個核心架構創新,叫作和諧推理(Harmonic Reasoning)。傳統機器人通常會將規劃與執行拆分為兩個階段,但放在實時物理環境中,這種操作存在一個根本性問題:物理世界不會暫停等待決策。
對于語言模型來說,在回應前花更多時間思考是可以接受的,但對于在現實世界中行動的機器人而言,一個思考時間過長的機器人就顯得尤為奇怪了。
為此,GEN-0采用了一種很新穎的訓練方法,使模型能夠在連續的時間流中同時處理感知輸入和動作輸出。可以理解為,模型還在觀察的同時就開始規劃動作,這種設計為機器人創造了感知和執行之間一種比較和諧的互動。
通過這種方式,GEN-0無需依賴常見的“系統1-系統2”架構或預先規劃模塊,就可以擴展到非常大的規模,支持復雜物理場景中的實時決策,也讓機器人能夠更接近人類的反應方式,顯著提高了在動態環境中的魯棒性。
![]()
神秘的具身獨角獸
這家神秘的公司Generalist AI,是美國硅谷一家機器人初創公司,官網表示公司愿景是做通用機器人和具身基礎模型。
Generalist AI首次闖入人們的視野其實是在今年3月召開的英偉達GTC的一個小組討論會上。當時,谷歌 DeepMind 高級研究科學家、RT-2的作者皮特·弗洛倫斯(Pete Florence)以 Generalist AI聯合創始人兼首席執行官的身份出席了該會議。
今年六月,皮特在社交媒體上公開表示,自己去年春天離開了谷歌DeepMind,之后一直與一支新的出色團隊埋頭苦干。
![]()
Pete本科就讀于普林斯頓大學攻讀化學專業,畢業后并未延續化學方向,而是轉向劍橋大學,攻讀物理碩士,并于2013年獲得學位,但化學與物理并未成為他的研究終點。
2014年,Pete加入MIT的計算機科學與人工智能實驗室(CSAIL),在Russ Tedrake教授領導的Robot Locomotion實驗室攻讀博士。
在創業之前前,Pete曾在Google DeepMind擔任高級研究科學家,參與了大部分具身與大模型相關的大型項目,其中包括谷歌于2023年發布的多模態具身視覺語言模型PaLM-E以及全球首個視覺-語言-動作模型RT-2。
Andy Barry是Generalist AI的聯合創始人兼CTO。他本科畢業于富蘭克林·W·奧林工程學院,此后便在MIT計算機科學與人工智能實驗室(CSAIL)直博,獲得機器人學博士學位。
Andy和Pete其實是同門師兄弟,兩人都是Russ教授的得意門生,也因此結緣。在Generalist AI之前,兩人還曾一起創立過一家教育工坊(workshop)“STAGE ONE EDUCATION”,專門用以通俗易懂的方式教小孩子最基礎的計算機知識。
在加入Generalist AI之前,Andy曾在波士頓動力公司擔任高級機器人科學家,期間還參與了Spot機器狗的機械臂項目研發。
另一位聯合創始人兼首席科學家是Andy Zeng,曾任Google DeepMind的研究科學家及技術負責人,具身智能領域頗有建樹的華人代表。
Andy本科以數學與計算機雙學位畢業于加州大學伯克利分校。隨后,他前往普林斯頓大學攻讀計算機科學博士,研究方向集中于機器人操作、機器學習與計算機視覺的交叉融合。
他與創始人Pete Florence相識于谷歌。Andy早在2018年就進入Google實習,兩人至今已聯合發表超過17篇論文。
就領英和推特信息來看,Generalist AI核心團隊的其他成員絕大多數都畢業于頂尖高校并極具行業經驗,不少人曾在OpenAI、Google DeepMind、波士頓動力、特斯拉等機構擔任關鍵角色,研究背景涵蓋從大模型訓練、強化學習研究到機器人控制系統開發等。
創始人Pete Florence曾說:“我們的目標非常堅定,就是要造出能夠做任何事情的機器人。”有業內從業者對搜狐科技表示,在他看來Generalist AI極具野心,未來很有可能涉足機器人硬件和本體。
至此,具身賽道又迎來了一位野心勃勃的新玩家。
![]()
![]()
運營編輯 |曹倩審核|孟莎莎
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.