![]()
從2025年春晚的表演破圈到人形機器人馬拉松,再到年底的量產落地、商業閉環,具身智能的風向正在發生變化。
尤其當具身智能進入產業落地期,機器人表演式成功已經不足以滿足業界對其能力的期待。產業端進入更加看重“機器人大腦”及其相應帶來的泛化能力的階段,因為真實世界不存在完全標準化的場景,無論在工業分揀、養老護理還是倉儲物流等場景,機器人都要解決自主且穩定地與真實物理世界交互的問題。
——這正需要強大的具身智能模型能力作為支撐。那么,大規模落地應用到來前,我們如何評估具身智能模型這一“機器人大腦”的能力?
和大語言模型一樣,具身智能模型同樣需要建立開放公正的評價體系,以測評推動行業進步。Robochallenge是全球首個大規模、多任務的真機基準測試平臺,意在為VLA模型在機器人上的應用提供評估標準。
值得關注的是,具身智能模型測評和大語言模型測評有非常大的差異。大語言模型的測評多為“閉卷答題”,以靜態數據輸出與文本、圖像指標為主,不涉及物理交互與連續動作執行。而具身模型的測評更加側重“感知-決策-執行”的物理閉環,在測評時需要提前公開任務,核心驗證對象為視頻動作序列和任務成功率,類似于“開卷考試+實操考核”。
因此,用公開代碼的開源具身智能模型參與測評,才是是更貨真價實、更有價值的。
RoboChallenge最新發布的測評結果顯示,自變量開源端到端具身智能基礎模型wall-oss以46.43分超越pi0,總分排名第二,僅次于pi0.5。
Pi0、pi0.5背后的公司Physical Intelligence主要團隊成員來自伯克利、斯坦福等高校和谷歌專家等。自變量機器人創始人王潛為南加州大學博士學位,是全球最早在神經網絡中提出Attention機制的研究者之一;CTO王昊則主導開發國內首個多模態開源大模型“太乙”、百億級大語言模型“燃燈”及千億級模型“姜子牙”。
具體來看,wall-oss在疊洗碗巾、掛口杯、按按鈕、澆盆栽、移物入盒及開瓶器進抽屜等多個單任務中排名第一。
排名前三名,wall-oss是唯一一個國內開源具身基礎模型。
開源模型把模型代碼、訓練數據乃至架構設計公開,讓測評過程可全程復現,能夠規避通過微調其他模型來“刷榜”的行為,可以更客觀、真實地反映模型能力。這勢必將引導各個具身智能玩家回歸技術本身,用技術能力構建自身的核心競爭力。
同時,開源模型有助于技術透明迭代,能夠加速具身智能行業創新。開放協作的“集體智慧”,遠比封閉開發更能應對真實世界的復雜性、隨機性。
自變量從成立以來,就致力于樹立開源的標桿,讓每次開源都對行業產生價值。去年9月,wall-oss模型正式開源,預訓練模型權重、訓練代碼、數據集接口以及詳細部署文檔全部公開,開發者可以在自己的機器人上直接跑通閉環流程。
自變量機器人聯合創始人兼CTO王昊此前曾公開談及自變量堅持來源的初衷:“開源意味著我們可以站在巨人的肩膀上繼續前進。我們可以基于已有成果做更多的改進,社區開發者的反饋也會幫助到開源的公司,開源公司可以從中吸取到經驗,然后把這個技術路線思考得更加深入。一般的高校、或者一些小型的企業,他們可能沒有能力去做基礎模型,但是如果能夠使用這些基礎開源模型,他們就可以去做應用,把它用到各個方向,豐富整個生態,這也是一個非常重要的事情。”
在RoboChallenge發布測評結果之后,wall-oss提交的復現結果示例、微調代碼也將在下周全部開源,讓模型展現出的泛化能力、推理能力等有據可查。除了檢驗測試結果的真實性,開發者們也可以在平臺上根據源代碼和各個任務的微調代碼,結合自己的數據完成復現微調。
這意味著,自變量提供的不僅僅是一個模型,而是一整套完整可復現的方案,這對具身智能基礎模型的透明迭代和標準共建具有更深遠的意義。
擁抱開源,是具身智能走向成熟的必經之路。只有把技術從封閉的實驗室里解放出來,讓更多人參與、驗證、改進,才能真正突破單點創新的局限,具身智能才能真正從實驗室走向真實世界。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.