![]()
編輯|+0
提到具身智能,你首先會想到什么?
是宇樹在春晚驚艷亮相的「轉手絹」、特斯拉 Optimus 的「金色傳說」、真到被懷疑真假的小鵬,還是 2025 年各家競相上演的「炫技大賞」,空翻、家務、熱舞、打拳,無所不能?
![]()
已經過去的 2025 年,無疑是具身智能大爆發的一年。
熱鬧屬于硬件,但具身智能還有另一個關鍵賽道:具身智能與機器人基礎模型,即具身智能的「大腦」。它們定義了具身智能的智力天花板,也長期主導了行業對「通用性」的解釋權。
在這個賽道,過去兩年的敘事主線幾乎被 Pi、Google、Figure 等海外團隊主導。但在 2026 年伊始,格局發生了變化。
1 月 12 號,千尋智能(Spirit AI)開源了自研 VLA 基礎模型Spirit v1.5,該模型在第三方機器人模型評測組織RoboChallenge 的 Table30 榜單上位列第一,超過了之前最強模型 Pi0.5。
![]()
千尋開源了Spirit v1.5的基模權重、推理代碼以及使用樣例,接受公眾檢驗,也方便社區在 Spirit v1.5 的基礎上創新。
- Code: https://github.com/Spirit-AI-Team/spirit-v1.5
- Model: https://huggingface.co/Spirit-AI-robotics/Spirit-v1.5
- Blog:https://www.spirit-ai.com/en/blog/spirit-v1-5
![]()
Spirit v1.5 vs Pi0.5 視頻對比。上:Spirit v1.5,下:Pi0.5。
這一手「硬核登頂+開源共享」的組合拳,引發了海外 AI 社區的即時關注,甚至引來了英偉達具身智能負責人 Jim Fan(范麟熙)的點贊、Hugging Face 的官方祝賀,以及多位海外大 V 的轉發。
![]()
![]()
![]()
這不再是一次簡單的榜單輪換。它意味著,在具身智能這個未來的核心戰場上,中國團隊終于結束了「跟隨模式」,正式拿到了「全球第一梯隊」的入場券。
Spirit v1.5 為什么能贏 Pi0.5?
要回答這個問題,我們必須先看一眼「競技場」。
RoboChallenge 是由 Dexmal、Hugging Face 和智源研究院等機構發起的全球首個大規模真機評測平臺。與常見的仿真環境跑分不同,RoboChallenge 的核心在于物理世界的真機實測
平臺建立了一套名為「Table30」的任務集,包含設定在桌面環境中的 30 個多樣化操作任務。這些任務不僅涵蓋插花、制作三明治、插入網線等日常技能,還被特意設計用來挑戰模型能力的各個維度:包括精確的 3D 定位、遮擋處理、時間依賴性以及多階段長序列任務。
在該體系下,Spirit v1.5 在多構型機器人(包括 Franka、Arx5、UR5 及雙臂 ALOHA 系統)上均進行了評測。截至 2026 年 1 月 12 日的評估顯示,Spirit v1.5 在該基準測試上超越了 Pi0.5 等之前的全球領先開源模型,取得了當前最優的性能。
![]()
Spirit v1.5 vs Pi0.5 視頻對比。上:Spirit v1.5,下:Pi0.5。
Spirit v1.5 的勝出并非偶然,其核心原因在于對機器人預訓練數據范式的根本性重構。
擺脫「干凈數據」的詛咒,
轉向「物理常識」的習得
傳統的具身模型,大多基于如 Open X-Embodiment (OXE)、Agibot 和 RoboCOIN 等數據集進行訓練。這些數據集雖然規模龐大,但主要由高度精選的、即所謂的「干凈」數據組成。
在這種模式下,為了最大化采集成功率,研究人員往往像電影導演一樣精心設計場景:物體被放置在可預測、易于觸及的位置,動作被簡化或腳本化。這種「完美」的數據雖然為模型提供了一個穩定的起點,但卻產生了一個致命的副作用:經驗的零散孤島。
如果在訓練中,「擦桌子」的數據集永遠只包含桌子和標準的擦拭動作,模型就永遠學不會如何在抹布打滑后恢復,或者如何處理桌面上意料之外的雜物。這種過度「凈化」的數據限制了機器人的泛化能力,一旦面對開放世界的不可預測性,模型極易失效。
相比之下,Spirit v1.5 采用了「開放式、目標驅動」的數據采集策略。其核心理念是摒棄書面腳本,只給操作員一個模糊的高層目標(如「清理廚房」),允許其即興發揮。
在 RoboChallenge 的 Table30 測試中,Spirit v1.5 展現出的跨場景泛化能力主要得益于以下幾點:
- 構建連續的技能流形
傳統數據制造了任務間的割裂,而 Spirit v1.5 的數據采集員可能會先拿起食物容器,發現碎屑后開始擦拭,接著整理餐具。這種連續的會話將多個微技能自然串聯,涵蓋了抓取、扭轉、插入和復雜的雙手協調。
這意味著模型不再是機械地重復單一動作,而是學習到了動作與動作之間的過渡與銜接。如同案例所示:無論是給假人模型化妝,還是組裝復雜的樂高結構,模型掌握的是一個原子技能譜系,而非孤立的動作片段。
- 內化的糾錯與恢復能力
這是 Spirit v1.5 區別于傳統模型的關鍵。由于訓練數據通過「將采集員派往現實環境中的隨機地點」獲得,包含了海量的物體交互和環境轉換,模型見識過各種失敗與混亂。因此,Spirit v1.5 習得了類似人類的「物理常識」。
當面對復雜操作中的干擾、物體打滑或光線突變時,模型展現出了驚人的韌性,它學會了在動作執行受阻時如何進行動態調整和恢復,而不是像腳本機器那樣直接死機。
![]()
多樣化采集數據示例。上:采集員通過末端執行器操作給假人模型化妝。下:采集員組裝復雜的樂高結構。兩個案例都展示了多樣化原子技能的連續流,包括抓取、扭轉、插入和復雜的雙手協調。
模型不是「更大」,
而是「更對」
技術報告中的消融實驗進一步證實,Spirit v1.5 的優勢源于更高效的數據利用策略,而非盲目的算力擴張。
實驗建立了兩組模型進行對比:A 組使用精選演示數據,B 組使用開放式多樣化數據,且保持兩組的總數據量完全相同。結果揭示了顯著的「多樣性增益」:
- 收斂速度與遷移效率:在針對全新任務微調時,使用多樣化采集訓練的模型(Spirit 策略)達到相同性能基線所需的迭代次數比基線模型少了 40%。這表明,任務的多樣性比單任務的演示數量更為關鍵。
![]()
多樣化采集預訓練的模型比干凈數據采集訓練的模型具有更快的收斂速度和更好的驗證誤差。
- 驗證誤差的持續下降:研究還發現,隨著多樣化數據規模的擴大,模型在新任務上的驗證誤差呈持續下降趨勢。這證明模型正在有效地從現實世界日益增加的內在多樣性中汲取養分,形成了一種通用的策略基礎。
![]()
不同數據規模下的模型效果。擴大多樣化采集的數據規模可以持續降低模型的驗證誤差。
既是「榜單殺手」,
也是「工程利器」
除了在學術榜單上領先,Spirit v1.5 在工程落地層面也解決了困擾行業已久的可擴展性的難題。
傳統的「干凈數據」采集需要工程師團隊設計任務、編寫詳細指南并嚴格篩選數據,這種工作流程極大地限制了數據采集的體量和擴展性。
Spirit v1.5 采用的非結構化采集方式,允許操作員在只設定高層目標(如「清理廚房」)的前提下即興發揮。這種范式轉變帶來了巨大的工程效益:
- 采集效率提升:數據顯示,人均有效采集時長增加了200%。因為操作員不再是重復數百次枯燥的機械動作,而是像玩游戲一樣在物理世界中互動,保持了極高的投入度。
- 專家依賴降低:這種流程將對算法專家干預的需求削減了60%。這意味著,大規模擴展數據采集規模不再受限于稀缺的專家資源,管理成本不再線性增加。
目前,Spirit v1.5 的基模權重、推理代碼以及使用樣例已全部開源,供研究人員復現和探索。這不僅證明了其作為「實戰派」模型的底氣,也為通用機器人從實驗室走向真實的家庭和產線環境鋪平了道路。
中國開源力量的突破性進展
如果說技術上的超越是 Spirit v1.5 的「硬實力」,那么選擇全量開源則是其更具產業價值的決定。
回顧過去兩年,從 Qwen、DeepSeek 到 Kimi、GLM 等,中國的大模型團隊已經證明了這一點:開源模型不僅能追平閉源模型的性能,更能成為推動全球技術平權的重要基礎設施。這些來自中國的開源力量,實際上已經成為了許多海外開發者構建應用的首選基座。
不可否認,「開源共建」也已逐漸成為具身智能領域的行業共識,但拼圖尚未完整。
高性能的機器人基礎模型(如 Google RT 系列或 Pi)大多處于閉源或半閉源狀態。開發者往往面臨「兩難」:要么使用性能較弱的舊模型,要么依賴大廠的 API,不僅成本高昂,且難以針對特定硬件進行適配。這種「基座缺失」直接制約了具身智能從實驗室走向產業落地的速度。
Spirit v1.5 的開源,標志著中國團隊正在將 LLM 領域的開源繁榮,延續到具身智能領域。
- 對于科研界,它打破了「無 SOTA 可用」的局面,提供了一個與 Pi0.5 同等甚至更強的可復現基線;
- 對于產業界,它為大量試圖進入具身智能賽道的中小型廠商,提供了一套經過驗證的、可商用的技術底座,避免了行業性的重復造輪子。
從 Qwen、DeepSeek 到 Spirit,中國團隊正在通過高質量的開源貢獻,逐漸從全球 AI 生態的「參與者」轉變為關鍵基礎設施的「建設者」。
結語:
從「追隨」到「定義」
RoboChallenge 的榜首位置或許會輪換,數據的記錄終將被刷新,但 Spirit v1.5 的出現具有明確的界碑意義:
它通過實驗證明了「非結構化的多樣性是比精選數據更好的老師」。在通往通用具身智能的道路上,中國團隊已經結束了單純的「跟隨模式」,具備了在核心技術路徑(數據范式)與生態建設上與全球頂尖團隊「對等對話」甚至「定義規則」的能力。
隨著代碼倉庫的公開,全球的目光和測試數據將涌向 Spirit v1.5。對于千尋智能而言,登頂榜單只是一個開始,真正的考驗才剛剛拉開序幕:如何在真實世界的千萬種場景中,經受住全球開發者的驗證與打磨。
文中視頻鏈接:https://mp.weixin.qq.com/s/ZrBDFuugPyuoQp4S6wEBWQ
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.