
撰文 | 張祥威 編輯|馬青竹
6月末,一輛特斯拉Model Y(參數丨圖片),從美國得州工廠開啟自動駕駛,一路經過高速、城區等場景,獨自奔向用戶完成交付。
除了不會變形,汽車已越來越像汽車機器人。
另一賽道,谷歌DeepMind發布最新的本地化機器人模型,是三月發布的VLA模型Gemini Robotics的升級版,可完成系鞋帶等難度動作。
這場模型范式的集體躍遷,始于去年。
去年6月,美國具身智能公司Physical Intelligence(PI)發布端到端VLA 開源模型 OpenVLA。具身智能模型開始向端到端VLA收斂。
去年10月,PI發布VLA大模型的π0版本,具有多任務、長程處理能力,可適應泛化場景。今年4月,該模型已經升級到了π0.5版本。
國內也積極跟進。一些從業者認為,中國公司可以跟美國公司站在同一起跑線,甚至更具供應鏈、制造和數據成本優勢。
![]()
比如,美團戰投領投的「自變量機器人」自成立起就押注VLA,從早期只輸出動作,到現在融合輸出動作、語言、視覺和思維鏈。
“我們的模型水平,基本上和PI、谷歌在同一水平線,因為的確在相近時間做了類似的事情。”自變量機器人創始人、CEO王潛很自信。
自動駕駛和具身智能的端到端大模型,各自狂奔,又彼此印證。
“如果還在一個個寫規則代碼,那是不敢碰具身智能的。”它石智航聯合創始人、首席科學家丁文超說。
技術的快速迭代增加了資本市場吸引力。
據《出行百人會/AutocarMax》不完全統計,2024年全年,具身智能發生投資事件超77起,總金額約72.87億元。2025上半年,總投資達91起,總投資金額約110.37億元,融資頻次和規模均超過去年全年。
投資方陣容呈現多元化特征,涵蓋騰訊、美團、京東、螞蟻集團、字節等科技巨頭,以及寧德時代、博世、吉利、比亞迪等汽車產業鏈企業,美的、海爾等家電企業。
具身智能落地節奏提升,正從展示型場景(如跳舞迎賓)向無人藥店、無人零售店、工廠、運輸等更廣泛的場景擴展。
寧德時代、博世、吉利等車業巨頭參與
2025上半年,具身智能領域融資大事件不斷:
宇樹科技完成C輪融資交割。銀河通用完成11億元新一輪融資。它石智航成立第二個月,獲得1.2億美金天使輪融資。
吉利資本是宇樹科技的C輪投資方之一,還有中國移動旗下基金、騰訊、錦秋基金、阿里巴巴、螞蟻集團等聯合領投。自2016 年成立以來,宇樹科技已完成9 輪融資。
其產品在C端認知度較高,B端落地場景主要是工廠、旅游景區等。例如,H1/G1系列在蔚來工廠承擔搬運任務。
![]()
吉利集團旗下工廠積極引入具身智能技術:去年極氪5G智慧工廠曾引入優必選工業版人形機器人Walker S Lite,該機器人經過21天實訓,主要執行料箱搬運等任務。今年初,領克汽車成都工廠也開始引入優必選人形機器人Walker S1。
優必選是全球首個雙足機器人上市公司,已經進入比亞迪等多家車企產線,公司樂觀預計2026年人形機器人交付將達數千臺。
銀河通用,則獲得寧德時代旗下CATL Capital、博世集團旗下溥泉資本等投資。
“領投方寧德時代將持續深化和公司的產業協同,為公司具身智能大模型在工業領域的技術落地與規模化應用提供關鍵支撐。”銀河通用方面表示。
《出行百人會/AutocarMax》注意到,銀河通用還與博世成立合資公司博銀合創,聚焦復雜裝配、智能質檢之間等高精度制造場景,研發靈巧型機器人。
![]()
銀河通用聚焦技術的商業化落地,對“疊衣服”、“系鞋帶”等任務興致不高,主要面向零售和藥店場景,集中培養人形機器人的移動、抓取、放置等技能,官方稱之為抓取基礎大模型GraspVLA,計劃年內開設100家機器人超市。
“具身大模型還有很多不成熟的地方,距離什么活兒都能干可能需要五到十年。”銀河通用機器人創始人及CTO王鶴說。
上文提到的自變量機器人,獲得了美團戰投領投、美團龍珠資本跟投的數億元A輪融資。
融資將用于持續加速全自研端到端通用具身智能大模型,與機器人本體的同步迭代,并推動多應用場景的智慧化方案合作與落地。
據王潛介紹,以Figure和波士頓動力為代表,技術路徑正從早期依賴三維視覺感知與算法控制,向端到端模型(如PI發布的新模型)演進。
![]()
有趣的是,與自動駕駛類似,具身智能的端到端,其實也有兩段式(兩層模型)和一段式(單層模型)之分。
比如Figure,便是用VLM做感知和規劃,VLA做動作生成。自變量機器人早期也嘗試過兩層模型,后轉向上限更高的一體式端到端單層模型。
還有一支陣容豪華的團隊——它石智航,今年2月初才成立,創始團隊主要來自自動駕駛領域。
創始人兼CEO陳亦倫,曾任華為自動駕駛CTO;公司董事長李震宇,曾任百度集團資深副總裁、百度智能駕駛事業群組(IDG)負責人;首席科學家丁文超,主導過華為ADS端到端決策網絡研發。
進場雖晚,它石智航高舉高打,選擇打造通用的AWE世界模型,而非針對單一場景。
丁文超解釋:“求上得中,求中得下,求下而不得。如果一開始就只做工廠工作場景,也能做得很好,但終究有局限,很容易過擬合。后面切換到生活場景,有些GAP就可能跨越不了。”
據其介紹,采用通用的世界模型打造具身智能,當場景遷移時,便不需要重寫代碼或調整架構。
奔向“強化學習”
無論是流水線的移動、抓取、放置動作,還是更復雜的疊衣服、系鞋帶,訓練具身智能大模型面臨數據稀缺的挑戰。
通常,行業解決方案包括:采用仿真合成數據或采集真實數據。
“仿真合成數據,需要廠商有比較好的圖形學、物理仿真、物理渲染和自動動作合成管線與驗證閉環的全套的基建。”王鶴說,重視并能用好仿真合成數據是其公司優勢。
![]()
智元機器人,則通過機器人遙操作采集數據,由數據采集員操作機械臂重復抓取、放置等動作,通過采集上百遍數據,以提升機器人執行任務的魯棒性。
也有由人類數據采集員穿戴PMEC執行數據采集,擺放瓷盤、瓷筷,以獲取人類觸覺模態數據。
“動作本身的數據并不難采,難的是采集環境變化的數據。3D空間的變化,很難捕捉和預測。”丁文超接受采訪時表示,真實數據的優先級永遠高于仿真合成。
有了數據,沿著端到端VLA的技術路徑,下一關便是強化學習。
“光端到端還不夠,還需要結合強化學習,才能讓模型可信賴。強化學習也并非終點,后面還有自主學習。”丁文超說。
正如DeepSeek-R1模型,便是通過強化學習,實現了思維鏈能力的自主涌現。至于VLA大模型、強化學習等AI新技術,會給具身智能帶來怎樣的爆發力?
成功投資理想汽車的藍馳創投,近兩年在具身智能領域投資了智元機器人、銀河通用等。其管理合伙人陳維廣認為:
“移動互聯網的價值在于連接,Agent 能更進一步,交付結果,創造出10 倍于移動互聯網的價值;具身智能又進一步,完成真實世界的任務,創造的價值會是Agent 的10 倍,移動互聯網市場的百倍。”
有人看到未來,有人看到泡沫。言而總之,成本向下,智能向上,場景泛化,是大趨勢。
上個月,李書福和宇樹科技創始人王興興有過一場對談。
“AI代表一個革命性新時代的到來。它不是一項技術,相比過去傳統人類社會的競爭方式、社會形態都發生了改變,重塑了人類的產業、發展及生活秩序。”李書福說。
—THE END—
出行百人會 | AutocarMax
追蹤汽?出行產業鏈進化,關注新產品、新科技、商業邏輯與商業人物,影響圈層中有影響力的人。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.