![]()
作者|深水財經社 烏海
“誰能把機器人用的大模型做出來,誰就是全世界最厲害的AI公司和機器人公司,我覺得完全足夠拿諾貝爾獎。”近日,宇樹科技創(chuàng)始人王興興在《揚聲》節(jié)目訪談預告中的表態(tài),再次將機器人大模型(業(yè)內多稱具身大模型)推上輿論風口。
當下,人形機器人從展會熱舞到工廠試跑,特斯拉喊出2026年百萬臺產能目標,國內廠商接連公布億元訂單,電商平臺預約量突破百萬,看似離“走進生活、真正干活”只有一步之遙。
但高盛最新調研顯示,全球頭部廠商試產規(guī)模尚不足千臺,2026年全球實際產能僅1.2萬臺(中國新聞網,2025年12月6日)。
王興興口中的“關鍵一步”,正是能讓機器人實現“感知-理解-推理-執(zhí)行”閉環(huán)的機器人大模型,它相當于機器人的“超級大腦”,能讓機器人擺脫預設程序束縛,在真實場景中自主應對變化、完成任務。
這場全球范圍內的“造腦競賽”已全面打響,為何始終難以突破?機器人“干活難”的癥結,到底藏在何處?
![]()
全球三大梯隊競速
機器人大模型的核心是具身智能,強調通過“身體”與物理世界互動產生智能,而非僅在虛擬數據中“紙上談兵”。目前全球研發(fā)格局分為三大梯隊,各有側重卻均未實現“通用全能”。
第一梯隊由國際科技巨頭領跑,手握算力與數據雙重優(yōu)勢。
谷歌是最早發(fā)力的玩家,2023年推出RT-2模型,首創(chuàng)視覺-語言-動作(VLA)統一建模,能直接輸出機器人控制指令,零樣本完成“撿香蕉放抽屜”等任務;2025年升級的RT-3模型,將推理延遲降至50ms內,在OpenEQA評測中拿下綜合第一,還獲得NeurIPS 2024最佳論文提名。
英偉達則走“仿真+真機”路線,依托Omniverse工業(yè)級仿真平臺生成千億級合成數據,結合真機數據訓練Project GR00T模型,硬件與軟件協同優(yōu)化讓推理效率提升400%,2025年在RoboBenchmark物理交互任務中奪冠,2026年已在比亞迪、寧德時代工廠部署適配模型的工業(yè)機器人。
特斯拉則將自動駕駛技術遷移至機器人領域,依托Dojo超算訓練Optimus BotNet模型,通過4D世界模型實現動態(tài)場景實時規(guī)劃,2026年CES展上展示了Optimus自主完成工廠裝配任務的場景(前文問答整理)。
第二梯隊是細分領域的“黑馬”,聚焦特定場景突破。
國際端,Figure AI與OpenAI合作,研發(fā)的Figure Foundation Model(FFM)專攻人形機器人雙手協同;
國內端,智元機器人推出啟元大模型,構建“作業(yè)/交互/運動”一體三智體系,獲圖靈獎得主Yann LeCun認可,智平方的GOVLA模型則實現全身控制與移動軌跡統一輸出。
第三梯隊以宇樹科技等企業(yè)為代表,走“輕量化+產業(yè)化”路線。
作為國內消費級機器人領軍企業(yè),宇樹2026年1月開源UnifoLM-VLA-0大模型,融合動作預測頭與動力學約束。但王興興也坦言,宇樹的分層架構(LLM+LBM)更側重實時控制與安全性,在通用泛化能力上仍有差距。
值得注意的是,即便頭部玩家進展迅猛,目前全球主流模型仍處于智能L2初級階段,僅能實現“固定任務+微調”,尚未具備自主泛化與應變能力。這意味著,沒有任何一家企業(yè)能真正交出“能靈活干活”的機器人“大腦”。
![]()
四大難題卡住“造腦”進程
王興興將機器人大模型比作“諾貝爾獎級難題”,其實絕不是夸張。
相較于語言大模型,機器人大模型要兼顧虛擬推理與物理交互,每一步突破都需跨越技術、數據、成本的多重鴻溝,這也是機器人遲遲不能“干活”的核心原因。
首當其沖的是實時性與算力的矛盾。機器人在物理世界中操作,需10-100ms內完成“感知-決策-執(zhí)行”閉環(huán),否則會出現動作卡頓、碰撞等問題。
但目前主流大模型參數多在13B-34B之間,推理延遲難以降低。谷歌RT-3雖將延遲壓縮至50ms,卻依賴TPU v5e專用算力集群,這種算力成本極高,普通企業(yè)難以承擔。
宇樹通過輕量化設計將模型壓縮至7B參數,實現延遲<100ms,但代價是犧牲了部分泛化能力,零樣本適配率約75-80%,低于谷歌RT-3的90%以上。
其次是數據稀缺與“仿真-現實鴻溝”。數據是大模型的“燃料”,但機器人大模型需要的“視覺-語言-動作”多模態(tài)數據,采集難度遠超文本數據。
純真機數據采集成本極高,宇樹僅340小時真機數據就耗費大量人力物力;純仿真數據雖能通過英偉達Isaac Gym等平臺批量生成,卻存在“仿真與現實脫節(jié)”的問題。實驗室中訓練的動作,在真實場景中可能因路面不平、物體偏移而失效。
即便采用“仿真+真機”混合模式,也難以完全消除這種鴻溝,目前行業(yè)普遍面臨“模型在實驗室滿分,在真實場景翻車”的尷尬(前文問答整理)。
更棘手的是物理直覺與泛化能力不足。人類能憑本能判斷“杯子傾斜會漏水”“重物落地會砸壞東西”,但機器人需要通過海量數據學習物理規(guī)律,才能形成這種直覺。
2026年ShareRobot評測顯示,具備物理直覺的模型在“突發(fā)障礙”任務中成功率,比傳統模型高35%,但目前多數模型仍缺乏這種能力。
此外,跨場景、跨本體泛化也是難題。能在工廠裝配的機器人,未必能適應家庭清潔;適配四足機器人的模型,很難直接遷移到人形機器人上。
最后是核心部件與成本瓶頸。機器人大模型的落地,離不開硬件支撐,但目前高精度觸覺傳感器量產良率不足60%,六維力傳感器等核心部件國產化率低,依賴進口且面臨斷供風險。
有機構測算顯示,當前單臺人形機器人物料成本約40萬元,而行業(yè)共識是成本需降至5萬元以內才能盈利。成本高企導致企業(yè)難以大規(guī)模部署真機采集數據,進而制約模型迭代。
![]()
從“能干活”到“干好活”
盡管挑戰(zhàn)重重,但機器人大模型的研發(fā)已進入加速期,政策、資本與技術的合力正在破解困局。
工信部已將人形機器人列為“未來產業(yè)十大重點方向”,計劃建立創(chuàng)新體系,2026年專項補貼超50億元;國內長三角、大灣區(qū)形成“100公里供應鏈圈”,綠的諧波、匯川技術等企業(yè)在減速器、驅動模塊領域實現突破,推動核心部件國產化率提升至70%,成本下降60%。
技術路線上,“端到端VLA+世界模型”成為主流方向,谷歌、英偉達等企業(yè)正推動模型融入4D時空建模,讓機器人具備“主動預測”能力,比如提前預判物體滑落軌跡,主動調整動作。
國內企業(yè)則側重差異化突破,宇樹通過開源UnifoLM-VLA-0,推動“硬件+模型”生態(tài)協同,降低行業(yè)研發(fā)成本,銀河通用構建百億級“機器人干活數據集”,提升物流分揀場景適配率至98.7%(前文問答整理)。
王興興曾在五年前就預判到AI對機器人行業(yè)的顛覆性,他始終堅持“實打實的需求在哪里,我們就解決什么問題”(36氪,2025年8月7日)。這種務實主義,或許正是破解“造腦難題”的關鍵——不必追求一步到位的通用模型,而是先在特定場景實現突破,通過“數據飛輪”持續(xù)迭代,逐步向通用能力演進。
業(yè)內普遍預測,2026-2028年,工業(yè)場景將率先實現機器人大模型規(guī)模化落地,2028年后逐步滲透至家庭服務領域。麥肯錫更是預測,2029年工業(yè)具身機器人密度將達60-200臺/萬平方米廠房。
從波士頓動力的Atlas跳街舞,到宇樹H1奔跑跳躍,機器人的“身手”越來越靈活;從谷歌RT-3到宇樹UnifoLM,機器人的“大腦”越來越聰明。
王興興口中的“諾貝爾獎級突破”,或許不會一蹴而就,但這場“造腦競賽”的每一步進展,都在推動機器人從“實驗室明星”走向“生產生活主力”。
閱讀提示:
本文部分內容來源:東吳證券《機器人大模型行業(yè)深度報告》、IT之家、中新網報道
本文涉及均來源網絡公開資料,可能與實際存在差異,請謹慎引用
![]()
作品聲明:僅在頭條發(fā)布,觀點不代表平臺立場
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.