網易首頁 > 網易號 > 正文申請入駐

機器人為啥還不能干活？還卡在這一關口

2026-01-30 16:31:04　來源: 深水財經社

江蘇舉報

分享至

作者|深水財經社烏海

“誰能把機器人用的大模型做出來，誰就是全世界最厲害的AI公司和機器人公司，我覺得完全足夠拿諾貝爾獎。”近日，宇樹科技創(chuàng)始人王興興在《揚聲》節(jié)目訪談預告中的表態(tài)，再次將機器人大模型（業(yè)內多稱具身大模型）推上輿論風口。

當下，人形機器人從展會熱舞到工廠試跑，特斯拉喊出2026年百萬臺產能目標，國內廠商接連公布億元訂單，電商平臺預約量突破百萬，看似離“走進生活、真正干活”只有一步之遙。

但高盛最新調研顯示，全球頭部廠商試產規(guī)模尚不足千臺，2026年全球實際產能僅1.2萬臺（中國新聞網，2025年12月6日）。

王興興口中的“關鍵一步”，正是能讓機器人實現“感知-理解-推理-執(zhí)行”閉環(huán)的機器人大模型，它相當于機器人的“超級大腦”，能讓機器人擺脫預設程序束縛，在真實場景中自主應對變化、完成任務。

這場全球范圍內的“造腦競賽”已全面打響，為何始終難以突破？機器人“干活難”的癥結，到底藏在何處？

全球三大梯隊競速

機器人大模型的核心是具身智能，強調通過“身體”與物理世界互動產生智能，而非僅在虛擬數據中“紙上談兵”。目前全球研發(fā)格局分為三大梯隊，各有側重卻均未實現“通用全能”。

第一梯隊由國際科技巨頭領跑，手握算力與數據雙重優(yōu)勢。

谷歌是最早發(fā)力的玩家，2023年推出RT-2模型，首創(chuàng)視覺-語言-動作（VLA）統一建模，能直接輸出機器人控制指令，零樣本完成“撿香蕉放抽屜”等任務；2025年升級的RT-3模型，將推理延遲降至50ms內，在OpenEQA評測中拿下綜合第一，還獲得NeurIPS 2024最佳論文提名。

英偉達則走“仿真+真機”路線，依托Omniverse工業(yè)級仿真平臺生成千億級合成數據，結合真機數據訓練Project GR00T模型，硬件與軟件協同優(yōu)化讓推理效率提升400%，2025年在RoboBenchmark物理交互任務中奪冠，2026年已在比亞迪、寧德時代工廠部署適配模型的工業(yè)機器人。

特斯拉則將自動駕駛技術遷移至機器人領域，依托Dojo超算訓練Optimus BotNet模型，通過4D世界模型實現動態(tài)場景實時規(guī)劃，2026年CES展上展示了Optimus自主完成工廠裝配任務的場景（前文問答整理）。

第二梯隊是細分領域的“黑馬”，聚焦特定場景突破。

國際端，Figure AI與OpenAI合作，研發(fā)的Figure Foundation Model（FFM）專攻人形機器人雙手協同；

國內端，智元機器人推出啟元大模型，構建“作業(yè)/交互/運動”一體三智體系，獲圖靈獎得主Yann LeCun認可，智平方的GOVLA模型則實現全身控制與移動軌跡統一輸出。

第三梯隊以宇樹科技等企業(yè)為代表，走“輕量化+產業(yè)化”路線。

作為國內消費級機器人領軍企業(yè)，宇樹2026年1月開源UnifoLM-VLA-0大模型，融合動作預測頭與動力學約束。但王興興也坦言，宇樹的分層架構（LLM+LBM）更側重實時控制與安全性，在通用泛化能力上仍有差距。

值得注意的是，即便頭部玩家進展迅猛，目前全球主流模型仍處于智能L2初級階段，僅能實現“固定任務+微調”，尚未具備自主泛化與應變能力。這意味著，沒有任何一家企業(yè)能真正交出“能靈活干活”的機器人“大腦”。

四大難題卡住“造腦”進程

王興興將機器人大模型比作“諾貝爾獎級難題”，其實絕不是夸張。

相較于語言大模型，機器人大模型要兼顧虛擬推理與物理交互，每一步突破都需跨越技術、數據、成本的多重鴻溝，這也是機器人遲遲不能“干活”的核心原因。

首當其沖的是實時性與算力的矛盾。機器人在物理世界中操作，需10-100ms內完成“感知-決策-執(zhí)行”閉環(huán)，否則會出現動作卡頓、碰撞等問題。

但目前主流大模型參數多在13B-34B之間，推理延遲難以降低。谷歌RT-3雖將延遲壓縮至50ms，卻依賴TPU v5e專用算力集群，這種算力成本極高，普通企業(yè)難以承擔。

宇樹通過輕量化設計將模型壓縮至7B參數，實現延遲<100ms，但代價是犧牲了部分泛化能力，零樣本適配率約75-80%，低于谷歌RT-3的90%以上。

其次是數據稀缺與“仿真-現實鴻溝”。數據是大模型的“燃料”，但機器人大模型需要的“視覺-語言-動作”多模態(tài)數據，采集難度遠超文本數據。

純真機數據采集成本極高，宇樹僅340小時真機數據就耗費大量人力物力；純仿真數據雖能通過英偉達Isaac Gym等平臺批量生成，卻存在“仿真與現實脫節(jié)”的問題。實驗室中訓練的動作，在真實場景中可能因路面不平、物體偏移而失效。

即便采用“仿真+真機”混合模式，也難以完全消除這種鴻溝，目前行業(yè)普遍面臨“模型在實驗室滿分，在真實場景翻車”的尷尬（前文問答整理）。

更棘手的是物理直覺與泛化能力不足。人類能憑本能判斷“杯子傾斜會漏水”“重物落地會砸壞東西”，但機器人需要通過海量數據學習物理規(guī)律，才能形成這種直覺。

2026年ShareRobot評測顯示，具備物理直覺的模型在“突發(fā)障礙”任務中成功率，比傳統模型高35%，但目前多數模型仍缺乏這種能力。

此外，跨場景、跨本體泛化也是難題。能在工廠裝配的機器人，未必能適應家庭清潔；適配四足機器人的模型，很難直接遷移到人形機器人上。

最后是核心部件與成本瓶頸。機器人大模型的落地，離不開硬件支撐，但目前高精度觸覺傳感器量產良率不足60%，六維力傳感器等核心部件國產化率低，依賴進口且面臨斷供風險。

有機構測算顯示，當前單臺人形機器人物料成本約40萬元，而行業(yè)共識是成本需降至5萬元以內才能盈利。成本高企導致企業(yè)難以大規(guī)模部署真機采集數據，進而制約模型迭代。

從“能干活”到“干好活”

盡管挑戰(zhàn)重重，但機器人大模型的研發(fā)已進入加速期，政策、資本與技術的合力正在破解困局。

工信部已將人形機器人列為“未來產業(yè)十大重點方向”，計劃建立創(chuàng)新體系，2026年專項補貼超50億元；國內長三角、大灣區(qū)形成“100公里供應鏈圈”，綠的諧波、匯川技術等企業(yè)在減速器、驅動模塊領域實現突破，推動核心部件國產化率提升至70%，成本下降60%。

技術路線上，“端到端VLA+世界模型”成為主流方向，谷歌、英偉達等企業(yè)正推動模型融入4D時空建模，讓機器人具備“主動預測”能力，比如提前預判物體滑落軌跡，主動調整動作。

國內企業(yè)則側重差異化突破，宇樹通過開源UnifoLM-VLA-0，推動“硬件+模型”生態(tài)協同，降低行業(yè)研發(fā)成本，銀河通用構建百億級“機器人干活數據集”，提升物流分揀場景適配率至98.7%（前文問答整理）。

王興興曾在五年前就預判到AI對機器人行業(yè)的顛覆性，他始終堅持“實打實的需求在哪里，我們就解決什么問題”（36氪，2025年8月7日）。這種務實主義，或許正是破解“造腦難題”的關鍵——不必追求一步到位的通用模型，而是先在特定場景實現突破，通過“數據飛輪”持續(xù)迭代，逐步向通用能力演進。

業(yè)內普遍預測，2026-2028年，工業(yè)場景將率先實現機器人大模型規(guī)模化落地，2028年后逐步滲透至家庭服務領域。麥肯錫更是預測，2029年工業(yè)具身機器人密度將達60-200臺/萬平方米廠房。

從波士頓動力的Atlas跳街舞，到宇樹H1奔跑跳躍，機器人的“身手”越來越靈活；從谷歌RT-3到宇樹UnifoLM，機器人的“大腦”越來越聰明。

王興興口中的“諾貝爾獎級突破”，或許不會一蹴而就，但這場“造腦競賽”的每一步進展，都在推動機器人從“實驗室明星”走向“生產生活主力”。

閱讀提示：

本文部分內容來源：東吳證券《機器人大模型行業(yè)深度報告》、IT之家、中新網報道

本文涉及均來源網絡公開資料，可能與實際存在差異，請謹慎引用

作品聲明：僅在頭條發(fā)布，觀點不代表平臺立場

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.