資料圖。本文來源:北京商報、中國國創會
本賬號接受投稿,投稿郵箱:jingjixuejiaquan@126.com
![]()
資料圖。本文為新經濟學家智庫專稿,轉載請注明來源。
本賬號接受投稿,投稿郵箱:jingjixuejiaquan@126.com
千億資本買不走的物理現實——當機器人成為頂流,三道工程難題仍在等待回答
旻宏
新經濟學家智庫特約研究員
2026年農歷新年,四家中國機器人公司將人形機器人推上央視春晚舞臺,引發關注。不禁讓我們憧憬下一步:那些在鏡頭前流暢舞動、談吐自如的機器人,買回家能做什么?這個問題答案便觸及了整個產業最深的隱憂。從預設腳本到真實世界自主操作,從實驗室演示到工廠級可靠性,人形機器人正被一道麥肯錫所稱的“鴻溝”困住。而限制它們突破的根本,不僅是算力、資本,還是物理現實本身,以及讓機器理解物理現實的那套尚未成熟的智識體系。
一、這扇窗
對于一個新興產業而言,沒有比這兒更好的發布臺。單次曝光可達數億至十億級別的受眾,一場演出勝過千場展會。2026年農歷新年,宇樹科技、魔法原子、銀河通用、松延動力四家中國機器人公司同時讀懂了這一邏輯。
2月16日晚,魔法原子攜6臺MagicBot Z1和兩臺MagicBot Gen1人形機器人與易烊千璽等藝人同臺演繹《智造未來》;宇樹科技攜G1與H2兩款人形機器人,在節目《武BOT》中帶來人形機器人集群武術表演;銀河通用在賀歲微電影《我最難忘的今宵》中亮相;松延動力四款人形機器人現身首個小品節目《奶奶的最愛》。大洋彼岸的NBC新聞在報道中指出,“中國已將機器人和AI置于其下一代AI+制造戰略的核心。”
市場的反應幾乎是即時的。據新京報報道,開播兩小時內,京東平臺機器人訂單量環比增長150%,搜索量增長300%,商品詢問量增長460%。南華早報報道,宇樹科技CEO王興興宣布2026年出貨目標為1萬至2萬臺,而該公司2025年實際出貨超5500臺、量產下線超6500臺,雖然這與根據 Omdia 1月8日發布的宇樹2025年出貨4200臺有所不同,但毋庸置疑已站在中國乃至全球頭部位置。
二、人形機器人的三個層級
摩根士丹利資產管理旗下Counterpoint Global團隊于2026年1月發布的研究報告《具身AI與人形機器人的崛起》(Embodied AI and the Rise of Humanoid Robots),提供了理解這一問題的清晰框架——報告將人形機器人的AI能力劃分為三個層級:
第一級是任務專項執行:在預定義條件下完成固定動作,自適應能力極低。報告明確指出,這是當下商業化人形機器人的主導狀態。
第二級是任務泛化:利用感知輸入和習得經驗,將技能遷移至相近但不同的場景,是當前學術研究的前沿。
第三級是泛化智能:通過觀察和演示自主學習全新任務,報告將其定義為需要數據、推理和物理控制領域重大突破才能實現的遠期目標。
在這種高確定性舞臺約束下,四家公司的機器人絕大多數呈現更接近第一級,少數環節可能疊加了有限的實時交互。36氪的調查披露,關鍵臺詞、互動流程等核心環節大概率經過了預先編排;松延動力CMO張淼在回答媒體采訪時表示,團隊甚至按1:1比例復刻了央視一號廳的所有舞臺道具,在公司內部反復彩排才換來場上的流暢。
![]()
這種謹慎有其結構性根源。該報告在三級能力劃分背后,對應著機器人的兩層智識架構,研究把人形機器人的“內部智識架構”拆成兩層:
第一層是低級運動控制(“蜥蜴腦”),負責平衡、步態、反射與實時協調,最高可在數百赫茲頻率下處理;隨著仿真遷移與強化學習的進步,這一層的穩定性與全身控制能力已顯著提升。舞臺上的武術編排與多機協同,更像是對這一層工程能力的集中展示——在強約束、可復現的環境里,把動作庫與控制閉環做到“穩”。
第二層是高級認知推理(“cerebrum”),負責感知、規劃與決策;視覺語言模型讓機器人能夠理解場景、遵循指令并將任務組織為多步驟流程,但報告強調這也是當前系統最大的瓶頸:模型在訓練場景之外的泛化能力有限,遇到陌生環境時性能會明顯下滑,專項技能與廣泛適應性之間的差距仍是核心挑戰。
也因此,把舞臺上的“像人一樣能打能跳”,直接等同為“走進現實就能像大家想象那樣替人類干活”,往往會高估現階段的可靠性與經濟性。麥肯錫指出,令人印象深刻的原型機在真實世界中仍遠未達到一致、可靠且經濟合理的性能;而在工業或家庭場景里,往往需要 99.X% 以上的穩定運行,長尾問題會迅速放大落地難度。
一臺能在受控舞臺上表演武術的機器人,與一臺能在陌生廚房完成一頓早餐的機器人,在算法復雜度上不可同日而語。舞臺展示的,恰恰是前者。
三、物理世界的三道關
從一級到二級、再到三級,不是線性升級,而是跨越三道相互牽制的技術斷層,共同構成人形機器人產業最深的結構性挑戰。
第一道關:數據
真正的瓶頸不僅是“數據量”,而是“數據量×數據形態×數據成本”三位一體。Counterpoint Global的研究指出,具身智能的底層約束在于對大規模、高質量、以人為中心數據的強依賴;而當前主流采集方式(遙操作、動作捕捉)既慢又貴,難以把數據規模推到支撐泛化所需的量級。因此,越來越多開發者傾向于認為:只有在真實世界中實現一定規模的部署與循環回灌,才能持續生成足夠多樣的數據分布,為更可靠的泛化打基礎,這與自動駕駛依賴車隊規模形成“數據—能力”飛輪的邏輯相似。
21世紀經濟報道援引業內受訪者判斷稱,行業當前可用的具身交互數據仍在百萬量級,而面向更強泛化所需的數據規模可能要提升到千萬乃至億級。這也構成了典型的“先有雞還是先有蛋”困境:機器人要在真實環境中大規模運行才能積累高價值數據,但沒有足夠數據,系統又難以在真實環境中長期保持一致、可靠的表現。
對此,《科學美國人》在2025年12月的深度報道一針見血地指出:支撐ChatGPT等產品的大語言模型并不是具身智能的“捷徑”,因為它們缺少從真實交互中獲得的具身知識。
第二道關:仿真到真實的域差
數據匱乏催生了一個看似完美的解決方案:在虛擬環境中批量訓練,再將模型遷移到真實硬件。但這條路上擋著機器人學最棘手的工程難題:Sim-to-Real差距。
德勤在Tech Trends 2026的相關分析中援引俄亥俄州立大學工學院院長、著名機器人學家阿亞納·霍華德(Ayanna Howard)。她的描述直指要害:虛擬環境中的視覺圖像相當逼真,但現實世界有著不同的細節。一個機器人也許在仿真中學會了抓取某樣東西,但當它進入物理空間,并不是1:1的對應關系。她進一步指出,機器人在仿真到物理環境的遷移過程中確實會適應,但它們是圍繞任務來學習,而不是整體性地與環境互動,也就是說,學會在不同摩擦系數表面抓球,與學會在人流擁擠的商場中安全行動,是截然不同的兩件事。
更根本性的物理約束來自硬件本身。德勤報告還采訪了敏捷機器人(Agility Robotics)聯合創始人喬納森·赫斯特(Jonathan Hurst):他指出,傳統機器人是位置控制設備,擅長數控加工或點焊這類精確、可重復的任務,但它們不擅長非結構化空間中的組裝、操控或運動。IEEE高級成員帕薩·普拉提姆·雷(Partha Pratim Ray)在2026年1月的學術研究中得出了同樣的結論:人形機器人受限制的程度,與其說是人工智能,不如說是物理現實的具身性本身。
第三道關:安全驗證
即便解決了數據和仿真問題,還有一道更難繞過的關:安全。IEEE的研究指出,由于人形機器人被設計為在人類附近工作,任何失敗的代價都更高。而習得行為很難被正式驗證,這使得受監管環境中的認證進程和大規模部署的推進都異常緩慢。
德勤的報告指出了同樣的問題:即便經過了大量安全測試,AI驅動的機器人仍可能表現出不可預測的行為。在公共空間,風險顯著上升,因為自主系統必須應對不可預測的人類行為。霍華德更給出了一個令人警醒的判斷:“我從根本上相信,在某處始終應該有一個人在回路中(human in the loop)——永遠。即便是我這個機器人學家也這么說。”
而機器人學領域最具標志性的懷疑論聲音,來自MIT計算機科學與人工智能實驗室前主任、iRobot聯合創始人羅德尼·布魯克斯(Rodney Brooks)。他在博客與公開文章中直接把“用人類視頻教機器人靈巧操作”這一當前主流路徑稱為“純粹的幻想思維”(pure fantasy thinking)。他的物理論據尤其冷靜。全尺寸行走人形機器人需要消耗大量能量維持直立,一旦跌倒,這些能量會轉化為傷害。物理定律決定了:把一臺機器人的線性尺寸擴大為兩倍,其質量將增加為八倍,跌倒時釋放的有害能量同樣如此。這不是軟件能修復的問題。
布魯克斯預測,未來15年內,聚集在現在形態下人形機器人的大量資本將消失,今天的人形機器人將被基本遺忘,而最終成功的“人形機器人”將是裝著輪子、多臂、專用傳感器的機器,而不是眼下這副雙足直立的樣子。布魯克斯自稱是“現實主義者而非悲觀主義者”——他不反對機器人,只是認為勝出的形態不是現在這樣。
這三道關的邏輯鏈條因此形成:真實數據太少,于是訴諸虛擬仿真;虛擬仿真與現實存在域差,于是需要更好的世界模型和物理引擎來理解物理規律;而就算模型的預測更準確,讓機器在人類附近安全操作的驗證體系,仍是一個幾乎尚未破題的問題。這是一個尚未閉合的循環。
四、資本熱情與商業現實
在技術突破時間線高度不確定的背景下,資本市場展現出了與之并不相稱的樂觀。路透社與市調機構Omdia的數據顯示,2025年全球約出貨1.3萬臺人形機器人,中國約占其中90%。摩根士丹利預測,2026年中國市場人形機器人銷量將翻倍至2.8萬臺,部分原因是零部件成本預計同比下降約16%。36氪援引IT桔子數據顯示,2025年中國具身智能領域完成329筆融資,總額398.9億元人民幣,同比增長超過三倍。
資本熱情并非全無根基。摩根士丹利的報告提供了清晰的宏觀經濟邏輯:G7國家自2010年以來,每位失業者對應的職位空缺數量增加了約四倍;制造、物流、檢修等依賴體力重復性勞動的行業尤其突出。人形機器人的關鍵優勢在于它無需改造現有基礎設施——這些設施本就是為人類身體比例而設計的。高盛的研究顯示,人形機器人的制造成本在2023年至2024年間已經下降了40%。美國銀行研究院預計,人形機器人的硬件成本將從2025年的約3.5萬美元,降至未來十年的1.3萬至1.7萬美元。
這種成本下行趨勢,正在催生真實的早期部署。德勤報告記錄了若干標志性案例:寶馬正在南卡羅來納州工廠測試人形機器人,用于傳統工業機器人缺乏的精密操控和雙手協調任務;亞馬遜已部署其第一百萬臺機器人,其DeepFleet AI模型協調整個配送網絡中這支龐大的機器人隊伍。
然而,通向大規模商業化的路仍舊具體而昂貴。麥肯錫提出一個便于討論的“四座橋”框架,用來描述從試點到規模化必須跨越的關鍵門檻,并且明確指出約束必須按順序解決。
第一座是安全系統:無圍欄操作的安全合規是前提,沒有監管合規,機器人就無法離開受控區域;國際標準化組織正在制定專門針對人形機器人的ISO 25785-1標準。
第二座是持續運行時間:大多數機器人當前僅能充電運行2至4小時,遠低于工廠班次要求的8至12小時;這是ROI的核心驅動因素。
第三座是靈巧性與移動性:人類手部擁有約20至27個自由度,而當前大多數機器人手的有效自由度遠不及此,嚴重制約了非結構化場景下的實用性。
第四座也是最終的橋——激進的成本削減:當前商業原型機造價通常在15萬至50萬美元之間,主流行業部署需將售價降至2萬至5萬美元,而驅動系統占總成本的40%至60%,是最大的攻關方向。麥肯錫的分析發現其經銷商報價與制造應成本之間存在十倍差距,是成本壓縮空間最大的單一方向。
與此同時,UBS的長期預測提供了一個坐標系,德勤在2026年Tech Trends報告中直接引用了這組數字:到2035年職場中將有200萬臺人形機器人,到2050年這一數字將增至3億臺,對應市場規模從2035年的300億至500億美元,增長至2050年的1.4萬億至1.7萬億美元。摩根士丹利則更為審慎,直接表態:有意義的批量出貨增長,預計要到本十年代末才會到來。Robotics Tomorrow援引多位投資人的判斷,認為當前估值熱潮與2000年代初互聯網泡沫存在結構性上有相似之處,行業洗牌不可避免。
五、2029年的那道門
摩根士丹利報告在結論部分選擇了自動駕駛作為類比,這個選擇意味深長。Waymo 的 robotaxi 到 2025 年底累計出行已超 2000 萬次,德勤將其視為物理AI領域迄今最成熟的商業化案例,但它服務的地理范圍依然有限,依賴高精度地圖和嚴苛運營環境。人形機器人面對的物理世界,遠比城市道路更加多變。
德勤把時間說得最直白:面向消費端的“人形管家”至少還需要十年。 這不是對產業前景的否定,而是對時間尺度的誠實標定。真正的考驗是一臺機器人能否在一位獨居老人從未打掃過的公寓里安全工作——這一類場景,要求的正是摩根士丹利報告中所定義的第二級乃至第三級能力。
IEEE的研究說得更根本:人形機器人的進步將取決于物理模擬器、更高效的硬件和學習與控制之間更緊密的集成,而不是更大或更強大的學習模型。這是布魯克斯以及摩根士丹利、德勤、麥肯錫等跨越立場分歧而共同指向的地方——瓶頸不在云端,而在地面。
現在是2026年初,距離摩根士丹利所說的“本十年代末”,還有大約四年。報告也明確寫道:早期部署最可能先在可控工業場景發生,并作為數據生成引擎加速學習循環。與此同時,宇樹提出2026年1萬至2萬臺的出貨目標,特斯拉Optimus Gen 3也被報道將于2026年初亮相,并在2026年底前推進產線準備。“從工廠和倉庫起步、積累數據、再向復雜場景擴展”的路徑,可能會以我們尚未完全看清的方式推進。
晚會每年如約而至,舞臺燈光每年都會更加絢爛。但決定這個產業真實高度的,是三道關什么時候能真正打通。在那之前,最聰明的投資者和工程師,可能都應該把更多時間花在零件目錄和安全認證文件上。■
掃碼入群可參加全年至少12場精彩閉門研討
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.