英偉達(dá)機(jī)Jim Fan：機(jī)器人領(lǐng)域還處于混亂狀態(tài)，連發(fā)展方向都有可能是錯的

2025-12-29 11:46:19　來源: 華爾街見聞官方

上海舉報

分享至

近日，英偉達(dá)機(jī)器人業(yè)務(wù)負(fù)責(zé)人、GEAR實(shí)驗室聯(lián)合負(fù)責(zé)人Jim Fan在社交媒體上發(fā)表長文，對機(jī)器人行業(yè)現(xiàn)狀提出嚴(yán)厲批評。他認(rèn)為，盡管硬件技術(shù)取得顯著進(jìn)展，但整個行業(yè)在軟件迭代、標(biāo)準(zhǔn)制定和技術(shù)路線選擇上仍處于混亂狀態(tài)。

Jim Fan指出，當(dāng)前主流的視覺-語言-動作模型（VLA）技術(shù)路線"感覺不對"，其基于視覺語言模型（VLM）的預(yù)訓(xùn)練方式與機(jī)器人實(shí)際需求存在根本性錯位。他表示正押注于視頻世界模型作為替代方案。

這一表態(tài)引發(fā)業(yè)內(nèi)關(guān)注，在人工智能其他領(lǐng)域快速發(fā)展的背景下，機(jī)器人技術(shù)的基礎(chǔ)性問題凸顯出該行業(yè)距離商業(yè)化應(yīng)用仍有較大距離，可能影響投資者對相關(guān)公司的估值預(yù)期。

Jim Fan總結(jié)了2025年在機(jī)器人領(lǐng)域?qū)W到的三個教訓(xùn)，涵蓋硬件可靠性、行業(yè)標(biāo)準(zhǔn)和技術(shù)路線等核心問題，為理解當(dāng)前機(jī)器人產(chǎn)業(yè)瓶頸提供了一線視角。

硬件可靠性成為軟件迭代最大障礙

Jim Fan指出，盡管Optimus、e-Atlas、Figure、Neo、G1等機(jī)器人展現(xiàn)了精湛的工程技術(shù)，但硬件可靠性嚴(yán)重限制了軟件開發(fā)速度。他表示，當(dāng)前最先進(jìn)的人工智能尚未充分發(fā)揮這些前沿硬件的全部能力，"身體的能力超過了大腦的指揮能力"。

與人類不同，機(jī)器人無法從損傷中自我修復(fù)。過熱、電機(jī)損壞、固件異常等問題每天都在發(fā)生，而錯誤是不可逆且無法容忍的。照看這些機(jī)器人需要整個運(yùn)營團(tuán)隊的支持。

Jim Fan感嘆："唯一能隨著規(guī)模增長的，只有我的耐心。"這一表述揭示了機(jī)器人研發(fā)中人力成本高企、迭代效率低下的現(xiàn)實(shí)困境。

行業(yè)標(biāo)準(zhǔn)缺失導(dǎo)致評估體系混亂

Jim Fan將機(jī)器人領(lǐng)域的基準(zhǔn)測試（Benchmarking）狀況稱為"史詩級災(zāi)難"。他指出，與大語言模型領(lǐng)域已形成MMLU、SWE-Bench等共識性標(biāo)準(zhǔn)不同，機(jī)器人行業(yè)在硬件平臺、任務(wù)定義、評分標(biāo)準(zhǔn)、模擬器或真實(shí)世界設(shè)置等方面均無統(tǒng)一標(biāo)準(zhǔn)。

當(dāng)前行業(yè)普遍現(xiàn)象是，每家公司在發(fā)布新聞時臨時定義自己的基準(zhǔn)測試，并據(jù)此宣稱達(dá)到"當(dāng)前最佳"（SOTA）水平。更嚴(yán)重的是，演示視頻往往是從100次嘗試中挑選出的最佳效果。

Jim Fan呼吁："2026年我們必須做得更好，停止將可復(fù)現(xiàn)性和科學(xué)紀(jì)律視為二等公民。"這一批評直指行業(yè)缺乏科學(xué)嚴(yán)謹(jǐn)性的根本問題。

主流技術(shù)路線遭遇根本性質(zhì)疑

Jim Fan對當(dāng)前占主導(dǎo)地位的VLA模型提出了根本性質(zhì)疑。VLA模型的常見做法是在預(yù)訓(xùn)練的視覺語言模型基礎(chǔ)上嫁接動作模塊，但這一路線存在兩個核心問題。

首先，VLM中的大多數(shù)參數(shù)是為語言和知識服務(wù)的，而非為物理學(xué)服務(wù)。其次，為了實(shí)現(xiàn)高層次理解，視覺編碼器會主動丟棄低級細(xì)節(jié)，但這些微小細(xì)節(jié)對機(jī)器人的靈巧操作至關(guān)重要。

Jim Fan認(rèn)為，VLM是為視覺問答等基準(zhǔn)測試高度優(yōu)化的，其預(yù)訓(xùn)練目標(biāo)與機(jī)器人需求存在錯位，"沒有理由相信VLA的性能會隨著VLM參數(shù)的增加而擴(kuò)展"。他表示正押注于視頻世界模型作為更適合機(jī)器人策略的預(yù)訓(xùn)練目標(biāo)。

Jim Fan的觀點(diǎn)引發(fā)了業(yè)內(nèi)討論。網(wǎng)友Stewart Alsop質(zhì)疑，如果視頻世界模型更優(yōu)，為何Helix、GR00T N1和π0等實(shí)際交付成果的模型仍構(gòu)建在VLM基礎(chǔ)上，且世界模型目前主要用于策略評估和合成數(shù)據(jù)，而非直接運(yùn)動控制。

Jim Fan回應(yīng)稱，這些是2025年的模型，期待2026年的下一代大模型。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.