近日,英偉達(dá)機(jī)器人業(yè)務(wù)負(fù)責(zé)人、GEAR實(shí)驗室聯(lián)合負(fù)責(zé)人Jim Fan在社交媒體上發(fā)表長文,對機(jī)器人行業(yè)現(xiàn)狀提出嚴(yán)厲批評。他認(rèn)為,盡管硬件技術(shù)取得顯著進(jìn)展,但整個行業(yè)在軟件迭代、標(biāo)準(zhǔn)制定和技術(shù)路線選擇上仍處于混亂狀態(tài)。
Jim Fan指出,當(dāng)前主流的視覺-語言-動作模型(VLA)技術(shù)路線"感覺不對",其基于視覺語言模型(VLM)的預(yù)訓(xùn)練方式與機(jī)器人實(shí)際需求存在根本性錯位。他表示正押注于視頻世界模型作為替代方案。
這一表態(tài)引發(fā)業(yè)內(nèi)關(guān)注,在人工智能其他領(lǐng)域快速發(fā)展的背景下,機(jī)器人技術(shù)的基礎(chǔ)性問題凸顯出該行業(yè)距離商業(yè)化應(yīng)用仍有較大距離,可能影響投資者對相關(guān)公司的估值預(yù)期。
Jim Fan總結(jié)了2025年在機(jī)器人領(lǐng)域?qū)W到的三個教訓(xùn),涵蓋硬件可靠性、行業(yè)標(biāo)準(zhǔn)和技術(shù)路線等核心問題,為理解當(dāng)前機(jī)器人產(chǎn)業(yè)瓶頸提供了一線視角。
![]()
硬件可靠性成為軟件迭代最大障礙
Jim Fan指出,盡管Optimus、e-Atlas、Figure、Neo、G1等機(jī)器人展現(xiàn)了精湛的工程技術(shù),但硬件可靠性嚴(yán)重限制了軟件開發(fā)速度。他表示,當(dāng)前最先進(jìn)的人工智能尚未充分發(fā)揮這些前沿硬件的全部能力,"身體的能力超過了大腦的指揮能力"。
與人類不同,機(jī)器人無法從損傷中自我修復(fù)。過熱、電機(jī)損壞、固件異常等問題每天都在發(fā)生,而錯誤是不可逆且無法容忍的。照看這些機(jī)器人需要整個運(yùn)營團(tuán)隊的支持。
Jim Fan感嘆:"唯一能隨著規(guī)模增長的,只有我的耐心。"這一表述揭示了機(jī)器人研發(fā)中人力成本高企、迭代效率低下的現(xiàn)實(shí)困境。
![]()
行業(yè)標(biāo)準(zhǔn)缺失導(dǎo)致評估體系混亂
Jim Fan將機(jī)器人領(lǐng)域的基準(zhǔn)測試(Benchmarking)狀況稱為"史詩級災(zāi)難"。他指出,與大語言模型領(lǐng)域已形成MMLU、SWE-Bench等共識性標(biāo)準(zhǔn)不同,機(jī)器人行業(yè)在硬件平臺、任務(wù)定義、評分標(biāo)準(zhǔn)、模擬器或真實(shí)世界設(shè)置等方面均無統(tǒng)一標(biāo)準(zhǔn)。
當(dāng)前行業(yè)普遍現(xiàn)象是,每家公司在發(fā)布新聞時臨時定義自己的基準(zhǔn)測試,并據(jù)此宣稱達(dá)到"當(dāng)前最佳"(SOTA)水平。更嚴(yán)重的是,演示視頻往往是從100次嘗試中挑選出的最佳效果。
Jim Fan呼吁:"2026年我們必須做得更好,停止將可復(fù)現(xiàn)性和科學(xué)紀(jì)律視為二等公民。"這一批評直指行業(yè)缺乏科學(xué)嚴(yán)謹(jǐn)性的根本問題。
![]()
主流技術(shù)路線遭遇根本性質(zhì)疑
Jim Fan對當(dāng)前占主導(dǎo)地位的VLA模型提出了根本性質(zhì)疑。VLA模型的常見做法是在預(yù)訓(xùn)練的視覺語言模型基礎(chǔ)上嫁接動作模塊,但這一路線存在兩個核心問題。
首先,VLM中的大多數(shù)參數(shù)是為語言和知識服務(wù)的,而非為物理學(xué)服務(wù)。其次,為了實(shí)現(xiàn)高層次理解,視覺編碼器會主動丟棄低級細(xì)節(jié),但這些微小細(xì)節(jié)對機(jī)器人的靈巧操作至關(guān)重要。
Jim Fan認(rèn)為,VLM是為視覺問答等基準(zhǔn)測試高度優(yōu)化的,其預(yù)訓(xùn)練目標(biāo)與機(jī)器人需求存在錯位,"沒有理由相信VLA的性能會隨著VLM參數(shù)的增加而擴(kuò)展"。他表示正押注于視頻世界模型作為更適合機(jī)器人策略的預(yù)訓(xùn)練目標(biāo)。
![]()
Jim Fan的觀點(diǎn)引發(fā)了業(yè)內(nèi)討論。網(wǎng)友Stewart Alsop質(zhì)疑,如果視頻世界模型更優(yōu),為何Helix、GR00T N1和π0等實(shí)際交付成果的模型仍構(gòu)建在VLM基礎(chǔ)上,且世界模型目前主要用于策略評估和合成數(shù)據(jù),而非直接運(yùn)動控制。
Jim Fan回應(yīng)稱,這些是2025年的模型,期待2026年的下一代大模型。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.