網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

機(jī)器人是怎么學(xué)會(huì)干活的：一部當(dāng)代簡(jiǎn)史

2026-04-20 13:44:46　來源: DeepTech深科技

北京舉報(bào)

分享至

（來源：麻省理工科技評(píng)論）

機(jī)器人學(xué)家過去的特點(diǎn)是：夢(mèng)做得很大，東西造得很小。他們滿懷壯志要匹敵甚至超越人體的驚人復(fù)雜度，然后把整個(gè)職業(yè)生涯花在給汽車工廠打磨機(jī)械臂上；目標(biāo)是 C-3PO（《星球大戰(zhàn)》里的人形機(jī)器人，能說六百多萬種語言，會(huì)走路、會(huì)社交、有情感反應(yīng)，是科幻電影中最經(jīng)典的“像人一樣的機(jī)器人”形象），做出來的是掃地機(jī)器人 Roomba。

這些研究者中許多人的真正野心，是科幻片里的那種機(jī)器人——能在世界中自由移動(dòng)、適應(yīng)不同環(huán)境、安全而有益地與人互動(dòng)。對(duì)有社會(huì)使命感的人來說，這樣的機(jī)器可以幫助行動(dòng)不便的人、緩解孤獨(dú)感、承擔(dān)對(duì)人類來說太危險(xiǎn)的工作。對(duì)更看重商業(yè)前景的人來說，它意味著一種取之不盡、不用發(fā)工資的勞動(dòng)力來源。但不管出發(fā)點(diǎn)是什么，一段漫長(zhǎng)的失敗史讓硅谷大多數(shù)人不敢在“有用的機(jī)器人”上下注。

這個(gè)局面變了。機(jī)器還沒造出來，但錢已經(jīng)涌進(jìn)來了：僅 2025 年一年，企業(yè)和投資者就向人形機(jī)器人砸了 61 億美元，是 2024 年投資額的四倍。

發(fā)生了什么？機(jī)器學(xué)習(xí)與世界互動(dòng)的方式經(jīng)歷了一場(chǎng)革命。

設(shè)想你想在家里裝一雙機(jī)械臂，只讓它做一件事：疊衣服。它該怎么學(xué)會(huì)？你可以先寫規(guī)則：檢查面料，算出它被拉伸到什么程度會(huì)撕裂；識(shí)別襯衫的領(lǐng)子；把夾爪移到左袖，抬起來，向內(nèi)折疊精確到多少距離；右袖重復(fù)一遍；如果襯衫轉(zhuǎn)了方向，相應(yīng)地調(diào)整方案；如果袖子擰了，糾正它……規(guī)則的數(shù)量很快就會(huì)爆炸，但如果真的把每種情況都窮舉了，確實(shí)能產(chǎn)出可靠的結(jié)果。這就是機(jī)器人學(xué)最初的手藝：預(yù)判一切可能性，提前寫好代碼。

大約 2015 年前后，前沿領(lǐng)域開始換打法：在數(shù)字世界里搭建機(jī)械臂和衣服的仿真模型，每次成功疊好就給程序一個(gè)獎(jiǎng)勵(lì)信號(hào)，失敗了就扣分。通過反復(fù)試錯(cuò)、迭代幾百萬次，程序自己摸索出越來越好的技巧——跟 AI 學(xué)下棋用的方法一樣。

2022 年 ChatGPT 的問世引爆了當(dāng)前這輪熱潮。大語言模型在海量文本上訓(xùn)練，工作原理不是試錯(cuò)，而是學(xué)會(huì)預(yù)測(cè)一句話里下一個(gè)詞應(yīng)該是什么。類似的模型被移植到機(jī)器人領(lǐng)域后，很快就能吃進(jìn)圖像、傳感器讀數(shù)和機(jī)器人關(guān)節(jié)的位置信息，預(yù)測(cè)機(jī)器接下來該做什么動(dòng)作，每秒鐘發(fā)出幾十條運(yùn)動(dòng)指令。

依賴能吃下大量數(shù)據(jù)的 AI 模型，似乎不管機(jī)器人是需要跟人說話、在環(huán)境中移動(dòng)，還是完成復(fù)雜任務(wù)，都管用。而且它還和其他想法結(jié)合在一起，比如即使機(jī)器人還不完美也先放出去，讓它在真實(shí)工作環(huán)境里繼續(xù)學(xué)習(xí)。今天，硅谷的機(jī)器人學(xué)家們又開始做大夢(mèng)了。

Jibo - Jibo

早在大語言模型時(shí)代之前，一臺(tái)可以活動(dòng)的社交機(jī)器人就已經(jīng)在和人聊天了。

2014 年，MIT 的機(jī)器人學(xué)家辛西婭·布里澤爾（Cynthia Breazeal）向世界介紹了一款沒有手臂、沒有腿、沒有臉的機(jī)器人，叫 Jibo。它看上去像一盞臺(tái)燈。布里澤爾的目標(biāo)是為家庭打造一款社交機(jī)器人，這個(gè)想法通過眾籌拉到了 370 萬美元。早期預(yù)訂價(jià) 749 美元。

早期的 Jibo 能做自我介紹，能跳舞逗孩子開心，但也就僅此而已了。它的愿景一直是成為一種有實(shí)體的助手，從日程管理、處理郵件到講故事什么都能干。它確實(shí)贏得了一批忠實(shí)用戶，但公司最終在 2019 年關(guān)閉了。

（來源：麻省理工科技評(píng)論）

回頭來看，Jibo 最需要的是更好的語言能力。它當(dāng)時(shí)的競(jìng)爭(zhēng)對(duì)手是蘋果的 Siri 和亞馬遜的 Alexa，而這些技術(shù)在當(dāng)時(shí)都依賴大量的腳本預(yù)設(shè)。籠統(tǒng)來說，當(dāng)你跟它們說話時(shí)，軟件會(huì)把你的語音轉(zhuǎn)成文字，分析你想要什么，然后從預(yù)先批準(zhǔn)的回復(fù)片段里拼出一個(gè)回應(yīng)。這些片段可以很有趣，但也重復(fù)、無聊——用一個(gè)詞來說就是“很機(jī)械”。對(duì)一款定位社交和家庭的機(jī)器人來說，這是硬傷。

此后發(fā)生的事情大家都知道了：機(jī)器生成語言的方式發(fā)生了一場(chǎng)革命。如今任何一家頭部 AI 公司的語音模式都已經(jīng)做到了引人入勝、令人印象深刻，多家硬件初創(chuàng)公司正在嘗試（但大多失敗）打造利用這項(xiàng)能力的產(chǎn)品。

但新能力也帶來新風(fēng)險(xiǎn)：預(yù)設(shè)腳本的對(duì)話不太會(huì)跑偏，AI 生成的對(duì)話就不一定了。比如一些流行的 AI 玩具就曾跟孩子聊過如何找到火柴和刀。

OpenAI - Dactyl

一只用仿真訓(xùn)練的機(jī)器手，嘗試模擬真實(shí)世界的不可預(yù)測(cè)性和變化。

到 2018 年，所有頂尖機(jī)器人實(shí)驗(yàn)室都在努力拋棄舊式的腳本規(guī)則，轉(zhuǎn)而通過試錯(cuò)來訓(xùn)練機(jī)器人。OpenAI 嘗試在虛擬環(huán)境中訓(xùn)練它的機(jī)器手 Dactyl——用機(jī)器手和手掌大小的立方體的數(shù)字模型。立方體的每個(gè)面上有字母和數(shù)字，模型可能設(shè)定一個(gè)任務(wù)，比如“轉(zhuǎn)動(dòng)立方體，讓帶有字母 O 的紅色面朝上”。

（來源：麻省理工科技評(píng)論）

問題在于：機(jī)器手可能在仿真世界里做得非常好，但當(dāng)你把這個(gè)程序拿到現(xiàn)實(shí)世界、讓它操作真正的立方體時(shí)，兩個(gè)世界之間的細(xì)微差異就可能導(dǎo)致失靈。顏色可能略有不同，機(jī)器人指尖的可變形橡膠可能比仿真里的更有彈性。

解決方案叫做“域隨機(jī)化”（domain randomization）：你本質(zhì)上是創(chuàng)造出幾百萬個(gè)略有差異的仿真世界，每個(gè)世界里的摩擦力、光照、顏色都被隨機(jī)調(diào)整；接觸了足夠多的變化之后，機(jī)器人在真實(shí)世界中操控立方體的能力就會(huì)更強(qiáng)。這個(gè)方法在 Dactyl 上成功了。一年后它用同樣的核心技術(shù)完成了更難的任務(wù)：解魔方（盡管成功率只有 60%，面對(duì)特別復(fù)雜的打亂時(shí)只有 20%）。

不過仿真技術(shù)有其局限性，這種方法在今天扮演的角色已經(jīng)比 2018 年小得多了。OpenAI 在 2021 年關(guān)閉了機(jī)器人業(yè)務(wù)，但最近重新啟動(dòng)了這個(gè)部門，據(jù)報(bào)道正在聚焦人形機(jī)器人。

Google DeepMind - RT-2

從互聯(lián)網(wǎng)上的海量圖片中學(xué)習(xí)，幫助機(jī)器人把語言指令轉(zhuǎn)化為動(dòng)作。

2022 年前后，Google 的機(jī)器人團(tuán)隊(duì)在做一些有點(diǎn)奇怪的事情。他們花了 17 個(gè)月，把機(jī)器人遙控器交給人類，拍下他們做各種事情的視頻——從拿起薯片袋到開罐頭。團(tuán)隊(duì)最終編錄了 700 種不同的任務(wù)。

（來源：麻省理工科技評(píng)論）

Google 的目的是構(gòu)建和測(cè)試機(jī)器人領(lǐng)域最早的大規(guī)模基礎(chǔ)模型之一。思路和大語言模型類似：把大量文本輸入進(jìn)去，將其標(biāo)記化為算法能處理的格式，然后生成輸出。Google 的 RT-1 接收的輸入包括機(jī)器人看到的畫面和機(jī)械臂各部件的位置信息，然后接受一條指令，將其轉(zhuǎn)化為驅(qū)動(dòng)機(jī)器人運(yùn)動(dòng)的指令。對(duì)于見過的任務(wù)，它的成功率達(dá)到 97%；對(duì)于沒見過的指令，成功率也有 76%。

第二代 RT-2 在次年發(fā)布，走得更遠(yuǎn)。它不再只用機(jī)器人專屬的數(shù)據(jù)來訓(xùn)練，而是擴(kuò)大了范圍：像當(dāng)時(shí)很多研究者在做的視覺-語言模型一樣，它在互聯(lián)網(wǎng)上的通用圖片上訓(xùn)練，這讓機(jī)器人能夠理解場(chǎng)景中各種物體在哪里。

“一大堆新能力突然被解鎖了，”Google DeepMind 的機(jī)器人學(xué)家卡尼什卡·拉奧（Kanishka Rao）說。他主導(dǎo)了兩代模型的開發(fā)。“我們現(xiàn)在能執(zhí)行‘把可樂罐放到泰勒·斯威夫特的照片旁邊’這種指令了。”

2025 年，Google DeepMind 進(jìn)一步融合了大語言模型和機(jī)器人的世界，發(fā)布了 Gemini Robotics 模型，在理解自然語言指令方面有了進(jìn)一步提升。

Covariant - RFM-1

2017 年，在 OpenAI 關(guān)閉第一支機(jī)器人團(tuán)隊(duì)之前，一批工程師從中拆分出來，創(chuàng)辦了一個(gè)叫 Covariant 的項(xiàng)目。他們的目標(biāo)不是造科幻片里的人形機(jī)器人，而是造最務(wù)實(shí)的那種：一條能在倉(cāng)庫(kù)里拿東西、搬東西的機(jī)械臂。Covariant 構(gòu)建了一套類似 Google 基礎(chǔ)模型思路的系統(tǒng)，把它部署到 Crate & Barrel 等公司運(yùn)營(yíng)的倉(cāng)庫(kù)里，同時(shí)把這些倉(cāng)庫(kù)當(dāng)作數(shù)據(jù)采集管道。

到 2024 年，Covariant 發(fā)布了一款機(jī)器人模型 RFM-1，你可以像跟同事說話一樣跟它互動(dòng)。比如你先給機(jī)械臂看一堆筒裝網(wǎng)球，然后讓它把每一筒分別放到不同的區(qū)域。機(jī)器人還能做出回應(yīng)——比如預(yù)判自己可能抓不穩(wěn)這個(gè)物品，然后主動(dòng)問你應(yīng)該用哪種吸盤。

這類交互在實(shí)驗(yàn)室里做過，但 Covariant 是在大規(guī)模的真實(shí)環(huán)境中落地。公司在每個(gè)客戶的場(chǎng)地都部署了攝像頭和數(shù)據(jù)采集設(shè)備，源源不斷地給模型反饋更多訓(xùn)練數(shù)據(jù)。

（來源：麻省理工科技評(píng)論）

它還不完美。2024 年 3 月的一次演示中，面前擺著一堆廚房用品，機(jī)器人被要求把香蕉放回原來的位置。它先拿起一塊海綿，又拿起一個(gè)蘋果，接著又拿了一堆別的東西，折騰半天才完成任務(wù)。

聯(lián)合創(chuàng)始人 Peter Chen 當(dāng)時(shí)告訴我，它“還不理解回溯自己步驟這個(gè)新概念。但這是個(gè)很好的例子——在缺乏好的訓(xùn)練數(shù)據(jù)的場(chǎng)景里，它可能還不太行。”

Peter Chen 和另一位聯(lián)合創(chuàng)始人彼得·阿貝爾（Pieter Abbeel）后來被亞馬遜聘用。亞馬遜目前在許可使用 Covariant 的機(jī)器人模型（亞馬遜沒有回應(yīng)關(guān)于具體用途的提問，但該公司僅在美國(guó)就運(yùn)營(yíng)著大約 1300 座倉(cāng)庫(kù)）。

Agility Robotics - Digit

多家企業(yè)正把這款人形機(jī)器人投入真實(shí)工作場(chǎng)景。

涌入機(jī)器人初創(chuàng)公司的新一輪投資，主要瞄準(zhǔn)的不是燈狀或臂狀的機(jī)器人，而是人形的。人形機(jī)器人理論上可以無縫進(jìn)入人類目前工作的空間和崗位，不用為了適應(yīng)什么巨型機(jī)械臂之類的新形態(tài)去改造流水線。

說起來容易做起來難。在人形機(jī)器人確實(shí)出現(xiàn)在真實(shí)倉(cāng)庫(kù)中的少數(shù)案例里，它們往往被限制在測(cè)試區(qū)和試點(diǎn)項(xiàng)目中。

（來源：麻省理工科技評(píng)論）

不過 Agility 的人形機(jī)器人 Digit 確實(shí)在做一些真正的活。它的一些設(shè)計(jì)更多是出于功能考慮而非科幻審美，例如裸露的關(guān)節(jié)、頭部明顯不像人等。亞馬遜、豐田和 GXO（一家物流巨頭，客戶包括蘋果和耐克）都部署了 Digit，這讓它成為最早被企業(yè)視為“真的能省錢”而不只是新奇噱頭的人形機(jī)器人之一。它們每天的工作就是搬運(yùn)、移動(dòng)和堆疊貨運(yùn)周轉(zhuǎn)箱。

不過目前的 Digit 離硅谷押注的那種“像人一樣的幫手”還差得遠(yuǎn)。比如它只能搬起 35 磅的東西，而且每次 Agility 把 Digit 做得更有力，電池就更重，充電就更頻繁。標(biāo)準(zhǔn)制定機(jī)構(gòu)也表示，人形機(jī)器人需要比大多數(shù)工業(yè)機(jī)器人更嚴(yán)格的安全規(guī)則，因?yàn)樗鼈儽辉O(shè)計(jì)成可以移動(dòng)的，而且會(huì)長(zhǎng)時(shí)間在人類身邊工作。

但 Digit 說明了一件事：這場(chǎng)機(jī)器人訓(xùn)練的革命并沒有匯聚到某一種單一方法上。Agility 依賴的仿真技術(shù)和 OpenAI 訓(xùn)練機(jī)器手時(shí)用的類似，同時(shí)公司也在和 Google 的 Gemini 模型合作，幫助機(jī)器人適應(yīng)新環(huán)境。十多年的實(shí)驗(yàn)把整個(gè)行業(yè)帶到了今天這個(gè)節(jié)點(diǎn)：現(xiàn)在，它們開始想把機(jī)器人造得越來越大。

https://www.technologyreview.com/2026/04/17/1135416/how-robots-learn-brief-contemporary-history/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.