![]()
這項(xiàng)由新加坡國(guó)立大學(xué)Show Lab的白澤辰、高晨和主要作者M(jìn)ike Zheng Shou教授領(lǐng)導(dǎo)的突破性研究,發(fā)表于2024年12月的arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2512.14666v1),為機(jī)器人學(xué)習(xí)帶來(lái)了革命性的改變。感興趣的讀者可以通過這個(gè)編號(hào)在學(xué)術(shù)搜索平臺(tái)上查找完整論文。
當(dāng)你第一次學(xué)騎自行車時(shí),你不是通過看一遍視頻就會(huì)了,而是需要反復(fù)練習(xí)——摔倒、爬起來(lái)、再試一次,在一次次的嘗試中逐漸掌握平衡的訣竅。然而,傳統(tǒng)的機(jī)器人卻不是這樣學(xué)習(xí)的。它們就像一個(gè)只會(huì)死記硬背的學(xué)生,看過幾百個(gè)完美示例后,只能機(jī)械地重復(fù)同樣的動(dòng)作,一旦遇到意外情況就束手無(wú)策。
現(xiàn)在,研究團(tuán)隊(duì)開發(fā)了一套名為EVOLVE-VLA的訓(xùn)練框架,讓機(jī)器人像人類一樣"邊做邊學(xué)"。這個(gè)框架最神奇的地方在于,它讓機(jī)器人能夠在實(shí)際操作中不斷改進(jìn)自己的技能,而不再需要成百上千個(gè)人工示范。
傳統(tǒng)的機(jī)器人訓(xùn)練就像培養(yǎng)一個(gè)只會(huì)照搬菜譜的廚師。這個(gè)廚師必須先看幾百遍完全一樣的烹飪示范,然后只能嚴(yán)格按照記憶中的步驟操作。如果食材稍有不同,或者鍋?zhàn)拥奈恢闷艘稽c(diǎn),這個(gè)廚師就完全不知所措了。更糟糕的是,想要教會(huì)這個(gè)廚師做一道新菜,就必須從頭開始提供幾百個(gè)完美示范,成本極其高昂。
而EVOLVE-VLA框架訓(xùn)練出來(lái)的機(jī)器人更像是一個(gè)真正的學(xué)徒廚師。它只需要看幾次甚至一次示范,就能開始嘗試操作。在實(shí)際烹飪過程中,如果發(fā)現(xiàn)自己搞砸了某個(gè)步驟,它會(huì)立刻意識(shí)到錯(cuò)誤并嘗試修正。通過不斷的實(shí)踐和試錯(cuò),這個(gè)機(jī)器人廚師會(huì)越來(lái)越熟練,甚至能發(fā)明出原本示范中沒有的新技巧。
研究團(tuán)隊(duì)面臨的最大挑戰(zhàn)是如何讓機(jī)器人在沒有"老師"指導(dǎo)的情況下知道自己做得好不好。在傳統(tǒng)訓(xùn)練中,研究人員可以隨時(shí)告訴機(jī)器人"這次做得對(duì)"或"那次做錯(cuò)了"。但在實(shí)際應(yīng)用中,機(jī)器人必須自己判斷任務(wù)的完成程度。這就好比一個(gè)學(xué)生在家自學(xué)時(shí),需要自己評(píng)估學(xué)習(xí)效果,而不能依賴?yán)蠋煹募磿r(shí)反饋。
為了解決這個(gè)問題,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)"進(jìn)度評(píng)估器",它就像機(jī)器人的內(nèi)在導(dǎo)師,能夠觀察機(jī)器人的操作過程,并判斷任務(wù)完成了百分之多少。然而,這個(gè)內(nèi)在導(dǎo)師并不完美,它的判斷有時(shí)會(huì)有偏差,特別是在復(fù)雜的長(zhǎng)期任務(wù)中。
研究團(tuán)隊(duì)巧妙地解決了這個(gè)"導(dǎo)師不夠準(zhǔn)確"的問題。他們開發(fā)了兩個(gè)核心策略來(lái)"馴服"這個(gè)有時(shí)會(huì)出錯(cuò)的內(nèi)在導(dǎo)師。
一、漸進(jìn)式任務(wù)擴(kuò)展:從簡(jiǎn)單開始的學(xué)習(xí)策略
就像教孩子游泳不會(huì)一開始就把他扔到深水區(qū)一樣,研究團(tuán)隊(duì)讓機(jī)器人從簡(jiǎn)單的短期任務(wù)開始學(xué)習(xí)。在訓(xùn)練初期,機(jī)器人只需要完成任務(wù)的一小部分,比如只需要成功抓取物體。當(dāng)它在這個(gè)簡(jiǎn)單目標(biāo)上變得熟練后,訓(xùn)練難度會(huì)逐漸增加,讓它嘗試完成更長(zhǎng)、更復(fù)雜的任務(wù)序列。
這種漸進(jìn)式方法有幾個(gè)重要好處。首先,簡(jiǎn)單任務(wù)中的成功經(jīng)驗(yàn)為機(jī)器人建立了信心基礎(chǔ),就像孩子學(xué)會(huì)在淺水區(qū)站穩(wěn)后才敢嘗試游泳動(dòng)作。其次,短期任務(wù)中的反饋更加直接和準(zhǔn)確,機(jī)器人能更快地理解什么行為是正確的。最后,通過逐步增加難度,機(jī)器人學(xué)會(huì)了將簡(jiǎn)單動(dòng)作組合成復(fù)雜技能,這種組合能力是真正智能行為的關(guān)鍵。
在實(shí)驗(yàn)中,研究團(tuán)隊(duì)發(fā)現(xiàn)這種漸進(jìn)式訓(xùn)練讓機(jī)器人在長(zhǎng)期復(fù)雜任務(wù)上的成功率提高了8.6%。這聽起來(lái)可能不多,但在機(jī)器人操作這樣的精密任務(wù)中,每一個(gè)百分點(diǎn)的提升都代表著巨大的進(jìn)步。
二、累積式進(jìn)度評(píng)估:化噪音為信號(hào)的智慧
機(jī)器人的內(nèi)在導(dǎo)師雖然有時(shí)會(huì)判斷錯(cuò)誤,但研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)巧妙的方法來(lái)減少這些錯(cuò)誤的影響。他們讓機(jī)器人不再依賴單次的判斷,而是建立一個(gè)"里程碑"系統(tǒng)來(lái)累積評(píng)估進(jìn)度。
這個(gè)系統(tǒng)的工作原理很像馬拉松比賽中的計(jì)時(shí)點(diǎn)。跑步者不需要在每一步都精確知道自己的配速,而是通過經(jīng)過幾個(gè)關(guān)鍵里程碑的時(shí)間來(lái)判斷整體表現(xiàn)。機(jī)器人也是如此,它會(huì)在操作過程中設(shè)置若干個(gè)里程碑時(shí)刻,然后評(píng)估從上一個(gè)里程碑到現(xiàn)在的進(jìn)度變化。
更聰明的是,這個(gè)系統(tǒng)采用了"遞減影響"的原理。就像銀行的復(fù)利計(jì)算一樣,新的進(jìn)步會(huì)在現(xiàn)有基礎(chǔ)上產(chǎn)生影響,但影響程度會(huì)根據(jù)當(dāng)前已經(jīng)達(dá)到的水平進(jìn)行調(diào)整。如果機(jī)器人已經(jīng)完成了80%的任務(wù),那么剩下的20%中的每一點(diǎn)進(jìn)步都比開始時(shí)的進(jìn)步更加珍貴。這種設(shè)計(jì)避免了過度樂觀或過度悲觀的評(píng)估,讓反饋信號(hào)更加穩(wěn)定可靠。
通過這種累積式評(píng)估,原本嘈雜不清的反饋信號(hào)變成了相對(duì)平滑和可靠的指導(dǎo)。機(jī)器人能夠更準(zhǔn)確地判斷自己的表現(xiàn),從而做出更明智的學(xué)習(xí)決策。
三、令人驚嘆的實(shí)驗(yàn)結(jié)果:從實(shí)驗(yàn)室到現(xiàn)實(shí)世界的跨越
研究團(tuán)隊(duì)在LIBERO機(jī)器人操作基準(zhǔn)測(cè)試中驗(yàn)證了他們的框架,這個(gè)測(cè)試包含了四個(gè)不同類型的任務(wù)套件,涵蓋了從簡(jiǎn)單物體操作到復(fù)雜多步驟任務(wù)的各種場(chǎng)景。結(jié)果讓人印象深刻。
在最困難的長(zhǎng)期任務(wù)中,EVOLVE-VLA框架讓機(jī)器人的成功率從85.8%提升到了94.4%,這8.6%的提升意味著機(jī)器人在復(fù)雜操作中的可靠性有了質(zhì)的飛躍。更令人驚喜的是,在只有一個(gè)示范樣本的極限條件下,這個(gè)框架的效果更加顯著。傳統(tǒng)方法在這種條件下只能達(dá)到43.6%的成功率,而EVOLVE-VLA達(dá)到了61.3%,提升幅度高達(dá)17.7%。
最具突破性的發(fā)現(xiàn)是機(jī)器人展現(xiàn)出了真正的跨任務(wù)學(xué)習(xí)能力。研究團(tuán)隊(duì)讓一個(gè)只在長(zhǎng)期任務(wù)上訓(xùn)練過的機(jī)器人去嘗試完全不同類型的物體操作任務(wù)。按照傳統(tǒng)方法,這個(gè)機(jī)器人應(yīng)該完全無(wú)法勝任新任務(wù),成功率為零。然而,通過EVOLVE-VLA框架的自主學(xué)習(xí),這個(gè)機(jī)器人在沒有接受任何新任務(wù)示范的情況下,僅憑自己的探索就達(dá)到了20.8%的成功率。
雖然20.8%聽起來(lái)不算很高,但要知道這是從零開始的完全自主學(xué)習(xí)。這就好比一個(gè)只會(huì)做中餐的廚師,突然被要求做意大利菜,結(jié)果他通過自己的摸索和嘗試,竟然成功做出了五分之一的合格意大利菜。這種跨領(lǐng)域的自主學(xué)習(xí)能力,正是通用人工智能的重要特征。
四、機(jī)器人的"頓悟"時(shí)刻:意外涌現(xiàn)的智慧行為
在觀察機(jī)器人的訓(xùn)練過程中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一些令人驚喜的現(xiàn)象。機(jī)器人不僅學(xué)會(huì)了完成基本任務(wù),還發(fā)展出了一些訓(xùn)練示范中完全沒有出現(xiàn)過的智能行為。
最典型的例子是錯(cuò)誤恢復(fù)能力。傳統(tǒng)的機(jī)器人如果在抓取物體時(shí)失敗了,通常會(huì)繼續(xù)執(zhí)行預(yù)設(shè)的后續(xù)動(dòng)作,就像一個(gè)程序bug一樣重復(fù)錯(cuò)誤行為。而經(jīng)過EVOLVE-VLA訓(xùn)練的機(jī)器人會(huì)意識(shí)到抓取失敗,然后自主決定重新嘗試抓取,直到成功為止。
另一個(gè)有趣的發(fā)現(xiàn)是機(jī)器人會(huì)根據(jù)實(shí)際情況調(diào)整操作策略。比如,在移動(dòng)一個(gè)鍋?zhàn)拥娜蝿?wù)中,如果意外碰到了鍋?zhàn)痈淖兞似錉顟B(tài),傳統(tǒng)機(jī)器人可能會(huì)因?yàn)榍闆r與預(yù)期不符而失敗。但EVOLVE-VLA訓(xùn)練的機(jī)器人會(huì)觀察新的狀態(tài),然后調(diào)整自己的抓取策略來(lái)適應(yīng)變化。
最令人印象深刻的是機(jī)器人發(fā)明了全新的操作技巧。在某些任務(wù)中,機(jī)器人發(fā)現(xiàn)了與訓(xùn)練示范完全不同的物體抓取方法,比如抓取鍋?zhàn)訒r(shí)選擇抓鍋身而不是鍋柄。這些創(chuàng)新策略證明機(jī)器人已經(jīng)不再是簡(jiǎn)單的模仿者,而是具備了基本的問題解決能力。
五、挑戰(zhàn)與局限:完美主義的代價(jià)
然而,這項(xiàng)研究也暴露了一些有趣的問題。研究團(tuán)隊(duì)發(fā)現(xiàn),機(jī)器人的內(nèi)在導(dǎo)師和環(huán)境的真實(shí)評(píng)判標(biāo)準(zhǔn)之間存在一些分歧,這導(dǎo)致了兩種有趣的現(xiàn)象。
第一種情況是"看起來(lái)成功但實(shí)際失敗"。機(jī)器人可能把場(chǎng)景布置得看起來(lái)非常接近目標(biāo)狀態(tài),讓內(nèi)在導(dǎo)師給出很高的評(píng)分,但實(shí)際上并不完全符合任務(wù)的嚴(yán)格要求。就像一個(gè)學(xué)生寫作業(yè)時(shí),字跡工整、版面美觀,老師乍一看覺得不錯(cuò),但仔細(xì)檢查發(fā)現(xiàn)答案是錯(cuò)的。
第二種情況是"實(shí)際成功但看起來(lái)不完美"。環(huán)境的評(píng)判系統(tǒng)可能基于一些精確的坐標(biāo)位置來(lái)判斷任務(wù)是否完成,而機(jī)器人雖然在技術(shù)上達(dá)到了這些要求,但從視覺上看起來(lái)任務(wù)并沒有真正完成好。比如把書放進(jìn)書架的任務(wù)中,書的位置在坐標(biāo)上符合要求,但看起來(lái)并沒有整齊地放置在書架內(nèi)。
這些分歧反映了一個(gè)深層問題:如何定義任務(wù)的"真正完成"。是應(yīng)該追求嚴(yán)格的技術(shù)標(biāo)準(zhǔn),還是應(yīng)該重視語(yǔ)義上的合理性?這個(gè)問題不僅在機(jī)器人學(xué)習(xí)中存在,在人類教育和評(píng)估中也經(jīng)常遇到。
六、技術(shù)實(shí)現(xiàn)的巧思:化復(fù)雜為簡(jiǎn)單
從技術(shù)角度來(lái)看,EVOLVE-VLA框架的設(shè)計(jì)體現(xiàn)了工程學(xué)中"優(yōu)雅解決方案"的典型特征。研究團(tuán)隊(duì)沒有試圖構(gòu)建一個(gè)完美無(wú)缺的評(píng)估系統(tǒng),而是巧妙地利用了統(tǒng)計(jì)學(xué)和控制理論的原理來(lái)處理不完美的信息。
累積式進(jìn)度評(píng)估的數(shù)學(xué)公式看似簡(jiǎn)單,但背后蘊(yùn)含著深刻的洞察。公式中的遞減權(quán)重設(shè)計(jì)確保了評(píng)估過程的穩(wěn)定性,避免了單次錯(cuò)誤判斷對(duì)整體學(xué)習(xí)的嚴(yán)重影響。這種設(shè)計(jì)思路在金融風(fēng)險(xiǎn)管理、信號(hào)處理等多個(gè)領(lǐng)域都有應(yīng)用。
漸進(jìn)式訓(xùn)練策略則體現(xiàn)了認(rèn)知科學(xué)中關(guān)于技能習(xí)得的理論。人類學(xué)習(xí)復(fù)雜技能時(shí),大腦會(huì)自然地將任務(wù)分解為更小的子目標(biāo),逐步建立神經(jīng)連接。EVOLVE-VLA框架將這種生物學(xué)習(xí)原理成功地轉(zhuǎn)化為算法實(shí)現(xiàn)。
從計(jì)算效率的角度來(lái)看,這個(gè)框架也非常聰明。傳統(tǒng)的多幀比較方法需要大量的計(jì)算資源,而里程碑采樣策略大大減少了計(jì)算負(fù)擔(dān)。在時(shí)間步長(zhǎng)為T的任務(wù)中,傳統(tǒng)方法需要T-1次比較計(jì)算,而新方法只需要1次,效率提升顯著。
七、對(duì)未來(lái)的啟示:通向通用智能的橋梁
EVOLVE-VLA框架的意義遠(yuǎn)遠(yuǎn)超出了機(jī)器人操作的范疇。它代表了人工智能發(fā)展中的一個(gè)重要轉(zhuǎn)向:從靜態(tài)學(xué)習(xí)向動(dòng)態(tài)適應(yīng)的轉(zhuǎn)變。
在可預(yù)見的未來(lái),這種"邊做邊學(xué)"的能力將為機(jī)器人帶來(lái)前所未有的應(yīng)用潛力。家庭服務(wù)機(jī)器人將能夠適應(yīng)不同家庭的布局和習(xí)慣,工業(yè)機(jī)器人將能夠應(yīng)對(duì)生產(chǎn)線上的意外變化,醫(yī)療機(jī)器人將能夠根據(jù)不同患者的情況調(diào)整操作策略。
更重要的是,這項(xiàng)研究為實(shí)現(xiàn)真正的通用人工智能提供了一條可能的路徑。通用智能的核心不在于記住所有可能的情況,而在于能夠在新環(huán)境中持續(xù)學(xué)習(xí)和適應(yīng)。EVOLVE-VLA框架展示的跨任務(wù)學(xué)習(xí)能力,正是通用智能的重要特征之一。
當(dāng)然,要將這項(xiàng)技術(shù)從實(shí)驗(yàn)室?guī)У浆F(xiàn)實(shí)世界,還有許多挑戰(zhàn)需要克服。現(xiàn)實(shí)環(huán)境比仿真環(huán)境復(fù)雜得多,安全性要求也更高。機(jī)器人在學(xué)習(xí)過程中的隨機(jī)探索行為可能會(huì)造成損害,需要更sophisticated的安全機(jī)制來(lái)約束。
此外,現(xiàn)實(shí)世界的學(xué)習(xí)時(shí)間成本也是一個(gè)重要考慮因素。在仿真環(huán)境中,機(jī)器人可以快速重復(fù)數(shù)千次嘗試,但在物理世界中,每次操作都需要實(shí)際時(shí)間,這要求算法具有更高的樣本效率。
八、更廣闊的影響:重新定義學(xué)習(xí)
這項(xiàng)研究的影響可能會(huì)延伸到教育、認(rèn)知科學(xué)乃至哲學(xué)領(lǐng)域。它提醒我們重新思考學(xué)習(xí)的本質(zhì):真正的學(xué)習(xí)不是信息的簡(jiǎn)單存儲(chǔ)和重現(xiàn),而是在與環(huán)境的持續(xù)交互中不斷完善自身的能力。
在教育領(lǐng)域,EVOLVE-VLA框架的成功驗(yàn)證了體驗(yàn)式學(xué)習(xí)和錯(cuò)誤中學(xué)習(xí)的重要性。傳統(tǒng)的填鴨式教育注重知識(shí)傳授,而忽視了學(xué)生在實(shí)踐中發(fā)現(xiàn)和解決問題的能力培養(yǎng)。機(jī)器人都能通過試錯(cuò)學(xué)習(xí)獲得超越示范的能力,這給人類教育改革提供了重要啟示。
從認(rèn)知科學(xué)的角度來(lái)看,這項(xiàng)研究為理解人類智能的機(jī)制提供了新的視角。人類之所以能夠在復(fù)雜多變的環(huán)境中生存和發(fā)展,正是因?yàn)榫邆淞诉@種持續(xù)學(xué)習(xí)和適應(yīng)的能力。通過研究如何讓機(jī)器具備類似能力,我們也在加深對(duì)人類智能本質(zhì)的理解。
在哲學(xué)層面,EVOLVE-VLA框架引發(fā)了關(guān)于智能和意識(shí)本質(zhì)的思考。當(dāng)機(jī)器人能夠自主學(xué)習(xí)、發(fā)現(xiàn)新策略、從錯(cuò)誤中恢復(fù)時(shí),我們?nèi)绾谓缍ㄖ悄艿倪吔纾窟@些行為是否已經(jīng)具備了某種形式的"理解"或"意識(shí)"?
說(shuō)到底,EVOLVE-VLA不只是一個(gè)技術(shù)突破,更是對(duì)智能本質(zhì)的深入探索。它告訴我們,真正的智能不在于完美地執(zhí)行預(yù)設(shè)程序,而在于面對(duì)不確定性時(shí)的學(xué)習(xí)和適應(yīng)能力。當(dāng)機(jī)器人開始像人類一樣從經(jīng)驗(yàn)中學(xué)習(xí)時(shí),我們或許正在見證通用人工智能時(shí)代的黎明。
這項(xiàng)來(lái)自新加坡國(guó)立大學(xué)的研究為我們展現(xiàn)了一個(gè)令人興奮的未來(lái):機(jī)器人將不再是冷冰冰的執(zhí)行工具,而是能夠成長(zhǎng)、學(xué)習(xí)和創(chuàng)新的智能伙伴。雖然距離這個(gè)未來(lái)還有許多技術(shù)挑戰(zhàn)需要克服,但EVOLVE-VLA框架已經(jīng)為我們指明了方向。對(duì)于想要深入了解這項(xiàng)突破性研究的讀者,可以通過論文編號(hào)arXiv:2512.14666v1查詢完整的技術(shù)細(xì)節(jié)和實(shí)驗(yàn)數(shù)據(jù)。
Q&A
Q1:EVOLVE-VLA框架與傳統(tǒng)機(jī)器人訓(xùn)練方法有什么根本區(qū)別?
A:傳統(tǒng)機(jī)器人訓(xùn)練就像培養(yǎng)一個(gè)只會(huì)照搬菜譜的廚師,需要看幾百遍完全一樣的示范,只能機(jī)械重復(fù)記憶中的步驟。而EVOLVE-VLA框架訓(xùn)練的機(jī)器人更像真正的學(xué)徒,只需要看幾次甚至一次示范就能開始嘗試,在實(shí)際操作中發(fā)現(xiàn)錯(cuò)誤并自己修正,通過不斷實(shí)踐變得越來(lái)越熟練,甚至能發(fā)明出示范中沒有的新技巧。
Q2:機(jī)器人怎么知道自己做得好不好,沒有老師指導(dǎo)怎么學(xué)習(xí)?
A:研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)"進(jìn)度評(píng)估器"作為機(jī)器人的內(nèi)在導(dǎo)師,能夠觀察操作過程并判斷任務(wù)完成了百分之多少。由于這個(gè)內(nèi)在導(dǎo)師有時(shí)會(huì)出錯(cuò),研究團(tuán)隊(duì)開發(fā)了累積式進(jìn)度評(píng)估和漸進(jìn)式任務(wù)擴(kuò)展兩個(gè)策略來(lái)"馴服"不完美的反饋,讓機(jī)器人能從噪音中提取有用信息進(jìn)行學(xué)習(xí)。
Q3:EVOLVE-VLA框架在實(shí)驗(yàn)中取得了什么突破性結(jié)果?
A:在最困難的長(zhǎng)期任務(wù)中成功率提升了8.6%,在只有一個(gè)示范的極限條件下提升了17.7%。最令人驚喜的是實(shí)現(xiàn)了跨任務(wù)學(xué)習(xí):一個(gè)只在長(zhǎng)期任務(wù)上訓(xùn)練的機(jī)器人,在沒有接受任何新任務(wù)示范的情況下,僅憑自主探索就在完全不同的物體操作任務(wù)上達(dá)到了20.8%的成功率,而傳統(tǒng)方法的成功率為零。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.