網易首頁 > 網易號 > 正文申請入駐

機器人不再機械：上海交大聯合多機構破解機器人動作不連貫難題

2026-02-26 19:42:48　來源: 至頂AI實驗室

北京舉報

分享至

這項由上海交通大學聯合Spirit AI、清華大學、同濟大學、中國科學技術大學共同完成的研究發表于2026年2月，有興趣深入了解的讀者可以通過arXiv:2602.12978v1查詢完整論文。

如果你曾經觀察過工廠里的機器人，你可能會發現一個有趣的現象：它們的動作經常顯得生硬、不連貫，時而猶豫不決，時而突然改變方向。這就像一個剛學會開車的新手，在路口總是猶豫該走哪條路，結果不僅浪費時間，還可能造成危險。

現在，一個由中國多所頂尖高校組成的研究團隊找到了解決這個問題的巧妙方法。他們開發出一種名為"Legato"的新技術，讓機器人的動作變得像熟練鋼琴家的演奏一樣流暢連貫。這個名字本身就很有寓意——"Legato"在音樂術語中指的是連貫、圓滑的演奏方式，正如這項技術要解決的核心問題。

要理解這個突破的重要性，我們需要先了解現代機器人是如何工作的。當今最先進的機器人使用一種叫做"視覺語言行動模型"的技術，就像給機器人裝上了眼睛、耳朵和大腦，讓它們能看懂環境、理解指令、并做出相應動作。但這些"智能大腦"運算速度很慢，就像一個思考非常緩慢但很聰明的人。

為了讓機器人能夠實時響應，工程師們想出了一個叫"動作分塊"的解決方案。這就像讓機器人提前規劃好接下來的一系列動作，比如"向前走3步，轉右，拿起杯子，放到桌子上"，然后一口氣執行完畢。這樣就不用每走一步都停下來重新思考了。

這個方法確實提高了效率，但帶來了一個新問題：每當機器人完成一組動作準備開始下一組時，就會出現明顯的停頓和方向突變，就像司機換擋時的頓挫感。現有的解決方案叫做"實時分塊技術"，它試圖讓相鄰的動作組之間保持一定的連續性，但這種方法只是在動作執行時臨時"打補丁"，并沒有從根本上解決問題。

研究團隊發現，要讓機器人動作真正流暢，必須在訓練階段就教會它如何保持連續性，而不是等到執行時再想辦法彌補。這就像學鋼琴一樣，如果你在練習時就注重手指間的連貫過渡，最終演奏出來的音樂自然會更加流暢；但如果你只是把每個音符彈對，然后指望在正式演奏時臨時調整，效果肯定不會太好。

一、機器人動作不連貫的根本原因

現代機器人面臨的問題可以用開車來比喻。當你在城市里開車時，GPS會提前規劃好一段路線，比如"直行500米，然后右轉"。在正常情況下，你會平滑地執行這些指令。但如果每次GPS重新計算路線都需要10秒鐘，而你又不能停車等待，會發生什么呢？

你只能按照上一次的路線指引繼續行駛。當新的路線出來時，你可能已經偏離了最佳路徑，這時就需要突然調整方向。這種突然的調整不僅讓乘客感到不舒服，還可能導致安全問題。

機器人面臨的正是這樣的困境。由于"大腦"（人工智能模型）需要時間思考，機器人必須提前規劃一系列動作。但當環境發生變化或者需要開始新的任務時，新舊動作序列之間往往缺乏有效的銜接，導致機器人出現猶豫、停頓或者突然改變方向的現象。

研究團隊通過深入分析發現，這個問題的根源在于現有系統的"多模態切換"特性。簡單來說，就是機器人的"大腦"在面對同一個情況時，可能會想出多種不同的解決方案。比如要拿桌上的杯子，它可能考慮用左手還是右手，從哪個角度接近等等。在正常情況下，這種靈活性是好事，但在動作切換的關鍵時刻，這種"選擇恐懼癥"就會導致機器人表現出猶豫不決的行為。

更嚴重的是，由于每次重新規劃動作時，機器人都可能選擇不同的策略，這就導致相鄰動作組之間出現明顯的方向或風格差異。就像一個人在走路時突然改變步伐或姿勢，看起來就會很不自然。

二、Legato技術的創新突破

面對這個挑戰，研究團隊提出了一個根本性的解決思路：與其在機器人執行動作時臨時修補不連貫問題，不如在訓練階段就讓機器人學會如何保持動作的連貫性。

Legato技術的核心理念可以用學習樂器來理解。傳統的訓練方法就像分別練習每個音符，然后希望演奏時能自動連貫起來。而Legato方法則是從一開始就練習連貫的演奏，讓連貫性成為演奏技巧的天然組成部分。

具體來說，Legato在訓練過程中引入了一個"連續性指導機制"。這個機制就像一個嚴格的音樂老師，時刻提醒學生注意手指間的連接。在機器人學習每個動作時，這個機制會告訴它："記住，你的這個動作要能夠自然地連接到下一個動作上。"

這種方法的巧妙之處在于它使用了一個"調度形狀的混合"策略。可以把這個想象成調制雞尾酒的過程。調酒師不是簡單地把各種酒混在一起，而是按照特定的比例和順序，讓每種成分都能發揮最佳效果。

Legato技術也是如此。在訓練的開始階段，它會讓機器人嚴格遵循既定的動作模式，確保與前面動作的連貫性。然后隨著訓練的進行，逐漸增加機器人的自主創新空間，讓它在保持連貫性的前提下探索更多的動作可能性。這就像教小孩寫字，先讓他們照著字帖描紅，熟練后再允許他們發展自己的字體風格。

更重要的是，Legato解決了一個關鍵的技術問題：訓練和執行的一致性。以往的方法就像在練習時用鋼琴，但表演時卻換成了電子琴，盡管基本原理相同，但手感和響應完全不同。Legato確保了機器人在訓練時學到的連貫性技巧能夠完全應用到實際執行中。

為了適應不同的實際應用需求，研究團隊還為Legato增加了"調度隨機化"功能。這就像給調酒師提供了多種不同的配方，讓他可以根據客人的偏好調整雞尾酒的濃度和口味。在機器人應用中，這意味著同一個訓練好的模型可以適應不同的硬件性能和任務要求。

三、實驗驗證與驚人效果

研究團隊設計了五個不同的機器人任務來測試Legato技術的效果，這些任務涵蓋了機器人在日常生活中可能遇到的各種挑戰。

第一個任務是疊碗。這聽起來簡單，但對機器人來說卻充滿挑戰。機器人需要準確識別每個碗的位置、判斷最佳抓取角度、控制力度以免損壞易碎品，還要保持整個動作的流暢性。這就像讓機器人玩疊疊樂，既需要精確性，也需要整體協調性。

第二個任務是傾倒物品。機器人需要抓住一個裝滿小塊的碗，將其傾斜到合適角度，把所有小塊倒入另一個碗中，然后再倒回來。這個過程需要三次連續操作，對動作連貫性的要求極高。任何一個環節的停頓或突變都可能導致小塊散落。

第三個任務是整理物品。桌上放著罐子、筆和小球等不同形狀和重量的物品，機器人需要將它們全部放入一個白色盒子中。這需要機器人根據不同物品的特性調整抓取策略，同時保持整個過程的協調統一。

第四個任務是開抽屜。這個看似簡單的動作實際上需要精確的力度控制和方向把握。機器人需要找到抽屜把手，施加適當的拉力，并在抽屜打開過程中保持穩定的控制。

第五個任務是折毛巾。這可能是最具挑戰性的任務，因為毛巾是軟性材料，其形狀會在操作過程中不斷變化。機器人需要學會適應這種變化，同時保持折疊動作的連貫性。

實驗結果令人印象深刻。使用Legato技術的機器人在所有五個任務中都表現出了明顯的改進。最顯著的改進體現在任務完成時間上，平均減少了約10%。這可能聽起來不算太多，但在機器人應用中，這種改進意義重大。

更重要的是軌跡平滑度的改善。研究團隊使用了三種不同的指標來衡量機器人動作的流暢性，結果顯示Legato在幾乎所有指標上都取得了顯著提升。這意味著機器人的動作不僅更快，而且更加自然流暢。

特別值得注意的是"重疊區域誤差"的大幅降低。這個指標衡量的是相鄰動作組之間的連接質量。Legato在這方面的改進尤為明顯，有些任務的改進幅度甚至超過了30%。這直接證明了Legato在解決動作連貫性問題上的有效性。

研究團隊還發現了一個有趣現象：使用Legato技術的機器人在面對多種可能的行動方案時，表現出了更強的"決斷力"。傳統機器人經常會在不同選擇之間猶豫，導致動作顯得猶豫不決。而使用Legato的機器人更傾向于堅持一種行動方案，直到完成整個任務。

這種改變特別體現在疊碗任務中。傳統機器人經常會在選擇用哪只手抓哪個碗、從哪個角度接近等問題上反復搖擺，每次重新規劃動作時都可能改變策略。這不僅浪費時間，還讓整個過程看起來很不自然。而使用Legato的機器人一旦選定了策略，就會堅持到底，整個過程顯得更加干凈利落。

四、技術原理的深度解析

要真正理解Legato技術的突破性，我們需要深入了解它的工作原理。如果把傳統的機器人訓練比作教學生解數學題，那么傳統方法就是教學生如何解決各種不同類型的題目，但沒有教他們如何在考試中保持思路的連貫性。

Legato的方法更像是模擬真實考試環境進行訓練。在訓練過程中，它不僅教機器人如何執行單個動作，還教它如何在執行當前動作時就考慮到下一個動作的需要。這種"前瞻性訓練"讓機器人能夠在實際應用中表現得更加連貫。

這種訓練方法的核心是"流匹配"技術。可以把這個想象成河流的流動過程。傳統方法試圖讓水從一個點直接跳到另一個點，這必然會產生飛濺和斷裂。而流匹配技術則是構建一條平滑的水道，讓水自然地從起點流向終點。

在技術實現上，Legato使用了一種叫"動作-噪聲混合"的巧妙策略。這就像調制顏料一樣，畫家不是直接使用純色，而是在純色中混入適量的其他顏色，創造出更豐富、更自然的色彩效果。

Legato在訓練過程中也是如此。它不是讓機器人學習純粹的、孤立的動作，而是在每個動作中混入一定程度的"連續性引導"信息。這種混合讓機器人學會的不是單純的動作執行，而是"連貫的動作執行"。

更令人驚嘆的是Legato的"速度場重塑"機制。傳統的訓練方法就像給學生一本標準答案，告訴他們"正確答案應該是這樣的"。而Legato則更像是一個智慧的老師，它不僅告訴學生答案是什么，還教他們"到達答案的思維過程應該是這樣的"。

這種方法的數學基礎相當精妙。研究團隊通過重新設計訓練目標函數，讓機器人在學習每個動作時都能同時考慮到連續性要求。這就像學習書法，不是單純地把每個字寫對，而是要讓每個字都能自然地連接到下一個字。

為了適應不同的應用場景，Legato還引入了"調度條件化"功能。這就像給廚師提供了可調節的爐灶，可以根據不同菜品的需要調整火候。在機器人應用中，這意味著用戶可以根據具體任務的要求調整連貫性的強度。

比如，在需要高精度操作的任務中，可能需要稍微犧牲一些連貫性來換取更高的準確性。而在需要快速完成的任務中，則可以增強連貫性以提高整體效率。Legato的這種靈活性讓它能夠適應各種不同的實際應用需求。

五、與現有技術的對比優勢

為了更好地驗證Legato技術的優越性，研究團隊將其與當前最先進的"實時分塊技術"（RTC）進行了全面對比。這種對比就像比較兩種不同的交通管理方案：一種是在十字路口臨時指揮交通，另一種是提前設計好整個城市的交通流。

實時分塊技術的工作方式可以比作一個臨時交通警察。當發現車流不暢時，警察會站出來指揮，試圖讓車輛更順暢地通過。這種方法在一定程度上確實能夠緩解擁堵，但它是被動的、臨時性的解決方案。

相比之下，Legato更像是一個完整的城市交通規劃系統。它在設計道路時就考慮了車流的連貫性，讓車輛能夠自然地從一條路順暢過渡到另一條路。這種主動式的解決方案從根本上避免了擁堵的產生。

在具體的實驗對比中，這種差異體現得淋漓盡致。在倒水任務中，使用傳統RTC技術的機器人完成時間平均需要95秒，而使用Legato的機器人只需要76秒，提升幅度達到20%。這個改進幅度在機器人應用中是相當顯著的。

更重要的是軌跡質量的提升。研究團隊觀察發現，使用RTC技術的機器人在執行任務時經常會出現"換手"現象——比如原本計劃用左手拿碗，但在執行過程中突然切換到用右手。這種切換不僅浪費時間，還讓整個動作看起來很不自然。

而使用Legato技術的機器人則表現出了更強的"意圖一致性"。一旦選定了用左手執行任務，它就會堅持使用左手完成整個操作流程。這種一致性讓機器人的行為看起來更像人類，而不是一個猶豫不決的機械裝置。

研究團隊還發現了一個有趣的現象：在高頻次的動作切換場景中，兩種技術的差異更加明顯。當機器人需要快速連續執行多個不同動作時，RTC技術的局限性就暴露出來了。就像一個不熟練的司機在復雜路況下頻繁換檔，整個過程顯得磕磕絆絆。

而Legato在這種情況下依然能夠保持流暢性。這是因為它在訓練階段就預料到了這種復雜情況，讓機器人學會了在高頻切換中保持連貫性的技巧。

六、廣泛的應用前景

Legato技術的意義遠遠超出了學術研究的范疇。在工業制造領域，這項技術可以顯著提高生產線的效率。傳統的工業機器人往往需要在不同工序之間停頓和重新定位，這些微小的停頓積累起來會造成顯著的效率損失。

使用Legato技術的工業機器人可以實現真正的無縫作業。從抓取零件到裝配，從焊接到檢測，整個流程可以像行云流水一樣連貫進行。這不僅能提高生產效率，還能降低設備的磨損，因為平滑的運動比頻繁的啟停對機械系統的沖擊要小得多。

在服務機器人領域，Legato的價值更加明顯。當家庭服務機器人需要整理房間時，它可以連貫地完成拿起物品、移動到目標位置、放下物品等一系列動作，而不是在每個步驟之間都停頓思考。這種流暢性不僅提高了工作效率，還讓機器人的行為更加自然，更容易被家庭成員接受。

醫療機器人是另一個極具潛力的應用領域。在手術過程中，任何不必要的停頓或突然的動作變化都可能帶來風險。Legato技術能夠讓手術機器人的動作更加平滑精準，這對提高手術安全性和效果具有重要意義。

值得注意的是，Legato技術的應用并不局限于物理機器人。在虛擬現實和游戲開發中，這項技術同樣能發揮重要作用。虛擬角色的動作連貫性一直是游戲開發者關注的重點，Legato提供的解決方案可以讓虛擬角色的行為更加自然流暢。

研究團隊還特別關注了Legato技術的可擴展性。他們發現，這項技術不僅適用于雙臂機器人，還可以輕松擴展到多臂機器人系統。在某些特殊應用場景中，比如復雜的裝配作業或多任務并行處理，多臂機器人需要協調多個手臂的動作，Legato技術能夠確保所有手臂之間的協調一致。

更令人興奮的是，Legato技術還為人機協作開辟了新的可能性。當人類和機器人需要共同完成某項任務時，機器人動作的可預測性和連貫性變得至關重要。Legato讓機器人的行為模式更接近人類的自然動作方式，這為更緊密的人機協作奠定了基礎。

七、技術挑戰與未來展望

盡管Legato技術取得了顯著的成果，但研究團隊也誠實地承認了當前技術的局限性。最主要的挑戰是計算復雜度的增加。由于需要在訓練過程中考慮動作間的連貫性，整個訓練過程比傳統方法更加復雜，需要更多的計算資源和時間。

這個問題可以比作學習樂器的過程。如果只是學習彈奏單個音符，那么練習起來相對簡單。但要學會連貫演奏，就需要大量的額外練習時間。對于機器人來說，這意味著訓練成本的增加。

另一個挑戰是參數調節的復雜性。Legato技術引入了多個新的參數，如調度長度、連續性強度等，這些參數需要根據具體應用場景進行精心調節。就像調音師需要根據不同的演出場地調整樂器一樣，工程師需要為不同的機器人應用場景找到最優的參數組合。

研究團隊正在積極解決這些挑戰。他們正在開發自動參數優化算法，讓系統能夠根據具體任務自動調節最優參數。同時，他們也在研究如何降低訓練的計算復雜度，讓更多的研究機構和公司能夠使用這項技術。

對于未來的發展方向，研究團隊提出了幾個令人興奮的可能性。首先是動態調度功能的增強。目前的Legato系統在訓練時就固定了調度參數，但未來的版本可能能夠在執行過程中實時調整這些參數，就像熟練的演奏家能夠根據現場情況調整演奏風格一樣。

另一個重要方向是多模態感知的集成。目前的系統主要依賴視覺信息，但未來可能會整合觸覺、聽覺等其他感知模態，讓機器人能夠更全面地理解環境，做出更加連貫和合適的動作決策。

研究團隊還在探索將Legato技術與大語言模型結合的可能性。這種結合可能會產生真正具有"理解能力"的機器人，它們不僅能夠執行預定的任務，還能夠根據自然語言指令靈活調整行為模式，同時保持動作的連貫性。

最令人期待的是Legato技術在通用機器人領域的應用前景。研究團隊認為，隨著技術的不斷完善，未來的通用機器人將能夠像人類一樣自然流暢地完成各種復雜任務。這些機器人不再是冰冷的機械裝置，而是能夠與人類和諧共處的智能伙伴。

從更廣闊的角度來看，Legato技術代表了機器人學研究的一個重要轉折點。它不僅解決了一個具體的技術問題，更重要的是改變了我們對機器人行為的理解。機器人不應該只是能夠完成任務的工具，它們應該能夠以自然、優雅的方式完成任務。

這種理念的轉變可能會影響整個機器人行業的發展方向。未來的機器人設計將更加注重動作的連貫性和自然性，而不僅僅是功能的實現。這種轉變最終將讓機器人更好地融入人類社會，成為我們日常生活的有機組成部分。

說到底，Legato技術的真正價值在于它讓我們更接近了創造真正智能、自然的機器人伙伴的目標。這些機器人不僅能夠幫助我們完成各種任務，更能夠以一種讓人感到舒適和信賴的方式與我們互動。雖然我們距離科幻電影中的機器人伙伴還有一段距離，但Legato技術無疑是向這個目標邁出的重要一步。

對于普通人來說，這項技術的影響將是漸進的但深遠的。在不久的將來，我們可能會在工廠、醫院、家庭中看到更多動作流暢自然的機器人。它們不再是那種讓人感到不安的機械裝置，而是能夠和諧融入我們生活環境的智能助手。這種改變將從根本上改變我們對機器人的認知，也將為人機共存的未來社會奠定堅實的技術基礎。

Q&A

Q1：Legato技術是什么？

A：Legato是由上海交通大學等機構開發的機器人動作連貫性技術。它解決了現有機器人在執行連續動作時出現停頓、猶豫和突然方向改變的問題，讓機器人動作變得像熟練鋼琴家演奏一樣流暢自然。

Q2：Legato技術比現有的實時分塊技術好在哪里？

A：傳統的實時分塊技術只是在機器人執行動作時臨時修補不連貫問題，而Legato從訓練階段就教會機器人保持動作連貫性。實驗顯示，使用Legato的機器人任務完成時間平均減少10%，動作流暢度顯著提升。

Q3：普通人什么時候能接觸到使用Legato技術的機器人？

A：這項技術主要應用于工業制造、醫療手術和服務機器人等領域。隨著技術不斷完善，未來幾年內我們可能會在工廠、醫院和高端家庭服務機器人中看到這種更加流暢自然的機器人。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.