原文發表于《科技導報》2025 年第20 期 《 非結構化環境下人形機器人行走規劃與控制 》
人形機器人因具有人體相似的形態與運動能力,被廣泛認為是未來服務、救援與工業應用的潛在核心裝備,但在非結構化環境中實現穩定可靠的行走仍具有顯著挑戰。《科技導報》邀請香港理工大學航空及民航工程學系曹屹峰、清華大學智能綠色車輛與交通全國重點實驗室曹東璞等撰文,文章綜述了近年來在人形機器人行走規劃與控制方面的研究進展,系統梳理了典型方法的核心思想與實現框架,討論了提升環境適應性與動態穩定性的關鍵技術瓶頸,展望了未來在多模態感知融合、學習與控制協同優化、全身運動技能學習及安全性保障等方面的發展趨勢,并對相關技術的標準化與大規模應用提出了建議。
人形機器人作為最接近人類形態與運動方式的自主系統,一直被認為是未來人工智能與機器人技術的重要方向。然而,要實現人形機器人在非結構化環境下的穩定行走依然面臨重大挑戰。人行機器人需要解決的問題具體可以分為:感知、定位、規劃與控制4個子任務(圖1)。
![]()
圖1 人行機器人行走的子任務拆解
總體而言,人形機器人行走的規劃與控制領域的研究大致經歷了3個階段:
(1)早期階段。以簡化動力學為核心,關注基本的平衡保持與周期步態生成。
(2)發展階段。引入優化與預測控制,逐步解決非平地行走、擾動恢復等問題。
(3)新興階段。借助深度學習與強化學習,推動感知、規劃與控制的融合,實現端到端或混合式框架。
我們的研究將圍繞規劃方法、控制方法以及將感知與規劃或感知與控制等不同模塊進行深度結合的混合式及感知規劃與控制一體化的端到端算法3個方面,梳理近年來人形機器人在非結構化環境下行走的研究進展,并總結存在的瓶頸與未來的發展方向。
1 行走規劃算法研究進展
在人形機器人研究中,行走規劃承擔著連接高層任務需求與底層控制執行的橋梁作用。隨著研究的深入,行走規劃逐漸形成了自上而下的多層次框架:全局路徑規劃負責大范圍的導航決策,落足點與步態序列規劃確保與環境交互的可行性,而軌跡優化則決定了具體的動態表現,這些規劃方法之間的關系如圖2所示。
![]()
圖2 非結構化環境下人形機器人行走規劃方法的分類
1.1 全局及局部步態規劃
在人形機器人面臨的復雜環境中,首先需要確定一條從起點到目標點的可行路徑。落足點規劃決定了機器人如何與環境發生接觸,是確保運動穩定性與安全性的核心。
1)基于幾何求解的規劃方法。
早期研究多借鑒移動機器人領域的經典方法,如基于柵格的A*算法,以及基于采樣的快速隨機樹(RRT)與其改進型RRT*。早期研究采用幾何規則來選擇落足點,例如確保下一步落腳點位于支撐多邊形內并滿足一定的步幅約束。這類方法簡單高效,但往往對環境復雜性仍然考慮不足。同時,這些方法能夠在二維或三維地圖上高效搜索路徑,適合用于靜態環境中的全局導航。
2)考慮動力學約束的規劃方法。
單純的幾何路徑并不能保證人形機器人在實際執行時的可行性。其原因在于:路徑可能要求機器人采取過于極端的步態,超出動力學極限。近年來,部分研究嘗試將動力學約束直接引入路徑搜索過程,在A*或RRT的啟發式函數中加入“步態可行性”或“能量消耗”來改進這類方法。這類方法進一步結合動力學約束與能耗評估,實現了更接近實際可執行的落足點序列。同時這類方法在路徑生成階段就考慮了機器人身體特性,從而減少了后續落足點規劃的沖突。
3)分層式步態規劃。
由于環境往往存在不確定性和動態變化,離線生成的路徑無法長期有效。為解決這一問題,研究人員提出了分層路徑規劃的思路:全局層負責粗粒度的路徑生成,而局部層在執行過程中進行實時修正。這種方式在保持全局目標一致性的同時,提升了對未知環境的適應性。分層式結構保證了規劃的實時性及當前規劃的可行性。
4)學習輔助的步態規劃。
近年來,深度學習被引入落足點規劃。這類方法的優勢在于能夠學習復雜地形特征,但也存在泛化能力和訓練樣本依賴的問題。
總體而言,落足點規劃已從“基于幾何的快速方案”發展到“優化與學習結合的高精度方案”。在保證穩定性的同時,更加強調環境適應性與實時性。
1.2 運動軌跡規劃
落足點序列確定后,機器人需要生成符合動力學約束的運動軌跡,為下層控制器提供參考軌跡,通常生成的參考軌跡為質心參考軌跡及足部軌跡。生成的軌跡需要滿足實時性、動力學約束等條件。
1)基于簡化模型的軌跡優化。
早期的軌跡優化方法致力于使用簡化動力學模型生成特定參數的參考軌跡,最常見的框架是基于零力矩點(ZMP)與線性倒立擺模型(LIPM)的軌跡生成方法,如通過控制質心在支撐多邊形內的運動軌跡,機器人能夠保持穩定的周期步態。一些研究旨在選取更有效參數的軌跡,或使用更精確的簡化模型。
2)軌跡修正與在線調整。
部分研究在軌跡執行過程中動態修正,例如實時調整擺動腿的軌跡,以避免與障礙物碰撞;或通過時間重參數化改變步態節奏,從而提升對突發擾動的容忍度。相比于對自身狀態以及外部擾動進行建模,Nguyen等使用狀態庫來應對外部不確定環境,采用具有快速檢索和插值的周期性步態庫,使規劃者能夠動態響應不可預測的步進表面。這類方法通過對軌跡的動態調整,提升了與環境的動態交互能力與行走穩定性。
3)數據驅動的軌跡規劃。
在復雜環境下,單純的模型可能無法準確描述系統動力學。為此,研究者利用數據驅動方法進行補償。眾多研究者利用數據驅動的方法來實時修正外部擾動下的質心或擺腿軌跡。除了應對外部干擾之外,也有研究者使用數據驅動的方法來應對軌跡規劃時的地形不確定性。
軌跡優化不僅保證了運動的平穩與穩定,還為機器人提供了面對環境不確定性時的快速恢復能力。未來的研究可能會更多關注如何在保持實時性的前提下,結合高維感知信息生成更加智能的軌跡。
1.3 小結
行走規劃方法正從傳統的幾何搜索逐步發展為兼顧動力學約束與環境適應性的多層次框架。全局路徑規劃為機器人提供了整體方向,落足點序列保證了局部可行性,而軌跡優化則在執行層面實現了動態穩定性。隨著深度學習和優化技術的結合,未來的人形機器人有望在未知、復雜甚至動態環境中實現更自然、更可靠的行走能力。
2 行走控制算法研究進展
行走規劃與行走控制一般為上下層的關系,根據行走規劃提供的參考運動軌跡,控制方法決定了具體動作實施。隨著技術發展,控制方法經歷了從基于簡化模型的平衡控制,到優化驅動的全身控制(WBC),再到學習驅動的自適應與混合控制的演進(圖3)。
![]()
圖3 非結構化環境下人形機器人行走控制方法的分類
2.1 基于簡化模型的行走控制
最經典的行走控制方法選擇將機器人的多剛體動力學模型簡化為一個簡化模型如線性倒立擺模型(LIPM)對機器人進行控制。然而,LIPM假設支撐腳與地面始終完全接觸,忽略了踝關節與上身運動的影響。為此,研究人員引入了多種擴展。例如,基于Pratt等提出的捕獲點(CP)理論,對現有的基于簡化模型的控制方法進行拓展。
除去適應外力擾動,這一方法也被用于適應復雜地形。除去引入捕獲點這一概念來增強行走控制的穩定性,還有一部分研究人員嘗試對簡化模型進行拓展,以提升其在非結構化環境下的適應能力。相比于對簡化模型進行拓展,也有研究人員選擇對簡化模型進行參數優化。與引入捕獲點概念類似,也有研究者將質心動量納入控制變量,以更真實地描述機器人整體動力學。
簡化模型方法在計算復雜度與控制穩定性之間取得了一定平衡,使人形機器人能夠完成較為復雜的基本行走任務,并在早期研究中發揮了重要作用。然而,這類方法也存在顯著局限:
首先,它們通常依賴于低維近似模型,難以全面刻畫高自由度人形機器人全身的動力學耦合關系;
其次,當機器人處于強擾動或非結構化環境時,基于簡化模型的假設往往失效,導致系統穩定性受限;
最后,簡化模型控制無法有效利用機器人冗余的關節自由度,從而難以實現行走與操作等多任務的協同執行。
2.2 全身運動控制
全身控制的核心思想是在完整動力學模型的框架下,同時協調多個任務目標,例如維持質心平衡、實現步態跟蹤以及完成上肢操作等。與依賴簡化模型的方法不同,WBC強調通過引入機器人全身的動力學約束,以優化求解的方式在不同任務之間實時分配控制輸入,從而在確保物理可行性的同時最大化任務完成度。
現代WBC通常將控制問題表述為一個約束優化問題,其中任務目標包括保持質心穩定、足部軌跡跟蹤以及上肢姿態控制等;約束條件涵蓋關節力矩范圍、接觸力摩擦錐以及完整的動力學方程;而在具體的數值求解方面,二次規劃(QP)成為最常見的工具。該方法通過在實時優化過程中平衡不同任務的優先級,使人形機器人能夠在復雜環境下展現出多任務協同與動態穩定性的能力。
在全身控制中,任務間往往存在沖突。例如,保持平衡與完成操作任務可能無法同時滿足。為此,研究者提出了分層全身控制(HWBC),將不同控制目標進行分層式疊加,通過優先級機制保證關鍵任務優先執行。除了優化踝關節驅動扭矩,也有研究嘗試優化接觸力軌跡或質心軌跡。
盡管WBC在實現多任務協調和動力學一致性方面展現出顯著優勢,但在實際應用中仍面臨諸多挑戰。
首先,WBC需要在實時條件下求解高維的優化問題,這對計算資源提出了極高的要求,限制了其在嵌入式平臺上的部署。
其次,控制框架通常依賴精確的動力學模型,而在真實機器人中,不可避免地存在模型與實際執行器之間的偏差,這會導致控制性能下降。
最后,在高度動態的非結構化環境中,如何在保持穩定性的同時兼顧復雜任務執行,仍是一個難以完全解決的問題。
2.3 強化學習控制
近年來,深度強化學習(DRL)在機器人控制領域展現出巨大的發展潛力。DRL借助深度神經網絡的強大表示能力,通過與環境的反復交互直接學習狀態與動作的映射關系,從而獲得控制策略。更為重要的是,DRL在面對復雜、非線性和高度不確定的動力學系統時表現出較強的適應性與魯棒性。因此,DRL的引入不僅為人形機器人突破傳統控制框架的局限提供了新的思路,也為其在非結構化環境中的穩定行走與任務執行開辟了新的研究方向。
除去利用強化學習學習簡單的行走控制策略,也有研究者嘗試利用強化學習學習特殊或者多樣化的行走技能。除了使用純粹的深度強化學習構建控制策略,也有研究者探索嘗試使用學習的方法增強優化控制算法,即將使用不同方法的模塊進行結合的混合式框架。
這類方法也面臨諸多限制:
其一,訓練往往需要大量樣本,尤其在真實機器人上收集數據成本極高;
其二,仿真與現實之間存在不可忽視的差距,導致策略在實際部署時泛化能力不足;
其三,學習策略普遍缺乏可解釋性和嚴格的安全保證,難以直接應用于高風險任務場景。
2.4 小結
總體而言,人形機器人控制方法的發展大致經歷了3個重要階段。
首先,基于簡化模型的方法,如線性倒立擺模型與零力矩點控制,為實現基本的動態平衡和周期步態生成奠定了理論與技術基礎。
其次,隨著優化技術與計算能力的提升,全身控制逐漸成為主流。
然而,全身控制的實時性要求與對模型精度的依賴仍然限制了其在非結構化環境中的魯棒性。近年來,學習驅動與混合控制方法開始興起,深度強化學習憑借其強大的自適應能力,為機器人在未知環境中的穩健運動提供了新的可能。與此同時,模型驅動與學習驅動的結合成為新的研究方向,既能利用模型方法的可解釋性與安全性,又能發揮學習方法在復雜場景下的靈活性與泛化能力。
3 協同式架構
近年來,相比于單獨設計,調整規劃或控制等模塊,有研究者開始嘗試設計整體式框架,通過將不同模塊緊密融合實現整體優化。趨勢主要體現在3方面:
其一,將感知、規劃與控制整合到統一的框架中;
其二,引入強化學習控制甚至感知規劃或感知規劃控制一體化的端到端策略,突破傳統模塊化架構的局限;
其三,強調硬件平臺與算法的協同設計。
3.1 感知—控制協同架構的發展
傳統的人形機器人行走系統大多采用分層架構:感知模塊生成環境模型,規劃模塊輸出路徑與步態,控制模塊再跟蹤執行。然而這種分離式架構存在信息傳遞延遲、誤差累積以及模塊間不一致的問題。為解決這一瓶頸,研究者提出一體化框架,將感知、規劃與控制等模塊之間進行一定有機結合。
3.2 感知—規劃—控制協同架構的發展
除了將部分模塊進行緊密結合,近年也有研究者嘗試將感知、規劃與控制結合作為一體式的控制框架,使僅通過單一模塊,讓機器人可以在環境中自主到達指定的目標地點,形成真正的“端到端”架構。
3.3 小結
端到端方法在機器人行走中的應用仍處于不斷演進階段,其發展趨勢主要體現在3個方面。
首先,模型與學習的深度融合將成為主流方向:研究者嘗試在端到端框架中引入可微分物理約束或優化層,使得控制器既具備端到端學習的靈活性,又保持物理一致性與穩定性。
其次,多模態感知的整合將進一步提升端到端架構的適應性,視覺、力覺和慣性傳感等信息的融合有助于機器人在更加復雜和動態的環境中實現魯棒控制。
最后,仿真到現實的遷移仍是亟需解決的關鍵問題,通過域自適應、對抗訓練和真實機器人上的小樣本微調,有望縮小仿真與現實之間的差距。
4 未來展望
未來的發展趨勢將不再局限于單一算法的改進,而是更加強調跨學科的深度融合,尤其是與人工智能、硬件平臺和標準體系的結合,以下4個方向可能成為未來研究的重點。
4.1 規劃控制與大語言模型及視覺語言模型的深度結合
隨著大語言模型(LLM)和視覺語言模型(VLM)的快速演進,人形機器人在任務理解與語義感知方面將迎來新突破。LLM與VLM的引入有望讓機器人具備更接近人類的語義推理與環境理解能力。這種能力不僅能夠提升機器人在復雜任務場景中的適應性,還能夠顯著改善人機交互體驗,使非專業用戶也能通過自然語言與機器人進行高效溝通。未來,如何將基于語義理解的規劃和控制與傳統動力學約束有機結合,將成為實現智能化行走控制的重要研究方向。
4.2 硬件—算法的協同化發展
人形機器人在實際應用中往往受到算力、能耗和執行器性能的制約,因此,未來的研究必須更加注重硬件與算法的協同優化。
一方面,執行器與傳感器技術的進步將為復雜算法的部署提供堅實硬件基礎。
另一方面,算法設計也需要更加貼合硬件特性,從而延長機器人的續航并提升整體能效。
此外,硬件與算法的協同發展不僅體現在計算和能耗的平衡,還包括機器人結構布局與控制策略的共同優化。這種雙向促進的模式有望成為未來人形機器人設計與控制的核心理念。
4.3 機器人機構與傳感器的發展
除了算法與硬件協同,機器人本體結構與傳感系統的革新同樣是提升行走能力的關鍵。未來,輕量化與高強度材料的應用將顯著降低機器人能耗并提升耐久性,而柔性關節與順應性機構的引入則有助于機器人在非結構化地形中更好地吸收沖擊、維持穩定。這些機構與傳感器的持續演進將不僅提升機器人在單一任務中的表現,還將拓寬其在多任務與復雜環境下的適用性。
4.4 通用數據集與評價體系的發展
未來,建立開放且標準化的數據集與評價體系顯得尤為重要。這類數據集應覆蓋多樣化的行走場景,包括不規則地形、外部擾動、障礙物分布以及多任務操作需求;而評價體系則應在穩定性、能效、任務完成率和安全性等多維度上進行全面考量。統一的數據與評測標準不僅能夠促進學術界在算法迭代中的公平比較,也有助于推動工業界快速采納先進方法,實現從實驗室到應用的平滑過渡。
5 結論
人形機器人行走研究在過去幾十年取得了顯著進展,從早期的簡化模型控制到近年的全身優化與學習驅動方法,技術體系逐漸形成了較為完整的框架。以“非結構化環境下的人形機器人行走規劃與控制”為核心視角,我們綜述了規劃方法、控制方法以及2者的融合與發展趨勢,并在此基礎上進行總結與展望。在技術層面,行走規劃與控制方法不斷演進,當前人形機器人行走研究已經形成了從規劃、控制到融合的完整方法體系,并正沿著高魯棒性、自適應與實用化的方向快速發展。
展望未來,人形機器人研究將不僅聚焦于單一的算法或硬件突破,而是朝著跨領域、跨層次的綜合發展方向邁進。通過與大模型的結合、硬件—算法協同優化、機構與傳感器的演進,以及統一標準體系的建立,人形機器人有望在非結構化環境中實現更高水平的自主性與智能化,真正走向實用化與大規模應用。
本文作者:曹屹峰、何俊鵬、李炳賢、范麗麗、田永林、文偉松、曹東璞
作者簡介:曹屹峰,香港理工大學航空及民航工程學系,博士研究生,研究方向為人形機器人、機器人控制、自動駕駛;曹東璞(通信作者),清華大學智能綠色車輛與交通全國重點實驗室,教授,研究方向為駕駛員認知、網聯自動駕駛。
文章來 源 : 曹屹峰, 何俊鵬, 李炳賢, 等. 非結構化環境下人形機器人行走規劃與控制[J]. 科技導報, 2025, 43(20): 93?104 .
本文有刪改,
內容為【科技導報】公眾號原創,歡迎轉載
白名單回復后臺「轉載」
《科技導報》創刊于1980年,中國科協學術會刊,主要刊登科學前沿和技術熱點領域突破性的研究成果、權威性的科學評論、引領性的高端綜述,發表促進經濟社會發展、完善科技管理、優化科研環境、培育科學文化、促進科技創新和科技成果轉化的決策咨詢建議。常設欄目有院士卷首語、科技新聞、科技評論、專稿專題、綜述、論文、政策建議、科技人文等。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.