網易首頁 > 網易號 > 正文申請入駐

清華提出BiManiBench：首個測試機器人雙臂協調能力的基準測試

2026-02-25 20:58:23　來源: 科技行者

北京舉報

分享至

這項由清華大學與香港大學、香港科技大學及北京人形機器人創新中心聯合進行的研究發表于2026年2月，論文編號為arXiv:2602.08392v1，為機器人雙臂操作能力評估開創了全新的測試標準。

當我們看著一個熟練的廚師同時用雙手處理食材時，會發現這其實是個極其復雜的協調過程。左手穩住砧板上的洋蔥，右手握刀精準切片，兩只手必須完美配合才能避免意外。現在，當科學家們試圖讓機器人也能像人類一樣使用雙手時，他們遇到了一個根本問題：如何知道這些機器人的雙手配合得好不好？

清華大學的研究團隊注意到，雖然現在的多模態大語言模型在理解和生成內容方面已經相當出色，但當涉及到控制機器人雙臂協調工作時，我們卻缺乏一個標準的測試方法。這就像是我們有了很多聰明的學生，但沒有合適的考試來檢驗他們的雙手配合能力。

為了解決這個問題，研究團隊開發了BiManiBench——一個專門用來測試機器人雙臂協調能力的基準測試系統。這個系統的巧妙之處在于它將復雜的雙臂操作能力分解成了三個層次的測試，就像學習駕駛時需要先學會看路、再學會判斷、最后學會精確操控方向盤一樣。

研究團隊發現了一個有趣的現象：目前最先進的AI模型雖然在高層思維方面表現出色，但在具體的雙手協調操作上卻經常出現問題。這就好比一個很聰明的人能夠完美地規劃出做菜的步驟，但真正動手時卻總是左右手打架，不是撞到一起就是動作不同步。

在測試過程中，研究人員評估了超過30個目前最先進的AI模型，包括GPT-5、Gemini-2.5-Pro、Claude-4-sonnet等知名模型，以及許多開源模型如InternVL3、Qwen2.5-VL等。結果顯示，即使是表現最好的模型，在需要精確雙臂配合的任務中也經常失敗。

一、三層測試體系：從簡單到復雜的能力檢驗

BiManiBench的測試體系就像學習樂器時的分級練習。第一級是最基礎的空間推理能力測試，相當于讓學習者先明白哪只手應該按哪個琴鍵。在這個測試中，機器人需要觀察桌面上的物體，然后正確判斷應該用左手還是右手去抓取每個物體。

這看起來簡單，但實際上暗藏玄機。研究團隊設計了三種不同復雜度的場景來測試這種能力。稀疏場景中只放置三個彩色方塊，機器人需要根據物體位置來選擇合適的手臂。密集場景增加到五個方塊，增加了判斷難度。而雜亂場景則加入了各種干擾物體，就像在嘈雜的環境中識別聲音一樣困難。

測試結果顯示，最優秀的閉源模型如Gemini-2.5-Pro能達到95%的準確率，而開源模型中表現最好的Qwen3-VL-32B也能達到94%的水準。但有趣的是，并不是參數越多的模型表現就越好。一些中等規模的模型反而在特定任務上表現出色，這說明模型架構的優化有時比單純增加規模更重要。

第二級測試更像是讓機器人成為一個合格的任務管理者。在高層行動規劃測試中，機器人需要將復雜任務分解成一系列具體的動作序列。這就好比讓機器人規劃如何整理一個雜亂的房間，需要決定先收拾哪里、后收拾哪里，以及兩只手應該如何分工。

這個層級的測試包含14個不同的操作任務，分為兩大類：獨立并行操作和順序協作操作。獨立并行操作就像兩只手同時做不同的事情，比如左手整理書架的同時右手收拾桌面。而順序協作操作則需要更精妙的配合，比如一只手遞物品給另一只手，或者一只手固定容器另一只手往里放東西。

在這個層級的測試中，模型之間的差距開始顯現。最好的模型Gemini-2.5-Pro達到了70.21%的成功率，而GPT-5緊隨其后達到67%。但開源模型的表現就相對遜色，最好的Qwen3-VL-235B只達到了54.21%的成功率，這說明在復雜的邏輯推理和任務規劃方面，閉源模型仍然保持著明顯優勢。

第三級測試是最具挑戰性的，要求機器人進行精確的末端執行器控制。這就像要求機器人不僅要知道如何彈鋼琴，還要能夠精確控制每個手指的力度和位置。在這個測試中，機器人需要直接輸出16維的連續動作指令，控制兩個7自由度的手臂加上各自的夾爪狀態。

這個層級只包含5個任務，但每個都極具挑戰性。比如需要兩只手同時抓取一個滾筒并舉起，或者讓兩只手配合將物品堆疊起來。結果顯示，即使是最優秀的GPT-5也只達到了66.80%的成功率，而大部分開源模型的表現都在30%以下，這表明當前的AI模型在精確的物理控制方面還有很大改進空間。

二、巧妙的評分機制：考慮模糊地帶的智能判斷

在設計評分系統時，研究團隊面臨了一個有趣的挑戰。對于那些需要精確操作的任務，成功就是成功，失敗就是失敗，這很容易判斷。但對于空間推理任務，情況就復雜多了。

考慮這樣一個場景：一個物體正好位于工作臺的中央位置，理論上左右兩只手都能夠到。這時候選擇左手還是右手其實都是合理的，但傳統的評分方法可能會武斷地認為只有一個答案是正確的。

為了解決這個問題，研究團隊開發了一個"高斯加權空間評分"系統。這個系統的巧妙之處在于，它會根據物體距離中心線的遠近來調整評分標準。如果物體明顯偏向左邊或右邊，那么選擇錯誤的手臂會被嚴厲扣分。但如果物體接近中心位置，即使選擇了"錯誤"的手臂，也只會輕微扣分，因為這種選擇在實際情況下也是可以理解的。

這種評分機制就像一個通情達理的考官，不會因為學生在模糊問題上的合理判斷而過分苛刻。通過數學公式的精確計算，系統能夠給出更加公正和合理的評分，避免了傳統二元評分系統可能帶來的不公平。

三、多視角觀察：解決機器人視野盲區的創新方案

在實際操作中，機器人經常會遇到視野被遮擋的問題。就像人在做精細工作時，有時候手或工具會擋住視線，這時候換個角度觀察就很有幫助。

研究團隊為機器人配備了兩種視角：第一人稱視角和第三人稱視角。第一人稱視角就像機器人的"眼睛"，能夠看到精確的操作細節，但容易被手臂或夾爪遮擋。第三人稱視角則像是房間里的監控攝像頭，能夠提供全局觀察，但距離較遠，細節不夠清晰。

有趣的是，研究發現并不是所有模型都能有效利用多視角信息。對于計算能力強大的模型來說，額外的視角信息確實能幫助它們更好地理解場景，解決遮擋問題。但對于能力較弱的模型，過多的視覺信息反而成了負擔，就像給一個初學者同時提供太多角度的教學視頻，結果讓他們更加混亂。

這個發現揭示了一個重要原理：信息越多未必越好，關鍵是要有足夠的處理能力來有效利用這些信息。這就像給不同水平的學生提供學習材料，需要根據他們的能力水平來調整信息的復雜度和數量。

四、動作分組執行：平衡效率與安全的智能策略

在實際操作中，機器人需要在效率和安全之間找到平衡。如果每次都只執行一個動作然后停下來重新觀察，雖然安全但效率很低。如果一次性執行一長串動作，雖然效率高但可能因為環境變化導致后續動作失效甚至危險。

研究團隊開發了一個"任務自適應執行截斷"機制，這就像是給機器人配了一個智能的安全管家。這個系統會根據不同任務的特點，為每個任務設定一個最大連續執行動作數。無論AI模型規劃了多少個連續動作，系統都會在達到安全閾值時主動停下來，讓機器人重新觀察環境并調整后續計劃。

這種機制特別重要，因為在執行一連串動作的過程中，環境狀態會不斷變化。比如當機器人抓起一個物體后，桌面上其他物體的可見性和可達性都可能發生變化。如果繼續按照原計劃執行，可能會導致碰撞或失誤。

五、深度錯誤分析：揭示AI模型的真實弱點

通過對30多個AI模型的全面測試，研究團隊發現了一些令人意外的結果。最令人驚訝的發現是，模型的表現并不總是隨著參數規模增大而提升。在某些任務中，一些中等規模的模型反而比大型模型表現更好，這說明模型設計的巧妙性有時比單純的規模更重要。

研究團隊將錯誤類型分為兩大類：感知推理錯誤和策略規劃錯誤。感知推理錯誤就像是機器人"看錯了"或"想錯了"，包括對當前狀態的誤判、對應該使用哪只手的錯誤判斷、以及對物體大小和屬性的錯誤認知。

策略規劃錯誤則是在正確理解環境的基礎上，制定了錯誤的行動計劃。這包括動作順序的錯誤、雙手之間的沖突碰撞、以及行動參數的不一致。

通過分析GPT-5和Gemini-2.5-Pro這兩個頂級模型的錯誤模式，研究團隊發現了一個有趣的對比。GPT-5的主要問題是感知方面，經常對任務狀態判斷錯誤，但一旦理解正確，它的規劃能力還是不錯的。而Gemini-2.5-Pro恰恰相反，它的感知能力很強，但在復雜的雙手協調規劃方面經常出現問題，特別是在時序安排和避免沖突方面。

六、實際應用場景：從實驗室到現實世界的挑戰

BiManiBench包含的任務都來源于真實的生活場景。比如雙手協作搬運重物、一手拿容器另一手往里放東西、將物品按大小排序、把積木搭建成指定形狀等等。這些任務看似簡單，但對機器人來說卻充滿挑戰。

在搬運任務中，機器人需要確保兩只手同時抓取物體，用力均勻，移動同步，這需要精確的時間協調。在傳遞任務中，機器人需要一只手穩定地握住物體，另一只手準確地接收，這考驗的是空間判斷和動作協調能力。

研究發現，即使是最先進的AI模型，在這些看似簡單的日常任務中也經常失敗。失敗的原因多種多樣：有時是兩只手撞到一起，有時是動作時機不對，有時是對物體位置判斷錯誤。這些發現提醒我們，要讓機器人真正融入人類的日常生活，還有很長的路要走。

七、技術突破與創新點：引領雙臂機器人評估新標準

BiManiBench的創新不僅僅在于提供了一個測試平臺，更重要的是它建立了一套科學的評估體系。這套體系的價值在于它能夠精確識別AI模型在雙臂協調方面的具體短板，為后續的改進提供明確方向。

研究團隊還開發了一個視覺驅動的智能體框架，這個框架就像是給AI配了一個專業的雙手協調教練。它不僅能夠理解視覺信息，還能將復雜的雙臂操作任務分解成可執行的步驟序列，并且在執行過程中實時調整策略。

另一個重要創新是"操作臂分配反饋和截斷機制"。這個機制能夠在AI模型做出錯誤的手臂選擇時及時介入，提供反饋并允許重新規劃。這就像是給學習者配了一個耐心的老師，當他們犯錯時不會直接宣布失敗，而是指出錯誤并給予改正機會。

八、研究局限性與未來展望：通向更完善的雙臂協調能力

研究團隊誠實地承認了當前工作的局限性。首先，所有測試都是在仿真環境中進行的，與真實世界的復雜性還有差距。真實世界中存在傳感器噪聲、機械磨損、照明變化等仿真環境難以完全模擬的因素。

其次，當前的測試主要集中在剛性物體的操作上，而現實中許多雙手協調任務涉及柔性或可變形物體，比如折疊衣物、綁鞋帶、處理液體等。這些任務需要更復雜的物理理解和實時適應能力。

對于AI模型推理速度的限制也是一個挑戰。目前的大型語言模型推理速度相對較慢，難以滿足機器人實時控制的需求。未來需要開發更高效的架構或者混合控制策略來解決這個問題。

研究團隊提出了幾個重要的未來研究方向。首先是開發更好的多視角信息融合技術，讓所有模型都能有效利用多角度的視覺信息。其次是研究實時控制和延遲緩解技術，包括模型蒸餾、動作分組和混合架構等方法。

還有一個有趣的方向是人機雙臂協作。未來的機器人不僅要能夠獨立完成雙臂任務，還要能夠與人類進行雙臂協作，這需要更復雜的意圖理解、安全交互和社會認知能力。

九、對機器人發展的深遠影響：重新定義智能機器人標準

BiManiBench的發布標志著機器人能力評估進入了一個新階段。過去的機器人測試大多關注單一技能，而這項研究強調了協調能力的重要性。這就像是從考察個人技能轉向考察團隊合作能力，雖然更復雜，但也更接近實際需求。

這項研究揭示了當前AI技術的一個重要盲區：盡管在語言理解、圖像識別等單一模態任務上表現出色，但在需要多模態協調的物理任務上仍然存在明顯不足。這為AI研究指出了一個重要的發展方向：不僅要提升單一能力的上限，更要加強不同能力之間的協調整合。

從產業角度來看，BiManiBench為機器人制造商和AI公司提供了一個客觀的評估標準。這有助于推動整個行業向更實用的方向發展，避免單純追求某些指標的虛高而忽略了實際應用中的協調能力需求。

說到底，這項研究的真正價值不在于證明當前的AI模型有多強或多弱，而在于為我們指出了通向真正智能機器人的道路。通過系統性地測試和分析雙臂協調能力，我們能夠更清楚地看到差距在哪里，需要在哪些方面繼續努力。

當我們期待著未來機器人能夠像人類一樣靈巧地使用雙手時，BiManiBench就像是一面鏡子，讓我們看清了現實與理想之間的距離。但正是這種清醒的認識，才能引導我們走向更加智能、更加實用的機器人未來。對于那些有興趣深入了解這項研究細節的讀者，可以通過論文編號arXiv:2602.08392v1查詢完整的研究報告。

Q&A

Q1：BiManiBench到底測試機器人什么能力？

A：BiManiBench是專門測試機器人雙臂協調能力的基準測試系統，它分三個層次評估：基礎空間推理（判斷用哪只手抓物體）、高層動作規劃（制定復雜任務的執行步驟）、低層精確控制（直接控制雙臂的具體動作）。就像考駕照一樣，從理論知識到實際操作全面評估。

Q2：為什么現在的AI模型在雙臂協調上表現不好？

A：研究發現AI模型主要有三個問題：首先是"看錯"，經常誤判應該用哪只手或物體在哪里；其次是"想亂"，雖然理解任務但制定的行動計劃有問題，比如兩只手會撞到一起；最后是"做不準"，即使計劃正確也無法精確執行雙手配合動作。這就像一個人腦子很聰明但手腳不協調。

Q3：BiManiBench對機器人發展有什么意義？

A：BiManiBench首次為雙臂機器人能力評估建立了科學標準，就像給機器人設立了"體能測試"。它幫助研究人員精確找到AI模型的弱點，指導未來改進方向。更重要的是，它推動整個行業關注機器人的協調能力而不只是單一技能，讓機器人更接近實際應用需求。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.