<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      崇實大學和中央大學聯手破解機器人指令理解難題

      0
      分享至


      當你對機器人說"把碗放到爐子上"時,它能完美執行任務。但如果你換成"請將容器置于灶臺之上",同樣的機器人可能就完全摸不著頭腦了。這聽起來是不是很像那些只會照本宣科的學生,一旦老師換個問法就徹底懵圈?

      這個看似簡單卻極其重要的問題,最近被韓國崇實大學和中央大學的研究團隊深入研究并取得了突破性進展。他們的研究成果發表在2026年3月的arXiv預印本平臺上,論文編號為arXiv:2603.28301v1。這項研究不僅揭示了當前機器人在理解同義表達時的嚴重缺陷,還提出了一套全新的評估體系來衡量機器人的"語言理解韌性"。

      研究團隊發現了一個令人震驚的現象:即使是最先進的視覺-語言-動作(VLA)模型,在面對意思完全相同但表達方式略有不同的指令時,成功率會暴跌22到52個百分點。這就好比一個原本能完美完成任務的助手,突然因為你換了個說話方式就變得笨手笨腳起來。

      更令人意外的是,研究發現80%到96%的失敗并不是因為機器人手腳不靈活,而是因為它們根本沒理解任務是什么。換句話說,問題出在"腦子"上而不是"手上"。當你說"把爐子打開"時,機器人知道該怎么做。但當你說"啟動加熱設備"時,它可能會站在那里一臉茫然,完全不知道你在說什么。

      為了深入研究這個問題,研究團隊開發了一個名為LIBERO-Para的全新測試平臺。這個平臺就像是專門為機器人設計的語言理解考試,包含了43種不同的表達方式變化。他們將這些變化分為兩個主要維度:動作表達的變化和物體指稱的變化。

      在動作表達方面,研究團隊發現了三種主要的變化類型。第一種是詞匯層面的變化,比如將"拾取"改為"抓取",或者加上"小心地"這樣的修飾詞。第二種是結構層面的變化,比如將簡單的"拿碗放爐子上"改為復合句"拿起那個碗,然后把它放到爐子上"。第三種是語用層面的變化,這是最有趣的一種,包括將直接命令改為間接表達,比如"我需要把碗放到爐子上"或"你能把碗放到爐子上嗎?"

      在物體指稱方面,變化相對簡單但影響巨大。研究團隊主要考察了同義詞替換,比如將"爐子"說成"灶臺"或"加熱器",以及添加描述性詞匯,比如將"碗"說成"湯碗"或"餐具"。

      研究團隊測試了七種不同的機器人模型,參數規模從6億到75億不等,涵蓋了目前最主流的四種架構類型。令人震驚的是,無論是哪種模型,無論參數多大,都表現出了嚴重的語言理解脆弱性。最優秀的模型在原始指令上能達到98.8%的成功率,但在面對同義表達時,成功率降到了76%。最差的情況下,成功率甚至跌到了39.1%。

      研究結果顯示,物體層面的詞匯變化是導致性能下降的主要原因。當研究人員將"爐子"改為"灶臺"這樣簡單的同義詞替換時,機器人的表現就會大幅下降。這表明當前的機器人系統過度依賴表面的詞匯匹配,而缺乏真正的語義理解能力。相比之下,動作表達的變化雖然也會影響性能,但影響程度要小得多。

      為了更準確地評估機器人的語言理解能力,研究團隊還開發了一個名為PRIDE的新型評估指標。傳統的評估方法只看最終結果是成功還是失敗,就像考試只看分數不看過程一樣。但PRIDE不僅考慮成功率,還會評估指令的復雜程度。它會分析關鍵詞的保留程度和句法結構的變化程度,給出更細致的評分。

      通過PRIDE指標的分析,研究團隊發現了一個有趣的現象:有些模型在簡單的同義表達上表現不錯,但在面對復雜的句法變化時就束手無策。而有些模型則相反,對句法變化有一定的適應能力,但在詞匯替換上表現糟糕。這就好比有些學生擅長理解復雜的句子結構,但對同義詞很敏感;而另一些學生對同義詞不在意,但一遇到復雜句式就頭疼。

      研究團隊還通過軌跡分析發現了失敗的根本原因。他們發現,當機器人面對同義表達時,絕大多數情況下不是執行過程中出錯,而是從一開始就理解錯了任務。就像一個人接到"去買蘋果"的任務,結果去買了橘子一樣,問題出在理解環節而不是執行環節。

      這項研究的意義遠遠超出了學術范圍。隨著家用機器人、服務機器人越來越普及,它們需要理解各種各樣的人類表達方式。你不可能要求每個用戶都按照標準格式說話,就像你不能要求每個人都用同樣的方式表達同一個意思。如果機器人只能理解訓練時見過的特定表達方式,那它們在真實世界中的實用性就會大打折扣。

      研究團隊的發現還揭示了一個更深層的問題:當前的機器人訓練數據往往缺乏語言表達的多樣性。在LIBERO訓練數據集中,每個物體都只有一個固定的稱呼,比如"爐子"永遠叫爐子,從不叫"灶臺"或"加熱器"。這就像讓學生只學會一種解題方法,一旦換個題型就不會做了。

      更有趣的是,研究發現不同架構的機器人模型在語言理解脆弱性上表現出了不同的模式。有些模型在物體識別和動作識別之間有明顯的性能差異,而有些模型則表現得比較均衡。這為未來的模型設計提供了重要的參考方向。

      研究團隊還通過對比不同的訓練策略發現,即使增加四倍的訓練任務多樣性,也不能顯著改善語言理解的魯棒性。這說明問題的根源不在于訓練數據量的不足,而在于訓練數據中語言表達方式的單一化。就好比你讀了很多書但都是同一種寫作風格,遇到不同風格的文章時仍然會感到困惑。

      這項研究的實際應用價值不容小覷。對于機器人制造商來說,這提醒他們需要在訓練數據中包含更多樣化的語言表達。對于用戶來說,這解釋了為什么有時候換個說法機器人就不聽話了。對于研究人員來說,這指明了未來改進的方向:不是簡單地增大模型規模或增加訓練數據,而是要提高模型對語言變化的適應能力。

      研究團隊通過詳細的人工評估驗證了他們的發現。15名評估員對205個樣本進行了獨立評判,結果顯示99.51%的同義表達確實保持了原意,證明了研究設計的科學性。這就像請了15個老師來判斷不同的題目是否考查同樣的知識點,結果幾乎所有老師都達成了一致。

      值得注意的是,研究還發現了一個有趣的現象:那些凍結了視覺-語言模塊只訓練動作模塊的模型,在執行層面的失敗率更高。這說明視覺-語言理解和動作執行之間存在復雜的相互依賴關系,不能簡單地將它們分開處理。

      說到底,這項研究揭示了一個看似簡單卻極其重要的問題:機器人需要像人類一樣具備靈活的語言理解能力。人類可以輕松理解"把門打開"、"請開一下門"、"門需要打開"這些表達的意思完全相同,但當前的機器人還做不到這一點。這不僅是技術挑戰,更是機器人真正走進千家萬戶的必經之路。

      研究團隊的工作為解決這個問題提供了重要的基礎。他們不僅識別了問題的存在,還開發了評估工具,分析了問題的根源,為未來的改進指明了方向。雖然完全解決這個問題還需要時間,但這項研究無疑是朝著正確方向邁出的重要一步。想要了解更多技術細節的讀者可以通過arXiv:2603.28301v1查詢這篇完整論文。

      Q&A

      Q1:LIBERO-Para是什么?

      A:LIBERO-Para是韓國研究團隊開發的機器人語言理解測試平臺,專門用來檢測機器人在面對同義表達時的理解能力。它包含43種不同的表達變化方式,就像給機器人設計的語言理解考試,能夠系統性地評估機器人是否真正理解指令含義。

      Q2:為什么換個說法機器人就不會執行任務了?

      A:主要原因是當前機器人過度依賴表面的詞匯匹配而缺乏真正的語義理解。比如機器人在訓練時只見過"爐子"這個詞,當你說"灶臺"時它就不知道是同一個東西。研究發現80-96%的失敗都是因為機器人從一開始就沒理解任務是什么,而不是執行環節出錯。

      Q3:PRIDE評估指標有什么特別之處?

      A:PRIDE指標不僅看機器人任務執行的成敗,還會評估指令的復雜程度。它分析關鍵詞保留程度和句法結構變化,能區分出機器人是在簡單表達上成功還是在復雜表達上也能勝任,比傳統的成功失敗評判更加精準和有意義。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      紀委不會查這3種情況,很多人不知道,要切記!

      紀委不會查這3種情況,很多人不知道,要切記!

      細說職場
      2026-04-16 15:27:18
      比賴清德還狂的人出現了,如果她當選臺灣領導人,解放軍必定收臺

      比賴清德還狂的人出現了,如果她當選臺灣領導人,解放軍必定收臺

      芳芳歷史燴
      2026-03-29 21:09:31
      馬德興再次點名批評鄺兆鐳!直言他的表現沒達到預期,引發熱議

      馬德興再次點名批評鄺兆鐳!直言他的表現沒達到預期,引發熱議

      懂個球
      2026-04-22 00:17:36
      三星“不講武德”,上市僅兩個月,6.3英寸小屏旗艦跳水1500元

      三星“不講武德”,上市僅兩個月,6.3英寸小屏旗艦跳水1500元

      北境不忘
      2026-04-20 09:57:53
      《暗黑4》免費:真香還是真坑?

      《暗黑4》免費:真香還是真坑?

      記錄生活日常阿蜴
      2026-04-21 18:07:05
      許家印搞球內幕

      許家印搞球內幕

      哲空空
      2026-04-21 19:26:14
      姚行長遲遲當不上姚董事長

      姚行長遲遲當不上姚董事長

      科技金融在線
      2026-03-14 10:23:23
      8歲男孩與家人爬山發現大片問荊草和含云母的石塊,推測這座山下可能有黃金!孩子爸爸:已上報相關部門

      8歲男孩與家人爬山發現大片問荊草和含云母的石塊,推測這座山下可能有黃金!孩子爸爸:已上報相關部門

      極目新聞
      2026-04-21 00:48:26
      急診女患者腹痛以為是闌尾炎,查了腹部彩超,醫生:這回信我了吧

      急診女患者腹痛以為是闌尾炎,查了腹部彩超,醫生:這回信我了吧

      醫學原創故事會
      2026-04-21 23:48:05
      CBA收官戰太瘋狂了!13隊為最終排名廝殺:北控廣州爭季后賽席位

      CBA收官戰太瘋狂了!13隊為最終排名廝殺:北控廣州爭季后賽席位

      籃球快餐車
      2026-04-22 00:10:06
      拼多多暴力抗法細節曝光,把全國網友都看傻了

      拼多多暴力抗法細節曝光,把全國網友都看傻了

      新浪財經
      2026-04-22 03:40:54
      多名院士調查發現:吃一口放久變軟的香蕉,或等于進一次毒?真的

      多名院士調查發現:吃一口放久變軟的香蕉,或等于進一次毒?真的

      垚垚分享健康
      2026-04-21 10:49:25
      中超爭議判罰!顏駿凌超巨失誤,VAR介入,陳純新笑納大禮

      中超爭議判罰!顏駿凌超巨失誤,VAR介入,陳純新笑納大禮

      奧拜爾
      2026-04-21 20:54:59
      603605,擬10派12元!超百家A股公司披露分紅預案

      603605,擬10派12元!超百家A股公司披露分紅預案

      證券時報e公司
      2026-04-21 22:24:13
      71.5%!歷史性暴跌,以貸養貸的泡沫崩了

      71.5%!歷史性暴跌,以貸養貸的泡沫崩了

      月滿大江流
      2026-04-16 13:54:38
      年輕人不買房不結婚了:就怪那個把房婚捆綁的人

      年輕人不買房不結婚了:就怪那個把房婚捆綁的人

      三言四拍
      2026-04-16 16:29:36
      安全性重估疊加新動能 經濟數據彰顯中國資產底氣

      安全性重估疊加新動能 經濟數據彰顯中國資產底氣

      新華社
      2026-04-21 09:39:25
      2-0領先仍被看衰?名嘴:騎士雙核有兩大軟肋,根本沖不出東部

      2-0領先仍被看衰?名嘴:騎士雙核有兩大軟肋,根本沖不出東部

      體育見習官
      2026-04-21 12:14:49
      司美格魯肽仿制藥審批暫停,企業還要干等一年?

      司美格魯肽仿制藥審批暫停,企業還要干等一年?

      健識局
      2026-04-22 01:30:57
      原來如此!張雪峰去世當天吃午飯和搶救畫面流出!更多細節曝光

      原來如此!張雪峰去世當天吃午飯和搶救畫面流出!更多細節曝光

      華人星光
      2026-04-21 11:58:09
      2026-04-22 04:16:49
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業世界
      8088文章數 562關注度
      往期回顧 全部

      科技要聞

      創造4萬億帝國、訪華20次,庫克留下了什么

      頭條要聞

      三國取消飛航許可 賴清德無法竄訪斯威士蘭

      頭條要聞

      三國取消飛航許可 賴清德無法竄訪斯威士蘭

      體育要聞

      一到NBA季后賽,四屆DPOY就成了主角

      娛樂要聞

      宋承炫曬寶寶B超照,宣布老婆懷孕

      財經要聞

      現實是最大的荒誕:千億平臺的沖突始末

      汽車要聞

      全新坦克700正式上市 售價42.8萬-50.8萬元

      態度原創

      本地
      藝術
      親子
      健康
      數碼

      本地新聞

      春色滿城關不住|白鵑梅浪漫盛放,吳山藏了一片四月雪

      藝術要聞

      任伯年寫竹,真帶勁

      親子要聞

      針對兒童青少年近視防控、心理行為發育監測等,上海發布行動計劃

      干細胞抗衰4大誤區,90%的人都中招

      數碼要聞

      大疆發布Osmo Mobile 8P:售899元 分體式遙控器設計

      無障礙瀏覽 進入關懷版