<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      機器人學會"未卜先知":ByteDance如何讓AI提前看到未來再行動

      0
      分享至


      這項由ByteDance Seed與香港大學合作完成的研究發表于2026年2月的arXiv預印本平臺,編號為arXiv:2602.22010v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。這項研究為機器人技術帶來了一個激動人心的突破:讓機器人能夠像人類一樣"預見未來",然后據此做出更精準的動作決策。

      就像一個經驗豐富的司機在轉彎前會提前觀察路況、預判車流一樣,這項研究讓機器人也擁有了這種"先見之明"。傳統的機器人就像新手司機,只能看到當前狀況就匆忙做決定,常常出現動作不協調或碰撞等問題。而這項新技術讓機器人變成了"老司機",能夠提前"看到"幾步之后的情況,從而做出更加合適的動作選擇。

      研究團隊將這項技術命名為WoG(World Guidance),意思是"世界引導"。這個系統的核心理念是讓機器人在執行動作之前,先在腦海中構建一個關于未來幾秒鐘會發生什么的"預覽",然后基于這個預覽來指導當前的行為。這就好比下棋時的高手,他們不只看當前局面,而是會提前想好接下來幾步的變化,從而做出最優選擇。

      這項技術的突破性在于找到了一個巧妙的平衡點。以往的機器人要么只關注眼前情況(像近視眼一樣),要么試圖預測未來的所有細節(但這往往計算量太大且容易出錯)。WoG技術則像一個智能的"過濾器",它只提取未來信息中對當前動作真正有用的部分,既保證了預測的準確性,又大大提高了計算效率。

      一、機器人的"預知能力"究竟是怎么回事

      傳統的機器人控制就像盲人摸象,只能根據當前觸摸到的信息做出反應。比如機器人要抓取一個杯子,它只能看到杯子現在的位置,然后筆直地伸手去抓。但如果桌子上還有其他物品,或者杯子可能會移動,機器人就很容易出錯。

      WoG技術讓機器人獲得了類似"透視眼"的能力。它不僅能看到杯子當前的位置,還能預測到伸手過程中可能遇到的障礙物,預見到抓取動作對桌面其他物品的影響,甚至預判杯子可能的輕微移動。基于這些"未來信息",機器人會選擇一條更加巧妙的抓取路徑,避開障礙物,確保動作的成功執行。

      這種預知能力的關鍵在于"條件空間"的概念。研究團隊發現,機器人并不需要預測未來的每一個細節,而只需要提取出對當前動作有指導意義的關鍵信息。這就像開車時,司機不需要記住路邊每一棵樹的位置,但需要清楚地知道前方車道的走向和其他車輛的動向。

      研究團隊通過一個兩階段的訓練過程來實現這種能力。第一階段就像給機器人配備了一副"望遠鏡",讓它學會觀察和理解未來幾秒鐘內環境的變化。第二階段則是教會機器人即使在沒有"望遠鏡"的情況下,也能根據當前信息推斷出未來的關鍵變化,就像經驗豐富的老司機即使在霧天也能憑經驗判斷路況一樣。

      二、兩步走的學習策略:從"有預覽"到"憑直覺"

      WoG技術的訓練過程就像培養一個優秀的象棋選手。第一階段相當于讓學生在有參考書的情況下學習,可以隨時查看標準答案;第二階段則要求學生脫離參考書,憑借內化的知識獨立解決問題。

      在第一階段,研究團隊為機器人提供了完整的"未來信息包"。這個信息包來自于多個預訓練的視覺模型,就像給機器人配備了多個不同功能的"傳感器"。有的傳感器專門識別物體的語義信息(這是什么東西),有的專門捕捉運動和變化信息(東西是怎么動的)。這些傳感器收集到的未來信息通過一個叫做"Q-Former"的組件進行壓縮和整理,最終形成一個緊湊但信息豐富的"未來條件"。

      機器人在這個階段學會了如何利用這些未來條件來做出更好的動作決策。就像學習開車時,教練會提前告訴學員前方路口的情況,學員逐漸學會了如何根據這些提前信息調整自己的駕駛行為。

      第二階段則是關鍵的"內化"過程。研究團隊凍結了第一階段訓練好的未來信息提取器,讓它繼續產生標準的"未來條件"作為參考答案。然后訓練機器人的主要決策系統,讓它學會僅僅根據當前觀察到的信息,就能預測出這些未來條件應該是什么樣的。這就像教練不再提前告知路況,而是讓學員憑借之前的學習經驗自己判斷前方可能出現的情況。

      通過這種方式,機器人最終獲得了一種"內在的預知能力"。它不再需要外部提供未來信息,而是能夠根據當前情況推斷出接下來幾秒鐘內環境的關鍵變化,并據此做出最優的動作選擇。

      這種訓練策略的巧妙之處在于避免了直接預測復雜的未來畫面。傳統方法往往試圖讓機器人預測未來幾幀的完整視頻,但這樣做計算量巨大且容易出錯。WoG技術則只預測那些對動作決策真正有用的"精華信息",大大提高了預測的準確性和實用性。

      三、從海量人類視頻中汲取智慧

      WoG技術的一個重要創新是能夠從大量的人類操作視頻中學習。這就像讓機器人觀看成千上萬個人類操作的"教學視頻",從中學習各種精巧的操作技巧和預判能力。

      研究團隊設計了兩種不同的人類數據利用策略。第一種策略是"精英教學法",即挑選一小部分有詳細動作標注的高質量人類操作視頻,讓機器人詳細學習每一個動作的細節。同時,利用大量沒有動作標注的普通操作視頻來訓練機器人的"觀察和預判"能力。這就像讓學生既要學習標準教材中的規范動作,又要通過觀看大量實際操作來培養直覺和預判能力。

      第二種策略更加實用,完全不需要有動作標注的人類視頻。機器人首先通過機器人自己的訓練數據學會基本的操作能力,然后通過觀看大量人類操作視頻來提升自己的預判能力。這種方法的假設是,雖然人類和機器人的具體操作方式可能不同,但對環境變化的預判和對物體動態的理解是相通的。就像不同的人開車方式各異,但對路況的預判原理是相似的。

      研究團隊還探索了UMI(Universal Manipulation Interface)數據的應用。這是一種特殊的數據收集方式,通過頭戴式設備記錄人類的第一人稱操作視角。雖然這種數據的視角和動作表示與機器人有很大差異,但WoG技術依然能夠從中提取有用的預判知識,證明了該技術出色的適應性和泛化能力。

      通過這些人類數據的加持,WoG技術訓練出的機器人表現出了更加自然和智能的操作行為。它們能夠更好地處理復雜的動態環境,在面對未見過的情況時也能做出合理的預判和反應。

      四、仿真環境中的出色表現

      為了驗證WoG技術的有效性,研究團隊在SIMPLER仿真環境中進行了全面的測試。這個環境就像一個虛擬的機器人實驗室,提供了各種不同復雜程度的操作任務,從簡單的物體抓取到復雜的多步驟操作。

      在物體抓取任務中,WoG技術展現出了顯著的優勢。傳統機器人在抓取物體時常常因為路徑規劃不當而碰到障礙物或失誤。而使用WoG技術的機器人能夠提前"看到"抓取過程中可能遇到的問題,選擇更加巧妙的抓取路徑。在Pick Coke(抓取可樂罐)任務中,WoG技術的成功率達到了89%,遠超其他方法的72.7%最高成績。

      在需要精確軌跡規劃的移動任務中,WoG技術的優勢更加明顯。Move Near(移動到目標附近)任務要求機器人在有障礙物的環境中準確到達指定位置。傳統方法的成功率普遍在40-70%之間,而WoG技術達到了82.5%的成功率。這說明預判能力確實大大提升了機器人處理復雜動態環境的能力。

      對于抽屜開關這類需要處理機械約束的任務,WoG技術也表現出了良好的適應性。雖然在某些需要極高空間精度的任務上提升有限,但整體來說,WoG技術在各類任務中都實現了顯著的性能改善。

      研究團隊還測試了不同視覺編碼器組合對性能的影響。他們發現,將語義理解能力強的編碼器(如SigLIP)與動態捕捉能力強的編碼器(如VAE)結合使用,能夠獲得最佳效果。語義編碼器幫助機器人理解"這是什么東西",動態編碼器幫助機器人預測"東西會怎么變化",兩者結合為機器人提供了全面的未來預知能力。

      五、真實世界中的驗證與突破

      從仿真到現實是機器人技術面臨的重大挑戰,就像從紙上談兵到真正的戰場。研究團隊在真實的機器人平臺上驗證了WoG技術,結果證明這種預判能力在現實世界中同樣有效。

      實驗平臺采用了UR5機械臂配備Robotiq夾具,通過頂視角的深度相機獲取環境信息。研究團隊設計了三個具有代表性的任務來全面測試WoG技術的能力。

      在剛體操作任務(放置綠色杯子到盤子中)上,WoG技術展現出了優異的避障和精準定位能力。這個任務看似簡單,但實際上需要機器人預判抓取路徑上的障礙物,選擇合適的抓取姿態,并精確控制放置位置避免碰撞。WoG技術的成功率達到了60%,明顯超過其他方法。

      關節操作任務(關閉微波爐門)測試了機器人處理旋轉約束的能力。微波爐門的開關涉及復雜的旋轉動力學,機器人需要預判門的運動軌跡并相應調整自己的動作。WoG技術在這個任務上實現了100%的成功率,展現了出色的動態預判能力。

      柔性物體操作任務(折疊毛巾)是最具挑戰性的。毛巾的變形難以預測,需要機器人具備對柔性動力學的深刻理解。WoG技術將成功率提升到60%,相比其他方法有顯著改進。這證明了預判技術對處理復雜變形物體的重要價值。

      特別值得關注的是,WoG技術在面對環境變化時表現出了良好的魯棒性。當研究團隊改變桌布、調整光照、或使用不同形狀的物體時,傳統方法的性能大幅下降,而WoG技術的性能下降相對較小。這說明通過預判訓練,機器人學會了關注真正重要的環境特征,而不是被表面的視覺變化所誤導。

      六、從人類智慧中學習的豐碩成果

      研究團隊深入探索了如何讓機器人從人類操作視頻中學習預判能力,取得了令人鼓舞的成果。他們收集了總計1920小時的人類操作視頻,其中只有220小時帶有詳細的動作標注,其余都是純粹的觀察視頻。

      通過僅使用無標注視頻進行條件預測訓練,機器人在抓取放置任務上的性能從60%提升到70%,同時在面對環境變化時表現出更強的適應性。這個結果特別有意義,因為它證明了機器人可以通過"觀看"大量人類操作來提升自己的預判能力,而無需昂貴的動作標注數據。

      當加入少量帶有動作標注的人類視頻后,效果進一步提升。機器人不僅在基本任務上表現更好,在面對新環境和新物體時也展現出了更強的泛化能力。這就像學生通過觀看大量實際操作視頻培養了直覺,再通過少量精確指導掌握了具體技巧。

      研究團隊還測試了UMI數據的效果。盡管UMI數據采用完全不同的第一人稱視角和動作表示方式,WoG技術依然能夠從中提取有價值的預判知識。在加入120個UMI軌跡后,機器人在抓取放置任務上的成功率從60%躍升到85%,在折疊任務上從60%提升到80%,改進幅度分別達到42%和33%。

      這些結果表明,WoG技術具備了跨模態、跨視角學習的能力。它能夠理解不同操作者、不同視角、不同表示方式下的共同操作邏輯,提取出通用的預判知識。這種能力為機器人從海量網絡視頻中學習操作技能開辟了廣闊前景。

      七、技術架構的巧妙設計

      WoG技術的核心在于一個精心設計的"條件提取器",它就像一個智能的信息過濾系統,能夠從復雜的未來信息中提取出對動作決策真正有用的部分。

      這個系統的輸入端連接著多個預訓練的視覺模型,每個模型都有自己的專長。DINOv2模型擅長理解物體的語義信息,能夠識別"這是什么東西";VAE編碼器專長于捕捉時空變化,能夠理解"東西是怎么動的";SigLIP模型則具備強大的視覺-語言對齊能力,能夠理解指令與視覺場景的對應關系。

      Q-Former組件扮演著"智能編輯"的角色。它使用16個可學習的查詢向量,就像16個專門的"記者",每個都專注于提取特定類型的有用信息。通過交叉注意力機制,這些"記者"從海量的未來信息中篩選出最相關的內容,最終壓縮成32維的緊湊表示。

      在第二階段訓練中,系統使用了一種巧妙的"知識蒸餾"策略。視覺語言模型的最后幾個隱藏狀態被用來預測未來條件,這些隱藏狀態相當于模型的"內在思考過程"。通過訓練這個內在思考過程來匹配外部提供的未來條件,模型逐漸內化了預判能力。

      整個架構的設計哲學體現了"少即是多"的原則。與其試圖預測未來的每一個細節,不如專注于預測那些對當前決策真正重要的信息。這種設計不僅提高了預測準確性,還大大降低了計算復雜度,使得系統能夠實時運行。

      八、與現有技術的深度對比

      WoG技術在機器人學習領域開辟了一條獨特的道路,它巧妙地避開了現有方法的主要缺陷,同時融合了各種方法的優點。

      傳統的視覺-語言-動作模型就像只會"看現在"的近視眼,只能根據當前觀察做出反應。這類方法的代表如π0、OpenVLA等,雖然在簡單任務上表現不錯,但在需要復雜規劃的場景中常常力不從心。WoG技術通過引入未來預判,將這類模型的能力提升到了新的高度。

      世界動作模型試圖通過預測未來的完整視頻來指導動作,但這種方法就像試圖預測明天的每一朵云彩一樣困難且不必要。VPP等方法雖然能夠捕捉環境動態,但預測的視頻往往包含大量與動作無關的細節,不僅計算昂貴,還容易引入噪聲。WoG技術則像一個精明的天氣預報員,只預測對出行決策真正重要的信息。

      潛在動作模型如UniVLA、Moto等試圖通過學習抽象的動作表示來實現跨任務泛化,這種方法就像學習通用的"動作語言"。雖然這種抽象能力很有價值,但往往缺乏執行精細操作所需的具體信息。WoG技術通過條件空間的設計,在保持一定抽象性的同時提供了足夠的執行細節。

      VITA、ViPRA等方法嘗試結合潛在動作建模和未來視頻生成,但這種組合往往導致系統復雜度過高,訓練困難。WoG技術通過專注于條件預測而非完整視頻生成,實現了更好的性能-復雜度平衡。

      在實際對比實驗中,WoG技術在幾乎所有測試任務上都取得了最佳性能。特別是在需要精確軌跡規劃和碰撞避免的任務中,性能提升最為顯著。這證明了未來預判能力確實是提升機器人操作能力的關鍵因素。

      說到底,這項研究讓機器人獲得了類似人類的"預見性思維"能力。就像優秀的運動員能夠預判球的軌跡、圍棋高手能夠看清幾步后的局面一樣,使用WoG技術的機器人也能夠"看到"未來幾秒鐘內環境的關鍵變化,從而做出更加明智的動作選擇。

      這種能力的獲得并非通過復雜的物理建模或大量的計算,而是通過巧妙的學習策略和架構設計。機器人學會了從當前觀察中推斷未來的關鍵信息,這種推斷能力是通過觀察大量操作示例(包括機器人自身的和人類的)而獲得的。

      更重要的是,這項技術為機器人學習開辟了新的可能性。通過從海量人類操作視頻中學習預判能力,機器人可以在不需要昂貴的真實操作數據的情況下獲得豐富的操作經驗。這就像讓機器人通過觀看YouTube上的操作視頻來學習技能,大大降低了訓練成本,提高了學習效率。

      當然,這項技術也還有進一步改進的空間。在某些需要極高空間精度的任務上,僅憑當前的預判能力還不夠,可能需要結合更精細的空間推理機制。在處理高度復雜的多步驟任務時,可能需要更長期的預判能力。但總的來說,WoG技術已經為機器人智能操作奠定了堅實的基礎,為未來更加智能、更加實用的機器人系統鋪平了道路。

      這項研究的意義遠不止于技術本身。它證明了機器人可以通過學習獲得類似人類的直覺和預判能力,這為創造真正智能的機器人助手帶來了希望。在不久的將來,我們或許能看到能夠在復雜家庭環境中自如操作、能夠預判和避免各種問題的家用機器人,它們的行為將更加自然、更加可靠。

      Q&A

      Q1:WoG技術是什么?

      A:WoG(World Guidance)是ByteDance和香港大學開發的機器人技術,讓機器人能夠像人類一樣"預見未來"幾秒鐘內的環境變化,然后根據這些預判信息做出更準確的動作選擇,就像經驗豐富的司機會提前觀察路況來調整駕駛策略一樣。

      Q2:WoG技術和傳統機器人控制有什么區別?

      A:傳統機器人只能根據當前看到的情況做決定,就像近視眼一樣。而WoG技術讓機器人獲得了"預知能力",能提前判斷接下來幾秒內可能發生的變化,從而選擇更好的操作路徑,避免碰撞和失誤。

      Q3:這項技術能應用在日常生活中嗎?

      A:是的,這項技術為更智能的家用機器人奠定了基礎。未來的機器人助手將能夠在復雜的家庭環境中更自然地操作,比如在廚房里避開障礙物精準抓取物品,或者在整理房間時預判物品的移動,表現得更像有經驗的人類助手。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      理查茲談紅點:在老特拉福德,主隊更可能獲得這樣的判罰

      理查茲談紅點:在老特拉福德,主隊更可能獲得這樣的判罰

      懂球帝
      2026-03-02 00:44:14
      快訊!外媒:以軍稱,正在對伊朗彈道導彈陣地和防空系統進行新一輪打擊

      快訊!外媒:以軍稱,正在對伊朗彈道導彈陣地和防空系統進行新一輪打擊

      環球網資訊
      2026-03-01 08:52:08
      美方扶持的4位中國富豪開始露頭了:在華瘋狂撈金,扭頭捐給美國

      美方扶持的4位中國富豪開始露頭了:在華瘋狂撈金,扭頭捐給美國

      古史青云啊
      2026-02-20 16:23:31
      黃巢兵敗被殺,10余名姬妾被俘,唐僖宗報復有多狠?史官都不敢寫

      黃巢兵敗被殺,10余名姬妾被俘,唐僖宗報復有多狠?史官都不敢寫

      掠影后有感
      2026-03-01 10:09:20
      男籃大逆轉賽后更衣室曝光!籃協主席激動哭了:趙睿喜極而泣

      男籃大逆轉賽后更衣室曝光!籃協主席激動哭了:趙睿喜極而泣

      籃球快餐車
      2026-03-02 00:02:07
      “一家子碳水臉!”3個男生寒假伙食遭2.6w圍觀:你家人真好養活

      “一家子碳水臉!”3個男生寒假伙食遭2.6w圍觀:你家人真好養活

      墨印齋
      2026-03-01 22:08:59
      哈梅內伊給所有掌權者,上了最后一課

      哈梅內伊給所有掌權者,上了最后一課

      梳子姐
      2026-03-01 15:14:59
      突發!20名女排球員喪生,伊朗排協損失太大

      突發!20名女排球員喪生,伊朗排協損失太大

      跑者排球視角
      2026-03-01 10:08:21
      穆帥:若證實普雷斯蒂安尼涉嫌歧視那他就離隊;我不會去皇馬

      穆帥:若證實普雷斯蒂安尼涉嫌歧視那他就離隊;我不會去皇馬

      懂球帝
      2026-03-01 20:15:35
      美媒:因芯片含有中國稀土,臺積電無法向美國供應半導體芯片

      美媒:因芯片含有中國稀土,臺積電無法向美國供應半導體芯片

      粵語音樂噴泉
      2026-03-01 13:41:46
      劉濤這大胯真帶勁

      劉濤這大胯真帶勁

      可樂談情感
      2026-03-01 17:36:55
      首發0分他打球拖累全隊!球迷炮轟郭士強選他是錯誤,該選得分王

      首發0分他打球拖累全隊!球迷炮轟郭士強選他是錯誤,該選得分王

      老吳說體育
      2026-03-01 19:21:06
      哈梅內伊四位親屬據稱在襲擊中身亡!伊南部一體育館遭空襲,20名女排球員喪生,伊方:科威特美海軍基地所有基礎設施被摧毀,大量美軍傷亡

      哈梅內伊四位親屬據稱在襲擊中身亡!伊南部一體育館遭空襲,20名女排球員喪生,伊方:科威特美海軍基地所有基礎設施被摧毀,大量美軍傷亡

      每日經濟新聞
      2026-03-01 09:22:18
      上海合作組織秘書處降半旗

      上海合作組織秘書處降半旗

      觀察者網
      2026-03-01 18:14:11
      人民幣匯率大跳水,6.84背后隱藏怎樣的通脹與資產飛漲危機?

      人民幣匯率大跳水,6.84背后隱藏怎樣的通脹與資產飛漲危機?

      奇思妙想生活家
      2026-02-28 19:35:46
      隊長傳射!7.2億豪門2-1逆轉 7輪6勝+11輪不敗 賽季首次躋身前三

      隊長傳射!7.2億豪門2-1逆轉 7輪6勝+11輪不敗 賽季首次躋身前三

      狍子歪解體壇
      2026-03-01 23:58:16
      以色列已經告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

      以色列已經告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

      八斗小先生
      2025-12-26 09:33:27
      女孩用AI問怎么下藥殺人,兩條人命沒了。網友卻說:死者的錯,因為她太美了

      女孩用AI問怎么下藥殺人,兩條人命沒了。網友卻說:死者的錯,因為她太美了

      英國那些事兒
      2026-02-28 23:22:40
      謝賢前女友CoCo直播爆猛料,大談謝霆鋒和張柏芝結婚內幕,太敢說

      謝賢前女友CoCo直播爆猛料,大談謝霆鋒和張柏芝結婚內幕,太敢說

      青梅侃史啊
      2026-02-13 07:29:37
      被加拿大養父母拋棄,回國認親的張云鵬經歷悲慘,親爹媽早已離異

      被加拿大養父母拋棄,回國認親的張云鵬經歷悲慘,親爹媽早已離異

      阿芒娛樂說
      2026-03-01 17:42:16
      2026-03-02 01:11:00
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業世界
      7389文章數 553關注度
      往期回顧 全部

      科技要聞

      榮耀發布機器人手機、折疊屏、人形機器人

      頭條要聞

      媒體:美以能精準"斬首"背后 摩薩德的"手筆"令人咋舌

      頭條要聞

      媒體:美以能精準"斬首"背后 摩薩德的"手筆"令人咋舌

      體育要聞

      火箭輸給熱火:烏度卡又輸斯波教練

      娛樂要聞

      黃景瑜 李雪健坐鎮!38集犯罪大劇來襲

      財經要聞

      中東局勢升級 如何影響A股、黃金和原油

      汽車要聞

      理想汽車2月交付26421輛 歷史累計交付超159萬輛

      態度原創

      時尚
      旅游
      教育
      健康
      本地

      今年春天最流行的4件衛衣,照著穿就很好看

      旅游要聞

      連線滯留巴林的廣州游客:跟媽媽睡酒店大堂,當地持續被轟炸

      教育要聞

      11年,學生平均增高5.52厘米!成都這所小學,登上教育部發布會

      轉頭就暈的耳石癥,能開車上班嗎?

      本地新聞

      津南好·四時總相宜

      無障礙瀏覽 進入關懷版