正在春晚舞臺上的機器人表演《武 BOT》征服了海內外網友,不過機器人還不是真正的武林高手,它 只是執行了一段寫好的程序。
一旦環境里多了一個臺階,或者武臺稍微有點滑,這套「武術」興許立馬就會變成「摔跤」。
不過到明年春晚,可能就不是這樣了。
![]()
同樣是在今年春晚亮相的 銀河通用機器人,最近聯合清華大學、北京大學,以及上海期智研究院和上海人工智能實驗室的聯合團隊,發布了一項具身智能的最新研究視頻,視頻在 X 上快速獲得了一百多萬觀看。
馬斯克看了都在評論區回復 Yeah,認可體育項目的 AlphaGO 時刻正在來臨,Karpathy 更是直呼這是 AI,是 AI 生成的。
![]()
上下滑動查看更多內容,Zhikai Zhang 和 Yunrui Lian 是這項工作的聯合一作,目前是清華交叉信息研究院研究生在讀,
非常有意思的一點是,雖然這個項目來自清華和銀河通用,但他們在現實中大顯身手時,使用的機器人卻是來自宇樹的 G1 人形機器人。
視頻里,宇樹 G1 站在真實的網球場上,雙膝微屈,緊接著一個迅猛的滑步,精準揮拍,將一顆時速超過 15 m/s 的網球死死擊回對手半場。
![]()
就像 Karpathy 說的一樣,這看起來很像一段 AI 生成的仿真視頻,也像是提前寫好腳本的擺拍,但事實是,視頻里的機器人真的在和人類選手進行多回合的拉扯。
一般來說,網球運動中,球速往往在 15-30 m/s 之間,而球與球拍的接觸時間僅僅只有極短的幾毫秒。
球來源的不確定性,讓預先編程動作指令的方式不可行,而球的快速運動,又讓人類帶上 VR 眼鏡實時遙控的方案實效,等我們用 VR 眼鏡看清球的軌跡,再揮動手柄傳達指令,球大概早就飛出界了。
![]()
LATENT 系統,Learns Athletic humanoid TEnnis skills from imperfect human motioN daTa,從不完美的人類運動數據中學習運動型人形網球技能。
也就是說,宇樹 G1 完全是靠自己的 AI 模型在瞬間自主做出的物理決策,在和人類選手打網球。
這項研究可以說是具身智能領域突破性的進展,其中除了宇樹 G1 的硬件能力,更關鍵的是團隊設計的一套名為 LATENT 的訓練系統,這套系統展示了機器人訓練路徑里的新可能:訓練頂級 AI,不一定需要完美無瑕的數據。
論文&項目鏈接: https://zzk273.github.io/LATENT/
逼瘋機器人的「15 平米網球場」
從物理控制的精細度和動態響應的極限上來看,讓機器人打網球,大概比無人駕駛還要難實現。
![]()
傳統的物理 AI,訓練思路都是放在真實環境里「模仿學習」。對于機器人訓練,也就是讓人類穿上全身動捕服,在真實的網球場上打個幾天幾夜,然后把數據喂給 AI,讓機器人照葫蘆畫瓢。
但研究團隊發現這套方案根本行不通。網球場太大了,全身動捕設備在如此大的范圍內、面對如此劇烈的多回合運動,極難捕捉到那些細微且高精度的手腕動作。想要一份「完美」的網球動捕數據,成本相當之高。
于是,LATENT 團隊采取了一種極其討巧,甚至有點反直覺的策略。
他們沒有去租昂貴的標準網球場,而是在一個只有 3m x 5m 的局促空間里搭建了動捕系統,這個面積比真實的網球場小了 17 倍。
在這個小房間里,他們找了 5 位業余網球愛好者,隨性地錄制了 5 個小時的碎片化動作,正手揮拍、反手揮拍、側滑步、交叉步……沒有完整的比賽和復雜的戰術配合,全是一些基礎的網球動作切片。
![]()
將動作捕捉器獲取的動作,生成的球軌跡可視化
研究團隊自己也承認,這些數據是不完美的。一方面因為人類和機器人的身體結構不同,再加上捕捉難度,揮拍時的手腕動作全是誤差,有較大的不精確。
另一方面,這些動作切片根本沒有教機器人「如何在合適的時機使用這些動作去贏下一球」,算不上一套完整的訓練數據。
告別完美數據崇拜
就是拿著這樣一套數據,LATENT 系統是怎么教會視頻里的宇樹 G1 打網球的。
問題的核心,在于 LATENT 的控制架構。首先是「手腕動作解耦」,即將兩種運動分開處理,既然動捕數據里的手腕動作都是錯的,那就干脆不要了。
在訓練底層追蹤器時,研究人員直接移除了控制右手腕(拿球拍那只手)的信號,甚至還故意給手腕加上隨機的干擾力。這樣一來,底層系統就學會了無論手腕怎么晃,我的下半身都要保持絕對的平衡和敏捷。
接著是高層策略網絡,它會同時下達兩道命令:一道給身體,負責漂亮的跑位;另一道直接接管右手腕,負責精準的擊球微調。
![]()
機器人網球對打仿真環境
之前 5 個小時破碎的動作數據,被提煉成了一本「人類網球動作大字典(潛在動作空間)」。現在的高層策略網絡就像查字典一樣,遇到什么飛球,就在字典里翻找合適的滑步或揮拍動作拼湊起來去接球。
但 AI 為了贏球是不擇手段的。具體來說,如果我們只給機器人定一個「把球打回去」的目標,它為了得分,可能會在那本字典里,把滑步和跳躍強行結合,跑動中瘋狂切換不同的動作,呈現出一種極其詭異、抽搐的鬼畜步法。
為了保證機器人的動作像人類一樣優雅自然,團隊設計了一個名為「潛在動作屏障(LAB)」的機制。這就好比給 AI 畫了一個無形的圈,允許你在圈內自由探索擊球策略,但無法做出一些不符合物理規律的動作。
這套系統在模擬器上的表現也很不錯,正手接球成功率 96.52%,反手高達 82.10%,前場和后場覆蓋率分別達到 86.35% 和 89.80%。
![]()
實驗結果對比,經典方法 PPO 和 MotionVAE 在這項任務上完全失效。其中 SR(Success Rate 成功率),越高越好,代表機器人能不能把球成功打回目標區域。DE(Distance Error,距離誤差)越低越好,代表球落地的位置離目標點有多近,也就是打得準不準。Smth(平滑度),越低越好,測量的是關節加速度。數值越低,說明機器人的動作越像人類一樣自然絲滑,而不是在原地鬼畜抽搐 。Torque(關節扭矩),越低越好,代表機器人發了多大的力。數值低意味著它懂得如何發力,這能幫助機器人省電且不傷電機。
在模擬器里打得再好,那也是紙上談兵。真到了現實世界,一陣微風、一點球拍的重量誤差,都有可能讓機器人當場摔個狗啃泥。
為了完成這驚險的從模擬到現實,研究團隊在模擬器里設置了大量的「動態隨機化」,例如隨機改變機器人的質量和重力中心,隨機改變網球的質量、彈跳系數,甚至給球加上隨機的空氣阻力等。
更有意思的是,現實中捕捉高速網球的攝像頭總會有延遲和噪點。為了應對這種情況,團隊在系統中引入了「觀察噪聲」,系統不看球的瞬時速度,而是利用一個四幀的滑動窗口來計算平均速度,從而過濾掉延遲的觀測誤差。
在純模擬環境的「左右互搏」中,兩臺機器人甚至能連續對拉 25 個回合。
![]()
模擬不同的球擊事件
在真實的測試中,Unitree G1 走上真實球場的那一刻,一切都顯得游刃有余。面對隨機位置、隨機速度的發球,這臺機器人能夠熟練運用正反手,靈活在前后場穿梭,穩穩地將球回到對手半場。
![]()
真實場景實驗結果,研究進行了 20 場連續的人機對抗賽,來評估 LATENT 系統在真實網球比賽中的回球性能,每場比賽中球的初始位置和速度都是隨機的。對于每個成功回球,會記錄其落點位置,將其歸類為前場或后場區域,并分析正手和反手擊球的使用情況。
需要注意的是,在真實環境的測試中,LATENT 并不是靠調用機器人頭部自帶的視覺傳感器,來判斷球的位置。這臺機器人高度需要場地里的「光學動作捕捉系統」。
他們在機器人的底座上貼滿了反光標記,把底座當成一個剛體,通過場館里的動捕系統來實時估算它在全局的三維 6D 姿態。以及網球也裹上了反光貼紙,它的空間位置和飛行軌跡能被外部的光學系統來捕捉,然后再把數據喂給機器人的 AI 大腦。
團隊也提到,下一步的改進方向就是引入主動視覺,讓機器人真正用自己的「眼睛」,去死死盯住那顆時速 15 米/秒的網球,還有多智能體訓練框架。
雖然可以像無人駕駛一樣,用雷達、各種傳感器和攝像頭的冗余來填補準確的底線;但人形機器人在高動態的體育競技場上,或許只能選擇給自己減負。
![]()
不敢說今天它能在網球場上贏分,明天就能走進千家萬戶,去應對那些充滿未知與混亂的真實生活場景。但是這種粗糙的、片段化的、充滿噪音的廉價數據,現在也能訓練出一個像是自動駕駛般的網球機器人,進入生活或許真的不會太遠。
有網友說,類似這樣的技術最后可能會讓網球訓練變得更便宜、更普及。一些美國頂尖青少年網球選手的家庭每年可能要花費 10 萬美元,用于一對一的教練指導。
有了這套系統,其中一部分訓練可以實現自動化,尤其是用于重復性的基本技能練習,就像新一代的網球發球機一樣。
還有網友評論說,所以就連體力勞動現在也要完蛋了嗎……
未來,如果機器人真能進軍所有的體育項目,奧運會大概是這個樣子。
![]()
圖片來源:X@AbundanceVsWar
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.