網易首頁 > 網易號 > 正文申請入駐

春晚機器人再次刷屏海外！聯手清華用5小時學會打網球，馬斯克點贊Karpathy直呼是AI

2026-03-17 17:44:03　來源: AppSo

廣東舉報

分享至

正在春晚舞臺上的機器人表演《武 BOT》征服了海內外網友，不過機器人還不是真正的武林高手，它只是執行了一段寫好的程序。

一旦環境里多了一個臺階，或者武臺稍微有點滑，這套「武術」興許立馬就會變成「摔跤」。

不過到明年春晚，可能就不是這樣了。

同樣是在今年春晚亮相的銀河通用機器人，最近聯合清華大學、北京大學，以及上海期智研究院和上海人工智能實驗室的聯合團隊，發布了一項具身智能的最新研究視頻，視頻在 X 上快速獲得了一百多萬觀看。

馬斯克看了都在評論區回復 Yeah，認可體育項目的 AlphaGO 時刻正在來臨，Karpathy 更是直呼這是 AI，是 AI 生成的。

上下滑動查看更多內容，Zhikai Zhang 和 Yunrui Lian 是這項工作的聯合一作，目前是清華交叉信息研究院研究生在讀，

非常有意思的一點是，雖然這個項目來自清華和銀河通用，但他們在現實中大顯身手時，使用的機器人卻是來自宇樹的 G1 人形機器人。

視頻里，宇樹 G1 站在真實的網球場上，雙膝微屈，緊接著一個迅猛的滑步，精準揮拍，將一顆時速超過 15 m/s 的網球死死擊回對手半場。

就像 Karpathy 說的一樣，這看起來很像一段 AI 生成的仿真視頻，也像是提前寫好腳本的擺拍，但事實是，視頻里的機器人真的在和人類選手進行多回合的拉扯。

一般來說，網球運動中，球速往往在 15-30 m/s 之間，而球與球拍的接觸時間僅僅只有極短的幾毫秒。

球來源的不確定性，讓預先編程動作指令的方式不可行，而球的快速運動，又讓人類帶上 VR 眼鏡實時遙控的方案實效，等我們用 VR 眼鏡看清球的軌跡，再揮動手柄傳達指令，球大概早就飛出界了。

LATENT 系統，Learns Athletic humanoid TEnnis skills from imperfect human motioN daTa，從不完美的人類運動數據中學習運動型人形網球技能。

也就是說，宇樹 G1 完全是靠自己的 AI 模型在瞬間自主做出的物理決策，在和人類選手打網球。

這項研究可以說是具身智能領域突破性的進展，其中除了宇樹 G1 的硬件能力，更關鍵的是團隊設計的一套名為 LATENT 的訓練系統，這套系統展示了機器人訓練路徑里的新可能：訓練頂級 AI，不一定需要完美無瑕的數據。

論文&項目鏈接： https://zzk273.github.io/LATENT/

逼瘋機器人的「15 平米網球場」

從物理控制的精細度和動態響應的極限上來看，讓機器人打網球，大概比無人駕駛還要難實現。

傳統的物理 AI，訓練思路都是放在真實環境里「模仿學習」。對于機器人訓練，也就是讓人類穿上全身動捕服，在真實的網球場上打個幾天幾夜，然后把數據喂給 AI，讓機器人照葫蘆畫瓢。

但研究團隊發現這套方案根本行不通。網球場太大了，全身動捕設備在如此大的范圍內、面對如此劇烈的多回合運動，極難捕捉到那些細微且高精度的手腕動作。想要一份「完美」的網球動捕數據，成本相當之高。

于是，LATENT 團隊采取了一種極其討巧，甚至有點反直覺的策略。

他們沒有去租昂貴的標準網球場，而是在一個只有 3m x 5m 的局促空間里搭建了動捕系統，這個面積比真實的網球場小了 17 倍。

在這個小房間里，他們找了 5 位業余網球愛好者，隨性地錄制了 5 個小時的碎片化動作，正手揮拍、反手揮拍、側滑步、交叉步……沒有完整的比賽和復雜的戰術配合，全是一些基礎的網球動作切片。

將動作捕捉器獲取的動作，生成的球軌跡可視化

研究團隊自己也承認，這些數據是不完美的。一方面因為人類和機器人的身體結構不同，再加上捕捉難度，揮拍時的手腕動作全是誤差，有較大的不精確。

另一方面，這些動作切片根本沒有教機器人「如何在合適的時機使用這些動作去贏下一球」，算不上一套完整的訓練數據。

告別完美數據崇拜

就是拿著這樣一套數據，LATENT 系統是怎么教會視頻里的宇樹 G1 打網球的。

問題的核心，在于 LATENT 的控制架構。首先是「手腕動作解耦」，即將兩種運動分開處理，既然動捕數據里的手腕動作都是錯的，那就干脆不要了。

在訓練底層追蹤器時，研究人員直接移除了控制右手腕（拿球拍那只手）的信號，甚至還故意給手腕加上隨機的干擾力。這樣一來，底層系統就學會了無論手腕怎么晃，我的下半身都要保持絕對的平衡和敏捷。

接著是高層策略網絡，它會同時下達兩道命令：一道給身體，負責漂亮的跑位；另一道直接接管右手腕，負責精準的擊球微調。

機器人網球對打仿真環境

之前 5 個小時破碎的動作數據，被提煉成了一本「人類網球動作大字典（潛在動作空間）」。現在的高層策略網絡就像查字典一樣，遇到什么飛球，就在字典里翻找合適的滑步或揮拍動作拼湊起來去接球。

但 AI 為了贏球是不擇手段的。具體來說，如果我們只給機器人定一個「把球打回去」的目標，它為了得分，可能會在那本字典里，把滑步和跳躍強行結合，跑動中瘋狂切換不同的動作，呈現出一種極其詭異、抽搐的鬼畜步法。

為了保證機器人的動作像人類一樣優雅自然，團隊設計了一個名為「潛在動作屏障（LAB）」的機制。這就好比給 AI 畫了一個無形的圈，允許你在圈內自由探索擊球策略，但無法做出一些不符合物理規律的動作。

這套系統在模擬器上的表現也很不錯，正手接球成功率 96.52%，反手高達 82.10%，前場和后場覆蓋率分別達到 86.35% 和 89.80%。

實驗結果對比，經典方法 PPO 和 MotionVAE 在這項任務上完全失效。其中 SR（Success Rate 成功率），越高越好，代表機器人能不能把球成功打回目標區域。DE（Distance Error，距離誤差）越低越好，代表球落地的位置離目標點有多近，也就是打得準不準。Smth（平滑度），越低越好，測量的是關節加速度。數值越低，說明機器人的動作越像人類一樣自然絲滑，而不是在原地鬼畜抽搐。Torque（關節扭矩），越低越好，代表機器人發了多大的力。數值低意味著它懂得如何發力，這能幫助機器人省電且不傷電機。

在模擬器里打得再好，那也是紙上談兵。真到了現實世界，一陣微風、一點球拍的重量誤差，都有可能讓機器人當場摔個狗啃泥。

為了完成這驚險的從模擬到現實，研究團隊在模擬器里設置了大量的「動態隨機化」，例如隨機改變機器人的質量和重力中心，隨機改變網球的質量、彈跳系數，甚至給球加上隨機的空氣阻力等。

更有意思的是，現實中捕捉高速網球的攝像頭總會有延遲和噪點。為了應對這種情況，團隊在系統中引入了「觀察噪聲」，系統不看球的瞬時速度，而是利用一個四幀的滑動窗口來計算平均速度，從而過濾掉延遲的觀測誤差。

在純模擬環境的「左右互搏」中，兩臺機器人甚至能連續對拉 25 個回合。

模擬不同的球擊事件

在真實的測試中，Unitree G1 走上真實球場的那一刻，一切都顯得游刃有余。面對隨機位置、隨機速度的發球，這臺機器人能夠熟練運用正反手，靈活在前后場穿梭，穩穩地將球回到對手半場。

真實場景實驗結果，研究進行了 20 場連續的人機對抗賽，來評估 LATENT 系統在真實網球比賽中的回球性能，每場比賽中球的初始位置和速度都是隨機的。對于每個成功回球，會記錄其落點位置，將其歸類為前場或后場區域，并分析正手和反手擊球的使用情況。

需要注意的是，在真實環境的測試中，LATENT 并不是靠調用機器人頭部自帶的視覺傳感器，來判斷球的位置。這臺機器人高度需要場地里的「光學動作捕捉系統」。

他們在機器人的底座上貼滿了反光標記，把底座當成一個剛體，通過場館里的動捕系統來實時估算它在全局的三維 6D 姿態。以及網球也裹上了反光貼紙，它的空間位置和飛行軌跡能被外部的光學系統來捕捉，然后再把數據喂給機器人的 AI 大腦。

團隊也提到，下一步的改進方向就是引入主動視覺，讓機器人真正用自己的「眼睛」，去死死盯住那顆時速 15 米/秒的網球，還有多智能體訓練框架。

雖然可以像無人駕駛一樣，用雷達、各種傳感器和攝像頭的冗余來填補準確的底線；但人形機器人在高動態的體育競技場上，或許只能選擇給自己減負。

不敢說今天它能在網球場上贏分，明天就能走進千家萬戶，去應對那些充滿未知與混亂的真實生活場景。但是這種粗糙的、片段化的、充滿噪音的廉價數據，現在也能訓練出一個像是自動駕駛般的網球機器人，進入生活或許真的不會太遠。

有網友說，類似這樣的技術最后可能會讓網球訓練變得更便宜、更普及。一些美國頂尖青少年網球選手的家庭每年可能要花費 10 萬美元，用于一對一的教練指導。

有了這套系統，其中一部分訓練可以實現自動化，尤其是用于重復性的基本技能練習，就像新一代的網球發球機一樣。

還有網友評論說，所以就連體力勞動現在也要完蛋了嗎……

未來，如果機器人真能進軍所有的體育項目，奧運會大概是這個樣子。

圖片來源：X@AbundanceVsWar

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.