<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      站在內容創作者與機器人的交界處:聊聊3D數字人的進化

      0
      分享至

      (點擊收聽本期音頻)


      采訪|泓君

      圖文|朱婕

      在人工智能的浪潮里,3D數字人正在悄然改變著我們內容創作和互動的方式。你或許已經發現,數字人主播和虛擬偶像們,看起來越來越流暢自然了。這背后是一場數字人的技術革命:如今的3D數字人不再是那個表情略顯僵硬、只能按預設腳本運行的“木偶”;它們能夠根據指令,實時地生成豐富的語音、精準的表情,協調的肢體動作,并且成本變得可被接受。

      進化的數字人,不僅活躍在當下的直播間和客服中心,未來更將在3A級游戲和影視工業領域大展拳腳。然而你可能不知道的是,3D數字人濫觴于機器人領域。在計算機圖形學與機器人學之間,存在著一道打通虛擬與現實的“旋轉門”,幾十年來不斷有學者穿越這道門走向另一端去尋求突破之道。

      過去,研究者們用驅動機器人的方式,驅動虛擬世界中的數字人;如今,數字人所積累的經驗,又反過來幫助機器人去理解物理世界的錯綜復雜。

      本期《硅谷101》,主播泓君邀請了魔琺科技創始人兼CEO 柴金祥教授 。柴教授從2000年左右便在卡內基梅隆大學機器人研究所投身3D數字人研究,已經從事該領域二十余年。泓君與柴教授深入聊了3D數字人的前世今生,它取得了哪些突破性的進展,又面臨著哪些挑戰,以及數字人的數據和模型是如何加速具身智能進化的。


      歡迎關注《硅谷101視頻號》的音頻欄接收聽本期播客如 果 你喜歡我們的 節目,更推 薦大家使用 音頻客戶端來收聽,《硅谷101 》已覆蓋各大 主流音頻 平臺(渠道見文末),歡迎訂閱!

      以下是這次對話內容的精選:

      01

      數字人:下一代內容生產者

      泓君:前幾天,硅谷大家都在關注Sora2,好像每個人都會拿它去做一段Demo,包括我們前幾天剛剛開了《硅谷101》的科技大會,我們就生成了一段讓Sam Altman幫我們去宣傳我們大會的Sora2的視頻。看起來他在屏幕里面的形象就是一個比較數字人的形象,這個對你們的業務會有影響嗎?

      柴金祥:我覺得Sora2相比Sora1,進步是蠻大的,Sora1還是以風景為主,Sora2主要的形態是以人為中心的,可以讓視頻里的人做各種各樣的事情。我也大概用了一下,第一個感覺,視頻生成現在還是10秒鐘的時間,還是沒有跳出被時間的限制文生視頻。第二個點其實也特別重要,就是物理上的一致性,基本上大家看刷屏的時候很多效果其實還是蠻好的,但你真正自己做的時候還是有很多瑕疵。

      泓君:問題太多了。它那個視頻里面有皮卡丘跟一個唐老鴨在總統競選的一段辯論,可以在原視頻上改,我就說把這個辯論變成一個在《硅谷101》上關于AGI的辯論,我們活動的主題是“Alignment2025”,但你仔細去看的話,它后面的Alignment那個字就是錯的,就開始亂碼了。

      柴金祥:對。創作者除了生成視頻,還需要能修正錯誤、調整細節,這能力它還沒有。更重要的是,它無法精細控制人的動作和表情。不過,Sora2第一次讓人看到了用大模型驅動人物多樣動作的可能性。

      我們做的是3D數字人,如果最終目標是讓人能交流、跳舞、娛樂,那大模型會是什么形態?訓練數據又是什么?Sora2說它用所有視頻作為訓練數據。最近Genie3出來,是3D的生成,給你一種交互型的感覺是吧?但它不是人,它是關于場景相關的。

      我們覺得,最終可能需要2D+3D的訓練技術結合,我們希望生成的人沒有10秒限制、沒有瑕疵、物理準確、可控制、實時且成本低。所以我們除了3D訓練數據,也開始結合大量視頻數據來訓練大模型,提升數字人的表達力。視頻數據如果模型做得好,是有生成能力的。


      圖片來源:Sora2

      泓君:我簡單總結一下:Sora2是文生視頻,你們是文生3D這個3D它可以是在VR領域里面進行展示的,比如說我戴著一個VR頭盔,我可以360度地去看到這個人。

      柴金祥:是,就是2D和3D的區別。Sora2是文生2D視頻。3D放在VR/AR里,就跟現實一樣。3D還有一個好處,它能控制,就像人一樣,你讓它怎么動就怎么動。但2D在像素層面,要對它進行動作、表情的精準控制,會比較難。

      泓君:我看到很多公司展廳屏幕上的數字人是你們做的,有一點我可能很難區分,假設我進到一個展廳,看到一個屏幕上的非常立體的數字人,它有動作、聲音、表情,跟我看到Sam Altman在一個視頻里的數字人,除了時長的區別,它在核心的技術上它的區別是什么呢?

      柴金祥:第一個區別是,屏幕上這個數字人是人機交流的載體,人跟機器交流的時候,其實你是實時互動的,我們希望端對端延時一般要小于2秒或1.5秒,不能像生成視頻等10分鐘、5分鐘。

      第二個區別是,當你用文生視頻去做的時候,手指是個特別難的事情,經常多一根或少一截,但如果是展廳里,數字人為你講解產品,你肯定是不希望這個體驗很差的,它的動作不能有瑕疵,物理上要準確,表情、動作要一致。

      最后一個區別,把3D數字人部署在終端上,成本不能終端屏幕可能就一萬人民幣,如果生成視頻交互了20分鐘,即使它能實時做,一年放在那也得花很多錢,長期也負擔不起。但從Sora2文生視頻的角度來說,這個成本它是不能scale up的。

      泓君:它的成本是多高?用你們的這個成本是多高?為什么成本之間會有這樣的一個差距?

      柴金祥:我不一定能給具體數字,但可以告訴你一個量級:與大模型做的語音合成相比,我們的成本可能是幾十分之一。這里核心是2D和3D的區別。3D描述人的動作表情,只需要幾百個參數,人的肌肉可能就是大幾百塊,你只要去控制一些肌肉就可以了。下一步是用3D渲染把3D內容變成視頻,還有3D解算,包括頭發、衣服的物理解算。如果用AI做渲染和解算,成本就主要是生成這幾百個參數的成本,和大模型生成Token一樣,所以它的成本就非常非常低。文生視頻沒有結構化信息,全是像素,推理和生產成本就會非常非常高。

      泓君:所以你們能把成本降下來,是因為有一個自己的端模型,可以這樣理解嗎?

      柴金祥:是的,我們有一個把文本變成3D多模態表達能力的模型。從文本生成語音、表情、動作、手勢的參數,傳到終端屏幕上,我們用AI渲染和解算,把它變成視頻。AI渲染對終端算力要求極低,現在用國內幾百塊錢的芯片,比如瑞芯微的RK3566,我們在端上就可以跑了。

      泓君:比如說它要跟人做實時互動跟問答,這種還是在端模型上,還是說你后面除了你自己的這個端模型,在表達的內容上你會去接大模型?

      柴金祥:好問題。人和數字人交流需要兩個模型:一個像ChatGPT的多模態到文本模型,現在你ChatGPT的話,你可以輸入聲音、圖片,它最后輸出文字。

      另一個是從文本到3D多模態的模型,我們做的是文字到3D多模態輸出,輸出語音、姿態、動作、表情、手勢,讓生成的數字人更像真人交互,

      我們有自己垂域的大模型,也可以接國內千問、DeepSeek、豆包等模型,形成端對端的人與數字人像真人一樣的交流體驗。

      泓君:所以你們從多模態到文本可以利用大模型,從文本到多模態是自己的端模型。


      圖片來源:魔琺星云-具身智能數字人開放平臺

      柴金祥:我們叫它“文生3D多模態大模型”。

      泓君:這已經是一個產品“星云平臺”,可以發布了嗎?

      柴金祥:是的,我們10月發布,現在在測試。有幾百個B端企業客戶在測試,有的已付費。我們預計兩周后發布我們這個文生3D多模態模型。因為我們自己在做的過程做了很長很長時間,從我20多年前讀研開始做,花了很多精力。我們希望大家不要重復造輪子,能夠把能力提供給所有開發者,集成到他們的應用中去。

      泓君:了解。我覺得很有意思的一點就是,隨著星云平臺發布,你們從3D數字人公司變成了3D數字人平臺公司,我這樣理解是對的嗎?

      柴金祥:差不多,對,是的。

      泓君:之前在NVIDIA發布會上,黃仁勛很自豪地說“你看到的我不是真的我”,他坐在一個壁爐前,是一個虛擬3D數字人在跟大家介紹,渲染得非常非常真實。他經常用他自己的虛擬人去講他們的顯卡性能有多強大,他那個成本大概有多少?

      柴金祥:這個成本蠻高的。他做的其實還是視頻輸出,如果造一個老黃這樣的虛擬人,需要研發團隊配合美術團隊,在美國找頂尖的美術團隊做,成本大概10萬美金左右,做到發布會那種逼真效果。

      這還只是造出這個人,做視頻可能要按秒算成本。這屬于專業級內容生產,還沒到人人可用的階段。


      圖片來源:NVIDIA Blog

      泓君:對,每次去游戲展會感受明顯,大家怎么去造那個3D數字人。以前造3D數字人,是讓演員穿動作捕捉服,用環形攝像機拍每個部位,再建模,一步一步地把它還原出來。這是好萊塢或游戲公司常用的方式吧?

      柴金祥:對,專業級造人包括3A游戲公司和好萊塢,比如Avatar,或老黃的數字人。整體來說它是兩部分的東西。

      第一部分是造人,一般叫掃描,用很多相機,你坐在那,做各種表情,把人的幾何形狀和表面紋理重建出來,包括肌肉,學術上叫建模和綁定。

      第二是讓它動起來,穿動捕服,用相機捕捉動作,驅動剛才造的那個人,用渲染引擎輸出視頻。

      整個過程從建模綁定到動畫再到輸出視頻,都非常昂貴。

      泓君:這是大模型之前,好萊塢和游戲公司常用的方式。現在有了模型,這套方式還是主流嗎?還是說他們其實也在探索能不能用3D直接去生成人?

      柴金祥:這問題特別好。3D內容的AI化取決于兩件事:高質量數據,和AI算法能否對3D內容做大模型。

      咱們今天看到了,所有的影視動畫和游戲公司,擅長做內容,把美術和3D模型做得很逼真,但絕大部分AI能力缺乏,因為他們和互聯網、科技公司是兩條線,交叉很少。他們當然想擁抱AI,但能力欠缺。

      AI公司算法強,但其實是沒有數據的。3D內容必須先有大量高質量3D數據才能做大模型,這是他們的目標,但現在兩個行業沒有交叉。

      泓君:大模型公司缺好萊塢的數據,好萊塢制作公司缺AI算法,可以這樣理解嗎?

      祥:是,基本是這樣。

      泓君但我看也有公司開始嘗試。你們在AI浪潮之前,做數字人和積累數據也很久了吧?

      柴金祥:是的,我們2018年成立,最初為B端公司,如游戲、影視、動畫、或做3D虛擬偶像的公司,提供3D內容制作,用AI+美術一起來提升效率和質量。在這個過程中當然AI的能力也在提升,但大家都要突破的點是3D內容的高質量數據。沒有數據,AI算法再厲害也沒法干。

      泓君:從2018年到2025年,你們大概積累了多少數據?可以透露嗎?

      柴金祥:拿動畫數據來說,前面我們為企業服務,后來我們自己來做了些動畫數據。現在3D高質量動畫數據,我們有1000多個小時。這個數據可能跟視頻的數據或者文本的數據來講是小的,但如果考慮到成本,高質量的人臉動畫、手勢、表情等動畫數據,一秒鐘成本至少1000人民幣左右。在國內成本高是一方面,另外你還得找到團隊有非常強的能力把質量做得這么高,所以這個數據量是很難在短時間內積累起來的。

      泓君:很有意思,所以數據是你能訓練成這樣的一個模型的一個核心要素。

      柴金祥:我覺得數據是最核心的。如果沒有數據,其他任何研發都沒法做。除了剛才講到的3D數據,我們也有其他的視頻數據。這些是純粹的視頻數據,比如有人在走路也好,有人在跟人交流也好,它沒有3D信息,但我們開始把這兩者融合起來去做模型的訓練。

      02

      虛實之間誕生的“雙生學科”

      泓君你當初為什么會選擇進入3D數字人這個領域?

      我2000年去卡內基梅隆大學(CMU)讀博士,在機器人研究所做的就是這個方向。我的博士論文就是關于如何創建一個可交互的3D數字人,以及如何用AI去做動畫。我們團隊應該是世界上最早用AI做動畫的,因為也剛湊巧,2000年左右運動捕捉技術出現了,有了動畫數據就可以做AI了。從那時起,我就專注于3D動畫和數字人。2006年畢業去德州農工大學(Texas A&M)當教授,也一直做這個方向。那時動畫研究屬于圖形學領域,是專門為影視動畫公司游戲公司這個行業服務的。那時候我們發表了很多論文,全是關于3D數字人跟3D動畫相關的。到2018年創業,我也繼續做這件事,所以我在這個領域堅持了二十多年了。

      泓君:我知道您的博士導師是杰西卡·霍奇斯(Jessica Hodgins),她主要研究人形機器人和3D數字動畫。而且她的博士生導師是馬克·雷伯特(Marc Raibert),是波士頓動力(Boston Dynamic)的創始人,現在最有名的機器人公司,也是特別早的一家機器人公司。所以看起來整個的3D生成它最開始的應用就是在好萊塢領域的。

      柴金祥:我導師杰西卡·霍奇斯,她也是卡內基梅隆大學1989年博士畢業,她在讀博時是做機器人的。當時的人形機器人只有“單腳”,因為雙足平衡太難了。她那時候是用物理運動控制動力學的方式,控制機器人走跑跳。

      她畢業后,很奇怪地,進到的方向是圖形學和動畫領域,她的想法是:既然能在現實世界控制機器人運動,是否能用同樣方法驅動虛擬世界的3D數字人?

      她是全世界第一個用物理運動控制方法做數字人動畫的學者。她在佐治亞理工學院(Georgia Tech)做教授,基于物理的仿真跟控制做動畫,然后2000年她回到CMU任教,2000年動畫數據慢慢有了剛才講的運動捕捉的出現。我就是她在卡梅帶的最早的博士。我們是那時候是最早用AI做動畫的。后來大家發覺得,這個動畫用AI做挺好的,反過來是不是還能去做Robotics這個行業?

      現在大家可能知道的很多做Robotics做很厲害的人,其實以前都是做動畫的。比如PI(Physical Intelligence)聯合創始人、伯克利教授Sergey Levine,但你肯定都不知道,他是在斯坦福拿的博士學位,并且他是用物理的方式,用運動控制動力學的方式來做動畫的。他畢業了以后說,我這個能做動畫,我也能做機器人,他后來當教授的時候就是開始做機器人。

      泓君:難怪PI他們的核心思路是解決機器人的“大腦”問題,就是軟件層的問題,他就是希望通過模型層來指揮機器人,我覺得這個跟他最開始不是從硬件研究開始的,而是用機器人去做動畫,聽起來是一脈相承的。


      圖片來源:PI

      柴金祥:的確是的。再舉一個例子,我還有一個好朋友Karen Liu,她現在在斯坦福當教授,以前是在佐治亞理工學院(Georgia Tech)當教授,她同時做Animation和Robotics。

      我們那批做動畫的人,后來很多都轉向機器人領域,因為這兩個領域高度相通——都是驅動“人”,一個在虛擬世界,一個在物理世界。動畫相對更容易入手,因為機器人是有本體的,你搭個硬件就老半天。另外現實世界受很多限制,比如重力、房間限制、機器人硬件限制。動畫實際上沒有這些限制。所以那時候很多做物理的人開始做動畫。

      動畫這方面也分成幾派,一派用物理方法做,Jessica肯定是其中之一。還有CMU的Michiel van de Panne,他是我博士委員會成員,一直做Controller、運動控制。那時候做動畫的中心也在卡內基梅隆大學。Karen Liu的導師Zoran Popovi?也是卡梅畢業的。當時做動畫的學者很少,國內基本沒人做,歐洲也沒人,主要集中在美國兩三個研究組。

      后來動畫有個大飛躍是從2000年,運動捕捉有了數據后,大家慢慢開始用AI做。那時比較早的,現在叫強化學習,我記得最早的動畫論文是2004年還是2005年就用強化學習做動畫。虛擬世界與實際世界的底層運動控制邏輯非常相似,都屬于“小腦”范疇的動作規劃與運動控制。如今新興的VLA模型則更偏向“大腦”層面。

      泓君:很有意思。我們討論好萊塢技術時,常有聽眾問為什么科技節目關注電影工業。其實好萊塢一直是推動技術發展的重要力量,許多AI技術最早都應用于電影制作。你們有沒有想過,把你們的3D數字人產品用于好萊塢造人?比如用生成式技術讓靜態演員動起來,這可能對傳統制作方式形成“降維打擊”。

      柴金祥:這里面涉及幾個關鍵點:質量、成本和應用場景。好萊塢質量可能最高的,再往下是3A級游戲,再往下是生活中一些交互比較簡單的場景。如果你要做好萊塢方向,它的高保真、質量可能特別重要,他們可以等100個小時、200個小時,花更多錢等你的高質量。但在實時交互里,可能等不了那么多時間,要馬上看到結果能夠交互,質量上不一定要像好萊塢那么高。

      泓君:但是可以做好萊塢IP的衍生。

      柴金祥:對,衍生品肯定可以,但需要更高質量的3D數據來做AI大模型。這塊在我們自己的行進路徑上,有先后順序,對我們自己來說,可能先運用到日常生活中,比如交互、服務、陪伴,再到游戲,再到好萊塢。因為難度來說,好萊塢如果要做到那個水平,難度很高很高,質量要很高,能生產這種高質量數據的人,全世界可能就沒幾個。

      03

      AI渲染結算帶來的成本革命

      泓君:問一個稍稍敏感的問題,你可以選擇不答。你們現在把API接口開放出去,肯定有基礎接入成本。你覺得這個模式能賺錢嗎?

      柴金祥:這肯定能。因為在正式發布平臺之前,我們已經有了B端客戶。在國內做AI公司,商業上的賬必須算得過來,除非你是字節、阿里、騰訊那樣的大廠。所以這里面有一個核心點,也是我們過去半年最大的突破。半年前我們的交互能力和API就做好了,但那時成本非常高。當時服務一個數字人需要一張顯卡,成本差不多兩三萬。很多B端客戶來問,一聽到這個價格就不用了。


      圖片來源:魔琺科技

      泓君:這個成本是怎么降下來的?

      柴金祥:因為我們是3D內容,所有影視動畫公司、游戲公司都逃不開一點——必須要有渲染引擎和解算引擎。

      泓君:這個我太懂了,我們做視頻,渲染真的太耗時間了。

      柴金祥:對。如果要支持3D內容實時交互,每一路都需要一張顯卡負責渲染和解算。我們當時用了可能最好的Unreal引擎,但成本就擺在那里。我們一直在想,如果不解決這張顯卡的成本問題,談應用落地根本不可能,無論是展廳大屏、手機還是平板上都用不起。

      我原本覺得這個問題很難解決,但技術有時很奇妙,我們突然想到了一個方法。很幸運地,我們用AI技術完成了渲染和解算,不再需要傳統的渲染引擎和昂貴的顯卡。現在在非常便宜的終端芯片上,一兩百、兩三百塊錢的,就能跑起來。

      泓君:所以你們用端到端的AI模型,解決了渲染問題。

      柴金祥:渲染只是其中一部分。完整流程分兩步:第一步是用模型從文本生成語音和3D表情、動作的參數;第二步是把這些參數通過AI渲染和解算轉換成實時視頻。這樣整體成本比語音生成還要低。

      泓君:如果你們真能做到大幅降低渲染成本,這次的生成式AI技術會對Unreal這樣的游戲引擎公司造成沖擊嗎?對NVIDIA可能就是一個左手跟右手的關系。

      柴金祥:對Unreal不一定是好事,我認為對游戲公司來說更多是機會。現在3A級游戲都需要云端有顯卡,或者手機上得有比較強的算力,不然玩起來會發燙。如果將來能用AI方式解決渲染和解算,不需要引擎和顯卡就能玩游戲,那游戲就能無處不在。或者將來真正實現元宇宙時,虛擬世界的參與成本也許會變得很低很低。

      泓君:現在用AI方式解決渲染問題,質量能達到傳統游戲引擎的水平嗎?大概到了一個什么樣的進度位?

      柴金祥:在我們這個特定應用場景下,質量基本一樣。因為我們的訓練數據就是用最高質量的游戲引擎渲染的,AI模型是在大量數據基礎上逼近原來的效果。我們做過并列對比(Side-by-Side Comparison),左邊是游戲引擎渲染,右邊是AI渲染,沒有一個人能看出左右之間的區別。


      圖片來源:Unreal

      泓君:這非常顛覆。如果我們綜合評估你們模型的能力,你覺得最強的一點是什么?比如現在看2D視頻渲染,最大的痛點可能是口型對不上、眼神空洞,這種虛假感。你們在將3D數字人應用到不同行業時,遇到的最大痛點是什么?怎么解決的?

      柴金祥:這個問題很好。我們收到的客戶反饋主要集中在三個方面。第一是質量,包括語音、動作、表情、唇形是否自然逼真?是不是像真人一樣?第二是延時,我跟它交互聊天時,不能一句話等5秒鐘才回應,那我肯定沒有這個耐心了;第三是客戶非常關心的成本,如果太貴,即使體驗好客戶也不愿意投入。

      質量、延遲、成本——這是我們規模化落地要翻越的“三座大山”。還有個關鍵點是讓數字人支持多終端——大屏、小屏、手機APP,支持并發,這涉及不同操作系統、不同芯片算力。

      我們解決質量和延時問題,主要靠大模型提升能力。質量方面當然訓練數據最重要——如果3D人的質量很差,根本做不好。另外就是大模型本身的能力:能否通過文本生成語音、表情動作和匹配的唇形?能否從文本中提取情緒(比如笑或打招呼)自動生成關鍵意圖?TTS語音生成是否也有情緒的?這些都關系到如何讓大模型產生高質量輸出。

      04

      加速具身智能突破泛化

      泓君:我們剛剛聊了很多AI技術如何應用于虛擬世界。那反過來,你們現在訓練的模型能操控機器人嗎?你們試過嗎?

      柴金祥:我們試過。3D數字人和3D動畫的一個優勢就是能夠驅動機器人。比如一個3D數字人能跟你交流,聽懂你的問題,生成相應的語音、動作、表情和姿態。對機器人來說,我們可以用同樣的技術驅動它,讓機器人實現實時語音、動作和手勢。只是現在的機器人沒有臉部肌肉,所以表現不出表情。

      現在的機器人更像是藍領工人。如果將來要做陪伴型機器人,或者做白領工作,比如銷售、老師,可能就需要表情了。首先我們要知道機器人在交流時,手勢該怎么動?表情該怎么變化?姿態該如何調整?下一步就是通過模仿學習,像NVIDIA的方法那樣,通過仿真實現直接驅動和交流。


      3D數字人驅動機器人 圖片來源:魔琺科技

      泓君:太有意思了。在實際應用中,你們將模型數據接到機器人上,覺得對哪部分提升最大?機器人沒有表情,但手勢可以動,你們能同時驅動手和腳嗎?還是只能驅動上半身?

      柴金祥:我們可以同時驅動手和腳。告訴你個有意思的事,在國內合作中,我們生成的動作數據包含臉部、手部和腿部的完整動作。

      其實現在很多機器人公司在平衡性方面還不夠完善,即使我們通過API提供了動作數據,他們也需要結合強化學習和仿真來實現。如果在這方面做得特別好的,可能也能夠驅動起來。上身其實有很多動作,有一定的泛化性。

      這個事情其實我覺得這沒有那么難,就像我們爬樓梯一樣,我的動作能夠通過我們的能力生產出來,然后在仿真環境中加上強化學習,讓它復制這些動作,一點問題都沒有。

      泓君:所以機器人的平衡問題在于,我們收集的3D數據只是動作姿態,沒有力的反饋。一旦加入力的因素,就會出現平衡問題、摔跤問題。

      柴金祥:我覺得你好專業,這里有兩個核心點:驅動機器人需要運動學(Kinematics)和動力學(Dynamics)。第一步是運動學,比如要抓杯子,需要知道手的pose是什么,該怎么動去抓住它。第二步是動力學,解決需要用多少力、按什么路徑去抓取的問題。我們先做運動學,也就是運動規劃,這兩者可以結合起來。

      泓君:所以我理解其實機器人公司尋求合作時,兩者都需要。如果從零開始做機器人公司,最缺的就是數據,而你們有數據的模型就已經訓練好了。

      柴金祥:是的。因為我們聚焦于交互,下一步我們今年會發布一個3D動作大模型。比如你告訴它“往前走五步,趴下再爬起來跑”,它就能自動生成3D動作數據。這些數據可以用來訓練機器人,有了這樣的動作大模型,甚至不需要動作捕捉,因為捕捉也是為了獲取類似數據。

      泓君:波士頓動力的機器人爬樓梯、旋轉、搬箱子已經很成熟了。但這是在大模型出現之前,他們研發了很多年,用了各種方法。你現在用AI模型驅動爬樓梯動作,這兩者技術路徑是完全不同還是相似?


      圖片來源:Boston Dynamics

      柴金祥:你提到一個有意思的點,波士頓動力以前能爬樓梯,但泛化能力不強。比如你給它不同高度的樓梯,它不一定每種樓梯都能爬好。他們展示demo時總是用同一個樓梯。

      這就是泛化性的重要性。今天做人形機器人都要面對這個問題:生成數據后,能否處理數據之外的情況?比如爬樓梯,每個樓梯高度、層數、摩擦系數都不同,這些都是一些要泛化的參數。

      那今天你有沒有能力,給任何一個樓梯都能爬得穩?另外能否控制爬快一點,或爬慢一點?這仍然是個難題,根源還是數據。我們要做的核心就是在虛擬世界中,通過3D動畫大模型生產出動畫的數據,讓它爬樓梯,讓它見過所有情況。機器人動作的泛化性和數字人動作的泛化性,其實這兩件事是一樣的。

      泓君:你覺得用AI做機器人經歷了哪些變遷?就像你說的,最早可能沒人想到用AI做機器人,后來開始加入強化學習。

      柴金祥:最早的時候,AI機器人這個方向很難很難,尤其是人形機器人,我們叫Biped,最難的問題就是雙足平衡。另一個難題是抓取。那個時候做人形機器人最有一段時間日本很火,比如本田的ASIMO。工程師要調整走路參數,你都不知道后面有多少工程師在調這個參數。這些參數還不穩定,把地面稍微改一改,它就可能跌倒了。那時AI和學習的方法用得不多,主要做控制器。

      泓君:所以早期機器人發展主要關注控制,為了讓機器人不跌倒。

      柴金祥:如果能走,不跌倒,就已經很了不起了。后來大家覺得光這樣走不行,你能不能有一定的泛化能力?在不同平面、不同表面,以不同速度行走。如果不用AI方法,這幾乎不可能實現。


      ASIMO告別演出 圖片來源:Honda

      泓君:你覺得現在的機器人相比20年前進化了多少?

      柴金祥:我的進化還是蠻大的。以前讓雙足機器人走跑跳,覺得好難好難,但現在看國內很多人形機器人公司,運動會上拿遙控器控制,大部分走跑問題都解決了。這在20年前基本不可能,balance太難了。

      泓君:但這是通過遠程操控實現的。

      柴金祥:即使遠程操控,還是要解決動力學控制的問題。我覺得如果有視覺語言動作大模型,就不需要那個遙控器了。但用小腦控制這個事情,讓它走,不跌倒,仍然很難。現在的進步在于數據、強化學習、仿真環境,像NVIDIA。技術進步后,能力開放出來了,大家都能在仿真環境里做,你就發現其實沒那么的難了。

      泓君:機器人走路不摔倒,是現在機器人公司的普遍水平,還是只有頭部公司能做到?

      柴金祥:對稍好的團隊應該沒問題。但關鍵點,就是你的泛化能力有多強?在日常訓練的特定場景中不摔倒,如果在新場景搞不定,還是會摔倒。

      泓君:那你覺得世界上有多少公司能在部分場景實現機器人不摔倒?

      柴金祥:如果完全不摔倒,在新的應用場景其實蠻難的,我不知道現在有沒有公司能做到很強的泛化能力和魯棒性。如果有,我肯定要學習一下的。就拿爬樓梯來說,如果設置沒見過的樓梯情況,我不相信現在世界上有任何一個人形機器人公司能做到。

      還有個問題是抓取,早期用人形手抓取的研究不多,機器人整個業界多用吸盤來吸。但現在很多人研究靈巧手,讓機器人一樣用筷子夾東西,這非常難,需要大腦加小腦配合。大腦要先識別物體和抓取方式,小腦控制筷子夾取。我認為現在看到的都是demo,在特定應用場景下可能有些泛化性,但再擴展就很難。

      泓君:我們10月5日的活動您也去了,現場有機器人開可樂。彩排時我放了瓶可樂,他們說要把拉環對準手指方向,否則那個機器人的手的靈活度還很難去把可樂轉一個方向打開。

      柴金祥:這還是在特定布置好的環境里,更不用說進入家庭后各種復雜情況。大家現在看到VLA模型可能解決這個問題,但能否100%解決,其實也沒人知道。如果能,需要多少數據才能達到足夠的泛化能力和魯棒性?大家相信擴展定律(Scaling Laws),相信大模型總有一天能解決,但這里面的挑戰是很大很大。

      泓君:從你的角度看,現在世界上最好的機器人公司是哪家?為什么?

      柴金祥:做機器人有不同的流派:有做本體的、做硬件的、做小腦的、做大腦的。我覺得很難說誰最好,因為“好”有不同的定義。是在研究上有突破,還是已經落地商用?也許某條路看起來很有希望,但最后發現是死路,暫時的領先不一定是最終領先。國內也有不同流派,比如宇樹做機器人本體加小腦,它不做大腦。

      泓君:大腦指什么?

      柴金祥:大腦是處理VLA、疊衣服這類任務。小腦是處理爬樓梯、跳舞、跑步等。我覺得目前還沒看到真正的曙光,可能我比較悲觀。就像其他領域,VR/AR、自動駕駛都有起起落落,AI領域也會這樣。這是機器人第一波浪潮,長期前景光明,但短期挑戰很多。

      泓君:你覺得機器人模型達到GPT-3時刻需要多久?

      柴金祥:我沒有那么強的認知。我覺得今天的數據要泛化能力,還需要很長一段時間。我看到的情況還無法清晰判斷是2年還是3年,但我覺得10年內有希望解決。

      泓君:所以你們公司沒有直接切入機器人賽道,而是選擇3D和機器人的交叉領域。

      柴金祥:如果讓3D數字人在數字世界、在VR空間或屏幕上與人交流,能夠抓取、走路、爬樓梯,在數字世界里已經很有用,它已經可以有實際應用和商業落地了。

      反過來,做這些對機器人也很有價值。因為在小腦控制方面,你需要先知道怎么動,再用強化學習決定用多少力。從研究角度,機器人是個好方向,有太多可探索的,但從商業化角度,我自己覺得其實挑戰很多。如果真要商業化落地,人形機器人在白領領域可能比藍領更快。


      圖片來源:宇樹

      泓君:你提到數字世界也會涉及力的反饋,比如好萊塢動畫里面,我們把一個蘋果、一個南瓜甩出,去變成醬,怎么炸開?

      柴金祥:那個就是物理。還比如說,你是一個數字人或3D的角色,從二層樓跳到一層樓,你跳下去的時候,跟地面的反饋和滾動必須符合物理。我們的大模型生成動畫后,它本身就可以用物理方式在虛擬世界中仿真它。同樣的方式,也可以用強化學習的方式去生成這個控制器,我可以在實際世界中這么做,因為這個邏輯是相通的。

      泓君:但我有個問題。如果我們收集動畫世界的數據來學習,我知道一個人從樓梯摔下后怎么彈、怎么滾的,只是看到現象并用這些數據訓練大模型,能反饋,能模擬,但我們還是不知道力是多少。

      就是我們說Scaling跟這個所有的大模型,都是黑盒模型。但是我們再把這個場景拉回到現實,我們要讓機器人砸到或拿到一個東西,這個力的大小,我不知道需要通過反復調控計算得出,所以需要力的數據。其實人在現實生活中舉杯子也不需要計算力,靠經驗習慣和感知就好了。

      我的總體意思就是,過去機器人研究包括力學反饋,都是用白盒方法,但現在模型用黑盒和一套更加經驗主義的方法去做。

      柴金祥:這就是為什么在泛化到現實世界時挑戰很大,因為泛化涉及的因素太多,整個的過程中你要學力的控制的函數。

      泓君:以前是要自己計算嗎?

      柴金祥:對,現在用強化學習,只要有足夠多的數據跟它reward,它就能慢慢能夠做。但問題是,我說的抓杯子只是個小例子,這個世界上有多少種情況?所以我希望將來有一個基座大模型,有足夠多數據后,在特定場景下我能去調優這個模型,把它慢慢做好。

      泓君:我聽下來覺得,機器人領域這波最大進展是研究方式從白盒模型的研究,變成了黑盒模型的研究。從必須知道每個細節的受力點,靠計算和細節調配的研究,變成了端到端的模型,我們不知道內部是怎么運作的,但它可以工作。

      柴金祥:是的,這條路確實打開了新局面。以前的時候,那套東西更多是顯式的,那種方法肯定不能規模化,所以我們覺得做機器人太難了,怎么做也沒有希望的那種感覺。

      但是今天我作為一個外行,我覺得雖然很難,但長期來看是有希望的。這套方法在大語言模型和其他領域已經展示了能力。如果在機器人這個方向上,如果你有足夠多數據,是有可能解決這個問題的,但中間會不會遇到意想不到的問題和低谷,我不知道。

      泓君:看起來現在是剛找到一條新的路的那個興奮感的時候,但結果能否收斂?能否持續看到效果?這中間肯定會有起起落落。

      柴金祥:是的。

      【音頻收聽渠道】

      公眾號:硅谷101

      收聽渠道:蘋果|小宇宙|喜馬拉雅|蜻蜓FM|網易云音樂|QQ音樂|荔枝播客|嗶哩嗶哩

      海外用戶:Apple Podcast|Spotify|TuneIn|Amazon Music

      聯系我們:podcast@sv101.net

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      國家煙草專賣局:堅決擁護黨中央決定

      國家煙草專賣局:堅決擁護黨中央決定

      新京報
      2026-04-13 15:25:08
      下架、召回!廣東多款飲用水,細菌超標!情況通報

      下架、召回!廣東多款飲用水,細菌超標!情況通報

      娛樂的硬糖吖
      2026-04-14 00:52:32
      震驚!大同懸空寺在公路旁砌墻“不讓免費看”,當地網友發帖反駁

      震驚!大同懸空寺在公路旁砌墻“不讓免費看”,當地網友發帖反駁

      火山詩話
      2026-04-14 06:27:39
      家長擔心女兒太美,發明“防早戀”發型,網友:顏值已經很安全了

      家長擔心女兒太美,發明“防早戀”發型,網友:顏值已經很安全了

      蝴蝶花雨話教育
      2026-04-10 13:25:02
      64歲陳庭威:沒老婆沒孩子,定居廣東住豪宅,不服老打球很精彩

      64歲陳庭威:沒老婆沒孩子,定居廣東住豪宅,不服老打球很精彩

      白面書誏
      2026-04-13 19:08:56
      水花兄弟要重聚?獨行俠專家證實:克萊買斷回歸勇士,方案已清晰

      水花兄弟要重聚?獨行俠專家證實:克萊買斷回歸勇士,方案已清晰

      夜白侃球
      2026-04-14 10:41:51
      裘德·洛花1個月變成普京,新片預告片里連眼神都換了

      裘德·洛花1個月變成普京,新片預告片里連眼神都換了

      影視情報室
      2026-04-14 08:05:09
      震驚!一女孩求職不順焦慮,父親轉來4.8萬,按月4000元當作工資

      震驚!一女孩求職不順焦慮,父親轉來4.8萬,按月4000元當作工資

      火山詩話
      2026-04-14 07:33:54
      東契奇本周六將歸隊!多次注射治療加快康復 里夫斯預計5月初復出

      東契奇本周六將歸隊!多次注射治療加快康復 里夫斯預計5月初復出

      羅說NBA
      2026-04-14 05:25:06
      DeepSeek:什么樣的人,大概率是一事無成?

      DeepSeek:什么樣的人,大概率是一事無成?

      洞見
      2026-04-13 09:15:31
      安平逝世,享年65歲

      安平逝世,享年65歲

      南方都市報
      2026-04-13 19:26:27
      中國明確表態:中方船只將繼續通過霍爾木茲,不接受任何攔截

      中國明確表態:中方船只將繼續通過霍爾木茲,不接受任何攔截

      桂系007
      2026-04-14 03:28:19
      被班主任告知兒子遭毆打,父親到校調解6分鐘后心源性猝死,當地教育局已成立專班處理,公安機關已介入

      被班主任告知兒子遭毆打,父親到校調解6分鐘后心源性猝死,當地教育局已成立專班處理,公安機關已介入

      封面新聞
      2026-04-14 09:39:23
      快手搜索人員調整:王毅離職,程稷李宣平接任

      快手搜索人員調整:王毅離職,程稷李宣平接任

      申媽的朋友圈
      2026-04-13 11:09:18
      13000名中國人在國內看病騙取日本保險金!腸胃炎也要住院,只為狂薅日本人羊毛!

      13000名中國人在國內看病騙取日本保險金!腸胃炎也要住院,只為狂薅日本人羊毛!

      東京新青年
      2026-04-13 18:22:28
      比亞迪回應坪山園區一立體車庫火情:為試驗及報廢車輛專用停放區 火勢已撲滅 無人員傷亡

      比亞迪回應坪山園區一立體車庫火情:為試驗及報廢車輛專用停放區 火勢已撲滅 無人員傷亡

      財聯社
      2026-04-14 09:32:13
      請陳芋汐正面回應:在知情的情況下,為何不退出282群?

      請陳芋汐正面回應:在知情的情況下,為何不退出282群?

      開成運動會
      2026-04-13 20:23:15
      特朗普:伊朗致電美方說希望達成協議

      特朗普:伊朗致電美方說希望達成協議

      財聯社
      2026-04-14 01:08:23
      總臺海峽時評丨十項促進兩岸交流合作新政將給臺胞帶來實實在在的和平利好

      總臺海峽時評丨十項促進兩岸交流合作新政將給臺胞帶來實實在在的和平利好

      國際在線
      2026-04-14 07:01:46
      深度 | 從“粉絲”變對手:毛焦爾如何終結歐爾班時代重塑匈牙利?

      深度 | 從“粉絲”變對手:毛焦爾如何終結歐爾班時代重塑匈牙利?

      上觀新聞
      2026-04-13 20:53:11
      2026-04-14 10:55:01
      硅谷101 incentive-icons
      硅谷101
      從這里駛向未來
      166文章數 105關注度
      往期回顧 全部

      科技要聞

      離職同事"煉化"成AI?這屆公司不需要活人了

      頭條要聞

      女子做完醫美吃不下睡不著 女技師吐槽"本來就不好看"

      頭條要聞

      女子做完醫美吃不下睡不著 女技師吐槽"本來就不好看"

      體育要聞

      他做對了所有事,卻被整個職業網壇放逐了八年

      娛樂要聞

      宋祖兒劉宇寧戀情大反轉 正主火速辟謠

      財經要聞

      伊朗要求五個中東國家賠償戰爭損失

      汽車要聞

      長城歐拉5限定版純電版上市 限量99臺售價13.38萬元

      態度原創

      教育
      房產
      藝術
      親子
      手機

      教育要聞

      做有思考、有思路、有思想的校長

      房產要聞

      6000億投資盛宴,全球巨頭齊聚,海南又要干件大事!

      藝術要聞

      這位美女畫家的夏天竟如此夢幻

      親子要聞

      清明過后少給娃吃涼,多喝這碗扶陽湯,體質好長得壯

      手機要聞

      至少要做兩代 蘋果iPhone Air還有下一代新品

      無障礙瀏覽 進入關懷版