網易首頁 > 網易號 > 正文申請入駐

站在內容創作者與機器人的交界處：聊聊3D數字人的進化

2025-10-29 18:49:13　來源: 硅谷101

上海舉報

分享至

（點擊收聽本期音頻）

采訪｜泓君

圖文｜朱婕

在人工智能的浪潮里，3D數字人正在悄然改變著我們內容創作和互動的方式。你或許已經發現，數字人主播和虛擬偶像們，看起來越來越流暢自然了。這背后是一場數字人的技術革命：如今的3D數字人不再是那個表情略顯僵硬、只能按預設腳本運行的“木偶”；它們能夠根據指令，實時地生成豐富的語音、精準的表情，協調的肢體動作，并且成本變得可被接受。

進化的數字人，不僅活躍在當下的直播間和客服中心，未來更將在3A級游戲和影視工業領域大展拳腳。然而你可能不知道的是，3D數字人濫觴于機器人領域。在計算機圖形學與機器人學之間，存在著一道打通虛擬與現實的“旋轉門”，幾十年來不斷有學者穿越這道門走向另一端去尋求突破之道。

過去，研究者們用驅動機器人的方式，驅動虛擬世界中的數字人；如今，數字人所積累的經驗，又反過來幫助機器人去理解物理世界的錯綜復雜。

本期《硅谷101》，主播泓君邀請了魔琺科技創始人兼CEO 柴金祥教授。柴教授從2000年左右便在卡內基梅隆大學機器人研究所投身3D數字人研究，已經從事該領域二十余年。泓君與柴教授深入聊了3D數字人的前世今生，它取得了哪些突破性的進展，又面臨著哪些挑戰，以及數字人的數據和模型是如何加速具身智能進化的。

歡迎關注《硅谷101視頻號》的音頻欄目直接收聽本期播客。如果你喜歡我們的節目，更推薦大家使用音頻客戶端來收聽，《硅谷101 》已覆蓋各大主流音頻平臺（渠道見文末），歡迎訂閱！

以下是這次對話內容的精選：

數字人：下一代內容生產者

泓君：前幾天，硅谷大家都在關注Sora2，好像每個人都會拿它去做一段Demo，包括我們前幾天剛剛開了《硅谷101》的科技大會，我們就生成了一段讓Sam Altman幫我們去宣傳我們大會的Sora2的視頻。看起來他在屏幕里面的形象就是一個比較數字人的形象，這個對你們的業務會有影響嗎？

柴金祥：我覺得Sora2相比Sora1，進步是蠻大的，Sora1還是以風景為主，Sora2主要的形態是以人為中心的，可以讓視頻里的人做各種各樣的事情。我也大概用了一下，第一個感覺，視頻生成現在還是10秒鐘的時間，還是沒有跳出被時間的限制文生視頻。第二個點其實也特別重要，就是物理上的一致性，基本上大家看刷屏的時候很多效果其實還是蠻好的，但你真正自己做的時候還是有很多瑕疵。

泓君：問題太多了。它那個視頻里面有皮卡丘跟一個唐老鴨在總統競選的一段辯論，可以在原視頻上改，我就說把這個辯論變成一個在《硅谷101》上關于AGI的辯論，我們活動的主題是“Alignment2025”，但你仔細去看的話，它后面的Alignment那個字就是錯的，就開始亂碼了。

柴金祥：對。創作者除了生成視頻，還需要能修正錯誤、調整細節，這能力它還沒有。更重要的是，它無法精細控制人的動作和表情。不過，Sora2第一次讓人看到了用大模型驅動人物多樣動作的可能性。

我們做的是3D數字人，如果最終目標是讓人能交流、跳舞、娛樂，那大模型會是什么形態？訓練數據又是什么？Sora2說它用所有視頻作為訓練數據。最近Genie3出來，是3D的生成，給你一種交互型的感覺是吧？但它不是人，它是關于場景相關的。

我們覺得，最終可能需要2D+3D的訓練技術結合，我們希望生成的人沒有10秒限制、沒有瑕疵、物理準確、可控制、實時且成本低。所以我們除了3D訓練數據，也開始結合大量視頻數據來訓練大模型，提升數字人的表達力。視頻數據如果模型做得好，是有生成能力的。

圖片來源：Sora2

泓君：我簡單總結一下：Sora2是文生視頻，你們是文生3D。這個3D它可以是在VR領域里面進行展示的，比如說我戴著一個VR頭盔，我可以360度地去看到這個人。

柴金祥：是，就是2D和3D的區別。Sora2是文生2D視頻。3D放在VR/AR里，就跟現實一樣。3D還有一個好處，它能控制，就像人一樣，你讓它怎么動就怎么動。但2D在像素層面，要對它進行動作、表情的精準控制，會比較難。

泓君：我看到很多公司展廳屏幕上的數字人是你們做的，有一點我可能很難區分，假設我進到一個展廳，看到一個屏幕上的非常立體的數字人，它有動作、聲音、表情，跟我看到Sam Altman在一個視頻里的數字人，除了時長的區別，它在核心的技術上它的區別是什么呢？

柴金祥：第一個區別是，屏幕上這個數字人是人機交流的載體，人跟機器交流的時候，其實你是實時互動的，我們希望端對端延時一般要小于2秒或1.5秒，不能像生成視頻等10分鐘、5分鐘。

第二個區別是，當你用文生視頻去做的時候，手指是個特別難的事情，經常多一根或少一截，但如果是展廳里，數字人為你講解產品，你肯定是不希望這個體驗很差的，它的動作不能有瑕疵，物理上要準確，表情、動作要一致。

最后一個區別，把3D數字人部署在終端上，成本不能高。終端屏幕可能就一萬人民幣，如果生成視頻交互了20分鐘，即使它能實時做，一年放在那也得花很多錢，長期也負擔不起。但從Sora2文生視頻的角度來說，這個成本它是不能scale up的。

泓君：它的成本是多高？用你們的這個成本是多高？為什么成本之間會有這樣的一個差距？

柴金祥：我不一定能給具體數字，但可以告訴你一個量級：與大模型做的語音合成相比，我們的成本可能是幾十分之一。這里核心是2D和3D的區別。3D描述人的動作表情，只需要幾百個參數，人的肌肉可能就是大幾百塊，你只要去控制一些肌肉就可以了。下一步是用3D渲染把3D內容變成視頻，還有3D解算，包括頭發、衣服的物理解算。如果用AI做渲染和解算，成本就主要是生成這幾百個參數的成本，和大模型生成Token一樣，所以它的成本就非常非常低。文生視頻沒有結構化信息，全是像素，推理和生產成本就會非常非常高。

泓君：所以你們能把成本降下來，是因為有一個自己的端模型，可以這樣理解嗎？

柴金祥：是的，我們有一個把文本變成3D多模態表達能力的模型。從文本生成語音、表情、動作、手勢的參數，傳到終端屏幕上，我們用AI渲染和解算，把它變成視頻。AI渲染對終端算力要求極低，現在用國內幾百塊錢的芯片，比如瑞芯微的RK3566，我們在端上就可以跑了。

泓君：比如說它要跟人做實時互動跟問答，這種還是在端模型上，還是說你后面除了你自己的這個端模型，在表達的內容上你會去接大模型？

柴金祥：好問題。人和數字人交流需要兩個模型：一個像ChatGPT的多模態到文本模型，現在你ChatGPT的話，你可以輸入聲音、圖片，它最后輸出文字。

另一個是從文本到3D多模態的模型，我們做的是文字到3D多模態輸出，輸出語音、姿態、動作、表情、手勢，讓生成的數字人更像真人交互，

我們有自己垂域的大模型，也可以接國內千問、DeepSeek、豆包等模型，形成端對端的人與數字人像真人一樣的交流體驗。

泓君：所以你們從多模態到文本可以利用大模型，從文本到多模態是自己的端模型。

圖片來源：魔琺星云-具身智能數字人開放平臺

柴金祥：我們叫它“文生3D多模態大模型”。

泓君：這已經是一個產品“星云平臺”，可以發布了嗎？

柴金祥：是的，我們10月發布，現在在測試。有幾百個B端企業客戶在測試，有的已付費。我們預計兩周后發布我們這個文生3D多模態模型。因為我們自己在做的過程做了很長很長時間，從我20多年前讀研開始做，花了很多精力。我們希望大家不要重復造輪子，能夠把能力提供給所有開發者，集成到他們的應用中去。

泓君：了解。我覺得很有意思的一點就是，隨著星云平臺發布，你們從3D數字人公司變成了3D數字人平臺公司，我這樣理解是對的嗎？

柴金祥：差不多，對，是的。

泓君：之前在NVIDIA發布會上，黃仁勛很自豪地說“你看到的我不是真的我”，他坐在一個壁爐前，是一個虛擬3D數字人在跟大家介紹，渲染得非常非常真實。他經常用他自己的虛擬人去講他們的顯卡性能有多強大，他那個成本大概有多少？

柴金祥：這個成本蠻高的。他做的其實還是視頻輸出，如果造一個老黃這樣的虛擬人，需要研發團隊配合美術團隊，在美國找頂尖的美術團隊做，成本大概10萬美金左右，做到發布會那種逼真效果。

這還只是造出這個人，做視頻可能要按秒算成本。這屬于專業級內容生產，還沒到人人可用的階段。

圖片來源：NVIDIA Blog

泓君：對，每次去游戲展會感受明顯，大家怎么去造那個3D數字人。以前造3D數字人，是讓演員穿動作捕捉服，用環形攝像機拍每個部位，再建模，一步一步地把它還原出來。這是好萊塢或游戲公司常用的方式吧？

柴金祥：對，專業級造人包括3A游戲公司和好萊塢，比如Avatar，或老黃的數字人。整體來說它是兩部分的東西。

第一部分是造人，一般叫掃描，用很多相機，你坐在那，做各種表情，把人的幾何形狀和表面紋理重建出來，包括肌肉，學術上叫建模和綁定。

第二是讓它動起來，穿動捕服，用相機捕捉動作，驅動剛才造的那個人，用渲染引擎輸出視頻。

整個過程從建模綁定到動畫再到輸出視頻，都非常昂貴。

泓君：這是大模型之前，好萊塢和游戲公司常用的方式。現在有了模型，這套方式還是主流嗎？還是說他們其實也在探索能不能用3D直接去生成人？

柴金祥：這問題特別好。3D內容的AI化取決于兩件事：高質量數據，和AI算法能否對3D內容做大模型。

咱們今天看到了，所有的影視動畫和游戲公司，擅長做內容，把美術和3D模型做得很逼真，但絕大部分AI能力缺乏，因為他們和互聯網、科技公司是兩條線，交叉很少。他們當然想擁抱AI，但能力欠缺。

AI公司算法強，但其實是沒有數據的。3D內容必須先有大量高質量3D數據才能做大模型，這是他們的目標，但現在兩個行業沒有交叉。

泓君：大模型公司缺好萊塢的數據，好萊塢制作公司缺AI算法，可以這樣理解嗎？

柴金祥：是，基本是這樣。

泓君：但我看也有公司開始嘗試。你們在AI浪潮之前，做數字人和積累數據也很久了吧？

柴金祥：是的，我們2018年成立，最初為B端公司，如游戲、影視、動畫、或做3D虛擬偶像的公司，提供3D內容制作，用AI+美術一起來提升效率和質量。在這個過程中當然AI的能力也在提升，但大家都要突破的點是3D內容的高質量數據。沒有數據，AI算法再厲害也沒法干。

泓君：從2018年到2025年，你們大概積累了多少數據？可以透露嗎？

柴金祥：拿動畫數據來說，前面我們為企業服務，后來我們自己來做了些動畫數據。現在3D高質量動畫數據，我們有1000多個小時。這個數據可能跟視頻的數據或者文本的數據來講是小的，但如果考慮到成本，高質量的人臉動畫、手勢、表情等動畫數據，一秒鐘成本至少1000人民幣左右。在國內成本高是一方面，另外你還得找到團隊有非常強的能力把質量做得這么高，所以這個數據量是很難在短時間內積累起來的。

泓君：很有意思，所以數據是你能訓練成這樣的一個模型的一個核心要素。

柴金祥：我覺得數據是最核心的。如果沒有數據，其他任何研發都沒法做。除了剛才講到的3D數據，我們也有其他的視頻數據。這些是純粹的視頻數據，比如有人在走路也好，有人在跟人交流也好，它沒有3D信息，但我們開始把這兩者融合起來去做模型的訓練。

虛實之間誕生的“雙生學科”

泓君：你當初為什么會選擇進入3D數字人這個領域？

柴金祥：我2000年去卡內基梅隆大學（CMU）讀博士，在機器人研究所做的就是這個方向。我的博士論文就是關于如何創建一個可交互的3D數字人，以及如何用AI去做動畫。我們團隊應該是世界上最早用AI做動畫的，因為也剛湊巧，2000年左右運動捕捉技術出現了，有了動畫數據就可以做AI了。從那時起，我就專注于3D動畫和數字人。2006年畢業去德州農工大學（Texas A&M）當教授，也一直做這個方向。那時動畫研究屬于圖形學領域，是專門為影視動畫公司游戲公司這個行業服務的。那時候我們發表了很多論文，全是關于3D數字人跟3D動畫相關的。到2018年創業，我也繼續做這件事，所以我在這個領域堅持了二十多年了。

泓君：我知道您的博士導師是杰西卡·霍奇斯（Jessica Hodgins），她主要研究人形機器人和3D數字動畫。而且她的博士生導師是馬克·雷伯特（Marc Raibert），是波士頓動力（Boston Dynamic）的創始人，現在最有名的機器人公司，也是特別早的一家機器人公司。所以看起來整個的3D生成它最開始的應用就是在好萊塢領域的。

柴金祥：我導師杰西卡·霍奇斯，她也是卡內基梅隆大學1989年博士畢業，她在讀博時是做機器人的。當時的人形機器人只有“單腳”，因為雙足平衡太難了。她那時候是用物理運動控制動力學的方式，控制機器人走跑跳。

她畢業后，很奇怪地，進到的方向是圖形學和動畫領域，她的想法是：既然能在現實世界控制機器人運動，是否能用同樣方法驅動虛擬世界的3D數字人？

她是全世界第一個用物理運動控制方法做數字人動畫的學者。她在佐治亞理工學院（Georgia Tech）做教授，基于物理的仿真跟控制做動畫，然后2000年她回到CMU任教，2000年動畫數據慢慢有了剛才講的運動捕捉的出現。我就是她在卡梅帶的最早的博士。我們是那時候是最早用AI做動畫的。后來大家發覺得，這個動畫用AI做挺好的，反過來是不是還能去做Robotics這個行業？

現在大家可能知道的很多做Robotics做很厲害的人，其實以前都是做動畫的。比如PI（Physical Intelligence）聯合創始人、伯克利教授Sergey Levine，但你肯定都不知道，他是在斯坦福拿的博士學位，并且他是用物理的方式，用運動控制動力學的方式來做動畫的。他畢業了以后說，我這個能做動畫，我也能做機器人，他后來當教授的時候就是開始做機器人。

泓君：難怪PI他們的核心思路是解決機器人的“大腦”問題，就是軟件層的問題，他就是希望通過模型層來指揮機器人，我覺得這個跟他最開始不是從硬件研究開始的，而是用機器人去做動畫，聽起來是一脈相承的。

圖片來源：PI

柴金祥：的確是的。再舉一個例子，我還有一個好朋友Karen Liu，她現在在斯坦福當教授，以前是在佐治亞理工學院（Georgia Tech）當教授，她同時做Animation和Robotics。

我們那批做動畫的人，后來很多都轉向機器人領域，因為這兩個領域高度相通——都是驅動“人”，一個在虛擬世界，一個在物理世界。動畫相對更容易入手，因為機器人是有本體的，你搭個硬件就老半天。另外現實世界受很多限制，比如重力、房間限制、機器人硬件限制。動畫實際上沒有這些限制。所以那時候很多做物理的人開始做動畫。

動畫這方面也分成幾派，一派用物理方法做，Jessica肯定是其中之一。還有CMU的Michiel van de Panne，他是我博士委員會成員，一直做Controller、運動控制。那時候做動畫的中心也在卡內基梅隆大學。Karen Liu的導師Zoran Popovi?也是卡梅畢業的。當時做動畫的學者很少，國內基本沒人做，歐洲也沒人，主要集中在美國兩三個研究組。

后來動畫有個大飛躍是從2000年，運動捕捉有了數據后，大家慢慢開始用AI做。那時比較早的，現在叫強化學習，我記得最早的動畫論文是2004年還是2005年就用強化學習做動畫。虛擬世界與實際世界的底層運動控制邏輯非常相似，都屬于“小腦”范疇的動作規劃與運動控制。如今新興的VLA模型則更偏向“大腦”層面。

泓君：很有意思。我們討論好萊塢技術時，常有聽眾問為什么科技節目關注電影工業。其實好萊塢一直是推動技術發展的重要力量，許多AI技術最早都應用于電影制作。你們有沒有想過，把你們的3D數字人產品用于好萊塢造人？比如用生成式技術讓靜態演員動起來，這可能對傳統制作方式形成“降維打擊”。

柴金祥：這里面涉及幾個關鍵點：質量、成本和應用場景。好萊塢質量可能最高的，再往下是3A級游戲，再往下是生活中一些交互比較簡單的場景。如果你要做好萊塢方向，它的高保真、質量可能特別重要，他們可以等100個小時、200個小時，花更多錢等你的高質量。但在實時交互里，可能等不了那么多時間，要馬上看到結果能夠交互，質量上不一定要像好萊塢那么高。

泓君：但是可以做好萊塢IP的衍生。

柴金祥：對，衍生品肯定可以，但需要更高質量的3D數據來做AI大模型。這塊在我們自己的行進路徑上，有先后順序，對我們自己來說，可能先運用到日常生活中，比如交互、服務、陪伴，再到游戲，再到好萊塢。因為難度來說，好萊塢如果要做到那個水平，難度很高很高，質量要很高，能生產這種高質量數據的人，全世界可能就沒幾個。

AI渲染結算帶來的成本革命

泓君：問一個稍稍敏感的問題，你可以選擇不答。你們現在把API接口開放出去，肯定有基礎接入成本。你覺得這個模式能賺錢嗎？

柴金祥：這肯定能。因為在正式發布平臺之前，我們已經有了B端客戶。在國內做AI公司，商業上的賬必須算得過來，除非你是字節、阿里、騰訊那樣的大廠。所以這里面有一個核心點，也是我們過去半年最大的突破。半年前我們的交互能力和API就做好了，但那時成本非常高。當時服務一個數字人需要一張顯卡，成本差不多兩三萬。很多B端客戶來問，一聽到這個價格就不用了。

圖片來源：魔琺科技

泓君：這個成本是怎么降下來的？

柴金祥：因為我們是3D內容，所有影視動畫公司、游戲公司都逃不開一點——必須要有渲染引擎和解算引擎。

泓君：這個我太懂了，我們做視頻，渲染真的太耗時間了。

柴金祥：對。如果要支持3D內容實時交互，每一路都需要一張顯卡負責渲染和解算。我們當時用了可能最好的Unreal引擎，但成本就擺在那里。我們一直在想，如果不解決這張顯卡的成本問題，談應用落地根本不可能，無論是展廳大屏、手機還是平板上都用不起。

我原本覺得這個問題很難解決，但技術有時很奇妙，我們突然想到了一個方法。很幸運地，我們用AI技術完成了渲染和解算，不再需要傳統的渲染引擎和昂貴的顯卡。現在在非常便宜的終端芯片上，一兩百、兩三百塊錢的，就能跑起來。

泓君：所以你們用端到端的AI模型，解決了渲染問題。

柴金祥：渲染只是其中一部分。完整流程分兩步：第一步是用模型從文本生成語音和3D表情、動作的參數；第二步是把這些參數通過AI渲染和解算轉換成實時視頻。這樣整體成本比語音生成還要低。

泓君：如果你們真能做到大幅降低渲染成本，這次的生成式AI技術會對Unreal這樣的游戲引擎公司造成沖擊嗎？對NVIDIA可能就是一個左手跟右手的關系。

柴金祥：對Unreal不一定是好事，我認為對游戲公司來說更多是機會。現在3A級游戲都需要云端有顯卡，或者手機上得有比較強的算力，不然玩起來會發燙。如果將來能用AI方式解決渲染和解算，不需要引擎和顯卡就能玩游戲，那游戲就能無處不在。或者將來真正實現元宇宙時，虛擬世界的參與成本也許會變得很低很低。

泓君：現在用AI方式解決渲染問題，質量能達到傳統游戲引擎的水平嗎？大概到了一個什么樣的進度位？

柴金祥：在我們這個特定應用場景下，質量基本一樣。因為我們的訓練數據就是用最高質量的游戲引擎渲染的，AI模型是在大量數據基礎上逼近原來的效果。我們做過并列對比（Side-by-Side Comparison），左邊是游戲引擎渲染，右邊是AI渲染，沒有一個人能看出左右之間的區別。

圖片來源：Unreal

泓君：這非常顛覆。如果我們綜合評估你們模型的能力，你覺得最強的一點是什么？比如現在看2D視頻渲染，最大的痛點可能是口型對不上、眼神空洞，這種虛假感。你們在將3D數字人應用到不同行業時，遇到的最大痛點是什么？怎么解決的？

柴金祥：這個問題很好。我們收到的客戶反饋主要集中在三個方面。第一是質量，包括語音、動作、表情、唇形是否自然逼真？是不是像真人一樣？第二是延時，我跟它交互聊天時，不能一句話等5秒鐘才回應，那我肯定沒有這個耐心了；第三是客戶非常關心的成本，如果太貴，即使體驗好客戶也不愿意投入。

質量、延遲、成本——這是我們規模化落地要翻越的“三座大山”。還有個關鍵點是讓數字人支持多終端——大屏、小屏、手機APP，支持并發，這涉及不同操作系統、不同芯片算力。

我們解決質量和延時問題，主要靠大模型提升能力。質量方面當然訓練數據最重要——如果3D人的質量很差，根本做不好。另外就是大模型本身的能力：能否通過文本生成語音、表情動作和匹配的唇形？能否從文本中提取情緒（比如笑或打招呼）自動生成關鍵意圖？TTS語音生成是否也有情緒的？這些都關系到如何讓大模型產生高質量輸出。

加速具身智能突破泛化

泓君：我們剛剛聊了很多AI技術如何應用于虛擬世界。那反過來，你們現在訓練的模型能操控機器人嗎？你們試過嗎？

柴金祥：我們試過。3D數字人和3D動畫的一個優勢就是能夠驅動機器人。比如一個3D數字人能跟你交流，聽懂你的問題，生成相應的語音、動作、表情和姿態。對機器人來說，我們可以用同樣的技術驅動它，讓機器人實現實時語音、動作和手勢。只是現在的機器人沒有臉部肌肉，所以表現不出表情。

現在的機器人更像是藍領工人。如果將來要做陪伴型機器人，或者做白領工作，比如銷售、老師，可能就需要表情了。首先我們要知道機器人在交流時，手勢該怎么動？表情該怎么變化？姿態該如何調整？下一步就是通過模仿學習，像NVIDIA的方法那樣，通過仿真實現直接驅動和交流。

3D數字人驅動機器人圖片來源：魔琺科技

泓君：太有意思了。在實際應用中，你們將模型數據接到機器人上，覺得對哪部分提升最大？機器人沒有表情，但手勢可以動，你們能同時驅動手和腳嗎？還是只能驅動上半身？

柴金祥：我們可以同時驅動手和腳。告訴你個有意思的事，在國內合作中，我們生成的動作數據包含臉部、手部和腿部的完整動作。

其實現在很多機器人公司在平衡性方面還不夠完善，即使我們通過API提供了動作數據，他們也需要結合強化學習和仿真來實現。如果在這方面做得特別好的，可能也能夠驅動起來。上身其實有很多動作，有一定的泛化性。

這個事情其實我覺得這沒有那么難，就像我們爬樓梯一樣，我的動作能夠通過我們的能力生產出來，然后在仿真環境中加上強化學習，讓它復制這些動作，一點問題都沒有。

泓君：所以機器人的平衡問題在于，我們收集的3D數據只是動作姿態，沒有力的反饋。一旦加入力的因素，就會出現平衡問題、摔跤問題。

柴金祥：我覺得你好專業，這里有兩個核心點：驅動機器人需要運動學（Kinematics）和動力學（Dynamics）。第一步是運動學，比如要抓杯子，需要知道手的pose是什么，該怎么動去抓住它。第二步是動力學，解決需要用多少力、按什么路徑去抓取的問題。我們先做運動學，也就是運動規劃，這兩者可以結合起來。

泓君：所以我理解其實機器人公司尋求合作時，兩者都需要。如果從零開始做機器人公司，最缺的就是數據，而你們有數據的模型就已經訓練好了。

柴金祥：是的。因為我們聚焦于交互，下一步我們今年會發布一個3D動作大模型。比如你告訴它“往前走五步，趴下再爬起來跑”，它就能自動生成3D動作數據。這些數據可以用來訓練機器人，有了這樣的動作大模型，甚至不需要動作捕捉，因為捕捉也是為了獲取類似數據。

泓君：波士頓動力的機器人爬樓梯、旋轉、搬箱子已經很成熟了。但這是在大模型出現之前，他們研發了很多年，用了各種方法。你現在用AI模型驅動爬樓梯動作，這兩者技術路徑是完全不同還是相似？

圖片來源：Boston Dynamics

柴金祥：你提到一個有意思的點，波士頓動力以前能爬樓梯，但泛化能力不強。比如你給它不同高度的樓梯，它不一定每種樓梯都能爬好。他們展示demo時總是用同一個樓梯。

這就是泛化性的重要性。今天做人形機器人都要面對這個問題：生成數據后，能否處理數據之外的情況？比如爬樓梯，每個樓梯高度、層數、摩擦系數都不同，這些都是一些要泛化的參數。

那今天你有沒有能力，給任何一個樓梯都能爬得穩？另外能否控制爬快一點，或爬慢一點？這仍然是個難題，根源還是數據。我們要做的核心就是在虛擬世界中，通過3D動畫大模型生產出動畫的數據，讓它爬樓梯，讓它見過所有情況。機器人動作的泛化性和數字人動作的泛化性，其實這兩件事是一樣的。

泓君：你覺得用AI做機器人經歷了哪些變遷？就像你說的，最早可能沒人想到用AI做機器人，后來開始加入強化學習。

柴金祥：最早的時候，AI機器人這個方向很難很難，尤其是人形機器人，我們叫Biped，最難的問題就是雙足平衡。另一個難題是抓取。那個時候做人形機器人最有一段時間日本很火，比如本田的ASIMO。工程師要調整走路參數，你都不知道后面有多少工程師在調這個參數。這些參數還不穩定，把地面稍微改一改，它就可能跌倒了。那時AI和學習的方法用得不多，主要做控制器。

泓君：所以早期機器人發展主要關注控制，為了讓機器人不跌倒。

柴金祥：如果能走，不跌倒，就已經很了不起了。后來大家覺得光這樣走不行，你能不能有一定的泛化能力？在不同平面、不同表面，以不同速度行走。如果不用AI方法，這幾乎不可能實現。

ASIMO告別演出圖片來源：Honda

泓君：你覺得現在的機器人相比20年前進化了多少？

柴金祥：我的進化還是蠻大的。以前讓雙足機器人走跑跳，覺得好難好難，但現在看國內很多人形機器人公司，運動會上拿遙控器控制，大部分走跑問題都解決了。這在20年前基本不可能，balance太難了。

泓君：但這是通過遠程操控實現的。

柴金祥：即使遠程操控，還是要解決動力學控制的問題。我覺得如果有視覺語言動作大模型，就不需要那個遙控器了。但用小腦控制這個事情，讓它走，不跌倒，仍然很難。現在的進步在于數據、強化學習、仿真環境，像NVIDIA。技術進步后，能力開放出來了，大家都能在仿真環境里做，你就發現其實沒那么的難了。

泓君：機器人走路不摔倒，是現在機器人公司的普遍水平，還是只有頭部公司能做到？

柴金祥：對稍好的團隊應該沒問題。但關鍵點，就是你的泛化能力有多強？在日常訓練的特定場景中不摔倒，如果在新場景搞不定，還是會摔倒。

泓君：那你覺得世界上有多少公司能在部分場景實現機器人不摔倒？

柴金祥：如果完全不摔倒，在新的應用場景其實蠻難的，我不知道現在有沒有公司能做到很強的泛化能力和魯棒性。如果有，我肯定要學習一下的。就拿爬樓梯來說，如果設置沒見過的樓梯情況，我不相信現在世界上有任何一個人形機器人公司能做到。

還有個問題是抓取，早期用人形手抓取的研究不多，機器人整個業界多用吸盤來吸。但現在很多人研究靈巧手，讓機器人一樣用筷子夾東西，這非常難，需要大腦加小腦配合。大腦要先識別物體和抓取方式，小腦控制筷子夾取。我認為現在看到的都是demo，在特定應用場景下可能有些泛化性，但再擴展就很難。

泓君：我們10月5日的活動您也去了，現場有機器人開可樂。彩排時我放了瓶可樂，他們說要把拉環對準手指方向，否則那個機器人的手的靈活度還很難去把可樂轉一個方向打開。

柴金祥：這還是在特定布置好的環境里，更不用說進入家庭后各種復雜情況。大家現在看到VLA模型可能解決這個問題，但能否100%解決，其實也沒人知道。如果能，需要多少數據才能達到足夠的泛化能力和魯棒性？大家相信擴展定律（Scaling Laws），相信大模型總有一天能解決，但這里面的挑戰是很大很大。

泓君：從你的角度看，現在世界上最好的機器人公司是哪家？為什么？

柴金祥：做機器人有不同的流派：有做本體的、做硬件的、做小腦的、做大腦的。我覺得很難說誰最好，因為“好”有不同的定義。是在研究上有突破，還是已經落地商用？也許某條路看起來很有希望，但最后發現是死路，暫時的領先不一定是最終領先。國內也有不同流派，比如宇樹做機器人本體加小腦，它不做大腦。

泓君：大腦指什么？

柴金祥：大腦是處理VLA、疊衣服這類任務。小腦是處理爬樓梯、跳舞、跑步等。我覺得目前還沒看到真正的曙光，可能我比較悲觀。就像其他領域，VR/AR、自動駕駛都有起起落落，AI領域也會這樣。這是機器人第一波浪潮，長期前景光明，但短期挑戰很多。

泓君：你覺得機器人模型達到GPT-3時刻需要多久？

柴金祥：我沒有那么強的認知。我覺得今天的數據要泛化能力，還需要很長一段時間。我看到的情況還無法清晰判斷是2年還是3年，但我覺得10年內有希望解決。

泓君：所以你們公司沒有直接切入機器人賽道，而是選擇3D和機器人的交叉領域。

柴金祥：如果讓3D數字人在數字世界、在VR空間或屏幕上與人交流，能夠抓取、走路、爬樓梯，在數字世界里已經很有用，它已經可以有實際應用和商業落地了。

反過來，做這些對機器人也很有價值。因為在小腦控制方面，你需要先知道怎么動，再用強化學習決定用多少力。從研究角度，機器人是個好方向，有太多可探索的，但從商業化角度，我自己覺得其實挑戰很多。如果真要商業化落地，人形機器人在白領領域可能比藍領更快。

圖片來源：宇樹

泓君：你提到數字世界也會涉及力的反饋，比如好萊塢動畫里面，我們把一個蘋果、一個南瓜甩出，去變成醬，怎么炸開？

柴金祥：那個就是物理。還比如說，你是一個數字人或3D的角色，從二層樓跳到一層樓，你跳下去的時候，跟地面的反饋和滾動必須符合物理。我們的大模型生成動畫后，它本身就可以用物理方式在虛擬世界中仿真它。同樣的方式，也可以用強化學習的方式去生成這個控制器，我可以在實際世界中這么做，因為這個邏輯是相通的。

泓君：但我有個問題。如果我們收集動畫世界的數據來學習，我知道一個人從樓梯摔下后怎么彈、怎么滾的，只是看到現象并用這些數據訓練大模型，能反饋，能模擬，但我們還是不知道力是多少。

就是我們說Scaling跟這個所有的大模型，都是黑盒模型。但是我們再把這個場景拉回到現實，我們要讓機器人砸到或拿到一個東西，這個力的大小，我不知道需要通過反復調控計算得出，所以需要力的數據。其實人在現實生活中舉杯子也不需要計算力，靠經驗習慣和感知就好了。

我的總體意思就是，過去機器人研究包括力學反饋，都是用白盒方法，但現在模型用黑盒和一套更加經驗主義的方法去做。

柴金祥：這就是為什么在泛化到現實世界時挑戰很大，因為泛化涉及的因素太多，整個的過程中你要學力的控制的函數。

泓君：以前是要自己計算嗎？

柴金祥：對，現在用強化學習，只要有足夠多的數據跟它reward，它就能慢慢能夠做。但問題是，我說的抓杯子只是個小例子，這個世界上有多少種情況？所以我希望將來有一個基座大模型，有足夠多數據后，在特定場景下我能去調優這個模型，把它慢慢做好。

泓君：我聽下來覺得，機器人領域這波最大進展是研究方式從白盒模型的研究，變成了黑盒模型的研究。從必須知道每個細節的受力點，靠計算和細節調配的研究，變成了端到端的模型，我們不知道內部是怎么運作的，但它可以工作。

柴金祥：是的，這條路確實打開了新局面。以前的時候，那套東西更多是顯式的，那種方法肯定不能規模化，所以我們覺得做機器人太難了，怎么做也沒有希望的那種感覺。

但是今天我作為一個外行，我覺得雖然很難，但長期來看是有希望的。這套方法在大語言模型和其他領域已經展示了能力。如果在機器人這個方向上，如果你有足夠多數據，是有可能解決這個問題的，但中間會不會遇到意想不到的問題和低谷，我不知道。

泓君：看起來現在是剛找到一條新的路的那個興奮感的時候，但結果能否收斂？能否持續看到效果？這中間肯定會有起起落落。

柴金祥：是的。

【音頻收聽渠道】

公眾號：硅谷101

收聽渠道：蘋果｜小宇宙｜喜馬拉雅｜蜻蜓FM｜網易云音樂｜QQ音樂｜荔枝播客｜嗶哩嗶哩

海外用戶：Apple Podcast｜Spotify｜TuneIn｜Amazon Music

聯系我們：podcast@sv101.net

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.