伯克利團隊發(fā)布最新論文，用訓練GPT的方法訓練人形機器人

2024-03-09 13:40:03　來源: 地表那些事

河北舉報

分享至

點擊輸入圖片描述（最多30字）圖片來源@視覺中國文 | 甲子光年科技產(chǎn)業(yè)智庫，作者｜劉楊楠，編輯｜趙健一臺人形機器人在人行道、混凝土、瀝青、廣場和沙路上“散步”，這不是科幻電影的場景，而是已經(jīng)發(fā)生在舊金山街頭的真實事件。這一人形機器人項目也引起了Sora團隊的注意。“不可思議的成果！”Sora負責人之一Bill Peebles在 X 轉(zhuǎn)發(fā)了這條內(nèi)容，難掩驚訝。另一位核心作者Tim Brooks也評論道：“Ilija Radosavovic的驚人成果把AI帶入了真實世界。”點擊輸入圖片描述（最多30字）Ilija Radosavovic（伊利亞·拉多薩沃維奇）是該人形機器人項目的負責人之一，他是加州大學伯克利分校博士生，曾在Meta的AI實驗室FAIR做研究工程師。這篇論文名為《Humanoid Locomotion as Next Token Prediction》。Ilija Radosavovic表示，論文的核心思想，就是把OpenAI訓練ChatGPT時所用到的“預測下一個token”的思路，用在人形機器人的運動控制中。這被稱為“自回歸生成式”路線，最大的特色是可以根據(jù)“Scaling Law”——擴大模型的參數(shù)、數(shù)據(jù)、算力來提升模型的效果，也被稱為“暴力美學”。不過，對于“暴力美學”的前景，目前在業(yè)內(nèi)存在一定的爭議。目前來看，Scaling Law已經(jīng)先后突破了文本生成和視頻生成，接下來又會突破人形機器人的運動控制嗎？“暴力美學”解鎖人形機器人？這篇論文中，作者提出的核心問題是：過去十年，深度學習浪潮下，大型神經(jīng)網(wǎng)絡已經(jīng)在互聯(lián)網(wǎng)多樣化的數(shù)據(jù)集上有了大量訓練成果，我們能否以類似的方式來學習強化大的感官和運動表示模型？回溯機器人的發(fā)展歷程，傳統(tǒng)機器人的運動高度依賴于人工輸入準確的預測接觸點和執(zhí)行器方向等信息。“拿杯子”這個動作對人類而言看似簡單，但對機器人而言卻是一個“大工程”。人類需要拆解動作，再告訴機器人每一個動作的具體細節(jié)，像這個動作的起點在哪里、手臂要如何移動等。這種方法帶來的問題是，機器人只能在人類規(guī)定的路徑中較好地運動和控制肢體動作，但跳出模擬世界后，機器人在真實世界就手足無措了，這個問題可簡單歸類到學術(shù)領域所討論的“泛化性”較差，不夠通用等問題。不只機器人，在人工智能符號主義學派的研究中，“泛化性”也是一個老大難的問題。而OpenAI發(fā)布的ChatGPT之所以驚艷，有一個核心原因就是其用暴力美學——疊加大量數(shù)據(jù)、算力、參數(shù)量，就讓模型對新事物表現(xiàn)出了泛化性極佳的“智能涌現(xiàn)”。如今，Ilija Radosavovic團隊試圖借鑒OpenAI在語言領域的做法，將現(xiàn)實世界中的仿人機器人控制視為一個“下一個token預測”問題，類似于語言中預測下一個單詞，來實現(xiàn)人形機器人的運動控制。該模型是一個通過自回歸預測訓練的causal transformer（因果轉(zhuǎn)換器）。由于訓練數(shù)據(jù)的多模態(tài)特性，該研究以模態(tài)對齊的方式進行預測，對于每個輸token，模型能夠預測相同模態(tài)的下一個token。這個方法讓模型更加通用，能夠利用缺失模態(tài)的數(shù)據(jù)，比如沒有動作的視頻軌跡。在視頻中，一個仿人形的雙足機器人已經(jīng)實現(xiàn)“零樣本學習”，正在舊金山“閑逛”。該模型即使只在27小時的行走數(shù)據(jù)上訓練，也能轉(zhuǎn)移到現(xiàn)實世界，并且能夠泛化到訓練期間未見過的命令，比如向后行走。這些發(fā)現(xiàn)為通過生成模型學習具有挑戰(zhàn)性的現(xiàn)實世界控制任務提供了一個有希望的路徑。仿人運動作為下一個標記預測該研究將現(xiàn)實世界中的仿人控制視為一個大型傳感器運動軌跡數(shù)據(jù)建模問題。與語言類似，研究人員訓練了一個通用的Transformer模型來自回歸地預測移位的輸入序列。與語言不同，機器人數(shù)據(jù)是高維的，包含多個感官模態(tài)和動作。研究人員將輸入軌跡token化，并訓練一個causal transformer（因果轉(zhuǎn)換器）模型來預測移位的標記（shifted token）。重要的是，模型能夠預測完整的輸入序列，包括感官和動作標記。該團隊是在建模聯(lián)合數(shù)據(jù)分布，而不是條件動作分布。點擊輸入圖片描述（最多30字）收集軌跡數(shù)據(jù)集，通過自回歸預測訓練Transformer模型，并將其部署在舊金山零樣本中一個通用的缺失數(shù)據(jù)處理框架該研究假設每個軌跡都是觀察和動作的序列，論文展示了該模型如何泛化到具有缺失模態(tài)的序列，比如從沒有動作的人類視頻中提取的軌跡。假設已經(jīng)獲取一個沒有動作的觀察軌跡，該團隊的關鍵洞察是，可以將沒有動作的軌跡視為帶有動作遮蔽的常規(guī)軌跡。這個軌跡具有與常規(guī)動作軌跡相同的格式，因此可以統(tǒng)一處理。該方法忽略了對應于輸入遮蔽部分的預測的損失。點擊輸入圖片描述（最多30字）該方法能夠統(tǒng)一地利用有或沒有動作的軌跡構(gòu)建軌跡數(shù)據(jù)集該團隊構(gòu)建了一個軌跡數(shù)據(jù)集用于訓練模型，有四大數(shù)據(jù)來源：先前的神經(jīng)網(wǎng)絡策略，基于模型的控制器，人類運動捕捉，以及YouTube上的人類視頻。不同數(shù)據(jù)源的插圖如下：該團隊構(gòu)建了一個來自四個不同來源的軌跡數(shù)據(jù)集不同來源的數(shù)據(jù)會提供不同維度的信息：點擊輸入圖片描述（最多30字）按照上述策略訓練的機器人已經(jīng)可以行走在不同的路面上，包括人行道、混凝土、瀝青、廣場和沙土路。有沒有實現(xiàn)ScalingLaw？論文中也提到了“Scaling”（擴展或縮放）相關的內(nèi)容，提到模型性能會隨著訓練數(shù)據(jù)集的大小、上下文長度以及模型大小的增加而變化。作者們發(fā)現(xiàn)，使用更多軌跡進行訓練可以減少位置跟蹤誤差，這是一個積極的信號，表明在更大的數(shù)據(jù)集上訓練可以提高性能。他們還研究了在Transformer的上下文窗口中使用不同數(shù)量的tokens對模型性能的影響。結(jié)果表明，更大的上下文窗口可以產(chǎn)生更好的策略，這表明生成策略在規(guī)模上進行一種上下文適應，隨著規(guī)模的增加而改善。此外，在參數(shù)規(guī)模方面，研究結(jié)果顯示，跟蹤誤差隨著模型參數(shù)規(guī)模增大而逐漸減少。點擊輸入圖片描述（最多30字）這些擴展研究的結(jié)果均表明，人形機器人模型可以從更大規(guī)模的數(shù)據(jù)集、更長的上下文窗口以及更大的模型中受益。人形機器人風暴?人形機器人正在硅谷刮起風暴，包括OpenAI、英偉達在內(nèi)的科技巨頭都在積極布局。2024年2月24日，英偉達宣布成立通用智能體研究實驗室（GEAR）。GEAR由英偉達高級科學家Jim Fan博士和Yuke Zhu教授領導，旨在虛擬和現(xiàn)實世界中構(gòu)建具身智能體基礎模型。GEAR的研究議程分為四個方面：（1）多模態(tài)基礎模型（2）通用機器人（3）虛擬世界中的基礎智能體（4）模擬和仿真數(shù)據(jù)的研究。英偉達CEO黃仁勛近日在采訪中表示，機器人基礎模型可能即將出現(xiàn)，或許是明年，“從那時起，五年后，將看到一些非常令人驚奇的事情”。Jim Fan也表示：“我們相信，在未來，每一臺移動的機器都將是自主的，機器人和模擬智能體將像iPhone一樣無處不在。我們正在構(gòu)建基礎智能體：一個具有通用能力的AI，可以在許多虛擬和現(xiàn)實的世界中學習如何熟練地行動。”同時，英偉達也開始通過投資延展其在人形機器人領域的觸角。2月29日，開發(fā)通用人形機器人的AI機器人公司Figure AI宣布，已在B輪融資中籌集了6.75億美元，估值為26億美元，投資方包括微軟、OpenAI Startup Fund、NVIDIA、Jeff Bezos（通過 Bezos Expeditions）、Parkway Venture Capital、Intel Capital、Align Ventures和ARK Invest。Figure AI成立于2022年，去年5月完成Parkway Venture Capital領投的7000萬美元融資；兩個月后，又獲英特爾900萬美元投資。從融資情況來看，這家成立僅一年多的機器人公司已經(jīng)成為硅谷創(chuàng)投圈一顆搶手的新星。此次，英偉達和OpenAI同時加碼，再一次印證了Figure AI的火爆。Figure AI同樣是一家野心勃勃的公司。“Figure AI的愿景是盡快將人形機器人引入商業(yè)運營，”該初創(chuàng)公司創(chuàng)始人兼首席執(zhí)行官布雷特·阿德科克 (Brett Adcock) 在最新一輪融資的聲明中表示。除投資外，F(xiàn)igure AI和OpenAI還達成了一項合作協(xié)議。此次合作旨在通過增強人形機器人處理和推理語言的能力，幫助加快Figure AI的商業(yè)化進程。布雷特·阿德科克表示，F(xiàn)igure AI開發(fā)的人工智能模型將基于OpenAI最新的GPT模型，并根據(jù)Figure AI收集的機器人動作數(shù)據(jù)進行專門訓練，以便其人形機器人能夠與人交談、看到事物并執(zhí)行物理任務。合作消息公布后，OpenAI CEO Greg Brokman也在 X 上轉(zhuǎn)發(fā)表示，OpenAI正在將多模態(tài)模型拓展到機器人上。點擊輸入圖片描述（最多30字）OpenAI 產(chǎn)品和合作伙伴關系副總裁Peter Welinder 表示：“我們一直計劃回歸機器人技術(shù)，我們通過Figure AI看到了一條探索人形機器人在高性能多模式模型支持下可以實現(xiàn)的目標的道路。”早在2022年，OpenAI便開始在人形機器人領域有所動作。OpenAI曾投資一家挪威類人機器人公司1X Technologies，雙方于2022年達成合作，使用AI模型為機器人添加智能。去年3月，1X Technologies獲得了由OpenAI創(chuàng)業(yè)基金領投的2350萬美元融資。今年年初，1X Technologies完成超1億美元的B輪融資，EQT Ventures、三星NEXT、Nistad集團、Sandwater、Skagerak Capital等參投。在國內(nèi)，也陸續(xù)有團隊試圖將LLM與機器人控制相融合。此前，「甲子光年」獨家獲悉，北京大學前沿計算機研究中心助理教授、博士生導師董豪團隊發(fā)布的最新具身大模型研究成果——ManipLLM的論文已被計算機視覺領域頂會CVPR 2024接收。“我們的大模型重點是為了解決可泛化的物體操作。”董豪告訴「甲子光年」。簡單來說，ManipLLM能讓機械臂等機器人聽懂人下達的任務命令，并根據(jù)其看到的圖像，做出相應的動作完成任務。同時，國內(nèi)人形機器人領域的融資消息也接連不斷。1月，星動紀元獲得超億元天使輪融資；2月，宇樹科技拿下近10億元B2輪融資，刷新賽道紀錄。不過，長久以來，人形機器人似乎一直都是“概念的高地，落地的洼地”——一邊是技術(shù)暢想高舉高打，一邊是產(chǎn)業(yè)落地上無聲無息。人們印象中關于人形機器人的畫面，似乎就是在全球各大高校的實驗室里奔跑、跳躍、翻跟頭、搬箱子......某種意義上，“落地難”似乎成為這條賽道所有創(chuàng)業(yè)者的“原罪”。歸根結(jié)底，人形機器人雖然乘著大模型、具身智能的新浪潮一路繁花似錦，但真正從實驗室走向產(chǎn)線的過程中，人形機器人依然逃不過減速器、執(zhí)行器、電機等機械結(jié)構(gòu)的掣肘。機械結(jié)構(gòu)的迭代并不遵守“摩爾定律”和Scaling law，更多是緩慢的線性變化。不過，作為人工智能在現(xiàn)實世界的終極體現(xiàn)，人形機器人的未來依然值得期待，正如Figure AI所說：“我們公司的征程將需要幾十年的時間，我們面臨著很高的風險和極低的成功機會。然而，如果我們成功了，我們有可能對人類產(chǎn)生積極影響，并建立地球上最大的公司。”克利團隊發(fā)布最新論文，用訓練GPT的方法訓練人形機器人

一臺人形機器人在人行道、混凝土、瀝青、廣場和沙路上“散步”，這不是科幻電影的場景，而是已經(jīng)發(fā)生在舊金山街頭的真實事件。

這一人形機器人項目也引起了Sora團隊的注意。

“不可思議的成果！”Sora負責人之一Bill Peebles在 X 轉(zhuǎn)發(fā)了這條內(nèi)容，難掩驚訝。另一位核心作者Tim Brooks也評論道：“Ilija Radosavovic的驚人成果把AI帶入了真實世界。”

Ilija Radosavovic（伊利亞·拉多薩沃維奇）是該人形機器人項目的負責人之一，他是加州大學伯克利分校博士生，曾在Meta的AI實驗室FAIR做研究工程師。

這篇論文名為《Humanoid Locomotion as Next Token Prediction》。Ilija Radosavovic表示，論文的核心思想，就是把OpenAI訓練ChatGPT時所用到的“預測下一個token”的思路，用在人形機器人的運動控制中。

這被稱為“自回歸生成式”路線，最大的特色是可以根據(jù)“Scaling Law”——擴大模型的參數(shù)、數(shù)據(jù)、算力來提升模型的效果，也被稱為“暴力美學”。不過，對于“暴力美學”的前景，目前在業(yè)內(nèi)存在一定的爭議。

目前來看，Scaling Law已經(jīng)先后突破了文本生成和視頻生成，接下來又會突破人形機器人的運動控制嗎？

“暴力美學”解鎖人形機器人？

這篇論文中，作者提出的核心問題是：

過去十年，深度學習浪潮下，大型神經(jīng)網(wǎng)絡已經(jīng)在互聯(lián)網(wǎng)多樣化的數(shù)據(jù)集上有了大量訓練成果，我們能否以類似的方式來學習強化大的感官和運動表示模型？

回溯機器人的發(fā)展歷程，傳統(tǒng)機器人的運動高度依賴于人工輸入準確的預測接觸點和執(zhí)行器方向等信息。“拿杯子”這個動作對人類而言看似簡單，但對機器人而言卻是一個“大工程”。人類需要拆解動作，再告訴機器人每一個動作的具體細節(jié)，像這個動作的起點在哪里、手臂要如何移動等。

這種方法帶來的問題是，機器人只能在人類規(guī)定的路徑中較好地運動和控制肢體動作，但跳出模擬世界后，機器人在真實世界就手足無措了，這個問題可簡單歸類到學術(shù)領域所討論的“泛化性”較差，不夠通用等問題。

不只機器人，在人工智能符號主義學派的研究中，“泛化性”也是一個老大難的問題。而OpenAI發(fā)布的ChatGPT之所以驚艷，有一個核心原因就是其用暴力美學——疊加大量數(shù)據(jù)、算力、參數(shù)量，就讓模型對新事物表現(xiàn)出了泛化性極佳的“智能涌現(xiàn)”。

如今，Ilija Radosavovic團隊試圖借鑒OpenAI在語言領域的做法，將現(xiàn)實世界中的仿人機器人控制視為一個“下一個token預測”問題，類似于語言中預測下一個單詞，來實現(xiàn)人形機器人的運動控制。

該模型是一個通過自回歸預測訓練的causal transformer（因果轉(zhuǎn)換器）。

由于訓練數(shù)據(jù)的多模態(tài)特性，該研究以模態(tài)對齊的方式進行預測，對于每個輸token，模型能夠預測相同模態(tài)的下一個token。這個方法讓模型更加通用，能夠利用缺失模態(tài)的數(shù)據(jù)，比如沒有動作的視頻軌跡。

在視頻中，一個仿人形的雙足機器人已經(jīng)實現(xiàn)“零樣本學習”，正在舊金山“閑逛”。

該模型即使只在27小時的行走數(shù)據(jù)上訓練，也能轉(zhuǎn)移到現(xiàn)實世界，并且能夠泛化到訓練期間未見過的命令，比如向后行走。這些發(fā)現(xiàn)為通過生成模型學習具有挑戰(zhàn)性的現(xiàn)實世界控制任務提供了一個有希望的路徑。

仿人運動作為下一個標記預測

該研究將現(xiàn)實世界中的仿人控制視為一個大型傳感器運動軌跡數(shù)據(jù)建模問題。

與語言類似，研究人員訓練了一個通用的Transformer模型來自回歸地預測移位的輸入序列。與語言不同，機器人數(shù)據(jù)是高維的，包含多個感官模態(tài)和動作。

研究人員將輸入軌跡token化，并訓練一個causal transformer（因果轉(zhuǎn)換器）模型來預測移位的標記（shifted token）。

重要的是，模型能夠預測完整的輸入序列，包括感官和動作標記。該團隊是在建模聯(lián)合數(shù)據(jù)分布，而不是條件動作分布。

收集軌跡數(shù)據(jù)集，通過自回歸預測訓練Transformer模型，并將其部署在舊金山零樣本中

一個通用的缺失數(shù)據(jù)處理框架

該研究假設每個軌跡都是觀察和動作的序列，論文展示了該模型如何泛化到具有缺失模態(tài)的序列，比如從沒有動作的人類視頻中提取的軌跡。

假設已經(jīng)獲取一個沒有動作的觀察軌跡，該團隊的關鍵洞察是，可以將沒有動作的軌跡視為帶有動作遮蔽的常規(guī)軌跡。這個軌跡具有與常規(guī)動作軌跡相同的格式，因此可以統(tǒng)一處理。該方法忽略了對應于輸入遮蔽部分的預測的損失。

該方法能夠統(tǒng)一地利用有或沒有動作的軌跡

構(gòu)建軌跡數(shù)據(jù)集

該團隊構(gòu)建了一個軌跡數(shù)據(jù)集用于訓練模型，有四大數(shù)據(jù)來源：先前的神經(jīng)網(wǎng)絡策略，基于模型的控制器，人類運動捕捉，以及YouTube上的人類視頻。

不同數(shù)據(jù)源的插圖如下：

該團隊構(gòu)建了一個來自四個不同來源的軌跡數(shù)據(jù)集

不同來源的數(shù)據(jù)會提供不同維度的信息：

按照上述策略訓練的機器人已經(jīng)可以行走在不同的表面上，包括人行道、混凝土、瀝青、廣場和沙土路。

有沒有實現(xiàn)ScalingLaw？

論文中也提到了“Scaling”（擴展或縮放）相關的內(nèi)容，提到模型性能會隨著訓練數(shù)據(jù)集的大小、上下文長度以及模型大小的增加而變化。

作者們發(fā)現(xiàn)，使用更多軌跡進行訓練可以減少位置跟蹤誤差，這是一個積極的信號，表明在更大的數(shù)據(jù)集上訓練可以提高性能。

他們還研究了在Transformer的上下文窗口中使用不同數(shù)量的tokens對模型性能的影響。結(jié)果表明，更大的上下文窗口可以產(chǎn)生更好的策略，這表明生成策略在規(guī)模上進行一種上下文適應，隨著規(guī)模的增加而改善。

此外，在參數(shù)規(guī)模方面，研究結(jié)果顯示，跟蹤誤差隨著模型參數(shù)規(guī)模增大而逐漸減少。

這些擴展研究的結(jié)果均表明，人形機器人模型可以從更大規(guī)模的數(shù)據(jù)集、更長的上下文窗口以及更大的模型中受益。

人形機器人風暴?

人形機器人正在硅谷刮起風暴，包括OpenAI、英偉達在內(nèi)的科技巨頭都在積極布局。

2024年2月24日，英偉達宣布成立通用智能體研究實驗室（GEAR）。

GEAR由英偉達高級科學家Jim Fan博士和Yuke Zhu教授領導，旨在虛擬和現(xiàn)實世界中構(gòu)建具身智能體基礎模型。GEAR的研究議程分為四個方面：

（1）多模態(tài)基礎模型

（2）通用機器人

（3）虛擬世界中的基礎智能體

（4）模擬和仿真數(shù)據(jù)的研究。

英偉達CEO黃仁勛近日在采訪中表示，機器人基礎模型可能即將出現(xiàn)，或許是明年，“從那時起，五年后，將看到一些非常令人驚奇的事情”。

Jim Fan也表示：“我們相信，在未來，每一臺移動的機器都將是自主的，機器人和模擬智能體將像iPhone一樣無處不在。我們正在構(gòu)建基礎智能體：一個具有通用能力的AI，可以在許多虛擬和現(xiàn)實的世界中學習如何熟練地行動。”

同時，英偉達也開始通過投資延展其在人形機器人領域的觸角。

2月29日，開發(fā)通用人形機器人的AI機器人公司Figure AI宣布，已在B輪融資中籌集了6.75億美元，估值為26億美元，投資方包括微軟、OpenAI Startup Fund、NVIDIA、Jeff Bezos（通過 Bezos Expeditions）、Parkway Venture Capital、Intel Capital、Align Ventures和ARK Invest。

Figure AI成立于2022年，去年5月完成Parkway Venture Capital領投的7000萬美元融資；兩個月后，又獲英特爾900萬美元投資。

從融資情況來看，這家成立僅一年多的機器人公司已經(jīng)成為硅谷創(chuàng)投圈一顆搶手的新星。此次，英偉達和OpenAI同時加碼，再一次印證了Figure AI的火爆。

Figure AI同樣是一家野心勃勃的公司。“Figure AI的愿景是盡快將人形機器人引入商業(yè)運營，”該初創(chuàng)公司創(chuàng)始人兼首席執(zhí)行官布雷特·阿德科克 (Brett Adcock) 在最新一輪融資的聲明中表示。

除投資外，F(xiàn)igure AI和OpenAI還達成了一項合作協(xié)議。此次合作旨在通過增強人形機器人處理和推理語言的能力，幫助加快Figure AI的商業(yè)化進程。

布雷特·阿德科克表示，F(xiàn)igure AI開發(fā)的人工智能模型將基于OpenAI最新的GPT模型，并根據(jù)Figure AI收集的機器人動作數(shù)據(jù)進行專門訓練，以便其人形機器人能夠與人交談、看到事物并執(zhí)行物理任務。

合作消息公布后，OpenAI CEO Greg Brokman也在 X 上轉(zhuǎn)發(fā)表示，OpenAI正在將多模態(tài)模型拓展到機器人上。

OpenAI 產(chǎn)品和合作伙伴關系副總裁Peter Welinder 表示：“我們一直計劃回歸機器人技術(shù)，我們通過Figure AI看到了一條探索人形機器人在高性能多模式模型支持下可以實現(xiàn)的目標的道路。”

早在2022年，OpenAI便開始在人形機器人領域有所動作。OpenAI曾投資一家挪威類人機器人公司1X Technologies，雙方于2022年達成合作，使用AI模型為機器人添加智能。去年3月，1X Technologies獲得了由OpenAI創(chuàng)業(yè)基金領投的2350萬美元融資。

今年年初，1X Technologies完成超1億美元的B輪融資，EQT Ventures、三星NEXT、Nistad集團、Sandwater、Skagerak Capital等參投。

在國內(nèi)，也陸續(xù)有團隊試圖將LLM與機器人控制相融合。

此前，「甲子光年」獨家獲悉，北京大學前沿計算機研究中心助理教授、博士生導師董豪團隊發(fā)布的最新具身大模型研究成果——ManipLLM的論文已被計算機視覺領域頂會CVPR 2024接收。

“我們的大模型重點是為了解決可泛化的物體操作。”董豪告訴「甲子光年」。簡單來說，ManipLLM能讓機械臂等機器人聽懂人下達的任務命令，并根據(jù)其看到的圖像，做出相應的動作完成任務。

同時，國內(nèi)人形機器人領域的融資消息也接連不斷。1月，星動紀元獲得超億元天使輪融資；2月，宇樹科技拿下近10億元B2輪融資，刷新賽道紀錄。

不過，長久以來，人形機器人似乎一直都是“概念的高地，落地的洼地”——一邊是技術(shù)暢想高舉高打，一邊是產(chǎn)業(yè)落地上無聲無息。人們印象中關于人形機器人的畫面，似乎就是在全球各大高校的實驗室里奔跑、跳躍、翻跟頭、搬箱子......

某種意義上，“落地難”似乎成為這條賽道所有創(chuàng)業(yè)者的“原罪”。

歸根結(jié)底，人形機器人雖然乘著大模型、具身智能的新浪潮一路繁花似錦，但真正從實驗室走向產(chǎn)線的過程中，人形機器人依然逃不過減速器、執(zhí)行器、電機等機械結(jié)構(gòu)的掣肘。機械結(jié)構(gòu)的迭代并不遵守“摩爾定律”和Scaling law，更多是緩慢的線性變化。

不過，作為人工智能在現(xiàn)實世界的終極體現(xiàn)，人形機器人的未來依然值得期待，正如Figure AI所說：

“我們公司的征程將需要幾十年的時間，我們面臨著很高的風險和極低的成功機會。然而，如果我們成功了，我們有可能對人類產(chǎn)生積極影響，并建立地球上最大的公司。”

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.