點擊輸入圖片描述(最多30字)圖片來源@視覺中國文 | 甲子光年科技產(chǎn)業(yè)智庫,作者|劉楊楠,編輯|趙健一臺人形機器人在人行道、混凝土、瀝青、廣場和沙路上“散步”,這不是科幻電影的場景,而是已經(jīng)發(fā)生在舊金山街頭的真實事件。這一人形機器人項目也引起了Sora團隊的注意。“不可思議的成果!”Sora負責人之一Bill Peebles在 X 轉(zhuǎn)發(fā)了這條內(nèi)容,難掩驚訝。另一位核心作者Tim Brooks也評論道:“Ilija Radosavovic的驚人成果把AI帶入了真實世界。”點擊輸入圖片描述(最多30字)Ilija Radosavovic(伊利亞·拉多薩沃維奇)是該人形機器人項目的負責人之一,他是加州大學伯克利分校博士生,曾在Meta的AI實驗室FAIR做研究工程師。這篇論文名為《Humanoid Locomotion as Next Token Prediction》。Ilija Radosavovic表示,論文的核心思想,就是把OpenAI訓練ChatGPT時所用到的“預測下一個token”的思路,用在人形機器人的運動控制中。這被稱為“自回歸生成式”路線,最大的特色是可以根據(jù)“Scaling Law”——擴大模型的參數(shù)、數(shù)據(jù)、算力來提升模型的效果,也被稱為“暴力美學”。不過,對于“暴力美學”的前景,目前在業(yè)內(nèi)存在一定的爭議。目前來看,Scaling Law已經(jīng)先后突破了文本生成和視頻生成,接下來又會突破人形機器人的運動控制嗎?“暴力美學”解鎖人形機器人?這篇論文中,作者提出的核心問題是:過去十年,深度學習浪潮下,大型神經(jīng)網(wǎng)絡已經(jīng)在互聯(lián)網(wǎng)多樣化的數(shù)據(jù)集上有了大量訓練成果,我們能否以類似的方式來學習強化大的感官和運動表示模型?回溯機器人的發(fā)展歷程,傳統(tǒng)機器人的運動高度依賴于人工輸入準確的預測接觸點和執(zhí)行器方向等信息。“拿杯子”這個動作對人類而言看似簡單,但對機器人而言卻是一個“大工程”。人類需要拆解動作,再告訴機器人每一個動作的具體細節(jié),像這個動作的起點在哪里、手臂要如何移動等。這種方法帶來的問題是,機器人只能在人類規(guī)定的路徑中較好地運動和控制肢體動作,但跳出模擬世界后,機器人在真實世界就手足無措了,這個問題可簡單歸類到學術(shù)領域所討論的“泛化性”較差,不夠通用等問題。不只機器人,在人工智能符號主義學派的研究中,“泛化性”也是一個老大難的問題。而OpenAI發(fā)布的ChatGPT之所以驚艷,有一個核心原因就是其用暴力美學——疊加大量數(shù)據(jù)、算力、參數(shù)量,就讓模型對新事物表現(xiàn)出了泛化性極佳的“智能涌現(xiàn)”。如今,Ilija Radosavovic團隊試圖借鑒OpenAI在語言領域的做法,將現(xiàn)實世界中的仿人機器人控制視為一個“下一個token預測”問題,類似于語言中預測下一個單詞,來實現(xiàn)人形機器人的運動控制。該模型是一個通過自回歸預測訓練的causal transformer(因果轉(zhuǎn)換器)。由于訓練數(shù)據(jù)的多模態(tài)特性,該研究以模態(tài)對齊的方式進行預測,對于每個輸token,模型能夠預測相同模態(tài)的下一個token。這個方法讓模型更加通用,能夠利用缺失模態(tài)的數(shù)據(jù),比如沒有動作的視頻軌跡。在視頻中,一個仿人形的雙足機器人已經(jīng)實現(xiàn)“零樣本學習”,正在舊金山“閑逛”。該模型即使只在27小時的行走數(shù)據(jù)上訓練,也能轉(zhuǎn)移到現(xiàn)實世界,并且能夠泛化到訓練期間未見過的命令,比如向后行走。這些發(fā)現(xiàn)為通過生成模型學習具有挑戰(zhàn)性的現(xiàn)實世界控制任務提供了一個有希望的路徑。仿人運動作為下一個標記預測該研究將現(xiàn)實世界中的仿人控制視為一個大型傳感器運動軌跡數(shù)據(jù)建模問題。與語言類似,研究人員訓練了一個通用的Transformer模型來自回歸地預測移位的輸入序列。與語言不同,機器人數(shù)據(jù)是高維的,包含多個感官模態(tài)和動作。研究人員將輸入軌跡token化,并訓練一個causal transformer(因果轉(zhuǎn)換器)模型來預測移位的標記(shifted token)。重要的是,模型能夠預測完整的輸入序列,包括感官和動作標記。該團隊是在建模聯(lián)合數(shù)據(jù)分布,而不是條件動作分布。點擊輸入圖片描述(最多30字)收集軌跡數(shù)據(jù)集,通過自回歸預測訓練Transformer模型,并將其部署在舊金山零樣本中一個通用的缺失數(shù)據(jù)處理框架該研究假設每個軌跡都是觀察和動作的序列,論文展示了該模型如何泛化到具有缺失模態(tài)的序列,比如從沒有動作的人類視頻中提取的軌跡。假設已經(jīng)獲取一個沒有動作的觀察軌跡,該團隊的關鍵洞察是,可以將沒有動作的軌跡視為帶有動作遮蔽的常規(guī)軌跡。這個軌跡具有與常規(guī)動作軌跡相同的格式,因此可以統(tǒng)一處理。該方法忽略了對應于輸入遮蔽部分的預測的損失。點擊輸入圖片描述(最多30字)該方法能夠統(tǒng)一地利用有或沒有動作的軌跡構(gòu)建軌跡數(shù)據(jù)集該團隊構(gòu)建了一個軌跡數(shù)據(jù)集用于訓練模型,有四大數(shù)據(jù)來源:先前的神經(jīng)網(wǎng)絡策略,基于模型的控制器,人類運動捕捉,以及YouTube上的人類視頻。不同數(shù)據(jù)源的插圖如下:該團隊構(gòu)建了一個來自四個不同來源的軌跡數(shù)據(jù)集不同來源的數(shù)據(jù)會提供不同維度的信息:點擊輸入圖片描述(最多30字)按照上述策略訓練的機器人已經(jīng)可以行走在不同的路面上,包括人行道、混凝土、瀝青、廣場和沙土路。有沒有實現(xiàn)ScalingLaw?論文中也提到了“Scaling”(擴展或縮放)相關的內(nèi)容,提到模型性能會隨著訓練數(shù)據(jù)集的大小、上下文長度以及模型大小的增加而變化。作者們發(fā)現(xiàn),使用更多軌跡進行訓練可以減少位置跟蹤誤差,這是一個積極的信號,表明在更大的數(shù)據(jù)集上訓練可以提高性能。他們還研究了在Transformer的上下文窗口中使用不同數(shù)量的tokens對模型性能的影響。結(jié)果表明,更大的上下文窗口可以產(chǎn)生更好的策略,這表明生成策略在規(guī)模上進行一種上下文適應,隨著規(guī)模的增加而改善。此外,在參數(shù)規(guī)模方面,研究結(jié)果顯示,跟蹤誤差隨著模型參數(shù)規(guī)模增大而逐漸減少。點擊輸入圖片描述(最多30字)這些擴展研究的結(jié)果均表明,人形機器人模型可以從更大規(guī)模的數(shù)據(jù)集、更長的上下文窗口以及更大的模型中受益。人形機器人風暴?人形機器人正在硅谷刮起風暴,包括OpenAI、英偉達在內(nèi)的科技巨頭都在積極布局。2024年2月24日,英偉達宣布成立通用智能體研究實驗室(GEAR)。GEAR由英偉達高級科學家Jim Fan博士和Yuke Zhu教授領導,旨在虛擬和現(xiàn)實世界中構(gòu)建具身智能體基礎模型。GEAR的研究議程分為四個方面:(1)多模態(tài)基礎模型(2)通用機器人(3)虛擬世界中的基礎智能體(4)模擬和仿真數(shù)據(jù)的研究。英偉達CEO黃仁勛近日在采訪中表示,機器人基礎模型可能即將出現(xiàn),或許是明年,“從那時起,五年后,將看到一些非常令人驚奇的事情”。Jim Fan也表示:“我們相信,在未來,每一臺移動的機器都將是自主的,機器人和模擬智能體將像iPhone一樣無處不在。我們正在構(gòu)建基礎智能體:一個具有通用能力的AI,可以在許多虛擬和現(xiàn)實的世界中學習如何熟練地行動。”同時,英偉達也開始通過投資延展其在人形機器人領域的觸角。2月29日,開發(fā)通用人形機器人的AI機器人公司Figure AI宣布,已在B輪融資中籌集了6.75億美元,估值為26億美元,投資方包括微軟、OpenAI Startup Fund、NVIDIA、Jeff Bezos(通過 Bezos Expeditions)、Parkway Venture Capital、Intel Capital、Align Ventures和ARK Invest。Figure AI成立于2022年,去年5月完成Parkway Venture Capital領投的7000萬美元融資;兩個月后,又獲英特爾900萬美元投資。從融資情況來看,這家成立僅一年多的機器人公司已經(jīng)成為硅谷創(chuàng)投圈一顆搶手的新星。此次,英偉達和OpenAI同時加碼,再一次印證了Figure AI的火爆。Figure AI同樣是一家野心勃勃的公司。“Figure AI的愿景是盡快將人形機器人引入商業(yè)運營,”該初創(chuàng)公司創(chuàng)始人兼首席執(zhí)行官布雷特·阿德科克 (Brett Adcock) 在最新一輪融資的聲明中表示。除投資外,F(xiàn)igure AI和OpenAI還達成了一項合作協(xié)議。此次合作旨在通過增強人形機器人處理和推理語言的能力,幫助加快Figure AI的商業(yè)化進程。布雷特·阿德科克表示,F(xiàn)igure AI開發(fā)的人工智能模型將基于OpenAI最新的GPT模型,并根據(jù)Figure AI收集的機器人動作數(shù)據(jù)進行專門訓練,以便其人形機器人能夠與人交談、看到事物并執(zhí)行物理任務。合作消息公布后,OpenAI CEO Greg Brokman也在 X 上轉(zhuǎn)發(fā)表示,OpenAI正在將多模態(tài)模型拓展到機器人上。點擊輸入圖片描述(最多30字)OpenAI 產(chǎn)品和合作伙伴關系副總裁Peter Welinder 表示:“我們一直計劃回歸機器人技術(shù),我們通過Figure AI看到了一條探索人形機器人在高性能多模式模型支持下可以實現(xiàn)的目標的道路。”早在2022年,OpenAI便開始在人形機器人領域有所動作。OpenAI曾投資一家挪威類人機器人公司1X Technologies,雙方于2022年達成合作,使用AI模型為機器人添加智能。去年3月,1X Technologies獲得了由OpenAI創(chuàng)業(yè)基金領投的2350萬美元融資。今年年初,1X Technologies完成超1億美元的B輪融資,EQT Ventures、三星NEXT、Nistad集團、Sandwater、Skagerak Capital等參投。在國內(nèi),也陸續(xù)有團隊試圖將LLM與機器人控制相融合。此前,「甲子光年」獨家獲悉,北京大學前沿計算機研究中心助理教授、博士生導師董豪團隊發(fā)布的最新具身大模型研究成果——ManipLLM的論文已被計算機視覺領域頂會CVPR 2024接收。“我們的大模型重點是為了解決可泛化的物體操作。”董豪告訴「甲子光年」。簡單來說,ManipLLM能讓機械臂等機器人聽懂人下達的任務命令,并根據(jù)其看到的圖像,做出相應的動作完成任務。同時,國內(nèi)人形機器人領域的融資消息也接連不斷。1月,星動紀元獲得超億元天使輪融資;2月,宇樹科技拿下近10億元B2輪融資,刷新賽道紀錄。不過,長久以來,人形機器人似乎一直都是“概念的高地,落地的洼地”——一邊是技術(shù)暢想高舉高打,一邊是產(chǎn)業(yè)落地上無聲無息。人們印象中關于人形機器人的畫面,似乎就是在全球各大高校的實驗室里奔跑、跳躍、翻跟頭、搬箱子......某種意義上,“落地難”似乎成為這條賽道所有創(chuàng)業(yè)者的“原罪”。歸根結(jié)底,人形機器人雖然乘著大模型、具身智能的新浪潮一路繁花似錦,但真正從實驗室走向產(chǎn)線的過程中,人形機器人依然逃不過減速器、執(zhí)行器、電機等機械結(jié)構(gòu)的掣肘。機械結(jié)構(gòu)的迭代并不遵守“摩爾定律”和Scaling law,更多是緩慢的線性變化。不過,作為人工智能在現(xiàn)實世界的終極體現(xiàn),人形機器人的未來依然值得期待,正如Figure AI所說:“我們公司的征程將需要幾十年的時間,我們面臨著很高的風險和極低的成功機會。然而,如果我們成功了,我們有可能對人類產(chǎn)生積極影響,并建立地球上最大的公司。”克利團隊發(fā)布最新論文,用訓練GPT的方法訓練人形機器人
![]()
一臺人形機器人在人行道、混凝土、瀝青、廣場和沙路上“散步”,這不是科幻電影的場景,而是已經(jīng)發(fā)生在舊金山街頭的真實事件。
這一人形機器人項目也引起了Sora團隊的注意。
“不可思議的成果!”Sora負責人之一Bill Peebles在 X 轉(zhuǎn)發(fā)了這條內(nèi)容,難掩驚訝。另一位核心作者Tim Brooks也評論道:“Ilija Radosavovic的驚人成果把AI帶入了真實世界。”
![]()
Ilija Radosavovic(伊利亞·拉多薩沃維奇)是該人形機器人項目的負責人之一,他是加州大學伯克利分校博士生,曾在Meta的AI實驗室FAIR做研究工程師。
這篇論文名為《Humanoid Locomotion as Next Token Prediction》。Ilija Radosavovic表示,論文的核心思想,就是把OpenAI訓練ChatGPT時所用到的“預測下一個token”的思路,用在人形機器人的運動控制中。
這被稱為“自回歸生成式”路線,最大的特色是可以根據(jù)“Scaling Law”——擴大模型的參數(shù)、數(shù)據(jù)、算力來提升模型的效果,也被稱為“暴力美學”。不過,對于“暴力美學”的前景,目前在業(yè)內(nèi)存在一定的爭議。
目前來看,Scaling Law已經(jīng)先后突破了文本生成和視頻生成,接下來又會突破人形機器人的運動控制嗎?
“暴力美學”解鎖人形機器人?
這篇論文中,作者提出的核心問題是:
過去十年,深度學習浪潮下,大型神經(jīng)網(wǎng)絡已經(jīng)在互聯(lián)網(wǎng)多樣化的數(shù)據(jù)集上有了大量訓練成果,我們能否以類似的方式來學習強化大的感官和運動表示模型?
回溯機器人的發(fā)展歷程,傳統(tǒng)機器人的運動高度依賴于人工輸入準確的預測接觸點和執(zhí)行器方向等信息。“拿杯子”這個動作對人類而言看似簡單,但對機器人而言卻是一個“大工程”。人類需要拆解動作,再告訴機器人每一個動作的具體細節(jié),像這個動作的起點在哪里、手臂要如何移動等。
這種方法帶來的問題是,機器人只能在人類規(guī)定的路徑中較好地運動和控制肢體動作,但跳出模擬世界后,機器人在真實世界就手足無措了,這個問題可簡單歸類到學術(shù)領域所討論的“泛化性”較差,不夠通用等問題。
不只機器人,在人工智能符號主義學派的研究中,“泛化性”也是一個老大難的問題。而OpenAI發(fā)布的ChatGPT之所以驚艷,有一個核心原因就是其用暴力美學——疊加大量數(shù)據(jù)、算力、參數(shù)量,就讓模型對新事物表現(xiàn)出了泛化性極佳的“智能涌現(xiàn)”。
如今,Ilija Radosavovic團隊試圖借鑒OpenAI在語言領域的做法,將現(xiàn)實世界中的仿人機器人控制視為一個“下一個token預測”問題,類似于語言中預測下一個單詞,來實現(xiàn)人形機器人的運動控制。
該模型是一個通過自回歸預測訓練的causal transformer(因果轉(zhuǎn)換器)。
由于訓練數(shù)據(jù)的多模態(tài)特性,該研究以模態(tài)對齊的方式進行預測,對于每個輸token,模型能夠預測相同模態(tài)的下一個token。這個方法讓模型更加通用,能夠利用缺失模態(tài)的數(shù)據(jù),比如沒有動作的視頻軌跡。
在視頻中,一個仿人形的雙足機器人已經(jīng)實現(xiàn)“零樣本學習”,正在舊金山“閑逛”。
該模型即使只在27小時的行走數(shù)據(jù)上訓練,也能轉(zhuǎn)移到現(xiàn)實世界,并且能夠泛化到訓練期間未見過的命令,比如向后行走。這些發(fā)現(xiàn)為通過生成模型學習具有挑戰(zhàn)性的現(xiàn)實世界控制任務提供了一個有希望的路徑。
- 仿人運動作為下一個標記預測
該研究將現(xiàn)實世界中的仿人控制視為一個大型傳感器運動軌跡數(shù)據(jù)建模問題。
與語言類似,研究人員訓練了一個通用的Transformer模型來自回歸地預測移位的輸入序列。與語言不同,機器人數(shù)據(jù)是高維的,包含多個感官模態(tài)和動作。
研究人員將輸入軌跡token化,并訓練一個causal transformer(因果轉(zhuǎn)換器)模型來預測移位的標記(shifted token)。
重要的是,模型能夠預測完整的輸入序列,包括感官和動作標記。該團隊是在建模聯(lián)合數(shù)據(jù)分布,而不是條件動作分布。
![]()
收集軌跡數(shù)據(jù)集,通過自回歸預測訓練Transformer模型,并將其部署在舊金山零樣本中
- 一個通用的缺失數(shù)據(jù)處理框架
該研究假設每個軌跡都是觀察和動作的序列,論文展示了該模型如何泛化到具有缺失模態(tài)的序列,比如從沒有動作的人類視頻中提取的軌跡。
假設已經(jīng)獲取一個沒有動作的觀察軌跡,該團隊的關鍵洞察是,可以將沒有動作的軌跡視為帶有動作遮蔽的常規(guī)軌跡。這個軌跡具有與常規(guī)動作軌跡相同的格式,因此可以統(tǒng)一處理。該方法忽略了對應于輸入遮蔽部分的預測的損失。
![]()
該方法能夠統(tǒng)一地利用有或沒有動作的軌跡
- 構(gòu)建軌跡數(shù)據(jù)集
該團隊構(gòu)建了一個軌跡數(shù)據(jù)集用于訓練模型,有四大數(shù)據(jù)來源:先前的神經(jīng)網(wǎng)絡策略,基于模型的控制器,人類運動捕捉,以及YouTube上的人類視頻。
不同數(shù)據(jù)源的插圖如下:
該團隊構(gòu)建了一個來自四個不同來源的軌跡數(shù)據(jù)集
不同來源的數(shù)據(jù)會提供不同維度的信息:
![]()
按照上述策略訓練的機器人已經(jīng)可以行走在不同的表面上,包括人行道、混凝土、瀝青、廣場和沙土路。
- 有沒有實現(xiàn)ScalingLaw?
論文中也提到了“Scaling”(擴展或縮放)相關的內(nèi)容,提到模型性能會隨著訓練數(shù)據(jù)集的大小、上下文長度以及模型大小的增加而變化。
作者們發(fā)現(xiàn),使用更多軌跡進行訓練可以減少位置跟蹤誤差,這是一個積極的信號,表明在更大的數(shù)據(jù)集上訓練可以提高性能。
他們還研究了在Transformer的上下文窗口中使用不同數(shù)量的tokens對模型性能的影響。結(jié)果表明,更大的上下文窗口可以產(chǎn)生更好的策略,這表明生成策略在規(guī)模上進行一種上下文適應,隨著規(guī)模的增加而改善。
此外,在參數(shù)規(guī)模方面,研究結(jié)果顯示,跟蹤誤差隨著模型參數(shù)規(guī)模增大而逐漸減少。
![]()
這些擴展研究的結(jié)果均表明,人形機器人模型可以從更大規(guī)模的數(shù)據(jù)集、更長的上下文窗口以及更大的模型中受益。
人形機器人風暴?
人形機器人正在硅谷刮起風暴,包括OpenAI、英偉達在內(nèi)的科技巨頭都在積極布局。
2024年2月24日,英偉達宣布成立通用智能體研究實驗室(GEAR)。
GEAR由英偉達高級科學家Jim Fan博士和Yuke Zhu教授領導,旨在虛擬和現(xiàn)實世界中構(gòu)建具身智能體基礎模型。GEAR的研究議程分為四個方面:
(1)多模態(tài)基礎模型
(2)通用機器人
(3)虛擬世界中的基礎智能體
(4)模擬和仿真數(shù)據(jù)的研究。
英偉達CEO黃仁勛近日在采訪中表示,機器人基礎模型可能即將出現(xiàn),或許是明年,“從那時起,五年后,將看到一些非常令人驚奇的事情”。
Jim Fan也表示:“我們相信,在未來,每一臺移動的機器都將是自主的,機器人和模擬智能體將像iPhone一樣無處不在。我們正在構(gòu)建基礎智能體:一個具有通用能力的AI,可以在許多虛擬和現(xiàn)實的世界中學習如何熟練地行動。”
同時,英偉達也開始通過投資延展其在人形機器人領域的觸角。
2月29日,開發(fā)通用人形機器人的AI機器人公司Figure AI宣布,已在B輪融資中籌集了6.75億美元,估值為26億美元,投資方包括微軟、OpenAI Startup Fund、NVIDIA、Jeff Bezos(通過 Bezos Expeditions)、Parkway Venture Capital、Intel Capital、Align Ventures和ARK Invest。
Figure AI成立于2022年,去年5月完成Parkway Venture Capital領投的7000萬美元融資;兩個月后,又獲英特爾900萬美元投資。
從融資情況來看,這家成立僅一年多的機器人公司已經(jīng)成為硅谷創(chuàng)投圈一顆搶手的新星。此次,英偉達和OpenAI同時加碼,再一次印證了Figure AI的火爆。
Figure AI同樣是一家野心勃勃的公司。“Figure AI的愿景是盡快將人形機器人引入商業(yè)運營,”該初創(chuàng)公司創(chuàng)始人兼首席執(zhí)行官布雷特·阿德科克 (Brett Adcock) 在最新一輪融資的聲明中表示。
除投資外,F(xiàn)igure AI和OpenAI還達成了一項合作協(xié)議。此次合作旨在通過增強人形機器人處理和推理語言的能力,幫助加快Figure AI的商業(yè)化進程。
布雷特·阿德科克表示,F(xiàn)igure AI開發(fā)的人工智能模型將基于OpenAI最新的GPT模型,并根據(jù)Figure AI收集的機器人動作數(shù)據(jù)進行專門訓練,以便其人形機器人能夠與人交談、看到事物并執(zhí)行物理任務。
合作消息公布后,OpenAI CEO Greg Brokman也在 X 上轉(zhuǎn)發(fā)表示,OpenAI正在將多模態(tài)模型拓展到機器人上。
![]()
OpenAI 產(chǎn)品和合作伙伴關系副總裁Peter Welinder 表示:“我們一直計劃回歸機器人技術(shù),我們通過Figure AI看到了一條探索人形機器人在高性能多模式模型支持下可以實現(xiàn)的目標的道路。”
早在2022年,OpenAI便開始在人形機器人領域有所動作。OpenAI曾投資一家挪威類人機器人公司1X Technologies,雙方于2022年達成合作,使用AI模型為機器人添加智能。去年3月,1X Technologies獲得了由OpenAI創(chuàng)業(yè)基金領投的2350萬美元融資。
今年年初,1X Technologies完成超1億美元的B輪融資,EQT Ventures、三星NEXT、Nistad集團、Sandwater、Skagerak Capital等參投。
在國內(nèi),也陸續(xù)有團隊試圖將LLM與機器人控制相融合。
此前,「甲子光年」獨家獲悉,北京大學前沿計算機研究中心助理教授、博士生導師董豪團隊發(fā)布的最新具身大模型研究成果——ManipLLM的論文已被計算機視覺領域頂會CVPR 2024接收。
“我們的大模型重點是為了解決可泛化的物體操作。”董豪告訴「甲子光年」。簡單來說,ManipLLM能讓機械臂等機器人聽懂人下達的任務命令,并根據(jù)其看到的圖像,做出相應的動作完成任務。
同時,國內(nèi)人形機器人領域的融資消息也接連不斷。1月,星動紀元獲得超億元天使輪融資;2月,宇樹科技拿下近10億元B2輪融資,刷新賽道紀錄。
不過,長久以來,人形機器人似乎一直都是“概念的高地,落地的洼地”——一邊是技術(shù)暢想高舉高打,一邊是產(chǎn)業(yè)落地上無聲無息。人們印象中關于人形機器人的畫面,似乎就是在全球各大高校的實驗室里奔跑、跳躍、翻跟頭、搬箱子......
某種意義上,“落地難”似乎成為這條賽道所有創(chuàng)業(yè)者的“原罪”。
歸根結(jié)底,人形機器人雖然乘著大模型、具身智能的新浪潮一路繁花似錦,但真正從實驗室走向產(chǎn)線的過程中,人形機器人依然逃不過減速器、執(zhí)行器、電機等機械結(jié)構(gòu)的掣肘。機械結(jié)構(gòu)的迭代并不遵守“摩爾定律”和Scaling law,更多是緩慢的線性變化。
不過,作為人工智能在現(xiàn)實世界的終極體現(xiàn),人形機器人的未來依然值得期待,正如Figure AI所說:
“我們公司的征程將需要幾十年的時間,我們面臨著很高的風險和極低的成功機會。然而,如果我們成功了,我們有可能對人類產(chǎn)生積極影響,并建立地球上最大的公司。”
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.