![]()
文 | 晏川
周天財(cái)經(jīng) 原創(chuàng)出品
近一個(gè)月,資本市場(chǎng)風(fēng)云卷動(dòng),幾十億人民幣蜂擁砸入具身智能產(chǎn)業(yè)。
宇樹科技于7月18日正式開啟上市輔導(dǎo),開始向IPO發(fā)起沖刺,此時(shí)距宇樹科技進(jìn)行股改剛過(guò)去2個(gè)月。而在一個(gè)月前,6月19日宇樹科技宣布完成C+輪戰(zhàn)略融資,據(jù)I桔子估算,此輪融資后宇樹估值已達(dá)130億人民幣。
與宇樹科技同為第一梯隊(duì)的智元機(jī)器人在7月8日拋出重磅炸彈,出資至少21億元收購(gòu)A股科創(chuàng)板上市公司上緯新材63.62%股份。盡管智元機(jī)器人聲稱此次收購(gòu)不涉及業(yè)務(wù)和重大資產(chǎn)的重組上市,但二十多億真金白銀砸出去收購(gòu)一個(gè)和機(jī)器人產(chǎn)業(yè)毫無(wú)關(guān)聯(lián)的公司, 若說(shuō)其中沒(méi)有別的目的似乎有些掩耳盜鈴。藍(lán)橋資本創(chuàng)始人王超在和晚點(diǎn)的對(duì)話中就將智元機(jī)器人的這一行為稱為「類借殼上市」,其靠近資本市場(chǎng)的野心顯而易見。
兩家頭部企業(yè)的IPO賽跑,體現(xiàn)出上頭針對(duì)人形機(jī)器人的定向放水,意圖清晰。閘門打開,也驅(qū)使一二級(jí)市場(chǎng)聯(lián)動(dòng)起來(lái)。
也是最近幾天,「杭州六小龍」之一的杭州云深處宣布完成近5億元人民幣新一輪融資。它石智航宣布完成由美團(tuán)戰(zhàn)投領(lǐng)投的1.22億美元天使+輪融資。
值得注意的是,這不是美團(tuán)第一次出現(xiàn)在具身智能投資方中,據(jù)不完全統(tǒng)計(jì),宇樹、智元,包括下文將要提到的星海圖和自變量機(jī)器人等具身智能企業(yè),背后都有美團(tuán)的影子。可以說(shuō),美團(tuán)撐起了具身智能的半壁江山。
另外半壁,京東想要接手。
7月21日,眾擎機(jī)器人、千尋智能、逐際動(dòng)力等三家機(jī)器人公司同時(shí)宣布獲得京東領(lǐng)投的新一輪融資。前兩者融資規(guī)模分別達(dá)到近10億元和近6億元。京東似乎要和美團(tuán)杠上了,雙方戰(zhàn)線從「外賣大戰(zhàn)」蔓延到了具身智能產(chǎn)業(yè)。
北京小雨智造完成由滴滴領(lǐng)投的億元級(jí)A+輪融資,這是滴滴第一次投資具身智能賽道。
此外,清華系具身智能企業(yè)星動(dòng)紀(jì)元完成近5億元A輪融資。主攻倉(cāng)儲(chǔ)機(jī)器人和智慧物流業(yè)務(wù)的極智嘉在港交所主板掛牌上市,成為「全球AMR倉(cāng)儲(chǔ)機(jī)器人第一股」。星海圖接連完成A4輪及A5輪戰(zhàn)略融資,兩輪合計(jì)融資金額超過(guò)1億美元。還有圖速科技、跨維智能等多家公司在近期完成融資。自變量機(jī)器人創(chuàng)始人兼CEO王潛更是坦言「我們上半年融了三輪」。
如此之多的融資發(fā)生近一個(gè)月內(nèi),眼花繚亂,體現(xiàn)了資本市場(chǎng)對(duì)于具身智能這一未來(lái)產(chǎn)業(yè)的期望,眾多企業(yè)紛紛入局,以期在這一片藍(lán)海的賽道中提前布局,早早落位。但即便是如此規(guī)模的融資,在王潛看來(lái)速度也還不夠快,規(guī)模還不夠大,在接受每經(jīng)記者采訪時(shí),他表示,「具身智能是中國(guó)可以和美國(guó)站在同一起跑線角逐的大賽道,但與美國(guó)公司相比,中國(guó)公司不管是融資規(guī)模還是企業(yè)估值,都有著一個(gè)數(shù)量級(jí)的差距」。
但是熱潮已經(jīng)起來(lái)了,這是一個(gè)好的啟動(dòng)。
01 信心來(lái)自何處
具身智能(Embodied AI)和機(jī)器人并不是新奇的物種。1950年,圖靈在他的論文中就提出了人工智能的兩條發(fā)展路徑:一條是抽象智能,依賴算法和符號(hào)推理;另一條就是具身交互,即為機(jī)器配備感官設(shè)備,使其能夠通過(guò)感官體驗(yàn)和環(huán)境交互學(xué)習(xí)技能。
然而直到今日,具身智能才如此頻繁地被提及,眾多初創(chuàng)公司毅然下場(chǎng)造機(jī)器人,并成功吸引了大量資本的眼球。那么問(wèn)題來(lái)了,走過(guò)了PC時(shí)代和手機(jī)時(shí)代,為什么在這個(gè)時(shí)間,一個(gè)之前不被傾注太多注意力的產(chǎn)業(yè),突然立地飛升,如日中天?
這其中涉及到兩次關(guān)鍵的范式轉(zhuǎn)變。
第一次范式轉(zhuǎn)變發(fā)生在機(jī)器人的本體。這是從液壓驅(qū)動(dòng)路線向電驅(qū)路線的變革。
宇樹創(chuàng)始人王興興曾說(shuō)他在2013年以前就看出來(lái)液壓方案無(wú)法商業(yè)化,原因簡(jiǎn)單:它都是精密的機(jī)械零件,一旦涉及到精密的機(jī)械零件,成本都會(huì)下不來(lái)。并且,所有的液壓系統(tǒng)都會(huì)漏油,連家用轎車都不怎么用液壓系統(tǒng)了。
在液壓技術(shù)路線上走了幾十年的老巨頭進(jìn)展寥寥。2018年,日本ASIMO機(jī)器人宣布停止研發(fā),這使得全球人形機(jī)器人行業(yè)墜入低谷期。直到馬斯克確立了電驅(qū)動(dòng)路線,成為一次拯救全球機(jī)器人行業(yè)的關(guān)鍵技術(shù)轉(zhuǎn)折。
電驅(qū)帶來(lái)的大規(guī)模零件精簡(jiǎn),使其具有了規(guī)模效應(yīng),而押錯(cuò)科技樹的液壓派,哪怕是積累了半個(gè)世紀(jì)的技術(shù)壁壘,也在一夜之間被新的小巨頭趕超,波士頓動(dòng)力如今年銷量?jī)H為宇樹的十分之一,可能會(huì)逐漸退出歷史舞臺(tái)。
因此,電驅(qū)動(dòng)的一個(gè)巨大紅利,就是為中國(guó)小至創(chuàng)業(yè)公司,大到智能家電巨頭再到汽車制造和互聯(lián)網(wǎng)巨頭,這些后發(fā)者,一下子打開了趕超的窗口,大小玩家們都站到了同一起跑線上。
這也得益于新能源電動(dòng)車成熟的產(chǎn)業(yè)鏈,電機(jī)造型變小,力矩變大,電池的能量密度也在不斷提高,技術(shù)轉(zhuǎn)移到機(jī)器人產(chǎn)業(yè)鏈上,就可以提升機(jī)器人的運(yùn)動(dòng)能力和續(xù)航。像滾雪球一樣,一個(gè)零部件一個(gè)零部件地?fù)赋鰜?lái)高性能與低成本,步步逼近產(chǎn)業(yè)拐點(diǎn)。
第二次范式轉(zhuǎn)變發(fā)生在機(jī)器人的「大腦」。這是大模型技術(shù)帶來(lái)的變革。
機(jī)器人公司魔法原子總裁吳長(zhǎng)征說(shuō),2023、24年,行業(yè)井噴,ChatGPT3.5的出現(xiàn)至關(guān)重要,大模型技術(shù)發(fā)展,給機(jī)器人智能水平提升帶來(lái)了一種新范式。生成式AI出現(xiàn)了千倍萬(wàn)倍的能力提升,讓我們意識(shí)到,大模型+機(jī)器人,具身智能存在無(wú)限潛力。機(jī)器人在環(huán)境和感知與理解、推理、決策和任務(wù)規(guī)劃方面,都會(huì)產(chǎn)生一種新的范式。在這種新范式下,機(jī)器人能力會(huì)有千倍萬(wàn)倍的增長(zhǎng)。
大模型的出現(xiàn)顛覆了傳統(tǒng)機(jī)器人只能當(dāng)「遙控玩具」的印象。現(xiàn)在大模型所展現(xiàn)的復(fù)雜場(chǎng)景理解能力和長(zhǎng)序列的任務(wù)規(guī)劃能力,都是以往機(jī)器人所不具備的,以往機(jī)器人的任務(wù)序列是人為事先編寫好的,但大模型通過(guò)不斷地訓(xùn)練和學(xué)習(xí),能讓機(jī)器人理解周圍環(huán)境,還能結(jié)合環(huán)境和目標(biāo)任務(wù)進(jìn)行自主的任務(wù)規(guī)劃,就像人擁有了大腦一樣。
當(dāng)然,這并不意味著可以直接把現(xiàn)有的大模型拿來(lái)塞進(jìn)機(jī)器人里。大模型通過(guò)語(yǔ)言進(jìn)行交互,語(yǔ)言可以作為人機(jī)交互的媒介,但不能視作機(jī)器人所擁有的智能。銀河通用創(chuàng)始人兼CTO王鶴說(shuō),「智能的本質(zhì)是對(duì)一種情況做相應(yīng)reaction的能力」,對(duì)于機(jī)器人來(lái)說(shuō),通過(guò)視覺(jué)、聽覺(jué)、觸覺(jué)與周圍的環(huán)境產(chǎn)生交互,具備理解當(dāng)下環(huán)境并采取行動(dòng)的能力才至關(guān)重要。
因此,適用于機(jī)器人的具身大模型成為了行業(yè)共識(shí)。雖然走到這一步仍需要技術(shù)攻堅(jiān),但是方向已經(jīng)明確,前進(jìn)的關(guān)口已經(jīng)打開,接下來(lái)就是等待一個(gè)屬于機(jī)器人產(chǎn)業(yè)的GPT4時(shí)刻。
但前路仍然漫長(zhǎng)曲折。
02 攔路虎未除
就當(dāng)下而言,具身智能離理想中的模樣還相去甚遠(yuǎn)。此時(shí)的具身智能市場(chǎng),如同2010s的新能源汽車市場(chǎng),處于行業(yè)野蠻發(fā)展的初期,技術(shù)尚未成熟,離商業(yè)化落地更差著十萬(wàn)八千里。
具身智能想要書寫的故事和當(dāng)下的現(xiàn)實(shí)產(chǎn)生了割裂。
首先,具身智能的訓(xùn)練需要海量的交互數(shù)據(jù)作為支撐,千尋智能具身智能項(xiàng)目負(fù)責(zé)人解浚源就表示,「數(shù)據(jù)就是目前最大的難點(diǎn),很多的問(wèn)題在數(shù)據(jù)量上去之后就自動(dòng)的不是問(wèn)題了」。
目前數(shù)據(jù)的主要采集來(lái)源分為真實(shí)數(shù)據(jù)和仿真數(shù)據(jù)兩種。真實(shí)數(shù)據(jù)通過(guò)機(jī)器人的實(shí)操,來(lái)獲取機(jī)器人在與真實(shí)物理世界交互過(guò)程中的反饋,主要通過(guò)遙操和動(dòng)捕兩種方式進(jìn)行。仿真數(shù)據(jù)則通過(guò)渲染虛擬環(huán)境,模擬機(jī)器人與物體交互,生成訓(xùn)練數(shù)據(jù)。
由于是實(shí)機(jī)交互,真機(jī)數(shù)據(jù)采集的數(shù)據(jù)質(zhì)量最高,但其短板也是顯而易見:數(shù)據(jù)采集工作量大且成本高昂。高擎機(jī)電生態(tài)合伙人同濟(jì)子豪兄就提到「我用主從機(jī)械臂教機(jī)器人抓小龍蝦,重復(fù)一百次后手已經(jīng)很疲勞了」。王鶴也指出目前雇人遙操采真實(shí)數(shù)據(jù)的成本非常高,「萬(wàn)臺(tái)級(jí)機(jī)器人數(shù)據(jù)采集每個(gè)月的成本在數(shù)億到十億之間」。
仿真數(shù)據(jù)可以訓(xùn)練成千上萬(wàn)次,但是虛擬世界與現(xiàn)實(shí)世界存在鴻溝,仿真環(huán)境中的物理規(guī)律和機(jī)器人感知同現(xiàn)實(shí)世界存在偏差,通過(guò)仿真得來(lái)的數(shù)據(jù)有可能在現(xiàn)實(shí)中失效。子豪兄表示「目前主流方案是‘仿真 + 少量真實(shí)數(shù)據(jù)’混合訓(xùn)練,但如何縮小‘仿真 - 現(xiàn)實(shí)鴻溝’仍是核心難題」。
泛化不夠,意味著任務(wù)成功率低,再加上價(jià)格高昂,人形機(jī)器人短期內(nèi)難以走進(jìn)千家萬(wàn)戶,成為消費(fèi)級(jí)商品。
千尋智能聯(lián)合創(chuàng)始人高陽(yáng)在和晚點(diǎn)對(duì)話時(shí)將具身智能的階段劃分為L(zhǎng)0-L5:L0為無(wú)智能的工業(yè)機(jī)器人;L1為單一任務(wù)智能;L2為單場(chǎng)景多任務(wù)智能;L3為單場(chǎng)景可完成70%-80%人類任務(wù);L4為單場(chǎng)景100%任務(wù);L5為跨場(chǎng)景全能。「整個(gè)行業(yè)現(xiàn)在正在從L1到L2的路上」。人形機(jī)器人公司們要占據(jù)消費(fèi)市場(chǎng),仍然需要很長(zhǎng)的時(shí)間。
高陽(yáng)說(shuō),「現(xiàn)在到L2、L3的提升最主要的挑戰(zhàn)就是泛化性,很難把所有任務(wù)數(shù)據(jù)都采集一遍,所以需要泛化性來(lái)支持機(jī)器人舉一反三」。泛化性的意思是,讓智能體在真實(shí)、開放、動(dòng)態(tài)變化的物理世界中,能夠?qū)⑵湓趩我画h(huán)境、任務(wù)或?qū)嶓w上學(xué)到的能力,有效地遷移和適應(yīng)到前所未見的環(huán)境、任務(wù)或?qū)嶓w上。這種能在開放世界終身適應(yīng)的能力,是具身智能最終走向?qū)嵱没年P(guān)鍵瓶頸和核心目標(biāo)。
目前多數(shù)機(jī)器人只能在高度受控環(huán)境下工作。王興興曾向周天財(cái)經(jīng)談道,「當(dāng)下的問(wèn)題是,一個(gè)任務(wù)目標(biāo)可以完成,但是場(chǎng)景和任務(wù)稍微換一下,成功率就會(huì)暴跌」,這就是泛化性不足帶來(lái)的問(wèn)題。之前機(jī)器人公司們整出來(lái)的花活,無(wú)論是跳舞還是其他諸如后空翻等看起來(lái)很唬人的動(dòng)作,本質(zhì)都是固定動(dòng)作或遙操,與傳統(tǒng)機(jī)器人還未產(chǎn)生本質(zhì)區(qū)別。這也是機(jī)器人目前無(wú)法進(jìn)入通用場(chǎng)景的原因。
一位資深投資人士表示「現(xiàn)在純?nèi)诵巫畲蟮氖袌?chǎng)是科研院所,他們需要類人構(gòu)型做整機(jī)控制研究。其他場(chǎng)景都是噱頭——商場(chǎng)展覽、拍廣告,甚至可以租來(lái)用一兩次,這說(shuō)明需求不是長(zhǎng)期高頻的。」
宇樹科技創(chuàng)始人王興興一個(gè)月前在夏季達(dá)沃斯論壇上宣布宇樹年?duì)I收已超過(guò)10億元人民幣,為上市預(yù)熱。而據(jù)硅基實(shí)驗(yàn)室的統(tǒng)計(jì),科研類高校撐起了宇樹訂單的大頭,其余則由央國(guó)企、政府單位等采購(gòu)。
就在不久前的7月11日,宇樹科技和智元機(jī)器人一起拿下目前為止國(guó)內(nèi)人形機(jī)器人企業(yè)的最大訂單——總預(yù)算為1.2405億美元的雙足機(jī)器人代工服務(wù)采購(gòu)項(xiàng)目。這筆訂單來(lái)自中移(杭州)信息技術(shù)有限公司。
從以上種種,可以窺見人形機(jī)器人公司目前的商業(yè)化瓶頸。在各類不利因素的影響下,機(jī)器人的落地部署場(chǎng)景被限制在狹小的區(qū)間內(nèi),甚至更多是實(shí)驗(yàn)科研需要,機(jī)器人公司們的營(yíng)收來(lái)源在短期內(nèi)還無(wú)法囊括廣闊的消費(fèi)市場(chǎng)。
人形機(jī)器人公司想要走近消費(fèi)者,還任重道遠(yuǎn)。但資本方目前給出的高溢價(jià),主要就是為消費(fèi)級(jí)可能性而買單。
03 未來(lái)指向何處
資金涌入代表了創(chuàng)業(yè)者和投資人們對(duì)前景非常樂(lè)觀。
王興興就斷言「2025年年底的技術(shù)進(jìn)步會(huì)上升一個(gè)臺(tái)階,會(huì)給全球產(chǎn)業(yè)界打一個(gè)更大的雞血,熱度、市場(chǎng)規(guī)模翻十倍是沒(méi)問(wèn)題的」。
當(dāng)下走向具身智能的主流技術(shù)路線有兩種:一種是端到端模型,一種是分層決策模型。端到端路線直接將原始傳感器輸入如攝像頭圖像、激光雷達(dá)、觸覺(jué)信號(hào)等映射到機(jī)器人的動(dòng)作輸出,不依賴人工設(shè)計(jì)的中間模塊,通過(guò)單一模型完成從感知到?jīng)Q策的全流程。
分層決策的核心是將任務(wù)分解為多個(gè)層級(jí),每層專注于特定的子功能,從感知到執(zhí)行之間的各環(huán)節(jié)是獨(dú)立的,各模塊可分別優(yōu)化或采用混合技術(shù)方案。
實(shí)際上,端到端模型已經(jīng)成為大部分從業(yè)者的共識(shí)。這一路線是特斯拉選擇的方案,同時(shí)國(guó)內(nèi)耳熟能詳?shù)木呱碇悄艹鮿?chuàng)企業(yè)如星動(dòng)紀(jì)元、星海圖等采取的也都是端到端的解決方案。端到端當(dāng)下的主要決策模型是VLA(Vision-Language-Action), 旨在通過(guò)統(tǒng)一模型將視覺(jué)信息、語(yǔ)音指令和物理動(dòng)作控制深度融合,從而使機(jī)器人在開放世界中具備自主推理、決策和執(zhí)行的能力。
有研究者認(rèn)為,今天的具身智能接近于自動(dòng)駕駛2010年的那個(gè)階段,為什么是2010年?因?yàn)楫?dāng)年谷歌展示了相當(dāng)不錯(cuò)的自動(dòng)駕駛原型Demo,還舉行了像無(wú)人車競(jìng)賽這樣的學(xué)術(shù)前沿性活動(dòng),展示了激光雷達(dá)、高精地圖定位、SLAM等技術(shù)方式,證明汽車自動(dòng)駕駛是可行的,但離真正規(guī)模化應(yīng)用仍有很大差距。今天智能機(jī)器人展示的很多能力和Demo,從完成度上來(lái)看,非常接近于2010年自動(dòng)駕駛所展示的。而到了2025年,特斯拉FSD才趨于成熟,理想汽車的端到端也基本能用,又是一個(gè)15年的gap。
因此盡管在當(dāng)下來(lái)看,在端到端方面下功夫或許還需要較長(zhǎng)的時(shí)間才能等到技術(shù)臨界點(diǎn)出現(xiàn)。手動(dòng)分層或許可以在短期內(nèi)占得工程上的便宜,但從長(zhǎng)遠(yuǎn)來(lái)看遲早會(huì)被淘汰。高陽(yáng)在和晚點(diǎn)的對(duì)談中就提到「2016年我們剛開始做自動(dòng)駕駛的端到端,當(dāng)時(shí)沒(méi)人相信,但是我們從那個(gè)年代就開始相信端到端了」。
適合具身智能發(fā)展的各種要素已經(jīng)準(zhǔn)備好了,只待AI能力達(dá)到新的臨界點(diǎn),具身智能賽道將迎來(lái)井噴式的爆發(fā)。王興興在和周天財(cái)經(jīng)對(duì)談時(shí)表示:「最大的點(diǎn)還是行業(yè)天花板是機(jī)器人AI的天花板決定的,如果AI天花板不突破的話,增長(zhǎng)也就是50-100%的線性增速,如果突破了臨界點(diǎn),整個(gè)產(chǎn)業(yè)就會(huì)大爆發(fā),所有大公司都會(huì)加入進(jìn)來(lái)的。」
這是一個(gè)漫長(zhǎng)的征途,性能拉升需要時(shí)間,而在真正屬于具身智能的時(shí)代到來(lái)之前,該怎么活到那一天才是目前相關(guān)公司們需要考慮的事情。微軟全球原副總裁、院士張亞勤心中的時(shí)間表是:需要10-20年。他認(rèn)為,信息智能的AGI 5年內(nèi)可達(dá)到;物理智能的AGI分階段達(dá)成,如人形機(jī)器人大約需要10年達(dá)到。
王鶴曾向晚點(diǎn)表示未來(lái)五年是具身智能的關(guān)鍵期:「若頭部企業(yè)做不到萬(wàn)臺(tái)級(jí)自主機(jī)器人應(yīng)用,行業(yè)可能重蹈工業(yè)視覺(jué)覆轍——故事講得大,實(shí)際營(yíng)收僅幾億。」
部分企業(yè)的策略是兩步走,曲線救國(guó),先拿到專用工業(yè)場(chǎng)景里跑數(shù)據(jù),再逐漸泛化通用。梅卡曼德機(jī)器人創(chuàng)始人邵天蘭對(duì)「牛白丁」表示,「全球約10-20億人從事制造、物流及相關(guān)工作,而工業(yè)機(jī)器人存量?jī)H400萬(wàn)臺(tái)。即使僅替代1%的崗位,也將形成千萬(wàn)級(jí)市場(chǎng),規(guī)模遠(yuǎn)超當(dāng)前存量。」
初步可預(yù)見的是,在未來(lái)的幾年內(nèi),具身智能先落地工業(yè)、商超等場(chǎng)景,規(guī)模鋪開之后,機(jī)器人和真實(shí)物理世界形成大量交互,產(chǎn)生的數(shù)據(jù)量級(jí)暴增,從而為下一級(jí)的機(jī)器人訓(xùn)練提供寶貴的真實(shí)數(shù)據(jù),這樣形成良性循環(huán),催生機(jī)器人向跨任務(wù)全場(chǎng)景全能型邁進(jìn)。
《銀河帝國(guó)》中,阿西莫夫虛構(gòu)了一個(gè)存活三萬(wàn)年的機(jī)器人角色,它已經(jīng)進(jìn)化出了自己的意識(shí),擁有遠(yuǎn)超人類的智能,為保護(hù)人類的利益默默守護(hù)了兩萬(wàn)年。眼下,我們正在向這種夢(mèng)想靠近。
*僅介紹公司,不構(gòu)成推薦股票的建議
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.