![]()
前兩天主持了靈初智能的發(fā)布會,印象特別深。
那天晚上在北京,發(fā)布會形式挺新穎的,靈初智能的聯(lián)合創(chuàng)始人陳源培,跟我坐在一塊兒,邊聊邊發(fā)布。
有點(diǎn)像平時在直播間里聊技術(shù)那樣,有什么問題當(dāng)場就問,有什么干貨當(dāng)場就展示。
![]()
源培就坐我右手邊。
源培是00后,比我還小一點(diǎn),在北大師從楊耀東,在斯坦福跟著李飛飛做過世界模型研究,現(xiàn)在已經(jīng)是具身圈年輕一代里的代表人物了。
現(xiàn)場我問了不少有點(diǎn)尖銳的問題:
為什么必須要人類數(shù)據(jù),機(jī)器數(shù)據(jù)不是更主流?是不是為了標(biāo)新立異?
機(jī)器人操作失敗的比例有多高?為什么有的場景沒覆蓋到?
說實(shí)話,最開始我對靈初智能和源培,是有些疑問的——李飛飛和那么多國內(nèi)具身公司都沒做好的事,為什么你們可以?
但是這次直播發(fā)布,真的打消了我的疑惑。
![]()
發(fā)布的新一代具身智能大模型Psi-R2,在國際權(quán)威評測MolmoSpace中斬獲全球第一。
模型的背后,還有10萬小時的人類操作數(shù)據(jù),其中1000小時開源。
這個量級放在整個行業(yè)里看,屬于獨(dú)一檔的存在。
下面我就把那天晚上聊的內(nèi)容,和我自己的一些感受,好好復(fù)盤一下。
01具身智能被卡脖子的地方,其實(shí)不是算法
發(fā)布會一開始,我就把那個很多人都在問的問題直接拋給了源培:為什么偏偏具身智能會有數(shù)據(jù)荒?
源培的回答很干脆。大語言模型也好,自動駕駛也好,它們都站在了巨人的肩膀上。互聯(lián)網(wǎng)發(fā)展了這么多年,積累了海量的文本、圖像、視頻數(shù)據(jù)。
GPT們可以像喝自來水一樣直接從這些數(shù)據(jù)里汲取養(yǎng)分,靠算力的粗暴堆砌就能讓性能穩(wěn)步提升。
![]()
但機(jī)器人不行。
物理世界太復(fù)雜了,復(fù)雜到?jīng)]有一個現(xiàn)成的數(shù)據(jù)集能覆蓋它。你沒辦法讓機(jī)器人在真實(shí)的工廠車間里邊干活邊攢數(shù)據(jù),成本太高,效率太低,而且很多場景根本就不允許犯錯。
這是一個根本性的難題。沒有足夠的高質(zhì)量數(shù)據(jù),再精巧的模型架構(gòu)都是空中樓閣。
行業(yè)內(nèi)一直在嘗試各種解法。仿真數(shù)據(jù)是個方向,在虛擬環(huán)境里讓機(jī)器人反復(fù)練習(xí),聽起來很美好。但仿真和真實(shí)世界之間永遠(yuǎn)有一道鴻溝,一道被稱為Sim-to-Real的鴻溝。
在仿真里學(xué)得再好的模型,一到真實(shí)環(huán)境就水土不服,尤其在處理布料、液體這類柔性物體時,仿真器根本無能為力。
![]()
真機(jī)遙操作是另一個主流路線。
讓人遠(yuǎn)程操控機(jī)器人做動作,把操作軌跡錄下來當(dāng)訓(xùn)練數(shù)據(jù)。但這個方案的缺陷也很明顯——貴。雇傭?qū)H瞬杉瘮?shù)據(jù),成本居高不下,而且采集效率極低。
一個人一天能采多少有效數(shù)據(jù)?更何況,世界上所有的場景、所有的物體、所有的操作,你不可能都在數(shù)采場里復(fù)刻一遍。
靈初的選擇不太一樣。他們沒有在仿真和遙操這兩條路上死磕,而是把目光投向了另一個方向——直接從人類身上取經(jīng)。
源培講這個的時候,我插了一句話。我說你這個思路聽起來很樸素啊。他笑了笑說,最樸素的路往往最有效。
人類每天都在真實(shí)環(huán)境里用雙手完成各種精細(xì)操作,這些數(shù)據(jù)天然帶著真實(shí)的任務(wù)節(jié)拍、真實(shí)的操作細(xì)節(jié),天然貼近機(jī)器人未來要面對的工作世界。
如果能把人類在物流倉庫里的分揀動作、在工廠流水線上的裝配手法,變成機(jī)器人可以學(xué)習(xí)的養(yǎng)分,那數(shù)據(jù)問題就有了真正的解法。
但事情沒這么簡單。人類和機(jī)器人之間存在一個叫本體差異的天然障礙。
人手有二十多個自由度,關(guān)節(jié)的運(yùn)動學(xué)結(jié)構(gòu)、動力學(xué)的響應(yīng)特性,都和機(jī)械手截然不同。
直接拿人類數(shù)據(jù)去訓(xùn)練機(jī)器人,就像讓一個乒乓球運(yùn)動員去教一個籃球運(yùn)動員怎么投籃,動作邏輯完全不同。
![]()
更麻煩的是精度問題。
很多人類操作數(shù)據(jù)來自第一視角的視頻,軌跡恢復(fù)精度只有厘米級。對于手機(jī)裝配這類需要亞毫米級精度的任務(wù),這種誤差會被迅速放大,根本沒法用。
我問源培,你們是怎么解決這個問題的,他講得尤其透。
02一副手套,撬動整個數(shù)據(jù)體系
靈初自己研發(fā)了一套叫Psi-SynEngine的數(shù)據(jù)采集方案。
核心是一副便攜式外骨骼觸覺手套。
![]()
這副手套不是普通的手套。
它能精確捕捉人手的21個關(guān)節(jié)自由度,覆蓋全手的觸覺信息,定位精度達(dá)到亞毫米級別。更重要的是,工人在日常作業(yè)中佩戴它,完全不影響正常操作。
手套會同步記錄頭戴視角和手部視角的視覺數(shù)據(jù),同時采集觸覺、動作、語言等多模態(tài)信息。
這就意味著,靈初可以直接走進(jìn)物流倉庫、工廠車間、商超收銀臺,讓一線的分揀員、裝配工、收銀員在日常工作中自然佩戴,在不改變?nèi)魏渭扔凶鳂I(yè)流程的前提下,采集到最真實(shí)的人類操作數(shù)據(jù)。
成本是這個方案的殺手锏。
源培告訴我,通過手套采集數(shù)據(jù)的綜合成本,只有真機(jī)遙操方案的十分之一左右。
十分之一!我當(dāng)時就在想,這個成本優(yōu)勢如果真能跑通,靈初在數(shù)據(jù)采集這條線上就已經(jīng)把很多競爭對手甩開了。
靈初采集的數(shù)據(jù)分為兩類。
一類是通過外骨骼手套采集的高精度數(shù)據(jù),軌跡精度達(dá)到亞毫米級別,專門用于訓(xùn)練精細(xì)操作能力;
另一類是裸手操作的泛化數(shù)據(jù),精度沒那么高但規(guī)模更大,主要負(fù)責(zé)提供泛化能力,讓模型見過足夠多的任務(wù)和物體。
這里要特別提一下數(shù)據(jù)信噪比這個概念。源培在直播里花了不少時間講這個,我覺得這是整場發(fā)布會最有技術(shù)含量的部分之一。
靈初在大量實(shí)驗(yàn)中發(fā)現(xiàn),數(shù)據(jù)信噪比才是決定人類數(shù)據(jù)能否有效支撐預(yù)訓(xùn)練的核心因素。
低信噪比的數(shù)據(jù)不僅沒用,甚至可能起反作用。
判斷數(shù)據(jù)信噪比,可以從兩方面看。
一是數(shù)據(jù)集分布。
操作任務(wù)的多樣性比物體的多樣性更重要,物體的多樣性又比場景的多樣性重要。泛化能力是模型最難學(xué)會的能力之一,預(yù)訓(xùn)練階段見過越多不同的任務(wù)和操作對象,接手新任務(wù)的速度就越快。
二是感知模態(tài)。
精準(zhǔn)的3D位姿追蹤比觸覺模態(tài)重要,觸覺模態(tài)又比2D圖像特征重要。
這個認(rèn)知直接決定了靈初的數(shù)據(jù)采集策略。
![]()
他們既要高精度可復(fù)現(xiàn)的數(shù)據(jù)來保證模型的執(zhí)行精度,也要低精度大范圍的泛化數(shù)據(jù)來擴(kuò)展模型的適應(yīng)能力。兩條腿走路,缺一不可。
最終構(gòu)建起來的預(yù)訓(xùn)練數(shù)據(jù)集,包含了5417小時的真機(jī)數(shù)據(jù)和95472小時的人類數(shù)據(jù),覆蓋294種場景、4821類任務(wù)和1382種物體。
95472小時。將近10萬小時。這還不算完,源培說到了年底,他們計(jì)劃把這個數(shù)字?jǐn)U展到百萬量級。
但數(shù)據(jù)只是故事的一半。靈初真正有意思的地方,是把這些數(shù)據(jù)喂給了一個什么樣的腦子。這部分是我個人最感興趣的。
03雙系統(tǒng)架構(gòu),一個學(xué)怎么做,一個學(xué)什么不能做
直播里源培講得最精彩的段落,就是靈初的雙系統(tǒng)架構(gòu)。我在旁邊聽得直點(diǎn)頭,彈幕里也刷得飛起。
靈初發(fā)布了兩套模型:Psi-R2和Psi-W0。
![]()
Psi-R2是一個策略模型,核心功能是讓機(jī)器人學(xué)會怎么做事情。
圖像和語言指令作為輸入,輸出預(yù)測的未來操作視頻和可執(zhí)行的機(jī)器人動作。靈初把它叫做世界行動模型。
訓(xùn)練Psi-R2的時候,靈初做了一個相當(dāng)大膽的決定——不走對齊路線。源培告訴我,他們嘗試過圖像修補(bǔ)、關(guān)鍵點(diǎn)輔助、特征空間對齊等各種方法,想把人類數(shù)據(jù)盡可能修成更像機(jī)器人數(shù)據(jù)的樣子。
但最后發(fā)現(xiàn),數(shù)據(jù)量小的時候這些方法有幫助,數(shù)據(jù)量一旦上來,它們反而會變成瓶頸。
原因不復(fù)雜。
那些方法本質(zhì)上都在努力模糊人和機(jī)器人的差異,但在長程、精細(xì)、接觸密集的任務(wù)里,這種差異恰恰不能被輕易抹平。
越是復(fù)雜和精細(xì)的任務(wù),越需要承認(rèn)兩種本體的差異,然后想辦法在更高的維度上建立映射,而不是強(qiáng)行抹平。
靈初的做法是化繁為簡:原生數(shù)據(jù)進(jìn),原生數(shù)據(jù)出。
舍棄人工設(shè)計(jì)的復(fù)雜數(shù)據(jù)處理流程,直接進(jìn)行人類關(guān)節(jié)與機(jī)器人本體的運(yùn)動學(xué)對齊,讓模型在海量數(shù)據(jù)中自行探索模式。
同時用自動標(biāo)注替代人工進(jìn)行數(shù)據(jù)質(zhì)檢和標(biāo)注,最后再交由人工審核把關(guān)。
這個思路聽起來簡單,但能做到需要兩個前提:數(shù)據(jù)量足夠大、數(shù)據(jù)質(zhì)量足夠高。靈初恰好兩個都占了。
![]()
但Psi-R2有一個天然的局限。它學(xué)到的只有成功的操作。比如模型學(xué)會了成功抓起一個蘋果,但它沒有機(jī)會學(xué)到蘋果沒抓穩(wěn)掉下去的情況。而失敗經(jīng)驗(yàn)恰恰是機(jī)器人成長的重要養(yǎng)分。
沒有失敗,就沒有優(yōu)化,就沒有進(jìn)步。
這就是Psi-W0存在的理由。Psi-W0是一個動作條件型世界模型。
它的輸入是機(jī)器人動作,輸出是對未來場景視頻的預(yù)測。更關(guān)鍵的是,靈初在Psi-W0的訓(xùn)練數(shù)據(jù)里特意混入了大約30%的失敗樣本,涵蓋專項(xiàng)采集的失敗案例、常規(guī)操作中的失誤、以及推理過程中產(chǎn)生的錯誤。
有了Psi-W0,靈初就可以做一件事——反事實(shí)推理。
當(dāng)Psi-R2學(xué)完一個人類操作動作之后,Psi-W0會模擬這個操作可能出現(xiàn)的各種后果,檢查有沒有學(xué)漏學(xué)歪,預(yù)測哪些動作可能會導(dǎo)致失敗。就像一個教練站在旁邊,在運(yùn)動員完成動作之后說,你看,如果你剛才手腕的角度偏了兩度,球就不會進(jìn)。
源培給我舉了個例子。
他說如果Psi-R2學(xué)會了抓起一個杯子,Psi-W0就會去預(yù)測:如果抓的位置偏了會怎么樣,如果力度不夠會怎么樣,如果桌面有傾斜會怎么樣。這些反事實(shí)的推演,讓機(jī)器人不用真的去犯錯,就能學(xué)到失敗的經(jīng)驗(yàn)。
Psi-W0還有一個核心功能,是通過強(qiáng)化學(xué)習(xí)將人類數(shù)據(jù)轉(zhuǎn)換為機(jī)器人數(shù)據(jù)。傳統(tǒng)方法中,數(shù)據(jù)轉(zhuǎn)換靠的是仿真環(huán)境調(diào)整,不僅復(fù)雜而且準(zhǔn)確性不高。
但用Psi-W0替代后,它會模擬機(jī)器人視角和動作模式,再通過強(qiáng)化學(xué)習(xí)的試錯調(diào)優(yōu),將人類動作調(diào)整為機(jī)器人能精準(zhǔn)執(zhí)行的動作。
在這個過程中還能持續(xù)生成新的優(yōu)質(zhì)數(shù)據(jù),反向喂給Psi-R2和Psi-W0繼續(xù)學(xué)習(xí),形成閉環(huán)的數(shù)據(jù)飛輪。
這里我特別問了一下推理速度的問題。因?yàn)槭澜缧袆幽P瓦@類架構(gòu)普遍有一個bug:反應(yīng)慢。
源培承認(rèn),Psi-R2單次推理原本需要2.2秒,反映到機(jī)器人身上就是明顯的卡頓。
但他們通過DiT緩存、Torch編譯、模型量化等一系列技術(shù)優(yōu)化,把反應(yīng)時間極限壓縮到了100毫秒以內(nèi)。
直播里源培現(xiàn)場展示了經(jīng)過Psi雙系統(tǒng)訓(xùn)練后的機(jī)器人表現(xiàn)。
手機(jī)裝配、工業(yè)包裝、疊紙盒這些長程精細(xì)操作,機(jī)器人完成得行云流水。
而且靈初強(qiáng)調(diào),經(jīng)過這10萬小時人類數(shù)據(jù)預(yù)訓(xùn)練之后,機(jī)器人只需要不到100條真機(jī)軌跡的微調(diào),就能完成新任務(wù)的部署。
這意味著什么?意味著企業(yè)想要引入靈初的機(jī)器人方案,部署成本和周期都會被大幅壓縮。
我當(dāng)時就在想,如果這個數(shù)據(jù)是真的,那靈初在商業(yè)落地的速度上可能會領(lǐng)先同行一個身位。
整場發(fā)布會最讓人信服的部分,是硬核數(shù)據(jù)的驗(yàn)證。
靈初Psi-R2登頂了MolmoSpace榜單。
這個平臺由美國艾倫人工智能研究所發(fā)起,是全球具身智能領(lǐng)域最權(quán)威的基準(zhǔn)評測平臺之一,NVIDIA、PI這些全球頂尖團(tuán)隊(duì)都參與了本次評測。
Psi-R2一舉超越了PI、DreamZero等國際知名模型,表現(xiàn)顯著優(yōu)于其他基線模型。在成功率這塊,比同類VLA模型要高出近10倍。
這不只是中國團(tuán)隊(duì)在國際舞臺上的一次亮眼表現(xiàn)。它說明靈初這條人類數(shù)據(jù)加雙系統(tǒng)架構(gòu)的路線,經(jīng)得起最嚴(yán)苛的檢驗(yàn)。
我當(dāng)時在臺上看到這個數(shù)據(jù),心里第一反應(yīng)是:這幫年輕人是真的猛。
04開源不是情懷,是最聰明的商業(yè)選擇
發(fā)布會后半段,靈初宣布了幾件事。
一是與北京石景山區(qū)共建數(shù)采基地,要在更廣的范圍內(nèi)鋪開數(shù)據(jù)采集網(wǎng)絡(luò)。
二是與騰訊云、抖音、覓蜂科技、智域基石達(dá)成生態(tài)合作,覆蓋算力、數(shù)據(jù)服務(wù)、應(yīng)用場景等多個維度。三是年底要將數(shù)據(jù)集擴(kuò)展到百萬量級。
但最讓我在意的,是他們決定開源首批1000小時人類手部操作數(shù)據(jù)集。
在這個數(shù)據(jù)就是核心資產(chǎn)的行業(yè)里,愿意把自己辛辛苦苦采集的數(shù)據(jù)拿出來開源,不是每個團(tuán)隊(duì)都做得到的。
我當(dāng)場就問源培,你們不心疼嗎?
他的回答讓我印象很深。
他說開源對于靈初自身來說,是讓全行業(yè)幫他們快速采集海量數(shù)據(jù)的杠桿。
只有開源,才能吸引更多的開發(fā)者和研究機(jī)構(gòu)參與到這套體系中,才能彌補(bǔ)數(shù)據(jù)飛輪閉環(huán)中的關(guān)鍵一環(huán)。
AI時代,時間和數(shù)據(jù)就是最稀缺的資源。越早進(jìn)場、擁有越多數(shù)據(jù),就能越早收獲長尾效應(yīng)。
![]()
而站在整個行業(yè)的角度,開源是打破技術(shù)孤島的鑰匙。
具身智能這個賽道,沒有任何一家公司能單打獨(dú)斗走完全程。標(biāo)準(zhǔn)化的數(shù)據(jù)管線、開源的預(yù)訓(xùn)練底座,能夠建立起廣袤的開發(fā)者生態(tài),讓全行業(yè)的力量匯聚到一起,共同推動技術(shù)向前走。
全行業(yè)開源共建,還能反向喂養(yǎng)靈初這樣的硬核玩家,讓他們集中精力攻堅(jiān)最難的技術(shù)瓶頸,而不是在重復(fù)造輪子的泥潭里掙扎。
集眾智,才是具身智能跑贏節(jié)拍、實(shí)現(xiàn)商業(yè)落地的唯一捷徑。
我當(dāng)時聽完,覺得這個思路很清醒。
不是那種為了博好感的開源,是想清楚了自己要什么、能換來什么的開源。這種務(wù)實(shí)在這個行業(yè)里不多見。
![]()
我突然想起他在之前一個采訪里說過的話。
有人問他為什么選擇創(chuàng)業(yè),他說在北大和斯坦福做了那么長時間的學(xué)術(shù)研究,更想進(jìn)入工業(yè)界,做出真正能夠影響世界的產(chǎn)品。
AI發(fā)展得很快,不會出現(xiàn)論資排輩的現(xiàn)象,任何一個突破都有可能產(chǎn)生顛覆性的影響。
哪怕是只有一個人也可以創(chuàng)業(yè),要敢想敢做。現(xiàn)在是非常好的機(jī)會,只要你夠強(qiáng),學(xué)得夠快,你做出來的東西就很有可能會比其他人都好。
那天晚上回到家,我翻來覆去睡不著,腦子里一直在轉(zhuǎn)一個問題。
具身智能這盤棋,到底會怎么走?
答案可能就藏在那些最不起眼的地方:
在物流倉庫里分揀員的每一次抬手,在工廠流水線上裝配工的每一次擰螺絲,在商超收銀員的每一次掃碼。
這些最日常、最樸素的人類操作,正在成為訓(xùn)練未來機(jī)器人的養(yǎng)分。
靈初這次做的事情,說到底就兩件:讓機(jī)器人吃什么樣的數(shù)據(jù),讓機(jī)器人長什么樣的腦子。
而這兩件事,都指向同一個方向——讓機(jī)器人真正走進(jìn)真實(shí)世界,在那些具體的、復(fù)雜的、充滿不確定性的場景里,幫人干活。
有仰望星空的勇氣,也有腳踏實(shí)地的努力。
具身智能正在因?yàn)檫@場青春風(fēng)暴,變得不太一樣。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.