網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

主持了靈初智能的發(fā)布會，00后聯(lián)創(chuàng)源培讓我很佩服

2026-04-12 22:46:28　來源: AI異類

北京舉報

分享至

前兩天主持了靈初智能的發(fā)布會，印象特別深。

那天晚上在北京，發(fā)布會形式挺新穎的，靈初智能的聯(lián)合創(chuàng)始人陳源培，跟我坐在一塊兒，邊聊邊發(fā)布。

有點(diǎn)像平時在直播間里聊技術(shù)那樣，有什么問題當(dāng)場就問，有什么干貨當(dāng)場就展示。

源培就坐我右手邊。

源培是00后，比我還小一點(diǎn)，在北大師從楊耀東，在斯坦福跟著李飛飛做過世界模型研究，現(xiàn)在已經(jīng)是具身圈年輕一代里的代表人物了。

現(xiàn)場我問了不少有點(diǎn)尖銳的問題：

為什么必須要人類數(shù)據(jù)，機(jī)器數(shù)據(jù)不是更主流？是不是為了標(biāo)新立異？

機(jī)器人操作失敗的比例有多高？為什么有的場景沒覆蓋到？

說實(shí)話，最開始我對靈初智能和源培，是有些疑問的——李飛飛和那么多國內(nèi)具身公司都沒做好的事，為什么你們可以？

但是這次直播發(fā)布，真的打消了我的疑惑。

發(fā)布的新一代具身智能大模型Psi-R2，在國際權(quán)威評測MolmoSpace中斬獲全球第一。

模型的背后，還有10萬小時的人類操作數(shù)據(jù)，其中1000小時開源。

這個量級放在整個行業(yè)里看，屬于獨(dú)一檔的存在。

下面我就把那天晚上聊的內(nèi)容，和我自己的一些感受，好好復(fù)盤一下。

01具身智能被卡脖子的地方，其實(shí)不是算法

發(fā)布會一開始，我就把那個很多人都在問的問題直接拋給了源培：為什么偏偏具身智能會有數(shù)據(jù)荒？

源培的回答很干脆。大語言模型也好，自動駕駛也好，它們都站在了巨人的肩膀上。互聯(lián)網(wǎng)發(fā)展了這么多年，積累了海量的文本、圖像、視頻數(shù)據(jù)。

GPT們可以像喝自來水一樣直接從這些數(shù)據(jù)里汲取養(yǎng)分，靠算力的粗暴堆砌就能讓性能穩(wěn)步提升。

但機(jī)器人不行。

物理世界太復(fù)雜了，復(fù)雜到?jīng)]有一個現(xiàn)成的數(shù)據(jù)集能覆蓋它。你沒辦法讓機(jī)器人在真實(shí)的工廠車間里邊干活邊攢數(shù)據(jù)，成本太高，效率太低，而且很多場景根本就不允許犯錯。

這是一個根本性的難題。沒有足夠的高質(zhì)量數(shù)據(jù)，再精巧的模型架構(gòu)都是空中樓閣。

行業(yè)內(nèi)一直在嘗試各種解法。仿真數(shù)據(jù)是個方向，在虛擬環(huán)境里讓機(jī)器人反復(fù)練習(xí)，聽起來很美好。但仿真和真實(shí)世界之間永遠(yuǎn)有一道鴻溝，一道被稱為Sim-to-Real的鴻溝。

在仿真里學(xué)得再好的模型，一到真實(shí)環(huán)境就水土不服，尤其在處理布料、液體這類柔性物體時，仿真器根本無能為力。

真機(jī)遙操作是另一個主流路線。

讓人遠(yuǎn)程操控機(jī)器人做動作，把操作軌跡錄下來當(dāng)訓(xùn)練數(shù)據(jù)。但這個方案的缺陷也很明顯——貴。雇傭?qū)Ｈ瞬杉瘮?shù)據(jù)，成本居高不下，而且采集效率極低。

一個人一天能采多少有效數(shù)據(jù)？更何況，世界上所有的場景、所有的物體、所有的操作，你不可能都在數(shù)采場里復(fù)刻一遍。

靈初的選擇不太一樣。他們沒有在仿真和遙操這兩條路上死磕，而是把目光投向了另一個方向——直接從人類身上取經(jīng)。

源培講這個的時候，我插了一句話。我說你這個思路聽起來很樸素啊。他笑了笑說，最樸素的路往往最有效。

人類每天都在真實(shí)環(huán)境里用雙手完成各種精細(xì)操作，這些數(shù)據(jù)天然帶著真實(shí)的任務(wù)節(jié)拍、真實(shí)的操作細(xì)節(jié)，天然貼近機(jī)器人未來要面對的工作世界。

如果能把人類在物流倉庫里的分揀動作、在工廠流水線上的裝配手法，變成機(jī)器人可以學(xué)習(xí)的養(yǎng)分，那數(shù)據(jù)問題就有了真正的解法。

但事情沒這么簡單。人類和機(jī)器人之間存在一個叫本體差異的天然障礙。

人手有二十多個自由度，關(guān)節(jié)的運(yùn)動學(xué)結(jié)構(gòu)、動力學(xué)的響應(yīng)特性，都和機(jī)械手截然不同。

直接拿人類數(shù)據(jù)去訓(xùn)練機(jī)器人，就像讓一個乒乓球運(yùn)動員去教一個籃球運(yùn)動員怎么投籃，動作邏輯完全不同。

更麻煩的是精度問題。

很多人類操作數(shù)據(jù)來自第一視角的視頻，軌跡恢復(fù)精度只有厘米級。對于手機(jī)裝配這類需要亞毫米級精度的任務(wù)，這種誤差會被迅速放大，根本沒法用。

我問源培，你們是怎么解決這個問題的，他講得尤其透。

02一副手套，撬動整個數(shù)據(jù)體系

靈初自己研發(fā)了一套叫Psi-SynEngine的數(shù)據(jù)采集方案。

核心是一副便攜式外骨骼觸覺手套。

這副手套不是普通的手套。

它能精確捕捉人手的21個關(guān)節(jié)自由度，覆蓋全手的觸覺信息，定位精度達(dá)到亞毫米級別。更重要的是，工人在日常作業(yè)中佩戴它，完全不影響正常操作。

手套會同步記錄頭戴視角和手部視角的視覺數(shù)據(jù)，同時采集觸覺、動作、語言等多模態(tài)信息。

這就意味著，靈初可以直接走進(jìn)物流倉庫、工廠車間、商超收銀臺，讓一線的分揀員、裝配工、收銀員在日常工作中自然佩戴，在不改變?nèi)魏渭扔凶鳂I(yè)流程的前提下，采集到最真實(shí)的人類操作數(shù)據(jù)。

成本是這個方案的殺手锏。

源培告訴我，通過手套采集數(shù)據(jù)的綜合成本，只有真機(jī)遙操方案的十分之一左右。

十分之一！我當(dāng)時就在想，這個成本優(yōu)勢如果真能跑通，靈初在數(shù)據(jù)采集這條線上就已經(jīng)把很多競爭對手甩開了。

靈初采集的數(shù)據(jù)分為兩類。

一類是通過外骨骼手套采集的高精度數(shù)據(jù)，軌跡精度達(dá)到亞毫米級別，專門用于訓(xùn)練精細(xì)操作能力；

另一類是裸手操作的泛化數(shù)據(jù)，精度沒那么高但規(guī)模更大，主要負(fù)責(zé)提供泛化能力，讓模型見過足夠多的任務(wù)和物體。

這里要特別提一下數(shù)據(jù)信噪比這個概念。源培在直播里花了不少時間講這個，我覺得這是整場發(fā)布會最有技術(shù)含量的部分之一。

靈初在大量實(shí)驗(yàn)中發(fā)現(xiàn)，數(shù)據(jù)信噪比才是決定人類數(shù)據(jù)能否有效支撐預(yù)訓(xùn)練的核心因素。

低信噪比的數(shù)據(jù)不僅沒用，甚至可能起反作用。

判斷數(shù)據(jù)信噪比，可以從兩方面看。

一是數(shù)據(jù)集分布。

操作任務(wù)的多樣性比物體的多樣性更重要，物體的多樣性又比場景的多樣性重要。泛化能力是模型最難學(xué)會的能力之一，預(yù)訓(xùn)練階段見過越多不同的任務(wù)和操作對象，接手新任務(wù)的速度就越快。

二是感知模態(tài)。

精準(zhǔn)的3D位姿追蹤比觸覺模態(tài)重要，觸覺模態(tài)又比2D圖像特征重要。

這個認(rèn)知直接決定了靈初的數(shù)據(jù)采集策略。

他們既要高精度可復(fù)現(xiàn)的數(shù)據(jù)來保證模型的執(zhí)行精度，也要低精度大范圍的泛化數(shù)據(jù)來擴(kuò)展模型的適應(yīng)能力。兩條腿走路，缺一不可。

最終構(gòu)建起來的預(yù)訓(xùn)練數(shù)據(jù)集，包含了5417小時的真機(jī)數(shù)據(jù)和95472小時的人類數(shù)據(jù)，覆蓋294種場景、4821類任務(wù)和1382種物體。

95472小時。將近10萬小時。這還不算完，源培說到了年底，他們計(jì)劃把這個數(shù)字?jǐn)U展到百萬量級。

但數(shù)據(jù)只是故事的一半。靈初真正有意思的地方，是把這些數(shù)據(jù)喂給了一個什么樣的腦子。這部分是我個人最感興趣的。

03雙系統(tǒng)架構(gòu)，一個學(xué)怎么做，一個學(xué)什么不能做

直播里源培講得最精彩的段落，就是靈初的雙系統(tǒng)架構(gòu)。我在旁邊聽得直點(diǎn)頭，彈幕里也刷得飛起。

靈初發(fā)布了兩套模型：Psi-R2和Psi-W0。

Psi-R2是一個策略模型，核心功能是讓機(jī)器人學(xué)會怎么做事情。

圖像和語言指令作為輸入，輸出預(yù)測的未來操作視頻和可執(zhí)行的機(jī)器人動作。靈初把它叫做世界行動模型。

訓(xùn)練Psi-R2的時候，靈初做了一個相當(dāng)大膽的決定——不走對齊路線。源培告訴我，他們嘗試過圖像修補(bǔ)、關(guān)鍵點(diǎn)輔助、特征空間對齊等各種方法，想把人類數(shù)據(jù)盡可能修成更像機(jī)器人數(shù)據(jù)的樣子。

但最后發(fā)現(xiàn)，數(shù)據(jù)量小的時候這些方法有幫助，數(shù)據(jù)量一旦上來，它們反而會變成瓶頸。

原因不復(fù)雜。

那些方法本質(zhì)上都在努力模糊人和機(jī)器人的差異，但在長程、精細(xì)、接觸密集的任務(wù)里，這種差異恰恰不能被輕易抹平。

越是復(fù)雜和精細(xì)的任務(wù)，越需要承認(rèn)兩種本體的差異，然后想辦法在更高的維度上建立映射，而不是強(qiáng)行抹平。

靈初的做法是化繁為簡：原生數(shù)據(jù)進(jìn)，原生數(shù)據(jù)出。

舍棄人工設(shè)計(jì)的復(fù)雜數(shù)據(jù)處理流程，直接進(jìn)行人類關(guān)節(jié)與機(jī)器人本體的運(yùn)動學(xué)對齊，讓模型在海量數(shù)據(jù)中自行探索模式。

同時用自動標(biāo)注替代人工進(jìn)行數(shù)據(jù)質(zhì)檢和標(biāo)注，最后再交由人工審核把關(guān)。

這個思路聽起來簡單，但能做到需要兩個前提：數(shù)據(jù)量足夠大、數(shù)據(jù)質(zhì)量足夠高。靈初恰好兩個都占了。

但Psi-R2有一個天然的局限。它學(xué)到的只有成功的操作。比如模型學(xué)會了成功抓起一個蘋果，但它沒有機(jī)會學(xué)到蘋果沒抓穩(wěn)掉下去的情況。而失敗經(jīng)驗(yàn)恰恰是機(jī)器人成長的重要養(yǎng)分。

沒有失敗，就沒有優(yōu)化，就沒有進(jìn)步。

這就是Psi-W0存在的理由。Psi-W0是一個動作條件型世界模型。

它的輸入是機(jī)器人動作，輸出是對未來場景視頻的預(yù)測。更關(guān)鍵的是，靈初在Psi-W0的訓(xùn)練數(shù)據(jù)里特意混入了大約30%的失敗樣本，涵蓋專項(xiàng)采集的失敗案例、常規(guī)操作中的失誤、以及推理過程中產(chǎn)生的錯誤。

有了Psi-W0，靈初就可以做一件事——反事實(shí)推理。

當(dāng)Psi-R2學(xué)完一個人類操作動作之后，Psi-W0會模擬這個操作可能出現(xiàn)的各種后果，檢查有沒有學(xué)漏學(xué)歪，預(yù)測哪些動作可能會導(dǎo)致失敗。就像一個教練站在旁邊，在運(yùn)動員完成動作之后說，你看，如果你剛才手腕的角度偏了兩度，球就不會進(jìn)。

源培給我舉了個例子。

他說如果Psi-R2學(xué)會了抓起一個杯子，Psi-W0就會去預(yù)測：如果抓的位置偏了會怎么樣，如果力度不夠會怎么樣，如果桌面有傾斜會怎么樣。這些反事實(shí)的推演，讓機(jī)器人不用真的去犯錯，就能學(xué)到失敗的經(jīng)驗(yàn)。

Psi-W0還有一個核心功能，是通過強(qiáng)化學(xué)習(xí)將人類數(shù)據(jù)轉(zhuǎn)換為機(jī)器人數(shù)據(jù)。傳統(tǒng)方法中，數(shù)據(jù)轉(zhuǎn)換靠的是仿真環(huán)境調(diào)整，不僅復(fù)雜而且準(zhǔn)確性不高。

但用Psi-W0替代后，它會模擬機(jī)器人視角和動作模式，再通過強(qiáng)化學(xué)習(xí)的試錯調(diào)優(yōu)，將人類動作調(diào)整為機(jī)器人能精準(zhǔn)執(zhí)行的動作。

在這個過程中還能持續(xù)生成新的優(yōu)質(zhì)數(shù)據(jù)，反向喂給Psi-R2和Psi-W0繼續(xù)學(xué)習(xí)，形成閉環(huán)的數(shù)據(jù)飛輪。

這里我特別問了一下推理速度的問題。因?yàn)槭澜缧袆幽Ｐ瓦@類架構(gòu)普遍有一個bug：反應(yīng)慢。

源培承認(rèn)，Psi-R2單次推理原本需要2.2秒，反映到機(jī)器人身上就是明顯的卡頓。

但他們通過DiT緩存、Torch編譯、模型量化等一系列技術(shù)優(yōu)化，把反應(yīng)時間極限壓縮到了100毫秒以內(nèi)。

直播里源培現(xiàn)場展示了經(jīng)過Psi雙系統(tǒng)訓(xùn)練后的機(jī)器人表現(xiàn)。

手機(jī)裝配、工業(yè)包裝、疊紙盒這些長程精細(xì)操作，機(jī)器人完成得行云流水。

而且靈初強(qiáng)調(diào)，經(jīng)過這10萬小時人類數(shù)據(jù)預(yù)訓(xùn)練之后，機(jī)器人只需要不到100條真機(jī)軌跡的微調(diào)，就能完成新任務(wù)的部署。

這意味著什么？意味著企業(yè)想要引入靈初的機(jī)器人方案，部署成本和周期都會被大幅壓縮。

我當(dāng)時就在想，如果這個數(shù)據(jù)是真的，那靈初在商業(yè)落地的速度上可能會領(lǐng)先同行一個身位。

整場發(fā)布會最讓人信服的部分，是硬核數(shù)據(jù)的驗(yàn)證。

靈初Psi-R2登頂了MolmoSpace榜單。

這個平臺由美國艾倫人工智能研究所發(fā)起，是全球具身智能領(lǐng)域最權(quán)威的基準(zhǔn)評測平臺之一，NVIDIA、PI這些全球頂尖團(tuán)隊(duì)都參與了本次評測。

Psi-R2一舉超越了PI、DreamZero等國際知名模型，表現(xiàn)顯著優(yōu)于其他基線模型。在成功率這塊，比同類VLA模型要高出近10倍。

這不只是中國團(tuán)隊(duì)在國際舞臺上的一次亮眼表現(xiàn)。它說明靈初這條人類數(shù)據(jù)加雙系統(tǒng)架構(gòu)的路線，經(jīng)得起最嚴(yán)苛的檢驗(yàn)。

我當(dāng)時在臺上看到這個數(shù)據(jù)，心里第一反應(yīng)是：這幫年輕人是真的猛。

04開源不是情懷，是最聰明的商業(yè)選擇

發(fā)布會后半段，靈初宣布了幾件事。

一是與北京石景山區(qū)共建數(shù)采基地，要在更廣的范圍內(nèi)鋪開數(shù)據(jù)采集網(wǎng)絡(luò)。

二是與騰訊云、抖音、覓蜂科技、智域基石達(dá)成生態(tài)合作，覆蓋算力、數(shù)據(jù)服務(wù)、應(yīng)用場景等多個維度。三是年底要將數(shù)據(jù)集擴(kuò)展到百萬量級。

但最讓我在意的，是他們決定開源首批1000小時人類手部操作數(shù)據(jù)集。

在這個數(shù)據(jù)就是核心資產(chǎn)的行業(yè)里，愿意把自己辛辛苦苦采集的數(shù)據(jù)拿出來開源，不是每個團(tuán)隊(duì)都做得到的。

我當(dāng)場就問源培，你們不心疼嗎？

他的回答讓我印象很深。

他說開源對于靈初自身來說，是讓全行業(yè)幫他們快速采集海量數(shù)據(jù)的杠桿。

只有開源，才能吸引更多的開發(fā)者和研究機(jī)構(gòu)參與到這套體系中，才能彌補(bǔ)數(shù)據(jù)飛輪閉環(huán)中的關(guān)鍵一環(huán)。

AI時代，時間和數(shù)據(jù)就是最稀缺的資源。越早進(jìn)場、擁有越多數(shù)據(jù)，就能越早收獲長尾效應(yīng)。

而站在整個行業(yè)的角度，開源是打破技術(shù)孤島的鑰匙。

具身智能這個賽道，沒有任何一家公司能單打獨(dú)斗走完全程。標(biāo)準(zhǔn)化的數(shù)據(jù)管線、開源的預(yù)訓(xùn)練底座，能夠建立起廣袤的開發(fā)者生態(tài)，讓全行業(yè)的力量匯聚到一起，共同推動技術(shù)向前走。

全行業(yè)開源共建，還能反向喂養(yǎng)靈初這樣的硬核玩家，讓他們集中精力攻堅(jiān)最難的技術(shù)瓶頸，而不是在重復(fù)造輪子的泥潭里掙扎。

集眾智，才是具身智能跑贏節(jié)拍、實(shí)現(xiàn)商業(yè)落地的唯一捷徑。

我當(dāng)時聽完，覺得這個思路很清醒。

不是那種為了博好感的開源，是想清楚了自己要什么、能換來什么的開源。這種務(wù)實(shí)在這個行業(yè)里不多見。

我突然想起他在之前一個采訪里說過的話。

有人問他為什么選擇創(chuàng)業(yè)，他說在北大和斯坦福做了那么長時間的學(xué)術(shù)研究，更想進(jìn)入工業(yè)界，做出真正能夠影響世界的產(chǎn)品。

AI發(fā)展得很快，不會出現(xiàn)論資排輩的現(xiàn)象，任何一個突破都有可能產(chǎn)生顛覆性的影響。

哪怕是只有一個人也可以創(chuàng)業(yè)，要敢想敢做。現(xiàn)在是非常好的機(jī)會，只要你夠強(qiáng)，學(xué)得夠快，你做出來的東西就很有可能會比其他人都好。

那天晚上回到家，我翻來覆去睡不著，腦子里一直在轉(zhuǎn)一個問題。

具身智能這盤棋，到底會怎么走？

答案可能就藏在那些最不起眼的地方：

在物流倉庫里分揀員的每一次抬手，在工廠流水線上裝配工的每一次擰螺絲，在商超收銀員的每一次掃碼。

這些最日常、最樸素的人類操作，正在成為訓(xùn)練未來機(jī)器人的養(yǎng)分。

靈初這次做的事情，說到底就兩件：讓機(jī)器人吃什么樣的數(shù)據(jù)，讓機(jī)器人長什么樣的腦子。

而這兩件事，都指向同一個方向——讓機(jī)器人真正走進(jìn)真實(shí)世界，在那些具體的、復(fù)雜的、充滿不確定性的場景里，幫人干活。

有仰望星空的勇氣，也有腳踏實(shí)地的努力。

具身智能正在因?yàn)檫@場青春風(fēng)暴，變得不太一樣。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.