對話原力靈機周而進：原生大模型，讓具身智能“更簡單”

2026-04-06 18:35:51　來源: 智能相對論

湖南舉報

分享至

文 | 智能相對論

作者 | 葉遠風(fēng)

在人工智能浪潮席卷全球的當(dāng)下，尤其是世界模型掀起新一輪熱潮后，適配“具身智能”的大模型正廣受關(guān)注。然而，在眾聲喧嘩與概念紛繁之中，什么才是通向通用機器人的切實路徑？是強化學(xué)習(xí)還是模仿學(xué)習(xí)？是VLA端到端還是模塊化分步式？是仿真捷徑還是真機苦功？

近期，我們對話了原力靈機聯(lián)合創(chuàng)始人周而進。在他看來，行業(yè)的許多爭論可能偏離了本質(zhì)。原力靈機選擇了一條看似“笨拙”的道路：摒棄直接套用現(xiàn)有大模型，從零開始構(gòu)建原生機器人模型DM0；不追求參數(shù)的盲目膨脹，相信“小”模型也能在真實世界中完成復(fù)雜任務(wù)；明確提出“通用”與“泛化”正交的研發(fā)框架，并以“世界模型”與“視覺-語言-動作模型”的緊密結(jié)合，作為實現(xiàn)這一目標的技術(shù)支柱。

周而進斷言，他們正在做的，實際上是“更簡單的事”。

這份“簡單”，并非指技術(shù)難度低，而是指拋開捷徑與妥協(xié)，回歸問題本質(zhì)——讓機器人像人一樣，通過分層智能系統(tǒng)理解世界、規(guī)劃任務(wù)、并靈巧地操縱物理實體。這要求模型必須真正理解“干預(yù)世界”與“預(yù)測世界”的區(qū)別，必須能適應(yīng)不同的機器身體與傳感器組合，也必須能在不完美的現(xiàn)實場景中，從“有人兜底”逐步走向完全自主。

在本次對話過程中，作為AI圈內(nèi)的技術(shù)精英，曾經(jīng)的“天才少年”周而進系統(tǒng)闡述了原力靈機對“通用具身智能”的完整定義與四大泛化維度，犀利點評了行業(yè)在技術(shù)路徑、數(shù)據(jù)策略上的常見誤區(qū)，并首次詳細解讀了其“世界模型+VLA”的技術(shù)架構(gòu)為何是必然選擇。他也坦誠分享了公司從工業(yè)物流場景切入的商業(yè)化邏輯，以及面對數(shù)據(jù)稀缺、客戶信任等挑戰(zhàn)時的“兜底”哲學(xué)。

我們得以窺見一家具身智能創(chuàng)業(yè)公司的技術(shù)藍圖，也對當(dāng)前具身智能發(fā)展范式有一定反思。以下是對話實錄。

智能相對論：怎么看待當(dāng)下具身智能的發(fā)展？

周而進：具身智能這一波浪潮來自于大模型開啟了一個非常強大的關(guān)于泛化的能力，關(guān)于萬物互聯(lián)的可能性。

在算法上面，我們認為構(gòu)建一個分層的智能系統(tǒng)十分必要。這是因為，和人一樣，具身智能對于世界的理解、動作的操縱反饋，一定需要一個分層系統(tǒng)來實現(xiàn)，才能有很普遍的實用價值。

這個體系有三層：

首先要有一個大腦對系統(tǒng)進行規(guī)劃；

然后有一個“小腦”做出各種low level的指令，比如拿、放、推、拉；

最后一層，我們定義為system0，意思是從抓、拿、放這些low level指令到真的去驅(qū)動電機，把關(guān)節(jié)穩(wěn)定地轉(zhuǎn)起來，拿穩(wěn)、放平，動作流暢光滑，執(zhí)行效率高，然后還要結(jié)合各種傳感器的信號，包括力的反饋、觸覺的反饋等。

有了這樣一個三層的分層系統(tǒng)，才能最終解決那些足夠復(fù)雜的問題。

之所以有這樣的認識，是因為我們從一開始就把自己的目標定位為“通用具身智能”，想要造出來的機器人不是為了專門擦桌子，或者說專門去做一個具體的動作（那樣的話也不用那么復(fù)雜的系統(tǒng)）。未來的機器人，應(yīng)該是每天就跟保潔阿姨一樣，巡視一下工區(qū)哪有垃圾桶滿了就給換一個，哪里的桌子臟了就能擦干凈，飲水機沒水了就補充一下。

這些能力需要的不是簡單的規(guī)則，而是一個對于場景環(huán)境的長程理解到精細操作的完美執(zhí)行，哪一環(huán)都少不了，我們的大模型算法必須構(gòu)建起分層智能系統(tǒng)。

智能相對論：“通用具身智能”對模型層面有什么要求？

周而進：第一，模型對硬件要有一定的通用性。

在真實的業(yè)務(wù)落地情況下，也結(jié)合我們的業(yè)務(wù)實踐，硬件需要用一些不同的構(gòu)型來完成不同的任務(wù)，比如物流行業(yè)，重載業(yè)務(wù)的機器人需要很“粗”的手臂，靈活度可以不要求那么高。但一些非常精細的操作，比如說拆袋子、拆箱子、封膠帶，就需要有一個桌面雙臂靈巧手的形態(tài)，身體不需要動。

一個足夠通用的機器人模型，對于這些構(gòu)型都應(yīng)該能夠適配。

第二，模型要有對多傳感器的理解。

人類感官的本質(zhì)也是多種傳感信號的共同輸入，最常見的是視覺，然后聽覺、觸覺等等。多傳感器相互之間是替補關(guān)系，比如，我閉著眼睛去摸，一樣能夠抓起一個東西，這個時候其實就是傳感器之間的相互補位。

對于人類來說，我把你左手綁住，不應(yīng)該影響你的右手，或者說，我遮住你的眼睛，你的觸覺應(yīng)該依然是work的。

模型一定要去適應(yīng)就是不同的機型、不同的傳感器，只有這樣，才能夠真正理解每一個模塊、每一個傳感器實際起到的作用是什么、相互之間怎么來互補，要能夠把這些東西放在一個大腦里面，統(tǒng)一指揮、統(tǒng)一調(diào)配起來。

具身智能模型的目標，應(yīng)是這樣：今天我給機器插上一個觸覺模組，干活就能干得更準確，拔掉依然能干活，只不過準確率可能會下降一點；一個雙臂機器人把某一條臂卸掉，還是能繼續(xù)干活。

智能相對論：“通用具身智能”價值展現(xiàn)在哪里？

周而進：“通用”產(chǎn)生的價值，或者說，一個非常重要的判斷標準是泛化性，不能一種情況行另一種情況就不行。

第一是被操作對象的泛化。

比如說都是整理雜物，模型如果只能在已經(jīng)采集的數(shù)據(jù)上奏效，其實是沒有意義的。切蘋果，只有我家的蘋果能切，他家的蘋果就切不了，那就不行。

被操作對象在語義層面需要保持一致，但在個體層面可以不同。

第二是場景的泛化。

都是切水果，機器人在我家、在你家應(yīng)該都能切。

對象、場景的泛化，這是最基本的兩個標準，也是今年我們核心努力的一個方向。

第三是任務(wù)的泛化。

機器人不能永遠都只能做我教他的那幾個動作。

一方面，基于很多原子動作可以去做排列組合，機器人應(yīng)該能學(xué)會做成更復(fù)雜的動作，比如說收納桌子，可以拆解為拾起、折疊、擦拭這么幾個原子動作的組合。

這就需要更好的一個具身大腦把一個更長程的任務(wù)拆解成更多的原子動作，然后有一個全局的推理系統(tǒng)能夠把整個系統(tǒng)跑起來，最后完成一些更長的任務(wù)，越做越長。

另一方面，很多原子動作本身也應(yīng)該有創(chuàng)新，比如說今天會打蝴蝶結(jié)，明天可以學(xué)會外科醫(yī)生打的一種外科結(jié)，那是一種完全不一樣的繞線方法。

對這種，就不能簡單地把原有的一些動作去排列組合做更長的任務(wù)，它是一種全新的概念，需要通過更廣泛的數(shù)據(jù)學(xué)習(xí)不停地補充模型能力，對基本動作進行擴充。

第四是機型的泛化。

這其實是更難的要求，在數(shù)據(jù)量不足的情況下，能做到前邊幾個泛化，又能夠在幾個我們常用的機型上都做好，是一個非常有挑戰(zhàn)性的目標。

我們在訓(xùn)模型的時候，會有意識去訓(xùn)練一個通用模型，讓它接受各種各樣機器人數(shù)據(jù)，為未來去做機型泛化來去做準備。

未來我們的機器人，完全有可能是一種可組裝式的，比如說在某些業(yè)務(wù)場景加裝不同的配合機械臂，支持客戶通過少量的數(shù)據(jù)就能夠適應(yīng)新的抓握要求。

智能相對論：“通用”和“泛化”具體要怎么推進和實現(xiàn)？

周而進：泛化的4個維度是機器人逐步都要去解決的，在模型或算法的角度，通用加泛化是兩個正交的概念。

在具體的手段方面，我們主要圍繞VLA（Vision-Language-Action，視覺語言動作模型）+世界模型兩個具體的研發(fā)模塊。

在這個基本的架構(gòu)之上，數(shù)據(jù)策略、強化學(xué)習(xí)方法、模仿學(xué)習(xí)方法，都圍繞它們進行，用來實現(xiàn)通用+泛化的目標。

智能相對論：李飛飛等團隊在做的世界模型，在具身智能領(lǐng)域的應(yīng)用，聽起來和通用+泛化的構(gòu)想有點類似，那VLA+世界模型和單純的世界模型有什么區(qū)別？

周而進：世界模型和VLA是正交的。

VLA是說接下來該做什么動作，世界模型是說當(dāng)我做了這個動作之后，這個世界發(fā)生了什么樣的變化。

我們認為，單獨說誰是VLA派或者世界模型派這個本身是沒有意義的，技術(shù)上面要追求的不是站隊問題，而是到底怎么樣更好的全面建模機器人操作，有一個模塊來預(yù)測狀態(tài)發(fā)生什么，有一個模塊來預(yù)測接下來動作該做啥。

如果只有世界模型，那么機器人知道這個世界接下來該怎么演變，但不知道該做什么動作去影響這個世界去獲得想要的結(jié)果。比如說這兒著火了，世界模型能告訴你接下來5秒鐘火是怎么燃燒，但他不會去做動作，因為怎么去滅火這件事情，世界模型告訴不了。

或者說，世界模型推動的機器人最終是落不了地的，它不知道怎么去介入世界、干預(yù)世界，解決不了問題。

智能相對論：如果只關(guān)注世界模型，不關(guān)注VLA，對具身智能會是什么結(jié)果？

周而進：現(xiàn)在大家對世界模型的定義確實是多種多樣的，如果說世界模型它本身沒有排斥說去做動作，那就相當(dāng)于已經(jīng)把世界模型和VLA放在了一起，概念融合了。

概念的事，永遠可以把其他概念吸收進來，擴充“世界模型”內(nèi)涵，把所有事都干了。但是，它的本質(zhì)，必須是我們所說的世界模型+VLA，做兩類預(yù)測，一是我要干預(yù)世界我該做什么，二是干預(yù)也好不干預(yù)也好，世界本身會怎么演變。

有些團隊在訓(xùn)練世界模型時，更多的是通過視頻這個方向去做模型訓(xùn)練，不會有太多觸覺、身體動作的數(shù)據(jù)加入進來（至少不以其為主），這會導(dǎo)致具身智能在仿真時表現(xiàn)很好，一旦上了真機就很拉跨。這樣的世界模型，就算想要擴充到VLA，也沒辦法真正做到VLA所達到的精度。

在狹義上，只有世界模型的具身智能，和Gemini沒有本質(zhì)區(qū)別。

今天很多大模型公司把動態(tài)模型拓展一下就說自己是具身大腦，做的評測也都是開環(huán)評測，比如給一張圖詢問下一步動作，判斷這個動作是不是正確。但具身智能真正要解的是閉環(huán)控制，做了第一步?jīng)Q策之后，“世界”變了，接下來還能不能根據(jù)這個變化再來做出第二步、第三步正確的反應(yīng)，這個過程是沒辦法背答案的。

狹義的世界模型，生成漂亮的視頻是沒問題的，但用來操作機器人，可能沒什么太大意義。

智能相對論：現(xiàn)在具身智能的數(shù)據(jù)本來就很缺，用世界模型+VLA的方式來實現(xiàn)通用+泛化，對數(shù)據(jù)的需求似乎會是幾何式增長，怎么應(yīng)對這個挑戰(zhàn)？

周而進：數(shù)據(jù)問題要回到每一份數(shù)據(jù)的價值怎么呈現(xiàn)。不是說誰數(shù)據(jù)量大就厲害，也不是盲目說哪個數(shù)據(jù)好哪個壞，關(guān)鍵是怎么真正用好每一種數(shù)據(jù)。

仿真數(shù)據(jù)量大管飽，但做了那么多年，自駕直到今天所有公司都還在采真機數(shù)據(jù)。但是，只要與這個世界交互是在改變世界，這類仿真數(shù)據(jù)的可用性就仍然很強。

比如說導(dǎo)航，非常低速簡單的室內(nèi)場景，大規(guī)模掃描各種屋子來建模真實場景有很重要的意義，因為這樣的場景就是不要撞到各種物品就好。

但例如疊衣服或者裝水，隨著動作的不同變化會很大，液體一晃動，整個瓶子的質(zhì)心就是在變化，如果沒辦法準確建模，仿真數(shù)據(jù)就很難足夠有價值。反之，如果已經(jīng)能準確建模，那說明對世界的理解已經(jīng)很準確，就不再需要“仿真”了，這是矛盾的。

因此，我們在室內(nèi)低速導(dǎo)航、剛性物體抓取等方面，會充分利用仿真數(shù)據(jù)。但在需要精細化操作的方面，主要投入力度進行真實數(shù)據(jù)采集，解決最后一公里問題。

這方面，一方面要解決數(shù)據(jù)泛化性問題，什么情形都要有，另一方面，要解決最后的高精度操作問題。目前在大力進行human data采集，通過各種采集設(shè)備，在各種場景把人的動作信號捕捉下來，進行較大規(guī)模的真實遙采。

只不過，就像自動駕駛沒有人天天騎著自行車去采集數(shù)據(jù)，真實數(shù)據(jù)不代表真機數(shù)據(jù)。現(xiàn)在的采集過程只不過是機器人布置出去的量太少的情況下，不得已而為之的替代手段，以后一定要過渡到機器人的大批量真機采集上來。

還有一點要強調(diào)的是，數(shù)據(jù)收集的維度，從傳感器而言已經(jīng)有視覺、觸覺、聽覺、力控、加速度等維度，維度越多，與人的感受、體驗越接近，越能強化機器人的通用+泛化能力，只不過目前還是視覺內(nèi)容占主體，未來相信其他維度的數(shù)據(jù)會慢慢變得豐富，甚至能夠有嗅覺傳感數(shù)據(jù)的加入，相信機器人的通用性會進一步強化。

智能相對論：大模型APP現(xiàn)在不只是看訓(xùn)練數(shù)據(jù)，也看真實使用的反哺，越用越好用，機器人是不是也類似？

周而進：是的，機器人能夠在真實世界快速被部署出去，這個游戲才會進入到下一個階段，再循環(huán)，然后就開始做真實世界強化學(xué)習(xí)。

自動駕駛已經(jīng)過了這個階段，成熟的飛輪滾起來了。機器人首先還需要在第一階段加碼，先用起來，不要猶豫，要先進到場景里、滾動起來。

智能相對論：原力靈機的理想是做全場景，但現(xiàn)在商業(yè)化先在工業(yè)物流領(lǐng)域，是不是就是基于這樣的背景？

周而進：一開始要有個大目標，它決定了技術(shù)架構(gòu)和判斷。在這個大目標之下，需要的是盡量先跑起來。

飯得一口一口吃，泛化有多個維度，在工業(yè)物流場景，除了先落地跑起來，其實能做的事也有挺多的。

場景限制但還是能改變操作對象，比如在物流皮帶上做分揀、做打包，面臨各種各樣的商品，有剛性有柔性，天天在變，第一步就對機器人有最基礎(chǔ)的能力驗證。

然后在場景上，一些客戶他有自己的物流倉庫、門店、商超，場景會有變化、環(huán)境更復(fù)雜，如果最開始沒有想著泛化，算法可能就無法適應(yīng)。

到今天為止，具身智能整個硬件，從傳感器到構(gòu)型沒有定式，關(guān)節(jié)夾爪選哪個、傳感器怎么安置，攝像頭視角的變化該怎么來定，如果不做本體，就永遠摸不清楚這里面到底要怎么弄，所以一定在最開始要軟硬一體化設(shè)計，讓機器人真的進到產(chǎn)線里面。

智能相對論：但是先讓機器人在工業(yè)物流場景跑起來，不夠成熟的情況下，怎么解決客戶認可的問題？

周而進：這其中最重要的概念是“兜底”問題。

比如說做皮帶上的分揀，拿起一件衣服分揀掉地上怎么辦？放錯箱子了怎么辦？夾爪卡住了怎么辦？中間突然斷電了怎么辦？機器人要處理，就牽扯一套復(fù)雜的解決方案。

很多團隊搞了各種新的算法，準確率不斷提升，從50%刷到70%。但我認為從95%刷到97%可能都沒用，只要會出錯，就必須要有“兜底”方案。

如果沒法兜底，就很難被客戶所接受。

而“兜底”方案是一個動態(tài)的過程，可能早期，機器人還“泛化”不了的，我在生產(chǎn)線裝個兜網(wǎng)來解決掉落問題，人工+機器人配合，或者機器人+遙操。但隨著機器人進產(chǎn)線，算法適應(yīng)更多對象、場景和任務(wù)，機器人會慢慢接過來實現(xiàn)泛化升級，把解決方案的其他部分吸收掉，最終獨立工作。

這也是為什么要強調(diào)對場景的理解、與客戶在解決方案層面進行系統(tǒng)合作，只有這樣，才有讓機器人獲得第一階段進入，然后逐步滾動成熟起來的機會。

智能相對論：目前下游硬件在通用+泛化的支持方面如何，是不是會成為瓶頸？

周而進：必須要澄清一個行業(yè)認知，當(dāng)前很多具身智能的表現(xiàn)拉跨并不是因為硬件性能不足，而基本都因為模型能力沒有跟上。

一個淺顯的道理是，如果一個動作能夠被遙操出來，或者能夠在固定程序上跑得很驚艷，比如春晚宇樹機器人的武術(shù)和舞蹈，那就證明硬件能力本身沒有問題。

事實上，今天機器人硬件的很多性能表現(xiàn)已經(jīng)很不錯了，一個好的搖操方案，轉(zhuǎn)核桃、翻跟斗都是家常便飯。大家都卡在模型上，模型能夠進場景基本就意味著本體能進場景。

當(dāng)然，散熱、功耗這些，是供應(yīng)鏈硬件必須不斷強化的。

智能相對論：通用+泛化正交下，模型的參數(shù)量會有什么不同之處嗎？之前原力靈機發(fā)布了DM0大模型并進行了開源，參數(shù)只有2.4B。

周而進：在機器人領(lǐng)域，無腦堆參數(shù)量這件事非常荒誕。我們還是要回到實質(zhì)上，到底多大的參數(shù)量能夠做到一個什么樣的能力？

對機器人來說，8B未必比4B厲害，4B可能比2B差。我們通過大量的真機的實驗發(fā)現(xiàn)，2.4B的參數(shù)量已經(jīng)足夠完成想要的功能，也便于部署和二次開發(fā)了，一臺4090、5090的機器就能跑起來。而且做了代碼優(yōu)化之后，機器人的反應(yīng)時間能控制在60毫秒的時延。

退一步說，在現(xiàn)在的數(shù)據(jù)條件下，如果現(xiàn)在有具身智能大模型說自己的參數(shù)量有30B，那我只能懷疑它用了一堆仿真數(shù)據(jù)。

今年我們的一個大目標還是奔著通用和泛化這兩個角度去往前做。從訓(xùn)練機制上，具身智能不應(yīng)該是下載個VLM模型然后加點自己的數(shù)據(jù)就搞出一個機器人模型，我們要做的、我們的DM0是一個原生機器人模型，從第一天開始就在真實世界中去理解、操作物理世界，再配合我們的訓(xùn)練技巧，實現(xiàn)跨機型多任務(wù)等等學(xué)習(xí)方式。

很多模型只針對一種機型，要拿起瓶子就只會背誦幾個關(guān)節(jié)的步驟、電機該轉(zhuǎn)幾度，而DM0和后續(xù)要發(fā)布的升級版模型DM0.5，是要解決對運動和趨勢的理解問題。

之后，我們的DM1乃至更多版本，會沿著從對象到場景，然后到任務(wù)，再到機型的路徑去執(zhí)行。到DM1.X時，預(yù)計分層系統(tǒng)能夠支持小時級別的任務(wù)。

智能相對論：目標嚴苛、前路漫漫，是不是可以理解，原力靈機在具身智能賽道上，選擇了最難的那條路？

周而進：并不對，從目標的設(shè)計來說，原力靈機的通用+泛化正交，從最底層的結(jié)構(gòu)開始從頭走了一條完全屬于自己的道路，一步步實現(xiàn)目標，看起來是比那些拿著國內(nèi)外大語言模型過來改一下就去使用要更加麻煩，十分有挑戰(zhàn)性。

但是，反過來想，你拿了別人的東西過來，天花板就被它限制住了，模型的知識量、認知甚至它的缺陷，都擺在那了。短期內(nèi)能夠上線一些粗淺的場景應(yīng)用，長期看，一旦想要能力精進，投入的時間和成本會更大。

就像一個小朋友小時候?qū)W英語雖然痛苦，但會比長大后再學(xué)效果好很多。現(xiàn)在業(yè)內(nèi)許多團隊基于開源模型（如Pi或通用VLM）能快速跑通demo，這極大地降低了行業(yè)門檻。但Pi也有著缺陷，比如沒有多傳感器的觸覺數(shù)據(jù)，沒有場景的構(gòu)造、任務(wù)的構(gòu)造。如果致力于打造原生具身智能，就會在多傳感器融合、底層物理規(guī)律理解上存在天然的局限性。

至于VLM模型就更不用說了，模型可能根本都沒見過關(guān)節(jié)電機這些東西，只有互聯(lián)網(wǎng)數(shù)據(jù)喂養(yǎng)下的機械動作背誦。

大模型發(fā)展的技術(shù)路線不一定是完全可以復(fù)用到具身智能上，但大模型走過的那些坑，是能夠有意去避免的。最典型的是，當(dāng)大模型足夠強的時候，很多個體調(diào)優(yōu)的小模型應(yīng)用最后發(fā)現(xiàn)并沒有太大意義，被通吃了。

具身智能未來的發(fā)展，通用+泛化正交，會走到類似的階段。

基礎(chǔ)打牢了，后續(xù)廣泛的場景落地會變得更快，我們是在走一條更簡單的路，這也是行業(yè)應(yīng)該要走的更簡單的路。

*本文圖片均來源于網(wǎng)絡(luò)

聲明：個人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.