網易首頁 > 網易號 > 正文申請入駐

對話原力靈機唐文斌：我不喜歡講我不信的話，也無法成為我不想成為的人

2026-03-30 14:41:06　來源: 36氪

北京舉報

分享至

文｜富充

編輯｜蘇建勛

創業滿一年，唐文斌的身上依舊保留著曠視時期的印記，在和我們的對話中，他時常說到“本質”這個詞——那是曠視內部的一個“流行詞”。

清華“姚班”畢業之后，唐文斌和同學印奇、楊沐在2011年創辦了曠視科技。在這家AI 1.0標志性企業中，人們喜歡追問“本質”。

創業曠視的14年里，唐文斌經歷了AI 1.0浪潮的完整起伏。從高歌猛進的業務擴展，到屢次與上市失之交臂，這些經歷也打磨著他對“本質”的理解。

關于對曠視最重要的反思，唐文斌認為是攤子不要鋪得太大，而是應該先集中全力，把一個最有優勢的業務做透。

近來履新階躍星辰董事長的印奇，在不久前的采訪中也有過類似表達——商業模式本質上是做排除法。看過了熱鬧，大家更清楚一個道理：與其做很多事，不如想清楚什么不做。

2025年3月，唐文斌創辦具身智能公司原力靈機。二次創業中，唐文斌更會做減法了。

過去一年中，原力靈機沒有跟業界一起卷訂單規模，也沒有急著推出一個“軟硬全棧”的故事提升估值。

原力靈機的第一年，把主要精力放在模型開發，以及數據、框架、評測等AI基礎設施工作上。因為在唐文斌看來，這些是決定迭代效率的基礎。

“一直跑在前面”的迭代能力，和“短暫的領先”相比，是更本質的競爭力。

當被問及會不會因為節奏“慢”，而受到投資人壓力時，唐文斌對《智能涌現》說：“有些公司確實通過一些浮夸的方式獲得了不錯的收益，我們也困惑過，要不要也這樣做。但后來想明白了，我不是很喜歡講我不信的話，也無法成為我不想成為的人。”

他把自己這些年的變化概括成三個階段：“初生牛犢不怕虎”的盲目自信，被現實教育后“覺得很多事情不知道怎么做”的迷茫，以及如今抵達的“謙虛的自信”——知道自己知道什么，也非常清楚自己不知道什么。

用AGI通用機器人開啟生產力極大富足的時代，是唐文斌當下心中的星辰大海。不過，這一次的落點更腳踏實地：隨著模型能力提升逐個解鎖場景，先把自己在曠視時期就有積累的物流業務做到商業閉環。

以下是唐文斌與《智能涌現》的對話，內容經作者整理。

△原力靈機CEO唐文斌，圖片：采訪人提供

創業第一年，關鍵詞：迭代

智能涌現：回顧原力靈機創業這一年，你腦子里冒出來的第一個詞是什么？

唐文斌：迭代。過去一年里，很多東西都在變——技術認知、數據方案、場景選擇、融資節奏等等。和歷史上的經驗一樣，具身智能的變化也比我們預想的要快。

我們今天面對的，依然是一個充滿未知的領域。在今天的具身智能行業里，一家公司本質的競爭力，不是今天有多領先，而是迭代效率有多高。誰能在變化中更快地發現問題、修正問題，誰才可能一直跑在前面。

智能涌現：原力靈機的主創團隊來自曠視，經過曠視十多年的創業經歷，你仍然覺得當下的創業有很多意料之外的變化嗎？

唐文斌：是的，即便我們從AI 1.0時代積累了很多經驗教訓。

曠視時期我們逐漸解決了計算機視覺、自動駕駛、大模型等領域的問題，到現在進入具身智能領域。每一次身處其中的時候，我們并不知道明確的路線是什么，但歷史上每一次的感悟都是，技術變化的頻率比我們預期中更快。

對于現在我們所投入的具身行業也是一樣，我們依然在解決很多未知的問題，這需要我們快速迭代自己的想法。

智能涌現：再次創業，你還會有興奮感嗎？如果有的話，從何而來？

唐文斌：我覺得無論在曠視還是現在做機器人的創業，都是在“把這個世界應該被解決的問題做得更好”。這也是我們所說的工程師的興奮感，叫“我能解決這個問題”。

從曠視時期，我就形成了一套樸素的觀念，叫做“技術信仰，價值務實。簡單來說，我們沒有創造新需求，如果創造一個居家做情感陪伴的機器人，這相當于創造了一個新需求。但我們目前在做的事情，而是用更好的工具解決已有問題，比如讓機器人去解決、替換原來工業場景里人類做起來繁雜、危險的工作。

智能涌現：這可能是一個非常務實的定位，但是聽起來會不會沒那么“性感”？

唐文斌：我覺得要看怎么定義“性感”。我認為今天我們不管在生活和生產的過程中，我們有大量的問題可以有更好的解法。解決好這些客觀存在的問題是可以產生巨大價值的，無論是商業價值、社會價值，還是用戶價值等等。

如果真的創造出了AGI通用機器人，人類會進入一個生產力極大富足的時代。這種很高的技術期待本身，就是一種星辰大海式的愿景。

找好場景，解開“數據死鎖”

智能涌現：現階段，具身智能的本質問題，你覺得是什么？

唐文斌：是模型，模型能力夠強，才能解鎖場景，而模型的突破點在數據。

數據本質上是在消滅不確定性，真正有價值的是Outlier的數據。你只有讓機器人進到真實場景，它才有機會犯錯，見到更多“錯題”，減少不確定性。

智能涌現：關于數據采集，現在有很多方法，既有數采工廠，也有很多具身公司開發素材手套、胸前攝像頭等讓人類在實際工作采集數據。你們的采集方法如何？沒有自己開發數采工具嗎？

唐文斌：我們也有自己的數采工具，也買外面的數采工具和數據。但工具是方法，這些解決方法不本質。

本質的做法，還是要讓機器人在真實場景中把數據飛輪轉起來，收集到Failure Case。就像今天自動駕駛的數據，平穩運行的數據并不稀缺，真正有價值的是接管的數據，就是自動駕駛算法不Work時的數據，才是AI真正要去學的東西。

現在采用的無論是遙操作還是以為人中心的視頻、數采手套等方法，實際上是在模擬場景，但它并不是收集機器人真實和物理世界交互的工作場景數據。也就是說，通過這樣的數據，開發者并不知道機器人靠今天的邏輯，到底在什么地方會犯錯。

智能涌現：不進場景就沒有你說的Outlier數據，沒有多樣的數據就訓不出一個能進場景干活的好模型——這是一個“死鎖”。這個死鎖怎么解開？

唐文斌：要找到適合當前機器人能力的場景。現階段，我們要把機器人當成學徒工，而不是期望很高的正式工。

我們總結了幾個找場景的條件：第一，容錯——犯錯后果不嚴重，或者有人兜得住；第二，對節拍有容忍度——機器人現在完成任務的時長不固定，但如果完成得慢，任務流程也不會因此崩潰；第三，長時間作業——否則客戶采購的性價比算不過來；第四，能泛化，如果任務太專用，非標自動化基本就搞定了。

智能涌現：你說現在原力靈機主要在做物流場景？是因為它更容錯嗎？

唐文斌：物流表面上看不容錯，比如你買瓶可樂，沒發給你，這就是錯了，客戶會投訴的。但物流有很多流程環節，可以通過系統設計變成容錯：讓機器人先干，失敗了人再接管上。

而且物流的節拍要求沒那么強，一天大概有兩到三個波次。完成著兩三個波次就可以，至于到底是9點干完，還是10點干完，不對整體造成太大影響。

智能涌現：所以你在場景上的策略是“沿途下蛋”？

唐文斌：我的模型最終是追求通用能力，并不是說我是朝著某個場景去的，只是在模型能力提升的過程中會逐漸解鎖一些場景。

所以，比起沿途下蛋，我更喜歡形容當前的模型和場景是個“夾角關系”。橫軸是場景，斜著向上的這條射線是模型能力，兩者不是完全分開的，也不是一開始就重合的。只是隨著模型越來越強，它能覆蓋的場景會越來越多，這個夾角會越來越小，最后趨向一致。

△唐文斌在黑板上畫起模型能力與場景解鎖的“夾角圖”。橫軸是場景，斜著向上的射線是模型能力，模型能力的提升，最終會落地在場景上。圖片：作者拍攝

“軟硬全棧”不是衡量估值的本質問題

智能涌現：曠視時期，你就聚焦物流場景，做原力靈機之后再輸出給客戶的方案、產品會有不同嗎？

唐文斌：簡單而言，無論是我們當年在曠視做的物流機器人業務，還是現在很多同行在做的方案，本質上解決的都還是“搬運”的問題。也就是說，機器人主要替代的是人的“腿”。

但真正更復雜的“手上動作”，其實一直沒有被很好解決。比如抓取、揀選、拿起、放下、打包，這些都還大量依賴人工。我們現在做原力靈機，更希望讓模型逐步具備處理這些手部操作的能力，再和現有系統聯動起來，形成一整套方案。

智能涌現：那原力靈機自己會做“手”的硬件嗎？

唐文斌：“手”其實是個廣義的概念，我們叫末端執行器。兩指的夾爪是一種，三指是一種，四指、五指也都是。

我不認為一種構型可以吃遍所有場景，有一些場景，用三指手就可以完成任務，成本還比五指手便宜。所以比做不做手更本質的是，要明確自己服務的場景，真正需要的是什么。

智能涌現：如果沒有自己研發硬件，或者如果不是所謂的“軟硬一體”全棧公司，會不會影響估值？

唐文斌：我覺得這不是本質問題。做不做硬件本質上都只是手段，關鍵還是看你想解決什么問題。

如果某個硬件環節和我們的核心結構設計、產品主線強相關，而且現成供應鏈滿足不了需求，那我們當然會考慮自己做；但如果外部廠商愿意配合定制，能夠滿足我們的要求，那我也沒有必要什么都親自下場。畢竟公司最寶貴的精力，還是應該放在更有差異化的地方。

所以核心不在于“你是不是一定要自己做”，而在于你有沒有自己做的能力。如果你完全沒有這個能力，就很容易被供應鏈拿捏。但如果你具備自己做的能力，就可以主動選擇——哪些該自己做，哪些可以交給合作伙伴。就像蘋果公司，也不是自己生產。

最好的具身智能模型，應該從Day 1就接觸物理世界數據

智能涌現：你們在DM0發布會上，強調這是“具身原生模型”，還和階躍星辰做了數據融合訓練。這算你們的“非共識”嗎？

唐文斌：與其說非共識，不如說這是別人做不了的事。

我們覺得最好的具身智能模型應該從Day 1就開始接觸物理世界的數據。互聯網數據、自動駕駛數據、機器人數據，三類數據混在一起訓，模型的上限會更高。

但三類數據在不同公司手里——互聯網公司、自動駕駛公司、機器人公司。只有特斯拉、小米等少數大型公司才會同時擁有這三類數據。

我們能做，是因為和階躍星辰恰好是有底層信任。這不只是技術問題，需要合作公司之間有數據定價、資產歸屬、算力分攤等方面的深度信任。

△原力靈機DM0模型包含互聯網、自動駕駛、具身三類數據的多源混合訓練，圖片：采訪人提供”

智能涌現：為什么最好的具身智能模型，應該從Day 1就接觸物理世界數據

唐文斌：你可以先把模型想象成一個初中畢業生，接受了九年制文化課，然后被拉去練三年體育，要變成“體校生”。這個學生沒有從小練體育，體能上限有限；狂練三年體育之后，文化課又落下了。所以最后得到的，通常是一個上限不高的體校生。

回歸到數據上，問題是這樣的，今天行業里大多數具身模型，本質上還是先拿一個開源的VLM模型做底座，相當于一開始接觸的主要是互聯網數據；然后再加入動作數據，微調成一個VLA。

這樣做，一方面會限制模型在真實世界中的能力上限，另一方面也容易在后期訓練中出現“偏科”——為了強化動作能力，反而損失了一部分原本的通用理解能力。

所以我們更認同一種“具身原生”的訓練方式：從 Day 1 開始，模型就應該見過足夠多的物理世界數據。

智能涌現：現在行業里經常把VLA、世界模型這些能力拆開來講，或者認為世界模型要替代VLA。你們怎么理解它們的關系？

唐文斌：我們認為，世界模型和VLA應該是一套統一的架構，而不是誰替代誰。

現在很多人的思路是：一個世界模型負責預測“接下來世界會變成什么樣”，另一個VLA或策略模型負責決定“我應該做什么動作”。但我們的理解不一樣——更好的方式，是在同一個框架里同時完成這兩件事：它既在預測動作，也在預測這個動作之后世界會發生什么變化。

因為物理世界本來就是有因果關系的。比如你伸手去抓一個物體時，腦子里其實已經對它的重量、抓取方式和需要多大力形成了預期；但真正抓上去那一刻，如果發現它比預想中更重，你就會立刻根據觸覺和受力反饋調整動作。這個過程中，你對世界的理解和你的動作決策，本來就是一體的。

我們理解的世界模型也是這樣。它不應該只是一個“預測下一幀畫面”的視覺模型，而應該和VLA融合在一起，形成一套統一的訓練框架。這里面還需要多模態信息，比如上面例子中所說的觸覺（力反饋），也需要有Memory，才能把任務真正做完整。

這也是為什么我們一直強調，具身智能模型最好從Day 1開始就接觸物理世界數據——它要學的不是孤立的動作，而是動作、反饋和世界變化之間的完整因果關系。

智能涌現：你們聯合Hugging Face發起了RoboChallenge這個具身模型的真機Benchmark，也引起了業內對原力靈機“又做裁判又做選手”的爭議。所以，在你看來做評測的必要性是什么？

唐文斌：其實評測是非常重要的。我們內部有一句話說叫，如果你花了50塊錢，這個模型應該花20塊錢去評測一下它。否則如果你自己都不知道如何衡量他的好壞，我們先不說衡量大家，我們就先衡量自己，如果都沒有這根尺子。你如何能夠把這事兒做好？

△“RoboChallenge最新評測榜單（截至2026年3月30日），圖片：采訪人提供”

智能涌現：如果你的模型真的好，最后客戶買單了，這不是一種更實際的Benchmark嗎？

唐文斌：對，但這個反饋周期很長。而且，其實今天客戶買單，可能是出于很多種原因。客戶不買單的模型，大概率不是一個好模型；但好模型不一定會得到客戶的訂單。

以及當前可能模型在某個場景能力很強，但如果想考察它通用場景中的泛化能力，那還是需要一個Benchmark評測。

務實與做自己

智能涌現：你們在今年2月10日，成立近一年的時候，才正式發布了第一款模型。和行業普遍節奏比，會不會有點“慢”？

唐文斌：我覺得今天的一些短暫的領先并不本質，比如別人一成立就發布了模型，或者DM0目前在Benchmark上的表現比較好。但當前的領先還說明不了什么，過兩天可能就被追上了。

現在的本質是因為很多東西都在變化，真正重要的是迭代效率——你內部能不能更快地發現問題、解決問題。如果迭代效率比別人高，你就能一直跑在前面。

智能涌現：你曾經說具身智能的“ChatGPT時刻”是，“一個場景1000臺機器人，持續運行”。這個標準怎么來的？

唐文斌：一個場景1000臺持續運行，意味著兩件事。第一是業務流程閉環了，不用人過多參與的情況下，機器人也可以持續完成任務；第二是，賬算明白了，客戶愿意批量化使用。

達到這個水平，才能說是真正地被客戶用起來了。

智能涌現：所以現在有真實的具身智能持續運行的場景嗎？

唐文斌：持續運行的商業化場景其實都沒那么快。我覺得大家對場景還是要有一定的耐心。但我覺得今年，最晚明年，至少在一線場景上，會出現真的商業化。

智能涌現：那你怎么看待當下具身行業里，那些“客戶采購具身智能公司的機器人組建數據采集工廠，又將采集的數據賣給機器人公司”，從而做大收入流水的現象？

唐文斌：這實際上是一種“循環收入，我不能說這些做法不對，這些企業確實獲得了收入。但公司要想清楚自己的價值導向，如果你的銷售成天在干循環收入，誰還愿意干那些真正難的事情？

智能涌現：你現在對做To C的產品有想法嗎？

唐文斌：最終會做。但To C比To B難得多。To C最終有兩種，一種是做玩具，一種是做工具。現在具身智能To C還是在做玩具的階段，工具現在還有階段性的，沒到那個技術點上。

在C端，一個機器人通常要會干很多件事情，用戶才覺得有用。但在B端，它只要干好一件事，就能持續創造價值。而且C端對成本更敏感，對錯誤容忍度更低。

所以還是先從B端開始，等模型能力足夠強，成本降下來，再想C端的事。

創業十年：愚昧之巔、絕望之谷、自信的平常心

智能涌現：從業務本身來講，現在和十年前在曠視時，差異點是什么？

唐文斌：曠視當時做了好幾個不同的業務，覺得技術可達，市場也可達，就都去做了。但結果是人才稀釋了，最強的那些人被攤薄了。

這回到創業公司經常被問到的一個問題“如果大廠干了這件事情你怎么辦呢？”。但實際上大廠并不是舉公司之力在干一件事情，而創業公司可以。

我的體會是，max(A+B+C)基本上等于max(A,B,C)。就是說，把多個能力簡單疊加，效果不會超過把最強的那一個做到極致。

智能涌現：你當下在企業管理中，最不能接受的現象是什么？

唐文斌：我們現在還比較強調開放和謙遜。我覺得我比較不想看到的，是一種叫自負，就是Ego很大的情況。

當然，作為創業公司，一旦做好決策，還是要堅決貫徹執行。但在此之前，觀點是要被允許開放討論的。我覺得今天這個世界變化太快了，大家的智慧、開放的心態是能夠更好迭代的基礎。

智能涌現：你覺得現在的自己，和十年前在曠視時有什么不同？

唐文斌：十年前剛創業的時候，很多東西不懂，是一種“初生牛犢不怕虎”的狀態，覺得自己什么都行。后來被現實教育了，又走向另一個極端——不自信，覺得很多事情不知道怎么做。

再后來，試錯多了，慢慢回到一種自信的平常心，不是盲目的自信，也不是膽怯的不自信。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

36氪

讓一部分人先看到未來

151088文章數 2848718關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

數碼

游戲

藝術

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

對話原力靈機唐文斌：我不喜歡講我不信的話，也無法成為我不想成為的人

特朗普同意停火兩周 伊朗:接受停火提議

美國、伊朗全面停火立即生效 特朗普最新發聲

美國、伊朗全面停火立即生效 特朗普最新發聲

官宣簽約“AI球員”，這支球隊被罵慘了...

女首富陳麗華離世 被曝生前已分好遺產

造出地表最強AI，卻死活不給你用！

不止是大 極狐首款MPV問道V9靜態體驗

態度原創

干細胞抗衰4大誤區,90%的人都中招

開發者自建48臺Mac mini集群，撐起Overcast播客轉錄

《刺客信條：影》藏神秘編碼 暗示《黑旗》重制預告

鄭麗文書法爭議：她的字真的不是自己寫的嗎？

特朗普同意停火兩周伊朗:接受停火提議

美國、伊朗全面停火立即生效特朗普最新發聲

美國、伊朗全面停火立即生效特朗普最新發聲

女首富陳麗華離世被曝生前已分好遺產

不止是大極狐首款MPV問道V9靜態體驗

《刺客信條：影》藏神秘編碼暗示《黑旗》重制預告