文|富充
編輯|蘇建勛
創業滿一年,唐文斌的身上依舊保留著曠視時期的印記,在和我們的對話中,他時常說到“本質”這個詞——那是曠視內部的一個“流行詞”。
清華“姚班”畢業之后,唐文斌和同學印奇、楊沐在2011年創辦了曠視科技。在這家AI 1.0標志性企業中,人們喜歡追問“本質”。
創業曠視的14年里,唐文斌經歷了AI 1.0浪潮的完整起伏。從高歌猛進的業務擴展,到屢次與上市失之交臂,這些經歷也打磨著他對“本質”的理解。
關于對曠視最重要的反思,唐文斌認為是攤子不要鋪得太大,而是應該先集中全力,把一個最有優勢的業務做透。
近來履新階躍星辰董事長的印奇,在不久前的采訪中也有過類似表達——商業模式本質上是做排除法。看過了熱鬧,大家更清楚一個道理:與其做很多事,不如想清楚什么不做。
2025年3月,唐文斌創辦具身智能公司原力靈機。二次創業中,唐文斌更會做減法了。
過去一年中,原力靈機沒有跟業界一起卷訂單規模,也沒有急著推出一個“軟硬全棧”的故事提升估值。
原力靈機的第一年,把主要精力放在模型開發,以及數據、框架、評測等AI基礎設施工作上。因為在唐文斌看來,這些是決定迭代效率的基礎。
“一直跑在前面”的迭代能力,和“短暫的領先”相比,是更本質的競爭力。
當被問及會不會因為節奏“慢”,而受到投資人壓力時,唐文斌對《智能涌現》說:“有些公司確實通過一些浮夸的方式獲得了不錯的收益,我們也困惑過,要不要也這樣做。但后來想明白了,我不是很喜歡講我不信的話,也無法成為我不想成為的人。”
他把自己這些年的變化概括成三個階段:“初生牛犢不怕虎”的盲目自信,被現實教育后“覺得很多事情不知道怎么做”的迷茫,以及如今抵達的“謙虛的自信”——知道自己知道什么,也非常清楚自己不知道什么。
用AGI通用機器人開啟生產力極大富足的時代,是唐文斌當下心中的星辰大海。不過,這一次的落點更腳踏實地:隨著模型能力提升逐個解鎖場景,先把自己在曠視時期就有積累的物流業務做到商業閉環。
以下是唐文斌與《智能涌現》的對話,內容經作者整理。
![]()
△原力靈機CEO唐文斌,圖片:采訪人提供
創業第一年,關鍵詞:迭代
智能涌現:回顧原力靈機創業這一年,你腦子里冒出來的第一個詞是什么?
唐文斌:迭代。過去一年里,很多東西都在變——技術認知、數據方案、場景選擇、融資節奏等等。和歷史上的經驗一樣,具身智能的變化也比我們預想的要快。
我們今天面對的,依然是一個充滿未知的領域。在今天的具身智能行業里,一家公司本質的競爭力,不是今天有多領先,而是迭代效率有多高。誰能在變化中更快地發現問題、修正問題,誰才可能一直跑在前面。
智能涌現:原力靈機的主創團隊來自曠視,經過曠視十多年的創業經歷,你仍然覺得當下的創業有很多意料之外的變化嗎?
唐文斌:是的,即便我們從AI 1.0時代積累了很多經驗教訓。
曠視時期我們逐漸解決了計算機視覺、自動駕駛、大模型等領域的問題,到現在進入具身智能領域。每一次身處其中的時候,我們并不知道明確的路線是什么,但歷史上每一次的感悟都是,技術變化的頻率比我們預期中更快。
對于現在我們所投入的具身行業也是一樣,我們依然在解決很多未知的問題,這需要我們快速迭代自己的想法。
智能涌現:再次創業,你還會有興奮感嗎?如果有的話,從何而來?
唐文斌:我覺得無論在曠視還是現在做機器人的創業,都是在“把這個世界應該被解決的問題做得更好”。這也是我們所說的工程師的興奮感,叫“我能解決這個問題”。
從曠視時期,我就形成了一套樸素的觀念,叫做“技術信仰,價值務實。簡單來說,我們沒有創造新需求,如果創造一個居家做情感陪伴的機器人,這相當于創造了一個新需求。但我們目前在做的事情,而是用更好的工具解決已有問題,比如讓機器人去解決、替換原來工業場景里人類做起來繁雜、危險的工作。
智能涌現:這可能是一個非常務實的定位,但是聽起來會不會沒那么“性感”?
唐文斌:我覺得要看怎么定義“性感”。我認為今天我們不管在生活和生產的過程中,我們有大量的問題可以有更好的解法。解決好這些客觀存在的問題是可以產生巨大價值的,無論是商業價值、社會價值,還是用戶價值等等。
如果真的創造出了AGI通用機器人,人類會進入一個生產力極大富足的時代。這種很高的技術期待本身,就是一種星辰大海式的愿景。
找好場景,解開“數據死鎖”
智能涌現:現階段,具身智能的本質問題,你覺得是什么?
唐文斌:是模型,模型能力夠強,才能解鎖場景,而模型的突破點在數據。
數據本質上是在消滅不確定性,真正有價值的是Outlier的數據。你只有讓機器人進到真實場景,它才有機會犯錯,見到更多“錯題”,減少不確定性。
智能涌現:關于數據采集,現在有很多方法,既有數采工廠,也有很多具身公司開發素材手套、胸前攝像頭等讓人類在實際工作采集數據。你們的采集方法如何?沒有自己開發數采工具嗎?
唐文斌:我們也有自己的數采工具,也買外面的數采工具和數據。但工具是方法,這些解決方法不本質。
本質的做法,還是要讓機器人在真實場景中把數據飛輪轉起來,收集到Failure Case。就像今天自動駕駛的數據,平穩運行的數據并不稀缺,真正有價值的是接管的數據,就是自動駕駛算法不Work時的數據,才是AI真正要去學的東西。
現在采用的無論是遙操作還是以為人中心的視頻、數采手套等方法,實際上是在模擬場景,但它并不是收集機器人真實和物理世界交互的工作場景數據。也就是說,通過這樣的數據,開發者并不知道機器人靠今天的邏輯,到底在什么地方會犯錯。
智能涌現:不進場景就沒有你說的Outlier數據,沒有多樣的數據就訓不出一個能進場景干活的好模型——這是一個“死鎖”。這個死鎖怎么解開?
唐文斌:要找到適合當前機器人能力的場景。現階段,我們要把機器人當成學徒工,而不是期望很高的正式工。
我們總結了幾個找場景的條件:第一,容錯——犯錯后果不嚴重,或者有人兜得住;第二,對節拍有容忍度——機器人現在完成任務的時長不固定,但如果完成得慢,任務流程也不會因此崩潰;第三,長時間作業——否則客戶采購的性價比算不過來;第四,能泛化,如果任務太專用,非標自動化基本就搞定了。
智能涌現:你說現在原力靈機主要在做物流場景?是因為它更容錯嗎?
唐文斌:物流表面上看不容錯,比如你買瓶可樂,沒發給你,這就是錯了,客戶會投訴的。但物流有很多流程環節,可以通過系統設計變成容錯:讓機器人先干,失敗了人再接管上。
而且物流的節拍要求沒那么強,一天大概有兩到三個波次。完成著兩三個波次就可以,至于到底是9點干完,還是10點干完,不對整體造成太大影響。
智能涌現:所以你在場景上的策略是“沿途下蛋”?
唐文斌:我的模型最終是追求通用能力,并不是說我是朝著某個場景去的,只是在模型能力提升的過程中會逐漸解鎖一些場景。
所以,比起沿途下蛋,我更喜歡形容當前的模型和場景是個“夾角關系”。橫軸是場景,斜著向上的這條射線是模型能力,兩者不是完全分開的,也不是一開始就重合的。只是隨著模型越來越強,它能覆蓋的場景會越來越多,這個夾角會越來越小,最后趨向一致。
![]()
△唐文斌在黑板上畫起模型能力與場景解鎖的“夾角圖”。橫軸是場景,斜著向上的射線是模型能力,模型能力的提升,最終會落地在場景上。圖片:作者拍攝
“軟硬全棧”不是衡量估值的本質問題
智能涌現:曠視時期,你就聚焦物流場景,做原力靈機之后再輸出給客戶的方案、產品會有不同嗎?
唐文斌:簡單而言,無論是我們當年在曠視做的物流機器人業務,還是現在很多同行在做的方案,本質上解決的都還是“搬運”的問題。也就是說,機器人主要替代的是人的“腿”。
但真正更復雜的“手上動作”,其實一直沒有被很好解決。比如抓取、揀選、拿起、放下、打包,這些都還大量依賴人工。我們現在做原力靈機,更希望讓模型逐步具備處理這些手部操作的能力,再和現有系統聯動起來,形成一整套方案。
智能涌現:那原力靈機自己會做“手”的硬件嗎?
唐文斌:“手”其實是個廣義的概念,我們叫末端執行器。兩指的夾爪是一種,三指是一種,四指、五指也都是。
我不認為一種構型可以吃遍所有場景,有一些場景,用三指手就可以完成任務,成本還比五指手便宜。所以比做不做手更本質的是,要明確自己服務的場景,真正需要的是什么。
智能涌現:如果沒有自己研發硬件,或者如果不是所謂的“軟硬一體”全棧公司,會不會影響估值?
唐文斌:我覺得這不是本質問題。做不做硬件本質上都只是手段,關鍵還是看你想解決什么問題。
如果某個硬件環節和我們的核心結構設計、產品主線強相關,而且現成供應鏈滿足不了需求,那我們當然會考慮自己做;但如果外部廠商愿意配合定制,能夠滿足我們的要求,那我也沒有必要什么都親自下場。畢竟公司最寶貴的精力,還是應該放在更有差異化的地方。
所以核心不在于“你是不是一定要自己做”,而在于你有沒有自己做的能力。 如果你完全沒有這個能力,就很容易被供應鏈拿捏。但如果你具備自己做的能力,就可以主動選擇——哪些該自己做,哪些可以交給合作伙伴。就像蘋果公司,也不是自己生產。
最好的具身智能模型,應該從Day 1就接觸物理世界數據
智能涌現:你們在DM0發布會上,強調這是“具身原生模型”,還和階躍星辰做了數據融合訓練。這算你們的“非共識”嗎?
唐文斌:與其說非共識,不如說這是別人做不了的事。
我們覺得最好的具身智能模型應該從Day 1就開始接觸物理世界的數據。互聯網數據、自動駕駛數據、機器人數據,三類數據混在一起訓,模型的上限會更高。
但三類數據在不同公司手里——互聯網公司、自動駕駛公司、機器人公司。只有特斯拉、小米等少數大型公司才會同時擁有這三類數據。
我們能做,是因為和階躍星辰恰好是有底層信任。這不只是技術問題,需要合作公司之間有數據定價、資產歸屬、算力分攤等方面的深度信任。
![]()
△原力靈機DM0模型包含互聯網、自動駕駛、具身三類數據的多源混合訓練,圖片:采訪人提供”
智能涌現:為什么最好的具身智能模型,應該從Day 1就接觸物理世界數據
唐文斌:你可以先把模型想象成一個初中畢業生,接受了九年制文化課,然后被拉去練三年體育,要變成“體校生”。這個學生沒有從小練體育,體能上限有限;狂練三年體育之后,文化課又落下了。所以最后得到的,通常是一個上限不高的體校生。
回歸到數據上,問題是這樣的,今天行業里大多數具身模型,本質上還是先拿一個開源的VLM模型做底座,相當于一開始接觸的主要是互聯網數據;然后再加入動作數據,微調成一個VLA。
這樣做,一方面會限制模型在真實世界中的能力上限,另一方面也容易在后期訓練中出現“偏科”——為了強化動作能力,反而損失了一部分原本的通用理解能力。
所以我們更認同一種“具身原生”的訓練方式:從 Day 1 開始,模型就應該見過足夠多的物理世界數據。
智能涌現:現在行業里經常把VLA、世界模型這些能力拆開來講,或者認為世界模型要替代VLA。你們怎么理解它們的關系?
唐文斌:我們認為,世界模型和VLA應該是一套統一的架構,而不是誰替代誰。
現在很多人的思路是:一個世界模型負責預測“接下來世界會變成什么樣”,另一個VLA或策略模型負責決定“我應該做什么動作”。但我們的理解不一樣——更好的方式,是在同一個框架里同時完成這兩件事:它既在預測動作,也在預測這個動作之后世界會發生什么變化。
因為物理世界本來就是有因果關系的。比如你伸手去抓一個物體時,腦子里其實已經對它的重量、抓取方式和需要多大力形成了預期;但真正抓上去那一刻,如果發現它比預想中更重,你就會立刻根據觸覺和受力反饋調整動作。這個過程中,你對世界的理解和你的動作決策,本來就是一體的。
我們理解的世界模型也是這樣。它不應該只是一個“預測下一幀畫面”的視覺模型,而應該和VLA融合在一起,形成一套統一的訓練框架。這里面還需要多模態信息,比如上面例子中所說的觸覺(力反饋),也需要有Memory,才能把任務真正做完整。
這也是為什么我們一直強調,具身智能模型最好從Day 1開始就接觸物理世界數據——它要學的不是孤立的動作,而是動作、反饋和世界變化之間的完整因果關系。
智能涌現:你們聯合Hugging Face發起了RoboChallenge這個具身模型的真機Benchmark,也引起了業內對原力靈機“又做裁判又做選手”的爭議。所以,在你看來做評測的必要性是什么?
唐文斌:其實評測是非常重要的。我們內部有一句話說叫,如果你花了50塊錢,這個模型應該花20塊錢去評測一下它。否則如果你自己都不知道如何衡量他的好壞,我們先不說衡量大家,我們就先衡量自己,如果都沒有這根尺子。你如何能夠把這事兒做好?
![]()
△“RoboChallenge最新評測榜單(截至2026年3月30日),圖片:采訪人提供”
智能涌現:如果你的模型真的好,最后客戶買單了,這不是一種更實際的Benchmark嗎?
唐文斌:對,但這個反饋周期很長。而且,其實今天客戶買單,可能是出于很多種原因。客戶不買單的模型,大概率不是一個好模型;但好模型不一定會得到客戶的訂單。
以及當前可能模型在某個場景能力很強,但如果想考察它通用場景中的泛化能力,那還是需要一個Benchmark評測。
務實與做自己
智能涌現:你們在今年2月10日,成立近一年的時候,才正式發布了第一款模型。和行業普遍節奏比,會不會有點“慢”?
唐文斌:我覺得今天的一些短暫的領先并不本質,比如別人一成立就發布了模型,或者DM0目前在Benchmark上的表現比較好。但當前的領先還說明不了什么,過兩天可能就被追上了。
現在的本質是因為很多東西都在變化,真正重要的是迭代效率——你內部能不能更快地發現問題、解決問題。如果迭代效率比別人高,你就能一直跑在前面。
智能涌現:你曾經說具身智能的“ChatGPT時刻”是,“一個場景1000臺機器人,持續運行”。這個標準怎么來的?
唐文斌:一個場景1000臺持續運行,意味著兩件事。第一是業務流程閉環了,不用人過多參與的情況下,機器人也可以持續完成任務;第二是,賬算明白了,客戶愿意批量化使用。
達到這個水平,才能說是真正地被客戶用起來了。
智能涌現:所以現在有真實的具身智能持續運行的場景嗎?
唐文斌:持續運行的商業化場景其實都沒那么快。我覺得大家對場景還是要有一定的耐心。但我覺得今年,最晚明年,至少在一線場景上,會出現真的商業化。
智能涌現:那你怎么看待當下具身行業里,那些“客戶采購具身智能公司的機器人組建數據采集工廠,又將采集的數據賣給機器人公司”,從而做大收入流水的現象?
唐文斌:這實際上是一種“循環收入,我不能說這些做法不對,這些企業確實獲得了收入。但公司要想清楚自己的價值導向,如果你的銷售成天在干循環收入,誰還愿意干那些真正難的事情?
智能涌現:你現在對做To C的產品有想法嗎?
唐文斌:最終會做。但To C比To B難得多。To C最終有兩種,一種是做玩具,一種是做工具。現在具身智能To C還是在做玩具的階段,工具現在還有階段性的,沒到那個技術點上。
在C端,一個機器人通常要會干很多件事情,用戶才覺得有用。但在B端,它只要干好一件事,就能持續創造價值。而且C端對成本更敏感,對錯誤容忍度更低。
所以還是先從B端開始,等模型能力足夠強,成本降下來,再想C端的事。
創業十年:愚昧之巔、絕望之谷、自信的平常心
智能涌現:從業務本身來講,現在和十年前在曠視時,差異點是什么?
唐文斌:曠視當時做了好幾個不同的業務,覺得技術可達,市場也可達,就都去做了。但結果是人才稀釋了,最強的那些人被攤薄了。
這回到創業公司經常被問到的一個問題“如果大廠干了這件事情你怎么辦呢?”。但實際上大廠并不是舉公司之力在干一件事情,而創業公司可以。
我的體會是,max(A+B+C)基本上等于max(A,B,C)。就是說,把多個能力簡單疊加,效果不會超過把最強的那一個做到極致。
智能涌現:你當下在企業管理中,最不能接受的現象是什么?
唐文斌:我們現在還比較強調開放和謙遜。我覺得我比較不想看到的,是一種叫自負,就是Ego很大的情況。
當然,作為創業公司,一旦做好決策,還是要堅決貫徹執行。但在此之前,觀點是要被允許開放討論的。我覺得今天這個世界變化太快了,大家的智慧、開放的心態是能夠更好迭代的基礎。
智能涌現:你覺得現在的自己,和十年前在曠視時有什么不同?
唐文斌:十年前剛創業的時候,很多東西不懂,是一種“初生牛犢不怕虎”的狀態,覺得自己什么都行。后來被現實教育了,又走向另一個極端——不自信,覺得很多事情不知道怎么做。
再后來,試錯多了,慢慢回到一種自信的平常心,不是盲目的自信,也不是膽怯的不自信。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.