“清華系”是具身智能領(lǐng)域里繞不過去的大山,這座大山上刻著銀河通用的王鶴、星動紀(jì)元的陳建宇、它石智航的陳亦倫、加速進化的程昊、千尋智能的高陽等一長串閃光的名字,據(jù)清華電子系統(tǒng)計,其校友創(chuàng)辦的具身相關(guān)企業(yè)已近20家。而清華系的版圖里,AIR(清華大學(xué)智能產(chǎn)業(yè)研究院)的定位則更加明確。它不僅產(chǎn)出學(xué)術(shù)論文,更著力于把實驗室的前沿技術(shù)扎實地鋪進產(chǎn)業(yè)。它石智航的陳亦倫就曾是AIR智能機器人方向的首席科學(xué)家。
2026年初,“具身智能”被正式寫入“十五五”規(guī)劃綱要,成為國家戰(zhàn)略級別的未來產(chǎn)業(yè)。與此同時,一批在企業(yè)研究院深耕多年的科學(xué)家,也選擇陸續(xù)回到國內(nèi)高校,從單純的企業(yè)研究體系重新走進一批兼顧學(xué)術(shù)研究和產(chǎn)業(yè)培育的高校研究院。
曹婷的選擇正是清華AIR。
![]()
曹婷,清華大學(xué)智能產(chǎn)業(yè)研究院教授,北京市高層次引進人才
在微軟研究院工作了七年,2025年夏天,曹婷成為清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)的教授。多年來,她始終聚焦 “極致智能密度” 與 “頂尖執(zhí)行性能” 的核心目標(biāo),在智能計算前沿領(lǐng)域持續(xù)攻堅,突破極低比特模型量化、基于查表的大模型高效推理、全幀率實時多模態(tài)大模型架構(gòu)、存算一體模型加速器等一系列關(guān)鍵技術(shù),構(gòu)建起從算法到硬件創(chuàng)新的完整技術(shù)體系。
在微軟期間,這些技術(shù)的應(yīng)用使她能帶領(lǐng)團隊在業(yè)界首次賦能復(fù)雜神經(jīng)網(wǎng)絡(luò)模型從云端遷移到手機、PC甚至IoT設(shè)備上,服務(wù)于百萬用戶,保護用戶隱私的同時節(jié)省百億次的云端調(diào)用成本。但這次,她做出了新的選擇。
我們還獨家獲悉,曹婷教授及團隊正計劃孵化一家新公司,專注于可以持續(xù)進化的物理智能體,新公司目前仍在籌備階段。
以下為與曹婷教授的對話全文,略有刪減:
從工業(yè)研究院到高校
創(chuàng)投家:您當(dāng)時選擇來清華也在媒體引起了不小的關(guān)注,為什么選擇在這個時候來清華?
曹婷:企業(yè)研究院對我來說,是一段非常重要、也非常感恩的經(jīng)歷。無論是在華為還是在微軟,我都經(jīng)歷了從前沿研究到系統(tǒng)落地、再到真正被大規(guī)模用戶使用的完整過程。你會看到一個技術(shù)怎么從論文里的想法,變成可以在手機、PC、IoT設(shè)備上穩(wěn)定運行的能力,也會真切體會到,自己的工作被百萬、千萬用戶用起來是什么感覺。這種訓(xùn)練和成就感,對我今天做很多判斷都非常重要。
但到了職業(yè)生涯的這個階段,我會更想跳出已經(jīng)熟悉的路徑,去定義新的問題,探索新的產(chǎn)品方向和應(yīng)用空間。企業(yè)研究院讓我把一個清晰的問題做到極致,而接下來我更想去做那些還沒有標(biāo)準(zhǔn)答案、也還沒有人把路徑真正走通的事情。具身智能這件事,正在從"想象"變成"可以做",不是五年后,是現(xiàn)在。這個判斷讓我覺得,現(xiàn)在進來,時機是對的。
清華AIR劉云新老師比我早幾年做這個選擇,他在MSRA工作了將近二十年,也是我在端側(cè)智能方向上最重要的合作者之一。他五年前來到這里,對我觸動很大。一個在工業(yè)界深耕這么多年的人,選擇把后半程放在學(xué)術(shù)研究和產(chǎn)業(yè)培育上,背后一定有很深的判斷。這也讓我更愿意在這個時間點來到清華,去做一些更長期、也更難的事情。
創(chuàng)投家:清華AIR這邊,跟企業(yè)研究院最大的不同在哪里?
曹婷:我覺得是問題的來源和時間尺度不一樣。企業(yè)研究院面對的,往往是已經(jīng)有產(chǎn)品基礎(chǔ)、有用戶場景、有業(yè)務(wù)重心的問題空間。研究院要做的是怎么提出一個新想法,而是把它變成可以進入產(chǎn)品鏈條、進入系統(tǒng)棧、最終服務(wù)真實用戶的能力。我很多關(guān)于技術(shù)價值的判斷,都是在這樣的訓(xùn)練里形成的。
而清華AIR吸引我的地方,在于它能讓我把研究、產(chǎn)業(yè)和長期問題定義放在同一個坐標(biāo)系里思考。具身智能被寫入‘十五五’規(guī)劃,不是因為它是一個好聽的概念,而是因為它關(guān)系到中國下一步的產(chǎn)業(yè)競爭力。制造業(yè)的柔性升級、物流的無人化、能源設(shè)施的巡檢、老齡化社會的照護,這些問題都不是靠傳統(tǒng)自動化就能解決的,它們需要真正的物理智能。
所以對我來說,來到清華AIR,不是離開產(chǎn)業(yè),而是把視角再往前推一步,有耐心去做五年甚至十年后國家和社會真正需要的事情,這一點對我非常有吸引力。
具身智能的窗口與缺口
創(chuàng)投家:具身智能寫進了國家規(guī)劃。你覺得這個時間節(jié)點選得準(zhǔn)嗎?
曹婷:我覺得這個時間點選得非常準(zhǔn)。具身智能今天被寫進國家規(guī)劃,是因為它已經(jīng)進入了一個從前沿探索走向產(chǎn)業(yè)布局的關(guān)鍵階段。機器人本體逐漸成熟,成本和穩(wěn)定性都在改善;中國又恰恰擁有全球最完整的制造業(yè)體系、最強的供應(yīng)鏈協(xié)同能力,以及在如制造業(yè)、物流、養(yǎng)老、城市管理這些密度最高、類型最豐富的真實應(yīng)用場景。這樣的組合,在別的國家并不容易同時具備。
所以中國今天推進具身智能,有點像當(dāng)年布局電動車。真正重要的不是某一個單點技術(shù),而是技術(shù)成熟度、產(chǎn)業(yè)基礎(chǔ)、場景需求和政策牽引在同一個時間點形成了合力。一旦這種合力出現(xiàn),產(chǎn)業(yè)窗口往往很快就會打開,往往不會持續(xù)太久。誰能盡快把真正有價值的東西做出來,誰就有機會定義下一階段的產(chǎn)業(yè)格局。
創(chuàng)投家:你說的"有價值的東西",指的是什么?
曹婷:真正能在開放世界里持續(xù)進化的物理智能體。
現(xiàn)在的具身智能,本質(zhì)上還停留在工具階段。哪怕VLA或者世界模型訓(xùn)練得很強,它們多數(shù)還是在做擰螺絲、搬運、分揀、抓取這類單點任務(wù),像一個工具箱,但還不是一個真正會成長的可靠員工。
市場真正需要的,是能在真實崗位上、在和物理世界反復(fù)交互中,能自己總結(jié)經(jīng)驗、發(fā)現(xiàn)問題、修正策略。比如今天清管道,下一次就會記住哪里容易打滑,要動作幅度小一點、慢一點;今天打掃衛(wèi)生間,下次就會記住污漬分布和臺面材質(zhì),知道怎么擦更穩(wěn)、更不傷表面。脫離工具,越來越像一個模范員工,才是具身智能目前急缺的那一塊。
創(chuàng)投家:你看這個賽道,有沒有什么大家低估或者回避的問題?
曹婷:物理智能體決定具身能不能真的落地,但恰恰是這點是大家忽視的,講的少,做的更少,做起來極具挑戰(zhàn)。
數(shù)字世界里的智能體,很多時候面對的是穩(wěn)定接口和確定規(guī)則;但物理世界不是這樣,訓(xùn)練時沒見過的情況每天都會出現(xiàn),而且每臺機器本體、每個場景、每次交互都不一樣。它不能只靠預(yù)訓(xùn)練的模型,經(jīng)驗必須在真實環(huán)境里自己去摸索和持續(xù)積累,才能在自己的場景下把每臺本體能力發(fā)揮好。
也正因為這樣,物理智能體比數(shù)字智能體更必要,也更難。難點不只是讓機器做出動作,更難的是讓它在真實交互中積累經(jīng)驗、形成記憶,并把這些經(jīng)驗轉(zhuǎn)化成下一次更穩(wěn)、更好的執(zhí)行。怎么理解物理環(huán)境,怎么表示交互經(jīng)驗,怎么構(gòu)建長期多模態(tài)記憶,怎么形成持續(xù)進化的閉環(huán),這些問題到今天都還沒有成熟解法,而這正是我們提早投入、也已看到初步成果的方向。
創(chuàng)投家:產(chǎn)業(yè)側(cè)還有哪些實際的障礙?
曹婷:上面說的物理智能體,其實科研側(cè)和產(chǎn)業(yè)側(cè)都繞不開。在產(chǎn)業(yè)側(cè),還有另一個非常具體的矛盾:真正有用的物理智能體需要在端側(cè)部署。
你可能會想,數(shù)字智能體能部署在云端,為什么物理智能體要在端側(cè)?一是延遲,機器人的輸入是物理世界、是連續(xù)的視頻、點云、傳感器等等這些多模態(tài)的數(shù)據(jù),往云端傳個幾幀數(shù)據(jù)十幾秒可能就過去了,根本不能支撐實時動作的生成;二是網(wǎng)絡(luò),很多真實場景是弱網(wǎng)或離網(wǎng)的,比如剛提到的管網(wǎng)清潔場景;三是隱私,無論是家庭場景還是工業(yè)場景,用戶圖像敢不敢傳到云端去?
所以具身智能體必須在端側(cè)跑。但端側(cè)的算力是有限的。這就要求你在模型的推理效率上做到極致,不是"差不多",是真正的極致。這個軟硬件協(xié)同的挑戰(zhàn),正是我們團隊的強項。
從實驗室再回到產(chǎn)業(yè)中去
創(chuàng)投家:你們是怎么思考這些挑戰(zhàn)的?
曹婷:我們不是把物理智能看成一個單點模型問題,而是把它看成一條完整的能力鏈。
物理智能體要真正成立,至少有幾件事要同時做好:它得持續(xù)理解物理世界正在發(fā)生什么,得根據(jù)當(dāng)前任務(wù)和過往經(jīng)驗組織行動,得把一次次交互沉淀成可復(fù)用的技能,還得能在端側(cè)真正跑起來,這是我們目前要突破的技術(shù)核心。
第一是實時理解。具身智能體要一邊理解事件怎么發(fā)生,一邊決定下一步動作怎么觸發(fā)。比如倒水,水位到哪里該停生成新的動作,當(dāng)下就要判斷。這里最難的是,認(rèn)知復(fù)雜度很高,但又不能為了準(zhǔn)確率犧牲實時性,所以我們一直在做流式視頻理解并發(fā)表Streammind、Em-Garde等系列工作,希望讓系統(tǒng)真正具備‘prompt the world’的能力。
第二是智能體本身的能力。光看懂還不夠,它還要結(jié)合過去的經(jīng)驗記憶、當(dāng)前的任務(wù)、環(huán)境觀測和歷史動作,持續(xù)維護一個內(nèi)在持久狀態(tài),知道下一步該拆成什么子任務(wù)、該生成什么輸入、該怎么把有限的具身能力高效使用。這部分我們也發(fā)表了AdaNav VLN等工作,通過自主思考維護內(nèi)在狀態(tài)和任務(wù)拆解。
第三是記憶和經(jīng)驗提取。對物理智能體來說,memory bank要和具體本體的能力邊界、動作結(jié)果和環(huán)境反饋一起工作。它要做的是在反復(fù)交互里不斷篩掉冗余和噪聲,把真正有用的經(jīng)驗提煉成穩(wěn)定的技能,同時維護一個前后一致的長期記憶。比如剛才提到的它記得‘某次走滑了’,在這類地面上應(yīng)該小步走、減速走。這個方向我們發(fā)表了像AVA等工作,近期也將有更多成果展示。
最后是端側(cè)高效部署。物理智能體必須在端側(cè)實時感知、實時決策、實時執(zhí)行,這就要求整個系統(tǒng)在算力、時延和能耗上都做到非常極致。我們把理解、決策、記憶和部署放在同一個閉環(huán)里一起做。這部分是我們組的傳統(tǒng)強項,發(fā)表了一系列如T-MAC、BitDistiller、Pregated-MoE、LUT Tensor core等出圈的工作,被一百多家媒體轉(zhuǎn)發(fā),被集成到各種大模型推理框架,獲得幾萬顆星。
創(chuàng)投家:你們在上面幾個方向做到了什么程度?
曹婷:現(xiàn)在我們的前期驗證結(jié)果非常可觀,在業(yè)界和社區(qū)共認(rèn)最難的長程復(fù)雜任務(wù)評測基準(zhǔn)上,任務(wù)完成精度比行業(yè)里比較主流的方案高出兩三倍;在端側(cè)推理速度上,是主流方案的四倍以上。
更重要的是物理智能體持續(xù)演進的效果。我們做過實驗:機器人在一個環(huán)境里反復(fù)執(zhí)行相似任務(wù),每次失敗后從記憶里學(xué)習(xí),任務(wù)精度持續(xù)提升,最高能提升超過20個百分點。這不是重新訓(xùn)練,是真正的在線演進。
創(chuàng)投家:所以這些技術(shù)也會產(chǎn)業(yè)化?
曹婷:是的,我們正計劃孵化一家公司,把這些年積累的持續(xù)進化能力從實驗室?guī)У疆a(chǎn)業(yè)中去。目前還在籌備階段,在和一些投資人接觸。AIR本身就是產(chǎn)業(yè)研究院,只做論文不是我們的終點,技術(shù)要真的落地,有產(chǎn)業(yè),有轉(zhuǎn)化,才算完成閉環(huán)。
創(chuàng)投家:做這件事,你們的優(yōu)勢是什么?
曹婷:我覺得我們的優(yōu)勢,首先是全棧。物理智能體落地不是單做模型就行,它一定是算法、系統(tǒng)、硬件一起協(xié)同,訓(xùn)練、推理、部署都要打通,這個能力不是哪個組都具備的。我們過去長期做端側(cè)智能和高效推理,所以從一開始看這個問題,就會同時考慮它怎么訓(xùn)、怎么跑、怎么真正部署到本體上。
我們也不是只會做論文。組里很多同學(xué)和合作伙伴都有頭部基模團隊的經(jīng)驗,也一直在真實場景里打磨技術(shù),所以從前沿模型到工程實現(xiàn)、再到產(chǎn)業(yè)落地,這條鏈路我們是比較完整的。另外更重要的就是現(xiàn)在清華AIR的平臺優(yōu)勢。
清華的學(xué)生有頂尖的創(chuàng)造力,這在沒有現(xiàn)成答案的領(lǐng)域是稀缺資源。合作伙伴上,劉云新老師在AIoT和端側(cè)智能有二十年積累,IEEE Fellow,在微軟時我們就是同一個團隊的合作者,現(xiàn)在我們依舊在一起突破物理智能體技術(shù)。我們還有很多外部合作者,比如南大的吳昊研究員,他讀博士的時候就在我組里做research intern,工作后又來到MSRA訪問,我們一直緊密合作,現(xiàn)在他已經(jīng)是中央部委高層次創(chuàng)新人才了。
當(dāng)然還有清華AIR“產(chǎn)學(xué)研打通”的定位,讓我們能持續(xù)接觸企業(yè)真實場景的數(shù)據(jù)和需求,比如物流、能源、環(huán)境等中國特有的豐富場景,是研究物理智能體不可或缺的土壤。
創(chuàng)投家:你有沒有想象過,十年后具身智能是什么樣子?
曹婷:我不太喜歡把十年后的事情說得太具體,容易過于樂觀。我覺得具身智能可能像十多年前的電動車一樣,都處在一個關(guān)鍵拐點上:技術(shù)開始過線,產(chǎn)業(yè)鏈開始補齊,真實需求開始集中出現(xiàn),政策也開始把它放到更高的戰(zhàn)略坐標(biāo)里。一旦這幾股力量匯合,后面的發(fā)展往往會比很多人想得更快。今天大家看到的,可能還是一些單點能力和演示;十年后真正重要的,是它會不會變成制造、物流、能源、家庭服務(wù)這些場景里的默認(rèn)能力。
到那個時候,人們關(guān)心的可能不再是‘這是不是具身智能’,而是它已經(jīng)自然地在那里工作了。工廠里高危、重復(fù)、枯燥的任務(wù)被接過去,物流和巡檢系統(tǒng)可以更自主地運行,家庭里一些照護和輔助性的工作有人分擔(dān),很多以前只能靠人硬扛的事情,開始有了新的解法。真正成熟的技術(shù),最后都不是因為概念響亮,而是因為它改變了社會運行的方式。
所以我現(xiàn)在更關(guān)心的,是十年后我們能不能真的把一些重要場景做出來,讓物理智能體在真實世界里穩(wěn)定工作、持續(xù)進化,變成社會基礎(chǔ)能力的一部分。如果這件事能發(fā)生,我會覺得今天做的很多選擇都是值得的。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.