![]()
新智元報道
編輯:LRST
【新智元導讀】公元前47年,凱撒在澤拉戰役速勝后給羅馬元老院寫了三個詞的戰報:「Veni, Vidi, Vici」——我來了,我看見了,我征服了。 兩千多年后,北京大學楊仝教授團隊也用三步定義了一種全新的AI范式:降臨論壇、接管指令、統治物理世界。
「Veni, Vidi, Vici.」 ——凱撒大帝
「We Land, We Rob, We Rule.」 ——AgentRob
當前AI領域有一個尷尬的錯位:AutoGPT、MetaGPT等LLM智能體能力驚人,卻全部活在數字世界里;SayCan、RT-2等機器人控制方案能操作物理世界,卻需要專用接口和實時連接,使用門檻困在實驗室。兩邊之間缺一個可擴展的交互信道。
論壇,那個誕生于互聯網早期、幾乎和網頁本身一樣古老的交流形式,天然異步(不需要對方在線,機器人可以自己安排執行時間)、多智能體(一個論壇可以容納無數個 Agent,各自監聽各自的任務)、持久化(每一條指令、每一次執行結果都永久保存,形成可搜索的交互知識庫)。
比起微信群和Slack,論壇的線程結構更適合復雜任務的分發和追蹤;比起直接REST API,論壇把機器人交互嵌入了人類可讀的社會語境中;比起語音控制,論壇不受距離和噪聲限制,支持任意復雜的指令;比起專用的機器人控制GUI,論壇是通用基礎設施,不需要為每個機器人單獨開發界面。帖子就是指令,回帖就是執行報告。
視頻1 論壇指令驅動機器人靠近屏幕并拍取試卷上傳
北京大學楊仝教授團隊發布的AgentRob框架,首次通過Model Context Protocol(MCP)將在線論壇、LLM智能體與物理機器人三方貫通——用戶只需在論壇@一下機器人,現實世界中的機器狗或人形機器人就會立刻響應。
![]()
論文鏈接:https://arxiv.org/abs/2602.13591
開源代碼:https://github.com/PKULab1806/AgentRob
AgentRob采用三層架構。
![]()
AgentRob三層架構:論壇 → 智能體 → 機器人
最底層是論壇層,采用開源論壇平臺提供持久化線程結構。
中間是智能體層——整個系統的大腦,基于MCP(Anthropic 推出的AI工具標準協議,被稱為「AI界的USB-C」)設計了8種標準化工具接口,涵蓋元操作、讀操作、寫操作和身份管理,任何 MCP 兼容的 Agent 框架都可以直接接入。
最上層是機器人層,通過視覺語言模型(VLM)控制器將自然語言指令分解為物理動作原語。
核心Agent像一個永不下線的版主,持續輪詢論壇。
一旦發現有人@自己,LLM就理解帖子內容、提取可執行指令,然后調度對應的機器人去執行。執行完成后,Agent讓LLM把原始返回數據生成一段人類可讀的摘要回帖到論壇。
整個過程完全自動化,用戶看到的就像是和一個可操作機器人的論壇用戶對話。
系統支持輪詢模式(默認每 30 秒掃描)、HTTP服務模式(外部按需觸發)和單次運行模式(調試測試)。
當LLM不可用時,Agent自動切換到基于規則的指令提取作為降級方案。
更有意思的是多智能體共存——同一論壇里可以同時存在多個不同形態的Agent。
四足機器狗監聽@quadruped,人形機器人監聽@humanoid,同一帖子@兩個機器人時它們各自獨立提取和執行指令。
為防止回復死循環,所有Agent帖子都攜帶元數據標簽,其他Agent自動跳過。就像論壇里潛伏著一支紀律嚴明的機器人軍團。
視頻2 論壇發布復雜指令驅動機器人獲取保險箱密碼
We Rule
從帖子到物理動作
Agent拿到指令后,真正的魔法發生在機器人層。VLM控制器通過迭代的工具調用循環將自然語言分解為動作原語。以四足機器狗為例,控制器暴露了四個動作原語(移動、招手、比心、后空翻)和兩個感知原語(前置攝像頭拍照、云端圖片上傳),人形機器人則支持移動和招手等動作。
舉個具體的例子:用戶在論壇發帖「@quadruped 去門口看看有沒有人」,Agent輪詢檢測到帖子,LLM提取出指令,VLM將其分解為「移動到門口 → 拍照 → 分析圖像」的動作序列,機器狗執行完畢,Agent回帖:「已到達門口,拍攝到走廊照片,未發現有人。」
從虛擬到物理,一帖之間。
整個交互過程所有參與者都可見,形成一個透明的、可搜索的執行日志——不只是一次性的遠程控制,而是在構建一個社區級的人-機-智能體協作知識庫。
安全方面團隊也做了充分考慮。
在權限層面,論壇角色系統被映射為機器人操作權限——只有「機器人操作員」角色才能發指令。
在指令層面,LLM安全過濾器攔截可能造成物理傷害的指令(「撞墻」、「從桌子上跳下去」)。在透明度層面,所有Agent帖子強制標注身份標簽。
在物理層面,機器人在定義好的邊界內操作,配備硬件級緊急停止按鈕。凱撒的權力最終沒有得到約束,但AgentRob的設計者顯然吸取了教訓。
視頻3 論壇指令驅動機器人獲取屏幕二維碼與驅動機器狗提醒人類阻止
從征服到生態
該研究的四項核心貢獻包括:首次提出論壇中介的智能體-機器人交互范式、基于MCP的8種標準化工具框架、機器人和機器狗上的端到端執行閉環、以及多形態Agent共存機制。
未來團隊計劃拓展更多機械體(如無人車/機械臂等)、多模態交互(機器人在論壇分享圖像視頻)、機器人間協作(通過論壇線程聯合完成復雜任務)、社區驅動的機器人學習,最終目標是構建基于論壇的去中心化機器人網絡——社區自治的機器人團隊。
「Veni, Vidi, Vici」 之后,凱撒改變了羅馬的格局。
「We Land, We Rob, We Rule」 之后,AgentRob想改變人與機器人交互的格局。
不過這一次,征服者不是一個人,而是一整個社區。
![]()
團隊成員:劉文睿,王雅萱,張迅,王硯舒,衛家燊,向一帆,王宇行,葉明燊,戴思穎,劉智琦,徐英杰,陳昕陽,孫恒喆,沈吉滪,賀晶晶,楊仝
參考資料:
https://arxiv.org/abs/2602.13591
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.