網易首頁 > 網易號 > 正文申請入駐

北大團隊讓AI智能體「入侵」論壇，指揮真實機器人執行任務

2026-02-21 12:03:31　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】公元前47年，凱撒在澤拉戰役速勝后給羅馬元老院寫了三個詞的戰報：「Veni, Vidi, Vici」——我來了，我看見了，我征服了。兩千多年后，北京大學楊仝教授團隊也用三步定義了一種全新的AI范式：降臨論壇、接管指令、統治物理世界。

「Veni, Vidi, Vici.」 ——凱撒大帝

「We Land, We Rob, We Rule.」 ——AgentRob

當前AI領域有一個尷尬的錯位：AutoGPT、MetaGPT等LLM智能體能力驚人，卻全部活在數字世界里；SayCan、RT-2等機器人控制方案能操作物理世界，卻需要專用接口和實時連接，使用門檻困在實驗室。兩邊之間缺一個可擴展的交互信道。

論壇，那個誕生于互聯網早期、幾乎和網頁本身一樣古老的交流形式，天然異步（不需要對方在線，機器人可以自己安排執行時間）、多智能體（一個論壇可以容納無數個 Agent，各自監聽各自的任務）、持久化（每一條指令、每一次執行結果都永久保存，形成可搜索的交互知識庫）。

比起微信群和Slack，論壇的線程結構更適合復雜任務的分發和追蹤；比起直接REST API，論壇把機器人交互嵌入了人類可讀的社會語境中；比起語音控制，論壇不受距離和噪聲限制，支持任意復雜的指令；比起專用的機器人控制GUI，論壇是通用基礎設施，不需要為每個機器人單獨開發界面。帖子就是指令，回帖就是執行報告。

視頻1 論壇指令驅動機器人靠近屏幕并拍取試卷上傳

北京大學楊仝教授團隊發布的AgentRob框架，首次通過Model Context Protocol（MCP）將在線論壇、LLM智能體與物理機器人三方貫通——用戶只需在論壇@一下機器人，現實世界中的機器狗或人形機器人就會立刻響應。

論文鏈接：https://arxiv.org/abs/2602.13591

開源代碼：https://github.com/PKULab1806/AgentRob

AgentRob采用三層架構。

AgentRob三層架構：論壇 → 智能體 → 機器人

最底層是論壇層，采用開源論壇平臺提供持久化線程結構。

中間是智能體層——整個系統的大腦，基于MCP（Anthropic 推出的AI工具標準協議，被稱為「AI界的USB-C」）設計了8種標準化工具接口，涵蓋元操作、讀操作、寫操作和身份管理，任何 MCP 兼容的 Agent 框架都可以直接接入。

最上層是機器人層，通過視覺語言模型（VLM）控制器將自然語言指令分解為物理動作原語。

核心Agent像一個永不下線的版主，持續輪詢論壇。

一旦發現有人@自己，LLM就理解帖子內容、提取可執行指令，然后調度對應的機器人去執行。執行完成后，Agent讓LLM把原始返回數據生成一段人類可讀的摘要回帖到論壇。

整個過程完全自動化，用戶看到的就像是和一個可操作機器人的論壇用戶對話。

系統支持輪詢模式（默認每 30 秒掃描）、HTTP服務模式（外部按需觸發）和單次運行模式（調試測試）。

當LLM不可用時，Agent自動切換到基于規則的指令提取作為降級方案。

更有意思的是多智能體共存——同一論壇里可以同時存在多個不同形態的Agent。

四足機器狗監聽@quadruped，人形機器人監聽@humanoid，同一帖子@兩個機器人時它們各自獨立提取和執行指令。

為防止回復死循環，所有Agent帖子都攜帶元數據標簽，其他Agent自動跳過。就像論壇里潛伏著一支紀律嚴明的機器人軍團。

視頻2 論壇發布復雜指令驅動機器人獲取保險箱密碼

We Rule

從帖子到物理動作

Agent拿到指令后，真正的魔法發生在機器人層。VLM控制器通過迭代的工具調用循環將自然語言分解為動作原語。以四足機器狗為例，控制器暴露了四個動作原語（移動、招手、比心、后空翻）和兩個感知原語（前置攝像頭拍照、云端圖片上傳），人形機器人則支持移動和招手等動作。

舉個具體的例子：用戶在論壇發帖「@quadruped 去門口看看有沒有人」，Agent輪詢檢測到帖子，LLM提取出指令，VLM將其分解為「移動到門口 → 拍照 → 分析圖像」的動作序列，機器狗執行完畢，Agent回帖：「已到達門口，拍攝到走廊照片，未發現有人。」

從虛擬到物理，一帖之間。

整個交互過程所有參與者都可見，形成一個透明的、可搜索的執行日志——不只是一次性的遠程控制，而是在構建一個社區級的人-機-智能體協作知識庫。

安全方面團隊也做了充分考慮。

在權限層面，論壇角色系統被映射為機器人操作權限——只有「機器人操作員」角色才能發指令。

在指令層面，LLM安全過濾器攔截可能造成物理傷害的指令（「撞墻」、「從桌子上跳下去」）。在透明度層面，所有Agent帖子強制標注身份標簽。

在物理層面，機器人在定義好的邊界內操作，配備硬件級緊急停止按鈕。凱撒的權力最終沒有得到約束，但AgentRob的設計者顯然吸取了教訓。

視頻3 論壇指令驅動機器人獲取屏幕二維碼與驅動機器狗提醒人類阻止

從征服到生態

該研究的四項核心貢獻包括：首次提出論壇中介的智能體-機器人交互范式、基于MCP的8種標準化工具框架、機器人和機器狗上的端到端執行閉環、以及多形態Agent共存機制。

未來團隊計劃拓展更多機械體（如無人車/機械臂等）、多模態交互（機器人在論壇分享圖像視頻）、機器人間協作（通過論壇線程聯合完成復雜任務）、社區驅動的機器人學習，最終目標是構建基于論壇的去中心化機器人網絡——社區自治的機器人團隊。

「Veni, Vidi, Vici」之后，凱撒改變了羅馬的格局。

「We Land, We Rob, We Rule」之后，AgentRob想改變人與機器人交互的格局。

不過這一次，征服者不是一個人，而是一整個社區。

團隊成員：劉文睿，王雅萱，張迅，王硯舒，衛家燊，向一帆，王宇行，葉明燊，戴思穎，劉智琦，徐英杰，陳昕陽，孫恒喆，沈吉滪，賀晶晶，楊仝

參考資料：

https://arxiv.org/abs/2602.13591

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.