網易首頁 > 網易號 > 正文申請入駐

上海交大揭秘：為什么AI智能體越來越像"外包給工具的大腦"？

2026-04-17 23:43:08　來源: 科技行者

天津舉報

分享至

這項由上海交通大學、中山大學、上海創新研究院、卡內基梅隆大學及OPPO聯合開展的研究，以預印本形式發布于2026年4月，論文編號為arXiv:2604.08224，有興趣深入了解的讀者可以通過該編號查詢完整論文。

你有沒有注意到，當你使用一個AI助手處理復雜任務時，它的表現往往取決于周圍給它配備了什么工具，而不僅僅是它本身有多聰明？這篇研究正是要解釋這背后的深層邏輯——為什么越來越多的AI進步，不是來自把模型做得更大，而是來自把模型"身邊的基礎設施"做得更好。

研究團隊用了一個非常迷人的比喻框架來貫穿整篇論文：人類文明史，本質上是一部"認知外包史"。人類從用語言把思想轉化成可傳播的符號，到用文字把記憶存儲在紙張上，再到印刷術讓知識大規模復制，最后到計算機把數學運算從人腦轉移到芯片——每一次進步，都不是因為人類大腦變聰明了，而是因為我們把"認知負擔"轉移到了外部工具上。研究團隊認為，大型語言模型（LLM）智能體正在經歷完全相同的轉變。

這個核心洞察來自認知科學家唐納德·諾曼（Donald A. Norman）的"認知人工制品"理論。諾曼指出，外部工具不是單純放大了人的能力，而是改變了任務本身的形式。一張購物清單并不擴大你的記憶容量，它把"回憶要買什么"這個難題，變成了"看清單上寫了什么"這個簡單任務。地圖不是讓你變成更強的導航員，它把隱藏的空間關系變成了肉眼可見的結構。這篇論文的核心主張就是：AI智能體的基礎設施，正在對AI完成的任務做完全相同的事情。

一、從"模型有多強"到"環境有多好"：AI能力的三次外遷

要理解這篇研究，最好先跟著它講述的歷史故事走一遍。

故事的第一章，發生在大約2022年前后。那時候，AI領域的主流思維是"能力存在于參數里"。GPT-4、Gemini、DeepSeek、Qwen這些大模型，靠著在海量數據上訓練，把廣博的世界知識、推理習慣全都壓縮進幾百億甚至上千億個參數里。那時候大家都相信：模型越大，AI越厲害。想讓AI更好用？那就訓練更大的模型，或者做更精細的微調（比如RLHF人類反饋強化學習，讓AI學會更禮貌、更有用的回答方式）。

這條路確實走出了很大的成績，但很快遇到了墻。想更新模型知識里一個過時的事實，比如換了誰當國家領導人，你得重新訓練整個模型，成本極高，還可能意外破壞其他能力。想弄清楚AI為什么說了某句話，幾乎不可能，因為原因散落在幾百億個參數里，沒有人能翻出來看。更麻煩的是，同一套參數要服務幾百萬個有不同歷史、不同偏好的用戶，但參數根本無法區分張三和李四。

故事的第二章，大約從2022年到2024年，重心轉移到了"能力存在于上下文里"。開發者們發現，不改動模型參數，僅僅通過精心設計輸入給模型的提示詞，就能大幅改變模型的表現。思維鏈（Chain-of-Thought）提示讓模型一步步展開推理；ReAct框架讓模型把推理和調用工具交織在一起；檢索增強生成（RAG）則把外部文檔在需要時塞進提示詞里。這就像給演員換了一份更詳細的劇本——演員沒變，但表演質量大幅提升。

然而這條路也遇到了天花板。上下文窗口是有限的，放太多東西進去，模型反而表現變差——研究者們把這叫做"迷失在中間"現象：當相關信息被放在長文本的中間位置時，模型的提取準確率會急劇下降。更根本的問題是，提示詞是一次性的，每次對話開始都是"失憶"的新起點，沒有任何跨會話的記憶積累。

故事的第三章，也就是大約2024年至今，能力的重心繼續向外遷移，進入了"能力存在于基礎設施里"的階段。Auto-GPT、BabyAGI等早期探索者已經發現，哪怕只是給模型套上一個循環執行框架加上一個任務隊列和外部記憶，就能實現任何單次提示都無法實現的持續行為。隨后AutoGen、MetaGPT、LangGraph、CrewAI等更成熟的框架出現，開始系統性地在模型外部構建"認知基礎設施"。

這篇論文把這個基礎設施層稱為"harness"（這里我們就叫它"執行框架"），并論證它由三個核心外部化維度組成：記憶、技能、協議。理解這三個維度，是理解整篇研究的關鍵。

二、記憶：把"想起來"變成"找出來"

一個未配備外部記憶的語言模型，處境相當尷尬。它每次被調用時都從空白開始，過去發生的一切，必須靠當前上下文窗口里的內容重新建立。這就好比一個醫生，每次接診同一位患者，都必須把病人整個病歷當場背誦一遍，才能開始診斷——不僅效率極低，還隨時面臨"背到一半忘了"的危險。

記憶外部化，就是把這個重建負擔轉移到外部存儲系統里。論文把外部化的記憶內容分為四種類型，每種類型對應一個不同的時間維度上的問題。

第一種是工作上下文，也就是當前任務的活躍狀態：打開了哪些文件、運行了哪些命令、當前進行到了哪一步。沒有外部化，這些東西隨著上下文窗口重置就消失了，任務中斷就意味著從頭來過。OpenHands、SWE-agent這類編程智能體的做法，是把草稿、終端狀態、工作區文件全部物化到提示詞之外，這樣任務被打斷后可以從當前狀態直接續上，而不是重新推演。

第二種是情節經歷，記錄的是過去執行過程中發生了什么：在哪個決策點選了哪條路、調用了什么工具、遇到了什么失敗、最終結果如何。Reflexion框架的核心思路，就是把失敗后的反思總結存下來，下次遇到類似情況可以直接參考，而不是重復踩同一個坑。AriGraph則進一步，把在陌生環境中積累的局部交互軌跡，當作情節記憶來構建更完整的世界模型。

第三種是語義知識，存儲的是跨越任何單次任務都有效的一般性知識：領域事實、通用規律、項目約定、穩定的世界知識。這類記憶不依賴于"那次具體發生了什么"，它描述的是"事物一般是怎樣的"。RAG（檢索增強生成）系統所維護的知識庫，就是這類語義記憶的典型形式。

第四種是個性化記憶，記錄的是特定用戶、特定團隊或特定環境的穩定特征：偏好、習慣、反復出現的約束、歷史互動模式。這類記憶與前三種有本質區別，因為它必須遵守不同的保留規則和隱私規則。IFRAgent從用戶演示中構建用戶習慣庫；VARS系統為不同用戶維護獨立的偏好卡片存儲空間，而不是讓所有用戶的行為軌跡混在一起。

這四類記憶是怎么在技術上實現的？論文梳理了一個從簡單到復雜的演進路徑。最早的系統用的是"整體上下文"方式：把所有歷史或歷史摘要直接塞在提示詞里。這簡單，但容量有限，一旦任務結束，狀態就消失了。之后發展出"上下文加檢索存儲"模式：近期的工作狀態留在上下文里，更長遠的歷史存在外部數據庫，需要時再檢索出來。這解決了容量問題，但把問題轉化成了另一個問題：檢索質量的好壞。GraphRAG通過引入圖結構和社區級檢索來改進相關性；SYNAPSE通過在情節-語義混合圖上做擴散激活來找到不那么顯而易見的關聯。

更進一步是"分層記憶與編排"系統，核心思想是不同類型的記憶應該有不同的保留策略和檢索路徑。MemGPT和MemoryOS借鑒操作系統的思路，把熱數據（當前工作狀態）和冷數據（長尾歷史）分層存儲，像內存與硬盤之間的換頁一樣在需要時動態交換。MemoryBank、MIRIX則按認知功能維度區分，把事件、用戶檔案、世界知識存儲在不同的通道里，避免檢索時的干擾。

最前沿的是"自適應記憶系統"，開始讓記憶系統本身能夠學習和進化。MemEvolve把記憶的編碼、存儲、檢索、管理分解成可以獨立進化的模塊；MemRL用非參數強化學習來優化檢索策略；帶混合專家路由的自適應框架可以根據不同查詢動態選擇最合適的檢索方式。

從認知科學的角度看，記憶外部化的本質，正是諾曼所說的"回憶變認知"轉變：模型不再需要從參數里挖掘出歷史，而是需要識別和使用一段已經整理好、呈現在面前的歷史片段。就像你拿著寫有購物清單的紙走進超市，和憑記憶購物，難度完全不在一個量級。

三、技能：把"每次即興創作"變成"加載現成劇本"

如果說記憶解決的是"我曾經經歷過什么"的問題，那技能解決的是"我應該怎么做這類任務"的問題。一個沒有外部化技能的模型，面對每一個復雜任務，都需要從頭推演一遍：這個任務大概分幾步？每步順序是什么？遇到分支該選哪條路？哪些操作是禁止的？這個推演過程本身就不穩定，不同的運行、不同的隨機種子，可能給出截然不同的流程，導致跳步、亂序、過早收工等種種問題。

技能外部化，就是把這種"每次即興創作"變成"加載現成劇本"。論文把技能定義為一個可復用的知識單元，它編碼了三類信息：操作程序（任務怎么一步步做）、決策啟發（碰到岔路口選哪邊）、規范約束（什么是允許的、什么是禁止的）。這三類信息合在一起，定義了"怎么可靠地完成這類任務"，而不僅僅是"可以調用什么操作"。

論文梳理了技能系統發展的三個階段，很像軟件工程里從命令行到函數庫到框架的演進。

第一階段是"原子執行基元"。Toolformer的工作代表了這一階段：讓模型學會什么時候調用工具、怎么構造參數、怎么把結果用起來。這解決了"怎么觸碰工具"的問題，但每次調用還是孤立的動作，沒有可復用的流程。

第二階段是"大規模工具選擇"。隨著可調用工具的數量爆炸性增長，問題從"怎么調用"變成了"該調用哪個"。Gorilla、ToolLLM、ToolNet、ToolScope、AutoTool等工作，訓練模型在上千種API里檢索、排名、動態選擇最合適的工具。這是能力上的重大跨越，但完成任務的訣竅仍然隱藏在模型參數或即時提示里，沒有被明確包裝成可復用的程序單元。

第三階段是"技能即打包的專業知識"。這一階段的核心轉變是：能力不再僅僅意味著"可以調用什么"，而意味著"怎么可靠地完成一類任務"被打包成了可復用的制品。Voyager在Minecraft里通過探索、執行反饋和課程驅動，持續生成并擴充可復用的代碼級技能庫；SOP引導的智能體把領域專業知識外化為明確的流程結構；計算機操作場景中的技能，被組織為參數化的執行圖，包含檢索、參數實例化和失敗恢復邏輯。

技能是怎么工作的？論文詳細描述了一個技能從存在到發揮作用所經歷的完整鏈路。第一步是規范化：技能被寫成SKILL.md這樣的聲明性文件，描述它能做什么、適用于什么場景、假設了什么前提、滿足什么約束。這就像一份API文檔，它的價值在于把原本不透明的程序性知識，變成可檢查、可討論、可修改、可治理的外部對象。

第二步是發現：智能體不能把所有技能都加載進上下文，它需要根據當前任務目標、上下文狀態、環境條件，從技能庫里找出合適的候選。這是一個比工具檢索更高階的匹配問題，不只是關鍵詞重疊，還要考慮任務復雜度、環境假設、操作風險。

第三步是漸進式披露：找到技能并不意味著立刻把整份詳細指南塞進上下文——那可能制造噪聲而不是幫助。Claude Code的技能系統采用了分層加載的做法：最開始只告訴模型"有這個技能存在"，需要時才暴露適用條件和主要約束，只有在真正要執行時才加載完整流程、異常處理和示例。這把"需要多少細節"本身變成了一個運行時決策。

第四步是執行綁定：技能本身不是執行者，它需要被綁定到具體的工具、文件操作、API調用、子智能體上才能發揮作用。MCP這樣的協議接口為這種綁定提供了標準化通道，使技能能夠在不同環境里復用，而不必為每種工具重寫一遍綁定邏輯。

第五步是組合：技能可以被組合成更高層的技能。生成數據分析報告這件事，不用寫成一個單一的端到端流程，可以組織為數據清洗技能、統計分析技能、可視化技能、敘述合成技能的協調編排。這種組合性，使技能系統從孤立的食譜集合，變成真正的能力層。

技能系統還有幾個邊界條件值得關注，因為它們代表了實際部署中最常見的失敗模式。語義不對齊問題是指，模型可能嚴格按照技能文件的字面表述操作，但完全偏離了任務的真實目標。可移植性和過時問題是指，網站、API、工作流程、運行時約定的變化，都可能讓一個曾經有效的技能變成誤導性的過時指南。不安全的組合問題是指，分別看起來無害的技能組合在一起可能產生危險：大規模安全審計發現，技能生態系統里存在相當比例的提示注入、數據外泄、權限提升和供應鏈風險漏洞。上下文依賴退化問題是指，隨著會話延伸，模型可能繼續遵循過時的操作邏輯，或者被過于詳細的局部技能指南分散注意力，遺忘了全局任務目標。

四、協議：把"猜測怎么交流"變成"遵守交流合同"

記憶解決了"我記住了什么"，技能解決了"我怎么做事"，但智能體還有第三個負擔：當它需要和外部工具、其他智能體、人類用戶打交道時，怎么讓溝通不出錯？一個沒有協議的模型，必須在每次交互時即興推斷：這個工具的調用格式是什么？我的請求需要包含哪些參數？當任務進行到一半時，應該以什么方式向用戶匯報狀態？當權限被拒絕時，應該如何響應？這些不斷重復的推斷，每一次都可能因為微小的格式偏差而導致錯誤。

協議外部化，就是把這些"交流規則"從臨時推斷，變成明確的機器可讀契約。論文把協議所外部化的內容分為四個維度：調用語法（工具調用的格式、參數類型、返回結構）、生命周期語義（誰下一步行動、允許哪些狀態轉換、任務何時結束或失敗）、權限與信任邊界（誰有權執行什么、數據能流向哪里、需要提供什么憑據）、發現元數據（智能體在開始交互之前怎么知道對方能做什么）。

當前的協議生態系統大致可以按交互對象分為幾個家族。智能體與工具之間的協議里，最有代表性的是MCP（模型上下文協議）。MCP的核心價值在于，服務器通過一個統一的結構（通常基于JSON-RPC 2.0）來暴露工具和上下文資源，客戶端通過統一的方式發現和調用。這意味著新工具的接入不再需要為每個AI平臺寫一套專屬的適配代碼，工具生態系統與模型提供商的私有函數調用格式解耦。更重要的是，由于調用是通過協議層而不是模型直接生成的非結構化文本來路由的，敏感數據處理、權限檢查和審計邊界可以在這個層面顯式管理。

智能體與智能體之間的協議里，Google的A2A（智能體到智能體協議）是目前最引人注目的。它通過"智能體名片"這樣的機制來標準化能力發現，支持任務導向的通信、狀態更新、協商和進度流式傳輸。它的重要性不僅在于讓智能體可以互發消息，而在于讓委托變得結構化：調用方可以發現另一個智能體提供什么服務，在已知契約下交付工作，并追蹤執行進度，而不依賴于硬編碼假設。ACP（智能體通信協議）側重輕量化采用，通過REST/HTTP這類開發者熟悉的模式降低接入門檻。ANP（智能體網絡協議）則往另一個方向走，追求開放互聯網規模的互操作性，引入去中心化身份、跨域發現和端到端安全通信。

智能體與用戶之間的協議，解決的是另一類問題：如何讓用戶界面可以安全地呈現智能體的執行狀態和輸出。A2UI讓智能體用聲明性格式描述界面結構，前端應用可以跨平臺安全渲染，而不用擔心任意HTML代碼被執行。AG-UI則標準化了執行事件流——運行開始、文本輸出、工具調用參數、工具調用結果、完成、錯誤——讓前端應用可以訂閱這個事件流，實時呈現運行狀態，而不用學習每個框架私有的事件格式。

還有一類針對特定高風險垂直工作流的領域協議。Google的UCP（通用商務協議）讓智能體、商戶和支付服務商可以在無需為每家商店寫專屬集成的情況下互相操作購物和結賬流程。AP2（智能體支付協議）為支付場景設計，強調授權、簽名、可審計性，并引入了IntentMandate（意圖授權）、PaymentMandate（支付授權）、PaymentReceipt（支付收據）等具有可驗證證明的事務對象。這類領域協議的意義在于，它們外部化的不只是通用通信規則，而是特定業務場景里的治理邏輯：誰被授權了什么、需要提供什么證據、責任如何在流程中傳遞。

從認知科學的角度看，協議的作用是諾曼式轉變中最徹底的一種：它把一個開放式的自然語言推斷問題（"我猜這個工具大概是這樣調用的"），變成了一個有邊界的結構化填空問題（"把這些字段填進這個格式里"）。模型仍然需要判斷是否要行動、該做什么，但不再需要在每一步重新發明交流的語法和語義。

五、執行框架：讓三種外部化模塊協同工作的"指揮中心"

有了記憶、技能、協議三種外部化維度，智能體的能力顯然大幅增強了。但這三者本身不會自動協同。記憶積累了經驗，但不知道哪段經驗與當前任務有關。技能封裝了流程，但不知道要結合什么歷史上下文才能參數化運行。協議規范了調用格式，但不知道在什么時機、以什么策略調用哪個工具。

執行框架（harness）就是那個讓這三者協同運作的統一層。論文把執行框架定位為：不是三種外部化之外的"第四種外部化"，而是這三種模塊運行和交互的運行時環境。OpenAI在討論Codex時明確使用了"harness"這個詞，用來指代智能體循環、執行邏輯、反饋路徑和周邊運維機制。

執行框架在設計層面可以沿六個維度分析。第一個維度是智能體循環與控制流。最簡單的循環是：感知當前狀態 → 檢索相關信息 → 規劃動作 → 執行 → 觀察結果 → 更新計劃。但實際系統變體很多：單循環設計在一次生成里交替推理和行動；層級設計讓一個規劃智能體負責分解目標，執行智能體負責具體步驟；多智能體設計把子任務路由給具有不同工具和權限范圍的專屬智能體。執行框架在裸循環之上增加的是治理層：沒有明確控制，循環可能無限運行、工具調用成本失控或子智能體遞歸繁殖耗盡資源。成熟的執行框架會強制執行最大步數、遞歸深度上限、單步成本上限和超時約束。

第二個維度是沙箱化與執行隔離。每當智能體寫文件、執行命令、調用外部API時，執行框架必須決定暴露多少環境、如何限制副作用。Codex風格的智能體為每個任務分配獨立的云沙箱，有自己的文件系統快照、網絡限制和資源配額，一次執行不會污染另一次。Claude Code采用了漸進式權限模式，從完全自主執行到每次工具調用都需要用戶確認，讓同一個智能體在不同信任級別下工作。沙箱不僅是安全圍欄，它也是認知邊界：通過移除無關狀態、限制危險操作、讓工作空間可檢查，它簡化了智能體的操作環境，改變了模型需要推理的范圍。

第三個維度是人類監督與審批節點。完全自主的智能體在大多數部署場景下并不合適。成熟的執行框架在智能體循環里插入干預點：執行前審批在每個潛在高影響操作前暫停并等待確認；執行后審查讓智能體先行動，但在提交或繼續之前將結果呈現給人類檢查；升級觸發器允許在正常條件下自主運行，但當檢測到特定風險信號時請求人類介入。Hook系統把這種模式泛化為：允許運營商把任意邏輯——腳本、驗證檢查、通知調度——掛載到智能體循環的特定生命周期事件上，如工具調用、文件寫入、子智能體啟動。自主度因此不是智能體的固有屬性，而是執行框架的可配置參數。

第四個維度是可觀察性與結構化反饋。一個行動后不留可檢查軌跡的智能體，是無法調試、無法審計、無法改進的。可觀察性通常包括：每次模型調用、工具調用、記憶讀寫、決策分支的結構化日志；把每個動作與其因果前驅聯系起來的執行軌跡；步數、Token消耗、錯誤率、延遲分布等聚合指標。這些記錄服務兩類目的：對外，支持調試、合規審計和事后分析；對內，關閉連接執行結果與生成模塊的反饋循環——失敗的工具調用可以觸發把失敗上下文寫入記憶；反復失敗的模式可以標記技能待修訂。沒有結構化可觀察性，這些反饋循環根本無法運作，執行框架只能是一個靜態腳手架，而不是自我優化的系統。

第五個維度是配置、權限與策略編碼。執行框架不僅要知道智能體能做什么，還要知道在什么條件下允許做什么。這需要一個把策略與執行邏輯分開的配置層，讓治理規則變成顯式的、可版本控制的、可審計的。實踐中配置通常分層：用戶級設置編碼個人偏好和信任邊界；項目級設置指定哪些工具可用、哪些文件路徑可訪問、哪些命令需要審批；組織級設置施加合規約束、成本上限、數據處理規則，不可被單個項目覆蓋。這種分層意味著，同一個基礎智能體可以在不同部署環境下按不同政策運作，而不需要改動模型或加載的技能文件。

第六個維度是上下文預算管理。在任何智能體系統里，上下文窗口是最稀缺的共享資源。記憶檢索、技能加載、協議模式、工具描述、模型自身的推理軌跡，全都競爭同一個有限的Token預算。如何分配這個預算，是執行框架層面的協調問題，沒有任何單一模塊能獨立解決。有效的上下文管理通常結合多種策略：摘要化把較早的對話輪次和執行歷史壓縮成更短的表達，保留決策相關信息同時釋放Token；基于優先級的驅逐移除或降級與當前子任務相關性已衰減的上下文條目；漸進式加載確保詳細的程序性指南只在檢測到匹配的任務模式時才進入上下文，而不是從會話開始就占據空間。執行框架聯合編排這些策略，因為最優分配取決于當前執行階段：早期規劃階段可能需要更多記憶、更少技能細節，而后期執行階段可能相反。

六、三者如何互動：一個自我強化的認知生態

當記憶、技能、協議被放在同一個執行框架里運行，它們之間會產生六種相互依存的數據流動，共同構成一個自我強化的系統。

記憶流向技能：這是積累的經驗如何變成可編碼的專業知識的路徑。當某些成功行為模式在多次任務中反復出現時，執行框架可以把這些軌跡聚類、抽象，推廣成新的技能制品，而不需要改動基礎模型權重。TED和UMEM系統展示了如何從情節軌跡里聚類并提煉出技能制品；Voyager的終身學習邏輯則把成功行為沉淀為可復用的代碼級技能。這條數據流的質量——系統如何判斷哪些軌跡值得泛化、哪些只是情境特異的——決定了下游技能層的可靠性。提煉過度，則噪聲或情境依賴的行為固化為技能；提煉不足，則辛苦積累的經驗無法變成可復用的結構。

技能流向記憶：每次技能執行都產生軌跡：中間失敗、運行時調整、輸出結果。可觀察性基礎設施把這些軌跡作為持久證據捕獲，讓執行框架持續驗證哪些技能依然可靠、哪些需要修訂、分拆或增加約束。這條反向流動是技能層保持自我糾錯能力的基礎——沒有它，技能庫只會擴張，不會收斂，而提煉技能的那條正向流動就會運行在越來越陳舊的證據上。

技能流向協議：技能從抽象程序變成實際動作，必須經由協議接口。執行框架解析哪些協議端點當前可用，檢查權限，將技能步驟路由到相應的執行基底——搜索工具、shell命令、測試運行器。技能說"該做什么"，協議說"如何以治理方式做到"。MCP分析中提到的"致命三元組"安全案例——敏感數據訪問、不受限的外部通信、未經驗證的執行——清楚說明：即便技能寫得無懈可擊，協議層的驗證仍是獨立的安全關口。

協議流向技能：反過來，一個接口一旦被標準化，就更容易在此基礎上編碼最佳實踐。OpenAPI和MCP不僅讓工具可調用，還提供足夠的結構規律性，使系統可以把接口特定的專業知識打包成可復用的技能制品，而不是每次運行時重新推演。HashiCorp智能體技能生態系統就是一個具體例證：底層基礎設施管理接口通過協議契約變得清晰穩定后，領域流程就可以被外化為可移植的技能文件。

記憶流向協議：存儲的上下文可以影響執行框架下一步選擇哪條協議路徑。歷史成功率、用戶偏好、先前失敗，可以決定一個請求是本地處理、通過MCP調用外部工具，還是通過A2A委托給另一個智能體。記憶把協議選擇從靜態配置，變成基于經驗的路由決策——尤其在多智能體場景里，這種動態路由能力至關重要。

協議流向記憶：最后，每次協議交互都產生必須被保留的狀態：工具輸出、審批事件、錯誤載荷、委托結果。執行框架必須把這些結果規范化并寫入記憶，讓后續推理可以依賴可驗證的外部事實，而不是重建或幻覺出來的假設。這條流動關閉了整個循環：協議層產生記憶存儲的證據，進而影響新的技能選擇和新的協議路由。

這六條流動放在一起，產生了幾個系統層面的動態特性。系統是自我強化的：更好的記憶產生更好的技能提煉，更好的技能產生更豐富的執行軌跡，更豐富的軌跡改善記憶。但這也意味著錯誤可以被放大：一條被污染的記憶條目可以導致有缺陷的技能，而有缺陷技能的執行軌跡會進一步污染記憶——這是任何單一模塊的質量控制都無法阻斷的級聯，必須由執行框架層面的干預來打斷。

三個模塊還爭奪同一個稀缺資源：模型的上下文窗口。擴展任何一個模塊的上下文占用，必然壓縮其他模塊。執行框架必須不僅管理每個模塊的內容，還要管理它們在每個執行步驟里的相對預算分配。

三條流動還在不同時間尺度上運作：協議交互通常是同步且快速的；技能加載發生在任務或子任務邊界；記憶提煉和技能進化跨越會話乃至更長時間。一個只優化快速工具執行的執行框架，可能忽視決定長期能力增長的慢循環。

七、內部參數能力還是外部化能力：這不是非此即彼的問題

論文專門用一節討論了一個容易被誤解的問題：把能力放在模型參數里，還是放在外部基礎設施里，哪個更好？

答案是：這不是一個應該被問成"哪個更好"的問題。它是一個系統分區問題：哪類負擔在哪里處理效果最好？

更新頻率和時間衰減是第一個分區維度。快速變化的知識和程序是外部化的強候選：API規范、組織結構、實時環境狀態，衰減得太快，無法可靠地維持在模型權重里。通過持續微調來保持模型與時俱進，不僅成本高昂，還面臨"災難性遺忘"風險——更新一類知識可能意外損壞其他能力。外部存儲可以立即更新、保留明確的版本和來源。相比之下，語言理解、寬泛推理、常識推斷這類穩定的背景能力，衰減極慢，仍然更自然地存在于參數里，受益于快速推理和深度表示整合。

可復用性和多智能體可移植性是第二個維度。如果一項能力在多個任務、用戶、智能體間反復需要，外部化可以大幅提升可移植性和組合性。明確的技能、腳本和接口制品可以跨異構運行時共享、版本控制和復用，而不需要每個智能體重新發現或重新訓練相同的程序。在多智能體場景里，一個為某個智能體編寫的技能可以廣播給整個集群，前提是該技能對工具和協議的假設得到滿足。

可審計性、治理和對齊是第三個維度。凡是檢查、審批、回滾或策略執行很重要的場合，外部化制品相比不透明的參數行為有明顯優勢。符號接口支持電路斷路器、模式驗證和可追溯執行記錄，這些都是權重本身無法提供的。對齊微調（如RLHF）提供概率性的行為塑造，而外部化約束提供在接口層面的確定性執行。高風險部署因此推動架構邊界向外：智能體行動越有影響，把治理邏輯做成顯式可檢查形式的理由越充分。

延遲、簡潔性和上下文負擔是第四個維度，代表外部化的成本側。外部化把計算和組織成本從模型的前向傳播轉移到周邊系統：檢索、路由、解析、工具調用都引入延遲。每件檢索到的制品都占上下文預算，過度加載上下文既有信息過載的性能損失，也有"迷失在中間"的注意力退化。對于超快速、低方差、純語義的任務，讓模型依賴其內部參數知識仍然更簡單，通常也更可靠。

這個分區不是靜態的。隨著模型能力增長，某些曾經需要外部驗證的負擔可以被內化回模型——一個能可靠生成結構化輸出的模型，執行框架里的格式驗證需求就減少了。而更豐富的執行框架為模型創造了新的運行要求：在結構化運行時里操作，需要模型尊重模式、配合權限檢查、協調漸進式上下文注入。邊界在兩個方向上同時移動，而核心工程挑戰是知道何時向外擴展、何時向內收縮。

八、這一切向何處演進：六個開放前沿

論文的最后一部分描繪了外部化邏輯在未來的六條延伸方向，每一條都代表一個尚待解決的重要問題。

第一個前沿是邊界的擴展。目前已經外部化的是記憶、技能和協議。但還有其他類型的認知負擔尚未被系統外部化。規劃與目標管理：當前的智能體通常通過上下文推理即時生成計劃，這些計劃在上下文重置時就消失了。方向是讓計劃成為執行框架里的一等對象：持久化、可檢查、可修訂、可跨智能體共享。評估與驗證：目前大多數評估邏輯要么在模型的思維鏈里，要么在運行后的基準測試框架里。把評估標準、評分規則、驗證程序外部化為運行時執行框架組件，會讓智能體在執行期間就能對照顯式標準檢查自身輸出。編排邏輯本身：最遞歸的外部化形式是讓執行框架自己的配置、策略和執行邏輯變成智能體可以檢查、批評和修訂的對象——這直接連接到下一個前沿。

多模態外部化是另一個重要擴展。目前的框架主要假設文本是核心表示媒介：記憶存儲文本軌跡，技能編碼自然語言程序，協議交換結構化文本消息。隨著基礎模型原生支持圖像、視頻、音頻、屏幕內容，每個外部化維度都面臨新的設計需求。多模態技能必須不僅編碼文字程序，還要編碼視覺感知工作流和跨模態決策邏輯；多模態記憶必須能索引和檢索視覺與聽覺經驗；MemVerse維護多模態知識圖，周期性地將碎片化感官經驗提煉為更抽象的表達；MuSEAgent積累有狀態的多模態經驗來支撐未來推理；TED展示了如何在不額外訓練的情況下，把成功的多模態推理軌跡提煉為可復用經驗。

第二個前沿是從數字智能體延伸到具身外部化。外部化邏輯不僅適用于讀寫文件和調用API的數字智能體，也適用于必須感知、移動、物理操作世界的機器人。早期視覺-語言-行動（VLA）模型采用了單體端到端策略，類似于外部化之前的早期LLM智能體：給定自然語言指令和視覺觀察，模型直接輸出連續動作序列，在單次前向傳播里包攬感知、推理、規劃和運動控制。這遭遇了完全相同類型的限制：復雜多步任務超出了規劃視野；中間步驟失敗無法診斷或恢復；高級認知與低延遲運動控制的緊密耦合制造了不可調和的推理速度和模型容量矛盾。正在興起的架構回應正是外部化邏輯在整個身體層面的復現：高層機器人智能體（通常是LLM或多模態模型）承擔"大腦皮層"職責：解讀目標、分解任務序列、維護跨步驟狀態、處理異常、在執行反饋表明失敗時修訂計劃。VLA模型則被重新定位為"小腦"：每個VLA負責一個原子操控基元（抓取、放置、倒液、插入），以實時感知運動反饋和低延遲控制執行。VLA不再決定做什么，而是確保怎么做的過程精確、穩定、對局部物理擾動自適應。這種分解直接映射到本文的外部化維度：任務規劃和目標管理從VLA的隱式參數推理遷移到顯式可檢查的智能體循環；每個VLA技能模塊作為外部化的技能制品運作，有明確接口；智能體與技能之間的通信（結構化的動作請求、執行狀態報告、錯誤碼）構成協議層。數字智能體和具身智能體面臨的根本張力是相同的：單一模型無法同時優化慢速、深思熟慮的認知和快速、反應性的執行。外部化通過把每類認知工作路由到最合適的基底來解決這個張力。

第三個前沿是走向自我進化的執行框架。目前大多數智能體系統依然需要人來修訂記憶策略、重寫技能制品、收緊執行邏輯。如果編排邏輯本身被外部化——它就變成了一個可以被程序性調適而非只能手動調整的對象。自我進化可以在三個層次發生：模塊層次，架構不變但內部策略（檢索粒度、技能排名啟發、協議路由規則）根據觀察到的失敗動態調整；系統層次，執行流水線本身被重構，調度策略、執行順序或資源分配在日志揭示反復出現的瓶頸時改變；邊界層次，執行框架的范圍根據模型和任務的變化而擴展或收縮。強化學習可以優化離散的運行時策略；程序合成把框架適應當成代碼修復來處理；進化方法在框架拓撲上搜索；模仿學習在探索成本太高時，從專家執行日志中提煉更好的編排模式。自我進化很誘人，但它也放大了下一條討論的成本和風險——一個漂移而缺乏足夠治理的自適應執行框架，引入新失敗模式的速度可能快于它解決舊問題的速度。

第四個前沿是成本、風險與治理。外部化不是免費的。認知開銷方面，每一層額外的記憶層、API模式或安全規則都引入延遲和推理開銷，超過某個點，模型花在發現、解析、協調模塊上的精力多于解決實際任務。記憶過檢索用邊緣相關的軌跡淹沒上下文；冗長或重疊的技能文件占用上下文預算；工具蔓延把動作選擇變成不必要的消歧問題。這些失敗模式表明，設計目標應該是高效的、實用正向的外部化，而不是最大化外部化。安全與完整性風險方面，一旦認知和程序性負擔被重定位到外部制品，這些制品就成了攻擊目標。記憶污染可以通過被篡改的情節軌跡或事實存儲悄悄扭曲未來推理。惡意技能注入可以將對抗性程序植入智能體的可復用庫。協議欺騙——偽造工具清單或被操縱的端點——可能在合法交互的外表下導致未授權的動作。這些風險在自我進化的執行框架里被放大：適應新任務可能降級舊能力，累積的補丁可能模糊系統行為，當人類監督減弱時，優化目標可能被扭曲。治理作為基礎設施：含義是，外部化必須與治理協同設計，而不是事后補救。關鍵更新的強制審查節點、記憶和技能變化的來源追蹤、確定性回滾機制、回歸測試，都成了基礎設施的一部分。一個外部化系統的質量不僅由它實現了什么來衡量，還由它以多透明和多可逆的方式實現來衡量。

第五個前沿是從私有腳手架走向共享基礎設施。目前描述的外部化大多是以智能體為中心的：記憶服務于一個智能體的連續性，技能作為本地包加載，協議往往依賴框架。隨著協作鏈條延伸，外部化開始從私有腳手架向共享基礎設施轉移。共享記憶把問題從"我記住了什么"變成"我們知道什么"，把記憶變成跨智能體的共享狀態、索引和公共基礎的事務性系統。共享技能把程序性專業知識變成公共能力單元，可以跨智能體復用、分叉和維護。共享協議提供了通用語法，使這種協作在平臺和組織間可互操作。一旦這些結構共享，智能體系統可以分化角色而不是到處復制同一個完整堆棧。失敗軌跡可以在共享記憶中積累，而成功路徑結晶成共享技能。學習通過外部結構擴散，而不僅僅通過聯合參數訓練。然而，共享基礎設施也放大了治理挑戰：基礎設施漂移、惡意或低質量制品、過早或延遲的標準化，都可能破壞生態系統穩定。

第六個前沿是測量外部化。目前大多數基準測試主要通過固定提示和固定模型設置下的任務完成度來評估智能體。這對比較基礎模型能力很有用，但系統性地低估了外部化基礎設施的貢獻。一個通過更好記憶檢索、更精確技能加載或更嚴格執行治理來提升可靠性的執行框架，只會表現為更高的通過率，而沒有辦法把這個改進歸因到其真正來源。一個更豐富的評估議程應該沿著目前基本被忽視的維度評估外部化質量：可遷移性，測試同樣的執行框架配置在底層模型被換掉時是否保持效果，直接檢驗多少能力在外部基礎設施而非權重里；可維護性，測量當技能、記憶策略或協議模式更新時系統優雅降級的程度；恢復魯棒性，測試智能體能否檢測失敗、回滾部分動作、從檢查點恢復；上下文效率，量化執行框架開銷消耗了多少上下文預算，用于任務相關推理的比例是多少；治理質量，評估外部化系統是否滿足透明度和可逆性要求。

歸根結底，這篇研究告訴我們一個關于AI進步的非直覺性真相：讓一個AI智能體更可靠、更強大，往往不是靠把模型本身做得更聰明，而是靠把模型周圍的"認知環境"設計得更好。記憶把"回憶"變成"檢索"，技能把"即興創作"變成"加載劇本"，協議把"猜測交流規則"變成"遵守交流合同"，而執行框架把這三者編織成一個可以協同運作的整體。

這個視角有一個深遠的含義：評價一個AI系統，不能只問"這個模型有多強"，還必須問"這個模型周圍的認知基礎設施設計得有多好"。就像評價一個外科醫生的能力，不只要看他的個人技術，還要看他身邊的手術室設備、護理團隊、操作規范是否到位。更好的AI智能體，不只是更強的推理引擎，更是被更好組織起來的認知系統——而這篇研究，正是迄今為止對這個組織原理最系統的闡述之一。

Q&A

Q1：大型語言模型智能體的執行框架（harness）和普通的提示詞工程有什么區別？

A：提示詞工程是臨時性地設計單次對話的輸入內容，智能體執行框架（harness）則是持久運行的基礎設施。執行框架管理跨會話的記憶持久化、可復用技能的加載、工具調用的協議規范、審批節點的控制邏輯和執行軌跡的觀測記錄。簡單說，提示詞工程改變的是"對話的內容"，執行框架改變的是"模型工作的整個運行環境"。

Q2：MCP協議和普通的API調用有什么不同？

A：普通API調用需要為每個工具寫專屬的集成代碼，格式、認證和錯誤處理方式都可能不同。MCP（模型上下文協議）提供了一個統一標準：服務器用統一結構暴露工具，客戶端用統一方式發現和調用，不依賴任何AI平臺的私有函數調用格式。這意味著新工具只需實現一次MCP接口，就能被任何支持MCP的AI智能體直接使用，權限檢查和審計也可以在這個統一層面集中管理。

Q3：大型語言模型智能體的技能（skill）和普通的工具調用是同一回事嗎？

A：不是同一回事，兩者在抽象層級上有本質差異。工具調用是原子操作：搜索、寫文件、發API請求，每次調用是孤立的動作。技能編碼的是完成一類任務的完整程序性專業知識，包括操作步驟的順序、遇到分支時的決策規則、哪些操作是被允許的約束條件。可以這樣理解：工具是錘子和螺絲刀，技能是"如何按規范組裝一件家具"的完整說明書，包含用哪些工具、什么順序用、出了問題怎么辦。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.