![]()
機器之心發布
在 LLM Agent 領域,有一個常見的問題:Agent 明明 "看到了" 錯誤信息,卻總是重蹈覆轍。
當 Agent 遇到工具調用錯誤時,錯誤日志里往往已經包含了解決方案 —— 正確的參數格式、有效的 API 用法、甚至是直接可用的替代方案。然而,靜態的 Prompt 無法讓 Agent 從這些反饋中 “學到教訓”,導致它們陷入 “錯誤循環”:承認失敗,卻重復同樣的動作。
華為諾亞方舟實驗室與香港中文大學聯合發布的 SCOPE 框架,旨在解決這一問題。
![]()
- 論文:《SCOPE: Prompt Evolution for Enhancing Agent Effectiveness》
- 論文地址:https://arxiv.org/abs/2512.15374
- 開源地址:https://github.com/JarvisPei/SCOPE
SCOPE 的核心思想是:既然 Agent 會被反復調用,那么它的 Prompt 就可以在執行過程中不斷進化。通過從執行軌跡中自動提煉指導規則,SCOPE 讓 Agent 能夠 "從錯誤中學習",并將經驗固化到 Prompt 中,實現自我進化。
![]()
![]()
Agent 的兩大失敗模式
研究團隊分析了 GAIA 和 DeepSearch 基準上的 Agent 執行日志,發現了兩類典型的失敗模式:
第一類是「糾正型失敗」(Corrective Failure):當錯誤發生時,執行軌跡中包含明確的信號(錯誤消息、堆棧跟蹤、有效參數列表),本應指導 Agent 進行修正。然而,靜態的 Agent 把這些信息當作泛泛的 “警報”,而不是可操作的反饋。研究者觀察到大量案例,Agent 在錯誤消息明確列出正確用法的情況下仍然誤用工具,形成 “錯誤循環”。更嚴重的情況下,Agent 甚至會為了繼續執行而 “編造數據”。
第二類是「增強型失敗」(Enhancement Failure):即使沒有明顯錯誤,Agent 也會錯過優化機會。比如當搜索結果不理想時,上下文往往暗示可以嘗試同義詞(如 “base on balls” 與 “walks”),但 Agent 卻固守單一關鍵詞策略。這種失敗更加隱蔽,但同樣影響任務成功率。
![]()
這兩類失敗的根本原因是相同的:靜態 Prompt 缺乏從執行反饋中學習的機制。
SCOPE 框架:從執行軌跡中學習
![]()
針對上述問題,SCOPE 將上下文管理從手動工程任務轉變為自動優化過程。其核心洞察是:Agent 自身的執行軌跡就是最好的學習信號。
SCOPE 框架由四個核心組件構成:
1. 指導規則合成(Guideline Synthesis)
當 Agent 遇到錯誤或完成子任務時,SCOPE 的生成器(Generator)會分析執行軌跡,合成候選指導規則。這里采用 Best-of-N 策略:生成多個候選規則,然后由選擇器(Selector)挑選最佳的一條。
針對不同場景,SCOPE 使用兩種合成模式:糾正型合成從錯誤中提取教訓,增強型合成從成功模式中挖掘優化機會。實驗表明,增強型規則占所有合成規則的 61%,說明 SCOPE 不僅僅是 “錯誤修復器”,更是一個主動的優化器。
2. 雙流路由機制(Dual-Stream Routing)
合成的規則并非同等對待。SCOPE 引入分類器(Classifier)將規則路由到兩個記憶流:
- 戰術記憶(Tactical Memory):存儲任務特定的規則,如 “當前數據集的‘Amount’列包含貨幣符號,計算前需進行清洗”。這些規則僅在當前任務的數據上下文中有效。
- 戰略記憶(Strategic Memory):存儲跨任務通用的規則,如 “當 Web 搜索返回結果為空時,嘗試泛化搜索關鍵詞而不是重復搜索”。這些規則會持久化保存,應用于未來所有任務。
只有高置信度(閾值設為 0.85)的通用規則才會被提升到戰略記憶,避免過擬合到特定任務。
3. 記憶優化(Memory Optimization)
隨著規則積累,戰略記憶可能包含冗余或沖突的內容。SCOPE 的優化器(Optimizer)會執行三步清理:沖突解決(合并矛盾規則)、冗余剪枝(移除被更通用規則覆蓋的具體規則)、整合歸并(將相似規則合并為綜合性規則)。
4. 視角驅動探索(Perspective-Driven Exploration)
單一進化路徑可能收斂到某種策略,在部分任務上表現較好但在其他任務上失效。為了提高策略覆蓋,SCOPE 初始化多個并行流,每個流由不同的 "視角" 引導(如效率優先 vs. 周全優先),各自進化出不同的 Prompt。測試時選擇最佳結果。
實驗結果:HLE 成功率從 14% 提升到 39%
研究團隊在三個基準上進行了評估:HLE(2500 道專家級問題)、GAIA 和 DeepSearch。
實驗結果表明,SCOPE 在所有基準上都取得了提升:
![]()
在 HLE 基準上,SCOPE 將任務成功率從 14.23% 提升到 38.64%。在 GAIA 基準上,成功率從 32.73% 提升到 56.97%。
為了更準確地表達不同組件的貢獻,論文中給出了消融實驗。如下圖所示,指導規則生成器提供 + 4.85% 的初始提升,雙流路由貢獻 + 3.63%,Best-of-N 選擇貢獻 + 3.03%,記憶優化貢獻 + 1.82%,而視角驅動探索帶來 + 10.91% 的提升。
![]()
值得注意的是,在知識密集型領域(如生物 / 醫學、化學),SCOPE 的提升較為明顯:生物 / 醫學從 14.9% 提升到 43.2%,化學從 14.1% 提升到 50.3%。這些領域的問題往往涉及復雜的專業概念和嚴格的推理流程,SCOPE 合成的領域特定規則能夠幫助 Agent 更好地理解和遵循這些要求。
![]()
Agent 真的在 "聽話" 嗎?
一個關鍵問題是:合成的規則是否真正影響了 Agent 的行為?
如下圖所示,研究團隊觀察到了 "語言采納" 現象:當 SCOPE 合成了 "始終列出所有可能的標簽同義詞和短語變體" 這一規則后,Agent 后續輸出中直接引用了相同的措辭。這表明規則被整合到了 Agent 的決策過程中。此外,行為變化通常在規則合成后幾秒內就會發生,展示了單個任務內的實時適應能力。
![]()
視角驅動策略多樣性
視角驅動探索的設計得到了實驗驗證。如下圖所示,效率流(Efficiency Stream)和周全流(Thoroughness Stream)的總體準確率相近(44.85% vs 46.06%),但兩者解決的問題重合度僅為 33.94%,這意味著約 23% 的問題只能被其中一個視角解決。
效率流在 GAIA 的 Level 3 任務上表現更好(26.92% vs 11.54%),說明精簡的上下文管理對復雜長程任務更有效;而周全流在 Level 2 任務上更強。全局集成捕獲了兩種策略的優勢。
![]()
定性分析顯示,面對同一個 HTTP 403 訪問拒絕錯誤,效率流學會 “快速失敗”—— 立即升級到搜索 Agent,不再重試;而周全流則學會 “尋找替代來源”—— 嘗試 Archive.org 或轉錄工具。這種二元性讓 SCOPE 能夠同時處理時間緊迫型和深度檢索型任務。
![]()
SCOPE 的意義
華為諾亞方舟實驗室與香港中文大學聯合提出的 SCOPE 框架,通過將執行軌跡作為學習信號、將 Prompt 視為可進化的參數,實現了 Agent 的在線自我優化。
與現有方法相比,SCOPE 具有三個主要特點:
- 步級別適應(Step-level adaptation):在執行過程中更新 Prompt,允許從任務中途的失敗中恢復,而非等到任務結束才學習。
- 單 Agent 優化(Per-agent optimization):每個 Agent 角色基于自身特定的模式進化 Prompt,而非使用 "一刀切" 的策略庫。
- 主動優化:61% 的規則來自成功模式的增強型合成,而非僅僅修復錯誤。
![]()
SCOPE 的代碼已在 GitHub 開源。正如論文所總結的:“與其工程化靜態 Prompt,不如讓 Agent 在線進化自己的 Prompt。” 這一思路可能為下一代 Agent 系統的設計提供新的方向。
值得一提的是,SCOPE 的開源實現具有較好的實用性:
- 即插即用:只需在 Agent 執行循環中調用 `on_step_complete ()` 接口,即可為現有 Agent 系統添加自我進化能力,無需修改原有架構。
- 模型無關:通過統一的適配器接口支持 OpenAI、Anthropic 以及 100 + 其他模型提供商(via LiteLLM),方便開發者使用自己偏好的模型。
- 輕量部署:核心依賴精簡,可通過 `pip install scope-optimizer` 一鍵安裝。
SCOPE 提供了一套完整的實現框架,其核心洞察是:Agent 的執行軌跡本身就是最好的學習素材 —— 關鍵在于如何將這些經驗有效地編碼到 Prompt 中。對于希望增強 Agent 系統效能的開發者而言,SCOPE 提供了一個可直接使用的解決方案。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.