網易首頁 > 網易號 > 正文申請入駐

華為諾亞&港中文發布SCOPE：Prompt自我進化，讓HLE成功率翻倍

2025-12-26 14:16:31　來源: 機器之心Pro

北京舉報

分享至

機器之心發布

在 LLM Agent 領域，有一個常見的問題：Agent 明明 "看到了" 錯誤信息，卻總是重蹈覆轍。

當 Agent 遇到工具調用錯誤時，錯誤日志里往往已經包含了解決方案 —— 正確的參數格式、有效的 API 用法、甚至是直接可用的替代方案。然而，靜態的 Prompt 無法讓 Agent 從這些反饋中 “學到教訓”，導致它們陷入 “錯誤循環”：承認失敗，卻重復同樣的動作。

華為諾亞方舟實驗室與香港中文大學聯合發布的 SCOPE 框架，旨在解決這一問題。

論文：《SCOPE: Prompt Evolution for Enhancing Agent Effectiveness》
論文地址：https://arxiv.org/abs/2512.15374
開源地址：https://github.com/JarvisPei/SCOPE

SCOPE 的核心思想是：既然 Agent 會被反復調用，那么它的 Prompt 就可以在執行過程中不斷進化。通過從執行軌跡中自動提煉指導規則，SCOPE 讓 Agent 能夠 "從錯誤中學習"，并將經驗固化到 Prompt 中，實現自我進化。

Agent 的兩大失敗模式

研究團隊分析了 GAIA 和 DeepSearch 基準上的 Agent 執行日志，發現了兩類典型的失敗模式：

第一類是「糾正型失敗」(Corrective Failure)：當錯誤發生時，執行軌跡中包含明確的信號（錯誤消息、堆棧跟蹤、有效參數列表），本應指導 Agent 進行修正。然而，靜態的 Agent 把這些信息當作泛泛的 “警報”，而不是可操作的反饋。研究者觀察到大量案例，Agent 在錯誤消息明確列出正確用法的情況下仍然誤用工具，形成 “錯誤循環”。更嚴重的情況下，Agent 甚至會為了繼續執行而 “編造數據”。

第二類是「增強型失敗」(Enhancement Failure)：即使沒有明顯錯誤，Agent 也會錯過優化機會。比如當搜索結果不理想時，上下文往往暗示可以嘗試同義詞（如 “base on balls” 與 “walks”），但 Agent 卻固守單一關鍵詞策略。這種失敗更加隱蔽，但同樣影響任務成功率。

這兩類失敗的根本原因是相同的：靜態 Prompt 缺乏從執行反饋中學習的機制。

SCOPE 框架：從執行軌跡中學習

針對上述問題，SCOPE 將上下文管理從手動工程任務轉變為自動優化過程。其核心洞察是：Agent 自身的執行軌跡就是最好的學習信號。

SCOPE 框架由四個核心組件構成：

1. 指導規則合成（Guideline Synthesis）

當 Agent 遇到錯誤或完成子任務時，SCOPE 的生成器（Generator）會分析執行軌跡，合成候選指導規則。這里采用 Best-of-N 策略：生成多個候選規則，然后由選擇器（Selector）挑選最佳的一條。

針對不同場景，SCOPE 使用兩種合成模式：糾正型合成從錯誤中提取教訓，增強型合成從成功模式中挖掘優化機會。實驗表明，增強型規則占所有合成規則的 61%，說明 SCOPE 不僅僅是 “錯誤修復器”，更是一個主動的優化器。

2. 雙流路由機制（Dual-Stream Routing）

合成的規則并非同等對待。SCOPE 引入分類器（Classifier）將規則路由到兩個記憶流：

戰術記憶（Tactical Memory）：存儲任務特定的規則，如 “當前數據集的‘Amount’列包含貨幣符號，計算前需進行清洗”。這些規則僅在當前任務的數據上下文中有效。
戰略記憶（Strategic Memory）：存儲跨任務通用的規則，如 “當 Web 搜索返回結果為空時，嘗試泛化搜索關鍵詞而不是重復搜索”。這些規則會持久化保存，應用于未來所有任務。

只有高置信度（閾值設為 0.85）的通用規則才會被提升到戰略記憶，避免過擬合到特定任務。

3. 記憶優化（Memory Optimization）

隨著規則積累，戰略記憶可能包含冗余或沖突的內容。SCOPE 的優化器（Optimizer）會執行三步清理：沖突解決（合并矛盾規則）、冗余剪枝（移除被更通用規則覆蓋的具體規則）、整合歸并（將相似規則合并為綜合性規則）。

4. 視角驅動探索（Perspective-Driven Exploration）

單一進化路徑可能收斂到某種策略，在部分任務上表現較好但在其他任務上失效。為了提高策略覆蓋，SCOPE 初始化多個并行流，每個流由不同的 "視角" 引導（如效率優先 vs. 周全優先），各自進化出不同的 Prompt。測試時選擇最佳結果。

實驗結果：HLE 成功率從 14% 提升到 39%

研究團隊在三個基準上進行了評估：HLE（2500 道專家級問題）、GAIA 和 DeepSearch。

實驗結果表明，SCOPE 在所有基準上都取得了提升：

在 HLE 基準上，SCOPE 將任務成功率從 14.23% 提升到 38.64%。在 GAIA 基準上，成功率從 32.73% 提升到 56.97%。

為了更準確地表達不同組件的貢獻，論文中給出了消融實驗。如下圖所示，指導規則生成器提供 + 4.85% 的初始提升，雙流路由貢獻 + 3.63%，Best-of-N 選擇貢獻 + 3.03%，記憶優化貢獻 + 1.82%，而視角驅動探索帶來 + 10.91% 的提升。

值得注意的是，在知識密集型領域（如生物 / 醫學、化學），SCOPE 的提升較為明顯：生物 / 醫學從 14.9% 提升到 43.2%，化學從 14.1% 提升到 50.3%。這些領域的問題往往涉及復雜的專業概念和嚴格的推理流程，SCOPE 合成的領域特定規則能夠幫助 Agent 更好地理解和遵循這些要求。

Agent 真的在 "聽話" 嗎？

一個關鍵問題是：合成的規則是否真正影響了 Agent 的行為？

如下圖所示，研究團隊觀察到了 "語言采納" 現象：當 SCOPE 合成了 "始終列出所有可能的標簽同義詞和短語變體" 這一規則后，Agent 后續輸出中直接引用了相同的措辭。這表明規則被整合到了 Agent 的決策過程中。此外，行為變化通常在規則合成后幾秒內就會發生，展示了單個任務內的實時適應能力。

視角驅動策略多樣性

視角驅動探索的設計得到了實驗驗證。如下圖所示，效率流（Efficiency Stream）和周全流（Thoroughness Stream）的總體準確率相近（44.85% vs 46.06%），但兩者解決的問題重合度僅為 33.94%，這意味著約 23% 的問題只能被其中一個視角解決。

效率流在 GAIA 的 Level 3 任務上表現更好（26.92% vs 11.54%），說明精簡的上下文管理對復雜長程任務更有效；而周全流在 Level 2 任務上更強。全局集成捕獲了兩種策略的優勢。

定性分析顯示，面對同一個 HTTP 403 訪問拒絕錯誤，效率流學會 “快速失敗”—— 立即升級到搜索 Agent，不再重試；而周全流則學會 “尋找替代來源”—— 嘗試 Archive.org 或轉錄工具。這種二元性讓 SCOPE 能夠同時處理時間緊迫型和深度檢索型任務。

SCOPE 的意義

華為諾亞方舟實驗室與香港中文大學聯合提出的 SCOPE 框架，通過將執行軌跡作為學習信號、將 Prompt 視為可進化的參數，實現了 Agent 的在線自我優化。

與現有方法相比，SCOPE 具有三個主要特點：

步級別適應（Step-level adaptation）：在執行過程中更新 Prompt，允許從任務中途的失敗中恢復，而非等到任務結束才學習。
單 Agent 優化（Per-agent optimization）：每個 Agent 角色基于自身特定的模式進化 Prompt，而非使用 "一刀切" 的策略庫。
主動優化：61% 的規則來自成功模式的增強型合成，而非僅僅修復錯誤。

SCOPE 的代碼已在 GitHub 開源。正如論文所總結的：“與其工程化靜態 Prompt，不如讓 Agent 在線進化自己的 Prompt。” 這一思路可能為下一代 Agent 系統的設計提供新的方向。

值得一提的是，SCOPE 的開源實現具有較好的實用性：

即插即用：只需在 Agent 執行循環中調用 `on_step_complete ()` 接口，即可為現有 Agent 系統添加自我進化能力，無需修改原有架構。
模型無關：通過統一的適配器接口支持 OpenAI、Anthropic 以及 100 + 其他模型提供商（via LiteLLM），方便開發者使用自己偏好的模型。
輕量部署：核心依賴精簡，可通過 `pip install scope-optimizer` 一鍵安裝。

SCOPE 提供了一套完整的實現框架，其核心洞察是：Agent 的執行軌跡本身就是最好的學習素材 —— 關鍵在于如何將這些經驗有效地編碼到 Prompt 中。對于希望增強 Agent 系統效能的開發者而言，SCOPE 提供了一個可直接使用的解決方案。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.