網易首頁 > 網易號 > 正文申請入駐

開源RL框架Verlog來了，專為LLM智能體打造，400回合不成問題

2025-10-08 15:52:12　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

機器之心編輯部

AI 時代，智能體對短期對話的處理能力已不再是難題。真正的挑戰是讓智能體在數百步的探索中依然保持清晰的推理與穩健的決策。

傳統的強化學習框架在幾十步內尚能應付，但一旦任務延展至數百步，獎勵稀疏、歷史冗長、策略崩塌便接踵而至。

為了應對這些挑戰，來自卡內基梅隆大學、香港大學等機構的研究者提出了 Verlog ，試圖打破這一困境。

具體而言，Verlog 是一個多輪強化學習框架，專為具有高度可變回合（episode）長度的長時程（long-horizon） LLM-Agent 任務而設計。

它在繼承 VeRL 和 BALROG 的基礎上，并遵循 pytorch-a2c-ppo-acktr-gail 的成熟設計原則，引入了一系列專門優化手段，從而在任務跨度從短暫交互到數百回合時，依然能夠實現穩定而高效的訓練。

以往的框架（如 VeRL 和 RAGEN）能夠較好地處理約 10 回合的任務，verl-agent 則可擴展至 50 回合。而 Verlog 則被設計用于超過 400 回合的環境，使其在復雜的長期決策任務中具備獨特優勢。

這一能力已在 BabyAI、BabaIsAI 和 Crafter 等高難度領域得到驗證。以 Crafter 為例，其回合長度范圍在 70 到 400 步之間，平均約為 190 步。在這些充滿挑戰的環境中，Verlog 都能夠開箱即用地展現出強勁的性能。

博客地址：https://blog.ml.cmu.edu/2025/09/15/verlog-a-multi-turn-rl-framework-for-llm-agents/
項目主頁：https://agentic-intelligence-lab.org/2025/08/15/technical-post.html

方法介紹

基礎模型

在模型方面，本文基于 Qwen-2.5 的 Instruct 變體（Qwen-2.5-3B/7B-Instruct）構建。

這樣做主要有兩個原因：

一是，它可以與 BALROG 無縫集成（BALROG 是一個旨在評估 Instruct 模型在一系列基準測試中零樣本性能的框架）；

其次，它允許研究者可以直接使用基準測試提示，而無需太多修改。

BabyAI 使用的提示模板

記憶機制

本文不是將整個軌跡全部放入上下文窗口中，而是僅保留最新的 n + 1 個回合。

這樣做帶來的影響是，對于 3B 參數的 Qwen 模型，性能在 n = 1 或 2 時達到峰值，而當 n 增加到 4 或 8 時性能下降。

作者推測，模型性能下降的原因是 3B 模型在處理長上下文方面的能力有限，例如，當 n = 8 時，提示詞長度約為 4600 個 token。

不過，這一趨勢是否適用于更大規模的模型，仍待研究。

Dual Discounting GAE 算法

此外，本文 GAE 是遞歸計算的：

其中，

遞歸從最后一輪的最后一個 token 開始，向后進行。處理完最后一輪的所有 token 后，移至倒數第二輪的最后一個 token，并繼續遞歸執行此過程。在此過程中，所有狀態 token 都會被跳過。

實驗結果

該研究在三個頗具挑戰性的基準上測試了 Verlog：包括 Crafter、BabyAI 和 BabaIsAI。實驗模型包括 Qwen2.5-Instruct 。

在 Crafter 環境中，本文使用 8 張 H100（82GB 顯存）GPU 對 Qwen2.5-7B-Instruct 模型訓練了大約 36 小時。此外，針對 BabyAI 與 BabaIsAI 環境，本文采用 4 張 A40（48GB 顯存）GPU 對 Qwen2.5-3B-Instruct 模型訓練約 24 小時。

三個實驗環境表明，Verlog 展現出穩定的訓練能力，不管是在長周期、稀疏獎勵，還是在可變 episode 長度條件下。這也證明了該框架能自然適應從短周期到超長周期多回合任務的規模化訓練。

總結

Verlog 針對在構建長時程、多回合任務的 LLM Agent 時面臨的若干核心工程挑戰，提出了系統性的解決方案，包括：

長交互歷史的處理：通過記憶機制和回合級抽象來管理歷史信息。
稀疏獎勵下的訓練穩定性：結合 dual-discounting GAE 和價值函數預訓練來增強穩定性。
軌跡長度可變的管理：通過固定回合批處理（fixed-turn batching）和自舉式價值估計來處理變長軌跡。
提升動作有效性：利用針對性的提示工程和默認動作替換，使訓練過程中 >95% 的動作均為有效動作。

作者表示，Verlog 的定位是一個靈活的研究平臺，目的是推動長時程 LLM-Agent 強化學習的發展。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.