<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      開源RL框架Verlog來了,專為LLM智能體打造,400回合不成問題

      0
      分享至

      機器之心報道

      機器之心編輯部

      AI 時代,智能體對短期對話的處理能力已不再是難題。真正的挑戰是讓智能體在數百步的探索中依然保持清晰的推理與穩健的決策。

      傳統的強化學習框架在幾十步內尚能應付,但一旦任務延展至數百步,獎勵稀疏、歷史冗長、策略崩塌便接踵而至。

      為了應對這些挑戰,來自卡內基梅隆大學、香港大學等機構的研究者提出了 Verlog ,試圖打破這一困境。

      具體而言,Verlog 是一個多輪強化學習框架,專為具有高度可變回合(episode)長度的長時程(long-horizon) LLM-Agent 任務而設計。

      它在繼承 VeRL 和 BALROG 的基礎上,并遵循 pytorch-a2c-ppo-acktr-gail 的成熟設計原則,引入了一系列專門優化手段,從而在任務跨度從短暫交互到數百回合時,依然能夠實現穩定而高效的訓練。

      以往的框架(如 VeRL 和 RAGEN)能夠較好地處理約 10 回合的任務,verl-agent 則可擴展至 50 回合。而 Verlog 則被設計用于超過 400 回合的環境,使其在復雜的長期決策任務中具備獨特優勢。

      這一能力已在 BabyAI、BabaIsAI 和 Crafter 等高難度領域得到驗證。以 Crafter 為例,其回合長度范圍在 70 到 400 步之間,平均約為 190 步。在這些充滿挑戰的環境中,Verlog 都能夠開箱即用地展現出強勁的性能。



      • 博客地址:https://blog.ml.cmu.edu/2025/09/15/verlog-a-multi-turn-rl-framework-for-llm-agents/
      • 項目主頁:https://agentic-intelligence-lab.org/2025/08/15/technical-post.html



      方法介紹

      基礎模型

      在模型方面,本文基于 Qwen-2.5 的 Instruct 變體(Qwen-2.5-3B/7B-Instruct)構建。

      這樣做主要有兩個原因:

      一是,它可以與 BALROG 無縫集成(BALROG 是一個旨在評估 Instruct 模型在一系列基準測試中零樣本性能的框架);

      其次,它允許研究者可以直接使用基準測試提示,而無需太多修改。



      BabyAI 使用的提示模板

      記憶機制

      本文不是將整個軌跡全部放入上下文窗口中,而是僅保留最新的 n + 1 個回合。

      這樣做帶來的影響是,對于 3B 參數的 Qwen 模型,性能在 n = 1 或 2 時達到峰值,而當 n 增加到 4 或 8 時性能下降。

      作者推測,模型性能下降的原因是 3B 模型在處理長上下文方面的能力有限,例如,當 n = 8 時,提示詞長度約為 4600 個 token。

      不過,這一趨勢是否適用于更大規模的模型,仍待研究。

      Dual Discounting GAE 算法





      此外,本文 GAE 是遞歸計算的:



      其中,



      遞歸從最后一輪的最后一個 token 開始,向后進行。處理完最后一輪的所有 token 后,移至倒數第二輪的最后一個 token,并繼續遞歸執行此過程。在此過程中,所有狀態 token 都會被跳過。

      實驗結果

      該研究在三個頗具挑戰性的基準上測試了 Verlog:包括 Crafter、BabyAI 和 BabaIsAI。實驗模型包括 Qwen2.5-Instruct 。



      在 Crafter 環境中,本文使用 8 張 H100(82GB 顯存)GPU 對 Qwen2.5-7B-Instruct 模型訓練了大約 36 小時。此外,針對 BabyAI 與 BabaIsAI 環境,本文采用 4 張 A40(48GB 顯存)GPU 對 Qwen2.5-3B-Instruct 模型訓練約 24 小時。

      三個實驗環境表明,Verlog 展現出穩定的訓練能力,不管是在長周期、稀疏獎勵,還是在可變 episode 長度條件下。這也證明了該框架能自然適應從短周期到超長周期多回合任務的規模化訓練。

      總結

      Verlog 針對在構建長時程、多回合任務的 LLM Agent 時面臨的若干核心工程挑戰,提出了系統性的解決方案,包括:

      • 長交互歷史的處理:通過記憶機制和回合級抽象來管理歷史信息。
      • 稀疏獎勵下的訓練穩定性:結合 dual-discounting GAE 和價值函數預訓練來增強穩定性。
      • 軌跡長度可變的管理:通過固定回合批處理(fixed-turn batching)和自舉式價值估計來處理變長軌跡。
      • 提升動作有效性:利用針對性的提示工程和默認動作替換,使訓練過程中 >95% 的動作均為有效動作。

      作者表示,Verlog 的定位是一個靈活的研究平臺,目的是推動長時程 LLM-Agent 強化學習的發展。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      京津限行有變 !出行的冀B車主注意

      京津限行有變 !出行的冀B車主注意

      大唐
      2025-12-18 17:41:20
      120間門店全部關停!香港老牌連鎖宣布退出內地市場,全網心碎......

      120間門店全部關停!香港老牌連鎖宣布退出內地市場,全網心碎......

      港漂圈
      2025-12-18 20:13:44
      保持代謝旺盛的 5 個小技巧,讓你想胖都難!

      保持代謝旺盛的 5 個小技巧,讓你想胖都難!

      蝌蚪五線譜
      2025-12-17 17:22:53
      肥腸再次成為關注對象!醫生發現:常吃肥腸,身體會出現6大變化

      肥腸再次成為關注對象!醫生發現:常吃肥腸,身體會出現6大變化

      看世界的人
      2025-12-04 10:51:31
      可憐!中山大學博士生張睿,腰痛查出胃癌,年僅23歲,5月花20萬

      可憐!中山大學博士生張睿,腰痛查出胃癌,年僅23歲,5月花20萬

      千言娛樂記
      2025-12-18 22:06:29
      你知道女性的陰道有多長嗎?或許與你所想,完全不同!

      你知道女性的陰道有多長嗎?或許與你所想,完全不同!

      戰爭茶館
      2025-11-26 10:33:50
      廣東一新娘在婚車上輕輕吻了一下養父,并說:爸爸犧牲,母親改嫁,是您把我拉扯大

      廣東一新娘在婚車上輕輕吻了一下養父,并說:爸爸犧牲,母親改嫁,是您把我拉扯大

      三農老歷
      2025-11-20 05:58:39
      驚艷全場!國羽新一代最美女神橫空出世,網友驚呼“女明星駕到”

      驚艷全場!國羽新一代最美女神橫空出世,網友驚呼“女明星駕到”

      籃球看比賽
      2025-12-18 13:28:36
      網友投稿:媽媽去世了,5歲女兒嘻嘻哈哈,現在很討厭女兒咋辦?

      網友投稿:媽媽去世了,5歲女兒嘻嘻哈哈,現在很討厭女兒咋辦?

      夜深愛雜談
      2025-12-18 16:37:04
      大蒜塞耳朵里太厲害了,10個人9個都用得到,看完趕快叮囑家人

      大蒜塞耳朵里太厲害了,10個人9個都用得到,看完趕快叮囑家人

      妙招酷
      2025-12-02 00:06:08
      特朗普唯獨把中國當成例外,只有中國可以不吃他那一套

      特朗普唯獨把中國當成例外,只有中國可以不吃他那一套

      悠悠說世界
      2025-12-19 01:07:10
      和張本智和傳緋聞?日本美女曝光,豪門千金,甜美型,曝15歲懷孕

      和張本智和傳緋聞?日本美女曝光,豪門千金,甜美型,曝15歲懷孕

      樂聊球
      2025-12-18 14:47:28
      中央財辦回應明年房地產會采取哪些舉措,住建部:推進現房銷售,實現所見即所得

      中央財辦回應明年房地產會采取哪些舉措,住建部:推進現房銷售,實現所見即所得

      華夏時報
      2025-12-17 22:10:04
      卸任中國人民大學校長后,林尚立有新身份

      卸任中國人民大學校長后,林尚立有新身份

      大風新聞
      2025-12-17 20:32:03
      吃著中國飯,詆毀中國文化,700萬網紅遭央視打碼,結局大快人心

      吃著中國飯,詆毀中國文化,700萬網紅遭央視打碼,結局大快人心

      瞻史
      2025-12-17 16:56:00
      許亞軍也沒想到,何晴留給他的24歲兒子,如今卻成了他的“噩夢”

      許亞軍也沒想到,何晴留給他的24歲兒子,如今卻成了他的“噩夢”

      洲洲影視娛評
      2025-12-17 20:19:07
      向華強77歲壽宴好簡樸!喝六瓶洋酒沒鮑魚龍蝦,向佑未露面引爭議

      向華強77歲壽宴好簡樸!喝六瓶洋酒沒鮑魚龍蝦,向佑未露面引爭議

      娛圈小愚
      2025-12-18 10:32:53
      人口紅利逐漸消失!中國勞動力年齡曝光,結果令人意外

      人口紅利逐漸消失!中國勞動力年齡曝光,結果令人意外

      大魚簡科
      2025-12-18 14:40:39
      日本媒體驚呼,他們終于反應過來,高市早苗挑釁中國的真正目的了

      日本媒體驚呼,他們終于反應過來,高市早苗挑釁中國的真正目的了

      聚焦熱點直擊
      2025-12-19 02:53:32
      兩岸統一后,誰最有可能成為首任“臺灣省長”?其中4人眾望所歸

      兩岸統一后,誰最有可能成為首任“臺灣省長”?其中4人眾望所歸

      風笛悠揚聲
      2025-12-18 11:50:09
      2025-12-19 04:28:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11950文章數 142513關注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創業大賽總決賽收官

      頭條要聞

      在野黨參議員問了句日本"存亡危機" 高市早苗瞬間冷臉

      頭條要聞

      在野黨參議員問了句日本"存亡危機" 高市早苗瞬間冷臉

      體育要聞

      紐約尼克斯,板正的球隊

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經濟犯罪

      財經要聞

      尹艷林:呼吁加快2.5億新市民落戶進程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩"的證明

      態度原創

      本地
      家居
      藝術
      時尚
      公開課

      本地新聞

      云游安徽|決戰烽火照古今,千秋一脈看宿州

      家居要聞

      高端私宅 理想隱居圣地

      藝術要聞

      卡洛斯·杜蘭:不只是薩金特的老師!

      陳妍希這婚,離晚了

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日日噜噜夜夜狠狠视频| 精品人妻av区乱码| 亚洲а∨天堂久久精品9966| 欧美日韩v| 亚洲人网站| 日本一卡二卡三卡四卡五卡六卡| www亚洲无码| 久久无码av中文出轨人妻| 在线精品视频一区二区三区| 亚洲综合社区| 玉屏| 乱码精品一区二区三区| 亚洲爱婷婷色婷婷五月 | 亚洲性爱AV| 一区二区三区免费| 高尔夫| 亚洲精品中文字幕无码蜜桃 | 亚洲制服丝袜在线| 99插插| 亚洲成在人线av| 亚洲中文字幕无码av永久| wwwwxxxx欧美| 精品无码毛片| 国产亚洲精品久久久久蜜臀| 欧美三级不卡在线观线看高清 | 日韩精品内射视频免费观看| 不卡动漫av| 旅游| 天堂а√8在线最新版在线| 国产99视频精品免费观看9| 亚洲熟女精品中文字幕m| 成人亚洲国产| 成人做爰69片免费看网站野花| 国产精品青青在线观看爽香蕉| 色www88| 成人另类小说| 色资源av中文无码先锋 | 日韩乱码人妻无码系列中文字幕| 日韩狼人精品在线观看| 亚洲综合一区二区| 熟妇人妻av无码一区二区三区|