大數據文摘出品
近日,微軟研究院的一個團隊發布了一個名為Agent Lightning的框架,它使任何人工智能(AI)智能體都能通過強化學習進行訓練。
![]()
這個框架的核心突破在于,它實現了智能體執行與強化學習(RL)訓練過程的完全解耦。
這一設計允許開發者將該框架無縫集成到他們現有的智能體中,并且幾乎不需要修改任何代碼。
這意味著,無論智能體是使用LangChain、AutoGen等流行框架構建,還是從頭開始編寫,都能應用此訓練方法。
01 訓練與執行的徹底解耦
![]()
Overview of Agent Lightning
當前訓練AI智能體的方法,通常將訓練系統與智能體的內部邏輯緊密耦合在一起 。
這種緊密耦合的方式,要求開發者必須在訓練系統內部重建或大幅改造他們的智能體,過程費時費力且容易出錯 。
為了打破這一瓶頸,Agent Lightning 提出了一種創新的“訓練-智能體解聚合” (TA Disaggregation) 架構 。
![]()
圖注:Training-Agent Disaggregation architecture
這個架構將系統清晰地劃分為兩個核心組件:Lightning 服務器和Lightning客戶端 。
Lightning 服務器作為強化學習訓練系統的控制器,負責管理整個訓練流程和模型參數的更新 。
Lightning 客戶端則作為智能體的運行時環境,獨立負責運行智能體的具體應用邏輯和數據收集 。
服務器通過一個類似OpenAI的API接口,向客戶端提供更新后的模型訪問權限 。
客戶端的智能體在執行任務時調用此API,就像使用任何標準的LLM服務一樣,完全無需感知背后復雜的訓練過程 。
這種分離設計使得訓練框架變得“智能體無關”,它只專注于優化模型和管理硬件資源,不關心智能體的具體實現 。
同時,智能體也變得“訓練器無關”,開發者可以聚焦于智能體的業務邏輯,而不受限于訓練基礎設施的束縛 。
為了實現無代碼修改的數據捕獲,客戶端巧妙地運用了如OpenTelemetry等可觀測性框架,自動檢測和記錄執行軌跡 。
這種架構還天然支持數據并行,客戶端可以同時在單個或多個節點上運行大量智能體實例,極大地提升了數據吞吐量和訓練效率 。
此外,客戶端運行時還內置了全面的錯誤處理機制,確保單個智能體的崩潰不會中斷整個長時間的訓練流程 。
它還提供了一種“自動中間獎勵”(AIR)機制,能夠基于系統監控信號為智能體的中間步驟分配獎勵,有效緩解了稀疏獎勵問題 。
通過這種方式,Agent Lightning 成功地將計算密集的模型訓練與邏輯靈活多樣的智能體應用分離開來,為大規模訓練真實世界的AI智能體鋪平了道路 。
02 統一數據接口與分層強化學習
![]()
該圖展示了 Agent Lightning 如何通過統一數據接口在執行過程中系統化地記錄狀態變化與軌跡,用于強化學習優化。
Agent Lightning的理論基石,是將復雜的智能體執行過程抽象為一個馬爾可夫決策過程(MDP)。
在這個模型中,智能體執行的某個瞬間快照被定義為“狀態”,它包含了描述執行狀況所需的一組變量 。
策略大語言模型(LLM)生成的輸出則被視為“動作”,這個動作會驅動智能體轉換到下一個狀態 。
智能體完成任務后獲得的結果,被量化為“獎勵”信號,用于評估動作的質量 。
基于MDP的建模,Agent Lightning 提出了一個統一的數據接口,該接口能適用于從任何AI智能體收集的數據 。
這個接口將智能體的執行軌跡,無論其內部邏輯多么復雜,都統一表示為一系列(狀態,動作,獎勵)的轉換序列 。
這種設計巧妙地忽略了智能體內部繁瑣多變的具體實現邏輯,只關注策略LLM的輸入和輸出,從而極大簡化了數據建模 。
為了利用這些收集到的數據來優化LLM,研究團隊進一步設計了一種名為 LightningRL 的分層強化學習算法 。
LightningRL 的核心在于一個信用分配模塊,它首先將整個任務最終獲得的總獎勵,分配給過程中的每一次LLM調用(即每一個動作) 。
然后,這些分配到單次動作的獎勵,會被用于指導現有的單輪次強化學習算法(如GRPO、PPO等)來更新模型參數 。
這種分層優化的方法,完美兼容了現有的高效RL算法,使其可以直接應用于更復雜的多輪交互場景中 。
與以往將多輪交互拼接成一個長序列并使用掩碼(masking)進行訓練的方法相比,LightningRL 的設計優勢顯著 。
它避免了設計復雜且容易出錯的掩碼策略,因為數據被天然地分解為獨立的轉換單元,無需拼接 。
同時,這種方式也緩解了因多輪對話累積上下文,導致輸入序列過長而超出模型限制或增加計算負擔的問題 。
LightningRL 的數據組織方式還支持靈活的上下文構建,模型的輸入可以根據需要動態生成,例如包含歷史摘要或特定的角色指令 。
總而言之,通過MDP建模、統一數據接口和LightningRL算法,Agent Lightning為在模塊化和動態化的智能體系統中進行有效的策略優化奠定了堅實的基礎 。
03 跨場景應用的穩定提升
![]()
該圖對比了單次調用 GRPO、多輪 GRPO 與 LightningRL,突出 LightningRL 通過將軌跡分解為轉換并分組估計優勢,實現更精細的優化。
為了驗證框架的真實效能,研究團隊在三個具有代表性且實現方式各不相同的任務上進行了測試 。
第一個任務是使用LangChain框架構建的文本到SQL智能體。
![]()
Text-to-SQL 任務的獎勵曲線
該智能體需要在復雜的Spider數據集上,根據自然語言問題生成可執行的SQL查詢并回答問題 。
這個場景的特殊之處在于它是一個多智能體系統,由同一個LLM扮演SQL編寫、檢查和重寫三個不同角色 。
實驗證明,Agent Lightning 不僅能夠驅動整個系統性能提升,還能選擇性地同時優化其中的兩個智能體(編寫和重寫),展示了其在多智能體協同優化中的靈活性 。
第二個任務是利用OpenAI Agents SDK實現的檢索增強生成(RAG)智能體。
這個智能體需要通過從包含2100萬份文檔的整個維基百科中檢索信息,來回答MuSiQue數據集中的多跳推理問題 。
這項任務的挑戰在于查詢的開放性和巨大的信息檢索空間,非常考驗智能體制定有效檢索策略和進行文本推理的能力 。
第三個任務則是通過AutoGen框架開發的數學問答智能體。
該智能體必須在Calc-X數據集上,學會如何以及何時調用計算器工具來解決數學問題 。
![]()
Reward curves for the Calculator task
這要求模型不僅要理解數學邏輯,還要能生成語法正確的工具調用指令,并將工具返回的結果正確地整合到最終的解題步驟中 。
在所有這三個場景中,獎勵曲線圖都清晰地顯示,經過Agent Lightning 的訓練,模型的性能都獲得了穩定且持續的提升。
這些跨越不同框架、不同任務、不同復雜度的成功案例,有力地證明了
Agent Lightning作為一個通用優化框架的強大潛力,能夠賦能AI智能體解決更加開放和動態的現實世界問題 。
via https://github.com/microsoft/agent-lightning
作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!
GPU 訓練特惠!
H100/H200 GPU算力按秒計費,平均節省開支30%以上!
掃碼了解詳情?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.