<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      微軟推Agent Lightning:AI 智能體訓練與執行徹底解耦,零改代碼即用!

      0
      分享至

      大數據文摘出品

      近日,微軟研究院的一個團隊發布了一個名為Agent Lightning的框架,它使任何人工智能(AI)智能體都能通過強化學習進行訓練。


      這個框架的核心突破在于,它實現了智能體執行與強化學習(RL)訓練過程的完全解耦

      這一設計允許開發者將該框架無縫集成到他們現有的智能體中,并且幾乎不需要修改任何代碼

      這意味著,無論智能體是使用LangChain、AutoGen等流行框架構建,還是從頭開始編寫,都能應用此訓練方法。

      01 訓練與執行的徹底解耦


      Overview of Agent Lightning

      當前訓練AI智能體的方法,通常將訓練系統與智能體的內部邏輯緊密耦合在一起 。

      這種緊密耦合的方式,要求開發者必須在訓練系統內部重建或大幅改造他們的智能體,過程費時費力且容易出錯 。

      為了打破這一瓶頸,Agent Lightning 提出了一種創新的“訓練-智能體解聚合” (TA Disaggregation) 架構 。


      圖注:Training-Agent Disaggregation architecture

      這個架構將系統清晰地劃分為兩個核心組件:Lightning 服務器和Lightning客戶端 。

      Lightning 服務器作為強化學習訓練系統的控制器,負責管理整個訓練流程和模型參數的更新 。

      Lightning 客戶端則作為智能體的運行時環境,獨立負責運行智能體的具體應用邏輯和數據收集 。

      服務器通過一個類似OpenAI的API接口,向客戶端提供更新后的模型訪問權限 。

      客戶端的智能體在執行任務時調用此API,就像使用任何標準的LLM服務一樣,完全無需感知背后復雜的訓練過程 。

      這種分離設計使得訓練框架變得“智能體無關”,它只專注于優化模型和管理硬件資源,不關心智能體的具體實現 。

      同時,智能體也變得“訓練器無關”,開發者可以聚焦于智能體的業務邏輯,而不受限于訓練基礎設施的束縛 。

      為了實現無代碼修改的數據捕獲,客戶端巧妙地運用了如OpenTelemetry等可觀測性框架,自動檢測和記錄執行軌跡 。

      這種架構還天然支持數據并行,客戶端可以同時在單個或多個節點上運行大量智能體實例,極大地提升了數據吞吐量和訓練效率 。

      此外,客戶端運行時還內置了全面的錯誤處理機制,確保單個智能體的崩潰不會中斷整個長時間的訓練流程 。

      它還提供了一種“自動中間獎勵”(AIR)機制,能夠基于系統監控信號為智能體的中間步驟分配獎勵,有效緩解了稀疏獎勵問題 。

      通過這種方式,Agent Lightning 成功地將計算密集的模型訓練與邏輯靈活多樣的智能體應用分離開來,為大規模訓練真實世界的AI智能體鋪平了道路 。

      02 統一數據接口與分層強化學習


      該圖展示了 Agent Lightning 如何通過統一數據接口在執行過程中系統化地記錄狀態變化與軌跡,用于強化學習優化。

      Agent Lightning的理論基石,是將復雜的智能體執行過程抽象為一個馬爾可夫決策過程(MDP)

      在這個模型中,智能體執行的某個瞬間快照被定義為“狀態”,它包含了描述執行狀況所需的一組變量 。

      策略大語言模型(LLM)生成的輸出則被視為“動作”,這個動作會驅動智能體轉換到下一個狀態 。

      智能體完成任務后獲得的結果,被量化為“獎勵”信號,用于評估動作的質量 。

      基于MDP的建模,Agent Lightning 提出了一個統一的數據接口,該接口能適用于從任何AI智能體收集的數據 。

      這個接口將智能體的執行軌跡,無論其內部邏輯多么復雜,都統一表示為一系列(狀態,動作,獎勵)的轉換序列 。

      這種設計巧妙地忽略了智能體內部繁瑣多變的具體實現邏輯,只關注策略LLM的輸入和輸出,從而極大簡化了數據建模 。

      為了利用這些收集到的數據來優化LLM,研究團隊進一步設計了一種名為 LightningRL 的分層強化學習算法 。

      LightningRL 的核心在于一個信用分配模塊,它首先將整個任務最終獲得的總獎勵,分配給過程中的每一次LLM調用(即每一個動作) 。

      然后,這些分配到單次動作的獎勵,會被用于指導現有的單輪次強化學習算法(如GRPO、PPO等)來更新模型參數 。

      這種分層優化的方法,完美兼容了現有的高效RL算法,使其可以直接應用于更復雜的多輪交互場景中 。

      與以往將多輪交互拼接成一個長序列并使用掩碼(masking)進行訓練的方法相比,LightningRL 的設計優勢顯著 。

      它避免了設計復雜且容易出錯的掩碼策略,因為數據被天然地分解為獨立的轉換單元,無需拼接 。

      同時,這種方式也緩解了因多輪對話累積上下文,導致輸入序列過長而超出模型限制或增加計算負擔的問題 。

      LightningRL 的數據組織方式還支持靈活的上下文構建,模型的輸入可以根據需要動態生成,例如包含歷史摘要或特定的角色指令 。

      總而言之,通過MDP建模、統一數據接口和LightningRL算法,Agent Lightning為在模塊化和動態化的智能體系統中進行有效的策略優化奠定了堅實的基礎 。

      03 跨場景應用的穩定提升


      該圖對比了單次調用 GRPO、多輪 GRPO 與 LightningRL,突出 LightningRL 通過將軌跡分解為轉換并分組估計優勢,實現更精細的優化。

      為了驗證框架的真實效能,研究團隊在三個具有代表性且實現方式各不相同的任務上進行了測試 。

      第一個任務是使用LangChain框架構建的文本到SQL智能體。


      Text-to-SQL 任務的獎勵曲線

      該智能體需要在復雜的Spider數據集上,根據自然語言問題生成可執行的SQL查詢并回答問題 。

      這個場景的特殊之處在于它是一個多智能體系統,由同一個LLM扮演SQL編寫、檢查和重寫三個不同角色 。

      實驗證明,Agent Lightning 不僅能夠驅動整個系統性能提升,還能選擇性地同時優化其中的兩個智能體(編寫和重寫),展示了其在多智能體協同優化中的靈活性 。

      第二個任務是利用OpenAI Agents SDK實現的檢索增強生成(RAG)智能體。

      這個智能體需要通過從包含2100萬份文檔的整個維基百科中檢索信息,來回答MuSiQue數據集中的多跳推理問題 。

      這項任務的挑戰在于查詢的開放性和巨大的信息檢索空間,非常考驗智能體制定有效檢索策略和進行文本推理的能力 。

      第三個任務則是通過AutoGen框架開發的數學問答智能體

      該智能體必須在Calc-X數據集上,學會如何以及何時調用計算器工具來解決數學問題 。


      Reward curves for the Calculator task

      這要求模型不僅要理解數學邏輯,還要能生成語法正確的工具調用指令,并將工具返回的結果正確地整合到最終的解題步驟中 。

      在所有這三個場景中,獎勵曲線圖都清晰地顯示,經過Agent Lightning 的訓練,模型的性能都獲得了穩定且持續的提升

      這些跨越不同框架、不同任務、不同復雜度的成功案例,有力地證明了

      Agent Lightning作為一個通用優化框架的強大潛力,能夠賦能AI智能體解決更加開放和動態的現實世界問題 。

      via https://github.com/microsoft/agent-lightning

      作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!

      GPU 訓練特惠!

      H100/H200 GPU算力按秒計費,平均節省開支30%以上!

      掃碼了解詳情?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      哪些事是外國人到中國后才知道的?網友:你來天朝!你就漲知識吧

      哪些事是外國人到中國后才知道的?網友:你來天朝!你就漲知識吧

      帶你感受人間冷暖
      2025-12-24 00:10:09
      日本加息的真實目的,傷敵一千自損八百,只為拉爆中國房地產

      日本加息的真實目的,傷敵一千自損八百,只為拉爆中國房地產

      小明嘩撲
      2025-12-26 00:34:06
      黑瞎子島零下30℃直播! 72歲董明珠把格力焊死在品質上

      黑瞎子島零下30℃直播! 72歲董明珠把格力焊死在品質上

      別人都叫我阿腈
      2025-12-26 10:44:08
      84歲名導翟俊杰病逝!他生前最驕傲的是:我的一雙兒女都沒有出國

      84歲名導翟俊杰病逝!他生前最驕傲的是:我的一雙兒女都沒有出國

      妙知
      2025-12-26 10:11:04
      喜提獎金+汽車!張本智和對著100名日本人發誓:世乒賽還要拿冠軍

      喜提獎金+汽車!張本智和對著100名日本人發誓:世乒賽還要拿冠軍

      風過鄉
      2025-12-26 21:38:03
      1951年10萬志愿軍差點被殲,危急關頭,一支奇兵從天而降救了他們

      1951年10萬志愿軍差點被殲,危急關頭,一支奇兵從天而降救了他們

      云霄紀史觀
      2025-12-26 18:29:56
      普京也沒想到,土耳其申請退貨,特朗普又贏了?也給中國提了個醒

      普京也沒想到,土耳其申請退貨,特朗普又贏了?也給中國提了個醒

      非凡觀點
      2025-12-26 09:59:29
      主持人劉芳菲登門向龐叔令道歉!家中裝修引熱議!藏品足有一柜子

      主持人劉芳菲登門向龐叔令道歉!家中裝修引熱議!藏品足有一柜子

      小娛樂悠悠
      2025-12-27 08:35:19
      退休后才懂的8個硬道理:幸福從不是憑空掉下來的

      退休后才懂的8個硬道理:幸福從不是憑空掉下來的

      娛樂洞察點點
      2025-12-27 08:32:03
      貴金屬“瘋狂”,現貨白銀漲超10%,紐約鈀金漲14.1%,現貨黃金漲超1%!上期所連發兩條通知

      貴金屬“瘋狂”,現貨白銀漲超10%,紐約鈀金漲14.1%,現貨黃金漲超1%!上期所連發兩條通知

      每日經濟新聞
      2025-12-27 07:25:05
      蔣介石在日記里坦言:重慶談判放走毛澤東,全是因為這兩點!

      蔣介石在日記里坦言:重慶談判放走毛澤東,全是因為這兩點!

      鶴羽說個事
      2025-10-25 11:44:53
      2025年,消失的公司年會。

      2025年,消失的公司年會。

      愛吃糖的貓cat
      2025-12-24 19:01:36
      中國首例五胞胎終于長大了,父親因勞累去世,母親直言后悔生下他們

      中國首例五胞胎終于長大了,父親因勞累去世,母親直言后悔生下他們

      等風來育兒聯盟
      2025-08-01 12:21:35
      前TVB花旦被前未婚夫溫暖舉動感動,坦誠有被愛感覺:我覺得很甜蜜

      前TVB花旦被前未婚夫溫暖舉動感動,坦誠有被愛感覺:我覺得很甜蜜

      TVB劇評社
      2025-12-26 18:03:06
      醫學生真得很硬核,竟然有人因業務不精扎醒植物人!

      醫學生真得很硬核,竟然有人因業務不精扎醒植物人!

      另子維愛讀史
      2025-12-26 23:32:52
      最新 | 雷軍突發!全網禁評!

      最新 | 雷軍突發!全網禁評!

      天津廣播
      2025-12-25 22:55:42
      暴跌40.7%!佛山公寓跌麻了……

      暴跌40.7%!佛山公寓跌麻了……

      樓市滅霸
      2025-12-26 15:12:50
      國家能源集團原董事長劉國躍!被撤銷全國政協委員資格

      國家能源集團原董事長劉國躍!被撤銷全國政協委員資格

      光伏能源圈
      2025-12-26 21:21:51
      于適,你不演古偶是給內娛留活路

      于適,你不演古偶是給內娛留活路

      溫柔娛公子
      2025-12-26 18:45:03
      格雷利什失去寵愛!莫耶斯態度轉變,埃弗頓不愿為其花費5000萬鎊

      格雷利什失去寵愛!莫耶斯態度轉變,埃弗頓不愿為其花費5000萬鎊

      夜白侃球
      2025-12-26 21:29:13
      2025-12-27 11:23:00
      大數據文摘 incentive-icons
      大數據文摘
      專注大數據,每日有分享!
      6811文章數 94522關注度
      往期回顧 全部

      科技要聞

      小米也漲價了!業界稱終端再不漲明年必虧

      頭條要聞

      女子洗澡浴室玻璃突然自爆致受傷 開發商:已超質保期

      頭條要聞

      女子洗澡浴室玻璃突然自爆致受傷 開發商:已超質保期

      體育要聞

      NBA教練圈的布朗尼,花了22年證明自己

      娛樂要聞

      王傳君生病后近照變化大,面部浮腫

      財經要聞

      注意,開始拉物價了!

      汽車要聞

      保時捷經銷商連夜閉店,維權車主寒風中瑟瑟發抖

      態度原創

      旅游
      本地
      房產
      數碼
      公開課

      旅游要聞

      旅日大熊貓回國后,日本動物園“神操作”:由人扮演大熊貓供游客體驗互動

      本地新聞

      云游安徽|踏訪池州,讀懂山水間的萬年史書

      房產要聞

      炸裂,三亞360億超級清單發布,又一批重大配套要來了!

      數碼要聞

      網友反饋RTX 5090顯卡圣誕夜起火,接口燒至“面目全非”

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中文字幕av一区二区三区人妻少妇| 国内精品久久久久影视| 欧美精品网| 国产人妻无套一区二区普通话对白| 中文字幕乱码无码人妻系列蜜桃 | 国产激情综合五月久久| 南昌县| 97久久精品亚洲中文字幕无码| 精精国产xxxx视频在线播放| 四虎永久在线精品无码视频| 久久综合国产| 性饥渴人妻| 老男人久久青草av高清| 亚洲欧美日韩久久一区二区 | 性色欲情网站| 蜜臀av性久久久久蜜臀aⅴ麻豆| 四房播色综合久久婷婷| 91.www| 日本丰满少妇裸体自慰| 性荡视频播放在线视频| 亚洲成人av| AV口爆| 成人性能视频在线| 亚洲国产欧美在线人成大黄瓜| 精品a片| 亚洲伊人影院| 无码爆乳护士让我爽| 国产色无码专区在线观看| 白沙| 日本肥老妇色xxxxx日本老妇 | 97精品尹人久久大香线蕉| 国产传媒一区| 丁香五月亚洲综合在线| 夜夜高潮夜夜爽夜夜爱爱| 影音先锋91| 色婷婷无码视频| 男女做aj视频免费的网站| 91精品国产免费人成网站| 岛国AV网站| 老妇肥熟凸凹丰满刺激| 放荡的少妇2欧美版|