<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<mark id="nrvv4"></mark>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

微軟推Agent Lightning：AI 智能體訓練與執行徹底解耦，零改代碼即用！

2025-08-15 19:11:03　來源: 大數據文摘

北京舉報

0

分享至

大數據文摘出品

近日，微軟研究院的一個團隊發布了一個名為Agent Lightning的框架，它使任何人工智能（AI）智能體都能通過強化學習進行訓練。

這個框架的核心突破在于，它實現了智能體執行與強化學習（RL）訓練過程的完全解耦。

這一設計允許開發者將該框架無縫集成到他們現有的智能體中，并且幾乎不需要修改任何代碼。

這意味著，無論智能體是使用LangChain、AutoGen等流行框架構建，還是從頭開始編寫，都能應用此訓練方法。

01 訓練與執行的徹底解耦

Overview of Agent Lightning

當前訓練AI智能體的方法，通常將訓練系統與智能體的內部邏輯緊密耦合在一起。

這種緊密耦合的方式，要求開發者必須在訓練系統內部重建或大幅改造他們的智能體，過程費時費力且容易出錯。

為了打破這一瓶頸，Agent Lightning 提出了一種創新的“訓練-智能體解聚合” (TA Disaggregation) 架構。

圖注：Training-Agent Disaggregation architecture

這個架構將系統清晰地劃分為兩個核心組件：Lightning 服務器和Lightning客戶端。

Lightning 服務器作為強化學習訓練系統的控制器，負責管理整個訓練流程和模型參數的更新。

Lightning 客戶端則作為智能體的運行時環境，獨立負責運行智能體的具體應用邏輯和數據收集。

服務器通過一個類似OpenAI的API接口，向客戶端提供更新后的模型訪問權限。

客戶端的智能體在執行任務時調用此API，就像使用任何標準的LLM服務一樣，完全無需感知背后復雜的訓練過程。

這種分離設計使得訓練框架變得“智能體無關”，它只專注于優化模型和管理硬件資源，不關心智能體的具體實現。

同時，智能體也變得“訓練器無關”，開發者可以聚焦于智能體的業務邏輯，而不受限于訓練基礎設施的束縛。

為了實現無代碼修改的數據捕獲，客戶端巧妙地運用了如OpenTelemetry等可觀測性框架，自動檢測和記錄執行軌跡。

這種架構還天然支持數據并行，客戶端可以同時在單個或多個節點上運行大量智能體實例，極大地提升了數據吞吐量和訓練效率。

此外，客戶端運行時還內置了全面的錯誤處理機制，確保單個智能體的崩潰不會中斷整個長時間的訓練流程。

它還提供了一種“自動中間獎勵”（AIR）機制，能夠基于系統監控信號為智能體的中間步驟分配獎勵，有效緩解了稀疏獎勵問題。

通過這種方式，Agent Lightning 成功地將計算密集的模型訓練與邏輯靈活多樣的智能體應用分離開來，為大規模訓練真實世界的AI智能體鋪平了道路。

02 統一數據接口與分層強化學習

該圖展示了 Agent Lightning 如何通過統一數據接口在執行過程中系統化地記錄狀態變化與軌跡，用于強化學習優化。

Agent Lightning的理論基石，是將復雜的智能體執行過程抽象為一個馬爾可夫決策過程（MDP）。

在這個模型中，智能體執行的某個瞬間快照被定義為“狀態”，它包含了描述執行狀況所需的一組變量。

策略大語言模型（LLM）生成的輸出則被視為“動作”，這個動作會驅動智能體轉換到下一個狀態。

智能體完成任務后獲得的結果，被量化為“獎勵”信號，用于評估動作的質量。

基于MDP的建模，Agent Lightning 提出了一個統一的數據接口，該接口能適用于從任何AI智能體收集的數據。

這個接口將智能體的執行軌跡，無論其內部邏輯多么復雜，都統一表示為一系列（狀態，動作，獎勵）的轉換序列。

這種設計巧妙地忽略了智能體內部繁瑣多變的具體實現邏輯，只關注策略LLM的輸入和輸出，從而極大簡化了數據建模。

為了利用這些收集到的數據來優化LLM，研究團隊進一步設計了一種名為 LightningRL 的分層強化學習算法。

LightningRL 的核心在于一個信用分配模塊，它首先將整個任務最終獲得的總獎勵，分配給過程中的每一次LLM調用（即每一個動作）。

然后，這些分配到單次動作的獎勵，會被用于指導現有的單輪次強化學習算法（如GRPO、PPO等）來更新模型參數。

這種分層優化的方法，完美兼容了現有的高效RL算法，使其可以直接應用于更復雜的多輪交互場景中。

與以往將多輪交互拼接成一個長序列并使用掩碼（masking）進行訓練的方法相比，LightningRL 的設計優勢顯著。

它避免了設計復雜且容易出錯的掩碼策略，因為數據被天然地分解為獨立的轉換單元，無需拼接。

同時，這種方式也緩解了因多輪對話累積上下文，導致輸入序列過長而超出模型限制或增加計算負擔的問題。

LightningRL 的數據組織方式還支持靈活的上下文構建，模型的輸入可以根據需要動態生成，例如包含歷史摘要或特定的角色指令。

總而言之，通過MDP建模、統一數據接口和LightningRL算法，Agent Lightning為在模塊化和動態化的智能體系統中進行有效的策略優化奠定了堅實的基礎。

03 跨場景應用的穩定提升

該圖對比了單次調用 GRPO、多輪 GRPO 與 LightningRL，突出 LightningRL 通過將軌跡分解為轉換并分組估計優勢，實現更精細的優化。

為了驗證框架的真實效能，研究團隊在三個具有代表性且實現方式各不相同的任務上進行了測試。

第一個任務是使用LangChain框架構建的文本到SQL智能體。

Text-to-SQL 任務的獎勵曲線

該智能體需要在復雜的Spider數據集上，根據自然語言問題生成可執行的SQL查詢并回答問題。

這個場景的特殊之處在于它是一個多智能體系統，由同一個LLM扮演SQL編寫、檢查和重寫三個不同角色。

實驗證明，Agent Lightning 不僅能夠驅動整個系統性能提升，還能選擇性地同時優化其中的兩個智能體（編寫和重寫），展示了其在多智能體協同優化中的靈活性。

第二個任務是利用OpenAI Agents SDK實現的檢索增強生成（RAG）智能體。

這個智能體需要通過從包含2100萬份文檔的整個維基百科中檢索信息，來回答MuSiQue數據集中的多跳推理問題。

這項任務的挑戰在于查詢的開放性和巨大的信息檢索空間，非常考驗智能體制定有效檢索策略和進行文本推理的能力。

第三個任務則是通過AutoGen框架開發的數學問答智能體。

該智能體必須在Calc-X數據集上，學會如何以及何時調用計算器工具來解決數學問題。

Reward curves for the Calculator task

這要求模型不僅要理解數學邏輯，還要能生成語法正確的工具調用指令，并將工具返回的結果正確地整合到最終的解題步驟中。

在所有這三個場景中，獎勵曲線圖都清晰地顯示，經過Agent Lightning 的訓練，模型的性能都獲得了穩定且持續的提升。

這些跨越不同框架、不同任務、不同復雜度的成功案例，有力地證明了

Agent Lightning作為一個通用優化框架的強大潛力，能夠賦能AI智能體解決更加開放和動態的現實世界問題。

via https://github.com/microsoft/agent-lightning

作者長期關注 AI 產業與學術，歡迎對這些方向感興趣的朋友添加微信Q1yezi，共同交流行業動態與技術趨勢！

GPU 訓練特惠！

H100/H200 GPU算力按秒計費，平均節省開支30%以上！

掃碼了解詳情?

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

黑老大2名表超5千萬成交深圳原政法委書記是其保護傘

每日經濟新聞 2025-12-26 20:34:51
2263 跟貼 2263
澤連斯基提出"和平計劃" 俄方最新回應：戰場上見

魯中晨報 2025-12-26 13:05:09
23129 跟貼 23129

首富馬斯克最新身家7519億美元超第二近5000億美元

魯中晨報 2025-12-26 17:05:03
2286 跟貼 2286

住院5天點了48頓VIP餐，男子續保被拒，一家三口想換其他保險公司也被風控；保險公司回應：該產品不保證續保

揚子晚報 2025-12-26 12:36:59
0 跟貼 0
拜登平安夜發了一張"奇怪的全家福" 還被"好大兒"背刺

澎湃新聞 2025-12-26 22:59:31
298 跟貼 298

天塹變通途！極氪001車隊首批穿越天山勝利隧道，南北疆從此邁入“一日往返”時代

魯中晨報 2025-12-26 19:16:51
14322 跟貼 14322

2026年全國兩會召開時間來了

央視新聞客戶端 2025-12-27 09:14:00
16 跟貼 16
國家衛健委：希望黨政機關、企事業單位、社會組織每年都能組織員工參與團體無償獻血

紅星新聞 2025-12-26 17:42:26
1 跟貼 1

曝開拓者對交易羅威持開放態度球隊中鋒輪換已有克林根與楊瀚森

北青網-北京青年報 2025-12-27 07:35:04
35 跟貼 35
美媒自問自答稱特朗普的"黃金艦隊"難匹敵中國海軍

澎湃新聞 2025-12-27 08:15:39
66 跟貼 66
近期爆火，有人時薪達150元！網友：我可以

第一財經資訊 2025-12-26 11:15:16
101 跟貼 101
陜西咸陽灣里村“水上雅丹”火爆出圈，游客直呼人多車堵，村干部：連夜擴寬道路，新建臨時停車場可容納2000輛

極目新聞 2025-12-25 13:23:52
275 跟貼 275
價值50萬元！陜西360克“無主黃金”，至今仍沒找到主人

封面新聞 2025-12-26 15:09:05
749 跟貼 749
男子徒手打開滅火毯，雙手刺痛扎滿玻璃纖維

學申論的談妹 2025-12-27 04:40:56
152 跟貼 152
神舟出差返回后 "太空鼠"當媽媽啦

央視新聞客戶端 2025-12-27 08:08:30
45 跟貼 45
今晚，湘超總決賽！“常德粉”碰撞“永州藍”，超111萬人“想看”

三湘都市報 2025-12-27 09:33:06
1 跟貼 1
iPhone又行了？蘋果手機11月中國銷售同比翻番

第一財經資訊 2025-12-26 16:24:14
176 跟貼 176
價格飆升，多地零售價突破10元/斤！年初一斤僅一兩元，網友：雞蛋都快配不上它了

每日經濟新聞 2025-12-26 10:01:26
1 跟貼 1
女子將手機放枕邊充電熟睡時充電器爆燃全身70%燒傷

閃電新聞 2025-12-27 10:56:40
0 跟貼 0
霸王茶姬因“咖啡因”相關話題引發討論，不少網友表示喝完之后會睡不著

觀威海 2025-12-27 10:54:03
0 跟貼 0
貨車撞上廣告牌司機被困駕駛室消防火速救援化險為夷

半島晨報 2025-12-27 10:56:05
0 跟貼 0
NBA最新MVP榜出爐：約基奇蟬聯榜首，東契奇穩居前三

魯中晨報 2025-12-27 09:57:06
0 跟貼 0
村民稱家中120只羊被毒死！投毒者竟是父親好友案發后還假裝來安慰

閃電新聞 2025-12-27 10:56:53
0 跟貼 0

哪些事是外國人到中國后才知道的？網友：你來天朝！你就漲知識吧

哪些事是外國人到中國后才知道的？網友：你來天朝！你就漲知識吧

帶你感受人間冷暖

2025-12-24 00:10:09

日本加息的真實目的，傷敵一千自損八百，只為拉爆中國房地產

日本加息的真實目的，傷敵一千自損八百，只為拉爆中國房地產

小明嘩撲

2025-12-26 00:34:06

黑瞎子島零下30℃直播！ 72歲董明珠把格力焊死在品質上

黑瞎子島零下30℃直播！ 72歲董明珠把格力焊死在品質上

別人都叫我阿腈

2025-12-26 10:44:08

84歲名導翟俊杰病逝！他生前最驕傲的是：我的一雙兒女都沒有出國

84歲名導翟俊杰病逝！他生前最驕傲的是：我的一雙兒女都沒有出國

妙知

2025-12-26 10:11:04

喜提獎金+汽車！張本智和對著100名日本人發誓：世乒賽還要拿冠軍

喜提獎金+汽車！張本智和對著100名日本人發誓：世乒賽還要拿冠軍

風過鄉

2025-12-26 21:38:03

1951年10萬志愿軍差點被殲，危急關頭，一支奇兵從天而降救了他們

1951年10萬志愿軍差點被殲，危急關頭，一支奇兵從天而降救了他們

云霄紀史觀

2025-12-26 18:29:56

普京也沒想到，土耳其申請退貨，特朗普又贏了？也給中國提了個醒

普京也沒想到，土耳其申請退貨，特朗普又贏了？也給中國提了個醒

非凡觀點

2025-12-26 09:59:29

主持人劉芳菲登門向龐叔令道歉！家中裝修引熱議！藏品足有一柜子

主持人劉芳菲登門向龐叔令道歉！家中裝修引熱議！藏品足有一柜子

小娛樂悠悠

2025-12-27 08:35:19

退休后才懂的8個硬道理：幸福從不是憑空掉下來的

退休后才懂的8個硬道理：幸福從不是憑空掉下來的

娛樂洞察點點

2025-12-27 08:32:03

貴金屬“瘋狂”，現貨白銀漲超10%，紐約鈀金漲14.1%，現貨黃金漲超1%！上期所連發兩條通知

貴金屬“瘋狂”，現貨白銀漲超10%，紐約鈀金漲14.1%，現貨黃金漲超1%！上期所連發兩條通知

每日經濟新聞

2025-12-27 07:25:05

蔣介石在日記里坦言：重慶談判放走毛澤東，全是因為這兩點！

蔣介石在日記里坦言：重慶談判放走毛澤東，全是因為這兩點！

鶴羽說個事

2025-10-25 11:44:53

2025年，消失的公司年會。

愛吃糖的貓cat

2025-12-24 19:01:36

中國首例五胞胎終于長大了,父親因勞累去世,母親直言后悔生下他們

中國首例五胞胎終于長大了,父親因勞累去世,母親直言后悔生下他們

等風來育兒聯盟

2025-08-01 12:21:35

前TVB花旦被前未婚夫溫暖舉動感動，坦誠有被愛感覺：我覺得很甜蜜

前TVB花旦被前未婚夫溫暖舉動感動，坦誠有被愛感覺：我覺得很甜蜜

TVB劇評社

2025-12-26 18:03:06

醫學生真得很硬核，竟然有人因業務不精扎醒植物人！

醫學生真得很硬核，竟然有人因業務不精扎醒植物人！

另子維愛讀史

2025-12-26 23:32:52

最新 | 雷軍突發！全網禁評！

最新 | 雷軍突發！全網禁評！

天津廣播

2025-12-25 22:55:42

暴跌40.7％！佛山公寓跌麻了……

暴跌40.7％！佛山公寓跌麻了……

樓市滅霸

2025-12-26 15:12:50

國家能源集團原董事長劉國躍！被撤銷全國政協委員資格

國家能源集團原董事長劉國躍！被撤銷全國政協委員資格

光伏能源圈

2025-12-26 21:21:51

于適，你不演古偶是給內娛留活路

于適，你不演古偶是給內娛留活路

溫柔娛公子

2025-12-26 18:45:03

格雷利什失去寵愛！莫耶斯態度轉變，埃弗頓不愿為其花費5000萬鎊

格雷利什失去寵愛！莫耶斯態度轉變，埃弗頓不愿為其花費5000萬鎊

夜白侃球

2025-12-26 21:29:13

大數據文摘

專注大數據，每日有分享！

6811文章數 94522關注度

往期回顧全部

科技要聞

小米也漲價了！業界稱終端再不漲明年必虧

頭條要聞

女子洗澡浴室玻璃突然自爆致受傷開發商：已超質保期

頭條要聞

女子洗澡浴室玻璃突然自爆致受傷開發商：已超質保期

體育要聞

NBA教練圈的布朗尼，花了22年證明自己

娛樂要聞

王傳君生病后近照變化大，面部浮腫

財經要聞

注意，開始拉物價了！

汽車要聞

保時捷經銷商連夜閉店，維權車主寒風中瑟瑟發抖

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

本地

房產

數碼

公開課

旅游要聞

旅日大熊貓回國后，日本動物園“神操作”：由人扮演大熊貓供游客體驗互動

本地新聞

云游安徽｜踏訪池州，讀懂山水間的萬年史書

房產要聞

炸裂，三亞360億超級清單發布，又一批重大配套要來了！

數碼要聞

網友反饋RTX 5090顯卡圣誕夜起火，接口燒至“面目全非”

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
明末究竟有多難，無法阻止的歷史進程
李彥宏：百度離破產30天

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：中文字幕av一区二区三区人妻少妇| 国内精品久久久久影视| 欧美精品网| 国产人妻无套一区二区普通话对白| 中文字幕乱码无码人妻系列蜜桃 | 国产激情综合五月久久| 南昌县| 97久久精品亚洲中文字幕无码| 精精国产xxxx视频在线播放| 四虎永久在线精品无码视频| 久久综合国产| 性饥渴人妻| 老男人久久青草av高清| 亚洲欧美日韩久久一区二区 | 性色欲情网站| 蜜臀av性久久久久蜜臀aⅴ麻豆| 四房播色综合久久婷婷| 91.www| 日本丰满少妇裸体自慰| 性荡视频播放在线视频| 亚洲成人av| AV口爆| 成人性能视频在线| 亚洲国产欧美在线人成大黄瓜| 精品a片| 亚洲伊人影院| 无码爆乳护士让我爽| 国产色无码专区在线观看| 白沙| 日本肥老妇色xxxxx日本老妇 | 97精品尹人久久大香线蕉| 国产传媒一区| 丁香五月亚洲综合在线| 夜夜高潮夜夜爽夜夜爱爱| 影音先锋91| 色婷婷无码视频| 男女做aj视频免费的网站| 91精品国产免费人成网站| 岛国AV网站| 老妇肥熟凸凹丰满刺激| 放荡的少妇2欧美版|

<pre id="zjiel"></pre>