<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AReaL:?推理大模型的訓練解耦,可中斷的數據生成和配套的解耦PPO目標函數

      0
      分享至

      距離ChatGPT發布已經過去兩年多了,現在的主流大模型已經很不同了,最大的區別就是推理Reasoning能力的發掘和應用。

      什么是推理?舉一個很簡單的例子。比如有一道很簡單的數學題,27+62=?,傳統大模型(LLM,Large Language Model)碰到這種題會調用自己的記憶和檢索能力,從海量的數據庫里找到27+62 = 89 或者62+27 = 89這種結果,然后輸出正確答案。

      而推理大模型(LRM,Large Reasoning Model)處理這種問題的思路不一樣,它是真正的在模仿人類的思考方式,首先個位數相加 7+ 2 = 9,不需要進位,然后十位數相加 2+ 6 = 8,最后組合成89這個正確答案。

      你看出區別沒,LRM學到的是真正的通用知識,而LLM更多的是靠腦子硬記,而一旦碰到沒背過的題,很容易就捉瞎了。


      但實際上對于大多數的問題,從結果出發這兩種大模型可能并沒有太多的不同。但是一旦涉及到稍微復雜點的問題,比如高等數學、復雜推理等,那LLM幾乎無從下手。

      其實大家對于LRM應該不陌生,因為幾乎人人都用過LRM,大名鼎鼎的DeepSeek-R1就是典型的LRM,它就是靠火速追趕上OpenAI發布的一個推理模型而聞名于世的。而從LLM->LRM,最重要的一個步驟就叫強化學習RL(Reinforcement Learning),你來看DeepSeek-R1的論文標題,直接就點明了,LLM的推理能力就是靠RL激活的


      RL是一個好東西,它的訓練邏輯很簡單:先把一堆題目(prompts)一次性“跑完一遍”得到所有的思考鏈和答案,然后把這些完整的數據一次性拿去更新模型。等模型更新好了,再用新模型去下一批題目,重復同樣的流程。

      原理很簡單,但是它麻煩就麻煩在需要大規模訓練的時候,每一批的思考鏈和答案的長度可能相差很大,也就是說,有的回答早就生成好了,但有些距離結束還早,這樣結束了的都在等還在生成的。

      這就正好對應了現在LRM的主流訓練方式,它叫同步(Synchronous)訓練,與之相對的是異步(Asynchronous),同樣的四個工作,同步需要的時間=所有工作的總和,而異步方式就要快很多。

      這就是現在LRM訓練時候的尷尬之處,特別是模型越來越大之后,訓練時間也到了嚴重拖慢進度的程度,更重要的,同步訓練方式會造成大量的資源在等,在AI大模型發展階段,這種行為無異于是浪費最寶貴的算力資源。

      那么總結一下:同步訓練會主要帶來了三個問題:

      • (1)GPU 利用率低

      • (2)訓練周期長

      • (3)難以擴展到更復雜的任務和更長的思考過程

      而清華和螞蟻近期開源的AReaL-boba2就是一項前瞻性的全異步強化學習工作,他們的論文《AREAL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning》,簡稱AReaL(這里其實指的是AReaLv0.3版,研究小組給它命名為AReaL-boba2,以下同)恰恰就是為了解決LRM同步訓練的幾個痛點的,它的解決方案就是利用異步訓練方式,最終實現大規模異步強化學習系統。

      開源地址:

      https://github.com/inclusionAI/AReaL

      論文:

      https://arxiv.org/pdf/2505.24298

      模型:

      https://huggingface.co/collections/inclusionAI/areal-boba-2-683f0e819ccb7bb2e1b2f2d5

      論文中圖一??里面提到了,現有的兩種訓練方式本質上都是同步模式,可以看到每一塊的處理都得等最長的(用時最長)的那個生成任務(藍色條)。


      而實際上第二和第六個任務早就完成了,同步的思路會讓GPU只能處于等待狀態,而改良后的one-step overlap方式其實也差不太多,都得等最長的任務結束。


      而AReaL-boba2最大的貢獻就是把GPU等算力資源用到了極限了,達到了下面的這種效果,幾乎所有算力資源都被用的滿滿當當,這就是LRM訓練的理想狀態。


      而實現AReaL-boba2如此高效的主要原因有兩個:

      • 架構創新

      • 算法創新

      架構創新的主要點就在于下面這個圖,它實現了一個關鍵功能,AReaL-boba2徹底解耦了數據生成與模型訓練過程。這意味著生成工作節點(rollout workers)可以持續不斷地產生新的推理序列,而無需等待其他節點或模型更新;同時,訓練工作節點(trainer workers)一旦收集到足夠的數據批次,即可進行模型參數更新。


      原來的訓練是需要等同一批次的數據生成,然后一次性全部送入下一次訓練,這種固定模式的改變主要歸功于AReaL-boba2提出的Interruptible Rollout Worker,其中interruptible是關鍵,它的意思是可中斷,簡單來說:可中斷生成就是當模型還在“邊想邊寫”某個回答時,如果訓練那邊出了新版本,就會立刻讓它停下來,換上新版本后繼續接著寫。

      這種方式可以把長流程拆成幾段,讓生成和訓練同時進行,彼此不必等對方都結束才開始。


      這就是「異步」實現的架構基礎,這就是徹底的異步,你生成你的,我訓練我的,兩者互不干涉,并且都能以全速開動。

      在論文提供的Github官方代碼庫中的,realhf/system/rollout_worker.py中可以看到這部分的實現邏輯,當模型需要更新權重的時候,rollout會用新的權重來生成數據。


      你也能從partial_rollout文件中看到部分rollout的實現邏輯。


      同時還有配套的Trainer Worker、Rollout Controller 和 Reward Service與可中斷Rollout Worker形成了一個非常靈活的架構,大家通過一個共享的池子來實現信息共享和互換。

      你可以看到這種靈活架構的優勢,算力資源的利用率達到了最大,同時在處理很長的生成回答(長序列)文本也有巨大的優勢。

      當然了這種異步思想并不是第一次出現,在游戲 AI 領域有一些經典異步工作,如 A3C, IMPALA, SEED RL等,他們也有類似的數據生成和模型訓練“隔離”的操作,但是區別也很大,因為大型語言模型推理面臨著兩個獨特的挑戰:

      • 極長的序列長度: LLM 推理(思維鏈)可以產生非常長的 token 序列,這與游戲中通常較短的動作序列不同。

      • 巨大的模型參數: LLM 的參數量遠大于傳統 RL 任務中的模型。

      前兩個挑戰相信大家也都有所了解,那就是現在的LRM動不動就需要消耗1,2萬的token,因為LRM在推理的時候需要花費大量的資源進行思考,特別是在Agent AI的時代,有一些任務單步操作就需要用幾十萬-上百萬的token進行閱讀和思考。另外一個就是模型大小非常大,訓練的時候需要循序漸進,步子太大容易扯著,這樣很容易把大模型搞崩。

      AReaL-boba2在架構層次上的創新也帶來了算法層面的挑戰,有兩個主要的問題:數據陳舊性和解耦PPO算法。


      第一個問題很好理解,以前的同步訓練,生成一批,訓練一批,所有的生成數據都是最新的,AReaL-boba2的異步不同,有些數據是新的,有些數據還是以前的老模型生成的,這就造成了一個問題,那就是如何處理這些老數據。

      實際上,模型每一次的更新幅度并不大,特別是對于LRM來說,動不動訓練幾天,甚至幾個月,每一次的更新幅度帶來的生成數據差別并不大,舊的生成數據價值并不低。AReaL-boba2引入了最大允許陳舊度參數 η。這意味著,如果當前模型版本為 i,則訓練時僅使用由版本i-η 至i-1 的策略生成的數據。系統會優先消耗經驗池中相對較舊但仍在η 范圍內的軌跡,以此確保訓練數據的整體新鮮度在一個可控的滯后范圍內,避免因數據過度陳舊導致學習性能下降,同時最大化異步生成帶來的數據吞吐量。


      第二個問題也是由于異步帶來的,那就是模型會中途更新,所以一個模型的更新可能會受到很多批數據的影響,那到底是新的數據帶來的影響大還是舊的數據,傳統的PPO算法需要這個信息,而AReaL-boba2的創新是承認這條數據是“集體智慧”的產物,它的好壞(優勢)還是看實際效果。在進行PPO學習時,不直接比較當前策略與那條可能由多個舊策略混合生成的復雜數據,而是將當前策略與一個固定的、較新的舊策略版本進行比較和調整,以此來穩定學習過程。


      同樣做了算法消融實驗,標準 PPO 對數據陳舊性非常敏感,即使是很小的陳舊度也會導致性能大幅下降 (下a圖),AReaL 提出的解耦 PPO 目標函數能夠在允許一定程度數據陳舊性(η ≤ 4 甚至 η=8)的情況下,依然保持甚至提升最終的模型性能 (下b圖)。


      可以看到AReal做的算法創新并不是孤立的,而是與異步系統架構是相輔相成的,因為引入了新的結構必定會擾動原有的穩定性,AReal修正了這些變化。

      這也是是AReaL-boba2這個工作的核心價值,它在效率和性能上的突破很明顯,模型大小不變,在AReaL-boba2訓練后,性能得到了明顯的提升,同時訓練時間只有其他方法的一半左右。


      可以說,這個工作在LRM大行其道,并且越來越被Agent AI需要的時代,它未來的工作方向如同論文中所說,會集中在動態資源調配、多輪交互、智能體等)。特別是它對于降低頂尖LRM研發門檻有非常重要的作用,最終實現加速AGI實現的終極愿景。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      傳國產手機品牌大裁員!全面裁撤中國區業務!

      傳國產手機品牌大裁員!全面裁撤中國區業務!

      EETOP半導體社區
      2025-12-27 09:01:13
      韓旭已任湖北荊州市委常委、市政府副市長、黨組副書記

      韓旭已任湖北荊州市委常委、市政府副市長、黨組副書記

      澎湃新聞
      2025-12-27 16:52:26
      為什么我們不再熱衷過圣誕節了?

      為什么我們不再熱衷過圣誕節了?

      小卿情感說
      2025-12-24 21:16:17
      美國提醒日本,小心被中國揍,日本天皇急召高市早苗,有要事交代

      美國提醒日本,小心被中國揍,日本天皇急召高市早苗,有要事交代

      博覽歷史
      2025-12-26 19:17:17
      王麗坤與他同居8年,把最好的青春都給了他,他卻轉身與別人結婚

      王麗坤與他同居8年,把最好的青春都給了他,他卻轉身與別人結婚

      豐譚筆錄
      2025-12-26 11:33:54
      CBA第6輪最佳陣容:徐杰林庭謙全能領銜 賀希寧連續兩輪入選

      CBA第6輪最佳陣容:徐杰林庭謙全能領銜 賀希寧連續兩輪入選

      醉臥浮生
      2025-12-27 12:10:30
      突發!差3天合同到期被裁,三進三出啊,25歲榜眼真要廢,太難了

      突發!差3天合同到期被裁,三進三出啊,25歲榜眼真要廢,太難了

      球童無忌
      2025-12-27 20:29:00
      京東的年終獎,別光看表面

      京東的年終獎,別光看表面

      螞蟻大喇叭
      2025-12-27 16:52:46
      扣我油輪?6天后,終于等來中國出手反殺美國了!

      扣我油輪?6天后,終于等來中國出手反殺美國了!

      書中自有顏如玉
      2025-12-27 11:06:55
      官方:步行者裁掉懷斯曼、馬修斯,簽下邁卡-波特

      官方:步行者裁掉懷斯曼、馬修斯,簽下邁卡-波特

      懂球帝
      2025-12-27 08:41:08
      太夸張了!iPhone 17 單月銷量超 600 萬臺,創歷史新紀錄

      太夸張了!iPhone 17 單月銷量超 600 萬臺,創歷史新紀錄

      XCiOS俱樂部
      2025-12-26 19:34:41
      東大集裝箱船上居然直接裝垂發,集裝箱船直接變高超彈發射平臺!

      東大集裝箱船上居然直接裝垂發,集裝箱船直接變高超彈發射平臺!

      阿龍聊軍事
      2025-12-26 10:33:38
      女排賽場連爆冷門,最強牛馬出爐,一人狂轟37分,遼寧恐遭降級

      女排賽場連爆冷門,最強牛馬出爐,一人狂轟37分,遼寧恐遭降級

      小犙拍客在北漂
      2025-12-27 19:53:11
      雷霆快船醞釀4換2交易,追祖巴茨對抗文班+約基奇,快船也不虧

      雷霆快船醞釀4換2交易,追祖巴茨對抗文班+約基奇,快船也不虧

      毒舌NBA
      2025-12-27 10:20:28
      醫生提醒:若長期一天只吃兩頓飯,用不了半年,或患上這4種疾病

      醫生提醒:若長期一天只吃兩頓飯,用不了半年,或患上這4種疾病

      瑛派兒老黃
      2025-12-24 08:05:26
      要斷?字母哥即將復出,再缺席1場將無緣評獎,此前連續7年一陣

      要斷?字母哥即將復出,再缺席1場將無緣評獎,此前連續7年一陣

      球童無忌
      2025-12-27 21:04:20
      身在美國卻說和祖國不能分割,姜昆的圣誕離岸愛國秀,諷刺感拉滿

      身在美國卻說和祖國不能分割,姜昆的圣誕離岸愛國秀,諷刺感拉滿

      歷史總在押韻
      2025-12-25 22:58:56
      香港偶遇蔡少芬和剪秋逛街,兩人挽手同行關系超好,打扮都接地氣

      香港偶遇蔡少芬和剪秋逛街,兩人挽手同行關系超好,打扮都接地氣

      東方不敗然多多
      2025-12-26 12:46:26
      畸形兒風波反轉!醫院回應透露2個關鍵信息 闞清子的沉默早有預兆

      畸形兒風波反轉!醫院回應透露2個關鍵信息 闞清子的沉默早有預兆

      阿雹娛樂
      2025-12-27 11:43:05
      阿莫林暗示曼聯新核心!19歲新星成非賣品,堅稱他的位置沒人能搶

      阿莫林暗示曼聯新核心!19歲新星成非賣品,堅稱他的位置沒人能搶

      夜白侃球
      2025-12-27 20:24:50
      2025-12-27 22:12:49
      平凡AI incentive-icons
      平凡AI
      高校AI從業者
      54文章數 23關注度
      往期回顧 全部

      科技要聞

      小米也漲價了!業界稱終端再不漲明年必虧

      頭條要聞

      美媒:特朗普顯然觸及了中國的紅線 中方怒了

      頭條要聞

      美媒:特朗普顯然觸及了中國的紅線 中方怒了

      體育要聞

      NBA教練圈的布朗尼,花了22年證明自己

      娛樂要聞

      張昊唯逃稅涉黃風波落幕:法院認定朋友造謠

      財經要聞

      注意,開始拉物價了!

      汽車要聞

      好音響比大屏更重要?車企開始“聽”用戶的

      態度原創

      健康
      游戲
      教育
      時尚
      家居

      這些新療法,讓化療不再那么痛苦

      PS5玩家注意!這個設置將改善成千上萬款游戲的體驗

      教育要聞

      30號展播!廣州市“Fun學英語”系列活動之“讀者劇場”展評活動|AI+教師發展公益行·廣州站

      穿好雪地靴的4個訣竅,還挺有效!

      家居要聞

      格調時尚 智慧品質居所

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 在线免费看av| 欧美肥婆姓交大片| 欧美精品在线观看视频| 亚洲色婷婷| 亚洲日本va午夜在线电影| 久久XXX| 和静县| 色88久久久久高潮综合影院| 柠檬福利第一导航在线| 久久99精品国产麻豆婷婷| 99久久人妻精品免费二区| 最新中文无码字字幕在线| 国精产品一区一区三区有限在线| 女人腿张开让男人桶爽| 亚洲人妻一区二区av| 日韩精品成人一区二区三区| 欧美mv日韩mv国产网站app| 亚洲中文人妻无码| 琼结县| 婷婷五月伊人| 精品3p| 色噜噜狠狠色综合日日| 久久久av波多野一区二区| 9久精品视频| 国产suv精品一区二区33| 亚洲91页| 囯产精品久久久久久久久久妞妞| 一本色道久久亚洲综合精品蜜桃| 97国产在线| 老司机久久精品| 浪荡干片网在线观看| 国产丝袜打飞机免费在线| 狼人久久综合| 2025亚洲无码视频| 日本毛茸茸的丰满熟妇| 1024视频在线| 欧美福利导航| 精品国模| 久久久久无码国产精品不卡| 句容市| 日韩AV免费在线观看|