<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      三星發力大模型!三星研究院聯合北大發布 M2RL,系統揭秘多領域RL訓練機制

      0
      分享至


      三星研究院開展了M2RL研究項目,對多域強化學習進行了系統性的研究和分析。

      大模型訓練需要同時兼顧多個領域能力,包括Agentic 能力、數學推理、代碼生成等。如何訓練一個能夠在多個領域同時達到專家水平的通用模型,已成為當前研究中的一項關鍵挑戰。尤其是在強化學習(RL)階段,如何通過合理的訓練機制與超參數配置,緩解多領域訓練中的能力沖突與兼容問題,對于模型最終性能的提升至關重要。為此,三星研究院聯合北京大學,發布技術報告R2Mixer(To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models),系統分析了多領域RL的訓練機理,通過系統級調優,顯著提升了多領域RL后的模型效果。

      值得關注的是,結合去年10月份的相關報道,三星已向英偉達采購5萬張 GPU用于構建大規模AI 基礎設施。此舉或許標志著三星在大模型領域正大幅加大投入,意在打造自主可控的基礎模型體系,為未來在手機、智能終端、自動化工廠等場景中部署通用 AI 能力提供底層支撐。


      文章地址:https://arxiv.org/abs/2602.12566

      項目主頁:https://github.com/Mosi-AI/M2RL

      01


      關鍵痛點

      在人工智能的浪潮中,LLM正以前所未有的速度席卷Agent、數學推理、代碼生成、科學問題求解等關鍵領域,一場關于"如何打造全能型AI專家"的技術競賽已然拉開帷幕!目前學界存在兩種主流的RL后訓練范式:

      ? 混合多任務范式:同時學習來自不同領域的數據和獎勵;

      ? 專家融合范式:分別訓練各領域專家,再通過權重合并或蒸餾技術融合。

      兩大路線各有優劣,DeepSeek-R1、Qwen3、GLM-4.5、MiMo-V2等明星模型亦選擇不同路徑,但學界對這兩種范式的系統性對比和內在機制的分析仍然缺乏。面對構建通用多領域專家模型的核心痛點:

      1)訓練效率與性能的兩難:不同領域的強化學習是否會產生梯度干擾,導致整體性能下降?混合多任務訓練的計算成本是否低于分別訓練后合并? 2) 領域知識的遷移與干擾:不同領域的強化學習是否存在知識遷移效應?還是會產生互相干擾?這種關系在不同類型的任務之間是否有差異? 3) 模型合并的內在機制:模型合并后的性能增益從何而來?不同合并方法之間有何優劣?如何選擇最優的合并策略? 4) 自我評判能力的演化:RLVR訓練是否能夠使模型獲得自我評判能力?這種能力在不同訓練范式下如何變化?

      研究團隊基于開源數據集進行完整的SFT+RL后訓練過程實現可控的實驗比較,進而深入分析其內在機制。


      02


      M2RL:系統性研究與實驗設計

      三星研究院開展了M2RL研究項目 (Mixed multi-task training or separate training followed by modelMerging forReinforcementLearning),對多域強化學習進行了系統性的研究和分析。研究團隊基于Nemotron 3 Nano技術報告中開源的SFT或RL數據進行實驗,選擇了五個常見的RLVR域:數學、編程、科學、指令跟隨以及Agent,初始模型選用Qwen3-4B-Base,RL算法選用GRPO。

      1)對于有監督微調(SFT),研究團隊遵循Nemotron 3 Nano技術報告中的數據配比將其開源數據進行合理組合。其中,對于數量較多的開源數據集進行隨機采樣,對于數量較少的開源數據集則重復使用(最多10次),最終獲得~14M的數據用于有監督微調,詳細配比如下:


      2)對于強化學習訓練,研究團隊同樣使用Nemotron 3 Nano開源的RL訓練數據,其數據配比及來源總結如下:


      3)對于模型融合方法,研究團隊考慮了廣泛使用的weight merging (對模型權重加權平均)和multi-teacher on-policy-distillation技術。其中,weight merging包括average merging, task arithmetic merging, Ties-merging以及SCE merging,同時也考察了這些方法與DARE的組合使用效果。對于MT-OPD,他們使用來自5個域的專家模型作為teacher蒸餾有監督微調后的模型,設計相應的teacher路由策略。

      所有實驗在相同型號顯卡上運行,詳細的訓練設置及GPU Hours如下:


      03


      M2RL:評測結果及機制分析

      1.評測結果

      研究團隊在跨越5個域的9個benchmark上對模型進行評估:數學(AIME’24和AIME’25)、代碼(LiveCodeBench v5和v6)、科學(HLE和GPQA-Diamond)、指令跟隨(IFEval和IFBench )以及Agent(BFCL v3):


      其中model merging報告的是Ties-merging的結果,其表現最佳;詳細對比如下:


      從上述結果可以看出:

      [1]就5個獨立RL模型而言,math, coding,instruction following和agent域的RL模型都在對應域的benchmark上獲得了最佳表現;有趣的是math域的RL模型比science域的RL模型在science benchmark上獲得了更好的表現,可能這兩個science benchmark需要更多的邏輯推理和數學計算而非科學知識。

      [2]混合的多任務RL可以用約63.7%的GPU Hours獲得與單獨RL再融合相當的效果;不同域之間的干擾并不明顯,甚至有增益。例如,三個推理相關的域(math, coding和science)的RL就互有增益,Instruction Following域也有助于這三個域的評估。有趣的是,所有其他域都對agent域沒有增益,可能單輪的邏輯推理對于多輪的工具調用和環境交互價值有限,但仍然未觀察到互相干擾現象。

      [3]weight merging這類training-free的融合方法效果意外的很好,不僅繼承了原始模型的絕大部分性能,甚至在AIME’24, AIME’25, HLE, IFEval和BFCL v3數據集比對應專家模型還要強,再次印證了不同域的互相增益效果。此外,weight merging無需額外的GPU Hours即可達到稍微優于MT-OPD的效果。

      除了最終表現,研究團隊還給出了不同域RL訓練過程中模型在不同域的benchmark上的表現。具體的,選擇AIME’24, LiveCodeBench v5, GPQA-Diamond, IFEval和BFCL v3分別作為math, coding, science, instruction following和agent域的代表,結果如下:


      可以看到三個推理域(math, coding和science)的RL過程可以穩定提升彼此的表現。此外,instruction following和agent域的任務只有對應域的RL能穩步提升表現,推理域RL對其并無增益。反之,instruction following和agent域的RL卻可以或多或少的提升推理域的能力表現,說明推理為基本能力,各種域的學習都需要。

      研究團隊僅用開源數據,從Qwen3-4B-Base開始訓練便獲得了和官方的Qwen3-4B可比的結果,證明其工程實現的有效性:

      除了上述評測結果之外,研究團隊還從信息約束、模型預測行為自我驗證等角度深入分析多域RL訓練的工作機理。更多分析內容詳見論文。

      04


      總結與展望

      三星研究院針對大模型后訓練范式進行了系統的對比。研究通過嚴謹的受控實驗,深入剖析了“混合多任務RL”與“專家模型融合”在多域能力構建中的性能邊界。針對梯度干擾、領域知識遷移、模型合并機制及自我評判能力演化等行業核心痛點,該研究不僅揭示了多域強化學習的內在作用機理,更在訓練效率與性能平衡上提供了關鍵保障,有效支撐了千億、萬億等更大參數模型的RL訓練。

      05


      作者信息

      本文共有3位共同一作,其中王好慶、龍翔為三星大模型高級研究員,李子恒為北京大學博士生,研究方向為大模型強化學習。

      本文通訊作者為唐業輝,目前擔任三星大模型算法負責人、高級技術總監。他博士畢業于北京大學,已發表AI頂會論文50余篇,Google學術引用1萬+,并擔任NeurIPS、ICML等會議的領域主席。

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      油價,爆了!

      油價,爆了!

      江南晚報
      2026-04-19 08:23:10
      涉嫌嚴重違紀違法,吳政被查

      涉嫌嚴重違紀違法,吳政被查

      新浪財經
      2026-04-19 06:16:41
      民進黨剛想對訪陸人員下手,國臺辦強硬發話撐腰

      民進黨剛想對訪陸人員下手,國臺辦強硬發話撐腰

      諦聽骨語本尊
      2026-04-18 14:30:43
      伯恩茅斯夏窗解體,曼聯盯上"三件套"

      伯恩茅斯夏窗解體,曼聯盯上"三件套"

      體育硬核說
      2026-04-19 14:58:00
      48歲田蕊妮癌擴散,老公被傳癱瘓出軌,她含淚回應真相太心酸!

      48歲田蕊妮癌擴散,老公被傳癱瘓出軌,她含淚回應真相太心酸!

      生性灑脫
      2026-04-18 15:05:35
      頂級軍事天才有多恐怖?1萬8千宋軍殘兵,竟硬撼20萬金軍精銳

      頂級軍事天才有多恐怖?1萬8千宋軍殘兵,竟硬撼20萬金軍精銳

      鶴羽說個事
      2026-04-17 22:37:44
      大快人心!國家出手擒下3名華人首富,他們干的事,根本不能饒恕

      大快人心!國家出手擒下3名華人首富,他們干的事,根本不能饒恕

      墨印齋
      2026-03-24 21:34:56
      煮蝦時,用“開水”還是“冷水”?區別很大,做錯了蝦又老腥味重

      煮蝦時,用“開水”還是“冷水”?區別很大,做錯了蝦又老腥味重

      阿龍美食記
      2026-04-11 14:10:04
      騎士126-113猛龍,賽后球員評分:哈登+米切爾滿分,蘇群一針見血

      騎士126-113猛龍,賽后球員評分:哈登+米切爾滿分,蘇群一針見血

      小徐講八卦
      2026-04-19 05:35:06
      新冠后遺癥的長期侵襲,無數人在不知不覺中深陷困境

      新冠后遺癥的長期侵襲,無數人在不知不覺中深陷困境

      律法刑道
      2026-04-01 10:15:47
      12家歐洲車企倒戈!安世中國用實力證明:你敢斷供,我就換供應商

      12家歐洲車企倒戈!安世中國用實力證明:你敢斷供,我就換供應商

      大衛聊科技
      2026-04-18 12:27:33
      1971年,江青主動給林彪照相,突然對他說:請你把帽子摘掉好嗎?

      1971年,江青主動給林彪照相,突然對他說:請你把帽子摘掉好嗎?

      輿圖看世界
      2026-04-19 14:25:03
      “老人味”的禍首被揪出!醫生提醒:55歲后要少碰,老了或也沒味

      “老人味”的禍首被揪出!醫生提醒:55歲后要少碰,老了或也沒味

      今日養生之道
      2026-03-23 11:46:39
      從少年包拯到投資老賴,任泉的起落人生

      從少年包拯到投資老賴,任泉的起落人生

      老特有話說
      2026-04-18 18:49:41
      被嘲笑了4年的俄羅斯突然發現,美軍只打了1個月,就比它還拉胯

      被嘲笑了4年的俄羅斯突然發現,美軍只打了1個月,就比它還拉胯

      阿器談史
      2026-04-16 15:16:19
      四大皆空成定局!西媒:皇馬醞釀清洗8人 佛爺該賣掉1巨星

      四大皆空成定局!西媒:皇馬醞釀清洗8人 佛爺該賣掉1巨星

      葉青足球世界
      2026-04-18 15:53:51
      張蘭智慧選擇:財富傳承優先給孫輩,兒媳要自力更生

      張蘭智慧選擇:財富傳承優先給孫輩,兒媳要自力更生

      阿凱銷售場
      2026-04-19 14:45:38
      沒想到,任正非花重金培養大的女兒姚安娜,這次終于為他所用

      沒想到,任正非花重金培養大的女兒姚安娜,這次終于為他所用

      以茶帶書
      2026-04-18 14:40:45
      擅闖臺海的日本雷號驅逐艦,被解放軍無人機貼臉飛行,隨時可出擊

      擅闖臺海的日本雷號驅逐艦,被解放軍無人機貼臉飛行,隨時可出擊

      徐竦解說
      2026-04-19 13:42:27
      霍爾木茲還不夠?美軍稱要在全球公海追捕所有“涉伊”船只

      霍爾木茲還不夠?美軍稱要在全球公海追捕所有“涉伊”船只

      上觀新聞
      2026-04-17 17:08:05
      2026-04-19 15:20:49
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7200文章數 20744關注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀錄!300臺機器人狂飆半馬

      頭條要聞

      牛彈琴:伊朗遭到特朗普"羞辱"被激怒 結果印度遭了殃

      頭條要聞

      牛彈琴:伊朗遭到特朗普"羞辱"被激怒 結果印度遭了殃

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂要聞

      張天愛評論區淪陷!被曝卷入小三風波

      財經要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬 極氪8X為什么這么多人買?

      態度原創

      藝術
      數碼
      親子
      公開課
      軍事航空

      藝術要聞

      當代著名畫家 | 全山石人物油畫23幅

      數碼要聞

      英偉達宣傳《識質存在》,抽獎送定制涂裝的RTX 5090顯卡

      親子要聞

      不能隱瞞爸爸媽媽的四件事兒

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗逼退美掃雷艇:美方求給15分鐘撤退

      無障礙瀏覽 進入關懷版