網易首頁 > 網易號 > 正文申請入駐

三星發力大模型！三星研究院聯合北大發布 M2RL，系統揭秘多領域RL訓練機制

2026-03-13 20:31:01　來源: AI科技評論

廣東舉報

分享至

三星研究院開展了M2RL研究項目，對多域強化學習進行了系統性的研究和分析。

大模型訓練需要同時兼顧多個領域能力，包括Agentic 能力、數學推理、代碼生成等。如何訓練一個能夠在多個領域同時達到專家水平的通用模型，已成為當前研究中的一項關鍵挑戰。尤其是在強化學習（RL）階段，如何通過合理的訓練機制與超參數配置，緩解多領域訓練中的能力沖突與兼容問題，對于模型最終性能的提升至關重要。為此，三星研究院聯合北京大學，發布技術報告R2Mixer(To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models)，系統分析了多領域RL的訓練機理，通過系統級調優，顯著提升了多領域RL后的模型效果。

值得關注的是，結合去年10月份的相關報道，三星已向英偉達采購5萬張 GPU用于構建大規模AI 基礎設施。此舉或許標志著三星在大模型領域正大幅加大投入，意在打造自主可控的基礎模型體系，為未來在手機、智能終端、自動化工廠等場景中部署通用 AI 能力提供底層支撐。

文章地址：https://arxiv.org/abs/2602.12566

項目主頁：https://github.com/Mosi-AI/M2RL

關鍵痛點

在人工智能的浪潮中，LLM正以前所未有的速度席卷Agent、數學推理、代碼生成、科學問題求解等關鍵領域，一場關于"如何打造全能型AI專家"的技術競賽已然拉開帷幕！目前學界存在兩種主流的RL后訓練范式：

? 混合多任務范式：同時學習來自不同領域的數據和獎勵；

? 專家融合范式：分別訓練各領域專家，再通過權重合并或蒸餾技術融合。

兩大路線各有優劣，DeepSeek-R1、Qwen3、GLM-4.5、MiMo-V2等明星模型亦選擇不同路徑，但學界對這兩種范式的系統性對比和內在機制的分析仍然缺乏。面對構建通用多領域專家模型的核心痛點：

1)訓練效率與性能的兩難：不同領域的強化學習是否會產生梯度干擾，導致整體性能下降？混合多任務訓練的計算成本是否低于分別訓練后合并？ 2) 領域知識的遷移與干擾：不同領域的強化學習是否存在知識遷移效應？還是會產生互相干擾？這種關系在不同類型的任務之間是否有差異？ 3) 模型合并的內在機制：模型合并后的性能增益從何而來？不同合并方法之間有何優劣？如何選擇最優的合并策略？ 4) 自我評判能力的演化：RLVR訓練是否能夠使模型獲得自我評判能力？這種能力在不同訓練范式下如何變化？

研究團隊基于開源數據集進行完整的SFT+RL后訓練過程實現可控的實驗比較，進而深入分析其內在機制。

M2RL：系統性研究與實驗設計

三星研究院開展了M2RL研究項目（Mixed multi-task training or separate training followed by modelMerging forReinforcementLearning），對多域強化學習進行了系統性的研究和分析。研究團隊基于Nemotron 3 Nano技術報告中開源的SFT或RL數據進行實驗，選擇了五個常見的RLVR域：數學、編程、科學、指令跟隨以及Agent，初始模型選用Qwen3-4B-Base，RL算法選用GRPO。

1）對于有監督微調(SFT)，研究團隊遵循Nemotron 3 Nano技術報告中的數據配比將其開源數據進行合理組合。其中，對于數量較多的開源數據集進行隨機采樣，對于數量較少的開源數據集則重復使用（最多10次），最終獲得~14M的數據用于有監督微調，詳細配比如下：

2）對于強化學習訓練，研究團隊同樣使用Nemotron 3 Nano開源的RL訓練數據，其數據配比及來源總結如下：

3）對于模型融合方法，研究團隊考慮了廣泛使用的weight merging (對模型權重加權平均)和multi-teacher on-policy-distillation技術。其中，weight merging包括average merging, task arithmetic merging, Ties-merging以及SCE merging，同時也考察了這些方法與DARE的組合使用效果。對于MT-OPD，他們使用來自5個域的專家模型作為teacher蒸餾有監督微調后的模型，設計相應的teacher路由策略。

所有實驗在相同型號顯卡上運行，詳細的訓練設置及GPU Hours如下：

M2RL：評測結果及機制分析

1.評測結果

研究團隊在跨越5個域的9個benchmark上對模型進行評估：數學（AIME’24和AIME’25）、代碼（LiveCodeBench v5和v6）、科學（HLE和GPQA-Diamond）、指令跟隨（IFEval和IFBench ）以及Agent（BFCL v3）：

其中model merging報告的是Ties-merging的結果，其表現最佳；詳細對比如下：

從上述結果可以看出：

[1]就5個獨立RL模型而言，math, coding,instruction following和agent域的RL模型都在對應域的benchmark上獲得了最佳表現；有趣的是math域的RL模型比science域的RL模型在science benchmark上獲得了更好的表現，可能這兩個science benchmark需要更多的邏輯推理和數學計算而非科學知識。

[2]混合的多任務RL可以用約63.7%的GPU Hours獲得與單獨RL再融合相當的效果；不同域之間的干擾并不明顯，甚至有增益。例如，三個推理相關的域(math, coding和science)的RL就互有增益，Instruction Following域也有助于這三個域的評估。有趣的是，所有其他域都對agent域沒有增益，可能單輪的邏輯推理對于多輪的工具調用和環境交互價值有限，但仍然未觀察到互相干擾現象。

[3]weight merging這類training-free的融合方法效果意外的很好，不僅繼承了原始模型的絕大部分性能，甚至在AIME’24, AIME’25, HLE, IFEval和BFCL v3數據集比對應專家模型還要強，再次印證了不同域的互相增益效果。此外，weight merging無需額外的GPU Hours即可達到稍微優于MT-OPD的效果。

除了最終表現，研究團隊還給出了不同域RL訓練過程中模型在不同域的benchmark上的表現。具體的，選擇AIME’24, LiveCodeBench v5, GPQA-Diamond, IFEval和BFCL v3分別作為math, coding, science, instruction following和agent域的代表，結果如下：

可以看到三個推理域(math, coding和science)的RL過程可以穩定提升彼此的表現。此外，instruction following和agent域的任務只有對應域的RL能穩步提升表現，推理域RL對其并無增益。反之，instruction following和agent域的RL卻可以或多或少的提升推理域的能力表現，說明推理為基本能力，各種域的學習都需要。

研究團隊僅用開源數據，從Qwen3-4B-Base開始訓練便獲得了和官方的Qwen3-4B可比的結果，證明其工程實現的有效性：

除了上述評測結果之外，研究團隊還從信息約束、模型預測行為和自我驗證等角度深入分析多域RL訓練的工作機理。更多分析內容詳見論文。

總結與展望

三星研究院針對大模型后訓練范式進行了系統的對比。研究通過嚴謹的受控實驗，深入剖析了“混合多任務RL”與“專家模型融合”在多域能力構建中的性能邊界。針對梯度干擾、領域知識遷移、模型合并機制及自我評判能力演化等行業核心痛點，該研究不僅揭示了多域強化學習的內在作用機理，更在訓練效率與性能平衡上提供了關鍵保障,有效支撐了千億、萬億等更大參數模型的RL訓練。

作者信息

本文共有3位共同一作，其中王好慶、龍翔為三星大模型高級研究員，李子恒為北京大學博士生，研究方向為大模型強化學習。

本文通訊作者為唐業輝，目前擔任三星大模型算法負責人、高級技術總監。他博士畢業于北京大學，已發表AI頂會論文50余篇，Google學術引用1萬+，并擔任NeurIPS、ICML等會議的領域主席。

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.