<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      ReLaX從隱空間動力學出發重新解讀大模型RL的探索-利用平衡

      0
      分享至



      強化學習正逐漸成為大模型能力躍遷的核心驅動力。從 OpenAI o3、DeepSeek-R1 到 Gemini 3,一系列前沿模型通過強化微調不斷突破復雜推理任務的性能上限。然而,在這些進展背后,一個隱性的問題正逐漸顯現:隨著訓練推進,策略分布持續收縮,探索能力在模式坍塌中不斷衰減,最終陷入優化的欠收斂與性能瓶頸。

      這一現象本質上源于強化學習中的探索–利用(exploration-exploitation)失衡,而在 RLVR(可驗證獎勵強化學習)范式下,稀疏獎勵進一步放大了這一問題。

      過去一年,大量工作試圖從表層 token 入手,通過提升輸出分布的熵來維持多樣性。但這一思路忽略了一個更根本的事實:Token 只是模型內部隱層狀態在解碼過程中的壓縮表達,不可避免地丟失了部分計算信息,而非推理本身。當調控停留在輸出層時,真正承載推理過程的這一 “計算空間” 幾乎未被觸及。與此同時,在當前主流多模態模型(如 Qwen-VL)中,盡管 CoT 以文本形式呈現,其跨模態推理過程卻發生在隱空間之中,進一步放大了這種 “表達–計算” 的錯位。

      于是,一個更關鍵的問題浮現出來:僅通過提升 token 多樣性,真的能夠從本質上改善模型的探索能力嗎?抑或,探索–利用的本質,其實蘊含在模型的內部計算過程之中?

      港理工&上海 AI Lab 的研究人員進一步將問題 “向內推進”,把目光從輸出層轉向模型的內部計算。他們發現,大模型的推理過程并不是簡單的序列生成,而可以從動力學的視角來理解:其本質是隱層狀態在高維空間中的連續演化,這一過程承載了模型內部的計算邏輯。

      基于這一洞察,研究團隊提出了ReLaX(Reasoning with Latent eXploration)框架:不再直接干預 token 生成的多樣性,而是在策略優化過程中顯式調控模型的隱空間動力學結構,從而在更底層實現對探索與利用的平衡。



      • 論文鏈接:https://arxiv.org/abs/2512.07558
      • 開源權重:https://huggingface.co/collections/SteveZ25/relax-checkpoints
      • Github: https://github.com/ZhangShimin1/ReLaX

      ReLaX 核心方法解讀



      1?? 隱空間探索:從隨機擾動到真實探索

      大模型的推理,并不是單純的 token 輸出,而是隱層狀態在高維空間里的連續演化。ReLaX 將這套隱層演化看作一個 “隨機動力學系統”:模型內部狀態會隨著推理逐步變化,而采樣溫度、top-p、top-k 等隨機擾動則像水流中掀起的漣漪,推動隱層狀態偏離原軌跡。

      僅僅在輸出層制造、放大 token 生成的隨機性,往往無法真正解鎖模型內部探索潛力,關鍵是:只有當模型的內部動力學模式足夠豐富,這些微小擾動才能被放大成多樣的 latent 軌跡,從而產生有效探索。

      2?? 動態譜散度(DSD):量化隱空間動力學模式的多樣性

      然而,核心難題在于:如何捕捉大模型內部高維、復雜的非線性動力學?傳統控制理論提供了一把利器 ——Koopman 算子(Koopman Operator),它允許我們在特定函數空間中,用線性的視角去觀測和分析非線性系統的演化。

      在這一框架下,ReLaX 引入前沿方法ResKoopNet,通過 MLP 學習出一個理想的Koopman dictionary,將大模型最后一層隱藏狀態的復雜演化映射到一個可解析的線性空間中。換句話說,它將大模型隱層中如 “黑盒” 般混沌的推理軌跡,化繁為簡,轉化為可分析的譜特征。基于該譜空間,研究者提出了動態譜散度(DSD)指標。它通過計算單條軌跡內部動態譜模長的方差,精準量化了模型隱空間動力學結構的 “異質性”。這些模長深度揭示了增長(growth)、衰減(decay)與振蕩(oscillation)等動力學模式的核心特質。DSD 越高,意味著大模型在推理過程中內部動力學模式越豐富,從而在 latent 空間中更有潛力探索多樣化、創新性的解題路徑。

      簡而言之,DSD 是對大模型內部 “思維多樣性” 的量化:它不僅反映了內部計算的復雜性,也為探索-利用的策略優化提供了明確方向。

      3?? DSD 引導下的策略優化:讓探索更有方向

      有了 DSD,我們終于有了量化大模型隱空間探索能力的 “羅盤”。ReLaX 將基于這一指標設計的序列級正則化項融入經典算法GRPO,不僅告訴模型哪些軌跡值得關注,還指導它如何在探索與利用之間取得平衡。

      具體來說,ReLaX 設計了兩條關鍵機制:

      • 優勢塑形(Advantage Shaping):正則項與正向優勢值綁定,只在帶來正向收益的軌跡上提升隱空間的靈活度。這意味著模型不會盲目探索無用路徑,而是把計算能力集中在高潛力軌跡上,避免無意義的模式漂移(semantic drift)。
      • 自適應 KL 正則(Adaptive KL Regularization): 對 DSD 超閾值的軌跡施加懲罰,以約束過度發散的動態譜,保證訓練穩定性;同時對有潛質的軌跡保留充足探索空間,讓模型在安全范圍內大膽嘗試。

      最終,ReLaX 不只是簡單增加探索,它通過對隱空間動力學進行調控,形成一個動態平衡的優化目標:在保證訓練穩定的前提下,讓大模型的隱層計算自由伸展,持續發掘更豐富的內在推理路徑。

      實驗結果:打破 RLVR 性能瓶頸,持續激發大模型推理潛能

      告別多樣性束縛下的 “次優收斂”

      作者在純文本大模型(LLM)和多模態視覺-語言大模型(VLM)上驗證了 ReLaX 的效果,并與 GRPO 在 3B/7B 規模下的訓練進行了對比。通過訓練過程中模型性能與 token 熵的關系圖,可以直觀觀察到模型是否陷入多樣性不足導致的性能瓶頸。



      ReLaX(紅)對比 GRPO(灰):3B/7B 規模 (a) 純文本大模型(LLMs)與 (b) 多模態視覺-語言大模型(VLMs)在訓練過程中性能與 token 熵的關系,散點表示各訓練步驟。

      在 GRPO(灰色曲線)下,訓練初期模型探索充分,性能穩步提升;但隨著訓練推進,策略熵迅速下降,模型很快陷入次優收斂 —— 就像學生過早認定唯一解題思路,從此不再嘗試其他可能性。

      相比之下,ReLaX(紅色曲線)在整個訓練過程中不僅保持性能持續上升,同時策略熵穩定在合理區間,避免模式坍塌。這意味著 ReLaX 能在促進探索的同時,也順應 RL 對模型分布銳化以利用高價值信號的天然趨勢。

      刷新多模態推理基準新 SOTA

      以 Qwen2.5-VL-Instruct 系列為基礎模型,ReLaX 在多模態推理任務上展現出顯著優勢:其 7B 規模模型在 MathVista、MathVerse、MathVision、MMMU、MMStar、DynaMath 與 EMMA 七大基準上取得53.2% 的 mean@1 平均準確率,刷新同尺度模型性能上限。與此同時,3B 規模的 ReLaX-VL-3B 也展現出強勁競爭力,其性能已可比甚至超越部分已有的 7B 級推理模型。



      從 Token 到 Latent:推理與泛化能力的雙重提升

      純文本數學推理:作為 RLVR 的核心應用場景,數學推理一直是檢驗方法有效性的 “主戰場”。作者以 Qwen2.5-base 與 Qwen2.5-Math 為基礎模型,將 ReLax 與多種基于 token 多樣性的方法進行了系統對比。



      實驗結果顯示,在 Math500、Minerva、AMC22/23、AIME24/25 等六大數學推理基準上,ReLaX 在相同訓練設置下的平均性能穩定超越基于 token 多樣性的方法。這一結果表明,相比直接干預輸出層多樣性,從 latent 動力學出發調控模型探索與利用,能夠更高效地提升模型的推理能力。



      進一步地,作者將 ReLaX 擴展至 Llama3.2-Instruct 與 Qwen3-base 等不同模型架構上,依然取得一致性能提升,驗證了該方法良好的可擴展性與跨模型泛化能力。

      多模態推理泛化:研究團隊進一步在多模態視覺-語言大模型上驗證了 latent 層面探索相對 token 層面探索的優勢。具體而言,以 Qwen2.5-VL-3B 為基礎模型,在多個多模態推理基準上,將 ReLaX與兩類代表性的 token-level 方法進行對比:一類是直接將提升熵引入策略優化目標的 Entropy-Reg,另一類是通過協方差約束間接調控 token 熵的 KL-Cov。



      實驗結果給出了一個清晰的結論:ReLaX 在多模態推理任務上穩定優于兩類 token-level 方法。

      具體來看,Entropy-Reg 并未帶來多模態推理能力的提升。相反,由于其在 token 層面顯式鼓勵不確定性,這種 “無約束” 的探索容易引入語義漂移,在多個基準上甚至劣于原始 GRPO,表現出明顯的副作用。

      相比之下,KL-Cov雖然帶來一定增益,但其效果具有明顯局限性:在 MathVista 等偏數學、幾何的任務上表現相對更好 —— 這些任務對視覺信息依賴較弱;而在更依賴視覺理解的任務(如 EMMA-Physics)中,ReLaX 的優勢顯著擴大(+7.7)。

      這一現象揭示了關鍵問題:僅在輸出層面促進探索,難以有效影響多模態模型內部的跨模態計算過程。 token-level 方法對 latent 空間的作用有限,因此在需要深度視覺-文本融合的任務中難以泛化。

      相比之下,ReLaX 直接作用于隱空間動力學,通過調控模型內部計算的靈活性,更有效地激活跨模態信息交互,從而顯著提升對多模態輸入的理解能力。論文中的 qualitative case study 也進一步驗證了這一點。

      未來展望:走向大模型內在機制的 “深水區”

      ReLaX 的意義并不止于性能提升,它更重要的價值在于提供了一種全新的視角去理解大模型推理過程中的計算本質。

      • 相比直接 “擾動” token 空間的概率,引導模型在隱空間中的動態演化,是解決 “探索–利用” 權衡的一種更具原則性的路徑。未來,我們對模型探索能力的理解,將不再局限于輸出層的不確定性。
      • 大模型的隱空間作為一片尚未被充分探索的 “藍海”,正逐漸顯現出其作為研究前沿的核心價值。其中高維狀態所承載的豐富信息,刻畫了隱藏在表層文本輸出下的內在計算過程,為我們理解模型行為并提升其能力提供了新的切入點。

      ReLaX 只是一個起點。隨著我們不斷深入這一 “隱空間”,大模型或許將不再只是概率預測的工具,而是能夠在其豐富的內部表征中進行持續探索、自我修正,逐步演化出更接近 “認知過程” 的推理能力。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      網傳“前國足教練米盧去世享年82歲”,米盧好友回應

      網傳“前國足教練米盧去世享年82歲”,米盧好友回應

      喜歡歷史的阿繁
      2026-04-07 17:15:57
      55歲鐘麗緹被指穿著不得體,太過暴露,在直播中大膽跳操被指不雅

      55歲鐘麗緹被指穿著不得體,太過暴露,在直播中大膽跳操被指不雅

      手工制作阿殲
      2026-04-06 19:20:47
      重磅!慢特病新規4月1日實施:13種病報銷比例高達95%

      重磅!慢特病新規4月1日實施:13種病報銷比例高達95%

      老特有話說
      2026-04-07 20:47:38
      研究表明:性生活越頻繁,射精和勃起問題越少!

      研究表明:性生活越頻繁,射精和勃起問題越少!

      黯泉
      2026-04-05 20:40:12
      事發上海!游客爬上20多年樹齡櫻花樹拍照,把樹給壓倒了……管理方回應

      事發上海!游客爬上20多年樹齡櫻花樹拍照,把樹給壓倒了……管理方回應

      縱相新聞
      2026-04-07 14:40:04
      事故調查報告:湖南湘潭一致3死爆燃事故,公司負責人因盲目救火遇難

      事故調查報告:湖南湘潭一致3死爆燃事故,公司負責人因盲目救火遇難

      澎湃新聞
      2026-04-07 17:04:26
      以色列一枚導彈都沒攔 伊朗450公斤導彈命中大樓

      以色列一枚導彈都沒攔 伊朗450公斤導彈命中大樓

      看看新聞Knews
      2026-04-07 17:55:07
      張紀中剃掉30年胡子,染黑發年輕20歲,全家差點沒認出出來?

      張紀中剃掉30年胡子,染黑發年輕20歲,全家差點沒認出出來?

      娛樂領航家
      2026-04-06 22:00:03
      A股:股民要做好下車準備,主力明牌了,周三將迎來新的暴風雨?

      A股:股民要做好下車準備,主力明牌了,周三將迎來新的暴風雨?

      另子維愛讀史
      2026-04-07 17:35:12
      美媒:“無法無天的世界代價高昂”

      美媒:“無法無天的世界代價高昂”

      參考消息
      2026-04-07 16:50:06
      伊朗墜機美軍上校:腿傷走7公里爬2100米山脊 高級求生訓練底子厚

      伊朗墜機美軍上校:腿傷走7公里爬2100米山脊 高級求生訓練底子厚

      勁爆體壇
      2026-04-07 06:06:04
      “最美趙敏”,去世3天才被發現!

      “最美趙敏”,去世3天才被發現!

      大中國
      2026-04-07 15:10:47
      伊朗一鐵路橋遭襲 已致2死3傷

      伊朗一鐵路橋遭襲 已致2死3傷

      財聯社
      2026-04-07 19:12:37
      上海三甲醫院專家凌晨發文:1小時來了6個心梗,這一波很密集!42歲男子打球時突然胸痛,還好隊友反應快

      上海三甲醫院專家凌晨發文:1小時來了6個心梗,這一波很密集!42歲男子打球時突然胸痛,還好隊友反應快

      新民晚報
      2026-04-06 15:15:31
      著名考古學家、原山西省考古研究所所長王克林逝世

      著名考古學家、原山西省考古研究所所長王克林逝世

      澎湃新聞
      2026-04-07 17:00:26
      王勵勤終于下定決心!4大老將逐步放棄,重點培養新生代為時不晚

      王勵勤終于下定決心!4大老將逐步放棄,重點培養新生代為時不晚

      羅納爾說個球
      2026-04-07 12:00:49
      美國的槍店老板,為什么不怕顧客買完槍后朝他射擊?

      美國的槍店老板,為什么不怕顧客買完槍后朝他射擊?

      心中的麥田
      2026-04-06 19:26:47
      連下死手!普京新仇舊恨一起算,日本油盡燈枯,全國大亂倒計時!

      連下死手!普京新仇舊恨一起算,日本油盡燈枯,全國大亂倒計時!

      陳腕特色體育解說
      2026-04-07 04:46:15
      快訊!上海成品油價4月7日24時起調整

      快訊!上海成品油價4月7日24時起調整

      上海長寧
      2026-04-07 19:05:51
      媒體人:陳濤從冬訓到現在瘦了20多斤,劉建業瘦了也有白發了

      媒體人:陳濤從冬訓到現在瘦了20多斤,劉建業瘦了也有白發了

      懂球帝
      2026-04-07 15:46:08
      2026-04-07 22:19:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12701文章數 142616關注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      臺灣一些人被指準備"潤" 賴清德曾稱兒子在美"學功夫"

      頭條要聞

      臺灣一些人被指準備"潤" 賴清德曾稱兒子在美"學功夫"

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產

      財經要聞

      10萬億財政轉移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態體驗

      態度原創

      本地
      教育
      房產
      公開課
      軍事航空

      本地新聞

      跟著歌聲游安徽,聽古村回響

      教育要聞

      地理教材上五種交通運輸方式的比較是不是過時了?

      房產要聞

      重磅!三亞擬出安居房新政!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美軍營救飛行員出動155架飛機

      無障礙瀏覽 進入關懷版