<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DPO「只看總分不看細節」?TI-DPO用Token重要性重塑大模型對齊

      0
      分享至



      在當今的大模型后訓練(Post-training)階段,DPO(直接偏好優化) 憑借其無需訓練獨立 Reward Model 的優雅設計和高效性,成功取代 PPO 成為業界的 「版本之子」,被廣泛應用于 Llama-3、Mistral 等頂流開源模型的對齊中。

      然而,隨著對模型能力要求的日益嚴苛,DPO 的缺陷逐漸浮出水面。

      究竟該如何讓 DPO 學會「去偽存真」,精準識別出那些真正決定勝負的 Critical Tokens?

      針對這一問題,來自中國科學院自動化研究所、字節跳動、微軟亞洲研究院和北京科技大學的研究者們在被選為 ICLR 2026 Oral 的新工作中聯合提出了一種全新的 TI-DPO 框架。



      • 論文:《Token-Importance Guided Direct Preference Optimization》
      • 論文地址:https://arxiv.org/abs/2505.19653
      • 開源地址:https://github.com/gracefulning/TIDPO

      研究背景與意義

      主流方法正面臨兩個核心難題,這使得模型難以實現真正精細化的語義控制:

      • 痛點一:序列級的「二元對立」陷阱。傳統方法依然停留在序列級別(Sequence-level)的粗粒度優化上,簡單粗暴地將數據劃分為好與壞。這種二元監督信號極度匱乏,因為它掩蓋高質量回復中可能混雜著瑕疵 Token 的事實,導致了模型在連續語義空間中微調效果差,甚至引發采樣分布偏移(Distribution Shift)。
      • 痛點二:被偏差綁架的「偽」重要性。即使試圖下沉到 Token 級別,現有的重要性評估手段也存在問題。許多方法依賴概率預測或簡單加權,這導致它們直接繼承了模型架構的固有缺陷 ——「U 型注意力偏差」(Lost in the Middle),模型天生傾向于過度關注首尾 Token 而忽略中間的核心語義。

      TI-DPO 的核心機制

      TI-DPO 的核心思想是:既然 Token 生而不同,那就給它們「加權」。 通過引入混合加權機制和三元組損失,TI-DPO 能夠精準識別并放大「關鍵 Token」的信號,同時抑制噪聲,從而實現比傳統 DPO 更準、更穩的對齊效果。它主要包含兩大核心機制:

      1. 混合加權機制 (Hybrid Weighting)

      為了找出誰才是決定回復質量的「勝負手」,TI-DPO 設計了一套數據驅動與先驗結構相結合的權重計算法:

      • 梯度歸因:計算 Loss 對每個 Token Embedding 的梯度范數。簡單來說,誰對最終輸出貢獻大,誰的權重就高。
      • 高斯先驗:針對 LLM 常見的「U 型注意力偏差」(過度關注開頭結尾),引入高斯分布強制模型關注中間的語義核心。

      最終的 Token 權重 ,是這兩者的凸組合:



      新的 Token 級 DPO 加權損失函數如下:



      2. 三元組損失 (Triplet Loss)

      TI-DPO 不再滿足于非黑即白的二元對比,而是引入了度量學習中的神器Triplet Loss。它在訓練過程中構建了三個角色:







      TI-DPO 損失函數:TI-DPO 的最終優化目標便是兩者的加權和:



      實驗結果

      為了驗證 TI-DPO 的實際戰力,研究團隊在 Llama-3 (8B/3B) 和 Mistral-7B 等多個主流基座模型上進行了測試,對比了包括 DPO、SimPO 以及最近大火的 GRPO 等 10+ 種對齊算法。

      1. 綜合能力評估

      如圖 1,在 Llama-3.1-8B-Instruct 基座上,TI-DPO 的綜合平均分達到 62.3,超過 GRPO (62.1) 和 DPO (60.8) 。



      2. 細分領域表現優秀

      在 IFEval(指令遵循)、TruthfulQA(真實性)和 HumanEval(代碼生成) 這三大最考驗細節把握的任務上,TI-DPO 的表現大幅超越了 DPO、SimPO 以及 GRPO。





      3. 消融實驗:核心組件缺一不可

      Table 2 的消融實驗結果表明,TI-DPO 的所有核心組件(包括混合加權機制、高斯先驗和三元組損失)對于模型性能都至關重要,移除任意模塊均會導致在通用能力、數學推理及代碼生成等各項指標上的顯著下降。



      4. 案例展示:一眼看懂「關鍵 Token」

      為了驗證 TI-DPO 是否真的學會了「抓重點」,作者展示了一個醫療咨詢案例(「頭痛該怎么辦?」)的權重可視化熱力圖。

      • 在 Preferred 回復中(左):模型給「seek medical attention」和「promptly」分配了極高的權重(紅色深色區域),抓住了「安全第一」的核心。
      • 在 Non-Preferred 回復中(右):模型精準「抓包」了「painkillers casually」這種潛在的高風險建議,并賦予高權重加以懲罰。
      • Intermediate Response是模型當前的自我水平:「建議多休息,如果惡化再看醫生」。TI-DPO 引導模型在生成過程中,不斷向 Preferred 的價值觀靠攏,同時規避 Non-preferred 的陷阱,從而完成從粗放向精細的進化。



      這種有力地證明 TI-DPO 不是在死記硬背,而是真的讀懂了人類價值觀。

      總結與貢獻

      TI-DPO 的提出,為大模型對齊從粗放的序列級優化向更精細的 Token 級控制轉變提供了一個有力的嘗試。它不再滿足于籠統地判斷回答的「好壞」,而是試圖厘清每一個 Token 在價值對齊中的真實貢獻。

      實驗結果表明,TI-DPO 在指令遵循、真實性與代碼生成等任務上,相比 GRPO 等基線取得了穩定的性能提升,驗證了提升數據利用的「顆粒度」是增強模型能力的有效路徑。

      TI-DPO 以其在去噪和細節控制上的特性,為后續的 RLHF 研究提供了一個值得關注的新方向。我們期待看到更多圍繞「細粒度價值對齊」的探索,推動大模型向著更精準、更可控的方向進化。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      33.9萬!火鍋店稱把春節4天盈利分給員工,老板:去年關了兩家店 但春節福利要堅持

      33.9萬!火鍋店稱把春節4天盈利分給員工,老板:去年關了兩家店 但春節福利要堅持

      紅星新聞
      2026-02-21 10:12:08
      摔倒被扶反索賠22萬后續:律師發聲,案件焦點已明,賠償跑不掉了

      摔倒被扶反索賠22萬后續:律師發聲,案件焦點已明,賠償跑不掉了

      愛下廚的阿釃
      2026-02-21 06:55:42
      東北大媽偷菜謊稱山東人后續:弟弟單位同事證明,臉都丟盡了

      東北大媽偷菜謊稱山東人后續:弟弟單位同事證明,臉都丟盡了

      離離言幾許
      2026-02-20 15:57:01
      伊朗已經下定決心,搶在美國動手之前,把俄羅斯牢牢綁在戰車上

      伊朗已經下定決心,搶在美國動手之前,把俄羅斯牢牢綁在戰車上

      東極妙嚴
      2026-02-20 15:17:46
      貝加爾湖事故遇難者遺體已被發現,涉事司機為44歲當地男子,系私下接單;獲救者是來自江蘇省的一位男性

      貝加爾湖事故遇難者遺體已被發現,涉事司機為44歲當地男子,系私下接單;獲救者是來自江蘇省的一位男性

      都市快報橙柿互動
      2026-02-21 00:08:59
      痛心!樹齡1200年古樟持續燃燒7小時,只因倆小孩隨手扔爆竹……

      痛心!樹齡1200年古樟持續燃燒7小時,只因倆小孩隨手扔爆竹……

      環球網資訊
      2026-02-21 10:22:16
      拾石村媽祖被替后續: 女孩賬號曝光,當了八年被選定,今年滿18歲

      拾石村媽祖被替后續: 女孩賬號曝光,當了八年被選定,今年滿18歲

      離離言幾許
      2026-02-20 14:02:55
      王濛表態:只要祖國需要,我隨時到場,敢簽保2塊金牌的生死狀

      王濛表態:只要祖國需要,我隨時到場,敢簽保2塊金牌的生死狀

      風過鄉
      2026-02-21 09:09:53
      劃水雙巨全打瘋!東契奇首節17+4+4三分 約基奇19+3三分

      劃水雙巨全打瘋!東契奇首節17+4+4三分 約基奇19+3三分

      醉臥浮生
      2026-02-21 11:51:03
      22歲小伙長發大波浪回家被外甥叫阿姨

      22歲小伙長發大波浪回家被外甥叫阿姨

      觀威海
      2026-02-21 10:14:32
      中國游客貝加爾湖溺亡7人,1人來自深圳,目擊者稱2、3分鐘就沉了

      中國游客貝加爾湖溺亡7人,1人來自深圳,目擊者稱2、3分鐘就沉了

      九方魚論
      2026-02-21 01:34:21
      阿富汗是這個世界的好老師

      阿富汗是這個世界的好老師

      名人茍或
      2026-02-20 09:01:37
      第5枚金牌今夜18點45分!CCTV5直播,金牌榜反超日本隊看混合團體

      第5枚金牌今夜18點45分!CCTV5直播,金牌榜反超日本隊看混合團體

      老吳說體育
      2026-02-21 08:58:41
      毛奇、李佩霞2026年近況公布,兩人服刑結局給所有人提了醒

      毛奇、李佩霞2026年近況公布,兩人服刑結局給所有人提了醒

      娛樂督察中
      2026-02-21 03:23:47
      貝加爾湖底的七名中國游客,本來是可以不用死的

      貝加爾湖底的七名中國游客,本來是可以不用死的

      未來展望
      2026-02-21 00:23:41
      古巴高調反美!美國為啥不打古巴?因為古巴是最“先進”的國家

      古巴高調反美!美國為啥不打古巴?因為古巴是最“先進”的國家

      南宮一二
      2026-01-10 17:41:19
      女子除夕夜在洗浴中心浴池門口被人錄像,洗浴中心稱公共區域直播很正常,律師:公共區域未經允許直播同樣涉嫌侵權

      女子除夕夜在洗浴中心浴池門口被人錄像,洗浴中心稱公共區域直播很正常,律師:公共區域未經允許直播同樣涉嫌侵權

      大象新聞
      2026-02-20 21:52:07
      哈登18+8加盟全勝!騎士險勝黃蜂豪取7連勝 米切爾32分克努33分

      哈登18+8加盟全勝!騎士險勝黃蜂豪取7連勝 米切爾32分克努33分

      醉臥浮生
      2026-02-21 10:31:52
      2月20日俄烏最新:無比強硬的停火條件

      2月20日俄烏最新:無比強硬的停火條件

      西樓飲月
      2026-02-20 20:02:11
      “趕緊還錢!”關稅政策被判違法后,加州州長呼吁美政府立即“連本帶利”退還稅款

      “趕緊還錢!”關稅政策被判違法后,加州州長呼吁美政府立即“連本帶利”退還稅款

      環球網資訊
      2026-02-21 09:38:25
      2026-02-21 12:12:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12323文章數 142570關注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      7名中國游客貝加爾湖遇難:冰面裂縫約3米 在打撈遺體

      頭條要聞

      7名中國游客貝加爾湖遇難:冰面裂縫約3米 在打撈遺體

      體育要聞

      冬奧第一"海王"?一人和13國選手都有關系

      娛樂要聞

      鏢人反超驚蟄無聲拿下單日票房第二!

      財經要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔當”來了 方程豹首款轎車路跑信息曝光

      態度原創

      家居
      手機
      房產
      旅游
      游戲

      家居要聞

      本真棲居 愛暖伴流年

      手機要聞

      蘋果史上首款折疊屏手機!iPhone Fold參數匯總:今年發布

      房產要聞

      窗前即地標!獨占三亞灣C位 自貿港總裁行宮亮相

      旅游要聞

      馬年新春人氣旺 華夏城海洋館人氣爆棚

      老任意外泄露重磅消息!《DOOM黑暗時代》或登NS2

      無障礙瀏覽 進入關懷版