<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      北大聯合Llama-Factory推出DataFlex:工業級數據動態訓練系統

      0
      分享至



      當大模型訓練進入深水區,競爭的關鍵已經不再只是「模型參數怎么調」,而逐漸轉向一個更核心、也更難系統解決的問題:模型在訓練過程中究竟看到了什么數據、以什么比例看到、哪些樣本應該被更頻繁地學習。

      這些因素正在越來越直接地決定訓練效率、泛化能力以及最終模型性能。

      圍繞數據選擇、數據混合和樣本重加權,學術界已經提出了不少方法。但長期以來,這些方法大多分散在彼此獨立的代碼倉庫中:接口不統一、訓練流程不一致、復現門檻高、橫向比較困難。

      更重要的是,很多方法依賴 embedding、模型打分、梯度或中間推理信號,真正難的從來不是「提出一個方法」,而是把這些方法穩定、可復現地接入主流訓練流程,并納入一套統一的訓練閉環。

      近日,北京大學張文濤教授、鄂維南院士團隊,聯合 LLaMA-Factory Team、OpenDataLab、上海 AI Lab 等機構,推出了面向大模型訓練過程的數據中心動態訓練框架 DataFlex。

      它并不是單一算法或若干腳本的簡單堆疊,而是一套建立在 LLaMA-Factory 之上的統一訓練基礎設施:將動態樣本選擇、動態數據混合、動態樣本加權三類核心能力真正納入訓練過程,使「數據如何參與訓練」從經驗式配置,升級為可控制、可優化、可復現的系統能力。

      換句話說,DataFlex 試圖解決的,并不只是某一個訓練技巧是否有效,而是一個更底層的系統問題:如何讓數據像模型參數一樣,成為訓練過程中可以持續調度和優化的核心對象。

      這使它既可以作為研究平臺,用于系統比較不同數據中心訓練算法;也可以作為實用系統,直接服務于大模型預訓練、后訓練和領域適配等場景。

      DataFlex 發布后,在 Hugging Face Daily Papers 榜單中迅速獲得廣泛關注并拿到了月榜第一。這種關注背后所反映的,本質上是社區對「數據中心動態訓練」從理論走向工程閉環的里程碑式認可。





      DataFlex 不只是一個算法倉庫,而是一套數據中心訓練基礎設施

      • 可復現的研究平臺:在統一訓練框架下系統比較動態數據混合、樣本選擇和樣本加權等數據中心訓練方法,覆蓋在線與離線場景,顯著降低研究復現與方法對比成本;
      • 面向真實訓練的優化系統:將數據選擇、數據配比和樣本權重調節真正接入訓練閉環,使數據從「靜態輸入」變成「可持續調度的優化對象」,從而提升訓練效率與最終模型效果。

      • 技術報告:https://arxiv.org/abs/2603.26164
      • 官方文檔:https://opendcai.github.io/DataFlex-Doc/
      • Github 倉庫:https://github.com/OpenDCAI/DataFlex

      DataFlex:大模型工業化數據調用的最后一塊拼圖

      設計哲學:告別靜態投喂,把「數據調度」變成開箱即用的系統能力



      1.核心概念:Data-Centric Dynamic Training System

      DataFlex 的核心,不僅僅是再發一遍「數據很重要」的老生常談,而是直擊行業的最痛點:如何把「模型看什么數據、按什么比例看、優先強化哪些樣本」這種玄學經驗,真正固化為可配置、可調度、可復現的標準化系統能力。它不僅僅關注參數的梯度更新,更死死盯住了數據在每一步訓練中的真實參與度。

      1.1從「填鴨式靜態輸入」到「數據主動調度」

      傳統的大模型訓練中,數據往往被視為預先準備好的靜態輸入:數據集先確定,采樣方式先寫死,訓練過程中主要被持續優化的是模型參數本身。但當訓練數據規模越來越大、來源越來越復雜時,真正決定效果的,已經不只是「有沒有更多數據」,而是「訓練時能否更聰明地使用數據」。

      Data-centric dynamic training 的核心思想,是把數據從「被動輸入」提升為「主動調度對象」。系統不僅要決定模型看哪些數據,還要動態決定不同數據源如何配比、哪些樣本應被優先學習、哪些樣本應被降低權重。

      DataFlex 的價值,正是在于把這種原本零散、分散在不同方法和代碼中的能力,推進為統一、標準化的訓練機制。

      1.2零成本遷移的統一框架

      好的系統不應成為開發者的負擔。在動態調度之外,DataFlex 更進一步解決的是系統層問題:如何把原本分散的數據選擇、數據配比和數據重加權方法,統一納入同一套訓練基礎設施。

      一方面,DataFlex 建立在 LLaMA-Factory 之上,盡量復用已有的模型管理、數據處理和訓練組件;另一方面,它在訓練層引入統一的數據中心控制能力,使不同數據策略能夠在同一個訓練閉環中被實現、比較和擴展。

      因此,DataFlex 不是若干數據算法的簡單集合,而是一套面向大模型訓練過程的統一數據中心動態訓練系統。

      2.三個設計原則

      • 統一性:系統將數據中心訓練中的三個代表性范式統一納入了同一訓練框架;
      • 兼容性:系統能夠融入現有的大規模模型訓練基礎設施,而不是額外引入一套工作流;
      • 可擴展性:研究者可以以較低的工程成本實現并比較新的數據中心算法。

      整體架構



      DataFlex 延續了 LLaMA-Factory 易用、清晰的設計思路,但在整體架構上做了關鍵升級。其在不破壞現有訓練生態的前提下,把數據中心訓練真正做成了一套統一、可擴展、可復現、可落地的系統能力。整個系統大致可以分為三層:

      • 基礎層(Base Layer):這一層繼承自 LLaMA-Factory,負責模型管理、數據處理、優化器等通用訓練能力。系統在盡量保持原有訓練流程與使用習慣的同時,把擴展重點集中在數據中心訓練本身,降低了用戶從現有訓練流程遷移到 DataFlex 的門檻。
      • 訓練器層(Trainer Layer):它沒有沿用單一的原始 trainer,而是將訓練過程抽象為三種數據中心訓練模式,分別對應數據選擇、數據混合和樣本加權。這一層把訓練器從只負責參數更新,擴展為同時負責數據決策與參數優化。
      • 策略組件層(Component Layer):這里掛載的是具體算法組件,例如不同的 selector、mixer 和 weighter。它們各自封裝了不同方法的策略邏輯,并對訓練器暴露了統一接口。

      這種架構實現了輕量替換,而不是重構一切。DataFlex 并沒有在 LLaMA-Factory 外面再包一個復雜編排系統,而是聚焦于替換訓練層,并僅在需要時對數據加載等模塊做最小擴展。

      對用戶來說,這接近一種「即插即用」的增強:已有的模型、數據集、訓練參數配置都可以保留,只需要增加 DataFlex 相關配置,就能切換到以數據為中心的動態訓練模式。

      此外,DataFlex 還統一封裝了數據中心方法普遍依賴的模型中間信號,比如 embedding 提取、模型推理、梯度計算等。很多數據選擇和數據加權方法真正難落地,不是因為思想復雜,而是因為它們依賴的中間信號獲取成本高、工程耦合重。DataFlex 把這類共享能力抽象出來,降低了實現和擴展門檻,也為后續大規模訓練提供了基礎。

      核心功能

      1.三個核心訓練器

      對應當前數據中心訓練中典型的三種優化方向,DataFlex 支持三類核心訓練器:

      • 動態樣本選擇訓練器(Dynamic Select Trainer):在訓練過程中動態篩選更有價值的訓練樣本,減少低價值或冗余樣本對訓練預算的消耗,從而提升訓練效率。
      • 動態數據混合訓練器(Dynamic Mix Trainer):面向多來源、多領域訓練數據場景,在訓練過程中動態調整不同數據源的采樣比例,使模型能夠根據當前學習狀態更合理地分配訓練注意力。
      • 動態樣本加權訓練器(Dynamic Weight Trainer):針對不同樣本賦予不同訓練權重,使模型能夠對更關鍵、更困難或更具代表性的樣本進行更有效學習,從而改善模型性能與泛化能力。

      2.算法集成與可擴展性

      DataFlex 為三類訓練器集成了 LESS、DoReMi、ODM、Loss Reweighting 等代表性方法。所有方法都以可插拔組件的形式,在統一接口下實現,從而能夠在受控條件下進行公平比較。

      科研上許多極具代表性的動態訓練方法,要么缺乏官方倉庫,要么其官方實現存在難以復現的問題。DataFlex 通過系統化的重構,讓這些處于「失聯」或「半停滯」狀態的算法重新具備了工業級生產力。



      三類訓練器分工不同,但背后遵循的是同一種數據 — 模型交互邏輯:先觀察當前模型狀態,再給出新的數據決策,隨后把這一決策反饋到后續訓練中。

      DataFlex 正是把這種共性的交互模式抽象成統一接口,從而讓不同算法能夠共享訓練流程、基礎能力以及擴展方式。 DataFlex 的配置文件繼續沿用了 LLaMA-Factory 的基于 YAML 的格式,用于指定模型、數據集和訓練超參數。

      唯一新增的是一個簡短的 dataflex 配置段,用于告訴框架要采用哪種數據中心策略,以及如何對其進行調度。



      使用方式

      DataFlex 完全兼容 LlamaFactory 的配置和使用方式:

      • 配置兼容:在 LlamaFactory 配置基礎上添加 DataFlex 參數;
      • 命令一致:使用 dataflex-cli 替代 llamafactory-cli;
      • 功能保持:支持所有 LlamaFactory 的原有功能;
      • 無縫切換:可以通過 train_type: static 回退到原始訓練模式。

      環境配置、參數說明以及自定義組件接入方式,可進一步參考官方文檔。除此之外,我們還提供了兩期視頻教程,分別演示了動態數據混合與動態數據選擇的具體操作流程,便于初次上手的用戶快速理解。

      • 官方文檔:https://opendcai.github.io/DataFlex-Doc/
      • Github 倉庫:https://github.com/OpenDCAI/DataFlex
      • 視頻教程:

      - 自動數據選擇與動態訓練:https://b23.tv/BV1pHrKBoE6s

      - 自動優化數據配比:https://b23.tv/LYYx1hG

      實驗效果

      為了驗證 DataFlex 的有效性,團隊圍繞樣本選擇、數據混合和系統效率三方面進行了系統實驗,覆蓋 7 種數據選擇、2 種數據混合和 1 種數據重加權方法。整體結果表明,DataFlex 不僅能夠統一復現不同數據中心方法,還能在模型效果和訓練效率上帶來穩定提升。

      數據選擇與樣本加權:動態方法整體優于靜態訓練



      在 Open-Hermes-2.5 子集上的實驗顯示,無論是在 Mistral-7B 還是 Llama-3.2-3B 上,大多數動態數據中心方法都優于靜態全量訓練基線。這表明在模型容量有限的情況下,能夠實時感知模型狀態的動態選擇策略對于達到性能上限至關重要 。

      3.2 數據混合:動態配比優于默認配比



      在 SlimPajama 的 6B 和 30B 設置下,DoReMi 和 ODM 兩種數據混合算法都表現出了明顯優勢。在 6B token 規模下,動態數據混合方法已經展現出明顯優勢:ODM 在通用能力評測中的準確率高于默認靜態配比,而 DoReMi 則在整體困惑度上進一步取得更優結果,說明動態調整不同數據域的配比,確實能夠帶來更好的訓練收益。

      系統效率:統一框架不僅易用,而且高效



      除了效果提升,DataFlex 在效率上也有不錯表現。以 LESS 為例,在單卡設置下,DataFlex 在多個采樣比例上都實現了更低訓練耗時,例如在 1.0 比例下,訓練時間從 30,239 秒降到 28,734 秒,同時準確率從 40.38% 提升到 42.37%。進一步在 8 張 H20 GPU 上,訓練時間減少了 57.13%。



      對于 TSDS 這類離線選擇方法,DataFlex 的重實現也在不同數據規模下取得了穩定的 1%—3.5% 提速。

      構筑 AI 時代的數據生態

      當大模型技術演進跨越了架構探索的初級階段,行業的角逐核心已躍遷至「數據應用」的深水區。

      團隊(PKU-DCAI)致力于在 Data-Centric AI(以數據為中心的 AI)浪潮中,構筑支撐下一代 AI 應用的數據基礎設施。本次開源的 DataFlex 與團隊另一核心工作 DataFlow(3k+ Stars),共同為 AI 時代的數據應用確立了從源頭到閉環的全新范式。

      Github 倉庫:

      • https://github.com/OpenDCAI/DataFlow
      • https://github.com/OpenDCAI/DataFlex

      面向 AI 時代海量且混沌的真實世界信息,DataFlow 的使命是打造「高智力密度」的數據提煉工場。承接 DataFlow 提煉的高階數據,DataFlex 真正將「數據應用」的觸角深入到了模型訓練的原子層。它不僅是在加速模型的收斂,更是在系統層面控制模型的泛化能力與知識吸收軌跡,確保數據的潛在價值被極致地變現為 AI 的頂尖實戰能力。



      作者信息

      作者是來自北京大學的 DCAI 團隊,深耕于 AI 數據側的底層革新與系統落地,擁有該領域最前沿的算法儲備與工程經驗。

      梁昊:北京大學大數據科學研究中心博士,開源項目 DataFlow leader,第一作者 / 共同第一作者發表 9 篇 CCF-A 論文。

      趙正陽:北京大學大數據科學研究中心博士,開源項目 DataFlow 核心開發者,元樞智匯高級算法研究員。

      強美伊:北京大學軟件與微電子學院碩士,開源項目 DataFlow 核心開發者,發表期刊 / CCF-A 論文 7 篇。

      大家堅信,大模型競爭的終點不在于單一算法的博弈,而在于構建一套統一、高效、且可復現的數據中心化基礎設施。

      開源只是起點,生態需要共建。歡迎學術界與工業界的同仁關注、使用 OpenDCAI 系列開源項目,并與團隊進行深度的技術探討。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      CPO風向變了!新龍頭上位,老玩家退居二線

      CPO風向變了!新龍頭上位,老玩家退居二線

      記錄生活日常阿蜴
      2026-04-23 05:46:00
      太意外了!2032奧運舉辦地敲定:結果驚呆眾人,奧運格局大變!

      太意外了!2032奧運舉辦地敲定:結果驚呆眾人,奧運格局大變!

      晰知
      2026-04-23 04:55:15
      胖東來創始人于東來在巴丹吉林游玩逛當地超市:你做得非常好

      胖東來創始人于東來在巴丹吉林游玩逛當地超市:你做得非常好

      大象新聞
      2026-04-23 17:01:01
      夏鳳儉任山東省副省長

      夏鳳儉任山東省副省長

      新京報政事兒
      2026-04-23 11:16:09
      70年代,小時候的利智在西安興慶公園的留影

      70年代,小時候的利智在西安興慶公園的留影

      娛你同歡
      2026-04-23 12:26:45
      首次!日本導彈將對艦艇開火!中國:歷史會以相似的邏輯重現!

      首次!日本導彈將對艦艇開火!中國:歷史會以相似的邏輯重現!

      小莜讀史
      2026-04-23 17:15:02
      不可思議!現在的大學校園里有個很明顯的現象:男女生根本不談戀愛

      不可思議!現在的大學校園里有個很明顯的現象:男女生根本不談戀愛

      市井大實話
      2026-04-23 09:24:57
      杰倫格林23中8,砍21分7失誤!火箭太陽7換1交易,堪稱雙輸典范?

      杰倫格林23中8,砍21分7失誤!火箭太陽7換1交易,堪稱雙輸典范?

      熊哥愛籃球
      2026-04-23 20:50:32
      知名女歌手蘇州演唱會獲批

      知名女歌手蘇州演唱會獲批

      Today蘇州
      2026-04-23 17:20:54
      國際油價短線小幅拉升,截至目前,WTI原油期貨價格漲0.78%

      國際油價短線小幅拉升,截至目前,WTI原油期貨價格漲0.78%

      每日經濟新聞
      2026-04-23 20:56:08
      俄議員:俄羅斯希望回購中國航母,中方務必拆掉武器停止軍用

      俄議員:俄羅斯希望回購中國航母,中方務必拆掉武器停止軍用

      風雨與陽光
      2026-04-23 13:51:06
      遲重瑞放棄繼承陳麗華百億遺產,簽字那一刻,他終于解脫了!

      遲重瑞放棄繼承陳麗華百億遺產,簽字那一刻,他終于解脫了!

      可樂談情感
      2026-04-23 18:14:06
      北京官方:感謝維克特-貝利做出的貢獻,祝愿未來一切順利

      北京官方:感謝維克特-貝利做出的貢獻,祝愿未來一切順利

      懂球帝
      2026-04-23 16:50:10
      CBA常規賽大結局!最后一輪這7支球隊輸球就變天,遼寧也不例外

      CBA常規賽大結局!最后一輪這7支球隊輸球就變天,遼寧也不例外

      米果說識
      2026-04-23 09:54:42
      錢是有靈性的,記住以下六點,你會越來越有錢

      錢是有靈性的,記住以下六點,你會越來越有錢

      金沛的國學筆記
      2026-04-21 18:53:07
      倒查13年,央國企開始慌了

      倒查13年,央國企開始慌了

      新浪財經
      2026-04-23 02:44:17
      40萬元新車扎堆,中國新能源車飄了?

      40萬元新車扎堆,中國新能源車飄了?

      幫寧工作室
      2026-04-21 10:16:05
      已發生多起!手機13、15、17、18的用戶注意:這5類電話千萬別接

      已發生多起!手機13、15、17、18的用戶注意:這5類電話千萬別接

      娛樂圈見解說
      2026-04-23 17:43:00
      對陣火箭G3賽前,詹姆斯提醒湖人全隊警惕杜蘭特

      對陣火箭G3賽前,詹姆斯提醒湖人全隊警惕杜蘭特

      生活新鮮市
      2026-04-23 17:33:08
      互聯網是有記憶的,她的黑歷史一大堆啊!

      互聯網是有記憶的,她的黑歷史一大堆啊!

      BenSir本色說
      2026-04-15 22:38:07
      2026-04-23 21:48:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12839文章數 142634關注度
      往期回顧 全部

      科技要聞

      馬斯克喊出"史上最大產品",但量產難預測

      頭條要聞

      男子被境外虛擬貨幣黑平臺騙30萬 躺平不上班滿頭白發

      頭條要聞

      男子被境外虛擬貨幣黑平臺騙30萬 躺平不上班滿頭白發

      體育要聞

      萊斯特城降入英甲,一場虧麻了的豪賭

      娛樂要聞

      王大陸因涉黑討債被判 女友也一同獲刑

      財經要聞

      關于AI算力鏈"瓶頸" 這是高盛的最新看法

      汽車要聞

      令人驚艷的奇瑞車 風云A9可不只是樣子貨

      態度原創

      手機
      游戲
      本地
      家居
      公開課

      手機要聞

      史無前例!榮耀將首發萬級雙電芯電池+百瓦閃充組合

      PS輸麻了?幫對手狂賺數億美元 再也不需死守獨占

      本地新聞

      SAGA GIRLS 2026女團選秀

      家居要聞

      浪漫協奏 法式風格

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版