<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      只靠國產算力預訓練,穩!全流程開源,「開元」盛世真來了

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導讀】當算力受限、數據參差,如何訓練出高效可用的端側模型?鵬城實驗室聯合清華不僅給出了答案,更將每一步都開源共享。

      如果實驗室只有國產算力、有限資源與開源數據,能否玩轉端側模型的預訓練?

      鵬城實驗室與清華大學PACMAN實驗室聯合發布了鵬城腦海?2.1?開元?2B(PCMind?2.1?Kaiyuan?2B,簡稱開元?2B)模型,并以全流程開源的方式回應了這一挑戰——從訓練數據、數據處理框架、訓練框架、完整技術報告到最終模型權重,全部開源。


      模型鏈接:https://huggingface.co/thu-pacman/PCMind-2.1-Kaiyuan-2B

      數據集:https://huggingface.co/datasets/thu-pacman/PCMind-2.1-Kaiyuan-2B

      技術報告:https://arxiv.org/abs/2512.07612

      數據處理框架:https://github.com/thu-pacman/Kaiyuan-Spark

      訓練框架:https://github.com/thu-pacman/kaiyuan-mindformers


      此次開源不僅為國內研究者提供了一條可復現、可迭代的技術路徑,也展現了在國產計算平臺上實現高效、穩定預訓練的完整解決方案。

      開元?2B的訓練依托鵬城腦海 2計算平臺,數據處理基于華為鯤鵬920,訓練系統基于華為昇騰 910A

      由于昇騰910A僅支持FP16精度(類似于NVIDIA V100),訓練穩定性成為首要挑戰。

      為此,研究團隊在 Qwen3?1.7B 的架構基礎上,引入了三明治范數(Sandwich Norm)軟裁剪(Soft Clipping)兩項關鍵技術。

      三明治范數在Transformer每層前后保留歸一化層,有效控制梯度傳播中的數值范圍

      軟裁剪通過對輸出logits應用tanh非線性變換,將數值穩定在合理區間內,防止訓練發散




      加上三明治范數和軟裁剪前后的數值穩定性對比

      這些技術不僅使訓練在FP16環境下保持穩定,也為后續國產平臺上的大規模訓練提供了重要參考。

      開源數據

      去重、評價與高效利用

      當前開源預訓練數據規模已達TB級別,來源多樣、質量不均,如何從中篩選出高質量部分并制定混合策略,是訓練優質模型的基礎。

      開元?2B面對兩個核心問題:

      1. 如何從海量數據中篩選高質量子集?

      2. 如何在不同數據集之間建立統一的質量評價標準?


      全局去重的高效實現:Kaiyuan?Spark框架

      研究團隊開發了Kaiyuan?Spark數據處理框架,采用樹狀流水線設計,全程YAML配置管理,易于復現與擴展。

      結合諸葛弩計算框架進行本地加速,在 MinHash 去重任務中實現端到端2.5倍的加速比,高效完成TB級數據的全局模糊去重。

      分位標定(Quantile Benchmarking)

      為解決數據集之間質量標簽不可比的問題,團隊提出分位標定:通過設計小規模探針實驗,構建數據質量分數與下游任務表現之間的映射關系。


      分位標定流程示意圖

      具體做法為:從不同數據集中按質量分位數抽取多個子集,然后使用小規模模型進行訓練測試,最后根據下游任務表現反向標定各數據集的質量區間。

      該方法成本低、可遷移,為后續大規模訓練的數據配比提供了科學依據。

      關鍵發現

      基于分位標定,團隊得出若干有趣發現:

      數據集的優勢與任務類型相關

      Fineweb?Edu在知識問答與閱讀理解類任務上表現更好,DCLM?Baseline 在常識推理類任務中略有優勢。


      DCLM Baseline和Fineweb-Edu在MMLU和WinoGrande上的分位標定結果

      同一數據集內部質量差異巨大

      最高與最低質量數據在ARC?Easy上的表現相差可達8%?15%


      DCLM Baseline和Fineweb-Edu在ARC-Easy上的分位標定結果

      可以看到,高質量數據占比雖小,卻是提升模型能力的關鍵。

      數據利用策略

      動態調整與課程學習

      針對數據分布不均的問題,開元?2B提出三個策略。

      多階段動態比例調整

      隨著訓練推進,逐步提升數學、代碼、中文等領域數據的比例,緩解模型遺忘,使關鍵領域在訓練后期得到充分學習。


      多階段調整數據比例

      策略性數據重復


      小規模實驗表明,對高質量數據進行適度重復訓練,效果優于單輪訓練。開元?2B在訓練后期逐步提高高質量數據的重復比例。

      以Fineweb-Edu為例:Top 10%的高質量數據在整個訓練過程中出現多次,中低質量數據僅出現一次,從而優化數據效用分布。


      Fineweb-Edu在多階段訓練中采樣比例變化

      多領域混合課程學習

      研究團隊提出Curriculum Decay Model Average,在課程學習的基礎上引入權重平均,緩解訓練噪聲,提升收斂穩定性。


      論文鏈接:https://arxiv.org/abs/2511.18903

      該方法通過領域內質量排序領域間比例均衡的結合,實現多領域數據的漸進式學習。


      學習率衰減會影響課程學習效果


      不同學習率衰減條件下,最優的課程學習+權重平均配置(Ascend+EMA)要強于最優的常見做法(Uniform+WSD)


      多領域課程的實現

      配合精心設計的學習率調度方案,模型在高質量數據上得以充分學習,最終在多類評測中接近千問系列(僅開源權重)的模型表現。

      全流程開源

      推動國產AI生態共建

      開元?2B不僅是一次端側模型訓練的實踐,更是一次全棧開源、全流程透明的技術示范。

      從數據處理框架Kaiyuan?Spark、訓練數據集,到數據評價體系、課程學習策略,所有環節均公開可復現。訓練中涉及的所有原始數據集均具有寬松的開源協議(如CC、Apache、MIT、ODC等,詳細列表技術報告附錄B),個人、院校、企業均可自由使用,進一步提升了訓練的可復現性。

      注:目前部分聲稱「開放」的公開數據集,事實上本身并非使用自由許可證授權,或者間接混入了帶有非自由許可證的原始數據;另有大量的公開數據集,對來源數據的許可證未加任何篩選或說明。在模型訓練中使用此類數據集并發布或使用,都可能帶來潛在的法律合規風險。

      這為國內研究者在國產算力平臺上開展模型預訓練提供了完整工具箱,也為構建開放、協作的 AI 研發生態邁出堅實一步。

      模型權重、技術報告與相關代碼已在官方平臺發布,歡迎開發者、研究者共同參與測試、改進與拓展。

      結語

      真正的技術進步源自開放的協作與共享,開元?2B是一個起點,未來與社區一起,在國產算力的土壤上,生長出更多創新的AI成果,從開元系列,開啟國產算力訓練的「開元盛世」

      附錄









      左右滑動查看

      參考資料:

      秒追ASI

      ?點贊、轉發、在看一鍵三連?

      點亮星標,鎖定新智元極速推送!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      噴垃圾話+跳舞慶祝,杜蘭特打嗨了!轟31分6板5助讓三人認清現實

      噴垃圾話+跳舞慶祝,杜蘭特打嗨了!轟31分6板5助讓三人認清現實

      鍋子籃球
      2025-12-21 12:19:16
      火力全開擊潰世界第二!石宇奇2-0昆拉武特,劍指賽季單打第六冠

      火力全開擊潰世界第二!石宇奇2-0昆拉武特,劍指賽季單打第六冠

      釘釘陌上花開
      2025-12-20 20:43:24
      李小璐寫真生圖高清

      李小璐寫真生圖高清

      翩翩明星
      2025-11-14 09:39:36
      最后一周,歐洲承諾出兵烏克蘭,特朗普定調,俄軍3年白打了?

      最后一周,歐洲承諾出兵烏克蘭,特朗普定調,俄軍3年白打了?

      非凡觀點
      2025-12-20 10:43:43
      盧偉冰曬小米17 Ultra煙花樣張:最強夜神實至名歸

      盧偉冰曬小米17 Ultra煙花樣張:最強夜神實至名歸

      快科技
      2025-12-21 00:02:06
      特朗普親自出手要人,喊話釋放黎智英,中方用了六個字回應

      特朗普親自出手要人,喊話釋放黎智英,中方用了六個字回應

      兵說
      2025-12-20 10:29:21
      一天7場!張水華連續周日上班均未參賽 最近僅3小時車程 無緣8千

      一天7場!張水華連續周日上班均未參賽 最近僅3小時車程 無緣8千

      念洲
      2025-12-21 09:19:27
      60歲郭富城現身香港街頭,他現實中外形很一般,個子很矮。

      60歲郭富城現身香港街頭,他現實中外形很一般,個子很矮。

      TVB的四小花
      2025-12-21 02:40:29
      羅永浩又開炮!開通1000兆寬帶下載只有90多兆,上海電信壓力來了

      羅永浩又開炮!開通1000兆寬帶下載只有90多兆,上海電信壓力來了

      火山詩話
      2025-12-19 06:40:20
      西甲最新積分戰報:前2只差1分,皇馬連勝,萊萬特補時絕平

      西甲最新積分戰報:前2只差1分,皇馬連勝,萊萬特補時絕平

      足球狗說
      2025-12-21 06:56:42
      120多萬的卡宴只要60多萬?很多網友激動了!打飛的到海南買進口車,可行嗎?

      120多萬的卡宴只要60多萬?很多網友激動了!打飛的到海南買進口車,可行嗎?

      都市快報橙柿互動
      2025-12-19 18:00:00
      泰軍宣布重創柬埔寨!繳獲大批中國造導彈!打到洪森父子投降?

      泰軍宣布重創柬埔寨!繳獲大批中國造導彈!打到洪森父子投降?

      深度報
      2025-12-17 23:06:04
      波蘭總統當面向澤連斯基“發難”:烏克蘭人不知感激

      波蘭總統當面向澤連斯基“發難”:烏克蘭人不知感激

      參考消息
      2025-12-20 21:25:31
      普京參觀圖-160制造廠,亮家底:確實夠中國至少追趕二十年

      普京參觀圖-160制造廠,亮家底:確實夠中國至少追趕二十年

      我心縱橫天地間
      2025-12-20 21:21:26
      普京拒付金正恩派兵報酬,因朝鮮軍隊戰績不佳,僅支付20%報酬

      普京拒付金正恩派兵報酬,因朝鮮軍隊戰績不佳,僅支付20%報酬

      環球熱點快評
      2025-12-17 09:19:03
      《阿凡達3》首映遭遇放映“滑鐵盧”:版本多,分辨率高,幀率翻倍,不少影院放映系統不堪重負

      《阿凡達3》首映遭遇放映“滑鐵盧”:版本多,分辨率高,幀率翻倍,不少影院放映系統不堪重負

      揚子晚報
      2025-12-20 13:24:32
      毛主席的表哥文運昌,赴京期間飲酒無度,被毛主席責令返鄉,直至離世前,心中仍對此事耿耿于懷未能放下

      毛主席的表哥文運昌,赴京期間飲酒無度,被毛主席責令返鄉,直至離世前,心中仍對此事耿耿于懷未能放下

      桃煙讀史
      2025-12-20 18:19:16
      美術學院館長調包143件文物,價值上億!死后幾年還在被追贓

      美術學院館長調包143件文物,價值上億!死后幾年還在被追贓

      收藏大視界
      2025-12-20 21:49:12
      火箭115-101掘金!贏球不是關鍵,而是申京和杜蘭特做出兩大改變

      火箭115-101掘金!贏球不是關鍵,而是申京和杜蘭特做出兩大改變

      魚崖大話籃球
      2025-12-21 11:16:28
      朝鮮最高領導人金正恩:音響一定要最響的

      朝鮮最高領導人金正恩:音響一定要最響的

      微微熱評
      2025-12-21 00:17:11
      2025-12-21 12:32:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14146文章數 66392關注度
      往期回顧 全部

      科技要聞

      生態適配已超95% 鴻蒙下一關:十萬個應用

      頭條要聞

      山西宣布廢除煙花爆竹"禁放令" 網友:年味回來了

      頭條要聞

      山西宣布廢除煙花爆竹"禁放令" 網友:年味回來了

      體育要聞

      送快船西部墊底!鵜鶘大勝步行者獲4連勝

      娛樂要聞

      鹿晗關曉彤戀愛期間毫不避諱?

      財經要聞

      百年老店陷貼牌爭議 同仁堂必須作出取舍

      汽車要聞

      -30℃,標致508L&凡爾賽C5 X冰雪"大考"

      態度原創

      時尚
      數碼
      旅游
      藝術
      公開課

      中年女人,冬天這么穿羽絨服、大衣,優雅都藏在這3個細節里

      數碼要聞

      三年耐用性測試揭示:OLED電視可靠性明顯高于LCD

      旅游要聞

      2025年貴陽市溫泉季啟動

      藝術要聞

      懸崖頂上藏了只“天眼”?廣西這個村,看一眼就忘不掉!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩精品国产二区三区| 久久国内视频| 中文字幕欧美人妻精品一区| 粗壮挺进人妻水蜜桃成熟| 国产成人无码A区在线观看视频| 一本色道婷婷久久欧美| 桦川县| 8050午夜二级无码中文字幕| 99精品久久久久久无码| 中文字幕亚洲亚洲精品| 亚洲AV秘?成人久久无码海归 | 人人摸人人搞人人透| 伊人在线亚洲| 国产爆乳美女娇喘呻吟| 自拍偷拍欧美| 国产精品亚洲一区二区三区 | 成人网站免费观看永久视频下载 | 国产人妻一区二区三区四区五区六 | 国产suv精品一区二区33| 蜜臀久久99精品久久久酒店新书| 亚洲国产成人精品无码区在线观看| 99精品视频在线观看| 亚洲欧美日韩一区在线观看| 亚洲欧洲精品国产二码| 人妻少妇久久久久久97人妻| 国产口爆吞精在线视频2020版| 两个人看的www免费视频中文| 黑人巨茎大战欧美白妇| 无码人妻视频一区二区三区| 精品无码国产一区二区三区AV| 国产亚洲欧美日韩俺去了| 久久国模吧| 蜜臀av午夜精品福利| 成人午夜免费无码视频在线观看| 日韩性色| 国产精品日韩av在线播放| 札达县| 国产精品久线在线观看| 久久影院午夜理论片无码| 亚洲性天堂| 国产成人a人亚洲精品无码|