<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      北航提出大模型Scaling Laws:編程語言差異與多語言最優(yōu)配比策略

      0
      分享至



      北航、人大和九坤投資共同撰寫的論文 《Scaling Laws for Code: Every Programming Language Matters》 整理而成。

      在代碼大模型(Code LLMs)的預(yù)訓(xùn)練中,行業(yè)內(nèi)長(zhǎng)期存在一種慣性思維,即把所有編程語言的代碼都視為同質(zhì)化的文本數(shù)據(jù),主要關(guān)注數(shù)據(jù)總量的堆疊。然而,現(xiàn)代軟件開發(fā)本質(zhì)上是多語言混合的,不同語言的語法特性、語料規(guī)模和應(yīng)用場(chǎng)景差異巨大。如果忽略這些差異,籠統(tǒng)地應(yīng)用通用的 Scaling Laws,往往會(huì)導(dǎo)致性能預(yù)測(cè)偏差和算力浪費(fèi)。

      為了打破這一黑盒,研究團(tuán)隊(duì)耗費(fèi)了相當(dāng)于 33.6 萬個(gè) H800 GPU 時(shí),進(jìn)行了超過 1000 次實(shí)驗(yàn)。研究覆蓋了從 0.2B 到 14B 的模型參數(shù)規(guī)模,以及高達(dá) 1T 的訓(xùn)練數(shù)據(jù)量,系統(tǒng)性地對(duì) Python、Java、JavaScript、TypeScript、C#、Go、Rust 這七種主流語言進(jìn)行了解構(gòu)。這項(xiàng)工作的核心貢獻(xiàn)在于建立了區(qū)分語言特性的 Scaling Laws,并據(jù)此提出了一套數(shù)學(xué)可解的最優(yōu)數(shù)據(jù)配比方案。



      • 論文:《Scaling Laws for Code: Every Programming Language Matters》
      • 論文鏈接:https://arxiv.org/abs/2512.13472



      圖 1:論文提出的多語言 Scaling Law 與傳統(tǒng)均勻分布基線的 Loss 對(duì)比。藍(lán)色曲線顯示,基于本文方法優(yōu)化的模型在相同算力下能持續(xù)獲得更低的 Loss)

      語言特異性:Python 潛力巨大,Rust 快速收斂









      圖 2:七種編程語言各自獨(dú)立的 Scaling Law 曲線。可以看到 Python(左上)的曲線斜率更陡峭,而 Rust(右下)則更早趨于平緩)

      協(xié)同效應(yīng)矩陣:語言間的 “近親繁殖” 與 “非對(duì)稱互助”

      在實(shí)際預(yù)訓(xùn)練中,我們很少只訓(xùn)練單語言模型。那么,混合多種語言訓(xùn)練是否存在 “協(xié)同效應(yīng)”(Synergy)?研究團(tuán)隊(duì)構(gòu)建了一個(gè)詳盡的協(xié)同增益矩陣,量化了引入輔助語言對(duì)目標(biāo)語言性能的影響。

      實(shí)驗(yàn)發(fā)現(xiàn),絕大多數(shù)語言都能從多語言混合訓(xùn)練中獲益,且收益大小與語法相似度高度相關(guān)。例如,Java 與 C#、JavaScript 與 TypeScript 這類語法結(jié)構(gòu)高度相似的語言對(duì),在混合訓(xùn)練時(shí)表現(xiàn)出極強(qiáng)的正向遷移效果。

      更有趣的是,這種遷移往往是非對(duì)稱的。Java是多語言訓(xùn)練的最大受益者,幾乎與任何語言混合都能大幅降低其 Loss,這可能是因?yàn)?Java 作為成熟的面向?qū)ο笳Z言,能從其他語言的范式中汲取通用邏輯。而Python雖然是代碼領(lǐng)域的通用 “供體”(幫助其他語言提升),但其自身從其他語言獲得的收益卻相對(duì)有限,甚至在某些混合比例下會(huì)出現(xiàn)輕微的負(fù)遷移。這一發(fā)現(xiàn)提示我們,在構(gòu)建語料庫時(shí)需要精細(xì)設(shè)計(jì)混合策略,而非盲目地 “大雜燴”。



      表 1:協(xié)同增益矩陣。紅色越深代表輔助語言(列)對(duì)目標(biāo)語言(行)的提升越大。Java 所在的行顯示出它能從所有輔助語言中獲得顯著收益)

      跨語言對(duì)齊策略:并行配對(duì)激發(fā) Zero-Shot 能力

      除了單語言生成,跨語言翻譯(如 Java 轉(zhuǎn) Python)也是代碼模型的重要能力。論文對(duì)比了兩種數(shù)據(jù)組織策略:傳統(tǒng)的“隨機(jī)打亂”(Random Shuffling)和“并行配對(duì)”(Parallel Pairing)—— 即將一段代碼與其翻譯版本拼接在同一個(gè) Context 中輸入模型。

      實(shí)驗(yàn)結(jié)果表明,并行配對(duì)策略在所有模型規(guī)模上均顯著優(yōu)于基線。這種策略實(shí)際上利用了模型的長(zhǎng)上下文窗口,構(gòu)建了隱式的文檔級(jí)對(duì)齊信號(hào)。更關(guān)鍵的是,這種策略激發(fā)了模型在Zero-Shot(零樣本)方向上的泛化能力。例如,模型僅訓(xùn)練了 Python?Java 和 Python?Go 的配對(duì)數(shù)據(jù),但在測(cè)試從未見過的 Java?Go 翻譯任務(wù)時(shí),基于并行配對(duì)訓(xùn)練的模型表現(xiàn)出了驚人的組合泛化能力。這證明了通過構(gòu)建以 Python 為樞紐的平行語料,可以有效拉齊不同編程語言的向量空間。



      圖 4:三種策略在跨語言翻譯任務(wù)上的表現(xiàn)對(duì)比。綠色線條代表的并行配對(duì)策略(Prompt-based Concatenation)在各方向上均取得最低 Loss)

      最優(yōu) Token 分配指南:基于邊際效用的經(jīng)濟(jì)學(xué)

      基于上述發(fā)現(xiàn),論文提出了“科學(xué)配比的多語言 Scaling Law”(Proportion-dependent Multilingual Scaling Law)。這不僅是一個(gè)理論公式,更是一套指導(dǎo)算力投資的行動(dòng)指南。

      在總算力固定的約束下,傳統(tǒng)的均勻分配并非最優(yōu)解。最優(yōu)策略應(yīng)遵循邊際效用最大化原則

      1. 重倉高潛力語言:大幅增加Python的 Token 占比,因?yàn)樗?Scaling 指數(shù)高,投入更多數(shù)據(jù)能帶來持續(xù)的性能爬坡。
      2. 平衡高協(xié)同組合:利用JavaScriptTypeScript的互補(bǔ)性,保持兩者適度的比例以最大化協(xié)同增益。
      3. 削減早熟語言投入:適當(dāng)減少RustGo的數(shù)據(jù)占比。因?yàn)樗鼈兪諗靠欤^多的數(shù)據(jù)投入只會(huì)帶來邊際收益的快速衰減,不如將這部分算力轉(zhuǎn)移給更難學(xué)的語言。

      實(shí)驗(yàn)驗(yàn)證顯示,采用這種 “引導(dǎo)式分配” 策略訓(xùn)練出的 1.5B 模型,在多語言代碼生成(MultiPL-E)和翻譯任務(wù)上,均穩(wěn)定優(yōu)于均勻分配的基線模型,且沒有任何一種語言因數(shù)據(jù)減少而出現(xiàn)顯著的性能退化。



      圖 5:基線策略 vs 優(yōu)化后的 Token 分配方案。基于 Scaling Law 的建議大幅增加了 Python(藍(lán)色)的占比,同時(shí)削減了 Rust(橙色)和 Go(青色)的占比)

      總結(jié)與啟示

      這項(xiàng)工作是代碼大模型領(lǐng)域一次重要的 “去魅” 過程。它用詳實(shí)的數(shù)據(jù)證明,編程語言在模型訓(xùn)練的視角下絕非同質(zhì)。

      對(duì)于致力于訓(xùn)練 Code LLM 的團(tuán)隊(duì)而言,這意味著數(shù)據(jù)工程的重點(diǎn)應(yīng)從單純的 “清洗與去重” 轉(zhuǎn)向更宏觀的 “成分配比”。理解不同語言的 Scaling 特性(是像 Python 一樣潛力巨大,還是像 Rust 一樣迅速飽和)以及它們之間的協(xié)同關(guān)系,能夠幫助我們?cè)谟邢薜乃懔︻A(yù)算下,訓(xùn)練出綜合代碼能力更強(qiáng)的基座模型。這不僅是算法的優(yōu)化,更是資源配置效率的提升。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      一個(gè)月后,中洪恐?jǐn)嘟唬槎祭剐驴偨y(tǒng):中國(guó)大陸不給我們好處

      一個(gè)月后,中洪恐?jǐn)嘟唬槎祭剐驴偨y(tǒng):中國(guó)大陸不給我們好處

      博覽歷史
      2025-12-25 18:31:13
      克萊:我希望庫里別穿著我的KT11贏獨(dú)行俠,但他穿就挺棒的了

      克萊:我希望庫里別穿著我的KT11贏獨(dú)行俠,但他穿就挺棒的了

      懂球帝
      2025-12-26 17:35:07
      烏度卡:擁有謝潑德的投射是一種奢侈,他的擋拆越來越好了

      烏度卡:擁有謝潑德的投射是一種奢侈,他的擋拆越來越好了

      懂球帝
      2025-12-26 15:28:10
      龐家還有后手,捐贈(zèng)記錄不僅完好無損,還在龐氏舊宅公開展出

      龐家還有后手,捐贈(zèng)記錄不僅完好無損,還在龐氏舊宅公開展出

      扶蘇聊歷史
      2025-12-26 17:45:17
      最后一天!國(guó)乒競(jìng)聘已有30人報(bào)名,孔令輝、張繼科、鄧亞萍被熱議

      最后一天!國(guó)乒競(jìng)聘已有30人報(bào)名,孔令輝、張繼科、鄧亞萍被熱議

      曹說體育
      2025-12-25 15:00:28
      金融圈炸鍋!中信建投連續(xù)兩人栽了,“投行第一美女”也沒逃過

      金融圈炸鍋!中信建投連續(xù)兩人栽了,“投行第一美女”也沒逃過

      金融八卦女
      2025-12-26 14:59:39
      1996年,士兵見一位 71 歲老人受凍,好心帶他進(jìn)軍營(yíng)取暖,誰料老人見到首長(zhǎng)竟高聲呼喊:任務(wù)已完成!

      1996年,士兵見一位 71 歲老人受凍,好心帶他進(jìn)軍營(yíng)取暖,誰料老人見到首長(zhǎng)竟高聲呼喊:任務(wù)已完成!

      文史明鑒
      2025-12-25 17:31:12
      他接受紀(jì)律審查和監(jiān)察調(diào)查

      他接受紀(jì)律審查和監(jiān)察調(diào)查

      錫望
      2025-12-26 13:29:55
      哪些事是外國(guó)人到中國(guó)后才知道的?網(wǎng)友:你來天朝!你就漲知識(shí)吧

      哪些事是外國(guó)人到中國(guó)后才知道的?網(wǎng)友:你來天朝!你就漲知識(shí)吧

      帶你感受人間冷暖
      2025-12-24 00:10:09
      “請(qǐng)的阿姨一口剩菜都不吃?”高薪保姆的分寸感,刺痛多少雇主?

      “請(qǐng)的阿姨一口剩菜都不吃?”高薪保姆的分寸感,刺痛多少雇主?

      另子維愛讀史
      2025-12-26 16:05:01
      美軍火還未抵臺(tái),洪秀柱突然表態(tài),大陸告知臺(tái)當(dāng)局,祖國(guó)必將統(tǒng)一

      美軍火還未抵臺(tái),洪秀柱突然表態(tài),大陸告知臺(tái)當(dāng)局,祖國(guó)必將統(tǒng)一

      始于初見見
      2025-12-26 19:00:55
      60:51票!臺(tái)島彈劾提案通過,賴清德時(shí)代或告終,盧秀燕一針見血

      60:51票!臺(tái)島彈劾提案通過,賴清德時(shí)代或告終,盧秀燕一針見血

      時(shí)時(shí)有聊
      2025-12-26 16:52:03
      汪文斌人民日?qǐng)?bào)撰文:中柬鐵桿友誼值得倍加珍惜

      汪文斌人民日?qǐng)?bào)撰文:中柬鐵桿友誼值得倍加珍惜

      看看新聞Knews
      2025-12-25 20:12:06
      印度在這四個(gè)領(lǐng)域,悄悄領(lǐng)先了中國(guó)?這些數(shù)據(jù)讓人不得不服

      印度在這四個(gè)領(lǐng)域,悄悄領(lǐng)先了中國(guó)?這些數(shù)據(jù)讓人不得不服

      知識(shí)TNT
      2025-12-25 11:03:56
      克宮為什么拒絕“和平計(jì)劃”?給俄粉們普及一下常識(shí),預(yù)報(bào)一大捷

      克宮為什么拒絕“和平計(jì)劃”?給俄粉們普及一下常識(shí),預(yù)報(bào)一大捷

      鷹眼Defence
      2025-12-25 18:33:03
      絕不回頭!洪都拉斯女總統(tǒng)霸氣放話:明年準(zhǔn)時(shí)交權(quán),不給美國(guó)擦鞋

      絕不回頭!洪都拉斯女總統(tǒng)霸氣放話:明年準(zhǔn)時(shí)交權(quán),不給美國(guó)擦鞋

      知法而形
      2025-12-26 09:35:18
      跨年檔15部影片定檔!懸疑戰(zhàn)爭(zhēng)成主流,成龍?zhí)栒倭Σ患芽靿|底

      跨年檔15部影片定檔!懸疑戰(zhàn)爭(zhēng)成主流,成龍?zhí)栒倭Σ患芽靿|底

      萌神木木
      2025-12-26 14:47:52
      溥儀的七叔載濤騎著自行車上下班,毛主席得知這一情況后,當(dāng)場(chǎng)特批:可以對(duì)他予以照顧嘛

      溥儀的七叔載濤騎著自行車上下班,毛主席得知這一情況后,當(dāng)場(chǎng)特批:可以對(duì)他予以照顧嘛

      老杉說歷史
      2025-12-24 18:46:11
      不打了!廣東最大對(duì)手慘遭重創(chuàng),男籃第一中鋒因傷缺陣!

      不打了!廣東最大對(duì)手慘遭重創(chuàng),男籃第一中鋒因傷缺陣!

      緋雨兒
      2025-12-26 16:14:37
      你聽過最勁爆的瓜是啥?網(wǎng)友:被大八歲的補(bǔ)習(xí)班老師表白了

      你聽過最勁爆的瓜是啥?網(wǎng)友:被大八歲的補(bǔ)習(xí)班老師表白了

      帶你感受人間冷暖
      2025-11-26 00:10:06
      2025-12-26 19:44:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12000文章數(shù) 142520關(guān)注度
      往期回顧 全部

      科技要聞

      收割3000億!拼多多"土辦法"熬死所有巨頭

      頭條要聞

      女老板補(bǔ)辦合作伙伴身份證轉(zhuǎn)走600多萬 事后僅被拘5天

      頭條要聞

      女老板補(bǔ)辦合作伙伴身份證轉(zhuǎn)走600多萬 事后僅被拘5天

      體育要聞

      開翻航母之后,他決定親手造一艘航母

      娛樂要聞

      王傳君生病后近照變化大,面部浮腫

      財(cái)經(jīng)要聞

      投資巨鱷羅杰斯最新持倉:只留四種資產(chǎn)

      汽車要聞

      兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測(cè)

      態(tài)度原創(chuàng)

      教育
      房產(chǎn)
      數(shù)碼
      藝術(shù)
      軍事航空

      教育要聞

      孩子只“指”不“說”?三招引導(dǎo)他主動(dòng)開口

      房產(chǎn)要聞

      炸裂,三亞360億超級(jí)清單發(fā)布,又一批重大配套要來了!

      數(shù)碼要聞

      七彩虹RTX 5060 Ti Mini OC顯卡評(píng)測(cè):小巧又強(qiáng)悍,ITX機(jī)箱絕配

      藝術(shù)要聞

      William Dyce:19世紀(jì)蘇格蘭重要的畫家

      軍事要聞

      烏最新20點(diǎn)俄烏和平草案遞交莫斯科 俄方拒絕

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: а天堂中文最新一区二区三区 | 202丰满熟女妇大| 免费极品av一视觉盛宴| 美女又黄又免费的视频| 久久久久久久久熟女AV| 亚洲成人精品免费| 国产偷人爽久久久久久老妇app| 日韩精品一区二区三区中文| 91视频网站| 甘洛县| 日本无遮挡真人祼交视频| 国产精品一区二区三乱码| 内射极品少妇xxxxxhd| 日韩精品社区| 亚洲国产高清在线观看视频| 国产看真人毛片爱做a片| 亚洲精品欧美综合二区| 天天躁日日躁狠狠躁av麻豆| 中文字幕日韩精品有码| 亚洲成人动漫在线| wwww亚洲熟妇久久久久| 免费观看成人欧美www色| 成人国内精品久久久久一区| 久久精品国产亚洲夜色av网站| 成人另类小说| 久久99精品国产| 亚洲成人在线黄网| 欧美A视频| 亚洲一本大道在线| 久久偷拍视频| 亚洲中文无码永久免| 欧美日韩精品一区二区三区在线| 亚洲欧洲AV| 一区二区三区视频| 91在线播| 嗯91色色| 欧美午夜精品一区二区三区电影| 日韩丝袜亚洲国产欧美一区| 无码人妻AⅤ一区二区三区A片一| 国产精品无码专区| 无人区码一码二码w358cc|