17歲高中生破解AI底層難題，馬斯克公開點(diǎn)贊

2026-03-19 23:06:48　來源: 南京擇校

江蘇舉報(bào)

分享至

近日，埃隆·馬斯克在社交平臺(tái)稱贊中國人工智能公司月之暗面（Moonshot AI）Kimi團(tuán)隊(duì)的一項(xiàng)技術(shù)成果“令人印象深刻”。這項(xiàng)受到關(guān)注的新工作名為“注意力殘差”，旨在改進(jìn)大模型的底層信息傳遞結(jié)構(gòu)，其技術(shù)論文的共同第一作者中，包括一位來自深圳的17歲在讀高中生陳廣宇。

陳廣宇在接受記者采訪時(shí)表示，希望外界少寫個(gè)人、多寫技術(shù)和團(tuán)隊(duì)，不要為了熱點(diǎn)突出個(gè)人，這項(xiàng)工作是團(tuán)隊(duì)共同完成的成果。

該論文由陳廣宇、張宇、蘇劍林三人作為同等貢獻(xiàn)作者共同完成。其中，張宇是Kimi高效模型架構(gòu)的重要研究者，蘇劍林則是大模型旋轉(zhuǎn)位置編碼（RoPE）方法的提出者。陳廣宇在接受采訪時(shí)強(qiáng)調(diào)，這是團(tuán)隊(duì)共同完成的成果，希望外界多關(guān)注技術(shù)本身。

當(dāng)前主流大模型普遍基于Transformer架構(gòu)，但模型層與層之間的信息傳遞長期沿用較為固定的“殘差連接”方式。這種方法在層數(shù)加深時(shí)，關(guān)鍵信息容易被稀釋。Kimi團(tuán)隊(duì)提出的“注意力殘差”提供了新思路：讓當(dāng)前層能夠主動(dòng)選擇并聚合前面層中更重要的信息，而非無差別傳遞全部內(nèi)容。

（傳統(tǒng)殘差連接與注意力殘差結(jié)構(gòu)對比圖）

這一改進(jìn)的意義在于，為提升大模型能力開辟了除堆疊參數(shù)和算力之外的新路徑——通過優(yōu)化底層結(jié)構(gòu)來提高信息利用效率。馬斯克評論這個(gè)論文時(shí)說：“Kimi的工作令人印象深刻。”

論文第一作者陳廣宇是深圳一所國際學(xué)校的高三學(xué)生。其社交媒體信息顯示，他已擁有頂尖競技編程背景，參加過美國計(jì)算機(jī)奧林匹克競賽鉑金組比賽，在Kimi內(nèi)部拿下48小時(shí)“黑客馬拉松”比賽冠軍。

陳廣宇通過自學(xué)經(jīng)典論文、追蹤開源項(xiàng)目打下基礎(chǔ)，后因在社交平臺(tái)的技術(shù)分享獲得硅谷AI初創(chuàng)公司實(shí)習(xí)機(jī)會(huì)，并于去年11月加入Kimi團(tuán)隊(duì)實(shí)習(xí)。在此期間，他在Kimi擔(dān)任機(jī)器學(xué)習(xí)研究員，參與中國最頂尖的開源大模型的核心研發(fā)，并從“學(xué)生”變成“一線貢獻(xiàn)者”。

此前他入選羅德信托的高潛力未來領(lǐng)袖計(jì)劃，這是面向全球15~17歲潛力青年的選拔計(jì)劃。他還在美國頂尖小型實(shí)驗(yàn)室Tilde Research做過AI研究。

（陳廣宇個(gè)人網(wǎng)站，列有其參與的多個(gè)項(xiàng)目）

他一再表示，此次成績離不開團(tuán)隊(duì)中每一位成員的貢獻(xiàn)。對陳廣宇而言，17歲以第一作者身份主導(dǎo)Kimi這樣頂級獨(dú)角獸的核心架構(gòu)論文，堪稱“硅谷震動(dòng)級”事件，也讓全球AI圈注意到“中國高中生已經(jīng)在做前沿架構(gòu)創(chuàng)新”。陳廣宇說，kimi的成員都有投入，不少人作出同等貢獻(xiàn)。

來源：揚(yáng)子晚報(bào)/紫牛新聞?dòng)浾?宋世鋒，綜合深圳發(fā)布、深圳特區(qū)報(bào)

關(guān)注南京擇校矩陣媒體

與 1000000 家人共同成長

點(diǎn)喜歡

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.