近日,埃隆·馬斯克在社交平臺(tái)稱贊中國人工智能公司月之暗面(Moonshot AI)Kimi團(tuán)隊(duì)的一項(xiàng)技術(shù)成果“令人印象深刻”。這項(xiàng)受到關(guān)注的新工作名為“注意力殘差”,旨在改進(jìn)大模型的底層信息傳遞結(jié)構(gòu),其技術(shù)論文的共同第一作者中,包括一位來自深圳的17歲在讀高中生陳廣宇。
![]()
陳廣宇在接受記者采訪時(shí)表示,希望外界少寫個(gè)人、多寫技術(shù)和團(tuán)隊(duì),不要為了熱點(diǎn)突出個(gè)人,這項(xiàng)工作是團(tuán)隊(duì)共同完成的成果。
![]()
該論文由陳廣宇、張宇、蘇劍林三人作為同等貢獻(xiàn)作者共同完成。其中,張宇是Kimi高效模型架構(gòu)的重要研究者,蘇劍林則是大模型旋轉(zhuǎn)位置編碼(RoPE)方法的提出者。陳廣宇在接受采訪時(shí)強(qiáng)調(diào),這是團(tuán)隊(duì)共同完成的成果,希望外界多關(guān)注技術(shù)本身。
當(dāng)前主流大模型普遍基于Transformer架構(gòu),但模型層與層之間的信息傳遞長期沿用較為固定的“殘差連接”方式。這種方法在層數(shù)加深時(shí),關(guān)鍵信息容易被稀釋。Kimi團(tuán)隊(duì)提出的“注意力殘差”提供了新思路:讓當(dāng)前層能夠主動(dòng)選擇并聚合前面層中更重要的信息,而非無差別傳遞全部內(nèi)容。
![]()
(傳統(tǒng)殘差連接與注意力殘差結(jié)構(gòu)對比圖)
這一改進(jìn)的意義在于,為提升大模型能力開辟了除堆疊參數(shù)和算力之外的新路徑——通過優(yōu)化底層結(jié)構(gòu)來提高信息利用效率。馬斯克評論這個(gè)論文時(shí)說:“Kimi的工作令人印象深刻。”
論文第一作者陳廣宇是深圳一所國際學(xué)校的高三學(xué)生。其社交媒體信息顯示,他已擁有頂尖競技編程背景,參加過美國計(jì)算機(jī)奧林匹克競賽鉑金組比賽,在Kimi內(nèi)部拿下48小時(shí)“黑客馬拉松”比賽冠軍。
陳廣宇通過自學(xué)經(jīng)典論文、追蹤開源項(xiàng)目打下基礎(chǔ),后因在社交平臺(tái)的技術(shù)分享獲得硅谷AI初創(chuàng)公司實(shí)習(xí)機(jī)會(huì),并于去年11月加入Kimi團(tuán)隊(duì)實(shí)習(xí)。在此期間,他在Kimi擔(dān)任機(jī)器學(xué)習(xí)研究員,參與中國最頂尖的開源大模型的核心研發(fā),并從“學(xué)生”變成“一線貢獻(xiàn)者”。
此前他入選羅德信托的高潛力未來領(lǐng)袖計(jì)劃,這是面向全球15~17歲潛力青年的選拔計(jì)劃。他還在美國頂尖小型實(shí)驗(yàn)室Tilde Research做過AI研究。
![]()
(陳廣宇個(gè)人網(wǎng)站,列有其參與的多個(gè)項(xiàng)目)
他一再表示,此次成績離不開團(tuán)隊(duì)中每一位成員的貢獻(xiàn)。對陳廣宇而言,17歲以第一作者身份主導(dǎo)Kimi這樣頂級獨(dú)角獸的核心架構(gòu)論文,堪稱“硅谷震動(dòng)級”事件,也讓全球AI圈注意到“中國高中生已經(jīng)在做前沿架構(gòu)創(chuàng)新”。陳廣宇說,kimi的成員都有投入,不少人作出同等貢獻(xiàn)。
來源:揚(yáng)子晚報(bào)/紫牛新聞?dòng)浾?宋世鋒,綜合深圳發(fā)布、深圳特區(qū)報(bào)
關(guān)注南京擇校矩陣媒體
與 1000000 家人共同成長
點(diǎn)喜歡
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.