![]()
新智元報道
編輯:桃子
【新智元導讀】MIT天才博士,清華學霸肖光烜官宣,正式加盟Thinking Machines,下一步主攻大模型預訓練。
MIT天才博士一畢業,火速加盟OpenAI前CTO初創!
最近,肖光烜(Guangxuan Xiao)在社交媒體官宣,剛剛完成了MIT博士學位。
下一步,他將加入Thinking Machines,專注于大模型預訓練的工作。
![]()
評論區下方,英偉達科學家、xAI研究員、UCSD等一眾大佬,為他本人送上了祝賀。
![]()
![]()
清華雙學位學霸,MIT博士開掛人生
打開他的個人主頁,多元而充實的經歷便映入眼簾。
肖光烜本科畢業于清華大學,拿到了雙學位,主修的是計算機科學,金融學是第二學位。
![]()
在此期間,他獲得了清華大學綜合優秀獎學金(2019)、全國大學生數學建模競賽(CUMCM)一等獎(2020)、國家獎學金(2020)、清華大學「未來學者」獎學金(2021)等多項獎項。
他曾于2020–2021年作為訪問生(Visiting Student),前往斯坦福大學計算機系開展科研工作。
2022年,肖光烜加入MIT攻讀博士學位,導師為韓松(Song Han)教授。
個人研究方向聚焦于:深度學習的高效算法與系統,尤其是大規模基礎模型(Foundation Model)。
![]()
他于2022年9月至2026年1月,在MIT EECS擔任全職研究助理(Research Assistant)。
讀博期間,肖光烜曾多次進入全球頂級科技大廠從事前沿研究實習,具備了豐富的一線工業研發的經驗。
2023年,他曾加入Meta實習,研究方向為「流式語言模型的高效注意力機制」,相關成果發表在arxiv上。
![]()
論文地址:https://arxiv.org/pdf/2309.17453
2024年2-5月期間,他作為英偉達實習生,研究方向是為長上下文大語言模型推理加速。
他和團隊提出了DuoAttention,結合檢索與流式注意力頭,實現高效推理。
![]()
論文地址:https://research.nvidia.com/labs/eai/publication/duoattention/
隨后,他又參與了多項核心研究項目,其中包括:
XAttention:基于反對角評分的塊稀疏注意力機制
StreamingVLM:面向無限視頻流的實時理解模型
FlashMoBA:混合塊注意力(Mixture of Block Attention)的高效優化
值得一提的是,肖光烜在研究之外,還有豐富的興趣愛好,比如足球、乒乓球、圍棋、鋼琴。
他曾擔任所在院系足球隊的隊長兼先鋒,貝多芬的作品是個人最愛。
![]()
一篇博士論文,破解LLM三大難題
比起耀眼的履歷,肖光烜的博士論文本身更值得深入研析與拆解。
![]()
不得不承認,如今大模型已經無所不能,但它們依然太貴了。
顯存爆炸、推理太慢、長上下文直接OOM(內存溢出),這是幾乎所有LLM工程團隊每天都在面對的現實。
Efficient Algorithms and Systems for Large Language Models這篇論文,給出了一個罕見的、從工程到理論、從算法到架構的完整答案。
論文中, 他們提出了SmoothQuant,解決了一個長期困擾工業界的問題——激活值異常(activation outliers)。
SmoothQuant通過一個巧妙的數學等價變換,把量化難點從「激活」轉移到「權重」。
結果,它實現了首個在十億級模型上W8A8無損量化,無需重新訓練,顯存更小、推理更快。
針對超長序列的處理,作者在StreamingLLM中發現了「注意力匯點」(attention sink)現象——
即使沒有任何語義,初始token會被后續token持續關注。這些token的作用不是「理解」,而是數值穩定。
結果,實現了常數內存的流式推理,模型上下文長度從數千token擴展到百萬級。
更進一步,他們又把這一思想推廣到多模態,StreamingVLM可以在保持時間一致性的同時處理長達數小時的視頻內容。
對于超長上下文場景,團隊又提出一個互補方案,分別針對不同的性能瓶頸。
KVCache太大,采用DuoAttention
注意力頭本身就有分工:少數負責「全局檢索」,多數只看「最近上下文」。
DuoAttention用混合策略,大幅降低顯存,卻幾乎不掉性能。
預填充(Prefill)太慢,采用XAttention
利用反對角線評分機制,僅識別、計算必要的注意力塊,從而實現顯著的加速效果。
論文的最后,并沒有止步于「優化現有模型」,通過對MoBA(塊混合注意力) 的信噪比分析,作者證明了:
理論上,block越小越好。
但現實是,GPU不答應,于是有了FlashMoBA,一種定制化的CUDA內核,使小塊架構在實踐中可行,并實現了最高可達9倍的速度提升。
這篇論文的價值在于,構建了一整套高效大模型的完整框架,既回應了當下的現實挑戰,也為下一代計算高效、普惠可及的AGI奠定了基礎。
平均350萬年薪,碾壓OpenAI
最后來到一個大家比較感興趣的話題——薪資。
去年,硅谷人才爭奪戰激烈,BI一篇獨家挖到了Thinking Machines(TML)給員工們開出的薪資——
基礎年薪高達50萬美元(約350萬元)。
![]()
據BI獲取的招聘數據,TML向兩名技術員工支付了45萬美元的基礎年薪,另一名員工的年薪則高達50萬美元。
第四名員工被列為「聯合創始人/機器學習專家」,其年薪同樣為45萬美元。
這些薪酬數據,來自2025年第一季度,早于Murati以100億美元的估值,成功完成20億美元的種子輪融資。
總體來看,TML為這四名技術員工提供的平均年薪達到462,500美元。
相較之下,TML明顯高于業內更為成熟LLM公司——
OpenAI在相關申報文件中列出的29名技術員工,平均年薪為292,115美元。
其中最高薪資為53萬美元,最低為20萬美元。
Anthropic向14名技術員工支付的平均年薪為387,500美元,薪資區間在30萬至69萬美元之間。
雖然比起Meta瘋狂的超1萬億美元薪酬還差得遠,但這一水平也在硅谷數一數二。
果然,21世紀最貴的還是人才。
![]()
參考資料:
https://x.com/Guangxuan_Xiao/status/2008779396497502337
https://guangxuanx.com/
https://scholar.google.com/citations?user=sRGO-EcAAAAJ
https://www.eecs.mit.edu/eecs-events/doctoral-thesis-efficient-algorithms-and-systems-for-large-language-models/
https://www.businessinsider.com/muratis-new-ai-startup-salary-technical-talent-2025-6
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.