【文/觀察者網 熊超然】1月12日晚間,中國人工智能(AI)初創公司DeepSeek創始人梁文鋒與北京大學研究人員共同署名發表了一篇技術論文,提出了一種新的模型訓練技術。他們表示,該技術可以通過繞過圖形處理單元(GPU)內存限制,實現“參數的積極擴展”。
香港《南華早報》1月13日報道指出,此舉凸顯了DeepSeek在算力相對美國行業領先企業存在差距的情況下,持續專注于最大限度地提高成本效率。與此同時,外界猜測該公司將在今年春節之前發布一款重要的新模型。
報道稱,這篇技術含量極高的論文將受到中國和美國業內人士的廣泛關注,他們希望從中了解DeepSeek所取得的最新進展。在過去一年中,DeepSeek一直是中國AI領域創新的典范。
![]()
DeepSeek與北京大學研究人員合作發表論文,梁文鋒在列論文截圖
據報道,在這篇題為《基于可擴展查找的條件記憶:大語言模型稀疏性的新維度》(Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models)的最新論文中,介紹了一種名為“Engram”(記憶痕跡)的“條件記憶”(conditional memory)技術。
該技術用以解決擴大AI模型規模時的一個關鍵瓶頸——GPU高帶寬內存(HBM)容量有限的問題。
現有的大型語言模型(LLM)通過計算來檢索基礎信息,而這一過程需要大量的計算能力。然而,研究人員表示,這種方式浪費了寶貴的“序列深度”(sequential depth),這些“序列深度”本可以被分配用于更高層次推理的瑣碎操作。
《南華早報》指出,HBM是中國在AI硬件方面與美國之間最大的差距之一。韓國半導體行業分析機構SemiAnalysis的分析師Ray Wang表示,盡管近年來取得了穩步進展,但中國存儲芯片巨頭長鑫存儲(CXMT)仍然比韓國的三星電子和SK海力士以及美國的美光科技等行業領軍者落后數年。
在論文中,DeepSeek和北京大學的研究人員表示,通過將計算與存儲“解耦”,Engram可以讓模型更高效地“查找”這些基礎信息。
他們提到的新技術,還能夠提升模型在處理長上下文(即較長輸入)時的效率,而這正是將AI聊天機器人轉變為現實世界中有用的AI代理所面臨的最大挑戰之一。
研究人員在一個擁有270億個參數的模型中驗證了這一技術,發現它使主要行業基準測試的表現提升了幾個百分點。關鍵在于,這也為模型執行計算需求更高的復雜推理保留了更多容量。
他們寫道:“我們認為條件記憶將成為下一代稀疏模型中不可或缺的建模原語。”研究人員將Engram的潛在影響比作他們自己開發的一種“混合專家”(MoE)技術,該技術使模型規模的擴大無需按比例增加計算量,并且此后已被其他中國競爭對手采用。
![]()
DeepSeek創始人梁文鋒 視頻截圖
目前,行業中最大的模型擁有數萬億個參數。開源開發者平臺Hugging Face的研究工程師埃利·巴庫奇(Elie Bakouch)在社交媒體上對這篇論文大加稱贊,稱其“在推理和訓練時用硬件上驗證了這一技術”。
據報道,這篇論文列出了14位共同作者,除了梁文鋒之外,還包括北京大學王選計算機研究所助理教授、前微軟亞洲研究院首席研究員張輝帥。
去年年初,DeepSeek發布的大模型DeepSeek-R1,使用由英偉達H800 GPU驅動的數據中心進行訓練,僅用兩個月就完成了訓練,成本為550萬美元,僅為OpenAI等美國公司所花費金額的一小部分。卻實現了足以匹敵美國頂尖AI模型的效果,震撼業界的同時引發多國關注,尤其是美國。
當地時間1月12日,據英國《金融時報》報道,微軟總裁布拉德·史密斯(Brad Smith)警告稱,在爭奪西方以外用戶的競爭中,美國AI公司正被中國競爭對手超越,中國低成本的“開源”模型是一大優勢所在。
他表示,中國AI初創公司DeepSeek的技術在非洲等新興市場快速普及,凸顯了美國公司在全球面臨的競爭。“我們必須認識到,與一年前不同,現在中國擁有一個,而且越來越多地擁有不止一個具有競爭力的開源模型。”
報道指出,史密斯發表這番言論之際,微軟的一項新研究發現,DeepSeek一年前發布的R1大型語言模型,因其“易用性和低成本”,幫助加速了AI在全球范圍內的普及,尤其是在全球南方國家。這也讓中國在“開源”AI模型的全球市場份額方面超越了美國,這些模型通常可以免費供開發人員使用、修改和集成。
《南華早報》指出,在DeepSeek發布其R1模型一周年之際,外界對其即將推出一款新的重要模型的期待正在升溫。美國硅谷的新興科技媒體“The Information”當地時間1月9日報道稱,DeepSeek預計將在今年2月中旬推出一款具備強大編程能力的新V4模型。
本文系觀察者網獨家稿件,未經授權,不得轉載。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.