梁文鋒領銜團隊在《自然》發(fā)論文了…

2025-09-18 17:27:09　來源: 世界科學

上海舉報

分享至

設置星標關注，從此你的世界多點科學~

今年1月，來自杭州的深度求索公司攜開源推理模型DeepSeek-R1火爆全網(wǎng)。

AI專家盛贊其“純強化學習”的創(chuàng)新范式讓模型自我進化、擺脫對人工標注文本的依賴，業(yè)內(nèi)同行驚嘆于其超高性能背后的超低投入，金融市場則以股價巨震向這位物美價廉的數(shù)學大師、編程高手、推理王者致敬。

DeepSeek-R1是開放權(quán)重模型(訓練參數(shù)對公眾公開)，可供任何人下載使用。時至今日，它在AI開源社區(qū)Hugging Face上的下載量已超過1090萬次，是目前同類模型里最受歡迎的。此外，它還剛剛成為全球第一款經(jīng)過完整同行評審的大語言模型(LLM)。

9月17日，深度求索創(chuàng)始人梁文鋒及其團隊正式于《自然》雜志發(fā)表封面文章，詳細闡述了他們強化標準LLM、升級推理策略的方式和過程。

DeepSeek的核心創(chuàng)新在于采用純強化學習(pure reinforcement learning)這一自動化試錯方法構(gòu)建R1：通過獎勵機制驅(qū)動模型自己得出正確答案，而非教它遵循人類選擇的推理示例。因此，DeepSeek-R1能在“獨立思考”中學習形成自己的推理策略，例如“怎樣不受人類思維影響地驗證自己的結(jié)果”。

為提升效率，模型選擇估計值(而非獨立算法)來給自己的工作評分——此項技術被稱為“群體相對策略優(yōu)化”(GRPO)，屬于強化學習中的一種優(yōu)化方法，允許模型在訓練時通過自我評估和群體比較以求增效。

有同行表示，DeepSeek-R1已對人工智能學界產(chǎn)生“相當顯著的影響”，2025年幾乎所有給大語言模型上強化學習的研究都“或多或少受到R1啟發(fā)”。

另一方面，新論文在補充材料中首次披露了R1模型的訓練成本——區(qū)區(qū)29.4萬美元。構(gòu)建基礎LLM的投入則為600萬美元。這是什么概念呢？OpenAI、谷歌DeepMind、Meta等AI巨頭的模型訓練成本都是幾千萬起步的。

值得一提的是，R1主要采用英偉達H800芯片進行訓練，而該芯片在2023年因美國出口管制禁令而被禁止對華銷售。

此外，梁文鋒等人根據(jù)評審意見減少了擬人化表述，并補充了技術細節(jié)說明，包括模型訓練數(shù)據(jù)類型和安全性方面的內(nèi)容。

Hugging Face的機器學習工程師劉易斯·坦斯托爾(Lewis Tunstall)是這篇《自然》新作的評審者之一。在他看來，如果不樹立“將模型的大部分開發(fā)過程與學界共享”的規(guī)范，同行就沒法評估系統(tǒng)是否存在風險。

俄亥俄州立大學的人工智能研究員孫歡則指出，嚴格的同行評審過程確實有助于驗證模型的有效性和實用性，其他公司應當效仿DeepSeek。

此前有媒體報道OpenAI方面對DeepSeek-R1的質(zhì)疑：深度求索團隊可能使用了OpenAI模型的輸出數(shù)據(jù)來訓練R1，這幫助他們以更少資源取得更高性能。

梁文鋒等人未通過論文公開訓練數(shù)據(jù)，但根據(jù)他們與評審人員的交流內(nèi)容，R1并未復制OpenAI模型生成的推理示例以開展學習。不過他們也承認，與大多數(shù)大語言模型一樣，R1的基礎模型確實“上網(wǎng)”練過，因此必然吸收互聯(lián)網(wǎng)上既有的AI生成內(nèi)容。

坦斯托爾認為，雖無法百分百確定R1未使用OpenAI的示例進行訓練，但其他實驗室的復現(xiàn)結(jié)果已證明，DeepSeek的推理方案可能足夠優(yōu)秀了，優(yōu)秀到不必做那種事。“僅靠純強化學習就可實現(xiàn)極高性能！”

他還表示，目前很多同行正嘗試運用R1的開發(fā)方法，既增強現(xiàn)有LLM的類推理能力，又將其應用領域拓展至數(shù)學和編程之外。“R1成功引領了一場變革。”

孫歡指出，對研究者來說，R1很強很好用。在做數(shù)據(jù)分析和可視化等科學任務時，R1的準確率并未遙遙領先，但它最好地平衡了性能與成本。

資料來源：

《世界科學》雜志版在售中歡迎訂閱

月刊定價

15元/期

全年訂閱價

180元

點擊左側(cè)圖片或以下方訂閱方式選購

方式一：

掃描二維碼，“雜志鋪”訂閱有折扣～

方式二：

全國各地郵局訂閱郵發(fā)代號：4-263

方式三：

機構(gòu)訂閱，請撥打

021-53300839；

021-53300838

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.