設置星標 關注,從此你的世界多點科學~
![]()
今年1月,來自杭州的深度求索公司攜開源推理模型DeepSeek-R1火爆全網(wǎng)。
AI專家盛贊其“純強化學習”的創(chuàng)新范式讓模型自我進化、擺脫對人工標注文本的依賴,業(yè)內(nèi)同行驚嘆于其超高性能背后的超低投入,金融市場則以股價巨震向這位物美價廉的數(shù)學大師、編程高手、推理王者致敬。
DeepSeek-R1是開放權(quán)重模型(訓練參數(shù)對公眾公開),可供任何人下載使用。時至今日,它在AI開源社區(qū)Hugging Face上的下載量已超過1090萬次,是目前同類模型里最受歡迎的。此外,它還剛剛成為全球第一款經(jīng)過完整同行評審的大語言模型(LLM)。
9月17日,深度求索創(chuàng)始人梁文鋒及其團隊正式于《自然》雜志發(fā)表封面文章,詳細闡述了他們強化標準LLM、升級推理策略的方式和過程。
DeepSeek的核心創(chuàng)新在于采用純強化學習(pure reinforcement learning)這一自動化試錯方法構(gòu)建R1:通過獎勵機制驅(qū)動模型自己得出正確答案,而非教它遵循人類選擇的推理示例。因此,DeepSeek-R1能在“獨立思考”中學習形成自己的推理策略,例如“怎樣不受人類思維影響地驗證自己的結(jié)果”。
為提升效率,模型選擇估計值(而非獨立算法)來給自己的工作評分——此項技術被稱為“群體相對策略優(yōu)化”(GRPO),屬于強化學習中的一種優(yōu)化方法,允許模型在訓練時通過自我評估和群體比較以求增效。
有同行表示,DeepSeek-R1已對人工智能學界產(chǎn)生“相當顯著的影響”,2025年幾乎所有給大語言模型上強化學習的研究都“或多或少受到R1啟發(fā)”。
另一方面,新論文在補充材料中首次披露了R1模型的訓練成本——區(qū)區(qū)29.4萬美元。構(gòu)建基礎LLM的投入則為600萬美元。這是什么概念呢?OpenAI、谷歌DeepMind、Meta等AI巨頭的模型訓練成本都是幾千萬起步的。
值得一提的是,R1主要采用英偉達H800芯片進行訓練,而該芯片在2023年因美國出口管制禁令而被禁止對華銷售。
此外,梁文鋒等人根據(jù)評審意見減少了擬人化表述,并補充了技術細節(jié)說明,包括模型訓練數(shù)據(jù)類型和安全性方面的內(nèi)容。
Hugging Face的機器學習工程師劉易斯·坦斯托爾(Lewis Tunstall)是這篇《自然》新作的評審者之一。在他看來,如果不樹立“將模型的大部分開發(fā)過程與學界共享”的規(guī)范,同行就沒法評估系統(tǒng)是否存在風險。
俄亥俄州立大學的人工智能研究員孫歡則指出,嚴格的同行評審過程確實有助于驗證模型的有效性和實用性,其他公司應當效仿DeepSeek。
此前有媒體報道OpenAI方面對DeepSeek-R1的質(zhì)疑:深度求索團隊可能使用了OpenAI模型的輸出數(shù)據(jù)來訓練R1,這幫助他們以更少資源取得更高性能。
梁文鋒等人未通過論文公開訓練數(shù)據(jù),但根據(jù)他們與評審人員的交流內(nèi)容,R1并未復制OpenAI模型生成的推理示例以開展學習。不過他們也承認,與大多數(shù)大語言模型一樣,R1的基礎模型確實“上網(wǎng)”練過,因此必然吸收互聯(lián)網(wǎng)上既有的AI生成內(nèi)容。
坦斯托爾認為,雖無法百分百確定R1未使用OpenAI的示例進行訓練,但其他實驗室的復現(xiàn)結(jié)果已證明,DeepSeek的推理方案可能足夠優(yōu)秀了,優(yōu)秀到不必做那種事。“僅靠純強化學習就可實現(xiàn)極高性能!”
他還表示,目前很多同行正嘗試運用R1的開發(fā)方法,既增強現(xiàn)有LLM的類推理能力,又將其應用領域拓展至數(shù)學和編程之外。“R1成功引領了一場變革。”
孫歡指出,對研究者來說,R1很強很好用。在做數(shù)據(jù)分析和可視化等科學任務時,R1的準確率并未遙遙領先,但它最好地平衡了性能與成本。
資料來源:
![]()
《世界科學》雜志版在售中 歡迎訂閱
月刊定價
15元/期
全年訂閱價
180元
點擊左側(cè)圖片或以下方訂閱方式選購
方式一:
掃描二維碼,“雜志鋪”訂閱有折扣~
方式二:
全國各地郵局訂閱 郵發(fā)代號:4-263
方式三:
機構(gòu)訂閱,請撥打
021-53300839;
021-53300838
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.