設置星標 關注,從此你的世界多點科學~
![]()
今年1月,來自杭州的深度求索公司攜開源推理模型DeepSeek-R1火爆全網。
AI專家盛贊其“純強化學習”的創新范式讓模型自我進化、擺脫對人工標注文本的依賴,業內同行驚嘆于其超高性能背后的超低投入,金融市場則以股價巨震向這位物美價廉的數學大師、編程高手、推理王者致敬。
DeepSeek-R1是開放權重模型(訓練參數對公眾公開),可供任何人下載使用。時至今日,它在AI開源社區Hugging Face上的下載量已超過1090萬次,是目前同類模型里最受歡迎的。此外,它還剛剛成為全球第一款經過完整同行評審的大語言模型(LLM)。
9月17日,深度求索創始人梁文鋒及其團隊正式于《自然》雜志發表封面文章,詳細闡述了他們強化標準LLM、升級推理策略的方式和過程。
DeepSeek的核心創新在于采用純強化學習(pure reinforcement learning)這一自動化試錯方法構建R1:通過獎勵機制驅動模型自己得出正確答案,而非教它遵循人類選擇的推理示例。因此,DeepSeek-R1能在“獨立思考”中學習形成自己的推理策略,例如“怎樣不受人類思維影響地驗證自己的結果”。
為提升效率,模型選擇估計值(而非獨立算法)來給自己的工作評分——此項技術被稱為“群體相對策略優化”(GRPO),屬于強化學習中的一種優化方法,允許模型在訓練時通過自我評估和群體比較以求增效。
有同行表示,DeepSeek-R1已對人工智能學界產生“相當顯著的影響”,2025年幾乎所有給大語言模型上強化學習的研究都“或多或少受到R1啟發”。
另一方面,新論文在補充材料中首次披露了R1模型的訓練成本——區區29.4萬美元。構建基礎LLM的投入則為600萬美元。這是什么概念呢?OpenAI、谷歌DeepMind、Meta等AI巨頭的模型訓練成本都是幾千萬起步的。
值得一提的是,R1主要采用英偉達H800芯片進行訓練,而該芯片在2023年因美國出口管制禁令而被禁止對華銷售。
此外,梁文鋒等人根據評審意見減少了擬人化表述,并補充了技術細節說明,包括模型訓練數據類型和安全性方面的內容。
Hugging Face的機器學習工程師劉易斯·坦斯托爾(Lewis Tunstall)是這篇《自然》新作的評審者之一。在他看來,如果不樹立“將模型的大部分開發過程與學界共享”的規范,同行就沒法評估系統是否存在風險。
俄亥俄州立大學的人工智能研究員孫歡則指出,嚴格的同行評審過程確實有助于驗證模型的有效性和實用性,其他公司應當效仿DeepSeek。
此前有媒體報道OpenAI方面對DeepSeek-R1的質疑:深度求索團隊可能使用了OpenAI模型的輸出數據來訓練R1,這幫助他們以更少資源取得更高性能。
梁文鋒等人未通過論文公開訓練數據,但根據他們與評審人員的交流內容,R1并未復制OpenAI模型生成的推理示例以開展學習。不過他們也承認,與大多數大語言模型一樣,R1的基礎模型確實“上網”練過,因此必然吸收互聯網上既有的AI生成內容。
坦斯托爾認為,雖無法百分百確定R1未使用OpenAI的示例進行訓練,但其他實驗室的復現結果已證明,DeepSeek的推理方案可能足夠優秀了,優秀到不必做那種事。“僅靠純強化學習就可實現極高性能!”
他還表示,目前很多同行正嘗試運用R1的開發方法,既增強現有LLM的類推理能力,又將其應用領域拓展至數學和編程之外。“R1成功引領了一場變革。”
孫歡指出,對研究者來說,R1很強很好用。在做數據分析和可視化等科學任務時,R1的準確率并未遙遙領先,但它最好地平衡了性能與成本。
資料來源:
![]()
《世界科學》雜志版在售中 歡迎訂閱
月刊定價
15元/期
全年訂閱價
180元
點擊左側圖片或以下方訂閱方式選購
方式一:
掃描二維碼,“雜志鋪”訂閱有折扣~
方式二:
全國各地郵局訂閱 郵發代號:4-263
方式三:
機構訂閱,請撥打
021-53300839;
021-53300838
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.