![]()
創(chuàng)造歷史!DeepSeek-R1論文登上《Nature》封面
就在昨晚,DeepSeek團隊再次創(chuàng)造了歷史!
由梁文鋒擔(dān)任通訊作者的DeepSeek-R1推理模型研究論文,登上了國際權(quán)威期刊《Nature(自然)》的封面。
![]()
圖源:Nature
有人可能會問:DeepSeek登上《Nature》封面究竟意味著什么?
如果說在《Nature》上發(fā)表論文是所有科研人員的夢想,那么讓自己的研究成果登上封面,就相當(dāng)于贏得了科學(xué)界的“奧斯卡最佳影片”。
這本創(chuàng)刊于1869年的期刊,是全球科學(xué)界公認(rèn)的“圣杯”,代表著最前沿、最重磅、最可能改變世界的發(fā)現(xiàn)。而封面,則是優(yōu)中選優(yōu),只留給當(dāng)期最耀眼的那顆星星。
這一次,這顆星星來自中國。封面標(biāo)題言簡意賅——“Self-help: Reinforcement learning teaches large models to self-improve”(自我提升:強化學(xué)習(xí)教大模型自我完善)。
這是中國大模型研究成果第一次獲此殊榮,標(biāo)志著國際頂尖科學(xué)界對中國AI基礎(chǔ)研究的最高認(rèn)可。
![]()
圖源:Nature
值得注意的是,DeepSeek的創(chuàng)始人兼CEO梁文鋒,是這篇論文的唯一通訊作者。
而在這份長長的作者名單中,還有一位特別的成員——來自上海的高中生涂津豪。他曾在騰訊混元、DeepSeek實習(xí),是開源項目Thinking-Claude的作者,也是2024阿里全球數(shù)賽AI挑戰(zhàn)賽的冠軍。
![]()
圖源:知乎
那么,為什么年初就發(fā)布的DeepSeek-R1模型時隔大半年才正式登上《Nature》呢?
這中間的漫長時間,恰恰是這篇論文價值連城的關(guān)鍵所在——DeepSeek-R1經(jīng)歷了長達半年的、由八位外部獨立專家參與的嚴(yán)苛同行評審過程。
這個過程的意義,遠超論文本身。據(jù)《Nature》官方審稿人的描述,當(dāng)今的AI行業(yè),充斥著“令人印象深刻的發(fā)布會演示”、“不斷刷新的排行榜分?jǐn)?shù)”以及各種“未經(jīng)證實的宣傳和炒作”。
誰家的模型更強?往往是王婆賣瓜,自賣自夸。
而DeepSeek選擇了一條最艱難也最光榮的路:將自己的模型設(shè)計、方法論和局限性,毫無保留地交給全世界最頂尖的獨立專家進行審視和“挑刺”。
正是這一勇敢的舉動,創(chuàng)造了兩個歷史性的“第一”:全球第一個經(jīng)過同行評審的主流大語言模型以及第一個登上《Nature》封面的中國大模型。
![]()
圖源:X
在此之前,幾乎所有主流大模型都未經(jīng)過獨立的學(xué)術(shù)評審。《Nature》期刊自己也評論道,這個空白“終于被DeepSeek打破了”。
并且,DeepSeek團隊還史無前例地做到了把“低價+透明”寫進了頂刊。
此次論文的補充材料中,首次公開了R1模型僅用29.4萬美元(約合人民幣209萬元)的訓(xùn)練成本——使用H800芯片從V3-base版本訓(xùn)練至R1,成本僅為行業(yè)平均水平的1/10。
相比之下,諸如ChatGPT、谷歌Gemini等競爭對手動輒需要數(shù)千萬甚至上億美元的投入,DeepSeek的成本控制堪稱奇跡。
![]()
更多細(xì)節(jié)披露:純強化學(xué)習(xí)“讓模型自己長推理”
與1月份未經(jīng)評審的初版相比,發(fā)表在《Nature》上的新版論文包含了大量的補充材料,其中不僅披露了海量技術(shù)細(xì)節(jié),還正面回應(yīng)了模型發(fā)布之初的核心爭議。
先說這篇論文最大的亮點,就是證明了僅通過純強化學(xué)習(xí)(Pure Reinforcement Learning, RL),就能顯著激發(fā)大模型的推理能力,而無需大量人工標(biāo)注的“標(biāo)準(zhǔn)答案”。
![]()
圖源:Nature
這個概念聽起來很專業(yè),但可以用一個簡單的比喻來理解。
傳統(tǒng)的訓(xùn)練方法,比如監(jiān)督微調(diào)(SFT),就像是給學(xué)生一本習(xí)題冊,上面既有題目也有詳細(xì)的解題步驟和答案。學(xué)生要做的,是學(xué)習(xí)并模仿這些“標(biāo)準(zhǔn)解法”。
而DeepSeek的純強化學(xué)習(xí)方法則完全不同。
它更像是把學(xué)生關(guān)在一個只有題目和草稿紙的房間里,不提供任何解題范例。學(xué)生可以自由地用任何方法嘗試解題,最后只需要把答案提交。
系統(tǒng)只會告訴他“答對了”或“答錯了”。如果答對了,就給予“獎勵”;答錯了,就給予“懲罰”。
在這種模式下,模型為了獲得更多獎勵,必須自己去“悟”,去探索什么樣的思考路徑、什么樣的解題策略,才能最終導(dǎo)向正確的答案。
它不再是模仿人類,而是在創(chuàng)造屬于自己的、可能更高效的推理方法。
為了提升效率,團隊還采用了名為“群體相對策略優(yōu)化”(GRPO)的算法,省去了一個龐大的“裁判”模型,從而大幅降低了訓(xùn)練成本。
最令人驚奇的是,通過這種“粗放”的訓(xùn)練,模型(特指其前身DeepSeek-R1-Zero)竟然自發(fā)地涌現(xiàn)出了多種類似人類的、復(fù)雜且高級的推理行為,而這些都是研究人員從未明確教過它的。
例如模型在給出最終答案前,學(xué)會了自己檢查一遍解題過程,就像我們做完數(shù)學(xué)題要驗算一樣。
研究人員甚至觀察到了模型的“頓悟時刻”(Aha moment),在它的“內(nèi)心獨白”(推理過程)中,會突然出現(xiàn)“等等”(wait)這樣的詞,然后停下來重新評估自己最初的思路,修正錯誤。
![]()
圖源:Nature
此外,該研究還發(fā)現(xiàn)DeepSeek具有長思維鏈(Long CoT)和自適應(yīng)計算的能力。
一方面,面對復(fù)雜難題,模型會不惜花費成百上千個“詞元”(token)來進行深度思考和推理,展現(xiàn)出驚人的專注和嚴(yán)謹(jǐn);
另一方面,模型還自己學(xué)會了“偷懶”,對簡單問題用較少的步驟快速解決,對復(fù)雜問題則投入更多的計算資源進行深度思考,實現(xiàn)了計算力的智能分配。
這些自發(fā)涌現(xiàn)的能力,最終轉(zhuǎn)化為了實打?qū)嵉男阅芴嵘?/p>
![]()
圖源:Nature
今年1月模型剛發(fā)布時,曾有媒體報道稱OpenAI的研究人員認(rèn)為DeepSeek涉嫌使用“蒸餾”技術(shù)——即用OpenAI模型生成的數(shù)據(jù)來訓(xùn)練自己的模型,從而用更低的成本“抄近道”。
這次的《Nature》論文,就是DeepSeek對此事最正式、最權(quán)威的回應(yīng)。
在與審稿人的溝通中,團隊明確指出,R1模型的核心推理能力,是通過其獨創(chuàng)的純強化學(xué)習(xí)過程獨立訓(xùn)練出來的,并沒有學(xué)習(xí)或復(fù)制任何由OpenAI模型生成的推理范例。
當(dāng)然,團隊也坦誠地承認(rèn),其基礎(chǔ)模型是在海量的互聯(lián)網(wǎng)數(shù)據(jù)上訓(xùn)練的,其中自然不可避免地吸收到一些其他AI生成的內(nèi)容。
俄亥俄州立大學(xué)AI研究員Huan Sun表示,這個解釋“與我們在任何出版物中看到的一樣令人信服”。
![]()
為什么說這是行業(yè)里程碑事件?
《Nature》審稿人Lewis Tunstall強調(diào),將主流大模型提交同行評審是“一個值得歡迎的先例”,因為這為評估和管理AI風(fēng)險提供了開放的基礎(chǔ)。
作為全球最頂級的科學(xué)權(quán)威機構(gòu),Nature正在借助DeepSeek的案例,向OpenAI、Google、Anthropic等巨頭發(fā)出呼吁:請把你們的模型也拿到陽光下,接受科學(xué)共同體的檢驗。
DeepSeek的行為,正在倒逼整個行業(yè)提升透明度和可信度。
并且,DeepSeek的貢獻遠不止于一篇論文。
他們選擇了“開放權(quán)重”(Open-weight)的模式,將模型的核心參數(shù)公之于眾,任何人都可以下載、研究和改進他們的工作。
這一舉動引爆了全球開發(fā)者社區(qū),DeepSeek-R1迅速成為AI社區(qū)平臺Hugging Face上同類模型中下載量最高的模型,累計下載超過1090萬次。
此外,團隊還貼心地發(fā)布了多個“蒸餾”后的小尺寸模型,讓那些沒有海量計算資源的研究者和開發(fā)者也能用上先進的推理能力。
這種開放精神,與一些巨頭公司“閉源”的路線形成了鮮明對比。
![]()
梁文鋒的野心徹底暴露
盡管取得了輝煌的成就,但客觀來看,DeepSeek的征途才剛剛開始。
在長達64頁的同行評審報告中,8位審稿人共提出上百條具體意見,其中提到了DeepSeek數(shù)據(jù)細(xì)節(jié)仍不夠透明,獎勵機制尚待優(yōu)化以及安全與倫理審查尚屬起步階段等問題。
例如有審稿人要求DeepSeek在論文中附上SFT和RL數(shù)據(jù)的鏈接,而不僅僅是提供數(shù)據(jù)樣本。
不過,梁文鋒的野心顯然不局限于此。
據(jù)彭博社消息,DeepSeek正在秘密研發(fā)一款具備自我進化能力的Agent。這款產(chǎn)品無需復(fù)雜指令,能自主學(xué)習(xí)并執(zhí)行多步驟任務(wù),還可從歷史操作中迭代優(yōu)化。
該項目由梁文鋒親自帶隊,計劃在今年第四季度發(fā)布,目標(biāo)直指“無需人類干預(yù)的通用智能體”。
從《Nature》封面到自我進化Agent,一條清晰的路徑已經(jīng)浮現(xiàn)。
如果說《Nature》上的這篇論文證明了模型可以在虛擬的數(shù)學(xué)世界里“自我進化”出推理能力,那么這款A(yù)gent的目標(biāo),可能就會讓模型在更廣闊的數(shù)字世界里,通過與環(huán)境的真實交互,“自我進化”出解決實際問題的行動能力。
梁文鋒和他的團隊,真實目的應(yīng)該是創(chuàng)造出能夠自主學(xué)習(xí)、不斷成長的AI新物種,從而徹底改變?nèi)藱C協(xié)作的范式。
這場好戲,才剛剛拉開序幕。
作者 | 劉峰
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.