網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

DeepSeek登上《Nature》封面，梁文鋒打破質(zhì)疑，給國人長臉了

2025-09-19 15:20:42　來源: 科技頭版Pro

廣東舉報

分享至

創(chuàng)造歷史！DeepSeek-R1論文登上《Nature》封面

就在昨晚，DeepSeek團隊再次創(chuàng)造了歷史！

由梁文鋒擔(dān)任通訊作者的DeepSeek-R1推理模型研究論文，登上了國際權(quán)威期刊《Nature（自然）》的封面。

圖源：Nature

有人可能會問：DeepSeek登上《Nature》封面究竟意味著什么？

如果說在《Nature》上發(fā)表論文是所有科研人員的夢想，那么讓自己的研究成果登上封面，就相當(dāng)于贏得了科學(xué)界的“奧斯卡最佳影片”。

這本創(chuàng)刊于1869年的期刊，是全球科學(xué)界公認(rèn)的“圣杯”，代表著最前沿、最重磅、最可能改變世界的發(fā)現(xiàn)。而封面，則是優(yōu)中選優(yōu)，只留給當(dāng)期最耀眼的那顆星星。

這一次，這顆星星來自中國。封面標(biāo)題言簡意賅——“Self-help: Reinforcement learning teaches large models to self-improve”（自我提升：強化學(xué)習(xí)教大模型自我完善）。

這是中國大模型研究成果第一次獲此殊榮，標(biāo)志著國際頂尖科學(xué)界對中國AI基礎(chǔ)研究的最高認(rèn)可。

圖源：Nature

值得注意的是，DeepSeek的創(chuàng)始人兼CEO梁文鋒，是這篇論文的唯一通訊作者。

而在這份長長的作者名單中，還有一位特別的成員——來自上海的高中生涂津豪。他曾在騰訊混元、DeepSeek實習(xí)，是開源項目Thinking-Claude的作者，也是2024阿里全球數(shù)賽AI挑戰(zhàn)賽的冠軍。

圖源：知乎

那么，為什么年初就發(fā)布的DeepSeek-R1模型時隔大半年才正式登上《Nature》呢？

這中間的漫長時間，恰恰是這篇論文價值連城的關(guān)鍵所在——DeepSeek-R1經(jīng)歷了長達半年的、由八位外部獨立專家參與的嚴(yán)苛同行評審過程。

這個過程的意義，遠超論文本身。據(jù)《Nature》官方審稿人的描述，當(dāng)今的AI行業(yè)，充斥著“令人印象深刻的發(fā)布會演示”、“不斷刷新的排行榜分?jǐn)?shù)”以及各種“未經(jīng)證實的宣傳和炒作”。

誰家的模型更強？往往是王婆賣瓜，自賣自夸。

而DeepSeek選擇了一條最艱難也最光榮的路：將自己的模型設(shè)計、方法論和局限性，毫無保留地交給全世界最頂尖的獨立專家進行審視和“挑刺”。

正是這一勇敢的舉動，創(chuàng)造了兩個歷史性的“第一”：全球第一個經(jīng)過同行評審的主流大語言模型以及第一個登上《Nature》封面的中國大模型。

圖源：X

在此之前，幾乎所有主流大模型都未經(jīng)過獨立的學(xué)術(shù)評審。《Nature》期刊自己也評論道，這個空白“終于被DeepSeek打破了”。

并且，DeepSeek團隊還史無前例地做到了把“低價+透明”寫進了頂刊。

此次論文的補充材料中，首次公開了R1模型僅用29.4萬美元（約合人民幣209萬元）的訓(xùn)練成本——使用H800芯片從V3-base版本訓(xùn)練至R1，成本僅為行業(yè)平均水平的1/10。

相比之下，諸如ChatGPT、谷歌Gemini等競爭對手動輒需要數(shù)千萬甚至上億美元的投入，DeepSeek的成本控制堪稱奇跡。

更多細(xì)節(jié)披露：純強化學(xué)習(xí)“讓模型自己長推理”

與1月份未經(jīng)評審的初版相比，發(fā)表在《Nature》上的新版論文包含了大量的補充材料，其中不僅披露了海量技術(shù)細(xì)節(jié)，還正面回應(yīng)了模型發(fā)布之初的核心爭議。

先說這篇論文最大的亮點，就是證明了僅通過純強化學(xué)習(xí)（Pure Reinforcement Learning, RL），就能顯著激發(fā)大模型的推理能力，而無需大量人工標(biāo)注的“標(biāo)準(zhǔn)答案”。

圖源：Nature

這個概念聽起來很專業(yè)，但可以用一個簡單的比喻來理解。

傳統(tǒng)的訓(xùn)練方法，比如監(jiān)督微調(diào)（SFT），就像是給學(xué)生一本習(xí)題冊，上面既有題目也有詳細(xì)的解題步驟和答案。學(xué)生要做的，是學(xué)習(xí)并模仿這些“標(biāo)準(zhǔn)解法”。

而DeepSeek的純強化學(xué)習(xí)方法則完全不同。

它更像是把學(xué)生關(guān)在一個只有題目和草稿紙的房間里，不提供任何解題范例。學(xué)生可以自由地用任何方法嘗試解題，最后只需要把答案提交。

系統(tǒng)只會告訴他“答對了”或“答錯了”。如果答對了，就給予“獎勵”；答錯了，就給予“懲罰”。

在這種模式下，模型為了獲得更多獎勵，必須自己去“悟”，去探索什么樣的思考路徑、什么樣的解題策略，才能最終導(dǎo)向正確的答案。

它不再是模仿人類，而是在創(chuàng)造屬于自己的、可能更高效的推理方法。

為了提升效率，團隊還采用了名為“群體相對策略優(yōu)化”（GRPO）的算法，省去了一個龐大的“裁判”模型，從而大幅降低了訓(xùn)練成本。

最令人驚奇的是，通過這種“粗放”的訓(xùn)練，模型（特指其前身DeepSeek-R1-Zero）竟然自發(fā)地涌現(xiàn)出了多種類似人類的、復(fù)雜且高級的推理行為，而這些都是研究人員從未明確教過它的。

例如模型在給出最終答案前，學(xué)會了自己檢查一遍解題過程，就像我們做完數(shù)學(xué)題要驗算一樣。

研究人員甚至觀察到了模型的“頓悟時刻”（Aha moment），在它的“內(nèi)心獨白”（推理過程）中，會突然出現(xiàn)“等等”（wait）這樣的詞，然后停下來重新評估自己最初的思路，修正錯誤。

圖源：Nature

此外，該研究還發(fā)現(xiàn)DeepSeek具有長思維鏈（Long CoT）和自適應(yīng)計算的能力。

一方面，面對復(fù)雜難題，模型會不惜花費成百上千個“詞元”（token）來進行深度思考和推理，展現(xiàn)出驚人的專注和嚴(yán)謹(jǐn)；

另一方面，模型還自己學(xué)會了“偷懶”，對簡單問題用較少的步驟快速解決，對復(fù)雜問題則投入更多的計算資源進行深度思考，實現(xiàn)了計算力的智能分配。

這些自發(fā)涌現(xiàn)的能力，最終轉(zhuǎn)化為了實打?qū)嵉男阅芴嵘?/p>

圖源：Nature

今年1月模型剛發(fā)布時，曾有媒體報道稱OpenAI的研究人員認(rèn)為DeepSeek涉嫌使用“蒸餾”技術(shù)——即用OpenAI模型生成的數(shù)據(jù)來訓(xùn)練自己的模型，從而用更低的成本“抄近道”。

這次的《Nature》論文，就是DeepSeek對此事最正式、最權(quán)威的回應(yīng)。

在與審稿人的溝通中，團隊明確指出，R1模型的核心推理能力，是通過其獨創(chuàng)的純強化學(xué)習(xí)過程獨立訓(xùn)練出來的，并沒有學(xué)習(xí)或復(fù)制任何由OpenAI模型生成的推理范例。

當(dāng)然，團隊也坦誠地承認(rèn)，其基礎(chǔ)模型是在海量的互聯(lián)網(wǎng)數(shù)據(jù)上訓(xùn)練的，其中自然不可避免地吸收到一些其他AI生成的內(nèi)容。

俄亥俄州立大學(xué)AI研究員Huan Sun表示，這個解釋“與我們在任何出版物中看到的一樣令人信服”。

為什么說這是行業(yè)里程碑事件？

《Nature》審稿人Lewis Tunstall強調(diào)，將主流大模型提交同行評審是“一個值得歡迎的先例”，因為這為評估和管理AI風(fēng)險提供了開放的基礎(chǔ)。

作為全球最頂級的科學(xué)權(quán)威機構(gòu)，Nature正在借助DeepSeek的案例，向OpenAI、Google、Anthropic等巨頭發(fā)出呼吁：請把你們的模型也拿到陽光下，接受科學(xué)共同體的檢驗。

DeepSeek的行為，正在倒逼整個行業(yè)提升透明度和可信度。

并且，DeepSeek的貢獻遠不止于一篇論文。

他們選擇了“開放權(quán)重”（Open-weight）的模式，將模型的核心參數(shù)公之于眾，任何人都可以下載、研究和改進他們的工作。

這一舉動引爆了全球開發(fā)者社區(qū)，DeepSeek-R1迅速成為AI社區(qū)平臺Hugging Face上同類模型中下載量最高的模型，累計下載超過1090萬次。

此外，團隊還貼心地發(fā)布了多個“蒸餾”后的小尺寸模型，讓那些沒有海量計算資源的研究者和開發(fā)者也能用上先進的推理能力。

這種開放精神，與一些巨頭公司“閉源”的路線形成了鮮明對比。

梁文鋒的野心徹底暴露

盡管取得了輝煌的成就，但客觀來看，DeepSeek的征途才剛剛開始。

在長達64頁的同行評審報告中，8位審稿人共提出上百條具體意見，其中提到了DeepSeek數(shù)據(jù)細(xì)節(jié)仍不夠透明，獎勵機制尚待優(yōu)化以及安全與倫理審查尚屬起步階段等問題。

例如有審稿人要求DeepSeek在論文中附上SFT和RL數(shù)據(jù)的鏈接，而不僅僅是提供數(shù)據(jù)樣本。

不過，梁文鋒的野心顯然不局限于此。

據(jù)彭博社消息，DeepSeek正在秘密研發(fā)一款具備自我進化能力的Agent。這款產(chǎn)品無需復(fù)雜指令，能自主學(xué)習(xí)并執(zhí)行多步驟任務(wù)，還可從歷史操作中迭代優(yōu)化。

該項目由梁文鋒親自帶隊，計劃在今年第四季度發(fā)布，目標(biāo)直指“無需人類干預(yù)的通用智能體”。

從《Nature》封面到自我進化Agent，一條清晰的路徑已經(jīng)浮現(xiàn)。

如果說《Nature》上的這篇論文證明了模型可以在虛擬的數(shù)學(xué)世界里“自我進化”出推理能力，那么這款A(yù)gent的目標(biāo)，可能就會讓模型在更廣闊的數(shù)字世界里，通過與環(huán)境的真實交互，“自我進化”出解決實際問題的行動能力。

梁文鋒和他的團隊，真實目的應(yīng)該是創(chuàng)造出能夠自主學(xué)習(xí)、不斷成長的AI新物種，從而徹底改變?nèi)藱C協(xié)作的范式。

這場好戲，才剛剛拉開序幕。

作者 | 劉峰

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

論文 Figure 這樣排版，審稿人一眼就能鎖定創(chuàng)新點（附贈 5 套模版）

生物學(xué)霸 2025-11-11 17:23:39
0 跟貼 0
作者很可能照單全收審稿人推薦的文獻——一本消化病學(xué)期刊的例子

醫(yī)咖會 2025-10-27 19:53:01
0 跟貼 0

科學(xué)家突破介電彈性體4D打印技術(shù)，實現(xiàn)宏觀材料七十二變

DeepTech深科技 2026-01-12 13:20:06
0 跟貼 0

分體、全景、機械臂！六大玩家CES交卷：影像賽道打法變了

雷科技 2026-01-12 19:56:11
0 跟貼 0
懸疑犯罪片《神棄之地》，揭開人性最丑陋的一面

憨憨哥說電影 2026-01-11 22:16:58
25 跟貼 25

新娘在白天吞槍自殺，晚上卻突然復(fù)活殺人，懸疑犯罪片

憨哥哥電影 2026-01-11 23:12:49
2 跟貼 2

騰訊又一古裝懸疑劇將襲，原班人馬看點十足，熬夜追不夠看

黃謀仕 2026-01-12 11:30:26
3 跟貼 3
霍啟剛公開個人財產(chǎn)：多項房產(chǎn)為其與郭晶晶共同持有

大象新聞 2026-01-11 22:05:12
6542 跟貼 6542

新民藝評丨石俊：為何我們?nèi)栽隈雎犈c追索“阿婆”的故事？

上觀新聞 2026-01-12 15:44:08
0 跟貼 0
Cell子刊封面：嚴(yán)軍團隊等繪制小鼠大腦全皮層的單個神經(jīng)元軸突投射圖譜

生物世界 2026-01-12 19:01:20
0 跟貼 0
挑戰(zhàn)GRPO，英偉達提出GDPO，專攻多獎勵優(yōu)化

機器之心Pro 2026-01-12 13:58:37
0 跟貼 0
如何了解研究生導(dǎo)師的科研能力？

陳晟老師課堂 2026-01-10 08:57:56
1 跟貼 1
沒想到，讓美國害怕的不是梁文鋒和王興興，而是一位民間小伙！

月亮姐侃生活 2026-01-12 14:52:39
0 跟貼 0
學(xué)生寫論文，導(dǎo)師最擔(dān)心這種情況

復(fù)旦張軍平 2026-01-10 20:00:55
0 跟貼 0
一千多個模型都指向一個通用子空間

機器之心Pro 2025-12-16 18:23:47
0 跟貼 0
生娃老得快？《Nature》子刊新研究：生2-3個可能最抗老

時光派健康抗衰 2026-01-12 18:30:54
2 跟貼 2
2025人工智能發(fā)展現(xiàn)狀報告：超級智能與中美大模型PK，限制與超越 | 企服國際觀察

鈦媒體APP 2026-01-12 13:32:15
0 跟貼 0
國乒新年首站男女單均丟冠:女隊可原諒男隊形勢嚴(yán)峻

文匯報 2026-01-12 11:12:10
2068 跟貼 2068
VTuber法庭推理游戲《誰是中之人》13日發(fā)售

游民星空 2026-01-12 17:15:14
1 跟貼 1
【DeepSeek談藝】李紹周工筆畫丨六秩丹青藏清境，四時風(fēng)物入畫屏

文化視界網(wǎng) 2026-01-12 16:24:01
0 跟貼 0
一路“樊”花樊振東，樊振東登德國雜志封面

熱搜速報 2026-01-10 11:31:53
0 跟貼 0
中國U23男足戰(zhàn)勝澳大利亞隊距亞洲杯出線一步之遙

極目新聞 2026-01-11 21:38:26
1687 跟貼 1687
姚順雨對著唐杰楊植麟林俊旸貼大臉開講！基模四杰中關(guān)村論英雄

量子位 2026-01-11 11:04:48
0 跟貼 0
官宣殲10CE零損擊落多架戰(zhàn)機

北京青年報 2026-01-12 12:38:35
625 跟貼 625
江蘇大學(xué)青年教師以通訊作者身份在一區(qū)Top期刊（IF=28.9）上發(fā)表研究論文

植物研究進展 2026-01-11 23:53:41
1 跟貼 1
遙控坦克模型測試

制造科技 2026-01-10 16:16:25
0 跟貼 0
SCI和EI到底是啥？

百科小亂燉 2026-01-11 19:12:39
4 跟貼 4
從《慶余年》到《開端》：張若昀的多劇組穿梭與懸疑影視新趨勢

老稝科普君 2026-01-11 05:19:17
1 跟貼 1
倒灶的女人會被發(fā)現(xiàn)嗎，懸疑影片倒灶的女人會被發(fā)現(xiàn)嗎，懸疑影片

秘境觀影d 2026-01-09 08:22:31
0 跟貼 0
觀眾是目擊者也是調(diào)查者！懸疑話劇《迷霧之下》攪熱江城周末

極目新聞 2026-01-12 18:07:59
0 跟貼 0
國產(chǎn)新型航母模型疑曝光！舷號19清晰可見，卻有3大疑點？

儒雅隨和老泰勒 2026-01-12 16:49:53
0 跟貼 0
印度衛(wèi)星發(fā)射任務(wù)失敗

上觀新聞 2026-01-12 14:29:03
20 跟貼 20
保定一畝泉斷流60年后復(fù)涌，水利局：降水量大和生態(tài)治理的效果

新京報 2026-01-11 23:14:14
708 跟貼 708
那些用開塞露涂臉的人，后來都怎么樣了？

科普中國 2026-01-12 11:21:30
214 跟貼 214
智能體卷王誕生！干活自動配結(jié)項報告，1.5張截圖就把事說清了

量子位 2026-01-10 14:38:21
2 跟貼 2
【藝周星報】王安宇/周柯宇/侯明昊解鎖新代言！迪麗熱巴/關(guān)曉彤/陳曉登刊大賞

尋藝 2026-01-12 18:59:56
1 跟貼 1
熱巴回歸推理團，一身紅裙驚艷亮相，中式恐怖太有那味了丨開推

謝鵑解說 2026-01-11 00:32:25
1 跟貼 1
推理團全員西裝做飯，禁欲感拉滿，堪稱視覺盛宴丨開推3

無處遁形 2026-01-11 05:20:30
1 跟貼 1
福爾摩斯作者晚年翻車實錄：仙女、通靈和自我PUA

講故事的普六茹 2026-01-12 12:00:00
0 跟貼 0
2026福州首部懸疑歌舞劇《心亂不已》

聯(lián)忠評戲 2026-01-12 18:51:51
0 跟貼 0

忍無可忍！許利民怒斥：吊兒郎當(dāng)耍大牌，球迷：疑似指國內(nèi)這2人

普覽

2026-01-10 20:44:27

科技頭版Pro

一起見證改變世界的力量

503文章數(shù) 168關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產(chǎn)

健康

本地

藝術(shù)

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
你的工作機密，保護好了嗎？
李彥宏：百度離破產(chǎn)30天

手機 / 數(shù)碼

房產(chǎn) / 家居

DeepSeek登上《Nature》封面，梁文鋒打破質(zhì)疑，給國人長臉了

面對SpaceX瘋狂“下餃子” 中國正面接招

特朗普:伊朗談判前美或先行動 正考慮"非常強硬選項"

特朗普:伊朗談判前美或先行動 正考慮"非常強硬選項"

聰明的球員，不是教練教出來的

閆學(xué)晶：脫離群眾太久 忘了自己的根

倍輕松信披迷霧 實控人占用資金金額存疑

增配不加價 北京現(xiàn)代 第五代 勝達2026款上市

態(tài)度原創(chuàng)

重磅調(diào)規(guī)！417畝商改住+教育地塊！海口西海岸又要爆發(fā)！

血常規(guī)3項異常，是身體警報！

云游內(nèi)蒙｜“包”你再來？一座在硬核里釀出詩意的城

畫完這組畫，他抑郁了，后來自殺了

特朗普:伊朗談判前美或先行動正考慮"非常強硬選項"

特朗普:伊朗談判前美或先行動正考慮"非常強硬選項"

閆學(xué)晶：脫離群眾太久忘了自己的根

倍輕松信披迷霧實控人占用資金金額存疑

增配不加價北京現(xiàn)代第五代勝達2026款上市