<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      DeepSeek登上《Nature》封面,梁文鋒打破質(zhì)疑,給國人長臉了

      0
      分享至



      創(chuàng)造歷史!DeepSeek-R1論文登上《Nature》封面

      就在昨晚,DeepSeek團隊再次創(chuàng)造了歷史!

      由梁文鋒擔(dān)任通訊作者的DeepSeek-R1推理模型研究論文,登上了國際權(quán)威期刊《Nature(自然)》的封面。



      圖源:Nature

      有人可能會問:DeepSeek登上《Nature》封面究竟意味著什么?

      如果說在《Nature》上發(fā)表論文是所有科研人員的夢想,那么讓自己的研究成果登上封面,就相當(dāng)于贏得了科學(xué)界的“奧斯卡最佳影片”。

      這本創(chuàng)刊于1869年的期刊,是全球科學(xué)界公認(rèn)的“圣杯”,代表著最前沿、最重磅、最可能改變世界的發(fā)現(xiàn)。而封面,則是優(yōu)中選優(yōu),只留給當(dāng)期最耀眼的那顆星星。

      這一次,這顆星星來自中國。封面標(biāo)題言簡意賅——“Self-help: Reinforcement learning teaches large models to self-improve”(自我提升:強化學(xué)習(xí)教大模型自我完善)。

      這是中國大模型研究成果第一次獲此殊榮,標(biāo)志著國際頂尖科學(xué)界對中國AI基礎(chǔ)研究的最高認(rèn)可。



      圖源:Nature

      值得注意的是,DeepSeek的創(chuàng)始人兼CEO梁文鋒,是這篇論文的唯一通訊作者。

      而在這份長長的作者名單中,還有一位特別的成員——來自上海的高中生涂津豪。他曾在騰訊混元、DeepSeek實習(xí),是開源項目Thinking-Claude的作者,也是2024阿里全球數(shù)賽AI挑戰(zhàn)賽的冠軍。



      圖源:知乎

      那么,為什么年初就發(fā)布的DeepSeek-R1模型時隔大半年才正式登上《Nature》呢?

      這中間的漫長時間,恰恰是這篇論文價值連城的關(guān)鍵所在——DeepSeek-R1經(jīng)歷了長達半年的、由八位外部獨立專家參與的嚴(yán)苛同行評審過程。

      這個過程的意義,遠超論文本身。據(jù)《Nature》官方審稿人的描述,當(dāng)今的AI行業(yè),充斥著“令人印象深刻的發(fā)布會演示”、“不斷刷新的排行榜分?jǐn)?shù)”以及各種“未經(jīng)證實的宣傳和炒作”。

      誰家的模型更強?往往是王婆賣瓜,自賣自夸。

      而DeepSeek選擇了一條最艱難也最光榮的路:將自己的模型設(shè)計、方法論和局限性,毫無保留地交給全世界最頂尖的獨立專家進行審視和“挑刺”。

      正是這一勇敢的舉動,創(chuàng)造了兩個歷史性的“第一”:全球第一個經(jīng)過同行評審的主流大語言模型以及第一個登上《Nature》封面的中國大模型



      圖源:X

      在此之前,幾乎所有主流大模型都未經(jīng)過獨立的學(xué)術(shù)評審。《Nature》期刊自己也評論道,這個空白“終于被DeepSeek打破了”。

      并且,DeepSeek團隊還史無前例地做到了把“低價+透明”寫進了頂刊。

      此次論文的補充材料中,首次公開了R1模型僅用29.4萬美元(約合人民幣209萬元)的訓(xùn)練成本——使用H800芯片從V3-base版本訓(xùn)練至R1,成本僅為行業(yè)平均水平的1/10。

      相比之下,諸如ChatGPT、谷歌Gemini等競爭對手動輒需要數(shù)千萬甚至上億美元的投入,DeepSeek的成本控制堪稱奇跡。



      更多細(xì)節(jié)披露:純強化學(xué)習(xí)“讓模型自己長推理”

      與1月份未經(jīng)評審的初版相比,發(fā)表在《Nature》上的新版論文包含了大量的補充材料,其中不僅披露了海量技術(shù)細(xì)節(jié),還正面回應(yīng)了模型發(fā)布之初的核心爭議。

      先說這篇論文最大的亮點,就是證明了僅通過純強化學(xué)習(xí)(Pure Reinforcement Learning, RL),就能顯著激發(fā)大模型的推理能力,而無需大量人工標(biāo)注的“標(biāo)準(zhǔn)答案”。



      圖源:Nature

      這個概念聽起來很專業(yè),但可以用一個簡單的比喻來理解。

      傳統(tǒng)的訓(xùn)練方法,比如監(jiān)督微調(diào)(SFT),就像是給學(xué)生一本習(xí)題冊,上面既有題目也有詳細(xì)的解題步驟和答案。學(xué)生要做的,是學(xué)習(xí)并模仿這些“標(biāo)準(zhǔn)解法”。

      而DeepSeek的純強化學(xué)習(xí)方法則完全不同。

      它更像是把學(xué)生關(guān)在一個只有題目和草稿紙的房間里,不提供任何解題范例。學(xué)生可以自由地用任何方法嘗試解題,最后只需要把答案提交。

      系統(tǒng)只會告訴他“答對了”或“答錯了”。如果答對了,就給予“獎勵”;答錯了,就給予“懲罰”

      在這種模式下,模型為了獲得更多獎勵,必須自己去“悟”,去探索什么樣的思考路徑、什么樣的解題策略,才能最終導(dǎo)向正確的答案。

      它不再是模仿人類,而是在創(chuàng)造屬于自己的、可能更高效的推理方法。

      為了提升效率,團隊還采用了名為“群體相對策略優(yōu)化”(GRPO)的算法,省去了一個龐大的“裁判”模型,從而大幅降低了訓(xùn)練成本。

      最令人驚奇的是,通過這種“粗放”的訓(xùn)練,模型(特指其前身DeepSeek-R1-Zero)竟然自發(fā)地涌現(xiàn)出了多種類似人類的、復(fù)雜且高級的推理行為,而這些都是研究人員從未明確教過它的。

      例如模型在給出最終答案前,學(xué)會了自己檢查一遍解題過程,就像我們做完數(shù)學(xué)題要驗算一樣。

      研究人員甚至觀察到了模型的“頓悟時刻”(Aha moment),在它的“內(nèi)心獨白”(推理過程)中,會突然出現(xiàn)“等等”(wait)這樣的詞,然后停下來重新評估自己最初的思路,修正錯誤。



      圖源:Nature

      此外,該研究還發(fā)現(xiàn)DeepSeek具有長思維鏈(Long CoT)自適應(yīng)計算的能力。

      一方面,面對復(fù)雜難題,模型會不惜花費成百上千個“詞元”(token)來進行深度思考和推理,展現(xiàn)出驚人的專注和嚴(yán)謹(jǐn);

      另一方面,模型還自己學(xué)會了“偷懶”,對簡單問題用較少的步驟快速解決,對復(fù)雜問題則投入更多的計算資源進行深度思考,實現(xiàn)了計算力的智能分配。

      這些自發(fā)涌現(xiàn)的能力,最終轉(zhuǎn)化為了實打?qū)嵉男阅芴嵘?/p>



      圖源:Nature

      今年1月模型剛發(fā)布時,曾有媒體報道稱OpenAI的研究人員認(rèn)為DeepSeek涉嫌使用“蒸餾”技術(shù)——即用OpenAI模型生成的數(shù)據(jù)來訓(xùn)練自己的模型,從而用更低的成本“抄近道”。

      這次的《Nature》論文,就是DeepSeek對此事最正式、最權(quán)威的回應(yīng)。

      在與審稿人的溝通中,團隊明確指出,R1模型的核心推理能力,是通過其獨創(chuàng)的純強化學(xué)習(xí)過程獨立訓(xùn)練出來的,并沒有學(xué)習(xí)或復(fù)制任何由OpenAI模型生成的推理范例

      當(dāng)然,團隊也坦誠地承認(rèn),其基礎(chǔ)模型是在海量的互聯(lián)網(wǎng)數(shù)據(jù)上訓(xùn)練的,其中自然不可避免地吸收到一些其他AI生成的內(nèi)容

      俄亥俄州立大學(xué)AI研究員Huan Sun表示,這個解釋“與我們在任何出版物中看到的一樣令人信服”。



      為什么說這是行業(yè)里程碑事件?

      《Nature》審稿人Lewis Tunstall強調(diào),將主流大模型提交同行評審是“一個值得歡迎的先例”,因為這為評估和管理AI風(fēng)險提供了開放的基礎(chǔ)。

      作為全球最頂級的科學(xué)權(quán)威機構(gòu),Nature正在借助DeepSeek的案例,向OpenAI、Google、Anthropic等巨頭發(fā)出呼吁:請把你們的模型也拿到陽光下,接受科學(xué)共同體的檢驗。

      DeepSeek的行為,正在倒逼整個行業(yè)提升透明度和可信度。

      并且,DeepSeek的貢獻遠不止于一篇論文。

      他們選擇了“開放權(quán)重”(Open-weight)的模式,將模型的核心參數(shù)公之于眾,任何人都可以下載、研究和改進他們的工作。

      這一舉動引爆了全球開發(fā)者社區(qū),DeepSeek-R1迅速成為AI社區(qū)平臺Hugging Face上同類模型中下載量最高的模型,累計下載超過1090萬次。

      此外,團隊還貼心地發(fā)布了多個“蒸餾”后的小尺寸模型,讓那些沒有海量計算資源的研究者和開發(fā)者也能用上先進的推理能力。

      這種開放精神,與一些巨頭公司“閉源”的路線形成了鮮明對比。



      梁文鋒的野心徹底暴露

      盡管取得了輝煌的成就,但客觀來看,DeepSeek的征途才剛剛開始。

      在長達64頁的同行評審報告中,8位審稿人共提出上百條具體意見,其中提到了DeepSeek數(shù)據(jù)細(xì)節(jié)仍不夠透明獎勵機制尚待優(yōu)化以及安全與倫理審查尚屬起步階段等問題。

      例如有審稿人要求DeepSeek在論文中附上SFT和RL數(shù)據(jù)的鏈接,而不僅僅是提供數(shù)據(jù)樣本。

      不過,梁文鋒的野心顯然不局限于此。

      據(jù)彭博社消息,DeepSeek正在秘密研發(fā)一款具備自我進化能力的Agent。這款產(chǎn)品無需復(fù)雜指令,能自主學(xué)習(xí)并執(zhí)行多步驟任務(wù),還可從歷史操作中迭代優(yōu)化。

      該項目由梁文鋒親自帶隊,計劃在今年第四季度發(fā)布,目標(biāo)直指“無需人類干預(yù)的通用智能體”。

      從《Nature》封面到自我進化Agent,一條清晰的路徑已經(jīng)浮現(xiàn)。

      如果說《Nature》上的這篇論文證明了模型可以在虛擬的數(shù)學(xué)世界里“自我進化”出推理能力,那么這款A(yù)gent的目標(biāo),可能就會讓模型在更廣闊的數(shù)字世界里,通過與環(huán)境的真實交互,“自我進化”出解決實際問題的行動能力。

      梁文鋒和他的團隊,真實目的應(yīng)該是創(chuàng)造出能夠自主學(xué)習(xí)、不斷成長的AI新物種,從而徹底改變?nèi)藱C協(xié)作的范式。

      這場好戲,才剛剛拉開序幕。

      作者 | 劉峰

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      忍無可忍!許利民怒斥:吊兒郎當(dāng)耍大牌,球迷:疑似指國內(nèi)這2人

      忍無可忍!許利民怒斥:吊兒郎當(dāng)耍大牌,球迷:疑似指國內(nèi)這2人

      寒士之言本尊
      2026-01-12 12:48:41
      2連勝廣東傳來5好消息!王洪澤打破心魔,還有一件事更讓粵迷開心

      2連勝廣東傳來5好消息!王洪澤打破心魔,還有一件事更讓粵迷開心

      后仰大風(fēng)車
      2026-01-12 08:10:14
      人民幣現(xiàn)金收付新規(guī)!2月起實施!

      人民幣現(xiàn)金收付新規(guī)!2月起實施!

      我愛大招遠
      2026-01-12 17:50:26
      霍啟剛公布個人名下財產(chǎn)!全球共有35個物業(yè),收租頗豐生活卻節(jié)儉

      霍啟剛公布個人名下財產(chǎn)!全球共有35個物業(yè),收租頗豐生活卻節(jié)儉

      阿纂看事
      2026-01-10 22:39:19
      男孩打開冰箱,發(fā)生爆炸臉上縫了38針!這幾樣?xùn)|西放冰箱要小心

      男孩打開冰箱,發(fā)生爆炸臉上縫了38針!這幾樣?xùn)|西放冰箱要小心

      大果小果媽媽
      2026-01-10 21:57:26
      成本驟降90%!商業(yè)航天電磁發(fā)射重大突破  10家隱形冠軍深度卡位

      成本驟降90%!商業(yè)航天電磁發(fā)射重大突破 10家隱形冠軍深度卡位

      元芳說投資
      2026-01-11 06:00:11
      A股:2.5億股民做好上車準(zhǔn)備,不出意外的話,全面牛市已經(jīng)重啟!

      A股:2.5億股民做好上車準(zhǔn)備,不出意外的話,全面牛市已經(jīng)重啟!

      股市皆大事
      2026-01-12 16:20:40
      北京未來五年要搞大事!住這些區(qū)域的人有福了,看看有你家嗎?

      北京未來五年要搞大事!住這些區(qū)域的人有福了,看看有你家嗎?

      吃貨的分享
      2026-01-12 15:14:58
      小國占據(jù)大島的無奈:格陵蘭島被發(fā)現(xiàn)上千年,丹麥從未完全控制?

      小國占據(jù)大島的無奈:格陵蘭島被發(fā)現(xiàn)上千年,丹麥從未完全控制?

      全城探秘
      2026-01-11 16:15:03
      上海前首富周正毅現(xiàn)狀曝光!戴200萬名表打耳釘,雪茄從不離手

      上海前首富周正毅現(xiàn)狀曝光!戴200萬名表打耳釘,雪茄從不離手

      小徐講八卦
      2026-01-12 14:35:55
      85%的血管淤堵,根本不用過度治療!醫(yī)生:做好3件事,比吃藥管用

      85%的血管淤堵,根本不用過度治療!醫(yī)生:做好3件事,比吃藥管用

      孟大夫之家1
      2026-01-09 15:47:05
      新婚妻子在羅布泊探險失蹤六年,我在沙漠油田找到她,場面太奇怪

      新婚妻子在羅布泊探險失蹤六年,我在沙漠油田找到她,場面太奇怪

      白云故事
      2025-11-22 17:15:06
      DeepSeek的資金后盾 梁文鋒幻方量化2025收益率曝光

      DeepSeek的資金后盾 梁文鋒幻方量化2025收益率曝光

      鳳凰網(wǎng)科技
      2026-01-12 18:18:25
      章瑩穎只是冰山一角:在暗網(wǎng)購物車?yán)铮瞬皇侨耍赡苁恰傲慵?>
    </a>
        <h3>
      <a href=普覽
      2026-01-10 20:44:27
      外媒感嘆:北京晴空萬里,歐盟深陷難題

      外媒感嘆:北京晴空萬里,歐盟深陷難題

      參考消息
      2026-01-12 14:34:16
      那些用開塞露涂臉的人,后來都怎么樣了?

      那些用開塞露涂臉的人,后來都怎么樣了?

      科普中國
      2026-01-12 11:21:30
      集體破防,火箭記者崩潰發(fā)文:現(xiàn)在都?xì)獾谜f不出話來

      集體破防,火箭記者崩潰發(fā)文:現(xiàn)在都?xì)獾谜f不出話來

      懂球帝
      2026-01-12 13:32:06
      單親媽媽,只身闖電詐園區(qū)

      單親媽媽,只身闖電詐園區(qū)

      中國新聞周刊
      2026-01-11 17:41:03
      東莞涉企行政檢查新規(guī):執(zhí)法人員應(yīng)亮證亮碼,否則可拒絕檢查

      東莞涉企行政檢查新規(guī):執(zhí)法人員應(yīng)亮證亮碼,否則可拒絕檢查

      南方都市報
      2026-01-12 16:31:21
      碎三觀!網(wǎng)傳江陰某4S店女銷售出軌客戶四年,親媽幫著出餿主意…

      碎三觀!網(wǎng)傳江陰某4S店女銷售出軌客戶四年,親媽幫著出餿主意…

      火山詩話
      2026-01-12 13:36:30
      2026-01-12 20:36:49
      科技頭版Pro incentive-icons
      科技頭版Pro
      一起見證改變世界的力量
      503文章數(shù) 168關(guān)注度
      往期回顧 全部

      科技要聞

      面對SpaceX瘋狂“下餃子” 中國正面接招

      頭條要聞

      特朗普:伊朗談判前美或先行動 正考慮"非常強硬選項"

      頭條要聞

      特朗普:伊朗談判前美或先行動 正考慮"非常強硬選項"

      體育要聞

      聰明的球員,不是教練教出來的

      娛樂要聞

      閆學(xué)晶:脫離群眾太久 忘了自己的根

      財經(jīng)要聞

      倍輕松信披迷霧 實控人占用資金金額存疑

      汽車要聞

      增配不加價 北京現(xiàn)代 第五代 勝達2026款上市

      態(tài)度原創(chuàng)

      房產(chǎn)
      健康
      本地
      藝術(shù)
      公開課

      房產(chǎn)要聞

      重磅調(diào)規(guī)!417畝商改住+教育地塊!海口西海岸又要爆發(fā)!

      血常規(guī)3項異常,是身體警報!

      本地新聞

      云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

      藝術(shù)要聞

      畫完這組畫,他抑郁了,后來自殺了

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 天堂8在线天堂资源bt| www.av小说| 日韩无码一区二区三区四区| 亚洲一区二区三区影院| 欧美11p| 99自拍视频| 亚洲sm另类一区二区三区| 一级淫片免费看| yy111111在线尤物| 国产成人成网站在线播放青青| 亚洲中文字幕无码久久精品1| 午夜无码福利| 国模在线| 人妻中文字幕亚洲| 国产国产国产国产系列| 涩欲国产一区二区三区四区| 中文字幕乱码亚洲无线| 中文无码日韩欧| 中文字幕一区二区三区乱码不卡| 最新中文字幕av无码专区| 国产精品一二二区视在线| 精品亚洲综合一区二区三区| 亚洲欧美成人| 国产日产欧产精品精品软件| 亚洲中文字幕久久久一区| 波多无码在线| 肥女五十路| 夜夜cao| 狠狠人妻久久久久久| 色秘?乱码一码二码三码熟女| 精品国产福利在线观看91啪| 夜夜躁很很躁日日躁麻豆 | 精选二区在线观看视频| 无码一区二区| 亚洲产在线精品亚洲第一站一| 成熟丰满熟妇av无码区| 91视频观看| 精品久久久中文字幕人妻| 日韩乱码人妻无码中文字幕视频| 欧美屁股大的xxxxx| 国产在线中文字幕精品|