<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      梁文鋒領銜團隊在《自然》發(fā)論文了…

      0
      分享至

      設置星標 關注,從此你的世界多點科學~


      今年1月,來自杭州的深度求索公司攜開源推理模型DeepSeek-R1火爆全網(wǎng)。

      AI專家盛贊其“純強化學習”的創(chuàng)新范式讓模型自我進化、擺脫對人工標注文本的依賴,業(yè)內(nèi)同行驚嘆于其超高性能背后的超低投入,金融市場則以股價巨震向這位物美價廉的數(shù)學大師、編程高手、推理王者致敬。

      DeepSeek-R1是開放權(quán)重模型(訓練參數(shù)對公眾公開),可供任何人下載使用。時至今日,它在AI開源社區(qū)Hugging Face上的下載量已超過1090萬次,是目前同類模型里最受歡迎的。此外,它還剛剛成為全球第一款經(jīng)過完整同行評審的大語言模型(LLM)。

      9月17日,深度求索創(chuàng)始人梁文鋒及其團隊正式于《自然》雜志發(fā)表封面文章,詳細闡述了他們強化標準LLM、升級推理策略的方式和過程。

      DeepSeek的核心創(chuàng)新在于采用純強化學習(pure reinforcement learning)這一自動化試錯方法構(gòu)建R1:通過獎勵機制驅(qū)動模型自己得出正確答案,而非教它遵循人類選擇的推理示例。因此,DeepSeek-R1能在“獨立思考”中學習形成自己的推理策略,例如“怎樣不受人類思維影響地驗證自己的結(jié)果”。

      為提升效率,模型選擇估計值(而非獨立算法)來給自己的工作評分——此項技術被稱為“群體相對策略優(yōu)化”(GRPO),屬于強化學習中的一種優(yōu)化方法,允許模型在訓練時通過自我評估和群體比較以求增效。

      有同行表示,DeepSeek-R1已對人工智能學界產(chǎn)生“相當顯著的影響”,2025年幾乎所有給大語言模型上強化學習的研究都“或多或少受到R1啟發(fā)”。

      另一方面,新論文在補充材料中首次披露了R1模型的訓練成本——區(qū)區(qū)29.4萬美元。構(gòu)建基礎LLM的投入則為600萬美元。這是什么概念呢?OpenAI、谷歌DeepMind、Meta等AI巨頭的模型訓練成本都是幾千萬起步的。

      值得一提的是,R1主要采用英偉達H800芯片進行訓練,而該芯片在2023年因美國出口管制禁令而被禁止對華銷售。

      此外,梁文鋒等人根據(jù)評審意見減少了擬人化表述,并補充了技術細節(jié)說明,包括模型訓練數(shù)據(jù)類型和安全性方面的內(nèi)容。

      Hugging Face的機器學習工程師劉易斯·坦斯托爾(Lewis Tunstall)是這篇《自然》新作的評審者之一。在他看來,如果不樹立“將模型的大部分開發(fā)過程與學界共享”的規(guī)范,同行就沒法評估系統(tǒng)是否存在風險。

      俄亥俄州立大學的人工智能研究員孫歡則指出,嚴格的同行評審過程確實有助于驗證模型的有效性和實用性,其他公司應當效仿DeepSeek。

      此前有媒體報道OpenAI方面對DeepSeek-R1的質(zhì)疑:深度求索團隊可能使用了OpenAI模型的輸出數(shù)據(jù)來訓練R1,這幫助他們以更少資源取得更高性能。

      梁文鋒等人未通過論文公開訓練數(shù)據(jù),但根據(jù)他們與評審人員的交流內(nèi)容,R1并未復制OpenAI模型生成的推理示例以開展學習。不過他們也承認,與大多數(shù)大語言模型一樣,R1的基礎模型確實“上網(wǎng)”練過,因此必然吸收互聯(lián)網(wǎng)上既有的AI生成內(nèi)容。

      坦斯托爾認為,雖無法百分百確定R1未使用OpenAI的示例進行訓練,但其他實驗室的復現(xiàn)結(jié)果已證明,DeepSeek的推理方案可能足夠優(yōu)秀了,優(yōu)秀到不必做那種事。“僅靠純強化學習就可實現(xiàn)極高性能!”

      他還表示,目前很多同行正嘗試運用R1的開發(fā)方法,既增強現(xiàn)有LLM的類推理能力,又將其應用領域拓展至數(shù)學和編程之外。“R1成功引領了一場變革。”

      孫歡指出,對研究者來說,R1很強很好用。在做數(shù)據(jù)分析和可視化等科學任務時,R1的準確率并未遙遙領先,但它最好地平衡了性能與成本。

      資料來源:


      《世界科學》雜志版在售中 歡迎訂閱

      月刊定價

      15元/期

      全年訂閱價

      180元

      點擊左側(cè)圖片或以下方訂閱方式選購

      方式一

      掃描二維碼,“雜志鋪”訂閱有折扣~

      方式二

      全國各地郵局訂閱 郵發(fā)代號:4-263

      方式三

      機構(gòu)訂閱,請撥打

      021-53300839;

      021-53300838

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      春節(jié)聚了幾次會才明白:人與人一旦走岔了,就再也回不去了

      春節(jié)聚了幾次會才明白:人與人一旦走岔了,就再也回不去了

      洞見
      2026-02-22 21:38:05
      罪有應得!官方徹查后,閆學晶再迎噩耗,她最擔心的事還是發(fā)生了

      罪有應得!官方徹查后,閆學晶再迎噩耗,她最擔心的事還是發(fā)生了

      來科點譜
      2026-01-23 11:08:02
      說句扎心的大實話,咱們在南海的“牌”,一開始爛到家了。

      說句扎心的大實話,咱們在南海的“牌”,一開始爛到家了。

      南權(quán)先生
      2026-01-27 15:44:44
      女子談釋永信過往,她們姐妹住少林寺3天2夜,爭著往釋永信房間跑

      女子談釋永信過往,她們姐妹住少林寺3天2夜,爭著往釋永信房間跑

      江山揮筆
      2025-07-29 16:50:59
      女子因桃花眼走紅,訂婚兩年熱度依舊,網(wǎng)友喊話:88號快回來上班

      女子因桃花眼走紅,訂婚兩年熱度依舊,網(wǎng)友喊話:88號快回來上班

      梅子的小情緒
      2025-12-19 14:04:18
      楊瀚森再被下放,競爭對手大爆發(fā),砍23+13助開拓者92-77大勝太陽

      楊瀚森再被下放,競爭對手大爆發(fā),砍23+13助開拓者92-77大勝太陽

      小蘭看體育
      2026-02-23 17:46:59
      全球第一!北大造出1納米超低功耗鐵電晶體管,中國芯迎重大突破

      全球第一!北大造出1納米超低功耗鐵電晶體管,中國芯迎重大突破

      Thurman在昆明
      2026-02-23 18:18:54
      美媒:中國首艘09V型核動力攻擊潛艇現(xiàn)身渤海,搭載全新X型尾舵

      美媒:中國首艘09V型核動力攻擊潛艇現(xiàn)身渤海,搭載全新X型尾舵

      百科密碼
      2026-02-23 16:23:49
      美國一富豪被冷凍50年,原定2017年蘇醒,解凍時工作人員緊急叫停

      美國一富豪被冷凍50年,原定2017年蘇醒,解凍時工作人員緊急叫停

      蜉蝣說
      2025-12-01 11:20:58
      春節(jié)期間人民幣猛漲!先別高興,要警惕今年外貿(mào)、股市能否接住!

      春節(jié)期間人民幣猛漲!先別高興,要警惕今年外貿(mào)、股市能否接住!

      趣味萌寵的日常
      2026-02-23 15:41:02
      96年,清華女碩士執(zhí)意遠嫁非洲,生下5個混血孩子,如今怎樣了?

      96年,清華女碩士執(zhí)意遠嫁非洲,生下5個混血孩子,如今怎樣了?

      起喜電影
      2026-02-22 13:22:34
      剛剛,全線大漲!中國資產(chǎn),爆發(fā)!

      剛剛,全線大漲!中國資產(chǎn),爆發(fā)!

      券商中國
      2026-02-23 10:50:07
      不堪被網(wǎng)友怒噴:這名昔日的巴西10號接班人,生涯按下了暫停鍵

      不堪被網(wǎng)友怒噴:這名昔日的巴西10號接班人,生涯按下了暫停鍵

      里芃芃體育
      2026-02-23 00:10:06
      閆學晶偷稅背債被查后首露面,終迎重罰結(jié)局

      閆學晶偷稅背債被查后首露面,終迎重罰結(jié)局

      余們搞笑段子
      2026-01-23 01:09:25
      兒子離家多年成三野參謀長,回鄉(xiāng)卻發(fā)現(xiàn),母親已是四野連級干部

      兒子離家多年成三野參謀長,回鄉(xiāng)卻發(fā)現(xiàn),母親已是四野連級干部

      興趣知識
      2026-01-06 01:52:56
      江西孤兒靠乞討長大成人,23歲時北京來人找他:你親媽是個大首長

      江西孤兒靠乞討長大成人,23歲時北京來人找他:你親媽是個大首長

      雍親王府
      2026-02-23 11:10:06
      大年初六,和幾個大廠(字節(jié)、阿里)朋友聚會。突然不聊房子了

      大年初六,和幾個大廠(字節(jié)、阿里)朋友聚會。突然不聊房子了

      螞蟻大喇叭
      2026-02-23 17:08:47
      張帥棄雙拼單終結(jié)連敗顯神威,王欣瑜排名實現(xiàn)突破首進TOP30

      張帥棄雙拼單終結(jié)連敗顯神威,王欣瑜排名實現(xiàn)突破首進TOP30

      網(wǎng)球之家
      2026-02-23 13:45:01
      不裝了!扛不住特朗普壓力,打響反華第一槍,荷蘭不給中方留退路

      不裝了!扛不住特朗普壓力,打響反華第一槍,荷蘭不給中方留退路

      楠楠自語
      2026-02-23 16:39:37
      大多數(shù)上海老人退休金并不高,主要表現(xiàn)是在68歲到80歲...

      大多數(shù)上海老人退休金并不高,主要表現(xiàn)是在68歲到80歲...

      白淺娛樂聊
      2026-02-18 17:18:38
      2026-02-23 19:07:00
      世界科學 incentive-icons
      世界科學
      《世界科學》編輯部運營賬號
      1849文章數(shù) 26923關注度
      往期回顧 全部

      科技要聞

      智譜、MiniMax合計蒸發(fā)近千億市值,為何?

      頭條要聞

      鄭麗文:一旦臺海爆發(fā)沖突 臺灣將成最大輸家

      頭條要聞

      鄭麗文:一旦臺海爆發(fā)沖突 臺灣將成最大輸家

      體育要聞

      哈登版騎士首敗:雷霆的冠軍課

      娛樂要聞

      谷愛凌奶奶去世,谷愛凌淚奔

      財經(jīng)要聞

      美國海關將停止征收被裁定違法的關稅

      汽車要聞

      續(xù)航1810km!smart精靈#6 EHD超級電混2026年上市

      態(tài)度原創(chuàng)

      旅游
      健康
      教育
      游戲
      軍事航空

      旅游要聞

      上海市春節(jié)假期接待游客2167.21萬人次 同比增長8.36%

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      教育要聞

      我把一個差生送進美國名校,如何幫他逆襲的?我兌現(xiàn)了當初的承諾

      八年前上市的《巨型水族館》還在推出更新與DLC

      軍事要聞

      美軍重兵集結(jié)蓄力作戰(zhàn)之際 新一輪美伊談判時間“敲定”

      無障礙瀏覽 進入關懷版