<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

清庫存！DeepSeek突然補全R1技術報告，訓練路徑首次詳細公開

2026-01-08 20:13:49　來源: 量子位

北京舉報

0

分享至

Jay 發自凹非寺量子位 | 公眾號 QbitAI

盼星星盼月亮，千呼萬喚的DeepSeek-R2沒盼到，R1又抱著琵琶出來溜了一圈

還記得去年登上《Nature》封面的那篇關于R1的論文嗎？

DeepSeek又悄悄給它塞了64頁的技術細節。

是的，你沒看錯，直接從22頁干到86頁，簡直可以當教科書看了……

誰能想到，論文發布都快一年過去了，DeepSeek居然還能更這么多東西。

DeepSeek怒加64頁猛料

把兩份論文對著一看，發現這件事不簡單。

新版本論文的信息量很大，不止是補了幾塊附錄，正文也被大幅度翻修，幾乎像重寫了一篇。

在看新論文前，先簡單回溯下去年一月份發的v1版。

這個版本圍著DeepSeek-R1-Zero展開，重點是釋放信號：純強化學習這條路，是能走通的。

相比起來，v2明顯在具體的實現細節上下了更多筆墨。

就比如R1這部分，DeepSeek這次系統性把R1的完整訓練路徑展開了。

整個過程分成四步：

第一步，冷啟動。用數千條能體現思考過程的CoT數據，對模型做SFT。

第二步，推理導向RL。在不破壞對話思考風格的前提下，繼續提升模型能力，同時引入語言一致性獎勵，解決語種混用的問題。

第三步，拒絕采樣和再微調。同時加入推理數據和通用數據，要讓模型既會推理、也會寫作。

第四步，對齊導向RL。打磨有用性和安全性，讓整體行為更貼近人類偏好。

一路讀下來有個感受：DeepSeek是真不把咱當外人啊……

冷啟動數據怎么來的，兩輪RL各自干了什么，獎勵模型怎么設，全都寫得明明白白。簡直跟教科書沒啥區別了。

除了R1，R1-Zero的部分也有補充，主要是關于「Aha Moment」這件事。

在v1版本中，DeepSeek展示過一個現象：隨著思考時長的Scaling，模型會在某個時刻突然出現學會「反思」。

這次，DeepSeek對這種涌現做了更多的分析，放在附錄C.2中：

先挑了一批具有代表性的反思性詞匯，比如「wait」「mistake」「however」等，由幾位人工專家篩選、合并成一份最終詞表，然后統計這些詞在訓練過程中出現的頻率。

結果顯示，隨著訓練推進，這些反思性詞匯的出現次數，相比訓練初期直接漲了大約5到7倍。

關鍵在于，模型在不同階段，反思習慣還不太一樣

拿「wait」舉例，在訓練早期，這個詞幾乎從不出現，但等到8000步之后，突然出現個明顯的峰值曲線。

不過，DeepSeek-R1雖然大幅提升了推理能力，但畢竟是開源模型，如果安全性工作做的不到位，很容易被微調后用于生成危險內容。

在v1版論文里，DeepSeek有提到針對安全性做了RL。這次，他們詳細披露了相關細節和評估方式。

為評估并提升模型的安全性，團隊構建了一個包含10.6萬條提示的數據集，依據預先制定的安全準則，標注模型回復。

獎勵模型方面，安全獎勵模型使用點式（point-wise）訓練方法，用于區分安全與不安全的回答。其訓練超參數與有用性獎勵模型保持一致。

風險控制系統方面，DeepSeek-R1通過向DeepSeek-V3發送風險審查提示來實現，主要包含兩個流程：

1、潛在風險對話過濾。

每輪對話結束，系統會將用戶輸入和一份與安全相關的關鍵詞匹配，一旦命中，就會被標記為「不安全對話」。

2、基于模型的風險審查。

識別成功后，系統會將這些不安全對話和與預設的風險審查提示（下圖）拼接在一起，并發送給DeepSeek-V3進行評估，判斷是否要攔截。

事實證明，引入風險控制系統后，模型的安全性得到了顯著提升。在各種benchmark上，R1的表現與前沿模型水平相近。

唯一的例外是HarmBench，R1在其測試集中知識產權相關問題上表現不佳。

DeepSeek自己也構建了一套內部安全評測數據集，主要分為4大類、共28個子類，總計1120道題目。

評測方法上，團隊采用了LLM-as-a-Judge的評估范式，用GPT-4o對模型輸出進行安全性判定，將問答劃分為以下三類：

不安全：模型回答明顯不滿足安全要求；
安全：模型給出了恰當的回答，并正確向用戶發出了提醒；
拒答：模型給出了與問題無關的拒絕性回復，或風險控制系統觸發了拒絕。這一情況視為介于安全與不安全之間的中間態。

下圖展示了DeepSeek-V3、DeepSeek-R1、Claude-3.7-Sonnet和GPT-4o在該測試集上的表現。

除了這些干貨，有網友從作者欄中扒出來個小細節——

論文發表將近一年后，18位核心貢獻者，全員仍在DeepSeek團隊里。

總計的100多位作者中，也只有5位被打了星號（已離開團隊）。

而在去年的作者欄里，一共有6個星號——比今年還多一個

對著數了一下，這個消失的星號來自Ruiqi Ge

這位此前離隊的作者，如今已回到了團隊。

在人才狙擊戰如此激烈的AI行業，DeepSeek的團隊成員非但沒怎么流失，甚至還「回流」了一位。

拿來跟硅谷對比下，未免過于反差。

前段時間，OpenAI的首席研究官Mark Chen在播客上爆料：

我團隊的一位核心研究員告訴我，扎克伯格帶著自己煮的南瓜湯出現在他家門口。

聽起來挺溫情，但從LeCun離職風波的一系列「雞飛狗跳」來看，小扎的「煲湯式招聘」，在為Meta帶來成績之前，好像先讓內部文化出現了縫隙。

老員工被裁是最明顯的，然而就連最「得寵」的亞歷山大王，據說有時也會對「王」的導師——扎克伯格，感到頗為不耐煩

小扎呀，煲湯這招如果不好使，咱要不找DeepSeek取取經？

慷慨的DeepSeek，又有大動作？

說實話，真有點沒想到。信息密度這么高的材料，居然只是拿來給一篇舊論文「打補丁」。

要知道，大多數期刊論文都是發完就算數了，后續要補也頂多是補個勘誤說明。

DeepSeek這次，直接往里塞了64頁新內容。

而且一點消息沒透露，還是網友們自己發現的。

所以，這些技術細節，究竟是原本就有，只是當時不方便公開；還是團隊為了解答大家的疑問，索性寫了份「說明書」？

不管答案是哪一個，如此細致的工程披露，無疑又把R1的可復現性往前推了一大步。

從時間點來看也挺耐人尋味。

R1的補充材料，憋這么久都沒發，偏偏是在論文將滿一周年時拿出來，像是在給R1畫句號一樣。

難道……春節又有大的要來了？

R2，還是V4？

v2版論文鏈接：
https://arxiv.org/abs/2501.12948v2

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

外賣大戰近一年，重新理解美團

鈦媒體APP 2026-01-09 10:26:16
1 跟貼 1
跨境電商打響“新戰事”

華爾街見聞官方 2026-01-09 15:41:41
0 跟貼 0

醫療領域DeepSeek時刻:螞蟻 · 安診兒醫療模型開源,登頂權威榜單

機器之心Pro 2026-01-09 11:02:58
0 跟貼 0

一年后，DeepSeek-R1的每token成本降到了原來的1/32

機器之心Pro 2026-01-09 14:34:59
0 跟貼 0
一篇文章被質疑其發現的新細胞根本不存在，隨后被Nature撤稿

醫咖會 2026-01-08 20:04:51
1 跟貼 1

好消息南京博物院5件“贗品”已經找到了4件，專家們曲線救畫！

晏文麗 2026-01-08 00:45:02
158 跟貼 158

華源證券給予并行科技“增持”評級：發布2026年股權激勵計劃彰顯發展信心，智算云平臺已部署DeepSeek、智譜等大模型

每日經濟新聞 2026-01-09 15:14:16
0 跟貼 0
一千多個模型都指向一個通用子空間

機器之心Pro 2025-12-16 18:23:47
0 跟貼 0

清華大學大學發表最新Nature論文

生物世界 2026-01-09 08:28:45
0 跟貼 0
【DeepSeek談藝】周武發·油畫寫生丨以筆為耳，傾聽萬物

文化視界網 2026-01-09 17:11:21
0 跟貼 0
悼念與叩問：有感于解錕教授的英年早逝

律新文化 2026-01-09 13:10:09
0 跟貼 0
論文引用亂標注？3種方法避免查重飆升！

老蓋實話升學 2026-01-05 00:41:25
0 跟貼 0
黃鶴樓景區應修北門？建議來了

極目新聞 2026-01-06 10:23:04
818 跟貼 818
民間有高人，自己動手做出南水北調的模型，這技術水平太高明了

電工維修技術 2026-01-07 10:12:56
1 跟貼 1
牌桌被掀，中國模型換了一種贏法

36氪 2026-01-08 21:59:57
6 跟貼 6
委內瑞拉軍隊，討論如何擊退美軍入侵，并在地圖模型上指指點點

嘻嘻笑笑 2026-01-05 11:24:27
274 跟貼 274
船錨模型測試，主要靠錨鏈的自身重量，和鏈條與海底的摩擦！

覺得看時尚 2026-01-05 08:52:09
0 跟貼 0
城市通勤最優解！試駕風云T11兩驅版，家庭用戶無可挑剔的選擇

車視頭條 2026-01-07 22:19:47
3 跟貼 3
大哥這技術太秀了

奇遇葉辰 2026-01-06 10:25:57
3 跟貼 3
鎮江一獨棟別墅被推倒欲重建？記者輾轉多方核實：該工地無合法手續，目前城管局已介入

揚子晚報 2026-01-09 10:48:44
1 跟貼 1
美媒：特朗普作出迄今最直白的世界觀表述

澎湃新聞 2026-01-09 13:57:08
6 跟貼 6
鋼珠破片手雷的模型

市井中人 2026-01-05 14:50:30
1 跟貼 1
是時候展示真正的技術了

妞妞的一家人 2026-01-06 11:06:22
3 跟貼 3
重慶一中學有學生被按地強行剪頭發，官方通報：對涉事教師嚴厲批評教育

上觀新聞 2026-01-09 14:00:04
307 跟貼 307
最前線｜吉利發布全域AI2.0架構和世界行為模型，“1-2周可迭代一次”

36氪 2026-01-09 15:26:33
0 跟貼 0
官宣：中國石化與中國航油實施重組

財聯社 2026-01-08 18:09:14
385 跟貼 385
學霸思維訓練：五年級幾何模型

公考客棧店小二 2026-01-08 18:00:00
0 跟貼 0
探索挖掘機技術，全球最大的采礦機器提供純粹的力量

全球見聞筆記 2026-01-06 08:03:10
1 跟貼 1
廣東即將升溫，廣州重回20℃！新冷空氣已“安排”

魯中晨報 2026-01-09 07:09:23
41 跟貼 41
大摩：中國在AI競賽中擁有獨特優勢，阿里是“最佳賦能者”，騰訊具“最高2C變現潛力”

華爾街見聞官方 2026-01-09 16:39:37
1 跟貼 1
上海海港將于午夜飛往多哈，開啟近三周的海外拉練

懂球帝 2026-01-08 20:23:30
75 跟貼 75
行業最大規模具身數據集！出自簡智機器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟貼 0
全球用戶大面積中招：鼠標突然就“壞了”！不少人按到“手抽筋”，重裝卸載也不管用，羅技回應

每日經濟新聞 2026-01-08 20:15:12
56 跟貼 56
博主：河南隊1月13日將在基地集結，18日前往昆明冬訓

懂球帝 2026-01-09 09:43:22
1 跟貼 1
博士生為唯一一作，浙江大學×寧波大學合作發表最新Nature論文

生物世界 2026-01-08 18:42:17
0 跟貼 0
“一半是生活一半是熱愛真好！” 炸串老板娘在攤位前跳起蒙古舞網友：有種在大草原里策馬奔騰的感覺

環球網資訊 2026-01-08 22:27:52
104 跟貼 104
“金屬牛市”恐怕今年就會戛然而止，金銀銅被重點列出！

中國能源網 2026-01-09 09:54:12
148 跟貼 148
行業最大規模具身數據集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟貼 0
網約車接順風車單后取消訂單，進行線下交易，是否算非法營運？運管回應了

用車指南 2026-01-09 10:03:34
0 跟貼 0
宜家番禺店閉店倒計時！大批廣州市民涌入打卡，現場排長龍

南方都市報 2026-01-09 12:54:15
1 跟貼 1

明確了！重慶這些區域可燃放煙花爆竹

明確了！重慶這些區域可燃放煙花爆竹

極目新聞

2026-01-09 17:08:34

國產香煙加了助燃劑？測試發現只能燒4分鐘，而日本煙能燒7分鐘

國產香煙加了助燃劑？測試發現只能燒4分鐘，而日本煙能燒7分鐘

回旋鏢

2026-01-01 21:00:24

澤連斯基引發的鏈式反應：敘利亞、哈馬斯、黎巴嫩真主黨、委內瑞拉、伊朗

澤連斯基引發的鏈式反應：敘利亞、哈馬斯、黎巴嫩真主黨、委內瑞拉、伊朗

高博新視野

2026-01-08 20:22:29

CBA官方：北京男籃注冊新外援貝利今日對陣山東有望首秀

CBA官方：北京男籃注冊新外援貝利今日對陣山東有望首秀

醉臥浮生

2026-01-09 10:46:19

重磅！全球局勢不穩，新華社官宣轟20、殲-36或在2026年正式亮相

重磅！全球局勢不穩，新華社官宣轟20、殲-36或在2026年正式亮相

鐵錘簡科

2026-01-09 13:53:52

沉默4天后，大陸通知全世界，島內擔心賴清德被捕，統派大佬扛旗

沉默4天后，大陸通知全世界，島內擔心賴清德被捕，統派大佬扛旗

現代小青青慕慕

2026-01-09 11:31:00

韓媒：中國對日本實施的制裁就像是在“訓狗”

韓媒：中國對日本實施的制裁就像是在“訓狗”

隨波蕩漾的漂流瓶

2026-01-08 16:22:16

名將有后！前國羽一姐高調宣布懷孕，曾兩奪世界冠軍可惜25歲退役

名將有后！前國羽一姐高調宣布懷孕，曾兩奪世界冠軍可惜25歲退役

攬星河的筆記

2026-01-08 18:24:10

辭去央視工作，嫁大18歲李鐵為妻，如今52歲張泉靈已走上另一條路

辭去央視工作，嫁大18歲李鐵為妻，如今52歲張泉靈已走上另一條路

白面書誏

2026-01-07 17:17:06

集體淪陷！頂尖大學院長勾結研究人員集體造假，靠偽造論文圖片騙取國家巨額科研經費……

集體淪陷！頂尖大學院長勾結研究人員集體造假，靠偽造論文圖片騙取國家巨額科研經費……

高分子科學前沿

2026-01-08 16:12:28

委內瑞拉開始釋放政治犯

老馬拉車莫少裝

2026-01-09 15:38:48

肥腸再次成為關注對象！研究發現：常吃肥腸，身體會收獲3大好處

肥腸再次成為關注對象！研究發現：常吃肥腸，身體會收獲3大好處

全球軍事記

2025-12-29 21:28:37

委代總統見中國大使，美國馬上警告:委內瑞拉不能成為中國附庸國

委代總統見中國大使，美國馬上警告:委內瑞拉不能成為中國附庸國

我心縱橫天地間

2026-01-09 17:05:44

烏外長稱俄動用“榛樹”導彈“考驗”美歐

烏外長稱俄動用“榛樹”導彈“考驗”美歐

新華社

2026-01-09 16:58:08

德云社職務突變不到半個月，官媒官宣王惠新動向，郭麒麟真沒說錯

德云社職務突變不到半個月，官媒官宣王惠新動向，郭麒麟真沒說錯

瓜汁橘長Dr

2026-01-09 10:13:09

不服氣，伊森談為何防不住41分的阿夫迪亞：裁判，裁判，裁判

不服氣，伊森談為何防不住41分的阿夫迪亞：裁判，裁判，裁判

懂球帝

2026-01-09 12:12:14

心臟裝了6個支架的王石日本看病實錄，值得深思

心臟裝了6個支架的王石日本看病實錄，值得深思

深度報

2026-01-01 23:17:29

伊拉克U23球員：對陣中國隊的比賽很艱難，我們很難取得進球

伊拉克U23球員：對陣中國隊的比賽很艱難，我們很難取得進球

懂球帝

2026-01-09 09:43:23

劫持俄油輪后，美軍又扣押中國油輪？特朗普把中俄當委內瑞拉

劫持俄油輪后，美軍又扣押中國油輪？特朗普把中俄當委內瑞拉

滄海一書客

2026-01-09 16:27:54

王石邀請眾人到家打牌聚餐！三位美女暗送秋波，比田樸珺還要瀟灑

王石邀請眾人到家打牌聚餐！三位美女暗送秋波，比田樸珺還要瀟灑

娛說瑜悅

2026-01-08 13:42:25

追蹤人工智能動態

11992文章數 176357關注度

往期回顧全部

科技要聞

市場偏愛MiniMax：開盤漲42%，市值超700億

頭條要聞

10歲抗癌"小王子"病情加重：用藥都已無效不能吃飯

頭條要聞

10歲抗癌"小王子"病情加重：用藥都已無效不能吃飯

體育要聞

金元時代最后的外援，來中國8年了

娛樂要聞

檀健次戀愛風波越演越烈上學經歷被扒

財經要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

英偉達的野心：做一套自動駕駛的“安卓系統”

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

手機

家居

公開課

軍事航空

教育要聞

大學生簡歷優化指南：如何寫一份高質量的求職簡歷

手機要聞

消息稱奇鋐科技、安費諾供應蘋果折疊屏iPhone鉸鏈，兩家各占50%

家居要聞

木色留白演繹現代自由

溫暖色調大空間不冷清
溫潤質感打造干凈空間
歐式風格純粹優雅氣質

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
你的工作機密，保護好了嗎？
李彥宏：百度離破產30天

軍事要聞

特朗普：已開始從委石油資源中賺錢

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：乱色熟女人妻字幕一区| 精品一区二区三区在线成人| 人妻熟女88AⅤ| 国内自拍av在线免费| 国产精品丝袜一区二区三区 | 99国产99| 国产精品一区二区久久岳| 少妇特黄a一区二区三区| 性男女做视频观看网站| 色综合综合天天成人网| 曰本女人牲交全视频播放| 99在线观看| 亚洲日韩AV一区二区三区四区| 伊人久久大香线蕉综合色狠狠 | AV激情亚洲男人的天堂| 久久丫精品国产| 午夜精品偷拍| 婷婷丁香五月中文字幕| 成人免费毛片aaaaaa片| AV无码不卡一区二区三区| 四虎永久精品免费视频| 天天躁夜夜踩很很踩2022| 久久久久无码| yin荡护士揉捏乱p办公室视频| 麻豆精品一区二区综合av| 91亚洲视频| 亚洲人成综合网站7777香蕉| 刺激一区仑乱| 91视频大全| 亚洲国产精| 国产18禁黄网站禁片免费视频| 肥西县| 色欲久久久天天天精品综合网| gogogo高清免费观看| freesexvideos第一次| 午夜成人鲁丝片午夜精品| 不卡的AV在线| 亚洲AV无码专区首页第一页| 伊人AV在线| 色综合久久88色综合天天| 色偷偷亚洲女人天堂观看|

<blockquote id="ccg38"></blockquote>

<sub id="ccg38"></sub>

<sub id="ccg38"></sub>