<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      梁文鋒署名論文,DeepSeek最強開源Agent模型炸場

      0
      分享至


      智東西
      作者 陳駿達
      編輯 云鵬

      智東西12月2日報道,昨晚,DeepSeek發布了兩款新模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale。這是DeepSeek當前性能最強大的模型,在推理、智能體等多領域基準測試中斬獲全球開源模型第一的表現。

      DeepSeek稱,標準版的DeepSeek-V3.2在公開的推理類基準測試中,達到了GPT-5的水平,僅略低于Gemini-3.0-Pro;相比Kimi-K2-Thinking,V3.2的輸出長度大幅降低,顯著減少了計算開銷與用戶等待時間。

      長思考增強版DeepSeek-V3.2-Speciale結合了DeepSeek-Math-V2的定理證明能力,具備較強的指令跟隨、數學證明與邏輯驗證能力,在主流推理基準測試上的性能表現媲美Gemini-3.0-Pro


      在開源世界里,DeepSeek-V3.2也是領先的存在。據權威大模型測評平臺Artificial Analysis數據顯示,在未計入DeepSeek-V3.2時,當前業內智能水平最高的開源模型是Kimi-K2-Thinking。


      在DeepSeek-V3.2和Kimi-K2-Thinking兩款模型均公布結果,且測試設置相同的基準測試上,DeepSeek-V3.2均領先于Kimi-K2-Thinking。


      ▲DeepSeek-V3.2和Kimi-K2-Thinking基準測試對比,數據來源為官方渠道

      DeepSeek-V3.2還是DeepSeek推出的首個將思考融入工具使用的模型,并且同時支持思考模式與非思考模式的工具調用。


      DeepSeek-V3.2模型在智能體評測中達到了當前開源模型的最高水平,大幅縮小了開源模型與閉源模型的差距。值得說明的是,V3.2并沒有針對這些測試集的工具進行特殊訓練,這意味著V3.2在真實應用場景中能夠展現出較強的泛化性。


      此外,DeepSeek-V3.2-Speciale模型還成功斬獲IMO 2025(國際數學奧林匹克)、CMO 2025(中國數學奧林匹克)、ICPC World Finals 2025(國際大學生程序設計競賽全球總決賽)及 IOI 2025(國際信息學奧林匹克)金牌。其中,ICPC與IOI成績分別達到了人類選手第二名與第十名的水平。


      在高度復雜任務上,Speciale模型大幅優于標準版本,但消耗的Tokens也顯著更多,成本更高。目前,DeepSeek-V3.2-Speciale僅供研究使用,不支持工具調用,暫未針對日常對話與寫作任務進行專項優化。

      目前,DeepSeek官方網頁端、App和API均已更新為正式版DeepSeek-V3.2。Speciale版本目前僅以臨時API服務形式開放,以供社區評測與研究。DeepSeek-V3.2系列模型已經開源,技術報告同期發布。

      值得一提的是,在技術報告的作者名單里,我們能看到不少熟悉的名字,比如DeepSeek創始人兼CEO梁文鋒、前段時間代表DeepSeek在烏鎮世界互聯網大會上發聲的研究員陳德里等。


      技術報告:

      https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf

      開源鏈接:

      DeepSeek-V3.2

      https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2

      DeepSeek-V3.2-Speciale

      https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale

      一、開源模型、閉源模型差距越來越大?DeepSeek找到三個原因

      過去幾個月,開源模型和專有模型的差距為什么在不斷擴大?這是DeepSeek團隊一直在思考的問題。

      DeepSeek團隊認為,限制開源模型在復雜任務中能力的因素,主要有三點。

      首先,在架構上,開源模型主要依賴于原始注意力機制,這嚴重限制了長序列處理的效率。這種低效性對規模化部署和有效的訓練后階段都構成了重大障礙。

      其次,在資源分配方面,開源模型在訓練后階段的算力投入不足,限制了其在困難任務上的表現。

      最后,在智能體應用場景中,與專有模型相比,開源模型在泛化能力和指令遵循能力上表現出明顯滯后,這阻礙了其在真實部署中的有效性。

      為了解決這些關鍵限制,DeepSeek首先引入了DSA(DeepSeek Sparse Attention),這是一種高效的稀疏注意力機制,旨在顯著降低計算復雜度。該架構有效解決了效率瓶頸,即使在長上下文場景下也能保持模型性能。

      其次,DeepSeek開發了一個穩定且可擴展的強化學習協議,允許在訓練后階段進行大規模算力擴展。值得注意的是,該框架分配的訓練后算力預算超過了預訓練成本的10%,這在業內是較為少見的,從而解鎖了模型的高級能力。

      第三,DeepSeek提出了一種新穎的流程來促進工具使用場景中的泛化推理。研發團隊利用DeepSeek-V3方法實施冷啟動階段,將推理和工具使用統一在單一軌跡中。

      隨后,推進到大規模的智能體任務合成,生成了超過1800個不同的環境和85000個復雜提示。這些廣泛合成的數據驅動了強化學習過程,顯著增強了模型在智能體上下文中的泛化能力和指令遵循能力。

      二、基于DeepSeek-V3.1最終版打造,DSA讓模型計算更聰明

      DeepSeek-V3.2使用的架構與此前發布的實驗版DeepSeek-V3.2-Exp完全相同。與DeepSeek-V3.1系列的最后一版DeepSeek-V3.1-Terminus相比,DeepSeek-V3.2唯一的架構改動是通過持續訓練引入了DSA。

      傳統的注意力機制在處理一個token時,需要和它前面所有的toekn進行計算,這在長文本中非常耗時。DSA的思路就是先快速篩選出最重要的幾個token,然后只對這些token進行詳細分析。

      這一選擇是通過閃電索引器(lightning indexer)實現的。閃電索引器計算查詢token與前序token的索引分數,以決定應該選擇哪些token進行計算。鑒于閃電索引器頭數少且可在FP8下實現,其計算效率非常出色。

      給定每個查詢token的索引分數后,細粒度令牌選擇機制僅檢索與top-k索引分數對應的鍵值條目,并計輸出。


      DeepSeek-V3.2的訓練從上下文長度已擴展到128K的DeepSeek-V3.1-Terminus基礎檢查點開始。

      在繼續預訓練過程中,模型先經歷“密集預熱”,即保持完整注意力不變,只訓練索引器,使其學會模仿原注意力的分布。

      隨后進入稀疏訓練階段,引入真正的令牌選擇機制,并同時優化整個模型。通過這種逐步過渡的方式,模型能夠平穩從密集注意力遷移到稀疏結構,而不會導致性能崩塌。

      在能力評估方面,DeepSeek-V3.2-Exp在標準基準測試、人類偏好評估以及多項長上下文任務中均表現出與前代相當甚至更優的結果。

      無論是ChatbotArena的Elo得分,還是AA-LCR與Fiction.liveBench等長序列測試,皆顯示其在引入稀疏注意力后并未犧牲模型質量,反而在長序列推理中獲得明顯優勢。

      在實際推理成本上,DSA將模型的核心注意力復雜度從平方級降低為近似線性增長,使得序列越長,節省越明顯。雖然索引器本身仍需處理全局信息,但其開銷遠小于原MLA。

      結合工程優化,DeepSeek-V3.2在H800 GPU上實現了顯著的端到端加速,并在短上下文下利用專門的掩碼模式進一步提升效率。總體而言,DeepSeek-V3.2在保持能力不降質的同時,有效突破了長上下文推理的性能瓶頸。


      ▲DeepSeek-V3.2在H800 GPU上實現了顯著的端到端加速

      三、打造6類專屬模型,讓模型給自己造后訓練數據

      DeepSeek-V3.2的后訓練階段是在持續預訓練之后進行的,它的目標是把一個規模龐大但尚未定型的基礎模型,進一步塑造成兼具推理、工具使用、代理任務和對齊能力的最終版本。

      整個過程延續了DeepSeek-V3.2-Exp的做法,并依然基于稀疏注意力進行高效訓練。后訓練主要依靠兩條路線:一條是專家蒸餾,一條是混合式強化學習,兩者結合起來,使模型在不同領域都能獲得穩定且均衡的能力提升。

      專家蒸餾的核心思想是,不同任務由專門的專家模型來承擔學習,再將這些專家的能力匯聚到統一的大模型中。

      團隊首先從同一個DeepSeek-V3.2基礎檢查點出發,為數學、編程、邏輯推理、通用智能體、智能體編程和智能體搜索等六類專業任務分別訓練專屬模型,這些模型擁有思考模式和直接作答模式兩類數據,并利用大規模RL進行強化,以保證每個專家在自己的領域達到高水準。

      隨后,這些專家會負責生成高質量的領域數據,用來訓練一個統一的大模型。實驗表明,用專家數據蒸餾出來的大模型性能已經非常接近各個專家本身,再輔以后續的RL微調,殘余的差距也可以基本消除。

      混合式強化學習環節繼續采用GRPO(Group Relative Policy Optimization)算法,把推理、智能體與人類對齊的訓練整合到同一個階段,從而避免多階段訓練中常見的災難性遺忘。

      推理和智能體任務主要依賴規則獎勵、長度懲罰以及語言一致性獎勵;而通用任務則由生成式獎勵模型根據特定rubric評分。這樣做的好處是,模型不會偏向某一類任務,而能在整體上保持穩健的能力平衡。

      為了讓強化學習能夠在大規模計算下穩定推進,團隊還對GRPO做了多項改進,使得大模型在長時間、高強度的訓練下依然能保持良好的收斂特性。

      在后訓練中,DeepSeek-V3.2著重解決“思考模式與工具使用如何結合”的難題。為了避免模型在多輪工具調用中頻繁重復推理,他們設計了一套新的上下文管理機制:只有當出現新的用戶消息時才會清除思考軌跡,而工具輸出的追加并不會導致推理內容被丟棄。

      同時,工具調用歷史仍會被完整保留,確保模型能夠連續地利用已有推理繼續完成后續動作。在訓練早期,由于推理數據與代理數據來源不同,模型需要一個冷啟動方式把“邊思考邊用工具”的模式拼接起來,因此團隊設計了特定的系統提示,讓模型在推理軌跡中自然嵌入工具調用,為后續RL提供可學習的示例軌跡。

      例如,在回答問題1過程中(請求1.1-1.3),模型進行了多次思考+工具調用后給出答案。在這個過程中,用戶需回傳思維鏈內容(reasoning_content)給 API,以讓模型繼續思考。在下一個用戶問題開始時(請求2.1),需刪除之前的思維鏈,并保留其它內容發送給API。


      ▲工具調用歷史保存機制

      真正的能力提升則來自大規模的代理任務RL,它們覆蓋搜索、代碼修復、代碼解釋以及由自動環境生成器創建的各種可驗證任務——這些任務往往具有復雜性高、可驗證性強的特點,非常適合作為RL的訓練素材。

      最終形成的DeepSeek-V3.2是在經過大量專家蒸餾數據、混合RL訓練和工具思考機制增強之后得到的統一模型,融合思考和非思考能力,而另一個實驗版本DeepSeek-V3.2-Speciale則進一步在推理方向上加重訓練,以探索更長推理路徑的潛力。

      結語:平衡計算效率與推理能力,知識廣度和token效率仍有提升空間

      DeepSeek-V3.2是一個平衡了計算效率與高級推理能力的模型。 DSA在不犧牲長上下文性能的前提下解決了關鍵的計算復雜度問題。隨著計算預算的提升,DeepSeek-V3.2在推理基準測試上達到了可與GPT-5相媲美的性能。

      此外,DeepSeek集成的大規模智能體任務合成流水線,顯著增強了工具使用能力,為構建穩健且具備泛化能力的開源大模型智能體打開了新的可能性。

      不過,DeepSeek也承認,由于整體訓練FLOPs較少,DeepSeek-V3.2的世界知識廣度仍落后于領先的專有模型。DeepSeek計劃在未來的迭代中通過擴大預訓練計算量來縮小這一知識差距。

      其次,token效率仍是一項挑戰;DeepSeek-V3.2通常需要更長的生成軌跡(即更多的tokens)才能達到與Gemini-3.0-Pro等模型相似的輸出質量。未來的工作將聚焦于優化模型推理鏈的“智能密度”,以進一步提高效率。

      第三,在解決復雜任務方面,DeepSeek-V3.2與前沿模型相比仍有差距,DeepSeek稱會進一步完善基礎模型以及后訓練處理方案。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      霸王茶姬創始人婚禮證婚詞曝光!證婚人李善友稱:張俊杰一天書都沒念,是個天才,與新娘在混沌學園相識相愛

      霸王茶姬創始人婚禮證婚詞曝光!證婚人李善友稱:張俊杰一天書都沒念,是個天才,與新娘在混沌學園相識相愛

      觀威海
      2025-12-17 15:18:04
      絕了!40歲C羅對決伊萬卡,顏值巔峰碰撞催生體育科技神話

      絕了!40歲C羅對決伊萬卡,顏值巔峰碰撞催生體育科技神話

      羅氏八卦
      2025-12-17 23:02:48
      "永久產權″來了!不動產登記正式生效,不用糾結土地年限了!

      "永久產權″來了!不動產登記正式生效,不用糾結土地年限了!

      蜉蝣說
      2025-12-16 19:47:24
      他以一己之力改變了戰爭進程,一天之內炸沉2艘航母的牛人

      他以一己之力改變了戰爭進程,一天之內炸沉2艘航母的牛人

      知兵堂軍事
      2025-12-17 10:32:13
      正式退出,劉國梁遺憾,國際乒聯官宣,國乒未來恐陷入被動

      正式退出,劉國梁遺憾,國際乒聯官宣,國乒未來恐陷入被動

      懂球社
      2025-12-17 11:57:31
      豬肚再次成為討論對象!研究發現:常吃豬肚,可能會獲取3大益處

      豬肚再次成為討論對象!研究發現:常吃豬肚,可能會獲取3大益處

      九哥聊軍事
      2025-12-15 21:18:17
      一生好酒又好色,卻有驚世才華,留下無數經典作品讓后世膜拜

      一生好酒又好色,卻有驚世才華,留下無數經典作品讓后世膜拜

      林雁飛
      2025-12-17 13:53:59
      純電生死戰,打掉理想千億市值

      純電生死戰,打掉理想千億市值

      市值榜
      2025-12-16 13:11:59
      員工拒洗窗簾硬杠董事長被降職 月薪4300元降至3000元 起訴后獲5萬元補償

      員工拒洗窗簾硬杠董事長被降職 月薪4300元降至3000元 起訴后獲5萬元補償

      閃電新聞
      2025-12-17 12:37:13
      貂蟬侍寢夜,董卓一項紀錄讓后世霸主咋舌不已,呂布:真夠狠!

      貂蟬侍寢夜,董卓一項紀錄讓后世霸主咋舌不已,呂布:真夠狠!

      紅豆講堂
      2025-12-12 13:38:15
      37歲張雨綺近照不敢認!牙齒眼角全變樣,網友:別折騰自然最美

      37歲張雨綺近照不敢認!牙齒眼角全變樣,網友:別折騰自然最美

      無處不風景love
      2025-12-18 10:38:06
      第一批免簽去俄羅斯的中產傻眼了

      第一批免簽去俄羅斯的中產傻眼了

      風向觀察
      2025-12-16 18:26:08
      最后關頭,高市政府通告中國,希望送回大熊貓,中方誤判了日本?

      最后關頭,高市政府通告中國,希望送回大熊貓,中方誤判了日本?

      影孖看世界
      2025-12-17 20:21:04
      女高中生憑顏值火出圈,評論區沸騰:妥妥的985長相

      女高中生憑顏值火出圈,評論區沸騰:妥妥的985長相

      蝴蝶花雨話教育
      2025-12-13 08:53:20
      投資最大的成本不是金錢,是控制不住的情緒內耗

      投資最大的成本不是金錢,是控制不住的情緒內耗

      真實人物采訪
      2025-12-17 11:00:06
      萬萬沒想到,印軍連望遠鏡都快架到我們墨脫水電站工地施工現場了

      萬萬沒想到,印軍連望遠鏡都快架到我們墨脫水電站工地施工現場了

      百態人間
      2025-12-17 16:32:40
      水均益到泉州女婿家做客,和前妻同框還抱外孫女,對女婿稱呼疏離

      水均益到泉州女婿家做客,和前妻同框還抱外孫女,對女婿稱呼疏離

      李佳康
      2025-12-18 01:35:59
      高市將迎來五路援兵,準備登陸釣魚島,日方官員:沒實力別挑釁

      高市將迎來五路援兵,準備登陸釣魚島,日方官員:沒實力別挑釁

      趣文說娛
      2025-12-18 13:19:56
      情侶連開房2天:帶血紙巾扔一地,骯臟畫面流出,事發全過程披露

      情侶連開房2天:帶血紙巾扔一地,骯臟畫面流出,事發全過程披露

      博士觀察
      2025-12-17 21:25:47
      黃一鳴帶女兒醫院看病,閃閃名字被曝光,網友:王思聰會很遺憾!

      黃一鳴帶女兒醫院看病,閃閃名字被曝光,網友:王思聰會很遺憾!

      娛樂團長
      2025-12-08 11:11:05
      2025-12-18 14:51:00
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務產業升級。
      10926文章數 116928關注度
      往期回顧 全部

      科技要聞

      新一代AI創業大賽頒獎典禮暨AI投資論壇

      頭條要聞

      絲芭傳媒再發文:將舉報鞠婧祎涉嫌嚴重經濟犯罪行為

      頭條要聞

      絲芭傳媒再發文:將舉報鞠婧祎涉嫌嚴重經濟犯罪行為

      體育要聞

      巴黎首奪世界級冠軍 加冕6冠王比肩巴薩拜仁

      娛樂要聞

      內娛解約大戰:鞠婧祎和絲芭,誰是狼人

      財經要聞

      重大改革,身關14億人的政策徹底變了!

      汽車要聞

      開箱日產大沙發 精致辦公or躺平追劇 哪個更適配?

      態度原創

      手機
      健康
      親子
      藝術
      軍事航空

      手機要聞

      日版App Store大改 引入第三方應用商店與支付選項

      這些新療法,讓化療不再那么痛苦

      親子要聞

      誰打我女兒我就打他女兒!

      藝術要聞

      卡洛斯·杜蘭:不只是薩金特的老師!

      軍事要聞

      福建艦入列后首過臺海 臺方談為何"甲板上沒有艦載機"

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产一区二区精品久久岳| 琪琪福利视频| 精品人妻少妇一区二区三区 | 欧美综合天天夜夜久久| 锡林浩特市| 无码中文字| 色福利网| 九龙坡区| 中文字幕自拍| 97精品人妻系列无码人妻| 精品国产网站| 蜜臀午夜一区二区在线播放| 少妇高潮惨叫喷水在线观看| 国产a在视频线精品视频下载| 色噜噜一区二区三区| 高邮市| 91超碰人人在线| 亚洲成人av| 麻豆一区二区中文字幕| 少妇被粗大的猛烈进出69影院一| 国内大量偷窥精品视频| 丰原市| av图片小说| 国产在线拍偷自揄观看视频网站 | 亚洲综合自拍| 情欲少妇人妻100篇| 精品国产av无码一区二区三区| 石林| 在线免费不卡视频| 岛国av无码免费无禁网站 | 欧洲lv尺码大精品久久久| 成人h动漫精品一区二区无码| 无玛视频| 亚洲av二区| 免费网站看sm调教视频| 宁南县| 久久丫精品系列| 美女张开腿黄网站免费下载| 性色综合| 加勒比久久AV| 人妻 日韩 欧美 综合 制服|