<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek殺出一條血路:國產大模型突圍不靠運氣!

      0
      分享至



      作者:高恒系中國科技新聞學會科幻傳播與未來產業專委會專家

      進入2025年末,全球大模型賽道的技術焦點幾乎被Google重新奪回。Gemini 3 Pro橫空出世,在多個權威基準上超越所有開源模型,重新確立了閉源陣營的技術高地。一時間,業內關于“開源模型是否已到極限”“Scaling Law是否真的撞墻”的質疑聲再起,一股遲滯情緒在開源社區彌漫。

      但就在此時,DeepSeek沒有選擇沉默。12月1日,它一口氣發布了兩款重磅模型:推理性能對標GPT-5的DeepSeek-V3.2,以及在數學、邏輯和多輪工具調用中表現異常強勢的Speciale版本。這不僅是對技術能力的集中展示,也是在當前算力資源并不占優的前提下,對閉源“新天花板”的正面回應。

      這不是一次簡單的模型更新。DeepSeek試圖在后Scaling時代找出一條全新路徑:如何用架構重塑彌補預訓練差距?如何通過“工具使用中的思考鏈”實現低token高效率的智能體表現?更關鍵的是,Agent為何從附屬功能變成了模型能力躍遷的核心引擎?

      本文將圍繞這三條主線展開分析:DeepSeek是如何在技術瓶頸下突破的?為何率先在開源陣營中重注Agent?而這是否意味著,開源模型仍有穿透閉源護城河的那條路?

      一、從落后到并跑,DeepSeek靠什么殺入第一梯隊

      在頂級AI模型的競技場中,開源選手一直被認為只能“追平”,難以真正“對抗”。但這一次,DeepSeek-V3.2交出的成績單,已不再是追趕者的姿態。

      根據DeepSeek官方公布的數據,V3.2在公開的推理類基準測試中,已全面對標GPT-5,僅略低于Gemini 3 Pro。在多個關鍵評估中,它不僅穩定勝出Kimi-K2-Thinking,還成功刷新了國內開源模型在推理能力上的最高紀錄。在數學、邏輯、復雜問答等任務中,DeepSeek-V3.2的表現接近閉源領先模型,已足以躋身“全球第二梯隊”的頭部。

      這背后的關鍵,并非大模型“繼續放大”就能解釋。DeepSeek的突破,核心在于對底層架構的重塑,尤其是稀疏注意力機制(DSA)的引入。傳統Transformer架構中,注意力機制對每一個token都要計算與前序所有token之間的關系,其計算復雜度呈平方級增長,成為大模型推理中的主要成本瓶頸。

      而DSA所引入的“閃電索引器”(Lightning Indexer),則相當于在這場計算中裝上了一套“快速預判器”——它不再對所有token做全量注意力分配,而是通過極少量、低精度的索引頭(可在FP8上運行)快速篩出最關鍵的token對,只對這些核心位置進行精算。這樣的設計,使得模型的核心注意力機制從平方級復雜度降至近線性,即便在128K這樣的超長上下文輸入中,也能保持相對穩定的計算負擔。

      值得注意的是,DeepSeek在引入DSA時并未選擇激進替換,而是采取了“密集預熱—稀疏過渡”的雙階段訓練策略。在模型預訓練的早期階段,保留原始注意力結構,僅訓練索引器模仿原始分布;而后再在后訓練階段逐步替換為稀疏結構,實現無中斷切換。這種“架構漸變式演進”,讓V3.2在長上下文推理中不僅效率提升,精度也未受損。Fiction.liveBench、AA-LCR等長文本任務測試顯示,V3.2在信息召回、上下文一致性和壓縮表達能力方面的得分均有顯著上升。

      但更具行業價值的突破,并不止于此。DeepSeek在V3.2中首次提出“Thinking in Tool-Use”的工具使用范式,將模型的執行鏈條從“思考→調用工具→結束”改造為“思考→調用→繼續思考→再調用”的交錯邏輯。這種機制與近年來Agent領域提出的“Interleaved Thinking”方向高度一致,不僅提升了工具調用的邏輯持續性,也讓模型能夠在一次任務中反復復用推理中間狀態。

      這種能力,在真實的Agent場景中尤為關鍵。現實任務往往并非一步到位,而是需要多輪信息獲取、驗證與策略修正。如果每次調用工具都讓模型“失憶”一次,就意味著它必須不斷從頭再推一次。而V3.2的做法,是明確將“推理軌跡”保留為上下文中的一部分,在工具返回新信息后,接續原思考路徑繼續向下延伸。這樣的機制不僅減少了重復token生成,也大幅降低了因狀態漂移造成的邏輯中斷。

      歸根結底,DeepSeek的這輪技術躍遷,并非靠更大的FLOPs堆出來,而是靠“更聰明地用算力”。DSA讓計算分配更有效,交錯思維讓工具調用更穩定,兩個維度共同指向一個目標:讓模型真正成為一個“可持續思考的智能體”,而不僅是一個大號的語言補全器。

      這也意味著,在規模紅利見頂之后,未來模型的競爭焦點,將逐步從“參數多少”回歸到“思維組織力”與“能效比”。而V3.2,恰好是這一轉向的早期注腳。

      二、押注Agent,不是跟風,而是戰略拐點

      相比模型性能上的技術突破,DeepSeek-V3.2在戰略路徑上的最大變化,是它將“Agent能力”與“推理能力”并列,明確寫入技術文檔的核心指標。這是過去國內開源模型幾乎未曾公開強調過的方向調整。在DeepSeek看來,Agent不再是工具調用的附屬模塊,而是模型能力釋放與產業落地之間的橋梁,甚至是未來大模型平臺化的前哨站。

      這種判斷并非脫離現實的技術浪漫。過去一年,大模型行業經歷了一個重要轉向:企業開始意識到,“更聰明的聊天機器人”帶來的邊際價值正在減退,真正具備“動作能力”的Agent,才是有望形成商業閉環的核心角色。從自動寫報告、自動生成報表,到批量工單處理與代碼修復,企業愿意為這些“可執行”的智能體付費,而不是為一句更像人類的話語買單。

      這也解釋了為何DeepSeek在V3.2后訓練階段投入大量資源打造Agent訓練體系,并自建了一套規模化的任務生成流水線。據官方披露,團隊為此合成了超過1800個智能體環境,并圍繞Agent任務設計了約85,000條高復雜度任務提示。這些任務并非來源于人工標注,而是通過環境構建器與軌跡評分機制自動生成,并借助強化學習形成閉環訓練。

      這種做法跳出了傳統預訓練依賴海量對話語料的思路。相比之下,Agent任務軌跡具備更強的結構性、驗證性和稀缺性。一旦構建完成,訓練效果將遠優于常規“對話式補全”。更關鍵的是,強化學習機制使得模型能力可以不斷通過反饋回路優化,而不再受限于預訓練階段的單向迭代。

      DeepSeek在訓練中采用了自研的GRPO(Group Relative Policy Optimization)策略,并對其進行了深度本地化適配,以適應大規模多輪任務訓練。在這一過程中,模型不僅需要優化單輪產出的合理性,更要平衡多輪任務中的推理一致性與語言表達穩定性。為避免傳統RL中“災難性遺忘”的問題,DeepSeek將推理獎勵、語言一致性得分與任務完成度打分整合為多維獎勵信號,使得模型在訓練中持續保持Agent執行鏈的完整性。

      而要支撐這一復雜的訓練機制,模型自身的“狀態感知能力”也必須同步升級。V3.2在架構中引入了完整的上下文管理策略:模型只會在用戶發出新消息時重置思考狀態,而在連續的工具調用過程中,其推理軌跡將被完整保留。這意味著模型可以持續積累“思維殘留”,在工具返回新信息后繼續推理而非重啟邏輯。這種“狀態延續機制”成為Agent多輪行為連續性的重要保障,也使得模型能勝任更復雜、跨階段的任務拆解。

      從系統邏輯上看,DeepSeek對Agent的理解已從“任務執行插件”上升到了“模型操作系統”的組成部分。它不是一個外掛,而是模型核心運行結構的一部分。這種系統觀的轉變,意味著未來大模型平臺的形態將趨近于一個調度操作系統:模型本身是OS內核,Agent是用戶態的執行程序,插件工具則成為可調用模塊。誰掌握了Agent層的標準,誰就可能在AI時代掌控平臺話語權。

      這也是為何DeepSeek試圖主導“交錯式思維+工具使用”的統一范式,并提出“Thinking in Tool-Use”這樣的底層設計語言。這不僅是技術細節的不同,更是一種平臺思維的顯現。

      對行業而言,DeepSeek的這一輪轉向標志著一個新的分水嶺:Agent能力不再是工程團隊“可做可不做”的附加選項,而是模型構建路徑中的核心分支。是否具備平臺級Agent能力,已經成為衡量模型中長期競爭力的關鍵指標之一。

      三、開源模型的極限在哪里?DeepSeek的“后訓練戰術”試圖給出答案

      盡管V3.2和Speciale在多個基準上實現了開源“從追趕到并跑”的逆轉,但DeepSeek在技術報告中也坦言:開源模型與閉源系統之間的差距,仍在某些關鍵維度上被進一步拉大。尤其是在知識廣度、極復雜任務處理能力以及token生成效率上,開源體系仍受限于資源、數據與預算。

      DeepSeek選擇并不掩飾這些局限,而是以極具可執行性的策略給出了回應:如果資源拼不過,就從方法入手,把訓練過程“做深”。

      這一策略的核心,是其獨有的“后訓練三件套”:專家蒸餾 + 多軌強化學習 + 工具思維機制融合。

      首先,是專家蒸餾(Expert Distillation)。在大多數模型仍以通用數據混合訓練為主時,DeepSeek為V3.2量身打造了六類專家模型,覆蓋數學、編程、邏輯推理、通用Agent、Agent編程和Agent搜索等核心能力域。每一類任務均有一組專屬模型,在自有數據集和生成軌跡中強化單一技能。這些專家并不直接部署,而是用來生成高質量訓練樣本,反哺主模型。

      隨后,這些“任務專精模型”產出的數據,會被統一用于訓練一個通用模型。在技術上,這相當于用多個極致偏科的“學霸”反向喂養一個全面發展的“全才”,既避免了多任務訓練中的能力稀釋,又保留了不同任務之間的結構聯通性。

      第二層,則是強化學習(RL)的擴展升級。DeepSeek延續了V3.2-Exp中的GRPO(Group Relative Policy Optimization)策略,并在數據與獎勵結構上進一步升級。模型不僅要完成任務,還需同時優化語言質量、推理鏈邏輯合理性與對工具的自然調用能力。整個后訓練階段的算力投入,占比已超過了預訓練預算的10%,在開源模型體系中極為罕見。

      更重要的是,強化學習過程中并非依賴人類評分,而是通過任務環境自帶的反饋機制與rubric自動評分。這一設計使得模型訓練不再受限于人工對齊數據,而是進入“結構化任務-自動評分-行為優化”的閉環學習路徑,也因此形成了比Chat數據更稀缺、但更具復用性的模型能力。

      第三層,是工具使用與“思考鏈”的融合機制。在訓練初期,模型往往無法理解“什么時候該調用工具、何時該繼續思考”,導致推理軌跡斷裂、邏輯中斷。為此,DeepSeek為V3.2設計了一套冷啟動系統提示,在思維軌跡中自然嵌入工具調用的示例,使得模型逐步學會在多輪任務中“帶著工具思考”,而非“思考完才調用工具”。

      此外,整個上下文狀態也被重新設計:工具調用不會中斷思考內容,用戶新輸入才會觸發清除。這一策略顯著降低了token冗余,也避免了每輪任務都從頭開始推理的問題。

      這些技術設計看似工程化,其實都指向一個本質問題:在參數量和訓練規模受限的前提下,開源模型如何提升“單位token的智能密度”。

      DeepSeek給出的答案是,把資源盡可能壓縮在“推理鏈條”的關鍵路徑中,讓每一輪推理都盡可能多帶信息,盡可能少重復。這不是規模的勝利,而是方法的勝利。

      當然,即便如此,DeepSeek仍未完全填補開源與閉源之間的知識鴻溝。官方報告也指出,V3.2的世界知識廣度與最新閉源模型仍有差距,Speciale模型雖然在復雜競賽中表現突出,但token開銷顯著增加,尚不適用于泛化日用場景。

      但如果說Gemini 3 Pro代表了閉源陣營對“更大、更快、更強”的繼續探索,那么V3.2與Speciale所代表的,或許是一種“更輕、更穩、更聰明”的新路徑。在行業對Scaling Law前景仍存爭議之際,DeepSeek正試圖以更強的推理組織力、更少的資源消耗、以及更高效的訓練范式,重構開源模型的競爭秩序。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      拒絕AI換臉,多花1個億重拍:《鏢人》的逆襲,從換角陳麗君開始

      拒絕AI換臉,多花1個億重拍:《鏢人》的逆襲,從換角陳麗君開始

      動物奇奇怪怪
      2026-02-22 03:41:51
      短道創28年最差成績!王濛怒斥戰術與訓練問題,直言敢簽生死狀!

      短道創28年最差成績!王濛怒斥戰術與訓練問題,直言敢簽生死狀!

      籃球資訊達人
      2026-02-21 17:01:43
      正式交易!1.25億先生打G聯賽,右膝撕裂+股四頭肌手術,可惜了

      正式交易!1.25億先生打G聯賽,右膝撕裂+股四頭肌手術,可惜了

      球童無忌
      2026-02-21 20:51:40
      你有知道哪些炸裂的秘密?網友:我有個秘密說出來肯定大家要笑死

      你有知道哪些炸裂的秘密?網友:我有個秘密說出來肯定大家要笑死

      帶你感受人間冷暖
      2026-01-29 00:10:05
      武漢三所大學被美國宣布制裁!

      武漢三所大學被美國宣布制裁!

      牛鍋巴小釩
      2026-02-21 14:50:45
      男子拿錯快遞,把白糖當底沙倒進魚缸!網友:魚要崩潰了……

      男子拿錯快遞,把白糖當底沙倒進魚缸!網友:魚要崩潰了……

      環球網資訊
      2026-02-21 16:00:42
      朱高熾在位不足一年 ,為何能青史留名?他解決了三個天大的難題

      朱高熾在位不足一年 ,為何能青史留名?他解決了三個天大的難題

      千秋文化
      2026-01-21 20:55:53
      撒貝寧曬全家福!龍鳳胎像復制粘貼,李白狀態引熱議

      撒貝寧曬全家福!龍鳳胎像復制粘貼,李白狀態引熱議

      情感大頭說說
      2026-02-21 19:28:07
      一票難求!到處爆滿!川A大軍、渝A大軍,大年初五依舊無處可去…

      一票難求!到處爆滿!川A大軍、渝A大軍,大年初五依舊無處可去…

      火山詩話
      2026-02-21 13:51:07
      竇唯和王菲年輕時候的照片,你們從沒見過的照片

      竇唯和王菲年輕時候的照片,你們從沒見過的照片

      草莓解說體育
      2026-02-21 22:32:06
      伊朗學生在各地發起大規模反政權抗議

      伊朗學生在各地發起大規模反政權抗議

      桂系007
      2026-02-21 23:43:38
      步步踩紅線!高市公然宣稱放寬日本防衛裝備出口

      步步踩紅線!高市公然宣稱放寬日本防衛裝備出口

      看看新聞Knews
      2026-02-21 18:52:03
      潘瑋柏老婆曬過年照,上海豪宅里做了24道菜,侄子長得也帥

      潘瑋柏老婆曬過年照,上海豪宅里做了24道菜,侄子長得也帥

      春之寞陌
      2026-02-20 21:19:48
      清算開始了!柯文哲向民進黨這一跪,直接把黃國昌逼上了絕路

      清算開始了!柯文哲向民進黨這一跪,直接把黃國昌逼上了絕路

      生活魔術專家
      2026-02-21 19:11:15
      今年的消費真相:不是大家不花錢了,而是都換了一種活法

      今年的消費真相:不是大家不花錢了,而是都換了一種活法

      夜深愛雜談
      2026-02-21 23:09:19
      拾石村媽祖被替后續: 女孩賬號曝光,當了八年被選定,今年滿18歲

      拾石村媽祖被替后續: 女孩賬號曝光,當了八年被選定,今年滿18歲

      離離言幾許
      2026-02-20 14:02:55
      女子麗江35萬買玉鐲,三年后帶丈夫重游,老板見鐲子癱軟在地

      女子麗江35萬買玉鐲,三年后帶丈夫重游,老板見鐲子癱軟在地

      匹夫來搞笑
      2026-02-21 16:52:33
      這次中日摩擦,為何不“抵制日貨”了?

      這次中日摩擦,為何不“抵制日貨”了?

      華山穹劍
      2026-02-20 20:35:29
      正在逆襲!《鏢人》票房連續逆跌,預測提升,吳京這一次又賭贏了

      正在逆襲!《鏢人》票房連續逆跌,預測提升,吳京這一次又賭贏了

      得得電影
      2026-02-19 19:34:29
      撐過兩次世界大戰的百年老店,2026年倒了——英國海外買家必看的中介避雷指南

      撐過兩次世界大戰的百年老店,2026年倒了——英國海外買家必看的中介避雷指南

      英國那些事兒
      2026-02-20 23:35:58
      2026-02-22 06:31:03
      觀潮科技Pro incentive-icons
      觀潮科技Pro
      資深財經媒體人 36氪特邀作者、大象新聞簽約作者 中國科技新聞學會科幻傳播與未來產業專委會專家
      223文章數 1050關注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      貝加爾湖7名遇難者身份全部確認 1家4口僅1人生還

      頭條要聞

      貝加爾湖7名遇難者身份全部確認 1家4口僅1人生還

      體育要聞

      徐夢桃:這是我第一塊銅牌 給我換個吉祥物

      娛樂要聞

      黃曉明澳門賭博輸十幾億 本人親自回應

      財經要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔當”來了 方程豹首款轎車路跑信息曝光

      態度原創

      教育
      手機
      親子
      健康
      藝術

      教育要聞

      高考地理中的河流凹凸岸

      手機要聞

      三星Galaxy S26系列顏色曝光:將推6種配色,兩款為線上專屬

      親子要聞

      中韓寶寶得要從小灌輸中國文化 真正的年味是什么?

      轉頭就暈的耳石癥,能開車上班嗎?

      藝術要聞

      他的肖像畫和人體畫,竟讓人贊嘆不已!

      無障礙瀏覽 進入關懷版