<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek再次放大招,用MHC改變技術規則

      0
      分享至

      過去半年以來,大家都在等DeepSeek再次放大招,但是似乎并沒有讓人特別驚艷的進展,再次橫空出世。

      等2026年的新年剛翻頁,DeepSeek 并沒有像外界期待的那樣發布新模型、刷榜單、秀參數,而是做了一件更加踢館炸街的大事,在 arXiv上發表了一篇最重磅的論文。


      這一點非常關鍵。因為arXiv 從來就不是給市場看的地方,它是全球科研共同體默認的“原始技術水源”。

      能選擇在這里發聲,說明這一次DeepSeek 想討論的,不是大模型的應用效果了,而是以前的規則本身,能不能繼續成立,還能不能繼續創新的問題

      論文的名字叫《mHC:引入流形約束的超連接結構》。如果你只是停留在標題層面,大概率會覺得這又是一篇典型的模型結構改進論文,專業、抽象。而且離現實很遠。

      但如果你順著論文真正想解決的問題往下拆,你會發現,這一次DeepSeek 實際上是在正面回答一個,過去兩年幾乎所有大模型公司都在刻意回避的問題:

      大模型,還能不能繼續穩定地變大?

      注意,這里不是“還能不能繼續變強”,而是“還能不能穩定”的變大的問題。這是兩個完全不同的命題。

      過去十年,整個深度學習體系有一個幾乎沒人再質疑的默認前提:只要模型足夠深、足夠寬,只要算力和數據能跟上,訓練的效果就一定能出來。參數規模,等于能力上限。這個邏輯,支撐了從ResNet 到 Transformer,再到今天所有大模型的擴張路徑。

      但這個邏輯并不是天然成立的,它背后依賴的,其實是一項極其關鍵、卻早已被視為“空氣”的基礎設施——殘差連接

      如果沒有殘差連接,今天你看到的所有GPT、Claude、Gemini、LLaMA,根本不可能存在。

      關于殘差連接我們得把這個來龍去脈和底層邏輯說清楚。

      在殘差連接出現之前,神經網絡一旦加深之后,訓練就會迅速失控。不是算力不夠,而是梯度在層層傳遞中不斷衰減、扭曲,信息根本傳不到該去的地方。這一點工程上表現得非常直觀:loss 不收斂、效果倒退、調參調到崩潰。

      參差連接的偉大之處,在于它做了一件極其簡單、卻極其反直覺的事:
      它不要求每一層都必須“學到東西”,而是允許它什么都不學。

      輸出不再是f(x),而是x + f(x)。
      那條“+ x”,就是一條信息的保命通道。

      只要這條通道在,哪怕這一層的參數全錯,信息至少還能原樣往下走。也正是因為這一點,網絡才第一次具備了“無限加深”的工程可能性。

      換句話來說,殘差連接的作用,不是為了提高上限,而是為了防止系統出現崩潰。


      但是,問題也恰恰出在這里。

      殘差連接就像一條單向的高速公路。當模型規模越來越大、任務越來越復雜,人們開始逐漸意識到:這種單一、線性的殘差信息通道,雖然穩,但可能已經不夠用了。

      現實世界的信息處理,從來不是一條直線。復雜認知一定是多層信息、多路徑并行、交叉作用的結果。而傳統殘差連接,本質上是一條極其干凈、極其保守的高速路,它可以保證不出事故,但是同時也限制了交通運行的復雜度。

      這正是Hyper-Connections(HC)出現的背景。

      HC 的出發點,是非常清晰:既然信息不該只在相鄰層之間流動,那為什么不讓多層之間直接建立連接?讓不同深度的特征充分混合,理論上模型的表達能力會大幅提升。

      從研究的動機上看,這條路設是完全正確的選擇。從實驗的直覺上看,它也確實有效。但HC 真正的問題,不在于“連得多”,而在于它動了殘差連接的底座。

      為了實現多層混合,HC 把原本的恒等映射 x → x,變成了 x → W·x。也就是說。那條原本不參與學習、不容易出錯的信息高速路,被強行加上了一個可學習的變換矩陣。

      聽起來只是多了一步線性映射,但是這一步,在工程層面,帶來的變化是巨大的。

      因為一旦W 學錯了,那么信息就不再是“至少能通過”,而是必然被扭曲。原來殘差連接提供的是“兜底信息機制”,現在這個兜底的機制被拆掉了。

      于是你會看到一個非常典型的現象:HC 在小模型、小規模實驗中表現十分亮眼;但是模型一放大、層數一加深,訓練立刻開始變得不穩定了。算力越多、參數越大,問題反而暴露得越快。

      這其實暴露了一個更深層的問題:大模型表達能力的提升,正在侵蝕系統原有的穩定性。

      于是,這一次,針對這個問題,DeepSeek 做了一件非常值得玩味,也非?!坝埠恕钡氖?。

      它沒有否定HC,也沒有退回傳統殘差連接的安全區,而是直接選擇了一個從數學層面重新立規矩的路徑。它這次給出的答案,核心思路只有一句話:HC,你可以連得更加復雜,但你不能破壞信息守恒。

      于是,DeepSeek 的mHC 出現了。

      DeepSeek 把殘差路徑中的映射矩陣,強行約束到了一個特定的數學空間里——Birkhoff 多面體。這個空間里所有矩陣,都滿足一個極其重要的性質:它們是雙隨機矩陣。

      雙隨機矩陣如果不用數學語言解釋,這到底意味著什么?意味著信息不會被放大,也不會被壓縮,只會在不同通道之間重新分配。意味著信息的“總量”,是被鎖死了。

      實現這一步的工程意義,可以說非常直接而重大,因為無論你怎么設計復雜的信息連接,殘差信息都不會被破壞;也就意味著無論模型變得多大,梯度都不會因為殘差路徑而失控。

      所以,mHC 的本質,不是讓模型變得更“聰明”,而是讓模型在復雜化之后,系統依然可控

      具體的實驗結果,也非常耐人尋味:模型規模越大,mHC 相對于傳統 HC 的優勢越明顯。那么不得不承認,這是一個極其關鍵的信號,因為它說明,mHC的解決方案,這不是一個小技巧,而是一種隨規模放大的結構優勢。

      到這里,如果我們只站在技術視角來理解的話,這已經是一篇很扎實的論文了。但如果我們再次切換到資本市場的視角,你會發現,這件事的意義要大得多。

      過去兩年,大模型競爭在資本層面的邏輯其實非常單一:誰能拿到更多錢,誰能買到更多卡,誰就有更大的勝率。

      這是一種極端依賴資本投入的競爭模式,它的隱含前提是:算力投入的邊際效率始終成立。只要你愿意燒錢,就一定能換來能力。

      而mHC 這類工作的真正沖擊在于:它開始動搖這個前提。因為訓練不穩定,本身就是最大的隱性成本。一次失敗的大規模訓練,消耗的不只是算力,還有時間、團隊節奏、資本耐心,以及市場的窗口期。

      大模型具備更穩定的結構,到底意味著什么?意味著花同樣的錢,可以換來的是更確定的結果;意味著擴張不是資本的博弈,而是工程化的決策和手段;意味著大模型的規模優勢,開始從資源壟斷,算力優勢,轉向“結構設計”能力了。

      這種情況會直接改變三件事。第一,算力的絕對優勢,會被結構效率部分對沖。第二,工程能力,會重新成為大模型公司的核心壁壘。第三,大模型競爭的重心,會從“誰更有錢有卡”,慢慢轉向“誰更不容易崩”。

      從這個角度看,DeepSeek 這篇論文,真正的價值不在于 mHC 本身,而在于它所代表的技術方向選擇。

      它沒有在參數規模上,去硬剛美國,也沒有在應用層面追熱點,而是提前一步,把注意力放在了一個更長期,也更底層的問題上:當模型繼續變大的確定性開始下降,新的系統的確定性,到底從哪里來?

      DeepSeek借助mHC,給出的答案,是結構的約束,是工程的理性,是在復雜系統里主動引入“安全邊界”。

      這件事,對DeepSeek 自身的戰略價值也非常清晰。更穩定的訓練意味著更低的邊際成本、更高的成功率、更強的開源社區吸引力。同時也意味著在下一輪模型繼續放大之前,DeepSeek已經提前卡住了一塊關鍵的技術高地。

      更重要的是,它釋放了一個非常明確的信號:中國的AI 團隊,已經開始在“規則層”參與博弈了。

      不是繼續跟隨,不是看淡優化,而是嘗試定義,嘗試改變規則,改變底層邏輯。

      所以,如果你把這篇論文放回資本市場的語境里,它討論的從來不只是殘差連接,而是一個更宏觀的問題:當大模型的擴張不再只是算力問題,誰有能力讓系統在更大規模下依然不崩?這才是下一階段真正決定產業格局和技術能力的核心變量。

      新的一年剛剛開始,DeepSeek 又一次選擇了不走尋常路。而真正值得關注的,也從來不是這一篇論文本身,而是它背后所指向的那條創新路線。

      如果說過去的競爭,是“誰能把模型做得更大”,那接下來的競爭,很可能會變成一句話:今后誰能把模型,安全地做大。目前來看,能夠很快掌握這一必殺秘訣的,就是DeepSeek團隊了,就是中國的AI工程師了。

      因此mHC的提出,其實釋放了一個很清晰的信號:中國的AI研發團隊,再次跑到了世界前列,因為他們已經開始在“基礎架構層”開始做原創了。

      所以,在新的一年剛剛開始之際,DeepSeek 又來踢館,又來炸街了,是不是很快,又會掀起全球的DeepSeek時刻了?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      這就是赤裸裸的現實!部分央國企副職領導已經管不住下屬了!

      這就是赤裸裸的現實!部分央國企副職領導已經管不住下屬了!

      時尚的弄潮
      2026-02-22 00:18:07
      女孩當小姐,一晚要提供4到5次上門服務,2015年被親人點到不赴約

      女孩當小姐,一晚要提供4到5次上門服務,2015年被親人點到不赴約

      漢史趣聞
      2025-11-08 09:27:32
      明天大年初八“聚財日”,老人說:初八5不做,一年不受窮。

      明天大年初八“聚財日”,老人說:初八5不做,一年不受窮。

      阿龍美食記
      2026-02-23 17:03:31
      四川成都一佳人好漂亮, 身高169cm,體重48kg 美的讓人移不開眼

      四川成都一佳人好漂亮, 身高169cm,體重48kg 美的讓人移不開眼

      喜歡歷史的阿繁
      2026-02-07 14:21:17
      這就是為什么不要欺負底層員工的原因!網友:1600萬結款直接報廢

      這就是為什么不要欺負底層員工的原因!網友:1600萬結款直接報廢

      另子維愛讀史
      2026-02-01 20:32:25
      特斯拉入門級新車正式發售!這內飾絕了

      特斯拉入門級新車正式發售!這內飾絕了

      XCiOS俱樂部
      2026-02-22 10:36:12
      好潮!阮經天上海街頭被偶遇,一臉的痞帥,40多歲了看著像20多

      好潮!阮經天上海街頭被偶遇,一臉的痞帥,40多歲了看著像20多

      陳意小可愛
      2026-02-22 21:39:35
      韓紅減了四十斤,53歲的她確實帥氣很多,網友:姐更慈祥了!

      韓紅減了四十斤,53歲的她確實帥氣很多,網友:姐更慈祥了!

      陳意小可愛
      2026-02-23 18:40:18
      營收3200億利潤僅7億,股價從46元跌到7元,沙特阿美持股140億

      營收3200億利潤僅7億,股價從46元跌到7元,沙特阿美持股140億

      投資觀
      2026-02-23 08:00:08
      緊急擴散!河北多個高速站口臨時關閉

      緊急擴散!河北多個高速站口臨時關閉

      秦皇島發布
      2026-02-23 08:33:47
      豪門悲喜夜:巴薩3-0登頂 槍手4-1熱刺5分領跑 利物浦1-0壓哨絕殺

      豪門悲喜夜:巴薩3-0登頂 槍手4-1熱刺5分領跑 利物浦1-0壓哨絕殺

      狍子歪解體壇
      2026-02-23 02:46:11
      如果美國對伊朗動手,應會協同巴基斯坦重返阿富汗

      如果美國對伊朗動手,應會協同巴基斯坦重返阿富汗

      邵旭峰域
      2026-02-23 18:45:42
      黃子華《夜王》香港票房破3500萬,古天樂《尋秦記》累計9368萬

      黃子華《夜王》香港票房破3500萬,古天樂《尋秦記》累計9368萬

      千信齊飛
      2026-02-21 12:59:32
      王思聰大概率不會再回國了,不是因為他欠了20億,也不是王健林

      王思聰大概率不會再回國了,不是因為他欠了20億,也不是王健林

      趣味萌寵的日常
      2026-02-23 18:48:02
      河南礦山開工首日客戶排隊交錢,100萬現金放桌上,每個訂單都會給顧客400元紅包!此前“最愛發錢老板”崔培軍發1.8億年終獎全網爆火

      河南礦山開工首日客戶排隊交錢,100萬現金放桌上,每個訂單都會給顧客400元紅包!此前“最愛發錢老板”崔培軍發1.8億年終獎全網爆火

      大象新聞
      2026-02-22 13:48:04
      這個國家快被中國買下了?美女如云,10個移民中就有9個中國人!

      這個國家快被中國買下了?美女如云,10個移民中就有9個中國人!

      云景侃記
      2026-02-22 16:25:24
      特朗普定下訪華時間,中方先發制人亮一條紅線,高市早苗要難受了

      特朗普定下訪華時間,中方先發制人亮一條紅線,高市早苗要難受了

      凡知
      2026-02-22 11:56:01
      預計10小時,開到一半竟然還要14小時!有浙江人破防:是不是開反了?

      預計10小時,開到一半竟然還要14小時!有浙江人破防:是不是開反了?

      黑哥講現代史
      2026-02-23 19:23:54
      重磅!蘇州市正在規劃的4條地鐵,你最期待哪一條?

      重磅!蘇州市正在規劃的4條地鐵,你最期待哪一條?

      瓜哥的動物日記
      2026-02-23 13:10:24
      臺政客建言兩岸統一,提出“共同體”模式,取代大陸“一國兩制”

      臺政客建言兩岸統一,提出“共同體”模式,取代大陸“一國兩制”

      最終你成為了過客
      2026-02-22 16:18:11
      2026-02-23 22:51:00
      何毅商業財經 incentive-icons
      何毅商業財經
      分享商業知識,共享財經信息
      522文章數 926關注度
      往期回顧 全部

      科技要聞

      智譜、MiniMax合計蒸發近千億市值,為何?

      頭條要聞

      伊朗總統:伊美談判出現“令人鼓舞”信號

      頭條要聞

      伊朗總統:伊美談判出現“令人鼓舞”信號

      體育要聞

      哈登版騎士首敗:雷霆的冠軍課

      娛樂要聞

      那藝娜賬號被禁止關注,視頻已清空!

      財經要聞

      美國海關將停止征收被裁定違法的關稅

      汽車要聞

      續航1810km!smart精靈#6 EHD超級電混2026年上市

      態度原創

      旅游
      本地
      時尚
      公開課
      軍事航空

      旅游要聞

      北京春節成績單出爐!1984.3萬人次暢游京城!人氣TOP3公園揭曉——

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      今年春天一定要擁有的針織,這樣穿減齡又好看!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美軍重兵集結蓄力作戰之際 新一輪美伊談判時間“敲定”

      無障礙瀏覽 進入關懷版