<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      DeepSeek與字節(jié)跳動踏進同一條河

      0
      分享至

      本文系基于公開資料撰寫,僅作為信息交流之用,不構成任何投資建議


      新年前夕,DeepSeek發(fā)表了一篇聚焦神經(jīng)網(wǎng)絡架構創(chuàng)新的核心論文,梁文鋒以通訊作者身份署名。論文提出了流形約束超連接(manifold-constrained HyperConnection, mHC)架構,直指大規(guī)模模型訓練中的穩(wěn)定性難題。

      這一工作為硬件受限的中國 AI 企業(yè)開辟了一條兼顧性能與效率的路徑,也與字節(jié)跳動早前在殘差流優(yōu)化上的探索形成關鍵呼應,二者均瞄準殘差連接這一模型基礎架構進行改造。

      DeepSeek的研究,恰恰是對字節(jié)跳動“超連接”技術短板的系統(tǒng)性補位。這一成果不僅為大模型底層架構的工業(yè)化落地提供了新方案,再度印證了硬件約束可轉化為創(chuàng)新動力的產(chǎn)業(yè)演進邏輯。

      自2016年ResNet 提出以來,殘差連接已成為深度學習的骨架式設計。其通過“捷徑連接”繞過層層非線性變換,從根本上緩解了梯度消失或爆炸的難題,支撐起越來越深的模型結構。

      長期以來,業(yè)界創(chuàng)新多集中于注意力機制、MoE(混合專家)等模塊,殘差流本身處于一種“靜默的穩(wěn)定”中,直至2024 年字節(jié)跳動以超連接(HyperConnection)技術打破這一局面。

      字節(jié)跳動的超連接通過拓寬殘差流寬度、構建多路并行信號流,并讓模型學習流間的交互模式,顯著提升了模型表達能力。然而,該技術在規(guī)模化訓練中暴露出致命短板:信號發(fā)散

      DeepSeek的測試顯示,在270億參數(shù)模型的訓練中,約12000步后梯度范數(shù)劇烈波動,訓練崩潰;更嚴重的是,信號強度在第60層膨脹至輸入值的3000倍。問題的核心在于,超連接為追求表達力,放棄了殘差連接原有的恒等映射約束——小規(guī)模下尚可調(diào)參掩蓋,但在大規(guī)模訓練中,這一缺陷被急劇放大。

      mHC的核心創(chuàng)新,是將可學習的變換矩陣約束在雙重隨機矩陣(doubly stochastic matrix)構成的流形上。這相當于為信號傳播設立“剛性預算”:矩陣每行、每列元素之和均為1且非負,確保輸出信號強度嚴格介于輸入信號的最大最小值之間,從而杜絕信號爆炸。

      更關鍵的是,雙重隨機矩陣具有組合不變性——多層疊加后仍保持穩(wěn)定。實驗表明,在超連接出現(xiàn)3000倍信號放大的同一場景中,mHC的信號放大峰值僅為1..6倍。為控制計算開銷,DeepSeek 采用Sinkhorn-Knopp 迭代進行投影,僅需20輪迭代即可收斂,額外訓練成本被壓制在6.7%

      硬件約束倒逼的不只是算法創(chuàng)新,更是全鏈路的系統(tǒng)級優(yōu)化。超連接拓寬殘差流后,每層數(shù)據(jù)讀寫量倍增,在A800/A100的有限互聯(lián)帶寬下,芯片極易陷入“等待數(shù)據(jù)遠多于計算”的效率陷阱。DeepSeek通過三項關鍵技術破局:

      1.算子融合:將內(nèi)存訪問模式相近的操作合并為單一GPU內(nèi)核,減少數(shù)據(jù)搬運;

      2.反向傳播重計算:不存儲中間激活值,改為實時重算,以計算換內(nèi)存;

      3.流水線并行優(yōu)化:重疊跨GPU通信與本地計算,用計算掩蓋通信延遲。

      這些優(yōu)化將原本隨層數(shù)線性增長的內(nèi)存開銷,轉化為可由模塊大小控制的有界開銷。配合基于 TileLang 編寫的混合精度內(nèi)核(bfloat16 為主,float32 保關鍵精度),實現(xiàn)了全參數(shù)規(guī)模下的穩(wěn)定性能提升。測試中,30億至270 億參數(shù)模型搭載mHC后均表現(xiàn)優(yōu)異,270億模型在BIG-Bench Hard復雜推理任務上提升 2..1%,在 DROP閱讀理解任務上提升2.3%

      此前,V3架構論文對應V3模型,R1推理論文對應R1模型;本次mHC論文在 2026 年春節(jié)前三周發(fā)布,外界普遍預期下一代旗艦模型(R2)即將亮相。

      這種“論文先行”的策略,既通過同行評議建立技術公信力,又在復雜地緣環(huán)境中為原創(chuàng)性留下時間戳,更向全球傳遞一個明確信息:中國 AI 企業(yè)的核心競爭力,并非依賴尖端算力芯片

      DeepSeek選擇通過arXiv、Hugging Face等開放平臺而非傳統(tǒng)期刊發(fā)布成果,雖犧牲部分學術聲望,卻換來了技術傳播的速度與可達性。這種開放模式加速了知識擴散,也對同行構成直接競爭壓力:當 mHC 的性能增益可量化、實現(xiàn)可復現(xiàn)時,西方實驗室要么跟進類似技術,要么必須論證自身路徑的優(yōu)越性。

      此前R1 型已觸發(fā)推理模型研發(fā)熱潮,mHC架構很可能推動殘差流優(yōu)化進入新一輪迭代。更重要的是,這一模式向技術管制者傳遞了清晰信號:硬件限制并未扼殺創(chuàng)新,反而迫使中國 AI 企業(yè)走向“從數(shù)學根源解決問題”的最本質路徑。

      字節(jié)跳動與 DeepSeek,先后踏入同一條“突破傳統(tǒng)殘差流”的創(chuàng)新之河。前者率先探路,卻止步于規(guī)模化瓶頸;后者在硬件約束的倒逼下,憑借數(shù)學約束與系統(tǒng)級優(yōu)化,架起了一座可通航的技術之橋

      距離2026年春節(jié)僅剩六周,R2模型的發(fā)布將檢驗mHC架構的工業(yè)化成色。無論最終基準測試結果如何,這條“在約束中創(chuàng)新”的路徑已具備里程碑意義——它清晰證明,AI 競賽不只有“燒錢堆算力”這一條賽道。硬件限制從不是創(chuàng)新的絆腳石,而是催生真正核心突破的催化劑。

      轉載開白 | 商務合作 | 內(nèi)容交流
      請?zhí)砑游⑿牛簀induan008
      添加微信請備注姓名公司與來意

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      比鋰礦、稀土,更瘋狂的行情!

      比鋰礦、稀土,更瘋狂的行情!

      君臨財富
      2026-04-21 16:08:48
      中國游客暴跌55.9%,日本361萬游客擠爆櫻花季,缺口被全球填平

      中國游客暴跌55.9%,日本361萬游客擠爆櫻花季,缺口被全球填平

      芳姐侃社會
      2026-04-21 16:37:18
      丁俊暉晉級讓吉爾伯特“暴怒”:英國孩子只想當網(wǎng)紅,沒人打球了

      丁俊暉晉級讓吉爾伯特“暴怒”:英國孩子只想當網(wǎng)紅,沒人打球了

      里芃芃體育
      2026-04-21 10:15:07
      注意!6月1日起大醫(yī)院不再隨意接診,看病不按規(guī)矩可能白跑

      注意!6月1日起大醫(yī)院不再隨意接診,看病不按規(guī)矩可能白跑

      夜深愛雜談
      2026-04-21 07:45:20
      河北一地用“冰紅茶”澆灌農(nóng)作物 已持續(xù)幾年 自己不吃售賣

      河北一地用“冰紅茶”澆灌農(nóng)作物 已持續(xù)幾年 自己不吃售賣

      原某報記者
      2026-04-21 17:49:54
      偉大的10-2!吳宜澤破百收工,復仇戰(zhàn)創(chuàng)2大紀錄,中國4人進16強!

      偉大的10-2!吳宜澤破百收工,復仇戰(zhàn)創(chuàng)2大紀錄,中國4人進16強!

      劉姚堯的文字城堡
      2026-04-21 22:32:23
      炸了!克洛普給皇馬下死命令:花 3 億簽 5 人,點名替換庫爾圖瓦

      炸了!克洛普給皇馬下死命令:花 3 億簽 5 人,點名替換庫爾圖瓦

      奶蓋熊本熊
      2026-04-21 04:52:43
      蘋果宣布換帥后,總市值跌破4萬億美元

      蘋果宣布換帥后,總市值跌破4萬億美元

      界面新聞
      2026-04-21 23:07:25
      不是高價,而是白菜價!3月,中國低價向日本出口7.5萬噸天然氣

      不是高價,而是白菜價!3月,中國低價向日本出口7.5萬噸天然氣

      南生今世說
      2026-04-21 16:34:03
      存款大局已定!若無意外,2026年銀行利率或將迎來4大變化

      存款大局已定!若無意外,2026年銀行利率或將迎來4大變化

      復轉這些年
      2026-04-21 18:33:57
      2026年一季度消費:汽車、彩電、空調(diào)全線下跌

      2026年一季度消費:汽車、彩電、空調(diào)全線下跌

      風向觀察
      2026-04-21 09:27:07
      祭拜鬼社當天,日本發(fā)出崩潰預警,美歐視而不見,中國不再伸援手

      祭拜鬼社當天,日本發(fā)出崩潰預警,美歐視而不見,中國不再伸援手

      離離言幾許
      2026-04-21 23:24:09
      細思極恐!某國產(chǎn)大模型泄露用戶隱私,并隨意將隱私信息發(fā)給其他人

      細思極恐!某國產(chǎn)大模型泄露用戶隱私,并隨意將隱私信息發(fā)給其他人

      可達鴨面面觀
      2026-04-21 16:24:39
      黃大發(fā)等涉黑案一審宣判:黃大發(fā)等12人組織、領導、參加黑社會性質組織,判處黃大發(fā)死刑,其他11名被告人分別判處13年至2年2個月不等刑罰

      黃大發(fā)等涉黑案一審宣判:黃大發(fā)等12人組織、領導、參加黑社會性質組織,判處黃大發(fā)死刑,其他11名被告人分別判處13年至2年2個月不等刑罰

      揚子晚報
      2026-04-21 15:07:17
      拼多多暴力抗法震驚全網(wǎng),市值萬億巨頭為何如此囂張

      拼多多暴力抗法震驚全網(wǎng),市值萬億巨頭為何如此囂張

      燕梳樓頻道
      2026-04-20 21:12:04
      國內(nèi)油價今年來首次下調(diào)

      國內(nèi)油價今年來首次下調(diào)

      界面新聞
      2026-04-21 14:57:08
      最后24小時,伊朗仍未點頭赴會,特朗普挑明后果,美國敵人浮現(xiàn)

      最后24小時,伊朗仍未點頭赴會,特朗普挑明后果,美國敵人浮現(xiàn)

      軍機Talk
      2026-04-21 20:07:17
      連車企的名字都不敢報道,這樣的新聞有什么意義

      連車企的名字都不敢報道,這樣的新聞有什么意義

      林中木白
      2026-04-21 15:51:28
      伊朗議會主席團成員:海上封鎖解決前不會進行第二輪談判

      伊朗議會主席團成員:海上封鎖解決前不會進行第二輪談判

      新華社
      2026-04-21 23:19:03
      庫明加登老鷹海報扎心科爾!美媒曝主帥信任差距大:還曬分數(shù)對比

      庫明加登老鷹海報扎心科爾!美媒曝主帥信任差距大:還曬分數(shù)對比

      顏小白的籃球夢
      2026-04-21 15:40:44
      2026-04-22 02:59:00
      錦緞研究院 incentive-icons
      錦緞研究院
      專注上市公司價值發(fā)現(xiàn)與傳播
      2501文章數(shù) 10827關注度
      往期回顧 全部

      科技要聞

      創(chuàng)造4萬億帝國、訪華20次,庫克留下了什么

      頭條要聞

      三國取消飛航許可 賴清德無法竄訪斯威士蘭

      頭條要聞

      三國取消飛航許可 賴清德無法竄訪斯威士蘭

      體育要聞

      一到NBA季后賽,四屆DPOY就成了主角

      娛樂要聞

      宋承炫曬寶寶B超照,宣布老婆懷孕

      財經(jīng)要聞

      現(xiàn)實是最大的荒誕:千億平臺的沖突始末

      汽車要聞

      全新坦克700正式上市 售價42.8萬-50.8萬元

      態(tài)度原創(chuàng)

      旅游
      家居
      時尚
      藝術
      軍事航空

      旅游要聞

      京城今春“濱水+”玩法迭代

      家居要聞

      詩意光影 窺見自然之境

      頂流復工,已判若兩人

      藝術要聞

      任伯年寫竹,真帶勁

      軍事要聞

      特朗普公開對伊開戰(zhàn)真正原因

      無障礙瀏覽 進入關懷版