<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek與字節跳動踏進同一條河

      0
      分享至

      本文系基于公開資料撰寫,僅作為信息交流之用,不構成任何投資建議


      新年前夕,DeepSeek發表了一篇聚焦神經網絡架構創新的核心論文,梁文鋒以通訊作者身份署名。論文提出了流形約束超連接(manifold-constrained HyperConnection, mHC)架構,直指大規模模型訓練中的穩定性難題。

      這一工作為硬件受限的中國 AI 企業開辟了一條兼顧性能與效率的路徑,也與字節跳動早前在殘差流優化上的探索形成關鍵呼應,二者均瞄準殘差連接這一模型基礎架構進行改造。

      DeepSeek的研究,恰恰是對字節跳動“超連接”技術短板的系統性補位。這一成果不僅為大模型底層架構的工業化落地提供了新方案,再度印證了硬件約束可轉化為創新動力的產業演進邏輯。

      自2016年ResNet 提出以來,殘差連接已成為深度學習的骨架式設計。其通過“捷徑連接”繞過層層非線性變換,從根本上緩解了梯度消失或爆炸的難題,支撐起越來越深的模型結構。

      長期以來,業界創新多集中于注意力機制、MoE(混合專家)等模塊,殘差流本身處于一種“靜默的穩定”中,直至2024 年字節跳動以超連接(HyperConnection)技術打破這一局面。

      字節跳動的超連接通過拓寬殘差流寬度、構建多路并行信號流,并讓模型學習流間的交互模式,顯著提升了模型表達能力。然而,該技術在規模化訓練中暴露出致命短板:信號發散

      DeepSeek的測試顯示,在270億參數模型的訓練中,約12000步后梯度范數劇烈波動,訓練崩潰;更嚴重的是,信號強度在第60層膨脹至輸入值的3000倍。問題的核心在于,超連接為追求表達力,放棄了殘差連接原有的恒等映射約束——小規模下尚可調參掩蓋,但在大規模訓練中,這一缺陷被急劇放大。

      mHC的核心創新,是將可學習的變換矩陣約束在雙重隨機矩陣(doubly stochastic matrix)構成的流形上。這相當于為信號傳播設立“剛性預算”:矩陣每行、每列元素之和均為1且非負,確保輸出信號強度嚴格介于輸入信號的最大最小值之間,從而杜絕信號爆炸。

      更關鍵的是,雙重隨機矩陣具有組合不變性——多層疊加后仍保持穩定。實驗表明,在超連接出現3000倍信號放大的同一場景中,mHC的信號放大峰值僅為1..6倍。為控制計算開銷,DeepSeek 采用Sinkhorn-Knopp 迭代進行投影,僅需20輪迭代即可收斂,額外訓練成本被壓制在6.7%

      硬件約束倒逼的不只是算法創新,更是全鏈路的系統級優化。超連接拓寬殘差流后,每層數據讀寫量倍增,在A800/A100的有限互聯帶寬下,芯片極易陷入“等待數據遠多于計算”的效率陷阱。DeepSeek通過三項關鍵技術破局:

      1.算子融合:將內存訪問模式相近的操作合并為單一GPU內核,減少數據搬運;

      2.反向傳播重計算:不存儲中間激活值,改為實時重算,以計算換內存;

      3.流水線并行優化:重疊跨GPU通信與本地計算,用計算掩蓋通信延遲。

      這些優化將原本隨層數線性增長的內存開銷,轉化為可由模塊大小控制的有界開銷。配合基于 TileLang 編寫的混合精度內核(bfloat16 為主,float32 保關鍵精度),實現了全參數規模下的穩定性能提升。測試中,30億至270 億參數模型搭載mHC后均表現優異,270億模型在BIG-Bench Hard復雜推理任務上提升 2..1%,在 DROP閱讀理解任務上提升2.3%

      此前,V3架構論文對應V3模型,R1推理論文對應R1模型;本次mHC論文在 2026 年春節前三周發布,外界普遍預期下一代旗艦模型(R2)即將亮相。

      這種“論文先行”的策略,既通過同行評議建立技術公信力,又在復雜地緣環境中為原創性留下時間戳,更向全球傳遞一個明確信息:中國 AI 企業的核心競爭力,并非依賴尖端算力芯片

      DeepSeek選擇通過arXiv、Hugging Face等開放平臺而非傳統期刊發布成果,雖犧牲部分學術聲望,卻換來了技術傳播的速度與可達性。這種開放模式加速了知識擴散,也對同行構成直接競爭壓力:當 mHC 的性能增益可量化、實現可復現時,西方實驗室要么跟進類似技術,要么必須論證自身路徑的優越性。

      此前R1 型已觸發推理模型研發熱潮,mHC架構很可能推動殘差流優化進入新一輪迭代。更重要的是,這一模式向技術管制者傳遞了清晰信號:硬件限制并未扼殺創新,反而迫使中國 AI 企業走向“從數學根源解決問題”的最本質路徑。

      字節跳動與 DeepSeek,先后踏入同一條“突破傳統殘差流”的創新之河。前者率先探路,卻止步于規模化瓶頸;后者在硬件約束的倒逼下,憑借數學約束與系統級優化,架起了一座可通航的技術之橋

      距離2026年春節僅剩六周,R2模型的發布將檢驗mHC架構的工業化成色。無論最終基準測試結果如何,這條“在約束中創新”的路徑已具備里程碑意義——它清晰證明,AI 競賽不只有“燒錢堆算力”這一條賽道。硬件限制從不是創新的絆腳石,而是催生真正核心突破的催化劑。

      轉載開白 | 商務合作 | 內容交流
      請添加微信:jinduan008
      添加微信請備注姓名公司與來意

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      三只羊(小楊哥)借殼美股上市股價大起大落,蛋蛋曬合影引發熱議!辛巴被曝無法回國!

      三只羊(小楊哥)借殼美股上市股價大起大落,蛋蛋曬合影引發熱議!辛巴被曝無法回國!

      TVB的四小花
      2026-02-24 11:36:02
      唐尚珺哭成淚人,30年的老房子拆除,母親將在臨時竹棚內住6個月

      唐尚珺哭成淚人,30年的老房子拆除,母親將在臨時竹棚內住6個月

      育學筆談
      2026-02-25 11:54:16
      婆婆每月給大嫂好幾千生活費,我裝不知,半月后老公:大嫂出事了

      婆婆每月給大嫂好幾千生活費,我裝不知,半月后老公:大嫂出事了

      奶茶麥子
      2026-02-25 12:40:06
      張一鳴做了什么?為什么字節跳動總能贏?

      張一鳴做了什么?為什么字節跳動總能贏?

      網界
      2026-02-24 09:08:45
      馬筱梅分享兒子睜眼照!闊嘴大鼻好像媽媽,蘭姐大方曬孫子沒拘束

      馬筱梅分享兒子睜眼照!闊嘴大鼻好像媽媽,蘭姐大方曬孫子沒拘束

      樂悠悠娛樂
      2026-02-25 15:07:24
      打伊朗前,美國找到中國,特朗普很清楚:錯一步,中國就不戰而勝

      打伊朗前,美國找到中國,特朗普很清楚:錯一步,中國就不戰而勝

      知鑒明史
      2026-02-24 18:00:13
      和訊投顧胡云龍:指數站上4140點,后邊有三點要注意

      和訊投顧胡云龍:指數站上4140點,后邊有三點要注意

      和訊網
      2026-02-25 17:58:06
      230億身家石家莊首富,被帶走調查

      230億身家石家莊首富,被帶走調查

      融資中國
      2026-02-25 10:24:59
      磷化工爆發漲停潮!美國將磷和草甘膦列為國家安全優先事項

      磷化工爆發漲停潮!美國將磷和草甘膦列為國家安全優先事項

      中國能源網
      2026-02-25 08:20:08
      春晚未播畫面首曝光,王菲默默候場清冷疏離,倆助理為天后提裙子

      春晚未播畫面首曝光,王菲默默候場清冷疏離,倆助理為天后提裙子

      韓小娛
      2026-02-25 06:24:21
      杭州男子失戀游湖南,遇苗族婚宴隨禮1000入席,離場卻被伴娘攔下

      杭州男子失戀游湖南,遇苗族婚宴隨禮1000入席,離場卻被伴娘攔下

      蘭姐說故事
      2025-06-09 10:00:07
      515:1 常冰玉打笑墨菲 魔術師:我打了有10桿嗎? BBC:史上最佳

      515:1 常冰玉打笑墨菲 魔術師:我打了有10桿嗎? BBC:史上最佳

      郝小小看體育
      2026-02-25 16:05:32
      大家都沒想到德國總理來北京前,居然先給高市早苗打電話

      大家都沒想到德國總理來北京前,居然先給高市早苗打電話

      丹妮觀
      2026-02-25 12:42:52
      曝雄鹿計劃今夏追小卡!字母哥渴望與其并肩作戰 里弗斯曾執教他

      曝雄鹿計劃今夏追小卡!字母哥渴望與其并肩作戰 里弗斯曾執教他

      羅說NBA
      2026-02-25 06:43:32
      太強了《鏢人》直追《飛馳 3》陳麗君拿下中國武俠女演員票房第一

      太強了《鏢人》直追《飛馳 3》陳麗君拿下中國武俠女演員票房第一

      鄉野小珥
      2026-02-25 18:59:55
      山西成文碧被紀委帶走在山西接受調查

      山西成文碧被紀委帶走在山西接受調查

      秀容通
      2026-02-25 18:55:56
      被央視怒批、洋相百出、腹中空空,這幾位“絕望的文盲”憑啥能火

      被央視怒批、洋相百出、腹中空空,這幾位“絕望的文盲”憑啥能火

      娛說瑜悅
      2025-12-13 12:24:22
      恭喜曼聯!重現“德赫亞+羅梅羅”豪華配置,紅魔迎門將青春風暴

      恭喜曼聯!重現“德赫亞+羅梅羅”豪華配置,紅魔迎門將青春風暴

      體壇鑒春秋
      2026-02-25 13:54:29
      香港警務處答南都:23歲女警員用佩槍自殺事件由重案組跟進

      香港警務處答南都:23歲女警員用佩槍自殺事件由重案組跟進

      南方都市報
      2026-02-25 13:50:07
      多條新規嚴禁變相降低汽車價格

      多條新規嚴禁變相降低汽車價格

      大象新聞
      2026-02-24 09:40:02
      2026-02-25 20:03:00
      錦緞研究院 incentive-icons
      錦緞研究院
      專注上市公司價值發現與傳播
      2463文章數 10816關注度
      往期回顧 全部

      科技要聞

      “機器人只跳舞,沒什么用”

      頭條要聞

      新房被淹男子12年未交物業費 春節前后家中停水超50天

      頭條要聞

      新房被淹男子12年未交物業費 春節前后家中停水超50天

      體育要聞

      曝雄鹿計劃今夏追小卡 字母哥渴望與其并肩作戰

      娛樂要聞

      撒貝寧到沈陽跑親戚 老婆李白模特身材

      財經要聞

      上海樓市放大招,地產預期別太大

      汽車要聞

      750km超長續航 2026款小鵬X9純電版將于3月2日上市

      態度原創

      旅游
      手機
      房產
      游戲
      軍事航空

      旅游要聞

      馬年首艘國際訪問港郵輪抵滬 外籍旅客比例超95%

      手機要聞

      消息稱魅族手機業務已經實質性停擺,追覓曾談判收購

      房產要聞

      海南樓市春節熱銷地圖曝光!三亞、陵水又殺瘋了!

      《Reloadian》正式亮相Steam新品試玩節

      軍事要聞

      俄烏沖突四周年:和平談判希望渺茫

      無障礙瀏覽 進入關懷版