<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<cite id="xl8wy"><rp id="xl8wy"><form id="xl8wy"></form></rp></cite>

<cite id="xl8wy"></cite>

^{<blockquote id="xl8wy"></blockquote>}

網(wǎng)易首頁(yè)

網(wǎng)易新聞
網(wǎng)易公開(kāi)課
網(wǎng)易紅彩
網(wǎng)易嚴(yán)選
郵箱大師
網(wǎng)易云課堂

注冊(cè)免費(fèi)郵箱

注冊(cè)VIP郵箱（特權(quán)郵箱，付費(fèi)）
免費(fèi)下載網(wǎng)易官方手機(jī)郵箱應(yīng)用

移動(dòng)端
網(wǎng)易公開(kāi)課
網(wǎng)易嚴(yán)選
支付
郵箱

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek 今年第一篇論文，到底在講什么？

2026-01-03 23:55:33　來(lái)源: 賽博禪心

北京舉報(bào)

0

分享至

DeepSeek 在 2026 年第一篇論文，梁文峰署名

讓「多流殘差」這個(gè)好想法，能真正在大模型上跑起來(lái)

私底下，某巨佬評(píng)價(jià)道：“牛逼”

https://arxiv.org/abs/2512.24880

要理解這篇論文，得先知道 Transformer 里的信息是怎么傳的

Transformer 里的信息流

你問(wèn) ChatGPT 一個(gè)問(wèn)題：今天天氣怎么樣，它怎么回答你的？

問(wèn)題拆成一個(gè)個(gè)小單元，比如「今天」「天氣」「怎么樣」這樣的片段

，可以點(diǎn)擊下面的 svg，模擬交互

然后，每個(gè)片段會(huì)被轉(zhuǎn)成一組向量，進(jìn)入 Transformer，開(kāi)始進(jìn)行處理

數(shù)字從第一層進(jìn)去，經(jīng)過(guò)處理，傳到第二層，再處理，再傳到第三層...一直傳到最后一層

最后一層輸出的數(shù)字，決定了模型接下來(lái)要生成哪個(gè)詞

大概就是這樣

這個(gè)過(guò)程會(huì)循環(huán)往復(fù)，直到所有文字都生成完畢

你看到 ChatGPT 一個(gè)字一個(gè)字往外蹦，就是這個(gè)過(guò)程

所以中間這幾十層的傳遞很關(guān)鍵。傳到最后的數(shù)字如果不對(duì)，生成的內(nèi)容就會(huì)跑偏

問(wèn)題來(lái)了：層數(shù)一多，數(shù)字在傳遞過(guò)程中會(huì)越來(lái)越小，甚至趨近于零
傳到后面，前面的信息就丟了

2015 年，ResNet 提出了一個(gè)辦法：殘差連接

做法很簡(jiǎn)單。每一層在輸出的時(shí)候，把「這一層算出來(lái)的新數(shù)字」和「上一層傳過(guò)來(lái)的原始數(shù)字」加在一起，再傳給下一層

一個(gè)簡(jiǎn)單的示意圖

這樣，不管網(wǎng)絡(luò)有多深，最開(kāi)始的信息都能一路傳到底

過(guò)去十年，幾乎所有大模型都在用

字節(jié)的想法：一條路不夠，搞四條

2024 年，字節(jié)發(fā)了一篇論文叫 Hyper-Connections（HC），入選了 ICLR 2025

他們說(shuō)，一條殘差通道不夠用，要把這條路拓寬成四條，還得并行

同時(shí)的，這四條通道之間，可以互相交換信息，通過(guò)一個(gè)可學(xué)習(xí)的矩陣來(lái)混合

三種連接方式對(duì)比：左邊是傳統(tǒng)殘差，中間是 HC，右邊是 DeepSeek 的 mHC

聽(tīng)起來(lái)很合理，小模型上的實(shí)驗(yàn)效果也確實(shí)好

但...

boom 問(wèn)題：信號(hào)爆炸

那個(gè)用來(lái)混合信息的矩陣，完全可學(xué)習(xí)，沒(méi)有任何約束

一層沒(méi)事，兩層也還行

但層數(shù)一多，矩陣一乘，信號(hào)就飛了

信息每過(guò)一層，都要被這個(gè)矩陣處理一次。矩陣乘矩陣，再乘矩陣...

DeepSeek 在 27B 模型上復(fù)現(xiàn)了這個(gè)問(wèn)題

訓(xùn)練到 12000 步左右，loss 突然飆升，梯度劇烈震蕩，訓(xùn)練崩了

27B 模型訓(xùn)練曲線，HC 在 12k 步附近崩了

論文里給了一個(gè)指標(biāo)，衡量信號(hào)在傳遞過(guò)程中被放大了多少倍

HC 在 27B 模型上，這個(gè)數(shù)能到多少？
3000 倍（理想情況下，不應(yīng)該放大）

HC 的信號(hào)增益能飆到 3000 mHC：加一個(gè)約束

DeepSeek 的思路很直接
問(wèn)題出在矩陣沒(méi)有約束，那就加約束

加什么約束？
雙隨機(jī)矩陣

這個(gè)矩陣有個(gè)特點(diǎn)：
所有元素加起來(lái)，每一行的和等于 1，每一列的和也等于 1

換句話說(shuō)，信息經(jīng)過(guò)這個(gè)矩陣，可以在四條通道之間重新分配，但總量不變

信息可以流動(dòng)，但總量守恒

不管模型有多少層，信號(hào)都不會(huì)爆炸，也不會(huì)消失

用了這個(gè)約束之后，27B 模型上的信號(hào)放大倍數(shù)從 3000 降到了 1.6

mHC 的信號(hào)增益穩(wěn)定在 1 附近性

這就是 mHC
m 代表 Manifold，流形約束

工程優(yōu)化

四條通道，意味著四倍的數(shù)據(jù)讀寫(xiě)量

DeepSeek 做了一系列工程優(yōu)化：內(nèi)核融合、重計(jì)算策略、流水線調(diào)度...

細(xì)節(jié)不展開(kāi)了

最終結(jié)果：
額外的訓(xùn)練時(shí)間開(kāi)銷只有 6.7%

實(shí)驗(yàn)效果

27B 模型，mHC 對(duì)比傳統(tǒng)殘差連接，loss 下降 0.021

下游任務(wù)上，推理能力（BBH）提升 2.1%，閱讀理解（DROP）提升 2.3%

訓(xùn)練全程穩(wěn)定

mHC 穩(wěn)定下降，沒(méi)崩說(shuō)回這篇論文

字節(jié)的 HC 提出了一個(gè)好想法：把殘差通道變寬
但沒(méi)解決大規(guī)模訓(xùn)練的穩(wěn)定性問(wèn)題

DeepSeek 給出了數(shù)學(xué)上干凈的解法，然后在工程上把開(kāi)銷壓到了可接受的范圍

這篇論文透露的信息：DeepSeek 在認(rèn)真搞架構(gòu)層的優(yōu)化

下一代模型，DeepSeek 會(huì)不會(huì)用 mHC？不知道

但顯然，他們?cè)谶@個(gè)方向有投入

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

微信出新功能，網(wǎng)友：簡(jiǎn)直是社恐福音

南方都市報(bào) 2026-02-25 16:59:07
1252 跟貼 1252
MiniMax又來(lái)吃龍蝦肉了！OpenClaw真一鍵部署，還有上萬(wàn)智能體

量子位 2026-02-25 23:52:50
16 跟貼 16

如果你也養(yǎng)“龍蝦”，阿里云這次把token價(jià)格打穿了

每日經(jīng)濟(jì)新聞 2026-02-25 22:07:09
44 跟貼 44

清華聯(lián)手千問(wèn)重塑歸一化范式，讓 Transformer 回歸「深度」學(xué)習(xí)

機(jī)器之心Pro 2026-02-10 18:50:12
0 跟貼 0
不成熟的實(shí)驗(yàn)，最終只會(huì)害了自己

阿朵看劇 2026-02-22 15:33:45
20 跟貼 20

手機(jī)出現(xiàn)這8個(gè)信號(hào)，說(shuō)明你已被監(jiān)聽(tīng)！一旦出現(xiàn)請(qǐng)立刻關(guān)機(jī)。收藏

南北飯斗羅 2026-02-25 02:16:52
0 跟貼 0

霸榜358天，字節(jié)又孕育了一個(gè)“巨無(wú)霸”

DT商業(yè)觀察 2026-02-25 12:02:28
0 跟貼 0
施工現(xiàn)場(chǎng)磚塊運(yùn)輸過(guò)程，看著有點(diǎn)像模型，竟還有點(diǎn)好玩！

幽默小火山 2026-02-25 11:39:53
1 跟貼 1

日本計(jì)劃部署導(dǎo)彈部隊(duì)距臺(tái)灣僅110公里中方強(qiáng)硬表態(tài)

環(huán)球網(wǎng)資訊 2026-02-26 06:54:33
3986 跟貼 3986
陳根：中國(guó)癌癥假論文，正在把癌癥患者推向絕路？

陳根談科技 2026-02-26 10:04:16
0 跟貼 0
大眾成為小鵬第二代VLA首發(fā)客戶智駕DeepSeek來(lái)了

CNMO科技 2026-02-26 10:06:02
0 跟貼 0
打破常規(guī)！錦屏水電站地下2400米，竟藏全球最大的“幽靈”實(shí)驗(yàn)室

Hi科普啦 2026-02-25 15:01:55
0 跟貼 0
騰訊收縮工作室、字節(jié)賣(mài)掉沐瞳，游戲大廠海外“軍備競(jìng)賽”暫緩

財(cái)聯(lián)社 2026-02-25 17:30:07
3 跟貼 3
春節(jié)AI暗戰(zhàn)

鈦媒體APP 2026-02-24 15:56:17
0 跟貼 0
DeepSeek新模型曝光：傳華為搶先適配

智東西 2026-02-26 13:18:24
0 跟貼 0
搶抓“DeepSeek”時(shí)刻！小鵬、吉利發(fā)聲

中國(guó)基金報(bào) 2026-02-24 20:18:46
16 跟貼 16
什么是汽車空氣動(dòng)力學(xué)，看完就知道了，汽車曲線的影響效果！

笑場(chǎng)大魔王 2026-02-24 16:06:29
1 跟貼 1
她用隱形墨水寫(xiě)了論文，因此拿到了創(chuàng)意滿分

星星科普 2026-02-25 17:36:59
1 跟貼 1
別了，OpenClaw！19個(gè)頂尖AI夜襲硅谷，3萬(wàn)刀金融終端變「廢鐵」

新智元 2026-02-26 11:56:23
0 跟貼 0
智駕體貼升級(jí)：賽力斯新專利可實(shí)時(shí)準(zhǔn)確識(shí)別“暈車”狀態(tài)，此前極氪與吉利曾聯(lián)合公布“防暈車”專利

新浪財(cái)經(jīng) 2026-02-26 11:31:42
0 跟貼 0
視覺(jué)模型既懂語(yǔ)義，又能還原細(xì)節(jié)，南洋理工&商湯提出棱鏡假說(shuō)

機(jī)器之心Pro 2026-01-13 18:26:48
0 跟貼 0
一千多個(gè)模型都指向一個(gè)通用子空間

機(jī)器之心Pro 2025-12-16 18:23:47
0 跟貼 0
北京大學(xué)×清華大學(xué)×鄭州大學(xué)合作發(fā)表最新Nature論文

生物世界 2026-02-26 08:21:46
0 跟貼 0
中華人民共和國(guó)和德意志聯(lián)邦共和國(guó)聯(lián)合新聞聲明

新華社 2026-02-25 21:46:25
666 跟貼 666
上海樓市“新七條”落地當(dāng)天：兩類群體咨詢升溫，有房東重新掛牌

澎湃新聞 2026-02-25 22:22:28
1178 跟貼 1178
300多只東北虎“輕斷食”？景區(qū)：每天斷食1個(gè)園，司機(jī)會(huì)帶游客找可投喂區(qū)

封面新聞 2026-02-23 16:29:03
1660 跟貼 1660
教育產(chǎn)業(yè)日?qǐng)?bào)(02.25) : 中國(guó)科技新突破

億歐 2026-02-26 11:51:04
0 跟貼 0
現(xiàn)代車載雷達(dá)數(shù)據(jù)傳輸與CANXL技術(shù)詳解

新能源自動(dòng)駕駛 2026-02-24 21:51:27
0 跟貼 0
告別抽卡！一手實(shí)測(cè)字節(jié)剛放出的視頻模型Seedance 1.5 pro

機(jī)器之心Pro 2025-12-18 17:49:18
0 跟貼 0
大模型黑箱被撬開(kāi)：MIT華人聯(lián)創(chuàng)，造出能追溯思考過(guò)程的大模型

DeepTech深科技 2026-02-24 18:51:40
1 跟貼 1
人獸雜交實(shí)驗(yàn)真實(shí)存在？5名女性為科學(xué)獻(xiàn)身，最終實(shí)驗(yàn)結(jié)果如何？

蒼穹科普 2026-02-25 09:00:00
0 跟貼 0
小紅書(shū)不歡迎“避雷貼”

鈦媒體APP 2026-01-06 17:11:17
164 跟貼 164
金字塔碳14檢測(cè)后，真相混亂到讓學(xué)界集體“瘋魔”

今墨緣 2026-02-26 02:01:49
0 跟貼 0
左握?qǐng)F(tuán)購(gòu)“刺刀”、右舉AI“火種”：豆包、抖省省霸榜，字節(jié)跳動(dòng)“App工廠2.0”打響生態(tài)協(xié)同攻堅(jiān)戰(zhàn)

每日經(jīng)濟(jì)新聞 2026-02-26 00:05:07
0 跟貼 0
“36斤活羊烤完剩6.9斤”，網(wǎng)友質(zhì)疑店家約剔除5斤，有博主現(xiàn)場(chǎng)做實(shí)驗(yàn)測(cè)重

大風(fēng)新聞 2026-02-25 23:10:03
0 跟貼 0
記者觀察｜日本高價(jià)大米背后的民生難題

新華社 2026-02-25 15:55:24
1539 跟貼 1539
有網(wǎng)友稱價(jià)格炒至9000元，還有人翻箱倒柜找出來(lái)賣(mài)，寧波市場(chǎng)情況如何？

環(huán)球網(wǎng)資訊 2026-02-26 07:26:19
41 跟貼 41
美媒：比爾·蓋茨就其與愛(ài)潑斯坦關(guān)系向蓋茨基金會(huì)員工道歉

環(huán)球網(wǎng)資訊 2026-02-25 14:04:22
680 跟貼 680
AI不再「炫技」，淘寶要讓技術(shù)解決用戶每一個(gè)具體問(wèn)題

機(jī)器之心Pro 2025-10-28 14:02:58
0 跟貼 0
北大ProAct：首個(gè)雙系統(tǒng)「主動(dòng)社交」智能體，不做提線木偶

新智元 2026-02-26 11:53:31
0 跟貼 0

汪東興活到了2015年，他對(duì)當(dāng)下中國(guó)有何看法？他心里確實(shí)有些成見(jiàn)

汪東興活到了2015年，他對(duì)當(dāng)下中國(guó)有何看法？他心里確實(shí)有些成見(jiàn)

明月清風(fēng)閣

2026-02-19 07:25:09

中國(guó)禁止手機(jī)搭載WiFi的禁令，為何無(wú)疾而終了？

中國(guó)禁止手機(jī)搭載WiFi的禁令，為何無(wú)疾而終了？

真的好愛(ài)你

2026-02-25 00:53:59

江蘇一市，將迎第一所985大學(xué)

江蘇一市，將迎第一所985大學(xué)

中吳網(wǎng)

2026-02-26 09:16:10

未到站要求下車遭拒，男子搶奪公交車方向盤(pán)并持續(xù)毆打司機(jī)1分鐘！警方介入調(diào)查，受傷司機(jī)將被申報(bào)“委屈獎(jiǎng)”

未到站要求下車遭拒，男子搶奪公交車方向盤(pán)并持續(xù)毆打司機(jī)1分鐘！警方介入調(diào)查，受傷司機(jī)將被申報(bào)“委屈獎(jiǎng)”

揚(yáng)子晚報(bào)

2026-02-26 12:30:45

侄女考上985姑姑給了10萬(wàn)8，可升學(xué)宴唯獨(dú)沒(méi)請(qǐng)姑姑，4年后侄女畢業(yè)來(lái)敲門(mén)，姑姑冷笑問(wèn)：現(xiàn)在想起我了？

侄女考上985姑姑給了10萬(wàn)8，可升學(xué)宴唯獨(dú)沒(méi)請(qǐng)姑姑，4年后侄女畢業(yè)來(lái)敲門(mén)，姑姑冷笑問(wèn)：現(xiàn)在想起我了？

LULU生活家

2026-02-25 18:43:16

迷失無(wú)人區(qū):女子帶藏獒無(wú)人區(qū)失聯(lián)兩周,警方找到車,車內(nèi)只剩藏獒

迷失無(wú)人區(qū):女子帶藏獒無(wú)人區(qū)失聯(lián)兩周,警方找到車,車內(nèi)只剩藏獒

罪案洞察者

2025-11-10 13:57:07

贅婿船上不行被白富美拋棄！妲己男友得病了！

贅婿船上不行被白富美拋棄！妲己男友得病了！

八卦瘋叔

2026-02-26 11:39:31

開(kāi)國(guó)上將找縣長(zhǎng)辦事，卻被縣長(zhǎng)給銬起來(lái)，當(dāng)眾狂言：這里我說(shuō)了算

開(kāi)國(guó)上將找縣長(zhǎng)辦事，卻被縣長(zhǎng)給銬起來(lái)，當(dāng)眾狂言：這里我說(shuō)了算

芊芊子吟

2026-02-25 21:30:05

79年軍委會(huì)議一上將不接受批評(píng)，徐向前怒：你要認(rèn)識(shí)你錯(cuò)誤的嚴(yán)重

79年軍委會(huì)議一上將不接受批評(píng)，徐向前怒：你要認(rèn)識(shí)你錯(cuò)誤的嚴(yán)重

歷史甄有趣

2026-01-31 13:00:11

劍指中國(guó)，高市擺鴻門(mén)宴，21國(guó)赴會(huì)！令人痛心的是，東盟7國(guó)參加

劍指中國(guó)，高市擺鴻門(mén)宴，21國(guó)赴會(huì)！令人痛心的是，東盟7國(guó)參加

史智文道

2026-02-25 22:10:13

外國(guó)網(wǎng)民破防，美國(guó)制裁宇樹(shù)機(jī)器人，美媒一句話讓特朗普下不來(lái)臺(tái)

外國(guó)網(wǎng)民破防，美國(guó)制裁宇樹(shù)機(jī)器人，美媒一句話讓特朗普下不來(lái)臺(tái)

墨蘭史書(shū)

2026-02-25 23:06:50

亞洲第一帥又胖了！香港頂流姜濤過(guò)完年演出，腿粗肚子大跳舞笨拙

亞洲第一帥又胖了！香港頂流姜濤過(guò)完年演出，腿粗肚子大跳舞笨拙

冷紫葉

2026-02-25 18:19:24

歷史上唯一沒(méi)污點(diǎn)的皇帝柴榮，千年來(lái)無(wú)一惡評(píng)，史學(xué)家們稱贊不已

歷史上唯一沒(méi)污點(diǎn)的皇帝柴榮，千年來(lái)無(wú)一惡評(píng)，史學(xué)家們稱贊不已

別人都叫我阿腈

2026-02-26 07:04:46

我剛上任市長(zhǎng),去政務(wù)大廳辦事,工作人員甩出表格:沒(méi)看見(jiàn)我在追劇?

我剛上任市長(zhǎng),去政務(wù)大廳辦事,工作人員甩出表格:沒(méi)看見(jiàn)我在追劇?

張道陵秘話

2025-11-29 22:49:36

印陸軍前參謀長(zhǎng)終于承認(rèn)：印軍白死了！加勒萬(wàn)那夜，輸?shù)牟皇悄懥?>
</a>
<h3>
<a href=

梁濆愛(ài)玩車

2026-02-26 00:45:15

美國(guó)知名演員羅伯特·德尼羅指責(zé)特朗普正“摧毀我們的國(guó)家”，特朗普憤怒回應(yīng)

美國(guó)知名演員羅伯特·德尼羅指責(zé)特朗普正“摧毀我們的國(guó)家”，特朗普憤怒回應(yīng)

環(huán)球網(wǎng)資訊

2026-02-26 09:23:14

澳大利亞驚現(xiàn)封閉亂倫家族：4代人近親繁衍38名成員全是亂倫產(chǎn)物

澳大利亞驚現(xiàn)封閉亂倫家族：4代人近親繁衍38名成員全是亂倫產(chǎn)物

第7情感

2026-02-23 20:45:16

沉默整整9天，毛寧一錘定音，中美戰(zhàn)機(jī)已交手，美方要見(jiàn)中國(guó)代表

沉默整整9天，毛寧一錘定音，中美戰(zhàn)機(jī)已交手，美方要見(jiàn)中國(guó)代表

影孖看世界

2026-02-25 23:01:51

“女排之父”袁偉民，造就了一番輝煌后，晚年生活卻過(guò)成如此

“女排之父”袁偉民，造就了一番輝煌后，晚年生活卻過(guò)成如此

小兔子的快樂(lè)

2026-02-18 20:26:11

圍爐煮茶，為啥涼了？

放牛娃的遐想

2026-02-25 08:14:29

拜AI古佛，修賽博禪心

302文章數(shù) 44關(guān)注度

往期回顧全部

科技要聞

單季營(yíng)收681億凈利429億！英偉達(dá)再次炸裂

頭條要聞

特朗普自詡開(kāi)啟美國(guó)"黃金時(shí)代" 遭美媒集體"打臉"

頭條要聞

特朗普自詡開(kāi)啟美國(guó)"黃金時(shí)代" 遭美媒集體"打臉"

體育要聞

從排球少女到冰壺女神，她在米蘭冬奧練出6塊腹肌

娛樂(lè)要聞

尼格買(mǎi)提撒貝寧滑雪被偶遇 17年老友情

財(cái)經(jīng)要聞

短劇市場(chǎng)風(fēng)云突變！有人投百萬(wàn)賠得精光

汽車要聞

第五代宏光MINIEV煥新四門(mén)玩趣代步車來(lái)襲

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

家居

手機(jī)

房產(chǎn)

藝術(shù)

新品節(jié)DEMO試玩報(bào)告

家居要聞

歸隱于都市慢享自由

藝居辦公溫度與效率
本真棲居愛(ài)暖伴流年
中古雅韻樂(lè)韻伴日常

手機(jī)要聞

三星Galaxy S26 Ultra手機(jī)支持2400萬(wàn)像素直出

房產(chǎn)要聞

2.2萬(wàn)/m2起！三亞主城性價(jià)比標(biāo)桿海墾·桃花源實(shí)景現(xiàn)房春節(jié)被瘋搶

藝術(shù)要聞

2025年百家金陵畫(huà)展 | 油畫(huà)作品選刊

© 1997-2026 網(wǎng)易公司版權(quán)所有 About NetEase | 公司簡(jiǎn)介 | 聯(lián)系方法 | 招聘信息 | 客戶服務(wù) | 隱私政策 | 不良信息舉報(bào) Complaint Center | 廉正舉報(bào) | 侵權(quán)投訴

無(wú)障礙瀏覽進(jìn)入關(guān)懷版

<cite id="3mkrl"></cite>

<style id="3mkrl"></style>

<cite id="3mkrl"></cite><em id="3mkrl"></em><thead id="3mkrl"><rt id="3mkrl"><noscript id="3mkrl"></noscript></rt></thead><sub id="3mkrl"><s id="3mkrl"></s></sub>