<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<sub id="rroma"></sub>

<sup id="rroma"><rt id="rroma"></rt></sup><em id="rroma"></em>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

DeepSeek又在放假搞事！58年前的算法解決一個大問題

2026-01-04 06:33:01　來源: 王煜全

北京舉報

0

分享至

訓練一個大模型要多久？

小模型幾天，大模型幾周，頂級模型可能要幾個月。

現在想象一下：你的團隊花了兩周時間、燒掉幾百萬美元的算力，眼看模型快要訓練完成，突然，原本應該不斷降低的loss曲線開始暴漲，所有數據全部作廢，一切從頭再來。

2025年的最后一天，DeepSeek悄悄發了一篇論文《mHC: Manifold-Constrained Hyper-Connections》，解決了這個問題。

一個讓工程師崩潰的bug

這篇論文一發布，海外AI圈就炸了。

Hugging Face上，mHC論文直接登上了 " Paper of the day"，獲得73個專業點贊。

X上，AI研究者Alexander Doria的解讀帖引發了大量轉發。他寫道：

"這實際上是一篇工程論文...論文的核心是'高效訓練設計'，他們用混合精度策略最大化數值精度，用算子融合減少內存帶寬瓶頸...整體非常優雅。"

Hugging Face Paper of the day

這篇論文到底解決了什么問題？為什么能引起這么大的關注？

故事要從去年說起。字節跳動提出了一種叫Hyper-Connections（HC）的新技術。

簡單說，傳統的AI模型像一條單行道，信息排隊通過。

HC把它拓寬成了4條并行車道，讓信息可以同時在多個"通道"里流動和交換。

效果非常驚艷：根據字節跳動的論文，訓練速度最高提升1.8倍，在ARC-Challenge基準上提升了6分。

Hyper-Connections論文結果圖（訓練loss與ARC-Challenge表現）

全世界的AI團隊都想用這個技術，但很快，大家發現了一個致命的問題：訓練到12000步左右，模型會突然"發瘋"。

代表AI錯誤率的loss曲線，本來穩步下降，突然毫無征兆地飆升。前面十幾天的訓練，全部白費。

更可怕的是，這個問題沒有規律可循。有時候能撐過去，有時候撐不過去，工程師們只能碰運氣。

3000倍 → 1.6倍

DeepSeek的工程師們研究后發現了問題所在：4條"車道"之間的信息交換，沒有任何約束。

就像高速公路上的車可以隨意變道，而且每次變道車的數量還會隨機變化。

幾十次變道之后，有的車道上擠了幾千輛車，有的車道空無一車。系統必然崩潰。

在AI模型里，這個"變化"有多夸張？信號放大倍數最高達到3000倍。

DeepSeek的解決方案非常優雅：加一個數學約束，讓每次"變道"后，總車數保持不變。

他們用的工具是一個1967年就有的老算法：Sinkhorn-Knopp。

這個算法能保證信息在通道之間流動時"守恒"，不會無限放大，也不會逐漸消失。

結果：信號放大倍數從3000倍降到1.6倍，訓練過程穩定，不再隨機崩盤。

額外的計算開銷？ 僅6.7%，推理能力還額外提升了2%以上。

用一個58年前的老算法，解決了2025年最前沿的工程難題。

沒有什么驚天動地的理論突破，都是工程師的智慧：找到問題的本質，用最簡單的方法解決它。

研究，早已不在象牙塔里

看完這篇論文，相信你馬上就會明白，為什么AI研究的一線早已不在象牙塔里。

你看這篇論文的內容：

大量篇幅在講"Kernel Fusion"（算子融合）：怎么把多個計算合并成一個，減少內存讀寫

詳細描述了"Recomputing"（重計算策略）：寧可重新算一遍，也不占用寶貴的顯存

甚至專門討論了"DualPipe Schedule"（流水線調度）：怎么讓通信和計算同時進行，不浪費一秒鐘

全是實打實的工程優化。

DeepSeek

DeepSeek這篇論文的核心貢獻，就是發現了"訓練會崩"這個實際問題，然后用一個58年前的老算法解決了它。

AI的"發動機"已經基本就緒了。

大模型的核心架構、訓練方法、推理框架，都已經相當成熟。

接下來的競爭，不只是"誰能造出更大的發動機"，更是"誰能把發動機用得更好"。

而這種"用得更好"的優化，會發生在AI應用的很多環節：

怎么更好的使用AI大模型？
哪些場景中能發揮AI潛力？
怎么用更少的資源做更多的事？

這些問題，不需要你是數學天才，不需要你發明新理論。你只需要：發現真實的問題，找到解決它的方法。

這，就是大多數人的機會。

會"用"比會"造"更重要

吳恩達曾多次表達過類似觀點，大意是：未來最值錢的能力，不是"懂AI原理"，是"會指揮AI干活"。

吳恩達（Andrew Ng）

這和很多人對AI的焦慮形成了鮮明對比：

有人擔心："我不會寫代碼，是不是就被淘汰了？"

有人擔心："我數學不好，是不是學不了AI？"

有人擔心："我不是名校出身，是不是沒機會？"

但現實是：真正稀缺的，是"能解決問題的人"。

我們之前也為大家介紹過，Gabriel Petersson高中輟學，用ChatGPT自學，現在在OpenAI做研究科學家。

一個20歲的中國大學生，靠AI編程工具做了個GitHub熱榜第一的項目，拿到了心儀的實習offer。

他們的共同點就是用AI解決了真實的問題。

給下一代的機會

我們這代人，還在努力適應AI。但下一代，完全可以從小學會"和AI協作"。

就像DeepSeek的工程師們，沒有從零發明了新理論，而是把已有的工具組合起來，解決了實際問題。

這種"解決問題"的能力，越早培養越好。

【前哨AI冬令營】專為8-16歲孩子設計

7天時間，讓孩子親手做出可上線的作品：

? 專屬小游戲（卡牌游戲、闖關冒險游戲）

? 微信小程序（卡路里識別、飯店點餐小程序）

教孩子"AI的原理是什么"，更教孩子"怎么用AI解決問題"。

當DeepSeek的工程師用58年前的老算法解決最前沿的難題時，你的孩子也可以學會：用現有的工具，解決真實的問題。

和AI時代一起成長。

? 名額有限，先到先得，掃碼報名 ↓

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

36年卷積猜想被解決，華人唯一作者，AI或受益

機器之心Pro 2025-11-26 14:30:39
1 跟貼 1
天下苦CUDA久矣，又一國產方案上桌了

量子位 2026-01-30 21:59:52
4 跟貼 4

DeepSeek最會討好，LLM太懂人情世故了，超人類50%

機器之心Pro 2025-10-27 15:23:21
0 跟貼 0

Transformer作者：DeepSeek才有搞頭，OpenAI指望不上了

量子位 2025-09-12 11:07:58
149 跟貼 149
揭秘GLM-5技術底牌：「異步強化學習框架Slime」成終極殺招

機器之心Pro 2026-02-23 18:49:46
0 跟貼 0

三個和尚沒水喝！OpenAI星際之門擱淺，一年過去壓根沒動工

量子位 2026-02-23 12:41:44
0 跟貼 0

OpenAI神秘「波蘭軍團」曝光！奧特曼：沒他們就沒有OpenAI

新智元 2026-02-23 09:18:39
34 跟貼 34
巨大的“智能體藍海市場”：軟件編程占一半，醫療、金融、法律等“寥寥無幾”

華爾街見聞官方 2026-02-23 16:00:04
0 跟貼 0

AI模型燒掉的Token，對應多少GDP？AI的經濟貢獻現在有數了

機器之心Pro 2026-02-23 19:01:38
0 跟貼 0
項目陷入停滯、算力明爭暗斗，5000億美元的星際之門何去何從？

機器之心Pro 2026-02-23 18:54:02
0 跟貼 0
妹妹過年放假剛進家門，就跟家里“戰斗雞”結下梁子，上演極限拉扯

警界君 2026-02-21 18:09:59
4 跟貼 4
15%全量Attention！「RTPurbo」阿里Qwen3長文本推理5倍壓縮方案

機器之心Pro 2025-12-23 12:52:34
0 跟貼 0
她數學數手指都數不明白，去哪里要這么多獎狀哦

詩晏 2026-02-22 04:29:40
0 跟貼 0
1538四年級：兩數之和是308，甲的小數點向左移動一位后是乙數

我服子佩 2026-02-22 09:04:19
1 跟貼 1
1528四年級下冊必考題：0.2和0.20有哪些區別呢？其實家長也不知

我服子佩 2026-02-21 09:04:51
1 跟貼 1
對話吳德周：華為、榮耀、錘子教父、XR、AI、TNT、字節、創業、運動眼鏡、BleeqUp | 從華...

差評XPIN 2026-02-23 01:25:00
0 跟貼 0
1546三年級：有的孩子10分鐘沒有算出結果，有的孩子脫口而出

我服子佩 2026-02-22 09:05:58
1 跟貼 1
1499四年級：媽媽們惱火了，真是輔導不了，條件較多，理不清了

我服子佩 2026-02-19 05:43:53
1 跟貼 1
分小混合如何巧算？誰是公因數？小升初數學易錯題，陳延忠老師

陳老師講小學奧數 2026-02-20 01:00:20
5 跟貼 5
1505二年級：有余數的除法中，最常考的是這個知識點

我服子佩 2026-02-19 05:47:18
1 跟貼 1
科學家研發大模型新框架，助力解決RISC-V軟件生態瓶頸

DeepTech深科技 2025-10-12 19:05:00
1 跟貼 1
提前放假回來，偷偷給老媽一個驚喜，驗證完畢是親媽！

聰聰熱點看看 2026-02-22 06:20:00
0 跟貼 0
不但機械要厲害，控制的算法更厲害，網友瞬間不淡定了

姜江愛搞笑 2026-02-20 16:24:00
0 跟貼 0
三年級數學都不會做，嚴重懷疑我讀的是假大學

郎老師趣味數學課堂 2026-02-21 15:47:34
0 跟貼 0
《序影幻形》項目，石明鑫率先解出正確答案，鎖定勝利席位！

江蘇衛視 2026-02-20 21:32:57
0 跟貼 0
放假外甥全去舅舅家，拖著進到超市買單，沒有一步是自愿！

愛搞笑豬豬女 2026-02-21 14:48:00
0 跟貼 0
數學啟蒙，簡單易懂，讓孩子愛上學習！

愛旅游的小g 2026-02-19 05:13:42
0 跟貼 0
五年級數學求陰影部分面積

天天數理學習分享 2026-02-21 20:50:35
3 跟貼 3
1521三年級:A÷B＝3，A÷B＝24，求A和B分別是多少

我服子佩 2026-02-21 09:00:42
3 跟貼 3
小伙放假提前回家，給家人驚喜各各都激動的不了，沒白費心思

搞笑老螞蚱 2026-02-21 20:43:00
0 跟貼 0
智譜GLM-5技術全公開！完全適配華為等國產芯片，美國網友酸了

量子位 2026-02-23 12:56:04
6 跟貼 6
印度競賽題，會做的寥寥無幾

郎老師趣味數學課堂 2026-02-23 11:45:49
0 跟貼 0
1553二年級易錯提高題：小明給東18枚后兩人一樣多，原來差多少

我服子佩 2026-02-23 13:01:33
1 跟貼 1
老公好久沒回家了，公司放假提前回來，沒想到妻子竟然這樣！

搞笑面包狗 2026-02-22 19:52:27
1 跟貼 1
數學老師講解數學題，輕松搞定90分！

川麻喵喵 2026-02-19 04:33:24
1 跟貼 1
象棋巧換三先制勝策略

精靈之舞z 2026-02-22 04:57:31
0 跟貼 0
數一數二的數學高手，卻被3+3難住了

魏延看劇 2026-02-23 08:16:46
1 跟貼 1
熱度第一、Tokens周調用破3T，MiniMax這個春節殺瘋了

機器之心Pro 2026-02-23 18:46:36
0 跟貼 0
本周上班時間有變！下一次放假就在→

四川省教育廳 2026-02-23 18:09:13
0 跟貼 0
諾獎得主驚人預測：4年推出廣義相對論，就是AGI！做完人類580億年任務

新智元 2026-02-23 16:05:32
3 跟貼 3

93年戰友兩次借了我1萬2，4年沒有見過面，那天我接到一個電話

93年戰友兩次借了我1萬2，4年沒有見過面，那天我接到一個電話

人間百態大全

2026-02-23 08:12:24

唐山“釣帝”安國勇去世，享年75歲，死因曝光，因曬成老抽色走紅

唐山“釣帝”安國勇去世，享年75歲，死因曝光，因曬成老抽色走紅

解說阿洎

2026-02-22 00:22:54

辭去央視鐵飯碗，帶著兒子嫁給張譯，20年過去，才知道她有多明智

辭去央視鐵飯碗，帶著兒子嫁給張譯，20年過去，才知道她有多明智

阿廢冷眼觀察所

2026-02-21 13:48:22

十幾萬中國勞工被騙出國挖煤，誰知等他們的卻是幾十萬法國女性

十幾萬中國勞工被騙出國挖煤，誰知等他們的卻是幾十萬法國女性

小莜讀史

2026-02-23 01:45:38

警惕“漢字阿音”背后的去中國化！

警惕“漢字阿音”背后的去中國化！

西域都護

2026-02-23 13:21:31

趙心童職業生涯轉折：半決賽惜敗艾倫，離封王只差一步

趙心童職業生涯轉折：半決賽惜敗艾倫，離封王只差一步

劉哥談體育

2026-02-23 18:30:17

中方凌晨得到消息，特朗普多年心血白費，這一次他把賭注下在中國

中方凌晨得到消息，特朗普多年心血白費，這一次他把賭注下在中國

知鑒明史

2026-02-22 13:56:16

匈牙利大選驚現AI恐怖視頻！歐爾班警告選民：“投錯票，兒子送烏克蘭前線”，為阻撓歐盟900億援烏貸款拿俄油作條件

匈牙利大選驚現AI恐怖視頻！歐爾班警告選民：“投錯票，兒子送烏克蘭前線”，為阻撓歐盟900億援烏貸款拿俄油作條件

觀星賞月

2026-02-23 18:28:06

荷蘭弟版蜘蛛俠將缺席《復聯5》：《復聯6》回歸

荷蘭弟版蜘蛛俠將缺席《復聯5》：《復聯6》回歸

TVB的四小花

2026-02-23 19:02:03

不到24小時，高市病情惡化，日本迎3大壞消息，特朗普或劃清界限

不到24小時，高市病情惡化，日本迎3大壞消息，特朗普或劃清界限

薦史

2026-02-23 12:23:17

送他走吧！騎士113-121不敵雷霆，哈登狂砍20+5+9，米切爾20+7+5

送他走吧！騎士113-121不敵雷霆，哈登狂砍20+5+9，米切爾20+7+5

kio魚

2026-02-23 09:22:26

男子花80塊錢請人畫畫，付款時，要了張收據，50年后，這張收據賣了180萬

男子花80塊錢請人畫畫，付款時，要了張收據，50年后，這張收據賣了180萬

霹靂炮

2026-02-14 20:47:47

吳石夫人王碧奎晚年自述，寧在臺流浪不返大陸，居美國訴心底真意

吳石夫人王碧奎晚年自述，寧在臺流浪不返大陸，居美國訴心底真意

嘮叨說歷史

2026-02-02 18:45:08

我發現老天爺很公平：單位里那些不爭不搶的老實人，真的吃虧是福

我發現老天爺很公平：單位里那些不爭不搶的老實人，真的吃虧是福

風起見你

2026-02-23 19:09:41

閱讀破5億！江蘇春晚小品封神，網友：被包那么久的火，露出火苗

閱讀破5億！江蘇春晚小品封神，網友：被包那么久的火，露出火苗

火山詩話

2026-02-21 20:44:36

300多只東北虎“輕斷食”？景區：每天斷食1個園，司機會帶游客找可投喂區

300多只東北虎“輕斷食”？景區：每天斷食1個園，司機會帶游客找可投喂區

封面新聞

2026-02-23 16:29:03

劉德華、郭富城告訴你：西服不成套穿，褲子短一截，到老也不油膩

劉德華、郭富城告訴你：西服不成套穿，褲子短一截，到老也不油膩

飄逸語人

2025-12-25 22:16:54

12GB+256GB！新機官宣：3月5日，正式發布

12GB+256GB！新機官宣：3月5日，正式發布

科技堡壘

2026-02-21 11:59:42

龍洋眼往上瞟，不是看提詞器，也不是針打多了，而是一個“硬傷”

龍洋眼往上瞟，不是看提詞器，也不是針打多了，而是一個“硬傷”

她時尚丫

2026-02-17 22:41:30

新一輪樓市風暴，又要開始了!

巢客HOME

2026-02-22 09:50:05

王煜全帶你一起看創新

1026文章數 769關注度

往期回顧全部

科技要聞

智譜、MiniMax合計蒸發近千億市值，為何？

頭條要聞

鄭麗文接受外媒專訪：若臺海爆發沖突臺灣將成最大輸家

頭條要聞

鄭麗文接受外媒專訪：若臺海爆發沖突臺灣將成最大輸家

體育要聞

哈登版騎士首敗：雷霆的冠軍課

娛樂要聞

田亮一家新年全家福！森碟變清純少女

財經要聞

美國海關將停止征收被裁定違法的關稅

汽車要聞

續航1810km！smart精靈#6 EHD超級電混2026年上市

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

房產

健康

教育

時尚

手機要聞

CINNO Research：淡季疊加成本高企 2月手機面板價格全線下行

房產要聞

窗前即地標！獨占三亞灣C位自貿港總裁行宮亮相

轉頭就暈的耳石癥，能開車上班嗎？

教育要聞

道歉不是認輸，是愛孩子的方式

今年春天一定要擁有的針織，這樣穿減齡又好看！

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

^{<blockquote id="r38nn"></blockquote>}

<sub id="r38nn"></sub>