<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek又在放假搞事!58年前的算法解決一個大問題

      0
      分享至

      訓練一個大模型要多久?

      小模型幾天,大模型幾周,頂級模型可能要幾個月。

      現在想象一下:你的團隊花了兩周時間、燒掉幾百萬美元的算力,眼看模型快要訓練完成,突然,原本應該不斷降低的loss曲線開始暴漲,所有數據全部作廢,一切從頭再來。

      2025年的最后一天,DeepSeek悄悄發了一篇論文《mHC: Manifold-Constrained Hyper-Connections》,解決了這個問題。

      一個讓工程師崩潰的bug

      這篇論文一發布,海外AI圈就炸了。

      Hugging Face上,mHC論文直接登上了 " Paper of the day",獲得73個專業點贊。

      X上,AI研究者Alexander Doria的解讀帖引發了大量轉發。他寫道:

      "這實際上是一篇工程論文...論文的核心是'高效訓練設計',他們用混合精度策略最大化數值精度,用算子融合減少內存帶寬瓶頸...整體非常優雅。"



      Hugging Face Paper of the day

      這篇論文到底解決了什么問題?為什么能引起這么大的關注?

      故事要從去年說起。字節跳動提出了一種叫Hyper-Connections(HC)的新技術。

      簡單說,傳統的AI模型像一條單行道,信息排隊通過。

      HC把它拓寬成了4條并行車道,讓信息可以同時在多個"通道"里流動和交換。

      效果非常驚艷:根據字節跳動的論文,訓練速度最高提升1.8倍,在ARC-Challenge基準上提升了6分。


      Hyper-Connections論文結果圖(訓練loss與ARC-Challenge表現)

      全世界的AI團隊都想用這個技術,但很快,大家發現了一個致命的問題:訓練到12000步左右,模型會突然"發瘋"。

      代表AI錯誤率的loss曲線,本來穩步下降,突然毫無征兆地飆升。前面十幾天的訓練,全部白費。

      更可怕的是,這個問題沒有規律可循。有時候能撐過去,有時候撐不過去,工程師們只能碰運氣。

      3000倍 → 1.6倍

      DeepSeek的工程師們研究后發現了問題所在:4條"車道"之間的信息交換,沒有任何約束。

      就像高速公路上的車可以隨意變道,而且每次變道車的數量還會隨機變化。

      幾十次變道之后,有的車道上擠了幾千輛車,有的車道空無一車。系統必然崩潰。

      在AI模型里,這個"變化"有多夸張?信號放大倍數最高達到3000倍。

      DeepSeek的解決方案非常優雅:加一個數學約束,讓每次"變道"后,總車數保持不變。

      他們用的工具是一個1967年就有的老算法:Sinkhorn-Knopp。

      這個算法能保證信息在通道之間流動時"守恒",不會無限放大,也不會逐漸消失。

      結果:信號放大倍數從3000倍降到1.6倍,訓練過程穩定,不再隨機崩盤。

      額外的計算開銷? 僅6.7%,推理能力還額外提升了2%以上。

      用一個58年前的老算法,解決了2025年最前沿的工程難題。

      沒有什么驚天動地的理論突破,都是工程師的智慧:找到問題的本質,用最簡單的方法解決它。

      研究,早已不在象牙塔里

      看完這篇論文,相信你馬上就會明白,為什么AI研究的一線早已不在象牙塔里。

      你看這篇論文的內容:

      大量篇幅在講"Kernel Fusion"(算子融合):怎么把多個計算合并成一個,減少內存讀寫

      詳細描述了"Recomputing"(重計算策略):寧可重新算一遍,也不占用寶貴的顯存

      甚至專門討論了"DualPipe Schedule"(流水線調度):怎么讓通信和計算同時進行,不浪費一秒鐘

      全是實打實的工程優化


      DeepSeek

      DeepSeek這篇論文的核心貢獻,就是發現了"訓練會崩"這個實際問題,然后用一個58年前的老算法解決了它。

      AI的"發動機"已經基本就緒了。

      大模型的核心架構、訓練方法、推理框架,都已經相當成熟。

      接下來的競爭,不只是"誰能造出更大的發動機",更是"誰能把發動機用得更好"。

      而這種"用得更好"的優化,會發生在AI應用的很多環節

      • 怎么更好的使用AI大模型?

      • 哪些場景中能發揮AI潛力?

      • 怎么用更少的資源做更多的事?

      這些問題,不需要你是數學天才,不需要你發明新理論。你只需要:發現真實的問題,找到解決它的方法。

      這,就是大多數人的機會。

      會"用"比會"造"更重要

      吳恩達曾多次表達過類似觀點,大意是:未來最值錢的能力,不是"懂AI原理",是"會指揮AI干活"



      吳恩達(Andrew Ng)

      這和很多人對AI的焦慮形成了鮮明對比:

      有人擔心:"我不會寫代碼,是不是就被淘汰了?"

      有人擔心:"我數學不好,是不是學不了AI?"

      有人擔心:"我不是名校出身,是不是沒機會?"

      但現實是:真正稀缺的,是"能解決問題的人"。

      我們之前也為大家介紹過,Gabriel Petersson高中輟學,用ChatGPT自學,現在在OpenAI做研究科學家。

      一個20歲的中國大學生,靠AI編程工具做了個GitHub熱榜第一的項目,拿到了心儀的實習offer。

      他們的共同點就是用AI解決了真實的問題

      給下一代的機會

      我們這代人,還在努力適應AI。但下一代,完全可以從小學會"和AI協作"

      就像DeepSeek的工程師們,沒有從零發明了新理論,而是把已有的工具組合起來,解決了實際問題。

      這種"解決問題"的能力,越早培養越好。

      【前哨AI冬令營】專為8-16歲孩子設計

      7天時間,讓孩子親手做出可上線的作品:

      ? 專屬小游戲(卡牌游戲、闖關冒險游戲)

      ? 微信小程序(卡路里識別、飯店點餐小程序)

      教孩子"AI的原理是什么",更教孩子"怎么用AI解決問題"。

      當DeepSeek的工程師用58年前的老算法解決最前沿的難題時,你的孩子也可以學會:用現有的工具,解決真實的問題。

      和AI時代一起成長

      ? 名額有限,先到先得,掃碼報名 ↓


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      93年戰友兩次借了我1萬2,4年沒有見過面,那天我接到一個電話

      93年戰友兩次借了我1萬2,4年沒有見過面,那天我接到一個電話

      人間百態大全
      2026-02-23 08:12:24
      唐山“釣帝”安國勇去世,享年75歲,死因曝光,因曬成老抽色走紅

      唐山“釣帝”安國勇去世,享年75歲,死因曝光,因曬成老抽色走紅

      解說阿洎
      2026-02-22 00:22:54
      辭去央視鐵飯碗,帶著兒子嫁給張譯,20年過去,才知道她有多明智

      辭去央視鐵飯碗,帶著兒子嫁給張譯,20年過去,才知道她有多明智

      阿廢冷眼觀察所
      2026-02-21 13:48:22
      十幾萬中國勞工被騙出國挖煤,誰知等他們的卻是幾十萬法國女性

      十幾萬中國勞工被騙出國挖煤,誰知等他們的卻是幾十萬法國女性

      小莜讀史
      2026-02-23 01:45:38
      警惕“漢字阿音”背后的去中國化!

      警惕“漢字阿音”背后的去中國化!

      西域都護
      2026-02-23 13:21:31
      趙心童職業生涯轉折:半決賽惜敗艾倫,離封王只差一步

      趙心童職業生涯轉折:半決賽惜敗艾倫,離封王只差一步

      劉哥談體育
      2026-02-23 18:30:17
      中方凌晨得到消息,特朗普多年心血白費,這一次他把賭注下在中國

      中方凌晨得到消息,特朗普多年心血白費,這一次他把賭注下在中國

      知鑒明史
      2026-02-22 13:56:16
      匈牙利大選驚現AI恐怖視頻!歐爾班警告選民:“投錯票,兒子送烏克蘭前線”,為阻撓歐盟900億援烏貸款拿俄油作條件

      匈牙利大選驚現AI恐怖視頻!歐爾班警告選民:“投錯票,兒子送烏克蘭前線”,為阻撓歐盟900億援烏貸款拿俄油作條件

      觀星賞月
      2026-02-23 18:28:06
      荷蘭弟版蜘蛛俠將缺席《復聯5》:《復聯6》回歸

      荷蘭弟版蜘蛛俠將缺席《復聯5》:《復聯6》回歸

      TVB的四小花
      2026-02-23 19:02:03
      不到24小時,高市病情惡化,日本迎3大壞消息,特朗普或劃清界限

      不到24小時,高市病情惡化,日本迎3大壞消息,特朗普或劃清界限

      薦史
      2026-02-23 12:23:17
      送他走吧!騎士113-121不敵雷霆,哈登狂砍20+5+9,米切爾20+7+5

      送他走吧!騎士113-121不敵雷霆,哈登狂砍20+5+9,米切爾20+7+5

      kio魚
      2026-02-23 09:22:26
      男子花80塊錢請人畫畫,付款時,要了張收據,50年后,這張收據賣了180萬

      男子花80塊錢請人畫畫,付款時,要了張收據,50年后,這張收據賣了180萬

      霹靂炮
      2026-02-14 20:47:47
      吳石夫人王碧奎晚年自述,寧在臺流浪不返大陸,居美國訴心底真意

      吳石夫人王碧奎晚年自述,寧在臺流浪不返大陸,居美國訴心底真意

      嘮叨說歷史
      2026-02-02 18:45:08
      我發現老天爺很公平:單位里那些不爭不搶的老實人,真的吃虧是福

      我發現老天爺很公平:單位里那些不爭不搶的老實人,真的吃虧是福

      風起見你
      2026-02-23 19:09:41
      閱讀破5億!江蘇春晚小品封神,網友:被包那么久的火,露出火苗

      閱讀破5億!江蘇春晚小品封神,網友:被包那么久的火,露出火苗

      火山詩話
      2026-02-21 20:44:36
      300多只東北虎“輕斷食”?景區:每天斷食1個園,司機會帶游客找可投喂區

      300多只東北虎“輕斷食”?景區:每天斷食1個園,司機會帶游客找可投喂區

      封面新聞
      2026-02-23 16:29:03
      劉德華、郭富城告訴你:西服不成套穿,褲子短一截,到老也不油膩

      劉德華、郭富城告訴你:西服不成套穿,褲子短一截,到老也不油膩

      飄逸語人
      2025-12-25 22:16:54
      12GB+256GB!新機官宣:3月5日,正式發布

      12GB+256GB!新機官宣:3月5日,正式發布

      科技堡壘
      2026-02-21 11:59:42
      龍洋眼往上瞟,不是看提詞器,也不是針打多了,而是一個“硬傷”

      龍洋眼往上瞟,不是看提詞器,也不是針打多了,而是一個“硬傷”

      她時尚丫
      2026-02-17 22:41:30
      新一輪樓市風暴,又要開始了!

      新一輪樓市風暴,又要開始了!

      巢客HOME
      2026-02-22 09:50:05
      2026-02-23 19:43:00
      王煜全 incentive-icons
      王煜全
      王煜全帶你一起看創新
      1026文章數 769關注度
      往期回顧 全部

      科技要聞

      智譜、MiniMax合計蒸發近千億市值,為何?

      頭條要聞

      鄭麗文接受外媒專訪:若臺海爆發沖突臺灣將成最大輸家

      頭條要聞

      鄭麗文接受外媒專訪:若臺海爆發沖突臺灣將成最大輸家

      體育要聞

      哈登版騎士首敗:雷霆的冠軍課

      娛樂要聞

      田亮一家新年全家福!森碟變清純少女

      財經要聞

      美國海關將停止征收被裁定違法的關稅

      汽車要聞

      續航1810km!smart精靈#6 EHD超級電混2026年上市

      態度原創

      手機
      房產
      健康
      教育
      時尚

      手機要聞

      CINNO Research:淡季疊加成本高企 2月手機面板價格全線下行

      房產要聞

      窗前即地標!獨占三亞灣C位 自貿港總裁行宮亮相

      轉頭就暈的耳石癥,能開車上班嗎?

      教育要聞

      道歉不是認輸,是愛孩子的方式

      今年春天一定要擁有的針織,這樣穿減齡又好看!

      無障礙瀏覽 進入關懷版