<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      訓練AI只需要跑完前10%,剩下的90%都能在小模型上跑

      0
      分享至


      (來源:麻省理工科技評論)

      訓練一個大型 AI 模型的代價很高,不只是錢,還包括時間、能源和算力。

      要得到一個更小、更快的模型,傳統做法要么是先訓練一個龐大的模型再削減它,要么是直接從頭訓練一個小模型,但接受性能上的妥協。

      MIT 計算機科學與人工智能實驗室(CSAIL)、馬克斯·普朗克智能系統研究所、歐洲學習與智能系統實驗室(ELLIS)、蘇黎世聯邦理工學院(ETH)和 Liquid AI 的研究人員共同提出了一種新方法,直接繞過了這個二選一的難題:在訓練過程中就對模型進行壓縮,而不是在訓練之后。

      這項技術叫 CompreSSM,針對的是一類叫做“狀態空間模型”(state-space models)的 AI 架構。這類架構支撐著從語言處理、音頻生成到機器人控制的廣泛應用。研究人員借用控制論里的數學工具,在訓練早期就能識別出模型中哪些部分是在真正發揮作用、哪些是累贅,然后把那些多余的部分精準地切除掉。

      “本質上這是一種讓模型在訓練過程中變小、變快的技術,”論文第一作者、CSAIL 成員、電氣工程與計算機科學系的博士生馬克拉姆·查希內(Makram Chahine)說,“學習過程中,模型也在同時扔掉那些對它的發展沒有幫助的部分。”

      這項研究的關鍵洞察是:一個狀態空間模型里哪些組件更重要、哪些更次要,這個格局在訓練過程中很早就穩定下來了。研究團隊使用一種叫“漢克爾奇異值”(Hankel singular values)的數學量來衡量每個內部狀態對模型整體行為的貢獻程度,結果表明只需完成大約 10% 的訓練,就能可靠地排出哪些維度重要、哪些不重要。一旦排序確定,那些不重要的組件就可以被安全地丟棄,剩下 90% 的訓練則以一個小得多的模型的速度繼續進行。

      “這項工作有意思的地方在于,它把壓縮這件事從‘事后再說’變成了學習過程本身的一部分,”論文通訊作者、MIT 教授、CSAIL 主任丹妮拉·魯斯(Daniela Rus)說,“我們不再是先訓練一個大模型再想辦法把它縮小,而是讓 CompreSSM 在模型學習的過程中自己發現高效的結構。這是一種構建 AI 系統的全新思路。”

      結果令人印象深刻。在圖像分類基準測試中,壓縮后的模型保持了與完整版幾乎相同的準確率,訓練速度最高提升 1.5 倍。一個被壓縮到原始狀態維度四分之一左右的模型,在 CIFAR-10 基準上達到 85.7% 的準確率,而一個從一開始就以這么小的規模訓練的模型只能達到 81.8%。在目前應用最廣的狀態空間架構之一 Mamba上,這種方法實現了大約 4 倍的訓練加速,把一個 128 維的模型壓縮到約 12 維,性能仍然具有競爭力。

      “你能拿到大模型的性能,因為在熱身階段你就捕獲了大部分復雜的動力學特征,之后只保留最有用的那些狀態,”查希內說,“模型的表現仍然優于從一開始就訓練小模型。”

      CompreSSM 與現有方法的不同之處在于它有堅實的理論支撐。常規的剪枝方法是先把完整模型訓練完,再把參數剔掉,這意味著你仍然要承擔訓練大模型的全部算力成本。另一種流行的技術是知識蒸餾,需要先訓練好一個大的“教師”模型,再在它的基礎上訓練一個更小的“學生”模型,相當于訓練成本翻倍。CompreSSM 在訓練過程中就做出明智的壓縮決策,從而避免了這兩種額外成本。

      研究團隊把 CompreSSM 與這兩種方法分別做了對比。對比一種最近提出的、用于引導緊湊狀態空間模型的譜方法“漢克爾核范數正則化”,CompreSSM 速度超過它 40 倍以上,同時準確率更高。那種正則化方法會把訓練速度拖慢約 16 倍,因為它在每一次梯度更新時都需要做昂貴的特征值計算,即便如此,最終得到的模型性能還是不如 CompreSSM。

      在 CIFAR-10 上與知識蒸餾對比時,CompreSSM 在高壓縮率下的優勢非常明顯:當狀態維度很小時,蒸餾出的模型準確率大幅下降,而 CompreSSM 壓縮后的模型幾乎保持了完整版的性能。而且由于蒸餾在每一步訓練中都需要讓教師模型和學生模型各做一次前向傳播,即便它的學生模型更小,訓練速度反而比完整的基線模型還慢。

      研究人員用 Weyl 定理證明了一件事:在訓練過程中,單個模型狀態的重要性是平滑變化的,這些狀態的相對排序是穩定的。這兩點結合在一起,讓使用者可以放心:那些在早期被判定為無關緊要的維度,不會在后面突然變得關鍵。

      這項方法還帶有一個務實的安全機制。如果某次壓縮意外導致性能下降,使用者可以退回到此前保存的檢查點。“這讓人們對愿意付出多少性能代價擁有主動權,而不是去定義一個不那么直觀的能量閾值,”查希內解釋說。

      這項技術也有一些實際邊界。CompreSSM 在那些“內部狀態維度與整體性能強相關”的模型上效果最好,而這種相關性在不同任務和架構之間差異較大。該方法對多輸入多輸出(MIMO)模型特別有效,因為這類模型中狀態規模與表達能力之間的關系最強。對于每通道、單輸入單輸出的架構,收益就比較有限,因為這類模型本身對狀態維度變化就不太敏感。

      這套理論最適用于線性時不變系統,不過團隊也已經開發出適用于輸入依賴、時變架構的擴展版本——后者正在變得越來越流行。由于狀態空間模型這一大家族還延伸到了“線性注意力”等新興架構(一種作為傳統 Transformer 替代方案、關注度日益上升的方向),CompreSSM 的潛在應用范圍相當廣泛。

      查希內和合作者把這項工作看作一塊墊腳石。團隊已經展示了向 Mamba 等線性時變系統的擴展,未來的方向是把 CompreSSM 進一步推廣到線性注意力機制中使用的矩陣值動力系統,這會讓這項技術更接近支撐當今絕大多數大型 AI 系統的 Transformer 架構。

      “這必須是第一步,因為在這里理論是干凈的,方法能保持原則性,”查希內說,“這是一塊墊腳石,之后再向業界今天實際使用的其他架構擴展。”

      “查希內和同事的工作,為現代狀態空間模型(SSM)的壓縮問題提供了一個有趣且理論扎實的視角,”ELLIS 圖賓根研究所首席研究員、馬普智能系統研究所獨立課題組組長安東尼奧·奧爾維耶托(Antonio Orvieto)評價道。他未參與這項研究。“這項方法提供了證據,證明這類模型的狀態維度可以在訓練過程中被有效降低,而且控制論視角可以成功地指導這一過程。這項工作為未來研究開辟了新方向,所提出的算法有潛力成為預訓練大型 SSM 模型的標準做法。”

      這項研究已被 ICLR 2026 接收,將于本月晚些時候在會議上發表。研究部分由馬克斯·普朗克-ETH 學習系統中心和 Hector 基金會資助。

      https://news.mit.edu/2026/new-technique-makes-ai-models-leaner-faster-while-still-learning-0409

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      高芙:我們毫無隱私!他們放大鏡頭讀我的短信!我不想贏這站比賽

      高芙:我們毫無隱私!他們放大鏡頭讀我的短信!我不想贏這站比賽

      網球之家
      2026-04-16 20:39:44
      中國50后還有多少人?多少人能活到80歲?權威數據告訴你

      中國50后還有多少人?多少人能活到80歲?權威數據告訴你

      深度報
      2026-02-27 21:36:50
      真好 又做了一年氣質女人

      真好 又做了一年氣質女人

      老吳教育課堂
      2026-04-17 10:39:52
      郭富城開車載著方媛被偶遇,方媛胖了不少,從側面看像50多歲的!

      郭富城開車載著方媛被偶遇,方媛胖了不少,從側面看像50多歲的!

      樂悠悠娛樂
      2026-04-17 09:54:47
      剛賺到的錢,又要吐出去了?中國車企在俄羅斯的“冰與火”

      剛賺到的錢,又要吐出去了?中國車企在俄羅斯的“冰與火”

      民間胡扯老哥
      2026-04-11 05:25:58
      柯文哲:中國崛起威脅全世界,要努力將中國變成文明社會

      柯文哲:中國崛起威脅全世界,要努力將中國變成文明社會

      阿天愛旅行
      2026-04-17 08:57:01
      結婚登記創36年新低,越來越多男人主動不結婚,到底在怕啥?

      結婚登記創36年新低,越來越多男人主動不結婚,到底在怕啥?

      老特有話說
      2026-04-15 15:05:41
      女人對你,有了以下征兆,說明她想結束關系了

      女人對你,有了以下征兆,說明她想結束關系了

      蓮子說情感
      2026-04-17 11:14:51
      一國人口576萬,有400萬人是中國名將后裔,與我國十分友好

      一國人口576萬,有400萬人是中國名將后裔,與我國十分友好

      阿纂看事
      2026-04-04 17:33:59
      中國不按常理出牌,攤牌讓兩大船東退出巴拿馬港口,巴后悔也晚了

      中國不按常理出牌,攤牌讓兩大船東退出巴拿馬港口,巴后悔也晚了

      淚之魂y
      2026-04-17 05:48:48
      “父親的心已經死了!”10后女孩職高報到,父親用沉默詮釋了心死

      “父親的心已經死了!”10后女孩職高報到,父親用沉默詮釋了心死

      妍妍教育日記
      2026-04-14 10:30:08
      瞞不住了!24米貼地死戰,伊朗戰機炸翻美司令部,拉3架F-15陪葬

      瞞不住了!24米貼地死戰,伊朗戰機炸翻美司令部,拉3架F-15陪葬

      鐵錘簡科
      2026-04-15 15:12:05
      印媒:美國印尼秘密協議曝光 威脅中國使用馬六甲海峽航道計劃破

      印媒:美國印尼秘密協議曝光 威脅中國使用馬六甲海峽航道計劃破

      杰絲聊古今
      2026-04-17 11:07:27
      與中金阿里同臺:“陜西老錢”投下百億“獨角獸”

      與中金阿里同臺:“陜西老錢”投下百億“獨角獸”

      金融棒棒糖
      2026-04-16 17:14:01
      周先旺,非法收受他人財物,數額特別巨大

      周先旺,非法收受他人財物,數額特別巨大

      新京報政事兒
      2026-04-16 10:16:08
      評分比對面全隊還低,C羅虐菜局再現散步級表現

      評分比對面全隊還低,C羅虐菜局再現散步級表現

      耀陽體育
      2026-04-17 07:12:13
      美軍稱已擴大對伊朗航運物資封鎖范圍,將武器、彈藥、原油、成品油、鋼鐵、鋁等納入其中

      美軍稱已擴大對伊朗航運物資封鎖范圍,將武器、彈藥、原油、成品油、鋼鐵、鋁等納入其中

      大象新聞
      2026-04-16 20:49:04
      睡遍好萊塢的種馬影帝:性欲成癮每天與情人交歡,私生子多達25人

      睡遍好萊塢的種馬影帝:性欲成癮每天與情人交歡,私生子多達25人

      錢小刀娛樂
      2026-04-15 21:30:57
      為啥有錢人屋檐難見燕子?老輩人說:燕子來家,是在提醒你3件事

      為啥有錢人屋檐難見燕子?老輩人說:燕子來家,是在提醒你3件事

      老特有話說
      2026-04-13 14:45:52
      鋁業“黑洞”降臨!摩根大通警告:25年來最大供應缺口已成定局,目標價直指4000美元

      鋁業“黑洞”降臨!摩根大通警告:25年來最大供應缺口已成定局,目標價直指4000美元

      華爾街見聞官方
      2026-04-16 20:51:06
      2026-04-17 11:52:49
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16586文章數 514886關注度
      往期回顧 全部

      科技要聞

      Anthropic推出Opus 4.7,坦言依不及Mythos

      頭條要聞

      牛彈琴:中東好消息來了 特朗普可能要親自去巴基斯坦

      頭條要聞

      牛彈琴:中東好消息來了 特朗普可能要親自去巴基斯坦

      體育要聞

      皇馬拜仁踢出名局,但最搶鏡的還是他

      娛樂要聞

      劉德華摯友潘宏彬離世 曾一起租房住

      財經要聞

      海爾與醫美女王互撕 換血抗衰誰的生意?

      汽車要聞

      埃安N60預售11.58萬起 標配激光雷達/零重力座椅

      態度原創

      時尚
      旅游
      游戲
      數碼
      藝術

      爆火的前額葉梗,讓多少年輕人主動確診「腦殘」?

      旅游要聞

      好客山東 燃情淄博|4月21日至28日,淄博所有景區面向全國游客免門票

      臨時工喜加一?末日廢土RPG免費領!PC主機都能玩

      數碼要聞

      SEAVIV希未預熱AideaMini R3 Max迷你主機,搭載AI 9 HX 470

      藝術要聞

      26幅 中國當代名家風景畫

      無障礙瀏覽 進入關懷版