<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      訓練中壓縮模型:CompreSSM讓AI邊學邊"瘦身"

      0
      分享至


      訓練一個大型人工智能模型的成本極為高昂,不僅體現在資金上,還涵蓋時間、能耗和計算資源等多個維度。傳統方法若想獲得一個體積更小、運行更快的模型,要么先訓練一個龐大的模型再進行裁剪,要么從頭訓練小模型但不得不接受性能上的妥協。

      來自麻省理工學院計算機科學與人工智能實驗室(CSAIL)、馬克斯·普朗克智能系統研究所、歐洲學習與智能系統實驗室、蘇黎世聯邦理工學院以及Liquid AI的研究人員,聯合開發出一種全新方法,徹底繞開了上述兩難困境——在訓練過程中直接壓縮模型,而非等到訓練完成之后。

      這項名為CompreSSM的技術,專門針對一類名為狀態空間模型的AI架構。該類架構廣泛應用于語言處理、音頻生成和機器人控制等領域。研究團隊借助控制理論中的數學工具,能夠在訓練早期識別出模型中哪些部分真正發揮作用、哪些是冗余負擔,并在此基礎上將不必要的組件精準剔除。

      "這本質上是一種讓模型在訓練過程中同步變得更小、更快的技術,"該論文第一作者、麻省理工學院電氣工程與計算機科學系博士生、CSAIL成員Makram Chahine說,"模型在學習的同時,也在不斷淘汰那些對其發展沒有價值的部分。"

      該方法的核心發現在于:模型內部各組件的相對重要性,在訓練早期便會出現驚人的穩定性。研究團隊利用一種稱為Hankel奇異值的數學量——它可以衡量每個內部狀態對模型整體行為的貢獻程度——證明了在訓練完成約10%時,就能可靠地對各維度的重要性進行排序。一旦排序確定,重要性較低的組件便可安全丟棄,剩余90%的訓練過程將以更小模型的速度高效推進。

      "這項工作令人興奮之處在于,它將壓縮從事后補救變成了學習過程本身的一部分,"資深作者、麻省理工學院教授兼CSAIL主任Daniela Rus說,"CompreSSM不是先訓練大模型再想辦法縮小,而是讓模型在學習過程中自己發現高效結構。這是構建AI系統的一種根本性的不同思路。"

      實驗結果十分亮眼。在圖像分類基準測試中,壓縮后的模型在保持與全尺寸模型幾乎相同精度的同時,訓練速度提升了約1.5倍。一個狀態維度被壓縮至原始大小約四分之一的模型,在CIFAR-10基準上實現了85.7%的準確率,而從頭訓練的同等小模型僅達到81.8%。在廣泛使用的Mamba狀態空間架構上,該方法實現了約4倍的訓練加速,將128維模型壓縮至約12維,同時保持了具有競爭力的性能表現。

      "你能獲得大模型的性能,因為在預熱階段就捕捉到了大部分復雜動態,之后只保留最有用的狀態,"Chahine解釋道,"模型的最終表現仍然優于從一開始就訓練小模型的方案。"

      CompreSSM區別于現有方案的關鍵在于其堅實的理論基礎。傳統剪枝方法需要先完整訓練一個大模型,再事后裁剪參數,意味著仍需承擔大模型訓練的全部計算成本。知識蒸餾這一流行技術則要求先將大"教師"模型完整訓練一遍,再在此基礎上訓練第二個較小的"學生"模型,實際上讓訓練成本翻倍。CompreSSM通過在訓練中途做出有據可依的壓縮決策,同時避免了上述兩種開銷。

      研究團隊將CompreSSM與上述兩種方案進行了直接對比。與近年提出的用于鼓勵緊湊狀態空間模型的譜技術——Hankel核范數正則化相比,CompreSSM的速度快出逾40倍,且精度更高。該正則化方法因需要在每個梯度步驟都進行高成本的特征值計算,導致訓練速度降低約16倍,且最終模型性能反而更差。在CIFAR-10上與知識蒸餾的對比中,CompreSSM對于高度壓縮的模型優勢明顯:在較小狀態維度下,蒸餾模型的準確率出現顯著下降,而CompreSSM壓縮后的模型仍維持接近完整的性能。此外,由于蒸餾在每個訓練步驟都需要同時對教師和學生模型進行前向傳播,即便是其較小的學生模型,訓練速度也慢于全尺寸基準模型。

      研究人員借助Weyl定理從數學上證明,模型各狀態的重要性在訓練過程中平滑變化,并通過實驗驗證了這些狀態相對排名的穩定性。這兩項發現共同為實踐者提供了保障:在早期被判定為無關緊要的維度,不會在后續訓練中突然變得至關重要。

      該方法還內置了一個實用的安全機制。若某次壓縮步驟導致性能出現意外下降,實踐者可以回滾至此前保存的檢查點。"這給了用戶更直觀的控制權,讓他們能自主決定愿意在性能上付出多少代價,而不是被迫去定義一個不那么直觀的能量閾值,"Chahine說。

      當然,該技術也存在一定的適用邊界。CompreSSM在內部狀態維度與整體性能之間相關性較強的模型上效果最佳,而這一特性因任務和架構的不同而有所差異。該方法在多輸入多輸出(MIMO)模型上尤為有效,因為這類模型中狀態大小與表達能力的關聯最為緊密。對于按通道處理的單輸入單輸出架構,收益則相對有限,原因在于這類模型本身對狀態維度變化就不那么敏感。

      該理論最適用于線性時不變系統,但研究團隊也針對日益流行的輸入相關、時變架構開發了相應擴展。由于狀態空間模型家族還延伸至線性注意力等架構——作為傳統Transformer替代方案的這一領域正日益受到關注——CompreSSM的潛在應用范圍相當廣闊。

      Chahine和團隊將這項工作視為一塊跳板。目前團隊已完成向Mamba等線性時變系統的擴展,未來方向包括將CompreSSM進一步推廣至線性注意力機制中使用的矩陣值動力系統,從而使該技術更接近支撐當今絕大多數大型AI系統的Transformer架構。

      "這必須是第一步,因為這里的理論最為清晰,方法也能保持嚴謹,"Chahine說,"這是向行業中廣泛使用的其他架構延伸的基礎。"

      "Chahine及其同事的工作為現代狀態空間模型的壓縮提供了一個引人入勝、具有堅實理論基礎的新視角,"未參與本研究的ELLIS圖賓根研究所首席研究員、馬克斯·普朗克智能系統研究所獨立團隊負責人Antonio Orvieto評價道,"該方法提供了充分證據,表明這些模型的狀態維度可以在訓練過程中有效降低,控制理論視角能夠成功指導這一過程。這項工作為未來研究開辟了新方向,所提出的算法有望成為預訓練大型基于狀態空間模型時的標準方法。"

      這項研究已被國際學習表征大會2026(ICLR 2026)接收為會議論文,將于本月晚些時候正式發表。研究工作部分得到了馬克斯·普朗克-蘇黎世聯邦理工學院學習系統中心、赫克托基金會、波音公司以及美國海軍研究辦公室的資助。

      Q&A

      Q1:CompreSSM是什么技術?它解決了什么問題?

      A:CompreSSM是一種在AI模型訓練過程中直接壓縮模型的新技術,專門針對狀態空間模型架構。它解決的核心問題是:傳統獲得小型高效模型的方式要么需要先訓練大模型再裁剪,要么從頭訓練小模型但性能較差。CompreSSM通過在訓練早期識別并丟棄不重要的模型組件,讓模型邊學習邊"瘦身",同時兼顧速度與性能。

      Q2:CompreSSM與知識蒸餾、傳統剪枝相比有什么優勢?

      A:傳統剪枝需要完整訓練大模型再裁剪,計算成本高;知識蒸餾要先訓練完整的教師模型,再訓練學生模型,相當于雙倍訓練成本。CompreSSM在訓練中途就做出壓縮決策,避免了這兩種額外開銷。實驗顯示,在CIFAR-10測試中,CompreSSM壓縮模型的準確率明顯優于知識蒸餾,與Hankel核范數正則化相比速度快逾40倍,且精度更高。

      Q3:CompreSSM適用于哪些AI架構?有沒有局限性?

      A:CompreSSM主要針對狀態空間模型(SSM)架構,在多輸入多輸出(MIMO)模型上效果最佳,也已擴展至Mamba等線性時變架構,未來有望延伸至線性注意力機制乃至Transformer架構。局限性在于:該方法在狀態維度與性能相關性強的模型上效果更顯著;對于單輸入單輸出架構,收益相對有限;理論基礎最適用于線性時不變系統。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      進退失據的波斯人:伊朗從“抵抗之弧”盟主淪為坐視不管的旁觀者

      進退失據的波斯人:伊朗從“抵抗之弧”盟主淪為坐視不管的旁觀者

      民間胡扯老哥
      2026-04-11 05:16:09
      最后的瘋狂:許家印被抓捕的失控三秒鐘

      最后的瘋狂:許家印被抓捕的失控三秒鐘

      財經保探長
      2026-04-09 22:30:38
      在醫院你遭遇過最羞恥的事是什么?網友:一個比一個炸裂啊

      在醫院你遭遇過最羞恥的事是什么?網友:一個比一個炸裂啊

      解讀熱點事件
      2026-02-04 00:05:07
      離大譜!CPU全面升值,電腦居然越用越值錢了!

      離大譜!CPU全面升值,電腦居然越用越值錢了!

      電腦吧評測室
      2026-04-13 22:07:55
      廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開眼

      廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開眼

      今日搞笑分享
      2026-04-06 17:55:16
      抵達北京!乒協出手,鄧亞萍正式上任,新崗位曝光,孫穎莎發聲

      抵達北京!乒協出手,鄧亞萍正式上任,新崗位曝光,孫穎莎發聲

      郝小小看體育
      2026-04-14 00:35:13
      陜西一女子買10瓶五糧液,8瓶被官方鑒定為假,商家稱其是“職業打假人”拒絕賠償,當事人:錄音錄像是正常維權手段

      陜西一女子買10瓶五糧液,8瓶被官方鑒定為假,商家稱其是“職業打假人”拒絕賠償,當事人:錄音錄像是正常維權手段

      大象新聞
      2026-04-14 15:45:10
      眼看老撾靠中國鐵路賺翻,若再爆產三千萬噸大米修通中老柬大動脈,越南只能干瞪眼!

      眼看老撾靠中國鐵路賺翻,若再爆產三千萬噸大米修通中老柬大動脈,越南只能干瞪眼!

      歷史回憶室
      2026-04-14 20:59:11
      焦泊喬確定回歸!徐杰正式攤牌,廣東傳3利好,沖擊前3更有把握了

      焦泊喬確定回歸!徐杰正式攤牌,廣東傳3利好,沖擊前3更有把握了

      后仰大風車
      2026-04-15 07:10:11
      汕頭撒港幣人正面照曝光,有阿姨路過撿到一張開心不已

      汕頭撒港幣人正面照曝光,有阿姨路過撿到一張開心不已

      映射生活的身影
      2026-04-14 18:44:07
      俄船帶“被盜糧”進海法,烏克蘭要求以色列當場扣押

      俄船帶“被盜糧”進海法,烏克蘭要求以色列當場扣押

      桂系007
      2026-04-15 09:15:55
      恒大這些年掙的錢,到底都去了哪里。

      恒大這些年掙的錢,到底都去了哪里。

      流蘇晚晴
      2026-04-01 20:55:11
      那一瞬間對老婆徹底失望心寒 網友講出他的遭遇,真替他們不值。

      那一瞬間對老婆徹底失望心寒 網友講出他的遭遇,真替他們不值。

      侃神評故事
      2026-04-01 19:40:03
      70架運輸機出動,以色列迅速回血,巴鐵大軍進駐沙特,伊朗上當?

      70架運輸機出動,以色列迅速回血,巴鐵大軍進駐沙特,伊朗上當?

      小樾說歷史
      2026-04-13 12:48:31
      比賴清德還狂的人出現了,如果她當選臺灣領導人,解放軍必定收臺

      比賴清德還狂的人出現了,如果她當選臺灣領導人,解放軍必定收臺

      芳芳歷史燴
      2026-03-29 21:09:31
      死不悔改?國家出手后,又一名人侮辱全紅嬋,劣行被扒一言難盡

      死不悔改?國家出手后,又一名人侮辱全紅嬋,劣行被扒一言難盡

      小徐講八卦
      2026-04-14 06:06:53
      別再尬演情婦了!一臉疲態、五大三粗,這是迷倒男人該有的皮囊?

      別再尬演情婦了!一臉疲態、五大三粗,這是迷倒男人該有的皮囊?

      觀察鑒娛
      2026-04-15 09:22:15
      新冠后遺癥的長期侵襲,無數人在不知不覺中深陷困境

      新冠后遺癥的長期侵襲,無數人在不知不覺中深陷困境

      律法刑道
      2026-04-01 10:15:47
      中國保溫杯殺瘋了:一季度出口猛增50億!歐美青年喝熱水瘋狂搶購

      中國保溫杯殺瘋了:一季度出口猛增50億!歐美青年喝熱水瘋狂搶購

      影像溫度
      2026-04-15 09:05:35
      女兒因長得像爸爸想整容,本來不理解,結果看到媽媽和哥哥后,全網心疼她

      女兒因長得像爸爸想整容,本來不理解,結果看到媽媽和哥哥后,全網心疼她

      一口娛樂
      2026-04-14 15:12:47
      2026-04-15 09:59:00
      至頂AI實驗室 incentive-icons
      至頂AI實驗室
      一個專注于探索生成式AI前沿技術及其應用的實驗室。
      3213文章數 169關注度
      往期回顧 全部

      科技要聞

      手機無死角上網?亞馬遜砸百億硬剛馬斯克

      頭條要聞

      遼寧車牌號帶8888奔馳疑作為陪葬品下葬 當地再發聲

      頭條要聞

      遼寧車牌號帶8888奔馳疑作為陪葬品下葬 當地再發聲

      體育要聞

      帶出中超最大黑馬!他讓球迷們“排隊道歉”

      娛樂要聞

      網曝鐘麗緹代孕要了個男孩 備孕近10年

      財經要聞

      特朗普稱美國對伊朗的戰爭已經結束

      汽車要聞

      售12.99萬起/續航2000km 風云T9L上市

      態度原創

      家居
      親子
      數碼
      藝術
      公開課

      家居要聞

      現代融合 自然靈動

      親子要聞

      育兒專家也難逃“隔代育兒”弊端?找出問題根源是關鍵

      數碼要聞

      NVIDIA 2025年的保修支出同比飆升至10倍 接近9億美元

      藝術要聞

      鄭麗文火了!她的簽名竟然讓人驚呆了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版