![]()
訓練一個大型人工智能模型的成本極為高昂,不僅體現在資金上,還涵蓋時間、能耗和計算資源等多個維度。傳統方法若想獲得一個體積更小、運行更快的模型,要么先訓練一個龐大的模型再進行裁剪,要么從頭訓練小模型但不得不接受性能上的妥協。
來自麻省理工學院計算機科學與人工智能實驗室(CSAIL)、馬克斯·普朗克智能系統研究所、歐洲學習與智能系統實驗室、蘇黎世聯邦理工學院以及Liquid AI的研究人員,聯合開發出一種全新方法,徹底繞開了上述兩難困境——在訓練過程中直接壓縮模型,而非等到訓練完成之后。
這項名為CompreSSM的技術,專門針對一類名為狀態空間模型的AI架構。該類架構廣泛應用于語言處理、音頻生成和機器人控制等領域。研究團隊借助控制理論中的數學工具,能夠在訓練早期識別出模型中哪些部分真正發揮作用、哪些是冗余負擔,并在此基礎上將不必要的組件精準剔除。
"這本質上是一種讓模型在訓練過程中同步變得更小、更快的技術,"該論文第一作者、麻省理工學院電氣工程與計算機科學系博士生、CSAIL成員Makram Chahine說,"模型在學習的同時,也在不斷淘汰那些對其發展沒有價值的部分。"
該方法的核心發現在于:模型內部各組件的相對重要性,在訓練早期便會出現驚人的穩定性。研究團隊利用一種稱為Hankel奇異值的數學量——它可以衡量每個內部狀態對模型整體行為的貢獻程度——證明了在訓練完成約10%時,就能可靠地對各維度的重要性進行排序。一旦排序確定,重要性較低的組件便可安全丟棄,剩余90%的訓練過程將以更小模型的速度高效推進。
"這項工作令人興奮之處在于,它將壓縮從事后補救變成了學習過程本身的一部分,"資深作者、麻省理工學院教授兼CSAIL主任Daniela Rus說,"CompreSSM不是先訓練大模型再想辦法縮小,而是讓模型在學習過程中自己發現高效結構。這是構建AI系統的一種根本性的不同思路。"
實驗結果十分亮眼。在圖像分類基準測試中,壓縮后的模型在保持與全尺寸模型幾乎相同精度的同時,訓練速度提升了約1.5倍。一個狀態維度被壓縮至原始大小約四分之一的模型,在CIFAR-10基準上實現了85.7%的準確率,而從頭訓練的同等小模型僅達到81.8%。在廣泛使用的Mamba狀態空間架構上,該方法實現了約4倍的訓練加速,將128維模型壓縮至約12維,同時保持了具有競爭力的性能表現。
"你能獲得大模型的性能,因為在預熱階段就捕捉到了大部分復雜動態,之后只保留最有用的狀態,"Chahine解釋道,"模型的最終表現仍然優于從一開始就訓練小模型的方案。"
CompreSSM區別于現有方案的關鍵在于其堅實的理論基礎。傳統剪枝方法需要先完整訓練一個大模型,再事后裁剪參數,意味著仍需承擔大模型訓練的全部計算成本。知識蒸餾這一流行技術則要求先將大"教師"模型完整訓練一遍,再在此基礎上訓練第二個較小的"學生"模型,實際上讓訓練成本翻倍。CompreSSM通過在訓練中途做出有據可依的壓縮決策,同時避免了上述兩種開銷。
研究團隊將CompreSSM與上述兩種方案進行了直接對比。與近年提出的用于鼓勵緊湊狀態空間模型的譜技術——Hankel核范數正則化相比,CompreSSM的速度快出逾40倍,且精度更高。該正則化方法因需要在每個梯度步驟都進行高成本的特征值計算,導致訓練速度降低約16倍,且最終模型性能反而更差。在CIFAR-10上與知識蒸餾的對比中,CompreSSM對于高度壓縮的模型優勢明顯:在較小狀態維度下,蒸餾模型的準確率出現顯著下降,而CompreSSM壓縮后的模型仍維持接近完整的性能。此外,由于蒸餾在每個訓練步驟都需要同時對教師和學生模型進行前向傳播,即便是其較小的學生模型,訓練速度也慢于全尺寸基準模型。
研究人員借助Weyl定理從數學上證明,模型各狀態的重要性在訓練過程中平滑變化,并通過實驗驗證了這些狀態相對排名的穩定性。這兩項發現共同為實踐者提供了保障:在早期被判定為無關緊要的維度,不會在后續訓練中突然變得至關重要。
該方法還內置了一個實用的安全機制。若某次壓縮步驟導致性能出現意外下降,實踐者可以回滾至此前保存的檢查點。"這給了用戶更直觀的控制權,讓他們能自主決定愿意在性能上付出多少代價,而不是被迫去定義一個不那么直觀的能量閾值,"Chahine說。
當然,該技術也存在一定的適用邊界。CompreSSM在內部狀態維度與整體性能之間相關性較強的模型上效果最佳,而這一特性因任務和架構的不同而有所差異。該方法在多輸入多輸出(MIMO)模型上尤為有效,因為這類模型中狀態大小與表達能力的關聯最為緊密。對于按通道處理的單輸入單輸出架構,收益則相對有限,原因在于這類模型本身對狀態維度變化就不那么敏感。
該理論最適用于線性時不變系統,但研究團隊也針對日益流行的輸入相關、時變架構開發了相應擴展。由于狀態空間模型家族還延伸至線性注意力等架構——作為傳統Transformer替代方案的這一領域正日益受到關注——CompreSSM的潛在應用范圍相當廣闊。
Chahine和團隊將這項工作視為一塊跳板。目前團隊已完成向Mamba等線性時變系統的擴展,未來方向包括將CompreSSM進一步推廣至線性注意力機制中使用的矩陣值動力系統,從而使該技術更接近支撐當今絕大多數大型AI系統的Transformer架構。
"這必須是第一步,因為這里的理論最為清晰,方法也能保持嚴謹,"Chahine說,"這是向行業中廣泛使用的其他架構延伸的基礎。"
"Chahine及其同事的工作為現代狀態空間模型的壓縮提供了一個引人入勝、具有堅實理論基礎的新視角,"未參與本研究的ELLIS圖賓根研究所首席研究員、馬克斯·普朗克智能系統研究所獨立團隊負責人Antonio Orvieto評價道,"該方法提供了充分證據,表明這些模型的狀態維度可以在訓練過程中有效降低,控制理論視角能夠成功指導這一過程。這項工作為未來研究開辟了新方向,所提出的算法有望成為預訓練大型基于狀態空間模型時的標準方法。"
這項研究已被國際學習表征大會2026(ICLR 2026)接收為會議論文,將于本月晚些時候正式發表。研究工作部分得到了馬克斯·普朗克-蘇黎世聯邦理工學院學習系統中心、赫克托基金會、波音公司以及美國海軍研究辦公室的資助。
Q&A
Q1:CompreSSM是什么技術?它解決了什么問題?
A:CompreSSM是一種在AI模型訓練過程中直接壓縮模型的新技術,專門針對狀態空間模型架構。它解決的核心問題是:傳統獲得小型高效模型的方式要么需要先訓練大模型再裁剪,要么從頭訓練小模型但性能較差。CompreSSM通過在訓練早期識別并丟棄不重要的模型組件,讓模型邊學習邊"瘦身",同時兼顧速度與性能。
Q2:CompreSSM與知識蒸餾、傳統剪枝相比有什么優勢?
A:傳統剪枝需要完整訓練大模型再裁剪,計算成本高;知識蒸餾要先訓練完整的教師模型,再訓練學生模型,相當于雙倍訓練成本。CompreSSM在訓練中途就做出壓縮決策,避免了這兩種額外開銷。實驗顯示,在CIFAR-10測試中,CompreSSM壓縮模型的準確率明顯優于知識蒸餾,與Hankel核范數正則化相比速度快逾40倍,且精度更高。
Q3:CompreSSM適用于哪些AI架構?有沒有局限性?
A:CompreSSM主要針對狀態空間模型(SSM)架構,在多輸入多輸出(MIMO)模型上效果最佳,也已擴展至Mamba等線性時變架構,未來有望延伸至線性注意力機制乃至Transformer架構。局限性在于:該方法在狀態維度與性能相關性強的模型上效果更顯著;對于單輸入單輸出架構,收益相對有限;理論基礎最適用于線性時不變系統。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.