網易首頁 > 網易號 > 正文申請入駐

東南大學耿新團隊：模型不是不會做，而是被「擠掉了能力」丨CVPR 2026

2026-04-18 13:11:52　來源: AI科技評論

廣東舉報

分享至

ESM：阻斷子空間干擾，實現多任務能力穩定共存。

作者丨鄭佳美

編輯丨岑峰

你可能遇到過這樣一種情況，一個模型原本只做一件事的時候表現很好，但一旦不斷往里面加新任務，它反而開始變差了。不是徹底失效，而是變得不穩定，有些能力開始下降，有些結果開始波動。問題不在于模型不會，而在于它原本會的東西，被后來加入的任務“擠掉了一部分”。

這背后其實有一個很少被說清楚的問題。模型的能力并不是一塊一塊獨立放進去的，而是共享同一套內部表示空間。簡單理解，就是所有任務都在“用同一塊地方存信息”。

當任務變多時，它們不是并排存在，而是在爭這塊空間里最重要的那些位置。誰占得多，誰就更穩定；誰被擠掉，誰的性能就下降。這就是為什么，多任務融合經常不是越多越強，而是越多越亂。

現實中，這種問題其實非常普遍。比如一個持續迭代的系統，不斷往里加新能力，每一次看起來只是“多做了一件事”，但實際上是在重新分配內部的表示空間。如果沒有好的機制，新的能力往往會影響舊的能力，最后系統變成一個需要不斷修補的狀態，而不是自然擴展。

在這樣的背景下，來自東南大學的耿新團隊提出了論文《Model Merging in the Essential Subspace》。他們沒有再去做更復雜的參數融合，而是換了一個更關鍵的問題來思考，也就是模型里的“重要信息到底在哪里”。

近年來，耿新團隊提出的“學習基因”思想（即在多任務之間共享核心的關鍵模型參數）為這一問題提供新的解決方案。研究團隊發現，模型的有效能力其實并不是均勻分布在所有參數里，而是集中在少數幾個關鍵方向上，這些方向才是真正決定任務表現的部分。

一旦這樣理解，問題就變清楚了。多任務融合失敗，不是因為參數沒合好，而是因為這些關鍵方向發生了重疊和沖突。于是，這項研究做的事情就變成兩步，一步是把不同任務的重要方向盡量分開，避免它們互相擠占；另一步是讓更重要的信息被保留下來，而不重要的部分被壓下去。這樣一來，不同任務就有可能在同一個模型里穩定共存。

從這個角度看，這篇工作真正改變的，不只是方法本身，而是看問題的方式。它把模型融合從簡單的參數操作，變成了一個關于信息如何分配、如何共存的問題，也讓多任務系統不再只是不斷疊加能力，而開始有可能真正“長”出更多能力，而不互相干擾。

論文鏈接：https://arxiv.org/pdf/2602.20208

模型融合失敗，根源子空間沖突

從實驗結果來看，研究團隊真正想說明的，不是方法在某一個設置下偶然更高，而是隨著多任務融合難度上升，ESM (Essential Subspace Merging）仍然能夠保持更穩定的性能。

傳統方法在任務不斷增加時，往往會出現明顯的性能滑坡，任務越多，任務之間的互相干擾則越強，最終導致融合效果快速下降。相比之下，ESM的表現更穩定，當其他基線的性能損耗通常達到 8% 到 9% 時，ESM 的損耗幅度明顯更小，整體損耗率相比基線低了約 20%。這說明 ESM 更能抵抗多任務增加后帶來的相互干擾，能夠保住更多原本屬于各個任務的有效知識。

如果把模型規模一起看，研究結果還能說明另一點。在更大的模型上，各種方法本來就已經能做到 90 以上，ESM 相比現有強方法的提升會縮小到大約 0.3 到 0.5。

這并不表示 ESM 作用變弱，反而說明大模型本身就有更強的表示容量和更自然的子空間分離能力，因此 ESM 的價值，本質上就是人為構造一種更清晰的子空間解耦機制，而這種機制在模型容量有限時更重要。

研究還給出了一個很關鍵的上下界參照。未微調模型的性能大約在 50% 到 65% 之間，單任務微調后的專家模型大約在 90% 以上，而 ESM 能達到 81% 到 91%。

這說明 ESM 已經不只是比基線略好一點，而是在明顯逼近多任務融合的理想上界。換句話說，ESM 已經相當接近“多個任務合并后仍盡量保持單任務效”的目標。

為了說明為什么會更好，研究人員又做了拆解實驗。只把分解方式從 SVD 換成 ESD，性能就會從 89.0 提升到 90.9，增幅達到 1.9，這說明問題的關鍵首先在于子空間選擇。

之后再加入 Polarized Scaling，性能又從 90.9 提升到 91.8，再提高 0.9，這表明 ESD 主要解決信息丟失問題，而 Polarized Scaling 主要解決信息競爭問題。也就是說，整個方法之所以有效，是因為它同時處理了“保留什么信息”和“怎樣讓這些信息共存”這兩個核心問題。

進一步看內部機制，研究發現 ESD 在只保留較少成分時，仍然能留下更多有效信息，而傳統的 SVD 需要保留更多維度才能達到相近效果。這說明 ESD 找到的是更集中、更高效的信息表示，真正關鍵的任務知識并不是均勻分布在所有方向上，而是集中在少數功能性更強的方向里。

研究還發現，即使只保留 5% 的成分，ESD 得到的融合模型與原專家模型之間仍然有更高的特征一致性，這說明 ESD 保留下來的不是表面的參數結構，而是更接近任務語義和模型行為本身的東西。

在數據依賴性上，研究團隊也給出了很強的證據。無論使用正常采樣的數據、只包含單一類別的偏置數據，還是完全無關的外部分布數據，結果幾乎都沒有明顯差異。

同時，只用 1 個樣本時效果就已經超過 baseline，只用 4 個樣本時就已經接近最優，增加到 32 個樣本后基本收斂。這說明任務子空間本身是一種低維結構，不需要大量數據去估計，模型內部其實已經編碼了穩定的任務響應模式。

最后，關于 Polarized Scaling，研究表明單獨放大強信號會提升性能，單獨抑制弱噪聲也會提升性能，而兩者結合時效果最好。這說明多任務融合本質上不是簡單做參數平均，而更像一個信號篩選與重加權過程。

在模型內部重建知識邊界

實驗中，研究團隊其實是在系統控制三個核心變量，目的是檢驗哪一種組合最接近“無損融合”。

第一個變量是子空間構造方式，也就是比較 SVD 和 ESD，前者建立在參數空間上，后者建立在輸出空間上，這也是整項研究最核心的對比。

第二個變量是融合方式，也就是比較直接拼接和正交化處理，前者更直接，后者則試圖消除不同任務表示之間的相關性。第三個變量是權重分配，也就是比較不加權融合和基于 norm 的 scaling，核心問題在于，不同任務信息在合并時是否應該被同等對待。

研究團隊在數據設計上也有很強的針對性，所選任務覆蓋圖像、文本和數字等差異很大的類型，例如 Cars、SUN397、SST2 和 MNIST，目的不是追求任務豐富本身，而是盡量放大任務之間的差異與沖突，因為只有在這種高異質性條件下方法仍然有效，才能說明研究人員真正解決的是干擾問題，而不是只在相近任務上取得局部改進。

與此同時，研究人員在構造 proxy 數據時刻意把數據規模壓到很小，每個任務只使用 32 個無標簽樣本，這種設計不是為了節省計算而已，更重要的是驗證子空間究竟來自模型內在結構，還是只是來自數據統計結果，后續實驗結果表明，研究人員提取到的確實更接近模型內部已經形成的任務結構。

為了保證不同任務在融合中擁有相對公平的表達容量，研究團隊又設計了 rank 分配策略，讓每個任務分配到的維度滿足 k = 總維度 / 任務數，這一步本質上是在做資源公平分配，因為如果沒有這種約束，強任務更容易占據更多表示空間，弱任務則可能被淹沒。

進入融合階段之后，研究人員發現簡單拼接會帶來兩個直接問題，一是不同任務子空間可能發生重疊，二是重疊之后會引發信息沖突，因此又加入正交化步驟，其本質作用就是強制不同任務子空間盡量獨立，這個過程在思想上很接近 PCA whitening 或信號去相關。

最后，在權重調整上，研究團隊進一步從實驗中發現，高 norm 往往對應更重要的參數變化，而低 norm 更接近噪聲，因此設計出 scaling ∝ (norm / 平均值)^2 這樣的規則，并且把這種縮放分成三個層面來實施，也就是任務層上防止某些任務被淹沒，維度層上突出更關鍵的特征方向，層級上減少殘差結構帶來的干擾。

有限空間里的多任務共存機制

有限空間里的多任務共存機制

整體來看，這項研究的價值不只是提出了一種更強的模型融合方法，而是把模型融合從參數拼接，推進到了知識結構重組這一層。過去很多方法默認，多個模型能不能融合，關鍵在參數能不能平均好，但這項研究說明，真正需要被保留的其實是模型處理輸入時依賴的關鍵功能方向。

也就是說，研究人員重新定義了模型融合問題，關注點不再只是參數本身，而是模型能力在表示空間里如何存在、如何共存。

這項研究還把多任務干擾解釋得更清楚了。過去大家知道任務一多就容易互相拖累，但往往只能停留在沖突這個現象層面。研究團隊進一步指出，干擾主要來自兩個原因，一是不同任務會擠占相近的表示方向，二是強信息和弱信息在融合時會相互競爭，結果就是重要知識容易被噪聲淹沒。

ESD 的意義在于把不同任務的核心方向盡量分開，PS 的意義在于把更重要的信號放大、把不重要的部分壓下去，所以這項研究真正完成的，是把干擾的來源和解決路徑連成了一個完整解釋。

更深一層看，研究結果還揭示了深度模型內部一個很重要的性質，也就是任務知識雖然存在于高維參數里，但真正決定性能的變化往往集中在少數方向上，而且這種結構對具體數據并不敏感。

這說明大模型內部并不是雜亂無章的，而是存在一種可以被提煉、被壓縮、被重新組合的低維結構。這個發現的意義很大，因為它意味著未來改進模型，不一定總要靠更大數據和更長訓練，也可以通過理解模型內部已有的知識組織方式來提升能力。

這項研究對普通人的影響也很現實。它意味著未來的 AI 系統更有可能在不反復重訓的情況下，把多種能力整合到同一個模型里，而且整合之后更穩定，不容易因為增加一個新功能就損傷原來的能力。

對普通用戶來說，這會讓 AI 工具更像一個能力完整的通用助手，而不是很多彼此割裂的小工具。對企業和平臺來說，這也可能降低部署成本和算力消耗，最后體現在更便宜的服務、更快的響應，以及更多設備本地就能運行的智能功能。

所以，這項研究真正重要的地方，不只是把結果做高了一些，而是證明了模型融合可以從經驗式參數處理，走向對知識結構的理解與重組，這既推動了學術上對模型內部機制的認識，也會影響普通人未來使用 AI 的方式。

ESM 背后的研究者

這篇論文通訊作者為耿新，他是東南大學首席教授、東南大學研究生院常務副院長，以及新一代人工智能技術與交叉應用教育部重點實驗室主任。

他分別于 2001 年和 2004 年在南京大學獲得學士、碩士學位，2008 年在澳大利亞 Deakin 大學獲得博士學位，之后長期在東南大學從事教學與科研工作，并創建了模式學習與挖掘（PALM）實驗室。

在學術成果方面，他長期深耕機器學習、大模型、模式識別、計算機視覺等方向，在重要國際期刊和會議發表論文 230 余篇，獲得國家杰出青年科學基金、國家優秀青年科學基金、國家自然科學二等獎、教育部自然科學一等獎、國家級教學成果一等獎和二等獎、科學探索獎、吳文俊人工智能自然科學一等獎等榮譽，同時擔任多個國際會議程序委員會主席、領域主席及多個期刊編委。

在研究工作上，他圍繞模型中的知識表示與重組展開，早期代表性工作集中在標記分布學習，也就是把傳統單標記或多標記學習問題推進到具有更細粒度表示的標記分布學習，之后又把研究重心逐步擴展到端側大模型和學習基因（ Learngene）等方向，探索從基礎模型中提取可繼承、可復用的核心能力，實現面向不同任務和不同硬件條件的高效部署。

參考鏈接：https://palm.seu.edu.cn/xgeng/

另一位通訊作者為祁磊，東南大學計算機科學與工程學院副研究員、碩士生導師。早期在南京師范大學獲得學士學位，在南京理工大學獲得碩士學位，之后于 2020 年在南京大學獲得博士學位，并在讀博期間赴澳大利亞 University of Wollongong 進行訪問交流。

在學術成果方面，祁磊在 ACM/IEEE 匯刊以及 CCF-A 類會議上發表 60 余篇論文， Google 學術引用 5300 余次，并主持多項國家級和省部級科研項目。同時，他還入選國家資助博士后研究人員計劃、江蘇省卓越博士后、東南大學紫金學者等人才計劃，并獲 CCF 產學合作基金優秀項目案例、江蘇省人工智能學會優秀博士論文等獎項。

在研究方向上，祁磊的工作主要集中在計算機視覺與模式識別領域，近年來主要關注于異常檢測、語義分割，以及領域泛化和視覺語言模型等方向。

參考鏈接：https://palm.seu.edu.cn/qilei/

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.