<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      1100多個模型殊途同歸,指向一個通用子空間,柏拉圖又贏一回?

      0
      分享至



      機器之心報道

      編輯:張倩

      模型架構的重要性可能遠超我們之前的認知。

      最近,約翰斯?霍普金斯大學的一項研究發現:1100 多個不同的神經網絡,即使在完全不同的數據集上訓練、用不同的初始化和超參數,最終學到的權重都會收斂到一個共享的低維子空間。

      這似乎是說明:存在一個「先驗的」數學結構,所有神經網絡都在逼近它。訓練不是在「創造」什么,而是在「發現」一個早已存在的幾何形式。換句話說,神經網絡「想學的東西」似乎高度一致,架構決定了它能學什么,比數據影響更大。



      這一發現有助于解釋很多「神秘」現象,比如為什么過參數化的模型(參數遠多于訓練樣本)還能泛化?為什么不同初始化最終學到相似的表示?為什么 LoRA、權重共享這些技術能 work?如果神經網絡確實在共享子空間內學習,這將為隱式正則化、可遷移性以及稀疏訓練方法的有效性提供支持性解釋,同時也為諸如高效合并、新的優化技術、更快更高效的學習和推理等應用開辟道路。



      • 論文標題:THE UNIVERSAL WEIGHT SUBSPACE HYPOTHESIS
      • 論文鏈接:https://www.arxiv.org/pdf/2512.05117

      這篇論文在 Alphaxiv、X 等平臺上吸引了很多關注,一度攀升到 Alphaxiv 榜一的位置。



      有人說,柏拉圖又贏了一回。(注:柏拉圖的理念論認為:我們看到的具體事物(桌子、馬、圓形)都只是「理念」(Forms/Ideas)的不完美投影。真正的、完美的圓存在于一個抽象的理念世界,現實中的圓只是對它的模仿。其核心主張是:抽象結構先于具體實例。)



      也有人從中讀出了一些令人擔憂的信號:如果所有模型都收斂到同一個子空間,那意味著當前架構存在內在的天花板,再多的數據和算力也只是在同一個「盆地」里打轉。



      論文概覽

      在具體研究中,作者首先聚焦于 LoRA 適配器,因其易于訓練且能大量收集,在 Mistral-7B 模型的約 500 個適配器中觀察到了通用子空間的涌現。隨后,研究擴展到完整權重空間,從約 500 個 Vision Transformer 和 50 個 LLaMA3-8B 模型中提取出相似的低秩通用子空間,這些模型各自使用不同數據集和初始化方式訓練。



      此前已有多條線索暗示這一現象:神經正切核理論表明,在無限寬度極限下,網絡訓練動態由一個與具體任務基本無關的核函數主導;機制可解釋性研究在視覺網絡的特定層中發現了反復出現的電路模式;彩票假說和模式連通性也指向可復用的低維結構;早在 2012 年就有人觀察到,卷積網絡第一層在各種視覺任務中都會學到類 Gabor 濾波器。但這些工作要么聚焦于表示層面,要么未涉及不同模型間參數性質的收斂。

      這項研究的獨特之處在于:首次在權重層面提供了具體證據和明確通用假設,為深度神經網絡參數空間中 「通用性」的存在提供了最為嚴謹的實證證據。

      盡管這種通用性的根本成因仍有待探索,但即便是初步理解也具有深遠意義。共享子空間有望實現:大規模模型壓縮(只需存儲子空間系數而非完整權重)、在已學習子空間內快速適應新任務、對泛化邊界和優化景觀的理論洞察,以及通過減少訓練和推理計算需求帶來的環境效益。此外,這種幾何通用性也為研究泛化、頓悟(grokking)、災難性遺忘和數據效率等基本問題提供了新視角。

      作者也坦承了若干開放問題:不同架構的通用子空間如何相互區別?能否通過顯式設計架構來優化子空間的幾何結構?更根本的是,如果所有網絡都坍縮到同一子空間,它們就會繼承共同的偏見、能力邊界和失效模式 —— 這種多樣性的缺失本身是否構成了一個根本瓶頸?是否應該開發專門用于打破這種收斂的方法?

      方法與結果概覽

      作者證明,與架構相關、逐層分布的通用子空間在各類神經模型中持續涌現。無論模型是從頭訓練、完全微調還是通過低秩方法適配,對通用子空間假說的遵循都表現穩健,未見顯著偏離。這一現象在不同的初始化策略、模態、數據格式和數據集內容之間保持不變。

      值得注意的是,所提取子空間的精度與可用模型的數量和質量相關。基于此,作者推測每種架構內在地存在一個「理想」通用子空間,各個模型實例都在向其收斂。作者假設,更優的算法、更干凈的數據和更有效的優化策略能使模型更接近這一理想狀態。盡管本文未正式驗證「理想通用子空間」假說,但作者認為這一子空間代表了當代反向傳播訓練的神經網絡最穩定的配置,因此這一規則的例外情況可能為進一步的研究提供沃土。

      分析方法

      由于目前尚無方法能夠比較不同架構模型的子空間,作者聚焦于在同一架構上訓練的大量模型,對 LoRA 適配器以及 Transformer 和 CNN 的經典權重進行分析。除非另有說明,所有實驗僅執行 1-2 階的高階奇異值分解(HOSVD),以確保方法在最簡單情況下也能奏效。譜分析依賴高效的譜分解庫,甚至可在 CPU 上運行,作者的所有分析和實驗均在單塊 Nvidia A5000 GPU 上完成。通過對數千個公開可用模型進行分析,作者無需任何訓練成本即可提取通用子空間。

      以下是作者所實現的算法:



      聯合子空間分析結果

      在 CNN 實驗中,作者從隨機初始化開始,在五個互不重疊的數據集(CIFAR-10、CIFAR-100、ImageNet、Oxford-IIIT Pets 和 EuroSAT)上訓練 ResNet-50 進行圖像分類。盡管理論分析表明少量模型可能導致對聯合通用子空間的欠近似,但從頭訓練 CNN 的規模限制了可納入研究的模型數量。

      即便如此,對 ResNet-50 所有層的平均解釋方差(圖 2b)分析揭示了一個跨越這些不相交任務的獨特共享低秩結構:大部分信息僅存在于 16 個(或更少)不同的子空間方向中。此外,將模型投影到這一子空間以獲得低秩 ResNet-50(從而減少參數)后,其性能相對于完全微調仍具競爭力,進一步支持了聯合子空間的存在和實用性(圖 2a)。



      為進行更大規模的真實世界實驗,作者選擇對 LoRA 模型進行子空間分析,因為它們在公共領域大量存在。鑒于 LoRA 模型明確捕獲任務特定方向且與原始權重對齊較弱,它們是驗證假說的良好替代。

      在首個實驗中,作者使用基于 Mistral-7B-Instruct-v0.2 訓練的 500 個自然指令任務的 LoRA 模型,每個 LoRA 單獨至少為 16 秩。分析結果(圖 3)顯示,所有 500 個模型的參數都可被一個有限的低秩子空間良好近似,且這一模式在所有層中一致存在。



      為測試通用子空間的表達能力,作者通過將隨機選擇的已見(IID)和未見(OOD)任務的 LoRA 參數投影到通用子空間來解析重構它們,結果(圖 4)表明通用子空間模型在兩種情況下都表現穩健。作為對照,使用譜分解剩余分量(稱為次級子空間)重做實驗時,性能大幅落后。值得一提的是,通用子空間模型的內存效率提升了 19 倍,因為不再需要保存全部 500 個 LoRA。



      接下來,作者進一步將分析擴展到使用 Stable Diffusion-XL 的文生圖任務。從 HuggingFace 上公開可用的 LoRA 中提取通用子空間后,將單個 LoRA 投影到該子空間,生成的圖像保持了視覺質量和風格(圖 5)。



      基于 CLIP 的評估顯示,通用子空間在某些情況下甚至優于單個 LoRA,這可能歸因于先前研究中觀察到的去噪效應。



      為測試將多個模型壓縮到單一通用子空間的能力,作者將其方法與最先進的模型合并方法進行比較,包括 RegMean、Task Arithmetic、TIES、DARE-TIES、KnOTS-TIES 和 KnOTS-DARE-TIES。這些基線方法通常需要調整縮放系數、剪枝閾值或在驗證集上進行迭代調優。

      相比之下,通用子空間方法僅基于跨模型識別的共享低秩子空間的幾何結構來解析計算合并系數,無需迭代調優或驗證數據。由于子空間本質上是低秩的,合并后的模型參數顯著少于任何單個模型。實驗結果(表 2)表明,該方法在降低參數數量的同時取得了更高的平均準確率,實現了無需啟發式剪枝或驗證開銷的可擴展、穩健的模型合并。



      總而言之,這四組實驗為通用子空間假說提供了強有力的實證支持,并展示了其在內存效率、模型合并、模型可復用性以及跨任務跨模態可擴展部署方面的實際優勢。

      不過,也有人提醒說,這篇論文雖然有價值,但結論需要經過更加嚴格的驗證。首先,任務多樣性不夠真實,研究沒有在真正異質的任務(如 MIDI 生成、英語文本、MNIST 像素生成)之間尋找共享子空間,所以發現的可能只是「任務子宇宙特定的子空間」而非真正的通用子空間;二是沒有跨架構比較的方法,無法聲稱 ViT 和 LLaMA3 擁有相同子空間。



      為什么通用子空間會涌現?

      在論文中,作者對于通用子空間涌現的原因也給出了自己的推論。他們認為,若干理論因素可能促成了這些共享結構的出現。

      首先,神經網絡已知表現出對低頻函數的譜偏好,產生特征值的多項式衰減,從而將學習動態集中到少數主導方向上。其次,現代架構施加了強烈的歸納偏置,約束了解空間:卷積結構天然偏好局部的、類 Gabor 模式,而注意力機制則優先處理反復出現的關系回路。第三,基于梯度的優化方法的普遍性 —— 在無限寬度極限下由與具體任務基本無關的核函數主導 —— 內在地偏好平滑解,將多樣的學習軌跡引導向共享的幾何流形。

      如果這些假說成立,通用子空間很可能捕獲了超越特定任務的基本計算模式,這或許能解釋遷移學習的有效性,以及為何多樣化的問題往往能從相似的架構改進中受益。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      24歲美女被騙到緬北,經歷兩個月“雙開門”折磨,被救已不成人形

      24歲美女被騙到緬北,經歷兩個月“雙開門”折磨,被救已不成人形

      阿妹講故事
      2025-03-12 22:39:50
      意外!曝特謝拉或投奔中甲球隊,轉會原因遭曝光,能否加盟成疑

      意外!曝特謝拉或投奔中甲球隊,轉會原因遭曝光,能否加盟成疑

      體壇鑒春秋
      2025-12-17 12:31:02
      教育部發布20條,進一步加強中小學日常考試管理,普通高中學校要嚴格控制考試次數

      教育部發布20條,進一步加強中小學日常考試管理,普通高中學校要嚴格控制考試次數

      每日經濟新聞
      2025-12-17 15:46:43
      最新談判結果公布!特朗普突然改口,烏軍發起反攻,俄羅斯上當了

      最新談判結果公布!特朗普突然改口,烏軍發起反攻,俄羅斯上當了

      博覽歷史
      2025-12-16 18:16:57
      戴琳怒懟球迷:你老婆替我把錢還了 韓媒嘲諷:中國足球徹底完了

      戴琳怒懟球迷:你老婆替我把錢還了 韓媒嘲諷:中國足球徹底完了

      風過鄉
      2025-12-17 13:16:32
      笑死!原來這是全國老公統一副業,網友:太真實了

      笑死!原來這是全國老公統一副業,網友:太真實了

      另子維愛讀史
      2025-12-15 22:33:23
      2003年,陳賡之子升官之際接到威脅電話:想升官先拿200萬疏通費

      2003年,陳賡之子升官之際接到威脅電話:想升官先拿200萬疏通費

      紀實文錄
      2025-05-08 16:55:52
      騙走 80 后眼淚的神片:《媽媽再愛我一次》,中年再看全是PUA

      騙走 80 后眼淚的神片:《媽媽再愛我一次》,中年再看全是PUA

      白羽居士
      2025-12-09 18:38:18
      五十年首次!日本人傷心了

      五十年首次!日本人傷心了

      亞太觀瀾
      2025-12-17 20:30:08
      場均僅3.6分的他,卻完爆文班亞馬成奪冠功臣,億萬合同指日可待

      場均僅3.6分的他,卻完爆文班亞馬成奪冠功臣,億萬合同指日可待

      禾三千體育
      2025-12-17 20:30:14
      中國混雙冰壺五連勝暫列小組第一,但出線形勢依舊險峻

      中國混雙冰壺五連勝暫列小組第一,但出線形勢依舊險峻

      澎湃新聞
      2025-12-17 17:04:16
      沐曦股份漲超700% 總市值超越摩爾線程

      沐曦股份漲超700% 總市值超越摩爾線程

      財聯社
      2025-12-17 10:26:04
      人與人之間,最好的關系:四句話!

      人與人之間,最好的關系:四句話!

      品讀時刻
      2025-12-04 09:05:37
      遼寧誕生一位千萬富翁!

      遼寧誕生一位千萬富翁!

      沈陽生活圈i
      2025-12-17 13:18:35
      美國人直言:中國人不可怕,可怕的是學生已經全適配中國式的教育

      美國人直言:中國人不可怕,可怕的是學生已經全適配中國式的教育

      泠泠說史
      2025-12-16 15:36:34
      綠營選戰鳴槍,國民黨13人被捕,島內亂作一團,鄭麗文大發雷霆

      綠營選戰鳴槍,國民黨13人被捕,島內亂作一團,鄭麗文大發雷霆

      聞識
      2025-12-17 18:57:11
      5年前花10萬買乳山海景房的人,如今都怎樣了?真相太扎心!

      5年前花10萬買乳山海景房的人,如今都怎樣了?真相太扎心!

      青眼財經
      2025-12-01 22:31:36
      中國直-21 試飛引關注,性能超越美國阿帕奇!

      中國直-21 試飛引關注,性能超越美國阿帕奇!

      楊風
      2025-12-15 21:23:09
      凈虧4000萬!西媒:利物浦愿以1.1億歐元將維爾茨賣給皇馬

      凈虧4000萬!西媒:利物浦愿以1.1億歐元將維爾茨賣給皇馬

      球事百科吖
      2025-12-17 05:43:03
      艾滋病數據沖上熱搜,背后是你看不到的性需求

      艾滋病數據沖上熱搜,背后是你看不到的性需求

      脆皮先生
      2025-12-16 20:16:06
      2025-12-17 21:20:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11943文章數 142512關注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      美方威脅歐盟:點名了 別逼我動手

      頭條要聞

      美方威脅歐盟:點名了 別逼我動手

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      狗仔曝熱播劇姐弟戀真談了???

      財經要聞

      重磅信號!收入分配制度或迎重大突破

      汽車要聞

      一車多動力+雙姿態 長城歐拉5上市 限時9.18萬元起

      態度原創

      房產
      時尚
      旅游
      家居
      教育

      房產要聞

      封關前夕!豪庭銘苑超前交付,敬呈海口生活新范本

      44歲的宋慧喬面相變了!她的變美思路普通人也可以借鑒

      旅游要聞

      “旅超”大賽賦能申城假日游,元旦、春節假期玩法煥新

      家居要聞

      溫馨獨棟 駝色與淺色碰撞

      教育要聞

      【媒體聚焦】新華社 | 廣東“以賽促教”培養“大先生”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 元朗区| 又黄又刺激又黄又舒服| 亚卅精品| 无码人妻一区二区三区三区| 中文字幕在线亚洲精品| 精品三级av无码一区| 精品无码人妻| 阿拉尔市| 日韩AV一卡二卡三卡| 亚洲国产精品无码观看久久| 亚洲欧美成人一区二区三区| 亚洲色偷偷色噜噜狠狠99| 91免费播放| 男人和女人做爽爽视频| 亚洲 欧美 变态 另类 综合| 国产欧美精品一区二区三区-老狼| 啊片在线观看| 特级av毛片免费观看| 两根大肉大捧一进一出好爽视频| 久久综合激情网| xxx日韩| 精品国产自在久久现线拍| 亚洲欧美另类久久久精品 | 久久久久久曰本av免费免费| 欧美mv日韩mv国产网站app | 无码簧片| 久久99精品久久久久久| 国产精品自在在线午夜免费| 国产av成人精品播放| 亚洲成人性爱网| 欧美叉叉叉bbb网站| 亚洲高清中文字幕在线看不卡| 精品久久久久中文字幕无码油| 徐汇区| а√在线中文网新版地址在线| 国产精品无码mv在线观看| 久久久久久久久久8888| 99久久人妻无码中文字幕系列| 亚洲色欲色欲www| 国产系列丝袜熟女精品视频| 国内精品久久人妻无码AV探花影视|