<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      1100多個模型殊途同歸,指向一個通用子空間,柏拉圖又贏一回?

      0
      分享至



      機器之心報道

      編輯:張倩

      模型架構的重要性可能遠超我們之前的認知。

      最近,約翰斯?霍普金斯大學的一項研究發現:1100 多個不同的神經網絡,即使在完全不同的數據集上訓練、用不同的初始化和超參數,最終學到的權重都會收斂到一個共享的低維子空間。

      這似乎是說明:存在一個「先驗的」數學結構,所有神經網絡都在逼近它。訓練不是在「創造」什么,而是在「發現」一個早已存在的幾何形式。換句話說,神經網絡「想學的東西」似乎高度一致,架構決定了它能學什么,比數據影響更大。



      這一發現有助于解釋很多「神秘」現象,比如為什么過參數化的模型(參數遠多于訓練樣本)還能泛化?為什么不同初始化最終學到相似的表示?為什么 LoRA、權重共享這些技術能 work?如果神經網絡確實在共享子空間內學習,這將為隱式正則化、可遷移性以及稀疏訓練方法的有效性提供支持性解釋,同時也為諸如高效合并、新的優化技術、更快更高效的學習和推理等應用開辟道路。



      • 論文標題:THE UNIVERSAL WEIGHT SUBSPACE HYPOTHESIS
      • 論文鏈接:https://www.arxiv.org/pdf/2512.05117

      這篇論文在 Alphaxiv、X 等平臺上吸引了很多關注,一度攀升到 Alphaxiv 榜一的位置。



      有人說,柏拉圖又贏了一回。(注:柏拉圖的理念論認為:我們看到的具體事物(桌子、馬、圓形)都只是「理念」(Forms/Ideas)的不完美投影。真正的、完美的圓存在于一個抽象的理念世界,現實中的圓只是對它的模仿。其核心主張是:抽象結構先于具體實例。)



      也有人從中讀出了一些令人擔憂的信號:如果所有模型都收斂到同一個子空間,那意味著當前架構存在內在的天花板,再多的數據和算力也只是在同一個「盆地」里打轉。



      論文概覽

      在具體研究中,作者首先聚焦于 LoRA 適配器,因其易于訓練且能大量收集,在 Mistral-7B 模型的約 500 個適配器中觀察到了通用子空間的涌現。隨后,研究擴展到完整權重空間,從約 500 個 Vision Transformer 和 50 個 LLaMA3-8B 模型中提取出相似的低秩通用子空間,這些模型各自使用不同數據集和初始化方式訓練。



      此前已有多條線索暗示這一現象:神經正切核理論表明,在無限寬度極限下,網絡訓練動態由一個與具體任務基本無關的核函數主導;機制可解釋性研究在視覺網絡的特定層中發現了反復出現的電路模式;彩票假說和模式連通性也指向可復用的低維結構;早在 2012 年就有人觀察到,卷積網絡第一層在各種視覺任務中都會學到類 Gabor 濾波器。但這些工作要么聚焦于表示層面,要么未涉及不同模型間參數性質的收斂。

      這項研究的獨特之處在于:首次在權重層面提供了具體證據和明確通用假設,為深度神經網絡參數空間中 「通用性」的存在提供了最為嚴謹的實證證據。

      盡管這種通用性的根本成因仍有待探索,但即便是初步理解也具有深遠意義。共享子空間有望實現:大規模模型壓縮(只需存儲子空間系數而非完整權重)、在已學習子空間內快速適應新任務、對泛化邊界和優化景觀的理論洞察,以及通過減少訓練和推理計算需求帶來的環境效益。此外,這種幾何通用性也為研究泛化、頓悟(grokking)、災難性遺忘和數據效率等基本問題提供了新視角。

      作者也坦承了若干開放問題:不同架構的通用子空間如何相互區別?能否通過顯式設計架構來優化子空間的幾何結構?更根本的是,如果所有網絡都坍縮到同一子空間,它們就會繼承共同的偏見、能力邊界和失效模式 —— 這種多樣性的缺失本身是否構成了一個根本瓶頸?是否應該開發專門用于打破這種收斂的方法?

      方法與結果概覽

      作者證明,與架構相關、逐層分布的通用子空間在各類神經模型中持續涌現。無論模型是從頭訓練、完全微調還是通過低秩方法適配,對通用子空間假說的遵循都表現穩健,未見顯著偏離。這一現象在不同的初始化策略、模態、數據格式和數據集內容之間保持不變。

      值得注意的是,所提取子空間的精度與可用模型的數量和質量相關。基于此,作者推測每種架構內在地存在一個「理想」通用子空間,各個模型實例都在向其收斂。作者假設,更優的算法、更干凈的數據和更有效的優化策略能使模型更接近這一理想狀態。盡管本文未正式驗證「理想通用子空間」假說,但作者認為這一子空間代表了當代反向傳播訓練的神經網絡最穩定的配置,因此這一規則的例外情況可能為進一步的研究提供沃土。

      分析方法

      由于目前尚無方法能夠比較不同架構模型的子空間,作者聚焦于在同一架構上訓練的大量模型,對 LoRA 適配器以及 Transformer 和 CNN 的經典權重進行分析。除非另有說明,所有實驗僅執行 1-2 階的高階奇異值分解(HOSVD),以確保方法在最簡單情況下也能奏效。譜分析依賴高效的譜分解庫,甚至可在 CPU 上運行,作者的所有分析和實驗均在單塊 Nvidia A5000 GPU 上完成。通過對數千個公開可用模型進行分析,作者無需任何訓練成本即可提取通用子空間。

      以下是作者所實現的算法:



      聯合子空間分析結果

      在 CNN 實驗中,作者從隨機初始化開始,在五個互不重疊的數據集(CIFAR-10、CIFAR-100、ImageNet、Oxford-IIIT Pets 和 EuroSAT)上訓練 ResNet-50 進行圖像分類。盡管理論分析表明少量模型可能導致對聯合通用子空間的欠近似,但從頭訓練 CNN 的規模限制了可納入研究的模型數量。

      即便如此,對 ResNet-50 所有層的平均解釋方差(圖 2b)分析揭示了一個跨越這些不相交任務的獨特共享低秩結構:大部分信息僅存在于 16 個(或更少)不同的子空間方向中。此外,將模型投影到這一子空間以獲得低秩 ResNet-50(從而減少參數)后,其性能相對于完全微調仍具競爭力,進一步支持了聯合子空間的存在和實用性(圖 2a)。



      為進行更大規模的真實世界實驗,作者選擇對 LoRA 模型進行子空間分析,因為它們在公共領域大量存在。鑒于 LoRA 模型明確捕獲任務特定方向且與原始權重對齊較弱,它們是驗證假說的良好替代。

      在首個實驗中,作者使用基于 Mistral-7B-Instruct-v0.2 訓練的 500 個自然指令任務的 LoRA 模型,每個 LoRA 單獨至少為 16 秩。分析結果(圖 3)顯示,所有 500 個模型的參數都可被一個有限的低秩子空間良好近似,且這一模式在所有層中一致存在。



      為測試通用子空間的表達能力,作者通過將隨機選擇的已見(IID)和未見(OOD)任務的 LoRA 參數投影到通用子空間來解析重構它們,結果(圖 4)表明通用子空間模型在兩種情況下都表現穩健。作為對照,使用譜分解剩余分量(稱為次級子空間)重做實驗時,性能大幅落后。值得一提的是,通用子空間模型的內存效率提升了 19 倍,因為不再需要保存全部 500 個 LoRA。



      接下來,作者進一步將分析擴展到使用 Stable Diffusion-XL 的文生圖任務。從 HuggingFace 上公開可用的 LoRA 中提取通用子空間后,將單個 LoRA 投影到該子空間,生成的圖像保持了視覺質量和風格(圖 5)。



      基于 CLIP 的評估顯示,通用子空間在某些情況下甚至優于單個 LoRA,這可能歸因于先前研究中觀察到的去噪效應。



      為測試將多個模型壓縮到單一通用子空間的能力,作者將其方法與最先進的模型合并方法進行比較,包括 RegMean、Task Arithmetic、TIES、DARE-TIES、KnOTS-TIES 和 KnOTS-DARE-TIES。這些基線方法通常需要調整縮放系數、剪枝閾值或在驗證集上進行迭代調優。

      相比之下,通用子空間方法僅基于跨模型識別的共享低秩子空間的幾何結構來解析計算合并系數,無需迭代調優或驗證數據。由于子空間本質上是低秩的,合并后的模型參數顯著少于任何單個模型。實驗結果(表 2)表明,該方法在降低參數數量的同時取得了更高的平均準確率,實現了無需啟發式剪枝或驗證開銷的可擴展、穩健的模型合并。



      總而言之,這四組實驗為通用子空間假說提供了強有力的實證支持,并展示了其在內存效率、模型合并、模型可復用性以及跨任務跨模態可擴展部署方面的實際優勢。

      不過,也有人提醒說,這篇論文雖然有價值,但結論需要經過更加嚴格的驗證。首先,任務多樣性不夠真實,研究沒有在真正異質的任務(如 MIDI 生成、英語文本、MNIST 像素生成)之間尋找共享子空間,所以發現的可能只是「任務子宇宙特定的子空間」而非真正的通用子空間;二是沒有跨架構比較的方法,無法聲稱 ViT 和 LLaMA3 擁有相同子空間。



      為什么通用子空間會涌現?

      在論文中,作者對于通用子空間涌現的原因也給出了自己的推論。他們認為,若干理論因素可能促成了這些共享結構的出現。

      首先,神經網絡已知表現出對低頻函數的譜偏好,產生特征值的多項式衰減,從而將學習動態集中到少數主導方向上。其次,現代架構施加了強烈的歸納偏置,約束了解空間:卷積結構天然偏好局部的、類 Gabor 模式,而注意力機制則優先處理反復出現的關系回路。第三,基于梯度的優化方法的普遍性 —— 在無限寬度極限下由與具體任務基本無關的核函數主導 —— 內在地偏好平滑解,將多樣的學習軌跡引導向共享的幾何流形。

      如果這些假說成立,通用子空間很可能捕獲了超越特定任務的基本計算模式,這或許能解釋遷移學習的有效性,以及為何多樣化的問題往往能從相似的架構改進中受益。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      泰國最新民調,阿努廷支持率暴跌;為泰黨候選人出爐,佩通坦現身

      泰國最新民調,阿努廷支持率暴跌;為泰黨候選人出爐,佩通坦現身

      現代小青青慕慕
      2025-12-18 10:49:23
      臥槽!楊瀚森新“外號”來了,利拉德欽點

      臥槽!楊瀚森新“外號”來了,利拉德欽點

      體育新角度
      2025-12-18 15:55:50
      泰軍炸掉詐騙園區、器官移植中心,洪森為何氣急敗壞?

      泰軍炸掉詐騙園區、器官移植中心,洪森為何氣急敗壞?

      胡嚴亂語
      2025-12-16 20:33:51
      絲芭傳媒發布聲明:“安排成員陪酒”是不實信息,已報案

      絲芭傳媒發布聲明:“安排成員陪酒”是不實信息,已報案

      紅星新聞
      2025-12-18 15:55:44
      分段已超150米,中國在建全球最大航母,亞洲第一航母軍港建成?

      分段已超150米,中國在建全球最大航母,亞洲第一航母軍港建成?

      小七七七七
      2025-12-18 15:23:58
      張含韻的奶欲更勾人,36歲依舊童顏,身材卻飽滿成熟韻味滿滿

      張含韻的奶欲更勾人,36歲依舊童顏,身材卻飽滿成熟韻味滿滿

      草莓解說體育
      2025-11-20 13:10:19
      網傳廖京生不離不棄照顧生病的何晴10年,廖京生的回應來了!

      網傳廖京生不離不棄照顧生病的何晴10年,廖京生的回應來了!

      叨嘮
      2025-12-16 06:05:06
      水均益到泉州女婿家做客,和前妻同框還抱外孫女,對女婿稱呼疏離

      水均益到泉州女婿家做客,和前妻同框還抱外孫女,對女婿稱呼疏離

      李佳康
      2025-12-18 01:35:59
      張萌被富豪丈夫摟著當街親吻,別看其貌不揚,其真實身份可不簡單

      張萌被富豪丈夫摟著當街親吻,別看其貌不揚,其真實身份可不簡單

      一娛三分地
      2025-12-18 18:30:37
      江蘇成立專班調查“博物院藏品疑被拍賣”事件,南京博物院工作人員再回應

      江蘇成立專班調查“博物院藏品疑被拍賣”事件,南京博物院工作人員再回應

      極目新聞
      2025-12-18 15:48:53
      跌幅太狠!廣州一樓盤房價從566萬跌到260萬,直接跌沒了300多萬

      跌幅太狠!廣州一樓盤房價從566萬跌到260萬,直接跌沒了300多萬

      火山詩話
      2025-12-18 13:55:41
      當聽泉鑒寶直播的“博物館一件,我一件”玩笑話成為現實

      當聽泉鑒寶直播的“博物館一件,我一件”玩笑話成為現實

      總在茶余后
      2025-12-18 06:00:09
      湖人計劃追求字母哥!3首輪+里夫斯成籌碼 與東契奇堪稱夢幻搭檔

      湖人計劃追求字母哥!3首輪+里夫斯成籌碼 與東契奇堪稱夢幻搭檔

      羅說NBA
      2025-12-18 08:31:11
      央八首播!51集諜戰劇連續4天收視奪冠,央視果然慧眼識珠。

      央八首播!51集諜戰劇連續4天收視奪冠,央視果然慧眼識珠。

      樂楓電影
      2025-12-18 15:19:24
      許亞軍也沒想到,何晴留給他的24歲兒子,如今卻成了他的“噩夢”

      許亞軍也沒想到,何晴留給他的24歲兒子,如今卻成了他的“噩夢”

      洲洲影視娛評
      2025-12-17 20:19:07
      海南突然搶了臺灣飯碗?島內企業慌了!年輕人扎堆去大陸?

      海南突然搶了臺灣飯碗?島內企業慌了!年輕人扎堆去大陸?

      李博世財經
      2025-12-18 14:25:42
      重慶中央公園的“化石”不能挖了!現場已拉起警戒線

      重慶中央公園的“化石”不能挖了!現場已拉起警戒線

      半島晨報
      2025-12-17 20:00:03
      8換1?再見字母哥!湖人掏空所有,豪賭3巨頭,為詹姆斯力拼第5冠

      8換1?再見字母哥!湖人掏空所有,豪賭3巨頭,為詹姆斯力拼第5冠

      毒舌NBA
      2025-12-18 08:49:06
      向佐秀恩愛翻車,修圖誤傷老婆臉,網友:這比精修照有趣多了

      向佐秀恩愛翻車,修圖誤傷老婆臉,網友:這比精修照有趣多了

      鋒哥與八卦哥
      2025-12-18 14:54:44
      29分+35分+42分!聯盟第1!NBA神級紀錄誕生,最佳新秀失去懸念了

      29分+35分+42分!聯盟第1!NBA神級紀錄誕生,最佳新秀失去懸念了

      世界體育圈
      2025-12-18 10:28:57
      2025-12-18 19:40:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11950文章數 142512關注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創業大賽

      頭條要聞

      智力殘疾女孩遭4人侵犯懷孕父親討說法遇害 后續來了

      頭條要聞

      智力殘疾女孩遭4人侵犯懷孕父親討說法遇害 后續來了

      體育要聞

      巴黎首奪世界級冠軍 加冕6冠王比肩巴薩拜仁

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經濟犯罪

      財經要聞

      尹艷林:呼吁加快2.5億新市民落戶進程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩"的證明

      態度原創

      親子
      游戲
      旅游
      本地
      公開課

      親子要聞

      長沙市托育綜合服務中心正式揭牌啟用

      新江湖啟動!《逍遙江湖輕松版》今日首測,重啟一代人的武俠浪漫

      旅游要聞

      今年前10月北京接待游客超3億人次,旅游花費超6000億元

      本地新聞

      云游安徽|決戰烽火照古今,千秋一脈看宿州

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲性爱视频网站| 亚洲v在线| 91人妻精| 欧美成人免费全部| 欧美v亚洲v日韩v最新在线 | 2018天天拍拍天天爽视频| 九九精品99久久久香蕉| 超碰免费公开| 欧美性猛交xxxx免费看| 香蕉97人妻免费碰碰碰| 伊人在线亚洲| 丰满妇女毛茸茸刮毛| 无码内射中文字幕岛国片| 国产精品人妻无码久久久豆腐| 激情伊人五月天久久综合| 国产日韩AV免费无码一区二区三区| 久久99精品国产麻豆婷婷洗澡| 成人av无码一区二区三区| 久久九九久精品国产免费直播| 日韩黄色av一区二区三区| 线在女熟产国| 无码人妻精品一区二区三区蜜桃91| 蜜桃视频无码区在线观看| 國产AV天堂| 无码AV在线播放| 日韩偷拍电影| 最近免费中文字幕大全免费版视频 | 中文字幕亚洲综合久久菠萝蜜| 亚洲国产成人av在线观看| 小明福利社| 无码中文字幕| 国产精品va在线观看无码不卡| 色噜噜一区二区三区| 中国极品少妇XXXXX| 欧美?日韩?人妻| 国产精品99久久久久久宅男| 国产精品综合色区av| 探花无码| 国产漂亮白嫩美女在线观看| 国产波霸爆乳一区二区| 少妇视频网站|