<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      OpenAI突然開源新模型!99.9%的權重是0,新稀疏性方法代替MoE

      0
      分享至

      聞樂 發自 凹非寺
      量子位 | 公眾號 QbitAI

      破解AI胡說八道的關鍵,居然是給大模型砍斷99.9%的連接線?

      OpenAI悄悄開源新模型,僅有0.4B參數,且99.9%的權重為零。



      也就是Circuit Sparsity技術的開源實現。



      這是一種通過人為約束模型內部連接的稀疏性,讓模型計算過程可拆解、可理解的大語言模型變體,本質上是為了解決傳統稠密Transformer的黑箱問題,讓內部的計算電路能被人類清晰解讀,知道AI是如何做決策的,避免輕易相信AI的胡話(doge)。



      更有人直言這種「極致稀疏+功能解耦」的思路可能會讓當下熱門的MoE(混合專家模型)走上末路。



      那么,當Transformer的權重被訓練到近乎全0,會發生什么呢?

      放棄粗糙近似,追求原生稀疏

      先說說為啥這個模型的思考過程能像電路圖一樣好懂。

      咱們平時用的傳統大模型,內部神經元連接得密密麻麻,權重矩陣幾乎全為非零值,信息傳遞呈現出高度疊加狀態,就像一團扯不開的亂線,沒人能說清它是怎么得出某個結論的。

      而Circuit Sparsity模型反其道而行之,基于GPT-2風格的Transformer架構訓練時,通過嚴格約束讓權重的L0范數極小,直接把99.9%的無效連接砍斷,只留下千分之一的有效通路。



      這些留存的非零權重連接就像電路圖里的導線,信息只能沿著固定路徑傳遞;同時,模型還會通過均值屏蔽剪枝方法,為每個任務拆出專屬的最小電路

      比如處理Python引號閉合任務時,僅需2個MLP神經元和1個注意力頭就能構成核心電路,包含專門的引號檢測器、類型分類器等功能模塊,就像電路圖里的電阻、電容,各自管各自的事。



      實驗數據顯示,在預訓練損失相同的前提下,稀疏模型的任務專屬電路規模比稠密模型小16倍,且具備嚴格的必要性與充分性——保留這些模塊就能完成任務,刪掉任一節點則直接失效。

      這樣,每一步的邏輯都能精準追蹤。

      那這時候就不得不提當下主流的MoE模型了。

      MoE的核心思路是通過門控網絡將模型拆分為多個專家子網絡,每個專家負責處理一部分任務,靠路由器分配任務來提升效率,本質上是用拆分專家這種粗糙的方式近似稀疏性,目的只是為了適配硬件的稠密矩陣計算需求。

      但這種架構存在致命缺陷:

      • 一是會割裂模型的特征流形,導致專家同質化嚴重、知識冗余等問題,不同專家間的信息協同依賴復雜的負載均衡損失函數調控,穩定性堪憂;
      • 二是專家功能邊界模糊,無法像Circuit Sparsity模型那樣實現微觀機制的精準拆解。

      反觀Circuit Sparsity,追求的是模型原生的稀疏性,通過把特征投射到超大維度,再嚴格限制有效激活的節點數量,從設計上就讓每個特征變得單義、正交,從根源上解決了傳統模型一個概念分散在多個節點的疊加問題,不用靠路由器這種hack手段也能避免信息干擾。



      不過Circuit Sparsity目前也有明顯的短板,最突出的就是算力成本極高。

      訓練和推理的計算量是傳統稠密模型的100-1000倍,暫時還達不到頂尖大模型的能力;

      而MoE模型在算力效率和性能平衡上已經很成熟,短期內依然會是工業界的主流選擇。

      并且,這項工作也只是AI可解釋性探索的早期一步,未來團隊計劃將技術擴展到更大的模型,解鎖更復雜的推理電路。

      目前,團隊發現有兩種克服稀疏模型訓練效率低下的方法:

      • 一個是直接從現有的密集模型中提取稀疏電路,這樣直接復用基礎框架,不額外訓練稀疏模型,能大幅降低成本;
      • 另一種途徑則是不放棄從頭訓練可解釋稀疏模型的這種思路,但針對訓練慢、成本高的短板,從技術層面優化訓練機制,造出原生可解釋、且能高效落地的模型。

      那么就期待研究人員后續用更成熟的工具或技術,逐步揭開大模型的黑箱面紗了。


      [1]https://openai.com/zh-Hans-CN/index/understanding-neural-networks-through-sparse-circuits/
      [2]https://x.com/byebyescaling/status/1999672833778287033?s=20

      — 完 —

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      茅臺辟謠“低于1650出貨取消經銷商資格”:假的!未來市場政策可能會在28日發布

      茅臺辟謠“低于1650出貨取消經銷商資格”:假的!未來市場政策可能會在28日發布

      每日經濟新聞
      2025-12-16 18:55:08
      在岸、離岸人民幣對美元刷新逾一年來新高

      在岸、離岸人民幣對美元刷新逾一年來新高

      財聯社
      2025-12-16 13:25:19
      火箭惜敗登全美熱搜:裁判主導比賽 阿門犯規改走勢 好斷被吹犯規

      火箭惜敗登全美熱搜:裁判主導比賽 阿門犯規改走勢 好斷被吹犯規

      顏小白的籃球夢
      2025-12-16 14:06:36
      上海高中生買99朵康乃馨為母親慶生,收到菊花還寫著“緬懷逝者”,店家回應

      上海高中生買99朵康乃馨為母親慶生,收到菊花還寫著“緬懷逝者”,店家回應

      上觀新聞
      2025-12-16 18:16:04
      上海市消保委:檢測15款熱銷南極磷蝦油,一企業涉嫌造假將被約談

      上海市消保委:檢測15款熱銷南極磷蝦油,一企業涉嫌造假將被約談

      澎湃新聞
      2025-12-11 13:44:26
      TVB花旦內地唱《海闊天空》!表情猙獰引熱議!網友:太嚇人了

      TVB花旦內地唱《海闊天空》!表情猙獰引熱議!網友:太嚇人了

      我愛追港劇
      2025-12-17 00:03:48
      中國貿易順差破萬億美元,賺全世界的錢,為何生活卻越來越困難?

      中國貿易順差破萬億美元,賺全世界的錢,為何生活卻越來越困難?

      微評社
      2025-12-16 23:37:53
      一大學生在校園內溺水身亡,疑參加游戲時不慎墜湖,學校回應

      一大學生在校園內溺水身亡,疑參加游戲時不慎墜湖,學校回應

      極目新聞
      2025-12-16 16:42:05
      “牡丹花下死,做鬼也風流”!如今,誰也救不了44歲的宋小寶

      “牡丹花下死,做鬼也風流”!如今,誰也救不了44歲的宋小寶

      墨印齋
      2025-07-08 05:24:55
      女性絕經后,還能進行夫妻生活嗎?下面干巴巴的,究竟該怎么辦?

      女性絕經后,還能進行夫妻生活嗎?下面干巴巴的,究竟該怎么辦?

      醫者榮耀
      2025-12-11 12:05:05
      巴爾德佩尼亞斯談皇馬首秀:夢想成真,將把首秀球衣裝裱紀念

      巴爾德佩尼亞斯談皇馬首秀:夢想成真,將把首秀球衣裝裱紀念

      懂球帝
      2025-12-17 03:18:16
      澳洲槍擊案最新視頻曝光!一老人在槍手下車時率先奪槍后被拍到倒在現場,目擊者發聲

      澳洲槍擊案最新視頻曝光!一老人在槍手下車時率先奪槍后被拍到倒在現場,目擊者發聲

      瀟湘晨報
      2025-12-16 14:24:28
      淚崩!蔡康永談大S:我以為大S會活得比我們久,結果她提前下車了

      淚崩!蔡康永談大S:我以為大S會活得比我們久,結果她提前下車了

      未小沫
      2025-12-16 23:20:42
      1951年,戴笠獨子被處決,蔣介石兩年后下令:他的子孫全接回臺灣

      1951年,戴笠獨子被處決,蔣介石兩年后下令:他的子孫全接回臺灣

      古書記史
      2025-12-11 17:37:45
      還真被中國預料對了:美軍絕密文件被披露,日本右翼馬上老實多了

      還真被中國預料對了:美軍絕密文件被披露,日本右翼馬上老實多了

      星夜漣漪
      2025-12-17 05:02:35
      利好來了!北京,突傳重磅!

      利好來了!北京,突傳重磅!

      數據寶
      2025-12-16 21:01:30
      剛復出就開演唱會,票價賣到1280,到底誰給的自信?

      剛復出就開演唱會,票價賣到1280,到底誰給的自信?

      易同學愛談娛樂
      2025-07-02 08:32:15
      曝曼聯1月清洗5000萬水貨!前首席球探實錘:阿莫林不要

      曝曼聯1月清洗5000萬水貨!前首席球探實錘:阿莫林不要

      奶蓋熊本熊
      2025-12-17 00:18:04
      我今年48歲搭伙58歲大爺,才知老頭比小伙還能裝!

      我今年48歲搭伙58歲大爺,才知老頭比小伙還能裝!

      行走的知識庫
      2025-12-16 13:26:44
      隨著波爾圖3-1,葡超最新積分榜出爐:穆帥率隊落后榜首近2位數

      隨著波爾圖3-1,葡超最新積分榜出爐:穆帥率隊落后榜首近2位數

      側身凌空斬
      2025-12-16 07:21:58
      2025-12-17 06:36:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11863文章數 176339關注度
      往期回顧 全部

      科技要聞

      360:玉紅惡意詆毀周鴻祎 將追究其法律責任

      頭條要聞

      美國向烏下最后通牒:現在不接受 以后沒那么慷慨了

      頭條要聞

      美國向烏下最后通牒:現在不接受 以后沒那么慷慨了

      體育要聞

      楊瀚森18+10首次兩雙 關鍵攻防統治G聯賽

      娛樂要聞

      《雙軌》遭網友舉報,稱劇情三觀不正

      財經要聞

      浙金中心暴雷始末:祥源控股設計的騙局?

      汽車要聞

      打造全域安全2.0,吉利的新“長征”

      態度原創

      教育
      親子
      旅游
      手機
      公開課

      教育要聞

      【預告】12月19日 | 2025年秋季第10場課堂教學數字化評價項目省級教研活動

      親子要聞

      馬筱梅大方展示孕肚,打臉黑粉,公開營養餐,透露預產期!

      旅游要聞

      鄉村文旅消費熱

      手機要聞

      蘋果發布iOS 26.3首個測試版,三個新變化及升級須知

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美白丰满老太aaa片| 精品免费国产一区二区三区四区| 亚洲国产无套无码av电影| 久久久天堂国产精品女人| 亚洲av中文| 日日插插| 成人在线亚洲| 欧美自拍嘿咻内射在线观看| 五月天国产成人av免费观看| 久久人妻中文字幕| 稷山县| 香港三级韩国三级日本三级| 国产精品国产成人国产三级| 亚洲精品岛国片在线观看| 亚洲精选91| 麻豆国产97在线 | 欧洲| 亚洲www啪成人一区二区| 欲色欲色天天天www| yy19影院| 欧美成人片在线观看| 777午夜福利理论电影网| 免费超爽大片黄| 白浆AV| 日韩欧美人妻一区二区三区| 久久综合亚洲色一区二区三区| 亚洲黄色成人网站| 午夜插逼| 国产成人无码一区二区三区在线| 亚洲精品一区二区| 亚洲不卡视频| 维西| 国产精品成人av在线观看春天| 日韩成人电影| 丝袜美腿在线观看播放一区| 人妻小说区图片区| 加勒比中文字幕无码一区| 欧美videosdesexo吹潮| 五月色情婷婷| 少妇性l交大片| 美女裸体自慰在线观看| 免费无遮挡毛片中文字幕|