<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      OpenAI又開源了!僅0.4B,給模型大瘦身

      0
      分享至


      智東西
      作者 王涵
      編輯 心緣

      智東西12月15日報道,昨天,OpenAI開源新模型Circuit-Sparsity,模型參數量僅0.4B99.9%的權重為零。


      ▲Circuit-Sparsity開源(來源:Hugging Face)

      這個技術試圖解決模型的可解釋性問題,簡單來說就是回答“模型為什么做出這個決策?”以及“它是如何得出這個結果的?”這兩個問題。

      在AI飛速發展的今天,大語言模型(LLM)雖然表現出了驚人的能力,但其內部運作機制始終像一個神秘的“黑箱”。

      我們不知道它為何做出某個回答,也不清楚它是如何從海量數據中提取知識的。這種不可解釋性,成為了AI在醫療、金融、法律等高風險領域落地的重大障礙。

      對此,OpenAI研究團隊訓練出了一個權重稀疏的Transformer模型,強制模型權重矩陣中99.9%權重為零,僅保留0.1%非零權重。

      在這項研究中,研究團隊在模型內部形成了緊湊且可讀的“電路”(Circuits),每個電路都僅保留了保證模型性能的關鍵節點,神經元的激活變得具有明確的語義。

      有外網網友稱這一技術讓當下的MoE(混合專家模型)走到了盡頭,并說“我們一直以來都將權重隔離到‘專家’中,以此粗略地近似稀疏性,僅僅是為了滿足稠密矩陣核的要求。”


      ▲外網評價(圖源:X)

      更有網友將這項研究形容為將模型“減肥到只剩骨架”,還說這項研究就好像打開了黑匣子,不試圖解開稠密模型而是直接構建稀疏模型,正是這項研究有趣的地方。


      ▲外網評價(圖源:X)

      但有些網友卻不這么認為,稱其沒有看出MoE模型為何會因此走到盡頭,并進一步解釋說這一技術是針對XAI(可解釋AI)的,它的訓練成本要高100-1000倍,回到“研究時代”并不意味著讓事情變得更復雜。


      ▲外網評價(圖源:X)

      該模型目前受限于計算效率瓶頸,其運算速度較密集模型慢100至1000倍,將該技術直接應用于千億參數級別的前沿大模型,現階段尚不具備可行性。

      開源地址:

      Github:
      https://github.com/openai/circuit_sparsity

      Hugging Face:

      https://huggingface.co/openai/circuit-sparsity

      一、訓練稀疏Transformer,OpenAI理清模型內部計算

      要理解這項研究的突破,首先需要明白傳統大模型為何難以解釋。

      在標準的密集模型(Dense Models)中,神經網絡存在一種被稱為“超級位置”(Superposition)的現象。簡單來說,為了存儲海量的信息,模型被迫讓單個神經元或權重矩陣同時編碼多個完全不同的概念。

      這種特征糾纏導致了嚴重的后果,例如模型的決策不可追溯和邏輯混亂,當模型輸出一個結果時,我們無法確定是哪個具體的“概念”在起作用。

      針對以上問題,以前的研究通常從試圖拆解密集、糾結的網絡開始。但OpenAI團隊采取了一種“反直覺”的策略,即訓練權重稀疏的Transformer模型,強制模型權重矩陣中99.9%權重為零,僅保留0.1%非零權重。

      強制模型限制了模型只能使用其神經元之間極少的可能連接,而這一簡單的更改,幾乎從根本上理清了模型的內部計算。


      ▲每個神經元只與下一個層的幾個神經元相連(圖源:OpenAI技術博客)

      具體的技術手段包括:

      1、動態剪枝與稀疏約束:在訓練過程中,系統會動態執行“剪枝”操作,每一步優化后僅保留絕對值最大的權重(Top-K稀疏化)。

      2、激活稀疏化:在殘差流、注意力鍵/值矩陣等關鍵位置,研究團隊引入了AbsTopK激活函數,強制僅保留前25%的激活值。

      3、架構微調:為了配合稀疏化,研究團隊用RMSNorm替代了傳統的LayerNorm,避免歸一化操作破壞稀疏性,同時引入了“Bigram表”來處理簡單的模式匹配,從而釋放模型的主干容量去處理復雜的邏輯推理。

      二、模型內部形成緊湊可讀的“電路”,規模縮減16倍

      這項技術的最大成果,是模型內部形成了緊湊且可讀的“電路”(Circuits)

      在傳統密集模型中,完成一個任務可能需要成千上萬個節點協同工作,邏輯分散且難以捕捉。而在稀疏模型中,研究團隊觀察到了極簡的計算路徑:

      1、極簡的邏輯單元:例如在處理“字符串閉合”任務時,模型僅用12個節點就構建了一個完美的電路,清晰地展示了它是如何檢測單引號或雙引號是否閉合的。

      2、可讀的特征:神經元的激活變得具有明確的語義。研究人員發現了一些神經元專門負責檢測“單引號”,另一些則像“計數器”一樣精確地追蹤列表的嵌套深度。

      3、規模縮減16倍:對比實驗顯示,在相同的任務損失下,稀疏模型的電路規模比密集模型小了16倍。這意味著解讀AI思維的難度降低了整整一個數量級。


      ▲稀疏模型的電路規模比密集模型小了16倍(圖源:OpenAI技術論文)

      為了驗證這些電路的真實性,團隊進行了“均值消融”實驗。結果證明,移除非電路節點對任務幾乎沒有影響,而一旦移除電路中的關鍵節點,模型性能就會瞬間崩塌。這證實了這些電路確實是模型執行任務的“必經之路”。


      ▲“均值消融”實驗(圖源:OpenAI技術論文)

      三、稀疏模型解讀力強但速度慢千倍,OpenAI提出“橋梁網絡”

      為了測量稀疏模型計算的解耦程度。研究團隊設計了一套簡單的算法任務。對于每個模型,他們都將其剪裁成了仍能執行該任務的最小電路,并檢查了該電路的簡潔程度。

      研究團隊發現,用規模更大、稀疏度更高的模型進行訓練后,就能夠依托結構更簡潔的電路,構建出性能更強的模型。


      ▲模型的可解釋性與能力的對比圖(圖源:OpenAI技術博客)

      從模型可解釋性與性能的對比圖可見,在稀疏模型規模固定的前提下,提升稀疏性,也就是將更多權重置零,雖會導致模型性能有所下降,但能顯著增強其可解釋性。

      盡管稀疏模型在可解釋性方面優勢突出,但其應用目前受限于計算效率瓶頸:稀疏矩陣運算無法借助Tensor Cores實現加速,運算速度較密集模型慢100至1000倍。這意味著,將該技術直接應用于千億參數級別的前沿大模型,現階段尚不具備可行性。

      為此,研究團隊提出了“橋梁網絡”(Bridges)方案:

      1、編碼-解碼映射:在稀疏模型與預訓練的密集模型之間插入一個編碼器-解碼器對。

      2、跨模型干預:編碼器將密集模型的激活映射到稀疏空間,解碼器則反向轉換。

      “橋梁網絡”(Bridges)方案可以在“透明”的稀疏模型上修改某個特征,然后通過橋梁將這種擾動映射回“黑箱”的密集模型,從而實現對現有大模型的可解釋性行為編輯。

      結語:OpenAI提出稀疏化新路徑,讓大模型從“黑箱”走向“可解釋”

      OpenAI研究團隊的這項研究,標志著AI可解釋性領域的一項重要突破,也印證了理解AI并非遙不可及的目標。

      研究團隊在論文博客中稱,這項工作是邁向更宏大目標的早期探索。接下來,他們計劃將相關技術擴展至更大規模的模型,同時進一步解釋更多模型的行為邏輯。

      為解決稀疏模型訓練效率低下的問題,團隊提出了兩個后續研究方向:一是從現有密集模型中提取稀疏電路,替代“從頭訓練稀疏模型”的傳統方式;二是研發更高效的可解釋性模型訓練技術,推動相關技術更易落地生產。

      “我們的目標是逐步擴大可可靠解釋的模型范圍,同時打造相關工具,讓未來的AI系統更易于分析、調試與評估。”研究團隊在論文博客中寫道。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      韓國特工與泰軍合作,潛入電詐園抓獲殺害韓國女人質的中國籍綁匪

      韓國特工與泰軍合作,潛入電詐園抓獲殺害韓國女人質的中國籍綁匪

      環球熱點快評
      2025-12-18 11:43:15
      稅務局回應大廳凳子被指形似刑具:大家反饋坐著很舒服,專門定做的,采購經過正規審批,價格比市場便宜

      稅務局回應大廳凳子被指形似刑具:大家反饋坐著很舒服,專門定做的,采購經過正規審批,價格比市場便宜

      觀威海
      2025-12-18 10:18:04
      全國統一判:“爛尾樓”購房者可解除合同,不再支付按揭貸款,由開發商兜底!

      全國統一判:“爛尾樓”購房者可解除合同,不再支付按揭貸款,由開發商兜底!

      微法官
      2025-10-15 08:06:34
      回國后我才敢說:越南是我去過的所有國家中,最被低估的

      回國后我才敢說:越南是我去過的所有國家中,最被低估的

      李健政觀察
      2025-12-18 09:49:21
      4次撲點 6冠加身!俄羅斯門將封神之作:巴黎全隊致敬英雄

      4次撲點 6冠加身!俄羅斯門將封神之作:巴黎全隊致敬英雄

      葉青足球世界
      2025-12-18 08:41:33
      全網瘋傳的江門大瓜,年度最復雜的家庭倫理關系

      全網瘋傳的江門大瓜,年度最復雜的家庭倫理關系

      杭城村叔
      2025-12-17 21:01:23
      福建艦、山東艦的兩個相同點

      福建艦、山東艦的兩個相同點

      新民周刊
      2025-12-18 09:13:33
      郭昊羽已任廣東省住建廳黨組書記

      郭昊羽已任廣東省住建廳黨組書記

      南方都市報
      2025-12-18 13:47:22
      11月中國訪日游客:56.3萬人次, 同比增長3%

      11月中國訪日游客:56.3萬人次, 同比增長3%

      新浪財經
      2025-12-17 20:01:07
      手術室護士長王嬌被查,涉嫌嚴重違法!

      手術室護士長王嬌被查,涉嫌嚴重違法!

      醫脈圈
      2025-12-17 20:54:04
      突然爆火!浙大博士在杭州花40萬元買車庫,一批年輕人跑來上班,沒工資卻天天加班到凌晨……

      突然爆火!浙大博士在杭州花40萬元買車庫,一批年輕人跑來上班,沒工資卻天天加班到凌晨……

      環球網資訊
      2025-12-17 17:49:28
      什么情況?NBA中文官網和NBA官網均顯示李凱爾國籍已為美國

      什么情況?NBA中文官網和NBA官網均顯示李凱爾國籍已為美國

      懂球帝
      2025-12-18 11:18:56
      文詠珊產后現身機場!面部浮腫雙下巴超真實,和粉絲合影毫無架子

      文詠珊產后現身機場!面部浮腫雙下巴超真實,和粉絲合影毫無架子

      小徐講八卦
      2025-12-18 10:33:41
      6冠王!巴黎點球戰3-2奪洲際杯冠軍 世界足球先生失點 門神4撲點

      6冠王!巴黎點球戰3-2奪洲際杯冠軍 世界足球先生失點 門神4撲點

      我愛英超
      2025-12-18 04:11:59
      笑噴!河南女生被南方室友催洗澡“發飆”:最近半年澡量超我十年

      笑噴!河南女生被南方室友催洗澡“發飆”:最近半年澡量超我十年

      行者聊官
      2025-12-18 10:06:02
      好利來大公子承認變女人!穿女裝做美甲,自稱“妹妹”,評論炸鍋

      好利來大公子承認變女人!穿女裝做美甲,自稱“妹妹”,評論炸鍋

      阿纂看事
      2025-12-17 16:50:40
      日本通告全球,將強登釣魚島?福建艦抵達臺海,普京也選邊站了

      日本通告全球,將強登釣魚島?福建艦抵達臺海,普京也選邊站了

      博覽歷史
      2025-12-17 17:10:44
      海南封關首日實探三亞免稅城:免稅價疊加消費券,蘋果手機最高可減1000元

      海南封關首日實探三亞免稅城:免稅價疊加消費券,蘋果手機最高可減1000元

      極目新聞
      2025-12-18 12:08:09
      越扒越有!女教師跳樓再添猛料,原來不止被父母逼婚這么簡單

      越扒越有!女教師跳樓再添猛料,原來不止被父母逼婚這么簡單

      皮蛋兒電影
      2025-12-17 22:03:03
      索尼突然撤出中國!3萬員工瞬間丟飯碗

      索尼突然撤出中國!3萬員工瞬間丟飯碗

      深度報
      2025-12-17 22:56:00
      2025-12-18 14:35:00
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務產業升級。
      10926文章數 116928關注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創業大賽

      頭條要聞

      浙大博士花40萬買車庫爆火 員工沒工資天天加班到凌晨

      頭條要聞

      浙大博士花40萬買車庫爆火 員工沒工資天天加班到凌晨

      體育要聞

      巴黎首奪世界級冠軍 加冕6冠王比肩巴薩拜仁

      娛樂要聞

      內娛解約大戰:鞠婧祎和絲芭,誰是狼人

      財經要聞

      重大改革,身關14億人的政策徹底變了!

      汽車要聞

      開箱日產大沙發 精致辦公or躺平追劇 哪個更適配?

      態度原創

      本地
      數碼
      手機
      公開課
      軍事航空

      本地新聞

      云游安徽|決戰烽火照古今,千秋一脈看宿州

      數碼要聞

      中興BE7200 MAX路由器開啟預約,679元

      手機要聞

      首發全新徠卡1英寸主攝!小米17 Ultra上架預約

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      最新現場:山東艦完成年度最后一次海上訓練

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 午夜在线不卡| 99久久伊人精品综合观看| 亚洲午夜香蕉久久精品| 99久久久国产精品免费蜜臀| 国产盗摄人妻精品一区| 久久亚洲春色中文字幕久久久| 欧美又粗又大AAA片| 亚洲天堂视频在线观看| 亚洲欧洲av| 亚洲深夜| www91国产| 成人A在线播放| 国产jlzzjlzz视频免费看| 国产成人精品a视频一区| 亚洲另类综合网| 内射少妇18| 免费观看性欧美大片无片| 少妇人妻大乳在线视频| 北条麻妃在线一区二区| 免费ā片在线观看| 91视频大全| 精品日韩亚洲av无码| 131mm少妇做爰视频| 中文字幕精品熟女人妻| 亚洲精品字幕| 成年女人免费视频播放体验区| 中文字幕日本人妻| 午夜插逼| 国产精品美女一区二区三| 无码国产精品一区二区免费式直播| 亚洲综合电影| AV成人小说| 制服丝袜无码视频| 久久99日韩国产精品久久99| 成人国产片女人爽到高潮| 国产老妇伦国产熟女老妇高清| 农安县| 91人人人| 爆乳一区二区| 午夜福利影院不卡影院| 欧美成人aaa片一区国产精品|