<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      OpenAI試圖在奇點前夜,搶回人類的控制權|OpenAI新論文解讀

      0
      分享至

      我們正生活在一個由黑匣子統治的時代。這些黑匣子被我們稱為AI。

      幾十年來,我們與這些機器的契約很簡單:我們給它們海量的數據,它們還給我們一個魔法:準確推薦下一首歌、能以99%的準確率識別貓、或寫出莎士比亞十四行詩。

      我們不在乎怎么做到的,我們只要它能做到。

      但現在,當這個黑匣子不再是用來識別貓,而是用來診斷癌癥、批準貸款或(老天保佑)控制核武器時,“怎么做到的”成了不能規避問題。

      于是,一個被稱為機制可解釋性的AI研究領域誕生了,他們的工作就是試圖搞清楚模型到底在想什么。

      在這個領域中,Anthropic貢獻了很多技術,比如探針,試圖通過觀察注意力的變化,去逆向猜測大腦的運轉。但這些猜測都是模糊且多解的,因為他們不得不面對神經網絡的一個本質特性,那就是疊加。

      直到這個月,OpenAI出手,用一篇名為《權重稀疏的Transformer具有可解釋的電路》的論文給出了拆掉這座高墻的榔頭,打算從根本上解決不可解釋性的問題。


      論文鏈接:https://arxiv.org/abs/2511.13653

      1

      疊加態的詛咒

      疊加之所以令人頭疼,是因為它讓神經網絡變得像一個過度擁擠的單身公寓。

      在一個普通的密集神經網絡里,為了節省成本(參數量),模型會讓一個神經元同時打幾份工。

      這就像一個只有十個柜子的房間,卻要塞進一千件不同的東西。當你拉開一個柜子(神經元),你會發現里面壓扁了的冬衣、貓糧和一團電線塞在一起。

      對于同一個神經元,當你問它“這是什么?”時,它會告訴你:如果看到“貓”,我激活 0.8;如果看到“狗”,我激活 -0.5;如果看到“引號”,我又激活 0.3。

      這種一詞多義的現象就是疊加。

      讓情況更糟糕的是,這些信息還會以復雜的方式分散在多個神經元之間。一個簡單的任務(比如識別代碼里的引號),其邏輯可能被撕碎,分散在幾十個這種亂七八糟的神經元里,要靠著其他神經元同步激活,才能顯現出來。

      這也是目前的 AI 這么強的原因。它極致地壓縮了信息,高效利用了每一個參數。

      但也正因如此,想要看懂它的工作流,就跟拆開一團復雜的線團一樣困難。

      1

      極簡主義的經濟制裁

      OpenAI 的思路很直接。既然疊加是因為模型為了省錢(節省參數)而把概念混在一起,那干脆就改變經濟規則,讓它不去疊加了。

      于是,他們設計了一個模型簡化計劃。從頭開始訓練一種權重稀疏(Weight-Sparse)的模型。在每個訓練步驟后,OpenAI會直接把每個權重矩陣里除了最大的那些值之外的所有參數都清零。

      這樣,最極端的情況下,他們的模型只有千分之一的參數是非零的。此時,一個原本可以有一百萬個連接的神經元,現在只被允許保留一千個。

      這不是在限制模型能學多少知識,而是在限制它能動用多少關系。


      在這種嚴苛的預算下,模型為了完成任務,必須精打細算。它發現,把毫不相關的概念(比如貓和引號)塞進同一個神經元變得不再劃算,因為解開它們需要額外的連接,而連接極其珍貴。

      于是,在這套極簡主義的經濟下,模型被迫學會了斷舍離。訓練出來的模型中,一個神經元只負責一個概念,這種解耦策略反而成了最經濟的生存之道。

      然而,訓練出一個整潔的模型只是第一步。整個模型依然是一個有著龐大參數的迷宮。想要在迷宮里找到處理特定任務的那條紅線,他們需要第二個工具,即自動剪枝(Automated Pruning)。

      如果說稀疏訓練是把雜亂的房間整理得井井有條,那么剪枝就是關掉燈,只讓那些正在工作的電線發光。

      這不是靠人工去猜,而是一個自動化過程。研究人員會為選定一個具體任務(比如數括號),然后給模型里每一個神經元都裝上一個可調節的調光器(Mask)。

      通過優化算法,系統會不斷嘗試關掉參數的燈光(均一化響應)。只要關掉這個神經元不影響任務結果,就立刻把它徹底關死 。

      當數百萬個調光器被關閉后,黑暗中只剩下那幾十個還亮著的節點。這些幸存下來的節點連接在一起,就構成了能夠解釋具體任務的電路(Circuit)。

      所謂電路,本質上就是從那個龐大而復雜的神經網絡中提取出來的、專門負責某項具體任務的最小核心子圖 。是模型在處理問題時,用到的所有邏輯判斷的精簡思維導圖。

      在這個稀疏中,AI 的思考路徑變得驚人地干凈。

      當研究人員對比同樣表現的稀疏模型和密集模型時,發現稀疏模型處理特定任務的電路體積,平均小了16倍


      1

      讀懂AI的心

      有了清晰的電路,研究人員終于可以讀懂 AI 的思想了。

      在論文中,研究人員向我們展示了模型是如何把一個簡單的認知任務(看到引號 -> 記住引號 -> 閉合引號),拆解成了一套嚴密的寫入-檢索邏輯。


      這個任務,大概是模型讀到了一個開頭的雙引號 (",中間經過了一串字符,現在它走到了句子的盡頭,需要預測下一個字符是 ") 還是 ') 。

      它做的第一步是標記。當模型讀到開頭的 (" 時,電路中的一個組件被激活。它向信息流中寫入了兩條信息,先用引號檢測器標明這里有個引號(位置標記),再用一個類型分類器判別了一下標記的類型,確認這是個引號(類型標記)。

      第二步則是回溯。 當模型處理到句子的最后一個字,準備預測結尾時,第 10 層的一個注意力頭啟動了。它利用了注意力機制經典的 Q-K-V(查詢-鍵-值) 結構來完成一次精準的數據庫檢索。回過頭去尋找那個位置標記,也搜索到了前面的類型標記(雙引號)。

      模型拿著這個信息,立刻排除了單引號的選項,自信地輸出了 ")。

      模型整個行為的過程,非常符合人類的邏輯架構,用內容分離去判別,再用檢索去確認。

      在這些電路里,我們可以看到是清晰、可調試的代碼邏輯。

      研究人員甚至發現了更復雜的變量追蹤電路,模型通過兩層注意力機制,像接力跑一樣,先把變量名存入內存,再在需要時通過變量名檢索出它的類型。


      1

      有效性的證明

      為了驗證這些線路圖不僅僅是好看,而是真的在工作,研究團隊還做了一系列實驗驗證其充分性和必要性。

      針對充分性,當他們把電路以外的所有神經元全部切斷(設為平均值),發現模型依然能完美完成任務。

      而當他們僅僅切斷電路以內的那幾個關鍵節點,模型的能力瞬間崩潰。這就說明它確實是必要的。

      由此,研究者可以自信的說,他們提取出來的不僅僅是統計上的相關性,而是模型真正的思維流程

      但即使模型是真的用這個電路思考的,研究人員怎么證明他們的理解沒有問題呢?

      證明也很簡單如果他們真的懂這個電路,他們就應該能“黑”了它。

      在研究一個“計算括號嵌套深度”的電路時,他們發現模型為了省事,用了一種“取平均值”的快捷算法來估算深度。研究人員立刻意識到:既然是取平均值,那如果我把上下文拉得特別長,這個數值不就被稀釋了嗎?

      于是,他們故意構造了一個超長的列表作為輸入。結果不出所料,模型正如預測那樣,在嵌套深度判斷上徹底失效了。

      這簡直是可解釋性領域的登月時刻。這就像神經科學家聲稱破解了視覺皮層,然后通過畫一張特定的圖畫,精準地讓你的眼睛產生了預期的幻覺。

      通過精準預測模型的失敗,他們反向證明了對模型原理的掌控。

      現在,OpenAI的研究人員可以完全自信的說,他們已經理解了模型是怎么處理括號問題的了。

      1

      找到了圣杯,但還是遇到了硬件的墻

      故事到這里,似乎我們已經找到了圣杯。只要把所有模型都做成稀疏的,可解釋性的問題不就解決了嗎?

      聽著挺好,結果論文在角落里藏著一個巨大的但是,就是效率

      這些權重稀疏模型,在現有的計算機上運行,效率低得令人發指。訓練它們可能需要比普通模型多消耗100到1000倍的算力。

      過去三十年的芯片工業,都是為了密集計算而生的。GPU之所以快,是因為并行能力強,能一次性做很多運算。

      但在稀疏模型里,任何時候,只有零星幾個神經元在做著計算。

      當你把稀疏模型放到 GPU 上時,它那龐大的并行能力就完全失效了,只能一次算一點點。

      我們為了讓人類理解而設計的模型結構,恰好被我們需要它運行的硬件物理結構所排斥。

      更糟糕的是,除了跑得慢,它還胖得驚人。

      這樣一個稀疏模型,因為其中神經元的利用很低效,因此想要達到和密集模型同樣的聰明程度,你往往需要極大地增加它的總參數量。由此產生的模型體積也會大到讓硬件裝下很吃力。

      這意味著,用這種方法訓練一個稀疏版的 GPT-5根本不現實。

      1

      B 計劃:橋接

      那這一切努力都白費了嗎?

      OpenAI 提出了一個B計劃,雖然無法用可解釋性稀疏模型去取代那些高效但不可解釋的密集模型,但我們可以用橋接的方式造一個區域翻譯器,只翻譯其中一小部分。


      這一橋接的方法,就是凍結那個強大的密集模型,然后在它旁邊訓練一個小的稀疏模型。同時,訓練一組翻譯層,讓它們時刻保持同步。

      這樣,當稀疏模型里的引號分類器亮起時,我們就能知道原來密集模型里對應的,是哪一套復雜的神經元組合了。

      這個稀疏模型的橋接,就像一臺連接到密集模型上的 X 光機。


      雖然因為規模和效率問題,我們沒法通過它翻譯密集模型的全部思想。但針對我們關心的那些安全任務(比如欺騙、誘導、制造生化武器),針對性的翻譯還是完全做得到的。

      比如研究人員可以手動搜集一個模型進行欺騙行為的數據集。然后我們在這個數據集上訓練橋接模型,強迫它去翻譯GPT-5在進行欺騙時的內部計算。由此也許就能搞清楚其中到底是出了什么問題,模型為什么要撒謊。

      1

      不完美,但意義同樣重大

      雖然這篇論文沒有給我們一個完全安全、可解釋、超智能的AI。

      它給了我們一套工具,和一線希望

      它證明了,AI的黑匣子并非 堅不可摧。只要我們施加正確的壓力(稀疏性),并使用正確的手術刀(修剪算法),我們就可以強迫這個黑匣子開口,把它最深的秘密暴露在人類的理解之下。

      這也許是我們在超級智能降臨的前夜,唯一能為它套上的思想韁繩。它讓我們不再是被動地等待黑盒里的審判,而是第一次擁有了主動。

      在AI學會欺騙之前看穿謊言,在它孕育出惡意之前,將其扼殺于神經元的閃爍之中。

      這可能是在這場游戲中,我們唯一能贏的方式。

      文章轉載于騰訊科技,作者:博陽

      點個愛心,再走 吧

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      羅永浩:有一個公司天天說遙遙領先,成了全國笑柄……

      羅永浩:有一個公司天天說遙遙領先,成了全國笑柄……

      柴狗夫斯基
      2025-12-31 09:40:35
      李興湖進京任職,任交通運輸部副部長,曾任三明市委書記

      李興湖進京任職,任交通運輸部副部長,曾任三明市委書記

      上觀新聞
      2025-12-31 12:52:04
      千萬不要過度體檢?醫生再三提醒:55歲后,這5種體檢能不做就不做

      千萬不要過度體檢?醫生再三提醒:55歲后,這5種體檢能不做就不做

      神奇故事
      2025-12-30 23:09:45
      老話:元旦三不動,一動百財空,3不動分別指的是什么?答案來了

      老話:元旦三不動,一動百財空,3不動分別指的是什么?答案來了

      阿龍美食記
      2025-12-31 00:29:03
      多地取消2026跨年活動:無煙花無倒計時,安全優先下咋留住儀式感

      多地取消2026跨年活動:無煙花無倒計時,安全優先下咋留住儀式感

      行者聊官
      2025-12-30 12:28:33
      冰肌玉骨、吹彈可破,出道時就開黑車的歐美女神 - Lena Anderson

      冰肌玉骨、吹彈可破,出道時就開黑車的歐美女神 - Lena Anderson

      吃瓜黨二號頭目
      2025-12-31 08:00:56
      70后飛行員翻臉將小22歲情人告上法庭,讓其歸還700多萬元!女方堅稱無罪:十幾年的“情債”怎么變成我詐騙了?

      70后飛行員翻臉將小22歲情人告上法庭,讓其歸還700多萬元!女方堅稱無罪:十幾年的“情債”怎么變成我詐騙了?

      環球網資訊
      2025-12-31 07:42:37
      深圳一名幼兒園家長帶幼兒在馬路上值護學崗,怕孩子亂跑緊拽其衣領,教育局工作人員:正核實,按要求是自愿報名

      深圳一名幼兒園家長帶幼兒在馬路上值護學崗,怕孩子亂跑緊拽其衣領,教育局工作人員:正核實,按要求是自愿報名

      極目新聞
      2025-12-31 13:18:58
      人來世間到底是干什么的?你一定要看一看

      人來世間到底是干什么的?你一定要看一看

      金沛的國學筆記
      2025-12-29 17:44:07
      32歲三上悠亞對撼51歲林志玲,各有捧場客

      32歲三上悠亞對撼51歲林志玲,各有捧場客

      粵睇先生
      2025-12-29 16:32:22
      中國援助柬埔寨114億?

      中國援助柬埔寨114億?

      名人茍或
      2025-12-31 06:03:41
      俄方稱烏方襲擊普京官邸,中方回應

      俄方稱烏方襲擊普京官邸,中方回應

      中國青年報
      2025-12-30 21:00:11
      最新!法國、英國、加拿大、丹麥、芬蘭等十國外長發布聯合聲明

      最新!法國、英國、加拿大、丹麥、芬蘭等十國外長發布聯合聲明

      每日經濟新聞
      2025-12-31 07:50:06
      漲價5毛后半年少賣7個億,國民飲料背刺打工人,3400家經銷商出走

      漲價5毛后半年少賣7個億,國民飲料背刺打工人,3400家經銷商出走

      財經八卦
      2025-12-30 21:23:26
      這是有多大的仇,才會氣急敗壞到這種程度!

      這是有多大的仇,才會氣急敗壞到這種程度!

      胖胖說他不胖
      2025-12-30 11:00:08
      白嫖攝影師后續:單位傳開已社死,朋友曝更多,白嫖只是冰山一角

      白嫖攝影師后續:單位傳開已社死,朋友曝更多,白嫖只是冰山一角

      天天熱點見聞
      2025-12-31 06:36:45
      故宮原副院長被抄家,狗窩都用和田玉

      故宮原副院長被抄家,狗窩都用和田玉

      法經網
      2025-12-29 21:01:33
      俄羅斯再征召26.1萬人入伍,被澤連斯基說中了?

      俄羅斯再征召26.1萬人入伍,被澤連斯基說中了?

      山河路口
      2025-12-30 19:36:45
      財政部、稅務總局:個人將購買2年以上的住房銷售,免征增值稅

      財政部、稅務總局:個人將購買2年以上的住房銷售,免征增值稅

      數據說經濟
      2025-12-30 20:09:40
      收手吧古天樂,耗資3.5億,元旦檔墊底,這盤冷飯你還能炒多少次

      收手吧古天樂,耗資3.5億,元旦檔墊底,這盤冷飯你還能炒多少次

      靠譜電影君
      2025-12-30 21:10:47
      2025-12-31 13:59:00
      硅星人 incentive-icons
      硅星人
      硅(Si)是創造未來的基礎,歡迎來到這個星球。
      2758文章數 10424關注度
      往期回顧 全部

      科技要聞

      老羅,演砸了,也封神了?

      頭條要聞

      杭州一業主群來了豪氣鄰居 砸1600萬給小區外立面升級

      頭條要聞

      杭州一業主群來了豪氣鄰居 砸1600萬給小區外立面升級

      體育要聞

      2025全球射手榜:姆巴佩66球 梅西第6C羅第9

      娛樂要聞

      告別2025年!大S、方大同離世青春退場

      財經要聞

      朱光耀:美關稅政策正使WTO名存實亡

      汽車要聞

      奇瑞QQ3量產版曝光! 軸距2米7配8155芯片

      態度原創

      房產
      親子
      家居
      游戲
      公開課

      房產要聞

      瘋了!2025海南拿地榜巨變:榜首狂砸80億,民企火力全開!

      親子要聞

      全國育兒補貼發放超2400萬人

      家居要聞

      無形有行 自然與靈感詩意

      《仙劍奇俠傳四重制版》預告播放290萬 官方發文感謝

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美视频二区欧美影视| 中文有无人妻VS无码人妻激烈 | 亚洲国产成人精品无码区蜜柚| 思思热在线视频精品| 在线?国产?精品?播放?VA| 沙河市| 亚洲成人第一VA| 国产成人无码性教育视频| 国产色婷婷精品综合在线 | 丁香花在线观看免费观看图片 | 亚洲精品无码专区| 被灌满精子的少妇视频| 亚洲天堂视频在线观看| 色吊丝永久免费| 天天做天天躁天天躁| 欧美做受视频播放| 多人乱p视频在线免费观看 | 精品一区二区三区东京热| 国产亚洲成av人片在线观看| 亚洲深深色噜噜狠狠网站| 屁屁影院国产第一页| 亚洲欧洲无码av电影在线观看| 久久精品无码专区免费| 久久夜色撩人精品国产av| 玖玖精品视频| 国产福利萌白酱在线观看视频| 亚洲性无码一区二区三区| 亚洲人妻视频| 宝兴县| 久久综合综合久久综合| 亚洲性爱视频网站| 亚洲中文天堂| 亚洲色偷偷色噜噜狠狠99网| 成人精品一区二区三区在线观看| V一区无码内射国产| 蜜桃91精品秘?入口| 扎鲁特旗| 欧美日韩国产码高清| free性开放小少妇| jizz日本人妻| 小鲜肉自慰网站xnxx|