<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      大模型黑箱被撬開:MIT華人聯創,造出能追溯思考過程的大模型

      0
      分享至

      大模型的黑箱問題有解了?2 月 23 日,三名 MIT 博士在美國舊金山創辦的 Guide Labs 初創公司開源了一個 80 億參數的語言模型 Steerling-8B。它最特別的地方在于,所生成的每一個詞都可以追溯到三個源頭:輸入了哪些提示詞、動用了哪些概念、參考了哪些訓練數據。之所以能做到這些,是因為 Guide Labs 在設計之初就給模型 Steerling-8B 事先埋了功能。


      (來源:Guide Labs)

      創始團隊的三個人在 AI 領域已經泡了十幾年。

      Guide Labs 的 CEO 朱利葉斯·阿德巴約(Julius Adebayo)是尼日利亞裔,本科在楊百翰大學學習機械工程,后來在麻省理工學院拿了三個學位。2017 年他在谷歌做 AI 研究院,隨后進入基因泰克子公司 Prescient Design 做數據科學。他的博士論文研究方向就是調試機器學習模型的工具,2018 年他那篇被廣泛引用的論文證明了一個結論:現有的深度學習模型解釋方法根本不可靠。


      圖 | Guide Labs 的 CEO 朱利葉斯·阿德巴約(來源:領英)

      Guide Labs 的首席科學家阿雅·阿卜杜勒薩拉姆·伊斯梅爾(Aya Abdelsalam Ismail)在馬里蘭大學帕克分校拿的計算機科學博士,在 NeurIPS、ICLR 這些頂級會議上發了十幾篇論文。她在 2021 年那篇論文里提出使用顯著性指導訓練來提升深度學習解釋性,同時還建立了一套時間序列數據的解釋性評估框架。加入 Guide Labs 之前,她也在 Prescient Design 做解釋性 AI 研究。


      圖 | 阿雅·阿卜杜勒薩拉姆·伊斯梅爾(來源:領英)

      第三位聯合創始人富爾頓·王(Fulton Wang)是麻省理工學院計算機科學博士,2015 年拿過美國統計協會統計學習與數據挖掘分會的最佳學生論文獎。


      圖 | 富爾頓·王(Fulton Wang)(來源:領英)

      這三個人湊在一起就是希望解決同一個問題:如何讓 AI 的解釋變得可信。

      當前市面上流行的方法,就像給一個陌生人做腦部掃描,試圖通過觀察這個人的神經活動來推斷他在想什么。Guide Labs 的 CEO 阿德巴約把這叫做對模型做神經科學。但 Guide Labs 換了個思路,他們放棄從外部解讀的方法,轉而從內部設計。也就是從一開始就把模型架構做成可解釋的,讓每一層計算都留下痕跡。

      他們在模型里嵌入了一個概念層,相當于給數據分了類,貼上了可追溯的標簽。這個層里有大約 3.3 萬個已知概念,是人工預先標注好的,比如基因編輯、量子計算這些話題。還有大約 10 萬個發現概念,是模型自己在訓練過程中學會的。


      (來源:Guide Labs)

      當你讓 Steerling-8B 生成一段文字,它輸出的每一個詞塊,都可以點開并查看以下三張清單。第一張清單是輸入特征歸因,會告訴你這個詞主要受到了提示詞里哪些詞的影響。第二張清單是概念歸因,會列出它動用了哪些概念,包括形容詞類的比如“臨床感”,也包括名詞類的比如“基因改造”方法。第三張清單是訓練數據歸因,會告訴你這個詞涉及的概念主要來自哪些訓練數據源,比如是來自 arXiv、維基百科還是 FLAN 數據集。

      這意味著如果模型輸出了一段涉及版權的內容,你可以直接追溯到是哪篇訓練文章影響了它。如果模型在回答醫療問題時表現得有偏見,你可以查看到底是哪些概念在起作用,然后就能精準關掉那個概念的開關。

      說到開關,這個模型還有一個能力叫做概念控制。你在推理的時候,可以手動放大或者壓制某個概念的影響,不需要重新訓練模型。比如說你想讓回答更專業一點,就把“專業”這個概念對應的向量調大。再比如你想避免模型談論暴力,就把“暴力”概念的權重調低。Guide Labs 稱,這相當于使用幾十個概念的調節,取代了以往需要成千上萬條安全訓練數據才能做到的護欄效果。

      在性能上,Steerling-8B 訓練使用了 1.35 萬億個 tokens,在各種基準測試上的表現和使用了 2 到 7 倍數據量的模型差不多。Guide Labs 表示,80% 以上的 tokens 貢獻來自概念層,而不是其他通道。這意味著模型的預測確實是沿著概念走的,而不是表面上給個解釋、暗地里使用其他方式干活。


      (來源:Guide Labs)

      要想驗證這一點其實很簡單:把其他通道關掉,看看模型還能不能正常工作。Guide Labs 的測試結果顯示,在各種任務上性能變化很小,這反過來證明了模型主要依靠概念在運轉。

      阿德巴約告訴媒體,把可解釋性做進模型的基因里,對于人類來說是一件長期的好事。據了解,Guide Labs 于 2024 年浮出水面,當時從 Initialized Capital 拿了 900 萬美元種子輪融資,阿德巴約也是 Y Combinator 的畢業生。這次開源的 Steerling-8B 是他們目前為止最大的概念驗證。下一步,他們打算做更大的模型,并將開放 API 接口讓更多人用上這套可追溯的 AI 系統。


      (來源:Guide Labs)

      Guide Labs 也在公司官網的博客里介紹了一些接下來要深挖的方向:概念控制、概念發現、無需微調的對齊、訓練數據溯源,這些目標的每一條背后都用論文支撐,有的是幾年前發的,有的是剛發的,總共二十多篇,分布在 NeurIPS、ICML、ICLR 這些地方。

      七年前,阿德巴約在麻省理工學院寫博士論文的時候,開頭第一句話大意是隨著機器學習系統部署到越來越多的高風險領域,確保它們可靠、公平、安全變得至關重要。但是,如果沒有有效工具來理解這些系統為何做出某個決定,這些目標就很難實現。

      現在,Guide Lab 走出了第一步。Steerling-8B 還不能回答所有問題,每個解釋也不是完美無缺的,但它證明了這樣一條走得通的新路,那就是對著 AI 黑箱瞎猜是不行的,要在一開始就給黑箱安個燈。

      參考資料:

      Huggingface:https://huggingface.co/guidelabs/steerling-8b

      GitHub:https://github.com/guidelabs/steerling

      軟件包:https://pypi.org/project/steerling/

      https://techcrunch.com/2026/02/23/guide-labs-debuts-a-new-kind-of-interpretable-llm/

      https://www.guidelabs.ai/post/steerling-8b-base-model-release/

      https://www.linkedin.com/in/juliusadebayo/

      https://www.linkedin.com/in/ayaabdelsalamismail/

      https://www.linkedin.com/in/fulton-wang-aa904a75/

      運營/排版:何晨龍

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      CBA首鋼、廣廈、上海三強爭霸,廣東宏遠只是第二梯隊

      CBA首鋼、廣廈、上海三強爭霸,廣東宏遠只是第二梯隊

      孤影來客
      2026-02-24 20:04:43
      不好的征兆!美軍又在吃出征宴了!龍蝦、蟹腿、牛排隨便挑著吃!

      不好的征兆!美軍又在吃出征宴了!龍蝦、蟹腿、牛排隨便挑著吃!

      我心縱橫天地間
      2026-02-23 13:20:50
      消失的 29 斤羊肉去哪了?暗訪揭開烤全羊行業黑幕

      消失的 29 斤羊肉去哪了?暗訪揭開烤全羊行業黑幕

      復轉小能手
      2026-02-24 17:32:12
      俄羅斯發出警告,24小時不到,中方霸氣現身:誰敢亂來!

      俄羅斯發出警告,24小時不到,中方霸氣現身:誰敢亂來!

      音樂時光的娛樂
      2026-02-22 19:58:25
      剛剛!廣東定調未來10年!錢往哪流?哪些行業要爆發?大白話解讀

      剛剛!廣東定調未來10年!錢往哪流?哪些行業要爆發?大白話解讀

      愛看劇的阿峰
      2026-02-24 16:22:35
      美稱中國一人工智能企業違反美出口管制,外交部:中方已多次表明原則立場

      美稱中國一人工智能企業違反美出口管制,外交部:中方已多次表明原則立場

      澎湃新聞
      2026-02-24 15:34:26
      馬筱梅產后照首曝光!狀態非常好,小七寶模樣像極了爸爸汪小菲!

      馬筱梅產后照首曝光!狀態非常好,小七寶模樣像極了爸爸汪小菲!

      情感大頭說說
      2026-02-24 20:03:02
      美股科技七巨頭盤前多數反彈

      美股科技七巨頭盤前多數反彈

      財聯社
      2026-02-24 19:42:06
      17歲媽祖女孩口碑反轉!被扒曾帶貨,說不巡游又反悔,家人蠻橫!

      17歲媽祖女孩口碑反轉!被扒曾帶貨,說不巡游又反悔,家人蠻橫!

      古希臘掌管松餅的神
      2026-02-24 16:40:56
      慈禧嘴里那顆8億的夜明珠,下落已經查明:被宋美齡賣給一位大亨

      慈禧嘴里那顆8億的夜明珠,下落已經查明:被宋美齡賣給一位大亨

      談史論天地
      2026-02-23 09:36:05
      劉強東投資50億進軍游艇產業,官宣品牌Sea Expandary

      劉強東投資50億進軍游艇產業,官宣品牌Sea Expandary

      鞭牛士
      2026-02-24 19:47:40
      烏軍已收復400平方千米!俄軍仍占據優勢,但真正的戰斗不在戰場

      烏軍已收復400平方千米!俄軍仍占據優勢,但真正的戰斗不在戰場

      鷹眼Defence
      2026-02-24 18:35:09
      12306半夜3點通知候補成功,當事人睡醒時列車已發車,1700元車票作廢;工作人員:發車后未乘車的車票僅可改簽

      12306半夜3點通知候補成功,當事人睡醒時列車已發車,1700元車票作廢;工作人員:發車后未乘車的車票僅可改簽

      揚子晚報
      2026-02-24 15:42:22
      21歲醫學生丁鈺晴去世,生活不規律常不吃早餐,長得漂亮令人惋惜

      21歲醫學生丁鈺晴去世,生活不規律常不吃早餐,長得漂亮令人惋惜

      180視角
      2026-02-24 11:50:44
      成都突然宣布!砸下3500億,一場前所未有的大動作正式啟動!

      成都突然宣布!砸下3500億,一場前所未有的大動作正式啟動!

      原廣工業
      2026-02-24 12:23:23
      雷軍公布改款小米SU7新配色:赤霞紅

      雷軍公布改款小米SU7新配色:赤霞紅

      界面新聞
      2026-02-24 09:48:13
      這些“不吉祥花”,養在家里“花旺人不旺”,別再把它們當作寶了

      這些“不吉祥花”,養在家里“花旺人不旺”,別再把它們當作寶了

      三農老歷
      2026-02-22 19:23:10
      明起南方維持多雨模式 廣東將迎強對流天氣

      明起南方維持多雨模式 廣東將迎強對流天氣

      新快報新聞
      2026-02-24 11:03:07
      維穩辦不能變成欺壓辦,孫玉良:真正的穩定是讓弱勢群體揚眉吐氣

      維穩辦不能變成欺壓辦,孫玉良:真正的穩定是讓弱勢群體揚眉吐氣

      孫玉良
      2026-02-23 08:18:07
      美伊大戰很大可能不會爆發?大戰前夕美率先找到中國,意欲何為?

      美伊大戰很大可能不會爆發?大戰前夕美率先找到中國,意欲何為?

      聞識
      2026-02-24 19:58:55
      2026-02-24 20:47:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16315文章數 514648關注度
      往期回顧 全部

      科技要聞

      宇樹科技發布四足機器人Unitree As2

      頭條要聞

      20家日本實體被列入管制名單 中方:完全正當 合理合法

      頭條要聞

      20家日本實體被列入管制名單 中方:完全正當 合理合法

      體育要聞

      蘇翊鳴總結米蘭征程:我仍是那個熱愛單板滑雪的少年

      娛樂要聞

      汪小菲官宣三胎出生:承諾會照顧好3個孩子

      財經要聞

      縣城消費「限時繁榮」了十天

      汽車要聞

      入門即滿配 威蘭達AIR版上市 13.78萬元起

      態度原創

      手機
      家居
      旅游
      數碼
      房產

      手機要聞

      折疊屏大戰!OPPO Find N6與榮耀Magic V6均已官宣,選擇卻糾結了

      家居要聞

      本真棲居 愛暖伴流年

      旅游要聞

      春節假期北京昌平區實現旅游總花費10.3億元

      數碼要聞

      樹莓派5變身帶屏機箱,玩法升級!

      房產要聞

      330萬人涌入!春節全國樓市,第一個賣爆的區域出現了!

      無障礙瀏覽 進入關懷版