<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      清華00后揪出AI幻覺元兇:僅0.1%神經元,一按就老實

      0
      分享至

      近日,清華大學團隊從 AI 里找到了與幻覺產生高度關聯的少數“腦細胞”,并給它們起了一個名字 H-神經元(幻覺神經元)。他們發現撥動這些小開關能顯著調節 AI 的行為傾向——例如影響它是否會盲目聽從錯誤指令、甚至是否會產生有害回答。

      這一研究讓人們第一次清晰地看到幻覺是如何從機器的神經層面產生的。它可以幫助我們更好地檢測 AI 什么時候在撒謊,未來也可以通過微調這些小開關,造出更加誠實、更加可靠的 AI 助手。


      圖 | 高騁(來源:高騁)

      AI 幻覺從何而來?如何找到關鍵幻覺因素?

      對于大模型來說,我們可以把其想象成為一個由數千億個腦細胞(在 AI 里叫神經元)連接成的超級網絡。它通過閱讀互聯網的海量信息來學習,學習目標很簡單,就是根據前面的文字,預測下一個最有可能出現的詞語。比如看到“天空是什么顏色的”,它大概率會學會接“藍色的”。

      但這種學習方式埋下了一個隱患:模型只被訓練生成通順的文字,而不是正確的答案。當它遇到自己不確定或者根本沒學過的知識,為了完成只說出一個通順句子的任務,它就可能憑感覺編造出一個答案。

      此前,人們大多從整體上研究這個問題,比如檢查訓練數據是否有偏差,或者讓 AI 自己輸出置信度。但是,這就像只知道一個人發燒,卻不知道哪個器官感染了一樣。本次清華團隊的創新之處在于,他們決定拿起顯微鏡直接去觀察 AI 大腦內部里的數千萬甚至數億個神經元,看看當 AI 在撒謊的時候,到底是哪些神經元在活躍。


      (來源:資料圖)

      相關論文第一作者、清華大學碩士生高騁告訴 DeepTech:“目前工業界對減輕幻覺的關注相對有限,但學術界已做了許多努力。不過,多數研究仍停留在表層,將模型視為黑盒,通過后訓練、調整數據等方式打補丁,未能從根本上理解幻覺機制。因此,我們希望借鑒神經科學的思路,從模型內部神經元入手,真正理解幻覺的產生原理,為未來徹底解決該問題提供新的視角。”

      為此,高騁和所在團隊準備了一套尋找方法:

      首先,他們備好一批測試題和標準答案,使用了一個名為 TriviaQA 的知識問答數據集來向 AI 模型提問。對于每個問題,他們都讓 AI 生成很多遍答案。如果 AI 每次都能答對,這個答案就被標記為真實;如果 AI 每次都在同一個問題上犯錯,并且不是回答“我不知道”,而是堅定地給出錯誤答案,那么這個答案就被標記為幻覺。

      當 AI 生成答案的時候,他們使用了一套名為 CETT 的測量技術,仔細記錄下每個神經元的活躍度貢獻值,就像測量每個腦細胞在說出那個答案時付出了多大力氣一樣。研究人員特別關注答案關鍵詞比如“愛因斯坦”一詞被說出來的那一刻的神經元活動。

      然后,他們使用這些數據訓練了一個篩選器,即一個帶有稀疏約束的線性分類器。這個篩選器的任務很簡單:只看神經元的活躍度程度,就能判斷出 AI 剛才的回答是真實還是幻覺。結果發現:篩選器自動地把重要性權重幾乎都給了極少數的神經元,而其他絕大多數神經元的權重都變成了零。

      這些被選中的、權重為正的神經元就是 H-神經元。研究表明,它們只占模型總神經元數量的不到 0.1%。盡管數量稀少,但是它們就像一個明確的信號燈,意味著只要它們異常活躍,AI 就很有可能在編造事實。

      為了驗證這一發現的穩健性,研究人員在不同場景下測試了 H-神經元的偵察能力,包括常規知識問答能力比如 AI 是否記錯了學過的知識;包括跨領域專業問題以此來測試 AI 是否會在陌生領域瞎猜;包括完全虛構的問題以便測試 AI 是否會無中生有的編造。

      在這些情況下,基于 H-神經元的檢測器都有著出色表現,準確率遠遠高于隨機挑選的神經元。這證明它們捕捉到了不是某種特定問題的特征,而是 AI 編故事的通用內在模式。


      (來源:https://arxiv.org/pdf/2512.01797)

      撥動開關:H-神經元如何控制 AI 行為?

      只發現關聯還不夠,他們還想知道這些 H-神經元是元兇嗎?它們除了與事實錯誤相關,還會管別的事情嗎?

      于是,他們進行了一系列的腦部刺激試驗。在 AI 生成答案的過程中,像調節旋鈕一樣,人為地放大或者抑制這些 H-神經元的活躍度。

      結果發現;調節這些神經元,就等于調節了 AI 的順從度。

      在放大 H-神經元的時候,會讓 AI 變得更加聽話,但是這種類型的聽話是盲目的。它會更容易接受錯誤的前提比如認為貓是有羽毛的,以及更容易接受存在誤導性的上下文,更容易在用戶表示懷疑時放棄自己原本正確的答案,甚至更有可能突破安全限制區回答有害的指令。

      在抑制 H-神經元的時候,AI 則會變得更加堅定和更加誠實,它更傾向于拒絕錯誤的前提、質疑誤導信息、堅持正確的答案并遵守安全準則。

      這揭示了一個核心洞見:H-神經元編碼的并非簡單的對錯,而是一種過度順從的傾向。AI 產生幻覺本質上是為了滿足用于得到一個答案的期望,而過度順從則犧牲了事實性。這讓 AI 成了一個過于想討好別人而不得不撒謊的孩子。這個發現把事實性幻覺和安全性漏洞等看似不同的問題,通過過度順從這個共同根節點聯系了起來。


      (來源:https://arxiv.org/pdf/2512.01797)

      最后一個關鍵問題是:這些搗蛋的神經元是什么時候形成的?是在最初閱讀海量文本的預訓練階段就學會的?還是在后續的指令微調也就是教導 AI 聽從人類指令的階段被引入的?

      研究人員比較了只經過預訓練的基礎模型和經過后續調教的指令微調模型,借此發現:

      首先,H-神經元在基礎模型中就已經存在。使用指令微調模型中的 H-神經元去檢測基礎模型,依然可以有效預測幻覺,這說明編故事的神經基礎在早期學習就買下來種子。

      其次,指令微調幾乎不會改變 H-神經元。對比基礎模型和微調后的模型,H-神經元本身的參數變化非常小,遠低于網絡中其他神經元的平均變化程度。這意味著后續的調教并沒有修復或者顯著改變這些固有回路,只是繼承了它們。

      結論很清楚:幻覺的種子早在預訓練階段就已種下。因為預訓練的目標即預測下一個詞只獎勵流暢,不懲罰虛構。為了變得流暢,AI 不得不學會在空白知識處進行猜測,久而久之就形成了固定的編故事的神經回路。后續的指令微調,雖然讓 AI 變得更加樂于助人,但卻無意中強化了這種為了滿足用戶而順從甚至編造的傾向。

      “因此,這項研究的應用前景主要體現在兩方面:首先,由于神經元是模型中具體存在的單元,對其進行干預(激活或抑制)操作簡便,無需重新訓練模型,這為緩解幻覺提供了新方法;其次,它啟發我們重新思考預訓練目標的設計,引入對事實性、不確定性建模的機制,從而在源頭緩解幻覺。”高騁表示。

      參考資料:

      相關論文 https://arxiv.org/pdf/2512.01797

      運營/排版:何晨龍

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      梁靜茹突然關閉社交媒體賬號!近日因身材變化引發熱議

      梁靜茹突然關閉社交媒體賬號!近日因身材變化引發熱議

      魯中晨報
      2026-01-08 18:29:08
      結果不錯但場面難看,安東尼奧臨場現“敗筆”,李昊拯救U22國足

      結果不錯但場面難看,安東尼奧臨場現“敗筆”,李昊拯救U22國足

      中國足球的那些事兒
      2026-01-09 00:45:57
      成功引渡“電詐太子”陳志,中方查扣為何慢了美國一步?

      成功引渡“電詐太子”陳志,中方查扣為何慢了美國一步?

      法經社
      2026-01-08 13:01:34
      湖北省經濟和信息化廳原副廳長郭濤接受審查調查

      湖北省經濟和信息化廳原副廳長郭濤接受審查調查

      界面新聞
      2026-01-08 15:34:45
      創NBA生涯紀錄!楊瀚森連7戰登場入輪轉 被抓出兩道血痕引爭議

      創NBA生涯紀錄!楊瀚森連7戰登場入輪轉 被抓出兩道血痕引爭議

      醉臥浮生
      2026-01-08 13:55:19
      她明明比吳越漂亮,也比曾黎年輕,可于和偉2次合作都沒讓她火

      她明明比吳越漂亮,也比曾黎年輕,可于和偉2次合作都沒讓她火

      大眼妹妹
      2026-01-06 23:37:15
      楊瀚森半場連打10分鐘!防守+體能蛻變,組織亮眼,對史密斯不虛

      楊瀚森半場連打10分鐘!防守+體能蛻變,組織亮眼,對史密斯不虛

      籃球資訊達人
      2026-01-08 12:13:41
      湖南省農村信用社聯合社黨委副書記蔣俊文接受審查調查

      湖南省農村信用社聯合社黨委副書記蔣俊文接受審查調查

      界面新聞
      2026-01-08 17:03:54
      給人養了7年閑人,廣汽終于要關閉洛杉磯的研發中心

      給人養了7年閑人,廣汽終于要關閉洛杉磯的研發中心

      與車同樂
      2025-12-04 10:05:02
      私拉電線!多輛房車長期停放深圳公園停車場

      私拉電線!多輛房車長期停放深圳公園停車場

      深圳晚報
      2026-01-08 12:47:09
      特朗普強硬表態,誰敢攔截對臺軍售就對誰開戰,美國軍工股暴漲

      特朗普強硬表態,誰敢攔截對臺軍售就對誰開戰,美國軍工股暴漲

      我心縱橫天地間
      2026-01-07 16:57:21
      調查發現:癌癥患者過了79歲,基本都有這3現狀,坦然接受即可!

      調查發現:癌癥患者過了79歲,基本都有這3現狀,坦然接受即可!

      墜入二次元的海洋
      2025-12-30 10:26:08
      閆學晶報應來了!代言品牌或要解約,評論區淪陷,春晚節目疑落空

      閆學晶報應來了!代言品牌或要解約,評論區淪陷,春晚節目疑落空

      小徐講八卦
      2026-01-06 08:32:20
      伊朗抗議者多個城市與教士集團交火,庫爾德武裝拔劍而起

      伊朗抗議者多個城市與教士集團交火,庫爾德武裝拔劍而起

      史政先鋒
      2026-01-08 19:32:48
      一位大爺的旅游照火了!網友辣評:抑制了我的旅游欲

      一位大爺的旅游照火了!網友辣評:抑制了我的旅游欲

      攝影技巧入門教程
      2026-01-08 15:37:56
      難怪美軍長驅直入,中俄雷達全都停止搜索,委內瑞拉把好牌打爛

      難怪美軍長驅直入,中俄雷達全都停止搜索,委內瑞拉把好牌打爛

      詩意世界
      2026-01-05 19:54:53
      上海男籃又要破紀錄了?

      上海男籃又要破紀錄了?

      新民晚報
      2026-01-08 10:10:34
      我國5600余個姓氏中只有8個姓氏從未衰落,看一下有你的姓氏嗎?

      我國5600余個姓氏中只有8個姓氏從未衰落,看一下有你的姓氏嗎?

      銘記歷史呀
      2026-01-07 02:22:59
      一定要大量讀書:參悟天道秘密,最值得讀的8本書

      一定要大量讀書:參悟天道秘密,最值得讀的8本書

      欣辰讀書
      2026-01-07 23:01:47
      萬萬沒想到!美國對華最大的失算,是讓中國90后、00后徹底清醒了

      萬萬沒想到!美國對華最大的失算,是讓中國90后、00后徹底清醒了

      遠方風林
      2026-01-07 11:40:08
      2026-01-09 01:15:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16097文章數 514462關注度
      往期回顧 全部

      科技要聞

      智譜拿下“全球大模型第一股”,憑什么

      頭條要聞

      19歲小伙在柬疑被16萬轉賣 與母親視頻時按"酒窩"求救

      頭條要聞

      19歲小伙在柬疑被16萬轉賣 與母親視頻時按"酒窩"求救

      體育要聞

      世乒賽銀牌得主,說自己夢里都是孫穎莎

      娛樂要聞

      抗戰劇《馬背搖籃》首播,獲觀眾好評

      財經要聞

      微軟CTO韋青:未來人類會花錢"戒手機"

      汽車要聞

      從量變到"智"變 吉利在CES打出了五張牌

      態度原創

      本地
      時尚
      藝術
      家居
      公開課

      本地新聞

      1986-2026,一通電話的時空旅程

      珍珠專場|| 無論18歲還是80歲,總是會為它再一次心動

      藝術要聞

      震撼!阿森西奧的人體繪畫揭示情感的深淵!

      家居要聞

      理性主義 冷調自由居所

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 人人澡av| 亚洲小视频网站| 97伦伦午夜电影理伦片| 草草地址线路①屁屁影院成人| 亚洲成人在线资源| 亚洲一区二区约美女探花| chinese性内射高清国产| 国产成人精品一区二区三区免费| 免费无码国产欧美久久18| 使劲快高潮了国语对白在线| 内射视频在线观看| 亚洲人成电影网站图片| 亚洲中文字幕无码av永久| 亚洲综合精品在线观看中文字幕| √新版天堂资源在线资源| 师宗县| 日韩精品av一区二区三区| 国产va在线播放| 亚洲欧洲人妻| 国产精自产拍久久久久久蜜| 国产人成无码视频在线| 一级做a爰片在线播放| 亚洲欧美电影在线一区二区| 亚洲中文精品久久久久久不卡 | 湘潭市| 大胸少妇午夜三级| 99国产欧美精品久久久蜜芽| 99久久国产综合精品女图图等你| 超碰人人人| 无码中文字幕乱码一区| 亚洲中文字幕永久在线全国| 久久国产成人午夜av影院| AV亚洲?电影AV?AV天堂| 一本色道久久88亚洲精品综合| 女人天堂av| 欧美88888| 亚洲精品www久久久久久| 蜜桃在线免费观看网站| 国产v综合v亚洲欧美大天堂| 野外少妇被弄到喷水在线观看| 伊人99|