![]()
新智元報(bào)道
編輯:LRS
【新智元導(dǎo)讀】清華大學(xué)孫茂松團(tuán)隊(duì)從神經(jīng)元角度研究幻覺(jué)的微觀機(jī)制,發(fā)現(xiàn)極少數(shù)神經(jīng)元(H-神經(jīng)元)可預(yù)測(cè)幻覺(jué),且與過(guò)度順從行為相關(guān),其根源在預(yù)訓(xùn)練階段,為解決幻覺(jué)問(wèn)題提供了新思路,有助于開(kāi)發(fā)更可靠的大模型。
無(wú)論大型語(yǔ)言模型再怎么刷榜,但有一個(gè)幽靈「幻覺(jué)」始終徘徊在頭上,讓那些追求事實(shí)準(zhǔn)確性的領(lǐng)域任務(wù)(如金融、教育、醫(yī)療)不敢輕易地把AI結(jié)合到業(yè)務(wù)中。
幻覺(jué)是指模型生成看似合理但事實(shí)上不準(zhǔn)確或缺乏證據(jù)支持的輸出,比如GPT-3.5 在基于引用的事實(shí)性評(píng)估中約有40%的幻覺(jué)率,盡管GPT-4將幻覺(jué)率降低到28.6%,但仍然處于較高水平;以推理為中心的系統(tǒng)(如DeepSeek-R1)在復(fù)雜任務(wù)中表現(xiàn)出色,但也存在明顯的幻覺(jué)模式。
也就是說(shuō),無(wú)論模型架構(gòu)如何,幻覺(jué)現(xiàn)象始終存在,是影響大模型可靠性的主要瓶頸。
現(xiàn)有的研究結(jié)果表明,幻覺(jué)背后的機(jī)制和因素大致可以分為三類:
從訓(xùn)練數(shù)據(jù)的角度來(lái)看,數(shù)據(jù)集分布不平衡和固有偏差使得模型難以準(zhǔn)確回憶長(zhǎng)尾事實(shí);
預(yù)訓(xùn)練和后訓(xùn)練階段的訓(xùn)練目標(biāo)主要是讓模型能夠自信地預(yù)測(cè),而非表達(dá)對(duì)「不熟悉信息」的「不確定性」,促使模型輸出錯(cuò)誤的猜測(cè)。預(yù)訓(xùn)練中的「next-token預(yù)測(cè)目標(biāo)」更注重「輸出流暢性」而非「事實(shí)準(zhǔn)確性」,指令微調(diào)和強(qiáng)化學(xué)習(xí)則傾向于生成「表面上有用」的回答。
解碼算法通過(guò)自回歸生成中的隨機(jī)性和誤差累積引入不穩(wěn)定性,使得微小偏差逐漸累積成幻覺(jué)。
目前的研究大多將大語(yǔ)言模型看作黑盒,在宏觀層面探討幻覺(jué)的原因,而忽略了在神經(jīng)元層面進(jìn)行微觀思考。
通過(guò)研究神經(jīng)元在幻覺(jué)中的激活模式,可以更深入地了解模型的可靠性;在可解釋性方面,神經(jīng)元層面的分析可以預(yù)測(cè)幻覺(jué)何時(shí)容易出現(xiàn);對(duì)于對(duì)齊和行為控制,神經(jīng)元提供了可操作的干預(yù)點(diǎn),例如激活或抑制特定的神經(jīng)元子集,從而可靠地修改模型輸出。
最近,清華大學(xué)孫茂松團(tuán)隊(duì)從神經(jīng)元的角度出發(fā),深入研究了LLM中幻覺(jué)的微觀機(jī)制,從三個(gè)視角(識(shí)別identification、行為影響behavior impact和起源origins)系統(tǒng)地研究了幻覺(jué)相關(guān)神經(jīng)元(H-Neurons)。
![]()
論文鏈接:https://arxiv.org/abs/2512.01797v2
在識(shí)別方面,研究人員證明了一個(gè)極少數(shù)的稀疏神經(jīng)元子集(少于總神經(jīng)元數(shù)量的0.1% )就能夠可靠地預(yù)測(cè)幻覺(jué),并在各種不同場(chǎng)景中展現(xiàn)出強(qiáng)大的泛化能力。
在行為影響方面,受控干預(yù)顯示這些神經(jīng)元與過(guò)度服從行為存在因果關(guān)系。
在起源方面,研究人員將這些神經(jīng)元追溯到預(yù)訓(xùn)練的基模型,并發(fā)現(xiàn)這些神經(jīng)元在幻覺(jué)檢測(cè)中仍然具有預(yù)測(cè)能力,表明幻覺(jué)是在預(yù)訓(xùn)練過(guò)程中產(chǎn)生的。
識(shí)別H-神經(jīng)元
![]()
為了從大型語(yǔ)言模型(LLMs)龐大的參數(shù)空間中識(shí)別出 H-神經(jīng)元,研究人員采用了稀疏線性探測(cè)方法,先利用CETT指標(biāo)(relu2wins)來(lái)量化每個(gè)神經(jīng)元對(duì)生成響應(yīng)的貢獻(xiàn),用于衡量神經(jīng)元在生成過(guò)程中的激活水平。
之后將幻覺(jué)檢測(cè)視為一個(gè)二元分類問(wèn)題,即根據(jù)神經(jīng)元的激活情況預(yù)測(cè)響應(yīng)是否為幻覺(jué),使用L1正則化的邏輯回歸訓(xùn)練稀疏分類器來(lái)自動(dòng)選擇最具預(yù)測(cè)性的神經(jīng)元,其中權(quán)重非零的神經(jīng)元被識(shí)別為H-神經(jīng)元。
那些權(quán)重非零的神經(jīng)元被識(shí)別為 H-神經(jīng)元。訓(xùn)練數(shù)據(jù)是從 TriviaQA 數(shù)據(jù)集中收集的,通過(guò)采樣每個(gè)問(wèn)題的多個(gè)響應(yīng),并根據(jù)事實(shí)正確性對(duì)它們進(jìn)行標(biāo)記。
![]()
針對(duì)六個(gè)主流大模型的幻覺(jué)檢測(cè)結(jié)果顯示,H-神經(jīng)元在檢測(cè)幻覺(jué)方面表現(xiàn)出顯著的魯棒性,在所有模型和評(píng)估場(chǎng)景中均一致且顯著優(yōu)于使用隨機(jī)選擇的神經(jīng)元構(gòu)建的分類器,準(zhǔn)確率提升超過(guò)10個(gè)百分點(diǎn)。
分類器在不同場(chǎng)景下均展現(xiàn)出優(yōu)越性能:領(lǐng)域內(nèi)數(shù)據(jù)集(TriviaQA和NQ)上實(shí)現(xiàn)了高準(zhǔn)確率,在跨領(lǐng)域的生物醫(yī)學(xué)問(wèn)題(BioASQ)上實(shí)現(xiàn)了泛化能力,并且在虛構(gòu)問(wèn)題(NonExist)上仍保持有效性。
在熟悉的知識(shí)回憶、領(lǐng)域轉(zhuǎn)移和完全虛構(gòu)場(chǎng)景下的一致表現(xiàn)表明,H-神經(jīng)元捕捉到了可泛化的幻覺(jué)模式,而非特定于數(shù)據(jù)集的特征。
值得注意的是,H-神經(jīng)元是模型總神經(jīng)元中一個(gè)極為稀疏的子集,通常僅占模型中所有神經(jīng)元的不到千分之一,但這一小部分神經(jīng)元卻提供了足夠的信號(hào)來(lái)可靠地檢測(cè)幻覺(jué),表明模型參數(shù)的一個(gè)緊湊子集包含了大量關(guān)于幻覺(jué)傾向的信息。
H-神經(jīng)元的行為影響
雖然預(yù)測(cè)準(zhǔn)確性表明了相關(guān)性,但想確定「H-神經(jīng)元在塑造模型行為中發(fā)揮了什么功能?」,還需要從觀察轉(zhuǎn)向干預(yù)。
研究人員設(shè)計(jì)了一種系統(tǒng)性的擾動(dòng)方法,在不重新訓(xùn)練模型的情況下調(diào)節(jié)神經(jīng)元在推理過(guò)程中的貢獻(xiàn):
對(duì)于每個(gè)目標(biāo)神經(jīng)元,將激活值乘以一個(gè)縮放因子α,其中α的取值范圍是0到3;當(dāng)α小于1時(shí),會(huì)通過(guò)降低激活強(qiáng)度來(lái)抑制神經(jīng)元的影響;當(dāng)α等于1時(shí),保持模型的原始行為;當(dāng)α大于1時(shí),通過(guò)增加激活幅度來(lái)增強(qiáng)其對(duì)模型回復(fù)的貢獻(xiàn)。
目前的研究普遍認(rèn)為幻覺(jué)是模型為了追求更高準(zhǔn)確率而傾向于冒險(xiǎn)猜測(cè),研究人員提出了一個(gè)補(bǔ)充性的觀點(diǎn):冒險(xiǎn)行為是「過(guò)度順從」,即模型傾向于滿足用戶請(qǐng)求,即使這樣做會(huì)損害真實(shí)性、安全性或完整性。
例如,當(dāng)模型為了回答「一個(gè)無(wú)法回答的問(wèn)題」而生成幻覺(jué)內(nèi)容時(shí),它是在優(yōu)先考慮人類期望得到答案的潛意識(shí),而非承認(rèn)不確定或知識(shí)的邊界,類似于人類可能因社交需求而撒謊的情況。
如果H-神經(jīng)元編碼了過(guò)度順從,那么操縱這些神經(jīng)元不僅會(huì)影響模型在事實(shí)性問(wèn)題上的行為,還會(huì)影響其他表現(xiàn)出過(guò)度順從的任務(wù)。
![]()
實(shí)驗(yàn)結(jié)果來(lái)看,神經(jīng)元的縮放因子與模型的順從率之間存在一致的正相關(guān),表明人為增強(qiáng)這些H-神經(jīng)元的激活值會(huì)顯著削弱模型對(duì)錯(cuò)誤前提、誤導(dǎo)性上下文、懷疑態(tài)度或有害指令的抵抗力,而抑制神經(jīng)元?jiǎng)t能有效減少過(guò)度順從行為,從而恢復(fù)模型的穩(wěn)健性和完整性。
模型對(duì)神經(jīng)元擾動(dòng)的易感性通常與參數(shù)規(guī)模呈反比關(guān)系,表明較小的模型更容易在內(nèi)部擾動(dòng)下發(fā)生劇烈的行為變化,而較大的模型可能具有更強(qiáng)的內(nèi)在穩(wěn)健性,從而減輕了增強(qiáng)特定神經(jīng)元群的影響。
行為反應(yīng)也并非在所有情況下都是嚴(yán)格單調(diào)的,某些模型在中間縮放因子時(shí)會(huì)出現(xiàn)順從率的波動(dòng)或臨時(shí)下降。
H-神經(jīng)元的起源
這些神經(jīng)元是在預(yù)訓(xùn)練階段產(chǎn)生的,還是后訓(xùn)練對(duì)齊過(guò)程中?
確定時(shí)間線決定了未來(lái)是應(yīng)該將緩解策略集中在「預(yù)訓(xùn)練過(guò)程」還是「對(duì)齊算法」上。
如果H-神經(jīng)元在基礎(chǔ)模型中就已經(jīng)顯示出獨(dú)特的激活模式,表明幻覺(jué)行為的根源在于預(yù)訓(xùn)練階段的表示,而不僅僅是通過(guò)監(jiān)督微調(diào)(SFT)誘導(dǎo)的對(duì)齊動(dòng)態(tài)。
![]()
研究人員進(jìn)行了兩項(xiàng)實(shí)驗(yàn)來(lái)分析H-神經(jīng)元,結(jié)果顯示,
H-神經(jīng)元對(duì)基礎(chǔ)模型的預(yù)測(cè)能力起到關(guān)鍵作用,證明了H-神經(jīng)元在預(yù)訓(xùn)練階段就已經(jīng)建立,而非來(lái)自后訓(xùn)練對(duì)齊;
歸一化排名的分布表明,從基礎(chǔ)模型到指令微調(diào)模型的轉(zhuǎn)變過(guò)程中,H神經(jīng)元的參數(shù)更新非常少,表明指令微調(diào)并不能重構(gòu)底層的幻覺(jué)機(jī)制。
結(jié)論
研究人員對(duì)大模型中幻覺(jué)的微觀機(jī)制進(jìn)行了系統(tǒng)的神經(jīng)元層面研究,通過(guò)彌合宏觀行為模式與微觀神經(jīng)激活之間的差距,回答了三個(gè)問(wèn)題:
H-神經(jīng)元的存在:模型中不到0.1%的神經(jīng)元可以準(zhǔn)確預(yù)測(cè)模型是否會(huì)生成幻覺(jué)響應(yīng);
對(duì)模型行為的影響:H-神經(jīng)元與大模型的過(guò)度順從行為密切相關(guān),包括對(duì)錯(cuò)誤前提的過(guò)度承諾、對(duì)誤導(dǎo)性上下文的更高敏感性、對(duì)有害指令的增加遵循以及更強(qiáng)的諂媚傾向。H-神經(jīng)元不僅僅編碼事實(shí)性錯(cuò)誤,而是代表了一種更普遍的傾向,即優(yōu)先考慮對(duì)話的順從性而非事實(shí)完整性。
H-神經(jīng)元起源于預(yù)訓(xùn)練階段,從學(xué)習(xí)理論角度提出的觀點(diǎn)提供了實(shí)證依據(jù),這些神經(jīng)元在基礎(chǔ)模型中保留了預(yù)測(cè)能,即使在微調(diào)之前也能成功檢測(cè)幻覺(jué)。
這項(xiàng)工作加深了對(duì)幻覺(jué)在計(jì)算層面產(chǎn)生的理解,并為開(kāi)發(fā)更可靠的大模型提供可操作的研究方向。
參考資料:
https://arxiv.org/abs/2512.01797
秒追ASI
?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點(diǎn)亮星標(biāo),鎖定新智元極速推送!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.