近日,神經信息處理系統大會(Conference and Workshop on Neural Information Processing Systems, NeurIPS)公布了2025年會議論文錄用結果。令人矚目的是山東省初三學生姬世豪作為第一作者的研究成果 “Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models”(Credal Transformer:一種量化和緩解大語言模型幻覺的原則性方法)被NeurIPS 2025 Workshop on Reliable ML錄用。
當前,大語言模型在文本生成方面展現了非凡的能力,但其廣泛應用面臨著一個嚴峻挑戰——幻覺現象,即模型會生成事實錯誤但置信度極高的斷言。這一問題嚴重制約了LLMs在關鍵領域的可靠性。姬世豪的研究指出,幻覺問題的根源可能深植于Transformer架構本身,特別是其注意力機制中的Softmax函數。該函數會將潛在的、模糊的注意力分數強制歸一化為單一的概率分布,從而在每一層都丟棄了關于模型不確定性的關鍵信息。這種“人造確定性”在模型深層傳播和累積,最終導致模型對虛構內容產生過度自信的預測。針對這一核心問題,該研究提出了 Credal Transformer,一種新穎的模型架構。該架構用憑證注意力機制(Credal Attention Mechanism, CAM)取代了標準的注意力機制。CAM基于證據理論,不再生成單一的注意力向量,而是輸出一個憑證集,即一個由多種可能分布構成的凸集。該集合的大小直接、可微地度量了模型的認知不確定性。當模型有充分證據時,該集合會收縮為單一精準的分布,表現與標準注意力機制類似;而當證據不足時,該集合會擴大,明確地表達了模型對于“知識盲區”的認知。實驗結果表明,Credal Transformer在多個任務上表現出色。它能夠通過產生高熵輸出來有效識別分布外的未知輸入,并準確量化輸入中的模糊性。在問答任務基準測試中,當面對無法回答的問題時,該模型能夠主動選擇棄權,從而顯著減少了高置信度的錯誤回答。該成果不僅為解決大模型幻覺問題提供了一個具體的、可落地的架構方案,更倡導了一種將不確定性量化作為模型內在核心功能的設計范式。Credal Transformer為開發更可靠、更值得信賴,且能夠“自知其無知”的下一代人工智能系統奠定了堅實的理論與架構基礎。
NeurIPS是人工智能和機器學習領域的國際頂級學術會議,以其嚴格的評審標準和巨大的學術影響力而著稱,每年吸引全球頂尖學者與行業領袖參與。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.