AI 也會(huì)“自我反思”？Claude 模型現(xiàn)內(nèi)省跡象，大語言模型認(rèn)知新突破

2025-12-07 16:32:29　來源: 人工智能學(xué)家

北京舉報(bào)

分享至

摘要

你是否曾好奇 AI 在 "思考" 什么？當(dāng)被問及如何得出答案時(shí)，AI 的回應(yīng)是真實(shí)剖析還是編造？理解 AI 是否具備內(nèi)省（introspection）能力，對提升系統(tǒng)透明度、可靠性至關(guān)重要。Anthropic 團(tuán)隊(duì)通過可解釋性（interpretability）技術(shù)與概念注入（concept injection）實(shí)驗(yàn)，發(fā)現(xiàn) Claude 系列模型（尤其 Claude Opus 4 和 4.1）展現(xiàn)出一定內(nèi)省意識(shí)，能監(jiān)測并控制內(nèi)部狀態(tài)。盡管該能力仍有局限且異于人類內(nèi)省，但為 AI 認(rèn)知研究與透明化發(fā)展提供了新方向。原文鏈接：https://www.anthropic.com/research/introspection

關(guān)鍵詞：內(nèi)省（Introspection）、概念注入（concept injection）、大型語言模型（Large Language Models）、Claude模型（Claude Models）、AI透明度（AI Transparency）、可靠性（Reliability）

來源：集智俱樂部

作者： 趙思語

審校： 趙思怡

核心探索：AI的“自我審視”何以成立？

當(dāng)我們詢問AI“你在想什么”時(shí)，其回應(yīng)常令人困惑——是真實(shí)反映內(nèi)部思考，還是基于訓(xùn)練數(shù)據(jù)的表面生成？這一追問的核心，在于探尋AI是否具備真正的“自我審視”能力。這種能力的存在，不僅能幫助排查AI行為異常、提升可靠性，更能深化我們對AI本質(zhì)的認(rèn)知。值得注意的是，大語言模型的內(nèi)省與人類內(nèi)省存在本質(zhì)區(qū)別：它并非主觀意識(shí)層面的自我反思，而是建立在內(nèi)部神經(jīng)活動(dòng)之上，具體表現(xiàn)為模型對自身神經(jīng)激活模式所表征的抽象概念（如區(qū)分已知人物、評估陳述真實(shí)性等）的識(shí)別與準(zhǔn)確報(bào)告能力，而這些內(nèi)部表征正是模型決策的核心基礎(chǔ)。

實(shí)驗(yàn)驗(yàn)證：三重維度解鎖 AI 內(nèi)省能力

1.概念注入：驗(yàn)證內(nèi)省的創(chuàng)新實(shí)驗(yàn)方法

為驗(yàn)證模型是否真正內(nèi)省，研究團(tuán)隊(duì)創(chuàng)新提出“概念注入”方法：先在特定語境下記錄模型與已知概念對應(yīng)的神經(jīng)向量（如 "全大寫文本" 的神經(jīng)活動(dòng)模式），再在無關(guān)語境中注入該向量，詢問模型是否察覺異常。

圖1 Claude Opus 4.1 檢測到概念被注入其激活過程的更多示例

實(shí)驗(yàn)顯示，Claude Opus 4.1 能在提及注入概念前，就識(shí)別出內(nèi)部處理的異常，例如注入“全大寫文本”向量后，模型會(huì)描述其與“響度”或“大喊”相關(guān)。但該能力可靠性較低，最優(yōu)方案下正確識(shí)別率僅約 20%，且對注入強(qiáng)度敏感 —— 過弱無法察覺，過強(qiáng)易產(chǎn)生幻覺。值得注意的是，Claude Opus 4 和 4.1 的表現(xiàn)遠(yuǎn)超其他模型，暗示內(nèi)省能力可能隨模型性能提升而增強(qiáng)。

2.實(shí)用驗(yàn)證：內(nèi)省助力異常輸出檢測

研究進(jìn)一步探究模型在實(shí)際任務(wù)中是否自發(fā)運(yùn)用內(nèi)省。實(shí)驗(yàn)中，通過預(yù)填充無關(guān)詞匯迫使模型輸出不合理內(nèi)容（如在“一幅畫歪掛在墻上”的語境中強(qiáng)迫輸出“面包”這個(gè)詞），模型起初會(huì)道歉稱是意外。但當(dāng)回溯性注入 "面包" 的神經(jīng)向量，模擬模型 "一直思考面包" 的狀態(tài)后，模型不僅認(rèn)可該輸出是有意為之，還編造了合理解釋。

這表明模型判斷輸出合理性時(shí)，會(huì)回溯自身內(nèi)部 "意圖"（神經(jīng)活動(dòng)狀態(tài)），而非僅對比輸入與輸出，證明內(nèi)省機(jī)制在實(shí)際任務(wù)中發(fā)揮作用。

圖2 兩例驗(yàn)證：在 Claude Opus 4.1 人工回應(yīng)生成前，向其激活過程注入特定詞匯概念，可使模型將人為插入轉(zhuǎn)錄文本的該詞匯誤認(rèn)為自身意圖表達(dá)內(nèi)容。

3.主動(dòng)調(diào)控：模型對內(nèi)部狀態(tài)的控制能力

研究還發(fā)現(xiàn)，模型能在指令或激勵(lì)下調(diào)控內(nèi)部表征。要求模型“思考”某概念時(shí)，相關(guān)神經(jīng)活動(dòng)強(qiáng)度顯著高于“不要思考”的情況；采用激勵(lì)措施，如“思考 X 獲獎(jiǎng)勵(lì)”，也能產(chǎn)生類似效果，正向激勵(lì)下的神經(jīng)活動(dòng)強(qiáng)度高于負(fù)向激勵(lì)，顯示模型具備自主調(diào)控內(nèi)部狀態(tài)的能力。

圖3 一個(gè)示例顯示，Claude Opus 4.1 能響應(yīng)直接指令調(diào)節(jié)其內(nèi)部激活狀態(tài)：當(dāng)被指令 “多思考” 水族箱相關(guān)內(nèi)容時(shí)，模型對 “水族箱” 概念的內(nèi)部表征強(qiáng)度高于被指令 “不要思考” 該概念時(shí)（盡管兩種情況下，模型對該概念的表征水平均高于基線水平）。

結(jié)論與展望：內(nèi)省能力的邊界與價(jià)值

核心結(jié)論顯示，先進(jìn)大語言模型已具備一定內(nèi)省能力，但可靠性低、范圍有限，且與人類內(nèi)省有本質(zhì)區(qū)別。這一發(fā)現(xiàn)為提升 AI 透明度提供了新路徑 —— 未來或可通過詢問模型思考過程排查異常，但需建立內(nèi)省報(bào)告驗(yàn)證機(jī)制，防范虛假報(bào)告風(fēng)險(xiǎn)。

未來研究需聚焦四大方向：完善內(nèi)省評估方法、揭示神經(jīng)機(jī)制、自然場景驗(yàn)證、建立報(bào)告驗(yàn)證與反欺騙機(jī)制。需要明確的是，這些實(shí)驗(yàn)并不涉及 AI 模型是否具有主觀體驗(yàn)或類人自我意識(shí)的問題。隨著 AI 迭代，對機(jī)器內(nèi)省的深入研究，將推動(dòng)更可信 AI 系統(tǒng)研發(fā)，也助力我們理解 AI 與人類認(rèn)知的本質(zhì)差異。當(dāng)前 AI 內(nèi)省雖處于初級階段，但已為 AI 認(rèn)知能力的發(fā)展點(diǎn)亮了新可能。

閱讀最新前沿科技趨勢報(bào)告，請?jiān)L問歐米伽研究所的“未來知識(shí)庫”

https://wx.zsxq.com/group/454854145828

未來知識(shí)庫是“ 歐米伽未來研究所”建立的在線知識(shí)庫平臺(tái)，收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能，數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828 進(jìn)入。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.