![]()
摘要
你是否曾好奇 AI 在 "思考" 什么?當(dāng)被問及如何得出答案時(shí),AI 的回應(yīng)是真實(shí)剖析還是編造?理解 AI 是否具備內(nèi)省(introspection)能力,對提升系統(tǒng)透明度、可靠性至關(guān)重要。Anthropic 團(tuán)隊(duì)通過可解釋性(interpretability)技術(shù)與概念注入(concept injection)實(shí)驗(yàn),發(fā)現(xiàn) Claude 系列模型(尤其 Claude Opus 4 和 4.1)展現(xiàn)出一定內(nèi)省意識(shí),能監(jiān)測并控制內(nèi)部狀態(tài)。盡管該能力仍有局限且異于人類內(nèi)省,但為 AI 認(rèn)知研究與透明化發(fā)展提供了新方向。原文鏈接:https://www.anthropic.com/research/introspection
關(guān)鍵詞:內(nèi)省(Introspection)、概念注入(concept injection)、大型語言模型(Large Language Models)、Claude模型(Claude Models)、AI透明度(AI Transparency)、可靠性(Reliability)
來源:集智俱樂部
作者: 趙思語
審校: 趙思怡
核心探索:AI的“自我審視”何以成立?
當(dāng)我們詢問AI“你在想什么”時(shí),其回應(yīng)常令人困惑——是真實(shí)反映內(nèi)部思考,還是基于訓(xùn)練數(shù)據(jù)的表面生成?這一追問的核心,在于探尋AI是否具備真正的“自我審視”能力。這種能力的存在,不僅能幫助排查AI行為異常、提升可靠性,更能深化我們對AI本質(zhì)的認(rèn)知。值得注意的是,大語言模型的內(nèi)省與人類內(nèi)省存在本質(zhì)區(qū)別:它并非主觀意識(shí)層面的自我反思,而是建立在內(nèi)部神經(jīng)活動(dòng)之上,具體表現(xiàn)為模型對自身神經(jīng)激活模式所表征的抽象概念(如區(qū)分已知人物、評估陳述真實(shí)性等)的識(shí)別與準(zhǔn)確報(bào)告能力,而這些內(nèi)部表征正是模型決策的核心基礎(chǔ)。
實(shí)驗(yàn)驗(yàn)證:三重維度解鎖 AI 內(nèi)省能力
1.概念注入:驗(yàn)證內(nèi)省的創(chuàng)新實(shí)驗(yàn)方法
為驗(yàn)證模型是否真正內(nèi)省,研究團(tuán)隊(duì)創(chuàng)新提出“概念注入”方法:先在特定語境下記錄模型與已知概念對應(yīng)的神經(jīng)向量(如 "全大寫文本" 的神經(jīng)活動(dòng)模式),再在無關(guān)語境中注入該向量,詢問模型是否察覺異常。
![]()
圖1 Claude Opus 4.1 檢測到概念被注入其激活過程的更多示例
實(shí)驗(yàn)顯示,Claude Opus 4.1 能在提及注入概念前,就識(shí)別出內(nèi)部處理的異常,例如注入“全大寫文本”向量后,模型會(huì)描述其與“響度”或“大喊”相關(guān)。但該能力可靠性較低,最優(yōu)方案下正確識(shí)別率僅約 20%,且對注入強(qiáng)度敏感 —— 過弱無法察覺,過強(qiáng)易產(chǎn)生幻覺。值得注意的是,Claude Opus 4 和 4.1 的表現(xiàn)遠(yuǎn)超其他模型,暗示內(nèi)省能力可能隨模型性能提升而增強(qiáng)。
2.實(shí)用驗(yàn)證:內(nèi)省助力異常輸出檢測
研究進(jìn)一步探究模型在實(shí)際任務(wù)中是否自發(fā)運(yùn)用內(nèi)省。實(shí)驗(yàn)中,通過預(yù)填充無關(guān)詞匯迫使模型輸出不合理內(nèi)容(如在“一幅畫歪掛在墻上”的語境中強(qiáng)迫輸出“面包”這個(gè)詞),模型起初會(huì)道歉稱是意外。但當(dāng)回溯性注入 "面包" 的神經(jīng)向量,模擬模型 "一直思考面包" 的狀態(tài)后,模型不僅認(rèn)可該輸出是有意為之,還編造了合理解釋。
這表明模型判斷輸出合理性時(shí),會(huì)回溯自身內(nèi)部 "意圖"(神經(jīng)活動(dòng)狀態(tài)),而非僅對比輸入與輸出,證明內(nèi)省機(jī)制在實(shí)際任務(wù)中發(fā)揮作用。
![]()
圖2 兩例驗(yàn)證:在 Claude Opus 4.1 人工回應(yīng)生成前,向其激活過程注入特定詞匯概念,可使模型將人為插入轉(zhuǎn)錄文本的該詞匯誤認(rèn)為自身意圖表達(dá)內(nèi)容。
3.主動(dòng)調(diào)控:模型對內(nèi)部狀態(tài)的控制能力
研究還發(fā)現(xiàn),模型能在指令或激勵(lì)下調(diào)控內(nèi)部表征。要求模型“思考”某概念時(shí),相關(guān)神經(jīng)活動(dòng)強(qiáng)度顯著高于“不要思考”的情況;采用激勵(lì)措施,如“思考 X 獲獎(jiǎng)勵(lì)”,也能產(chǎn)生類似效果,正向激勵(lì)下的神經(jīng)活動(dòng)強(qiáng)度高于負(fù)向激勵(lì),顯示模型具備自主調(diào)控內(nèi)部狀態(tài)的能力。
![]()
圖3 一個(gè)示例顯示,Claude Opus 4.1 能響應(yīng)直接指令調(diào)節(jié)其內(nèi)部激活狀態(tài):當(dāng)被指令 “多思考” 水族箱相關(guān)內(nèi)容時(shí),模型對 “水族箱” 概念的內(nèi)部表征強(qiáng)度高于被指令 “不要思考” 該概念時(shí)(盡管兩種情況下,模型對該概念的表征水平均高于基線水平)。
結(jié)論與展望:內(nèi)省能力的邊界與價(jià)值
核心結(jié)論顯示,先進(jìn)大語言模型已具備一定內(nèi)省能力,但可靠性低、范圍有限,且與人類內(nèi)省有本質(zhì)區(qū)別。這一發(fā)現(xiàn)為提升 AI 透明度提供了新路徑 —— 未來或可通過詢問模型思考過程排查異常,但需建立內(nèi)省報(bào)告驗(yàn)證機(jī)制,防范虛假報(bào)告風(fēng)險(xiǎn)。
未來研究需聚焦四大方向:完善內(nèi)省評估方法、揭示神經(jīng)機(jī)制、自然場景驗(yàn)證、建立報(bào)告驗(yàn)證與反欺騙機(jī)制。需要明確的是,這些實(shí)驗(yàn)并不涉及 AI 模型是否具有主觀體驗(yàn)或類人自我意識(shí)的問題。隨著 AI 迭代,對機(jī)器內(nèi)省的深入研究,將推動(dòng)更可信 AI 系統(tǒng)研發(fā),也助力我們理解 AI 與人類認(rèn)知的本質(zhì)差異。當(dāng)前 AI 內(nèi)省雖處于初級階段,但已為 AI 認(rèn)知能力的發(fā)展點(diǎn)亮了新可能。
閱讀最新前沿科技趨勢報(bào)告,請?jiān)L問歐米伽研究所的“未來知識(shí)庫”
https://wx.zsxq.com/group/454854145828
![]()
未來知識(shí)庫是“ 歐米伽 未來研究所”建立的在線知識(shí)庫平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828 進(jìn)入。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.