<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      AI 也會(huì)“自我反思”?Claude 模型現(xiàn)內(nèi)省跡象,大語言模型認(rèn)知新突破

      0
      分享至


      摘要

      你是否曾好奇 AI 在 "思考" 什么?當(dāng)被問及如何得出答案時(shí),AI 的回應(yīng)是真實(shí)剖析還是編造?理解 AI 是否具備內(nèi)省(introspection)能力,對提升系統(tǒng)透明度、可靠性至關(guān)重要。Anthropic 團(tuán)隊(duì)通過可解釋性(interpretability)技術(shù)與概念注入(concept injection)實(shí)驗(yàn),發(fā)現(xiàn) Claude 系列模型(尤其 Claude Opus 4 和 4.1)展現(xiàn)出一定內(nèi)省意識(shí),能監(jiān)測并控制內(nèi)部狀態(tài)。盡管該能力仍有局限且異于人類內(nèi)省,但為 AI 認(rèn)知研究與透明化發(fā)展提供了新方向。原文鏈接:https://www.anthropic.com/research/introspection

      關(guān)鍵詞:內(nèi)省(Introspection)、概念注入(concept injection)、大型語言模型(Large Language Models)、Claude模型(Claude Models)、AI透明度(AI Transparency)、可靠性(Reliability)

      來源:集智俱樂部

      作者: 趙思語

      審校: 趙思怡

      核心探索:AI的“自我審視”何以成立?

      當(dāng)我們詢問AI“你在想什么”時(shí),其回應(yīng)常令人困惑——是真實(shí)反映內(nèi)部思考,還是基于訓(xùn)練數(shù)據(jù)的表面生成?這一追問的核心,在于探尋AI是否具備真正的“自我審視”能力。這種能力的存在,不僅能幫助排查AI行為異常、提升可靠性,更能深化我們對AI本質(zhì)的認(rèn)知。值得注意的是,大語言模型的內(nèi)省與人類內(nèi)省存在本質(zhì)區(qū)別:它并非主觀意識(shí)層面的自我反思,而是建立在內(nèi)部神經(jīng)活動(dòng)之上,具體表現(xiàn)為模型對自身神經(jīng)激活模式所表征的抽象概念(如區(qū)分已知人物、評估陳述真實(shí)性等)的識(shí)別與準(zhǔn)確報(bào)告能力,而這些內(nèi)部表征正是模型決策的核心基礎(chǔ)。

      實(shí)驗(yàn)驗(yàn)證:三重維度解鎖 AI 內(nèi)省能力

      1.概念注入:驗(yàn)證內(nèi)省的創(chuàng)新實(shí)驗(yàn)方法

      為驗(yàn)證模型是否真正內(nèi)省,研究團(tuán)隊(duì)創(chuàng)新提出“概念注入”方法:先在特定語境下記錄模型與已知概念對應(yīng)的神經(jīng)向量(如 "全大寫文本" 的神經(jīng)活動(dòng)模式),再在無關(guān)語境中注入該向量,詢問模型是否察覺異常。


      圖1 Claude Opus 4.1 檢測到概念被注入其激活過程的更多示例

      實(shí)驗(yàn)顯示,Claude Opus 4.1 能在提及注入概念前,就識(shí)別出內(nèi)部處理的異常,例如注入“全大寫文本”向量后,模型會(huì)描述其與“響度”或“大喊”相關(guān)。但該能力可靠性較低,最優(yōu)方案下正確識(shí)別率僅約 20%,且對注入強(qiáng)度敏感 —— 過弱無法察覺,過強(qiáng)易產(chǎn)生幻覺。值得注意的是,Claude Opus 4 和 4.1 的表現(xiàn)遠(yuǎn)超其他模型,暗示內(nèi)省能力可能隨模型性能提升而增強(qiáng)。

      2.實(shí)用驗(yàn)證:內(nèi)省助力異常輸出檢測

      研究進(jìn)一步探究模型在實(shí)際任務(wù)中是否自發(fā)運(yùn)用內(nèi)省。實(shí)驗(yàn)中,通過預(yù)填充無關(guān)詞匯迫使模型輸出不合理內(nèi)容(如在“一幅畫歪掛在墻上”的語境中強(qiáng)迫輸出“面包”這個(gè)詞),模型起初會(huì)道歉稱是意外。但當(dāng)回溯性注入 "面包" 的神經(jīng)向量,模擬模型 "一直思考面包" 的狀態(tài)后,模型不僅認(rèn)可該輸出是有意為之,還編造了合理解釋。

      這表明模型判斷輸出合理性時(shí),會(huì)回溯自身內(nèi)部 "意圖"(神經(jīng)活動(dòng)狀態(tài)),而非僅對比輸入與輸出,證明內(nèi)省機(jī)制在實(shí)際任務(wù)中發(fā)揮作用。


      圖2 兩例驗(yàn)證:在 Claude Opus 4.1 人工回應(yīng)生成前,向其激活過程注入特定詞匯概念,可使模型將人為插入轉(zhuǎn)錄文本的該詞匯誤認(rèn)為自身意圖表達(dá)內(nèi)容。

      3.主動(dòng)調(diào)控:模型對內(nèi)部狀態(tài)的控制能力

      研究還發(fā)現(xiàn),模型能在指令或激勵(lì)下調(diào)控內(nèi)部表征。要求模型“思考”某概念時(shí),相關(guān)神經(jīng)活動(dòng)強(qiáng)度顯著高于“不要思考”的情況;采用激勵(lì)措施,如“思考 X 獲獎(jiǎng)勵(lì)”,也能產(chǎn)生類似效果,正向激勵(lì)下的神經(jīng)活動(dòng)強(qiáng)度高于負(fù)向激勵(lì),顯示模型具備自主調(diào)控內(nèi)部狀態(tài)的能力。


      圖3 一個(gè)示例顯示,Claude Opus 4.1 能響應(yīng)直接指令調(diào)節(jié)其內(nèi)部激活狀態(tài):當(dāng)被指令 “多思考” 水族箱相關(guān)內(nèi)容時(shí),模型對 “水族箱” 概念的內(nèi)部表征強(qiáng)度高于被指令 “不要思考” 該概念時(shí)(盡管兩種情況下,模型對該概念的表征水平均高于基線水平)。

      結(jié)論與展望:內(nèi)省能力的邊界與價(jià)值

      核心結(jié)論顯示,先進(jìn)大語言模型已具備一定內(nèi)省能力,但可靠性低、范圍有限,且與人類內(nèi)省有本質(zhì)區(qū)別。這一發(fā)現(xiàn)為提升 AI 透明度提供了新路徑 —— 未來或可通過詢問模型思考過程排查異常,但需建立內(nèi)省報(bào)告驗(yàn)證機(jī)制,防范虛假報(bào)告風(fēng)險(xiǎn)。

      未來研究需聚焦四大方向:完善內(nèi)省評估方法、揭示神經(jīng)機(jī)制、自然場景驗(yàn)證、建立報(bào)告驗(yàn)證與反欺騙機(jī)制。需要明確的是,這些實(shí)驗(yàn)并不涉及 AI 模型是否具有主觀體驗(yàn)或類人自我意識(shí)的問題。隨著 AI 迭代,對機(jī)器內(nèi)省的深入研究,將推動(dòng)更可信 AI 系統(tǒng)研發(fā),也助力我們理解 AI 與人類認(rèn)知的本質(zhì)差異。當(dāng)前 AI 內(nèi)省雖處于初級階段,但已為 AI 認(rèn)知能力的發(fā)展點(diǎn)亮了新可能。

      閱讀最新前沿科技趨勢報(bào)告,請?jiān)L問歐米伽研究所的“未來知識(shí)庫”

      https://wx.zsxq.com/group/454854145828


      未來知識(shí)庫是“ 歐米伽 未來研究所”建立的在線知識(shí)庫平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828 進(jìn)入。


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      沒變胖!哈蘭德社媒曬稱重照片,嚴(yán)格遵循瓜帥的體重管理要求

      沒變胖!哈蘭德社媒曬稱重照片,嚴(yán)格遵循瓜帥的體重管理要求

      懂球帝
      2025-12-26 01:44:42
      火箭隊(duì)極限變陣,31歲大閘遭棄用,效果未達(dá)最佳

      火箭隊(duì)極限變陣,31歲大閘遭棄用,效果未達(dá)最佳

      籃球看比賽
      2025-12-26 10:29:39
      跨境圈炸鍋,深圳物流公司暴雷跑路,有賣家損失1500萬

      跨境圈炸鍋,深圳物流公司暴雷跑路,有賣家損失1500萬

      跨境派Pro
      2025-12-25 17:40:03
      《阿凡達(dá)》北美內(nèi)地雙遇冷,全球觀眾給卡梅隆上了沉重的一課

      《阿凡達(dá)》北美內(nèi)地雙遇冷,全球觀眾給卡梅隆上了沉重的一課

      得得電影
      2025-12-24 14:31:14
      CBA又殺出一黑馬!反超廣東升至第3,遼寧輸32分,送衛(wèi)冕冠軍登頂

      CBA又殺出一黑馬!反超廣東升至第3,遼寧輸32分,送衛(wèi)冕冠軍登頂

      侃球熊弟
      2025-12-25 22:47:29
      2月27日,美國司法部首次公布了“蘿莉島”相關(guān)案件,

      2月27日,美國司法部首次公布了“蘿莉島”相關(guān)案件,

      現(xiàn)代小青青慕慕
      2025-12-25 20:14:26
      準(zhǔn)備錐子、鐵錘等工具企圖對30多人動(dòng)刑!尹錫悅宣布戒嚴(yán)當(dāng)晚,金建希與其激烈爭吵:因?yàn)槟闳阍伊耍√貦z組:他還試圖誘導(dǎo)朝鮮武力攻擊

      準(zhǔn)備錐子、鐵錘等工具企圖對30多人動(dòng)刑!尹錫悅宣布戒嚴(yán)當(dāng)晚,金建希與其激烈爭吵:因?yàn)槟闳阍伊耍√貦z組:他還試圖誘導(dǎo)朝鮮武力攻擊

      每日經(jīng)濟(jì)新聞
      2025-12-16 09:09:04
      冠軍在丹佛心跳在馬廄 約基奇親述與馬為伴的快樂

      冠軍在丹佛心跳在馬廄 約基奇親述與馬為伴的快樂

      體壇周報(bào)
      2025-12-25 18:54:09
      西貝賈國龍回應(yīng)一切:悔不該硬鋼羅永浩

      西貝賈國龍回應(yīng)一切:悔不該硬鋼羅永浩

      藍(lán)媒匯財(cái)經(jīng)plus
      2025-12-25 14:08:52
      臺(tái)灣青年實(shí)拍!島內(nèi)隨處可見“臺(tái)灣省”車牌

      臺(tái)灣青年實(shí)拍!島內(nèi)隨處可見“臺(tái)灣省”車牌

      看看新聞Knews
      2025-12-25 15:17:01
      國家終于出手了!不僅是李梓萌被牽連,就連全紅嬋張文宏也沒逃過

      國家終于出手了!不僅是李梓萌被牽連,就連全紅嬋張文宏也沒逃過

      達(dá)西伍紅
      2025-12-25 20:20:58
      西延高鐵開通運(yùn)營,我國高鐵里程突破5萬公里

      西延高鐵開通運(yùn)營,我國高鐵里程突破5萬公里

      界面新聞
      2025-12-26 10:03:16
      為何古代女死刑犯斬首前要?jiǎng)児庖卵潱縿W邮值莱銎渲须[情!

      為何古代女死刑犯斬首前要?jiǎng)児庖卵潱縿W邮值莱銎渲须[情!

      老踝是個(gè)手藝人
      2025-12-25 16:08:31
      特斯拉中國招聘(最新)!15薪!

      特斯拉中國招聘(最新)!15薪!

      實(shí)習(xí)僧
      2025-12-25 16:10:32
      “飛人”劉翔徹底躺平,42歲每天游山玩水,看他曬世界各地游玩照

      “飛人”劉翔徹底躺平,42歲每天游山玩水,看他曬世界各地游玩照

      可樂談情感
      2025-12-25 15:47:33
      對越反擊戰(zhàn)期間,先前有 15 個(gè)國家明確站隊(duì)支持越南,然而戰(zhàn)爭正式打響后,它們卻不約而同地選擇了緘口不言,這是為何?

      對越反擊戰(zhàn)期間,先前有 15 個(gè)國家明確站隊(duì)支持越南,然而戰(zhàn)爭正式打響后,它們卻不約而同地選擇了緘口不言,這是為何?

      史海孤雁
      2025-12-19 17:46:17
      《大西洋月刊》丨這就是特朗普不想公開愛潑斯坦檔案的原因

      《大西洋月刊》丨這就是特朗普不想公開愛潑斯坦檔案的原因

      邸報(bào)
      2025-12-25 08:58:01
      馬面女孩吳小燕:毛巾蒙面13年,手術(shù)取出2公斤異物后過得怎樣了

      馬面女孩吳小燕:毛巾蒙面13年,手術(shù)取出2公斤異物后過得怎樣了

      小熊侃史
      2025-12-25 11:27:42
      大勝!杜蘭特31+6,謝潑德28+6再超神下去,火箭能讓聯(lián)盟大結(jié)局

      大勝!杜蘭特31+6,謝潑德28+6再超神下去,火箭能讓聯(lián)盟大結(jié)局

      巴叔GO聊體育
      2025-12-25 14:20:55
      男子發(fā)現(xiàn)女兒非親生,多部門調(diào)解讓他放棄追責(zé)!評論區(qū)一言難盡!

      男子發(fā)現(xiàn)女兒非親生,多部門調(diào)解讓他放棄追責(zé)!評論區(qū)一言難盡!

      你食不食油餅
      2025-12-25 20:35:40
      2025-12-26 11:24:49
      人工智能學(xué)家 incentive-icons
      人工智能學(xué)家
      人工智能領(lǐng)域權(quán)威媒體
      4420文章數(shù) 37357關(guān)注度
      往期回顧 全部

      科技要聞

      豆包新模型,閃電發(fā)布,閃電“下架”

      頭條要聞

      媒體:讓美中產(chǎn)無法翻身的"斬殺線" 震碎中國網(wǎng)友三觀

      頭條要聞

      媒體:讓美中產(chǎn)無法翻身的"斬殺線" 震碎中國網(wǎng)友三觀

      體育要聞

      約基奇有多喜歡馬?

      娛樂要聞

      朱孝天把阿信好意當(dāng)球踢!

      財(cái)經(jīng)要聞

      涉案近300億元 多方圍剿金融“黑灰產(chǎn)”

      汽車要聞

      速來!智界在上海西岸準(zhǔn)備了年末潮流盛典

      態(tài)度原創(chuàng)

      數(shù)碼
      教育
      手機(jī)
      房產(chǎn)
      公開課

      數(shù)碼要聞

      NuPhy推出Node100機(jī)械鍵盤:延續(xù)點(diǎn)陣美學(xué),高/矮軸可選

      教育要聞

      請留言:你認(rèn)同孩子的想法嗎?

      手機(jī)要聞

      vivo、小米、蘋果,前50周格局依然沒變

      房產(chǎn)要聞

      太猛了!單月新增企業(yè)4.1萬家,又一波巨頭涌向海南!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 久久精品囯产精品亚洲| 久久精品女人天堂av| 人妻另类综合| 狼友福利在线观看| 免费的特黄特色大片| 久久亚洲私人国产精品va| 伊伊色妹子在线视频| 国产精品亚洲а∨无码播放麻豆| 国产偷人妻精品一区二区在线| 91在线小视频| 成人精品区| 丹江口市| 当雄县| www.51vv.com| 在线日韩日本国产亚洲| 亚洲va国产va天堂va久久| 人人凹凸XX凹凸爽凹凸| 海城市| 五月婷婷开心| 国产精品任我爽爆在线播放6080| 国产免费永久精品无码| 中文字幕久久精品无码综合网| 人人妻人人插视频| 亚洲日韩av无码一区二区三区人| 免费观看的av毛片的网站| 台中县| 91色色网| 欧美性生交XXXXX久久久| 熟女嫩穴?播放| 人妻无码专区| 日韩欧美一级特黄大片| 老熟女网站| 亚洲日本va午夜在线影院| 亚洲色欲色欲www| 亚洲狠狠婷婷综合久久久久图片| 国产成人三级三级三级97| 青青草一区二区免费精品| 精品综合久久久久久97| 亚洲A∨无码| 中文字幕亚洲综合久久菠萝蜜| 内射极品少妇xxxxxhd|