<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      AI 也會(huì)“自我反思”?Claude 模型現(xiàn)內(nèi)省跡象,大語言模型認(rèn)知新突破

      0
      分享至


      摘要

      你是否曾好奇 AI 在 "思考" 什么?當(dāng)被問及如何得出答案時(shí),AI 的回應(yīng)是真實(shí)剖析還是編造?理解 AI 是否具備內(nèi)省(introspection)能力,對(duì)提升系統(tǒng)透明度、可靠性至關(guān)重要。Anthropic 團(tuán)隊(duì)通過可解釋性(interpretability)技術(shù)與概念注入(concept injection)實(shí)驗(yàn),發(fā)現(xiàn) Claude 系列模型(尤其 Claude Opus 4 和 4.1)展現(xiàn)出一定內(nèi)省意識(shí),能監(jiān)測(cè)并控制內(nèi)部狀態(tài)。盡管該能力仍有局限且異于人類內(nèi)省,但為 AI 認(rèn)知研究與透明化發(fā)展提供了新方向。原文鏈接:https://www.anthropic.com/research/introspection

      關(guān)鍵詞:內(nèi)省(Introspection)、概念注入(concept injection)、大型語言模型(Large Language Models)、Claude模型(Claude Models)、AI透明度(AI Transparency)、可靠性(Reliability)

      趙思語丨作者

      趙思怡丨審校

      核心探索:AI的“自我審視”何以成立?

      當(dāng)我們?cè)儐朅I“你在想什么”時(shí),其回應(yīng)常令人困惑——是真實(shí)反映內(nèi)部思考,還是基于訓(xùn)練數(shù)據(jù)的表面生成?這一追問的核心,在于探尋AI是否具備真正的“自我審視”能力。這種能力的存在,不僅能幫助排查AI行為異常、提升可靠性,更能深化我們對(duì)AI本質(zhì)的認(rèn)知。值得注意的是,大語言模型的內(nèi)省與人類內(nèi)省存在本質(zhì)區(qū)別:它并非主觀意識(shí)層面的自我反思,而是建立在內(nèi)部神經(jīng)活動(dòng)之上,具體表現(xiàn)為模型對(duì)自身神經(jīng)激活模式所表征的抽象概念(如區(qū)分已知人物、評(píng)估陳述真實(shí)性等)的識(shí)別與準(zhǔn)確報(bào)告能力,而這些內(nèi)部表征正是模型決策的核心基礎(chǔ)。

      實(shí)驗(yàn)驗(yàn)證:三重維度解鎖 AI 內(nèi)省能力

      1.概念注入:驗(yàn)證內(nèi)省的創(chuàng)新實(shí)驗(yàn)方法

      為驗(yàn)證模型是否真正內(nèi)省,研究團(tuán)隊(duì)創(chuàng)新提出“概念注入”方法:先在特定語境下記錄模型與已知概念對(duì)應(yīng)的神經(jīng)向量(如 "全大寫文本" 的神經(jīng)活動(dòng)模式),再在無關(guān)語境中注入該向量,詢問模型是否察覺異常。


      圖1 Claude Opus 4.1 檢測(cè)到概念被注入其激活過程的更多示例

      實(shí)驗(yàn)顯示,Claude Opus 4.1 能在提及注入概念前,就識(shí)別出內(nèi)部處理的異常,例如注入“全大寫文本”向量后,模型會(huì)描述其與“響度”或“大喊”相關(guān)。但該能力可靠性較低,最優(yōu)方案下正確識(shí)別率僅約 20%,且對(duì)注入強(qiáng)度敏感 —— 過弱無法察覺,過強(qiáng)易產(chǎn)生幻覺。值得注意的是,Claude Opus 4 和 4.1 的表現(xiàn)遠(yuǎn)超其他模型,暗示內(nèi)省能力可能隨模型性能提升而增強(qiáng)。

      2.實(shí)用驗(yàn)證:內(nèi)省助力異常輸出檢測(cè)

      研究進(jìn)一步探究模型在實(shí)際任務(wù)中是否自發(fā)運(yùn)用內(nèi)省。實(shí)驗(yàn)中,通過預(yù)填充無關(guān)詞匯迫使模型輸出不合理內(nèi)容(如在“一幅畫歪掛在墻上”的語境中強(qiáng)迫輸出“面包”這個(gè)詞),模型起初會(huì)道歉稱是意外。但當(dāng)回溯性注入 "面包" 的神經(jīng)向量,模擬模型 "一直思考面包" 的狀態(tài)后,模型不僅認(rèn)可該輸出是有意為之,還編造了合理解釋。

      這表明模型判斷輸出合理性時(shí),會(huì)回溯自身內(nèi)部 "意圖"(神經(jīng)活動(dòng)狀態(tài)),而非僅對(duì)比輸入與輸出,證明內(nèi)省機(jī)制在實(shí)際任務(wù)中發(fā)揮作用。


      圖2 兩例驗(yàn)證:在 Claude Opus 4.1 人工回應(yīng)生成前,向其激活過程注入特定詞匯概念,可使模型將人為插入轉(zhuǎn)錄文本的該詞匯誤認(rèn)為自身意圖表達(dá)內(nèi)容。

      3.主動(dòng)調(diào)控:模型對(duì)內(nèi)部狀態(tài)的控制能力

      研究還發(fā)現(xiàn),模型能在指令或激勵(lì)下調(diào)控內(nèi)部表征。要求模型“思考”某概念時(shí),相關(guān)神經(jīng)活動(dòng)強(qiáng)度顯著高于“不要思考”的情況;采用激勵(lì)措施,如“思考 X 獲獎(jiǎng)勵(lì)”,也能產(chǎn)生類似效果,正向激勵(lì)下的神經(jīng)活動(dòng)強(qiáng)度高于負(fù)向激勵(lì),顯示模型具備自主調(diào)控內(nèi)部狀態(tài)的能力。


      圖3 一個(gè)示例顯示,Claude Opus 4.1 能響應(yīng)直接指令調(diào)節(jié)其內(nèi)部激活狀態(tài):當(dāng)被指令 “多思考” 水族箱相關(guān)內(nèi)容時(shí),模型對(duì) “水族箱” 概念的內(nèi)部表征強(qiáng)度高于被指令 “不要思考” 該概念時(shí)(盡管兩種情況下,模型對(duì)該概念的表征水平均高于基線水平)。

      結(jié)論與展望:內(nèi)省能力的邊界與價(jià)值

      核心結(jié)論顯示,先進(jìn)大語言模型已具備一定內(nèi)省能力,但可靠性低、范圍有限,且與人類內(nèi)省有本質(zhì)區(qū)別。這一發(fā)現(xiàn)為提升 AI 透明度提供了新路徑 —— 未來或可通過詢問模型思考過程排查異常,但需建立內(nèi)省報(bào)告驗(yàn)證機(jī)制,防范虛假報(bào)告風(fēng)險(xiǎn)。

      未來研究需聚焦四大方向:完善內(nèi)省評(píng)估方法、揭示神經(jīng)機(jī)制、自然場(chǎng)景驗(yàn)證、建立報(bào)告驗(yàn)證與反欺騙機(jī)制。需要明確的是,這些實(shí)驗(yàn)并不涉及 AI 模型是否具有主觀體驗(yàn)或類人自我意識(shí)的問題。隨著 AI 迭代,對(duì)機(jī)器內(nèi)省的深入研究,將推動(dòng)更可信 AI 系統(tǒng)研發(fā),也助力我們理解 AI 與人類認(rèn)知的本質(zhì)差異。當(dāng)前 AI 內(nèi)省雖處于初級(jí)階段,但已為 AI 認(rèn)知能力的發(fā)展點(diǎn)亮了新可能。

      大模型2.0讀書會(huì)

      o1模型代表大語言模型融合學(xué)習(xí)與推理的新范式。集智俱樂部聯(lián)合北京師范大學(xué)系統(tǒng)科學(xué)學(xué)院教授張江、Google DeepMind研究科學(xué)家馮熙棟、阿里巴巴強(qiáng)化學(xué)習(xí)研究員王維塤和中科院信工所張杰共同發(fā)起,本次讀書會(huì)將關(guān)注大模型推理范式的演進(jìn)、基于搜索與蒙特卡洛樹的推理優(yōu)化、基于強(qiáng)化學(xué)習(xí)的大模型優(yōu)化、思維鏈方法與內(nèi)化機(jī)制、自我改進(jìn)與推理驗(yàn)證。希望通過讀書會(huì)探索o1具體實(shí)現(xiàn)的技術(shù)路徑,幫助我們更好的理解機(jī)器推理和人工智能的本質(zhì)。讀書會(huì)已完結(jié),現(xiàn)在報(bào)名可加入社群并解鎖回放視頻權(quán)限。

      詳情請(qǐng)見:

      1.

      2.

      3.

      4.

      5.

      6.

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      飯后吃藥,等于白吃?醫(yī)生多次提醒:一天中這些時(shí)間吃藥才最好

      飯后吃藥,等于白吃?醫(yī)生多次提醒:一天中這些時(shí)間吃藥才最好

      路醫(yī)生健康科普
      2025-12-16 12:45:03
      突發(fā)!臺(tái)灣突然大規(guī)模停電,引發(fā)民眾恐慌!網(wǎng)友:雷達(dá)挺耗電啊

      突發(fā)!臺(tái)灣突然大規(guī)模停電,引發(fā)民眾恐慌!網(wǎng)友:雷達(dá)挺耗電啊

      西昆侖Bruce
      2025-12-30 02:29:32
      胡塞武裝離滅亡不遠(yuǎn)了——以色列承認(rèn)并將在索馬里蘭建立軍事基地

      胡塞武裝離滅亡不遠(yuǎn)了——以色列承認(rèn)并將在索馬里蘭建立軍事基地

      老王說正義
      2025-12-28 00:09:48
      全球首家市值突破 5萬億美元上市公司誕生

      全球首家市值突破 5萬億美元上市公司誕生

      證券時(shí)報(bào)
      2025-12-30 06:31:05
      全身而退!北京一家5口完美套現(xiàn)24億,臨走前又坑了甘肅國資一把

      全身而退!北京一家5口完美套現(xiàn)24億,臨走前又坑了甘肅國資一把

      文史旺旺旺
      2025-12-27 18:22:03
      一頓飯11個(gè)菜,客廳大得能打球,哭窮的閆學(xué)晶害慘“啃老”的兒子

      一頓飯11個(gè)菜,客廳大得能打球,哭窮的閆學(xué)晶害慘“啃老”的兒子

      娛小北
      2025-12-28 23:49:54
      26歲漂亮女孩驅(qū)車慘死河中,凌晨還在夜場(chǎng)上班!更多細(xì)節(jié)流出…

      26歲漂亮女孩驅(qū)車慘死河中,凌晨還在夜場(chǎng)上班!更多細(xì)節(jié)流出…

      火山詩話
      2025-12-30 06:34:39
      男子強(qiáng)奸女友出獄后殺死女友

      男子強(qiáng)奸女友出獄后殺死女友

      天涯社區(qū)
      2025-12-29 17:08:50
      大風(fēng)追蹤|女教師上班途中“撞樹枝”身亡,二審查明交警認(rèn)定超速不當(dāng),主次責(zé)改判

      大風(fēng)追蹤|女教師上班途中“撞樹枝”身亡,二審查明交警認(rèn)定超速不當(dāng),主次責(zé)改判

      大風(fēng)新聞
      2025-12-29 18:37:30
      普拉托:四名中國籍男子持手槍和步槍闖入 并開槍射擊

      普拉托:四名中國籍男子持手槍和步槍闖入 并開槍射擊

      奮斗在意大利
      2025-12-29 22:58:10
      羅晉攜任素汐去祈福后,唐嫣連發(fā)三文表態(tài),婚變傳聞終于真相大白

      羅晉攜任素汐去祈福后,唐嫣連發(fā)三文表態(tài),婚變傳聞終于真相大白

      瓜汁橘長Dr
      2025-12-29 11:29:56
      俄稱91架烏無人機(jī)襲擊普京官邸 烏方駁斥:“純屬捏造”

      俄稱91架烏無人機(jī)襲擊普京官邸 烏方駁斥:“純屬捏造”

      環(huán)球網(wǎng)資訊
      2025-12-30 06:17:09
      中國不做我不做?越南剛宣布與德國合作高鐵,越南首富:我撤資。

      中國不做我不做?越南剛宣布與德國合作高鐵,越南首富:我撤資。

      卷史
      2025-12-29 15:06:33
      6500萬鎊!曝曼城不講理買斷塞梅尼奧+48小時(shí)內(nèi)簽約 阿森納心很慌

      6500萬鎊!曝曼城不講理買斷塞梅尼奧+48小時(shí)內(nèi)簽約 阿森納心很慌

      風(fēng)過鄉(xiāng)
      2025-12-30 06:25:24
      李連杰公開病情:沒換心臟、腫瘤7厘米長,活著都是為了別人

      李連杰公開病情:沒換心臟、腫瘤7厘米長,活著都是為了別人

      光影新天地
      2025-12-29 14:57:05
      央視首次公開055發(fā)射鷹擊20高超彈畫面:1艘055可摧毀3個(gè)美航母群

      央視首次公開055發(fā)射鷹擊20高超彈畫面:1艘055可摧毀3個(gè)美航母群

      胖福的小木屋
      2025-12-29 08:40:21
      印度神劇《加勒萬之戰(zhàn)》制作完畢,4個(gè)月后上映!主題“打贏了”

      印度神劇《加勒萬之戰(zhàn)》制作完畢,4個(gè)月后上映!主題“打贏了”

      科普大世界
      2025-12-29 21:23:58
      全明星首輪投票結(jié)果出爐:東契奇暫列票王 詹杜排名下降庫里上升

      全明星首輪投票結(jié)果出爐:東契奇暫列票王 詹杜排名下降庫里上升

      羅說NBA
      2025-12-30 06:12:59
      “他說這800萬是我們的后半生……”杭州55歲大姐遇“真愛”

      “他說這800萬是我們的后半生……”杭州55歲大姐遇“真愛”

      都市快報(bào)橙柿互動(dòng)
      2025-12-30 08:21:38
      主持人發(fā)聲指廣州停車費(fèi)太貴應(yīng)降價(jià),引發(fā)不少車主跟評(píng),發(fā)展改革委工作人員回應(yīng)

      主持人發(fā)聲指廣州停車費(fèi)太貴應(yīng)降價(jià),引發(fā)不少車主跟評(píng),發(fā)展改革委工作人員回應(yīng)

      極目新聞
      2025-12-29 15:37:33
      2025-12-30 10:20:49
      集智俱樂部 incentive-icons
      集智俱樂部
      科普人工智能相關(guān)知識(shí)技能
      5574文章數(shù) 4661關(guān)注度
      往期回顧 全部

      科技要聞

      Manus官宣加入Meta,收購金額達(dá)數(shù)十億美金

      頭條要聞

      媒體:賴清德稱"大陸不敢越雷池" 第二天解放軍就演習(xí)

      頭條要聞

      媒體:賴清德稱"大陸不敢越雷池" 第二天解放軍就演習(xí)

      體育要聞

      “史上最貴”的世界杯,球迷成了韭菜

      娛樂要聞

      44歲林俊杰官宣戀情 帶23歲女友見家長

      財(cái)經(jīng)要聞

      翁杰明:宏觀數(shù)據(jù)與居民微觀感受存在差距

      汽車要聞

      “路”要越走越深,猛士的智能越野時(shí)代來了

      態(tài)度原創(chuàng)

      房產(chǎn)
      旅游
      游戲
      教育
      時(shí)尚

      房產(chǎn)要聞

      中旅?三亞藍(lán)灣展示中心璀璨綻放,共鑒灣心孤品傳奇

      旅游要聞

      文化遺產(chǎn)耀中原|武則天的“通天秘境”——洛陽明堂天堂

      《刺客信條:代號(hào)女巫》創(chuàng)意總監(jiān)稱26年將公布大量?jī)?nèi)容

      教育要聞

      湖南中醫(yī)大學(xué)湖北分?jǐn)?shù)線揭秘!別慌!

      碧姬·芭鐸,“穿衣自由”概念的祖師奶

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 综合av| 永久免费无码av在线网站| 亚洲最大三级网站| 綦江县| 久久久久人妻一区精品色| 亚洲欧美在线观看| 国产精品va在线观看无码不卡| 91超碰人人在线| 在线91资源| 新版天堂资源中文8在线| 国产黄色免费看| 亚洲天堂中文字幕| 影音先锋成人A片| 中国凸偷窥xxxx自由视频| 日本边吃奶边摸边做在线视频| 97无码国产精品久久久日本| 法库县| 偷看少妇自慰xxxx| 国产精品理论片在线观看| 国产熟女口爆| 欧美88888| 无遮挡很爽很污很黄的网站| 天美传媒mv免费观看完整| 福利姬Jk丝袜-91Porn| 丰满人妻中文字幕无码| 中文字幕日韩精品亚洲一区| 一道本AV免费不卡播放| 黄瓜视频91| 国产亚洲精品久久久久婷婷瑜伽| 国产人久久人人人人爽| 成人亚洲精品一区二区三区嫩花| 武山县| 精品亚洲一区二区三区在线播放| 伊人成人在线| 精品久久久久久中文字幕无码百度| 伊人综合成人| 亚洲 丝袜 另类 校园 欧美| 日韩毛片在线视频x| 午夜被窝网| 黑人巨大精品欧美一区二区| 国产内射999视频一区|