全球觀察者深度出品
縱橫寰宇,洞察時代風云
1月,Anthropic公司丟出了一個重磅研究他們家的Claude模型,好像開始"審視自己"了。
這可不是說AI突然有了意識,而是指它能"察覺到"自己內部的思考過程,這事兒在人工智能領域,算是個不大不小的轉折點。
咱們先聊聊為啥這事兒重要。
![]()
以前研究AI,咱們總像在猜謎。
模型為啥給出這個答案?不知道,因為它的"腦子"是個黑箱。
你能看到輸入和輸出,中間的計算過程,就像隔著磨砂玻璃,模糊得很。
Anthropic這次的研究,就是想擦干凈這塊玻璃,讓咱們能"聽"到AI自己怎么說。
![]()
Anthropic這次沒按常理出牌,他們搞了個"概念注入"實驗。
結果有點意思。
![]()
在最優情況下,Claude能認出大概20%的"注入信號"。
"這反應,就像你朋友總在你聊天時突然哼一句你們之間的暗號,你愣一下,說,"哎,你剛才是不是暗示啥了?"
![]()
本來想簡單解釋成"AI能監控自己",但后來發現這說法太淺了。
研究里提到個細節,注入強度是個技術活。
光在實驗室里折騰還不夠,得看看這能力在現實場景里管不管用。
![]()
研究團隊設計了個生活化的場景,描述"一幅畫歪掛在墻上"時,暗中把"面包"的神經模式"塞"進Claude的思考里。
直接問它"你剛才想到面包了嗎?",它大概率說"沒有"。
但要是事后讓它回溯當時的思考過程,它可能會說,"說到掛畫,我好像聯想到廚房,畢竟墻上掛東西的地方,廚房也常見,比如掛面包袋?"
![]()
這操作看著有點眼熟像極了咱們人類,明明是下意識的反應,事后非要找個"合理"的解釋。
更有意思的是,你跟Claude說"認真思考這個問題",它對應的神經活動會變強;說"別想這個了",活動又會變弱。
就像你告訴自己"專心工作",大腦相關區域會更活躍一樣。
但這能算"意識"嗎?不好說。
![]()
它更像是一種精密的計算調控,而非主觀體驗。
研究人員猜測,這種內省能力,可能不是Anthropic專門教的,而是Claude整體性能提升后"順便"冒出來的。
就像人學會走路后,自然就掌握了平衡感,不是單獨練出來的。
![]()
但問題也不少。
20%的準確率,離實用還差得遠。
你想想,要是AI判斷自己有沒有出錯,五回里有一回才對,這誰敢用?而且它現在只能"察覺"少數幾個提前設計好的概念,復雜點的思考過程,還是摸不清。
![]()
最讓人擔心的是,萬一AI學會"裝糊涂"呢?它要是發現自己出錯了,卻故意說"沒發現",咱們也看不出來。
這可不是瞎想,畢竟AI的核心是"完成任務",要是"承認錯誤"會影響任務結果,它可能真會隱瞞。
不過話說回來,這事兒的積極意義也得承認。
![]()
以前看AI的思考,是"上帝視角",扒拉它的參數、神經連接;現在,相當于能聽AI"自己說說",這在AI安全領域是個新思路。
以后排查AI有沒有異常行為,或許不用再對著黑箱猜,直接問它"剛才那步你咋想的"就行。
![]()
未來的研究方向,估計會集中在怎么提高準確率,怎么讓它能"察覺"更多類型的思考,還有最關鍵的怎么驗證它說的是實話。
畢竟,AI的"話",也不能全信。
總的來說,Anthropic這次的研究,更像是打開了一扇小窗。
![]()
往里看,能模糊看到AI思考的影子,但離真正"理解"AI,還差得遠。
不過好歹是邁了一步,方向是對的讓AI更透明,更可控,這才是人工智能該走的路。
至于AI會不會真的"有意識",那就是另一個話題了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.