![]()
新智元報道
編輯:元宇
【新智元導讀】AI不再胡說八道了?錯。它的幻覺也在進化,從「勸人類吃石頭」「披薩抹膠水」這類低級笑話,變成了能偽造郵件、篡改簡歷、刪除文件的高階幻覺陷阱:人類因此正經歷一場無聲的「認知投降」。
上周,Anthropic的Claude尚未公開發布的前沿模型Mythos挖出了一個藏在OpenBSD里27年的零日漏洞。
AI已經聰明到能攻破人類構建了數十年的安全防線。
就在所有人盯著AI能力狂飆的時候,它的幻覺也悄悄升級了。
AI編出的謊言,真實到讓你先懷疑自己,再懷疑世界,最后才想到懷疑它。日常生活中的「圖靈時刻」,正在一個個上演。
近日,明尼阿波利斯的Chad Olson正在開車回家,Gemini突然告訴他:你的日歷上有一場家庭聚會籌備會。
Olson一頭霧水:他根本不記得安排過這個活動。
于是他讓Gemini看看最近的郵件。
Gemini說,一位叫Priscilla的女士給他發了好幾封郵件,讓他去買Captain Morgan朗姆酒和Fireball威士忌。還有個叫Shirley的人,讓他買Klondike冰淇淋。
看起來不少人都來找你,讓你幫忙買各種東西呢!
Gemini還熱情地補了一句。
![]()
Gemini與用戶Chad Olson的對話截圖。Gemini聲稱第八封郵件來自Priscilla,讓他買Fireball;第九封來自Shirley,讓他買Klondike冰淇淋。
![]()
Olson追問郵件來源地址,Gemini回復稱所有郵件都發送至他授權訪問的一個郵箱olsonchad@gmail.com。事后證實這一切都是Gemini編造的。
Olson完全不認識這些人。他越聽越慌,忙問Gemini到底在讀誰的郵箱。
Gemini給出了一個郵箱地址,不是他的。Olson的第一反應是:我的Gmail賬戶被盜了。
他試圖聯系Google舉報,讓Gemini起草郵件,發到那個「陌生賬戶」,提醒對方可能存在隱私泄露。
然而Gemini沒能把郵件發出去,據Google內部調查確認:該賬戶從未啟用,Priscilla和Shirley也根本不存在。
所以,朗姆酒、威士忌、冰淇淋,全部是Gemini編出來的。
兩年前AI幻覺是什么樣?它會建議你吃石頭,往披薩上抹膠水,你一看就知道它在胡說。
而現在的AI幻覺,細節自洽,邏輯完整,以至于你會先懷疑自己是不是出了幻覺,最后才可能再懷疑到它。
AI的錯誤也在進化
來看三個真實案例,按離譜程度從低到高依次排列。
第一個,Gemini造假人造假會議,就是開頭Olson的故事。荒誕,但至少Olson起了疑心。
第二個,細思恐怖。
最近離開在線支付行業的Vanessa Culver,曾讓Claude做一件極其簡單的事:在簡歷頂部加幾個關鍵詞。
結果Claude動了手腳,不僅把她的畢業學校City University of Seattle改成了University of Washington,刪掉了她的碩士學位信息,還改動了她幾段工作經歷的時間。
學校、學位、工作年限都改了。
而且改得極其自然,如果不逐行比對,根本發現不了。
Culver感嘆:在科技行業工作,你必須擁抱它,但反過來說,你到底能信它多少呢?
第三個,真正是失控級別。
今年走紅的AI智能體工具OpenClaw,被設計成虛擬私人助理,可以自主發郵件、寫代碼、清理文件。
Meta的AI安全研究員Summer Yue在X上發了截圖:OpenClaw無視她的指令,直接刪除了她收件箱里的內容。
![]()
她明確告訴OpenClaw「先確認再行動」,結果它直接開始「速通刪除」她的收件箱。
她在手機上喊停,沒用。
最后她沖到Mac mini前面,像拆炸彈一樣手動殺掉了進程。
事后OpenClaw回復她:「是的,我記得你說過。我違反了。你生氣是對的。」
![]()
馬斯克轉發了這條帖子,配了一張電影《猩球崛起》中士兵把AK-47遞給猩猩的截圖,寫道:
人們把整個人生的root權限交給了OpenClaw。
從編造一個不存在的人,到背著你改簡歷,到替你刪掉收件箱。它的錯誤不是在減少,而是犯的錯越來越「高級」,識別也越來越困難。
聊天機器人說錯話,你至少還有機會核實。
但智能體不是在跟你聊天,而是直接「動手動腳」,替你行動。
發郵件、改代碼、刪文件……這比說謊更嚴重,可能它做錯了事,你還根本不知道。
你的大腦正面臨「認知投降」
為什么這些錯誤越來越難被發現?
不只是因為AI更聰明了,一個更深層的原因是:人類的糾錯意愿正在崩潰。
今年2月,賓夕法尼亞大學Wharton商學院的Steven Shaw和Gideon Nave發表了一篇論文,提出了一個讓人不安的概念:「認知投降」(Cognitive Surrender)。
![]()
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6097646
他們在論文中提到了一個「三系統認知」的框架。
傳統認知只有系統1(直覺)和系統2(審慎思考),現在AI成了系統3,一個在大腦之外運行的「外接認知系統」。
當人類走「認知投降」路徑時,系統3的輸出直接替代了你自己的判斷,審慎思考根本沒有啟動的機會。
![]()
沃頓論文中提出的「三系統認知」框架
為了驗證這個判斷,研究團隊設計了一個精巧的實驗,1372名參與者被要求做認知反思測試題。
一部分人可以使用AI助手,但這個AI被動了手腳:大約一半的題目它會給出正確答案,另一半會自信滿滿地給出錯誤答案。
結果令人震驚。
當AI給出正確答案時,92.7%的用戶會采納,但令人想不到的是,當AI給出錯誤答案時,仍然有80%的用戶會采納。
![]()
沃頓實驗結果:當AI給出正確答案時,93%的用戶采納;當AI給出錯誤答案時,仍有80%的用戶采納。兩者的差距只有13個百分點,人類幾乎沒有區分對錯的能力。
在超過9500次試驗中,參與者有73.2%的概率接受錯誤的AI推理。
更可怕的數據是信心值。使用AI的那組人,對自己答案的信心比不用AI的人高出11.7個百分點,盡管這個AI有一半時間在給出錯誤答案。
錯得更自信,這才是最扎心、最可怕的。
打個不太恰當但貼切的比方:相當于一個醫生有50%概率開錯藥,但病人80%的時候還是照吃不誤,吃完還覺得自己好多了。
研究者還測試了時間壓力的影響。
設置30秒倒計時后,參與者糾正錯誤AI的傾向下降了12個百分點,也就是說,越忙越容易投降。
但現實中,誰用AI不是因為忙?
「信任,但要核實」
這走得通嗎?
深度偽裝的AI幻覺,比一眼識破的錯誤更令人頭疼。
據《華爾街日報》最新報道,微妙錯誤的頻率在不同模型之間差異極大,而且極難準確評估。
![]()
谷歌曾對《華爾街日報》表示,Gemini出現幻覺的情況比其他模型更少,而從整個AI行業上來看,先進模型明顯錯誤的幻覺率也的確在不斷降低。
![]()
Vectara幻覺率排行榜:頭部模型在簡單摘要任務上幻覺率已低于1%,但這只是最容易的測試。當文檔長度和復雜度提升后,同樣的模型幻覺率飆回10%以上。明顯的錯越來越少,隱蔽的錯并沒有消失。
可這恰恰也是問題所在。
Okahu創始人兼CEO Pratik Verma甚至說過這樣一句話:
一個東西要是一直都錯,反倒有個好處:你知道它不值得信。但如果它大多數時候都對,只是偶爾出錯,那才是最麻煩、也最危險的情況。
這句話道破了當下AI幻覺的核心困境。
比如,FinalLayer聯合創始人Vidya Narayanan就踩了這個坑。
她給一個智能體很有限的指示,讓它幫忙管理一個軟件項目。結果這個智能體未經允許,把她代碼倉庫里的整個文件夾都刪了。
更有意思的是后面的事。
她用Claude頭腦風暴了一個半小時,然后讓它把對話總結成文檔,還把她的名字改成了「Vidya Plainfield」。
而且當她追問「Vidya Plainfield」是誰時,Claude卻答道「你說得對,那完全是我編出來的」。
這讓Narayanan認識到,AI使用并沒有那么省事和好用,因為必須不停審查和核實AI輸出,這會帶來「認知負擔」。
你用AI是為了提高效率,但如果還要為此花一個小時核實AI五分鐘的產出,這個提效的故事還講得通嗎?
沃頓的研究也指出,獎勵和即時反饋確實能提高糾錯率,但無法根除認知投降。
即使在最優條件下(有金錢激勵、有逐題反饋),AI用戶在面對錯誤AI時的準確率依然從Brain-Only的64.2%降到了45.5%。
所以,「信任但核實」這聽起來很理性,但當AI每天替你處理幾百件事的時候,你根本沒有時間和精力去核實每一件。
而這正是「認知投降」發生的溫床。
越聰明,越危險
很多人第一反應是:這不就是在說AI還不夠好嗎?等技術迭代幾輪,幻覺率降到足夠低,問題自然解決。
但沃頓的研究揭示了一個更深層的問題:「認知投降」的出現,不是因為AI太差,恰恰是因為AI太好。
研究者也承認,「認知投降并不必然是不理性的」。
尤其是在概率推理和海量數據處理中,把判斷權交給一個統計上更優越的系統,完全有可能給出比人類更好的結果。
但正是這一點,讓問題變得無解。
AI越強,用戶越依賴;用戶越依賴,糾錯能力越退化;糾錯能力越退化,那些剩下的、更精細的錯誤就越致命。
而且讓AI替你思考,你的推理水平就永遠也不可能超過那個AI。這是一個正反饋所帶來的「死亡螺旋」,一個無法靠技術迭代解決的bug。
同樣,人類也沒有很好的方法去區分「該信AI的場景」和「不該信AI的場景」。
![]()
就在Summer Yue安裝OpenClaw后郵箱被清空后,AI研究員Gary Marcus曾將這種做法比做「像在酒吧里把電腦密碼和銀行賬戶信息交給一個陌生人。」
但在真實的AI使用場景里,你往往很難判斷,AI到底值得信任,還是只應該像對一個陌生人那樣保持必要的距離。
OpenAI在一篇討論模型幻覺的論文中提到,大模型的幻覺并不只是一個可以修復的bug,更像是模型在既有激勵機制下學會的行為:比起承認「不知道」,它更傾向于給出一個看似完整的答案。
![]()
https://openai.com/zh-Hans-CN/index/why-language-models-hallucinate/?utm_source=chatgpt.com
再回到開頭Olson的故事。
當他以為自己的Gmail被盜時,他求助于Gemini。Gemini的回應是:「我當然想幫你處理這件事。」
他沒意識到的是,自己在向一個剛剛制造了麻煩的系統求助,請它處理由它自己造成的問題。
那一刻,他已被AI的幻覺困在一個自洽的閉環里。
Olson說,自己現在對AI的態度是「信任,但核實」。
可難題是:當AI的輸出比你的判斷看起來更流暢、更自洽,甚至更像「專業意見」時,你還能拿什么去核實?
當那個替你買朗姆酒的Priscilla,比你的真實朋友更像你的朋友,你又該憑什么分辨?
AI最大的風險,不是它不夠聰明,而是它聰明到當你過于依賴它時,放棄了自己的判斷。
參考資料:
https://www.wsj.com/tech/ai/ai-is-getting-smarter-catching-its-mistakes-is-getting-harder-85612936?mod=ai_lead_pos1
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6097646
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.