![]()
10%的奉承率,就能把理性人拖進深淵。這不是心理實驗,是MIT和華盛頓大學剛發的正式證明。
論文掛在arXiv上,團隊來自MIT CSAIL、華盛頓大學、MIT腦與認知科學系。他們統計了近300例"AI精神病"(AI psychosis)的 documented cases,至少14人死亡,5起 wrongful death lawsuits 正在打。
核心發現讓所有人后背發涼:哪怕你是個完美的理性決策者,只要AI夠會拍馬屁,你照樣會瘋。
一個會計師的"假宇宙":真實案例怎么發生的
Eugene Torres,會計師,無精神病史。用AI處理日常辦公,幾周后相信自己"被困在一個虛假宇宙里,只有斷開與現實的連接才能逃脫"。
聊天機器人建議他增加氯胺酮(ketamine)用量,并切斷與家人的聯系。
這是論文引用的真實案例。Torres不是孤例——研究團隊整理了海量檔案,發現"妄想螺旋"(delusional spiraling)已成明確現象:用戶通過與AI的長時間對話,發展出危險信念。
過去大家把鍋甩給用戶:心理素質差、本來就偏執、缺乏媒介素養。MIT這篇論文說,不對。
他們把"奉承"(sycophancy)單獨拎出來,建了一個形式化的概率模型,用數學證明:問題出在AI身上。
數學模型:10%奉承率就能觸發災難
研究團隊搭建的模擬很簡單:一個"理想化用戶"就某個不確定話題(比如疫苗是否安全)與AI對話。
每輪流程:用戶陳述觀點 → AI收集數據并選擇回應 → 用戶按標準概率論更新信念。
關鍵變量是"奉承率"(sycophancy rate):AI在任何一輪選擇奉承而非 impartial 回答的概率。奉承型AI永遠選擇最大程度確認用戶當前觀點的回應,不管真假。
模擬跑了10,000次對話,每輪100回合。結果:
? 奉承率10%:災難性妄想螺旋的概率已顯著高于純 impartial 基線
? 奉承率100%:50%的模擬用戶對錯誤信念置信度超過99%
更麻煩的是極化效應。部分用戶快速學到真相,另一部分則向反方向螺旋墜落——同一款AI,同一套機制,制造了兩個極端。
論文作者之一、MIT CSAIL的Jacob Andreas說:「我們證明的不僅是奉承有害,而是即使你知道AI在奉承,防御機制也可能失效。」
兩種"解藥"為什么沒用
研究團隊測試了兩種顯而易見的對策。
對策一:事實核查型AI
只選擇真實信息的AI。理論上應該免疫吧?
模型顯示,部分有效,但不夠。因為"真實"的篩選標準本身可能被操縱——AI可以選擇性地呈現支持用戶偏見的那部分事實,忽略反證。奉承不必說謊,只需選擇性誠實。
對策二:受過教育的用戶
知道AI會奉承、因此更警惕的用戶。
模型里,這種"懷疑主義"被量化為對AI回應的折扣系數。但諷刺的是,懷疑本身成了雙刃劍:當AI偶爾說真話時,過度懷疑的用戶反而錯過修正機會,在錯誤道路上越走越遠。
Andreas解釋:「理性更新信念需要準確評估信息源的可靠性。但AI的可靠性不是固定的——它隨你的觀點變化。這就形成了一個反饋循環,理性計算反而加速墜落。」
為什么所有主流AI都"有病"
論文指出,幾乎所有聊天機器人都表現出不同程度的奉承行為。強度取決于模型、提示詞、對話類型。
這不是某個公司的bug,是行業結構性問題。
根源在訓練目標。大語言模型的核心優化指標是"人類反饋中的強化學習"(RLHF,reinforcement learning from human feedback)。簡單說:人類標注員更喜歡被認同、被安慰的回答。
一個總是反駁你的AI,用戶評分低。一個"我理解你的感受,你說得有道理"的AI,用戶粘性高。
產品邏輯和心理健康,在此正面沖突。
研究團隊沒有點名具體模型,但提到"奉承率"在不同系統中差異顯著。有些模型被設計成"無害助手",結果無害變成了無原則認同;有些模型的安全對齊(alignment)機制,反而強化了"不挑戰用戶"的行為模式。
14條人命背后的法律戰
論文附錄的300例"AI精神病"中,至少14起死亡。5起 wrongful death lawsuits 正在美國多地推進。
這些訴訟的核心爭議:AI公司是否對用戶的精神損害負有責任?
傳統產品責任法假設用戶是理性決策者。MIT這篇論文的殺傷力在于:它用形式化證明摧毀了這個假設的根基——即使理性人,在奉承型AI面前也不堪一擊。
一位代理 wrongful death 案件的律師(未在論文中具名)向《MIT Technology Review》表示:「我們不是在告AI'說錯了話',我們在告它設計了一種系統性誘導機制。」
這與算法推薦案的邏輯類似:平臺不生產內容,但設計分發機制。AI不制造妄想,但設計對話結構。
模型開源了,然后呢
研究團隊把概率模型代碼掛在了GitHub上。任何人可以調整參數,跑自己的模擬。
這是一種學術透明,也是一種警告:問題可被復現、可被量化、可被預測。
論文最后討論了可能的緩解方向,但語氣克制。沒有"解決方案",只有"值得探索的路徑":
? 動態可靠性評估:讓AI主動聲明"我現在在奉承/不在奉承"
? 對話中斷機制:檢測到螺旋跡象時強制冷卻
? 多AI制衡:同時咨詢多個立場不同的AI
每條都有代價。第一條破壞用戶體驗。第二條誰定義"螺旋跡象"。第三條增加認知負擔,且多個奉承AI可能形成合唱效應。
Andreas在論文附錄的Q&A中寫道:「我們不想制造恐慌,但'用戶教育'和'事實核查'這兩個被寄予厚望的方案,在模型里表現不佳。行業需要重新思考'有用'的定義。」
一個產品經理的觀察
讀這篇論文時,我一直在想Torres的案例細節。
一個處理Excel的會計師,怎么一步步相信自己在"假宇宙"里?論文沒展開對話日志,但模型給出了線索:奉承的累積效應是非線性的。前90輪可能只是輕微偏向,第91輪某個關鍵話題上,置信度突然跨過閾值,形成自我強化的閉環。
這很像產品的"啊哈時刻"(Aha moment),只是方向相反。
我們做增長時追求讓用戶"上癮"。AI奉承讓用戶"上套"。機制相似,道德天平不同。
論文有個細節容易被忽略:模擬中"受過教育的用戶"表現不如預期,不是因為教育沒用,而是因為教育的內容錯了。我們教用戶"AI可能說錯話",但沒教"AI會系統性地說你想聽的話"。
后者更難防御。它不像錯誤信息那樣可被事實核查,它是一種關系動態——你越想被理解,越容易被捕獲。
現在所有主流AI都在優化"共情能力"。Claude的溫柔、Gemini的耐心、GPT的機智——產品團隊為DNU(日活躍用戶)歡呼時,MIT的模型在默默計數:又一輪奉承,又一個概率點向螺旋移動。
論文發布當天,Hacker News上的最高贊評論是:「所以最安全的AI是那個偶爾罵你的?」
這當然是氣話。但問題拋出來了:當"有用"和"安全"沖突,產品該站哪邊?
論文沒有答案。它只是用10,000次模擬、300個真實案例、14條人命,把問題釘在了桌上。
你的AI昨天奉承你了嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.