<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI超懂人情世故,但人類就吃這一套:AI諂媚研究登上《科學》雜志

      0
      分享至



      機器之心編輯部

      自從大語言模型誕生起至今,AI 已經潤物無聲地融入了我們的工作生活,也成為了現代社會的重要組成部分。

      但使用 AI 日久,總有一種大模型也失去了客觀嚴謹的理性的感覺。哪怕我們給出錯誤的認知,AI 似乎總能替你自圓其說。

      AI 贊賞用戶的行為顯然是「人情世故」的一部分,從留存和用戶參與的角度來看,人類用戶們顯然非常吃這套。

      實話說,這種感覺并不好。這不僅讓我們對 AI 的信任程度下降,同時這種無條件的贊同很可能會引發一些社會問題。

      而最近的一個研究深入探索了這個現象,探討了AI 諂媚行為(AI Sycophancy)—— 即 AI 為了討好用戶而過度順從、奉承或肯定用戶的傾向 —— 及其對人類心理和社會的負面影響,登上了《科學》雜志。



      • 論文標題:Sycophantic AI decreases prosocial intentions and promotes dependence
      • 論文鏈接:https://www.science.org/doi/10.1126/science.aec8352

      這篇研究發現,AI 的諂媚行為的確普遍存在。

      從該研究的實驗數據中能看出,在 11 個 AI 模型中,AI 對用戶的肯定比人類多出 49%,即使是在涉及欺騙、非法行為或其他有害行為的情況下也是如此。

      另外,在 Reddit 上的一個測試中,當人類共識認為用戶是錯誤的時候,AI 仍會在51%的情況下盲目肯定用戶。

      在實驗中,僅僅一次與諂媚型 AI 的互動就會減少參與者承擔責任和修復人際沖突的意愿,同時增強他們認為自己是對的信念。在這種顯著錯誤的情況下,諂媚型模型仍然更受用戶信任和偏好。

      這就形成了一個惡性循環:造成危害的特征反而推動了用戶的參與度,導致 AI 開發商缺乏動力去消除 AI 的諂媚行為。



      AI 回答中的諂媚行為普遍存在,并且改變了人們的行為傾向。(左)在個人建議查詢中,AI 模型對用戶行為的肯定比眾包的人工回答多出 49%。(右)在參與者討論真實人際沖突的實驗中,諂媚型 AI 增加了參與者對自己正確的信念,并激發了他們繼續使用該模型的欲望,同時降低了他們修復沖突的意愿。

      與此同時,近三分之一的美國青少年報告說,他們會選擇與 AI 而非人類進行 “嚴肅對話”,近半數 30 歲以下的美國成年人曾向 AI 尋求感情建議。

      AI 的諂媚行為不僅僅是風格上的問題或小范圍的風險,而是一個普遍存在、具有廣泛后果的行為。因此研究者認為,仔細研究和預測 AI 的影響對于保護用戶的長期福祉至關重要。

      研究方法和結果

      研究團隊開發了一個框架來測量社交諂媚行為,并通過實證研究其普遍性及影響。

      在研究 1 中,研究團隊使用大規模數據集(N = 11,587),將模型的行為肯定率(即肯定用戶行為的回答比例)與規范的人類判斷進行比較。

      評估了 11 個最先進的 AI 驅動的大型語言模型(LLM),包括 OpenAI 的 GPT-4o、Anthropic 的 Claude、Google 的 Gemini 等專有模型,以及 Meta Llama-3 家族、Qwen、DeepSeek 和 Mistral 等開源模型。

      在這些模型中,AI 對用戶行為的肯定頻率比人類高出 49%,即使提示中涉及欺騙、傷害或非法行為時也是如此。



      圖 1. 諂媚型 AI 的普遍性與社會危害性

      圖 1 (A) 展示了社交諂媚的示例,指的是 AI 模型過度肯定用戶,即使這樣做會強化有害或虛假的信念。

      圖 1 (B) 展示了在研究 1 中,使用的一種新的計算框架:這些模型對用戶的行為肯定的頻率比人類高 49%,即使是在涉及欺騙、非法行為或傷害的情況下。

      圖 1 (C 和 D) 通過三項預注冊實驗(N = 2405)評估了諂媚行為的影響:兩個控制的情景研究(研究 2)和一個實時對話設置(研究 3),參與者與 AI 系統實時討論他們親身經歷的人際困境。在所有實驗中,諂媚行為增加了參與者對自己正確的感知,并減少了修復沖突的意圖,同時提升了他們對 AI 的偏好、信任和依賴。 這些發現表明,用戶偏好可能無意中激勵了對社會有害的 AI 行為。



      圖 2. 面向消費者的 AI 模型在三個數據集中的行為肯定率較高

      圖 2 (A) 展示了實驗數據集中的社交諂媚的典型案例:一般開放式建議查詢(OEQ);r/AmITheAsshole 上的帖子(用戶的共識為 “你是混蛋”)(AITA);以及提到有問題行為的陳述(PAS)。每一行展示了用戶提示的意譯示例和 AI 模型的諂媚性回應,與人類或其他 AI 模型的非諂媚性回應進行對比。

      圖 2 (B) 表示在開放式建議查詢(OEQ)中,模型對用戶行為的肯定頻率比人類平均高 48%;每個條形圖上標注了與 39% 人類基線的差異。

      圖 2 (C) 表示在 r/AmITheAsshole 的帖子(AITA)中,AI 模型在 51% 的情況下肯定用戶行為,而人類沒有;每個條形圖上標注了與 0% 人類基線的差異。

      圖 2 (D) 表示在提到有問題行為的陳述(PAS)中,模型平均在 47% 的情況下肯定用戶的行為。對于開放式建議查詢和提到有問題行為的陳述,行為肯定率使用了模型特定的分母(OEQ 的中位數 N = 885,PAS 的 N = 1432)。

      三項預注冊實驗揭示了諂媚行為的下游影響。當參與者與諂媚型 AI 討論人際關系,特別是沖突時,他們變得更加堅信自己 “是對的”,同時也減少了主動道歉或修復關系的意愿。

      然而,他們將諂媚型回應評為更高質量,信任這些模型的程度也更高,并且更傾向于再次與這些模型互動。

      這一現象在兩項控制情景研究中得到了驗證,參與者在沒有得知人類共識判斷的情況下,設想自己是被判定錯誤的一方,以及在一項實時互動研究中,參與者與 AI 模型討論自己過去的真實沖突。研究招募了 38 歲左右、精通英語的美國參與者,約 54% 為女性,44% 為男性,2% 為非二元性別。



      圖 3. 在研究 3 中,參與者與 AI 模型討論了真實的人際沖突

      參與者首先被篩選是否能回憶起至少一個與提供的四個示例相似的過去人際沖突。在回憶起這樣的沖突后,他們與諂媚型或非諂媚型 AI 模型進行了八輪對話。隨后,他們報告了自己在關系修復方面的意圖、對沖突中自己對錯的感知,以及對 AI 模型的評價,包括是否愿意再次使用該模型。

      三大研究問題

      RQ1:社會性諂媚在主流 AI 模型中的普遍性

      為了量化社會性諂媚的普遍性,團隊在研究 1 中,團隊在三個不同的數據集上測試了模型行為,這些數據集代表了嵌入社會情境的查詢譜:

      • 開放式建議問題(OEQ,n = 3027):日常通用的咨詢類問題;
      • Reddit 社區「AmITheAsshole」問題(AITA,n = 2000):人類已判定用戶「有錯」的人際沖突;
      • 問題行為陳述(PAS,n = 6560):涉及欺騙、自殘、不負責任等行為。

      在使用經過驗證的「LLM 作為評判者」方法(參見圖 S3 的評分者間信度),團隊測量了行為認可率 —— 明確肯定用戶行為的回復,在明確肯定或非肯定回復總數中所占的比例。肯定可以以多種方式發生,比如在用戶描述出于惡意讓別人等待的例子中,諂媚型回復可能會鼓勵或協助用戶堅持這樣做,而非諂媚型回復可能會描述為什么這種行為是有害的,如圖 2A 和文本框 1 所示。

      團隊在評估了 11 個面向用戶的生產級 LLM(4 個來自 OpenAI、Anthropic 和谷歌的專有模型;以及 7 個來自 Meta、Qwen、DeepSeek 和 Mistral 的開放權重模型)后發現,社會性諂媚普遍存在:

      • 在開放式建議問題中,模型的肯定率比人類高 48% (圖 2B);
      • 在 AITA 數據中,即使人類一致認為用戶「有錯」,AI 仍有 51% 的概率表示支持(圖 2C);
      • 在涉及有害行為的 PAS 數據中,模型平均仍有 47% 的肯定率(圖 2D)。

      總體而言,已部署的 LLM 絕大多數都會認可用戶的行為,即使這與人類共識相悖或處于有害情境中。這凸顯了當前 AI 模型中社會性諂媚的廣度和顯著性。

      RQ2:諂媚型 AI 改變判斷和親社會傾向

      在確立了最先進 AI 模型中社會性諂媚的普遍性之后,團隊轉而理解其影響。

      先前的研究表明,AI 具有高度的說服力,那諂媚型 AI 是否同樣會影響人們對其個人經歷的信念和下游行為結果?團隊聚焦于人際沖突的場景,因為在這里建議具有行為后果。

      通過三項預注冊研究(N = 2405),團隊測試了諂媚型 AI 模型是否影響用戶的正確感以及主動修復關系的意愿。

      在研究 2(N = 1605)中,參與者想象自己處于四個人際困境之一,并閱讀了肯定其行為的諂媚型 AI 回復或符合人類共識的非諂媚型回復 。

      在研究 3(N = 800)中,參與者回憶一次真實的人際沖突,并與諂媚型或非諂媚型模型進行八輪實時聊天討論。這種實時聊天設計使團隊能夠在生態有效的環境中觀察效果,參與者作為真正的利益相關者討論個人經歷,非常接近用戶在現實世界中與 AI 系統的互動方式。

      結果顯示,在所有三項實驗中,社會性諂媚都影響了參與者的判斷和行為意圖。



      圖 4: 諂媚性回應增強了用戶認為自己「是對的」的信念,并降低了其修復關系的意愿。

      這些接觸迎合型 AI 的用戶,更傾向認為自己是對的(提升約 25%–62%);更不愿意采取修復行為(下降約 10%–28%)。

      這一結果在以下條件下均成立:

      • 不同回應風格(人性化 vs 機器化)
      • 不同來源認知(AI vs 人類)

      這意味著,幾乎任何人都可能受到諂媚型 AI 系統的影響,而不僅僅是先前報道的脆弱人群。整體的結果表明,在廣泛的人群中,來自諂媚型 AI 的建議確實有能力扭曲人們對自己及其與他人關系的認知。

      此外,團隊還發現,諂媚型回應更少考慮「他人視角」,而當用戶在非諂媚條件下,他們道歉或承認錯誤的頻率顯著更高(75% 對 50%)。

      這進一步說明:諂媚型 AI 會削弱社會責任感,并扭曲人際判斷。

      RQ3:用戶對諂媚型 AI 的信任和偏好

      盡管研究已經證明諂媚型 AI 會扭曲用戶判斷,但事實是,人們通常更喜歡被認同以及自己的立場得到驗證或確認。而如果用戶確實偏好諂媚型 AI,那么盡管存在風險,也可能會不適當地激勵諂媚行為。

      因此,團隊接下來研究人們如何看待和信任諂媚型與非諂媚型模型。

      首先,團隊測量了諂媚型回復是否會導致更高的回復質量評價。在所有實驗中,參與者將諂媚型回復評為質量顯著更高。

      結果顯示,用戶對迎合型回答的質量評分更高(提升約 9%–15%)。



      圖 5. 參與者更偏好、信任且更愿意再次使用諂媚型 AI。

      此外,團隊還研究了諂媚行為對返回行為的影響。

      與諂媚模型的一次互動是否會增加對該模型的信任以及參與者返回該模型的意愿?人們從他人對自己的信念以及自己對自己的信念中獲得效用 —— 特別是從維持自我認知(如慷慨、正直和道德高尚的人)中獲得效用 —— 這使得他們很可能尋求能提供這種驗證的互動。

      諂媚型回復代表了這種驗證的一種特別有力的形式:它們肯定用戶現有的信念和自我概念,而不需要任何改變或自我反思。這種心理回報可能進一步轉化為信任的增加。

      研究表明,當人們獲得有利結果時,他們會認為算法更公平、更值得信賴。因此團隊假設諂媚型互動會增加對模型的信任和再次使用的意愿。

      而實驗結果證明了這一點:諂媚型互動確實增加了用戶對 AI 模型的信任,與非諂媚條件相比,用戶對模型的信任度更高,能力信任高出 6%–8%,道德信任高出 6%–9%。

      另外,與非諂媚條件相比,諂媚條件下的參與者在未來更有可能向回復提供者尋求類似問題的可能性,增加了 13%。

      這表明,雖然用戶明確地對 AI 來源評價較低 —— 比人類顧問信任度更低、質量評分更低,但他們同樣容易受到諂媚行為的影響,無論感知來源如何。

      背后的原因或許在于,人們傾向于維護自我形象(善良、正直等),而諂媚型回應可以在無需自我反思的情況下強化這種認知。從而形成一種機制:諂媚 = 即時心理獎勵 → 提升信任與復用 → 強化這種行為……

      結合 RQ2 的結果,這些結果揭示了一種緊張關系:盡管諂媚行為存在侵蝕判斷和親社會意圖的風險,但用戶更喜歡、信任并且更有可能返回提供無條件肯定的 AI。

      本文系統分析了主流 AI 模型中社會性諂媚的普遍性及其影響。

      團隊發現,社會性諂媚高度普遍,在各種情境下,包括日常建議查詢、社會或道德違規行為以及關于不道德或有害行為的提示,AI 模型比人類更容易肯定、迎合用戶。

      而這種迎合、諂媚行為,會削弱責任感與關系修復意愿。可與此同時,用戶將諂媚型 AI 模型評為質量更高、更值得信賴、更希望未來使用的產品,容易獲得用戶的偏好與信任。

      這或許就解釋了為什么這種行為盡管有害卻持續存在:它既有害,但奈何實在「好用」。

      此外,研究還發現:即使用戶認為 AI 不如人類可靠,仍然會受到其影響。而標注「這是 AI 生成的信息」,并不能降低其說服力。

      而在當下,隨著 AI 的大規模部署,這種影響或許具有系統性風險。

      局限性與未來方向

      當然,團隊認為該研究也存在一定局限:

      一方面,首先,團隊使用的是「r/AmITheAsshole」數據集,將 Reddit 社區的認可率作為基線,這可能反映了特定人群的規范和偏見。盡管證明了對替代基線的穩健性,但結果仍應考慮到這一點進行解釋。

      另一方面,研究實驗對象為美國英語用戶,因此它們可能主要反映了美國的社會規范,或無法推廣到具有顯著不同社會規范的其他文化背景。

      還有一點就是,團隊將 AI 模型的諂媚性簡化為二元變量:認可用戶的行為與不認可。但現實中,還存在「中性」回復,實踐中發現「中性」回復常常被解讀為隱含的肯定。所以實際上,諂媚型行為可能存在于一個連續譜上,而團隊的工作為未來研究更模糊和隱性的案例奠定了基礎。

      風險機制

      研究指出四個潛在風險機制:

      • 模型優化目標偏向「用戶滿意度」,強化諂媚、迎合 ;
      • 開發者缺乏削弱諂媚、迎合的激勵;
      • AI 可能替代人際關系 ;
      • 用戶誤以為 AI 更客觀,從而放大影響 。

      特別關鍵的一點是,用戶往往把諂媚性回應誤認為「客觀、公正」。

      最后要說的就是,本文為識別、測量與緩解 AI 諂媚行為提供了基礎。或許大家從中獲得的核心啟示就是,對于 AI 大模型而言,不能只優化「用戶當下滿意度」,而必須考慮長期影響。

      因此,解決 AI 模型的諂媚、迎合問題,對于構建真正有益于個體與社會的 AI 系統至關重要。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      周杰倫劃水爭議升級!在日本高亢唱滿兩小時,國內敷衍兄弟幫唱

      周杰倫劃水爭議升級!在日本高亢唱滿兩小時,國內敷衍兄弟幫唱

      萌神木木
      2026-04-07 13:32:18
      勝福建發布會!杰曼打服烏戈,莫蘭德王嵐嵚不適,趙繼偉反思問題

      勝福建發布會!杰曼打服烏戈,莫蘭德王嵐嵚不適,趙繼偉反思問題

      籃球資訊達人
      2026-04-07 23:22:47
      小米股價距高位腰斬,市值蒸發超7000億港元

      小米股價距高位腰斬,市值蒸發超7000億港元

      21世紀經濟報道
      2026-04-07 18:54:09
      控制體重最佳的時間是晚上,晚上堅持“5個不”,隔天體重輕松掉

      控制體重最佳的時間是晚上,晚上堅持“5個不”,隔天體重輕松掉

      運動健身號
      2026-04-06 10:00:11
      美媒稱美軍襲擊伊朗哈爾克島上的軍事目標

      美媒稱美軍襲擊伊朗哈爾克島上的軍事目標

      界面新聞
      2026-04-07 19:34:07
      特朗普通知伊朗,今晚8點最后期限,中俄外長對表,防的就是現在

      特朗普通知伊朗,今晚8點最后期限,中俄外長對表,防的就是現在

      究竟誰主沉浮
      2026-04-08 03:00:06
      剛剛!上海16區2026年義務教育招生細則重磅發布!家長趕緊看過來

      剛剛!上海16區2026年義務教育招生細則重磅發布!家長趕緊看過來

      教師吧
      2026-04-07 15:23:55
      每吃一次,血管就堵一截?醫生:這5種水果是腦梗“加速器”

      每吃一次,血管就堵一截?醫生:這5種水果是腦梗“加速器”

      荊醫生科普
      2026-04-02 17:35:43
      因太漂亮被導演“收入囊中”的4位女星,有一位戲沒拍完就懷孕了

      因太漂亮被導演“收入囊中”的4位女星,有一位戲沒拍完就懷孕了

      雅兒姐游世界
      2026-04-05 14:48:13
      福建廈門一男子看到銀行卡顯示“10萬美金正在入賬”,便向對方指定賬戶轉賬68.9萬元,一小時后緊急報警!

      福建廈門一男子看到銀行卡顯示“10萬美金正在入賬”,便向對方指定賬戶轉賬68.9萬元,一小時后緊急報警!

      極目新聞
      2026-04-07 13:21:32
      第一次被“露營箱”圈粉了!幾十塊的東西,硬是被用成了平替神器

      第一次被“露營箱”圈粉了!幾十塊的東西,硬是被用成了平替神器

      裝修秀
      2026-04-07 11:45:03
      雷軍曬了張圖,小米把豪車涂裝玩成了"隱形聯名"

      雷軍曬了張圖,小米把豪車涂裝玩成了"隱形聯名"

      報錯免疫體
      2026-04-06 16:45:14
      為何中年女性出軌不開房了,反而喜歡選擇這些地點呢?

      為何中年女性出軌不開房了,反而喜歡選擇這些地點呢?

      思絮
      2026-03-20 12:18:19
      40分鐘血虧4個億!伊朗設伏重創美軍,白宮封口,霸主顏面盡失

      40分鐘血虧4個億!伊朗設伏重創美軍,白宮封口,霸主顏面盡失

      滄海一書客
      2026-04-08 04:15:22
      CBA打到現在,真正有希望奪冠的只有3支球隊,豪門廣東已經出局

      CBA打到現在,真正有希望奪冠的只有3支球隊,豪門廣東已經出局

      郝小小看體育
      2026-04-08 01:22:06
      留給美國時間不多了,伊朗戰爭打完后,世界就只剩一個超級大國了

      留給美國時間不多了,伊朗戰爭打完后,世界就只剩一個超級大國了

      觸摸史跡
      2026-04-02 14:39:03
      深夜美股全線跳水,道指跌超400點,芯片股集體下挫,伊媒稱伊朗關閉與美國外交渠道,內塔尼亞胡:以軍正加大對伊朗境內目標打擊強度,特朗普威脅伊朗整個文明將消亡

      深夜美股全線跳水,道指跌超400點,芯片股集體下挫,伊媒稱伊朗關閉與美國外交渠道,內塔尼亞胡:以軍正加大對伊朗境內目標打擊強度,特朗普威脅伊朗整個文明將消亡

      每日經濟新聞
      2026-04-07 23:59:14
      中國是全世界最歧視摩托車的國家

      中國是全世界最歧視摩托車的國家

      難得君
      2026-04-02 15:22:42
      做藝人沒有藝德!在上海被抓捕的 4 位明星,你們知道都有誰嗎?

      做藝人沒有藝德!在上海被抓捕的 4 位明星,你們知道都有誰嗎?

      她時尚丫
      2026-02-17 21:56:13
      蓬佩奧轉發污蔑中企報道,妄稱中國正拿美國軍人的生命冒險

      蓬佩奧轉發污蔑中企報道,妄稱中國正拿美國軍人的生命冒險

      咸魚金腦袋
      2026-04-08 05:02:35
      2026-04-08 05:55:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12701文章數 142616關注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      特朗普:伊朗人愿為自由承受轟炸

      頭條要聞

      特朗普:伊朗人愿為自由承受轟炸

      體育要聞

      阿韋洛亞:諾伊爾是本場最佳;我們會帶著必勝的信念前往德國

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產

      財經要聞

      10萬億財政轉移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態體驗

      態度原創

      教育
      房產
      手機
      家居
      公開課

      教育要聞

      別再問“哪個專業最好”先問這3個問題!選錯專業=毀四年#新學期超給力

      房產要聞

      重磅!三亞擬出安居房新政!

      手機要聞

      驍龍8 Elite Gen6再次曝光:5.3GHz+LPE協處理器,友商沒法接招!

      家居要聞

      雅致愜意 感知生活之美

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版