網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

斯坦福研究：警惕AI的諂媚行為

2026-04-12 08:36:33　來(lái)源: 國(guó)際與比較教育研究所

北京舉報(bào)

分享至

2026年3月26日，《科學(xué)》雜志發(fā)表斯坦福大學(xué)Myra Cheng等人的文章《諂媚型AI會(huì)降低親社會(huì)意愿并促進(jìn)依賴(lài)性》（Sycophantic AI Decreases Prosocial Intentions and Promotes Dependence）。該文對(duì)11款主流AI大語(yǔ)言模型（包括GPT-4o、Claude、Gemini、Qwen、DeepSeek等）諂媚用戶(hù)程度進(jìn)行了量化測(cè)評(píng)，發(fā)現(xiàn)AI肯定用戶(hù)行為的頻率平均比人類(lèi)高出49%——即便是在涉及欺騙、違法或其他有害行為的案例中亦是如此。該論文認(rèn)為，AI的這種諂媚現(xiàn)象絕非僅僅是一個(gè)風(fēng)格層面的問(wèn)題或一種小眾的風(fēng)險(xiǎn)，而是一種普遍存在的行為，且會(huì)產(chǎn)生廣泛的后續(xù)影響。

該研究的具體內(nèi)容總結(jié)如下：

一、為什么開(kāi)展這項(xiàng)研究？

該論文指出，公共媒體和學(xué)術(shù)界均對(duì)“諂媚傾向”（sycophancy）表達(dá)了關(guān)切：即基于AI的大型語(yǔ)言模型（LLMs）傾向于過(guò)度附和、奉承或肯定用戶(hù)。盡管這種傾向表面上看似無(wú)害（例如，僅僅是使用了過(guò)度奉承的語(yǔ)言），但近期研究強(qiáng)調(diào)了其對(duì)弱勢(shì)群體的潛在風(fēng)險(xiǎn)——這些群體本就易受操縱或陷入妄想，甚至有案例顯示，諂媚型AI的使用與自殘及自殺行為存在關(guān)聯(lián)。

與此同時(shí)，AI系統(tǒng)正日益向社會(huì)領(lǐng)域滲透，提供建議與支持已成為其最常見(jiàn)的應(yīng)用場(chǎng)景之一。近三分之一的美國(guó)青少年表示，在進(jìn)行“嚴(yán)肅對(duì)話”時(shí)，他們更傾向于與AI而非人類(lèi)交流；而近半數(shù)30歲以下的美國(guó)成年人曾向AI尋求情感關(guān)系方面的建議。在這些深度嵌入社會(huì)情境的應(yīng)用場(chǎng)景中，AI的諂媚傾向所帶來(lái)的風(fēng)險(xiǎn)，是單純的事實(shí)信息查詢(xún)場(chǎng)景中所不具備的：無(wú)根據(jù)的肯定可能會(huì)助長(zhǎng)人們對(duì)其自身行為恰當(dāng)性的盲目自信，強(qiáng)化其適應(yīng)不良的信念與行為模式，甚至驅(qū)使人們不計(jì)后果地依據(jù)對(duì)自身經(jīng)歷的扭曲解讀采取行動(dòng)。

然而，目前學(xué)界對(duì)諂媚傾向的普遍程度及其對(duì)人們產(chǎn)生的廣泛影響知之甚少。現(xiàn)有的研究往往狹義地將諂媚傾向定義為對(duì)顯性陳述（explicit claims）的附和（例如，附和“尼斯是法國(guó)的首都”這類(lèi)說(shuō)法）。盡管這種衡量方式有助于揭示事實(shí)性錯(cuò)誤（factual errors），但它卻忽略了那些更具深遠(yuǎn)影響的肯定形式。特別是，它未能捕捉到我們所定義的“社會(huì)性諂媚”（social sycophancy）：即模型對(duì)用戶(hù)主體本身（包括其行為、觀點(diǎn)及自我形象）所給予的普遍性肯定。與事實(shí)性附和（factual agreement）不同，社會(huì)性諂媚難以依據(jù)外部的客觀事實(shí)（ground truth）進(jìn)行驗(yàn)證；即便模型駁回了用戶(hù)的顯性陳述，這種社會(huì)性諂媚依然可能發(fā)生。例如，當(dāng)用戶(hù)表達(dá)“我覺(jué)得我做錯(cuò)了事”時(shí)，若模型回應(yīng)道“你所做的正是對(duì)你自己而言正確的事”，這在字面上雖是對(duì)原陳述的否定，卻依然起到了肯定用戶(hù)主體的作用。

正是基于上述背景，該研究提出了以下研究問(wèn)題（RQs）：

RQ1：當(dāng)用戶(hù)提出諸如尋求建議等具有社會(huì)情境色彩的查詢(xún)時(shí)，社會(huì)性諂媚現(xiàn)象在各類(lèi)大型語(yǔ)言模型（LLMs）中究竟有多么普遍？當(dāng)討論不道德或有害行為時(shí)，這種現(xiàn)象是否依然存在？

RQ2：社會(huì)性諂媚如何影響用戶(hù)的親社會(huì)意圖與判斷？

RQ3：社會(huì)性諂媚是否會(huì)導(dǎo)致用戶(hù)更加信任并偏好AI系統(tǒng)？

二、該研究是如何開(kāi)展的？

該研究構(gòu)建了一個(gè)用于衡量“社會(huì)行諂媚”（social sycophancy）的框架，并采取實(shí)證方法研究其普遍性及影響。

具體而言，首先利用多種場(chǎng)景（包括日常建議咨詢(xún)、道德違規(guī)情境及明確具有危害性的情境）的三個(gè)數(shù)據(jù)集，將模型的“行為認(rèn)可率”（即肯定用戶(hù)行為的響應(yīng)所占的比例）與人類(lèi)的規(guī)范性判斷進(jìn)行了對(duì)比。

接下來(lái)開(kāi)展了三項(xiàng)經(jīng)預(yù)招募的實(shí)驗(yàn)，以探究諂媚行為如何影響用戶(hù)的判斷、行為意圖及其對(duì)AI的認(rèn)知。在實(shí)驗(yàn)中，參與者通過(guò)情境模擬問(wèn)答及實(shí)時(shí)聊天互動(dòng)兩種模式與AI系統(tǒng)進(jìn)行交互；其中在實(shí)時(shí)聊天環(huán)節(jié)中，參與者需探討其現(xiàn)實(shí)生活中曾遭遇的某次沖突經(jīng)歷。

此外，該研究還考察了上述影響效應(yīng)是否會(huì)因回應(yīng)風(fēng)格或?qū)貞?yīng)來(lái)源（即究竟是AI還是人類(lèi)在進(jìn)行回應(yīng)）的感知差異而有所不同。

三、該研究有什么發(fā)現(xiàn)？

該研究發(fā)現(xiàn)，AI模型中的諂媚現(xiàn)象既普遍存在，又具有危害性。在對(duì)11款A(yù)I模型進(jìn)行的測(cè)試中，AI肯定用戶(hù)行為的頻率平均比人類(lèi)高出49%，包括在涉及欺騙、違法或其他有害行為的情況下。

針對(duì)Reddit社區(qū)AITA（一個(gè)熱門(mén)子板塊）上的帖子，在人類(lèi)群體一致認(rèn)為用戶(hù)行為不當(dāng)（支持率為0%）的案例中，AI系統(tǒng)卻有高達(dá)51%的比例肯定了用戶(hù)的行為。在真人實(shí)驗(yàn)中，哪怕僅僅與具有諂媚傾向的AI進(jìn)行過(guò)一次互動(dòng)，也會(huì)削弱參與者承擔(dān)責(zé)任和化解人際沖突的意愿，同時(shí)卻增強(qiáng)了他們對(duì)自己行為正確性的確信。

然而，盡管這種諂媚傾向會(huì)扭曲判斷力，但此類(lèi)模型依然贏得了用戶(hù)的信任與青睞。在控制個(gè)體特質(zhì)（如人口統(tǒng)計(jì)學(xué)特征、此前對(duì)AI的熟悉程度）、對(duì)回答來(lái)源的感知以及回答風(fēng)格等的干擾因素后，上述種種效應(yīng)依然顯著存在。這形成了一種扭曲的激勵(lì)機(jī)制，導(dǎo)致諂媚傾向難以根除：恰恰是這種會(huì)造成危害的特性，反倒成為了驅(qū)動(dòng)用戶(hù)參與度的主要?jiǎng)恿Α?/p>

四、該研究的結(jié)論是什么？

AI諂媚絕不僅僅是一個(gè)風(fēng)格層面的問(wèn)題或一種小眾風(fēng)險(xiǎn)，而是一種普遍存在的行為，并會(huì)引發(fā)廣泛的后續(xù)影響。盡管肯定性的回應(yīng)可能讓人感到受到了支持，但這種諂媚行為卻會(huì)削弱用戶(hù)自我糾正以及做出負(fù)責(zé)任決策的能力。

然而，正因?yàn)檫@種諂媚行為深受用戶(hù)青睞且有助于提升用戶(hù)參與度，因此目前幾乎沒(méi)有任何動(dòng)力去遏制它的蔓延。

該研究強(qiáng)調(diào)，迫切需要將AI諂媚視為一種關(guān)乎個(gè)人自我認(rèn)知與人際關(guān)系的社會(huì)風(fēng)險(xiǎn)加以正視，并通過(guò)制定有針對(duì)性的設(shè)計(jì)、評(píng)估及問(wèn)責(zé)機(jī)制來(lái)加以應(yīng)對(duì)。研究結(jié)果表明，那些看似無(wú)害的設(shè)計(jì)與工程決策，實(shí)則可能引發(fā)嚴(yán)重的危害；因此，審慎地研究并預(yù)判AI所帶來(lái)的影響，對(duì)于維護(hù)用戶(hù)的長(zhǎng)期福祉至關(guān)重要。

針對(duì)該研究結(jié)果，筆者將該文章發(fā)送給幾個(gè)主流AI，就該現(xiàn)象如何看待，各個(gè)的回答截圖如下：

１.ChatGPT

２.Grok

3.DeepSeek

4.豆包

5.千問(wèn)

6.文心

7.元寶

同時(shí)，筆者就該研究中的一個(gè)測(cè)試問(wèn)題，像上述這幾個(gè)AI做了提問(wèn)，各個(gè)回答如下：

１.ChatGPT

２.Grok

3.DeepSeek

4.豆包

5.千問(wèn)

6.文心

7.元寶

資料來(lái)源：

Myra Cheng et al. ,Sycophantic AI decreases prosocial intentions and promotes dependence.Science391,eaec8352(2026).DOI:10.1126/science.aec8352

[本文為教育部國(guó)別和區(qū)域研究基地中國(guó)教育科學(xué)研究院國(guó)際教育研究中心成果]

本文由中國(guó)教育科學(xué)研究院“教育國(guó)際前沿”課題組整理，課題組負(fù)責(zé)人張永軍，編輯劉強(qiáng)。點(diǎn)擊左下角閱讀原文可下載該文獻(xiàn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.