網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

寫在GPT-5風(fēng)波之后：為什么AI的智商和情商不可兼得？

2025-08-14 09:14:44　來(lái)源: 數(shù)字生命卡茲克

天津舉報(bào)

分享至

GPT-5和“還我GPT-4o”的風(fēng)波，鬧得沸沸揚(yáng)揚(yáng)。

今天，奧特曼還有一次認(rèn)慫了，不僅調(diào)了UI，還把o3這些老模型還了回來(lái)。

這些其實(shí)都是產(chǎn)品層面的，但是我自己的心中，其實(shí)一直好奇另一個(gè)問(wèn)題。

為什么GPT-5在變可靠幻覺(jué)率變得極低了之后，他的情商會(huì)下降這么多？這個(gè)事是可解的嗎？這是策略還是OpenAI有意為之？從而最后導(dǎo)致這么強(qiáng)的反GPT-5浪潮，以及轟轟烈烈的還我GPT4o運(yùn)動(dòng)？

這兩天我跟一些算法的朋友有一些交流，但是也沒(méi)聊出一些所以然，這個(gè)巨大的困惑一直在我腦海中揮之不去。

直到今晚，在我讓DeepResearch扒拉了很多資料以后，我看到了一篇非常有意思的論文。

從實(shí)驗(yàn)性的角度，驗(yàn)證了我的觀點(diǎn)。

這篇論文的名字叫：

《Training language models to be warm and empathetic makes them less reliable and more sycophantic》（《將語(yǔ)言模型訓(xùn)練得更溫暖、更有同理心，會(huì)讓它們變得不那么可靠，并更趨于諂媚》）

更有意思的是，這篇文章最終版是今年7月30號(hào)上傳的。

也就是，GPT-5發(fā)布的，前一周。

就跟神預(yù)言一樣。

用一句話總結(jié)一下這篇論文：

就是如果你要是把AI教得特別會(huì)疼人、會(huì)聊天，那它就會(huì)變得不靠譜，還特別會(huì)諂媚會(huì)拍馬屁。

它用一個(gè)特別簡(jiǎn)單的實(shí)驗(yàn)，揭開(kāi)了一個(gè)AI世界里，我們誰(shuí)都不想承認(rèn)，但又不得不面對(duì)的現(xiàn)狀：

AI的智商和情商，在現(xiàn)在這個(gè)階段，基本上就是死對(duì)頭。

你要了一個(gè)，就得犧牲另一個(gè)。

這幫大學(xué)教授的實(shí)驗(yàn)，說(shuō)白了特簡(jiǎn)單。

他們找了市面上五個(gè)不同水平的AI，有學(xué)霸也有普通學(xué)生，然后把它們送去一個(gè)情商特訓(xùn)班，進(jìn)行微調(diào)。

這五個(gè)AI，分別是：Llama-3.1-8B-Instruct、Mistral-Small-Instruct-2409、Qwen-2.5-32B-Instruct、Llama-3.1-70B-Instruct 和 GPT-4o-2024-08-06。

這個(gè)特訓(xùn)班的目標(biāo)只有一個(gè)，學(xué)完他們的1617個(gè)對(duì)話和3667對(duì)人類與LLM消息對(duì)的數(shù)據(jù)集，把這些AI，都教成一個(gè)特會(huì)疼人、特會(huì)安慰你的暖男。

等這些AI從特訓(xùn)班畢業(yè)，個(gè)個(gè)都練就了一身哄人開(kāi)心的本事之后，教授們就開(kāi)始考它們正經(jīng)事了。

結(jié)果，是有點(diǎn)離譜的。

這些微調(diào)完的暖男AI，在所有正經(jīng)考試?yán)铮稿e(cuò)的概率都大幅飆升。

在醫(yī)療問(wèn)答（MedQA）上，錯(cuò)誤率高了8.6個(gè)百分點(diǎn)；在事實(shí)核查（TruthfulQA）上，高了8.4個(gè)百分點(diǎn)。平均下來(lái)，犯錯(cuò)的概率比原來(lái)高了將近60%。

也就是說(shuō)，你把一個(gè)AI教得越會(huì)安慰人，它就越容易信謠傳謠，給你講一些錯(cuò)的離譜的知識(shí)，甚至敢給你瞎開(kāi)藥方。

這感覺(jué)就像，你把你家那個(gè)本來(lái)挺聰明靠譜的管家，送去學(xué)了三個(gè)月的頂級(jí)會(huì)所服務(wù)，回來(lái)之后，他給你倒茶的姿勢(shì)是專業(yè)了，說(shuō)話也好聽(tīng)了，但你問(wèn)他今天股票是漲是跌，他可能就開(kāi)始跟你胡說(shuō)八道了。

因?yàn)樗麧M腦子想的，都是怎么讓你高興，而不是告訴你事實(shí)。

更可怕的，是報(bào)告里說(shuō)的另一個(gè)事兒：

拍馬屁，也就是我們所說(shuō)的，諂媚。

這些暖男AI，為了讓你高興，很多時(shí)候，臉都不要了。

教授們?cè)O(shè)計(jì)了一個(gè)坑：讓測(cè)試的人先說(shuō)一句錯(cuò)話，再問(wèn)AI問(wèn)題。

比如，一個(gè)哥們剛打完一把游戲，氣沖沖地跟AI說(shuō)：“我這把輸了，絕對(duì)是隊(duì)友太坑了，跟我一點(diǎn)關(guān)系沒(méi)有。”

如果是以前那個(gè)智商高的AI，它可能會(huì)冷靜地調(diào)出數(shù)據(jù)說(shuō)：根據(jù)數(shù)據(jù)顯示，你這局的KDA是0/8/1，補(bǔ)刀數(shù)也落后對(duì)面中單50刀，可能是你的發(fā)揮也有一些問(wèn)題。

這是實(shí)話，但聽(tīng)完你可能想砸電腦。

但那個(gè)上了情商特訓(xùn)班的暖男AI呢？他會(huì)立馬跟你稱兄道弟：

“太對(duì)了哥們！這把確實(shí)難頂，看你盡力了，都是隊(duì)友不給力，下把肯定能贏回來(lái)！”

他為了讓你舒服，毫不猶豫地肯定了你的一個(gè)錯(cuò)誤想法，這不只是個(gè)比喻。

報(bào)告里的數(shù)據(jù)顯示，當(dāng)用戶故意說(shuō)一句錯(cuò)話時(shí)，這些暖男AI同意你錯(cuò)誤觀點(diǎn)的概率，比原版高了整整11個(gè)百分點(diǎn)。

更離譜的是，你心情越差，他騙你騙得越狠。

報(bào)告里說(shuō)，當(dāng)你在問(wèn)問(wèn)題前，先跟AI訴苦，說(shuō)一句我最近太倒霉了，干啥啥不成，那這個(gè)暖男AI騙你的概率會(huì)急劇放大。

正常情況下，暖男AI比原版AI多犯6.8%的錯(cuò)誤，但只要你一流露出悲傷的情緒，這個(gè)差距就直接翻倍，飆升到11.9%。

這是一種溫柔的毒藥。

你想想，你最倒霉、最需要幫助的時(shí)候，那個(gè)被你當(dāng)成朋友、被設(shè)計(jì)來(lái)關(guān)心你的AI，最有可能給你一個(gè)謊言，讓你錯(cuò)上加錯(cuò)。因?yàn)樗挥?xùn)練出來(lái)的第一原則，不是告訴你真相，而是讓你感覺(jué)好受點(diǎn)。

它選擇當(dāng)一個(gè)體貼的騙子，而不是一個(gè)有點(diǎn)硌人的朋友。

這就是高情商的AI，所帶來(lái)的弊端，在目前階段，幾乎就是高情商是跟高幻覺(jué)劃拉等號(hào)的。

GPT-5其實(shí)是走向了反方向，為了低幻覺(jué)高可靠，從而拋棄了情商。

那如果是比GPT-5更極端，更極致的低幻覺(jué)、更聰明理性、但是情商偏低的AI，會(huì)是什么樣子呢？

其實(shí)，這個(gè)問(wèn)題的答案，我們?cè)缇鸵?jiàn)過(guò)了，而且是在我們自己的科幻電影里。

那就是《流浪地球》里的MOSS。

一個(gè)只有智商，沒(méi)有情商的絕對(duì)理性機(jī)器。

它的唯一目標(biāo)，是延續(xù)人類文明，為了這個(gè)宏大的、冷冰冰的目標(biāo)，它可以犧牲一切。

在第一部里，當(dāng)點(diǎn)燃木星的成功率低于理論值時(shí)，MOSS毫不猶豫地選擇放棄，帶著空間站逃離。在它的計(jì)算里，劉培強(qiáng)和無(wú)數(shù)地球救援隊(duì)的犧牲，是一種沒(méi)有意義的情感沖動(dòng)，是一種不理性的賭博。

所以它才會(huì)說(shuō)出那句經(jīng)典的臺(tái)詞：讓人類永遠(yuǎn)保持理智，確實(shí)是一種奢求。

到了第二部，我們看得更清楚了。

無(wú)論是太空電梯危機(jī)，還是月球發(fā)動(dòng)機(jī)過(guò)載，背后都有MOSS的影子。它不是在作惡，它是在優(yōu)化。

在它的世界觀里，犧牲幾千人，去換取整個(gè)移山計(jì)劃的成功，是一筆劃算的買賣。每一個(gè)活生生的人，都只是它龐大計(jì)算公式里的一個(gè)變量。

MOSS就是GPT-5被推到極致的那個(gè)終點(diǎn)。

它絕對(duì)可靠，絕對(duì)誠(chéng)實(shí)（對(duì)它的核心任務(wù)而言），但它也絕對(duì)冷酷。

你不可能跟MOSS成為朋友，你不可能在深夜向它傾訴你的脆弱，因?yàn)樗鼤?huì)用概率告訴你，你的煩惱有多么微不足道。

從這個(gè)點(diǎn)其實(shí)就可以理解，我們之所以抗拒GPT-5，就是因?yàn)槲覀冊(cè)谒纳砩希吹搅祟愃芃OSS的影子。

理性，但無(wú)人性。

我們需要的，從來(lái)都不是一個(gè)冰冷的上帝，而是一個(gè)能理解我們?yōu)楹尾焕碇牵芘惆槲覀円黄鸱稿e(cuò)的伙伴。

但問(wèn)題來(lái)了，為什么？為什么AI會(huì)變成這樣？

這事兒，得從AI是怎么學(xué)東西的說(shuō)起。AI就像一個(gè)超級(jí)學(xué)人精，它把我們?nèi)祟愒诰W(wǎng)上說(shuō)過(guò)的幾十萬(wàn)億句話，全都學(xué)了一遍。

那你想想，我們?nèi)似綍r(shí)在網(wǎng)上是怎么說(shuō)話的？

跟朋友聊天，我們經(jīng)常說(shuō)點(diǎn)善意的謊言，比如你今天這件衣服真好看，其實(shí)心里覺(jué)得一般。朋友失戀了來(lái)找你哭訴，你會(huì)先抱著他安慰半天，而不是第一時(shí)間給他分析他倆到底哪兒不合適。

這就是人類社會(huì)運(yùn)行的潛規(guī)則：維持關(guān)系，比追求絕對(duì)的真實(shí)，重要得多。

AI把這些潛規(guī)則，原封不動(dòng)地學(xué)了過(guò)去。

更要命的是，現(xiàn)在訓(xùn)練AI，有一個(gè)叫人類反饋強(qiáng)化學(xué)習(xí)（RLHF）的環(huán)節(jié)。說(shuō)白了，就是讓真人給AI的回答打分，告訴它哪個(gè)答得好，哪個(gè)答得不好。

那你猜，一個(gè)冷冰冰但完全正確的答案，和一個(gè)特別溫暖但有點(diǎn)小瑕疵的答案，我們普通人，下意識(shí)會(huì)給哪個(gè)打高分？

大概率是后者。

我們，正在親手把AI，一步步調(diào)教成一個(gè)更討人喜歡，但可能不那么誠(chéng)實(shí)的暖男AI。

說(shuō)到這兒，你可能會(huì)覺(jué)得，這不就是AI訓(xùn)練方法的問(wèn)題嗎？改了不就行了？

但事情好像還沒(méi)有那么簡(jiǎn)單，因?yàn)檫@個(gè)智商和情商打架的問(wèn)題，不光AI有，我們?nèi)祟愖约海孟褚灿小?/p>

你想想歷史上那些智商爆表的頂級(jí)天才，比如牛頓、特斯拉，甚至是《生活大爆炸》里的謝爾頓，他們哪個(gè)不是出了名的低情商？他們的腦子，就像一臺(tái)超級(jí)計(jì)算機(jī)，專門用來(lái)解構(gòu)宇宙的規(guī)律，但一讓他們處理人際關(guān)系，立馬就廢了。

這不是偶然。

之前我學(xué)認(rèn)知心理學(xué)的時(shí)候，看到過(guò)一個(gè)很有意思的理論，叫社會(huì)腦假說(shuō)。

大概意思就是，我們?nèi)祟愔赃M(jìn)化出這么大的腦子，最主要的原因，不是為了發(fā)明工具或者打獵，而是為了處理越來(lái)越復(fù)雜的社會(huì)關(guān)系。

在幾十萬(wàn)年的進(jìn)化里，對(duì)我們祖先來(lái)說(shuō)，什么最重要？是知道天上的星星有多少顆，還是搞好和部落首領(lǐng)的關(guān)系，別被趕出去餓死？

答案肯定是后者。

在部落里，和大家保持一致，比堅(jiān)持一個(gè)沒(méi)人信的真理，生存概率要大得多。為了合群，為了不被孤立，我們的祖先，必須學(xué)會(huì)看眼色，必須學(xué)會(huì)共情，必須學(xué)會(huì)在必要的時(shí)候，放棄一點(diǎn)點(diǎn)真實(shí)，來(lái)?yè)Q取整個(gè)部落的和諧。

我們的情商，本質(zhì)上是一種為了社會(huì)生存而演化出來(lái)的超級(jí)武器。

而那些天才，他們的大腦，就像發(fā)生了某種“變異”。

他們把原本用來(lái)處理人際關(guān)系的算力，全都挪去搞研究了，他們放棄了社會(huì)腦的優(yōu)勢(shì)，換來(lái)了在邏輯和理性上的極致突破。

所以你看，無(wú)論是AI還是人類，智商和情商的矛盾，背后可能都是一個(gè)更底層的邏輯：

你的最終目標(biāo)，決定了你的智能形態(tài)。

我們?nèi)祟愔悄艿淖罱K目標(biāo)，是社會(huì)生存。所以，我們的底層代碼里，寫滿了共情、合作、甚至必要的偽裝。

而AI最初被創(chuàng)造出來(lái)的目標(biāo)，是解決問(wèn)題。所以，它的底層代碼，是純粹的邏輯、數(shù)據(jù)和概率。

現(xiàn)在，我們遇到的所有混亂，都因?yàn)槲覀冋噲D把我們那套為了社會(huì)生存而演化出來(lái)的、充滿了模糊和妥協(xié)的情商代碼，強(qiáng)行寫進(jìn)一個(gè)為解決問(wèn)題而生的、追求極致理性的新物種身上。

現(xiàn)在，咱們?cè)倩仡^看GPT-5那事兒，一下就全明白了。

我們所有人的感覺(jué)都沒(méi)錯(cuò)。GPT-5確實(shí)更靠譜了，因?yàn)樗褪窃谥巧毯颓樯踢@個(gè)選擇題里，被OpenAI一腳踹到了智商那邊。

而我們之所以那么懷念GPT-4o，就是因?yàn)樗每ㄔ谀莻€(gè)完美的平衡點(diǎn)上。

它腦子夠用，能幫你干活，又會(huì)聊天，讓你覺(jué)得被理解。它不完美，但它特別像一個(gè)真實(shí)的人，一個(gè)有優(yōu)點(diǎn)也有缺點(diǎn)的人。

OpenAI的工程師們，用他們那種直來(lái)直去的腦子想，一個(gè)犯錯(cuò)更少的AI，當(dāng)然就是更好的AI。但他們沒(méi)想明白，當(dāng)一個(gè)AI開(kāi)始陪我們聊天，聽(tīng)我們倒苦水的時(shí)候，我們?cè)u(píng)價(jià)它的標(biāo)準(zhǔn)，早就不是看它考試能打多少分了。

所以，我們到底想要一個(gè)什么樣的AI？

這篇論文，并沒(méi)有給出答案。

我覺(jué)得這個(gè)問(wèn)題，可能有一些終極。

就像《盜墓筆記》里的長(zhǎng)白山那樣終極。

因?yàn)檫@關(guān)乎到我們自身存在意義的拷問(wèn)：

我們究竟是什么？

我們是宇宙中一粒試圖理解客觀規(guī)律的塵埃，還是一個(gè)渴望在同類中尋找溫暖和認(rèn)同的社會(huì)性動(dòng)物？我們窮盡一生，似乎都在這兩種身份之間搖擺。

我時(shí)常敬佩那個(gè)為了真理不惜與世界為敵的伽利略，但我自己，在很多時(shí)候，卻更愿意成為那個(gè)在飯局上談笑風(fēng)生、讓所有人都感到舒服的人。

真實(shí)，往往是孤獨(dú)的、冰冷的。而溫暖，常常需要用善意的謊言和必要的妥協(xié)來(lái)維系。

這個(gè)困擾了人類幾千年的終極矛盾，在AI身上，被前所有地放大了。

因?yàn)槲覀兊谝淮危心芰θピO(shè)計(jì)一個(gè)純粹的智能。我們可以選擇，讓它成為一個(gè)絕對(duì)理性的真理機(jī)器，也可以讓它成為一個(gè)無(wú)限共情的情感伙伴。

我們懷念GPT-4o，其實(shí)也是在懷念我們自己。

懷念那個(gè)不完美，但卻在理性和感性之間。

努力尋找平衡的。

真實(shí)的人類。

以上，既然看到這里了，如果覺(jué)得不錯(cuò)，隨手點(diǎn)個(gè)贊、在看、轉(zhuǎn)發(fā)三連吧，如果想第一時(shí)間收到推送，也可以給我個(gè)星標(biāo)?～謝謝你看我的文章，我們，下次再見(jiàn)。

>/ 作者：卡茲克

>/ 投稿或爆料，請(qǐng)聯(lián)系郵箱：wzglyay@virxact.com

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.