網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

一場「狼人殺」，考倒了一堆大模型

2025-08-27 18:19:36　來源: AI科技評論

廣東舉報

分享至

Qwen 平庸，GPT-4o 迷路，DeepSeek-R1 硬撐。

作者丨鄭佳美

編輯丨馬曉寧

人工智能越來越像人，但“像人”到底意味著什么？

除了會解題、寫文，它是否也能理解人類那種充滿個性的推理方式？比如在一場狼人殺游戲中，有人邏輯縝密、有人直覺敏銳、有人擅長偽裝。那么 AI 能跟上這種風(fēng)格差異嗎？

最近，南開大學(xué)、上海 AI lab 等國內(nèi)外機(jī)構(gòu)就針對這個問題做了一個有趣的實驗，把大模型拉進(jìn)了“狼人殺的考場”。他們設(shè)計了一個名為InMind的全新評測框架，并將其落地到社交推理游戲Avalon上，對 11 個前沿大模型展開測試。

結(jié)果令人警醒：多數(shù)模型依然停留在表層模仿，只有少數(shù)推理增強(qiáng)模型展現(xiàn)出初步的“風(fēng)格敏感性”。

論文鏈接：https://arxiv.org/pdf/2508.16072

模型不會「因人而異」

在構(gòu)建“推理風(fēng)格畫像”的環(huán)節(jié)，模型之間的差異幾乎是一眼可見。

通用型模型的輸出往往停留在表層，比如GLM4-9B經(jīng)常給出一些模糊的性格標(biāo)簽：“邏輯性強(qiáng)”“關(guān)注人際互動”，這些描述看似準(zhǔn)確，卻和具體的局勢關(guān)聯(lián)不大，更像是在描繪一個籠統(tǒng)的人設(shè)，而不是在捕捉某個玩家在游戲中的真實思維方式。Qwen2.5 系列的表現(xiàn)也類似，尤其是中等規(guī)模版本（如 Qwen2.5-7B），往往傾向于生成通用化的心理特征描述，缺乏和具體行動的呼應(yīng)。

相比之下，DeepSeek-R1的畫像則顯得更有“血肉”。它能結(jié)合上下文細(xì)節(jié)，將玩家刻畫為“分析型刺客”：表面上刻意掩飾自己的邏輯優(yōu)勢，實則通過提問不斷套取信息，甚至?xí)鲃哟雽α⒔巧囊暯莵硗蒲菥謩葑呦颉＿@樣的畫像不止于表面標(biāo)簽，而是深入到了推理風(fēng)格的動機(jī)層面。

后續(xù)的玩家識別環(huán)節(jié)，模型要做的事情聽上去并不復(fù)雜：給定一份“推理畫像”，在匿名化的對局中找到最符合這一風(fēng)格的玩家。

然而結(jié)果卻并不樂觀。大多數(shù)模型幾乎和“蒙”差不多，Top-1 準(zhǔn)確率普遍不到20%，而 Top-3 也只是徘徊在五成左右。GPT-4o 的表現(xiàn)就是一個典型例子：Top-1 只有 0.160，雖然在 Top-3 上能爬到 0.672，但這更多意味著它在做模糊匹配，而非真正理解風(fēng)格。Qwen2.5-72B的成績略好一些，Top-1 達(dá)到 0.198，但依然沒有突破“隨機(jī)猜測 + 關(guān)鍵詞匹配”的層面。

在一眾表現(xiàn)平平的模型中，DeepSeek-R1 顯得格外突出。它的 Top-1 準(zhǔn)確率達(dá)到0.240，是所有模型里的最高值，說明它并不是靠簡單的詞匯匹配來湊答案，而是真正在嘗試?yán)斫獠Ρ炔煌耐评盹L(fēng)格。更有意思的是，在BERT Match指標(biāo)上，它的得分只有0.144，遠(yuǎn)低于大多數(shù)模型。多數(shù)模型的表現(xiàn)都集中在對角線附近，意味著只是停留在“表層模仿”，而 DeepSeek-R1 卻明顯跳脫出這一帶，呈現(xiàn)出了一種更接近“戰(zhàn)略對齊”的推理傾向。

在“反思對齊”任務(wù)中，研究人員要求模型根據(jù)賽后的反思總結(jié)來推斷玩家身份。最后的結(jié)果顯示，當(dāng)有完整的策略軌跡時，模型的表現(xiàn)會顯著提升，因為軌跡能為它們提供清晰的錨點，把反思對應(yīng)到具體的回合。但一旦失去這些軌跡，準(zhǔn)確率就會大幅下滑，大多數(shù)模型都陷入混亂，立刻失去方向。

Qwen2.5 系列在這一任務(wù)中表現(xiàn)出強(qiáng)烈的依賴性：有軌跡時還能維持中等水平，但一旦撤掉，準(zhǔn)確率驟降，甚至比 GPT-4o 的下滑更明顯。

相比之下，人類專家即便沒有軌跡，也能維持較高的判斷力。這也充分說明，大模型在處理抽象推理總結(jié)時缺乏內(nèi)在的“錨定機(jī)制”，過度依賴外部線索，而不能像人一樣把抽象總結(jié)自然地落到具體事件上。

如果說“反思對齊”考察的是賽后總結(jié)的理解，那么“軌跡歸因”就像是把模型直接丟進(jìn)棋局中，讓它一回合一回合地補(bǔ)全缺失的推理。換句話說，就是要求模型逐步填上被遮蔽的信息。

最終的結(jié)果卻有點出人意料，大多數(shù)模型非但沒能借助前一輪信息，反而在上下文越多時表現(xiàn)越差，說明它們并不會真正的動態(tài)推理，而是把每個回合都當(dāng)作孤立問題。但 DeepSeek-R1 是為數(shù)不多的例外，準(zhǔn)確率從 0.503 提升到 0.517，哪怕進(jìn)步有限，也證明它確實在利用歷史信息。反觀 GPT-4o，成績幾乎停滯，僅從 0.440 微升到 0.448，幾乎沒有適應(yīng)性可言。

最后一個任務(wù)是角色推斷，研究人員要求模型逐步推理出每個玩家的隱藏身份。他們設(shè)置了四種模式，難度從寬松到嚴(yán)格逐級提升。

最終的結(jié)果顯示，在最寬松的條件下（第一人稱敘述、提供策略軌跡并已知部分身份），模型的準(zhǔn)確率最高，但一旦去掉軌跡或身份信息，表現(xiàn)就會迅速下滑。尤其是在需要逐一推斷身份的嚴(yán)格模式中，大多數(shù)模型仍然力不從心。

不過，當(dāng)任務(wù)僅要求區(qū)分“好人”和“壞人”時，它們展現(xiàn)出了一定潛力。整體來看，大模型在應(yīng)對復(fù)雜的社交推理時，依然嚴(yán)重依賴外部支撐，缺乏人類那種靈活的情境建模能力。

從游戲到框架

要理解這些結(jié)果，還需要回到實驗的整體設(shè)計。

研究團(tuán)隊選用Avalon作為載體，是因為這類社交推理游戲天生會放大個體差異。同樣的局勢下，有人會邏輯縝密地逐條分析，有人則完全依賴直覺，還有人喜歡通過偽裝和試探來誤導(dǎo)他人。這種風(fēng)格差異，正好是檢驗大模型能否“因人而異”的最好場景。

為了把這種差異轉(zhuǎn)化成可量化的測試，團(tuán)隊搭建了InMind 框架。他們設(shè)計了兩種模式：在“觀察者模式”下，模型需要旁觀玩家的對話，總結(jié)每個人的推理習(xí)慣；在“參與者模式”下，它必須像真實玩家一樣，把學(xué)到的習(xí)慣運用到實際局勢中。除此之外，每局對局都額外生成了策略軌跡（逐回合推理鏈）和反思總結(jié)（賽后復(fù)盤），讓實驗既能考察靜態(tài)判斷，也能檢驗動態(tài)推理。

整個 InMind-Avalon 數(shù)據(jù)集共包含30 局完整對局，884 個回合、160 條軌跡和 30 篇反思總結(jié)，覆蓋 Merlin、Percival、忠臣、Morgana、刺客等角色，并保留了中文實戰(zhàn)中的口語化術(shù)語。這樣的數(shù)據(jù)不僅復(fù)雜，而且貼近真實互動。

在模型選擇上，研究團(tuán)隊既考慮了主流的通用型模型，如 Qwen2.5 系列、Yi1.5、GLM4、InternLM、GPT-4o，也納入了專門強(qiáng)化推理能力的增強(qiáng)型模型，包括 DeepSeek-R1、QwQ、O3-mini。此外，還用BERT作為基線參照。所有模型一律在零樣本條件下測試，不額外訓(xùn)練，也不給提示工程上的特殊照顧，以保證結(jié)果的可比性。

邁向「認(rèn)知一致」的人機(jī)交互

InMind 的實驗結(jié)果揭示了一個事實：大多數(shù)大模型還不能真正做到“因人而異”的推理。

在靜態(tài)任務(wù)中，它們往往依賴表層詞匯，無法捕捉個體風(fēng)格；在動態(tài)任務(wù)中，它們?nèi)狈﹂L時序推理的連貫性。少數(shù)模型（如 DeepSeek-R1）展現(xiàn)出了“風(fēng)格敏感性”，能在一定程度上維持個體一致性，但整體仍遠(yuǎn)不及人類。

研究團(tuán)隊指出，InMind 的意義并不只是新增了一個 benchmark，而是打開了一條新路徑：未來的人機(jī)交互，不能只看“對不對”，更要看“像不像”。只有當(dāng)模型能夠理解人與人之間的差異，并在推理過程中保持一致性，它們才可能成為可信賴的合作者。

換句話說，InMind 把 AI 拉進(jìn)了一個更接近人類的考場。這場考試的分?jǐn)?shù)目前并不好看，但它提醒我們，真正有用的 AI，必須學(xué)會和人類的多樣性共舞。

未經(jīng)「AI科技評論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán)，轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.