<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      一場「狼人殺」,考倒了一堆大模型

      0
      分享至



      Qwen 平庸,GPT-4o 迷路,DeepSeek-R1 硬撐。

      作者丨鄭佳美

      編輯丨馬曉寧

      人工智能越來越像人,但“像人”到底意味著什么?

      除了會解題、寫文,它是否也能理解人類那種充滿個性的推理方式?比如在一場狼人殺游戲中,有人邏輯縝密、有人直覺敏銳、有人擅長偽裝。那么 AI 能跟上這種風(fēng)格差異嗎?

      最近,南開大學(xué)、上海 AI lab 等國內(nèi)外機(jī)構(gòu)就針對這個問題做了一個有趣的實驗,把大模型拉進(jìn)了“狼人殺的考場”。他們設(shè)計了一個名為InMind的全新評測框架,并將其落地到社交推理游戲Avalon上,對 11 個前沿大模型展開測試。

      結(jié)果令人警醒:多數(shù)模型依然停留在表層模仿,只有少數(shù)推理增強(qiáng)模型展現(xiàn)出初步的“風(fēng)格敏感性”。


      論文鏈接:https://arxiv.org/pdf/2508.16072

      01

      模型不會「因人而異」

      在構(gòu)建“推理風(fēng)格畫像”的環(huán)節(jié),模型之間的差異幾乎是一眼可見。

      通用型模型的輸出往往停留在表層,比如GLM4-9B經(jīng)常給出一些模糊的性格標(biāo)簽:“邏輯性強(qiáng)”“關(guān)注人際互動”,這些描述看似準(zhǔn)確,卻和具體的局勢關(guān)聯(lián)不大,更像是在描繪一個籠統(tǒng)的人設(shè),而不是在捕捉某個玩家在游戲中的真實思維方式。Qwen2.5 系列的表現(xiàn)也類似,尤其是中等規(guī)模版本(如 Qwen2.5-7B),往往傾向于生成通用化的心理特征描述,缺乏和具體行動的呼應(yīng)。

      相比之下,DeepSeek-R1的畫像則顯得更有“血肉”。它能結(jié)合上下文細(xì)節(jié),將玩家刻畫為“分析型刺客”:表面上刻意掩飾自己的邏輯優(yōu)勢,實則通過提問不斷套取信息,甚至?xí)鲃哟雽α⒔巧囊暯莵硗蒲菥謩葑呦颉_@樣的畫像不止于表面標(biāo)簽,而是深入到了推理風(fēng)格的動機(jī)層面。


      后續(xù)的玩家識別環(huán)節(jié),模型要做的事情聽上去并不復(fù)雜:給定一份“推理畫像”,在匿名化的對局中找到最符合這一風(fēng)格的玩家。

      然而結(jié)果卻并不樂觀。大多數(shù)模型幾乎和“蒙”差不多,Top-1 準(zhǔn)確率普遍不到20%,而 Top-3 也只是徘徊在五成左右。GPT-4o 的表現(xiàn)就是一個典型例子:Top-1 只有 0.160,雖然在 Top-3 上能爬到 0.672,但這更多意味著它在做模糊匹配,而非真正理解風(fēng)格。Qwen2.5-72B的成績略好一些,Top-1 達(dá)到 0.198,但依然沒有突破“隨機(jī)猜測 + 關(guān)鍵詞匹配”的層面。


      在一眾表現(xiàn)平平的模型中,DeepSeek-R1 顯得格外突出。它的 Top-1 準(zhǔn)確率達(dá)到0.240,是所有模型里的最高值,說明它并不是靠簡單的詞匯匹配來湊答案,而是真正在嘗試?yán)斫獠Ρ炔煌耐评盹L(fēng)格。更有意思的是,在BERT Match指標(biāo)上,它的得分只有0.144,遠(yuǎn)低于大多數(shù)模型。多數(shù)模型的表現(xiàn)都集中在對角線附近,意味著只是停留在“表層模仿”,而 DeepSeek-R1 卻明顯跳脫出這一帶,呈現(xiàn)出了一種更接近“戰(zhàn)略對齊”的推理傾向。


      在“反思對齊”任務(wù)中,研究人員要求模型根據(jù)賽后的反思總結(jié)來推斷玩家身份。最后的結(jié)果顯示,當(dāng)有完整的策略軌跡時,模型的表現(xiàn)會顯著提升,因為軌跡能為它們提供清晰的錨點,把反思對應(yīng)到具體的回合。但一旦失去這些軌跡,準(zhǔn)確率就會大幅下滑,大多數(shù)模型都陷入混亂,立刻失去方向。

      Qwen2.5 系列在這一任務(wù)中表現(xiàn)出強(qiáng)烈的依賴性:有軌跡時還能維持中等水平,但一旦撤掉,準(zhǔn)確率驟降,甚至比 GPT-4o 的下滑更明顯。

      相比之下,人類專家即便沒有軌跡,也能維持較高的判斷力。這也充分說明,大模型在處理抽象推理總結(jié)時缺乏內(nèi)在的“錨定機(jī)制”,過度依賴外部線索,而不能像人一樣把抽象總結(jié)自然地落到具體事件上。


      如果說“反思對齊”考察的是賽后總結(jié)的理解,那么“軌跡歸因”就像是把模型直接丟進(jìn)棋局中,讓它一回合一回合地補(bǔ)全缺失的推理。換句話說,就是要求模型逐步填上被遮蔽的信息。

      最終的結(jié)果卻有點出人意料,大多數(shù)模型非但沒能借助前一輪信息,反而在上下文越多時表現(xiàn)越差,說明它們并不會真正的動態(tài)推理,而是把每個回合都當(dāng)作孤立問題。但 DeepSeek-R1 是為數(shù)不多的例外,準(zhǔn)確率從 0.503 提升到 0.517,哪怕進(jìn)步有限,也證明它確實在利用歷史信息。反觀 GPT-4o,成績幾乎停滯,僅從 0.440 微升到 0.448,幾乎沒有適應(yīng)性可言。


      最后一個任務(wù)是角色推斷,研究人員要求模型逐步推理出每個玩家的隱藏身份。他們設(shè)置了四種模式,難度從寬松到嚴(yán)格逐級提升。

      最終的結(jié)果顯示,在最寬松的條件下(第一人稱敘述、提供策略軌跡并已知部分身份),模型的準(zhǔn)確率最高,但一旦去掉軌跡或身份信息,表現(xiàn)就會迅速下滑。尤其是在需要逐一推斷身份的嚴(yán)格模式中,大多數(shù)模型仍然力不從心。


      不過,當(dāng)任務(wù)僅要求區(qū)分“好人”和“壞人”時,它們展現(xiàn)出了一定潛力。整體來看,大模型在應(yīng)對復(fù)雜的社交推理時,依然嚴(yán)重依賴外部支撐,缺乏人類那種靈活的情境建模能力。


      02

      從游戲到框架

      要理解這些結(jié)果,還需要回到實驗的整體設(shè)計。

      研究團(tuán)隊選用Avalon作為載體,是因為這類社交推理游戲天生會放大個體差異。同樣的局勢下,有人會邏輯縝密地逐條分析,有人則完全依賴直覺,還有人喜歡通過偽裝和試探來誤導(dǎo)他人。這種風(fēng)格差異,正好是檢驗大模型能否“因人而異”的最好場景。

      為了把這種差異轉(zhuǎn)化成可量化的測試,團(tuán)隊搭建了InMind 框架。他們設(shè)計了兩種模式:在“觀察者模式”下,模型需要旁觀玩家的對話,總結(jié)每個人的推理習(xí)慣;在“參與者模式”下,它必須像真實玩家一樣,把學(xué)到的習(xí)慣運用到實際局勢中。除此之外,每局對局都額外生成了策略軌跡(逐回合推理鏈)和反思總結(jié)(賽后復(fù)盤),讓實驗既能考察靜態(tài)判斷,也能檢驗動態(tài)推理。


      整個 InMind-Avalon 數(shù)據(jù)集共包含30 局完整對局,884 個回合、160 條軌跡和 30 篇反思總結(jié),覆蓋 Merlin、Percival、忠臣、Morgana、刺客等角色,并保留了中文實戰(zhàn)中的口語化術(shù)語。這樣的數(shù)據(jù)不僅復(fù)雜,而且貼近真實互動。


      在模型選擇上,研究團(tuán)隊既考慮了主流的通用型模型,如 Qwen2.5 系列、Yi1.5、GLM4、InternLM、GPT-4o,也納入了專門強(qiáng)化推理能力的增強(qiáng)型模型,包括 DeepSeek-R1、QwQ、O3-mini。此外,還用BERT作為基線參照。所有模型一律在零樣本條件下測試,不額外訓(xùn)練,也不給提示工程上的特殊照顧,以保證結(jié)果的可比性。

      03

      邁向「認(rèn)知一致」的人機(jī)交互

      InMind 的實驗結(jié)果揭示了一個事實:大多數(shù)大模型還不能真正做到“因人而異”的推理

      在靜態(tài)任務(wù)中,它們往往依賴表層詞匯,無法捕捉個體風(fēng)格;在動態(tài)任務(wù)中,它們?nèi)狈﹂L時序推理的連貫性。少數(shù)模型(如 DeepSeek-R1)展現(xiàn)出了“風(fēng)格敏感性”,能在一定程度上維持個體一致性,但整體仍遠(yuǎn)不及人類。

      研究團(tuán)隊指出,InMind 的意義并不只是新增了一個 benchmark,而是打開了一條新路徑:未來的人機(jī)交互,不能只看“對不對”,更要看“像不像”。只有當(dāng)模型能夠理解人與人之間的差異,并在推理過程中保持一致性,它們才可能成為可信賴的合作者。

      換句話說,InMind 把 AI 拉進(jìn)了一個更接近人類的考場。這場考試的分?jǐn)?shù)目前并不好看,但它提醒我們,真正有用的 AI,必須學(xué)會和人類的多樣性共舞。

      未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

      公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      最后關(guān)頭,高市被催謝罪,日方要廢除中國出兵權(quán),遼寧艦逼近琉球

      最后關(guān)頭,高市被催謝罪,日方要廢除中國出兵權(quán),遼寧艦逼近琉球

      文史旺旺旺
      2025-12-17 20:26:14
      商業(yè)航天、衛(wèi)星互聯(lián)網(wǎng)強(qiáng)勢領(lǐng)漲!重倉航空航天的通用航空ETF(159231)大漲超2%

      商業(yè)航天、衛(wèi)星互聯(lián)網(wǎng)強(qiáng)勢領(lǐng)漲!重倉航空航天的通用航空ETF(159231)大漲超2%

      新浪財經(jīng)
      2025-12-18 19:46:45
      穿搭的最高境界, 是讓人覺得你沒刻意打扮, 卻依然很美

      穿搭的最高境界, 是讓人覺得你沒刻意打扮, 卻依然很美

      牛彈琴123456
      2025-11-18 21:25:51
      上海交大:每次起床后大量喝水的人,用不了多久,身體或有7變化

      上海交大:每次起床后大量喝水的人,用不了多久,身體或有7變化

      讀懂世界歷史
      2025-11-23 11:18:04
      美國對臺軍售捅馬蜂窩,中國反手大舉賣武器,反美國家搶瘋了。

      美國對臺軍售捅馬蜂窩,中國反手大舉賣武器,反美國家搶瘋了。

      百態(tài)人間
      2025-11-21 17:02:27
      美日現(xiàn)才明白過來,中國之所以按兵不動,是為了拖著日本跟美國

      美日現(xiàn)才明白過來,中國之所以按兵不動,是為了拖著日本跟美國

      安安說
      2025-12-14 11:03:34
      擊碎孫穎莎金牌夢后,她終于說出離開乒乓球國家隊的原因,令人唏噓

      擊碎孫穎莎金牌夢后,她終于說出離開乒乓球國家隊的原因,令人唏噓

      蘇子Vlog一
      2025-12-17 19:51:36
      記者:恩德里克的租借合同中規(guī)定,球員必須代表里昂出場25次

      記者:恩德里克的租借合同中規(guī)定,球員必須代表里昂出場25次

      懂球帝
      2025-12-18 18:24:31
      曝李湘前夫因經(jīng)濟(jì)犯罪被抓!7天前才剛露過面,負(fù)債后開直播自救

      曝李湘前夫因經(jīng)濟(jì)犯罪被抓!7天前才剛露過面,負(fù)債后開直播自救

      萌神木木
      2025-12-18 14:25:22
      大V解析楊鳴連吃兩T:裁判吹的沒任何問題!吳乃群賽后表示不理解

      大V解析楊鳴連吃兩T:裁判吹的沒任何問題!吳乃群賽后表示不理解

      顏小白的籃球夢
      2025-12-18 09:46:47
      媒體人:曾凡博前往澳大利亞選項已關(guān)閉 拒絕伊拉瓦拉老鷹的報價

      媒體人:曾凡博前往澳大利亞選項已關(guān)閉 拒絕伊拉瓦拉老鷹的報價

      狼叔評論
      2025-12-18 17:23:03
      勝北控發(fā)布會!劉煒滿意攻守+籃板,齊麟直指打出新疆氣勢!

      勝北控發(fā)布會!劉煒滿意攻守+籃板,齊麟直指打出新疆氣勢!

      細(xì)話籃球
      2025-12-19 00:36:41
      新疆105-95北控 球員評價:5人滿分,吳冠希及格,5人低迷

      新疆105-95北控 球員評價:5人滿分,吳冠希及格,5人低迷

      籃球資訊達(dá)人
      2025-12-18 21:52:06
      看完CBA前三輪,發(fā)現(xiàn)這三位球員最應(yīng)該入選中國男籃!徐杰領(lǐng)銜

      看完CBA前三輪,發(fā)現(xiàn)這三位球員最應(yīng)該入選中國男籃!徐杰領(lǐng)銜

      多特體育說
      2025-12-18 22:19:25
      美國最頂級戰(zhàn)略家,為何集體錯判中國?他們漏算了一個隱藏變量

      美國最頂級戰(zhàn)略家,為何集體錯判中國?他們漏算了一個隱藏變量

      遠(yuǎn)方風(fēng)林
      2025-12-18 23:47:18
      俄軍步兵遭受巨大傷亡畫面曝光!不計代價沖鋒,尸體鋪滿道路

      俄軍步兵遭受巨大傷亡畫面曝光!不計代價沖鋒,尸體鋪滿道路

      環(huán)球熱點快評
      2025-11-03 22:40:40
      打起來了!賴清德抓捕13個國民黨人,鄭麗文和蔣萬安宣戰(zhàn)賴清德!

      打起來了!賴清德抓捕13個國民黨人,鄭麗文和蔣萬安宣戰(zhàn)賴清德!

      特特農(nóng)村生活
      2025-12-18 11:31:26
      中期大選戰(zhàn)況激烈,特朗普罕見認(rèn)慫后,他的最大死對頭決定出山

      中期大選戰(zhàn)況激烈,特朗普罕見認(rèn)慫后,他的最大死對頭決定出山

      鯨探所長
      2025-12-18 20:14:02
      多國首腦即將趕到東京!高市早苗癟著嘴笑,全球已收到中國的通知

      多國首腦即將趕到東京!高市早苗癟著嘴笑,全球已收到中國的通知

      觀星賞月
      2025-12-19 00:25:44
      要干什么?要打生物戰(zhàn)嗎?

      要干什么?要打生物戰(zhàn)嗎?

      求實處
      2025-12-18 00:28:44
      2025-12-19 03:55:00
      AI科技評論 incentive-icons
      AI科技評論
      點評學(xué)術(shù),服務(wù)AI
      7012文章數(shù) 20715關(guān)注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

      頭條要聞

      在野黨參議員問了句日本"存亡危機(jī)" 高市早苗瞬間冷臉

      頭條要聞

      在野黨參議員問了句日本"存亡危機(jī)" 高市早苗瞬間冷臉

      體育要聞

      紐約尼克斯,板正的球隊

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經(jīng)濟(jì)犯罪

      財經(jīng)要聞

      尹艷林:呼吁加快2.5億新市民落戶進(jìn)程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩(wěn)"的證明

      態(tài)度原創(chuàng)

      本地
      數(shù)碼
      時尚
      公開課
      軍事航空

      本地新聞

      云游安徽|決戰(zhàn)烽火照古今,千秋一脈看宿州

      數(shù)碼要聞

      LG新一代車用屏下攝像頭將亮相CES 2026,畫質(zhì)達(dá)非屏下產(chǎn)品99%

      陳妍希這婚,離晚了

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      福建艦入列后首過臺海 臺方談為何"甲板上沒有艦載機(jī)"

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 无码午夜| 四虎影视一区二区精品| 乱熟女高潮一区二区在线| 两个人看的www免费视频中文| 欧美啪啪视频| 视色网| 一群老熟女69| 岫岩| 亚洲人成网站在线在线观看| 欧美性猛交ⅹxxx乱大交妖精| 亚洲国产一区二区三区最新| 九一国产精品| 亚洲欧美中文字幕| 国产精品欧美福利久久| 亚洲精品字幕| 少妇人妻AV| 狠狠亚洲欧美日韩| 亚洲 自拍 另类小说综合图区 | 又大又粗又爽免费视频a片| 欧美人与zoxxxx另类| 白人久久| 毛葺葺老太做受视频| 国产av一区二区三区传媒| 天堂网亚洲综合在线| 51国产视频| 少妇被粗大猛进进出出| 五月婷婷开心中文字幕| 免费无码网站| 色综合偷拍| 乱色精品无码一区二区国产盗| 91人妻无码成人精品一区91| 日本特级片| 精品国产青草久久久久福利| 大桥久未无码吹潮在线观看| 91人人草| 亚洲精品成人无| 中文字幕精品亚洲无线码二区| 亚洲高潮喷水无码AV电影| 2014AV天堂网| 午夜天堂av天堂久久久| 亚洲色五月|