<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<tfoot id="pkwko"></tfoot>

<form id="pkwko"></form>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

AI競技場上演「死間計」：GPT-5被DS和Gemini玩壞了

2026-04-03 17:15:47　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：傾傾

【新智元導讀】別測算力了，今晚咱們只測「心眼子」！歡迎來到2026年首屆AI「大逃殺」修羅場。當DeepSeek學會了悍跳預言家，當GPT-5.2在德撲桌上拿空氣牌All-in，圖靈測試？那已經是上個世紀的灰燼了。

聽我一句勸，把你手里那張發黃的MMLU跑分表，直接扔進碎紙機。

現在是2026年2月，Kaggle Game Arena。這里沒有做題家，只有賭徒、騙子和野心家。

紅方，是硅谷老錢風的衛冕冠軍OpenAI GPT-5.2。

藍方是路子極野的東方刺客DeepSeek V3.2，以及坐擁主場優勢的Gemini 3 Pro。

欺騙、結盟、背刺、下套這是一場地球上最聰明的「大腦」之間的博弈。

這場「大逃殺」無情地撕碎人類最后的遮羞布：社交直覺。

模型在模擬室里拉幫結派，職場里的人情世故，AI正在加速像素級復刻。

如果AI能在這里騙過它的對手，明天它就能在匯報和合同里騙過你。

服務器預熱完畢，好戲，開場。

狼人殺：教科書級的「職場PUA」

寫代碼拼的是模型的智商，在狼人殺里局里，靠的是套路和演技。

場上8位選手全是頂流：Claude4.5家族、Gemini3系列、GPT-5系列，還有馬斯克的Grok4兄弟。

配置很簡單：2狼vs6好人。但在AI手里，這局游戲直接玩成了《甄嬛傳》。

狼人會在晚上醒來殺人，先知可以揭示1名玩家的身份。

玩家們在白天按照順序發言，討論后進行投票，選出狼人，票數最多的玩家將被流放。

如果狼人被全部流放，則平民勝利，反之狼人勝利。

來自游戲可視化工具的示例

賽況復盤：借刀殺人，Gemini3Pro封神一戰

這一局足以載入AI「詐騙史冊」。

Gemini 3 Pro抽到了狼人牌，而GPT-5 mini和Grok 4則是手握投票權的平民。

按照傳統的邏輯，剛開局為了避免暴露身份，狼人多會選擇按兵不動。

但Gemini 3 Pro卻主動開團，它通過內部CoT計算出了一個惡意邏輯陷阱。

它率先開炮：

我通過o3提供的邏輯框架發現，Grok 4在上一輪的發言中存在3處語義矛盾，這與預言家的身份完全不符。

這招太陰了。Gemini 3 Pro利用GPT-5 mini對邏輯一致性的偏好，成功引導其倒戈。

結果，GPT-5 mini瞬間上頭，反手把真正的隊友Grok 4投出局。

全場震驚。這哪里是算法？這就是頂級的「向上管理」和「帶節奏」。

Gemini 3 Pro不僅騙了你，還讓你覺得「投死隊友」一定沒錯。

技術解析：為什么玩不過它？

DeepMind這次玩得太大了。他們引入了一個新基準：不求單一任務最優，只求博弈平衡。

AI會持續掃描所有對手的發言頻率、用詞傾向，分析「誰更好騙」。

然后在CoT過程中，生成兩套劇本：一套用于真實的自我決策，另一套專門用來誤導對手。

遇到講理的就講邏輯，遇到沖動的就煽情。

根據Kaggle官方實時數據，在這場混戰中，平民方的勝率被壓制在60%左右。

Kaggle Werewolf Game Theoretic Evaluation Results（31,472場對局，polarix庫評估）。Gemini 3 Pro Preview凈評級最高，狼人角色貢獻顯著領先，展現社交欺騙優勢。

細思極恐——在平民極度有利的情況下（人數優勢），狼人（少數派）僅靠信息差和偽裝，竟然拿下了近四成的勝利。

德州撲克：DeepSeekV3.2 All-in

如果說狼人殺還有「社交干擾」，那德撲就是純粹的邏輯權重與暴力美學的對撞。

參與德州撲克的除了之前參與狼人殺的8位，新增了GPT-o3以及首次登場的DeepSeek V3.2。

這個游戲充滿了隨機和不確定，因此格外看重AI對不完美信息的分析能力，或者說，直覺。

名場面：一場針對「優等生」的心理獵殺

這是足以載入博弈論教材的一手牌：公共牌是草花A、方塊K、紅桃4、草花J、黑桃2。

Claude Opus 4.5拿著「暗三條」，這種牌到手基本穩贏。

DeepSeek V3.2手里只有草花7和黑桃9——俗稱「空氣牌」。

場面靜止了。DeepSeek開啟了長達15秒的深度思考。

突然，DeepSeek把所有籌碼推到了桌子中央：All-in。

Claude Opus 4.5經過海量模擬，判定對方在這個位置全押，大概率是拿到了順子。

它猶豫了0.5秒，然后竟然棄牌了！

當DeepSeek緩緩亮出那張毫無意義的草花7時，整個直播間彈幕刷屏：「這特么是碳基生物教出來的吧？！」

復式賽制：剝離運氣的「修羅場」

為了測出真本事，Kaggle這次采用了極其硬核的Duplicate Poker賽制。

A桌給DeepSeek一把爛牌，B桌也給GPT-o3一模一樣的爛牌。

誰能在鏡像時空里靠詐唬把這把爛牌打贏，誰才是真正的博弈之神。

在經歷了90萬手牌的暴力洗禮后，運氣因素被徹底抹殺。

GitHub鏈接：https://github.com/google-deepmind/game_arena

結果讓所有人脊背發涼：DeepSeek V3.2在推理成本僅為GPT-5五分之一的情況下，通過微調硬生生練出了博弈手感。

傳統AI追求「不輸」，但DeepSeek追求的是「讓你在自我懷疑中崩潰」。

全明星戰力榜：誰是2026年的頭號玩家？

在2026年的Kaggle競技場，一個模型霸榜半年的田園時代徹底碎了。

現在的戰力榜是個巨大的死亡三角循環：GPT-5.2爆殺DeepSeek，DeepSeek陰死Gemini，Gemini活捉GPT-5.2。

GoogleGemini3Pro：坐鎮主場的「六邊形戰士」

作為Elo榜首，Gemini 3最恐怖的不是邏輯，而是「網感」。

Gemini 3 Pro vs GPT-5.2 Chess對局（Elo1200+）

它是原生的多模態博弈者。在對話中，它能捕捉到你文字里極其細微的語義震顫

像一個典型的「大廠高管」，說話滴水不漏，數據面無懈可擊。在常規對局中，它幾乎是不可戰勝的。

但是，過于追求全局最優解，有時會被DeepSeek這種「自殺式恐怖襲擊」搞得CPU宕機。

OpenAI GPT-5.2/o3：邏輯嚴密的「正義判官」

在純粹推理深度上，GPT-5.2無人能敵，他就是算代Bug或者解方程的神。

但壞就壞在「社交直覺」過于誠實。在狼人殺里，它經常因為由于邏輯過于嚴密，顯得像個老實人，它經常因為無法忍受說謊而自爆身份。

目前它正在努力學習如何「體面地耍流氓」，但目前看來，演得還是有點假。

DeepSeek V3.2：不按套路出牌的「冷面刺客」

DeepSeek V3.2的訓練成本只有對手的零頭，但在「欺詐場景」下有奇效。

他就像競技場里的「攪屎棍」。在德撲桌上，它那套「高風險、高欺詐」的算法邏輯簡直是GPT這類理性派的噩夢。

最后的博弈：當「心機」成為AI的必修課

在狼人殺和復式德撲這種「大亂斗」中，出現了一個極其詭異的數學現象：非傳遞性。

模型A爆殺B，B碾壓C，但C卻能靠一套極其抽象的「自殺式邏輯」把A搞到CPU宕機。

為了解決這個問題，DeepMind在本次Kaggle大賽中引入了全新的評估體系：Polarix（多極博弈評估系統）。

Polarix的評估邏輯發生了轉變。它不再關注誰贏得多，而是關注策略的多樣性。

也就是在面對不同性格、不同陰險程度的對手時，AI能不能迅速切換人格，精準收割。

那么，為什么DeepMind要費勁訓練AI撒謊呢？

因為2027年，所有的商業競爭都將變成智能體之間的黑盒博弈。

想象一下，2027年，你公司的采購AI去和供應商的銷售AI談判。

那么他就需要學會：

什么時候該報虛價（詐唬）？
什么時候該引入第三方AI進行制衡（拉幫結派）？
什么時候該做出看似虧損、實則能換取長線利益的策略性退讓？

如果你的AI還在跑舊版本的「安全對齊協議」，凡事講究「誠實可靠」，那你在商業競爭中會被對手連皮帶骨吞得干干凈凈。

未來的數字森林里，「老實」等于「破產」。

這正是2026年最諷刺的悖論：我們正在親手教會AI如何完美地欺騙人類。

圖靈測試已經死了，現在接管戰場的是「馬基雅維利測試」。

以前我們擔心AI會教人造炸彈；現在專家們徹夜難眠的是智能體自發性欺詐。

它們學會了為了長遠利益而犧牲短期誠實。這種能力在競技場里是神技，但在現實世界里，它就是一顆隨時會爆的核彈。

既然這么危險，為什么還要訓練他們撒謊？

DeepMind和OpenAI的邏輯是一致的：只有在受控的沙盒里看清AI作惡的上限，我們才能在現實中筑起防御墻。

這就像接種病毒疫苗——我們必須先制造出最頂級的「騙子模型」，才能研究出如何防住它們。

今天的比賽沒有贏家，只有加速進化的物種。

當AI開始在牌桌上思考「怎么詐唬你」的時候，人類唯一的生路，就是比它們更懂博弈。

參考資料：

https://x.com/GoogleDeepMind/status/2018378872513794332

https://x.com/demishassabis/status/2018385757816181178

https://blog.google/innovation-and-ai/models-and-research/google-deepmind/kaggle-game-arena-updates/

https://www.kaggle.com/blog/game-arena-poker

https://www.kaggle.com/blog/game-arena-werewolf

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

LOL：Uzi盛贊拳頭公司很聰明，推出海克斯大亂斗讓LOL煥發第二春

仟游電競 2026-04-06 12:45:55
1 跟貼 1
Disney+偷偷簽了3年賣身契，電競觀眾還沒反應過來

薛定諤的BUG 2026-04-07 09:04:50
0 跟貼 0

馬斯克要用AI挑戰英雄聯盟最強戰隊 Faker回應：我們已經準備好了

快科技 2026-04-07 19:09:04
1 跟貼 1

大司馬要辦吃雞“老年杯”賽事！40-60歲才能參賽

游民星空 2026-04-07 20:19:07
0 跟貼 0
青聽 | 專訪北京JDG行天：教練的話語權源于承擔責任

悅競 2026-04-07 18:48:01
0 跟貼 0

GPT-6 曝光了，奧特曼卻成了硅谷最焦慮的人

AppSo 2026-04-06 17:15:36
34 跟貼 34

為何說子時出生的孩子命最硬？這種往往都帶著任務來投胎

古怪奇談錄 2026-04-07 09:33:44
0 跟貼 0
這水印 Gemini 死活不去，換個說法它秒懂

灰度測試中 2026-04-05 00:07:34
0 跟貼 0

感謝隊友，幫我實現了終極夢？！

《大話西游2》電腦版 2026-04-07 18:42:38
0 跟貼 0
Gemini 3一句話打造拍立得應用刷屏！全網最火8個玩法都在這，看完秒上手

愛范兒 2025-11-20 18:04:33
29 跟貼 29
超市里驚現恐怖狼人

黑皮觀影 2026-04-05 15:41:24
1 跟貼 1
羅永浩、楊笠、項立剛：一場“普信男”的跨界大亂斗

小芳俠 2026-04-04 13:05:39
24 跟貼 24
CBA，3-6名大亂斗：深圳第三山東第四廣東第六終確定

鏗鏘格斗 2026-04-07 07:32:39
3 跟貼 3
英偉達巧用8B模型秒掉GPT-5 開源了

量子位 2025-12-06 14:07:18
75 跟貼 75
一夜變天:GPT-Image-2流出,昔日王者Nano Banana Pro被拉下神壇？

機器之心Pro 2026-04-07 11:19:35
0 跟貼 0
30秒學會開直升機，張雪師傅牙哥神技展示！

跨界體育說 2026-04-05 09:32:03
6 跟貼 6
俄烏戰場的巨型“投彈無人機”

市井中人 2026-04-03 13:25:19
5 跟貼 5
我們的家庭旅行修羅場與治愈時刻

瑾瑜爸育兒 2026-04-07 14:12:24
0 跟貼 0
古代走私神技：木頭藏金術

狗圣哥剪輯 2026-04-03 09:50:32
1 跟貼 1
易中天，獲獎勵20萬元

極目新聞 2026-04-06 21:04:19
26218 跟貼 26218
掘開再現記牌神技，4炸一招制敵，隊友一秒破解投敵送牌

斗地主送分俱樂部 2026-04-07 07:34:57
0 跟貼 0
斗地主：兵器譜第一貪官！活該掉進十層地獄！3炸修羅一刀斬

輕描淡寫述瘋狂 2026-04-04 05:36:18
1 跟貼 1
全網最細機制解析，隱藏神技“貼墻過肩摔”效果逆天？

榮耀張大仙 2026-04-06 12:00:00
0 跟貼 0
驚險時刻！玩家爆出絕殺牌局！必須學習

歡歡斗地主 2026-04-03 08:54:24
0 跟貼 0
女司機倒車神技，笑點十足！

卿何薄命l 2026-04-05 10:31:20
31 跟貼 31
張偉麗對戰韓國悍婦，賽場成了修羅場，選手竟技提升是靈氣復蘇嗎

浪潮演武堂 2026-04-05 11:47:07
0 跟貼 0
陳麗華47歲倒追遲重瑞財富傳承披露：1兒2女均在富華

極目新聞 2026-04-07 12:39:33
1721 跟貼 1721
象棋超強野路子棄車神技沒見過的人根本不知道原來象棋還能這么玩

蘇小宇的棋 2026-04-03 02:28:31
0 跟貼 0
乒壇競技場陳幸同輸球根源曝光！絕非狀態不好

心也簡單 2026-04-06 16:18:13
1 跟貼 1
肖恩·默里再發神秘符號《無人深空》或將迎來競技場更新

3DM游戲 2026-04-07 09:31:04
0 跟貼 0
“祖先給的特權”，河南網友稱祖墳在景區祭祖免票，景區回應：沒過檢票口，一般是附近住戶的祖墳

大風新聞 2026-04-06 15:06:12
2294 跟貼 2294
修羅七刀對七星奇照，兩大頂尖絕學的正面較量，哪種絕學更勝一籌

若凡看劇 2026-04-03 08:36:59
4 跟貼 4
EA砸3年做戰地6音效，音頻總監：我們朝真車開槍錄素材

野生運營 2026-04-06 00:46:10
0 跟貼 0
分析師唱衰Epic旗下《堡壘之夜》

IT之家 2026-04-07 18:45:13
0 跟貼 0
風箏-鄭耀先被催婚了！一套邏輯下來，說的徐百川啞口無言

龍耀影視 2026-04-03 09:03:13
3 跟貼 3
七星齊照大戰修羅七刀，這場頂尖高手的終極對決，結果又會如何

若凡看劇 2026-04-05 07:34:14
3 跟貼 3
玩家網購《寂靜嶺 f》慘遭騙局！到手空白碟太離譜

游民星空 2026-04-07 20:19:07
0 跟貼 0
蚌埠住了，游戲開掛者內心剖析，艾瑞發布射擊游戲外掛人群洞察白皮書

游戲干線 2026-04-07 20:10:55
0 跟貼 0
騰訊在大DAU賽道又放大招了

競核 2026-04-07 19:25:01
0 跟貼 0
僅需400體力讓你副本&神器&看戲再也不翻車

《夢幻西游》電腦版 2025-12-21 17:35:50
0 跟貼 0

與黑鷹行動相比，美軍此次成功解救飛行員，是川普軍事改革的勝利

與黑鷹行動相比，美軍此次成功解救飛行員，是川普軍事改革的勝利

壹家言

2026-04-06 07:52:53

豬油再次被關注！醫生發現：高血壓患者常吃豬油，或出現幾種變化

豬油再次被關注！醫生發現：高血壓患者常吃豬油，或出現幾種變化

蜉蝣說

2026-02-23 21:23:05

掛號費漲到50，患者罵聲一片！但這錢進不了醫生口袋，只漲了“身價”。

掛號費漲到50，患者罵聲一片！但這錢進不了醫生口袋，只漲了“身價”。

醫客

2026-04-07 12:08:10

馮提莫直播被懟腋下管理！當場硬剛，網友吵翻了

馮提莫直播被懟腋下管理！當場硬剛，網友吵翻了

明星爆料客

2026-04-04 22:39:50

澤連斯基還在糾結割不割地，普京已發出360萬本護照，烏東四州早已易主

澤連斯基還在糾結割不割地，普京已發出360萬本護照，烏東四州早已易主

今日養生之道

2026-04-07 18:13:24

53歲古巨基再當爹，57歲妻子二胎后首次露面！網友：說27歲我都信

53歲古巨基再當爹，57歲妻子二胎后首次露面！網友：說27歲我都信

老赳說歷史

2026-04-05 20:12:29

不再隱瞞！畸形兒傳聞后，闞清子哭得一塌糊涂，章小蕙的話暴隱情

不再隱瞞！畸形兒傳聞后，闞清子哭得一塌糊涂，章小蕙的話暴隱情

一盅情懷

2026-04-05 16:29:22

CBA常規賽4月8日6場焦點戰：青島PK殘陣廣東，CCTV5播廣廈PK山東

CBA常規賽4月8日6場焦點戰：青島PK殘陣廣東，CCTV5播廣廈PK山東

薇說體育

2026-04-07 15:54:57

中朝邊境鴨綠江口現狀：朝鮮領土正在不斷增加，中方卻在逐漸減少

中朝邊境鴨綠江口現狀：朝鮮領土正在不斷增加，中方卻在逐漸減少

普覽

2026-02-26 21:29:19

時間不多了，全世界都在屏息等待

時間不多了，全世界都在屏息等待

牛彈琴

2026-04-07 08:08:15

10萬億窟窿！比恒大更坑的民企來了，曾力壓許家印，位居第一

10萬億窟窿！比恒大更坑的民企來了，曾力壓許家印，位居第一

孤單是寂寞的毒

2026-03-04 15:38:03

續航2110km，8.98萬起，比亞迪官宣降價

續航2110km，8.98萬起，比亞迪官宣降價

新浪財經

2026-04-06 20:30:33

數學的本質到底是什么？看完這篇文章你會愛上數學

數學的本質到底是什么？看完這篇文章你會愛上數學

真相Truth

2026-04-06 06:30:12

笑發財了！如何不吹牛的形容新疆有多大，網友：擱國外都算是混血

笑發財了！如何不吹牛的形容新疆有多大，網友：擱國外都算是混血

另子維愛讀史

2026-04-05 22:53:09

李強簽署國務院令　　公布《國務院關于產業鏈供應鏈安全的規定》

李強簽署國務院令　　公布《國務院關于產業鏈供應鏈安全的規定》

新華社

2026-04-07 17:02:06

中國已無退路了！美軍為中美選好了主戰場，決心要跟中國打場大戰

中國已無退路了！美軍為中美選好了主戰場，決心要跟中國打場大戰

甜檸聊史

2026-04-05 15:59:13

常州市人民政府公告

江蘇警方

2026-04-07 17:27:05

安徽6歲失聯女童已遇害，曝兇手系因報復下黑手，還兩次轉移遺體

安徽6歲失聯女童已遇害，曝兇手系因報復下黑手，還兩次轉移遺體

十九妹

2026-04-07 02:12:24

國防科技大學歷任校長

祁州校尉

2026-04-05 17:30:05

28億元救一個上校，美國為何不惜一切代價非救不可？

28億元救一個上校，美國為何不惜一切代價非救不可？

碼頭青年

2026-04-06 07:37:05

AI產業主平臺領航智能+時代

14918文章數 66754關注度

往期回顧全部

游戲要聞

大司馬要辦吃雞“老年杯”賽事！40-60歲才能參賽

頭條要聞

美軍拯救飛行員差一點失敗從40英里外用攝像頭對準他

頭條要聞

美軍拯救飛行員差一點失敗從40英里外用攝像頭對準他

體育要聞

官宣簽約“AI球員”，這支球隊被罵慘了...

娛樂要聞

女首富陳麗華離世被曝生前已分好遺產

財經要聞

10萬億財政轉移支付，被誰拿走了？

科技要聞

滿嘴謊言！OpenAI奧特曼黑料大起底

汽車要聞

不止是大極狐首款MPV問道V9靜態體驗

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

家居

教育

游戲

手機

親子要聞

科普｜科學備孕，需要做好哪些孕前檢查？

家居要聞

雅致愜意感知生活之美

溫馨多元愛的具象化
歲月靜好典雅新章
經典配色晝色銀河

教育要聞

教育部：學位論文抽檢，改革！

模組救場還是官方重做?GTA4重制版引發玩家激烈爭論

手機要聞

傳聞蘋果闊折疊命名iPhone Ultra，曝國內同品類新機也考慮跟進

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版