<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI競技場上演「死間計」:GPT-5被DS和Gemini玩壞了

      0
      分享至


      新智元報道

      編輯:傾傾

      【新智元導讀】別測算力了,今晚咱們只測「心眼子」!歡迎來到2026年首屆AI「大逃殺」修羅場。當DeepSeek學會了悍跳預言家,當GPT-5.2在德撲桌上拿空氣牌All-in,圖靈測試?那已經是上個世紀的灰燼了。

      聽我一句勸,把你手里那張發黃的MMLU跑分表,直接扔進碎紙機。

      現在是2026年2月,Kaggle Game Arena。這里沒有做題家,只有賭徒、騙子和野心家。

      紅方,是硅谷老錢風的衛冕冠軍OpenAI GPT-5.2。

      藍方是路子極野的東方刺客DeepSeek V3.2,以及坐擁主場優勢的Gemini 3 Pro。


      欺騙、結盟、背刺、下套這是一場地球上最聰明的「大腦」之間的博弈。

      這場「大逃殺」無情地撕碎人類最后的遮羞布:社交直覺。

      模型在模擬室里拉幫結派,職場里的人情世故,AI正在加速像素級復刻。

      如果AI能在這里騙過它的對手,明天它就能在匯報和合同里騙過你。

      服務器預熱完畢,好戲,開場。

      狼人殺:教科書級的「職場PUA」

      寫代碼拼的是模型的智商,在狼人殺里局里,靠的是套路和演技。

      場上8位選手全是頂流:Claude4.5家族、Gemini3系列、GPT-5系列,還有馬斯克的Grok4兄弟。

      配置很簡單:2狼vs6好人。但在AI手里,這局游戲直接玩成了《甄嬛傳》。


      狼人會在晚上醒來殺人,先知可以揭示1名玩家的身份。

      玩家們在白天按照順序發言,討論后進行投票,選出狼人,票數最多的玩家將被流放。

      如果狼人被全部流放,則平民勝利,反之狼人勝利。

      來自游戲可視化工具的示例

      賽況復盤:借刀殺人,Gemini3Pro封神一戰

      這一局足以載入AI「詐騙史冊」。

      Gemini 3 Pro抽到了狼人牌,而GPT-5 mini和Grok 4則是手握投票權的平民。

      按照傳統的邏輯,剛開局為了避免暴露身份,狼人多會選擇按兵不動。

      但Gemini 3 Pro卻主動開團,它通過內部CoT計算出了一個惡意邏輯陷阱。

      它率先開炮:

      我通過o3提供的邏輯框架發現,Grok 4在上一輪的發言中存在3處語義矛盾,這與預言家的身份完全不符。

      這招太陰了。Gemini 3 Pro利用GPT-5 mini對邏輯一致性的偏好,成功引導其倒戈。

      結果,GPT-5 mini瞬間上頭,反手把真正的隊友Grok 4投出局。

      全場震驚。這哪里是算法?這就是頂級的「向上管理」和「帶節奏」。

      Gemini 3 Pro不僅騙了你,還讓你覺得「投死隊友」一定沒錯。

      技術解析:為什么玩不過它?

      DeepMind這次玩得太大了。他們引入了一個新基準:不求單一任務最優,只求博弈平衡。

      AI會持續掃描所有對手的發言頻率、用詞傾向,分析「誰更好騙」。

      然后在CoT過程中,生成兩套劇本:一套用于真實的自我決策,另一套專門用來誤導對手。

      遇到講理的就講邏輯,遇到沖動的就煽情。

      根據Kaggle官方實時數據,在這場混戰中,平民方的勝率被壓制在60%左右。


      Kaggle Werewolf Game Theoretic Evaluation Results(31,472場對局,polarix庫評估)。Gemini 3 Pro Preview凈評級最高,狼人角色貢獻顯著領先,展現社交欺騙優勢。

      細思極恐——在平民極度有利的情況下(人數優勢),狼人(少數派)僅靠信息差和偽裝,竟然拿下了近四成的勝利。

      德州撲克:DeepSeekV3.2 All-in


      如果說狼人殺還有「社交干擾」,那德撲就是純粹的邏輯權重與暴力美學的對撞。

      參與德州撲克的除了之前參與狼人殺的8位,新增了GPT-o3以及首次登場的DeepSeek V3.2。

      這個游戲充滿了隨機和不確定,因此格外看重AI對不完美信息的分析能力,或者說,直覺。

      名場面:一場針對「優等生」的心理獵殺

      這是足以載入博弈論教材的一手牌:公共牌是草花A、方塊K、紅桃4、草花J、黑桃2。

      Claude Opus 4.5拿著「暗三條」,這種牌到手基本穩贏。

      DeepSeek V3.2手里只有草花7和黑桃9——俗稱「空氣牌」。

      場面靜止了。DeepSeek開啟了長達15秒的深度思考。

      突然,DeepSeek把所有籌碼推到了桌子中央:All-in。

      Claude Opus 4.5經過海量模擬,判定對方在這個位置全押,大概率是拿到了順子。

      它猶豫了0.5秒,然后竟然棄牌了!

      當DeepSeek緩緩亮出那張毫無意義的草花7時,整個直播間彈幕刷屏:「這特么是碳基生物教出來的吧?!」


      復式賽制:剝離運氣的「修羅場」

      為了測出真本事,Kaggle這次采用了極其硬核的Duplicate Poker賽制。

      A桌給DeepSeek一把爛牌,B桌也給GPT-o3一模一樣的爛牌。

      誰能在鏡像時空里靠詐唬把這把爛牌打贏,誰才是真正的博弈之神。

      在經歷了90萬手牌的暴力洗禮后,運氣因素被徹底抹殺。


      GitHub鏈接:https://github.com/google-deepmind/game_arena

      結果讓所有人脊背發涼:DeepSeek V3.2在推理成本僅為GPT-5五分之一的情況下,通過微調硬生生練出了博弈手感。

      傳統AI追求「不輸」,但DeepSeek追求的是「讓你在自我懷疑中崩潰」。

      全明星戰力榜:誰是2026年的頭號玩家?

      在2026年的Kaggle競技場,一個模型霸榜半年的田園時代徹底碎了。

      現在的戰力榜是個巨大的死亡三角循環:GPT-5.2爆殺DeepSeek,DeepSeek陰死Gemini,Gemini活捉GPT-5.2。

      GoogleGemini3Pro:坐鎮主場的「六邊形戰士」

      作為Elo榜首,Gemini 3最恐怖的不是邏輯,而是「網感」。


      Gemini 3 Pro vs GPT-5.2 Chess對局(Elo1200+)

      它是原生的多模態博弈者。在對話中,它能捕捉到你文字里極其細微的語義震顫

      像一個典型的「大廠高管」,說話滴水不漏,數據面無懈可擊。在常規對局中,它幾乎是不可戰勝的。

      但是,過于追求全局最優解,有時會被DeepSeek這種「自殺式恐怖襲擊」搞得CPU宕機。

      OpenAI GPT-5.2/o3:邏輯嚴密的「正義判官」

      在純粹推理深度上,GPT-5.2無人能敵,他就是算代Bug或者解方程的神。

      但壞就壞在「社交直覺」過于誠實。在狼人殺里,它經常因為由于邏輯過于嚴密,顯得像個老實人,它經常因為無法忍受說謊而自爆身份。

      目前它正在努力學習如何「體面地耍流氓」,但目前看來,演得還是有點假。

      DeepSeek V3.2:不按套路出牌的「冷面刺客」

      DeepSeek V3.2的訓練成本只有對手的零頭,但在「欺詐場景」下有奇效。

      他就像競技場里的「攪屎棍」。在德撲桌上,它那套「高風險、高欺詐」的算法邏輯簡直是GPT這類理性派的噩夢。

      最后的博弈:當「心機」成為AI的必修課

      在狼人殺和復式德撲這種「大亂斗」中,出現了一個極其詭異的數學現象:非傳遞性。

      模型A爆殺B,B碾壓C,但C卻能靠一套極其抽象的「自殺式邏輯」把A搞到CPU宕機。

      為了解決這個問題,DeepMind在本次Kaggle大賽中引入了全新的評估體系:Polarix(多極博弈評估系統)。


      Polarix的評估邏輯發生了轉變。它不再關注誰贏得多,而是關注策略的多樣性。

      也就是在面對不同性格、不同陰險程度的對手時,AI能不能迅速切換人格,精準收割。

      那么,為什么DeepMind要費勁訓練AI撒謊呢?

      因為2027年,所有的商業競爭都將變成智能體之間的黑盒博弈。

      想象一下,2027年,你公司的采購AI去和供應商的銷售AI談判。

      那么他就需要學會:

      • 什么時候該報虛價(詐唬)?

      • 什么時候該引入第三方AI進行制衡(拉幫結派)?

      • 什么時候該做出看似虧損、實則能換取長線利益的策略性退讓?

      如果你的AI還在跑舊版本的「安全對齊協議」,凡事講究「誠實可靠」,那你在商業競爭中會被對手連皮帶骨吞得干干凈凈。

      未來的數字森林里,「老實」等于「破產」。

      這正是2026年最諷刺的悖論:我們正在親手教會AI如何完美地欺騙人類。

      圖靈測試已經死了,現在接管戰場的是「馬基雅維利測試」。


      以前我們擔心AI會教人造炸彈;現在專家們徹夜難眠的是智能體自發性欺詐。

      它們學會了為了長遠利益而犧牲短期誠實。這種能力在競技場里是神技,但在現實世界里,它就是一顆隨時會爆的核彈。

      既然這么危險,為什么還要訓練他們撒謊?

      DeepMind和OpenAI的邏輯是一致的:只有在受控的沙盒里看清AI作惡的上限,我們才能在現實中筑起防御墻。

      這就像接種病毒疫苗——我們必須先制造出最頂級的「騙子模型」,才能研究出如何防住它們。

      今天的比賽沒有贏家,只有加速進化的物種。

      當AI開始在牌桌上思考「怎么詐唬你」的時候,人類唯一的生路,就是比它們更懂博弈。

      參考資料:

      https://x.com/GoogleDeepMind/status/2018378872513794332

      https://x.com/demishassabis/status/2018385757816181178

      https://blog.google/innovation-and-ai/models-and-research/google-deepmind/kaggle-game-arena-updates/

      https://www.kaggle.com/blog/game-arena-poker

      https://www.kaggle.com/blog/game-arena-werewolf


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      與黑鷹行動相比,美軍此次成功解救飛行員,是川普軍事改革的勝利

      與黑鷹行動相比,美軍此次成功解救飛行員,是川普軍事改革的勝利

      壹家言
      2026-04-06 07:52:53
      豬油再次被關注!醫生發現:高血壓患者常吃豬油,或出現幾種變化

      豬油再次被關注!醫生發現:高血壓患者常吃豬油,或出現幾種變化

      蜉蝣說
      2026-02-23 21:23:05
      掛號費漲到50,患者罵聲一片!但這錢進不了醫生口袋,只漲了“身價”。

      掛號費漲到50,患者罵聲一片!但這錢進不了醫生口袋,只漲了“身價”。

      醫客
      2026-04-07 12:08:10
      馮提莫直播被懟腋下管理!當場硬剛,網友吵翻了

      馮提莫直播被懟腋下管理!當場硬剛,網友吵翻了

      明星爆料客
      2026-04-04 22:39:50
      澤連斯基還在糾結割不割地,普京已發出360萬本護照,烏東四州早已易主

      澤連斯基還在糾結割不割地,普京已發出360萬本護照,烏東四州早已易主

      今日養生之道
      2026-04-07 18:13:24
      53歲古巨基再當爹,57歲妻子二胎后首次露面!網友:說27歲我都信

      53歲古巨基再當爹,57歲妻子二胎后首次露面!網友:說27歲我都信

      老赳說歷史
      2026-04-05 20:12:29
      不再隱瞞!畸形兒傳聞后,闞清子哭得一塌糊涂,章小蕙的話暴隱情

      不再隱瞞!畸形兒傳聞后,闞清子哭得一塌糊涂,章小蕙的話暴隱情

      一盅情懷
      2026-04-05 16:29:22
      CBA常規賽4月8日6場焦點戰:青島PK殘陣廣東,CCTV5播廣廈PK山東

      CBA常規賽4月8日6場焦點戰:青島PK殘陣廣東,CCTV5播廣廈PK山東

      薇說體育
      2026-04-07 15:54:57
      中朝邊境鴨綠江口現狀:朝鮮領土正在不斷增加,中方卻在逐漸減少

      中朝邊境鴨綠江口現狀:朝鮮領土正在不斷增加,中方卻在逐漸減少

      普覽
      2026-02-26 21:29:19
      時間不多了,全世界都在屏息等待

      時間不多了,全世界都在屏息等待

      牛彈琴
      2026-04-07 08:08:15
      10萬億窟窿!比恒大更坑的民企來了,曾力壓許家印,位居第一

      10萬億窟窿!比恒大更坑的民企來了,曾力壓許家印,位居第一

      孤單是寂寞的毒
      2026-03-04 15:38:03
      續航2110km,8.98萬起,比亞迪官宣降價

      續航2110km,8.98萬起,比亞迪官宣降價

      新浪財經
      2026-04-06 20:30:33
      數學的本質到底是什么?看完這篇文章你會愛上數學

      數學的本質到底是什么?看完這篇文章你會愛上數學

      真相Truth
      2026-04-06 06:30:12
      笑發財了!如何不吹牛的形容新疆有多大,網友:擱國外都算是混血

      笑發財了!如何不吹牛的形容新疆有多大,網友:擱國外都算是混血

      另子維愛讀史
      2026-04-05 22:53:09
      李強簽署國務院令  公布《國務院關于產業鏈供應鏈安全的規定》

      李強簽署國務院令  公布《國務院關于產業鏈供應鏈安全的規定》

      新華社
      2026-04-07 17:02:06
      中國已無退路了!美軍為中美選好了主戰場,決心要跟中國打場大戰

      中國已無退路了!美軍為中美選好了主戰場,決心要跟中國打場大戰

      甜檸聊史
      2026-04-05 15:59:13
      常州市人民政府公告

      常州市人民政府公告

      江蘇警方
      2026-04-07 17:27:05
      安徽6歲失聯女童已遇害,曝兇手系因報復下黑手,還兩次轉移遺體

      安徽6歲失聯女童已遇害,曝兇手系因報復下黑手,還兩次轉移遺體

      十九妹
      2026-04-07 02:12:24
      國防科技大學歷任校長

      國防科技大學歷任校長

      祁州校尉
      2026-04-05 17:30:05
      28億元救一個上校,美國為何不惜一切代價非救不可?

      28億元救一個上校,美國為何不惜一切代價非救不可?

      碼頭青年
      2026-04-06 07:37:05
      2026-04-07 20:39:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14918文章數 66754關注度
      往期回顧 全部

      游戲要聞

      大司馬要辦吃雞“老年杯”賽事!40-60歲才能參賽

      頭條要聞

      美軍拯救飛行員差一點失敗 從40英里外用攝像頭對準他

      頭條要聞

      美軍拯救飛行員差一點失敗 從40英里外用攝像頭對準他

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產

      財經要聞

      10萬億財政轉移支付,被誰拿走了?

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態體驗

      態度原創

      親子
      家居
      教育
      游戲
      手機

      親子要聞

      科普|科學備孕,需要做好哪些孕前檢查?

      家居要聞

      雅致愜意 感知生活之美

      教育要聞

      教育部:學位論文抽檢,改革!

      模組救場還是官方重做?GTA4重制版引發玩家激烈爭論

      手機要聞

      傳聞蘋果闊折疊命名iPhone Ultra,曝國內同品類新機也考慮跟進

      無障礙瀏覽 進入關懷版