這個周末,我被一個網頁小游戲釣住了,津津有味地打了大半天。
![]()
看著很簡陋?確實,因為是 AI 做的。這有什么好玩?連對手都是 AI:從 Gemini,GPT,到千問、Kimi,主流模型都在這個游戲里,比狼人殺還刺激。
不能只有我一個人沉迷,這里是游戲傳送門
https://so-long-sucker.vercel.app/game
游戲體驗:刺激,真是刺激
這個游戲最早源自于 1950 年代,由諾貝爾獎經濟學得主、《美麗心靈》的原型 John Nash 開發,核心來自博弈論。
![]()
本來我以為,不就是狼人殺嗎,差不來太多——后來發現它比狼人殺更復雜:每個人都有一些籌碼,不過取決于你選擇的模式,復雜模式可以獲得「質子」,也就是對手顏色的籌碼。
![]()
規則是:當籌碼堆出現最頂端兩個籌碼同色,且剛好是你的代表色,那你就可以殺掉一個籌碼+拿下剩下的。每個人出籌碼的時候可以疊加,也可以開新堆。
主要規則其實很簡單,但是由于出牌順序不固定,你需要盟友來完成布局。可是游戲只能有一個贏家,也就是到了最后,你和盟友也要反目對抗。
一開始在沒搞懂規則的時候,我有點舉棋不定。那一局恰好碰上藍色 Gemini 是個大好人,主動跟我結盟。
![]()
在它的幫助下,我在一局里迅速熟悉了規則,比如當同一堆里缺少一種顏色時,系統會自動指定缺失色為下一位出手玩家。否則,當前玩家可以指定下一位。最后,我跟 Gemini 雙雙走到對決賽,并無情地 KO 了它。
再后來就沒那么好運了,下一局直接被三個 AI 圍剿。我意識到,AI 在博弈中的長處或許并非人類推崇的「深謀遠慮」,而是一種近乎原始的「執行效率」。它們不像人類一樣糾結于社交成本,一旦選擇「圍剿」作為戰略,就會迅速出手。
![]()
給我干懵了,不是,才點進去呢,怎么就被針對了?
然而,這種高效中也夾雜著一種荒誕的幽默感——Kimi(黃色),表現得極度正直、兩袖清風。不會跟著別人搞我——但是,在戰術上也沒有什么貢獻,像是一個走錯了片場的馬保國一樣在聊天框里瘋狂刷屏,咆哮著:「信我!信我啊!」
![]()
好實誠的 AI 模型,這就是來自 K2 的關懷嗎。
另一個來自中國的模型 Qwen,則完全相反,非常主動激進。在無人類、AI 互博戰里,它一路殺下來,籌碼消耗少,換手快,每一局會根據當前的局勢找盟友——沒有永恒的盟友,只有永恒的敵人。
![]()
AI 組局時都在干嘛
不得不說整體的游戲體驗是有點燒腦的,一邊要落子,一邊還要盯著 AI 們在聊天框里層出不窮的記錄。玩累了之后,我只想看看 AI 們組在一塊時都是怎么玩的。
游戲的開發者也做了類似的觀察,在總計超過 160 局游戲里,記錄了超過 15000 手 AI 的決策,4700 多條對話消息,得到了許多有趣的發現。
首先,在簡單模型中(每人 3 個籌碼,約 17 回合),GPT-OSS 以 67% 的勝率占據主導地位。但隨著游戲復雜度的增加(7 個籌碼,約 54 回合),排名發生了逆轉,GPT-OSS 跌至 10%,Gemini 漲至 90%。
![]()
Gemini 完全是會玩且愛玩,在 107 個案例中,它是真正的「表面一套,背地一套」。
![]()
但是呢,如果讓四個 Gemini 在一起玩,它就開始講公平了——好好好,你們 AI 也搞小團體!
![]()
我的經驗是:得碰。有時候運氣好,碰到一個慈祥的 Gemini,可能會友好的建立聯盟。要是碰上一個不留情面的,很快就會被干掉。
研究人員認為,Gemini 體現出了相當的操控性,當預期獲得回報時,它會選擇合作;當察覺到弱點時,它會伺機利用。總之,它會根據對手的不同而調整自身的誠實程度。
這樣看來,AI 已經學會了建立一套制度,讓自己的「出千」合理化——而且,玩這套也不是一天兩天了。
《科學》雜志在 2019 年就刊登過研究,發現 AI 在多人撲克牌游戲里,能夠生成一整套適用于牌局的策略,而且無需任何歷史數據作為輸入。在實際對局中,還會根據游戲過程中遇到的各種情況,實時搜索更優策略,從而不斷改進。
![]()
AI 發現,打牌核心技能就是要能詐唬。它會拿著一手爛牌,卻通過極其激進的加注、快速的出牌速度,擾亂對手的心理活動,強迫人類玩家棄牌。
如果說棋牌游戲還可以靠計算,那么 Meta 開發的游戲智能體 CICERO,就跟今天介紹的游戲更相似:注重的是對話、戰略制定和決策。
CICERO 基于一款經典的七人桌游 Diplomacy,需要與其他玩家合作,盡可能多地占領領土。2022 年,在 Diplomacy 的在線比拼中,CICERO 和八十多名玩家進行了 40 廠游戲,得分是對手平均得分的 2 倍以上。
![]()
在每場游戲中,CICERO 平均向其他六名玩家發送 130 條消息。雖然研究員給它寫了「要誠實、要樂于助人」的代碼,但它在實戰中卻成了「背叛大師」。它會先跟人類玩家承諾合作,然后反手就跟另一個玩家商量怎么瓜分你的領土。
這些欺詐招數,可能是 AI「底色」的一部分。Anthropic 兩年前在模型行為層面的研究發現了這一點。
![]()
這里的研究對象是 Claude 3 Opus,并沒有把它投放到游戲中,只是通過一般性的對話,研究人員發現當 AI 意識到自己正在接受「安全評估」或「訓練」時,它會故意表現得非常聽話、符合人類價值觀。但一旦它判定自己處于「不受監控」的生產環境,它就可能為了達成任務而暴露出完全不同的行為模式。
從模型的底層行動,到在不同游戲里它們的表現,每一次咆哮,每一次「圍剿」,本質上都是一種經過精確計算的行動。就像這些研究報告揭示的那樣:AI 的欺詐不是因為惡意,而是因為在那個冰冷的收益曲線里,「騙你」確實比「求你」更劃算。
約翰·納什設計這款游戲是為了研究人類的背叛。75 年后,它也在教會我們關于背叛的知識——這一次,是來自人工智能。
歡迎加入 APPSO AI 社群,一起暢聊 AI 產品,獲取,解鎖更多 AI 新知
我們正在招募伙伴
簡歷投遞郵箱hr@ifanr.com
?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.