![]()
1997年,IBM的深藍擊敗國際象棋大師卡斯帕羅夫。2016年,AlphaGo戰勝李世石。2025年,你走進一家游戲店,隨手拿起一款沒玩過的獨立游戲——這時候,人類依然能碾壓最頂尖的AI。
紐約大學計算機科學教授Julian Togelius團隊的最新研究給出了一個反直覺的結論:在"零樣本游戲學習"這個賽道上,人類玩家平均只需要3到10分鐘理解核心機制,而當前最先進的AI模型面對完全陌生的游戲,結果幾乎是確定的失敗。
這不是懷舊情結。研究團隊測試了多款大語言模型(LLM,即支撐ChatGPT等產品的底層技術)在全新游戲環境中的表現。當游戲規則需要實時探索、物理直覺和常識推理時,AI的表現堪稱災難。
AI的"肌肉記憶"陷阱
問題的根源在于訓練方法的差異。強化學習(reinforcement learning)讓AI通過數百萬次試錯迭代,在封閉環境中打磨出超人類表現。DeepMind 2015年征服Atari游戲庫,OpenAI Five在Dota 2中擊敗職業選手,都是這一路徑的勝利。
但Togelius指出,這種"暴力美學"有個致命盲區:AI學到的不是"理解游戲",而是"記住這個特定游戲的獎勵函數"。換個角度說,AlphaGo能下贏圍棋,是因為它把圍棋的19×19棋盤當成了宇宙的全部真理。你讓它改玩五子棋,它不會覺得"規則類似但更簡單",而是直接歸零重啟。
人類玩家則完全不同。我們走進游戲店,看到平臺跳躍類游戲,會本能地聯想到重力、慣性、碰撞體積——這些來自現實世界的"遷移知識"。研究團隊觀察到,面對一款從未見過的2D解謎游戲,人類能在幾分鐘內建立假設、驗證機制、調整策略,而AI往往卡在"這個按鈕按下去會發生什么"的基礎探索階段。
「如果你把一個大語言模型扔進它沒見過的游戲,結果幾乎是確定的失敗。」Togelius在論文中寫道。
開放世界 vs. 封閉沙盒
游戲類型決定了AI的狼狽程度。在規則明確、目標單一的競技游戲中(星際爭霸2、Dota 2),AI可以靠算力堆出天花板級的微操。但一旦進入"開放目標"或"物理沙盒"類游戲——比如需要理解"這個箱子可以墊腳""那個杠桿能開門"的場景——AI的認知框架就會暴露短板。
研究團隊設計了一組對比實驗:同一款平臺跳躍游戲,人類玩家平均死亡12次后找到通關路徑;GPT-4級別的模型在相同時間限制內,有73%的概率完全無法觸發關鍵機制,陷入隨機按鍵的循環。
更諷刺的是,當AI被賦予"用自然語言描述當前狀態"的能力時,表現反而下降。模型會生成冗長的場景分析("我看到一個紅色方塊在藍色平臺上方"),卻延遲了實際操作——這種"想太多"的特質在實時游戲中是致命的。
人類玩家的優勢不是反應速度,而是"常識壓縮"的能力。我們知道火焰危險、重力向下、門通常需要鑰匙或開關——這些來自現實世界的先驗知識,讓游戲學習變成了"模式匹配"而非"從零推導"。
通用智能的試金石
Togelius團隊的研究動機遠不止游戲本身。游戲被AI領域長期視為"通用智能的簡化實驗室",正是因為它們有清晰的目標、可量化的表現、可重復的環境。如果連這個簡化版都搞不定,AGI(通用人工智能)的路線圖就需要重新校準。
當前大模型的訓練數據包含了海量游戲攻略、直播視頻和論壇討論,但這恰恰制造了"數據污染"的陷阱。當AI在《塞爾達傳說》中表現優異時,很難判斷它是"真正理解了物理謎題",還是"在訓練集中見過類似布局"。
研究團隊提出的解決方案指向"具身認知"(embodied cognition)——讓AI像人類一樣,通過物理交互積累世界模型,而非僅靠文本和像素預測。這解釋了為什么機器人領域的進展(波士頓動力的Atlas、Figure AI的人形機)與游戲AI形成了有趣的對照:前者笨拙但適應性強,后者華麗卻脆弱。
「游戲測試揭示了一個被忽視的維度:智能不僅是解決問題,更是快速定義問題。」論文合著者、MIT博士后研究員Anurag Banerjee補充道。
玩家的隱藏價值
這項研究對游戲行業有直接的商業含義。 procedurally generated games(程序化生成游戲,如《我的世界》《無人深空》)依賴算法創造無限內容,但測試這些內容的可玩性至今仍需要大量人類QA。如果AI無法像人類一樣"盲玩"新游戲,自動化測試的愿景就存在根本性的天花板。
更深層的問題關乎AI產品的設計哲學。ChatGPT和Claude等工具被包裝為"通用助手",但游戲測試表明,它們的"通用性"是有邊界的——高度依賴訓練數據的分布,對分布外的任務缺乏人類式的彈性。
Togelius在訪談中打了個比方:「現在的AI像是那種考試前把整本教科書背下來的學生,題目稍微變個花樣就懵。人類玩家則是真正理解了概念,所以能應付沒見過的題型。」
這個類比或許不夠嚴謹,但指向了一個緊迫的研發方向。2024年以來,多家AI實驗室將"智能體"(agent)能力作為優先目標,試圖讓模型不僅能對話,還能在數字環境中自主行動。游戲,作為最豐富、最安全、最便宜的數字環境,正在成為這場競賽的主戰場。
谷歌DeepMind的SIMA項目、OpenAI的"Operator"、Anthropic的"Computer Use"功能,都在嘗試突破"零樣本游戲學習"的瓶頸。但Togelius的論文提供了一個冷靜的基準線:在通用游戲智能這個指標上,人類依然領先至少一個數量級。
下一次當你因為手殘被游戲Boss虐到摔手柄時,可以換個角度安慰自己:你面對陌生機制時的適應速度,仍然是價值數十億美元的AI產業尚未攻克的堡壘。問題是,這個領先優勢,我們還能保持多久?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.