<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      全球頂尖大模型,通關不了“寶可夢”:這些游戲都是AI的噩夢

      0
      分享至


      來源:騰訊科技

      文:郭曉靜

      編輯徐青陽

      世界頂尖的AI模型可以通過醫學執照考試,可以編寫復雜代碼,甚至能在數學競賽中擊敗人類專家,但是卻在一款兒童游戲中《寶可夢》屢屢受挫。

      這場引人矚目的嘗試始于2025年2月,當時Anthropic的一名研究人員推出了“Claude玩《寶可夢紅》”的Twitch直播,以此配合Claude Sonnet 3.7的發布。

      2000名觀眾涌入直播間。在公共聊天區,觀眾們為Claude出謀劃策、加油打氣,使這場直播逐漸演變為一場圍繞AI能力展開的公開觀察。

      Sonet3.7只能說是“會玩”《寶可夢》了,但“會玩”不等于“能贏”。它會在關鍵節點卡住數十小時,還會做出連兒童玩家都不會犯的低級錯誤。

      這不是Claude第一次嘗試。

      早期版本的表現更加災難:有的在地圖中毫無目標地游蕩,有的陷入無限循環,更多的甚至無法走出新手村。

      即便是能力顯著提升的Claude Opus 4.5,仍會出現令人費解的失誤。有一次,它在“道館外“繞圈整整四天,卻始終未能進入,原因僅僅是沒意識到需要砍倒擋在路口的一棵樹。

      一款兒童游戲為何成了AI的滑鐵盧?

      因為《寶可夢》要求的,恰恰是當今AI最缺乏的能力:在沒有明確指令的開放世界中持續推理、記憶數小時前的決策、理解隱含的因果關系、在數百個可能的行動中做出長期規劃。

      這些事情對8歲孩子來說輕而易舉的事,對標榜"超越人類"的AI模型卻是不可逾越的鴻溝。

      01

      工具集差距決定成敗?

      相比之下,谷歌的Gemini 2.5 Pro在2025年5月成功通關了一款難度相當的《寶可夢》游戲。谷歌首席執行官桑達爾·皮查伊(Sundar Pichai)甚至在公開場合半開玩笑地表示,公司在打造“人工寶可夢智能”方面邁出了一步。

      然而,這一結果并不能簡單歸因于Gemini模型本身更“聰明”。

      關鍵差異在于模型所使用的工具集。負責運營Gemini《寶可夢》直播的獨立開發者喬爾·張(Joel Zhang)將工具集比喻為一套“鋼鐵俠裝甲”:AI并非赤手空拳進入游戲,而是被置于一個可調用多種外部能力的系統中。

      Gemini的工具集提供了更多支持,例如將游戲畫面轉寫為文本,從而彌補模型在視覺理解上的弱點,并提供定制化的解謎與路徑規劃工具。相比之下,Claude所使用的工具集更為簡約,它的嘗試也更直接地反映出模型自身在感知、推理與執行上的真實能力。

      在日常任務中,這類差異并不明顯。

      當用戶向聊天機器人提出需聯網查詢的請求時,模型同樣會自動調用搜索工具。但在《寶可夢》這類長期任務中,工具集的差異被放大至足以決定成敗的程度。

      02

      回合制暴露AI的“長期記憶”短板

      由于《寶可夢》采用嚴格的回合制且無需即時反應,它成為了測試 AI 的絕佳“練兵場“。AI 在每一步操作中,只需結合當前畫面、目標提示與可選操作進行推理,即可輸出‘按A鍵’這類明確的指令。

      這似乎正是大語言模型最擅長的交互形式。

      癥結恰恰在于時間維度的斷層盡管 Claude Opus 4.5 已累計運行超 500 小時、執行約 17 萬步,但受限于每一步操作后的重新初始化,模型只能在極窄的上下文窗口中尋找線索。這種機制讓它更像是一個靠便利貼維持認知的失憶者,在碎片化的信息中循環往復,始終無法像真正的人類玩家那樣,實現從量變到質變的經驗跨越。

      在國際象棋和圍棋等領域,AI系統早已超越人類,但這些系統是為特定任務高度定制的。相比之下,Gemini、Claude和GPT作為通用模型,在考試、編程競賽中頻頻擊敗人類,卻在一款兒童向游戲中屢屢受挫。

      這種反差本身便極具啟示性。

      在喬爾·張看來,AI面臨的核心挑戰在于無法在長時間跨度內持續執行單一明確目標。“如果你希望智能體完成真正的工作,它不能忘記五分鐘前自己做了什么,”他指出。

      而這種能力,正是實現認知勞動自動化不可或缺的前提。

      獨立研究者彼得·惠登(Peter Whidden)給出了更直觀的描述。他曾開源一個基于傳統AI的《寶可夢》算法。“AI對《寶可夢》幾乎無所不知,”他表示,“它在海量人類數據上訓練,清楚知道正確答案。但一到執行階段,就顯得笨拙不堪。”

      游戲中,這種“知道卻做不到”的斷層被不斷放大:模型可能知道需尋找某道具,卻無法在二維地圖中穩定定位;知道應與NPC對話,卻在像素級移動中反復失敗。

      03

      能力演進背后:未跨越的“本能”鴻溝

      盡管如此,AI的進步仍清晰可見。Claude Opus 4.5在自我記錄和視覺理解上明顯優于前代,得以在游戲中推進更遠。Gemini 3 Pro在通關《寶可夢藍》后,又完成了難度更高的《寶可夢水晶》,且全程未輸一場戰斗。這是Gemini 2.5 Pro從未實現的。

      與此同時,Anthropic推出的Claude Code工具集允許模型編寫并運行自有代碼,已被用于《過山車大亨》等復古游戲,據稱能成功管理虛擬主題公園。

      這些案例揭示了一個不直觀的現實:配備合適工具集的AI,可能在軟件開發、會計、法律分析等知識工作中展現極高效率,即便它們仍難以應對需要實時反應的任務。

      《寶可夢》實驗還揭示另一耐人尋味的現象:在人類數據上訓練的模型,會表現出近似人類的行為特征。

      在Gemini 2.5 Pro的技術報告中,谷歌指出,當系統模擬“恐慌狀態”,如寶可夢即將昏厥時,模型的推理質量會顯著下降。

      而當Gemini 3 Pro最終通關《寶可夢藍》時,它為自己留下了一段非任務必需的備注:“為了詩意地結束,我要回到最初的家,與母親進行最后一次對話,讓角色退休。”

      在喬爾·張看來,這一行為出乎意料,還帶有某種人類式的情感投射。

      04

      AI難以逾越的“數字長征”遠不止《寶可夢》

      《寶可夢》并非孤例。在追求通用人工智能(AGI)的道路上,開發者發現,即便AI能在司法考試中名列前茅,在面對以下幾類復雜游戲時,依然面臨著難以逾越的“滑鐵盧”。

      《NetHack》:規則的深淵


      這款80年代的地牢游戲是AI研究界的“噩夢”。它的隨機性極強且有“永久死亡”機制。Facebook AI Research發現,即便模型能寫代碼,但在需要常識邏輯和長期規劃的《NetHack》面前,表現甚至遠遜于人類初學者。

      《我的世界》:消失的目標感


      雖然AI已能制作木鎬甚至挖掘鉆石,但獨立“擊敗末影龍”仍是幻想。在開放世界里,AI經常會在長達數十小時的資源收集過程中“忘記”初衷,或在復雜的導航中徹底迷路。

      《星際爭霸 II》:通用性與專業的斷層


      盡管定制化模型曾擊敗職業選手,但若讓Claude或Gemini直接通過視覺指令接管,它們便會瞬間崩盤。在處理“戰爭迷霧”的不確定性,以及平衡微操與宏觀建設方面,通用模型依然力不從心。

      《過山車大亨》:微觀與宏觀的失衡


      管理樂園需要追蹤數千名游客的狀態。即便具備初步管理能力的Claude Code,在處理大規模財務崩潰或突發事故時也極易疲態。任何一次推理斷層,都會導致樂園破產。

      《艾爾登法環》與《只狼》:物理反饋的鴻溝


      這類強動作反饋游戲對AI極不友好。目前的視覺解析延遲意味著,當AI還在“思考”Boss動作時,角色往往已經陣亡。毫秒級的反應要求,構成了模型交互邏輯的天然上限。

      05

      為何《寶可夢》成為AI試金石?

      如今,《寶可夢》正逐漸成為AI評估領域中一種非正式卻極具說服力的測試基準。

      Anthropic、OpenAI和谷歌的模型在Twitch上的相關直播累計吸引數十萬條評論。谷歌在技術報告中詳細記錄Gemini的游戲進展,皮查伊在I/O開發者大會上公開提及此項成果。Anthropic甚至在行業會議中設立“Claude玩寶可夢”展示區。

      “我們是一群超級技術愛好者,”Anthropic應用AI負責人大衛·赫爾希(David Hershey)坦言。但他強調,這不僅是娛樂。

      與一次性問答式的傳統基準不同,《寶可夢》能在極長時間內持續追蹤模型的推理、決策與目標推進過程,這更接近現實世界中人類希望AI執行的復雜任務。

      截至目前,AI在《寶可夢》中的挑戰仍在繼續。但正是這些反復出現的困境,清晰勾勒出通用人工智能尚未跨越的能力邊界。


      特約編譯無忌對本文亦有貢獻

      閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

      https://wx.zsxq.com/group/454854145828


      未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      戲子誤國!春節剛過3位明星相繼塌房,事情做絕一個比一個荒唐

      戲子誤國!春節剛過3位明星相繼塌房,事情做絕一個比一個荒唐

      琨玉秋霜
      2026-03-02 06:09:04
      “最慘超女”黃雅莉:沒工作沒積蓄,34歲生子后住5平米的小屋

      “最慘超女”黃雅莉:沒工作沒積蓄,34歲生子后住5平米的小屋

      地理三體說
      2026-01-29 21:40:34
      結婚不到一年,娶了“白月光”的李國慶,口碑徹底反轉了

      結婚不到一年,娶了“白月光”的李國慶,口碑徹底反轉了

      蕭鑟科普解說
      2026-02-26 06:07:11
      這老師真是絕代美人啊!

      這老師真是絕代美人啊!

      東方不敗然多多
      2026-03-01 01:09:31
      莫迪想賭一把大的,為了把中國企業釣去印度,畫7500億大餅做魚餌

      莫迪想賭一把大的,為了把中國企業釣去印度,畫7500億大餅做魚餌

      胖福的小木屋
      2026-03-01 22:34:51
      臺積電創辦人張忠謀:如果想扼殺中國大陸,中國大陸真的無能為力

      臺積電創辦人張忠謀:如果想扼殺中國大陸,中國大陸真的無能為力

      混沌錄
      2026-02-27 21:29:05
      重磅發布!“京通”APP要來了

      重磅發布!“京通”APP要來了

      家住昌平
      2026-03-02 21:27:03
      哇塞!交易界的"盲盒"要開啦!倫納德等來全明星后衛...

      哇塞!交易界的"盲盒"要開啦!倫納德等來全明星后衛...

      體育新角度
      2026-03-02 23:12:57
      氫彈威力上不封頂,但核武器有個不成文的規定:扔不到對方頭上去

      氫彈威力上不封頂,但核武器有個不成文的規定:扔不到對方頭上去

      沒有偏旁的常慶
      2026-03-01 07:00:11
      70%用戶表示“失去靈魂”,全新奧迪A6L:實力很強,口碑兩極分化

      70%用戶表示“失去靈魂”,全新奧迪A6L:實力很強,口碑兩極分化

      少數派報告Report
      2026-03-02 11:43:10
      演員李茂已租車開往阿曼,全家將經由阿曼乘機回國

      演員李茂已租車開往阿曼,全家將經由阿曼乘機回國

      三湘都市報
      2026-03-02 20:33:03
      伊朗稱用導彈摧毀阿聯酋“薩德”系統

      伊朗稱用導彈摧毀阿聯酋“薩德”系統

      參考消息
      2026-03-02 11:22:12
      驚!美國設“谷愛凌法案”?!沒收全部財產,背叛美國,必付代價

      驚!美國設“谷愛凌法案”?!沒收全部財產,背叛美國,必付代價

      北國向錫安
      2026-03-02 16:55:11
      明星卸妝后,曾黎臉蠟黃,王子文像老阿姨,看到王一博后我驚呆了

      明星卸妝后,曾黎臉蠟黃,王子文像老阿姨,看到王一博后我驚呆了

      最美的開始
      2026-02-24 19:00:14
      伊朗1200枚導彈復仇,美航母遇襲,三國準備下場,戰爭走向失控?

      伊朗1200枚導彈復仇,美航母遇襲,三國準備下場,戰爭走向失控?

      紓瑤
      2026-03-02 19:11:03
      100%賴賬,這何嘗不是一種極致的誠信!

      100%賴賬,這何嘗不是一種極致的誠信!

      財經保探長
      2026-02-28 10:46:25
      寵妾滅妻、“吸血”親爹,侄女再曝大瓜,楊議徹底活成全網笑話!

      寵妾滅妻、“吸血”親爹,侄女再曝大瓜,楊議徹底活成全網笑話!

      奇怪的鯊魚們
      2026-03-02 06:41:32
      小托馬斯狂言:杜蘭特退役必登歷史得分第二!死神真能封神?

      小托馬斯狂言:杜蘭特退役必登歷史得分第二!死神真能封神?

      林子說事
      2026-03-02 14:41:57
      因加速、倒放宣傳視頻引發爭議 兩家鴻蒙智行用戶中心公開致歉

      因加速、倒放宣傳視頻引發爭議 兩家鴻蒙智行用戶中心公開致歉

      中國能源網
      2026-03-02 11:47:11
      韓媒:韓國前國腳李記帝將與伊朗球隊解約,球員在大使館避難

      韓媒:韓國前國腳李記帝將與伊朗球隊解約,球員在大使館避難

      懂球帝
      2026-03-02 16:49:59
      2026-03-03 00:08:49
      人工智能學家 incentive-icons
      人工智能學家
      人工智能領域權威媒體
      4555文章數 37413關注度
      往期回顧 全部

      游戲要聞

      《戀與深空》宣布取消高校聯動活動 并向玩家致歉

      頭條要聞

      媒體:拉里賈尼走向前臺 四大關鍵變量將決定伊朗命運

      頭條要聞

      媒體:拉里賈尼走向前臺 四大關鍵變量將決定伊朗命運

      體育要聞

      “想要我簽名嗎” 梅西逆轉后嘲諷對手主帥

      娛樂要聞

      李亞鵬與哥哥和解 只有一條真心話短信

      財經要聞

      油價飆升 美伊沖突將如何攪動全球經濟

      科技要聞

      蘋果中國官網上線iPhone 17e,4499元起

      汽車要聞

      國民SUV再添一員 瑞虎7L靜態體驗

      態度原創

      家居
      藝術
      親子
      本地
      公開課

      家居要聞

      萬物互聯 享科技福祉

      藝術要聞

      簡約的風景畫,美國畫家Ben Bauer作品

      親子要聞

      45歲這年,我這個二胎媽媽決定做一件“瘋狂”的事

      本地新聞

      津南好·四時總相宜

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版