![]()
↑閱讀之前記得關注+星標??,,每天才能第一時間接收到更新
Gemini 3 Pro贏麻了
在ARISE基金會Joel Zhang主持的一場全自動《寶可夢 水晶版》對決中,Gemini 3 Pro以絕對優勢擊敗了Gemini 2.5 Pro
戰績對比非常慘烈:當2.5版本只拿到4枚徽章時,Gemini 3 Pro已經耗費約一半的Token和回合數,拿下了全部16枚徽章,擊敗了四天王和冠軍,甚至打敗了隱藏BOSS赤紅(Red)
根據谷歌DeepMind披露的細節,Gemini 3 Pro通關全過程至少比2.5版本快2倍;如果進行推算,前代模型的速度實際上要慢上8倍左右
![]()
這場對決最精彩的一幕發生在最終戰。面對等級壓制的赤紅,Gemini 3.0制定了一個名為“僵尸鳳凰行動”(Operation Zombie Phoenix)的復雜策略。它結合了被動恢復、能力值削減、消耗戰術以及復活循環,在長達7小時的馬拉松式戰斗中鎖定了勝局
![]()
以下是這場“AI玩寶可夢”實驗中的核心發現
丟掉輔助輪:像科學家一樣思考
為了公平,兩個Agent使用了完全相同的測試環境
值得注意的是,Prompt并沒有要求它們盡快通關,而是要求它們應用科學方法,不要假設關于游戲的先驗知識是正確的。Agent可以使用非結構化的記事本功能來記錄假設、測試想法并跟蹤游戲進度。
這種靈活的設置允許Agent在環境中設計自己的代碼工具和子Agent。這不僅是玩游戲,更是測試Agent適應環境并構建工作流的能力。
自寫驅動,繞過限制
Gemini 3 Pro展現出了對工具極高的信任度。當行動失敗時,它會重新評估環境,而不是死磕代碼庫。這種意識引發了一個非常驚人的行為。
測試環境為了保持2.5版本的穩定性及防止模擬器不同步,實施了嚴格的輸入限制,禁止混合按鍵輸入(例如連續按下A和Up)。
當Gemini 3 Pro需要給寶可夢起昵稱時,發現單次按鍵限制效率太低。它沒有全盤接受這個約束,而是利用define_tool功能,編寫了一個名為press_sequence的自定義工具
因為它發現,自定義工具不受混合輸入的限制。
這個腳本允許它在本地批量處理輸入序列,實際上等于它自己編寫了一個驅動程序來繞過測試環境的限制,利用這個預期的漏洞提高了效率。對于3.0 Agent來說,環境約束只是一個需要解決的工程問題,而不是不可改變的鐵律
多模態優勢:看懂RAM里沒有的數據
在第8個道館(冰系道館)中,解謎需要從樓上推下巨石,在巖漿地面上鋪路。
僅靠RAM數據很難追蹤底層狀態變化,因為內存數據中沒有提及掉落的巨石。Gemini 3 Pro一度陷入死循環,誤以為謎題未解(二樓殘留的誘餌巨石加劇了誤判)。
關鍵時刻,Gemini 3 Pro利用了視覺輸入。它忽略了可能令人困惑的狀態數據,直接通過屏幕截圖識別出掉落巨石的位置,并根據視覺證據修正了策略,成功脫困。這種從RAM檢查切換到原始視覺的能力,是它走出死循環的關鍵。
此外,3.0 Agent還能“讀懂”對手的血條。
RAM狀態并不提供對手的生命值信息,必須通過屏幕畫面推斷。Gemini 3 Pro在與赤紅的戰斗中,能夠相當準確地估算對手剩余血量的比例,這對于理解戰斗中的最佳行動至關重要
戰斗效率與零敗績
戰斗推理能力的差距是決定勝負的關鍵。
Gemini 2.5 Pro:因策略較差,兩次輸給第3道館館主,導致花費大量時間進行不必要的練級
Gemini 3 Pro: 零敗績通關整個游戲(包括最終隱藏BOSS赤紅)。
3.0展示了卓越的戰術推理能力,能進行實時傷害計算以優化招式選擇。例如:
它發現對手的卡比獸提升了特防,且雨天天氣會降低火系傷害,因此正確地放棄了噴射火焰,轉而選擇高速星星
在四天王連戰中,它會主動管理HP,在回合之間使用道具回血,而2.5版本歷來難以將此類操作的優先級置于即時戰斗之上
現存的局限性
盡管性能飛躍,Gemini 3 Pro并非完美:
不經驗證的假設:最大的失敗模式是形成假設后拒絕測試。例如,它曾假設收音機界面像標準菜單一樣(左右操作),而忽略了視覺上的撥盤提示(上下操作),導致浪費數小時。另一次,它在鎖門謎題上花費大量時間測試復雜理論,卻沒去和旁邊的提示NPC對話
前瞻性規劃不足:雖然反應戰術很強,但主動目標管理仍不穩定。它經常意識到戰略需求(如調整寶可夢順序),但直到戰斗開始后才去執行
空跑:經常在調用工具時參數出錯,導致空跑。不過它通常能在下一回合自我修正,這一點優于2.5
并行規劃困難:難以并行規劃多個大目標以提高效率,傾向于逐個解決任務。
在這場競賽中,Gemini 3 Pro超越了簡單的指令遵循,展示了真正的空間推理、即興工具創建和假設測試的科學方法
這種推理能力直接轉化為效率:
Gemini 3 Pro:耗時17天,消耗18.8億Token
Gemini 2.5 Pro:基于礦山徽章進度的推算,預計需要69天,消耗超過150億Token才能達到相同結果
參考:
https://x.com/GoogleAIStudio/status/2000649586847985985
--end--
最后記得??我,每天都在更新:歡迎點贊轉發推薦評論,別忘了關注我
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.