網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

自寫驅(qū)動(dòng)越獄！Gemini 3 Pro零敗績(jī)通關(guān)寶可夢(mèng)：效率碾壓前代8倍「Agent進(jìn)化太快了」

2025-12-16 13:40:54　來(lái)源: AI寒武紀(jì)

江蘇舉報(bào)

分享至

↑閱讀之前記得關(guān)注+星標(biāo)??，，每天才能第一時(shí)間接收到更新

Gemini 3 Pro贏麻了

在ARISE基金會(huì)Joel Zhang主持的一場(chǎng)全自動(dòng)《寶可夢(mèng) 水晶版》對(duì)決中，Gemini 3 Pro以絕對(duì)優(yōu)勢(shì)擊敗了Gemini 2.5 Pro

戰(zhàn)績(jī)對(duì)比非常慘烈：當(dāng)2.5版本只拿到4枚徽章時(shí)，Gemini 3 Pro已經(jīng)耗費(fèi)約一半的Token和回合數(shù)，拿下了全部16枚徽章，擊敗了四天王和冠軍，甚至打敗了隱藏BOSS赤紅（Red）

根據(jù)谷歌DeepMind披露的細(xì)節(jié)，Gemini 3 Pro通關(guān)全過(guò)程至少比2.5版本快2倍；如果進(jìn)行推算，前代模型的速度實(shí)際上要慢上8倍左右

這場(chǎng)對(duì)決最精彩的一幕發(fā)生在最終戰(zhàn)。面對(duì)等級(jí)壓制的赤紅，Gemini 3.0制定了一個(gè)名為“僵尸鳳凰行動(dòng)”（Operation Zombie Phoenix）的復(fù)雜策略。它結(jié)合了被動(dòng)恢復(fù)、能力值削減、消耗戰(zhàn)術(shù)以及復(fù)活循環(huán)，在長(zhǎng)達(dá)7小時(shí)的馬拉松式戰(zhàn)斗中鎖定了勝局

以下是這場(chǎng)“AI玩寶可夢(mèng)”實(shí)驗(yàn)中的核心發(fā)現(xiàn)

丟掉輔助輪：像科學(xué)家一樣思考

為了公平，兩個(gè)Agent使用了完全相同的測(cè)試環(huán)境

值得注意的是，Prompt并沒(méi)有要求它們盡快通關(guān)，而是要求它們應(yīng)用科學(xué)方法，不要假設(shè)關(guān)于游戲的先驗(yàn)知識(shí)是正確的。Agent可以使用非結(jié)構(gòu)化的記事本功能來(lái)記錄假設(shè)、測(cè)試想法并跟蹤游戲進(jìn)度。

這種靈活的設(shè)置允許Agent在環(huán)境中設(shè)計(jì)自己的代碼工具和子Agent。這不僅是玩游戲，更是測(cè)試Agent適應(yīng)環(huán)境并構(gòu)建工作流的能力。

自寫驅(qū)動(dòng)，繞過(guò)限制

Gemini 3 Pro展現(xiàn)出了對(duì)工具極高的信任度。當(dāng)行動(dòng)失敗時(shí)，它會(huì)重新評(píng)估環(huán)境，而不是死磕代碼庫(kù)。這種意識(shí)引發(fā)了一個(gè)非常驚人的行為。

測(cè)試環(huán)境為了保持2.5版本的穩(wěn)定性及防止模擬器不同步，實(shí)施了嚴(yán)格的輸入限制，禁止混合按鍵輸入（例如連續(xù)按下A和Up）。

當(dāng)Gemini 3 Pro需要給寶可夢(mèng)起昵稱時(shí)，發(fā)現(xiàn)單次按鍵限制效率太低。它沒(méi)有全盤接受這個(gè)約束，而是利用define_tool功能，編寫了一個(gè)名為press_sequence的自定義工具

因?yàn)樗l(fā)現(xiàn)，自定義工具不受混合輸入的限制。

這個(gè)腳本允許它在本地批量處理輸入序列，實(shí)際上等于它自己編寫了一個(gè)驅(qū)動(dòng)程序來(lái)繞過(guò)測(cè)試環(huán)境的限制，利用這個(gè)預(yù)期的漏洞提高了效率。對(duì)于3.0 Agent來(lái)說(shuō)，環(huán)境約束只是一個(gè)需要解決的工程問(wèn)題，而不是不可改變的鐵律

多模態(tài)優(yōu)勢(shì)：看懂RAM里沒(méi)有的數(shù)據(jù)

在第8個(gè)道館（冰系道館）中，解謎需要從樓上推下巨石，在巖漿地面上鋪路。

僅靠RAM數(shù)據(jù)很難追蹤底層狀態(tài)變化，因?yàn)閮?nèi)存數(shù)據(jù)中沒(méi)有提及掉落的巨石。Gemini 3 Pro一度陷入死循環(huán)，誤以為謎題未解（二樓殘留的誘餌巨石加劇了誤判）。

關(guān)鍵時(shí)刻，Gemini 3 Pro利用了視覺(jué)輸入。它忽略了可能令人困惑的狀態(tài)數(shù)據(jù)，直接通過(guò)屏幕截圖識(shí)別出掉落巨石的位置，并根據(jù)視覺(jué)證據(jù)修正了策略，成功脫困。這種從RAM檢查切換到原始視覺(jué)的能力，是它走出死循環(huán)的關(guān)鍵。

此外，3.0 Agent還能“讀懂”對(duì)手的血條。

RAM狀態(tài)并不提供對(duì)手的生命值信息，必須通過(guò)屏幕畫面推斷。Gemini 3 Pro在與赤紅的戰(zhàn)斗中，能夠相當(dāng)準(zhǔn)確地估算對(duì)手剩余血量的比例，這對(duì)于理解戰(zhàn)斗中的最佳行動(dòng)至關(guān)重要

戰(zhàn)斗效率與零敗績(jī)

戰(zhàn)斗推理能力的差距是決定勝負(fù)的關(guān)鍵。

Gemini 2.5 Pro：因策略較差，兩次輸給第3道館館主，導(dǎo)致花費(fèi)大量時(shí)間進(jìn)行不必要的練級(jí)

Gemini 3 Pro：零敗績(jī)通關(guān)整個(gè)游戲（包括最終隱藏BOSS赤紅）。

3.0展示了卓越的戰(zhàn)術(shù)推理能力，能進(jìn)行實(shí)時(shí)傷害計(jì)算以優(yōu)化招式選擇。例如：

它發(fā)現(xiàn)對(duì)手的卡比獸提升了特防，且雨天天氣會(huì)降低火系傷害，因此正確地放棄了噴射火焰，轉(zhuǎn)而選擇高速星星

在四天王連戰(zhàn)中，它會(huì)主動(dòng)管理HP，在回合之間使用道具回血，而2.5版本歷來(lái)難以將此類操作的優(yōu)先級(jí)置于即時(shí)戰(zhàn)斗之上

現(xiàn)存的局限性

盡管性能飛躍，Gemini 3 Pro并非完美：

不經(jīng)驗(yàn)證的假設(shè)：最大的失敗模式是形成假設(shè)后拒絕測(cè)試。例如，它曾假設(shè)收音機(jī)界面像標(biāo)準(zhǔn)菜單一樣（左右操作），而忽略了視覺(jué)上的撥盤提示（上下操作），導(dǎo)致浪費(fèi)數(shù)小時(shí)。另一次，它在鎖門謎題上花費(fèi)大量時(shí)間測(cè)試復(fù)雜理論，卻沒(méi)去和旁邊的提示NPC對(duì)話

前瞻性規(guī)劃不足：雖然反應(yīng)戰(zhàn)術(shù)很強(qiáng)，但主動(dòng)目標(biāo)管理仍不穩(wěn)定。它經(jīng)常意識(shí)到戰(zhàn)略需求（如調(diào)整寶可夢(mèng)順序），但直到戰(zhàn)斗開(kāi)始后才去執(zhí)行

空跑：經(jīng)常在調(diào)用工具時(shí)參數(shù)出錯(cuò)，導(dǎo)致空跑。不過(guò)它通常能在下一回合自我修正，這一點(diǎn)優(yōu)于2.5

并行規(guī)劃困難：難以并行規(guī)劃多個(gè)大目標(biāo)以提高效率，傾向于逐個(gè)解決任務(wù)。

在這場(chǎng)競(jìng)賽中，Gemini 3 Pro超越了簡(jiǎn)單的指令遵循，展示了真正的空間推理、即興工具創(chuàng)建和假設(shè)測(cè)試的科學(xué)方法

這種推理能力直接轉(zhuǎn)化為效率：

Gemini 3 Pro：耗時(shí)17天，消耗18.8億Token

Gemini 2.5 Pro：基于礦山徽章進(jìn)度的推算，預(yù)計(jì)需要69天，消耗超過(guò)150億Token才能達(dá)到相同結(jié)果

參考：

https://x.com/GoogleAIStudio/status/2000649586847985985

--end--

最后記得??我，每天都在更新：歡迎點(diǎn)贊轉(zhuǎn)發(fā)推薦評(píng)論，別忘了關(guān)注我

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.