![]()
↑閱讀之前記得關(guān)注+星標(biāo)??,,每天才能第一時(shí)間接收到更新
Gemini 3 Pro贏麻了
在ARISE基金會(huì)Joel Zhang主持的一場(chǎng)全自動(dòng)《寶可夢(mèng) 水晶版》對(duì)決中,Gemini 3 Pro以絕對(duì)優(yōu)勢(shì)擊敗了Gemini 2.5 Pro
戰(zhàn)績(jī)對(duì)比非常慘烈:當(dāng)2.5版本只拿到4枚徽章時(shí),Gemini 3 Pro已經(jīng)耗費(fèi)約一半的Token和回合數(shù),拿下了全部16枚徽章,擊敗了四天王和冠軍,甚至打敗了隱藏BOSS赤紅(Red)
根據(jù)谷歌DeepMind披露的細(xì)節(jié),Gemini 3 Pro通關(guān)全過(guò)程至少比2.5版本快2倍;如果進(jìn)行推算,前代模型的速度實(shí)際上要慢上8倍左右
![]()
這場(chǎng)對(duì)決最精彩的一幕發(fā)生在最終戰(zhàn)。面對(duì)等級(jí)壓制的赤紅,Gemini 3.0制定了一個(gè)名為“僵尸鳳凰行動(dòng)”(Operation Zombie Phoenix)的復(fù)雜策略。它結(jié)合了被動(dòng)恢復(fù)、能力值削減、消耗戰(zhàn)術(shù)以及復(fù)活循環(huán),在長(zhǎng)達(dá)7小時(shí)的馬拉松式戰(zhàn)斗中鎖定了勝局
![]()
以下是這場(chǎng)“AI玩寶可夢(mèng)”實(shí)驗(yàn)中的核心發(fā)現(xiàn)
丟掉輔助輪:像科學(xué)家一樣思考
為了公平,兩個(gè)Agent使用了完全相同的測(cè)試環(huán)境
值得注意的是,Prompt并沒(méi)有要求它們盡快通關(guān),而是要求它們應(yīng)用科學(xué)方法,不要假設(shè)關(guān)于游戲的先驗(yàn)知識(shí)是正確的。Agent可以使用非結(jié)構(gòu)化的記事本功能來(lái)記錄假設(shè)、測(cè)試想法并跟蹤游戲進(jìn)度。
這種靈活的設(shè)置允許Agent在環(huán)境中設(shè)計(jì)自己的代碼工具和子Agent。這不僅是玩游戲,更是測(cè)試Agent適應(yīng)環(huán)境并構(gòu)建工作流的能力。
自寫驅(qū)動(dòng),繞過(guò)限制
Gemini 3 Pro展現(xiàn)出了對(duì)工具極高的信任度。當(dāng)行動(dòng)失敗時(shí),它會(huì)重新評(píng)估環(huán)境,而不是死磕代碼庫(kù)。這種意識(shí)引發(fā)了一個(gè)非常驚人的行為。
測(cè)試環(huán)境為了保持2.5版本的穩(wěn)定性及防止模擬器不同步,實(shí)施了嚴(yán)格的輸入限制,禁止混合按鍵輸入(例如連續(xù)按下A和Up)。
當(dāng)Gemini 3 Pro需要給寶可夢(mèng)起昵稱時(shí),發(fā)現(xiàn)單次按鍵限制效率太低。它沒(méi)有全盤接受這個(gè)約束,而是利用define_tool功能,編寫了一個(gè)名為press_sequence的自定義工具
因?yàn)樗l(fā)現(xiàn),自定義工具不受混合輸入的限制。
這個(gè)腳本允許它在本地批量處理輸入序列,實(shí)際上等于它自己編寫了一個(gè)驅(qū)動(dòng)程序來(lái)繞過(guò)測(cè)試環(huán)境的限制,利用這個(gè)預(yù)期的漏洞提高了效率。對(duì)于3.0 Agent來(lái)說(shuō),環(huán)境約束只是一個(gè)需要解決的工程問(wèn)題,而不是不可改變的鐵律
多模態(tài)優(yōu)勢(shì):看懂RAM里沒(méi)有的數(shù)據(jù)
在第8個(gè)道館(冰系道館)中,解謎需要從樓上推下巨石,在巖漿地面上鋪路。
僅靠RAM數(shù)據(jù)很難追蹤底層狀態(tài)變化,因?yàn)閮?nèi)存數(shù)據(jù)中沒(méi)有提及掉落的巨石。Gemini 3 Pro一度陷入死循環(huán),誤以為謎題未解(二樓殘留的誘餌巨石加劇了誤判)。
關(guān)鍵時(shí)刻,Gemini 3 Pro利用了視覺(jué)輸入。它忽略了可能令人困惑的狀態(tài)數(shù)據(jù),直接通過(guò)屏幕截圖識(shí)別出掉落巨石的位置,并根據(jù)視覺(jué)證據(jù)修正了策略,成功脫困。這種從RAM檢查切換到原始視覺(jué)的能力,是它走出死循環(huán)的關(guān)鍵。
此外,3.0 Agent還能“讀懂”對(duì)手的血條。
RAM狀態(tài)并不提供對(duì)手的生命值信息,必須通過(guò)屏幕畫面推斷。Gemini 3 Pro在與赤紅的戰(zhàn)斗中,能夠相當(dāng)準(zhǔn)確地估算對(duì)手剩余血量的比例,這對(duì)于理解戰(zhàn)斗中的最佳行動(dòng)至關(guān)重要
戰(zhàn)斗效率與零敗績(jī)
戰(zhàn)斗推理能力的差距是決定勝負(fù)的關(guān)鍵。
Gemini 2.5 Pro:因策略較差,兩次輸給第3道館館主,導(dǎo)致花費(fèi)大量時(shí)間進(jìn)行不必要的練級(jí)
Gemini 3 Pro: 零敗績(jī)通關(guān)整個(gè)游戲(包括最終隱藏BOSS赤紅)。
3.0展示了卓越的戰(zhàn)術(shù)推理能力,能進(jìn)行實(shí)時(shí)傷害計(jì)算以優(yōu)化招式選擇。例如:
它發(fā)現(xiàn)對(duì)手的卡比獸提升了特防,且雨天天氣會(huì)降低火系傷害,因此正確地放棄了噴射火焰,轉(zhuǎn)而選擇高速星星
在四天王連戰(zhàn)中,它會(huì)主動(dòng)管理HP,在回合之間使用道具回血,而2.5版本歷來(lái)難以將此類操作的優(yōu)先級(jí)置于即時(shí)戰(zhàn)斗之上
現(xiàn)存的局限性
盡管性能飛躍,Gemini 3 Pro并非完美:
不經(jīng)驗(yàn)證的假設(shè):最大的失敗模式是形成假設(shè)后拒絕測(cè)試。例如,它曾假設(shè)收音機(jī)界面像標(biāo)準(zhǔn)菜單一樣(左右操作),而忽略了視覺(jué)上的撥盤提示(上下操作),導(dǎo)致浪費(fèi)數(shù)小時(shí)。另一次,它在鎖門謎題上花費(fèi)大量時(shí)間測(cè)試復(fù)雜理論,卻沒(méi)去和旁邊的提示NPC對(duì)話
前瞻性規(guī)劃不足:雖然反應(yīng)戰(zhàn)術(shù)很強(qiáng),但主動(dòng)目標(biāo)管理仍不穩(wěn)定。它經(jīng)常意識(shí)到戰(zhàn)略需求(如調(diào)整寶可夢(mèng)順序),但直到戰(zhàn)斗開(kāi)始后才去執(zhí)行
空跑:經(jīng)常在調(diào)用工具時(shí)參數(shù)出錯(cuò),導(dǎo)致空跑。不過(guò)它通常能在下一回合自我修正,這一點(diǎn)優(yōu)于2.5
并行規(guī)劃困難:難以并行規(guī)劃多個(gè)大目標(biāo)以提高效率,傾向于逐個(gè)解決任務(wù)。
在這場(chǎng)競(jìng)賽中,Gemini 3 Pro超越了簡(jiǎn)單的指令遵循,展示了真正的空間推理、即興工具創(chuàng)建和假設(shè)測(cè)試的科學(xué)方法
這種推理能力直接轉(zhuǎn)化為效率:
Gemini 3 Pro:耗時(shí)17天,消耗18.8億Token
Gemini 2.5 Pro:基于礦山徽章進(jìn)度的推算,預(yù)計(jì)需要69天,消耗超過(guò)150億Token才能達(dá)到相同結(jié)果
參考:
https://x.com/GoogleAIStudio/status/2000649586847985985
--end--
最后記得??我,每天都在更新:歡迎點(diǎn)贊轉(zhuǎn)發(fā)推薦評(píng)論,別忘了關(guān)注我
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.