網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

中科院等頂尖院校:AI實(shí)現(xiàn)動(dòng)手思考式多模態(tài)智能基準(zhǔn)測(cè)試能力突破

2026-04-13 21:22:13　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由中國(guó)科學(xué)院自動(dòng)化研究所牽頭，聯(lián)合中國(guó)科學(xué)院大學(xué)、東南大學(xué)、南京大學(xué)、北京大學(xué)、北京航空航天大學(xué)、南洋理工大學(xué)和加州大學(xué)洛杉磯分校共同完成的研究發(fā)表于2026年4月，論文編號(hào)為arXiv:2604.03016v1。有興趣深入了解的讀者可以通過(guò)該編號(hào)查詢完整論文。

過(guò)去，我們讓AI看圖片就像讓一個(gè)人站在博物館門(mén)口，只能遠(yuǎn)遠(yuǎn)地看看展品的全貌，然后猜測(cè)里面有什么寶貝。但現(xiàn)實(shí)生活中，人類(lèi)解決復(fù)雜問(wèn)題時(shí)會(huì)主動(dòng)靠近、放大鏡觀察細(xì)節(jié)、查閱資料驗(yàn)證信息。研究團(tuán)隊(duì)發(fā)現(xiàn)，現(xiàn)有的多模態(tài)大語(yǔ)言模型評(píng)估方法存在嚴(yán)重缺陷：它們只測(cè)試AI的"被動(dòng)觀察"能力，卻忽視了"主動(dòng)探索"的重要性。

當(dāng)前的AI評(píng)估就像讓學(xué)生只看教科書(shū)的封面就要求他們回答復(fù)雜問(wèn)題，而不允許他們翻書(shū)、做筆記或查閱參考資料。這種評(píng)估方式顯然無(wú)法反映真實(shí)世界中解決問(wèn)題的復(fù)雜性。研究團(tuán)隊(duì)意識(shí)到，真正智能的系統(tǒng)應(yīng)該像一位經(jīng)驗(yàn)豐富的偵探，既能仔細(xì)觀察現(xiàn)場(chǎng)的每個(gè)細(xì)節(jié)（視覺(jué)擴(kuò)展），又能查閱檔案尋找相關(guān)線索（知識(shí)擴(kuò)展）。

為了填補(bǔ)這個(gè)巨大的評(píng)估空白，研究團(tuán)隊(duì)創(chuàng)建了Agentic-MME基準(zhǔn)測(cè)試。這個(gè)基準(zhǔn)測(cè)試包含418個(gè)真實(shí)世界的任務(wù)，涵蓋6個(gè)不同領(lǐng)域，按照3個(gè)難度級(jí)別精心設(shè)計(jì)。每個(gè)任務(wù)都像一個(gè)精心設(shè)計(jì)的謎題，需要AI系統(tǒng)像人類(lèi)專(zhuān)家一樣，主動(dòng)使用工具來(lái)發(fā)現(xiàn)隱藏的線索，然后將這些線索與外部知識(shí)相結(jié)合，最終得出正確答案。

這項(xiàng)研究的突破性在于首次建立了真正的"過(guò)程驗(yàn)證"評(píng)估體系。傳統(tǒng)評(píng)估只關(guān)心最終答案是否正確，就像只看考試成績(jī)而不關(guān)心學(xué)生是如何解題的。而Agentic-MME不僅要檢查最終答案，還要詳細(xì)審查AI系統(tǒng)的每一個(gè)推理步驟、每一次工具使用是否恰當(dāng)、每一個(gè)中間結(jié)果是否有效。研究團(tuán)隊(duì)花費(fèi)了超過(guò)2000個(gè)小時(shí)進(jìn)行人工標(biāo)注，平均每個(gè)任務(wù)需要10多個(gè)小時(shí)的精心設(shè)計(jì)和驗(yàn)證，建立了超過(guò)2000個(gè)逐步檢查點(diǎn)。

一、視覺(jué)探索與知識(shí)整合：AI的"雙重身份"

在這個(gè)新的評(píng)估框架中，AI系統(tǒng)扮演著雙重角色。首先是"顯微鏡觀察員"的角色，需要主動(dòng)操控各種視覺(jué)工具來(lái)發(fā)現(xiàn)圖像中的細(xì)微線索。這就像一位考古學(xué)家面對(duì)一幅古畫(huà)，不僅要看整體構(gòu)圖，還要用放大鏡觀察筆觸細(xì)節(jié)、用特殊燈光檢查隱藏的圖層、甚至旋轉(zhuǎn)畫(huà)作從不同角度尋找線索。

AI系統(tǒng)可以使用13種不同的視覺(jué)操作工具，包括裁剪、旋轉(zhuǎn)、翻轉(zhuǎn)、調(diào)整對(duì)比度、邊緣檢測(cè)等。每種工具都像考古學(xué)家工具箱中的專(zhuān)用設(shè)備，有著特定的用途。比如裁剪工具可以將注意力集中到圖像的關(guān)鍵區(qū)域，就像用放大鏡觀察文物上的銘文；對(duì)比度調(diào)整可以讓模糊的細(xì)節(jié)變得清晰，如同調(diào)節(jié)顯微鏡的焦距。

其次是"圖書(shū)管理員"的角色，需要通過(guò)網(wǎng)絡(luò)搜索來(lái)獲取圖像內(nèi)容相關(guān)的背景知識(shí)。這個(gè)過(guò)程就像一位研究員在大圖書(shū)館中查閱資料，不僅要知道如何搜索關(guān)鍵詞，還要知道如何驗(yàn)證信息的可靠性，如何將不同來(lái)源的信息進(jìn)行交叉對(duì)比。

AI系統(tǒng)配備了4種知識(shí)擴(kuò)展工具：谷歌文本搜索、谷歌圖片反向搜索、網(wǎng)頁(yè)內(nèi)容獲取和圖片下載。這些工具讓AI系統(tǒng)能夠像人類(lèi)研究者一樣，根據(jù)視覺(jué)線索進(jìn)行有針對(duì)性的信息檢索。

真正的挑戰(zhàn)在于這兩個(gè)角色需要無(wú)縫協(xié)作。AI系統(tǒng)必須像一位經(jīng)驗(yàn)豐富的偵探，先通過(guò)視覺(jué)工具發(fā)現(xiàn)線索，然后用這些線索去搜索相關(guān)信息，再用搜索到的信息指導(dǎo)進(jìn)一步的視覺(jué)探索。這種iterative的過(guò)程需要AI系統(tǒng)具備高度的規(guī)劃能力和靈活的問(wèn)題解決策略。

二、三個(gè)難度層級(jí)：從簡(jiǎn)單觀察到復(fù)雜推理

研究團(tuán)隊(duì)將任務(wù)按照復(fù)雜程度分為三個(gè)層級(jí)，就像游戲中的初級(jí)、中級(jí)和專(zhuān)家模式。

第一級(jí)別是"單步視覺(jué)操作"，相當(dāng)于讓AI完成一個(gè)簡(jiǎn)單的視覺(jué)任務(wù)。比如在一張超市貨架的照片中，某個(gè)商品的價(jià)格標(biāo)簽可能因?yàn)榕臄z角度而顯得很小，AI需要準(zhǔn)確地裁剪出價(jià)格標(biāo)簽區(qū)域并放大，然后讀取價(jià)格信息。這個(gè)層級(jí)測(cè)試AI是否具備基本的視覺(jué)工具使用能力，就像測(cè)試一個(gè)人是否會(huì)正確使用放大鏡。

第二級(jí)別是"多步驟工作流程"，需要AI系統(tǒng)將視覺(jué)操作與知識(shí)搜索結(jié)合起來(lái)。舉個(gè)例子，AI看到一張建筑物的照片，需要先通過(guò)視覺(jué)工具識(shí)別出建筑物上的標(biāo)識(shí)，然后通過(guò)網(wǎng)絡(luò)搜索查找這個(gè)建筑的相關(guān)信息，最后回答關(guān)于該建筑歷史或用途的問(wèn)題。這個(gè)層級(jí)測(cè)試AI是否能夠進(jìn)行簡(jiǎn)單的跨模態(tài)推理，類(lèi)似于讓一個(gè)人既要觀察又要查閱資料。

第三級(jí)別是"高級(jí)協(xié)同問(wèn)題解決"，這是最具挑戰(zhàn)性的任務(wù)類(lèi)型。這類(lèi)任務(wù)往往包含模糊的視覺(jué)線索，需要AI系統(tǒng)進(jìn)行假設(shè)-驗(yàn)證循環(huán)。比如，AI面對(duì)一個(gè)極其模糊的商標(biāo)圖像，需要先嘗試通過(guò)圖像處理技術(shù)提取可能的特征，然后基于這些不完整的信息進(jìn)行多次搜索嘗試，每次搜索的結(jié)果都會(huì)為下一輪視覺(jué)分析提供指導(dǎo)，直到最終確定這個(gè)模糊商標(biāo)的真實(shí)身份。這個(gè)層級(jí)真正測(cè)試AI的綜合推理能力，就像要求一位專(zhuān)家解決現(xiàn)實(shí)世界中最復(fù)雜的問(wèn)題。

特別有趣的是，研究團(tuán)隊(duì)在設(shè)計(jì)第三級(jí)別任務(wù)時(shí)采用了"模型在環(huán)后向設(shè)計(jì)"的方法。他們先讓最先進(jìn)的AI模型觀察原始圖像并描述其內(nèi)容，然后專(zhuān)門(mén)挑選模型遺漏或錯(cuò)誤描述的細(xì)節(jié)作為關(guān)鍵線索。這樣確保了任務(wù)確實(shí)需要主動(dòng)的視覺(jué)工具使用，而不能僅僅通過(guò)被動(dòng)觀察來(lái)解決。

三、革命性的過(guò)程驗(yàn)證體系

傳統(tǒng)的AI評(píng)估就像只看學(xué)生考試的最終得分，而不關(guān)心他們是如何解題的。這種評(píng)估方式存在嚴(yán)重問(wèn)題：AI系統(tǒng)可能因?yàn)?運(yùn)氣好"而猜對(duì)答案，也可能因?yàn)橐粋€(gè)小錯(cuò)誤而全功盡棄，盡管它的整體推理過(guò)程是正確的。

Agentic-MME引入了雙軸過(guò)程驗(yàn)證體系，這是該研究最重要的創(chuàng)新之一。這個(gè)體系就像兩個(gè)專(zhuān)門(mén)的審查員，分別從不同角度檢查AI系統(tǒng)的每一個(gè)操作步驟。

S軸審查員專(zhuān)門(mén)負(fù)責(zé)檢查"策略和工具執(zhí)行"。它會(huì)仔細(xì)審查AI系統(tǒng)是否在正確的時(shí)機(jī)使用了正確的搜索策略。比如，當(dāng)任務(wù)要求識(shí)別一個(gè)模糊的建筑物時(shí)，S軸審查員會(huì)檢查AI系統(tǒng)是否提取了合適的搜索關(guān)鍵詞、是否訪問(wèn)了相關(guān)的網(wǎng)頁(yè)、是否從搜索結(jié)果中獲得了預(yù)期的信息。這個(gè)過(guò)程就像檢查一位研究員的文獻(xiàn)檢索過(guò)程是否專(zhuān)業(yè)和有效。

V軸審查員則專(zhuān)門(mén)負(fù)責(zé)檢查"視覺(jué)證據(jù)驗(yàn)證"。它不僅要確認(rèn)AI系統(tǒng)是否使用了視覺(jué)工具，更重要的是要驗(yàn)證這些工具生成的中間圖像是否真正包含了所需的視覺(jué)信息。比如，如果AI系統(tǒng)聲稱(chēng)它裁剪了包含價(jià)格信息的區(qū)域，V軸審查員會(huì)實(shí)際檢查這個(gè)裁剪結(jié)果，確認(rèn)價(jià)格信息是否清晰可讀。這個(gè)過(guò)程就像實(shí)驗(yàn)室中的同行評(píng)議，要求提供可驗(yàn)證的證據(jù)。

為了實(shí)現(xiàn)這種細(xì)致的過(guò)程驗(yàn)證，研究團(tuán)隊(duì)建立了超過(guò)2000個(gè)檢查點(diǎn)，平均每個(gè)任務(wù)包含5個(gè)以上的中間驗(yàn)證步驟。每個(gè)檢查點(diǎn)都配有詳細(xì)的人工標(biāo)注，包括預(yù)期的操作意圖、應(yīng)該生成的中間結(jié)果，以及用于驗(yàn)證的具體問(wèn)題和標(biāo)準(zhǔn)答案。這種詳細(xì)程度前所未有，相當(dāng)于為每個(gè)任務(wù)創(chuàng)建了一份詳細(xì)的"標(biāo)準(zhǔn)作業(yè)程序"。

更進(jìn)一步，研究團(tuán)隊(duì)還引入了"過(guò)度思考"懲罰機(jī)制。這個(gè)機(jī)制會(huì)比較AI系統(tǒng)的解題步驟數(shù)量與人類(lèi)專(zhuān)家的最優(yōu)解題路徑，對(duì)那些進(jìn)行了過(guò)多冗余操作的系統(tǒng)進(jìn)行扣分。這就像在考試中不僅要求答案正確，還要求解題過(guò)程簡(jiǎn)潔高效。

四、統(tǒng)一評(píng)估框架：兼容不同的AI系統(tǒng)

現(xiàn)實(shí)中的AI系統(tǒng)就像來(lái)自不同廠商的智能手機(jī)，雖然功能類(lèi)似，但操作方式可能完全不同。有些AI系統(tǒng)擅長(zhǎng)編寫(xiě)代碼來(lái)處理圖像，有些則更適合使用預(yù)定義的工具接口。為了公平比較這些不同類(lèi)型的系統(tǒng)，研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)統(tǒng)一的評(píng)估框架。

這個(gè)框架支持兩種主要的交互模式。第一種是"代碼生成模式"，AI系統(tǒng)可以編寫(xiě)Python代碼來(lái)處理圖像，就像一個(gè)程序員面對(duì)問(wèn)題時(shí)會(huì)編寫(xiě)定制化的解決方案。第二種是"原子工具模式"，AI系統(tǒng)通過(guò)調(diào)用預(yù)定義的函數(shù)來(lái)完成任務(wù)，就像使用標(biāo)準(zhǔn)化的工具箱。

為了確保公平比較，研究團(tuán)隊(duì)開(kāi)發(fā)了復(fù)雜的標(biāo)準(zhǔn)化機(jī)制。對(duì)于代碼生成模式，他們使用抽象語(yǔ)法樹(shù)分析技術(shù)，可以從AI系統(tǒng)生成的各種風(fēng)格的代碼中提取出標(biāo)準(zhǔn)化的操作序列。這就像有一位專(zhuān)業(yè)的翻譯員，能夠?qū)⒉煌幊田L(fēng)格的代碼翻譯成統(tǒng)一的操作描述。

對(duì)于原子工具模式，框架提供了13種視覺(jué)操作工具和4種知識(shí)檢索工具的標(biāo)準(zhǔn)接口。每個(gè)工具都有詳細(xì)的參數(shù)規(guī)范和使用說(shuō)明，確保不同的AI系統(tǒng)都能正確理解和使用這些工具。

更重要的是，評(píng)估框架還處理了許多技術(shù)細(xì)節(jié)問(wèn)題。比如，不同AI系統(tǒng)生成的圖像可能采用不同的文件格式或命名約定，框架會(huì)自動(dòng)進(jìn)行標(biāo)準(zhǔn)化處理。對(duì)于網(wǎng)絡(luò)搜索結(jié)果，框架支持緩存和重放功能，確保相同的搜索查詢總是返回一致的結(jié)果，避免因網(wǎng)絡(luò)內(nèi)容變化而影響評(píng)估的一致性。

五、令人意外的實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)對(duì)多個(gè)最先進(jìn)的AI系統(tǒng)進(jìn)行了全面測(cè)試，結(jié)果讓人大開(kāi)眼界。即使是目前表現(xiàn)最好的AI系統(tǒng)，在這個(gè)新的評(píng)估標(biāo)準(zhǔn)下也顯得相當(dāng)"笨拙"。

最優(yōu)秀的AI系統(tǒng)Gemini-3 Pro在整體任務(wù)中只達(dá)到了56.3%的準(zhǔn)確率，而在最困難的第三級(jí)別任務(wù)中，準(zhǔn)確率驟降至33.3%。這個(gè)結(jié)果特別有意思，因?yàn)橥瑯邮荊emini-3 Pro，在傳統(tǒng)的被動(dòng)觀察模式下，第一級(jí)別任務(wù)能達(dá)到42.9%的準(zhǔn)確率，但在第三級(jí)別任務(wù)中只有7.5%。這說(shuō)明工具的使用確實(shí)能顯著提升AI的問(wèn)題解決能力，但距離人類(lèi)水平還有很大差距。人類(lèi)專(zhuān)家在相同任務(wù)上的平均準(zhǔn)確率達(dá)到了93.8%，即使在最困難的第三級(jí)別任務(wù)中也能保持82.3%的高準(zhǔn)確率。

更有趣的是開(kāi)源AI系統(tǒng)與閉源商業(yè)系統(tǒng)之間的巨大差距。開(kāi)源系統(tǒng)如Qwen3 VL-235B在第三級(jí)別任務(wù)中的準(zhǔn)確率只有10.1%，而一些開(kāi)源系統(tǒng)甚至在搜索策略方面幾乎完全失敗，S軸得分低于5%。這表明當(dāng)前開(kāi)源AI系統(tǒng)雖然能夠?qū)W會(huì)調(diào)用工具，但在復(fù)雜的多步推理和搜索規(guī)劃方面還需要大幅改進(jìn)。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)反直覺(jué)的現(xiàn)象：結(jié)構(gòu)化的工具接口（原子工具模式）普遍比代碼生成模式表現(xiàn)更好。這可能是因?yàn)榇a生成對(duì)AI系統(tǒng)提出了更高的認(rèn)知要求：不僅要理解問(wèn)題，還要處理編程語(yǔ)法、管理文件輸入輸出、處理錯(cuò)誤恢復(fù)等技術(shù)細(xì)節(jié)。但代碼生成模式也展現(xiàn)出獨(dú)特優(yōu)勢(shì)：它可以進(jìn)行任意復(fù)雜的操作組合，不受預(yù)定義工具的限制。

另一個(gè)值得注意的發(fā)現(xiàn)是AI系統(tǒng)在工具使用方面的"急躁"行為。許多AI系統(tǒng)頻繁調(diào)用視覺(jué)工具，但生成的中間結(jié)果往往質(zhì)量很差。比如，某個(gè)AI系統(tǒng)可能會(huì)正確地識(shí)別需要裁剪某個(gè)區(qū)域，但實(shí)際裁剪的位置完全錯(cuò)誤，導(dǎo)致浪費(fèi)了交互次數(shù)卻沒(méi)有獲得有用信息。

六、細(xì)致的錯(cuò)誤分析揭示關(guān)鍵瓶頸

研究團(tuán)隊(duì)對(duì)AI系統(tǒng)的失敗案例進(jìn)行了詳細(xì)分析，發(fā)現(xiàn)了七種主要的錯(cuò)誤模式，就像醫(yī)生診斷病人時(shí)要區(qū)分不同的病因一樣。

最常見(jiàn)的問(wèn)題是"行動(dòng)消極"，占所有錯(cuò)誤的約50%。這類(lèi)AI系統(tǒng)面對(duì)需要主動(dòng)操作的任務(wù)時(shí)，往往選擇直接從原始圖像猜測(cè)答案，而不愿意使用可用的工具。這就像一個(gè)學(xué)生面對(duì)開(kāi)卷考試時(shí)，明明可以查閱資料，卻堅(jiān)持憑記憶答題。

第二常見(jiàn)的問(wèn)題是"過(guò)度思考陷阱"，特別影響那些較為先進(jìn)的AI系統(tǒng)。這些系統(tǒng)會(huì)陷入重復(fù)的工具調(diào)用循環(huán)中，不斷嘗試相似的操作，卻無(wú)法從中間結(jié)果中學(xué)習(xí)和調(diào)整策略。這種行為類(lèi)似于一個(gè)人在解謎時(shí)，明明已經(jīng)嘗試了某種方法不可行，卻反復(fù)嘗試相似的方法。

第三個(gè)重要問(wèn)題是"不忠實(shí)的工具使用"。AI系統(tǒng)雖然會(huì)調(diào)用工具，但調(diào)用方式不當(dāng)，比如裁剪了錯(cuò)誤的區(qū)域或使用了不合適的圖像處理參數(shù)。這就像一個(gè)人知道要使用放大鏡，卻把放大鏡放在了錯(cuò)誤的位置。

有趣的是，不同難度級(jí)別的任務(wù)展現(xiàn)出不同的錯(cuò)誤模式分布。在簡(jiǎn)單任務(wù)中，"行動(dòng)消極"是主要問(wèn)題；而在復(fù)雜任務(wù)中，"搜索策略失誤"和"工具使用不當(dāng)"變得更加突出。這表明AI系統(tǒng)在不同認(rèn)知負(fù)荷下會(huì)表現(xiàn)出不同類(lèi)型的局限性。

研究團(tuán)隊(duì)還發(fā)現(xiàn)，代碼生成模式容易出現(xiàn)"工具執(zhí)行錯(cuò)誤"，比如語(yǔ)法錯(cuò)誤、運(yùn)行時(shí)異常等低層次問(wèn)題。而原子工具模式則更多地在高層次規(guī)劃方面出現(xiàn)問(wèn)題。這個(gè)對(duì)比提供了關(guān)于如何改進(jìn)不同類(lèi)型AI系統(tǒng)的重要洞察。

七、驗(yàn)證研究的嚴(yán)謹(jǐn)性

為了確保這項(xiàng)基準(zhǔn)測(cè)試真正有效，研究團(tuán)隊(duì)進(jìn)行了多項(xiàng)驗(yàn)證實(shí)驗(yàn)，就像藥物試驗(yàn)需要對(duì)照組一樣嚴(yán)謹(jǐn)。

首先，他們測(cè)試了圖像內(nèi)容是否是任務(wù)解決的必要條件。當(dāng)研究團(tuán)隊(duì)移除所有圖像，只保留文字問(wèn)題時(shí)，AI系統(tǒng)的準(zhǔn)確率幾乎降至零（最好的系統(tǒng)也只有不到3%的準(zhǔn)確率）。這證明任務(wù)確實(shí)需要視覺(jué)信息，不存在"數(shù)據(jù)泄露"問(wèn)題。

接著，他們驗(yàn)證了主動(dòng)工具使用的必要性。研究團(tuán)隊(duì)比較了四種設(shè)置：純被動(dòng)觀察、僅使用圖像工具、僅使用搜索工具，以及同時(shí)使用兩類(lèi)工具。結(jié)果顯示，在最困難的任務(wù)中，僅使用圖像工具甚至?xí)档托阅埽瑑H使用搜索工具只能帶來(lái)微小改進(jìn)，但兩者結(jié)合使用時(shí)效果顯著提升。這證明了任務(wù)設(shè)計(jì)的合理性：真正困難的問(wèn)題確實(shí)需要視覺(jué)操作與知識(shí)搜索的協(xié)同作用。

研究團(tuán)隊(duì)還進(jìn)行了"神諭指導(dǎo)"實(shí)驗(yàn)，這是一個(gè)特別巧妙的驗(yàn)證方法。他們逐步向AI系統(tǒng)提供人工標(biāo)注的中間結(jié)果，觀察性能如何改善。結(jié)果顯示，當(dāng)提供正確的中間視覺(jué)證據(jù)時(shí)，AI系統(tǒng)性能有所改善；當(dāng)進(jìn)一步提供完整的步驟指導(dǎo)時(shí)，性能大幅提升。但即使在這種"開(kāi)掛"模式下，AI系統(tǒng)在最困難任務(wù)上的表現(xiàn)仍然沒(méi)有接近完美，這說(shuō)明連續(xù)執(zhí)行和規(guī)劃仍然是重大挑戰(zhàn)。

為了驗(yàn)證評(píng)估的一致性，研究團(tuán)隊(duì)使用了三個(gè)不同的AI裁判系統(tǒng)，并與人類(lèi)專(zhuān)家的評(píng)估進(jìn)行了對(duì)比。結(jié)果顯示各個(gè)評(píng)估者之間的一致性很高，這證明了評(píng)估方法的可靠性。

八、對(duì)AI發(fā)展的深遠(yuǎn)影響

這項(xiàng)研究不僅提供了一個(gè)新的評(píng)估工具，更重要的是揭示了當(dāng)前AI系統(tǒng)的根本性局限。傳統(tǒng)評(píng)估就像只測(cè)試學(xué)生的閱讀理解能力，而忽視了他們的動(dòng)手實(shí)踐和資料檢索能力。Agentic-MME的出現(xiàn)，就像為AI評(píng)估引入了實(shí)驗(yàn)課和開(kāi)卷考試，更全面地反映了智能系統(tǒng)在現(xiàn)實(shí)世界中的能力。

研究結(jié)果表明，盡管當(dāng)前的大語(yǔ)言模型在知識(shí)儲(chǔ)備方面已經(jīng)相當(dāng)豐富，但在主動(dòng)問(wèn)題解決和工具協(xié)調(diào)使用方面還存在顯著不足。這個(gè)發(fā)現(xiàn)對(duì)AI發(fā)展方向具有重要指導(dǎo)意義：僅僅增加模型參數(shù)和訓(xùn)練數(shù)據(jù)可能不足以實(shí)現(xiàn)真正的智能，還需要專(zhuān)門(mén)訓(xùn)練模型的規(guī)劃能力、工具使用技巧和多步推理能力。

特別值得注意的是開(kāi)源AI系統(tǒng)與商業(yè)系統(tǒng)之間的巨大差距。這表明簡(jiǎn)單的模型架構(gòu)復(fù)制可能無(wú)法達(dá)到先進(jìn)系統(tǒng)的性能水平，還需要在訓(xùn)練方法、數(shù)據(jù)處理和系統(tǒng)優(yōu)化等方面進(jìn)行深入研究。

這項(xiàng)研究還為AI系統(tǒng)的訓(xùn)練提供了新的思路。傳統(tǒng)的AI訓(xùn)練主要關(guān)注最終答案的正確性，而過(guò)程驗(yàn)證體系表明，訓(xùn)練AI系統(tǒng)的中間推理步驟可能同樣重要。未來(lái)的AI訓(xùn)練可能需要更多地關(guān)注"如何思考"而不僅僅是"思考什么"。

研究團(tuán)隊(duì)公開(kāi)了完整的數(shù)據(jù)集、評(píng)估工具和基準(zhǔn)測(cè)試代碼，這為整個(gè)AI研究社區(qū)提供了寶貴的資源。這種開(kāi)放式的研究方法將加速相關(guān)領(lǐng)域的發(fā)展，幫助研究者更好地理解和改進(jìn)AI系統(tǒng)的多模態(tài)推理能力。

說(shuō)到底，這項(xiàng)研究就像為AI系統(tǒng)設(shè)立了一面更準(zhǔn)確的鏡子，讓我們看清現(xiàn)有技術(shù)的真實(shí)水平。雖然結(jié)果顯示AI系統(tǒng)距離人類(lèi)水平還有很大差距，但這恰恰為未來(lái)的研究指明了方向。正如研究團(tuán)隊(duì)所指出的，真正的多模態(tài)智能不僅要能看懂圖像和理解語(yǔ)言，更要能像人類(lèi)專(zhuān)家一樣主動(dòng)探索、驗(yàn)證假設(shè)、協(xié)調(diào)不同信息源來(lái)解決復(fù)雜問(wèn)題。這個(gè)目標(biāo)雖然仍然充滿挑戰(zhàn)，但Agentic-MME為我們提供了衡量進(jìn)展的可靠標(biāo)尺，這本身就是向真正智能AI邁出的重要一步。

Q&A

Q1：Agentic-MME基準(zhǔn)測(cè)試與傳統(tǒng)AI評(píng)估有什么本質(zhì)區(qū)別？

A：傳統(tǒng)AI評(píng)估只讓AI被動(dòng)觀察圖像然后回答問(wèn)題，就像讓學(xué)生只看教科書(shū)封面就答題。而Agentic-MME要求AI主動(dòng)使用工具，既要像偵探一樣用放大鏡等工具仔細(xì)觀察現(xiàn)場(chǎng)細(xì)節(jié)，又要像研究員一樣查閱資料驗(yàn)證信息，最后綜合所有線索得出答案。這種評(píng)估更接近人類(lèi)解決現(xiàn)實(shí)問(wèn)題的方式。

Q2：為什么最先進(jìn)的AI系統(tǒng)在Agentic-MME上表現(xiàn)不佳？

A：最好的AI系統(tǒng)Gemini-3 Pro整體準(zhǔn)確率只有56.3%，在最難任務(wù)上只有33.3%，而人類(lèi)專(zhuān)家能達(dá)到93.8%。主要原因是AI系統(tǒng)缺乏有效的多步規(guī)劃能力，經(jīng)常在錯(cuò)誤的地方使用工具，或者陷入重復(fù)操作的循環(huán)中，無(wú)法像人類(lèi)一樣靈活協(xié)調(diào)視覺(jué)觀察和知識(shí)搜索。

Q3：Agentic-MME的過(guò)程驗(yàn)證體系是如何工作的？

A：它使用雙軸驗(yàn)證系統(tǒng)，就像兩個(gè)專(zhuān)門(mén)審查員。S軸檢查AI的搜索策略是否正確，比如是否用了合適的關(guān)鍵詞、找到了相關(guān)信息。V軸檢查AI使用視覺(jué)工具的效果，驗(yàn)證裁剪或處理后的圖像是否真正包含所需信息。每個(gè)任務(wù)平均有5個(gè)以上的檢查點(diǎn)，確保每一步操作都經(jīng)過(guò)驗(yàn)證。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.