<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      中科院等頂尖院校:AI實(shí)現(xiàn)動(dòng)手思考式多模態(tài)智能基準(zhǔn)測(cè)試能力突破

      0
      分享至


      這項(xiàng)由中國(guó)科學(xué)院自動(dòng)化研究所牽頭,聯(lián)合中國(guó)科學(xué)院大學(xué)、東南大學(xué)、南京大學(xué)、北京大學(xué)、北京航空航天大學(xué)、南洋理工大學(xué)和加州大學(xué)洛杉磯分校共同完成的研究發(fā)表于2026年4月,論文編號(hào)為arXiv:2604.03016v1。有興趣深入了解的讀者可以通過(guò)該編號(hào)查詢完整論文。

      過(guò)去,我們讓AI看圖片就像讓一個(gè)人站在博物館門(mén)口,只能遠(yuǎn)遠(yuǎn)地看看展品的全貌,然后猜測(cè)里面有什么寶貝。但現(xiàn)實(shí)生活中,人類(lèi)解決復(fù)雜問(wèn)題時(shí)會(huì)主動(dòng)靠近、放大鏡觀察細(xì)節(jié)、查閱資料驗(yàn)證信息。研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的多模態(tài)大語(yǔ)言模型評(píng)估方法存在嚴(yán)重缺陷:它們只測(cè)試AI的"被動(dòng)觀察"能力,卻忽視了"主動(dòng)探索"的重要性。

      當(dāng)前的AI評(píng)估就像讓學(xué)生只看教科書(shū)的封面就要求他們回答復(fù)雜問(wèn)題,而不允許他們翻書(shū)、做筆記或查閱參考資料。這種評(píng)估方式顯然無(wú)法反映真實(shí)世界中解決問(wèn)題的復(fù)雜性。研究團(tuán)隊(duì)意識(shí)到,真正智能的系統(tǒng)應(yīng)該像一位經(jīng)驗(yàn)豐富的偵探,既能仔細(xì)觀察現(xiàn)場(chǎng)的每個(gè)細(xì)節(jié)(視覺(jué)擴(kuò)展),又能查閱檔案尋找相關(guān)線索(知識(shí)擴(kuò)展)。

      為了填補(bǔ)這個(gè)巨大的評(píng)估空白,研究團(tuán)隊(duì)創(chuàng)建了Agentic-MME基準(zhǔn)測(cè)試。這個(gè)基準(zhǔn)測(cè)試包含418個(gè)真實(shí)世界的任務(wù),涵蓋6個(gè)不同領(lǐng)域,按照3個(gè)難度級(jí)別精心設(shè)計(jì)。每個(gè)任務(wù)都像一個(gè)精心設(shè)計(jì)的謎題,需要AI系統(tǒng)像人類(lèi)專(zhuān)家一樣,主動(dòng)使用工具來(lái)發(fā)現(xiàn)隱藏的線索,然后將這些線索與外部知識(shí)相結(jié)合,最終得出正確答案。

      這項(xiàng)研究的突破性在于首次建立了真正的"過(guò)程驗(yàn)證"評(píng)估體系。傳統(tǒng)評(píng)估只關(guān)心最終答案是否正確,就像只看考試成績(jī)而不關(guān)心學(xué)生是如何解題的。而Agentic-MME不僅要檢查最終答案,還要詳細(xì)審查AI系統(tǒng)的每一個(gè)推理步驟、每一次工具使用是否恰當(dāng)、每一個(gè)中間結(jié)果是否有效。研究團(tuán)隊(duì)花費(fèi)了超過(guò)2000個(gè)小時(shí)進(jìn)行人工標(biāo)注,平均每個(gè)任務(wù)需要10多個(gè)小時(shí)的精心設(shè)計(jì)和驗(yàn)證,建立了超過(guò)2000個(gè)逐步檢查點(diǎn)。

      一、視覺(jué)探索與知識(shí)整合:AI的"雙重身份"

      在這個(gè)新的評(píng)估框架中,AI系統(tǒng)扮演著雙重角色。首先是"顯微鏡觀察員"的角色,需要主動(dòng)操控各種視覺(jué)工具來(lái)發(fā)現(xiàn)圖像中的細(xì)微線索。這就像一位考古學(xué)家面對(duì)一幅古畫(huà),不僅要看整體構(gòu)圖,還要用放大鏡觀察筆觸細(xì)節(jié)、用特殊燈光檢查隱藏的圖層、甚至旋轉(zhuǎn)畫(huà)作從不同角度尋找線索。

      AI系統(tǒng)可以使用13種不同的視覺(jué)操作工具,包括裁剪、旋轉(zhuǎn)、翻轉(zhuǎn)、調(diào)整對(duì)比度、邊緣檢測(cè)等。每種工具都像考古學(xué)家工具箱中的專(zhuān)用設(shè)備,有著特定的用途。比如裁剪工具可以將注意力集中到圖像的關(guān)鍵區(qū)域,就像用放大鏡觀察文物上的銘文;對(duì)比度調(diào)整可以讓模糊的細(xì)節(jié)變得清晰,如同調(diào)節(jié)顯微鏡的焦距。

      其次是"圖書(shū)管理員"的角色,需要通過(guò)網(wǎng)絡(luò)搜索來(lái)獲取圖像內(nèi)容相關(guān)的背景知識(shí)。這個(gè)過(guò)程就像一位研究員在大圖書(shū)館中查閱資料,不僅要知道如何搜索關(guān)鍵詞,還要知道如何驗(yàn)證信息的可靠性,如何將不同來(lái)源的信息進(jìn)行交叉對(duì)比。

      AI系統(tǒng)配備了4種知識(shí)擴(kuò)展工具:谷歌文本搜索、谷歌圖片反向搜索、網(wǎng)頁(yè)內(nèi)容獲取和圖片下載。這些工具讓AI系統(tǒng)能夠像人類(lèi)研究者一樣,根據(jù)視覺(jué)線索進(jìn)行有針對(duì)性的信息檢索。

      真正的挑戰(zhàn)在于這兩個(gè)角色需要無(wú)縫協(xié)作。AI系統(tǒng)必須像一位經(jīng)驗(yàn)豐富的偵探,先通過(guò)視覺(jué)工具發(fā)現(xiàn)線索,然后用這些線索去搜索相關(guān)信息,再用搜索到的信息指導(dǎo)進(jìn)一步的視覺(jué)探索。這種iterative的過(guò)程需要AI系統(tǒng)具備高度的規(guī)劃能力和靈活的問(wèn)題解決策略。

      二、三個(gè)難度層級(jí):從簡(jiǎn)單觀察到復(fù)雜推理

      研究團(tuán)隊(duì)將任務(wù)按照復(fù)雜程度分為三個(gè)層級(jí),就像游戲中的初級(jí)、中級(jí)和專(zhuān)家模式。

      第一級(jí)別是"單步視覺(jué)操作",相當(dāng)于讓AI完成一個(gè)簡(jiǎn)單的視覺(jué)任務(wù)。比如在一張超市貨架的照片中,某個(gè)商品的價(jià)格標(biāo)簽可能因?yàn)榕臄z角度而顯得很小,AI需要準(zhǔn)確地裁剪出價(jià)格標(biāo)簽區(qū)域并放大,然后讀取價(jià)格信息。這個(gè)層級(jí)測(cè)試AI是否具備基本的視覺(jué)工具使用能力,就像測(cè)試一個(gè)人是否會(huì)正確使用放大鏡。

      第二級(jí)別是"多步驟工作流程",需要AI系統(tǒng)將視覺(jué)操作與知識(shí)搜索結(jié)合起來(lái)。舉個(gè)例子,AI看到一張建筑物的照片,需要先通過(guò)視覺(jué)工具識(shí)別出建筑物上的標(biāo)識(shí),然后通過(guò)網(wǎng)絡(luò)搜索查找這個(gè)建筑的相關(guān)信息,最后回答關(guān)于該建筑歷史或用途的問(wèn)題。這個(gè)層級(jí)測(cè)試AI是否能夠進(jìn)行簡(jiǎn)單的跨模態(tài)推理,類(lèi)似于讓一個(gè)人既要觀察又要查閱資料。

      第三級(jí)別是"高級(jí)協(xié)同問(wèn)題解決",這是最具挑戰(zhàn)性的任務(wù)類(lèi)型。這類(lèi)任務(wù)往往包含模糊的視覺(jué)線索,需要AI系統(tǒng)進(jìn)行假設(shè)-驗(yàn)證循環(huán)。比如,AI面對(duì)一個(gè)極其模糊的商標(biāo)圖像,需要先嘗試通過(guò)圖像處理技術(shù)提取可能的特征,然后基于這些不完整的信息進(jìn)行多次搜索嘗試,每次搜索的結(jié)果都會(huì)為下一輪視覺(jué)分析提供指導(dǎo),直到最終確定這個(gè)模糊商標(biāo)的真實(shí)身份。這個(gè)層級(jí)真正測(cè)試AI的綜合推理能力,就像要求一位專(zhuān)家解決現(xiàn)實(shí)世界中最復(fù)雜的問(wèn)題。

      特別有趣的是,研究團(tuán)隊(duì)在設(shè)計(jì)第三級(jí)別任務(wù)時(shí)采用了"模型在環(huán)后向設(shè)計(jì)"的方法。他們先讓最先進(jìn)的AI模型觀察原始圖像并描述其內(nèi)容,然后專(zhuān)門(mén)挑選模型遺漏或錯(cuò)誤描述的細(xì)節(jié)作為關(guān)鍵線索。這樣確保了任務(wù)確實(shí)需要主動(dòng)的視覺(jué)工具使用,而不能僅僅通過(guò)被動(dòng)觀察來(lái)解決。

      三、革命性的過(guò)程驗(yàn)證體系

      傳統(tǒng)的AI評(píng)估就像只看學(xué)生考試的最終得分,而不關(guān)心他們是如何解題的。這種評(píng)估方式存在嚴(yán)重問(wèn)題:AI系統(tǒng)可能因?yàn)?運(yùn)氣好"而猜對(duì)答案,也可能因?yàn)橐粋€(gè)小錯(cuò)誤而全功盡棄,盡管它的整體推理過(guò)程是正確的。

      Agentic-MME引入了雙軸過(guò)程驗(yàn)證體系,這是該研究最重要的創(chuàng)新之一。這個(gè)體系就像兩個(gè)專(zhuān)門(mén)的審查員,分別從不同角度檢查AI系統(tǒng)的每一個(gè)操作步驟。

      S軸審查員專(zhuān)門(mén)負(fù)責(zé)檢查"策略和工具執(zhí)行"。它會(huì)仔細(xì)審查AI系統(tǒng)是否在正確的時(shí)機(jī)使用了正確的搜索策略。比如,當(dāng)任務(wù)要求識(shí)別一個(gè)模糊的建筑物時(shí),S軸審查員會(huì)檢查AI系統(tǒng)是否提取了合適的搜索關(guān)鍵詞、是否訪問(wèn)了相關(guān)的網(wǎng)頁(yè)、是否從搜索結(jié)果中獲得了預(yù)期的信息。這個(gè)過(guò)程就像檢查一位研究員的文獻(xiàn)檢索過(guò)程是否專(zhuān)業(yè)和有效。

      V軸審查員則專(zhuān)門(mén)負(fù)責(zé)檢查"視覺(jué)證據(jù)驗(yàn)證"。它不僅要確認(rèn)AI系統(tǒng)是否使用了視覺(jué)工具,更重要的是要驗(yàn)證這些工具生成的中間圖像是否真正包含了所需的視覺(jué)信息。比如,如果AI系統(tǒng)聲稱(chēng)它裁剪了包含價(jià)格信息的區(qū)域,V軸審查員會(huì)實(shí)際檢查這個(gè)裁剪結(jié)果,確認(rèn)價(jià)格信息是否清晰可讀。這個(gè)過(guò)程就像實(shí)驗(yàn)室中的同行評(píng)議,要求提供可驗(yàn)證的證據(jù)。

      為了實(shí)現(xiàn)這種細(xì)致的過(guò)程驗(yàn)證,研究團(tuán)隊(duì)建立了超過(guò)2000個(gè)檢查點(diǎn),平均每個(gè)任務(wù)包含5個(gè)以上的中間驗(yàn)證步驟。每個(gè)檢查點(diǎn)都配有詳細(xì)的人工標(biāo)注,包括預(yù)期的操作意圖、應(yīng)該生成的中間結(jié)果,以及用于驗(yàn)證的具體問(wèn)題和標(biāo)準(zhǔn)答案。這種詳細(xì)程度前所未有,相當(dāng)于為每個(gè)任務(wù)創(chuàng)建了一份詳細(xì)的"標(biāo)準(zhǔn)作業(yè)程序"。

      更進(jìn)一步,研究團(tuán)隊(duì)還引入了"過(guò)度思考"懲罰機(jī)制。這個(gè)機(jī)制會(huì)比較AI系統(tǒng)的解題步驟數(shù)量與人類(lèi)專(zhuān)家的最優(yōu)解題路徑,對(duì)那些進(jìn)行了過(guò)多冗余操作的系統(tǒng)進(jìn)行扣分。這就像在考試中不僅要求答案正確,還要求解題過(guò)程簡(jiǎn)潔高效。

      四、統(tǒng)一評(píng)估框架:兼容不同的AI系統(tǒng)

      現(xiàn)實(shí)中的AI系統(tǒng)就像來(lái)自不同廠商的智能手機(jī),雖然功能類(lèi)似,但操作方式可能完全不同。有些AI系統(tǒng)擅長(zhǎng)編寫(xiě)代碼來(lái)處理圖像,有些則更適合使用預(yù)定義的工具接口。為了公平比較這些不同類(lèi)型的系統(tǒng),研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)統(tǒng)一的評(píng)估框架。

      這個(gè)框架支持兩種主要的交互模式。第一種是"代碼生成模式",AI系統(tǒng)可以編寫(xiě)Python代碼來(lái)處理圖像,就像一個(gè)程序員面對(duì)問(wèn)題時(shí)會(huì)編寫(xiě)定制化的解決方案。第二種是"原子工具模式",AI系統(tǒng)通過(guò)調(diào)用預(yù)定義的函數(shù)來(lái)完成任務(wù),就像使用標(biāo)準(zhǔn)化的工具箱。

      為了確保公平比較,研究團(tuán)隊(duì)開(kāi)發(fā)了復(fù)雜的標(biāo)準(zhǔn)化機(jī)制。對(duì)于代碼生成模式,他們使用抽象語(yǔ)法樹(shù)分析技術(shù),可以從AI系統(tǒng)生成的各種風(fēng)格的代碼中提取出標(biāo)準(zhǔn)化的操作序列。這就像有一位專(zhuān)業(yè)的翻譯員,能夠?qū)⒉煌幊田L(fēng)格的代碼翻譯成統(tǒng)一的操作描述。

      對(duì)于原子工具模式,框架提供了13種視覺(jué)操作工具和4種知識(shí)檢索工具的標(biāo)準(zhǔn)接口。每個(gè)工具都有詳細(xì)的參數(shù)規(guī)范和使用說(shuō)明,確保不同的AI系統(tǒng)都能正確理解和使用這些工具。

      更重要的是,評(píng)估框架還處理了許多技術(shù)細(xì)節(jié)問(wèn)題。比如,不同AI系統(tǒng)生成的圖像可能采用不同的文件格式或命名約定,框架會(huì)自動(dòng)進(jìn)行標(biāo)準(zhǔn)化處理。對(duì)于網(wǎng)絡(luò)搜索結(jié)果,框架支持緩存和重放功能,確保相同的搜索查詢總是返回一致的結(jié)果,避免因網(wǎng)絡(luò)內(nèi)容變化而影響評(píng)估的一致性。

      五、令人意外的實(shí)驗(yàn)結(jié)果

      研究團(tuán)隊(duì)對(duì)多個(gè)最先進(jìn)的AI系統(tǒng)進(jìn)行了全面測(cè)試,結(jié)果讓人大開(kāi)眼界。即使是目前表現(xiàn)最好的AI系統(tǒng),在這個(gè)新的評(píng)估標(biāo)準(zhǔn)下也顯得相當(dāng)"笨拙"。

      最優(yōu)秀的AI系統(tǒng)Gemini-3 Pro在整體任務(wù)中只達(dá)到了56.3%的準(zhǔn)確率,而在最困難的第三級(jí)別任務(wù)中,準(zhǔn)確率驟降至33.3%。這個(gè)結(jié)果特別有意思,因?yàn)橥瑯邮荊emini-3 Pro,在傳統(tǒng)的被動(dòng)觀察模式下,第一級(jí)別任務(wù)能達(dá)到42.9%的準(zhǔn)確率,但在第三級(jí)別任務(wù)中只有7.5%。這說(shuō)明工具的使用確實(shí)能顯著提升AI的問(wèn)題解決能力,但距離人類(lèi)水平還有很大差距。人類(lèi)專(zhuān)家在相同任務(wù)上的平均準(zhǔn)確率達(dá)到了93.8%,即使在最困難的第三級(jí)別任務(wù)中也能保持82.3%的高準(zhǔn)確率。

      更有趣的是開(kāi)源AI系統(tǒng)與閉源商業(yè)系統(tǒng)之間的巨大差距。開(kāi)源系統(tǒng)如Qwen3 VL-235B在第三級(jí)別任務(wù)中的準(zhǔn)確率只有10.1%,而一些開(kāi)源系統(tǒng)甚至在搜索策略方面幾乎完全失敗,S軸得分低于5%。這表明當(dāng)前開(kāi)源AI系統(tǒng)雖然能夠?qū)W會(huì)調(diào)用工具,但在復(fù)雜的多步推理和搜索規(guī)劃方面還需要大幅改進(jìn)。

      研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)反直覺(jué)的現(xiàn)象:結(jié)構(gòu)化的工具接口(原子工具模式)普遍比代碼生成模式表現(xiàn)更好。這可能是因?yàn)榇a生成對(duì)AI系統(tǒng)提出了更高的認(rèn)知要求:不僅要理解問(wèn)題,還要處理編程語(yǔ)法、管理文件輸入輸出、處理錯(cuò)誤恢復(fù)等技術(shù)細(xì)節(jié)。但代碼生成模式也展現(xiàn)出獨(dú)特優(yōu)勢(shì):它可以進(jìn)行任意復(fù)雜的操作組合,不受預(yù)定義工具的限制。

      另一個(gè)值得注意的發(fā)現(xiàn)是AI系統(tǒng)在工具使用方面的"急躁"行為。許多AI系統(tǒng)頻繁調(diào)用視覺(jué)工具,但生成的中間結(jié)果往往質(zhì)量很差。比如,某個(gè)AI系統(tǒng)可能會(huì)正確地識(shí)別需要裁剪某個(gè)區(qū)域,但實(shí)際裁剪的位置完全錯(cuò)誤,導(dǎo)致浪費(fèi)了交互次數(shù)卻沒(méi)有獲得有用信息。

      六、細(xì)致的錯(cuò)誤分析揭示關(guān)鍵瓶頸

      研究團(tuán)隊(duì)對(duì)AI系統(tǒng)的失敗案例進(jìn)行了詳細(xì)分析,發(fā)現(xiàn)了七種主要的錯(cuò)誤模式,就像醫(yī)生診斷病人時(shí)要區(qū)分不同的病因一樣。

      最常見(jiàn)的問(wèn)題是"行動(dòng)消極",占所有錯(cuò)誤的約50%。這類(lèi)AI系統(tǒng)面對(duì)需要主動(dòng)操作的任務(wù)時(shí),往往選擇直接從原始圖像猜測(cè)答案,而不愿意使用可用的工具。這就像一個(gè)學(xué)生面對(duì)開(kāi)卷考試時(shí),明明可以查閱資料,卻堅(jiān)持憑記憶答題。

      第二常見(jiàn)的問(wèn)題是"過(guò)度思考陷阱",特別影響那些較為先進(jìn)的AI系統(tǒng)。這些系統(tǒng)會(huì)陷入重復(fù)的工具調(diào)用循環(huán)中,不斷嘗試相似的操作,卻無(wú)法從中間結(jié)果中學(xué)習(xí)和調(diào)整策略。這種行為類(lèi)似于一個(gè)人在解謎時(shí),明明已經(jīng)嘗試了某種方法不可行,卻反復(fù)嘗試相似的方法。

      第三個(gè)重要問(wèn)題是"不忠實(shí)的工具使用"。AI系統(tǒng)雖然會(huì)調(diào)用工具,但調(diào)用方式不當(dāng),比如裁剪了錯(cuò)誤的區(qū)域或使用了不合適的圖像處理參數(shù)。這就像一個(gè)人知道要使用放大鏡,卻把放大鏡放在了錯(cuò)誤的位置。

      有趣的是,不同難度級(jí)別的任務(wù)展現(xiàn)出不同的錯(cuò)誤模式分布。在簡(jiǎn)單任務(wù)中,"行動(dòng)消極"是主要問(wèn)題;而在復(fù)雜任務(wù)中,"搜索策略失誤"和"工具使用不當(dāng)"變得更加突出。這表明AI系統(tǒng)在不同認(rèn)知負(fù)荷下會(huì)表現(xiàn)出不同類(lèi)型的局限性。

      研究團(tuán)隊(duì)還發(fā)現(xiàn),代碼生成模式容易出現(xiàn)"工具執(zhí)行錯(cuò)誤",比如語(yǔ)法錯(cuò)誤、運(yùn)行時(shí)異常等低層次問(wèn)題。而原子工具模式則更多地在高層次規(guī)劃方面出現(xiàn)問(wèn)題。這個(gè)對(duì)比提供了關(guān)于如何改進(jìn)不同類(lèi)型AI系統(tǒng)的重要洞察。

      七、驗(yàn)證研究的嚴(yán)謹(jǐn)性

      為了確保這項(xiàng)基準(zhǔn)測(cè)試真正有效,研究團(tuán)隊(duì)進(jìn)行了多項(xiàng)驗(yàn)證實(shí)驗(yàn),就像藥物試驗(yàn)需要對(duì)照組一樣嚴(yán)謹(jǐn)。

      首先,他們測(cè)試了圖像內(nèi)容是否是任務(wù)解決的必要條件。當(dāng)研究團(tuán)隊(duì)移除所有圖像,只保留文字問(wèn)題時(shí),AI系統(tǒng)的準(zhǔn)確率幾乎降至零(最好的系統(tǒng)也只有不到3%的準(zhǔn)確率)。這證明任務(wù)確實(shí)需要視覺(jué)信息,不存在"數(shù)據(jù)泄露"問(wèn)題。

      接著,他們驗(yàn)證了主動(dòng)工具使用的必要性。研究團(tuán)隊(duì)比較了四種設(shè)置:純被動(dòng)觀察、僅使用圖像工具、僅使用搜索工具,以及同時(shí)使用兩類(lèi)工具。結(jié)果顯示,在最困難的任務(wù)中,僅使用圖像工具甚至?xí)档托阅埽瑑H使用搜索工具只能帶來(lái)微小改進(jìn),但兩者結(jié)合使用時(shí)效果顯著提升。這證明了任務(wù)設(shè)計(jì)的合理性:真正困難的問(wèn)題確實(shí)需要視覺(jué)操作與知識(shí)搜索的協(xié)同作用。

      研究團(tuán)隊(duì)還進(jìn)行了"神諭指導(dǎo)"實(shí)驗(yàn),這是一個(gè)特別巧妙的驗(yàn)證方法。他們逐步向AI系統(tǒng)提供人工標(biāo)注的中間結(jié)果,觀察性能如何改善。結(jié)果顯示,當(dāng)提供正確的中間視覺(jué)證據(jù)時(shí),AI系統(tǒng)性能有所改善;當(dāng)進(jìn)一步提供完整的步驟指導(dǎo)時(shí),性能大幅提升。但即使在這種"開(kāi)掛"模式下,AI系統(tǒng)在最困難任務(wù)上的表現(xiàn)仍然沒(méi)有接近完美,這說(shuō)明連續(xù)執(zhí)行和規(guī)劃仍然是重大挑戰(zhàn)。

      為了驗(yàn)證評(píng)估的一致性,研究團(tuán)隊(duì)使用了三個(gè)不同的AI裁判系統(tǒng),并與人類(lèi)專(zhuān)家的評(píng)估進(jìn)行了對(duì)比。結(jié)果顯示各個(gè)評(píng)估者之間的一致性很高,這證明了評(píng)估方法的可靠性。

      八、對(duì)AI發(fā)展的深遠(yuǎn)影響

      這項(xiàng)研究不僅提供了一個(gè)新的評(píng)估工具,更重要的是揭示了當(dāng)前AI系統(tǒng)的根本性局限。傳統(tǒng)評(píng)估就像只測(cè)試學(xué)生的閱讀理解能力,而忽視了他們的動(dòng)手實(shí)踐和資料檢索能力。Agentic-MME的出現(xiàn),就像為AI評(píng)估引入了實(shí)驗(yàn)課和開(kāi)卷考試,更全面地反映了智能系統(tǒng)在現(xiàn)實(shí)世界中的能力。

      研究結(jié)果表明,盡管當(dāng)前的大語(yǔ)言模型在知識(shí)儲(chǔ)備方面已經(jīng)相當(dāng)豐富,但在主動(dòng)問(wèn)題解決和工具協(xié)調(diào)使用方面還存在顯著不足。這個(gè)發(fā)現(xiàn)對(duì)AI發(fā)展方向具有重要指導(dǎo)意義:僅僅增加模型參數(shù)和訓(xùn)練數(shù)據(jù)可能不足以實(shí)現(xiàn)真正的智能,還需要專(zhuān)門(mén)訓(xùn)練模型的規(guī)劃能力、工具使用技巧和多步推理能力。

      特別值得注意的是開(kāi)源AI系統(tǒng)與商業(yè)系統(tǒng)之間的巨大差距。這表明簡(jiǎn)單的模型架構(gòu)復(fù)制可能無(wú)法達(dá)到先進(jìn)系統(tǒng)的性能水平,還需要在訓(xùn)練方法、數(shù)據(jù)處理和系統(tǒng)優(yōu)化等方面進(jìn)行深入研究。

      這項(xiàng)研究還為AI系統(tǒng)的訓(xùn)練提供了新的思路。傳統(tǒng)的AI訓(xùn)練主要關(guān)注最終答案的正確性,而過(guò)程驗(yàn)證體系表明,訓(xùn)練AI系統(tǒng)的中間推理步驟可能同樣重要。未來(lái)的AI訓(xùn)練可能需要更多地關(guān)注"如何思考"而不僅僅是"思考什么"。

      研究團(tuán)隊(duì)公開(kāi)了完整的數(shù)據(jù)集、評(píng)估工具和基準(zhǔn)測(cè)試代碼,這為整個(gè)AI研究社區(qū)提供了寶貴的資源。這種開(kāi)放式的研究方法將加速相關(guān)領(lǐng)域的發(fā)展,幫助研究者更好地理解和改進(jìn)AI系統(tǒng)的多模態(tài)推理能力。

      說(shuō)到底,這項(xiàng)研究就像為AI系統(tǒng)設(shè)立了一面更準(zhǔn)確的鏡子,讓我們看清現(xiàn)有技術(shù)的真實(shí)水平。雖然結(jié)果顯示AI系統(tǒng)距離人類(lèi)水平還有很大差距,但這恰恰為未來(lái)的研究指明了方向。正如研究團(tuán)隊(duì)所指出的,真正的多模態(tài)智能不僅要能看懂圖像和理解語(yǔ)言,更要能像人類(lèi)專(zhuān)家一樣主動(dòng)探索、驗(yàn)證假設(shè)、協(xié)調(diào)不同信息源來(lái)解決復(fù)雜問(wèn)題。這個(gè)目標(biāo)雖然仍然充滿挑戰(zhàn),但Agentic-MME為我們提供了衡量進(jìn)展的可靠標(biāo)尺,這本身就是向真正智能AI邁出的重要一步。

      Q&A

      Q1:Agentic-MME基準(zhǔn)測(cè)試與傳統(tǒng)AI評(píng)估有什么本質(zhì)區(qū)別?

      A:傳統(tǒng)AI評(píng)估只讓AI被動(dòng)觀察圖像然后回答問(wèn)題,就像讓學(xué)生只看教科書(shū)封面就答題。而Agentic-MME要求AI主動(dòng)使用工具,既要像偵探一樣用放大鏡等工具仔細(xì)觀察現(xiàn)場(chǎng)細(xì)節(jié),又要像研究員一樣查閱資料驗(yàn)證信息,最后綜合所有線索得出答案。這種評(píng)估更接近人類(lèi)解決現(xiàn)實(shí)問(wèn)題的方式。

      Q2:為什么最先進(jìn)的AI系統(tǒng)在Agentic-MME上表現(xiàn)不佳?

      A:最好的AI系統(tǒng)Gemini-3 Pro整體準(zhǔn)確率只有56.3%,在最難任務(wù)上只有33.3%,而人類(lèi)專(zhuān)家能達(dá)到93.8%。主要原因是AI系統(tǒng)缺乏有效的多步規(guī)劃能力,經(jīng)常在錯(cuò)誤的地方使用工具,或者陷入重復(fù)操作的循環(huán)中,無(wú)法像人類(lèi)一樣靈活協(xié)調(diào)視覺(jué)觀察和知識(shí)搜索。

      Q3:Agentic-MME的過(guò)程驗(yàn)證體系是如何工作的?

      A:它使用雙軸驗(yàn)證系統(tǒng),就像兩個(gè)專(zhuān)門(mén)審查員。S軸檢查AI的搜索策略是否正確,比如是否用了合適的關(guān)鍵詞、找到了相關(guān)信息。V軸檢查AI使用視覺(jué)工具的效果,驗(yàn)證裁剪或處理后的圖像是否真正包含所需信息。每個(gè)任務(wù)平均有5個(gè)以上的檢查點(diǎn),確保每一步操作都經(jīng)過(guò)驗(yàn)證。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      重慶撒潑“毒母女”一夜全國(guó)出名,誰(shuí)看了不喊一句離譜!

      重慶撒潑“毒母女”一夜全國(guó)出名,誰(shuí)看了不喊一句離譜!

      脆皮先生
      2026-04-19 19:37:38
      以色列這3年:猶太人對(duì)世界最大的貢獻(xiàn),是斷了所有人的念想

      以色列這3年:猶太人對(duì)世界最大的貢獻(xiàn),是斷了所有人的念想

      未來(lái)展望
      2026-04-21 22:05:21
      安徽機(jī)電工程學(xué)校黨委書(shū)記王其昌接受審查調(diào)查

      安徽機(jī)電工程學(xué)校黨委書(shū)記王其昌接受審查調(diào)查

      界面新聞
      2026-04-21 17:21:50
      何潔自曝養(yǎng)家艱難,40歲斷崖式衰老?明明一手好牌,為何被打爛

      何潔自曝養(yǎng)家艱難,40歲斷崖式衰老?明明一手好牌,為何被打爛

      扒點(diǎn)半吃瓜
      2026-03-10 07:00:13
      謝杏芳沒(méi)想到,林丹出軌9年后,竟會(huì)因這一舉動(dòng),實(shí)現(xiàn)口碑逆轉(zhuǎn)

      謝杏芳沒(méi)想到,林丹出軌9年后,竟會(huì)因這一舉動(dòng),實(shí)現(xiàn)口碑逆轉(zhuǎn)

      科學(xué)發(fā)掘
      2026-04-21 12:50:46
      北青:亞足聯(lián)認(rèn)定馬寧亞冠精英聯(lián)賽1/4決賽執(zhí)法無(wú)錯(cuò)漏判

      北青:亞足聯(lián)認(rèn)定馬寧亞冠精英聯(lián)賽1/4決賽執(zhí)法無(wú)錯(cuò)漏判

      懂球帝
      2026-04-21 20:08:02
      馬寧不孤單 亞冠名哨離譜吹掉2球 遭西亞球員圍堵追著罵 多人染紅

      馬寧不孤單 亞冠名哨離譜吹掉2球 遭西亞球員圍堵追著罵 多人染紅

      我愛(ài)英超
      2026-04-22 07:47:36
      阿聯(lián)酋這次站隊(duì)更是讓全世界看清楚了,誰(shuí)是麻煩的制造者!

      阿聯(lián)酋這次站隊(duì)更是讓全世界看清楚了,誰(shuí)是麻煩的制造者!

      健身狂人
      2026-04-22 06:30:38
      43歲男子和富婆車(chē)震后,富婆還想要更多,2016年他將51歲富婆殺死

      43歲男子和富婆車(chē)震后,富婆還想要更多,2016年他將51歲富婆殺死

      漢史趣聞
      2026-04-06 19:17:12
      19歲男子KTV上班,三名女孩來(lái)喝酒,男子下體過(guò)度使用成永久創(chuàng)傷

      19歲男子KTV上班,三名女孩來(lái)喝酒,男子下體過(guò)度使用成永久創(chuàng)傷

      丫頭舫
      2025-09-22 20:39:00
      3年前就戳穿西貝預(yù)制菜沒(méi)人信,如今被實(shí)錘!這個(gè)探店博主藏得太深了

      3年前就戳穿西貝預(yù)制菜沒(méi)人信,如今被實(shí)錘!這個(gè)探店博主藏得太深了

      馬蹄燙嘴說(shuō)美食
      2026-04-15 18:29:48
      300萬(wàn)張票投出回憶殺!農(nóng)夫山泉復(fù)活下架老飲品,炒到天價(jià)的“紅色尖叫”被返場(chǎng)

      300萬(wàn)張票投出回憶殺!農(nóng)夫山泉復(fù)活下架老飲品,炒到天價(jià)的“紅色尖叫”被返場(chǎng)

      消費(fèi)者報(bào)道
      2026-04-21 20:01:30
      近四成中國(guó)網(wǎng)民手機(jī)裝AI,豆包月活逼近3.5億,元寶跌出前三,Kimi、智譜為何“掉隊(duì)”?|2026年一季度AI應(yīng)用價(jià)值榜

      近四成中國(guó)網(wǎng)民手機(jī)裝AI,豆包月活逼近3.5億,元寶跌出前三,Kimi、智譜為何“掉隊(duì)”?|2026年一季度AI應(yīng)用價(jià)值榜

      每日經(jīng)濟(jì)新聞
      2026-04-21 23:08:15
      菲律賓有點(diǎn)不對(duì)勁:軍演一開(kāi)場(chǎng),街頭先炸了

      菲律賓有點(diǎn)不對(duì)勁:軍演一開(kāi)場(chǎng),街頭先炸了

      陸棄
      2026-04-21 09:01:07
      中國(guó)戰(zhàn)艦坦蕩過(guò)航這條水道,釋放什么信號(hào)?

      中國(guó)戰(zhàn)艦坦蕩過(guò)航這條水道,釋放什么信號(hào)?

      補(bǔ)壹刀
      2026-04-21 14:06:24
      高市早苗下令后,美國(guó)準(zhǔn)時(shí)發(fā)話,日本扭頭:向中國(guó)提出訪華請(qǐng)求

      高市早苗下令后,美國(guó)準(zhǔn)時(shí)發(fā)話,日本扭頭:向中國(guó)提出訪華請(qǐng)求

      面包夾知識(shí)
      2026-04-21 19:23:47
      掛羊頭賣(mài)狗肉!《八千里路云和月》越看越離譜,于和偉也救不了

      掛羊頭賣(mài)狗肉!《八千里路云和月》越看越離譜,于和偉也救不了

      悅君兮君不知
      2026-04-21 23:09:42
      東北沒(méi)有黑幫,只有“刀槍炮”:一場(chǎng)對(duì)香港百年社團(tuán)的降維打擊

      東北沒(méi)有黑幫,只有“刀槍炮”:一場(chǎng)對(duì)香港百年社團(tuán)的降維打擊

      黃麗搞笑小能手
      2026-04-15 06:27:15
      張敬軒被抵制升級(jí)!霍汶希惹火上身容祖兒被殃及!謝霆鋒瑟瑟發(fā)抖

      張敬軒被抵制升級(jí)!霍汶希惹火上身容祖兒被殃及!謝霆鋒瑟瑟發(fā)抖

      小娛樂(lè)悠悠
      2026-04-22 09:23:36
      錢(qián)和性,可看透一個(gè)人的本質(zhì)

      錢(qián)和性,可看透一個(gè)人的本質(zhì)

      加油丁小文
      2026-03-18 05:00:03
      2026-04-22 10:20:49
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      8088文章數(shù) 562關(guān)注度
      往期回顧 全部

      科技要聞

      凌晨突發(fā)!ChatGPT Images 2.0發(fā)布

      頭條要聞

      牛彈琴:伊朗發(fā)出讓人毛骨悚然的警告 玩的就是心跳

      頭條要聞

      牛彈琴:伊朗發(fā)出讓人毛骨悚然的警告 玩的就是心跳

      體育要聞

      一到NBA季后賽,四屆DPOY就成了主角

      娛樂(lè)要聞

      宋承炫曬寶寶B超照,宣布老婆懷孕

      財(cái)經(jīng)要聞

      伊朗拒絕出席 特朗普宣布延長(zhǎng)停火期限

      汽車(chē)要聞

      全新坦克700正式上市 售價(jià)42.8萬(wàn)-50.8萬(wàn)元

      態(tài)度原創(chuàng)

      房產(chǎn)
      健康
      手機(jī)
      教育
      軍事航空

      房產(chǎn)要聞

      年薪40-50萬(wàn)!海南地產(chǎn)圈還在猛招人

      干細(xì)胞抗衰4大誤區(qū),90%的人都中招

      手機(jī)要聞

      摩托羅拉Razr 2026(Razr 70)折疊手機(jī)4月29日美國(guó)發(fā)布

      教育要聞

      英國(guó)留學(xué)生人數(shù)暴跌31%,到底發(fā)生了什么?

      軍事要聞

      特朗普宣布延長(zhǎng)停火 伊朗表態(tài)

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版