網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

人大與OPPO研究院DISBench：AI實(shí)現(xiàn)視覺(jué)記憶線索偵探式檢索

2026-02-26 19:28:11　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由中國(guó)人民大學(xué)高瓴人工智能學(xué)院聯(lián)合OPPO研究院共同完成的研究發(fā)表于2026年2月，論文編號(hào)為arXiv:2602.10809v1。研究團(tuán)隊(duì)開(kāi)發(fā)了一種全新的圖像搜索方式，讓計(jì)算機(jī)能夠像人類一樣在大量照片中進(jìn)行推理和關(guān)聯(lián)思考，而不是簡(jiǎn)單地匹配表面特征。

回想一下你在手機(jī)相冊(cè)中找照片的經(jīng)歷。當(dāng)你想找"那張?jiān)谒{(lán)白色標(biāo)志音樂(lè)節(jié)上只有主唱在臺(tái)上的照片"時(shí)，你可能記得那個(gè)特殊的標(biāo)志，但具體的音樂(lè)節(jié)照片可能有很多張。人類的大腦會(huì)自然地將這些信息連接起來(lái)：先找到有藍(lán)白標(biāo)志的照片確定是哪場(chǎng)音樂(lè)節(jié)，然后在那場(chǎng)音樂(lè)節(jié)的照片中尋找只有主唱的畫(huà)面。然而，現(xiàn)有的圖像搜索系統(tǒng)卻無(wú)法進(jìn)行這樣的"推理"，它們只會(huì)機(jī)械地尋找與關(guān)鍵詞最相似的圖片。

研究團(tuán)隊(duì)發(fā)現(xiàn)了傳統(tǒng)圖像搜索的根本局限：它們把每張圖片當(dāng)作孤立的個(gè)體來(lái)評(píng)判，就像一個(gè)人失去了記憶，只能看到眼前的事物，卻無(wú)法將不同時(shí)間、不同地點(diǎn)發(fā)生的事情聯(lián)系起來(lái)。這種方法在處理復(fù)雜查詢時(shí)就會(huì)陷入困境，因?yàn)楹芏嗾掌囊饬x需要結(jié)合其拍攝的背景、時(shí)間和關(guān)聯(lián)事件才能理解。

為了解決這個(gè)問(wèn)題，研究團(tuán)隊(duì)提出了一個(gè)革命性的解決方案：DeepImageSearch。這個(gè)系統(tǒng)不再是簡(jiǎn)單的圖片匹配器，而更像是一個(gè)經(jīng)驗(yàn)豐富的偵探。當(dāng)面對(duì)復(fù)雜的搜索任務(wù)時(shí)，它會(huì)制定搜索策略，使用各種"偵查工具"，在照片之間尋找線索和關(guān)聯(lián)，最終找到正確答案。

一、傳統(tǒng)搜索的困境：為什么簡(jiǎn)單匹配不夠用

現(xiàn)在的圖像搜索就像一個(gè)只會(huì)按圖索驥的機(jī)器人。你給它看一個(gè)蘋果的圖片，它就在數(shù)據(jù)庫(kù)中找到所有看起來(lái)像蘋果的圖片，然后按相似度排序給你。這種方法在處理簡(jiǎn)單需求時(shí)確實(shí)很有效，比如"找一張黃貓的照片"，系統(tǒng)可以輕松識(shí)別顏色和動(dòng)物特征。

但是生活中的搜索需求往往復(fù)雜得多。比如你可能會(huì)說(shuō)："找到那個(gè)穿著34號(hào)球衣的冰球運(yùn)動(dòng)員的照片，這個(gè)號(hào)碼是NBA球星沙奎爾·奧尼爾獲得總決賽最有價(jià)值球員獎(jiǎng)時(shí)穿的球衣號(hào)碼。"這個(gè)查詢包含了多層信息：你需要先知道奧尼爾的獲獎(jiǎng)球衣號(hào)碼是34，然后再找到穿34號(hào)球衣的冰球運(yùn)動(dòng)員。傳統(tǒng)系統(tǒng)面對(duì)這樣的查詢就徹底懵了，因?yàn)樗鼰o(wú)法進(jìn)行這種跨領(lǐng)域的知識(shí)推理。

更復(fù)雜的情況出現(xiàn)在個(gè)人照片集中。假設(shè)你有幾年的旅行照片，現(xiàn)在想找"在看到煙花表演兩天后在海灘拍攝的所有帶海景的照片"。這個(gè)需求包含了時(shí)間推理（兩天后）、地點(diǎn)推理（海灘）和內(nèi)容判斷（帶海景）。傳統(tǒng)搜索無(wú)法處理這種需要在時(shí)間線上跳躍并建立因果關(guān)系的查詢。

問(wèn)題的根源在于傳統(tǒng)系統(tǒng)采用的是"原子化"思維：每張圖片都是獨(dú)立的原子，系統(tǒng)只能評(píng)判單個(gè)原子與查詢的匹配程度。但人類的記憶是網(wǎng)絡(luò)化的，每個(gè)記憶片段都與其他片段有著千絲萬(wàn)縷的聯(lián)系。一張照片的意義往往需要結(jié)合拍攝時(shí)間、地點(diǎn)、前后事件才能完全理解。

研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)驗(yàn)證了這個(gè)判斷。他們用最先進(jìn)的圖像搜索模型在復(fù)雜查詢上進(jìn)行測(cè)試，結(jié)果發(fā)現(xiàn)這些模型的召回率只有10-14%，而且這些"正確"結(jié)果大多是碰運(yùn)氣找到的，因?yàn)椴樵冊(cè)~恰好與圖片表面特征匹配。當(dāng)需要真正的推理時(shí)，傳統(tǒng)方法幾乎完全失效。

二、偵探式搜索：讓AI學(xué)會(huì)推理和探索

研究團(tuán)隊(duì)設(shè)計(jì)的DeepImageSearch系統(tǒng)就像訓(xùn)練了一個(gè)專業(yè)偵探來(lái)處理圖像搜索任務(wù)。這個(gè)"偵探"不會(huì)急于給出答案，而是會(huì)仔細(xì)分析線索，制定調(diào)查計(jì)劃，使用各種工具收集證據(jù)，最終得出結(jié)論。

這個(gè)AI偵探擁有一整套專業(yè)工具箱。ImageSearch工具就像一個(gè)高級(jí)的圖像比對(duì)設(shè)備，可以根據(jù)文字描述或參考圖片找到相似的照片。GetMetadata工具像是一個(gè)詳細(xì)的檔案系統(tǒng)，能夠查詢每張照片的拍攝時(shí)間、地點(diǎn)等信息。FilterMetadata工具則像一個(gè)強(qiáng)大的篩選器，可以按照時(shí)間范圍、地理位置等條件過(guò)濾照片。ViewPhotos工具讓偵探能夠仔細(xì)查看照片細(xì)節(jié)，就像用放大鏡檢查證據(jù)一樣。

更有趣的是，這個(gè)AI偵探還有記憶系統(tǒng)。在長(zhǎng)時(shí)間的調(diào)查過(guò)程中，它會(huì)將重要發(fā)現(xiàn)存儲(chǔ)在"案件檔案"中，避免遺忘關(guān)鍵線索。當(dāng)信息量過(guò)大時(shí)，系統(tǒng)會(huì)自動(dòng)整理記憶，保留最重要的發(fā)現(xiàn)和當(dāng)前的調(diào)查方向，確保推理過(guò)程不會(huì)因?yàn)樾畔⑦^(guò)載而中斷。

讓我們看一個(gè)具體的例子來(lái)理解這個(gè)過(guò)程。假設(shè)有人問(wèn)："找到那個(gè)非石膏雕像的所有照片，這個(gè)雕像在半年內(nèi)的不同旅行中被拍攝過(guò)兩次。"傳統(tǒng)系統(tǒng)面對(duì)這個(gè)查詢會(huì)完全無(wú)從下手，因?yàn)樗鼰o(wú)法理解什么是"同一個(gè)雕像在不同旅行中的重復(fù)出現(xiàn)"。

但AI偵探會(huì)這樣工作：首先，它使用ImageSearch工具搜索所有包含雕像的照片。然后，它會(huì)仔細(xì)檢查這些照片，識(shí)別出哪些是非石膏材質(zhì)的。接下來(lái)，它會(huì)使用GetMetadata工具查詢這些照片的拍攝時(shí)間和地點(diǎn)，找出在半年內(nèi)拍攝的候選照片。最關(guān)鍵的步驟來(lái)了：它會(huì)比較這些候選照片中的雕像，判斷哪些實(shí)際上是同一個(gè)雕像在不同地點(diǎn)的拍攝。最后，它會(huì)驗(yàn)證這些照片確實(shí)來(lái)自不同的旅行（通過(guò)時(shí)間和地點(diǎn)信息），并返回所有符合條件的照片。

這種方法的強(qiáng)大之處在于，它能夠處理人類記憶的模糊性和復(fù)雜性。人們?cè)谒阉鲿r(shí)往往只記得部分信息，比如"那個(gè)有特殊標(biāo)志的活動(dòng)"或"在某某之后的幾天"。AI偵探能夠利用這些不完整的線索，通過(guò)推理和探索找到完整的答案。

三、構(gòu)建推理訓(xùn)練場(chǎng)：DISBench測(cè)試集的誕生

為了訓(xùn)練和測(cè)試這種新型的AI偵探，研究團(tuán)隊(duì)面臨一個(gè)巨大挑戰(zhàn)：如何創(chuàng)建足夠復(fù)雜和真實(shí)的測(cè)試案例。傳統(tǒng)的圖像搜索測(cè)試集都是簡(jiǎn)單的"找蘋果"、"找貓"這類直接匹配任務(wù)，根本無(wú)法評(píng)估復(fù)雜推理能力。

創(chuàng)建復(fù)雜推理任務(wù)的測(cè)試集就像編寫(xiě)精巧的偵探小說(shuō)。每個(gè)案例都需要精心設(shè)計(jì)的線索鏈條，目標(biāo)答案不能通過(guò)簡(jiǎn)單觀察得出，必須通過(guò)多步推理才能找到。但是，人工設(shè)計(jì)這樣的案例需要研究人員在數(shù)萬(wàn)張照片中尋找潛在的關(guān)聯(lián)，這幾乎是不可能完成的任務(wù)。

研究團(tuán)隊(duì)想出了一個(gè)巧妙的解決方案：讓AI來(lái)幫助發(fā)現(xiàn)這些隱藏的關(guān)聯(lián)。他們開(kāi)發(fā)了一個(gè)半自動(dòng)化的"線索挖掘"系統(tǒng)。這個(gè)系統(tǒng)首先使用視覺(jué)語(yǔ)言模型分析每張照片，提取其中的關(guān)鍵視覺(jué)元素，比如特殊的建筑、獨(dú)特的物品、可識(shí)別的標(biāo)識(shí)等。然后，系統(tǒng)會(huì)在整個(gè)照片集中尋找這些元素的重現(xiàn)，發(fā)現(xiàn)跨越時(shí)間和空間的關(guān)聯(lián)。

這個(gè)過(guò)程就像一個(gè)超級(jí)偵探在案發(fā)現(xiàn)場(chǎng)收集所有可能的線索。AI會(huì)注意到照片中的每一個(gè)細(xì)節(jié)：墻上的海報(bào)、桌上的杯子、遠(yuǎn)處的建筑、人物的服裝等等。然后它會(huì)在數(shù)千張照片中尋找這些元素的其他出現(xiàn)，建立起一個(gè)復(fù)雜的關(guān)聯(lián)網(wǎng)絡(luò)。

但AI發(fā)現(xiàn)的關(guān)聯(lián)并不都是有意義的。有時(shí)它可能會(huì)認(rèn)為兩個(gè)完全不同的物品是同一個(gè)，或者發(fā)現(xiàn)一些純粹的巧合。因此，研究團(tuán)隊(duì)還需要人類專家來(lái)驗(yàn)證這些關(guān)聯(lián)。七名具有碩士以上學(xué)歷的計(jì)算機(jī)科學(xué)專業(yè)人員組成了驗(yàn)證團(tuán)隊(duì)，他們使用專門設(shè)計(jì)的界面仔細(xì)檢查每個(gè)AI發(fā)現(xiàn)的關(guān)聯(lián)，確認(rèn)其真實(shí)性和意義。

經(jīng)過(guò)這個(gè)嚴(yán)格的篩選過(guò)程，研究團(tuán)隊(duì)從2000個(gè)AI生成的候選案例中最終保留了122個(gè)高質(zhì)量的推理任務(wù)。這些任務(wù)涵蓋了兩種主要類型：事件內(nèi)推理和跨事件推理。

事件內(nèi)推理就像在一個(gè)聚會(huì)的照片中尋找特定場(chǎng)景。比如："找到那個(gè)有藍(lán)白標(biāo)志音樂(lè)節(jié)中只有主唱在臺(tái)上的照片。"AI偵探需要先通過(guò)標(biāo)志找到正確的音樂(lè)節(jié)，然后在該音樂(lè)節(jié)的照片中找到符合條件的畫(huà)面。

跨事件推理則更加復(fù)雜，需要在不同的時(shí)間和地點(diǎn)之間建立聯(lián)系。比如："找到那個(gè)在半年內(nèi)不同旅行中都拍到的非石膏雕像的所有照片。"這需要AI在時(shí)間線上搜索，比較不同地點(diǎn)的照片，識(shí)別相同的物體，驗(yàn)證時(shí)間間隔等多個(gè)步驟。

最終的DISBench包含了來(lái)自57個(gè)用戶的109,467張照片，時(shí)間跨度平均為3.4年。每個(gè)查詢平均對(duì)應(yīng)3.84張目標(biāo)照片，而AI需要在不知道答案數(shù)量的情況下找到所有正確答案。這個(gè)測(cè)試集的難度在于，所有的目標(biāo)照片在視覺(jué)上都有很強(qiáng)的迷惑性，必須通過(guò)上下文推理才能準(zhǔn)確識(shí)別。

四、AI偵探的實(shí)戰(zhàn)表現(xiàn)：令人意外的發(fā)現(xiàn)

當(dāng)研究團(tuán)隊(duì)用最先進(jìn)的AI模型來(lái)測(cè)試DISBench時(shí)，結(jié)果令人震驚。即使是目前最強(qiáng)大的模型Claude-Opus-4.5，在這個(gè)測(cè)試集上的完全正確率（需要找到所有正確答案且無(wú)錯(cuò)誤答案）也只有28.7%。這個(gè)成績(jī)遠(yuǎn)遠(yuǎn)低于這些模型在傳統(tǒng)圖像搜索任務(wù)上接近完美的表現(xiàn)。

更有趣的發(fā)現(xiàn)是，模型在兩種類型任務(wù)上的表現(xiàn)差異很大。相對(duì)來(lái)說(shuō)，事件內(nèi)推理任務(wù)稍微容易一些，因?yàn)樗邢嚓P(guān)證據(jù)都集中在一個(gè)特定時(shí)間段內(nèi)。但跨事件推理任務(wù)對(duì)所有模型來(lái)說(shuō)都是巨大挑戰(zhàn)，因?yàn)樾枰陂L(zhǎng)時(shí)間跨度內(nèi)尋找和比較證據(jù)。

研究團(tuán)隊(duì)還測(cè)試了傳統(tǒng)圖像搜索方法在這個(gè)數(shù)據(jù)集上的表現(xiàn)。結(jié)果更加慘不忍睹：最好的傳統(tǒng)方法召回率只有14%左右，而且這些"正確"結(jié)果大多是誤打誤撞。這證實(shí)了研究團(tuán)隊(duì)的判斷：復(fù)雜的查詢確實(shí)需要推理能力，而非簡(jiǎn)單的特征匹配。

通過(guò)詳細(xì)的錯(cuò)誤分析，研究團(tuán)隊(duì)發(fā)現(xiàn)了AI偵探當(dāng)前面臨的主要困難。最大的問(wèn)題是"推理崩潰"，占所有錯(cuò)誤的36-50%。這類錯(cuò)誤發(fā)生在AI找到了正確的線索和證據(jù)，但在執(zhí)行多步推理計(jì)劃時(shí)出現(xiàn)了邏輯錯(cuò)誤或過(guò)早放棄。就像一個(gè)偵探找到了所有關(guān)鍵證據(jù)，但在分析階段得出了錯(cuò)誤結(jié)論。

第二大問(wèn)題是"視覺(jué)辨別困難"，特別是在判斷不同照片中的同一物體時(shí)。AI可能會(huì)認(rèn)為兩個(gè)相似但不同的建筑是同一個(gè)，或者無(wú)法識(shí)別同一物體在不同角度、光照下的拍攝。這相當(dāng)于偵探的"觀察力"還需要提升。

還有相當(dāng)比例的錯(cuò)誤源于"線索定位失敗"，即AI無(wú)法在大量照片中準(zhǔn)確找到查詢中提到的關(guān)鍵元素。比如查詢提到"藍(lán)白標(biāo)志"，但AI可能會(huì)漏過(guò)相關(guān)照片，或者被相似但不相關(guān)的圖像誤導(dǎo)。

令人鼓舞的是，研究團(tuán)隊(duì)發(fā)現(xiàn)了"重復(fù)嘗試"的潛力。當(dāng)同一個(gè)查詢運(yùn)行多次時(shí)，不同的嘗試可能會(huì)探索不同的推理路徑，有時(shí)能找到正確答案。最好情況下，多次嘗試的成功率可以從35%提升到61%，說(shuō)明AI偵探確實(shí)具備了找到正確答案的潛力，但還缺乏穩(wěn)定性。

五、技術(shù)突破的深層意義

這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了圖像搜索本身。它揭示了當(dāng)前AI系統(tǒng)的一個(gè)根本性限制：缺乏真正的上下文推理能力。雖然現(xiàn)在的AI在很多任務(wù)上表現(xiàn)出色，但大多數(shù)都是基于模式識(shí)別和統(tǒng)計(jì)學(xué)習(xí)，而非真正的邏輯推理。

DeepImageSearch展示了一種新的AI設(shè)計(jì)思路：不是讓系統(tǒng)變得更加復(fù)雜和強(qiáng)大，而是讓它學(xué)會(huì)使用工具、制定計(jì)劃、執(zhí)行多步驟的推理過(guò)程。這種"工具使用型"AI更接近人類解決復(fù)雜問(wèn)題的方式，也更容易理解和控制。

從實(shí)際應(yīng)用角度來(lái)看，這種技術(shù)將為個(gè)人數(shù)字助手帶來(lái)革命性改變。未來(lái)的智能手機(jī)可能真正理解你的查詢意圖，不僅能找到表面符合要求的照片，還能理解照片背后的故事和關(guān)聯(lián)。當(dāng)你說(shuō)"找找我們第一次約會(huì)那天晚上看電影后吃夜宵的照片"時(shí)，AI助手能夠理解時(shí)間順序、事件關(guān)聯(lián)，并找到正確的記憶片段。

這種能力對(duì)于老年人或記憶力衰退的人群尤其重要。他們往往只能記得事件的片段信息，但AI偵探可以幫助他們重建完整的記憶鏈條，找到珍貴的回憶。

研究還為企業(yè)級(jí)應(yīng)用開(kāi)辟了新的可能性。在安防監(jiān)控、檔案管理、新聞編輯等領(lǐng)域，人們經(jīng)常需要在海量視覺(jué)材料中尋找特定的內(nèi)容和關(guān)聯(lián)。傳統(tǒng)的標(biāo)簽化管理方式往往無(wú)法涵蓋所有可能的查詢需求，而推理式搜索可以處理各種意想不到的復(fù)雜查詢。

更深層的意義在于，這項(xiàng)研究為AI的"理解"能力提供了新的評(píng)估標(biāo)準(zhǔn)。傳統(tǒng)的AI評(píng)估往往關(guān)注準(zhǔn)確率、速度等指標(biāo)，但這些指標(biāo)無(wú)法衡量AI是否真正"理解"了任務(wù)。DeepImageSearch提供了一個(gè)新的視角：真正的理解應(yīng)該體現(xiàn)在處理復(fù)雜、模糊、需要推理的任務(wù)上。

六、未來(lái)的挑戰(zhàn)與機(jī)遇

研究團(tuán)隊(duì)坦率地承認(rèn)了當(dāng)前系統(tǒng)的局限性。DISBench雖然具有開(kāi)創(chuàng)性意義，但規(guī)模相對(duì)較小，只包含122個(gè)查詢。這主要是因?yàn)閯?chuàng)建高質(zhì)量的推理任務(wù)需要大量的人工驗(yàn)證工作。未來(lái)需要開(kāi)發(fā)更高效的自動(dòng)化方法來(lái)擴(kuò)大數(shù)據(jù)集規(guī)模。

當(dāng)前的AI偵探在穩(wěn)定性方面還需要改進(jìn)。雖然它有潛力找到正確答案，但成功率還不夠高，有時(shí)會(huì)因?yàn)橐粋€(gè)小的推理錯(cuò)誤而功敗垂成。這就像一個(gè)聰明但經(jīng)驗(yàn)不足的偵探，有時(shí)會(huì)被復(fù)雜的案情繞糊涂。

隱私問(wèn)題也是一個(gè)重要考量。雖然研究使用的是公開(kāi)數(shù)據(jù)集，但在實(shí)際應(yīng)用中，這種深度的照片分析和關(guān)聯(lián)挖掘可能涉及用戶隱私。如何在提供智能服務(wù)的同時(shí)保護(hù)用戶隱私，是技術(shù)推廣過(guò)程中必須解決的問(wèn)題。

數(shù)據(jù)依賴性是另一個(gè)挑戰(zhàn)。當(dāng)前系統(tǒng)假設(shè)照片都有完整的時(shí)間和地理位置信息，但現(xiàn)實(shí)中很多照片缺乏這些元數(shù)據(jù)。系統(tǒng)需要學(xué)會(huì)在不完整信息條件下進(jìn)行推理，或者開(kāi)發(fā)能夠從圖像本身推斷時(shí)空信息的技術(shù)。

盡管面臨這些挑戰(zhàn)，研究的前景依然令人興奮。隨著多模態(tài)大語(yǔ)言模型的快速發(fā)展，AI的推理能力正在不斷提升。結(jié)合更強(qiáng)大的視覺(jué)理解能力和更精確的邏輯推理能力，未來(lái)的AI偵探可能真正接近人類水平的復(fù)雜推理能力。

更重要的是，這種推理式AI的思路可以擴(kuò)展到其他領(lǐng)域。無(wú)論是文檔搜索、代碼分析，還是科學(xué)研究中的數(shù)據(jù)挖掘，都可能受益于這種"工具使用+多步推理"的方法。

研究團(tuán)隊(duì)已經(jīng)開(kāi)源了DISBench數(shù)據(jù)集和ImageSeeker框架，為整個(gè)學(xué)術(shù)界提供了研究這一新方向的基礎(chǔ)。他們希望更多研究者加入，共同推進(jìn)推理式AI的發(fā)展。畢竟，讓AI學(xué)會(huì)像人類一樣思考和推理，一直是人工智能領(lǐng)域的終極目標(biāo)之一。

說(shuō)到底，這項(xiàng)研究揭示了一個(gè)深刻的道理：真正的智能不僅僅是識(shí)別和匹配，更是理解、推理和創(chuàng)造性地解決問(wèn)題。當(dāng)我們的數(shù)字助手真正學(xué)會(huì)了這種能力時(shí)，人機(jī)交互將迎來(lái)一個(gè)全新的時(shí)代。你將不再需要記住具體的文件名或標(biāo)簽，只要描述你的需求和模糊的記憶，AI就能幫你找到想要的一切。這不僅是技術(shù)的進(jìn)步，更是讓我們的數(shù)字生活變得更加人性化和智能化的重要一步。

Q&A

Q1：DeepImageSearch和傳統(tǒng)圖像搜索有什么本質(zhì)區(qū)別？

A：傳統(tǒng)圖像搜索就像一個(gè)只會(huì)按圖索驥的機(jī)器，看到蘋果就找蘋果，完全不會(huì)思考。而DeepImageSearch更像一個(gè)會(huì)推理的偵探，能夠理解"找到那個(gè)穿34號(hào)球衣的冰球運(yùn)動(dòng)員，這個(gè)號(hào)碼是奧尼爾獲總決賽MVP時(shí)的號(hào)碼"這樣的復(fù)雜查詢，先推理出34號(hào)，再找對(duì)應(yīng)球員。

Q2：DISBench測(cè)試集是怎么構(gòu)建出來(lái)的？

A：研究團(tuán)隊(duì)讓AI先在數(shù)萬(wàn)張照片中自動(dòng)尋找各種關(guān)聯(lián)線索，比如相同的物品在不同時(shí)間地點(diǎn)出現(xiàn)，然后由7名計(jì)算機(jī)專業(yè)人員驗(yàn)證這些關(guān)聯(lián)是否真實(shí)有意義。從2000個(gè)候選案例中最終篩選出122個(gè)需要多步推理才能解決的高質(zhì)量測(cè)試題。

Q3：目前最強(qiáng)的AI模型在這個(gè)測(cè)試上表現(xiàn)如何？

A：即使是最先進(jìn)的Claude-Opus-4.5模型，完全正確率也只有28.7%，遠(yuǎn)低于它們?cè)趥鹘y(tǒng)圖像搜索上接近完美的表現(xiàn)。主要問(wèn)題是推理過(guò)程容易崩潰，找到線索后卻得出錯(cuò)誤結(jié)論，就像聰明但經(jīng)驗(yàn)不足的偵探會(huì)被復(fù)雜案情繞糊涂。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.