<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      人大與OPPO研究院DISBench:AI實(shí)現(xiàn)視覺(jué)記憶線索偵探式檢索

      0
      分享至


      這項(xiàng)由中國(guó)人民大學(xué)高瓴人工智能學(xué)院聯(lián)合OPPO研究院共同完成的研究發(fā)表于2026年2月,論文編號(hào)為arXiv:2602.10809v1。研究團(tuán)隊(duì)開(kāi)發(fā)了一種全新的圖像搜索方式,讓計(jì)算機(jī)能夠像人類一樣在大量照片中進(jìn)行推理和關(guān)聯(lián)思考,而不是簡(jiǎn)單地匹配表面特征。

      回想一下你在手機(jī)相冊(cè)中找照片的經(jīng)歷。當(dāng)你想找"那張?jiān)谒{(lán)白色標(biāo)志音樂(lè)節(jié)上只有主唱在臺(tái)上的照片"時(shí),你可能記得那個(gè)特殊的標(biāo)志,但具體的音樂(lè)節(jié)照片可能有很多張。人類的大腦會(huì)自然地將這些信息連接起來(lái):先找到有藍(lán)白標(biāo)志的照片確定是哪場(chǎng)音樂(lè)節(jié),然后在那場(chǎng)音樂(lè)節(jié)的照片中尋找只有主唱的畫(huà)面。然而,現(xiàn)有的圖像搜索系統(tǒng)卻無(wú)法進(jìn)行這樣的"推理",它們只會(huì)機(jī)械地尋找與關(guān)鍵詞最相似的圖片。

      研究團(tuán)隊(duì)發(fā)現(xiàn)了傳統(tǒng)圖像搜索的根本局限:它們把每張圖片當(dāng)作孤立的個(gè)體來(lái)評(píng)判,就像一個(gè)人失去了記憶,只能看到眼前的事物,卻無(wú)法將不同時(shí)間、不同地點(diǎn)發(fā)生的事情聯(lián)系起來(lái)。這種方法在處理復(fù)雜查詢時(shí)就會(huì)陷入困境,因?yàn)楹芏嗾掌囊饬x需要結(jié)合其拍攝的背景、時(shí)間和關(guān)聯(lián)事件才能理解。

      為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)提出了一個(gè)革命性的解決方案:DeepImageSearch。這個(gè)系統(tǒng)不再是簡(jiǎn)單的圖片匹配器,而更像是一個(gè)經(jīng)驗(yàn)豐富的偵探。當(dāng)面對(duì)復(fù)雜的搜索任務(wù)時(shí),它會(huì)制定搜索策略,使用各種"偵查工具",在照片之間尋找線索和關(guān)聯(lián),最終找到正確答案。

      一、傳統(tǒng)搜索的困境:為什么簡(jiǎn)單匹配不夠用

      現(xiàn)在的圖像搜索就像一個(gè)只會(huì)按圖索驥的機(jī)器人。你給它看一個(gè)蘋果的圖片,它就在數(shù)據(jù)庫(kù)中找到所有看起來(lái)像蘋果的圖片,然后按相似度排序給你。這種方法在處理簡(jiǎn)單需求時(shí)確實(shí)很有效,比如"找一張黃貓的照片",系統(tǒng)可以輕松識(shí)別顏色和動(dòng)物特征。

      但是生活中的搜索需求往往復(fù)雜得多。比如你可能會(huì)說(shuō):"找到那個(gè)穿著34號(hào)球衣的冰球運(yùn)動(dòng)員的照片,這個(gè)號(hào)碼是NBA球星沙奎爾·奧尼爾獲得總決賽最有價(jià)值球員獎(jiǎng)時(shí)穿的球衣號(hào)碼。"這個(gè)查詢包含了多層信息:你需要先知道奧尼爾的獲獎(jiǎng)球衣號(hào)碼是34,然后再找到穿34號(hào)球衣的冰球運(yùn)動(dòng)員。傳統(tǒng)系統(tǒng)面對(duì)這樣的查詢就徹底懵了,因?yàn)樗鼰o(wú)法進(jìn)行這種跨領(lǐng)域的知識(shí)推理。

      更復(fù)雜的情況出現(xiàn)在個(gè)人照片集中。假設(shè)你有幾年的旅行照片,現(xiàn)在想找"在看到煙花表演兩天后在海灘拍攝的所有帶海景的照片"。這個(gè)需求包含了時(shí)間推理(兩天后)、地點(diǎn)推理(海灘)和內(nèi)容判斷(帶海景)。傳統(tǒng)搜索無(wú)法處理這種需要在時(shí)間線上跳躍并建立因果關(guān)系的查詢。

      問(wèn)題的根源在于傳統(tǒng)系統(tǒng)采用的是"原子化"思維:每張圖片都是獨(dú)立的原子,系統(tǒng)只能評(píng)判單個(gè)原子與查詢的匹配程度。但人類的記憶是網(wǎng)絡(luò)化的,每個(gè)記憶片段都與其他片段有著千絲萬(wàn)縷的聯(lián)系。一張照片的意義往往需要結(jié)合拍攝時(shí)間、地點(diǎn)、前后事件才能完全理解。

      研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)驗(yàn)證了這個(gè)判斷。他們用最先進(jìn)的圖像搜索模型在復(fù)雜查詢上進(jìn)行測(cè)試,結(jié)果發(fā)現(xiàn)這些模型的召回率只有10-14%,而且這些"正確"結(jié)果大多是碰運(yùn)氣找到的,因?yàn)椴樵冊(cè)~恰好與圖片表面特征匹配。當(dāng)需要真正的推理時(shí),傳統(tǒng)方法幾乎完全失效。

      二、偵探式搜索:讓AI學(xué)會(huì)推理和探索

      研究團(tuán)隊(duì)設(shè)計(jì)的DeepImageSearch系統(tǒng)就像訓(xùn)練了一個(gè)專業(yè)偵探來(lái)處理圖像搜索任務(wù)。這個(gè)"偵探"不會(huì)急于給出答案,而是會(huì)仔細(xì)分析線索,制定調(diào)查計(jì)劃,使用各種工具收集證據(jù),最終得出結(jié)論。

      這個(gè)AI偵探擁有一整套專業(yè)工具箱。ImageSearch工具就像一個(gè)高級(jí)的圖像比對(duì)設(shè)備,可以根據(jù)文字描述或參考圖片找到相似的照片。GetMetadata工具像是一個(gè)詳細(xì)的檔案系統(tǒng),能夠查詢每張照片的拍攝時(shí)間、地點(diǎn)等信息。FilterMetadata工具則像一個(gè)強(qiáng)大的篩選器,可以按照時(shí)間范圍、地理位置等條件過(guò)濾照片。ViewPhotos工具讓偵探能夠仔細(xì)查看照片細(xì)節(jié),就像用放大鏡檢查證據(jù)一樣。

      更有趣的是,這個(gè)AI偵探還有記憶系統(tǒng)。在長(zhǎng)時(shí)間的調(diào)查過(guò)程中,它會(huì)將重要發(fā)現(xiàn)存儲(chǔ)在"案件檔案"中,避免遺忘關(guān)鍵線索。當(dāng)信息量過(guò)大時(shí),系統(tǒng)會(huì)自動(dòng)整理記憶,保留最重要的發(fā)現(xiàn)和當(dāng)前的調(diào)查方向,確保推理過(guò)程不會(huì)因?yàn)樾畔⑦^(guò)載而中斷。

      讓我們看一個(gè)具體的例子來(lái)理解這個(gè)過(guò)程。假設(shè)有人問(wèn):"找到那個(gè)非石膏雕像的所有照片,這個(gè)雕像在半年內(nèi)的不同旅行中被拍攝過(guò)兩次。"傳統(tǒng)系統(tǒng)面對(duì)這個(gè)查詢會(huì)完全無(wú)從下手,因?yàn)樗鼰o(wú)法理解什么是"同一個(gè)雕像在不同旅行中的重復(fù)出現(xiàn)"。

      但AI偵探會(huì)這樣工作:首先,它使用ImageSearch工具搜索所有包含雕像的照片。然后,它會(huì)仔細(xì)檢查這些照片,識(shí)別出哪些是非石膏材質(zhì)的。接下來(lái),它會(huì)使用GetMetadata工具查詢這些照片的拍攝時(shí)間和地點(diǎn),找出在半年內(nèi)拍攝的候選照片。最關(guān)鍵的步驟來(lái)了:它會(huì)比較這些候選照片中的雕像,判斷哪些實(shí)際上是同一個(gè)雕像在不同地點(diǎn)的拍攝。最后,它會(huì)驗(yàn)證這些照片確實(shí)來(lái)自不同的旅行(通過(guò)時(shí)間和地點(diǎn)信息),并返回所有符合條件的照片。

      這種方法的強(qiáng)大之處在于,它能夠處理人類記憶的模糊性和復(fù)雜性。人們?cè)谒阉鲿r(shí)往往只記得部分信息,比如"那個(gè)有特殊標(biāo)志的活動(dòng)"或"在某某之后的幾天"。AI偵探能夠利用這些不完整的線索,通過(guò)推理和探索找到完整的答案。

      三、構(gòu)建推理訓(xùn)練場(chǎng):DISBench測(cè)試集的誕生

      為了訓(xùn)練和測(cè)試這種新型的AI偵探,研究團(tuán)隊(duì)面臨一個(gè)巨大挑戰(zhàn):如何創(chuàng)建足夠復(fù)雜和真實(shí)的測(cè)試案例。傳統(tǒng)的圖像搜索測(cè)試集都是簡(jiǎn)單的"找蘋果"、"找貓"這類直接匹配任務(wù),根本無(wú)法評(píng)估復(fù)雜推理能力。

      創(chuàng)建復(fù)雜推理任務(wù)的測(cè)試集就像編寫(xiě)精巧的偵探小說(shuō)。每個(gè)案例都需要精心設(shè)計(jì)的線索鏈條,目標(biāo)答案不能通過(guò)簡(jiǎn)單觀察得出,必須通過(guò)多步推理才能找到。但是,人工設(shè)計(jì)這樣的案例需要研究人員在數(shù)萬(wàn)張照片中尋找潛在的關(guān)聯(lián),這幾乎是不可能完成的任務(wù)。

      研究團(tuán)隊(duì)想出了一個(gè)巧妙的解決方案:讓AI來(lái)幫助發(fā)現(xiàn)這些隱藏的關(guān)聯(lián)。他們開(kāi)發(fā)了一個(gè)半自動(dòng)化的"線索挖掘"系統(tǒng)。這個(gè)系統(tǒng)首先使用視覺(jué)語(yǔ)言模型分析每張照片,提取其中的關(guān)鍵視覺(jué)元素,比如特殊的建筑、獨(dú)特的物品、可識(shí)別的標(biāo)識(shí)等。然后,系統(tǒng)會(huì)在整個(gè)照片集中尋找這些元素的重現(xiàn),發(fā)現(xiàn)跨越時(shí)間和空間的關(guān)聯(lián)。

      這個(gè)過(guò)程就像一個(gè)超級(jí)偵探在案發(fā)現(xiàn)場(chǎng)收集所有可能的線索。AI會(huì)注意到照片中的每一個(gè)細(xì)節(jié):墻上的海報(bào)、桌上的杯子、遠(yuǎn)處的建筑、人物的服裝等等。然后它會(huì)在數(shù)千張照片中尋找這些元素的其他出現(xiàn),建立起一個(gè)復(fù)雜的關(guān)聯(lián)網(wǎng)絡(luò)。

      但AI發(fā)現(xiàn)的關(guān)聯(lián)并不都是有意義的。有時(shí)它可能會(huì)認(rèn)為兩個(gè)完全不同的物品是同一個(gè),或者發(fā)現(xiàn)一些純粹的巧合。因此,研究團(tuán)隊(duì)還需要人類專家來(lái)驗(yàn)證這些關(guān)聯(lián)。七名具有碩士以上學(xué)歷的計(jì)算機(jī)科學(xué)專業(yè)人員組成了驗(yàn)證團(tuán)隊(duì),他們使用專門設(shè)計(jì)的界面仔細(xì)檢查每個(gè)AI發(fā)現(xiàn)的關(guān)聯(lián),確認(rèn)其真實(shí)性和意義。

      經(jīng)過(guò)這個(gè)嚴(yán)格的篩選過(guò)程,研究團(tuán)隊(duì)從2000個(gè)AI生成的候選案例中最終保留了122個(gè)高質(zhì)量的推理任務(wù)。這些任務(wù)涵蓋了兩種主要類型:事件內(nèi)推理和跨事件推理。

      事件內(nèi)推理就像在一個(gè)聚會(huì)的照片中尋找特定場(chǎng)景。比如:"找到那個(gè)有藍(lán)白標(biāo)志音樂(lè)節(jié)中只有主唱在臺(tái)上的照片。"AI偵探需要先通過(guò)標(biāo)志找到正確的音樂(lè)節(jié),然后在該音樂(lè)節(jié)的照片中找到符合條件的畫(huà)面。

      跨事件推理則更加復(fù)雜,需要在不同的時(shí)間和地點(diǎn)之間建立聯(lián)系。比如:"找到那個(gè)在半年內(nèi)不同旅行中都拍到的非石膏雕像的所有照片。"這需要AI在時(shí)間線上搜索,比較不同地點(diǎn)的照片,識(shí)別相同的物體,驗(yàn)證時(shí)間間隔等多個(gè)步驟。

      最終的DISBench包含了來(lái)自57個(gè)用戶的109,467張照片,時(shí)間跨度平均為3.4年。每個(gè)查詢平均對(duì)應(yīng)3.84張目標(biāo)照片,而AI需要在不知道答案數(shù)量的情況下找到所有正確答案。這個(gè)測(cè)試集的難度在于,所有的目標(biāo)照片在視覺(jué)上都有很強(qiáng)的迷惑性,必須通過(guò)上下文推理才能準(zhǔn)確識(shí)別。

      四、AI偵探的實(shí)戰(zhàn)表現(xiàn):令人意外的發(fā)現(xiàn)

      當(dāng)研究團(tuán)隊(duì)用最先進(jìn)的AI模型來(lái)測(cè)試DISBench時(shí),結(jié)果令人震驚。即使是目前最強(qiáng)大的模型Claude-Opus-4.5,在這個(gè)測(cè)試集上的完全正確率(需要找到所有正確答案且無(wú)錯(cuò)誤答案)也只有28.7%。這個(gè)成績(jī)遠(yuǎn)遠(yuǎn)低于這些模型在傳統(tǒng)圖像搜索任務(wù)上接近完美的表現(xiàn)。

      更有趣的發(fā)現(xiàn)是,模型在兩種類型任務(wù)上的表現(xiàn)差異很大。相對(duì)來(lái)說(shuō),事件內(nèi)推理任務(wù)稍微容易一些,因?yàn)樗邢嚓P(guān)證據(jù)都集中在一個(gè)特定時(shí)間段內(nèi)。但跨事件推理任務(wù)對(duì)所有模型來(lái)說(shuō)都是巨大挑戰(zhàn),因?yàn)樾枰陂L(zhǎng)時(shí)間跨度內(nèi)尋找和比較證據(jù)。

      研究團(tuán)隊(duì)還測(cè)試了傳統(tǒng)圖像搜索方法在這個(gè)數(shù)據(jù)集上的表現(xiàn)。結(jié)果更加慘不忍睹:最好的傳統(tǒng)方法召回率只有14%左右,而且這些"正確"結(jié)果大多是誤打誤撞。這證實(shí)了研究團(tuán)隊(duì)的判斷:復(fù)雜的查詢確實(shí)需要推理能力,而非簡(jiǎn)單的特征匹配。

      通過(guò)詳細(xì)的錯(cuò)誤分析,研究團(tuán)隊(duì)發(fā)現(xiàn)了AI偵探當(dāng)前面臨的主要困難。最大的問(wèn)題是"推理崩潰",占所有錯(cuò)誤的36-50%。這類錯(cuò)誤發(fā)生在AI找到了正確的線索和證據(jù),但在執(zhí)行多步推理計(jì)劃時(shí)出現(xiàn)了邏輯錯(cuò)誤或過(guò)早放棄。就像一個(gè)偵探找到了所有關(guān)鍵證據(jù),但在分析階段得出了錯(cuò)誤結(jié)論。

      第二大問(wèn)題是"視覺(jué)辨別困難",特別是在判斷不同照片中的同一物體時(shí)。AI可能會(huì)認(rèn)為兩個(gè)相似但不同的建筑是同一個(gè),或者無(wú)法識(shí)別同一物體在不同角度、光照下的拍攝。這相當(dāng)于偵探的"觀察力"還需要提升。

      還有相當(dāng)比例的錯(cuò)誤源于"線索定位失敗",即AI無(wú)法在大量照片中準(zhǔn)確找到查詢中提到的關(guān)鍵元素。比如查詢提到"藍(lán)白標(biāo)志",但AI可能會(huì)漏過(guò)相關(guān)照片,或者被相似但不相關(guān)的圖像誤導(dǎo)。

      令人鼓舞的是,研究團(tuán)隊(duì)發(fā)現(xiàn)了"重復(fù)嘗試"的潛力。當(dāng)同一個(gè)查詢運(yùn)行多次時(shí),不同的嘗試可能會(huì)探索不同的推理路徑,有時(shí)能找到正確答案。最好情況下,多次嘗試的成功率可以從35%提升到61%,說(shuō)明AI偵探確實(shí)具備了找到正確答案的潛力,但還缺乏穩(wěn)定性。

      五、技術(shù)突破的深層意義

      這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了圖像搜索本身。它揭示了當(dāng)前AI系統(tǒng)的一個(gè)根本性限制:缺乏真正的上下文推理能力。雖然現(xiàn)在的AI在很多任務(wù)上表現(xiàn)出色,但大多數(shù)都是基于模式識(shí)別和統(tǒng)計(jì)學(xué)習(xí),而非真正的邏輯推理。

      DeepImageSearch展示了一種新的AI設(shè)計(jì)思路:不是讓系統(tǒng)變得更加復(fù)雜和強(qiáng)大,而是讓它學(xué)會(huì)使用工具、制定計(jì)劃、執(zhí)行多步驟的推理過(guò)程。這種"工具使用型"AI更接近人類解決復(fù)雜問(wèn)題的方式,也更容易理解和控制。

      從實(shí)際應(yīng)用角度來(lái)看,這種技術(shù)將為個(gè)人數(shù)字助手帶來(lái)革命性改變。未來(lái)的智能手機(jī)可能真正理解你的查詢意圖,不僅能找到表面符合要求的照片,還能理解照片背后的故事和關(guān)聯(lián)。當(dāng)你說(shuō)"找找我們第一次約會(huì)那天晚上看電影后吃夜宵的照片"時(shí),AI助手能夠理解時(shí)間順序、事件關(guān)聯(lián),并找到正確的記憶片段。

      這種能力對(duì)于老年人或記憶力衰退的人群尤其重要。他們往往只能記得事件的片段信息,但AI偵探可以幫助他們重建完整的記憶鏈條,找到珍貴的回憶。

      研究還為企業(yè)級(jí)應(yīng)用開(kāi)辟了新的可能性。在安防監(jiān)控、檔案管理、新聞編輯等領(lǐng)域,人們經(jīng)常需要在海量視覺(jué)材料中尋找特定的內(nèi)容和關(guān)聯(lián)。傳統(tǒng)的標(biāo)簽化管理方式往往無(wú)法涵蓋所有可能的查詢需求,而推理式搜索可以處理各種意想不到的復(fù)雜查詢。

      更深層的意義在于,這項(xiàng)研究為AI的"理解"能力提供了新的評(píng)估標(biāo)準(zhǔn)。傳統(tǒng)的AI評(píng)估往往關(guān)注準(zhǔn)確率、速度等指標(biāo),但這些指標(biāo)無(wú)法衡量AI是否真正"理解"了任務(wù)。DeepImageSearch提供了一個(gè)新的視角:真正的理解應(yīng)該體現(xiàn)在處理復(fù)雜、模糊、需要推理的任務(wù)上。

      六、未來(lái)的挑戰(zhàn)與機(jī)遇

      研究團(tuán)隊(duì)坦率地承認(rèn)了當(dāng)前系統(tǒng)的局限性。DISBench雖然具有開(kāi)創(chuàng)性意義,但規(guī)模相對(duì)較小,只包含122個(gè)查詢。這主要是因?yàn)閯?chuàng)建高質(zhì)量的推理任務(wù)需要大量的人工驗(yàn)證工作。未來(lái)需要開(kāi)發(fā)更高效的自動(dòng)化方法來(lái)擴(kuò)大數(shù)據(jù)集規(guī)模。

      當(dāng)前的AI偵探在穩(wěn)定性方面還需要改進(jìn)。雖然它有潛力找到正確答案,但成功率還不夠高,有時(shí)會(huì)因?yàn)橐粋€(gè)小的推理錯(cuò)誤而功敗垂成。這就像一個(gè)聰明但經(jīng)驗(yàn)不足的偵探,有時(shí)會(huì)被復(fù)雜的案情繞糊涂。

      隱私問(wèn)題也是一個(gè)重要考量。雖然研究使用的是公開(kāi)數(shù)據(jù)集,但在實(shí)際應(yīng)用中,這種深度的照片分析和關(guān)聯(lián)挖掘可能涉及用戶隱私。如何在提供智能服務(wù)的同時(shí)保護(hù)用戶隱私,是技術(shù)推廣過(guò)程中必須解決的問(wèn)題。

      數(shù)據(jù)依賴性是另一個(gè)挑戰(zhàn)。當(dāng)前系統(tǒng)假設(shè)照片都有完整的時(shí)間和地理位置信息,但現(xiàn)實(shí)中很多照片缺乏這些元數(shù)據(jù)。系統(tǒng)需要學(xué)會(huì)在不完整信息條件下進(jìn)行推理,或者開(kāi)發(fā)能夠從圖像本身推斷時(shí)空信息的技術(shù)。

      盡管面臨這些挑戰(zhàn),研究的前景依然令人興奮。隨著多模態(tài)大語(yǔ)言模型的快速發(fā)展,AI的推理能力正在不斷提升。結(jié)合更強(qiáng)大的視覺(jué)理解能力和更精確的邏輯推理能力,未來(lái)的AI偵探可能真正接近人類水平的復(fù)雜推理能力。

      更重要的是,這種推理式AI的思路可以擴(kuò)展到其他領(lǐng)域。無(wú)論是文檔搜索、代碼分析,還是科學(xué)研究中的數(shù)據(jù)挖掘,都可能受益于這種"工具使用+多步推理"的方法。

      研究團(tuán)隊(duì)已經(jīng)開(kāi)源了DISBench數(shù)據(jù)集和ImageSeeker框架,為整個(gè)學(xué)術(shù)界提供了研究這一新方向的基礎(chǔ)。他們希望更多研究者加入,共同推進(jìn)推理式AI的發(fā)展。畢竟,讓AI學(xué)會(huì)像人類一樣思考和推理,一直是人工智能領(lǐng)域的終極目標(biāo)之一。

      說(shuō)到底,這項(xiàng)研究揭示了一個(gè)深刻的道理:真正的智能不僅僅是識(shí)別和匹配,更是理解、推理和創(chuàng)造性地解決問(wèn)題。當(dāng)我們的數(shù)字助手真正學(xué)會(huì)了這種能力時(shí),人機(jī)交互將迎來(lái)一個(gè)全新的時(shí)代。你將不再需要記住具體的文件名或標(biāo)簽,只要描述你的需求和模糊的記憶,AI就能幫你找到想要的一切。這不僅是技術(shù)的進(jìn)步,更是讓我們的數(shù)字生活變得更加人性化和智能化的重要一步。

      Q&A

      Q1:DeepImageSearch和傳統(tǒng)圖像搜索有什么本質(zhì)區(qū)別?

      A:傳統(tǒng)圖像搜索就像一個(gè)只會(huì)按圖索驥的機(jī)器,看到蘋果就找蘋果,完全不會(huì)思考。而DeepImageSearch更像一個(gè)會(huì)推理的偵探,能夠理解"找到那個(gè)穿34號(hào)球衣的冰球運(yùn)動(dòng)員,這個(gè)號(hào)碼是奧尼爾獲總決賽MVP時(shí)的號(hào)碼"這樣的復(fù)雜查詢,先推理出34號(hào),再找對(duì)應(yīng)球員。

      Q2:DISBench測(cè)試集是怎么構(gòu)建出來(lái)的?

      A:研究團(tuán)隊(duì)讓AI先在數(shù)萬(wàn)張照片中自動(dòng)尋找各種關(guān)聯(lián)線索,比如相同的物品在不同時(shí)間地點(diǎn)出現(xiàn),然后由7名計(jì)算機(jī)專業(yè)人員驗(yàn)證這些關(guān)聯(lián)是否真實(shí)有意義。從2000個(gè)候選案例中最終篩選出122個(gè)需要多步推理才能解決的高質(zhì)量測(cè)試題。

      Q3:目前最強(qiáng)的AI模型在這個(gè)測(cè)試上表現(xiàn)如何?

      A:即使是最先進(jìn)的Claude-Opus-4.5模型,完全正確率也只有28.7%,遠(yuǎn)低于它們?cè)趥鹘y(tǒng)圖像搜索上接近完美的表現(xiàn)。主要問(wèn)題是推理過(guò)程容易崩潰,找到線索后卻得出錯(cuò)誤結(jié)論,就像聰明但經(jīng)驗(yàn)不足的偵探會(huì)被復(fù)雜案情繞糊涂。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      缺陣即崩塌!無(wú)哈登騎士加時(shí)再折戟,兩連敗敲響崩盤警鐘

      缺陣即崩塌!無(wú)哈登騎士加時(shí)再折戟,兩連敗敲響崩盤警鐘

      愛(ài)體育
      2026-03-01 23:38:22
      娜扎透視裙驚艷全網(wǎng)!這身材這顏值,誰(shuí)能頂?shù)米。?>
    </a>
        <h3>
      <a href=娛樂(lè)領(lǐng)航家
      2026-02-03 23:30:03
      長(zhǎng)得太漂亮了,真正的珠圓玉潤(rùn),標(biāo)準(zhǔn)的東方美女!

      長(zhǎng)得太漂亮了,真正的珠圓玉潤(rùn),標(biāo)準(zhǔn)的東方美女!

      東方不敗然多多
      2026-03-01 21:30:42
      伊朗最大的內(nèi)鬼浮出水面!

      伊朗最大的內(nèi)鬼浮出水面!

      仰望星空的一粒沙子
      2026-03-01 22:29:18
      肖國(guó)棟丁俊暉陷入門票之爭(zhēng)!艾倫發(fā)文顯無(wú)奈,15萬(wàn)英鎊塵埃落定

      肖國(guó)棟丁俊暉陷入門票之爭(zhēng)!艾倫發(fā)文顯無(wú)奈,15萬(wàn)英鎊塵埃落定

      排球黃金眼
      2026-03-01 10:35:36
      超級(jí)世界波!國(guó)安賽季首球,達(dá)萬(wàn)遠(yuǎn)射破門,22年首人,顏駿凌搖頭

      超級(jí)世界波!國(guó)安賽季首球,達(dá)萬(wàn)遠(yuǎn)射破門,22年首人,顏駿凌搖頭

      奧拜爾
      2026-03-01 16:08:16
      A股:大家坐穩(wěn)扶好了,美以伊大沖突,下周牛市開(kāi)盤怎么走?

      A股:大家坐穩(wěn)扶好了,美以伊大沖突,下周牛市開(kāi)盤怎么走?

      云鵬敘事
      2026-03-01 20:37:39
      美以對(duì)伊朗發(fā)動(dòng)為期四天聯(lián)合打擊 伊朗最高領(lǐng)袖辦公室附近遭襲

      美以對(duì)伊朗發(fā)動(dòng)為期四天聯(lián)合打擊 伊朗最高領(lǐng)袖辦公室附近遭襲

      華爾街見(jiàn)聞官方
      2026-02-28 15:15:13
      香港著名演員發(fā)文稱被肖戰(zhàn)圈粉!驚喜直言肖戰(zhàn)太英俊,演技也精彩

      香港著名演員發(fā)文稱被肖戰(zhàn)圈粉!驚喜直言肖戰(zhàn)太英俊,演技也精彩

      看盡落塵花q
      2026-03-01 13:34:34
      伊朗革命衛(wèi)隊(duì)宣布大規(guī)模軍事行動(dòng)

      伊朗革命衛(wèi)隊(duì)宣布大規(guī)模軍事行動(dòng)

      界面新聞
      2026-02-28 18:18:55
      一位有糖尿病的人講述:喝了一次酒,十幾年對(duì)糖尿病的控制全白搭

      一位有糖尿病的人講述:喝了一次酒,十幾年對(duì)糖尿病的控制全白搭

      全球軍事記
      2026-03-01 18:17:30
      輔導(dǎo)員,全部入編

      輔導(dǎo)員,全部入編

      山東教育
      2026-03-01 17:59:48
      谷愛(ài)凌這下麻煩了!美國(guó)政客提案,征收她100%個(gè)稅,誓要遣返中國(guó)

      谷愛(ài)凌這下麻煩了!美國(guó)政客提案,征收她100%個(gè)稅,誓要遣返中國(guó)

      我不叫阿哏
      2026-03-01 18:42:43
      5分鐘4犯仍男籃功臣!末節(jié)超遠(yuǎn)三分絕平值千金 趙繼偉14分鐘13分

      5分鐘4犯仍男籃功臣!末節(jié)超遠(yuǎn)三分絕平值千金 趙繼偉14分鐘13分

      顏小白的籃球夢(mèng)
      2026-03-01 17:55:55
      攜程算是踢到鋼板了

      攜程算是踢到鋼板了

      虎嗅APP
      2026-03-01 17:00:07
      伊朗的投降王牌:只要美國(guó)松綁,出賣中國(guó)利益絕不會(huì)有半點(diǎn)猶豫

      伊朗的投降王牌:只要美國(guó)松綁,出賣中國(guó)利益絕不會(huì)有半點(diǎn)猶豫

      老范談史
      2026-02-28 06:45:51
      伊朗,曾經(jīng)是中東最發(fā)達(dá)的國(guó)家,如今為何淪落成“爛泥扶不上墻”

      伊朗,曾經(jīng)是中東最發(fā)達(dá)的國(guó)家,如今為何淪落成“爛泥扶不上墻”

      文史達(dá)觀
      2025-06-24 06:45:04
      打破國(guó)羽11年冠軍荒!陳柏陽(yáng)/劉毅2-1逆轉(zhuǎn)最強(qiáng)黑馬,勇奪賽季首冠

      打破國(guó)羽11年冠軍荒!陳柏陽(yáng)/劉毅2-1逆轉(zhuǎn)最強(qiáng)黑馬,勇奪賽季首冠

      釘釘陌上花開(kāi)
      2026-03-01 23:28:45
      哈梅內(nèi)伊雖死,但伊朗或徹底黑化!中東亂世已啟,美以難笑到最后

      哈梅內(nèi)伊雖死,但伊朗或徹底黑化!中東亂世已啟,美以難笑到最后

      音樂(lè)時(shí)光的娛樂(lè)
      2026-03-01 17:44:43
      穆里尼奧談普雷斯蒂安尼事件:若罪名成立,他在我手下生涯終結(jié)

      穆里尼奧談普雷斯蒂安尼事件:若罪名成立,他在我手下生涯終結(jié)

      星耀國(guó)際足壇
      2026-03-02 00:35:03
      2026-03-02 01:08:49
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      7389文章數(shù) 553關(guān)注度
      往期回顧 全部

      科技要聞

      榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

      頭條要聞

      媒體:美以能精準(zhǔn)"斬首"背后 摩薩德的"手筆"令人咋舌

      頭條要聞

      媒體:美以能精準(zhǔn)"斬首"背后 摩薩德的"手筆"令人咋舌

      體育要聞

      火箭輸給熱火:烏度卡又輸斯波教練

      娛樂(lè)要聞

      黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來(lái)襲

      財(cái)經(jīng)要聞

      中東局勢(shì)升級(jí) 如何影響A股、黃金和原油

      汽車要聞

      理想汽車2月交付26421輛 歷史累計(jì)交付超159萬(wàn)輛

      態(tài)度原創(chuàng)

      手機(jī)
      時(shí)尚
      家居
      親子
      數(shù)碼

      手機(jī)要聞

      小米11全系正式退役!安全更新停更,這些機(jī)型該換了

      今年春天最流行的4件衛(wèi)衣,照著穿就很好看

      家居要聞

      素色肌理 品意式格調(diào)

      親子要聞

      金龜子女兒流產(chǎn)后,為兒子舉辦2歲生日宴,三個(gè)卡通可愛(ài)的蛋糕

      數(shù)碼要聞

      榮耀Magic V6海外發(fā)布:厚度僅8.75mm三年內(nèi)第四次打破紀(jì)錄

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版