![]()
這項(xiàng)由中國(guó)人民大學(xué)高瓴人工智能學(xué)院聯(lián)合OPPO研究院共同完成的研究發(fā)表于2026年2月,論文編號(hào)為arXiv:2602.10809v1。研究團(tuán)隊(duì)開(kāi)發(fā)了一種全新的圖像搜索方式,讓計(jì)算機(jī)能夠像人類一樣在大量照片中進(jìn)行推理和關(guān)聯(lián)思考,而不是簡(jiǎn)單地匹配表面特征。
回想一下你在手機(jī)相冊(cè)中找照片的經(jīng)歷。當(dāng)你想找"那張?jiān)谒{(lán)白色標(biāo)志音樂(lè)節(jié)上只有主唱在臺(tái)上的照片"時(shí),你可能記得那個(gè)特殊的標(biāo)志,但具體的音樂(lè)節(jié)照片可能有很多張。人類的大腦會(huì)自然地將這些信息連接起來(lái):先找到有藍(lán)白標(biāo)志的照片確定是哪場(chǎng)音樂(lè)節(jié),然后在那場(chǎng)音樂(lè)節(jié)的照片中尋找只有主唱的畫(huà)面。然而,現(xiàn)有的圖像搜索系統(tǒng)卻無(wú)法進(jìn)行這樣的"推理",它們只會(huì)機(jī)械地尋找與關(guān)鍵詞最相似的圖片。
研究團(tuán)隊(duì)發(fā)現(xiàn)了傳統(tǒng)圖像搜索的根本局限:它們把每張圖片當(dāng)作孤立的個(gè)體來(lái)評(píng)判,就像一個(gè)人失去了記憶,只能看到眼前的事物,卻無(wú)法將不同時(shí)間、不同地點(diǎn)發(fā)生的事情聯(lián)系起來(lái)。這種方法在處理復(fù)雜查詢時(shí)就會(huì)陷入困境,因?yàn)楹芏嗾掌囊饬x需要結(jié)合其拍攝的背景、時(shí)間和關(guān)聯(lián)事件才能理解。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)提出了一個(gè)革命性的解決方案:DeepImageSearch。這個(gè)系統(tǒng)不再是簡(jiǎn)單的圖片匹配器,而更像是一個(gè)經(jīng)驗(yàn)豐富的偵探。當(dāng)面對(duì)復(fù)雜的搜索任務(wù)時(shí),它會(huì)制定搜索策略,使用各種"偵查工具",在照片之間尋找線索和關(guān)聯(lián),最終找到正確答案。
一、傳統(tǒng)搜索的困境:為什么簡(jiǎn)單匹配不夠用
現(xiàn)在的圖像搜索就像一個(gè)只會(huì)按圖索驥的機(jī)器人。你給它看一個(gè)蘋果的圖片,它就在數(shù)據(jù)庫(kù)中找到所有看起來(lái)像蘋果的圖片,然后按相似度排序給你。這種方法在處理簡(jiǎn)單需求時(shí)確實(shí)很有效,比如"找一張黃貓的照片",系統(tǒng)可以輕松識(shí)別顏色和動(dòng)物特征。
但是生活中的搜索需求往往復(fù)雜得多。比如你可能會(huì)說(shuō):"找到那個(gè)穿著34號(hào)球衣的冰球運(yùn)動(dòng)員的照片,這個(gè)號(hào)碼是NBA球星沙奎爾·奧尼爾獲得總決賽最有價(jià)值球員獎(jiǎng)時(shí)穿的球衣號(hào)碼。"這個(gè)查詢包含了多層信息:你需要先知道奧尼爾的獲獎(jiǎng)球衣號(hào)碼是34,然后再找到穿34號(hào)球衣的冰球運(yùn)動(dòng)員。傳統(tǒng)系統(tǒng)面對(duì)這樣的查詢就徹底懵了,因?yàn)樗鼰o(wú)法進(jìn)行這種跨領(lǐng)域的知識(shí)推理。
更復(fù)雜的情況出現(xiàn)在個(gè)人照片集中。假設(shè)你有幾年的旅行照片,現(xiàn)在想找"在看到煙花表演兩天后在海灘拍攝的所有帶海景的照片"。這個(gè)需求包含了時(shí)間推理(兩天后)、地點(diǎn)推理(海灘)和內(nèi)容判斷(帶海景)。傳統(tǒng)搜索無(wú)法處理這種需要在時(shí)間線上跳躍并建立因果關(guān)系的查詢。
問(wèn)題的根源在于傳統(tǒng)系統(tǒng)采用的是"原子化"思維:每張圖片都是獨(dú)立的原子,系統(tǒng)只能評(píng)判單個(gè)原子與查詢的匹配程度。但人類的記憶是網(wǎng)絡(luò)化的,每個(gè)記憶片段都與其他片段有著千絲萬(wàn)縷的聯(lián)系。一張照片的意義往往需要結(jié)合拍攝時(shí)間、地點(diǎn)、前后事件才能完全理解。
研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)驗(yàn)證了這個(gè)判斷。他們用最先進(jìn)的圖像搜索模型在復(fù)雜查詢上進(jìn)行測(cè)試,結(jié)果發(fā)現(xiàn)這些模型的召回率只有10-14%,而且這些"正確"結(jié)果大多是碰運(yùn)氣找到的,因?yàn)椴樵冊(cè)~恰好與圖片表面特征匹配。當(dāng)需要真正的推理時(shí),傳統(tǒng)方法幾乎完全失效。
二、偵探式搜索:讓AI學(xué)會(huì)推理和探索
研究團(tuán)隊(duì)設(shè)計(jì)的DeepImageSearch系統(tǒng)就像訓(xùn)練了一個(gè)專業(yè)偵探來(lái)處理圖像搜索任務(wù)。這個(gè)"偵探"不會(huì)急于給出答案,而是會(huì)仔細(xì)分析線索,制定調(diào)查計(jì)劃,使用各種工具收集證據(jù),最終得出結(jié)論。
這個(gè)AI偵探擁有一整套專業(yè)工具箱。ImageSearch工具就像一個(gè)高級(jí)的圖像比對(duì)設(shè)備,可以根據(jù)文字描述或參考圖片找到相似的照片。GetMetadata工具像是一個(gè)詳細(xì)的檔案系統(tǒng),能夠查詢每張照片的拍攝時(shí)間、地點(diǎn)等信息。FilterMetadata工具則像一個(gè)強(qiáng)大的篩選器,可以按照時(shí)間范圍、地理位置等條件過(guò)濾照片。ViewPhotos工具讓偵探能夠仔細(xì)查看照片細(xì)節(jié),就像用放大鏡檢查證據(jù)一樣。
更有趣的是,這個(gè)AI偵探還有記憶系統(tǒng)。在長(zhǎng)時(shí)間的調(diào)查過(guò)程中,它會(huì)將重要發(fā)現(xiàn)存儲(chǔ)在"案件檔案"中,避免遺忘關(guān)鍵線索。當(dāng)信息量過(guò)大時(shí),系統(tǒng)會(huì)自動(dòng)整理記憶,保留最重要的發(fā)現(xiàn)和當(dāng)前的調(diào)查方向,確保推理過(guò)程不會(huì)因?yàn)樾畔⑦^(guò)載而中斷。
讓我們看一個(gè)具體的例子來(lái)理解這個(gè)過(guò)程。假設(shè)有人問(wèn):"找到那個(gè)非石膏雕像的所有照片,這個(gè)雕像在半年內(nèi)的不同旅行中被拍攝過(guò)兩次。"傳統(tǒng)系統(tǒng)面對(duì)這個(gè)查詢會(huì)完全無(wú)從下手,因?yàn)樗鼰o(wú)法理解什么是"同一個(gè)雕像在不同旅行中的重復(fù)出現(xiàn)"。
但AI偵探會(huì)這樣工作:首先,它使用ImageSearch工具搜索所有包含雕像的照片。然后,它會(huì)仔細(xì)檢查這些照片,識(shí)別出哪些是非石膏材質(zhì)的。接下來(lái),它會(huì)使用GetMetadata工具查詢這些照片的拍攝時(shí)間和地點(diǎn),找出在半年內(nèi)拍攝的候選照片。最關(guān)鍵的步驟來(lái)了:它會(huì)比較這些候選照片中的雕像,判斷哪些實(shí)際上是同一個(gè)雕像在不同地點(diǎn)的拍攝。最后,它會(huì)驗(yàn)證這些照片確實(shí)來(lái)自不同的旅行(通過(guò)時(shí)間和地點(diǎn)信息),并返回所有符合條件的照片。
這種方法的強(qiáng)大之處在于,它能夠處理人類記憶的模糊性和復(fù)雜性。人們?cè)谒阉鲿r(shí)往往只記得部分信息,比如"那個(gè)有特殊標(biāo)志的活動(dòng)"或"在某某之后的幾天"。AI偵探能夠利用這些不完整的線索,通過(guò)推理和探索找到完整的答案。
三、構(gòu)建推理訓(xùn)練場(chǎng):DISBench測(cè)試集的誕生
為了訓(xùn)練和測(cè)試這種新型的AI偵探,研究團(tuán)隊(duì)面臨一個(gè)巨大挑戰(zhàn):如何創(chuàng)建足夠復(fù)雜和真實(shí)的測(cè)試案例。傳統(tǒng)的圖像搜索測(cè)試集都是簡(jiǎn)單的"找蘋果"、"找貓"這類直接匹配任務(wù),根本無(wú)法評(píng)估復(fù)雜推理能力。
創(chuàng)建復(fù)雜推理任務(wù)的測(cè)試集就像編寫(xiě)精巧的偵探小說(shuō)。每個(gè)案例都需要精心設(shè)計(jì)的線索鏈條,目標(biāo)答案不能通過(guò)簡(jiǎn)單觀察得出,必須通過(guò)多步推理才能找到。但是,人工設(shè)計(jì)這樣的案例需要研究人員在數(shù)萬(wàn)張照片中尋找潛在的關(guān)聯(lián),這幾乎是不可能完成的任務(wù)。
研究團(tuán)隊(duì)想出了一個(gè)巧妙的解決方案:讓AI來(lái)幫助發(fā)現(xiàn)這些隱藏的關(guān)聯(lián)。他們開(kāi)發(fā)了一個(gè)半自動(dòng)化的"線索挖掘"系統(tǒng)。這個(gè)系統(tǒng)首先使用視覺(jué)語(yǔ)言模型分析每張照片,提取其中的關(guān)鍵視覺(jué)元素,比如特殊的建筑、獨(dú)特的物品、可識(shí)別的標(biāo)識(shí)等。然后,系統(tǒng)會(huì)在整個(gè)照片集中尋找這些元素的重現(xiàn),發(fā)現(xiàn)跨越時(shí)間和空間的關(guān)聯(lián)。
這個(gè)過(guò)程就像一個(gè)超級(jí)偵探在案發(fā)現(xiàn)場(chǎng)收集所有可能的線索。AI會(huì)注意到照片中的每一個(gè)細(xì)節(jié):墻上的海報(bào)、桌上的杯子、遠(yuǎn)處的建筑、人物的服裝等等。然后它會(huì)在數(shù)千張照片中尋找這些元素的其他出現(xiàn),建立起一個(gè)復(fù)雜的關(guān)聯(lián)網(wǎng)絡(luò)。
但AI發(fā)現(xiàn)的關(guān)聯(lián)并不都是有意義的。有時(shí)它可能會(huì)認(rèn)為兩個(gè)完全不同的物品是同一個(gè),或者發(fā)現(xiàn)一些純粹的巧合。因此,研究團(tuán)隊(duì)還需要人類專家來(lái)驗(yàn)證這些關(guān)聯(lián)。七名具有碩士以上學(xué)歷的計(jì)算機(jī)科學(xué)專業(yè)人員組成了驗(yàn)證團(tuán)隊(duì),他們使用專門設(shè)計(jì)的界面仔細(xì)檢查每個(gè)AI發(fā)現(xiàn)的關(guān)聯(lián),確認(rèn)其真實(shí)性和意義。
經(jīng)過(guò)這個(gè)嚴(yán)格的篩選過(guò)程,研究團(tuán)隊(duì)從2000個(gè)AI生成的候選案例中最終保留了122個(gè)高質(zhì)量的推理任務(wù)。這些任務(wù)涵蓋了兩種主要類型:事件內(nèi)推理和跨事件推理。
事件內(nèi)推理就像在一個(gè)聚會(huì)的照片中尋找特定場(chǎng)景。比如:"找到那個(gè)有藍(lán)白標(biāo)志音樂(lè)節(jié)中只有主唱在臺(tái)上的照片。"AI偵探需要先通過(guò)標(biāo)志找到正確的音樂(lè)節(jié),然后在該音樂(lè)節(jié)的照片中找到符合條件的畫(huà)面。
跨事件推理則更加復(fù)雜,需要在不同的時(shí)間和地點(diǎn)之間建立聯(lián)系。比如:"找到那個(gè)在半年內(nèi)不同旅行中都拍到的非石膏雕像的所有照片。"這需要AI在時(shí)間線上搜索,比較不同地點(diǎn)的照片,識(shí)別相同的物體,驗(yàn)證時(shí)間間隔等多個(gè)步驟。
最終的DISBench包含了來(lái)自57個(gè)用戶的109,467張照片,時(shí)間跨度平均為3.4年。每個(gè)查詢平均對(duì)應(yīng)3.84張目標(biāo)照片,而AI需要在不知道答案數(shù)量的情況下找到所有正確答案。這個(gè)測(cè)試集的難度在于,所有的目標(biāo)照片在視覺(jué)上都有很強(qiáng)的迷惑性,必須通過(guò)上下文推理才能準(zhǔn)確識(shí)別。
四、AI偵探的實(shí)戰(zhàn)表現(xiàn):令人意外的發(fā)現(xiàn)
當(dāng)研究團(tuán)隊(duì)用最先進(jìn)的AI模型來(lái)測(cè)試DISBench時(shí),結(jié)果令人震驚。即使是目前最強(qiáng)大的模型Claude-Opus-4.5,在這個(gè)測(cè)試集上的完全正確率(需要找到所有正確答案且無(wú)錯(cuò)誤答案)也只有28.7%。這個(gè)成績(jī)遠(yuǎn)遠(yuǎn)低于這些模型在傳統(tǒng)圖像搜索任務(wù)上接近完美的表現(xiàn)。
更有趣的發(fā)現(xiàn)是,模型在兩種類型任務(wù)上的表現(xiàn)差異很大。相對(duì)來(lái)說(shuō),事件內(nèi)推理任務(wù)稍微容易一些,因?yàn)樗邢嚓P(guān)證據(jù)都集中在一個(gè)特定時(shí)間段內(nèi)。但跨事件推理任務(wù)對(duì)所有模型來(lái)說(shuō)都是巨大挑戰(zhàn),因?yàn)樾枰陂L(zhǎng)時(shí)間跨度內(nèi)尋找和比較證據(jù)。
研究團(tuán)隊(duì)還測(cè)試了傳統(tǒng)圖像搜索方法在這個(gè)數(shù)據(jù)集上的表現(xiàn)。結(jié)果更加慘不忍睹:最好的傳統(tǒng)方法召回率只有14%左右,而且這些"正確"結(jié)果大多是誤打誤撞。這證實(shí)了研究團(tuán)隊(duì)的判斷:復(fù)雜的查詢確實(shí)需要推理能力,而非簡(jiǎn)單的特征匹配。
通過(guò)詳細(xì)的錯(cuò)誤分析,研究團(tuán)隊(duì)發(fā)現(xiàn)了AI偵探當(dāng)前面臨的主要困難。最大的問(wèn)題是"推理崩潰",占所有錯(cuò)誤的36-50%。這類錯(cuò)誤發(fā)生在AI找到了正確的線索和證據(jù),但在執(zhí)行多步推理計(jì)劃時(shí)出現(xiàn)了邏輯錯(cuò)誤或過(guò)早放棄。就像一個(gè)偵探找到了所有關(guān)鍵證據(jù),但在分析階段得出了錯(cuò)誤結(jié)論。
第二大問(wèn)題是"視覺(jué)辨別困難",特別是在判斷不同照片中的同一物體時(shí)。AI可能會(huì)認(rèn)為兩個(gè)相似但不同的建筑是同一個(gè),或者無(wú)法識(shí)別同一物體在不同角度、光照下的拍攝。這相當(dāng)于偵探的"觀察力"還需要提升。
還有相當(dāng)比例的錯(cuò)誤源于"線索定位失敗",即AI無(wú)法在大量照片中準(zhǔn)確找到查詢中提到的關(guān)鍵元素。比如查詢提到"藍(lán)白標(biāo)志",但AI可能會(huì)漏過(guò)相關(guān)照片,或者被相似但不相關(guān)的圖像誤導(dǎo)。
令人鼓舞的是,研究團(tuán)隊(duì)發(fā)現(xiàn)了"重復(fù)嘗試"的潛力。當(dāng)同一個(gè)查詢運(yùn)行多次時(shí),不同的嘗試可能會(huì)探索不同的推理路徑,有時(shí)能找到正確答案。最好情況下,多次嘗試的成功率可以從35%提升到61%,說(shuō)明AI偵探確實(shí)具備了找到正確答案的潛力,但還缺乏穩(wěn)定性。
五、技術(shù)突破的深層意義
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了圖像搜索本身。它揭示了當(dāng)前AI系統(tǒng)的一個(gè)根本性限制:缺乏真正的上下文推理能力。雖然現(xiàn)在的AI在很多任務(wù)上表現(xiàn)出色,但大多數(shù)都是基于模式識(shí)別和統(tǒng)計(jì)學(xué)習(xí),而非真正的邏輯推理。
DeepImageSearch展示了一種新的AI設(shè)計(jì)思路:不是讓系統(tǒng)變得更加復(fù)雜和強(qiáng)大,而是讓它學(xué)會(huì)使用工具、制定計(jì)劃、執(zhí)行多步驟的推理過(guò)程。這種"工具使用型"AI更接近人類解決復(fù)雜問(wèn)題的方式,也更容易理解和控制。
從實(shí)際應(yīng)用角度來(lái)看,這種技術(shù)將為個(gè)人數(shù)字助手帶來(lái)革命性改變。未來(lái)的智能手機(jī)可能真正理解你的查詢意圖,不僅能找到表面符合要求的照片,還能理解照片背后的故事和關(guān)聯(lián)。當(dāng)你說(shuō)"找找我們第一次約會(huì)那天晚上看電影后吃夜宵的照片"時(shí),AI助手能夠理解時(shí)間順序、事件關(guān)聯(lián),并找到正確的記憶片段。
這種能力對(duì)于老年人或記憶力衰退的人群尤其重要。他們往往只能記得事件的片段信息,但AI偵探可以幫助他們重建完整的記憶鏈條,找到珍貴的回憶。
研究還為企業(yè)級(jí)應(yīng)用開(kāi)辟了新的可能性。在安防監(jiān)控、檔案管理、新聞編輯等領(lǐng)域,人們經(jīng)常需要在海量視覺(jué)材料中尋找特定的內(nèi)容和關(guān)聯(lián)。傳統(tǒng)的標(biāo)簽化管理方式往往無(wú)法涵蓋所有可能的查詢需求,而推理式搜索可以處理各種意想不到的復(fù)雜查詢。
更深層的意義在于,這項(xiàng)研究為AI的"理解"能力提供了新的評(píng)估標(biāo)準(zhǔn)。傳統(tǒng)的AI評(píng)估往往關(guān)注準(zhǔn)確率、速度等指標(biāo),但這些指標(biāo)無(wú)法衡量AI是否真正"理解"了任務(wù)。DeepImageSearch提供了一個(gè)新的視角:真正的理解應(yīng)該體現(xiàn)在處理復(fù)雜、模糊、需要推理的任務(wù)上。
六、未來(lái)的挑戰(zhàn)與機(jī)遇
研究團(tuán)隊(duì)坦率地承認(rèn)了當(dāng)前系統(tǒng)的局限性。DISBench雖然具有開(kāi)創(chuàng)性意義,但規(guī)模相對(duì)較小,只包含122個(gè)查詢。這主要是因?yàn)閯?chuàng)建高質(zhì)量的推理任務(wù)需要大量的人工驗(yàn)證工作。未來(lái)需要開(kāi)發(fā)更高效的自動(dòng)化方法來(lái)擴(kuò)大數(shù)據(jù)集規(guī)模。
當(dāng)前的AI偵探在穩(wěn)定性方面還需要改進(jìn)。雖然它有潛力找到正確答案,但成功率還不夠高,有時(shí)會(huì)因?yàn)橐粋€(gè)小的推理錯(cuò)誤而功敗垂成。這就像一個(gè)聰明但經(jīng)驗(yàn)不足的偵探,有時(shí)會(huì)被復(fù)雜的案情繞糊涂。
隱私問(wèn)題也是一個(gè)重要考量。雖然研究使用的是公開(kāi)數(shù)據(jù)集,但在實(shí)際應(yīng)用中,這種深度的照片分析和關(guān)聯(lián)挖掘可能涉及用戶隱私。如何在提供智能服務(wù)的同時(shí)保護(hù)用戶隱私,是技術(shù)推廣過(guò)程中必須解決的問(wèn)題。
數(shù)據(jù)依賴性是另一個(gè)挑戰(zhàn)。當(dāng)前系統(tǒng)假設(shè)照片都有完整的時(shí)間和地理位置信息,但現(xiàn)實(shí)中很多照片缺乏這些元數(shù)據(jù)。系統(tǒng)需要學(xué)會(huì)在不完整信息條件下進(jìn)行推理,或者開(kāi)發(fā)能夠從圖像本身推斷時(shí)空信息的技術(shù)。
盡管面臨這些挑戰(zhàn),研究的前景依然令人興奮。隨著多模態(tài)大語(yǔ)言模型的快速發(fā)展,AI的推理能力正在不斷提升。結(jié)合更強(qiáng)大的視覺(jué)理解能力和更精確的邏輯推理能力,未來(lái)的AI偵探可能真正接近人類水平的復(fù)雜推理能力。
更重要的是,這種推理式AI的思路可以擴(kuò)展到其他領(lǐng)域。無(wú)論是文檔搜索、代碼分析,還是科學(xué)研究中的數(shù)據(jù)挖掘,都可能受益于這種"工具使用+多步推理"的方法。
研究團(tuán)隊(duì)已經(jīng)開(kāi)源了DISBench數(shù)據(jù)集和ImageSeeker框架,為整個(gè)學(xué)術(shù)界提供了研究這一新方向的基礎(chǔ)。他們希望更多研究者加入,共同推進(jìn)推理式AI的發(fā)展。畢竟,讓AI學(xué)會(huì)像人類一樣思考和推理,一直是人工智能領(lǐng)域的終極目標(biāo)之一。
說(shuō)到底,這項(xiàng)研究揭示了一個(gè)深刻的道理:真正的智能不僅僅是識(shí)別和匹配,更是理解、推理和創(chuàng)造性地解決問(wèn)題。當(dāng)我們的數(shù)字助手真正學(xué)會(huì)了這種能力時(shí),人機(jī)交互將迎來(lái)一個(gè)全新的時(shí)代。你將不再需要記住具體的文件名或標(biāo)簽,只要描述你的需求和模糊的記憶,AI就能幫你找到想要的一切。這不僅是技術(shù)的進(jìn)步,更是讓我們的數(shù)字生活變得更加人性化和智能化的重要一步。
Q&A
Q1:DeepImageSearch和傳統(tǒng)圖像搜索有什么本質(zhì)區(qū)別?
A:傳統(tǒng)圖像搜索就像一個(gè)只會(huì)按圖索驥的機(jī)器,看到蘋果就找蘋果,完全不會(huì)思考。而DeepImageSearch更像一個(gè)會(huì)推理的偵探,能夠理解"找到那個(gè)穿34號(hào)球衣的冰球運(yùn)動(dòng)員,這個(gè)號(hào)碼是奧尼爾獲總決賽MVP時(shí)的號(hào)碼"這樣的復(fù)雜查詢,先推理出34號(hào),再找對(duì)應(yīng)球員。
Q2:DISBench測(cè)試集是怎么構(gòu)建出來(lái)的?
A:研究團(tuán)隊(duì)讓AI先在數(shù)萬(wàn)張照片中自動(dòng)尋找各種關(guān)聯(lián)線索,比如相同的物品在不同時(shí)間地點(diǎn)出現(xiàn),然后由7名計(jì)算機(jī)專業(yè)人員驗(yàn)證這些關(guān)聯(lián)是否真實(shí)有意義。從2000個(gè)候選案例中最終篩選出122個(gè)需要多步推理才能解決的高質(zhì)量測(cè)試題。
Q3:目前最強(qiáng)的AI模型在這個(gè)測(cè)試上表現(xiàn)如何?
A:即使是最先進(jìn)的Claude-Opus-4.5模型,完全正確率也只有28.7%,遠(yuǎn)低于它們?cè)趥鹘y(tǒng)圖像搜索上接近完美的表現(xiàn)。主要問(wèn)題是推理過(guò)程容易崩潰,找到線索后卻得出錯(cuò)誤結(jié)論,就像聰明但經(jīng)驗(yàn)不足的偵探會(huì)被復(fù)雜案情繞糊涂。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.