網易首頁 > 網易號 > 正文申請入駐

愛丁堡大學：搜索引擎在智能代理"深度研究"中的驚人表現差異

2026-02-27 22:08:08　來源: 科技行者

北京舉報

分享至

這項由愛丁堡大學、格拉斯哥大學聯合開展的研究發表于2026年2月25日的arXiv預印本平臺，論文編號為arXiv:2602.21456v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。

想象你是一個需要解答復雜問題的智能助手，就像一個超級聰明的研究員，需要在互聯網的海洋中搜尋信息。但問題是，你使用的搜索工具就像不同品牌的釣魚竿，有些擅長捕撈大魚，有些適合釣小魚，而你面對的"魚塘"環境也在不斷變化。這正是當前人工智能領域一個非常實際的挑戰：當AI代理需要進行"深度研究"時，現有的文本排序和搜索方法到底表現如何？

深度研究是一個相對較新的概念，可以把它理解為AI版本的"調查記者"工作。就像優秀的記者需要通過多輪深入采訪、交叉驗證信息來完成一篇深度報道一樣，AI代理也需要通過多次搜索、推理和信息整合來回答那些復雜、需要深入思考的問題。這些問題往往不能通過一次簡單的搜索就得到答案，而需要像拼圖一樣，從不同角度收集信息片段，最終組合成完整的答案。

然而，現有的大多數研究都依賴于"黑盒子"式的網絡搜索接口，就像使用一個完全封閉的搜索引擎，你只能輸入問題，得到結果，卻無法了解內部是如何工作的。這種情況讓研究人員很難分析到底是哪個環節出了問題，也無法系統地改進搜索效果。

為了解決這個問題，愛丁堡大學的研究團隊決定打開這個"黑盒子"，詳細分析各種文本搜索和排序方法在深度研究場景中的真實表現。他們就像汽車測試工程師一樣，把各種不同的"引擎"放到相同的"測試跑道"上，看看哪種在特定條件下跑得最快、最穩定。

這項研究的獨特之處在于，它首次在深度研究的背景下，系統性地比較了多種文本排序方法的效果。研究團隊選擇了BrowseComp-Plus這個專門設計的數據集作為"測試跑道"，這個數據集包含了830個需要深度思考的復雜問題，就像830道需要多步解題的數學應用題。與以往不同的是，這個數據集提供了固定的文檔庫和人工驗證的相關性判斷，讓所有的"選手"都在完全相同的條件下比賽。

研究團隊設計了三個核心研究問題，就像三場不同規則的比賽。第一場比賽關注的是"顆粒度"問題：AI代理是應該一次性閱讀整篇文檔（就像讀整本書），還是分段閱讀（就像讀書的章節）？第二場比賽測試的是"二次篩選"的效果：在初步搜索結果的基礎上，是否需要再進行一輪精細排序？第三場比賽探討的是"語言風格匹配"問題：AI代理發出的搜索指令與搜索工具"習慣"的指令格式是否匹配？

為了確保測試的公平性和全面性，研究團隊選擇了兩個開源的AI代理作為"測試員"：gpt-oss-20b和GLM-4.7-Flash。這兩個代理就像兩個不同風格的研究助手，一個擅長在有限的"工作空間"中高效作業，另一個擁有更大的"工作空間"但需要更多資源。

在搜索工具的選擇上，研究團隊覆蓋了目前主流的四大類搜索方法。第一類是傳統的"關鍵詞匹配"方法BM25，就像傳統的圖書館卡片索引系統，通過精確匹配關鍵詞來查找信息。第二類是"學習型稀疏"方法SPLADE-v3，可以理解為升級版的關鍵詞搜索，能夠理解詞匯之間的關聯性。第三類包括兩種"密集向量"方法RepLLaMA和Qwen3-Embed-8B，它們將文本轉換為數字向量進行比較，就像給每個文檔創建一個獨特的"數字指紋"。第四類是"多向量密集"方法ColBERTv2，可以看作是更精細的指紋比對系統，能夠在更細致的層面上進行匹配。

在排序優化工具方面，研究團隊選擇了三種代表不同性能和成本權衡的方法：相對經濟的monoT5-3B、基于大語言模型的RankLLaMA-7B，以及具有推理能力的Rank1-7B。這就像選擇三種不同級別的"審稿專家"，從快速篩選到深度分析，各有所長。

一、段落級信息單位：小塊拼圖的優勢

研究的第一個重要發現涉及信息處理的基本單位選擇。就像讀書時你可以選擇一章章地讀，也可以選擇一節節地讀一樣，AI代理在處理網絡信息時也面臨類似的選擇：是處理完整的網頁文檔，還是處理分割成小段的文字？

傳統的做法是讓AI代理直接處理完整的網頁文檔，但這帶來了一個實際問題：完整的網頁往往很長，就像一本厚重的百科全書，如果要把整本書的內容都塞進AI的"工作記憶"中，很快就會超出容量限制。為了解決這個問題，以往的研究通常會截取文檔的前面部分，比如只讀前500個字，然后丟棄后面的內容。這就像只讀每本書的前幾頁就下結論，顯然可能錯過重要信息。

雖然有研究嘗試通過添加"完整文檔閱讀器"來解決這個問題，讓AI代理在需要時可以調用完整文檔，但這增加了系統的復雜性，就像給研究員配備一個圖書管理員，雖然有用但增加了操作步驟。

研究團隊提出了一個看似簡單但實際很有效的解決方案：將長文檔切分成短小的段落，讓AI代理直接處理這些"信息片段"。這種方法的優勢是多方面的。首先，短段落不會占用太多"工作記憶"，讓AI代理能夠進行更多輪次的搜索和思考。其次，AI代理可以直接訪問文檔中任何相關的部分，避免了截取帶來的信息丟失。再次，對于傳統的關鍵詞搜索方法來說，處理短文本比處理長文本更容易，因為不需要復雜的長度標準化處理。

實驗結果證實了這種方法的有效性。以gpt-oss-20b代理為例，當使用SPLADE-v3搜索方法時，處理段落級信息比處理文檔級信息的準確率提高了8.4%，從47.6%提升到51.6%。這種改進在具有較小"工作空間"的AI代理身上表現得更加明顯，因為段落級處理讓它們能夠在達到容量限制之前進行更多次的搜索和推理。

有趣的是，這種優勢在擁有更大"工作空間"的GLM-4.7-Flash代理身上相對較小，提升幅度約為4%。這說明"工作空間"大小確實是影響這種方法效果的重要因素。同時，研究還發現，兩個代理在處理段落時都會發起更多次的搜索調用，這表明段落級處理確實為更充分的信息探索創造了條件。

更進一步的測試表明，當為段落級信息配備"完整文檔閱讀器"時，效果反而略有下降。這說明段落級處理本身已經能夠提供足夠的信息訪問能力，額外的文檔閱讀器變得多余，就像已經有了詳細的地圖還要攜帶望遠鏡一樣。

二、傳統關鍵詞搜索的意外復出

在這場"搜索工具大比拼"中，最令人意外的結果之一是傳統關鍵詞搜索方法BM25的強勢表現。BM25就像是搜索工具中的"老將"，誕生于1990年代，原理相對簡單：通過精確匹配查詢詞匯來尋找相關文檔。在神經網絡和深度學習大行其道的今天，很多人以為這種"古老"的方法已經過時了。

然而，實驗結果顯示，當使用gpt-oss-20b代理在段落級信息上搜索時，BM25不僅沒有落后，反而取得了所有測試配置中的最高準確率：57.2%。這個結果甚至超過了那些參數量達到數十億的現代神經網絡搜索方法。

這種意外的優勢有其深層原因。通過分析AI代理實際發出的搜索指令，研究人員發現了一個重要模式：AI代理習慣于使用"網絡搜索風格"的查詢語句。這些查詢通常包含關鍵詞、短語和引號標記的精確匹配要求，就像我們在Google中輸入"人工智能"+"深度學習"+2024這樣的搜索條件。

這種查詢風格天然地適合傳統的關鍵詞匹配方法。BM25就像一個嚴格按照字典查詞的圖書管理員，當你給它精確的關鍵詞時，它能夠快速找到包含這些詞匯的文檔。相比之下，現代的神經網絡搜索方法更像是一個"理解語義"的助手，它們在處理自然語言問題時表現出色，但面對關鍵詞式的查詢時反而可能"過度解讀"。

這個發現具有重要的實踐意義。它提醒我們，在評估搜索技術時，不能只看方法本身的先進程度，還要考慮使用環境和查詢特點的匹配度。就像不同的鑰匙適合不同的鎖一樣，不同的搜索方法適合不同類型的查詢。

不過，BM25的表現并不是在所有情況下都如此突出。當處理完整文檔時，使用標準參數設置的BM25表現相對較差。深入分析發現，這與文檔長度標準化處理有關。BM25有兩個重要參數：k1控制詞頻飽和度，b控制文檔長度標準化。對于長文檔，需要適當調整這些參數才能獲得最佳效果。

當研究團隊將BM25的參數從默認設置（k1=0.9, b=0.4）調整為適合文檔搜索的設置（k1=3.8, b=0.87）時，性能得到了顯著提升，召回率提高了76.8%，準確率提高了71.0%。這再次說明，傳統方法在適當調優后仍然具有很強的競爭力。

三、小而精的搜索方法勝過大而全

在現代AI發展中，有一種普遍的觀念認為"越大越好"：參數更多、模型更大的系統通常性能更強。然而，這項研究在文本搜索領域發現了一個有趣的反例：那些基于BERT模型、參數量相對較少的搜索方法，在某些方面竟然超過了參數量達到數十億的大型語言模型搜索方法。

具體來說，SPLADE-v3（學習型稀疏搜索）和ColBERTv2（多向量密集搜索）這兩種基于BERT的方法，雖然參數量只有數千萬到數億，但在處理AI代理發出的網絡搜索風格查詢時，consistently表現優于那些基于7B或8B參數大型語言模型的單向量密集搜索方法RepLLaMA和Qwen3-Embed-8B。

這種現象的出現有其技術原因。SPLADE-v3和ColBERTv2都具有更強的"精確匹配"能力。SPLADE-v3雖然是學習型方法，但它保持了稀疏向量的特性，這意味著它在處理關鍵詞和精確匹配時仍然保留了傳統方法的優勢。ColBERTv2采用多向量方法，能夠在更細致的層面上進行文本匹配，特別適合處理需要精確匹配的查詢。

相比之下，單向量密集搜索方法雖然在理解語義和處理自然語言方面有優勢，但在面對關鍵詞驅動的查詢時可能"想得太多"。就像一個過于聰明的學生，在回答簡單的選擇題時反而會過度分析，錯過正確答案。

這個發現對搜索技術的發展具有重要啟示。它表明，在特定應用場景中，"適配性"比"復雜性"更重要。一個在通用自然語言理解任務上表現卓越的大模型，在特定的搜索任務中可能不如專門針對該任務優化的小模型。

同時，這也提醒我們在選擇AI工具時要考慮任務特點。如果你的應用主要涉及關鍵詞搜索和精確匹配，那么選擇專門優化過的小模型可能比使用通用大模型更有效，同時還能節省計算資源。

四、二次排序的強化效應

在信息檢索中，通常會采用"兩階段"策略：首先用相對簡單快速的方法從大量文檔中篩選出候選文檔，然后用更精細但計算量更大的方法對候選文檔進行重新排序。這就像先用粗篩網過濾掉大塊雜質，再用細篩網精選出最優質的部分。

研究結果顯示，這種二次排序策略在深度研究場景中表現出色。以gpt-oss-20b代理配合BM25初次搜索和monoT5-3B重排序為例，相比只使用BM25搜索，加入重排序后召回率提高了16.23%，準確率提高了20.45%，同時搜索調用次數還減少了10.98%。

最令人印象深刻的是，這種相對"經濟"的組合竟然達到了71.6%的召回率和68.9%的準確率，接近使用商業頂級模型GPT-5的70.1%準確率。這說明，通過合理的技術組合，即使使用相對簡單的工具也能達到接近頂級商業服務的效果。

重排序效果的提升遵循幾個有趣的規律。首先，"重排序深度"越大，效果通常越好。重排序深度指的是對多少個初步結果進行重新排序。從重排序前10個結果增加到20個，再到50個，準確率逐步提升。這就像藝術品鑒定，看得越多，選出精品的可能性越大。

其次，初始搜索方法的質量會影響重排序的效果。更強的初始搜索為重排序提供了更好的"原材料"，就像用優質食材更容易烹飪出美味佳肴。當使用BM25作為初始搜索時，配合monoT5重排序的效果比使用Qwen3-Embed-8B作為初始搜索時好得多。

有趣的是，基于推理的重排序方法Rank1-7B并沒有表現出預期的優勢。這種方法會在做出判斷前先"思考"一番，生成推理過程，然后再給出相關性評分。理論上這應該更準確，但實際測試中它的表現與不進行推理的方法差不多，有時甚至更差。

分析發現，問題出現在查詢風格的不匹配上。Rank1-7B是在自然語言問題上訓練的，當面對AI代理發出的關鍵詞式查詢時，它的"推理"能力反而成了負擔。就像一個習慣于分析復雜文學作品的教授，在面對簡單的詞匯測試時可能反而發揮不好，因為過度分析導致誤解了題目意圖。

五、語言風格的隱秘影響

研究的第三個重要發現涉及一個往往被忽視但影響深遠的問題：AI代理發出的搜索查詢與搜索工具期望的查詢格式之間可能存在"溝通障礙"。這就像一個習慣說方言的人與只懂普通話的服務員交流，即使表達的是同樣的需求，理解效果也可能大打折扣。

現代的神經網絡搜索方法大多在MS MARCO等數據集上訓練，這些數據集包含的查詢都是自然語言問題，比如"什么是人工智能？"或"如何制作巧克力蛋糕？"這些問題語法完整，表達清晰，就像標準的客服詢問。

然而，AI代理在實際工作中發出的查詢卻很不一樣。它們更像是網絡搜索風格的關鍵詞組合，比如"人工智能"定義 OR "機器學習"基礎概念，或者"巧克力蛋糕"制作方法"簡單"。這些查詢包含引號標記的精確匹配要求、關鍵詞組合和特殊符號，更像是搜索引擎的高級語法。

為了測試這種"語言風格不匹配"的影響，研究團隊開發了一個"查詢到問題"（Q2Q）的轉換方法。這個方法就像一個翻譯器，能夠將AI代理發出的關鍵詞式查詢轉換為自然語言問題。

轉換的效果確實顯著。以SPLADE-v3搜索為例，使用轉換后的自然語言問題進行搜索，召回率提高了7.34%，準確率提高了7.95%。這種改進在需要語義理解的神經網絡搜索方法上特別明顯，而對傳統的關鍵詞匹配方法BM25影響不大，甚至略有負面影響。

這個發現揭示了一個重要問題：搜索工具的訓練數據與實際應用場景之間可能存在顯著差異。許多看似先進的搜索技術在實驗室環境中表現出色，但在實際應用中可能因為查詢風格的不匹配而效果打折。

研究還發現，轉換方法的效果取決于能否準確把握AI代理的搜索意圖。僅基于查詢本身的轉換效果有限，因為關鍵詞式查詢往往信息不夠充分，容易產生歧義。但如果結合AI代理的推理過程進行轉換，效果就會明顯改善。這就像了解了說話者的背景和上下文后，能夠更準確地理解其真實意圖。

六、文檔長度處理的技術細節

在深入分析BM25方法的表現時，研究團隊發現了一個重要的技術細節：文檔長度標準化參數的設置對搜索效果有著決定性影響。這個看似技術性的發現實際上揭示了傳統搜索方法仍然具有強大潛力，關鍵在于正確的調優。

BM25方法使用兩個核心參數來平衡搜索效果。參數k1控制詞頻飽和度，可以理解為"關鍵詞出現多少次才算夠"的閾值。參數b控制文檔長度標準化，決定長文檔相對于短文檔的"懲罰程度"。在處理網頁文檔這樣的長文本時，這些參數的設置變得尤為重要。

使用傳統的默認參數設置（k1=0.9, b=0.4）時，BM25在完整文檔上的表現確實不佳，這也是為什么許多研究認為傳統方法已經過時的原因。然而，當研究團隊調整為適合文檔搜索的參數（k1=3.8, b=0.87）時，性能出現了戲劇性的改善。

這種改善的幅度是驚人的：召回率提高了76.8%，準確率提高了71.0%。這種程度的性能提升足以改變我們對傳統搜索方法的整體評價。更有趣的是，當研究團隊嘗試將每個文檔只索引前512個詞時，BM25的性能也得到了顯著提升，召回率提高64.2%，準確率提高98.1%。

這些結果說明，BM25方法本身并沒有過時，問題出在參數設置上。就像一輛好車配了不合適的輪胎，性能自然發揮不出來。一旦選對了"輪胎"，這輛"老車"仍然能夠跑得很快。

通過系統性的參數網格搜索，研究團隊發現在處理BrowseComp-Plus數據集時，較大的b值（接近1.0）通常能帶來更好的效果，這意味著對長文檔進行更嚴格的"懲罰"是有益的。同時，k1值在較大范圍內都能保持良好效果，說明這個參數相對不敏感。

這個發現對實際應用具有重要指導意義。它提醒我們在使用任何搜索技術時，都應該根據具體的數據特點和應用場景進行適當的參數調優，而不是簡單地使用默認設置。同時，它也說明新技術與傳統方法的比較應該在公平的條件下進行，包括為每種方法選擇最優的參數設置。

七、計算資源與效果的平衡

這項研究的一個重要價值在于它提供了不同技術方案在效果和計算成本之間的權衡分析。在實際應用中，最先進的技術并不總是最佳選擇，因為還需要考慮計算資源、響應速度和部署復雜度等因素。

研究結果顯示，相對簡單的技術組合能夠達到接近頂級商業服務的效果。使用20B參數的gpt-oss-20b代理、傳統的BM25搜索方法和3B參數的monoT5重排序器，這個"經濟型"組合實現了68.9%的準確率，非常接近使用先進商業模型GPT-5的70.1%準確率。

這種"性價比"優勢在資源受限的環境中特別有價值。對于許多研究機構和初創公司來說，部署和運行大型商業模型的成本可能是一個重要考慮因素。研究結果表明，通過精心設計的技術組合，可以用相對較小的成本獲得接近頂級的性能。

段落級信息處理在這個平衡中也發揮了重要作用。通過將長文檔分割成短段落，不僅提高了搜索準確性，還減少了每次處理的計算量，讓AI代理能夠在相同的計算預算下進行更多輪次的搜索和推理。這種方法特別適合那些內存或處理能力有限的環境。

同時，研究還發現重排序深度的選擇存在邊際收益遞減的規律。雖然更深度的重排序通常能帶來更好的效果，但改善幅度會逐步下降，而計算成本卻會持續上升。這提示實際應用中需要根據具體需求找到最優的深度設置點。

研究團隊還測試了不同重排序方法的效率差異。基于推理的Rank1方法雖然理論上更智能，但需要生成額外的推理文本，計算成本明顯高于簡單的判斷型重排序方法，而效果提升卻有限。這再次說明，在實際應用中需要綜合考慮效果和效率。

八、完整文檔閱讀器的補充作用

為了應對文檔截取可能導致的信息丟失問題，一些研究引入了"完整文檔閱讀器"工具。這種工具允許AI代理在需要時調用完整文檔進行深度閱讀，就像給研究員配備一個可以隨時調用的詳細資料庫。

實驗結果顯示，這種工具在不同情況下發揮著不同的作用。當使用完整文檔作為基本信息單位時，添加完整文檔閱讀器能夠部分補償文檔截取帶來的信息損失。比如，使用gpt-oss-20b代理配合SPLADE-v3搜索時，啟用文檔閱讀器后準確率從47.6%提升到52.9%。

這種改善的原理是顯而易見的：截取的文檔可能恰好遺漏了關鍵信息，而完整文檔閱讀器能夠提供完整的上下文。同時，有了這個工具后，AI代理的搜索策略也會相應調整，搜索次數有所減少，因為它知道可以通過深度閱讀獲得更多信息。

然而，當基本信息單位改為段落時，完整文檔閱讀器的作用就變得很有限，甚至略有負面影響。使用gpt-oss-20b配合BM25搜索段落時，啟用文檔閱讀器后準確率從57.2%略微下降到54.2%。

這種差異的原因在于段落級處理本身已經解決了信息訪問的問題。通過搜索段落，AI代理實際上已經能夠訪問到文檔中的任何相關部分，完整文檔閱讀器變得多余。更糟糕的是，額外的工具選擇可能干擾AI代理的決策過程，就像選擇過多反而讓人猶豫不決一樣。

這個發現對系統設計具有重要啟示：工具并非越多越好，關鍵是要根據基礎架構的特點來配置輔助工具。當基礎架構已經能夠很好地解決某個問題時，額外的解決方案可能不僅無助，還可能產生干擾。

九、訓練數據與應用場景的適配性

研究的一個重要貢獻是深入分析了訓練數據與實際應用場景之間的匹配度問題。這個問題在機器學習領域經常被提及，但在文本搜索的深度研究應用中還缺乏系統性的分析。

大多數現代神經網絡搜索方法都是在MS MARCO等標準數據集上訓練的，這些數據集的查詢具有明顯的特點：它們是完整的自然語言問題，語法規范，表達清晰。比如"紐約的人口是多少？"或"如何預防感冒？"這樣的問題。

但AI代理在深度研究任務中發出的查詢卻很不一樣。通過對實際查詢的分析，研究團隊發現AI代理更傾向于使用關鍵詞組合、引號標記和特殊搜索語法，就像經驗豐富的搜索引擎用戶會做的那樣。比如"紐約"人口統計 2024，或者"感冒預防"方法"有效"。

這種風格差異導致了一個有趣的現象：那些在標準評測中表現優異的先進搜索方法，在面對AI代理的實際查詢時可能發揮不佳。就像一個只習慣于處理正式商業郵件的助理，在面對簡短的即時消息時可能理解出現偏差。

查詢到問題（Q2Q）轉換方法的成功證明了這種匹配度的重要性。通過將AI代理的關鍵詞式查詢轉換為自然語言問題，神經網絡搜索方法的表現得到了顯著改善。這種改善不是因為查詢內容的變化，而是因為表達方式更符合搜索模型的"期待"。

更深入的分析顯示，僅僅基于查詢本身的轉換效果有限，因為關鍵詞式查詢往往信息不夠充分。但如果結合AI代理的推理上下文進行轉換，效果會明顯改善。這說明理解查詢的真實意圖比簡單的格式轉換更重要。

這個發現對搜索技術的未來發展具有重要啟示。隨著AI代理的廣泛應用，搜索系統需要適應新的查詢模式。未來的搜索技術應該考慮在訓練階段就包含多樣化的查詢風格，或者開發能夠自適應不同查詢風格的技術。

說到底，這項來自愛丁堡大學和格拉斯哥大學的研究為我們打開了一個全新的視角。它不僅系統性地評估了各種文本搜索技術在深度研究場景中的表現，更重要的是揭示了一系列違反直覺的發現：傳統方法在適當調優后仍然具有強大競爭力，小而精的技術有時勝過大而全的系統，技術組合的效果可能超過單一先進技術。

這些發現對AI系統的實際部署具有重要的指導價值。它提醒我們在追求技術先進性的同時，不要忽視實用性和適配性。最好的技術不一定是最復雜的技術，而是最適合特定應用場景的技術。同時，它也說明了基礎研究的重要性：只有通過系統性的實驗和分析，才能真正理解技術的優勢和局限，為實際應用提供可靠的指導。

隨著AI代理在各個領域的廣泛應用，類似的深度研究將變得越來越重要。我們需要更多這樣的系統性研究來幫助我們理解和優化AI系統的各個組件，確保它們能夠在真實環境中發揮最佳效果。畢竟，技術的價值最終要在實際應用中得到體現。

對于普通用戶而言，這項研究也傳遞了一個重要信息：在選擇和使用AI工具時，需要考慮工具與你的使用習慣和需求特點的匹配度。就像選擇合適的搜索策略一樣，理解工具的特性并相應調整使用方式，往往能獲得更好的效果。

Q&A

Q1：深度研究中的段落級處理相比完整文檔處理有什么優勢？

A：段落級處理有四個主要優勢。首先，短段落不會占用AI代理太多"工作記憶"，讓它能進行更多輪搜索和思考；其次，AI代理可以直接訪問文檔中任何相關部分，避免截取導致的信息丟失；再次，傳統搜索方法處理短文本比長文本更容易，不需要復雜的長度標準化；最后，現有的神經網絡搜索技術大多針對段落級輸入進行優化。實驗顯示，gpt-oss-20b使用段落處理比文檔處理準確率提高8.4%。

Q2：為什么傳統的BM25搜索方法在深度研究中表現這么好？

A：BM25表現出色主要因為AI代理的查詢風格與其特點高度匹配。AI代理習慣發出"網絡搜索風格"的關鍵詞查詢，包含精確匹配、關鍵詞組合和特殊符號，這正是BM25擅長處理的。相比之下，現代神經網絡搜索方法更適合自然語言問題，面對關鍵詞查詢時反而可能"過度解讀"。實驗中，gpt-oss-20b配合BM25在段落搜索中達到了57.2%的最高準確率，超過了參數量達數十億的神經網絡方法。

Q3：什么是查詢到問題轉換方法，它為什么有效？

A：查詢到問題（Q2Q）轉換方法是將AI代理發出的關鍵詞式查詢轉換為自然語言問題的技術。比如將"人工智能"定義轉換為"什么是人工智能？"這種方法有效是因為現代神經網絡搜索方法大多在自然語言問題上訓練，但AI代理實際發出的是關鍵詞式查詢，存在"語言風格不匹配"。使用Q2Q轉換后，SPLADE-v3搜索的召回率提高7.34%，準確率提高7.95%，顯著改善了神經網絡搜索方法的效果。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.