網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

OPPO AI團(tuán)隊(duì)突破：減少70%推理步驟提升AI智能體準(zhǔn)確率

2026-02-28 22:55:15　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由OPPO AI Agent團(tuán)隊(duì)完成的研究發(fā)表于2026年2月，論文編號(hào)為arXiv:2602.22675v1，感興趣的讀者可以通過該編號(hào)查詢完整論文。研究團(tuán)隊(duì)針對(duì)當(dāng)前深度研究智能體面臨的效率與泛化難題，提出了一個(gè)顛覆性的解決方案。

當(dāng)我們談?wù)揂I智能體時(shí)，不妨把它們想象成研究圖書館里的助手。傳統(tǒng)的AI助手就像一個(gè)按部就班的學(xué)者，遇到問題時(shí)會(huì)坐在桌前長(zhǎng)時(shí)間沉思，一步接一步地推理，雖然最終能得出答案，但過程緩慢且耗費(fèi)大量時(shí)間。而OPPO團(tuán)隊(duì)提出的新方法則像是一個(gè)經(jīng)驗(yàn)豐富的圖書管理員，面對(duì)復(fù)雜問題時(shí)不是埋頭苦思，而是同時(shí)派遣多個(gè)助手到不同的書架搜集信息，然后快速整合這些信息得出答案。這種"搜索多，思考少"的策略不僅更加高效，而且準(zhǔn)確率還更高。

研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：目前的深度研究智能體主要通過增加推理深度來(lái)提升性能，這就像讓一個(gè)人在解數(shù)學(xué)題時(shí)不斷地在草稿紙上演算更多步驟。雖然這種方法確實(shí)能提高準(zhǔn)確率，但代價(jià)是推理成本和延遲時(shí)間大幅增加。更關(guān)鍵的是，這些智能體在面對(duì)不同類型任務(wù)時(shí)往往表現(xiàn)不佳，就像一個(gè)只會(huì)解代數(shù)題的學(xué)生突然遇到幾何題時(shí)會(huì)手足無(wú)措。

為了解決這些問題，研究團(tuán)隊(duì)開發(fā)了名為SMTL（Search More, Think Less）的框架。這個(gè)框架的核心理念是用并行的證據(jù)獲取替代順序推理，就像用多線程處理替代單線程處理一樣。在實(shí)際應(yīng)用中，SMTL能夠在最多100次交互步驟內(nèi)，將BrowseComp基準(zhǔn)測(cè)試中的平均推理步數(shù)減少70.7%，同時(shí)準(zhǔn)確率從41.2%提升到48.6%。

這項(xiàng)研究的創(chuàng)新之處在于重新定義了智能體解決問題的方式。與其讓AI花費(fèi)大量時(shí)間進(jìn)行深度思考，不如讓它高效地搜集更多相關(guān)信息，然后基于這些信息快速做出決策。這種方法不僅適用于確定性的問答任務(wù)，也能很好地處理開放式的研究問題，展現(xiàn)出了優(yōu)秀的泛化能力。

一、傳統(tǒng)智能體的困境：深度推理的代價(jià)

當(dāng)前的深度研究智能體面臨著一個(gè)根本性的矛盾。為了提升性能，它們普遍采用增加推理深度和工具調(diào)用次數(shù)的策略，這就像讓一個(gè)廚師為了做出更好的菜而不斷增加烹飪步驟。雖然最終的菜品可能確實(shí)更加精致，但烹飪時(shí)間也會(huì)成倍增長(zhǎng)，成本和等待時(shí)間都讓人難以接受。

這種問題在搜索密集型場(chǎng)景中表現(xiàn)得尤為突出。傳統(tǒng)智能體在處理復(fù)雜查詢時(shí)，往往會(huì)陷入線性、順序化的推理模式。它們像一個(gè)按照嚴(yán)格程序工作的調(diào)查員，必須完成第一步調(diào)查后才能開始第二步，每一步都要仔細(xì)分析和思考，整個(gè)過程雖然嚴(yán)謹(jǐn)?shù)实拖隆?/p>

更令人頭疼的是泛化問題。現(xiàn)有的智能搜索任務(wù)可以大致分為兩類：一類是有明確答案的確定性問答任務(wù)，比如"誰(shuí)是某公司的創(chuàng)始人"這樣的問題；另一類是沒有標(biāo)準(zhǔn)答案的開放式研究任務(wù)，比如"分析某個(gè)行業(yè)的發(fā)展趨勢(shì)"。這兩類任務(wù)的評(píng)估標(biāo)準(zhǔn)完全不同，前者看重準(zhǔn)確性，后者更注重信息覆蓋面、連貫性和綜合質(zhì)量。

問題在于，針對(duì)其中一種任務(wù)訓(xùn)練的智能體往往難以很好地處理另一種任務(wù)。這就像培養(yǎng)了一個(gè)專門回答選擇題的學(xué)生，當(dāng)他面對(duì)開放式論述題時(shí)就會(huì)感到無(wú)所適從。這種泛化能力的缺失意味著我們需要為不同任務(wù)類型開發(fā)不同的智能體，這顯然不是一個(gè)理想的解決方案。

研究團(tuán)隊(duì)認(rèn)為，現(xiàn)有智能體的主要瓶頸在于過度依賴線性的順序推理。在搜索任務(wù)中，大量計(jì)算資源被用于模型內(nèi)部的推理過程，而不是用于獲取外部的有效證據(jù)。這種分配方式就像讓一個(gè)研究員把大部分時(shí)間花在辦公室里冥思苦想，而不是去實(shí)地調(diào)查搜集資料，顯然不是最優(yōu)的策略。

二、并行智能體工作流：同時(shí)處理多個(gè)子任務(wù)

SMTL框架的核心創(chuàng)新在于引入了并行智能體工作流，這種方法完全改變了智能體處理復(fù)雜任務(wù)的方式。傳統(tǒng)方法就像一個(gè)人獨(dú)自完成拼圖，必須一片一片地慢慢拼接，而SMTL則像是召集了一個(gè)團(tuán)隊(duì)，每個(gè)成員同時(shí)負(fù)責(zé)拼圖的不同區(qū)域，最后再將各部分整合起來(lái)。

整個(gè)工作流程可以分為三個(gè)核心階段。首先是初始計(jì)劃構(gòu)建階段，智能體會(huì)將復(fù)雜的搜索任務(wù)分解為一系列相互關(guān)聯(lián)但可以并行處理的子任務(wù)。每個(gè)子任務(wù)都對(duì)應(yīng)一個(gè)具體的信息搜尋或驗(yàn)證目標(biāo)，比如檢索事實(shí)、驗(yàn)證關(guān)系或搜集證據(jù)。這個(gè)階段的關(guān)鍵是要早期識(shí)別出可以并行執(zhí)行的路徑，為后續(xù)的并發(fā)證據(jù)獲取和更高的信息密度打下基礎(chǔ)。

接下來(lái)是并行執(zhí)行和工具協(xié)調(diào)階段。在每個(gè)時(shí)間步驟中，系統(tǒng)會(huì)從待處理任務(wù)集合中選擇可以執(zhí)行的子任務(wù)，同時(shí)利用可用的工具或智能體行動(dòng)來(lái)搜集信息并執(zhí)行推理任務(wù)。通過并行執(zhí)行多個(gè)待處理子任務(wù)，系統(tǒng)能夠加速任務(wù)完成并減少順序瓶頸。系統(tǒng)會(huì)將每次并行執(zhí)行的觀察結(jié)果聚合到一個(gè)統(tǒng)一的推理狀態(tài)中，這個(gè)過程可以用數(shù)學(xué)公式表示為：下一時(shí)刻的狀態(tài)等于當(dāng)前狀態(tài)與所有并行執(zhí)行動(dòng)作及其觀察結(jié)果的函數(shù)。

在實(shí)踐中，并行執(zhí)行通過一套有限但可復(fù)用的外部工具來(lái)實(shí)現(xiàn)，主要包括網(wǎng)絡(luò)搜索和頁(yè)面抓取功能。這些工具會(huì)在不同的待處理子任務(wù)中重復(fù)調(diào)用，以促進(jìn)并發(fā)的信息獲取和驗(yàn)證過程。

最后是動(dòng)態(tài)計(jì)劃完善階段。為了確保計(jì)劃能夠適應(yīng)持續(xù)的執(zhí)行過程，任務(wù)計(jì)劃會(huì)定期更新。已完成的子任務(wù)會(huì)被移除，未解決的依賴關(guān)系會(huì)被重新檢查，可能還會(huì)引入新的子任務(wù)。任務(wù)計(jì)劃會(huì)根據(jù)當(dāng)前執(zhí)行狀態(tài)進(jìn)行完善，其中包括已完成的子任務(wù)信息。這種動(dòng)態(tài)完善確保任務(wù)能夠適應(yīng)進(jìn)展并保持效率。

這種并行工作流的優(yōu)勢(shì)在于它能夠同時(shí)推進(jìn)多個(gè)信息搜集線程，就像一個(gè)新聞編輯部同時(shí)派遣多個(gè)記者去采訪不同的消息源，然后將所有信息匯總形成完整的報(bào)道。相比于傳統(tǒng)的順序方法，這種并行策略能夠顯著提高信息獲取的效率，同時(shí)減少因等待單一任務(wù)完成而造成的時(shí)間浪費(fèi)。

三、數(shù)據(jù)構(gòu)建：統(tǒng)一的多類型搜索任務(wù)生成

為了訓(xùn)練能夠處理多種類型任務(wù)的智能體，研究團(tuán)隊(duì)開發(fā)了一套創(chuàng)新的數(shù)據(jù)構(gòu)建管道。這個(gè)管道就像一個(gè)能夠制作各種口味菜肴的萬(wàn)能廚房，不僅能夠處理簡(jiǎn)單的家常菜（確定性問答），也能制作復(fù)雜的宴會(huì)大餐（開放式研究任務(wù)）。

數(shù)據(jù)構(gòu)建過程從原始語(yǔ)料收集開始。研究團(tuán)隊(duì)利用TaskCraft語(yǔ)料庫(kù)中的軌跡數(shù)據(jù)，這些軌跡包含了豐富的真實(shí)世界URL集合，涵蓋藝術(shù)、體育、歷史、政府、經(jīng)濟(jì)、政治、音樂、地理、電影、計(jì)算機(jī)科學(xué)、物理和化學(xué)等多個(gè)領(lǐng)域。關(guān)鍵的是，每個(gè)軌跡中的URL并不是獨(dú)立的，它們通過明確的信息搜尋路徑相互連接，后續(xù)查詢和資源都建立在從早期資源收集的證據(jù)基礎(chǔ)上。這種結(jié)構(gòu)自然地在文檔間形成了多跳關(guān)系，使得收集的語(yǔ)料庫(kù)非常適合基于圖的任務(wù)構(gòu)建。

接下來(lái)是圖網(wǎng)絡(luò)構(gòu)建階段。基于初始語(yǔ)料庫(kù)，團(tuán)隊(duì)開發(fā)了一個(gè)高效的管道來(lái)生成復(fù)雜的圖網(wǎng)絡(luò)。這個(gè)過程涉及將策劃的文本作物分割成多個(gè)塊，從中讓大語(yǔ)言模型提取實(shí)體及其各自的屬性。通過集成嵌入加重排檢索機(jī)制，系統(tǒng)能夠回憶相關(guān)塊，使大語(yǔ)言模型能夠綜合詳細(xì)的節(jié)點(diǎn)描述并描繪復(fù)雜的節(jié)點(diǎn)間關(guān)系，最終形成高度復(fù)雜的圖網(wǎng)絡(luò)。

子圖提取是整個(gè)過程的核心環(huán)節(jié)。給定構(gòu)建的知識(shí)圖，系統(tǒng)使用受控的隨機(jī)游走策略提取任務(wù)特定的子圖。對(duì)于每個(gè)任務(wù)，系統(tǒng)會(huì)采樣一個(gè)目標(biāo)實(shí)體作為真實(shí)答案，并執(zhí)行廣度優(yōu)先搜索直到N跳來(lái)收集其周圍鄰域。生成的子圖定義了推斷答案所需的支撐證據(jù)結(jié)構(gòu)，其中多跳節(jié)點(diǎn)充當(dāng)具有不同間接程度的問題條件。通過調(diào)整跳數(shù)深度和分支因子，系統(tǒng)可以靈活控制任務(wù)難度，同時(shí)保持語(yǔ)義連貫性和事實(shí)正確性。

為了確保高質(zhì)量的任務(wù)結(jié)構(gòu)，團(tuán)隊(duì)采用了嚴(yán)格的設(shè)計(jì)原則。他們優(yōu)先選擇拓?fù)浣Y(jié)構(gòu)豐富的子圖，特別是那些兩個(gè)N+1跳節(jié)點(diǎn)相互關(guān)聯(lián)同時(shí)共享一個(gè)共同N跳父節(jié)點(diǎn)的情況，這樣的結(jié)構(gòu)能夠形成循環(huán)依賴，需要對(duì)多個(gè)關(guān)系進(jìn)行交叉驗(yàn)證。同時(shí)，他們明確限制深度和分支因子，以保持任務(wù)難度的可擴(kuò)展性，避免出現(xiàn)瑣碎的快捷方式或過長(zhǎng)的推理鏈。

在問題構(gòu)建方面，團(tuán)隊(duì)采用了分層綜合過程。給定一個(gè)具有固定目標(biāo)答案的任務(wù)特定子圖，系統(tǒng)從最外層的N跳邊界開始，迭代地將i+1跳節(jié)點(diǎn)的信息聚合成關(guān)于i跳實(shí)體的子問題。每個(gè)聚合步驟都會(huì)產(chǎn)生一個(gè)有效的中間問題，逐步合并所有層次最終產(chǎn)生關(guān)于目標(biāo)實(shí)體的最終問題，這個(gè)問題需要最大跳數(shù)深度和推理難度。

當(dāng)多個(gè)i+1跳節(jié)點(diǎn)表現(xiàn)出語(yǔ)義關(guān)系時(shí)，系統(tǒng)會(huì)明確將這些相互依賴關(guān)系編碼為可驗(yàn)證條件，要求智能體對(duì)并行證據(jù)路徑進(jìn)行交叉驗(yàn)證，而不是依賴線性推理。為了防止信息泄漏，系統(tǒng)在每次綜合迭代后應(yīng)用基于大語(yǔ)言模型的驗(yàn)證步驟；如果答案可以過早推斷，問題會(huì)被重新構(gòu)建或相關(guān)信息會(huì)被混淆。這個(gè)過程會(huì)重復(fù)直到達(dá)到期望的難度或達(dá)到最多五次迭代。

對(duì)于開放式研究任務(wù)，數(shù)據(jù)構(gòu)建過程略有不同。研究問題完全在統(tǒng)一的數(shù)據(jù)構(gòu)建管道內(nèi)綜合，不依賴外部策劃的查詢。給定一個(gè)具有固定目標(biāo)實(shí)體及其多跳支撐結(jié)構(gòu)的任務(wù)特定子圖，系統(tǒng)會(huì)制定需要整合整個(gè)子圖中證據(jù)的開放式研究問題。這些問題被設(shè)計(jì)為引發(fā)報(bào)告式答案，涉及解釋、比較和跨多個(gè)來(lái)源的綜合，而不是單一事實(shí)輸出。

四、訓(xùn)練策略：監(jiān)督微調(diào)與強(qiáng)化學(xué)習(xí)的結(jié)合

SMTL的訓(xùn)練過程就像培養(yǎng)一個(gè)全能的研究助手，需要先讓它掌握基本的搜索技能，然后通過實(shí)踐反饋來(lái)不斷完善其表現(xiàn)。整個(gè)訓(xùn)練分為兩個(gè)階段：監(jiān)督微調(diào)階段和強(qiáng)化學(xué)習(xí)階段。

監(jiān)督微調(diào)階段的目標(biāo)是讓智能體學(xué)會(huì)穩(wěn)定高效的搜索行為。訓(xùn)練數(shù)據(jù)集包含兩種任務(wù)類別：深度搜索和深度研究，它們?cè)诒O(jiān)督形式上有所不同，但共享相同的基于子圖的構(gòu)建基礎(chǔ)。深度搜索任務(wù)從跳數(shù)深度為2到5的任務(wù)特定子圖中實(shí)例化，對(duì)于每個(gè)子圖，在迭代聚合過程中構(gòu)建的所有分層問題變體都會(huì)被保留，產(chǎn)生多個(gè)共享同一目標(biāo)實(shí)體作為真實(shí)答案的問題。為了防止頻繁答案的過度表示，系統(tǒng)應(yīng)用答案頻率閾值并丟棄目標(biāo)實(shí)體出現(xiàn)過于頻繁的任務(wù)。

深度研究任務(wù)則更加復(fù)雜。對(duì)于每個(gè)子圖，系統(tǒng)構(gòu)建一個(gè)以目標(biāo)實(shí)體為中心及其多跳支撐結(jié)構(gòu)的開放式研究問題。問題被制定為鼓勵(lì)對(duì)整個(gè)子圖的廣泛探索和綜合，而不是單答案檢索，確保充分的主題豐富性和變化性。

在軌跡構(gòu)建和策劃方面，訓(xùn)練軌跡使用前面描述的智能體工作流生成。對(duì)于深度搜索任務(wù)，監(jiān)督通過蒸餾DeepSeek-V3.2生成的軌跡獲得，而深度研究軌跡則從GPT-5蒸餾而來(lái)，反映其更強(qiáng)的長(zhǎng)形式綜合能力。

為了確保高質(zhì)量的監(jiān)督，團(tuán)隊(duì)?wèi)?yīng)用了嚴(yán)格的策劃標(biāo)準(zhǔn)。軌跡總長(zhǎng)度被限制在64K標(biāo)記以減少冗余交互和嘈雜監(jiān)督。平均每步工具調(diào)用數(shù)必須不少于3次，鼓勵(lì)積極的信息獲取。對(duì)于有多個(gè)成功軌跡的任務(wù)，系統(tǒng)只保留那些正確且在交互長(zhǎng)度上最短的軌跡，這樣能夠優(yōu)化軌跡效率。

強(qiáng)化學(xué)習(xí)階段采用了稍微修改的REINFORCE Leave-One-Out算法。與GRPO相比，RLOO提供了無(wú)偏的優(yōu)勢(shì)估計(jì)器。團(tuán)隊(duì)的修改包括幾個(gè)關(guān)鍵方面：首先，遵循DAPO的實(shí)現(xiàn)，他們采用了標(biāo)記級(jí)損失函數(shù)。其次，為了減輕推理引擎和訓(xùn)練框架在對(duì)數(shù)概率計(jì)算方面差異引起的訓(xùn)練-推理不匹配，他們對(duì)rollout校正應(yīng)用序列級(jí)重要性采樣。第三，為了確保軌跡質(zhì)量，他們過濾掉某些負(fù)面軌跡，使其不參與優(yōu)勢(shì)估計(jì)或梯度更新。

這些負(fù)面軌跡包括由環(huán)境問題（如連接超時(shí)或服務(wù)器錯(cuò)誤）引起的失敗，以及過長(zhǎng)或達(dá)到最大回合數(shù)的響應(yīng)。這種過濾策略防止模型學(xué)習(xí)由環(huán)境不穩(wěn)定引起的虛假行為，有效穩(wěn)定訓(xùn)練過程。

在強(qiáng)化學(xué)習(xí)階段，系統(tǒng)使用基于結(jié)果的獎(jiǎng)勵(lì)優(yōu)化軌跡。大語(yǔ)言模型作為裁判評(píng)估最終答案是否正確，為正確答案分配獎(jiǎng)勵(lì)1，否則為0。值得注意的是，如果工具調(diào)用違反了要求的格式，生成會(huì)立即終止并分配獎(jiǎng)勵(lì)0，從而明確鼓勵(lì)正確的工具使用。

五、實(shí)驗(yàn)結(jié)果：全面超越現(xiàn)有方法

SMTL在多個(gè)基準(zhǔn)測(cè)試中展現(xiàn)出了令人印象深刻的性能表現(xiàn)，就像一個(gè)經(jīng)過精心訓(xùn)練的運(yùn)動(dòng)員在多項(xiàng)比賽中都取得了優(yōu)異成績(jī)。這些結(jié)果不僅證明了并行搜索策略的有效性，也驗(yàn)證了該方法在不同任務(wù)類型間的優(yōu)秀泛化能力。

在深度搜索任務(wù)方面，SMTL表現(xiàn)出了一致的帕累托優(yōu)勢(shì)。以BrowseComp基準(zhǔn)為例，在中等預(yù)算設(shè)置下（SMTL-100），模型已經(jīng)在30B規(guī)模的開源智能體模型中達(dá)到了最先進(jìn)的性能，準(zhǔn)確率為43.6%，略超過Tongyi-DeepResearch-30B的43.4%，明顯優(yōu)于MiroThinker-v1.0-30B的41.2%。在XBench-DeepSearch上達(dá)到了78.0%，在WebWalker-QA上達(dá)到了74.9%。

當(dāng)預(yù)算增加到300步時(shí)，性能進(jìn)一步提升，在BrowseComp上的準(zhǔn)確率從43.6%提升到48.6%，增長(zhǎng)了5.0個(gè)百分點(diǎn)，大幅拉大了與Tongyi和MiroThinker的差距。相比之下，在較短視野任務(wù)如GAIA（74.8%→75.7%）和WebWalker（74.9%→76.5%）上的提升相對(duì)溫和，這表明額外的交互預(yù)算主要有利于更深層的多步證據(jù)聚合。

從效率角度來(lái)看，SMTL的優(yōu)勢(shì)更加明顯。在BrowseComp上，SMTL-100以平均60.4個(gè)助手步數(shù)達(dá)到了44.6%的準(zhǔn)確率，略優(yōu)于需要75.2步的Tongyi-DeepResearch-30B（43.4%）。與MiroThinker-v1.0-30B的對(duì)比更加鮮明：MiroThinker需要206.0步才能達(dá)到41.2%的準(zhǔn)確率，而SMTL-100用不到三分之一的交互成本就實(shí)現(xiàn)了顯著更高的準(zhǔn)確率。

這種效率提升與SMTL的并行執(zhí)行機(jī)制密切相關(guān)。與每輪只調(diào)用單一工具的順序系統(tǒng)不同，SMTL平均每步執(zhí)行3.5次工具調(diào)用，實(shí)現(xiàn)了跨子任務(wù)的并發(fā)證據(jù)獲取。通過在每個(gè)交互輪次中聚合更多信息，SMTL提高了每步的信息密度，減少了冗余查詢重新表述，從而產(chǎn)生更短但更有效的軌跡。

在開放式深度研究評(píng)估方面，SMTL同樣表現(xiàn)出色。在DeepResearch Bench RACE上，SMTL-100達(dá)到了45.9%的總體得分，在綜合性（42.1%）、洞察力/深度（45.6%）、指令遵循（49.6%）和可讀性（45.5%）方面都表現(xiàn)均衡。這一表現(xiàn)超過了包括WebSailor-32B（32.4%）、WebDancer-QwQ（35.9%）、WebShaper-32B（34.9%）和AFM-32B-RL（35.8%）在內(nèi)的代表性開源智能體基線，也略優(yōu)于Tongyi-DeepResearch-30B（45.7%）和Kimi-Researcher（44.6%），在30B規(guī)模系統(tǒng)中建立了強(qiáng)有力的競(jìng)爭(zhēng)力。

研究團(tuán)隊(duì)還通過案例研究深入分析了SMTL的效率優(yōu)勢(shì)。在一個(gè)BrowseComp任務(wù)中，SMTL在8個(gè)助手輪次內(nèi)就定位到了關(guān)鍵實(shí)體，而MiroThinker-v1.0需要16個(gè)輪次才能達(dá)到相同的證據(jù)水平。這種差異源于根本不同的搜索組織策略。SMTL將任務(wù)分解為多個(gè)假設(shè)子任務(wù)并并行探索，使智能體能夠快速浮現(xiàn)高信號(hào)證據(jù)，并根據(jù)中間觀察定期重新規(guī)劃子任務(wù)。因此，SMTL能夠快速收斂到正確的搜索方向，并將后續(xù)交互分配給證據(jù)驗(yàn)證。相比之下，MiroThinker-v1.0遵循嚴(yán)格的順序交互模式，每輪只允許單一工具調(diào)用，信息收集因此以增量方式進(jìn)行，需要反復(fù)查詢重新表述并延遲關(guān)鍵證據(jù)的發(fā)現(xiàn)。

六、深入分析：為什么"搜索多，思考少"更有效

通過一系列消融實(shí)驗(yàn)，研究團(tuán)隊(duì)深入探索了SMTL成功的根本原因，揭示了在長(zhǎng)視野智能體搜索中一些令人意外的規(guī)律。

首先是關(guān)于最大交互步數(shù)的影響分析。團(tuán)隊(duì)在BrowseComp上變化最大交互步數(shù)從50到300，報(bào)告了四個(gè)統(tǒng)計(jì)量：總體平均步數(shù)、總體中位數(shù)步數(shù)、成功案例的中位數(shù)步數(shù)以及失敗案例的中位數(shù)步數(shù)。結(jié)果顯示了幾個(gè)清晰的模式：成功案例的中位數(shù)步數(shù)隨著交互步數(shù)增長(zhǎng)并沒有表現(xiàn)出明顯的增長(zhǎng)趨勢(shì)，大多數(shù)成功軌跡在達(dá)到交互限制之前就收斂了，這表明一旦識(shí)別出正確的推理路徑，額外的預(yù)算對(duì)這些案例提供的益處有限。

相比之下，失敗案例的中位數(shù)步數(shù)密切遵循y=x趨勢(shì)，表明大多數(shù)失敗軌跡恰好在允許的最大步數(shù)處終止。這意味著許多失敗是由于耗盡交互預(yù)算而不是過早輸出錯(cuò)誤答案。因此，總體平均步數(shù)的增長(zhǎng)主要由失敗案例的上移驅(qū)動(dòng)，因?yàn)楦嘬壽E延伸到新的預(yù)算上限后才終止。

這個(gè)觀察表明模型在面臨困難時(shí)積極嘗試探索替代推理路徑，而不是誤解任務(wù)或通過過早答案生成表現(xiàn)出過度自信。在較小預(yù)算下，大量困難案例僅僅因?yàn)镾MTL無(wú)法在有限的工具交互次數(shù)內(nèi)識(shí)別出有效推理路徑而失敗。當(dāng)交互預(yù)算擴(kuò)大時(shí)，SMTL獲得了探索不同證據(jù)鏈的額外機(jī)會(huì)。結(jié)合定期計(jì)劃完善，這種擴(kuò)展預(yù)算使模型能夠糾正次優(yōu)搜索方向并逐步重新定向到有希望的子任務(wù)。

接下來(lái)是關(guān)于檢索top-k參數(shù)的影響分析。團(tuán)隊(duì)通過變化網(wǎng)絡(luò)搜索工具的top-k參數(shù)來(lái)研究檢索寬度對(duì)性能的影響。這個(gè)參數(shù)控制每個(gè)查詢返回的URL數(shù)量。結(jié)果顯示，增加top-k持續(xù)改善任務(wù)性能。當(dāng)top-k從4增加到8時(shí)，SMTL-100和SMTL-300都表現(xiàn)出顯著提升（例如，SMTL-300從43.8提升到47.0，而SMTL-100從36.6增加到41.8以上）。這個(gè)跳躍表明窄檢索窗口顯著限制了證據(jù)覆蓋，限制了SMTL在固定交互預(yù)算內(nèi)識(shí)別相關(guān)信息的能力。

當(dāng)top-k進(jìn)一步從8增加到20時(shí)，性能繼續(xù)提升，盡管速度較慢并逐漸收斂。這表明收益遞減：一旦包含了最具信息性的候選，額外結(jié)果貢獻(xiàn)邊際收益，但仍通過減少錯(cuò)過關(guān)鍵證據(jù)的風(fēng)險(xiǎn)來(lái)增強(qiáng)魯棒性。

這些結(jié)果與團(tuán)隊(duì)的設(shè)計(jì)直覺一致，即提高搜索廣度可以成為長(zhǎng)視野智能體搜索的強(qiáng)大擴(kuò)展維度。在固定的交互步數(shù)下，增加top-k有效地將更多候選證據(jù)打包到每個(gè)搜索動(dòng)作中，提高每步的信息密度。SMTL從每次交互內(nèi)更廣泛的證據(jù)獲取中獲益，而不是擴(kuò)展推理深度，這表明擴(kuò)展檢索廣度是比僅僅增加推理長(zhǎng)度更有效的長(zhǎng)視野搜索擴(kuò)展軸。

研究還發(fā)現(xiàn)了一個(gè)關(guān)鍵的設(shè)計(jì)洞察：傳統(tǒng)智能體的效率瓶頸主要在于過度依賴順序推理。在搜索任務(wù)中，大量計(jì)算被投入到長(zhǎng)時(shí)間的模型側(cè)推理，而不是有效的外部證據(jù)獲取。SMTL的成功證明了通過重新組織搜索執(zhí)行而不是擴(kuò)展推理深度來(lái)實(shí)現(xiàn)效率提升的可能性。

通過對(duì)比分析，團(tuán)隊(duì)發(fā)現(xiàn)SMTL的效率提升不是源于更深的單步推理，而是來(lái)自并行子任務(wù)探索和分階段重新規(guī)劃。通過重新組織搜索執(zhí)行而不是擴(kuò)展推理深度，SMTL大幅減少了定位關(guān)鍵信息和完成任務(wù)所需的交互輪次數(shù)。這種方法驗(yàn)證了在長(zhǎng)視野智能體搜索中，并行證據(jù)獲取比順序深度推理更加有效的假設(shè)。

七、技術(shù)細(xì)節(jié)：實(shí)現(xiàn)高效并行搜索的關(guān)鍵組件

SMTL框架的成功實(shí)現(xiàn)依賴于幾個(gè)精心設(shè)計(jì)的技術(shù)組件，這些組件就像一部精密機(jī)器中的各個(gè)齒輪，必須完美協(xié)調(diào)才能發(fā)揮整體效果。

在工具設(shè)置方面，SMTL使用了一套精簡(jiǎn)而富有表達(dá)力的工具集。核心工具包括web_search和crawl_page兩個(gè)功能。web_search通過Serper API提供網(wǎng)絡(luò)搜索功能，該API與Google搜索引擎接口。給定模型生成的查詢字符串，該工具檢索排名搜索結(jié)果列表，默認(rèn)設(shè)置返回前五個(gè)條目。每個(gè)結(jié)果包含頁(yè)面標(biāo)題、簡(jiǎn)短片段和對(duì)應(yīng)URL。搜索結(jié)果作為識(shí)別潛在相關(guān)來(lái)源和指導(dǎo)后續(xù)爬取決策的高級(jí)信號(hào)。

crawl_page工具負(fù)責(zé)細(xì)粒度內(nèi)容獲取和結(jié)構(gòu)化摘要。它接受目標(biāo)URL和描述需要解決的信息需求的明確目標(biāo)作為輸入。URL使用Jina Reader API進(jìn)行爬取，之后檢索的頁(yè)面內(nèi)容由DeepSeek-V3.2模型進(jìn)行摘要。關(guān)鍵的是，目標(biāo)規(guī)范為摘要過程提供語(yǔ)義指導(dǎo)，引導(dǎo)模型提取和壓縮與當(dāng)前子任務(wù)直接相關(guān)的信息，而不是產(chǎn)生通用頁(yè)面摘要。這種目標(biāo)條件摘要實(shí)現(xiàn)了更有針對(duì)性的證據(jù)收集，減少了不相關(guān)的上下文傳播。

在推理階段的上下文管理方面，SMTL采用了創(chuàng)新的溢出觸發(fā)壓縮方案。長(zhǎng)視野任務(wù)經(jīng)常超過128K窗口下普通智能體的有效上下文容量，在SMTL中這個(gè)問題被放大，因?yàn)槊總€(gè)交互步驟產(chǎn)生更多工具觀察，減少了達(dá)到上下文限制前可以容納的步數(shù)。為了提高上下文效率，SMTL將定期計(jì)劃完善與溢出觸發(fā)壓縮方案結(jié)合：智能體默認(rèn)每N=5步完善任務(wù)計(jì)劃，當(dāng)累積歷史達(dá)到128K上下文預(yù)算而沒有確認(rèn)答案時(shí)，它執(zhí)行額外的強(qiáng)制計(jì)劃完善使用當(dāng)前歷史，然后丟棄所有計(jì)劃前上下文并從刷新的計(jì)劃繼續(xù)執(zhí)行。

這種以計(jì)劃為中心的重置保留了最新的執(zhí)行狀態(tài)和子任務(wù)結(jié)構(gòu)，保持推理行為與訓(xùn)練時(shí)計(jì)劃完善一致。因此，SMTL在固定上下文預(yù)算下支持更長(zhǎng)的有效軌跡，而不犧牲結(jié)構(gòu)化任務(wù)上下文。

在訓(xùn)練實(shí)現(xiàn)細(xì)節(jié)方面，研究團(tuán)隊(duì)使用Qwen3-30B-A3B-Instruct-2507作為骨干模型。在監(jiān)督微調(diào)期間，模型訓(xùn)練3.5個(gè)周期，批大小為128，使用AdamW優(yōu)化器和初始學(xué)習(xí)率為1.4×10^-5的余弦衰減學(xué)習(xí)率調(diào)度。最大序列長(zhǎng)度設(shè)置為65,536個(gè)標(biāo)記以支持長(zhǎng)視野軌跡。

在強(qiáng)化學(xué)習(xí)階段，學(xué)習(xí)率設(shè)置為1×10^-6，批大小為32。對(duì)每個(gè)問題生成8個(gè)在策略rollout，最大序列長(zhǎng)度為128k標(biāo)記，最多120個(gè)交互輪次，訓(xùn)練執(zhí)行60步。推理期間使用vLLM，上下文窗口為128K標(biāo)記。除非另有說(shuō)明，所有實(shí)驗(yàn)都以最多100個(gè)交互步驟進(jìn)行，計(jì)劃完善間隔為N=5個(gè)交互步驟。

系統(tǒng)prompt的設(shè)計(jì)也是關(guān)鍵因素。SMTL采用兩個(gè)系統(tǒng)prompt分別支持深度搜索和深度研究任務(wù)。雖然兩個(gè)prompt在輸出結(jié)構(gòu)和交互協(xié)議上有所不同，但它們?cè)诠蚕淼牟⑿兄悄荏w搜索框架下操作。兩個(gè)系統(tǒng)prompt都遵循統(tǒng)一的設(shè)計(jì)理念：任務(wù)在圖結(jié)構(gòu)證據(jù)上表示，分解為多個(gè)目標(biāo)或子任務(wù)，通過并行執(zhí)行和協(xié)調(diào)工具使用來(lái)解決。在兩種設(shè)置中，智能體都執(zhí)行顯式規(guī)劃、基于工具觀察的迭代計(jì)劃完善和結(jié)構(gòu)化進(jìn)度跟蹤，實(shí)現(xiàn)在受限交互預(yù)算下的高效長(zhǎng)視野搜索。

八、未來(lái)展望：智能搜索的新范式

SMTL框架的成功不僅僅是一個(gè)技術(shù)突破，更是為未來(lái)的智能搜索系統(tǒng)指明了新的發(fā)展方向。這項(xiàng)研究證明了在長(zhǎng)視野智能體搜索中，優(yōu)先考慮高效、以搜索為中心的擴(kuò)展比單純追求更深層的推理提供了更加實(shí)用和可泛化的基礎(chǔ)。

當(dāng)前的研究結(jié)果表明，傳統(tǒng)的"深度思考"模式可能并不是解決復(fù)雜搜索問題的最優(yōu)路徑。SMTL提出的"搜索多，思考少"策略展現(xiàn)了一種全新的可能性：通過更好地組織信息獲取過程，而不是增加推理復(fù)雜度，來(lái)提升智能體的整體性能。這種范式轉(zhuǎn)變對(duì)于整個(gè)人工智能領(lǐng)域都具有重要意義。

在實(shí)際應(yīng)用方面，SMTL的并行搜索框架可以很容易地?cái)U(kuò)展到其他需要長(zhǎng)視野規(guī)劃和多源信息整合的任務(wù)中。無(wú)論是科學(xué)文獻(xiàn)綜述、市場(chǎng)調(diào)研分析，還是技術(shù)方案評(píng)估，都可以從這種并行證據(jù)獲取策略中受益。相比傳統(tǒng)的順序處理方式，這種方法能夠顯著縮短任務(wù)完成時(shí)間，同時(shí)提高結(jié)果質(zhì)量。

從技術(shù)發(fā)展的角度看，SMTL框架為構(gòu)建更加高效的AI系統(tǒng)提供了新的思路。未來(lái)的研究可以進(jìn)一步優(yōu)化并行任務(wù)分解策略，開發(fā)更加智能的動(dòng)態(tài)計(jì)劃調(diào)整機(jī)制，或者探索不同類型工具的組合使用方式。這些改進(jìn)都有可能進(jìn)一步提升系統(tǒng)的性能和適用范圍。

值得注意的是，SMTL在不同評(píng)估維度上的一致優(yōu)異表現(xiàn)證明了其良好的泛化能力。這種泛化能力對(duì)于實(shí)際部署具有重要價(jià)值，因?yàn)楝F(xiàn)實(shí)世界的問題往往不會(huì)嚴(yán)格按照某一種特定類型出現(xiàn)，而是需要智能體具備處理各種不同問題類型的能力。

研究團(tuán)隊(duì)的開源承諾也為整個(gè)研究社區(qū)提供了寶貴的資源。通過開放代碼、模型和數(shù)據(jù)集，其他研究者可以在SMTL的基礎(chǔ)上進(jìn)行進(jìn)一步的探索和改進(jìn)，這將有助于推動(dòng)整個(gè)領(lǐng)域的快速發(fā)展。

說(shuō)到底，SMTL的成功揭示了一個(gè)重要的設(shè)計(jì)原理：在設(shè)計(jì)智能系統(tǒng)時(shí)，我們不應(yīng)該盲目追求單一維度的復(fù)雜度提升，而應(yīng)該從系統(tǒng)整體效率的角度來(lái)思考優(yōu)化策略。有時(shí)候，改變工作方式比增加工作強(qiáng)度更加重要。就像SMTL用并行搜索替代深度推理一樣，未來(lái)的AI系統(tǒng)設(shè)計(jì)也應(yīng)該更多地考慮如何通過更好的組織和協(xié)調(diào)來(lái)提升整體性能。

這項(xiàng)研究為我們展示了一個(gè)充滿希望的未來(lái)：AI系統(tǒng)不僅能夠更快地完成復(fù)雜任務(wù)，還能夠在不同類型的任務(wù)間展現(xiàn)出優(yōu)秀的適應(yīng)能力。隨著這種新范式的進(jìn)一步發(fā)展和完善，我們有理由期待更加智能、高效的AI助手能夠在更多領(lǐng)域發(fā)揮重要作用，真正成為人類知識(shí)探索和決策制定過程中的得力伙伴。

Q&A

Q1：SMTL框架是什么，它與傳統(tǒng)AI搜索方法有什么不同？

A：SMTL（Search More, Think Less）是由OPPO AI團(tuán)隊(duì)開發(fā)的智能搜索框架，核心理念是"搜索多，思考少"。與傳統(tǒng)方法不同，SMTL用并行的證據(jù)獲取替代順序推理，就像同時(shí)派遣多個(gè)助手去不同地方搜集信息，而不是讓一個(gè)人坐著慢慢思考。這種方法能將平均推理步數(shù)減少70.7%，同時(shí)提升準(zhǔn)確率。

Q2：為什么SMTL能同時(shí)提高效率和準(zhǔn)確率？

A：SMTL的優(yōu)勢(shì)在于重新組織了搜索執(zhí)行方式。傳統(tǒng)方法每次只能執(zhí)行一個(gè)工具調(diào)用，而SMTL平均每步執(zhí)行3.5次工具調(diào)用，實(shí)現(xiàn)并發(fā)信息獲取。通過將復(fù)雜任務(wù)分解為可并行處理的子任務(wù)，并定期調(diào)整計(jì)劃，SMTL能快速定位關(guān)鍵信息，避免了順序推理中的時(shí)間浪費(fèi)。

Q3：SMTL框架可以應(yīng)用在哪些實(shí)際場(chǎng)景中？

A：SMTL適用于各種需要長(zhǎng)視野規(guī)劃和多源信息整合的任務(wù)，包括科學(xué)文獻(xiàn)綜述、市場(chǎng)調(diào)研分析、技術(shù)方案評(píng)估等。由于其優(yōu)秀的泛化能力，既能處理有明確答案的問答任務(wù)，也能處理開放式的研究問題，在多個(gè)基準(zhǔn)測(cè)試中都達(dá)到了領(lǐng)先水平。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.