<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      OPPO AI團(tuán)隊(duì)突破:減少70%推理步驟提升AI智能體準(zhǔn)確率

      0
      分享至


      這項(xiàng)由OPPO AI Agent團(tuán)隊(duì)完成的研究發(fā)表于2026年2月,論文編號(hào)為arXiv:2602.22675v1,感興趣的讀者可以通過該編號(hào)查詢完整論文。研究團(tuán)隊(duì)針對(duì)當(dāng)前深度研究智能體面臨的效率與泛化難題,提出了一個(gè)顛覆性的解決方案。

      當(dāng)我們談?wù)揂I智能體時(shí),不妨把它們想象成研究圖書館里的助手。傳統(tǒng)的AI助手就像一個(gè)按部就班的學(xué)者,遇到問題時(shí)會(huì)坐在桌前長(zhǎng)時(shí)間沉思,一步接一步地推理,雖然最終能得出答案,但過程緩慢且耗費(fèi)大量時(shí)間。而OPPO團(tuán)隊(duì)提出的新方法則像是一個(gè)經(jīng)驗(yàn)豐富的圖書管理員,面對(duì)復(fù)雜問題時(shí)不是埋頭苦思,而是同時(shí)派遣多個(gè)助手到不同的書架搜集信息,然后快速整合這些信息得出答案。這種"搜索多,思考少"的策略不僅更加高效,而且準(zhǔn)確率還更高。

      研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:目前的深度研究智能體主要通過增加推理深度來(lái)提升性能,這就像讓一個(gè)人在解數(shù)學(xué)題時(shí)不斷地在草稿紙上演算更多步驟。雖然這種方法確實(shí)能提高準(zhǔn)確率,但代價(jià)是推理成本和延遲時(shí)間大幅增加。更關(guān)鍵的是,這些智能體在面對(duì)不同類型任務(wù)時(shí)往往表現(xiàn)不佳,就像一個(gè)只會(huì)解代數(shù)題的學(xué)生突然遇到幾何題時(shí)會(huì)手足無(wú)措。

      為了解決這些問題,研究團(tuán)隊(duì)開發(fā)了名為SMTL(Search More, Think Less)的框架。這個(gè)框架的核心理念是用并行的證據(jù)獲取替代順序推理,就像用多線程處理替代單線程處理一樣。在實(shí)際應(yīng)用中,SMTL能夠在最多100次交互步驟內(nèi),將BrowseComp基準(zhǔn)測(cè)試中的平均推理步數(shù)減少70.7%,同時(shí)準(zhǔn)確率從41.2%提升到48.6%。

      這項(xiàng)研究的創(chuàng)新之處在于重新定義了智能體解決問題的方式。與其讓AI花費(fèi)大量時(shí)間進(jìn)行深度思考,不如讓它高效地搜集更多相關(guān)信息,然后基于這些信息快速做出決策。這種方法不僅適用于確定性的問答任務(wù),也能很好地處理開放式的研究問題,展現(xiàn)出了優(yōu)秀的泛化能力。

      一、傳統(tǒng)智能體的困境:深度推理的代價(jià)

      當(dāng)前的深度研究智能體面臨著一個(gè)根本性的矛盾。為了提升性能,它們普遍采用增加推理深度和工具調(diào)用次數(shù)的策略,這就像讓一個(gè)廚師為了做出更好的菜而不斷增加烹飪步驟。雖然最終的菜品可能確實(shí)更加精致,但烹飪時(shí)間也會(huì)成倍增長(zhǎng),成本和等待時(shí)間都讓人難以接受。

      這種問題在搜索密集型場(chǎng)景中表現(xiàn)得尤為突出。傳統(tǒng)智能體在處理復(fù)雜查詢時(shí),往往會(huì)陷入線性、順序化的推理模式。它們像一個(gè)按照嚴(yán)格程序工作的調(diào)查員,必須完成第一步調(diào)查后才能開始第二步,每一步都要仔細(xì)分析和思考,整個(gè)過程雖然嚴(yán)謹(jǐn)?shù)实拖隆?/p>

      更令人頭疼的是泛化問題。現(xiàn)有的智能搜索任務(wù)可以大致分為兩類:一類是有明確答案的確定性問答任務(wù),比如"誰(shuí)是某公司的創(chuàng)始人"這樣的問題;另一類是沒有標(biāo)準(zhǔn)答案的開放式研究任務(wù),比如"分析某個(gè)行業(yè)的發(fā)展趨勢(shì)"。這兩類任務(wù)的評(píng)估標(biāo)準(zhǔn)完全不同,前者看重準(zhǔn)確性,后者更注重信息覆蓋面、連貫性和綜合質(zhì)量。

      問題在于,針對(duì)其中一種任務(wù)訓(xùn)練的智能體往往難以很好地處理另一種任務(wù)。這就像培養(yǎng)了一個(gè)專門回答選擇題的學(xué)生,當(dāng)他面對(duì)開放式論述題時(shí)就會(huì)感到無(wú)所適從。這種泛化能力的缺失意味著我們需要為不同任務(wù)類型開發(fā)不同的智能體,這顯然不是一個(gè)理想的解決方案。

      研究團(tuán)隊(duì)認(rèn)為,現(xiàn)有智能體的主要瓶頸在于過度依賴線性的順序推理。在搜索任務(wù)中,大量計(jì)算資源被用于模型內(nèi)部的推理過程,而不是用于獲取外部的有效證據(jù)。這種分配方式就像讓一個(gè)研究員把大部分時(shí)間花在辦公室里冥思苦想,而不是去實(shí)地調(diào)查搜集資料,顯然不是最優(yōu)的策略。

      二、并行智能體工作流:同時(shí)處理多個(gè)子任務(wù)

      SMTL框架的核心創(chuàng)新在于引入了并行智能體工作流,這種方法完全改變了智能體處理復(fù)雜任務(wù)的方式。傳統(tǒng)方法就像一個(gè)人獨(dú)自完成拼圖,必須一片一片地慢慢拼接,而SMTL則像是召集了一個(gè)團(tuán)隊(duì),每個(gè)成員同時(shí)負(fù)責(zé)拼圖的不同區(qū)域,最后再將各部分整合起來(lái)。

      整個(gè)工作流程可以分為三個(gè)核心階段。首先是初始計(jì)劃構(gòu)建階段,智能體會(huì)將復(fù)雜的搜索任務(wù)分解為一系列相互關(guān)聯(lián)但可以并行處理的子任務(wù)。每個(gè)子任務(wù)都對(duì)應(yīng)一個(gè)具體的信息搜尋或驗(yàn)證目標(biāo),比如檢索事實(shí)、驗(yàn)證關(guān)系或搜集證據(jù)。這個(gè)階段的關(guān)鍵是要早期識(shí)別出可以并行執(zhí)行的路徑,為后續(xù)的并發(fā)證據(jù)獲取和更高的信息密度打下基礎(chǔ)。

      接下來(lái)是并行執(zhí)行和工具協(xié)調(diào)階段。在每個(gè)時(shí)間步驟中,系統(tǒng)會(huì)從待處理任務(wù)集合中選擇可以執(zhí)行的子任務(wù),同時(shí)利用可用的工具或智能體行動(dòng)來(lái)搜集信息并執(zhí)行推理任務(wù)。通過并行執(zhí)行多個(gè)待處理子任務(wù),系統(tǒng)能夠加速任務(wù)完成并減少順序瓶頸。系統(tǒng)會(huì)將每次并行執(zhí)行的觀察結(jié)果聚合到一個(gè)統(tǒng)一的推理狀態(tài)中,這個(gè)過程可以用數(shù)學(xué)公式表示為:下一時(shí)刻的狀態(tài)等于當(dāng)前狀態(tài)與所有并行執(zhí)行動(dòng)作及其觀察結(jié)果的函數(shù)。

      在實(shí)踐中,并行執(zhí)行通過一套有限但可復(fù)用的外部工具來(lái)實(shí)現(xiàn),主要包括網(wǎng)絡(luò)搜索和頁(yè)面抓取功能。這些工具會(huì)在不同的待處理子任務(wù)中重復(fù)調(diào)用,以促進(jìn)并發(fā)的信息獲取和驗(yàn)證過程。

      最后是動(dòng)態(tài)計(jì)劃完善階段。為了確保計(jì)劃能夠適應(yīng)持續(xù)的執(zhí)行過程,任務(wù)計(jì)劃會(huì)定期更新。已完成的子任務(wù)會(huì)被移除,未解決的依賴關(guān)系會(huì)被重新檢查,可能還會(huì)引入新的子任務(wù)。任務(wù)計(jì)劃會(huì)根據(jù)當(dāng)前執(zhí)行狀態(tài)進(jìn)行完善,其中包括已完成的子任務(wù)信息。這種動(dòng)態(tài)完善確保任務(wù)能夠適應(yīng)進(jìn)展并保持效率。

      這種并行工作流的優(yōu)勢(shì)在于它能夠同時(shí)推進(jìn)多個(gè)信息搜集線程,就像一個(gè)新聞編輯部同時(shí)派遣多個(gè)記者去采訪不同的消息源,然后將所有信息匯總形成完整的報(bào)道。相比于傳統(tǒng)的順序方法,這種并行策略能夠顯著提高信息獲取的效率,同時(shí)減少因等待單一任務(wù)完成而造成的時(shí)間浪費(fèi)。

      三、數(shù)據(jù)構(gòu)建:統(tǒng)一的多類型搜索任務(wù)生成

      為了訓(xùn)練能夠處理多種類型任務(wù)的智能體,研究團(tuán)隊(duì)開發(fā)了一套創(chuàng)新的數(shù)據(jù)構(gòu)建管道。這個(gè)管道就像一個(gè)能夠制作各種口味菜肴的萬(wàn)能廚房,不僅能夠處理簡(jiǎn)單的家常菜(確定性問答),也能制作復(fù)雜的宴會(huì)大餐(開放式研究任務(wù))。

      數(shù)據(jù)構(gòu)建過程從原始語(yǔ)料收集開始。研究團(tuán)隊(duì)利用TaskCraft語(yǔ)料庫(kù)中的軌跡數(shù)據(jù),這些軌跡包含了豐富的真實(shí)世界URL集合,涵蓋藝術(shù)、體育、歷史、政府、經(jīng)濟(jì)、政治、音樂、地理、電影、計(jì)算機(jī)科學(xué)、物理和化學(xué)等多個(gè)領(lǐng)域。關(guān)鍵的是,每個(gè)軌跡中的URL并不是獨(dú)立的,它們通過明確的信息搜尋路徑相互連接,后續(xù)查詢和資源都建立在從早期資源收集的證據(jù)基礎(chǔ)上。這種結(jié)構(gòu)自然地在文檔間形成了多跳關(guān)系,使得收集的語(yǔ)料庫(kù)非常適合基于圖的任務(wù)構(gòu)建。

      接下來(lái)是圖網(wǎng)絡(luò)構(gòu)建階段。基于初始語(yǔ)料庫(kù),團(tuán)隊(duì)開發(fā)了一個(gè)高效的管道來(lái)生成復(fù)雜的圖網(wǎng)絡(luò)。這個(gè)過程涉及將策劃的文本作物分割成多個(gè)塊,從中讓大語(yǔ)言模型提取實(shí)體及其各自的屬性。通過集成嵌入加重排檢索機(jī)制,系統(tǒng)能夠回憶相關(guān)塊,使大語(yǔ)言模型能夠綜合詳細(xì)的節(jié)點(diǎn)描述并描繪復(fù)雜的節(jié)點(diǎn)間關(guān)系,最終形成高度復(fù)雜的圖網(wǎng)絡(luò)。

      子圖提取是整個(gè)過程的核心環(huán)節(jié)。給定構(gòu)建的知識(shí)圖,系統(tǒng)使用受控的隨機(jī)游走策略提取任務(wù)特定的子圖。對(duì)于每個(gè)任務(wù),系統(tǒng)會(huì)采樣一個(gè)目標(biāo)實(shí)體作為真實(shí)答案,并執(zhí)行廣度優(yōu)先搜索直到N跳來(lái)收集其周圍鄰域。生成的子圖定義了推斷答案所需的支撐證據(jù)結(jié)構(gòu),其中多跳節(jié)點(diǎn)充當(dāng)具有不同間接程度的問題條件。通過調(diào)整跳數(shù)深度和分支因子,系統(tǒng)可以靈活控制任務(wù)難度,同時(shí)保持語(yǔ)義連貫性和事實(shí)正確性。

      為了確保高質(zhì)量的任務(wù)結(jié)構(gòu),團(tuán)隊(duì)采用了嚴(yán)格的設(shè)計(jì)原則。他們優(yōu)先選擇拓?fù)浣Y(jié)構(gòu)豐富的子圖,特別是那些兩個(gè)N+1跳節(jié)點(diǎn)相互關(guān)聯(lián)同時(shí)共享一個(gè)共同N跳父節(jié)點(diǎn)的情況,這樣的結(jié)構(gòu)能夠形成循環(huán)依賴,需要對(duì)多個(gè)關(guān)系進(jìn)行交叉驗(yàn)證。同時(shí),他們明確限制深度和分支因子,以保持任務(wù)難度的可擴(kuò)展性,避免出現(xiàn)瑣碎的快捷方式或過長(zhǎng)的推理鏈。

      在問題構(gòu)建方面,團(tuán)隊(duì)采用了分層綜合過程。給定一個(gè)具有固定目標(biāo)答案的任務(wù)特定子圖,系統(tǒng)從最外層的N跳邊界開始,迭代地將i+1跳節(jié)點(diǎn)的信息聚合成關(guān)于i跳實(shí)體的子問題。每個(gè)聚合步驟都會(huì)產(chǎn)生一個(gè)有效的中間問題,逐步合并所有層次最終產(chǎn)生關(guān)于目標(biāo)實(shí)體的最終問題,這個(gè)問題需要最大跳數(shù)深度和推理難度。

      當(dāng)多個(gè)i+1跳節(jié)點(diǎn)表現(xiàn)出語(yǔ)義關(guān)系時(shí),系統(tǒng)會(huì)明確將這些相互依賴關(guān)系編碼為可驗(yàn)證條件,要求智能體對(duì)并行證據(jù)路徑進(jìn)行交叉驗(yàn)證,而不是依賴線性推理。為了防止信息泄漏,系統(tǒng)在每次綜合迭代后應(yīng)用基于大語(yǔ)言模型的驗(yàn)證步驟;如果答案可以過早推斷,問題會(huì)被重新構(gòu)建或相關(guān)信息會(huì)被混淆。這個(gè)過程會(huì)重復(fù)直到達(dá)到期望的難度或達(dá)到最多五次迭代。

      對(duì)于開放式研究任務(wù),數(shù)據(jù)構(gòu)建過程略有不同。研究問題完全在統(tǒng)一的數(shù)據(jù)構(gòu)建管道內(nèi)綜合,不依賴外部策劃的查詢。給定一個(gè)具有固定目標(biāo)實(shí)體及其多跳支撐結(jié)構(gòu)的任務(wù)特定子圖,系統(tǒng)會(huì)制定需要整合整個(gè)子圖中證據(jù)的開放式研究問題。這些問題被設(shè)計(jì)為引發(fā)報(bào)告式答案,涉及解釋、比較和跨多個(gè)來(lái)源的綜合,而不是單一事實(shí)輸出。

      四、訓(xùn)練策略:監(jiān)督微調(diào)與強(qiáng)化學(xué)習(xí)的結(jié)合

      SMTL的訓(xùn)練過程就像培養(yǎng)一個(gè)全能的研究助手,需要先讓它掌握基本的搜索技能,然后通過實(shí)踐反饋來(lái)不斷完善其表現(xiàn)。整個(gè)訓(xùn)練分為兩個(gè)階段:監(jiān)督微調(diào)階段和強(qiáng)化學(xué)習(xí)階段。

      監(jiān)督微調(diào)階段的目標(biāo)是讓智能體學(xué)會(huì)穩(wěn)定高效的搜索行為。訓(xùn)練數(shù)據(jù)集包含兩種任務(wù)類別:深度搜索和深度研究,它們?cè)诒O(jiān)督形式上有所不同,但共享相同的基于子圖的構(gòu)建基礎(chǔ)。深度搜索任務(wù)從跳數(shù)深度為2到5的任務(wù)特定子圖中實(shí)例化,對(duì)于每個(gè)子圖,在迭代聚合過程中構(gòu)建的所有分層問題變體都會(huì)被保留,產(chǎn)生多個(gè)共享同一目標(biāo)實(shí)體作為真實(shí)答案的問題。為了防止頻繁答案的過度表示,系統(tǒng)應(yīng)用答案頻率閾值并丟棄目標(biāo)實(shí)體出現(xiàn)過于頻繁的任務(wù)。

      深度研究任務(wù)則更加復(fù)雜。對(duì)于每個(gè)子圖,系統(tǒng)構(gòu)建一個(gè)以目標(biāo)實(shí)體為中心及其多跳支撐結(jié)構(gòu)的開放式研究問題。問題被制定為鼓勵(lì)對(duì)整個(gè)子圖的廣泛探索和綜合,而不是單答案檢索,確保充分的主題豐富性和變化性。

      在軌跡構(gòu)建和策劃方面,訓(xùn)練軌跡使用前面描述的智能體工作流生成。對(duì)于深度搜索任務(wù),監(jiān)督通過蒸餾DeepSeek-V3.2生成的軌跡獲得,而深度研究軌跡則從GPT-5蒸餾而來(lái),反映其更強(qiáng)的長(zhǎng)形式綜合能力。

      為了確保高質(zhì)量的監(jiān)督,團(tuán)隊(duì)?wèi)?yīng)用了嚴(yán)格的策劃標(biāo)準(zhǔn)。軌跡總長(zhǎng)度被限制在64K標(biāo)記以減少冗余交互和嘈雜監(jiān)督。平均每步工具調(diào)用數(shù)必須不少于3次,鼓勵(lì)積極的信息獲取。對(duì)于有多個(gè)成功軌跡的任務(wù),系統(tǒng)只保留那些正確且在交互長(zhǎng)度上最短的軌跡,這樣能夠優(yōu)化軌跡效率。

      強(qiáng)化學(xué)習(xí)階段采用了稍微修改的REINFORCE Leave-One-Out算法。與GRPO相比,RLOO提供了無(wú)偏的優(yōu)勢(shì)估計(jì)器。團(tuán)隊(duì)的修改包括幾個(gè)關(guān)鍵方面:首先,遵循DAPO的實(shí)現(xiàn),他們采用了標(biāo)記級(jí)損失函數(shù)。其次,為了減輕推理引擎和訓(xùn)練框架在對(duì)數(shù)概率計(jì)算方面差異引起的訓(xùn)練-推理不匹配,他們對(duì)rollout校正應(yīng)用序列級(jí)重要性采樣。第三,為了確保軌跡質(zhì)量,他們過濾掉某些負(fù)面軌跡,使其不參與優(yōu)勢(shì)估計(jì)或梯度更新。

      這些負(fù)面軌跡包括由環(huán)境問題(如連接超時(shí)或服務(wù)器錯(cuò)誤)引起的失敗,以及過長(zhǎng)或達(dá)到最大回合數(shù)的響應(yīng)。這種過濾策略防止模型學(xué)習(xí)由環(huán)境不穩(wěn)定引起的虛假行為,有效穩(wěn)定訓(xùn)練過程。

      在強(qiáng)化學(xué)習(xí)階段,系統(tǒng)使用基于結(jié)果的獎(jiǎng)勵(lì)優(yōu)化軌跡。大語(yǔ)言模型作為裁判評(píng)估最終答案是否正確,為正確答案分配獎(jiǎng)勵(lì)1,否則為0。值得注意的是,如果工具調(diào)用違反了要求的格式,生成會(huì)立即終止并分配獎(jiǎng)勵(lì)0,從而明確鼓勵(lì)正確的工具使用。

      五、實(shí)驗(yàn)結(jié)果:全面超越現(xiàn)有方法

      SMTL在多個(gè)基準(zhǔn)測(cè)試中展現(xiàn)出了令人印象深刻的性能表現(xiàn),就像一個(gè)經(jīng)過精心訓(xùn)練的運(yùn)動(dòng)員在多項(xiàng)比賽中都取得了優(yōu)異成績(jī)。這些結(jié)果不僅證明了并行搜索策略的有效性,也驗(yàn)證了該方法在不同任務(wù)類型間的優(yōu)秀泛化能力。

      在深度搜索任務(wù)方面,SMTL表現(xiàn)出了一致的帕累托優(yōu)勢(shì)。以BrowseComp基準(zhǔn)為例,在中等預(yù)算設(shè)置下(SMTL-100),模型已經(jīng)在30B規(guī)模的開源智能體模型中達(dá)到了最先進(jìn)的性能,準(zhǔn)確率為43.6%,略超過Tongyi-DeepResearch-30B的43.4%,明顯優(yōu)于MiroThinker-v1.0-30B的41.2%。在XBench-DeepSearch上達(dá)到了78.0%,在WebWalker-QA上達(dá)到了74.9%。

      當(dāng)預(yù)算增加到300步時(shí),性能進(jìn)一步提升,在BrowseComp上的準(zhǔn)確率從43.6%提升到48.6%,增長(zhǎng)了5.0個(gè)百分點(diǎn),大幅拉大了與Tongyi和MiroThinker的差距。相比之下,在較短視野任務(wù)如GAIA(74.8%→75.7%)和WebWalker(74.9%→76.5%)上的提升相對(duì)溫和,這表明額外的交互預(yù)算主要有利于更深層的多步證據(jù)聚合。

      從效率角度來(lái)看,SMTL的優(yōu)勢(shì)更加明顯。在BrowseComp上,SMTL-100以平均60.4個(gè)助手步數(shù)達(dá)到了44.6%的準(zhǔn)確率,略優(yōu)于需要75.2步的Tongyi-DeepResearch-30B(43.4%)。與MiroThinker-v1.0-30B的對(duì)比更加鮮明:MiroThinker需要206.0步才能達(dá)到41.2%的準(zhǔn)確率,而SMTL-100用不到三分之一的交互成本就實(shí)現(xiàn)了顯著更高的準(zhǔn)確率。

      這種效率提升與SMTL的并行執(zhí)行機(jī)制密切相關(guān)。與每輪只調(diào)用單一工具的順序系統(tǒng)不同,SMTL平均每步執(zhí)行3.5次工具調(diào)用,實(shí)現(xiàn)了跨子任務(wù)的并發(fā)證據(jù)獲取。通過在每個(gè)交互輪次中聚合更多信息,SMTL提高了每步的信息密度,減少了冗余查詢重新表述,從而產(chǎn)生更短但更有效的軌跡。

      在開放式深度研究評(píng)估方面,SMTL同樣表現(xiàn)出色。在DeepResearch Bench RACE上,SMTL-100達(dá)到了45.9%的總體得分,在綜合性(42.1%)、洞察力/深度(45.6%)、指令遵循(49.6%)和可讀性(45.5%)方面都表現(xiàn)均衡。這一表現(xiàn)超過了包括WebSailor-32B(32.4%)、WebDancer-QwQ(35.9%)、WebShaper-32B(34.9%)和AFM-32B-RL(35.8%)在內(nèi)的代表性開源智能體基線,也略優(yōu)于Tongyi-DeepResearch-30B(45.7%)和Kimi-Researcher(44.6%),在30B規(guī)模系統(tǒng)中建立了強(qiáng)有力的競(jìng)爭(zhēng)力。

      研究團(tuán)隊(duì)還通過案例研究深入分析了SMTL的效率優(yōu)勢(shì)。在一個(gè)BrowseComp任務(wù)中,SMTL在8個(gè)助手輪次內(nèi)就定位到了關(guān)鍵實(shí)體,而MiroThinker-v1.0需要16個(gè)輪次才能達(dá)到相同的證據(jù)水平。這種差異源于根本不同的搜索組織策略。SMTL將任務(wù)分解為多個(gè)假設(shè)子任務(wù)并并行探索,使智能體能夠快速浮現(xiàn)高信號(hào)證據(jù),并根據(jù)中間觀察定期重新規(guī)劃子任務(wù)。因此,SMTL能夠快速收斂到正確的搜索方向,并將后續(xù)交互分配給證據(jù)驗(yàn)證。相比之下,MiroThinker-v1.0遵循嚴(yán)格的順序交互模式,每輪只允許單一工具調(diào)用,信息收集因此以增量方式進(jìn)行,需要反復(fù)查詢重新表述并延遲關(guān)鍵證據(jù)的發(fā)現(xiàn)。

      六、深入分析:為什么"搜索多,思考少"更有效

      通過一系列消融實(shí)驗(yàn),研究團(tuán)隊(duì)深入探索了SMTL成功的根本原因,揭示了在長(zhǎng)視野智能體搜索中一些令人意外的規(guī)律。

      首先是關(guān)于最大交互步數(shù)的影響分析。團(tuán)隊(duì)在BrowseComp上變化最大交互步數(shù)從50到300,報(bào)告了四個(gè)統(tǒng)計(jì)量:總體平均步數(shù)、總體中位數(shù)步數(shù)、成功案例的中位數(shù)步數(shù)以及失敗案例的中位數(shù)步數(shù)。結(jié)果顯示了幾個(gè)清晰的模式:成功案例的中位數(shù)步數(shù)隨著交互步數(shù)增長(zhǎng)并沒有表現(xiàn)出明顯的增長(zhǎng)趨勢(shì),大多數(shù)成功軌跡在達(dá)到交互限制之前就收斂了,這表明一旦識(shí)別出正確的推理路徑,額外的預(yù)算對(duì)這些案例提供的益處有限。

      相比之下,失敗案例的中位數(shù)步數(shù)密切遵循y=x趨勢(shì),表明大多數(shù)失敗軌跡恰好在允許的最大步數(shù)處終止。這意味著許多失敗是由于耗盡交互預(yù)算而不是過早輸出錯(cuò)誤答案。因此,總體平均步數(shù)的增長(zhǎng)主要由失敗案例的上移驅(qū)動(dòng),因?yàn)楦嘬壽E延伸到新的預(yù)算上限后才終止。

      這個(gè)觀察表明模型在面臨困難時(shí)積極嘗試探索替代推理路徑,而不是誤解任務(wù)或通過過早答案生成表現(xiàn)出過度自信。在較小預(yù)算下,大量困難案例僅僅因?yàn)镾MTL無(wú)法在有限的工具交互次數(shù)內(nèi)識(shí)別出有效推理路徑而失敗。當(dāng)交互預(yù)算擴(kuò)大時(shí),SMTL獲得了探索不同證據(jù)鏈的額外機(jī)會(huì)。結(jié)合定期計(jì)劃完善,這種擴(kuò)展預(yù)算使模型能夠糾正次優(yōu)搜索方向并逐步重新定向到有希望的子任務(wù)。

      接下來(lái)是關(guān)于檢索top-k參數(shù)的影響分析。團(tuán)隊(duì)通過變化網(wǎng)絡(luò)搜索工具的top-k參數(shù)來(lái)研究檢索寬度對(duì)性能的影響。這個(gè)參數(shù)控制每個(gè)查詢返回的URL數(shù)量。結(jié)果顯示,增加top-k持續(xù)改善任務(wù)性能。當(dāng)top-k從4增加到8時(shí),SMTL-100和SMTL-300都表現(xiàn)出顯著提升(例如,SMTL-300從43.8提升到47.0,而SMTL-100從36.6增加到41.8以上)。這個(gè)跳躍表明窄檢索窗口顯著限制了證據(jù)覆蓋,限制了SMTL在固定交互預(yù)算內(nèi)識(shí)別相關(guān)信息的能力。

      當(dāng)top-k進(jìn)一步從8增加到20時(shí),性能繼續(xù)提升,盡管速度較慢并逐漸收斂。這表明收益遞減:一旦包含了最具信息性的候選,額外結(jié)果貢獻(xiàn)邊際收益,但仍通過減少錯(cuò)過關(guān)鍵證據(jù)的風(fēng)險(xiǎn)來(lái)增強(qiáng)魯棒性。

      這些結(jié)果與團(tuán)隊(duì)的設(shè)計(jì)直覺一致,即提高搜索廣度可以成為長(zhǎng)視野智能體搜索的強(qiáng)大擴(kuò)展維度。在固定的交互步數(shù)下,增加top-k有效地將更多候選證據(jù)打包到每個(gè)搜索動(dòng)作中,提高每步的信息密度。SMTL從每次交互內(nèi)更廣泛的證據(jù)獲取中獲益,而不是擴(kuò)展推理深度,這表明擴(kuò)展檢索廣度是比僅僅增加推理長(zhǎng)度更有效的長(zhǎng)視野搜索擴(kuò)展軸。

      研究還發(fā)現(xiàn)了一個(gè)關(guān)鍵的設(shè)計(jì)洞察:傳統(tǒng)智能體的效率瓶頸主要在于過度依賴順序推理。在搜索任務(wù)中,大量計(jì)算被投入到長(zhǎng)時(shí)間的模型側(cè)推理,而不是有效的外部證據(jù)獲取。SMTL的成功證明了通過重新組織搜索執(zhí)行而不是擴(kuò)展推理深度來(lái)實(shí)現(xiàn)效率提升的可能性。

      通過對(duì)比分析,團(tuán)隊(duì)發(fā)現(xiàn)SMTL的效率提升不是源于更深的單步推理,而是來(lái)自并行子任務(wù)探索和分階段重新規(guī)劃。通過重新組織搜索執(zhí)行而不是擴(kuò)展推理深度,SMTL大幅減少了定位關(guān)鍵信息和完成任務(wù)所需的交互輪次數(shù)。這種方法驗(yàn)證了在長(zhǎng)視野智能體搜索中,并行證據(jù)獲取比順序深度推理更加有效的假設(shè)。

      七、技術(shù)細(xì)節(jié):實(shí)現(xiàn)高效并行搜索的關(guān)鍵組件

      SMTL框架的成功實(shí)現(xiàn)依賴于幾個(gè)精心設(shè)計(jì)的技術(shù)組件,這些組件就像一部精密機(jī)器中的各個(gè)齒輪,必須完美協(xié)調(diào)才能發(fā)揮整體效果。

      在工具設(shè)置方面,SMTL使用了一套精簡(jiǎn)而富有表達(dá)力的工具集。核心工具包括web_search和crawl_page兩個(gè)功能。web_search通過Serper API提供網(wǎng)絡(luò)搜索功能,該API與Google搜索引擎接口。給定模型生成的查詢字符串,該工具檢索排名搜索結(jié)果列表,默認(rèn)設(shè)置返回前五個(gè)條目。每個(gè)結(jié)果包含頁(yè)面標(biāo)題、簡(jiǎn)短片段和對(duì)應(yīng)URL。搜索結(jié)果作為識(shí)別潛在相關(guān)來(lái)源和指導(dǎo)后續(xù)爬取決策的高級(jí)信號(hào)。

      crawl_page工具負(fù)責(zé)細(xì)粒度內(nèi)容獲取和結(jié)構(gòu)化摘要。它接受目標(biāo)URL和描述需要解決的信息需求的明確目標(biāo)作為輸入。URL使用Jina Reader API進(jìn)行爬取,之后檢索的頁(yè)面內(nèi)容由DeepSeek-V3.2模型進(jìn)行摘要。關(guān)鍵的是,目標(biāo)規(guī)范為摘要過程提供語(yǔ)義指導(dǎo),引導(dǎo)模型提取和壓縮與當(dāng)前子任務(wù)直接相關(guān)的信息,而不是產(chǎn)生通用頁(yè)面摘要。這種目標(biāo)條件摘要實(shí)現(xiàn)了更有針對(duì)性的證據(jù)收集,減少了不相關(guān)的上下文傳播。

      在推理階段的上下文管理方面,SMTL采用了創(chuàng)新的溢出觸發(fā)壓縮方案。長(zhǎng)視野任務(wù)經(jīng)常超過128K窗口下普通智能體的有效上下文容量,在SMTL中這個(gè)問題被放大,因?yàn)槊總€(gè)交互步驟產(chǎn)生更多工具觀察,減少了達(dá)到上下文限制前可以容納的步數(shù)。為了提高上下文效率,SMTL將定期計(jì)劃完善與溢出觸發(fā)壓縮方案結(jié)合:智能體默認(rèn)每N=5步完善任務(wù)計(jì)劃,當(dāng)累積歷史達(dá)到128K上下文預(yù)算而沒有確認(rèn)答案時(shí),它執(zhí)行額外的強(qiáng)制計(jì)劃完善使用當(dāng)前歷史,然后丟棄所有計(jì)劃前上下文并從刷新的計(jì)劃繼續(xù)執(zhí)行。

      這種以計(jì)劃為中心的重置保留了最新的執(zhí)行狀態(tài)和子任務(wù)結(jié)構(gòu),保持推理行為與訓(xùn)練時(shí)計(jì)劃完善一致。因此,SMTL在固定上下文預(yù)算下支持更長(zhǎng)的有效軌跡,而不犧牲結(jié)構(gòu)化任務(wù)上下文。

      在訓(xùn)練實(shí)現(xiàn)細(xì)節(jié)方面,研究團(tuán)隊(duì)使用Qwen3-30B-A3B-Instruct-2507作為骨干模型。在監(jiān)督微調(diào)期間,模型訓(xùn)練3.5個(gè)周期,批大小為128,使用AdamW優(yōu)化器和初始學(xué)習(xí)率為1.4×10^-5的余弦衰減學(xué)習(xí)率調(diào)度。最大序列長(zhǎng)度設(shè)置為65,536個(gè)標(biāo)記以支持長(zhǎng)視野軌跡。

      在強(qiáng)化學(xué)習(xí)階段,學(xué)習(xí)率設(shè)置為1×10^-6,批大小為32。對(duì)每個(gè)問題生成8個(gè)在策略rollout,最大序列長(zhǎng)度為128k標(biāo)記,最多120個(gè)交互輪次,訓(xùn)練執(zhí)行60步。推理期間使用vLLM,上下文窗口為128K標(biāo)記。除非另有說(shuō)明,所有實(shí)驗(yàn)都以最多100個(gè)交互步驟進(jìn)行,計(jì)劃完善間隔為N=5個(gè)交互步驟。

      系統(tǒng)prompt的設(shè)計(jì)也是關(guān)鍵因素。SMTL采用兩個(gè)系統(tǒng)prompt分別支持深度搜索和深度研究任務(wù)。雖然兩個(gè)prompt在輸出結(jié)構(gòu)和交互協(xié)議上有所不同,但它們?cè)诠蚕淼牟⑿兄悄荏w搜索框架下操作。兩個(gè)系統(tǒng)prompt都遵循統(tǒng)一的設(shè)計(jì)理念:任務(wù)在圖結(jié)構(gòu)證據(jù)上表示,分解為多個(gè)目標(biāo)或子任務(wù),通過并行執(zhí)行和協(xié)調(diào)工具使用來(lái)解決。在兩種設(shè)置中,智能體都執(zhí)行顯式規(guī)劃、基于工具觀察的迭代計(jì)劃完善和結(jié)構(gòu)化進(jìn)度跟蹤,實(shí)現(xiàn)在受限交互預(yù)算下的高效長(zhǎng)視野搜索。

      八、未來(lái)展望:智能搜索的新范式

      SMTL框架的成功不僅僅是一個(gè)技術(shù)突破,更是為未來(lái)的智能搜索系統(tǒng)指明了新的發(fā)展方向。這項(xiàng)研究證明了在長(zhǎng)視野智能體搜索中,優(yōu)先考慮高效、以搜索為中心的擴(kuò)展比單純追求更深層的推理提供了更加實(shí)用和可泛化的基礎(chǔ)。

      當(dāng)前的研究結(jié)果表明,傳統(tǒng)的"深度思考"模式可能并不是解決復(fù)雜搜索問題的最優(yōu)路徑。SMTL提出的"搜索多,思考少"策略展現(xiàn)了一種全新的可能性:通過更好地組織信息獲取過程,而不是增加推理復(fù)雜度,來(lái)提升智能體的整體性能。這種范式轉(zhuǎn)變對(duì)于整個(gè)人工智能領(lǐng)域都具有重要意義。

      在實(shí)際應(yīng)用方面,SMTL的并行搜索框架可以很容易地?cái)U(kuò)展到其他需要長(zhǎng)視野規(guī)劃和多源信息整合的任務(wù)中。無(wú)論是科學(xué)文獻(xiàn)綜述、市場(chǎng)調(diào)研分析,還是技術(shù)方案評(píng)估,都可以從這種并行證據(jù)獲取策略中受益。相比傳統(tǒng)的順序處理方式,這種方法能夠顯著縮短任務(wù)完成時(shí)間,同時(shí)提高結(jié)果質(zhì)量。

      從技術(shù)發(fā)展的角度看,SMTL框架為構(gòu)建更加高效的AI系統(tǒng)提供了新的思路。未來(lái)的研究可以進(jìn)一步優(yōu)化并行任務(wù)分解策略,開發(fā)更加智能的動(dòng)態(tài)計(jì)劃調(diào)整機(jī)制,或者探索不同類型工具的組合使用方式。這些改進(jìn)都有可能進(jìn)一步提升系統(tǒng)的性能和適用范圍。

      值得注意的是,SMTL在不同評(píng)估維度上的一致優(yōu)異表現(xiàn)證明了其良好的泛化能力。這種泛化能力對(duì)于實(shí)際部署具有重要價(jià)值,因?yàn)楝F(xiàn)實(shí)世界的問題往往不會(huì)嚴(yán)格按照某一種特定類型出現(xiàn),而是需要智能體具備處理各種不同問題類型的能力。

      研究團(tuán)隊(duì)的開源承諾也為整個(gè)研究社區(qū)提供了寶貴的資源。通過開放代碼、模型和數(shù)據(jù)集,其他研究者可以在SMTL的基礎(chǔ)上進(jìn)行進(jìn)一步的探索和改進(jìn),這將有助于推動(dòng)整個(gè)領(lǐng)域的快速發(fā)展。

      說(shuō)到底,SMTL的成功揭示了一個(gè)重要的設(shè)計(jì)原理:在設(shè)計(jì)智能系統(tǒng)時(shí),我們不應(yīng)該盲目追求單一維度的復(fù)雜度提升,而應(yīng)該從系統(tǒng)整體效率的角度來(lái)思考優(yōu)化策略。有時(shí)候,改變工作方式比增加工作強(qiáng)度更加重要。就像SMTL用并行搜索替代深度推理一樣,未來(lái)的AI系統(tǒng)設(shè)計(jì)也應(yīng)該更多地考慮如何通過更好的組織和協(xié)調(diào)來(lái)提升整體性能。

      這項(xiàng)研究為我們展示了一個(gè)充滿希望的未來(lái):AI系統(tǒng)不僅能夠更快地完成復(fù)雜任務(wù),還能夠在不同類型的任務(wù)間展現(xiàn)出優(yōu)秀的適應(yīng)能力。隨著這種新范式的進(jìn)一步發(fā)展和完善,我們有理由期待更加智能、高效的AI助手能夠在更多領(lǐng)域發(fā)揮重要作用,真正成為人類知識(shí)探索和決策制定過程中的得力伙伴。

      Q&A

      Q1:SMTL框架是什么,它與傳統(tǒng)AI搜索方法有什么不同?

      A:SMTL(Search More, Think Less)是由OPPO AI團(tuán)隊(duì)開發(fā)的智能搜索框架,核心理念是"搜索多,思考少"。與傳統(tǒng)方法不同,SMTL用并行的證據(jù)獲取替代順序推理,就像同時(shí)派遣多個(gè)助手去不同地方搜集信息,而不是讓一個(gè)人坐著慢慢思考。這種方法能將平均推理步數(shù)減少70.7%,同時(shí)提升準(zhǔn)確率。

      Q2:為什么SMTL能同時(shí)提高效率和準(zhǔn)確率?

      A:SMTL的優(yōu)勢(shì)在于重新組織了搜索執(zhí)行方式。傳統(tǒng)方法每次只能執(zhí)行一個(gè)工具調(diào)用,而SMTL平均每步執(zhí)行3.5次工具調(diào)用,實(shí)現(xiàn)并發(fā)信息獲取。通過將復(fù)雜任務(wù)分解為可并行處理的子任務(wù),并定期調(diào)整計(jì)劃,SMTL能快速定位關(guān)鍵信息,避免了順序推理中的時(shí)間浪費(fèi)。

      Q3:SMTL框架可以應(yīng)用在哪些實(shí)際場(chǎng)景中?

      A:SMTL適用于各種需要長(zhǎng)視野規(guī)劃和多源信息整合的任務(wù),包括科學(xué)文獻(xiàn)綜述、市場(chǎng)調(diào)研分析、技術(shù)方案評(píng)估等。由于其優(yōu)秀的泛化能力,既能處理有明確答案的問答任務(wù),也能處理開放式的研究問題,在多個(gè)基準(zhǔn)測(cè)試中都達(dá)到了領(lǐng)先水平。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      關(guān)鍵!曼聯(lián)主客場(chǎng)逆轉(zhuǎn)水晶宮,B費(fèi)兩場(chǎng)比賽都直接參與兩球

      關(guān)鍵!曼聯(lián)主客場(chǎng)逆轉(zhuǎn)水晶宮,B費(fèi)兩場(chǎng)比賽都直接參與兩球

      懂球帝
      2026-03-02 00:44:14
      生怕影響訪華行程,特朗普官宣加征關(guān)稅后,特意給中方帶了一句話

      生怕影響訪華行程,特朗普官宣加征關(guān)稅后,特意給中方帶了一句話

      石江月
      2026-03-01 19:09:16
      世界第2決賽6連敗!韓千禧2-0橫掃王祉怡,德國(guó)賽封王奪賽季首冠

      世界第2決賽6連敗!韓千禧2-0橫掃王祉怡,德國(guó)賽封王奪賽季首冠

      釘釘陌上花開
      2026-03-01 21:02:11
      人可以狠心到什么程度?看網(wǎng)友講述,發(fā)現(xiàn)我真做不到這般絕

      人可以狠心到什么程度?看網(wǎng)友講述,發(fā)現(xiàn)我真做不到這般絕

      侃神評(píng)故事
      2026-02-27 07:40:03
      這組照片是張學(xué)良軟禁時(shí)真實(shí)生活,奢華至極,完全不像囚徒生活!

      這組照片是張學(xué)良軟禁時(shí)真實(shí)生活,奢華至極,完全不像囚徒生活!

      芊芊子吟
      2026-02-19 12:00:06
      北京國(guó)安也淘到高級(jí)貨 從去年日本聯(lián)賽達(dá)萬(wàn) 再到德甲后衛(wèi)拉莫斯

      北京國(guó)安也淘到高級(jí)貨 從去年日本聯(lián)賽達(dá)萬(wàn) 再到德甲后衛(wèi)拉莫斯

      80后體育大蜀黍
      2026-03-01 23:36:50
      某魚驚現(xiàn)“天價(jià)筆”:800元一支的中性筆,藏著多少骯臟暗語(yǔ)?

      某魚驚現(xiàn)“天價(jià)筆”:800元一支的中性筆,藏著多少骯臟暗語(yǔ)?

      戧詞奪理
      2026-01-24 16:05:41
      新華社快訊:伊朗前總統(tǒng)內(nèi)賈德遇襲身亡

      新華社快訊:伊朗前總統(tǒng)內(nèi)賈德遇襲身亡

      新華社
      2026-03-01 21:38:46
      圖多爾:第一球算有效是裁判犯錯(cuò)了;斯彭斯腳底有傷

      圖多爾:第一球算有效是裁判犯錯(cuò)了;斯彭斯腳底有傷

      懂球帝
      2026-03-02 01:58:46
      你有什么無(wú)心插柳的經(jīng)歷?網(wǎng)友:賣獸藥的,一個(gè)半月,賺了190萬(wàn)

      你有什么無(wú)心插柳的經(jīng)歷?網(wǎng)友:賣獸藥的,一個(gè)半月,賺了190萬(wàn)

      夜深愛雜談
      2026-02-24 20:10:07
      法官問為何不交物業(yè)費(fèi),業(yè)主反問:不交稅違法,不交費(fèi)違法嗎

      法官問為何不交物業(yè)費(fèi),業(yè)主反問:不交稅違法,不交費(fèi)違法嗎

      蜉蝣說(shuō)
      2026-02-03 16:31:54
      網(wǎng)絡(luò)上“輕言大義者”,已經(jīng)越來(lái)越多

      網(wǎng)絡(luò)上“輕言大義者”,已經(jīng)越來(lái)越多

      林中木白
      2025-09-23 23:09:13
      預(yù)測(cè)伊朗局勢(shì)走向,四種情況帶來(lái)不同結(jié)局

      預(yù)測(cè)伊朗局勢(shì)走向,四種情況帶來(lái)不同結(jié)局

      林子說(shuō)事
      2026-03-02 01:12:27
      5年了,第一批在鶴崗買房的年輕人:房子2萬(wàn),工資2000,后悔了

      5年了,第一批在鶴崗買房的年輕人:房子2萬(wàn),工資2000,后悔了

      財(cái)叔
      2025-11-14 17:03:10
      內(nèi)塔尼亞胡稱越來(lái)越多跡象表明哈梅內(nèi)伊“已不在人世”

      內(nèi)塔尼亞胡稱越來(lái)越多跡象表明哈梅內(nèi)伊“已不在人世”

      澎湃新聞
      2026-03-01 03:39:07
      也門胡塞武裝稱完全支持伊朗

      也門胡塞武裝稱完全支持伊朗

      界面新聞
      2026-03-01 07:39:59
      華南五虎全軍覆沒!從叱咤風(fēng)云到集體沉淪,一場(chǎng)跨越二十年的地產(chǎn)大敗局

      華南五虎全軍覆沒!從叱咤風(fēng)云到集體沉淪,一場(chǎng)跨越二十年的地產(chǎn)大敗局

      阿離家居
      2026-02-24 15:32:27
      小米股價(jià)大跌真相:業(yè)務(wù)沒崩,只是估值回歸

      小米股價(jià)大跌真相:業(yè)務(wù)沒崩,只是估值回歸

      流蘇晚晴
      2026-03-01 16:49:47
      新加坡大滿貫賽:太遺憾!國(guó)乒男單3:4惜敗,無(wú)緣沖擊男單冠軍

      新加坡大滿貫賽:太遺憾!國(guó)乒男單3:4惜敗,無(wú)緣沖擊男單冠軍

      國(guó)乒二三事
      2026-03-01 11:56:32
      特朗普沒料到,暗殺哈梅內(nèi)伊后果如此嚴(yán)重,他死前一條命令太厲害

      特朗普沒料到,暗殺哈梅內(nèi)伊后果如此嚴(yán)重,他死前一條命令太厲害

      近史博覽
      2026-03-01 18:26:42
      2026-03-02 02:39:00
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      7389文章數(shù) 553關(guān)注度
      往期回顧 全部

      科技要聞

      榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

      頭條要聞

      特朗普警告伊朗“不要報(bào)復(fù)” 伊朗外長(zhǎng)回應(yīng)

      頭條要聞

      特朗普警告伊朗“不要報(bào)復(fù)” 伊朗外長(zhǎng)回應(yīng)

      體育要聞

      火箭輸給熱火:烏度卡又輸斯波教練

      娛樂要聞

      黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來(lái)襲

      財(cái)經(jīng)要聞

      中東局勢(shì)升級(jí) 如何影響A股、黃金和原油

      汽車要聞

      理想汽車2月交付26421輛 歷史累計(jì)交付超159萬(wàn)輛

      態(tài)度原創(chuàng)

      游戲
      健康
      藝術(shù)
      教育
      軍事航空

      以《生化危機(jī)》命名?Capcom解答對(duì)RE引擎的誤讀

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      藝術(shù)要聞

      看!這位伊朗超模如何顛覆你的美麗認(rèn)知!

      教育要聞

      11年,學(xué)生平均增高5.52厘米!成都這所小學(xué),登上教育部發(fā)布會(huì)

      軍事要聞

      伊朗前總統(tǒng)內(nèi)賈德遇襲身亡

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版