人大&通義：IterResearch用40K上下文輕松實現(xiàn)2048輪交互不退化

2026-03-02 19:18:23　來源: 機器之心Pro

河北舉報

分享至

以 40K 上下文，讓 Agent 搜索 2048 輪，性能還能一路漲？這幾乎是不可想象的。

當(dāng)前主流的 Search Agent 都面臨同一個尷尬：Agent 需要反復(fù)搜索網(wǎng)頁、比對線索、驗證假設(shè)、回溯修正，交互輪次動輒數(shù)十上百輪。但以 ReAct 為代表的傳統(tǒng)范式，把每一輪的思考和工具返回結(jié)果不斷追加到同一個上下文窗口中 —— 做得越多，上下文越臃腫，留給推理的空間越少，早期的噪聲和錯誤路徑還被永久「焊死」在記憶里。

結(jié)果就是：Agent 搜得越深入，反而「想」得越糊涂。

能不能讓 Agent 在探索過程中不斷「清理工作臺」，始終在一個干凈的空間里思考？

來自中國人民大學(xué)與阿里巴巴通義實驗室的研究團(tuán)隊提出了 IterResearch，一種全新的迭代式深度研究范式。

通過馬爾可夫式的工作空間重構(gòu)，IterResearch 讓 Agent 在僅 40K 上下文長度下完成了 2048 次工具交互且性能不衰減，在 BrowseComp 上從 3.5% 一路攀升至 42.5%。

目前，該論文已被 ICLR 2026 接收。

論文鏈接：https://arxiv.org/pdf/2511.07327
代碼鏈接：https://github.com/Chen-GX/IterResearch

「堆上下文」為什么難以實現(xiàn) Interaction Scaling？

在 Search Agent 場景下，Agent 的工作本質(zhì)上是一個與外部環(huán)境不斷交互的循環(huán)。傳統(tǒng) ReAct 范式將這一過程建模為「單上下文堆疊」：每一輪的推理和工具返回被持續(xù)追加到同一個上下文窗口中，形成線性增長的記憶鏈。

這種看似自然的設(shè)計，在長程任務(wù)中會引發(fā)兩個結(jié)構(gòu)性問題：

其一是上下文窒息（context suffocation）：上下文窗口的總?cè)萘渴怯邢薜模瑲v史信息不斷堆積意味著留給后續(xù)推理的「生成預(yù)算」被持續(xù)壓縮。Agent 被迫給出更短、更淺的回答，最終滑向草率的結(jié)論；
其二是噪聲污染（noise contamination）：搜索過程中產(chǎn)生的大量網(wǎng)頁摘要、早期的錯誤路徑和無關(guān)線索被永久寫入上下文，對后續(xù)推理產(chǎn)生級聯(lián)干擾，信噪比持續(xù)走低。

社區(qū)已經(jīng)意識到了這些問題，陸續(xù)提出了 context folding、summary 等緩解策略，試圖為搖搖欲墜的上下文「續(xù)命」。但這些方法本質(zhì)上是在補救，并未從根本上改變上下文線性增長的結(jié)構(gòu) —— 給 Agent 256K 甚至更長的窗口，也只是推遲崩潰，而非避免崩潰。

不再「堆疊」，而是「重構(gòu)」：IterResearch 的核心思路

IterResearch 對這一問題的回應(yīng)不是修修補補，而是從范式層面重新思考：與其不斷往上下文里塞東西，不如讓 Agent 學(xué)會「邊做邊清理」。

研究團(tuán)隊將長程研究過程形式化為一個馬爾可夫決策過程（MDP）。核心思想是：Agent 不再維護(hù)一個不斷膨脹的完整歷史，而是通過一個持續(xù)進(jìn)化的「演進(jìn)式報告」（evolving report）來綜合已有成果、壓縮無關(guān)信息、更新推理狀態(tài)。每一輪推理都在一個被重構(gòu)過的、恒定復(fù)雜度的工作空間中展開。

具體來說，Agent 的每一步包含兩個核心動作：

決策階段：Agent 基于當(dāng)前狀態(tài)，輸出三部分 —— 思考過程（Think）、更新后的演進(jìn)報告（Report）和本輪工具調(diào)用請求（Action）。報告在這里扮演了「壓縮記憶」的角色，Agent 需要在每一輪主動決定哪些信息值得保留，哪些應(yīng)該被丟棄。
狀態(tài)轉(zhuǎn)移階段：進(jìn)入下一輪時，完整的歷史軌跡被有意丟棄，Agent 僅保留更新后的報告、上一輪的工具調(diào)用及其返回結(jié)果，三者共同構(gòu)成新的推理起點。

從上下文管理的視角看，傳統(tǒng) ReAct 的狀態(tài)空間隨交互輪次 t 線性增長（O (t)），而 IterResearch 的工作空間始終保持恒定（O (1)）。

研究團(tuán)隊指出，這種機制與 RNN/LSTM 中的隱狀態(tài)更新有結(jié)構(gòu)上的相似性 —— 都通過一個隱狀態(tài)來承載記憶并逐步更新。不同之處在于，IterResearch 的「隱狀態(tài)」是一份顯式、可解釋的研究報告，既能濃縮歷史，又能為下一步推理提供清晰的起點。

40K 上下文，2048 輪交互不退化：Interaction Scaling 的威力

這項工作中最核心的發(fā)現(xiàn)，就是 Interaction Scaling 特性 ——給 Agent 更多的交互預(yù)算，性能就能持續(xù)提升，而不會像傳統(tǒng)方法那樣因為上下文溢出而崩潰。

在 BrowseComp 基準(zhǔn)上，研究團(tuán)隊將 Agent 的最大交互輪次從 2 逐步放寬到 2048。結(jié)果顯示，IterResearch 的準(zhǔn)確率從 3.5% 一路攀升到 42.5%，且在 2048 輪時依然沒有出現(xiàn)明顯的退化跡象。而傳統(tǒng)單上下文方法在幾十輪后就已經(jīng)不堪重負(fù)。

值得強調(diào)的是，2048 并非 IterResearch 的交互上限，而僅是實驗評測范圍的終點。模型在 2048 輪時性能曲線仍保持上升趨勢，表明該范式在理論上具備進(jìn)一步擴(kuò)展的潛力。

這一結(jié)果傳遞了一個重要信號：長程任務(wù)的「難」，可能并非完全來自模型推理能力不足，更有可能是探索深度受限。當(dāng) Agent 擁有一個干凈的思維空間并被允許充分探索時，它確實有能力在超長任務(wù)中持續(xù)進(jìn)步。

另一個有意思的發(fā)現(xiàn)是：盡管最大輪次被設(shè)置為 2048，Agent 實際上平均只用了約 80 輪。它學(xué)會了在獲取足夠信息后主動終止，而非機械地耗盡預(yù)算 —— 這說明Agent 不僅學(xué)會了「走得遠(yuǎn)」，還學(xué)會了「知道何時停」。

「即插即用」的推理范式：不訓(xùn)練也能提升閉源模型

如果僅把 IterResearch 的迭代邏輯作為提示策略（prompting strategy），直接應(yīng)用于閉源模型而不做任何訓(xùn)練，效果會怎樣？

研究團(tuán)隊在 o3 和 DeepSeek-V3.1 上做了驗證。在完全相同的任務(wù)設(shè)定下，相比傳統(tǒng)的 ReAct 提示范式，IterResearch 在最具挑戰(zhàn)性的 BrowseComp 上分別為 o3 帶來了 12.7 個百分點、為 DeepSeek-V3.1 帶來了 19.2 個百分點的提升。

這說明IterResearch 的核心優(yōu)勢在于結(jié)構(gòu)性的認(rèn)知機制，而非依賴特定數(shù)據(jù)或微調(diào)技巧。無論底層模型是什么架構(gòu)，它觸及的都是長程推理中的共性瓶頸。

總結(jié)

IterResearch 提出了一個簡潔而有效的范式轉(zhuǎn)換：與其不斷修補一個注定會崩潰的線性上下文，不如從結(jié)構(gòu)上讓 Agent 學(xué)會「邊做邊重構(gòu)思維」。

這一思路在訓(xùn)練框架、提示策略和跨范式遷移三個層面都展現(xiàn)了一致的有效性，而其揭示的 Interaction Scaling 特性更是為長程 Agent 的能力邊界打開了新的想象空間。在 Agent 走向真正長期、持續(xù)運行的未來，IterResearch 提供了一個值得關(guān)注的方向。

作者介紹

第一作者陳國鑫，中國人民大學(xué)高瓴人工智能學(xué)院博士生，導(dǎo)師為趙鑫教授和宋睿華教授，研究方向為 LLM 推理與 Agent，聚焦搜索智能體與代碼智能體。曾在阿里巴巴通義實驗室等機構(gòu)實習(xí)，在 ICLR、ICML、NeurIPS、ACL 等頂級會議發(fā)表多篇論文。本工作由中國人民大學(xué)與阿里巴巴通義實驗室合作完成。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.