<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      AI記住失敗經(jīng)驗:微軟提出Re-TRAC框架,4B性能SOTA,30B超越358B

      0
      分享至



      想象一下,你讓 AI 助手結(jié)合搜索工具探索一個復(fù)雜問題。它第一次探索時走錯了方向,但第二次、第三次,它依然重復(fù)同樣的錯誤探索路徑。雖然你可能可以從最終得到的多次探索結(jié)果中挑選出一個勉強(qiáng)滿意的答案,但是這既低效,也需要人工干預(yù)。這就是當(dāng)前大多數(shù)深度搜索智能體面臨的困境——它們無法「記住」之前的探索經(jīng)驗,每次都是從頭開始,導(dǎo)致大量冗余搜索和資源浪費。

      現(xiàn)有的深度搜索智能體大多基于 ReAct 框架構(gòu)建,采用線性推理方式:「思考→調(diào)用工具→觀察→再思考」。這種設(shè)計在簡單任務(wù)上表現(xiàn)良好,但在需要多輪探索的深度搜索任務(wù)中,往往陷入局部最優(yōu)、重復(fù)探索和低效搜索的困境。

      來自東南大學(xué)、微軟亞洲研究院等機(jī)構(gòu)的研究團(tuán)隊提出了一種全新的解決方案——Re-TRAC(REcursive TRAjectory Compression),這個框架讓 AI 智能體能夠「記住」每次探索的經(jīng)驗,在多個探索軌跡之間傳遞經(jīng)驗,實現(xiàn)漸進(jìn)式的智能搜索。



      • 論文標(biāo)題:RE-TRAC: REcursive TRAjectory Compression for Deep Search Agents
      • 論文鏈接:
      • https://arxiv.org/abs/2602.02486
      • 項目鏈接:
      • https://github.com/microsoft/InfoAgent

      讓探索變成「漸進(jìn)式學(xué)習(xí)」過程

      為什么 ReAct 會失敗?

      ReAct 框架的核心問題在于其線性設(shè)計。每個探索軌跡都是獨立的,模型無法回顧先前嘗試的狀態(tài)。在長上下文場景下,早期制定的計劃逐漸被遺忘,關(guān)鍵線索被埋沒。

      研究團(tuán)隊通過深入分析發(fā)現(xiàn),現(xiàn)有深度搜索模型即使經(jīng)過大量強(qiáng)化學(xué)習(xí)訓(xùn)練,其 Pass@K 性能仍遠(yuǎn)高于 Pass@1。這意味著模型本身具備解決問題的推理能力潛能,問題在于受限于上下文長度限制,單次探索難以生成足夠多樣的探索路徑,無法覆蓋足夠?qū)拸V的搜索空間。

      Re-TRAC:遞歸式軌跡壓縮

      Re-TRAC 的核心思想是將探索從一系列獨立嘗試轉(zhuǎn)變?yōu)闈u進(jìn)式學(xué)習(xí)過程。具體而言,在每個探索軌跡結(jié)束時生成一個結(jié)構(gòu)化的狀態(tài)表示,針對深度搜索任務(wù),記錄以下三個維度的信息:

      • 答案與分析結(jié)論:當(dāng)前可能性最高的答案與其關(guān)鍵推理結(jié)果——為后續(xù)推理提供錨點。

      • 證據(jù)庫與來源驗證:已搜集到的證據(jù)及其來源,并標(biāo)記哪些已被查閱、已被驗證——避免冗余的工具調(diào)用和重復(fù)檢查。

      • 不確定項與待探索方向:現(xiàn)階段需要繼續(xù)探索驗證的角度、曾被遺漏的候選探索分支與曾因失敗放棄的探索方向;幫助模型在下一輪中補(bǔ)全未探索的搜索空間。

      這個結(jié)構(gòu)化狀態(tài)將被添加到下一輪探索的輸入中,確保智能體在每輪新嘗試開始時,都能清楚地了解什么已被驗證、什么仍未解決,以及應(yīng)該將探索重點放在哪里。



      小模型也能「以小博大」

      研究團(tuán)隊在五個具有挑戰(zhàn)性的搜索導(dǎo)向基準(zhǔn)上評估了 Re-TRAC:BrowseComp、BrowseComp-ZH、XBench、GAIA 和 HLE。



      4B 模型性能 SOTA

      RE-TRAC-4B 在所有小于 15B 參數(shù)的基線中表現(xiàn)最佳:

      • BrowseComp上達(dá)到 30.0% 的準(zhǔn)確率;
      • BrowseComp-ZH上達(dá)到 36.1%;
      • GAIA上達(dá)到 70.4%;
      • XBench上達(dá)到 76.6%;
      • HLE上達(dá)到 22.2%。

      更令人驚訝的是,這個僅 4B 參數(shù)的模型在多個基準(zhǔn)上超越了更大規(guī)模的模型。

      • XBench基準(zhǔn)上,RE-TRAC-4B 的 76.6% 準(zhǔn)確率不僅遠(yuǎn)超 InfoAgent-14B 的 40.4%(提升了近 90%),也超過了 NestBrowse-4B 的 74.0%。

      • GAIA基準(zhǔn)上,RE-TRAC-4B 的 70.4% 準(zhǔn)確率超過了 AgentCPM-Explore-4B 的 63.9% 和 NestBrowse-4B 的 68.9%。

      30B 模型的進(jìn)一步突破

      RE-TRAC-30B 同樣表現(xiàn)出色,在除 HLE 外的所有基準(zhǔn)上都擊敗了 MiniMAX-M2-229B。

      • BrowseComp上,其準(zhǔn)確率達(dá)到 53%,甚至超過了 GLM-4.7-358B 的 52%。

      • GAIA上,RE-TRAC-30B 擊敗了所有閉源模型,在 BrowseComp 和 BrowseComp-ZH 上排名第二。

      這些結(jié)果說明,通過軌跡壓縮與跨輪次信息傳遞,小模型在資源受限場景下也能獲得接近甚至超過更大模型的效果。

      更少的消耗、更高的性能的通用拓展

      Re-TRAC 不僅可以通過訓(xùn)練提升小模型性能,還可以作為無需訓(xùn)練的測試擴(kuò)展直接應(yīng)用于前沿模型。

      研究團(tuán)隊在 o4-mini、o3、GPT-5、DeepSeek-V3.2、GLM-4.7 和 MiniMax-M2.1 上實現(xiàn)了 Re-TRAC 框架,并與多數(shù)投票(Majority Voting)、加權(quán)投票(Weighted Voting)和最佳選擇(Best-of-N)等方法進(jìn)行了對比。



      結(jié)果顯示,Re-TRAC 在所有模型上都達(dá)到了最佳或具有競爭力的性能。在 BrowseComp300 子集上:

      • o4-mini通過 Re-TRAC 從 25.7% 提升到 46.8%;
      • o3從 54.9% 提升到 69.8%;
      • GPT-5-medium從 48.3% 提升到 66.6%;
      • DeepSeek-V3.2從 45.3% 提升到 60.8%;
      • GLM-4.7從 37.7% 提升到 60.7%。

      在傳統(tǒng)框架中,由于軌跡相互獨立,資源使用量通常隨擴(kuò)展近似線性增長。Re-TRAC 會繼承之前輪次的狀態(tài),使搜索空間逐步收斂,從而減少冗余工具調(diào)用與重復(fù)探索,提升探索的效率。

      技術(shù)細(xì)節(jié):

      如何訓(xùn)練 Re-TRAC 模型

      研究團(tuán)隊開發(fā)了一種后訓(xùn)練方法,構(gòu)建了基于結(jié)構(gòu)化狀態(tài)表示的監(jiān)督微調(diào)(SFT)數(shù)據(jù)。訓(xùn)練數(shù)據(jù)通過實體樹方法構(gòu)建:從維基百科收集大量實體作為樹根,然后遞歸搜索相關(guān)實體作為子節(jié)點,直到樹達(dá)到預(yù)定義深度。

      通過選擇從根到葉節(jié)點的路徑并將邊轉(zhuǎn)換為子問題,團(tuán)隊合成了 33K 個問答對。然后,收集 GLM-4.7 在這些合成問題上的 Re-TRAC(4 輪)軌跡,經(jīng)過過濾后得到 104k 個訓(xùn)練樣本,用于訓(xùn)練 RE-TRAC-4B 和 RE-TRAC-30B 模型。

      實驗結(jié)果顯示,經(jīng)過 SFT 訓(xùn)練后,Qwen3-4B-Instruct 在 BrowseComp 上的準(zhǔn)確率從 2.7% 大幅提升到 30.0%,在 BrowseComp-ZH 上從 6.9% 提升到 36.1%,在 GAIA 上從 24.4% 提升到 70.4%,在 XBench 上從 45.0% 提升到 76.6%。

      這表明通過簡單的 SFT 訓(xùn)練,配合 Re-TRAC 框架,可以產(chǎn)生強(qiáng)大的搜索智能體,實現(xiàn)與通過大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練的模型相當(dāng)甚至更好的性能。

      總結(jié):

      優(yōu)化 ReAct 的搜索框架,

      讓小模型跑出大模型表現(xiàn)

      Re-TRAC 可以看作是針對深度搜索任務(wù)優(yōu)化過的 ReAct 框架:在原有「思考→調(diào)用工具→觀察→再思考」的范式上,引入了跨輪次的軌跡壓縮和結(jié)構(gòu)化狀態(tài)表示,讓智能體在開放網(wǎng)絡(luò)檢索、復(fù)雜信息匯總等場景中不再「從零開始」,而是像人一樣復(fù)用既有證據(jù)、總結(jié)失敗教訓(xùn)并規(guī)劃未來方向。

      更重要的是,這種有針對性的框架設(shè)計讓小模型也能跑出大模型級別的效果,為資源受限場景(如邊緣設(shè)備、本地部署)提供了一條「用小模型做大事」的現(xiàn)實路徑。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      76年尼克松訪華,毛主席臨時修改接待名單:讓國鋒與江青一同出席

      76年尼克松訪華,毛主席臨時修改接待名單:讓國鋒與江青一同出席

      元哥說歷史
      2026-02-25 14:55:03
      劉強(qiáng)東投50億元創(chuàng)立游艇品牌,與深圳、珠海政府簽約造船

      劉強(qiáng)東投50億元創(chuàng)立游艇品牌,與深圳、珠海政府簽約造船

      南方都市報
      2026-02-24 20:12:14
      印尼一位16歲男孩與一位41歲女人結(jié)婚了。男孩媽媽竟然萬分支持

      印尼一位16歲男孩與一位41歲女人結(jié)婚了。男孩媽媽竟然萬分支持

      有書
      2026-02-24 17:16:21
      何超瓊春節(jié)到四太女兒家做客,跟何超盈女兒穿親子裝,姐妹倆很親

      何超瓊春節(jié)到四太女兒家做客,跟何超盈女兒穿親子裝,姐妹倆很親

      觀察者海風(fēng)
      2026-02-25 12:09:32
      《鏢人》逆跌,4人零差評,4人升咖,2人翻紅,只有他被罵慘!

      《鏢人》逆跌,4人零差評,4人升咖,2人翻紅,只有他被罵慘!

      白日追夢人
      2026-02-24 04:04:34
      林徽因落選的國徽方案,網(wǎng)友看后感嘆:審美確實一絕,但真不合適

      林徽因落選的國徽方案,網(wǎng)友看后感嘆:審美確實一絕,但真不合適

      曉楖科普
      2026-02-25 16:15:41
      古董相機(jī)價格暴漲翻10倍 根本搶不到 業(yè)內(nèi)人士:芯片短缺和物流費用暴漲成主因

      古董相機(jī)價格暴漲翻10倍 根本搶不到 業(yè)內(nèi)人士:芯片短缺和物流費用暴漲成主因

      快科技
      2026-02-24 11:31:04
      秦皇島發(fā)生當(dāng)街殺人惡性事件

      秦皇島發(fā)生當(dāng)街殺人惡性事件

      爆角追蹤
      2026-02-25 19:24:37
      突然拉升!000056,122萬手封漲停

      突然拉升!000056,122萬手封漲停

      中國基金報
      2026-02-25 11:23:43
      場均30分7板2斷,5000萬年薪或歸零!難怪你這么拼,確實快離隊了

      場均30分7板2斷,5000萬年薪或歸零!難怪你這么拼,確實快離隊了

      老梁體育漫談
      2026-02-24 23:16:48
      2月25日人民幣對美元中間價調(diào)升93個基點

      2月25日人民幣對美元中間價調(diào)升93個基點

      證券時報
      2026-02-25 09:31:35
      女子誤轉(zhuǎn)69萬元公款,對方拒絕退款!警方介入,收款人:管得著嗎

      女子誤轉(zhuǎn)69萬元公款,對方拒絕退款!警方介入,收款人:管得著嗎

      環(huán)球網(wǎng)資訊
      2026-02-24 22:05:24
      香港第一風(fēng)水師陳朗,因助人改命受天譴,李嘉誠花費千萬為他續(xù)命

      香港第一風(fēng)水師陳朗,因助人改命受天譴,李嘉誠花費千萬為他續(xù)命

      郁郁乎文
      2024-07-07 22:25:36
      美教育部:2025年中國向美大學(xué)捐贈了5.28億美元!

      美教育部:2025年中國向美大學(xué)捐贈了5.28億美元!

      達(dá)文西看世界
      2026-02-25 19:08:22
      有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

      有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

      夜深愛雜談
      2026-02-18 20:55:58
      江西一家5口自駕返程遇車禍致1死4傷 目擊者稱一半車身被大貨車擠壓在護(hù)欄上

      江西一家5口自駕返程遇車禍致1死4傷 目擊者稱一半車身被大貨車擠壓在護(hù)欄上

      閃電新聞
      2026-02-25 09:57:16
      柯建銘因“大罷免”失敗萌生退意?蔡其昌接班后三派系共治

      柯建銘因“大罷免”失敗萌生退意?蔡其昌接班后三派系共治

      海峽導(dǎo)報社
      2026-02-24 18:22:07
      舒淇全家福曝光,姐弟顏值反差大,豪宅搶眼,馮德倫態(tài)度一目了然

      舒淇全家福曝光,姐弟顏值反差大,豪宅搶眼,馮德倫態(tài)度一目了然

      庭小娛
      2026-02-25 15:01:06
      中國古代男主人到底能不能和丫鬟發(fā)生關(guān)系?

      中國古代男主人到底能不能和丫鬟發(fā)生關(guān)系?

      文一史二
      2026-02-18 09:02:53
      18點05,CCTV直播!中國男籃vs日本 媒體人曝新消息 預(yù)測首發(fā)如下

      18點05,CCTV直播!中國男籃vs日本 媒體人曝新消息 預(yù)測首發(fā)如下

      大秦壁虎白話體育
      2026-02-25 17:00:28
      2026-02-25 19:43:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12362文章數(shù) 142569關(guān)注度
      往期回顧 全部

      科技要聞

      “機(jī)器人只跳舞,沒什么用”

      頭條要聞

      新房被淹男子12年未交物業(yè)費 春節(jié)前后家中停水超50天

      頭條要聞

      新房被淹男子12年未交物業(yè)費 春節(jié)前后家中停水超50天

      體育要聞

      曝雄鹿計劃今夏追小卡 字母哥渴望與其并肩作戰(zhàn)

      娛樂要聞

      撒貝寧到沈陽跑親戚 老婆李白模特身材

      財經(jīng)要聞

      上海樓市放大招,地產(chǎn)預(yù)期別太大

      汽車要聞

      750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

      態(tài)度原創(chuàng)

      旅游
      健康
      本地
      游戲
      公開課

      旅游要聞

      馬年首艘國際訪問港郵輪抵滬 外籍旅客比例超95%

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      本地新聞

      津南好·四時總相宜

      《Reloadian》正式亮相Steam新品試玩節(jié)

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版