網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請入駐

阿里發(fā)布信息檢索Agent，可自主上網(wǎng)查資料，GAIA基準(zhǔn)超越GPT-4o

2025-06-27 14:00:19　來源: 量子位

北京舉報(bào)

分享至

不圓發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

Agent能“看懂網(wǎng)頁”，像人類一樣上網(wǎng)？

阿里發(fā)布WebDancer，就像它的名字一樣，為“網(wǎng)絡(luò)舞臺(tái)”而生。

只要輸入指令，它就可以幫你上網(wǎng)搜索、做攻略，實(shí)現(xiàn)自主信息檢索代理和類似深度研究模型的推理。

傳統(tǒng)模型只能按固定流程思考，而WebDancer作為一個(gè)端到端的自主信息搜索智能體，具備多步推理、工具使用和泛化能力。

WebDancer在GAIA和WebWalkerQA上分別取得了61.1%和54.6%的Pass@3分?jǐn)?shù)，優(yōu)于基線模型和部分開源框架。

模型和方法均已開源，網(wǎng)友直呼想試：

WebDancer的秘密武器

不同于其它的推理問答模型，WebDancer要像人類一樣思考、理解并操作，可不是一件簡單的事情。

使用GAIA、WebWalkerQA和日常使用情況對WebDancer進(jìn)行演示，可以看到，WebDancer能夠執(zhí)行多步驟和復(fù)雜推理的長期任務(wù)，例如網(wǎng)頁遍歷、信息搜索和問答。

它的“秘密武器”是一種四階段訓(xùn)練范式，包括瀏覽數(shù)據(jù)構(gòu)建、軌跡采樣、針對有效冷啟動(dòng)的監(jiān)督微調(diào)以及用于改進(jìn)泛化能力的強(qiáng)化學(xué)習(xí)。

阿里開源了這個(gè)訓(xùn)練框架，使除了WebDancer以外的智能代理也能夠自主獲取自主搜索和推理技能：

1、瀏覽數(shù)據(jù)構(gòu)建

這一步的目標(biāo)是創(chuàng)建覆蓋真實(shí)的網(wǎng)頁環(huán)境、需要多步交互的復(fù)雜QA對。

可以分為兩個(gè)網(wǎng)絡(luò)數(shù)據(jù)生成流程，如上圖所示。

在CRAWLQA中，需要先收集知識(shí)性網(wǎng)站（ArXiv、GitHub、Wiki等）的主URL，然后在主頁上系統(tǒng)地點(diǎn)擊和收集通過子鏈接可訪問的子頁面，模擬人類行為。

使用預(yù)定義規(guī)則，就可以利用GPT4o根據(jù)收集到的信息生成QA對（1.0版）了。

對于E2HQA(Easy-to-Hard QA)來說，將初始的簡單問題Q1通過實(shí)體檢索→信息擴(kuò)展→問題重構(gòu)的步驟，使任務(wù)在復(fù)雜性上逐步擴(kuò)展，從簡單的實(shí)例到更具挑戰(zhàn)性的實(shí)例。

依然是使用GPT-4o重寫問題，直到迭代達(dá)到n，QA對足夠成熟。

2、軌跡采樣

這一步要從QA對中生成高質(zhì)量的思維-動(dòng)作-觀察（Thought-Action-Observation）執(zhí)行軌跡。

WebDancer的代理框架基于ReAct，這是語言代理最流行的方法，一個(gè)ReAct軌跡由多個(gè)思維-動(dòng)作-觀察輪次組成：

在思維階段，模型會(huì)根據(jù)輸入生成推理鏈，然后在動(dòng)作階段將參數(shù)為結(jié)構(gòu)化JSON，最后在觀察階段返回結(jié)果（如網(wǎng)頁摘要或搜索片段）。

思維階段生成的思維鏈對智能體執(zhí)行十分重要，WebDancer采用了雙路徑采樣的方法，可分為短思維鏈和長思維鏈兩條路徑：

短思維鏈適用于單步驟任務(wù)，直接使用GPT-4o生成簡潔軌跡；
長思維鏈適用于多步驟任務(wù)，使用專用推理模型（LRMs、QwQ-Plus）生成帶長鏈推理的軌跡。

因?yàn)長RM、QwQ-Plus在訓(xùn)練過程中沒有接觸過多步推理輸入，在進(jìn)一步推理時(shí)，WebDancer排除了之前的思維，但它們作為有價(jià)值的監(jiān)督信號(hào)保留在了生成的軌跡中。

隨后，WebDancer采用了一個(gè)基于漏斗的三階段軌跡過濾框架，僅保留滿足以下三個(gè)標(biāo)準(zhǔn)的軌跡：信息非冗余、目標(biāo)一致性以及邏輯推理準(zhǔn)確性。

3、有監(jiān)督微調(diào)

在獲得ReAct格式的優(yōu)質(zhì)軌跡后，就可以將其無縫整合到智能體的有監(jiān)督微調(diào)（Supervised Fine-Tuning，SFT）訓(xùn)練階段，這個(gè)步驟可以教會(huì)模型基礎(chǔ)的任務(wù)分解與工具調(diào)用能力，同時(shí)盡可能保留其原有的推理能力。

在SFT階段，要先將軌跡轉(zhuǎn)換為標(biāo)記化輸入，明確分隔符，然后計(jì)算Thought和Action部分的損失（忽略O(shè)bservation噪聲），損失公式如下：

其中tc

是任務(wù)上下文，

為完整的智能體執(zhí)行軌跡，每個(gè)

代表思考/行動(dòng)/觀察，

過濾掉對應(yīng)外部反饋的標(biāo)記，確保損失是在代理的自主決策步驟上計(jì)算的。

SFT階段為后續(xù)的RL階段提供了強(qiáng)大的初始化。

4、強(qiáng)化學(xué)習(xí)

這一步的目標(biāo)是優(yōu)化代理在真實(shí)網(wǎng)絡(luò)環(huán)境中的決策能力和泛化能力。

在SFT階段的基礎(chǔ)上，本階段采用解耦裁剪動(dòng)態(tài)采樣策略優(yōu)化算法（Decoupled Clip and Dynamic Sampling Policy Optimization，DAPO）來精調(diào)策略模型。

DAPO是一種基于獎(jiǎng)勵(lì)模型R的策略優(yōu)化算法，其工作原理如下：

首先，對于每個(gè)包含部分答案

的階段軌跡

，算法生成一組候選執(zhí)行序列

。通過最大化以下目標(biāo)更新策略：

隨后，過采樣并過濾準(zhǔn)確率為1或0的提示（prompts），確保智能體聚焦于高質(zhì)量信號(hào)的學(xué)習(xí)。

最后，采用新舊策略的概率比替代固定KL懲罰項(xiàng)：

獎(jiǎng)勵(lì)設(shè)計(jì)在RL訓(xùn)練過程中起著至關(guān)重要的作用，WebDancer的獎(jiǎng)勵(lì)機(jī)制主要由兩種類型的獎(jiǎng)勵(lì)組成，分別為格式獎(jiǎng)勵(lì)和答案獎(jiǎng)勵(lì)，權(quán)重分別為0.1和0.9。

最終獎(jiǎng)勵(lì)函數(shù)為：

有效性分析

在GAIA和WebWalkerQA這兩個(gè)成熟的基準(zhǔn)數(shù)據(jù)集上測試WebDancer，結(jié)果顯示，WebDancer在GAIA上達(dá)到46.6%的平均準(zhǔn)確率，WebWalkerQA上達(dá)到43.2%，優(yōu)于基線模型和部分開源智能體框架。

可以看到，不具備代理能力的框架（No Agency）在GAIA和WebWalkerQA基準(zhǔn)測試中均表現(xiàn)不佳，這突出了主動(dòng)信息搜索和代理決策對于這些任務(wù)的重要性。

閉源代理系統(tǒng)OpenAI DR通過端到端強(qiáng)化學(xué)習(xí)訓(xùn)練實(shí)現(xiàn)了最高分，在開源框架中，基于原生強(qiáng)推理模型（如QwQ-32B）構(gòu)建的代理方法始終優(yōu)于非代理對應(yīng)方法，證明了在代理構(gòu)建中利用推理專用模型的有效性。

在兩個(gè)更具挑戰(zhàn)性的數(shù)據(jù)集BrowseComp（英文）和BrowseComp-zh（中文）上測試WebDancer，均表現(xiàn)出持續(xù)強(qiáng)勁的性能，突顯了其在處理困難推理和信息搜索任務(wù)中的魯棒性和有效性。

鑒于智能體環(huán)境的動(dòng)態(tài)性和復(fù)雜性，以及GAIA測試集相對較小且變化較大的特點(diǎn)，對Pass@3和Cons@3進(jìn)行細(xì)粒度分析。

值得注意的是，經(jīng)過RL后的Pass@1性能與SFT基線的Pass@3相當(dāng)，表明RL能夠更有效地采樣正確響應(yīng)。

對于語言推理模型（LRMs），雖然經(jīng)過RL后Pass@1、Pass@3或Cons@3沒有顯著提升，但在一致性方面有明顯的改善；這可能是過長軌跡導(dǎo)致的稀疏獎(jiǎng)勵(lì)信號(hào)所致。

參考鏈接：
https://x.com/_akhaliq/status/1937997314737553873
論文：https://arxiv.org/abs/2505.22648
github：https://github.com/Alibaba-NLP/WebAgent/tree/main/WebDancer
模型：https://huggingface.co/Alibaba-NLP/WebDancer-32B

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.