<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

      阿里發(fā)布信息檢索Agent,可自主上網(wǎng)查資料,GAIA基準(zhǔn)超越GPT-4o

      0
      分享至

      不圓 發(fā)自 凹非寺
      量子位 | 公眾號(hào) QbitAI

      Agent能“看懂網(wǎng)頁”,像人類一樣上網(wǎng)

      阿里發(fā)布WebDancer,就像它的名字一樣,為“網(wǎng)絡(luò)舞臺(tái)”而生。

      只要輸入指令,它就可以幫你上網(wǎng)搜索、做攻略,實(shí)現(xiàn)自主信息檢索代理和類似深度研究模型的推理。

      傳統(tǒng)模型只能按固定流程思考,而WebDancer作為一個(gè)端到端的自主信息搜索智能體,具備多步推理、工具使用和泛化能力。



      WebDancer在GAIA和WebWalkerQA上分別取得了61.1%和54.6%的Pass@3分?jǐn)?shù),優(yōu)于基線模型和部分開源框架。

      模型和方法均已開源,網(wǎng)友直呼想試:



      WebDancer的秘密武器

      不同于其它的推理問答模型,WebDancer要像人類一樣思考、理解并操作,可不是一件簡單的事情。

      使用GAIA、WebWalkerQA和日常使用情況對WebDancer進(jìn)行演示,可以看到,WebDancer能夠執(zhí)行多步驟和復(fù)雜推理的長期任務(wù),例如網(wǎng)頁遍歷、信息搜索和問答。

      它的“秘密武器”是一種四階段訓(xùn)練范式,包括瀏覽數(shù)據(jù)構(gòu)建、軌跡采樣、針對有效冷啟動(dòng)的監(jiān)督微調(diào)以及用于改進(jìn)泛化能力的強(qiáng)化學(xué)習(xí)。

      阿里開源了這個(gè)訓(xùn)練框架,使除了WebDancer以外的智能代理也能夠自主獲取自主搜索和推理技能:

      1、瀏覽數(shù)據(jù)構(gòu)建



      這一步的目標(biāo)是創(chuàng)建覆蓋真實(shí)的網(wǎng)頁環(huán)境、需要多步交互的復(fù)雜QA對。

      可以分為兩個(gè)網(wǎng)絡(luò)數(shù)據(jù)生成流程,如上圖所示。

      在CRAWLQA中,需要先收集知識(shí)性網(wǎng)站(ArXiv、GitHub、Wiki等)的主URL,然后在主頁上系統(tǒng)地點(diǎn)擊和收集通過子鏈接可訪問的子頁面,模擬人類行為。

      使用預(yù)定義規(guī)則,就可以利用GPT4o根據(jù)收集到的信息生成QA對(1.0版)了。

      對于E2HQA(Easy-to-Hard QA)來說,將初始的簡單問題Q1通過實(shí)體檢索→信息擴(kuò)展→問題重構(gòu)的步驟,使任務(wù)在復(fù)雜性上逐步擴(kuò)展,從簡單的實(shí)例到更具挑戰(zhàn)性的實(shí)例。

      依然是使用GPT-4o重寫問題,直到迭代達(dá)到n,QA對足夠成熟。

      2、軌跡采樣



      這一步要從QA對中生成高質(zhì)量的思維-動(dòng)作-觀察(Thought-Action-Observation)執(zhí)行軌跡。

      WebDancer的代理框架基于ReAct,這是語言代理最流行的方法,一個(gè)ReAct軌跡由多個(gè)思維-動(dòng)作-觀察輪次組成:

      在思維階段,模型會(huì)根據(jù)輸入生成推理鏈,然后在動(dòng)作階段將參數(shù)為結(jié)構(gòu)化JSON,最后在觀察階段返回結(jié)果(如網(wǎng)頁摘要或搜索片段)

      思維階段生成的思維鏈對智能體執(zhí)行十分重要,WebDancer采用了雙路徑采樣的方法,可分為短思維鏈和長思維鏈兩條路徑:

      • 短思維鏈適用于單步驟任務(wù),直接使用GPT-4o生成簡潔軌跡;
      • 長思維鏈適用于多步驟任務(wù),使用專用推理模型(LRMs、QwQ-Plus)生成帶長鏈推理的軌跡。



      因?yàn)長RM、QwQ-Plus在訓(xùn)練過程中沒有接觸過多步推理輸入,在進(jìn)一步推理時(shí),WebDancer排除了之前的思維,但它們作為有價(jià)值的監(jiān)督信號(hào)保留在了生成的軌跡中。

      隨后,WebDancer采用了一個(gè)基于漏斗的三階段軌跡過濾框架,僅保留滿足以下三個(gè)標(biāo)準(zhǔn)的軌跡:信息非冗余、目標(biāo)一致性以及邏輯推理準(zhǔn)確性。

      3、有監(jiān)督微調(diào)



      在獲得ReAct格式的優(yōu)質(zhì)軌跡后,就可以將其無縫整合到智能體的有監(jiān)督微調(diào)(Supervised Fine-Tuning,SFT)訓(xùn)練階段,這個(gè)步驟可以教會(huì)模型基礎(chǔ)的任務(wù)分解與工具調(diào)用能力,同時(shí)盡可能保留其原有的推理能力。

      在SFT階段,要先將軌跡轉(zhuǎn)換為標(biāo)記化輸入,明確分隔符,然后計(jì)算Thought和Action部分的損失(忽略O(shè)bservation噪聲),損失公式如下:



      其中tc

      是任務(wù)上下文,



      為完整的智能體執(zhí)行軌跡,每個(gè)



      代表思考/行動(dòng)/觀察,



      過濾掉對應(yīng)外部反饋的標(biāo)記,確保損失是在代理的自主決策步驟上計(jì)算的。

      SFT階段為后續(xù)的RL階段提供了強(qiáng)大的初始化。

      4、強(qiáng)化學(xué)習(xí)

      這一步的目標(biāo)是優(yōu)化代理在真實(shí)網(wǎng)絡(luò)環(huán)境中的決策能力和泛化能力。

      在SFT階段的基礎(chǔ)上,本階段采用解耦裁剪動(dòng)態(tài)采樣策略優(yōu)化算法(Decoupled Clip and Dynamic Sampling Policy Optimization,DAPO)來精調(diào)策略模型。

      DAPO是一種基于獎(jiǎng)勵(lì)模型R的策略優(yōu)化算法,其工作原理如下:

      首先,對于每個(gè)包含部分答案



      的階段軌跡



      ,算法生成一組候選執(zhí)行序列



      。通過最大化以下目標(biāo)更新策略:



      隨后,過采樣并過濾準(zhǔn)確率為1或0的提示(prompts),確保智能體聚焦于高質(zhì)量信號(hào)的學(xué)習(xí)。

      最后,采用新舊策略的概率比替代固定KL懲罰項(xiàng):





      獎(jiǎng)勵(lì)設(shè)計(jì)在RL訓(xùn)練過程中起著至關(guān)重要的作用,WebDancer的獎(jiǎng)勵(lì)機(jī)制主要由兩種類型的獎(jiǎng)勵(lì)組成,分別為格式獎(jiǎng)勵(lì)和答案獎(jiǎng)勵(lì),權(quán)重分別為0.1和0.9。

      最終獎(jiǎng)勵(lì)函數(shù)為:

      有效性分析



      在GAIA和WebWalkerQA這兩個(gè)成熟的基準(zhǔn)數(shù)據(jù)集上測試WebDancer,結(jié)果顯示,WebDancer在GAIA上達(dá)到46.6%的平均準(zhǔn)確率,WebWalkerQA上達(dá)到43.2%,優(yōu)于基線模型和部分開源智能體框架。

      可以看到,不具備代理能力的框架(No Agency)在GAIA和WebWalkerQA基準(zhǔn)測試中均表現(xiàn)不佳,這突出了主動(dòng)信息搜索和代理決策對于這些任務(wù)的重要性。

      閉源代理系統(tǒng)OpenAI DR通過端到端強(qiáng)化學(xué)習(xí)訓(xùn)練實(shí)現(xiàn)了最高分,在開源框架中,基于原生強(qiáng)推理模型(如QwQ-32B)構(gòu)建的代理方法始終優(yōu)于非代理對應(yīng)方法,證明了在代理構(gòu)建中利用推理專用模型的有效性。



      在兩個(gè)更具挑戰(zhàn)性的數(shù)據(jù)集BrowseComp(英文)和BrowseComp-zh(中文)上測試WebDancer,均表現(xiàn)出持續(xù)強(qiáng)勁的性能,突顯了其在處理困難推理和信息搜索任務(wù)中的魯棒性和有效性。



      鑒于智能體環(huán)境的動(dòng)態(tài)性和復(fù)雜性,以及GAIA測試集相對較小且變化較大的特點(diǎn),對Pass@3和Cons@3進(jìn)行細(xì)粒度分析。

      值得注意的是,經(jīng)過RL后的Pass@1性能與SFT基線的Pass@3相當(dāng),表明RL能夠更有效地采樣正確響應(yīng)。

      對于語言推理模型(LRMs),雖然經(jīng)過RL后Pass@1、Pass@3或Cons@3沒有顯著提升,但在一致性方面有明顯的改善;這可能是過長軌跡導(dǎo)致的稀疏獎(jiǎng)勵(lì)信號(hào)所致。

      參考鏈接:
      https://x.com/_akhaliq/status/1937997314737553873
      論文:https://arxiv.org/abs/2505.22648
      github:https://github.com/Alibaba-NLP/WebAgent/tree/main/WebDancer
      模型:https://huggingface.co/Alibaba-NLP/WebDancer-32B

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      如果他活著,世上本無大明朝,一代梟雄為何竟然死于小人之手?

      如果他活著,世上本無大明朝,一代梟雄為何竟然死于小人之手?

      長風(fēng)文史
      2025-12-18 16:25:38
      一株也不能挖!2025年廣西查扣5000余株,7人均被抓,最高判刑7年

      一株也不能挖!2025年廣西查扣5000余株,7人均被抓,最高判刑7年

      萬象硬核本尊
      2025-12-18 21:25:46
      國盾量子:公司董事長呂品逝世

      國盾量子:公司董事長呂品逝世

      財(cái)聯(lián)社
      2025-12-18 22:36:05
      太慘了!小米車主剛提新車就喜提牢飯!被撞者身份曝光,人已離世

      太慘了!小米車主剛提新車就喜提牢飯!被撞者身份曝光,人已離世

      鋭娛之樂
      2025-12-18 22:15:24
      又見神秘力量!泰國軍隊(duì)士氣如虹,洪森的臭棋又來了

      又見神秘力量!泰國軍隊(duì)士氣如虹,洪森的臭棋又來了

      超級(jí)學(xué)爸蛋總
      2025-12-16 23:26:13
      女高中生憑顏值火出圈,評(píng)論區(qū)沸騰:妥妥的985長相

      女高中生憑顏值火出圈,評(píng)論區(qū)沸騰:妥妥的985長相

      蝴蝶花雨話教育
      2025-12-13 08:53:20
      洪森父子背刺多年好友,大難臨頭之際,中方一錘定音,泰國改口了

      洪森父子背刺多年好友,大難臨頭之際,中方一錘定音,泰國改口了

      滄海旅行家
      2025-12-18 18:27:30
      陳林堅(jiān):感謝那些說我老了、打不動(dòng)了的人,讓我更加堅(jiān)定信念

      陳林堅(jiān):感謝那些說我老了、打不動(dòng)了的人,讓我更加堅(jiān)定信念

      懂球帝
      2025-12-18 12:06:16
      母親是著名演員,父親上億家產(chǎn),他卻跑龍?zhí)?0年,終成實(shí)力派

      母親是著名演員,父親上億家產(chǎn),他卻跑龍?zhí)?0年,終成實(shí)力派

      白面書誏
      2025-11-18 18:33:41
      12345不能瞎打了!剛落地的新規(guī),到底是管我們還是幫我們?

      12345不能瞎打了!剛落地的新規(guī),到底是管我們還是幫我們?

      今朝牛馬
      2025-12-17 22:04:44
      陳曉旭走了,周海媚走了,何晴也走了,四大古裝美人只有她還活著

      陳曉旭走了,周海媚走了,何晴也走了,四大古裝美人只有她還活著

      查爾菲的筆記
      2025-12-18 13:17:42
      美國出狠招!兩黨提案:誰買俄羅斯石油,立刻踢出全球金融體系!

      美國出狠招!兩黨提案:誰買俄羅斯石油,立刻踢出全球金融體系!

      三農(nóng)老歷
      2025-12-18 15:36:57
      比緬北更恐怖!曾經(jīng)的旅游勝地,如今黃賭毒俱全,性交易隨處可見

      比緬北更恐怖!曾經(jīng)的旅游勝地,如今黃賭毒俱全,性交易隨處可見

      李健政觀察
      2025-10-23 15:56:04
      山東:堅(jiān)決擁護(hù)黨中央決定

      山東:堅(jiān)決擁護(hù)黨中央決定

      新京報(bào)
      2025-12-18 18:02:12
      高市早苗終于低頭了

      高市早苗終于低頭了

      今日段評(píng)
      2025-12-19 07:00:05
      女大學(xué)生深夜在校內(nèi)意外身亡,來自農(nóng)村家庭,今年剛考上大學(xué),家屬悲痛發(fā)聲

      女大學(xué)生深夜在校內(nèi)意外身亡,來自農(nóng)村家庭,今年剛考上大學(xué),家屬悲痛發(fā)聲

      上觀新聞
      2025-12-18 11:37:05
      汪小菲喊話起訴抖音副總!曬出離婚裁定書,暴露大S隱私惹爭議

      汪小菲喊話起訴抖音副總!曬出離婚裁定書,暴露大S隱私惹爭議

      萌神木木
      2025-12-18 22:47:39
      王世龍:如果所有人都不把重心放在防守上 可能就又回到以前的狀態(tài)

      王世龍:如果所有人都不把重心放在防守上 可能就又回到以前的狀態(tài)

      狼叔評(píng)論
      2025-12-18 23:10:30
      優(yōu)秀!徐晶博士加入清華大學(xué)馬克思主義學(xué)院!

      優(yōu)秀!徐晶博士加入清華大學(xué)馬克思主義學(xué)院!

      超級(jí)數(shù)學(xué)建模
      2025-12-17 22:39:45
      國際足聯(lián)開罰單!亞洲勁旅歸化違規(guī):3場比賽被判0-3!罰款9萬

      國際足聯(lián)開罰單!亞洲勁旅歸化違規(guī):3場比賽被判0-3!罰款9萬

      小火箭愛體育
      2025-12-18 12:14:57
      2025-12-19 07:44:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動(dòng)態(tài)
      11877文章數(shù) 176339關(guān)注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

      頭條要聞

      美媒:美國下水一艘新軍艦中國已造好三艘 差距驚人

      頭條要聞

      美媒:美國下水一艘新軍艦中國已造好三艘 差距驚人

      體育要聞

      紐約尼克斯,板正的球隊(duì)

      娛樂要聞

      絲芭放大招了!實(shí)名舉報(bào)鞠婧祎經(jīng)濟(jì)犯罪

      財(cái)經(jīng)要聞

      尹艷林:呼吁加快2.5億新市民落戶進(jìn)程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩(wěn)"的證明

      態(tài)度原創(chuàng)

      時(shí)尚
      親子
      藝術(shù)
      本地
      軍事航空

      陳妍希這婚,離晚了

      親子要聞

      一山比一山高啊

      藝術(shù)要聞

      李苦禪寫菊,酣暢淋漓

      本地新聞

      云游安徽|決戰(zhàn)烽火照古今,千秋一脈看宿州

      軍事要聞

      福建艦入列后首過臺(tái)海 臺(tái)方談為何"甲板上沒有艦載機(jī)"

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 精品人妻一区二区三区蜜臀| 成人免费无码大片a毛片抽搐| 国产中文字幕乱人伦在线观看| 国产精品免费看久久久无码| 色伊人亚洲| 播放灌醉水嫩大学生国内精品| 天天伊人久久| 日日撸日日干| 国产av一区二区三区传媒| 中国xxx农村性视频| 国产一在线精品一区在线观看| 免费人成视频在线| 99免费视频| 蜜臀久久99精品久久久酒店新书| 人伦中文字幕| 人人看av日韩国产| 久久99国产乱子伦精品免费 | 国模和精品嫩模私拍视频 | 亚洲国产精品久久久久4婷婷| 亚洲成A| 靖安县| 成人大香蕉| 亚洲成av人片在线播放无码 | 免费无码又爽又刺激高潮软件| 国内精品视频区在线2021| 国产XX00| 欧洲一区二区三区| 中文字幕人妻宗合另类| av天堂中文字幕| 精品人妻中文无码| 国产成人a亚洲精品久久久久| 铁力市| 尤物一区| 丁香综合| 久久久av波多野一区二区| 伊人久久人妻| 原平市| 五月综合久久| 成人深爱网| 亚洲一区精品视频在线| 色噜噜狠狠色综合成人网|