![]()
這項由蒙特利爾學習算法研究所(Mila – Quebec AI Institute)與麥吉爾大學聯合開展的研究,以預印本形式發布于2026年4月,論文編號為arXiv:2604.07776。有興趣深入了解的讀者可通過該編號在arXiv上查閱完整原文。
**研究概要:一個"以少勝多"的故事**
每天有數以億計的人需要在網頁上完成各種任務:填寫表格、查詢數據庫、管理在線文件、瀏覽電商平臺……這些事情看似簡單,卻需要人花費大量時間。于是,讓AI替人在瀏覽器里"干活"的想法應運而生。這類能自主操作網頁的AI,被研究者稱為"網頁智能體"(Web Agent)。
問題在于,真正能勝任復雜網頁任務的AI,目前幾乎都是需要通過付費API才能使用的"頂級大模型"——比如GPT-4o、Claude 3.5 Sonnet等。這些模型不僅價格昂貴,還需要把用戶數據發送到第三方服務器,無法在本地部署。對于希望保護數據隱私、降低運營成本的企業或個人來說,這是一道繞不過的檻。
相比之下,參數量較小的開源模型(比如90億參數的小模型)雖然可以在自己的服務器甚至消費級顯卡上運行,但在網頁任務上的表現比大模型差了整整22個百分點以上。這個差距,就好像讓一位剛入職的新員工獨立處理原本需要資深專家才能應對的復雜業務。
蒙特利爾的研究團隊提出了一個簡潔而有效的解法:既然大模型那么厲害,何不讓它來"手把手帶徒弟",把自己的經驗壓縮傳授給小模型?這種方法在AI領域被稱為"知識蒸餾"(Knowledge Distillation)。但關鍵不在于"讓大模型多教",而在于"怎么教才最有效"。
研究團隊設計了一套名為**AGENT-AS-ANNOTATORS**("智能體即標注員")的框架,模仿人類為AI評測基準創建訓練數據時的分工方式,系統化地生成高質量的訓練軌跡。最終結果令人刮目相看:一個只有90億參數的小模型,在主流網頁任務評測基準WebArena上達到了41.5%的成功率,不僅超越了付費大模型GPT-4o(31.5%)和Claude 3.5 Sonnet(36.0%),還幾乎是此前同類最佳開源小模型成績(21.7%)的兩倍。
**一、為什么"讓大模型當老師"不是新鮮事,難點在哪里**
在AI領域,用能力更強的大模型來訓練小模型的想法由來已久。但正如現實中"好老師不一定能帶出好學生",這條路上有幾個關鍵難題。
首先,訓練數據的質量比數量更重要。以往很多研究傾向于收集海量數據——比如有研究從15萬個網站上爬取了大規模軌跡數據。但數據多不代表數據好。就像用大量粗制濫造的練習題來備考,不如用少量精挑細選的真題來得有效。
其次,已有的幾種方法雖然各有長處,但設計邏輯差異很大,很難直接比較誰更好。有的方法是先讓AI自由探索網頁,再事后給行為貼標簽(這叫"追溯式"任務生成);有的方法是先設計好任務再讓AI去執行(這叫"預設式"任務生成)。這些設計背后的邏輯是否真的重要?各個環節分別貢獻了多少?沒有人系統性地回答過這些問題。
正是在這樣的背景下,研究團隊希望做兩件事:第一,建立一套統一的描述框架,把現有方法都納入同一個坐標系進行比較;第二,在這個框架下實現一套完整的最優方案,看看極限在哪里。
**二、人類是怎么創建網頁AI的評測數據集的,為什么這很重要**
要理解這套框架的設計邏輯,需要先了解人類研究者是怎么為網頁智能體創建評測數據的。
以目前最權威的評測基準WebArena為例,人類標注員在創建它時,扮演了三種截然不同的角色。第一種是**任務設計師**:這個人負責探索網頁環境,站在某種用戶視角上,設計出有意義的任務,并寫明"什么叫做完成了這個任務"的評判標準。第二種是**執行者(標注員)**:他接到任務描述,不知道任何背景細節,直接上手在網頁上操作,一步一步留下完整的操作記錄。第三種是**督導員**:他回顧執行者的操作記錄,核實任務是否真的完成了。
這三個角色分工明確、相互制衡:任務設計師保證任務有意義且有可驗證的標準;執行者保證操作軌跡真實可信;督導員保證訓練數據的質量。
研究團隊發現,現有的AI方法其實都在模仿這套流程,只是各自選擇了不同的實現方式,缺了某些環節,或者用不同的名字稱呼同樣的東西。于是,他們提出把這三個角色都對應地替換成AI模塊,形成一個完整的、可系統比較的框架——這就是AGENT-AS-ANNOTATORS。
**三、AGENT-AS-ANNOTATORS框架:一套完整的"AI帶徒弟"流水線**
在AGENT-AS-ANNOTATORS框架中,整個訓練數據生成過程分為兩個階段,就像一個劇本的創作與排演。
第一階段是**任務合成**,對應人類流程中"任務設計師"的工作。這個階段有兩個AI模塊協同工作。
第一個模塊叫做**人格生成器(Persona Generator)**。它的作用是生成多樣化的"虛擬用戶角色",每個角色都有自己的職業背景、專業技能和個人興趣。研究團隊為六個網頁環境共生成了250個不同角色,包括像"擅長Python和機器學習的數據科學家愛麗絲"、"專注平面設計和排版的資深設計師利亞姆"、"從事生物信息學研究的醫學研究員法蒂瑪"等各色人物。
為什么需要這個步驟?因為同一個網站,不同背景的人使用的方式完全不同。數據科學家在GitLab代碼平臺上會去創建機器學習項目的倉庫;平面設計師則會去上傳設計素材文件。如果沒有角色多樣性,生成的任務就會集中在少數幾類常見操作上,訓練出來的模型就會有"盲區"。
第二個模塊叫做**任務生成器(Task Generator)**。它拿到一個角色描述,然后扮演這個角色去實際操作網頁——點擊、翻頁、查看內容——并把整個探索過程記錄下來。基于這些真實的探索記錄,它再生成具體的任務描述,以及對應的"評判提示(Hints)"。這個"評判提示"非常關鍵,它描述的是"當任務完成時,網頁上應該出現什么狀態",比如"用戶的評論應該出現在該帖子的評論區",或者"代碼倉庫中應該存在一個名為X的新文件"。
這個設計有一個重要好處:生成的任務是**基于真實環境狀態的**。AI不會憑空發明不存在的用戶名或產品,因為它是真實瀏覽過網頁、看到了什么才說什么。
第二階段是**軌跡收集與過濾**,對應"執行者"和"督導員"兩個角色。
**執行智能體(Agent)**接到的只有任務描述,沒有任何探索記錄、評判提示或角色信息。它在一個全新重置的網頁環境里從頭操作,一步一步把自己的行為記錄下來。這種"信息隔離"設計非常重要:它確保生成的操作軌跡反映的是AI真正解決任務的過程,而不是作弊——不是靠記住探索時看到的路徑走捷徑。
當執行智能體完成操作后,**裁判模塊(Judge)**登場。它同時拿到操作記錄和評判提示,回答四個標準化問題:這個AI有沒有陷入無效循環、有沒有產生多余的副作用、完成任務的過程是否足夠合理、最終有沒有成功完成任務。只有被裁判判定為成功的軌跡,才會被保留下來用于訓練小模型。
整套流程就像一個高度標準化的招聘流程:先由HR(人格生成器)確保候選任務多樣化,再由業務專家(任務生成器)設計崗位要求和考核標準,然后由候選人(執行智能體)在真實場景下答題,最后由考官(裁判)嚴格打分,只錄取真正優秀的答卷用來培訓新員工(小模型)。
**四、其他現有方法對比:誰缺了哪塊拼圖**
研究團隊整理了學界現有的幾種主流方法,發現它們都可以被納入這個框架來描述,但各自都缺少某些關鍵環節。
InSTA方法通過規模取勝,從15萬個真實網站上收集任務,但沒有用角色來增加任務多樣性,也沒有在評判時提供評判提示,只用了一個不帶提示的LLM裁判。NNetNav方法采用的是"追溯式"設計:先讓AI自由探索網頁,再事后給探索軌跡貼上任務標簽——這意味著任務評判提示根本無法在任務生成階段產生。AgentTrek通過復用網絡上的操作教程來生成任務,但沒有角色多樣性設計,也沒有預設式的任務生成階段。Explorer方法把任務生成和執行融合在一個循環里迭代優化,規模達到了9.4萬條軌跡,但同樣沒有預設式任務生成,因此也無法產生評判提示。Go-Browse方法用圖搜索的方式遍歷網址來發現任務,同樣沒有角色設計和評判提示。
AGENT-AS-ANNOTATORS是唯一一個同時具備所有六個模塊的方法:角色生成器、環境探索、預設式任務生成、評判提示、執行智能體、裁判。這套完整性,正是它性能優勢的來源。
**五、實驗設置:用什么"大老師"教,教出什么"小學生"**
研究團隊選擇了谷歌的**Gemini 3 Pro**作為"大老師"(即教師模型),用它來扮演框架中的任務生成器、執行智能體和裁判三個角色。一個模型身兼三職,簡化了整個流水線的復雜度。
訓練數據集被命名為**A3-SYNTH**,覆蓋WebArena的六個自托管網頁環境:一個類Reddit論壇、GitLab代碼平臺、電商網站及其管理后臺、維基百科系統和OpenStreetMap地圖服務。研究團隊為250個角色各分配了全部六個環境進行探索,共進行1500次探索,每次探索產生兩個任務描述,總計生成3000個任務。
經過裁判過濾后,根據不同環境,成功軌跡的比例在69%到85%之間,最終保留了2322條成功軌跡,包含16353個觀察-行動訓練樣本對,每條軌跡平均包含7步操作,平均每步的模型回復長度為1920個字符,其中包含平均1021個字符的推理過程。
被訓練的"小學生"是**Qwen3.5-9B**,一個只有90億參數的開源多模態模型,同時支持文本和圖片輸入。訓練方式是標準的監督微調(SFT),在4到8塊GPU上訓練了2個輪次,大約1022步,學習率為0.00001,批量大小32,最大序列長度8192個詞元。
整個評測在五個基準上進行:WebArena(訓練環境的測試集,381個任務)、VisualWebArena(需要理解網頁截圖的視覺任務,449個任務)、WorkArena L1(ServiceNow企業軟件平臺,330個任務)、WorkArena++(更復雜的企業多步驟任務,185個任務)、MiniWoB(簡化版網頁交互原子技能測試,625個任務類型)。除了WebArena,其余四個基準對訓練數據來說都是完全陌生的環境。
**六、核心成果:數字背后的故事**
訓練完成后,這個90億參數的小模型在WebArena上達到了41.5%的成功率。要理解這個數字有多厲害,可以這樣類比:假設100道網頁操作題,原來的小模型大概能答對31道,付費大模型GPT-4o能答對31.5道,Claude 3.5 Sonnet能答對36道,此前最好的同類開源小模型能答對21.7道——而訓練后的小模型能答對41.5道。這相當于把原來的能力提升了三分之一以上,還順便超越了兩個需要付費API的商業大模型。
更令人意外的是遷移能力。在完全沒有見過的**ServiceNow企業平臺**上(WorkArena L1),訓練后的小模型從33.3%跳升到51.5%,整整提升了18.2個百分點。ServiceNow和WebArena的六個網站在界面設計、導航邏輯、表單結構上完全不同,沒有任何表面上的相似之處。然而,"填寫表單"、"篩選表格"、"導航找到正確頁面"這些底層操作技能是可以遷移的——就像一個學會了打字和文件管理的人,不管是用Word還是用Pages,上手都不會太慢。
在視覺任務基準VisualWebArena上提升了5.4個百分點,在復雜企業任務WorkArena++上提升了7.5個百分點,在原子網頁技能測試MiniWoB上提升了5.8個百分點。五個基準全部提升,沒有任何退步。
如果用更直觀的方式來描述行為變化,研究團隊展示了一個購物后臺任務的對比案例。任務是找到最近一條待處理訂單的日期和訂單號。訓練前的小模型先點進銷售訂單頁面,然后打開篩選器,在各種狀態字段里翻來翻去,折騰了10步之后,給出了一個錯誤答案(#301號訂單,4月19日)。訓練后的小模型直接在儀表板上看到了待處理的#299號訂單,點進去一看,第2步就給出了正確答案(#299,5月31日)。一個用10步還沒答對,另一個用2步直接搞定——效率差距懸殊,而且前者還是錯的。
**七、"大老師"的質量比數量重要:一個反直覺的發現**
研究團隊比較了幾種不同的教師模型配置,得出了一個很有意思的結論:教學數據的質量,遠比數據的數量重要。
用Gemini 3 Pro(降低思考預算配置)作為教師,3000個任務中有69%到85%能成功完成,最終保留了16353個訓練樣本。而用能力相對較弱的Gemini 3 Flash作為教師,成功率只有17%到53%,而且失敗的軌跡往往更長(模型在放棄前會多走很多步),反而產生了更多的訓練樣本——22707個。但訓練出來的學生模型呢?Flash版老師訓練出的學生在WebArena上只有24.9%,而Pro版老師訓練出的學生達到了36.2%(這里用的是早期實驗用的Qwen3-VL-8B-Thinking模型)。數據更多,但學生更差——因為那些數據里充滿了失敗的、低質量的軌跡,教給學生的是錯誤的經驗。
還有一個更反直覺的發現:**降低教師模型的"思考預算",反而能提升訓練數據質量和學生表現**。"思考預算"可以理解為模型在給出最終答案前用于內部推理的計算資源。按理說,思考得越深入,模型應該越厲害。但實驗發現,當Gemini 3 Pro被配置為較低思考預算(產生更簡潔的推理過程)時,它在六個網頁環境上的任務完成率反而更高;而高思考預算配置雖然生成了更長的內部推理,卻在最終行動上表現更差。
為什么會這樣?研究團隊提出了兩種解釋:一方面,過度思考可能導致模型糾結于邊緣情況、執行出現失誤;另一方面,更簡潔的推理軌跡對學生模型來說是更干凈的學習信號,而過長的內部推理反而會把有用的信息"淹沒"在冗余內容里。
此外,一個有趣的發現是:更新的模型版本不一定是更好的老師。Gemini 3.1 Pro雖然是Gemini 3 Pro的后續版本,但在四個網頁環境上的任務完成率反而低于舊版,比如地圖環境上只有45.4%對78.0%。這說明,對特定任務分布的適配能力,比模型的版本新舊更重要。
**八、拆解每個零件:哪些模塊真正起了作用**
為了確認框架中的每個設計決策都真正有用,研究團隊做了一系列"拆零件"實驗:每次去掉或改變一個模塊,看成績會變多少。
首先看**裁判過濾**的貢獻。如果把裁判模塊去掉,直接用所有3000條軌跡(包括失敗的)來訓練,數據量增加了40%,但WebArena成功率從41.5%下降到37.0%——減少了4.5個百分點。數據更多反而更差,原因正是前面提到的:質量不如數量重要,劣質軌跡會污染學生模型的學習。
其次看**數據規模**的影響。把訓練軌跡從2322條依次削減到1430條、715條、285條,對應的成功率分別是40.2%、37.0%、32.0%。成績隨數據量減少而下降,但下降幅度越來越小——從285條增加到715條能帶來5個百分點的提升,但從1430條增加到2322條只帶來1.3個百分點。這是一條明顯的"收益遞減"曲線,說明繼續用同樣的方式生成更多數據,邊際效益已經很低,要想再有突破可能需要更多樣化的環境或不同的方法。
再看**推理軌跡**的貢獻。訓練數據中每一步操作都附帶了教師模型的推理過程(平均約1011個字符,存儲在特定標簽塊中)。如果完全去掉這些推理過程,成功率下降7.9個百分點——這是單個因素導致最大下降幅度的操作。更有趣的是,如果不是完全去掉,而是截斷推理過程(截到500字符或250字符),結果比完全去掉還要差:截斷到500字符時成功率只有31%,截斷到250字符時只有26.8%。完整推理幫助最多,截斷推理有時比沒有推理還糟糕。道理類似于看菜譜:完整的菜譜最有用,看一半的菜譜可能比不看菜譜還讓人迷糊。
關于**評判提示**的貢獻,研究團隊做了一組對照實驗:在相同的600條軌跡規模下,帶評判提示的裁判訓練出的學生成功率為37.8%,而不帶評判提示的裁判訓練出的只有35.4%,差了2.4個百分點。裁判在沒有提示的情況下,對21.3%的軌跡給出了不同的判斷,其中有144條軌跡被有提示的裁判判為失敗、但被無提示的裁判誤判為成功——這些"假陽性"數據混入訓練集后,會教給學生錯誤的示范。
**九、為什么六個網站就夠了,規模和深度的權衡**
InSTA方法用了15萬個網站,而這套方法只用了六個網頁環境,卻在更多樣化的基準上實現了更好的遷移能力。研究團隊認為,這背后有一個重要的假設:網頁交互的底層技能是有限且可泛化的。填寫表單、篩選表格、多步驟導航、搜索內容——這幾類核心操作在幾乎所有網頁平臺上都會用到,無論是GitHub還是ServiceNow,無論是Reddit還是企業ERP系統。
在六個環境里通過角色多樣化產生豐富的任務變化,可能比在更多環境里但每個環境任務變化較少更為高效。這類似于深度練習與廣度練習的權衡:練好十道真正有代表性的題,可能比泛泛地做一百道換湯不換藥的題效果更好。
當然,研究團隊也坦誠地指出,目前的數據縮放曲線已經顯示明顯的收益遞減,繼續在同樣六個環境里生成更多數據預計效果有限。未來的方向可能是把這種深度聚焦的方法與更廣泛的環境覆蓋結合起來,看兩者是否互補。
**十、這套方法的邊界和未來空間**
研究團隊對方法的局限性保持著清醒認識。角色生成器模塊雖然在理論上貢獻了任務多樣性,但由于重新從零生成無角色版本的數據成本過高,沒有做出完整的"無角色對照實驗",這是一個未填補的驗證空白。
裁判模塊的誤判率也沒有與人工標注進行系統性比對——建立一套能可靠標注多步驟網頁交互軌跡的人工評測流程本身就是一項大工程,研究團隊計劃通過公開發布數據集來讓社區共同驗證。
所有教師模型對比實驗都只用了Gemini系列,因為當時只有谷歌提供了可配置思考預算的模型,換用Claude或GPT-4系列是否會有不同結論還不清楚。
訓練方式目前只用了監督微調(SFT),沒有結合強化學習(RL)。研究者認為,在SFT的基礎上再加入RL微調——讓模型通過不斷嘗試和反饋來進一步優化——可能會進一步放大效果,但這是獨立于數據生成問題的另一個研究方向。
說到底,這項研究傳遞的核心信息是:在AI能力蒸餾這件事上,**數據質量的重要性遠超數據數量,結構化的生成流程比無結構的規模堆砌更有效**。用2322條精挑細選的高質量軌跡訓練出的90億參數小模型,在五個不同類型的網頁任務基準上全面超越了用付費API才能調用的商業大模型。這對于希望在本地部署可靠、經濟、安全的網頁智能體的開發者和企業來說,是一個非常實際的啟示。
歸根結底,AI領域的"教學藝術"和人類教育異曲同工:精心設計的課程、真實的練習環境、嚴格的質量把關,以及完整保留的推理過程——這些要素的組合,比單純堆砌練習量更能造就有真正理解力的"學生"。感興趣的讀者可以通過arXiv編號2604.07776找到原論文,研究團隊還承諾將公開完整的軌跡數據集、流水線代碼和微調后的模型權重,方便社區復現和進一步研究。
Q&A
Q1:AGENT-AS-ANNOTATORS框架與InSTA等現有方法的核心區別是什么?
A:AGENT-AS-ANNOTATORS是目前唯一同時具備六個完整模塊的軌跡合成框架,包括角色生成器、環境探索、預設式任務生成、評判提示、執行智能體和裁判模塊。與InSTA等方法相比,最關鍵的差異在于兩點:一是任務是在執行前就預設好的(而非事后追溯貼標簽),這使得生成評判提示成為可能;二是裁判模塊能利用這些評判提示來更準確地判斷軌跡是否成功,從而提升訓練數據質量。
Q2:為什么降低教師模型的思考預算反而能提升訓練效果?
A:研究發現,Gemini 3 Pro在較低思考預算(即推理過程更簡潔)的配置下,在六個網頁環境上的任務完成率反而更高。原因有兩個:一是過度思考可能導致模型在執行具體操作時反而猶豫出錯;二是更簡潔的推理軌跡對學生模型來說是更干凈的學習信號,復雜冗長的內部推理反而會降低訓練數據的信噪比,使學生模型更難提煉出有效的行動模式。
Q3:用六個網站訓練的模型為什么能在完全不同的企業平臺上表現良好?
A:WorkArena L1的大幅提升(+18.2個百分點)來自網頁交互的底層技能具有可遷移性。填寫表單、篩選數據表格、多步驟頁面導航等基礎操作在幾乎所有網頁平臺上都普遍存在,無論界面設計差異多大。訓練數據通過角色多樣化覆蓋了這些核心交互模式的豐富變體,使模型習得的是通用的操作邏輯,而非特定網站的頁面路徑記憶。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.