網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI2研究院打造的"網(wǎng)頁特工"：一個(gè)能替你上網(wǎng)干活的開源AI助手

2026-04-17 23:43:56　來源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由艾倫人工智能研究院（Allen Institute for AI）與華盛頓大學(xué)、北卡羅來納大學(xué)教堂山分校聯(lián)合開展的研究，以預(yù)印本形式發(fā)布于2026年4月，論文編號(hào)為arXiv:2604.08516。有興趣深入了解的讀者可以通過這個(gè)編號(hào)在arXiv平臺(tái)上找到完整的技術(shù)報(bào)告。

**網(wǎng)絡(luò)世界里的"私人助理"夢(mèng)**

每個(gè)人大概都有過這樣的經(jīng)歷：訂一張機(jī)票需要在好幾個(gè)網(wǎng)站之間來回跳，填寫各種表單；比價(jià)購物要打開十幾個(gè)頁面逐一對(duì)比；查一個(gè)政府業(yè)務(wù)需要在迷宮般的網(wǎng)頁結(jié)構(gòu)中摸索。這些事情既耗時(shí)又費(fèi)力，卻又不得不做。如果有個(gè)助手能替你搞定這一切——你只需說一句"幫我找最便宜的從北京到上海的機(jī)票"，它就能自動(dòng)打開瀏覽器、搜索、比較、篩選，最后把結(jié)果告訴你——那該多好？

這正是"網(wǎng)頁代理"（Web Agent）這個(gè)研究方向想要實(shí)現(xiàn)的目標(biāo)。近年來，隨著大型語言模型的飛速發(fā)展，已經(jīng)有一些商業(yè)產(chǎn)品開始提供類似功能，比如OpenAI和Google都推出了各自的"電腦使用"服務(wù)。但這些產(chǎn)品有一個(gè)共同的問題：它們是完全封閉的黑盒子，沒有人知道它們是怎么訓(xùn)練出來的、用了什么數(shù)據(jù)、遵循什么規(guī)則。這對(duì)于科學(xué)研究來說是一個(gè)大問題——你無法改進(jìn)你看不懂的東西，也無法信任你不了解的東西。

正是出于這個(gè)動(dòng)機(jī)，艾倫人工智能研究院的研究團(tuán)隊(duì)決定做一件在這個(gè)領(lǐng)域里少有人做的事：把一切都公開。他們發(fā)布了訓(xùn)練數(shù)據(jù)、模型權(quán)重、訓(xùn)練代碼和評(píng)估工具，并將整套系統(tǒng)命名為MolmoWeb。這是一個(gè)真正意義上的"開源"網(wǎng)頁代理系統(tǒng)，任何人都可以查看它是怎么工作的，任何研究者都可以在它的基礎(chǔ)上繼續(xù)改進(jìn)。

一、從"只會(huì)看截圖"到"能干活"：MolmoWeb的基本原理

要理解MolmoWeb是怎么工作的，可以把它想象成一個(gè)剛剛學(xué)會(huì)使用電腦的新員工。你給他一個(gè)任務(wù)，比如"幫我在Food Network上找一個(gè)三小時(shí)內(nèi)能做完的墨西哥燉牛肉食譜"，他就會(huì)打開瀏覽器，看著屏幕上顯示的網(wǎng)頁截圖，思考下一步該做什么，然后執(zhí)行一個(gè)操作——比如點(diǎn)擊搜索框、輸入關(guān)鍵詞、按下回車鍵——然后看著新的截圖，再思考，再操作，如此循環(huán)，直到找到答案為止。

這個(gè)過程的關(guān)鍵在于，MolmoWeb完全依靠視覺來理解網(wǎng)頁，就像一個(gè)正常人盯著屏幕操作一樣，而不是通過讀取網(wǎng)頁的底層代碼來工作。這一點(diǎn)與很多競(jìng)爭(zhēng)對(duì)手的方案有根本區(qū)別。很多傳統(tǒng)方案會(huì)讓AI讀取網(wǎng)頁的"可訪問性樹"（Accessibility Tree，簡(jiǎn)稱AxTree）——這是一種描述網(wǎng)頁所有元素及其關(guān)系的文本結(jié)構(gòu)，類似于網(wǎng)頁的X光片——然后根據(jù)這個(gè)文本結(jié)構(gòu)來決定點(diǎn)哪里。

研究團(tuán)隊(duì)選擇純視覺方案，有幾個(gè)深思熟慮的理由。其一，這和人類使用網(wǎng)頁的方式完全一致，讓AI的行為更容易被理解和審查。其二，AxTree在不同網(wǎng)站、不同框架、甚至同一網(wǎng)站的不同版本之間差異巨大，而且對(duì)于動(dòng)態(tài)加載的內(nèi)容往往不完整或具有誤導(dǎo)性，純視覺方案則不存在這個(gè)問題。其三，AxTree非常"啰嗦"——一個(gè)普通網(wǎng)頁的AxTree可能包含數(shù)萬個(gè)詞，處理起來耗費(fèi)大量計(jì)算資源，而一張截圖則是同樣信息的緊湊表達(dá)。

在每一步，MolmoWeb接收的信息包括三部分：當(dāng)前網(wǎng)頁的截圖、用戶給出的任務(wù)指令，以及過去10步的操作歷史記錄（包括當(dāng)前頁面的URL和標(biāo)題）。根據(jù)這些信息，它輸出兩樣?xùn)|西：一段自然語言"思考"——解釋自己為什么要做下一步操作——以及一個(gè)具體的瀏覽器動(dòng)作，比如"在坐標(biāo)(48.5, 50.2)處點(diǎn)擊鼠標(biāo)"。這個(gè)設(shè)計(jì)讓AI的決策過程變得透明可查，就像要求員工在每次操作前先說出自己的理由一樣。

MolmoWeb的模型架構(gòu)基于Molmo2，這是同一研究院之前發(fā)布的多模態(tài)語言模型，能夠處理圖像和文字交織在一起的輸入序列。整個(gè)動(dòng)作空間被設(shè)計(jì)得既全面又簡(jiǎn)潔，涵蓋了人類操作瀏覽器時(shí)會(huì)用到的幾乎所有動(dòng)作：導(dǎo)航到某個(gè)URL、在特定坐標(biāo)點(diǎn)擊鼠標(biāo)、拖拽操作、滾動(dòng)頁面、在特定位置滾動(dòng)、懸停、輸入文字、按下鍵盤按鍵、后退、新建標(biāo)簽頁、切換標(biāo)簽頁、等待（比如等網(wǎng)頁加載或等待驗(yàn)證碼），以及向用戶發(fā)送消息。坐標(biāo)位置被歸一化到0到100的范圍內(nèi)，在實(shí)際執(zhí)行時(shí)再轉(zhuǎn)換為像素坐標(biāo)，這樣與分辨率無關(guān)，增加了系統(tǒng)的通用性。

二、訓(xùn)練數(shù)據(jù)：如何教會(huì)一個(gè)AI"逛網(wǎng)"

如果說MolmoWeb是一名新員工，那么教會(huì)他上網(wǎng)的"培訓(xùn)教材"就是MolmoWebMix——這是研究團(tuán)隊(duì)精心構(gòu)建的訓(xùn)練數(shù)據(jù)集。數(shù)據(jù)集的規(guī)模相當(dāng)可觀：軌跡數(shù)據(jù)部分包含超過27.85萬條軌跡、220萬個(gè)操作步驟，覆蓋2600多個(gè)不同的網(wǎng)站域名。除此之外還有超過1050萬條GUI感知數(shù)據(jù)。

這些數(shù)據(jù)來自四個(gè)互補(bǔ)的來源，每個(gè)來源負(fù)責(zé)教導(dǎo)不同方面的能力，就像培訓(xùn)一個(gè)新員工需要既有課堂教學(xué)、又有導(dǎo)師指導(dǎo)、還有實(shí)際上手練習(xí)一樣。

第一類是"AxTree單智能體軌跡"。研究團(tuán)隊(duì)讓一個(gè)能讀取AxTree的AI（使用Gemini-3-Flash-Preview作為大腦）自動(dòng)完成各種網(wǎng)頁任務(wù)，同時(shí)在每一步都截圖保存。這樣生成的軌跡雖然AI本身看的是文本格式的AxTree，但保存下來的數(shù)據(jù)是"截圖+操作"的格式，正好可以用來訓(xùn)練只看截圖的MolmoWeb。這部分生成了7萬條軌跡、79.3萬個(gè)步驟，覆蓋1300多個(gè)網(wǎng)站。每條軌跡都經(jīng)過一個(gè)"成功過濾"步驟——用另一個(gè)AI充當(dāng)裁判，判斷任務(wù)是否真的完成了，沒完成的就丟棄不用。

第二類是"多智能體協(xié)作軌跡"。為了生成質(zhì)量更高的訓(xùn)練數(shù)據(jù)，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)三角色協(xié)作系統(tǒng)，就像一個(gè)小型項(xiàng)目團(tuán)隊(duì)。"規(guī)劃師"（Planner，使用Gemini-2.5-Flash）負(fù)責(zé)將大任務(wù)分解成一個(gè)個(gè)小目標(biāo)；"操作員"（Operator，使用Gemini的AxTree智能體）負(fù)責(zé)針對(duì)當(dāng)前子目標(biāo)執(zhí)行具體的瀏覽器動(dòng)作；"驗(yàn)證員"（Verifier，使用GPT-4o）負(fù)責(zé)分析最近5張截圖，判斷當(dāng)前子目標(biāo)是否已經(jīng)完成。三者分工協(xié)作，形成一個(gè)持續(xù)迭代的循環(huán)：規(guī)劃師給出子目標(biāo)，操作員執(zhí)行操作，驗(yàn)證員確認(rèn)結(jié)果，如果完成就讓規(guī)劃師生成下一個(gè)子目標(biāo)，否則繼續(xù)努力完成當(dāng)前目標(biāo)。實(shí)驗(yàn)證明，這種多智能體協(xié)作方式比單智能體效果更好——在WebVoyager測(cè)試集上得分78.5對(duì)74.4，有明顯提升。這部分生成了3.5萬條軌跡、43.8萬個(gè)步驟。

第三類是"節(jié)點(diǎn)遍歷軌跡"。研究團(tuán)隊(duì)為500多個(gè)熱門網(wǎng)站構(gòu)建了網(wǎng)站導(dǎo)航圖譜——從首頁出發(fā)，通過廣度優(yōu)先搜索，提取每個(gè)頁面的AxTree，讓AI選擇最有價(jià)值的導(dǎo)航鏈接繼續(xù)探索，深度達(dá)到四層，從而得到一棵描述整個(gè)網(wǎng)站結(jié)構(gòu)的樹。然后，用一個(gè)完全不依賴AI、純確定性的腳本來"回放"這些路徑：從根URL出發(fā)，在AxTree中找到目標(biāo)鏈接，必要時(shí)滾動(dòng)使其進(jìn)入視野，然后點(diǎn)擊。由于路徑是預(yù)先規(guī)定好的，成功與否可以通過URL匹配來機(jī)械地驗(yàn)證，不需要任何AI裁判。在每條路徑的終點(diǎn)，再用AI生成一個(gè)合理的任務(wù)描述，把這對(duì)"任務(wù)描述+操作軌跡"作為訓(xùn)練數(shù)據(jù)使用。這種方法生成速度快、成本低、可驗(yàn)證，共產(chǎn)生1.6萬條軌跡、15.1萬個(gè)步驟，覆蓋833個(gè)網(wǎng)站。

第四類是"人工標(biāo)注軌跡"。研究團(tuán)隊(duì)開發(fā)了一個(gè)定制的Chrome擴(kuò)展程序，能夠捕捉標(biāo)注者的每一次點(diǎn)擊、滾動(dòng)和鍵盤輸入，同時(shí)自動(dòng)截圖，然后將這些原始事件整理成標(biāo)準(zhǔn)格式的軌跡。眾包工作者在真實(shí)網(wǎng)站上完成各種任務(wù)，任務(wù)來源包括作者手寫的任務(wù)模板和AI生成的任務(wù)指令，覆蓋購物、新聞、房產(chǎn)、旅行、地圖、食譜、求職、健康等多個(gè)生活領(lǐng)域。

人工標(biāo)注的特別之處在于，每個(gè)任務(wù)都被分解成一個(gè)有序的子任務(wù)序列。工作者完成每個(gè)子任務(wù)后要打勾確認(rèn)，最終提交一個(gè)文字答案。如果某個(gè)子任務(wù)因網(wǎng)頁狀態(tài)不符合預(yù)期而無法完成，工作者要記錄原因。每條軌跡還要經(jīng)過人工審核，確認(rèn)任務(wù)完成且數(shù)據(jù)準(zhǔn)確捕捉，審核不過的要修改或重新采集。這部分共產(chǎn)生3.6萬條軌跡、62.3萬個(gè)步驟。

更進(jìn)一步，因?yàn)槿斯ぼ壽E有子任務(wù)分解，研究團(tuán)隊(duì)還從中提取了"原子技能軌跡"——把每個(gè)子任務(wù)片段單獨(dú)取出來作為訓(xùn)練樣本，讓AI針對(duì)性地學(xué)習(xí)各種基礎(chǔ)操作技能。技能分類涵蓋了直接導(dǎo)航到某URL、在搜索框輸入并提交、在頁面上定位信息、定位并打開子頁面、定位并點(diǎn)擊元素、填寫表單、填寫并提交表單、設(shè)置篩選條件、設(shè)置篩選并搜索、加入購物車，以及當(dāng)任務(wù)步驟不明確時(shí)的自由導(dǎo)航等十一種基本技能。此外，研究團(tuán)隊(duì)還專門讓AxTree智能體執(zhí)行"填表"和"找并打開"這兩種技能的專項(xiàng)任務(wù)，補(bǔ)充了5500條原子技能軌跡、6.87萬個(gè)步驟。

三、讓AI"看懂"網(wǎng)頁：GUI感知數(shù)據(jù)的構(gòu)建

除了操作軌跡，訓(xùn)練MolmoWeb還需要大量數(shù)據(jù)來教它理解網(wǎng)頁截圖的視覺內(nèi)容——也就是教它"看"。這部分?jǐn)?shù)據(jù)被稱為GUI感知數(shù)據(jù)（GUI Perception Data），共包含超過1050萬個(gè)樣本。

其中最大的一塊是"定位數(shù)據(jù)"。這類數(shù)據(jù)的格式是：給一張截圖，描述某個(gè)元素（比如"Filter & Sort按鈕"），模型需要預(yù)測(cè)應(yīng)該點(diǎn)擊的像素坐標(biāo)。研究團(tuán)隊(duì)從AxTree智能體的軌跡中自動(dòng)提取這些數(shù)據(jù)：對(duì)于每一張截圖，枚舉AxTree中所有可點(diǎn)擊的元素，為每個(gè)元素生成一段自然語言描述（使用元素的可訪問名稱和角色，描述方式包括模板生成和GPT-5生成兩種），然后將元素邊界框內(nèi)的隨機(jī)點(diǎn)（按照以元素中心為中心的截?cái)喔咚狗植疾蓸樱┳鳛檎_答案。這樣的設(shè)計(jì)讓模型學(xué)會(huì)的是"在元素合理范圍內(nèi)點(diǎn)擊"，而不是死板地只點(diǎn)元素正中心，模仿了人類更自然的點(diǎn)擊行為。通過這種方式，共生成了超過700萬個(gè)定位問答對(duì)，其中340萬用模板生成描述，380萬用GPT-5生成更自然的描述。此外，研究團(tuán)隊(duì)還把Molmo原有的PixmoPoints數(shù)據(jù)重新格式化為點(diǎn)擊動(dòng)作格式，追加了110萬個(gè)樣本。

另一塊是"截圖問答數(shù)據(jù)"。這類數(shù)據(jù)教AI從網(wǎng)頁截圖中讀取和推理信息，覆蓋三種問題類型：OCR類問題（讀取頁面上的文字內(nèi)容，比如價(jià)格、數(shù)量、文本），功能性問題（了解頁面提供哪些操作，比如"在這個(gè)頁面上哪里能找到財(cái)經(jīng)新聞"），以及摘要類問題（理解頁面整體內(nèi)容或某個(gè)元素的用途）。數(shù)據(jù)生成方式是：對(duì)AxTree智能體軌跡中的截圖，把對(duì)應(yīng)的AxTree提供給一個(gè)語言模型，讓它生成問答對(duì)，同時(shí)過濾掉包含"元素ID"等AxTree特有信息的樣本，確保問答完全基于視覺內(nèi)容。整個(gè)截圖問答數(shù)據(jù)集覆蓋395個(gè)網(wǎng)站，共222.7萬個(gè)問答對(duì)，其中OCR類占54%、功能性占26%、摘要類占20%。

四、對(duì)決：MolmoWeb與各路高手的較量

訓(xùn)練完成后，研究團(tuán)隊(duì)在四個(gè)基準(zhǔn)測(cè)試上對(duì)MolmoWeb進(jìn)行了全面評(píng)估，每個(gè)基準(zhǔn)測(cè)試都使用真實(shí)的在線網(wǎng)站，任務(wù)需要多步驟操作才能完成。這四個(gè)測(cè)試分別是WebVoyager（綜合網(wǎng)頁任務(wù)）、Online-Mind2Web（多網(wǎng)站導(dǎo)航）、DeepShop（深度購物研究）和WebTailBench（尾部任務(wù)，即難度較大的非常規(guī)任務(wù)）。為了保持公平，涉及過去日期的任務(wù)會(huì)被調(diào)整為當(dāng)前或未來的日期，每個(gè)模型每個(gè)基準(zhǔn)測(cè)試運(yùn)行3到5次取平均，允許最多100步操作，環(huán)境出錯(cuò)最多重試10次。

結(jié)果相當(dāng)令人印象深刻。MolmoWeb-8B在四個(gè)基準(zhǔn)上均超過了同等規(guī)模的開源模型，包括Fara-7B（WebVoyager得分73.5 vs 78.2，DeepShop得分26.2 vs 42.3，WebTailBench得分38.4 vs 49.5），以及UI-TARS-1.5-7B和GLM-4.1V-9B-Thinking。MolmoWeb-4B則在WebVoyager（75.2分）和DeepShop（35.6分）上超過了所有開源模型，在其他兩個(gè)測(cè)試上也表現(xiàn)具有競(jìng)爭(zhēng)力。

更值得關(guān)注的是與閉源大模型的對(duì)比。MolmoWeb-8B的WebVoyager得分78.2，明顯超過了GPT-4o的SoM（Set-of-Marks）方案65.1分；在DeepShop上，MolmoWeb-8B得42.3，也大幅領(lǐng)先GPT-4o的16.0分。SoM方案是一種增強(qiáng)提示技術(shù)：在截圖上用彩色標(biāo)記框住所有可交互元素，同時(shí)提供AxTree文本，讓模型同時(shí)獲得視覺和文本兩種信息——這意味著那些閉源方案實(shí)際上擁有比MolmoWeb更豐富的輸入信息，卻依然在部分測(cè)試上落后于只看截圖的MolmoWeb。在WebVoyager上，MolmoWeb-8B還與o3的SoM方案（79.3分）基本持平，與GPT-5的SoM方案（90.6分）存在差距，但這個(gè)差距在參數(shù)量相差數(shù)十倍的情況下已經(jīng)相當(dāng)難得。

與此同時(shí)，研究團(tuán)隊(duì)還比較了MolmoWeb與其"老師"的差距。MolmoWeb的大量合成訓(xùn)練數(shù)據(jù)來自Gemini-3-Flash的AxTree智能體，這個(gè)智能體在使用100步預(yù)算時(shí)WebVoyager得分85.6，Online-Mind2Web得分44.8，DeepShop得分55.3。MolmoWeb-8B在WebVoyager和Online-Mind2Web上落后約5到10分，在DeepShop和WebTailBench上落后超過10分。研究團(tuán)隊(duì)分析了三個(gè)原因：一是模型規(guī)模差距（Gemini-3-Flash參數(shù)量遠(yuǎn)大于8B）；二是操作方式差距（AxTree智能體用元素ID點(diǎn)擊，被程序化映射到坐標(biāo)，而MolmoWeb需要自己用視覺預(yù)測(cè)坐標(biāo)）；三是信息獲取方式差距（AxTree智能體直接讀取結(jié)構(gòu)化文本，MolmoWeb需要對(duì)截圖進(jìn)行視覺OCR和理解）。

五、讓AI在考試時(shí)"多做幾遍"：測(cè)試時(shí)計(jì)算擴(kuò)展

研究團(tuán)隊(duì)還探索了一個(gè)有趣的策略：如果不增加模型規(guī)模，而是在回答同一個(gè)問題時(shí)多運(yùn)行幾遍，選最好的那個(gè)結(jié)果，能提升多少性能？這在學(xué)術(shù)上叫做"測(cè)試時(shí)計(jì)算擴(kuò)展"（Test-time Scaling），具體形式是"并行多次嘗試+最優(yōu)結(jié)果選擇"。

實(shí)驗(yàn)方法是：對(duì)同一個(gè)任務(wù)，獨(dú)立運(yùn)行k次，每次用同一個(gè)AI裁判打分，選得分最高的那次作為最終答案。為了得到統(tǒng)計(jì)上可靠的結(jié)果，研究團(tuán)隊(duì)對(duì)每個(gè)任務(wù)實(shí)際運(yùn)行了5次（m=5），然后用公式計(jì)算"如果從5次中隨機(jī)選k次，至少有一次成功的概率"。

結(jié)果非常驚人。MolmoWeb-8B在WebVoyager上的單次成功率（pass@1）是78.2%，但當(dāng)k=4時(shí)（即從5次中選最好的，等效于運(yùn)行4次），成功率躍升至94.7%，提升了超過16個(gè)百分點(diǎn)。在Online-Mind2Web上，pass@1是35.3%，pass@4達(dá)到60.5%，同樣提升超過25個(gè)百分點(diǎn)。

研究團(tuán)隊(duì)還比較了兩種增加計(jì)算量的方式：增加單次嘗試的最大步數(shù)（從30步增加到100步），還是多次并行嘗試（每次30步，選最好的）。在總步數(shù)相近的情況下（比如3次并行×30步=90步總計(jì)算量 vs 單次100步），并行多次嘗試的效果遠(yuǎn)優(yōu)于增加單次步數(shù)。以8B模型為例，3次并行30步達(dá)到86.2%，而單次100步只有78.2%。這說明網(wǎng)頁操作任務(wù)的失敗很大程度上是"一步走錯(cuò)、滿盤皆輸"的連鎖反應(yīng)問題，多次嘗試能有效規(guī)避這種錯(cuò)誤放大效應(yīng)。

六、數(shù)據(jù)質(zhì)量還是數(shù)據(jù)來源？深入解剖訓(xùn)練數(shù)據(jù)

研究團(tuán)隊(duì)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行了系統(tǒng)的消融實(shí)驗(yàn)，也就是"一個(gè)一個(gè)去掉看影響"的測(cè)試，來弄清楚哪類數(shù)據(jù)最重要。

關(guān)于數(shù)據(jù)規(guī)模的影響，結(jié)論是規(guī)模越大越好，但收益遞減得很快。僅用1%的數(shù)據(jù)，WebVoyager得分44.5；用10%的數(shù)據(jù)，得分63.2，已經(jīng)達(dá)到了滿數(shù)據(jù)情況（68.5分）的約90%。換句話說，訓(xùn)練數(shù)據(jù)中最關(guān)鍵的那10%貢獻(xiàn)了絕大部分性能，剩下的90%只貢獻(xiàn)了最后的邊際提升。這種現(xiàn)象說明數(shù)據(jù)混合的設(shè)計(jì)質(zhì)量比純粹的規(guī)模更重要。

關(guān)于人工數(shù)據(jù) vs 合成數(shù)據(jù)，結(jié)論出人意料。單獨(dú)用2.8萬條人工軌跡訓(xùn)練的模型，WebVoyager得27.8，Online-Mind2Web得13.2；單獨(dú)用10.6萬條合成軌跡訓(xùn)練的模型，兩項(xiàng)得分分別是67.8和22.0；把兩者合并訓(xùn)練，反而只有68.5和21.4——合并后Online-Mind2Web甚至略低于純合成數(shù)據(jù)。人工數(shù)據(jù)的加入沒有帶來一致性的提升。

為了更直接地比較，研究團(tuán)隊(duì)專門收集了2700條人工軌跡和2700條合成軌跡，任務(wù)完全相同，然后分別訓(xùn)練模型。結(jié)果是合成數(shù)據(jù)全面勝出：DeepShop得分24.4 vs 19.8，WebVoyager得分53.0 vs 35.4，Online-Mind2Web得分16.8 vs 9.0。

這個(gè)結(jié)果聽起來違反直覺，但研究團(tuán)隊(duì)給出了合理的解釋。人類在不熟悉的網(wǎng)站上往往會(huì)表現(xiàn)出更多"探索性行為"——走錯(cuò)路、退回來、繞遠(yuǎn)路——這些行為在軌跡中造成噪聲，反而干擾了模型的學(xué)習(xí)。而AI智能體操作的是結(jié)構(gòu)化的AxTree，能獲取到比截圖更豐富的語義信息（比如元素的角色、狀態(tài)、關(guān)系），因此往往走出更直接、更一致的路徑，作為教學(xué)材料更清晰可靠。此外，人工軌跡中還有一些合成數(shù)據(jù)中沒有的操作類型（比如`scroll_at`和`mouse_drag_and_drop`），當(dāng)兩種數(shù)據(jù)混合訓(xùn)練時(shí)，模型在兩種操作模式之間搖擺不定，出現(xiàn)了"不知道該學(xué)誰"的混亂。

七、細(xì)節(jié)決定成敗：采樣策略與定位能力

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)看似微小卻影響顯著的細(xì)節(jié)：推理時(shí)用什么采樣策略。

所謂采樣策略，決定了模型在生成下一個(gè)詞時(shí)如何從所有可能性中做選擇。貪婪解碼（greedy decoding）每次都選概率最高的詞，確定性強(qiáng)但容易陷入局部最優(yōu)；Top-k采樣從概率最高的k個(gè)詞中隨機(jī)選一個(gè)；核采樣（nucleus sampling，又稱top-p）從累積概率達(dá)到p的最小詞集中隨機(jī)選。實(shí)驗(yàn)結(jié)果顯示，貪婪解碼的WebVoyager得分只有61.4，而Top-k（k=20，溫度0.7）達(dá)到67.4，核采樣（p=0.8，溫度0.7）達(dá)到68.5，后兩者比貪婪解碼高出5到7分。

定性分析發(fā)現(xiàn)，貪婪解碼會(huì)讓模型陷入重復(fù)循環(huán)——比如一直點(diǎn)同一個(gè)地方點(diǎn)不動(dòng)，或者一直往下滾屏但早就已經(jīng)過了目標(biāo)區(qū)域——而帶有隨機(jī)性的采樣策略能讓模型偶爾"換一條路走"，跳出卡殼狀態(tài)。

在視覺定位能力方面，研究團(tuán)隊(duì)還單獨(dú)訓(xùn)練了一個(gè)"定位專家"模型MolmoWeb-Ground-8B，只在定位數(shù)據(jù)上訓(xùn)練，專門負(fù)責(zé)"在截圖上找到并點(diǎn)擊指定元素"這項(xiàng)任務(wù)。在ScreenSpot和ScreenSpot v2這兩個(gè)定位基準(zhǔn)測(cè)試上，MolmoWeb-Ground-8B分別達(dá)到88.7和91.8，超過了Claude 3.7（ScreenSpot v2得87.6）、OpenAI CUA（87.9）、Holo1-7B（87.4和89.9）等競(jìng)爭(zhēng)對(duì)手，僅次于Gemini-3-Pro（ScreenSpot v2得93.7）。有趣的是，MolmoWeb-4B這個(gè)"全能選手"（既要定位又要完成任務(wù)）在同樣的測(cè)試上得87.2和89.5，與定位專家只差1到2分，說明通用任務(wù)訓(xùn)練并沒有嚴(yán)重?fù)p害定位能力。

說到底，MolmoWeb這項(xiàng)研究想傳達(dá)的核心信念其實(shí)很簡(jiǎn)單：用于開放互聯(lián)網(wǎng)的AI助手，應(yīng)該以開放的方式來構(gòu)建。商業(yè)公司的封閉方案固然強(qiáng)大，但科學(xué)進(jìn)步需要可重復(fù)、可檢驗(yàn)、可改進(jìn)。當(dāng)所有人都能看到訓(xùn)練數(shù)據(jù)長什么樣、模型怎么訓(xùn)練的、評(píng)估是怎么做的，整個(gè)研究社區(qū)才能真正理解"什么在起作用、什么沒起作用"，從而站在巨人的肩膀上繼續(xù)前進(jìn)。

從結(jié)果來看，開放路線并不意味著性能上的妥協(xié)。一個(gè)4B到8B參數(shù)的小模型，只靠看截圖（沒有AxTree輔助），就能在多個(gè)測(cè)試上超過使用更多信息的GPT-4o方案，而且通過并行多次嘗試，成功率可以從78%飆升至95%——這說明數(shù)據(jù)質(zhì)量和訓(xùn)練策略的精心設(shè)計(jì)，有時(shí)候比堆砌模型規(guī)模和輸入信息更有價(jià)值。

當(dāng)然，MolmoWeb還有很多局限。在模糊或約束特別多的任務(wù)上表現(xiàn)會(huì)下降；對(duì)較小的文字識(shí)別或閱讀長段落回答問題時(shí)偶有失誤；有時(shí)會(huì)陷入重復(fù)操作的死循環(huán)而無法自我糾正；一些不常見的操作（如元素內(nèi)滾動(dòng)、拖拽、懸停）表現(xiàn)不夠穩(wěn)定。研究團(tuán)隊(duì)坦率地承認(rèn)了這些問題，并在論文中詳細(xì)討論了可能的改進(jìn)方向，比如引入強(qiáng)化學(xué)習(xí)、自我蒸餾（從多次成功嘗試中學(xué)習(xí)）等方法來進(jìn)一步提升單次成功率。

這個(gè)領(lǐng)域還在快速發(fā)展，MolmoWeb的發(fā)布或許是一塊重要的基石——不僅僅因?yàn)樗男阅埽驗(yàn)樗屆總€(gè)人都能站在同一起跑線上，用同樣的數(shù)據(jù)、同樣的工具、同樣的評(píng)估標(biāo)準(zhǔn)來開展研究。對(duì)這一切感興趣的讀者，可以通過arXiv編號(hào)2604.08516找到完整的技術(shù)報(bào)告，所有數(shù)據(jù)和代碼將隨論文一起公開發(fā)布。

Q&A

Q1：MolmoWeb為什么不讀取網(wǎng)頁代碼，而只靠截圖來操作網(wǎng)頁？

A：讀取網(wǎng)頁底層代碼（AxTree）雖然信息豐富，但不同網(wǎng)站的代碼結(jié)構(gòu)差異很大，而且對(duì)于動(dòng)態(tài)加載的內(nèi)容往往不完整，處理起來還非常消耗計(jì)算資源（一個(gè)普通頁面可能產(chǎn)生數(shù)萬詞的文本）。純視覺方案與人類使用網(wǎng)頁的方式一致，更具通用性，也更容易理解和審查。實(shí)驗(yàn)也證明，精心訓(xùn)練的視覺模型在部分測(cè)試上甚至超過了同時(shí)使用截圖和代碼的更大閉源模型。

Q2：MolmoWebMix里人工標(biāo)注的數(shù)據(jù)為什么沒有合成數(shù)據(jù)效果好？

A：這與兩類數(shù)據(jù)的"信噪比"有關(guān)。人類在陌生網(wǎng)站上會(huì)走彎路、回頭、探索，軌跡中有大量"噪聲步驟"，干擾了模型的學(xué)習(xí)。而AI智能體操作結(jié)構(gòu)化的AxTree，能獲取更多語義信息，走出的路徑更直接、更一致，教學(xué)信號(hào)更清晰。此外，人工軌跡包含一些合成數(shù)據(jù)中沒有的操作類型，混合訓(xùn)練時(shí)導(dǎo)致模型學(xué)習(xí)方向混亂，兩種數(shù)據(jù)反而相互干擾。

Q3：MolmoWeb"多試幾次選最好"的策略在實(shí)際使用中代價(jià)大嗎？

A：確實(shí)需要額外計(jì)算資源，因?yàn)橐瑫r(shí)運(yùn)行多個(gè)獨(dú)立的瀏覽器會(huì)話，還需要一個(gè)AI裁判來判斷哪次成功。不過研究發(fā)現(xiàn)，3次并行嘗試（總計(jì)約90步）的效果遠(yuǎn)好于單次100步，說明這種方式的性價(jià)比相當(dāng)高。研究團(tuán)隊(duì)還指出，這種"多次嘗試選最優(yōu)"的數(shù)據(jù)本身可以用來訓(xùn)練更好的單次模型，所以它也是未來改進(jìn)方向的一部分。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.