<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      AI2研究院打造的"網(wǎng)頁特工":一個(gè)能替你上網(wǎng)干活的開源AI助手

      0
      分享至


      這項(xiàng)由艾倫人工智能研究院(Allen Institute for AI)與華盛頓大學(xué)、北卡羅來納大學(xué)教堂山分校聯(lián)合開展的研究,以預(yù)印本形式發(fā)布于2026年4月,論文編號(hào)為arXiv:2604.08516。有興趣深入了解的讀者可以通過這個(gè)編號(hào)在arXiv平臺(tái)上找到完整的技術(shù)報(bào)告。

      **網(wǎng)絡(luò)世界里的"私人助理"夢(mèng)**

      每個(gè)人大概都有過這樣的經(jīng)歷:訂一張機(jī)票需要在好幾個(gè)網(wǎng)站之間來回跳,填寫各種表單;比價(jià)購物要打開十幾個(gè)頁面逐一對(duì)比;查一個(gè)政府業(yè)務(wù)需要在迷宮般的網(wǎng)頁結(jié)構(gòu)中摸索。這些事情既耗時(shí)又費(fèi)力,卻又不得不做。如果有個(gè)助手能替你搞定這一切——你只需說一句"幫我找最便宜的從北京到上海的機(jī)票",它就能自動(dòng)打開瀏覽器、搜索、比較、篩選,最后把結(jié)果告訴你——那該多好?

      這正是"網(wǎng)頁代理"(Web Agent)這個(gè)研究方向想要實(shí)現(xiàn)的目標(biāo)。近年來,隨著大型語言模型的飛速發(fā)展,已經(jīng)有一些商業(yè)產(chǎn)品開始提供類似功能,比如OpenAI和Google都推出了各自的"電腦使用"服務(wù)。但這些產(chǎn)品有一個(gè)共同的問題:它們是完全封閉的黑盒子,沒有人知道它們是怎么訓(xùn)練出來的、用了什么數(shù)據(jù)、遵循什么規(guī)則。這對(duì)于科學(xué)研究來說是一個(gè)大問題——你無法改進(jìn)你看不懂的東西,也無法信任你不了解的東西。

      正是出于這個(gè)動(dòng)機(jī),艾倫人工智能研究院的研究團(tuán)隊(duì)決定做一件在這個(gè)領(lǐng)域里少有人做的事:把一切都公開。他們發(fā)布了訓(xùn)練數(shù)據(jù)、模型權(quán)重、訓(xùn)練代碼和評(píng)估工具,并將整套系統(tǒng)命名為MolmoWeb。這是一個(gè)真正意義上的"開源"網(wǎng)頁代理系統(tǒng),任何人都可以查看它是怎么工作的,任何研究者都可以在它的基礎(chǔ)上繼續(xù)改進(jìn)。

      一、從"只會(huì)看截圖"到"能干活":MolmoWeb的基本原理

      要理解MolmoWeb是怎么工作的,可以把它想象成一個(gè)剛剛學(xué)會(huì)使用電腦的新員工。你給他一個(gè)任務(wù),比如"幫我在Food Network上找一個(gè)三小時(shí)內(nèi)能做完的墨西哥燉牛肉食譜",他就會(huì)打開瀏覽器,看著屏幕上顯示的網(wǎng)頁截圖,思考下一步該做什么,然后執(zhí)行一個(gè)操作——比如點(diǎn)擊搜索框、輸入關(guān)鍵詞、按下回車鍵——然后看著新的截圖,再思考,再操作,如此循環(huán),直到找到答案為止。

      這個(gè)過程的關(guān)鍵在于,MolmoWeb完全依靠視覺來理解網(wǎng)頁,就像一個(gè)正常人盯著屏幕操作一樣,而不是通過讀取網(wǎng)頁的底層代碼來工作。這一點(diǎn)與很多競(jìng)爭(zhēng)對(duì)手的方案有根本區(qū)別。很多傳統(tǒng)方案會(huì)讓AI讀取網(wǎng)頁的"可訪問性樹"(Accessibility Tree,簡(jiǎn)稱AxTree)——這是一種描述網(wǎng)頁所有元素及其關(guān)系的文本結(jié)構(gòu),類似于網(wǎng)頁的X光片——然后根據(jù)這個(gè)文本結(jié)構(gòu)來決定點(diǎn)哪里。

      研究團(tuán)隊(duì)選擇純視覺方案,有幾個(gè)深思熟慮的理由。其一,這和人類使用網(wǎng)頁的方式完全一致,讓AI的行為更容易被理解和審查。其二,AxTree在不同網(wǎng)站、不同框架、甚至同一網(wǎng)站的不同版本之間差異巨大,而且對(duì)于動(dòng)態(tài)加載的內(nèi)容往往不完整或具有誤導(dǎo)性,純視覺方案則不存在這個(gè)問題。其三,AxTree非常"啰嗦"——一個(gè)普通網(wǎng)頁的AxTree可能包含數(shù)萬個(gè)詞,處理起來耗費(fèi)大量計(jì)算資源,而一張截圖則是同樣信息的緊湊表達(dá)。

      在每一步,MolmoWeb接收的信息包括三部分:當(dāng)前網(wǎng)頁的截圖、用戶給出的任務(wù)指令,以及過去10步的操作歷史記錄(包括當(dāng)前頁面的URL和標(biāo)題)。根據(jù)這些信息,它輸出兩樣?xùn)|西:一段自然語言"思考"——解釋自己為什么要做下一步操作——以及一個(gè)具體的瀏覽器動(dòng)作,比如"在坐標(biāo)(48.5, 50.2)處點(diǎn)擊鼠標(biāo)"。這個(gè)設(shè)計(jì)讓AI的決策過程變得透明可查,就像要求員工在每次操作前先說出自己的理由一樣。

      MolmoWeb的模型架構(gòu)基于Molmo2,這是同一研究院之前發(fā)布的多模態(tài)語言模型,能夠處理圖像和文字交織在一起的輸入序列。整個(gè)動(dòng)作空間被設(shè)計(jì)得既全面又簡(jiǎn)潔,涵蓋了人類操作瀏覽器時(shí)會(huì)用到的幾乎所有動(dòng)作:導(dǎo)航到某個(gè)URL、在特定坐標(biāo)點(diǎn)擊鼠標(biāo)、拖拽操作、滾動(dòng)頁面、在特定位置滾動(dòng)、懸停、輸入文字、按下鍵盤按鍵、后退、新建標(biāo)簽頁、切換標(biāo)簽頁、等待(比如等網(wǎng)頁加載或等待驗(yàn)證碼),以及向用戶發(fā)送消息。坐標(biāo)位置被歸一化到0到100的范圍內(nèi),在實(shí)際執(zhí)行時(shí)再轉(zhuǎn)換為像素坐標(biāo),這樣與分辨率無關(guān),增加了系統(tǒng)的通用性。

      二、訓(xùn)練數(shù)據(jù):如何教會(huì)一個(gè)AI"逛網(wǎng)"

      如果說MolmoWeb是一名新員工,那么教會(huì)他上網(wǎng)的"培訓(xùn)教材"就是MolmoWebMix——這是研究團(tuán)隊(duì)精心構(gòu)建的訓(xùn)練數(shù)據(jù)集。數(shù)據(jù)集的規(guī)模相當(dāng)可觀:軌跡數(shù)據(jù)部分包含超過27.85萬條軌跡、220萬個(gè)操作步驟,覆蓋2600多個(gè)不同的網(wǎng)站域名。除此之外還有超過1050萬條GUI感知數(shù)據(jù)。

      這些數(shù)據(jù)來自四個(gè)互補(bǔ)的來源,每個(gè)來源負(fù)責(zé)教導(dǎo)不同方面的能力,就像培訓(xùn)一個(gè)新員工需要既有課堂教學(xué)、又有導(dǎo)師指導(dǎo)、還有實(shí)際上手練習(xí)一樣。

      第一類是"AxTree單智能體軌跡"。研究團(tuán)隊(duì)讓一個(gè)能讀取AxTree的AI(使用Gemini-3-Flash-Preview作為大腦)自動(dòng)完成各種網(wǎng)頁任務(wù),同時(shí)在每一步都截圖保存。這樣生成的軌跡雖然AI本身看的是文本格式的AxTree,但保存下來的數(shù)據(jù)是"截圖+操作"的格式,正好可以用來訓(xùn)練只看截圖的MolmoWeb。這部分生成了7萬條軌跡、79.3萬個(gè)步驟,覆蓋1300多個(gè)網(wǎng)站。每條軌跡都經(jīng)過一個(gè)"成功過濾"步驟——用另一個(gè)AI充當(dāng)裁判,判斷任務(wù)是否真的完成了,沒完成的就丟棄不用。

      第二類是"多智能體協(xié)作軌跡"。為了生成質(zhì)量更高的訓(xùn)練數(shù)據(jù),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)三角色協(xié)作系統(tǒng),就像一個(gè)小型項(xiàng)目團(tuán)隊(duì)。"規(guī)劃師"(Planner,使用Gemini-2.5-Flash)負(fù)責(zé)將大任務(wù)分解成一個(gè)個(gè)小目標(biāo);"操作員"(Operator,使用Gemini的AxTree智能體)負(fù)責(zé)針對(duì)當(dāng)前子目標(biāo)執(zhí)行具體的瀏覽器動(dòng)作;"驗(yàn)證員"(Verifier,使用GPT-4o)負(fù)責(zé)分析最近5張截圖,判斷當(dāng)前子目標(biāo)是否已經(jīng)完成。三者分工協(xié)作,形成一個(gè)持續(xù)迭代的循環(huán):規(guī)劃師給出子目標(biāo),操作員執(zhí)行操作,驗(yàn)證員確認(rèn)結(jié)果,如果完成就讓規(guī)劃師生成下一個(gè)子目標(biāo),否則繼續(xù)努力完成當(dāng)前目標(biāo)。實(shí)驗(yàn)證明,這種多智能體協(xié)作方式比單智能體效果更好——在WebVoyager測(cè)試集上得分78.5對(duì)74.4,有明顯提升。這部分生成了3.5萬條軌跡、43.8萬個(gè)步驟。

      第三類是"節(jié)點(diǎn)遍歷軌跡"。研究團(tuán)隊(duì)為500多個(gè)熱門網(wǎng)站構(gòu)建了網(wǎng)站導(dǎo)航圖譜——從首頁出發(fā),通過廣度優(yōu)先搜索,提取每個(gè)頁面的AxTree,讓AI選擇最有價(jià)值的導(dǎo)航鏈接繼續(xù)探索,深度達(dá)到四層,從而得到一棵描述整個(gè)網(wǎng)站結(jié)構(gòu)的樹。然后,用一個(gè)完全不依賴AI、純確定性的腳本來"回放"這些路徑:從根URL出發(fā),在AxTree中找到目標(biāo)鏈接,必要時(shí)滾動(dòng)使其進(jìn)入視野,然后點(diǎn)擊。由于路徑是預(yù)先規(guī)定好的,成功與否可以通過URL匹配來機(jī)械地驗(yàn)證,不需要任何AI裁判。在每條路徑的終點(diǎn),再用AI生成一個(gè)合理的任務(wù)描述,把這對(duì)"任務(wù)描述+操作軌跡"作為訓(xùn)練數(shù)據(jù)使用。這種方法生成速度快、成本低、可驗(yàn)證,共產(chǎn)生1.6萬條軌跡、15.1萬個(gè)步驟,覆蓋833個(gè)網(wǎng)站。

      第四類是"人工標(biāo)注軌跡"。研究團(tuán)隊(duì)開發(fā)了一個(gè)定制的Chrome擴(kuò)展程序,能夠捕捉標(biāo)注者的每一次點(diǎn)擊、滾動(dòng)和鍵盤輸入,同時(shí)自動(dòng)截圖,然后將這些原始事件整理成標(biāo)準(zhǔn)格式的軌跡。眾包工作者在真實(shí)網(wǎng)站上完成各種任務(wù),任務(wù)來源包括作者手寫的任務(wù)模板和AI生成的任務(wù)指令,覆蓋購物、新聞、房產(chǎn)、旅行、地圖、食譜、求職、健康等多個(gè)生活領(lǐng)域。

      人工標(biāo)注的特別之處在于,每個(gè)任務(wù)都被分解成一個(gè)有序的子任務(wù)序列。工作者完成每個(gè)子任務(wù)后要打勾確認(rèn),最終提交一個(gè)文字答案。如果某個(gè)子任務(wù)因網(wǎng)頁狀態(tài)不符合預(yù)期而無法完成,工作者要記錄原因。每條軌跡還要經(jīng)過人工審核,確認(rèn)任務(wù)完成且數(shù)據(jù)準(zhǔn)確捕捉,審核不過的要修改或重新采集。這部分共產(chǎn)生3.6萬條軌跡、62.3萬個(gè)步驟。

      更進(jìn)一步,因?yàn)槿斯ぼ壽E有子任務(wù)分解,研究團(tuán)隊(duì)還從中提取了"原子技能軌跡"——把每個(gè)子任務(wù)片段單獨(dú)取出來作為訓(xùn)練樣本,讓AI針對(duì)性地學(xué)習(xí)各種基礎(chǔ)操作技能。技能分類涵蓋了直接導(dǎo)航到某URL、在搜索框輸入并提交、在頁面上定位信息、定位并打開子頁面、定位并點(diǎn)擊元素、填寫表單、填寫并提交表單、設(shè)置篩選條件、設(shè)置篩選并搜索、加入購物車,以及當(dāng)任務(wù)步驟不明確時(shí)的自由導(dǎo)航等十一種基本技能。此外,研究團(tuán)隊(duì)還專門讓AxTree智能體執(zhí)行"填表"和"找并打開"這兩種技能的專項(xiàng)任務(wù),補(bǔ)充了5500條原子技能軌跡、6.87萬個(gè)步驟。

      三、讓AI"看懂"網(wǎng)頁:GUI感知數(shù)據(jù)的構(gòu)建

      除了操作軌跡,訓(xùn)練MolmoWeb還需要大量數(shù)據(jù)來教它理解網(wǎng)頁截圖的視覺內(nèi)容——也就是教它"看"。這部分?jǐn)?shù)據(jù)被稱為GUI感知數(shù)據(jù)(GUI Perception Data),共包含超過1050萬個(gè)樣本。

      其中最大的一塊是"定位數(shù)據(jù)"。這類數(shù)據(jù)的格式是:給一張截圖,描述某個(gè)元素(比如"Filter & Sort按鈕"),模型需要預(yù)測(cè)應(yīng)該點(diǎn)擊的像素坐標(biāo)。研究團(tuán)隊(duì)從AxTree智能體的軌跡中自動(dòng)提取這些數(shù)據(jù):對(duì)于每一張截圖,枚舉AxTree中所有可點(diǎn)擊的元素,為每個(gè)元素生成一段自然語言描述(使用元素的可訪問名稱和角色,描述方式包括模板生成和GPT-5生成兩種),然后將元素邊界框內(nèi)的隨機(jī)點(diǎn)(按照以元素中心為中心的截?cái)喔咚狗植疾蓸樱┳鳛檎_答案。這樣的設(shè)計(jì)讓模型學(xué)會(huì)的是"在元素合理范圍內(nèi)點(diǎn)擊",而不是死板地只點(diǎn)元素正中心,模仿了人類更自然的點(diǎn)擊行為。通過這種方式,共生成了超過700萬個(gè)定位問答對(duì),其中340萬用模板生成描述,380萬用GPT-5生成更自然的描述。此外,研究團(tuán)隊(duì)還把Molmo原有的PixmoPoints數(shù)據(jù)重新格式化為點(diǎn)擊動(dòng)作格式,追加了110萬個(gè)樣本。

      另一塊是"截圖問答數(shù)據(jù)"。這類數(shù)據(jù)教AI從網(wǎng)頁截圖中讀取和推理信息,覆蓋三種問題類型:OCR類問題(讀取頁面上的文字內(nèi)容,比如價(jià)格、數(shù)量、文本),功能性問題(了解頁面提供哪些操作,比如"在這個(gè)頁面上哪里能找到財(cái)經(jīng)新聞"),以及摘要類問題(理解頁面整體內(nèi)容或某個(gè)元素的用途)。數(shù)據(jù)生成方式是:對(duì)AxTree智能體軌跡中的截圖,把對(duì)應(yīng)的AxTree提供給一個(gè)語言模型,讓它生成問答對(duì),同時(shí)過濾掉包含"元素ID"等AxTree特有信息的樣本,確保問答完全基于視覺內(nèi)容。整個(gè)截圖問答數(shù)據(jù)集覆蓋395個(gè)網(wǎng)站,共222.7萬個(gè)問答對(duì),其中OCR類占54%、功能性占26%、摘要類占20%。

      四、對(duì)決:MolmoWeb與各路高手的較量

      訓(xùn)練完成后,研究團(tuán)隊(duì)在四個(gè)基準(zhǔn)測(cè)試上對(duì)MolmoWeb進(jìn)行了全面評(píng)估,每個(gè)基準(zhǔn)測(cè)試都使用真實(shí)的在線網(wǎng)站,任務(wù)需要多步驟操作才能完成。這四個(gè)測(cè)試分別是WebVoyager(綜合網(wǎng)頁任務(wù))、Online-Mind2Web(多網(wǎng)站導(dǎo)航)、DeepShop(深度購物研究)和WebTailBench(尾部任務(wù),即難度較大的非常規(guī)任務(wù))。為了保持公平,涉及過去日期的任務(wù)會(huì)被調(diào)整為當(dāng)前或未來的日期,每個(gè)模型每個(gè)基準(zhǔn)測(cè)試運(yùn)行3到5次取平均,允許最多100步操作,環(huán)境出錯(cuò)最多重試10次。

      結(jié)果相當(dāng)令人印象深刻。MolmoWeb-8B在四個(gè)基準(zhǔn)上均超過了同等規(guī)模的開源模型,包括Fara-7B(WebVoyager得分73.5 vs 78.2,DeepShop得分26.2 vs 42.3,WebTailBench得分38.4 vs 49.5),以及UI-TARS-1.5-7B和GLM-4.1V-9B-Thinking。MolmoWeb-4B則在WebVoyager(75.2分)和DeepShop(35.6分)上超過了所有開源模型,在其他兩個(gè)測(cè)試上也表現(xiàn)具有競(jìng)爭(zhēng)力。

      更值得關(guān)注的是與閉源大模型的對(duì)比。MolmoWeb-8B的WebVoyager得分78.2,明顯超過了GPT-4o的SoM(Set-of-Marks)方案65.1分;在DeepShop上,MolmoWeb-8B得42.3,也大幅領(lǐng)先GPT-4o的16.0分。SoM方案是一種增強(qiáng)提示技術(shù):在截圖上用彩色標(biāo)記框住所有可交互元素,同時(shí)提供AxTree文本,讓模型同時(shí)獲得視覺和文本兩種信息——這意味著那些閉源方案實(shí)際上擁有比MolmoWeb更豐富的輸入信息,卻依然在部分測(cè)試上落后于只看截圖的MolmoWeb。在WebVoyager上,MolmoWeb-8B還與o3的SoM方案(79.3分)基本持平,與GPT-5的SoM方案(90.6分)存在差距,但這個(gè)差距在參數(shù)量相差數(shù)十倍的情況下已經(jīng)相當(dāng)難得。

      與此同時(shí),研究團(tuán)隊(duì)還比較了MolmoWeb與其"老師"的差距。MolmoWeb的大量合成訓(xùn)練數(shù)據(jù)來自Gemini-3-Flash的AxTree智能體,這個(gè)智能體在使用100步預(yù)算時(shí)WebVoyager得分85.6,Online-Mind2Web得分44.8,DeepShop得分55.3。MolmoWeb-8B在WebVoyager和Online-Mind2Web上落后約5到10分,在DeepShop和WebTailBench上落后超過10分。研究團(tuán)隊(duì)分析了三個(gè)原因:一是模型規(guī)模差距(Gemini-3-Flash參數(shù)量遠(yuǎn)大于8B);二是操作方式差距(AxTree智能體用元素ID點(diǎn)擊,被程序化映射到坐標(biāo),而MolmoWeb需要自己用視覺預(yù)測(cè)坐標(biāo));三是信息獲取方式差距(AxTree智能體直接讀取結(jié)構(gòu)化文本,MolmoWeb需要對(duì)截圖進(jìn)行視覺OCR和理解)。

      五、讓AI在考試時(shí)"多做幾遍":測(cè)試時(shí)計(jì)算擴(kuò)展

      研究團(tuán)隊(duì)還探索了一個(gè)有趣的策略:如果不增加模型規(guī)模,而是在回答同一個(gè)問題時(shí)多運(yùn)行幾遍,選最好的那個(gè)結(jié)果,能提升多少性能?這在學(xué)術(shù)上叫做"測(cè)試時(shí)計(jì)算擴(kuò)展"(Test-time Scaling),具體形式是"并行多次嘗試+最優(yōu)結(jié)果選擇"。

      實(shí)驗(yàn)方法是:對(duì)同一個(gè)任務(wù),獨(dú)立運(yùn)行k次,每次用同一個(gè)AI裁判打分,選得分最高的那次作為最終答案。為了得到統(tǒng)計(jì)上可靠的結(jié)果,研究團(tuán)隊(duì)對(duì)每個(gè)任務(wù)實(shí)際運(yùn)行了5次(m=5),然后用公式計(jì)算"如果從5次中隨機(jī)選k次,至少有一次成功的概率"。

      結(jié)果非常驚人。MolmoWeb-8B在WebVoyager上的單次成功率(pass@1)是78.2%,但當(dāng)k=4時(shí)(即從5次中選最好的,等效于運(yùn)行4次),成功率躍升至94.7%,提升了超過16個(gè)百分點(diǎn)。在Online-Mind2Web上,pass@1是35.3%,pass@4達(dá)到60.5%,同樣提升超過25個(gè)百分點(diǎn)。

      研究團(tuán)隊(duì)還比較了兩種增加計(jì)算量的方式:增加單次嘗試的最大步數(shù)(從30步增加到100步),還是多次并行嘗試(每次30步,選最好的)。在總步數(shù)相近的情況下(比如3次并行×30步=90步總計(jì)算量 vs 單次100步),并行多次嘗試的效果遠(yuǎn)優(yōu)于增加單次步數(shù)。以8B模型為例,3次并行30步達(dá)到86.2%,而單次100步只有78.2%。這說明網(wǎng)頁操作任務(wù)的失敗很大程度上是"一步走錯(cuò)、滿盤皆輸"的連鎖反應(yīng)問題,多次嘗試能有效規(guī)避這種錯(cuò)誤放大效應(yīng)。

      六、數(shù)據(jù)質(zhì)量還是數(shù)據(jù)來源?深入解剖訓(xùn)練數(shù)據(jù)

      研究團(tuán)隊(duì)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行了系統(tǒng)的消融實(shí)驗(yàn),也就是"一個(gè)一個(gè)去掉看影響"的測(cè)試,來弄清楚哪類數(shù)據(jù)最重要。

      關(guān)于數(shù)據(jù)規(guī)模的影響,結(jié)論是規(guī)模越大越好,但收益遞減得很快。僅用1%的數(shù)據(jù),WebVoyager得分44.5;用10%的數(shù)據(jù),得分63.2,已經(jīng)達(dá)到了滿數(shù)據(jù)情況(68.5分)的約90%。換句話說,訓(xùn)練數(shù)據(jù)中最關(guān)鍵的那10%貢獻(xiàn)了絕大部分性能,剩下的90%只貢獻(xiàn)了最后的邊際提升。這種現(xiàn)象說明數(shù)據(jù)混合的設(shè)計(jì)質(zhì)量比純粹的規(guī)模更重要。

      關(guān)于人工數(shù)據(jù) vs 合成數(shù)據(jù),結(jié)論出人意料。單獨(dú)用2.8萬條人工軌跡訓(xùn)練的模型,WebVoyager得27.8,Online-Mind2Web得13.2;單獨(dú)用10.6萬條合成軌跡訓(xùn)練的模型,兩項(xiàng)得分分別是67.8和22.0;把兩者合并訓(xùn)練,反而只有68.5和21.4——合并后Online-Mind2Web甚至略低于純合成數(shù)據(jù)。人工數(shù)據(jù)的加入沒有帶來一致性的提升。

      為了更直接地比較,研究團(tuán)隊(duì)專門收集了2700條人工軌跡和2700條合成軌跡,任務(wù)完全相同,然后分別訓(xùn)練模型。結(jié)果是合成數(shù)據(jù)全面勝出:DeepShop得分24.4 vs 19.8,WebVoyager得分53.0 vs 35.4,Online-Mind2Web得分16.8 vs 9.0。

      這個(gè)結(jié)果聽起來違反直覺,但研究團(tuán)隊(duì)給出了合理的解釋。人類在不熟悉的網(wǎng)站上往往會(huì)表現(xiàn)出更多"探索性行為"——走錯(cuò)路、退回來、繞遠(yuǎn)路——這些行為在軌跡中造成噪聲,反而干擾了模型的學(xué)習(xí)。而AI智能體操作的是結(jié)構(gòu)化的AxTree,能獲取到比截圖更豐富的語義信息(比如元素的角色、狀態(tài)、關(guān)系),因此往往走出更直接、更一致的路徑,作為教學(xué)材料更清晰可靠。此外,人工軌跡中還有一些合成數(shù)據(jù)中沒有的操作類型(比如`scroll_at`和`mouse_drag_and_drop`),當(dāng)兩種數(shù)據(jù)混合訓(xùn)練時(shí),模型在兩種操作模式之間搖擺不定,出現(xiàn)了"不知道該學(xué)誰"的混亂。

      七、細(xì)節(jié)決定成敗:采樣策略與定位能力

      研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)看似微小卻影響顯著的細(xì)節(jié):推理時(shí)用什么采樣策略。

      所謂采樣策略,決定了模型在生成下一個(gè)詞時(shí)如何從所有可能性中做選擇。貪婪解碼(greedy decoding)每次都選概率最高的詞,確定性強(qiáng)但容易陷入局部最優(yōu);Top-k采樣從概率最高的k個(gè)詞中隨機(jī)選一個(gè);核采樣(nucleus sampling,又稱top-p)從累積概率達(dá)到p的最小詞集中隨機(jī)選。實(shí)驗(yàn)結(jié)果顯示,貪婪解碼的WebVoyager得分只有61.4,而Top-k(k=20,溫度0.7)達(dá)到67.4,核采樣(p=0.8,溫度0.7)達(dá)到68.5,后兩者比貪婪解碼高出5到7分。

      定性分析發(fā)現(xiàn),貪婪解碼會(huì)讓模型陷入重復(fù)循環(huán)——比如一直點(diǎn)同一個(gè)地方點(diǎn)不動(dòng),或者一直往下滾屏但早就已經(jīng)過了目標(biāo)區(qū)域——而帶有隨機(jī)性的采樣策略能讓模型偶爾"換一條路走",跳出卡殼狀態(tài)。

      在視覺定位能力方面,研究團(tuán)隊(duì)還單獨(dú)訓(xùn)練了一個(gè)"定位專家"模型MolmoWeb-Ground-8B,只在定位數(shù)據(jù)上訓(xùn)練,專門負(fù)責(zé)"在截圖上找到并點(diǎn)擊指定元素"這項(xiàng)任務(wù)。在ScreenSpot和ScreenSpot v2這兩個(gè)定位基準(zhǔn)測(cè)試上,MolmoWeb-Ground-8B分別達(dá)到88.7和91.8,超過了Claude 3.7(ScreenSpot v2得87.6)、OpenAI CUA(87.9)、Holo1-7B(87.4和89.9)等競(jìng)爭(zhēng)對(duì)手,僅次于Gemini-3-Pro(ScreenSpot v2得93.7)。有趣的是,MolmoWeb-4B這個(gè)"全能選手"(既要定位又要完成任務(wù))在同樣的測(cè)試上得87.2和89.5,與定位專家只差1到2分,說明通用任務(wù)訓(xùn)練并沒有嚴(yán)重?fù)p害定位能力。

      說到底,MolmoWeb這項(xiàng)研究想傳達(dá)的核心信念其實(shí)很簡(jiǎn)單:用于開放互聯(lián)網(wǎng)的AI助手,應(yīng)該以開放的方式來構(gòu)建。商業(yè)公司的封閉方案固然強(qiáng)大,但科學(xué)進(jìn)步需要可重復(fù)、可檢驗(yàn)、可改進(jìn)。當(dāng)所有人都能看到訓(xùn)練數(shù)據(jù)長什么樣、模型怎么訓(xùn)練的、評(píng)估是怎么做的,整個(gè)研究社區(qū)才能真正理解"什么在起作用、什么沒起作用",從而站在巨人的肩膀上繼續(xù)前進(jìn)。

      從結(jié)果來看,開放路線并不意味著性能上的妥協(xié)。一個(gè)4B到8B參數(shù)的小模型,只靠看截圖(沒有AxTree輔助),就能在多個(gè)測(cè)試上超過使用更多信息的GPT-4o方案,而且通過并行多次嘗試,成功率可以從78%飆升至95%——這說明數(shù)據(jù)質(zhì)量和訓(xùn)練策略的精心設(shè)計(jì),有時(shí)候比堆砌模型規(guī)模和輸入信息更有價(jià)值。

      當(dāng)然,MolmoWeb還有很多局限。在模糊或約束特別多的任務(wù)上表現(xiàn)會(huì)下降;對(duì)較小的文字識(shí)別或閱讀長段落回答問題時(shí)偶有失誤;有時(shí)會(huì)陷入重復(fù)操作的死循環(huán)而無法自我糾正;一些不常見的操作(如元素內(nèi)滾動(dòng)、拖拽、懸停)表現(xiàn)不夠穩(wěn)定。研究團(tuán)隊(duì)坦率地承認(rèn)了這些問題,并在論文中詳細(xì)討論了可能的改進(jìn)方向,比如引入強(qiáng)化學(xué)習(xí)、自我蒸餾(從多次成功嘗試中學(xué)習(xí))等方法來進(jìn)一步提升單次成功率。

      這個(gè)領(lǐng)域還在快速發(fā)展,MolmoWeb的發(fā)布或許是一塊重要的基石——不僅僅因?yàn)樗男阅埽驗(yàn)樗屆總€(gè)人都能站在同一起跑線上,用同樣的數(shù)據(jù)、同樣的工具、同樣的評(píng)估標(biāo)準(zhǔn)來開展研究。對(duì)這一切感興趣的讀者,可以通過arXiv編號(hào)2604.08516找到完整的技術(shù)報(bào)告,所有數(shù)據(jù)和代碼將隨論文一起公開發(fā)布。

      Q&A

      Q1:MolmoWeb為什么不讀取網(wǎng)頁代碼,而只靠截圖來操作網(wǎng)頁?

      A:讀取網(wǎng)頁底層代碼(AxTree)雖然信息豐富,但不同網(wǎng)站的代碼結(jié)構(gòu)差異很大,而且對(duì)于動(dòng)態(tài)加載的內(nèi)容往往不完整,處理起來還非常消耗計(jì)算資源(一個(gè)普通頁面可能產(chǎn)生數(shù)萬詞的文本)。純視覺方案與人類使用網(wǎng)頁的方式一致,更具通用性,也更容易理解和審查。實(shí)驗(yàn)也證明,精心訓(xùn)練的視覺模型在部分測(cè)試上甚至超過了同時(shí)使用截圖和代碼的更大閉源模型。

      Q2:MolmoWebMix里人工標(biāo)注的數(shù)據(jù)為什么沒有合成數(shù)據(jù)效果好?

      A:這與兩類數(shù)據(jù)的"信噪比"有關(guān)。人類在陌生網(wǎng)站上會(huì)走彎路、回頭、探索,軌跡中有大量"噪聲步驟",干擾了模型的學(xué)習(xí)。而AI智能體操作結(jié)構(gòu)化的AxTree,能獲取更多語義信息,走出的路徑更直接、更一致,教學(xué)信號(hào)更清晰。此外,人工軌跡包含一些合成數(shù)據(jù)中沒有的操作類型,混合訓(xùn)練時(shí)導(dǎo)致模型學(xué)習(xí)方向混亂,兩種數(shù)據(jù)反而相互干擾。

      Q3:MolmoWeb"多試幾次選最好"的策略在實(shí)際使用中代價(jià)大嗎?

      A:確實(shí)需要額外計(jì)算資源,因?yàn)橐瑫r(shí)運(yùn)行多個(gè)獨(dú)立的瀏覽器會(huì)話,還需要一個(gè)AI裁判來判斷哪次成功。不過研究發(fā)現(xiàn),3次并行嘗試(總計(jì)約90步)的效果遠(yuǎn)好于單次100步,說明這種方式的性價(jià)比相當(dāng)高。研究團(tuán)隊(duì)還指出,這種"多次嘗試選最優(yōu)"的數(shù)據(jù)本身可以用來訓(xùn)練更好的單次模型,所以它也是未來改進(jìn)方向的一部分。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      Temu的潰敗,給跨境電商敲響警鐘

      Temu的潰敗,給跨境電商敲響警鐘

      止戈見聞
      2026-04-18 11:35:21
      華為Mate 80賣得不火,卻總被老用戶提起,它到底值不值得買

      華為Mate 80賣得不火,卻總被老用戶提起,它到底值不值得買

      小柱解說游戲
      2026-04-17 09:32:44
      永興縣法官顛倒黑白,濫用職權(quán)讓男子狀告無門,男子直接端上炸藥

      永興縣法官顛倒黑白,濫用職權(quán)讓男子狀告無門,男子直接端上炸藥

      干史人
      2025-08-09 06:55:02
      棄用倒計(jì)時(shí)!姆貝莫持續(xù)拉胯,卡里克該扶正曼聯(lián) “新加納喬” 了

      棄用倒計(jì)時(shí)!姆貝莫持續(xù)拉胯,卡里克該扶正曼聯(lián) “新加納喬” 了

      瀾歸序
      2026-04-20 01:16:23
      央國企里最嚴(yán)重的幾大形式主義!

      央國企里最嚴(yán)重的幾大形式主義!

      黯泉
      2026-04-18 20:12:15
      女鄰居互扯頭發(fā)打架!矛盾竟來自"第三人"

      女鄰居互扯頭發(fā)打架!矛盾竟來自"第三人"

      看看新聞Knews
      2026-04-18 21:16:25
      國民黨22個(gè)兵團(tuán),僅剩6個(gè)兵團(tuán)撤到臺(tái)灣,這6個(gè)兵團(tuán)分別是誰統(tǒng)領(lǐng)?

      國民黨22個(gè)兵團(tuán),僅剩6個(gè)兵團(tuán)撤到臺(tái)灣,這6個(gè)兵團(tuán)分別是誰統(tǒng)領(lǐng)?

      云霄紀(jì)史觀
      2026-04-13 17:12:55
      日本軍艦強(qiáng)闖臺(tái)灣海峽:咱們?yōu)槭裁礇]打了它,或者上船去抓人?

      日本軍艦強(qiáng)闖臺(tái)灣海峽:咱們?yōu)槭裁礇]打了它,或者上船去抓人?

      黃娜老師
      2026-04-19 01:00:29
      他撞人后連夜辭職,入職信息也是假的!他到底是誰?

      他撞人后連夜辭職,入職信息也是假的!他到底是誰?

      BRTV新聞
      2026-04-19 20:36:35
      不裝了!美日80架F-35A圍堵中國,解放軍空軍高呼:殲20升空決戰(zhàn)

      不裝了!美日80架F-35A圍堵中國,解放軍空軍高呼:殲20升空決戰(zhàn)

      南宗歷史
      2026-04-18 05:34:59
      輸給湖人后,火箭揪出最大“水貨”!杰倫-格林離隊(duì)真的太冤了

      輸給湖人后,火箭揪出最大“水貨”!杰倫-格林離隊(duì)真的太冤了

      兵哥籃球故事
      2026-04-19 15:21:32
      魯能踢津門虎首發(fā)預(yù)測(cè)!王大雷意外無緣出戰(zhàn),韓鵬將放棄三中衛(wèi)

      魯能踢津門虎首發(fā)預(yù)測(cè)!王大雷意外無緣出戰(zhàn),韓鵬將放棄三中衛(wèi)

      張麗說足球
      2026-04-19 13:30:28
      臺(tái)北買房無望,馬筱梅吐槽北京房子舊,樓上裝修太吵,人設(shè)崩塌了

      臺(tái)北買房無望,馬筱梅吐槽北京房子舊,樓上裝修太吵,人設(shè)崩塌了

      八斗小先生
      2026-04-17 11:14:22
      馬斯克發(fā)布新芯片,性能狂飆4000%

      馬斯克發(fā)布新芯片,性能狂飆4000%

      林子說事
      2026-04-19 18:00:38
      砸億元豪購!曼聯(lián)鎖定梅努升級(jí)版,全面碾壓自家天才

      砸億元豪購!曼聯(lián)鎖定梅努升級(jí)版,全面碾壓自家天才

      一隅非生
      2026-04-20 04:28:47
      新加坡已經(jīng)成功預(yù)測(cè)中美沖突,一旦爆發(fā),美稱中國不能攻打美本土

      新加坡已經(jīng)成功預(yù)測(cè)中美沖突,一旦爆發(fā),美稱中國不能攻打美本土

      起喜電影
      2026-04-16 01:05:59
      胡錫進(jìn)給沃爾沃汽車做廣告,評(píng)論區(qū)全翻車了……

      胡錫進(jìn)給沃爾沃汽車做廣告,評(píng)論區(qū)全翻車了……

      麥杰遜
      2026-04-17 11:51:26
      美國路易斯安那州大規(guī)模槍擊案致8名未成年人死亡

      美國路易斯安那州大規(guī)模槍擊案致8名未成年人死亡

      中國日?qǐng)?bào)網(wǎng)
      2026-04-20 03:24:01
      李小璐寫真生圖高清

      李小璐寫真生圖高清

      翩翩明星
      2025-11-14 09:39:36
      劉邦到死都沒想到,他最嫌棄的兒子,靠裝傻成了千古一帝

      劉邦到死都沒想到,他最嫌棄的兒子,靠裝傻成了千古一帝

      千秋文化
      2026-03-13 20:40:51
      2026-04-20 05:08:49
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      8048文章數(shù) 562關(guān)注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

      頭條要聞

      半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

      頭條要聞

      半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂要聞

      何潤東漲粉百萬!內(nèi)娛隔空掀桌第一人

      財(cái)經(jīng)要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬 極氪8X為什么這么多人買?

      態(tài)度原創(chuàng)

      教育
      房產(chǎn)
      家居
      時(shí)尚
      公開課

      教育要聞

      655家單位、1.29萬個(gè)崗位,湖南用心幫大學(xué)生找工作

      房產(chǎn)要聞

      官宣簽約最強(qiáng)城更!海口樓市,突然殺入神秘房企!

      家居要聞

      法式線條 時(shí)光靜淌

      裝修“精神角落”,就是這么上癮

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版