<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      小紅書(shū)發(fā)布 SWE-Bench Mobile:當(dāng) AI Agent 面對(duì)億級(jí)用戶 App 代碼庫(kù),最高通過(guò)率僅12%?

      0
      分享至


      作者 | Nexus AI 團(tuán)隊(duì)

      編輯 | Kitty

      大型語(yǔ)言模型(LLMs)的迅速發(fā)展催生了新一代自主編碼智能體,它們能夠理解需求、瀏覽代碼庫(kù),并在最少的人工干預(yù)下實(shí)現(xiàn)功能。以 Cursor、Claude Code 和 Codex 為代表的 AI 編程工具在現(xiàn)有基準(zhǔn)測(cè)試中已經(jīng)取得了令人矚目的成果。

      然而,現(xiàn)有的評(píng)測(cè)基準(zhǔn)(如 SWE-Bench 等)大多局限于孤立的算法問(wèn)題或簡(jiǎn)單的錯(cuò)誤修復(fù)。而真實(shí)的 App 開(kāi)發(fā)并不是在一個(gè)真空環(huán)境中解數(shù)學(xué)題,它們的核心實(shí)現(xiàn)往往涉及以下幾個(gè)要點(diǎn):

      • 對(duì)多模態(tài)產(chǎn)品需求(PRD 文字說(shuō)明 + 素材資源等)的真正理解;

      • 對(duì)來(lái)自 Figma 等工具的視覺(jué)設(shè)計(jì)轉(zhuǎn)化為布局和交互的決策實(shí)現(xiàn);

      • 對(duì)龐大代碼庫(kù)的上下文理解,包括架構(gòu)模塊設(shè)計(jì)、功能實(shí)現(xiàn)以及私有庫(kù)等;

      • 對(duì)移動(dòng)操作系統(tǒng)及其對(duì)應(yīng)技術(shù)棧的知識(shí)儲(chǔ)備。

      針對(duì)這一行業(yè)空白,小紅書(shū)聯(lián)合多倫多大學(xué)、伊利諾伊大學(xué)香檳分校 U Lab、加州大學(xué)伯克利分校 Sky Computing Lab 等科研機(jī)構(gòu),正式發(fā)布了 SWE-Bench Mobile。與模型廠商發(fā)布會(huì)上節(jié)節(jié)攀升的高分評(píng)測(cè)不同:在面對(duì)真實(shí)的企業(yè)級(jí)大型 App 開(kāi)發(fā)任務(wù)時(shí),目前能夠達(dá)到的任務(wù)成功率(Task Success Rate)也僅為 12%。



      論文標(biāo)題:SWE-Bench Mobile: Can Large Language Model Agents Develop Industry-Level Mobile Applications?

      論文地址:
      https://arxiv.org/abs/2602.09540

      Leaderboard:
      https://swebenchmobile.com/

      SWE-Bench Mobile 是首個(gè)真正還原“端到端”開(kāi)發(fā)流程的基準(zhǔn)。它以 50 個(gè) (后續(xù)會(huì)擴(kuò)展到 100 個(gè)) 源自小紅書(shū) App 實(shí)際迭代的任務(wù)為核心,每項(xiàng)任務(wù)都源于億級(jí)用戶場(chǎng)景下的真實(shí)產(chǎn)品需求。有以下三個(gè)核心創(chuàng)新:

      (1)真實(shí)的工業(yè)級(jí)任務(wù)輸入與更精細(xì)化的多模態(tài)要求:無(wú)論是 450 詞左右的標(biāo)準(zhǔn) PRD(產(chǎn)品需求文檔),71% 任務(wù)中所包含的 Figma 視覺(jué)設(shè)計(jì),以及所用的代碼庫(kù) Codebase,都是小紅書(shū)日常研發(fā)生產(chǎn)中用過(guò)的真實(shí)素材,其中一些產(chǎn)品特性依然跑在線上持續(xù)迭代。并且與傳統(tǒng)多模態(tài)評(píng)測(cè)中的平面截圖不同,F(xiàn)igma 作為輸入需要模型理解高精度的結(jié)構(gòu)化視覺(jué)信息,這也是實(shí)際工業(yè)生產(chǎn)中對(duì)真人程序員的基本要求。


      圖 1 一個(gè)具體的 Task 例子:PRD 說(shuō)“弱化關(guān)注內(nèi)容流的交互信息,強(qiáng)化時(shí)間序列”,F(xiàn)igma 展示詳細(xì)的視覺(jué)反饋,Agent 得同時(shí)輸出 Swift 邏輯代碼和布局邏輯。這考驗(yàn)的不僅是語(yǔ)言模型,更是視覺(jué) - 代碼橋接能力。

      (2)主流 benchmark 的盲點(diǎn)——移動(dòng)端編碼任務(wù)。和模型廠商或是 Coding Agent 發(fā)布會(huì)中經(jīng)常出現(xiàn)的演示 Demo 不同,目前市面上多數(shù)成熟的大型商業(yè)產(chǎn)品依然是 Mobile-First 的形態(tài),如 Instagram、抖音、微信等。而移動(dòng)端的編碼任務(wù)又自帶很多 debuff:

      語(yǔ)言(如 Kotlin、Objc)和框架可供訓(xùn)練的公開(kāi)語(yǔ)料顯著少于 web 與 server 端一些系統(tǒng)(如 iOS)和語(yǔ)言本身也并不開(kāi)源移動(dòng)端往往同時(shí)包含 UI 編碼(如 View 的展示、布局和動(dòng)畫(huà)等)以及數(shù)據(jù)編碼(如 kv、database 等),且由于機(jī)型的多樣性和用戶容忍度,移動(dòng)端往往需要考慮更多的性能優(yōu)化與兼容性。

      這些原因都導(dǎo)致了很多 LLM 在移動(dòng)端編碼任務(wù)的能力不盡人意。且本次我們?cè)u(píng)測(cè)使用的小紅書(shū)移動(dòng)端 App 項(xiàng)目是一個(gè) 14GB 的大規(guī)模生產(chǎn)級(jí) iOS Mono Repo(60+ 萬(wàn)行 Swift 代碼,15+ 萬(wàn)行 Objc 代碼),這是現(xiàn)有基準(zhǔn)測(cè)試都沒(méi)有達(dá)到的。

      (3)科學(xué)的任務(wù)設(shè)計(jì)與難度劃分:按工業(yè)開(kāi)發(fā)的實(shí)際復(fù)雜度,從 “修改文件數(shù)、代碼行數(shù)、架構(gòu)復(fù)雜度” 三個(gè)維度,把任務(wù)分成易 / 中 / 難三級(jí),還覆蓋了 UI 組件、數(shù)據(jù)管理、手勢(shì)交互等 6 大移動(dòng)端核心開(kāi)發(fā)場(chǎng)景,能全面測(cè)試 AI Agent 的真實(shí)能力。


      圖 2 任務(wù)難度和類(lèi)別分類(lèi)

      (4)貼合工業(yè)流程的輸出與高效的評(píng)估方法:要求 Agent 輸出 Git 統(tǒng)一 diff 補(bǔ)丁(和工業(yè)界 PR 提交流程一致),評(píng)估不用編譯運(yùn)行(避免移動(dòng)端環(huán)境的不確定性以及冗長(zhǎng)的編譯流程),而是用 449 個(gè)人工精細(xì)編寫(xiě)并驗(yàn)證的 pytest 用例做補(bǔ)丁級(jí)靜態(tài) + 意圖驗(yàn)證,既考驗(yàn)代碼正確性,也考驗(yàn)代碼是否符合產(chǎn)品需求和架構(gòu)規(guī)范,比傳統(tǒng)的單元測(cè)試(unit test)效率更高的同時(shí)達(dá)到同等的評(píng)測(cè)效果。


      圖 3 SWE-Bench Mobile 評(píng)測(cè)流程概覽:從接收 PRD 和 Figma 設(shè)計(jì)稿,到基于大規(guī)模代碼庫(kù)進(jìn)行檢索與生成,最終提交 Git Patch 進(jìn)行意圖驗(yàn)證。

      論文中評(píng)估了 3 類(lèi)主流編碼代理(Cursor/Codex/Claude Code)+7 種主流模型,搭了 14 種配置做了全面評(píng)估。這里展示一些對(duì)評(píng)測(cè)結(jié)果的觀察及簡(jiǎn)單的分析:

      第一,目前 AI Agent 在移動(dòng)端開(kāi)發(fā)上的能力上限依然很低。即使是表現(xiàn)最好的組合(Cursor + Opus 4.5),成功率也僅 12%。


      圖 3 各種 Agent 配置在 SWE-Bench Mobile 上的任務(wù)成功率任務(wù)成功率(Task Success Rate)

      并且,隨著任務(wù)復(fù)雜度的提升,Agent 的表現(xiàn)呈現(xiàn)出斷崖式下跌:在需要修改 7 個(gè)以上文件的復(fù)雜任務(wù)中,成功率暴跌至 2%。而部分配置(如 Codex + GPT-5.1)的成功率甚至直接歸零(0%)。這表明,目前的 Agent 距離成為可以獨(dú)立完成任務(wù)的“開(kāi)發(fā)者”還有很長(zhǎng)的路要走,現(xiàn)階段它們更適合的角色依然是人類(lèi)的“Copilot”工具。


      圖 4 隨著文件修改數(shù)量(復(fù)雜度)的增加,任務(wù)成功率從 18% 急劇下降至 2%

      第二,Agent 的架構(gòu)設(shè)計(jì)比模型本身更重要。 這是一個(gè)非常有趣的發(fā)現(xiàn)。實(shí)驗(yàn)數(shù)據(jù)顯示,同樣的 Claude Opus 4.5 模型,在 Cursor 框架下能達(dá)到 12% 的成功率,而在 Codex 框架下僅為 4%。這 3 倍的性能差距有力地證明:Agent 的工程化框架(Scaffolding),如工具調(diào)用、上下文管理、迭代策略等與底層模型能力同樣重要。

      第三,Prompt 工程存在“反直覺(jué)”現(xiàn)象。 我們通常認(rèn)為,給 Agent 越詳細(xì)的設(shè)定、越復(fù)雜的思維鏈,效果會(huì)越好。但在代碼生成任務(wù)中,復(fù)雜的 Prompt 并未帶來(lái)預(yù)期提升,反而可能導(dǎo)致模型“想太多”而跑偏。相反,簡(jiǎn)單的“防御性編程(Defensive Programming)”策略效果最佳。通過(guò)強(qiáng)調(diào)邊緣情況處理,測(cè)試通過(guò)率(Test Pass Rate)提升了 7.4%。因此在工程實(shí)踐中,側(cè)重于代碼質(zhì)量的提示比強(qiáng)調(diào)工作流程的提示更有效。

      第四,大多數(shù)失敗源于“顧頭不顧腚”。 在對(duì)失敗案例的歸因分析中,我們發(fā)現(xiàn) 45% 的失敗源于“實(shí)現(xiàn)不完整(Incomplete Implementation)”。Agent 修改了部分但并非所有必需的文件。這說(shuō)明主流 Coding Agent 在面對(duì)大型代碼庫(kù)時(shí),對(duì)“全局觀”和跨文件推理能力仍存在關(guān)鍵挑戰(zhàn)。

      總的來(lái)說(shuō),SWE-Bench Mobile 填補(bǔ)了工業(yè)級(jí)移動(dòng)端 Coding Agent 評(píng)估的空白,也為后續(xù)的學(xué)術(shù)研究工作者提供了一個(gè)嚴(yán)格、真實(shí)、更貼近移動(dòng)端開(kāi)發(fā)的測(cè)試平臺(tái),明確了 LLM Coding Agent 的研究方向(比如跨文件推理、多模態(tài)需求理解,從簡(jiǎn)單的腳本生成,邁向真正復(fù)雜的、工業(yè)級(jí)的軟件工程開(kāi)發(fā))。

      同時(shí),SWE-Bench Mobile 也為工業(yè)界 Agent 使用者提供了明確的參考:目前的 Agent 只能做“copilots“,且必須有人工監(jiān)督才能可靠落地。但好消息是,像 GLM-4.6 這種成本可控的模型,配合靠譜的 Agent 框架,性能已經(jīng)可以和昂貴的前沿模型相媲美。研究給出了未來(lái)大規(guī)模落地的可行路線:通過(guò)更好的框架設(shè)計(jì) + 更經(jīng)濟(jì)的模型組合,在工業(yè)級(jí)移動(dòng)開(kāi)發(fā)場(chǎng)景中實(shí)現(xiàn)高性價(jià)比的規(guī)?;瘧?yīng)用。

      號(hào)外:將于 4 月 16 - 18 召開(kāi)的 QCon 北京站設(shè)計(jì)了「Coding Agent 驅(qū)動(dòng)的研發(fā)新范式」專(zhuān)題,本專(zhuān)題聚焦 Coding Agent 驅(qū)動(dòng)的研發(fā)新范式,探討其在需求理解、代碼生成、測(cè)試修復(fù)與協(xié)作流程中的工程實(shí)踐,以及對(duì)研發(fā)工作流、工程效率與研發(fā)組織方式帶來(lái)的變化。如果你有相關(guān)技術(shù)案例,歡迎加入這場(chǎng)技術(shù)共創(chuàng):

      https://jinshuju.com/f/Cu32l5

      作者團(tuán)隊(duì)介紹

      Nexus AI 是小紅書(shū)社區(qū)工程孵化的實(shí)驗(yàn)室,專(zhuān)注于 Agentic 系統(tǒng)的構(gòu)建、評(píng)估與應(yīng)用優(yōu)化,探索其在真實(shí)業(yè)務(wù)場(chǎng)景中的落地與規(guī)?;瘜?shí)踐。

      會(huì)議推薦

      2026,AI 正在以更工程化的方式深度融入軟件生產(chǎn),Agentic AI 的探索也將從局部試點(diǎn)邁向體系化工程建設(shè)!

      QCon 北京 2026 已正式啟動(dòng),本屆大會(huì)以“Agentic AI 時(shí)代的軟件工程重塑”為核心主線,推動(dòng)技術(shù)探索從「AI For What」真正落地到可持續(xù)的「Value From AI」。從前沿技術(shù)雷達(dá)、架構(gòu)設(shè)計(jì)與數(shù)據(jù)底座、效能與成本、產(chǎn)品與交互、可信落地、研發(fā)組織進(jìn)化六大維度,系統(tǒng)性展開(kāi)深度探索。QCon 北京 2026,邀你一起,站在拐點(diǎn)之上。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      24場(chǎng)1球!引皇馬、拜仁、尤文、米蘭豪門(mén)競(jìng)逐!18歲小孩憑什么?

      24場(chǎng)1球!引皇馬、拜仁、尤文、米蘭豪門(mén)競(jìng)逐!18歲小孩憑什么?

      體育世界
      2026-02-23 16:39:25
      上海街頭,車(chē)輛突然失控撞向人行道!女子主動(dòng)承擔(dān)責(zé)任,一男子在一旁猛喝熱水,民警:不對(duì)勁……

      上海街頭,車(chē)輛突然失控撞向人行道!女子主動(dòng)承擔(dān)責(zé)任,一男子在一旁猛喝熱水,民警:不對(duì)勁……

      極目新聞
      2026-02-23 13:30:01
      《飛馳人生3》被超越,《鏢人》成功登頂冠軍,《鏢人2》穩(wěn)了

      《飛馳人生3》被超越,《鏢人》成功登頂冠軍,《鏢人2》穩(wěn)了

      影視高原說(shuō)
      2026-02-22 18:22:59
      卡里克:卡塞米羅表現(xiàn)太出色,曼聯(lián)找他替代者要重點(diǎn)關(guān)注

      卡里克:卡塞米羅表現(xiàn)太出色,曼聯(lián)找他替代者要重點(diǎn)關(guān)注

      生活新鮮市
      2026-02-23 20:02:48
      同為被開(kāi)拓者下放,庫(kù)克和樂(lè)福合計(jì)出手52次,楊瀚森只出手9次

      同為被開(kāi)拓者下放,庫(kù)克和樂(lè)福合計(jì)出手52次,楊瀚森只出手9次

      懂球帝
      2026-02-23 09:45:08
      阿里巴巴和騰訊,真的落伍了么?

      阿里巴巴和騰訊,真的落伍了么?

      磐石之心
      2026-02-23 15:51:54
      西甲積分榜:皇馬遭絕殺落至次席,巴薩大勝回歸榜首

      西甲積分榜:皇馬遭絕殺落至次席,巴薩大勝回歸榜首

      懂球帝
      2026-02-23 08:52:35
      曲婉婷勇闖抖音,沒(méi)活過(guò)48小時(shí)

      曲婉婷勇闖抖音,沒(méi)活過(guò)48小時(shí)

      智識(shí)漂流
      2026-02-22 20:43:16
      平頂山打人夫妻結(jié)婚照曝光:男的酷似昆山龍哥,女的刻薄像燕冬萍

      平頂山打人夫妻結(jié)婚照曝光:男的酷似昆山龍哥,女的刻薄像燕冬萍

      江山揮筆
      2026-02-22 09:48:58
      可悲,已經(jīng)獨(dú)立百年的外蒙古,正在把中國(guó)人40年的努力毀掉!

      可悲,已經(jīng)獨(dú)立百年的外蒙古,正在把中國(guó)人40年的努力毀掉!

      好笑娛樂(lè)君每一天
      2026-02-23 00:30:35
      前中央政治局常委64歲主動(dòng)請(qǐng)辭,臨終坦然:我死而無(wú)憾

      前中央政治局常委64歲主動(dòng)請(qǐng)辭,臨終坦然:我死而無(wú)憾

      阿諢體育
      2026-02-13 04:28:34
      馬年“春節(jié)景區(qū)”客流量排名:汕頭南澳島第10,西湖穩(wěn)居前三

      馬年“春節(jié)景區(qū)”客流量排名:汕頭南澳島第10,西湖穩(wěn)居前三

      柳先說(shuō)
      2026-02-21 23:28:10
      尊界首款SUV曝光!

      尊界首款SUV曝光!

      電動(dòng)知家
      2026-02-23 17:58:32
      來(lái)自東方獨(dú)特療法!庫(kù)茲馬未婚妻秀兩人度假照:體驗(yàn)中式拔罐

      來(lái)自東方獨(dú)特療法!庫(kù)茲馬未婚妻秀兩人度假照:體驗(yàn)中式拔罐

      Emily說(shuō)個(gè)球
      2026-02-23 14:34:06
      央視重磅官宣:殲16單機(jī)雙鎖兩架F-22,外軍隱身戰(zhàn)機(jī)嚇得再不敢來(lái)

      央視重磅官宣:殲16單機(jī)雙鎖兩架F-22,外軍隱身戰(zhàn)機(jī)嚇得再不敢來(lái)

      52赫茲實(shí)驗(yàn)室
      2026-02-23 12:43:04
      狂攬11億!上海80后“賣(mài)螺絲”,靠22萬(wàn)家店撐起,準(zhǔn)備上市了

      狂攬11億!上海80后“賣(mài)螺絲”,靠22萬(wàn)家店撐起,準(zhǔn)備上市了

      財(cái)經(jīng)八卦
      2026-02-23 20:32:56
      長(zhǎng)津湖88師抗命誤戰(zhàn)機(jī),凍死七成未開(kāi)一槍?zhuān)螘r(shí)輪怒斬兩將

      長(zhǎng)津湖88師抗命誤戰(zhàn)機(jī),凍死七成未開(kāi)一槍?zhuān)螘r(shí)輪怒斬兩將

      李杻手工制作
      2026-02-23 16:23:41
      原來(lái)有了男朋友后免疫系統(tǒng)真的會(huì)改變?網(wǎng)友:互換身體優(yōu)缺點(diǎn)

      原來(lái)有了男朋友后免疫系統(tǒng)真的會(huì)改變?網(wǎng)友:互換身體優(yōu)缺點(diǎn)

      另子維愛(ài)讀史
      2026-02-08 19:47:35
      新加坡大滿貫賽:16強(qiáng)對(duì)陣出爐!國(guó)乒僅占據(jù)1席,日本名將3:0晉級(jí)

      新加坡大滿貫賽:16強(qiáng)對(duì)陣出爐!國(guó)乒僅占據(jù)1席,日本名將3:0晉級(jí)

      國(guó)乒二三事
      2026-02-23 11:21:32
      龍鳳胎兒女中考結(jié)束,老公提離婚,女兒站出來(lái):我和哥都商量好了

      龍鳳胎兒女中考結(jié)束,老公提離婚,女兒站出來(lái):我和哥都商量好了

      徐俠客有話說(shuō)
      2025-12-02 09:22:33
      2026-02-23 21:31:00
      InfoQ incentive-icons
      InfoQ
      有內(nèi)容的技術(shù)社區(qū)媒體
      12069文章數(shù) 51762關(guān)注度
      往期回顧 全部

      科技要聞

      智譜、MiniMax合計(jì)蒸發(fā)近千億市值,為何?

      頭條要聞

      鄭麗文接受外媒專(zhuān)訪:若臺(tái)海爆發(fā)沖突臺(tái)灣將成最大輸家

      頭條要聞

      鄭麗文接受外媒專(zhuān)訪:若臺(tái)海爆發(fā)沖突臺(tái)灣將成最大輸家

      體育要聞

      哈登版騎士首?。豪做墓谲娬n

      娛樂(lè)要聞

      那藝娜賬號(hào)被禁止關(guān)注,視頻已清空!

      財(cái)經(jīng)要聞

      美國(guó)海關(guān)將停止征收被裁定違法的關(guān)稅

      汽車(chē)要聞

      續(xù)航1810km!smart精靈#6 EHD超級(jí)電混2026年上市

      態(tài)度原創(chuàng)

      房產(chǎn)
      家居
      時(shí)尚
      數(shù)碼
      親子

      房產(chǎn)要聞

      窗前即地標(biāo)!獨(dú)占三亞灣C位 自貿(mào)港總裁行宮亮相

      家居要聞

      本真棲居 愛(ài)暖伴流年

      今年春天一定要擁有的針織,這樣穿減齡又好看!

      數(shù)碼要聞

      1986年的蘋(píng)果巨無(wú)霸Mac電腦亮相:女孩打字演示 這鍵盤(pán)太狂了

      親子要聞

      嬰兒誤吸異物無(wú)法呼吸,家長(zhǎng)千萬(wàn)保持冷靜

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版