<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      SwingArena:從「寫對代碼Commit」到「通過CI審查」

      0
      分享至



      過去一年,大模型寫代碼的能力幾乎以肉眼可見的速度提升。從簡單腳本到完整功能模塊,GPT、Claude、DeepSeek 等模型已經能夠在幾秒鐘內生成看起來相當 “專業” 的代碼。

      這種能力的提升,讓很多人開始認真思考一個問題:AI 能不能真正參與到軟件工程的核心流程中?

      但越接近真實開發,這個問題就越顯得復雜。因為在工業界,“寫出一段能跑的代碼” 遠遠不夠。

      代碼是否能被合并,取決于它能否通過完整的持續集成(Continuous Integration,簡稱 CI)流水線——這是一種在代碼開發過程中,通過自動化的構建、測試和代碼檢查,確保每一次改動都能在真實工程環境下穩定運行的機制。

      此外,代碼還需符合項目規范、經得起代碼審查,并在多輪修改中保持穩定可靠。遺憾的是,現有主流代碼評測基準,幾乎都停留在“能否通過幾個單元測試”的層面。

      SwingArena 的出發點,正是填補這塊長期缺失的評測空白。

      該論文已被ICLR 2026正式接收。目前,SwingArena 已實現全棧開源。





      • 論文標題:SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving
      • 論文鏈接:https://arxiv.org/abs/2505.23932
      • 項目鏈接:https://swing-bench.github.io/

      從 “寫對代碼” 到 “通過審查”,

      評測邏輯需要一次轉向


      在傳統評測中,模型面對的是一個高度簡化的問題:給定函數簽名和說明,只要輸出能通過測試的實現即可。這種設定對于衡量基礎編程能力是有效的,但它忽略了真實軟件開發中最關鍵的一環 ——審查與迭代。

      在現實中,一段代碼往往要經歷多個回合的反饋與修改,才能最終被接受。CI 系統會自動檢查編譯、測試、代碼風格和潛在風險,而審查者則會從邏輯正確性、邊界情況和可維護性等角度不斷提出質疑。這種過程,本質上是一種持續博弈。

      SwingArena 將這種博弈引入評測之中。它不再讓模型 “單打獨斗”,而是通過對抗式設定,讓兩個模型分別扮演 “提交者” 和 “審查者”,在真實 CI 環境中反復交鋒。



      提交者需要寫出足夠穩健的補丁才能通過流水線,而審查者則試圖通過精心設計的測試暴露潛在問題。最終的得分,完全由真實執行結果決定。



      真實工程環境,意味著真實復雜度


      要讓評測真正貼近工業場景,僅有對抗機制還不夠。另一個更現實的挑戰在于:真實項目的代碼規模,遠遠超出了大模型的上下文窗口。

      一個常見的開源倉庫往往包含數萬行代碼,分布在數百個文件中。模型不可能 “通讀全庫”,只能在極其有限的上下文中做判斷。SwingArena 因此設計了一套完整的檢索增強流水線 RACG(Retrieval-Augmented Code Generation),試圖在 “給模型多少代碼” 與 “給對代碼” 之間取得平衡。

      RACG 的核心思路,是先通過經典信息檢索方法快速縮小文件范圍,再以語法結構為單位對代碼進行切塊,并使用語義模型進行精排。在嚴格的 token 預算下,系統會動態調整上下文粒度,確保模型看到的是最關鍵、最相關的代碼片段,而不是噪聲。

      消融實驗顯示,這種分層檢索策略,能夠顯著提升補丁定位的準確率,相比僅使用關鍵詞匹配,Top-10 命中率提升超過一倍。這意味著模型不只是 “寫代碼”,而是在更接近人類工程師的認知范圍內工作。

      當模型真正對抗,差異才開始顯現


      在 SwingArena 的評測中,一個有趣的現象逐漸浮現:不同模型在工程決策上的 “性格差異”,被前所未有地放大了。

      以 GPT-4o 為例,它在提交者角色中表現得極為激進,往往能夠快速生成足以擊敗對手測試的補丁,因此勝率很高。但這種策略的代價是 CI 通過率并不穩定,代碼在規范性和魯棒性上更容易出現問題。

      相比之下,DeepSeek 和 Gemini 的表現則明顯更為保守。它們生成的代碼風格更加規范,通過 CI 的概率也更高,尤其在多語言場景下展現出更強的穩定性。這類差異,在傳統基準中往往被 “平均分” 所掩蓋,而在對抗式評測中卻變得非常直觀。

      更重要的是,這些結果為實際應用提供了清晰的參考:當目標是快速原型和探索性開發時,激進策略可能更有效;而在生產環境和長期項目中,穩定性顯然更重要。

      從評測到實踐:

      為什么 SwingArena 值得被重視


      SwingArena 的意義,并不僅僅在于提出了一個新的 benchmark。它更重要的價值,在于推動了一次評測視角的轉變:從 “功能正確性” 走向 “工程可用性”。

      通過將 CI 流水線、代碼審查和多輪迭代引入評測過程,SwingArena 讓我們第一次能夠系統性地回答這樣的問題:哪些模型真的適合進入生產環境?在不同工程場景下,應該如何選擇和使用它們?又該如何設計更符合現實需求的 AI 編程助手?

      在論文匿名期結束后,SwingArena 將完整開源,包括數據集、評測框架、檢索流水線以及所有實驗復現代碼。團隊希望,這套框架不僅能成為研究者比較模型的新工具,也能為工業界評估和落地 AI 編程能力提供參考。

      當 AI 生成的代碼真正走進 CI 流水線,評測的標準,也必須隨之升級。

      SwingArena,正是向這個方向邁出的一步。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      暗戳戳完侯佩岑,暗戳戳田馥甄!咱嫂子,一會發彩虹,一會發風車

      暗戳戳完侯佩岑,暗戳戳田馥甄!咱嫂子,一會發彩虹,一會發風車

      一盅情懷
      2026-02-20 13:06:40
      外媒曝光!英國《簡史防務》公布中國095型核潛艇衛星照,泵噴推進系統實錘了!

      外媒曝光!英國《簡史防務》公布中國095型核潛艇衛星照,泵噴推進系統實錘了!

      軍武速遞
      2026-02-20 19:10:37
      翻車!春晚“真彈幕”騙局?罵春晚發不出,夸的秒顯,網友當傻子

      翻車!春晚“真彈幕”騙局?罵春晚發不出,夸的秒顯,網友當傻子

      戧詞奪理
      2026-02-18 17:43:36
      不要輕易做手術!醫生提醒:62歲后,這5類手術可盡量避免

      不要輕易做手術!醫生提醒:62歲后,這5類手術可盡量避免

      今日養生之道
      2026-02-15 14:14:53
      太陽報:圖多爾帶熱刺球員下館子,提振士氣打阿森納

      太陽報:圖多爾帶熱刺球員下館子,提振士氣打阿森納

      懂球帝
      2026-02-21 12:39:05
      驚呆!7名中東游客在上海浦東機場托運超500斤行李,購物狂潮引關注

      驚呆!7名中東游客在上海浦東機場托運超500斤行李,購物狂潮引關注

      芭比衣櫥
      2026-02-17 07:44:36
      一家三口春節返鄉途中突生變故:車輛拋錨,患病兒子離世……之后的事太暖心

      一家三口春節返鄉途中突生變故:車輛拋錨,患病兒子離世……之后的事太暖心

      臺州交通廣播
      2026-02-20 12:14:08
      WTA迪拜站:高芙救四賽點仍出局,佩古拉五連勝阿尼西莫娃

      WTA迪拜站:高芙救四賽點仍出局,佩古拉五連勝阿尼西莫娃

      全網球APP
      2026-02-21 12:44:23
      從未打過仗的文官,一戰為南宋續命118年,主席稱其“千古一人”

      從未打過仗的文官,一戰為南宋續命118年,主席稱其“千古一人”

      鶴羽說個事
      2026-01-23 16:24:27
      我在芬蘭見雇主家暖氣不熱,順手修了,第5天小鎮的人都趕過來了

      我在芬蘭見雇主家暖氣不熱,順手修了,第5天小鎮的人都趕過來了

      三農老歷
      2026-01-30 11:25:43
      1000架殲-20和900架殲-16?英國智庫:難以戰勝2030年的中國空軍

      1000架殲-20和900架殲-16?英國智庫:難以戰勝2030年的中國空軍

      欽點歷史
      2026-02-20 16:53:54
      楊穎新中式回上海,十萬黃金首飾陪小海綿過年

      楊穎新中式回上海,十萬黃金首飾陪小海綿過年

      何偵愛體育
      2026-02-19 11:05:49
      2026年春節,中年人集體“減負”,同學聚會朋友圈、春節都變了

      2026年春節,中年人集體“減負”,同學聚會朋友圈、春節都變了

      老特有話說
      2026-02-20 12:05:37
      齊白石贈毛主席一幅老牛畫,飲酒后欲搶回,毛主席:上面有我名字

      齊白石贈毛主席一幅老牛畫,飲酒后欲搶回,毛主席:上面有我名字

      歷史龍元閣
      2026-02-18 08:15:07
      32+26+18!錯哥5連勝,爆登了!

      32+26+18!錯哥5連勝,爆登了!

      貴圈真亂
      2026-02-21 12:13:57
      熱搜第一:降稅了!

      熱搜第一:降稅了!

      啃金融
      2025-12-30 23:09:55
      穩居東部墊底!步行者遭奇才8人上雙背靠背雙殺 赫夫22分

      穩居東部墊底!步行者遭奇才8人上雙背靠背雙殺 赫夫22分

      醉臥浮生
      2026-02-21 10:23:44
      美學者警告:如果美國武力介入臺灣問題,可能引發持續數年的戰爭并導致美國數十萬人死亡

      美學者警告:如果美國武力介入臺灣問題,可能引發持續數年的戰爭并導致美國數十萬人死亡

      每日經濟新聞
      2026-02-19 21:45:02
      默克爾或重出江湖?德國總理通告全球:美國靠不住,下周將訪華

      默克爾或重出江湖?德國總理通告全球:美國靠不住,下周將訪華

      福建平子
      2026-02-21 13:34:52
      俄媒稱K寶若參賽米蘭冬奧肯定輕松奪冠 無四周跳女子花滑倒退10年

      俄媒稱K寶若參賽米蘭冬奧肯定輕松奪冠 無四周跳女子花滑倒退10年

      勁爆體壇
      2026-02-21 06:54:19
      2026-02-21 14:23:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12325文章數 142569關注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      夫婦撿到裝20多個紅包帆布袋:4個孩子7萬多的壓歲錢

      頭條要聞

      夫婦撿到裝20多個紅包帆布袋:4個孩子7萬多的壓歲錢

      體育要聞

      冬奧第一"海王"?一人和13國選手都有關系

      娛樂要聞

      鏢人反超驚蟄無聲拿下單日票房第二!

      財經要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔當”來了 方程豹首款轎車路跑信息曝光

      態度原創

      健康
      旅游
      本地
      教育
      公開課

      轉頭就暈的耳石癥,能開車上班嗎?

      旅游要聞

      可當天往返!鄭州周邊適合春節自駕游的7個好去處!

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      教育要聞

      一個教師的2026年“不做清單”

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版