網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

華為推出軟工代碼智能體SWE-Lego，解鎖SFT訓(xùn)練極致性能

2026-01-13 14:54:45　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

“軟工任務(wù)要改多文件、多輪工具調(diào)用，模型怎么學(xué)透？高質(zhì)量訓(xùn)練數(shù)據(jù)稀缺，又怕軌跡含噪聲作弊？復(fù)雜 RL 訓(xùn)練成本高，中小團(tuán)隊(duì)望而卻步？”

華為研究團(tuán)隊(duì)推出SWE-Lego，僅基于監(jiān)督微調(diào)（SFT）的軟件工程代碼智能體，無需復(fù)雜 RL 流程，在 SWE-bench Verified 基準(zhǔn)中斬獲同等規(guī)模開源模型 SOTA，甚至超越部分更大規(guī)模閉源模型！項(xiàng)目已開源，代碼、模型和全部數(shù)據(jù)一鍵獲取！

arXiv 地址：https://arxiv.org/abs/2601.01426
GitHub 地址：https://github.com/SWE-Lego
HuggingFace 地址：https://huggingface.co/SWE-Lego

SWE-Lego 具有三大創(chuàng)新，包括數(shù)據(jù)、訓(xùn)練和測(cè)試時(shí)擴(kuò)展。

1. 混合數(shù)據(jù)集構(gòu)建：

雙數(shù)據(jù)管道互補(bǔ)：GitHub 真實(shí) PR 數(shù)據(jù) + 注入真實(shí)場(chǎng)景 Bug 的合成數(shù)據(jù)，產(chǎn)出 32k 高質(zhì)量任務(wù)實(shí)例 + 18k 專家軌跡；
嚴(yán)格軌跡篩選：過濾 Git 歷史泄露、工具錯(cuò)誤等噪聲，重用部分解決的優(yōu)質(zhì)軌跡，提升 SFT 訓(xùn)練有效性。

2. 改進(jìn)的監(jiān)督微調(diào)：

兩大亮點(diǎn)：① 步驟級(jí)錯(cuò)誤掩碼，讓模型從長軌跡中學(xué)習(xí)有效子軌跡；② 課程學(xué)習(xí)，按交互輪次分級(jí)提升任務(wù)難度；
性能提升：比傳統(tǒng) SFT 在不同模型上提升 2~4%，筑牢 SOTA 基礎(chǔ)。

3. 測(cè)試時(shí)擴(kuò)展策略（TTS）：

擴(kuò)展優(yōu)先級(jí)：先串行擴(kuò)展（增大軌跡最大交互輪數(shù)）至飽和，再分配資源給并行擴(kuò)展（多備選答案選最優(yōu)）；
打分器優(yōu)選：生成式打分器在并行擴(kuò)展中，全程優(yōu)于回歸式打分器，適配不同模型規(guī)模與測(cè)試預(yù)算。

引言

在軟件工程領(lǐng)域，Code Agent 需要處理復(fù)雜的任務(wù)：修復(fù) bug、重構(gòu)代碼、理解大型代碼庫。這些任務(wù)要求 Code Agent 具備長序列推理、多文件操作和工具使用等能力。現(xiàn)有的訓(xùn)練方法通常需要復(fù)雜的訓(xùn)練范式，比如強(qiáng)化學(xué)習(xí)（RL）或者 RL 和 SFT 的迭代組合。

這些方法雖然有效，但計(jì)算成本高，訓(xùn)練過程復(fù)雜。能否用更簡單的方法達(dá)到同樣的效果？

華為的研究團(tuán)隊(duì)提出了SWE-Lego，一個(gè)僅基于監(jiān)督微調(diào)（SFT）的軟工代碼模型的解決方案。在 SWE-bench Verified 基準(zhǔn)測(cè)試上基于 Qwen3 系列模型作為起始模型，經(jīng)過 SFT 之后得到 SWE-Lego-Qwen3-8B 和 32B 分別達(dá)到 42.2% 和 52.6%，達(dá)到了開源模型的 SOTA 水平，并超越了一些更大規(guī)模的閉源模型。基于測(cè)試時(shí)擴(kuò)展策略（TTS）可以進(jìn)一步把性能提高 6~7%。

圖 1：SWE-Lego 系列模型在 SWE-bench Verified 上的性能對(duì)比，在同等規(guī)模模型中表現(xiàn)達(dá)到 SOTA

一、挑戰(zhàn)與動(dòng)機(jī)

軟件工程任務(wù)與傳統(tǒng)的單文件編程任務(wù)有著明顯區(qū)別：一個(gè) bug 修復(fù)可能涉及代碼項(xiàng)目里多個(gè)文件的修改，需要多輪工具調(diào)用（讀取文件、執(zhí)行測(cè)試、編輯代碼等），必須在真實(shí)的代碼庫環(huán)境中驗(yàn)證修復(fù)效果，還需要理解代碼邏輯、定位問題、設(shè)計(jì)修復(fù)方案等復(fù)雜推理能力。

為了訓(xùn)練具備軟件工程項(xiàng)目級(jí)代碼編寫能力的代碼模型，研究者們嘗試了多種方法。強(qiáng)化學(xué)習(xí)（RL）雖然不需要預(yù)定義的軌跡，但訓(xùn)練成本極高。復(fù)雜組合方法將多種訓(xùn)練范式結(jié)合，比如 SFT 和 RL 的迭代訓(xùn)練，進(jìn)一步增加了訓(xùn)練復(fù)雜度。更重要的是，高質(zhì)量的訓(xùn)練數(shù)據(jù)稀缺。現(xiàn)有的數(shù)據(jù)集要么規(guī)模有限，要么缺乏可執(zhí)行環(huán)境，要么難以擴(kuò)展到足夠大的規(guī)模。

二、SWE-Lego 的三大核心組件

SWE-Lego 包含三個(gè)核心組件：

圖 2：SWE-Lego-Qwen3-32B 的性能提升分解，混合數(shù)據(jù)集貢獻(xiàn)最大（+25.6%），改進(jìn)的 SFT 貢獻(xiàn) + 3.8%，TTS 貢獻(xiàn) + 6.2%

從圖 2 可以看到每個(gè)組件的貢獻(xiàn)：混合數(shù)據(jù)集貢獻(xiàn) + 25.6%（最大貢獻(xiàn)），改進(jìn)的 SFT 貢獻(xiàn) + 3.8%，測(cè)試時(shí)擴(kuò)展貢獻(xiàn) + 6.2%。總計(jì)從基線 23.2% 提升到 58.8%，提升了 35.6 個(gè)百分點(diǎn)。這些結(jié)果清楚地表明，好的數(shù)據(jù)集是性能提升的最大驅(qū)動(dòng)力，而改進(jìn)的 SFT 和測(cè)試時(shí)擴(kuò)展提供了不錯(cuò)的增量收益。

核心組件一：混合數(shù)據(jù)集構(gòu)建

SWE-Lego 數(shù)據(jù)集包含 32,119 個(gè)高質(zhì)量任務(wù)實(shí)例，18,110 個(gè)驗(yàn)證軌跡（其中 14,110 個(gè)完全解決，4,000 個(gè)半解決），覆蓋 3,251 個(gè)代碼倉庫。

SWE-Lego 采用混合數(shù)據(jù)構(gòu)建策略，結(jié)合真實(shí)世界數(shù)據(jù)和合成數(shù)據(jù)。真實(shí)世界數(shù)據(jù)來自嚴(yán)格篩選的 GitHub Pull Requests （PRs），這里的 PRs 中非測(cè)試文件作為 Golden Patch, 也就是這個(gè)任務(wù)的解決方案。真實(shí) PR 數(shù)據(jù)具有貼近生產(chǎn)環(huán)境的優(yōu)勢(shì)，能夠提供真實(shí)的 bug 的復(fù)雜性，真實(shí)的任務(wù)參考 SWE-rebench [1]。但是真實(shí)數(shù)據(jù)數(shù)量有限，且每個(gè)任務(wù)需要獨(dú)立的沙箱環(huán)境，成本較高。

參考 SWE-smith [2] 的通過故意引入 Bug 來合成軟工任務(wù)的方式，SWE-Lego 通過 AST 轉(zhuǎn)換和 LLM 重寫，基于真實(shí)代碼倉得到相應(yīng)的合成軟工數(shù)據(jù)，對(duì)可以通過測(cè)試的代碼庫故意引入一些 Bug。具體地，AST 轉(zhuǎn)換提取抽象語法樹（AST）并應(yīng)用隨機(jī)變換，如移除條件 / 循環(huán)、修改運(yùn)算符或依賴關(guān)系，而 LLM 重寫則提示模型使用函數(shù)頭和文檔字符串等信息重寫代碼。引入 Bug 的補(bǔ)丁進(jìn)行反轉(zhuǎn)就可以得到解決這個(gè)任務(wù)的 Golden Patch。合成數(shù)據(jù)具有可擴(kuò)展、成本低、多個(gè)任務(wù)可共享沙箱的優(yōu)勢(shì)，但復(fù)雜度相對(duì)較低。

在下一步，團(tuán)隊(duì)對(duì)真實(shí)和合成數(shù)據(jù)采用測(cè)試驅(qū)動(dòng)的方式去得到驗(yàn)證后的軟工數(shù)據(jù)實(shí)例，篩選出合格的軟工任務(wù)。具體地，在應(yīng)用 Golden Patch 前可以通過的測(cè)試在應(yīng)用 Golden Patch 之后仍然可以通過，而應(yīng)用 Golden Patch 前不通過的測(cè)試在應(yīng)用 Golden Patch 之后也需要通過。

圖 3：SWE-Lego 數(shù)據(jù)管道，結(jié)合真實(shí) PR 和合成的軟工任務(wù)實(shí)例，基于專家模型去生成可執(zhí)行的軌跡用于 SFT 訓(xùn)練

真實(shí)數(shù)據(jù)提供深度（復(fù)雜性和真實(shí)性），合成數(shù)據(jù)提供廣度（數(shù)量和覆蓋范圍）。兩者互補(bǔ)：真實(shí)數(shù)據(jù)提供主要收益但難以擴(kuò)展，合成數(shù)據(jù)通過進(jìn)一步擴(kuò)展提供額外收益。實(shí)驗(yàn)證明，增加合成數(shù)據(jù)可以顯著提升有效軌跡數(shù)量和下游性能。

圖 4：隨著合成實(shí)例的增加，有效軌跡數(shù)量顯著增長

圖 5：隨著混合數(shù)據(jù)的增加，模型的性能逐步提升

軌跡質(zhì)量優(yōu)化

為了確保訓(xùn)練數(shù)據(jù)的質(zhì)量，SWE-Lego 實(shí)施了嚴(yán)格的軌跡生成和驗(yàn)證流程。

防止解決方案泄露：最近 SWE-Bench 社區(qū) [3] 發(fā)現(xiàn)，LLM 可能通過查看 Git 歷史來 "作弊"，直接找到正確答案。為了防止這種解決方案泄露，對(duì)于真實(shí)實(shí)例，SWE-Lego 移除問題創(chuàng)建日期之后的所有提交和日志消息，使未來的修復(fù)不可見；對(duì)于合成實(shí)例，由于有 bug 的版本在無 bug 的版本之前（由于故意的 bug 注入），完全移除整個(gè) Git 歷史和所有日志，只暴露 buggy 代碼庫的單個(gè)快照。這迫使模型真正推理代碼和測(cè)試，而不是從版本控制中讀取答案。

處理工具調(diào)用錯(cuò)誤：在使用 Qwen3-Coder-480B-A35B-Instruct 作為教師模型時(shí)，觀察到對(duì) str_replace_editor 工具的頻繁格式錯(cuò)誤調(diào)用，例如將字符串傳遞給 view_range 或指定超出范圍的行范圍，導(dǎo)致工具失敗并浪費(fèi)交互預(yù)算。為了緩解這些錯(cuò)誤，SWE-Lego 應(yīng)用輕量級(jí)后處理：如果 view_range 是字符串，則在執(zhí)行工具之前將其轉(zhuǎn)換為整數(shù)；如果請(qǐng)求的行范圍超過文件長度，則返回有效行的子集而不是引發(fā)錯(cuò)誤，使得模型能夠更可靠地檢查代碼。

精簡工具集：雖然任務(wù)管理工具（如 task_tracker）已被一些最近的專有模型采用，但發(fā)現(xiàn) Qwen3-Coder-480B-A35B-Instruct 無法有效使用它們，經(jīng)常導(dǎo)致執(zhí)行錯(cuò)誤。因此，SWE-Lego 丟棄此工具，將工具集限制為四個(gè)基本操作：execute_bash、str_replace_editor、think 和 finish，以保持軌跡精簡。

軌跡過濾策略：SWE-Lego 通過應(yīng)用預(yù)測(cè)補(bǔ)丁并運(yùn)行測(cè)試集來驗(yàn)證軌跡。如果軌跡通過所有測(cè)試，則分類為已解決，否則為未解決。然后，過濾低質(zhì)量的已解決軌跡（例如，通過修改測(cè)試文件來 "作弊" 的軌跡），并重用部分解決軌跡（那些正確識(shí)別了所有相關(guān)文件但未能修復(fù)的軌跡）。這些部分解決軌跡提供了有價(jià)值的故障定位監(jiān)督，我們發(fā)現(xiàn)加入此類數(shù)據(jù)會(huì)適當(dāng)提升模型的性能。

圖 6：軌跡生成中的關(guān)鍵實(shí)踐，包括防止 Git 泄露、處理工具錯(cuò)誤、精簡工具集

表 1：SWE-Lego 的可驗(yàn)證的任務(wù)實(shí)例和有效訓(xùn)練軌跡的統(tǒng)計(jì)以及和其他 SWE 相關(guān)工作的數(shù)據(jù)對(duì)比

具體的數(shù)據(jù)統(tǒng)計(jì)和對(duì)比見表 1，可以看出 SWE-Lego 的混合數(shù)據(jù)管道提供了數(shù)量充足的、代碼倉多樣的、環(huán)境可驗(yàn)證的 SWE 任務(wù)實(shí)例和軌跡。

總結(jié)：混合數(shù)據(jù)集是性能提升的最大驅(qū)動(dòng)力。真實(shí)數(shù)據(jù)與合成數(shù)據(jù)互補(bǔ)確保了數(shù)據(jù)數(shù)量，嚴(yán)格的軌跡驗(yàn)證確保了軌跡的質(zhì)量。

核心組件二：改進(jìn)的監(jiān)督微調(diào)

通常的監(jiān)督微調(diào)將通過測(cè)試驗(yàn)證的整條軌跡拿去訓(xùn)練，但實(shí)際上在軟工的場(chǎng)景，專家軌跡需要多輪在沙箱中交互得到最后的預(yù)測(cè)補(bǔ)丁，即使最終成功解決的軌跡也可能包含中間錯(cuò)誤步驟，盲目學(xué)習(xí)這些錯(cuò)誤可能強(qiáng)化不良行為。另外，不同數(shù)據(jù)的難度不同，在訓(xùn)練初期讓模型學(xué)習(xí)難題可能比較吃力。針對(duì)這些情況，SWE-Lego 提出了兩個(gè)改進(jìn)：

改進(jìn) 1：步驟級(jí)錯(cuò)誤掩碼

核心思想：保持完整軌跡上下文，但只對(duì)正確的步驟計(jì)算損失。

圖 7：步驟級(jí)錯(cuò)誤掩碼示例，錯(cuò)誤步驟被掩碼，模型只學(xué)習(xí)正確的操作

實(shí)現(xiàn)方法：使用正則表達(dá)式識(shí)別終端環(huán)境提供的錯(cuò)誤消息，對(duì)相應(yīng)的模型響應(yīng)應(yīng)用錯(cuò)誤掩碼。關(guān)鍵是要排除因復(fù)現(xiàn) bug 或執(zhí)行測(cè)試文件而產(chǎn)生的錯(cuò)誤。這種方法保持完整的軌跡上下文，但只對(duì)正確的步驟計(jì)算損失，使模型能夠?qū)W習(xí)正確的操作和恢復(fù)策略，而不會(huì)強(qiáng)化錯(cuò)誤。通過強(qiáng)調(diào)學(xué)習(xí)正確操作，直接減少了核心推理失敗，如 "錯(cuò)誤實(shí)現(xiàn)" 和 "定位錯(cuò)誤"。

改進(jìn) 2：基于難度的課程學(xué)習(xí)

核心思想：從簡單任務(wù)開始，逐步增加難度。

SWE-Lego 探索了兩種難度分類方法：基于模型的評(píng)分和基于軌跡輪數(shù)的啟發(fā)式。研究發(fā)現(xiàn)，軌跡輪數(shù)與解決率之間存在強(qiáng)負(fù)相關(guān)（相關(guān)系數(shù) - 0.95）。基于這一發(fā)現(xiàn)，SWE-Lego 采用可以直接獲取的指標(biāo)，軌跡輪數(shù)，作為軌跡的難度指標(biāo)，將數(shù)據(jù)分為三個(gè)難度等級(jí)：簡單（0-50 輪）、中等（50-70 輪）、困難（70-100 輪）。訓(xùn)練策略采用三階段課程：先訓(xùn)練簡單任務(wù)，再逐步加入中等和困難任務(wù)。這種課程學(xué)習(xí)與訓(xùn)練動(dòng)態(tài)一致：首先讓模型在 "簡單" 任務(wù)上克服基本的 "無法復(fù)現(xiàn)" 錯(cuò)誤，然后引入 "困難" 任務(wù)以發(fā)展避免 "超出最大輪次" 失敗所需的戰(zhàn)略規(guī)劃。

圖 8：軌跡輪次與平均解決率之間的強(qiáng)負(fù)相關(guān)關(guān)系

訓(xùn)練過程分析

通過分析訓(xùn)練過程中的錯(cuò)誤類型演變，可以清楚地看到模型的學(xué)習(xí)軌跡：

圖 9：訓(xùn)練過程中解決率的提升趨勢(shì)

圖 10：訓(xùn)練過程中錯(cuò)誤類型的演變，從早期的 "無法復(fù)現(xiàn)" 到后期的 "錯(cuò)誤實(shí)現(xiàn)"

錯(cuò)誤類型的變化：訓(xùn)練初期時(shí) "無法復(fù)現(xiàn)" 錯(cuò)誤占主導(dǎo)，表明模型此時(shí)缺乏對(duì)軟工任務(wù)基本的理解能力；訓(xùn)練中期時(shí) "無法復(fù)現(xiàn)" 比例大幅減少，但 "定位錯(cuò)誤" 比例仍有較多，表明缺乏戰(zhàn)略規(guī)劃；訓(xùn)練后期 "錯(cuò)誤實(shí)現(xiàn)" 成為瓶頸，表明從過程失敗轉(zhuǎn)向推理失敗。

改進(jìn)的 SFT（錯(cuò)誤掩碼 + 課程學(xué)習(xí)）帶來 3.8% 的性能提升。在 SWE-bench Verified 上，SWE-Lego-Qwen3-8B 達(dá)到 42.2%，SWE-Lego-Qwen3-32B 達(dá)到 52.6%。通過漸進(jìn)式訓(xùn)練和選擇性學(xué)習(xí)，模型能夠更有效地掌握復(fù)雜任務(wù)。

核心組件三：測(cè)試時(shí)擴(kuò)展

測(cè)試時(shí)擴(kuò)展（TTS）可以在不重新訓(xùn)練的情況下，通過在測(cè)試階段分配額外的計(jì)算資源來提升性能。SWE-Lego 系統(tǒng)研究了兩個(gè)正交維度：

維度 1：串行擴(kuò)展 vs 并行擴(kuò)展

SWE-Lego 研究了串行擴(kuò)展和并行擴(kuò)展之間的資源分配。串行擴(kuò)展通過增加最大交互輪次實(shí)現(xiàn)，在低測(cè)試預(yù)算的區(qū)域非常高效。額外輪次都能獲得環(huán)境反饋，使模型能夠糾正錯(cuò)誤并迭代改進(jìn)解決方案。這使得串行擴(kuò)展在預(yù)算有限時(shí)成為首選策略。然而，模型性能在約 100-140 輪后開始飽和，此時(shí)相比于串行擴(kuò)展，更加需要并行擴(kuò)展來提升性能。

并行擴(kuò)展生成多個(gè)候選軌跡，用打分器選擇最佳的軌跡。在串行擴(kuò)展飽和后，并行擴(kuò)展變得更加有效，因?yàn)槊總€(gè)獨(dú)立軌跡探索解決方案空間的不同路徑。

圖 11：串行擴(kuò)展和并行擴(kuò)展的權(quán)衡，等延遲曲線顯示了最優(yōu)資源分配策略

在有限的測(cè)試階段計(jì)算預(yù)算下，應(yīng)優(yōu)先進(jìn)行串行擴(kuò)展；在串行擴(kuò)展飽和后，將剩余計(jì)算資源分配給并行擴(kuò)展。圖 11 中的等延遲等高線說明了這種權(quán)衡：在等效延遲下，最優(yōu)分配隨著總延遲預(yù)算的增加從順序主導(dǎo)轉(zhuǎn)向并行主導(dǎo)。

維度 2：生成式 vs 回歸式打分器

打分器用于從多個(gè)候選軌跡中選擇最佳方案。SWE-Lego 比較了兩種范式：回歸式打分器和生成式打分器。

回歸式打分器在模型上添加一個(gè)頭輸出，使用二元交叉熵?fù)p失訓(xùn)練，對(duì)整個(gè)軌跡轉(zhuǎn)化為單個(gè)標(biāo)量去打分。生成式打分器將驗(yàn)證表述為文本生成任務(wù)，預(yù)測(cè) "是" 或 "否"，從輸出 "是" 或 "否的"token 概率計(jì)算分?jǐn)?shù)。生成式打分器的訓(xùn)練目標(biāo)與預(yù)訓(xùn)練的下一個(gè) token 預(yù)測(cè)目標(biāo)對(duì)齊，可能更好地利用模型的固有知識(shí)。

圖 12：生成式打分器與回歸式打分器的對(duì)比，生成式打分器在 K 值較大時(shí)持續(xù)改進(jìn)

在 rollout 的個(gè)數(shù)（K 值）比較小時(shí)，生成式打分器與回歸式打分器兩者的性能相近；隨著 rollout 的次數(shù)（K）的增加，回歸式打分器趨于飽和，而生成式打分器持續(xù)改進(jìn)。對(duì)于 SWE-Lego-Qwen3-8B，在 K=16 時(shí)差距達(dá)到 2.8%（49.6% vs 46.8%）。

圖 13：SWE-Lego 打分器與現(xiàn)有公開打分器的對(duì)比

SWE-Lego-Verifier-8B 在 TTS@16 上達(dá)到 49.6%，超越了 OpenHands-Critic-32B（44.0%）和 R2E-Gym-Verifier-14B（47.0%）。除了絕對(duì)性能外，還觀察到不同打分器范式的定性不同縮放行為。OpenHands-Critic-32B 采用回歸式范式，在更高的 K 值下表現(xiàn)出性能下降，這是一個(gè)反直覺的結(jié)果，表明更大的候選池壓倒了其判別能力。相比之下，生成式打分器（SWE-Lego 和 R2E-Gym）保持單調(diào)改進(jìn)，趨向于 Pass@K 上限，進(jìn)一步確認(rèn)生成式表述提供了更穩(wěn)健的縮放屬性。

總結(jié)：測(cè)試時(shí)擴(kuò)展可以在測(cè)試階段帶來額外提升。在測(cè)試的計(jì)算預(yù)算比較低的時(shí)候，串行擴(kuò)展優(yōu)先于并行擴(kuò)展。生成式打分器在并行擴(kuò)展中表現(xiàn)更優(yōu)。

三、結(jié)語與展望

SWE-Lego 證明了輕量級(jí)方法也能達(dá)到 SOTA，不一定需要復(fù)雜的 RL 或 SFT 和 RL 的迭代訓(xùn)練，SFT 也可以取得軟工任務(wù)的 SOTA 性能。數(shù)據(jù)質(zhì)量至關(guān)重要，混合數(shù)據(jù)集和嚴(yán)格驗(yàn)證是性能提升的關(guān)鍵。訓(xùn)練技巧的價(jià)值也不容忽視，錯(cuò)誤掩碼和課程學(xué)習(xí)等看似簡單的改進(jìn)也帶來了性能提升。

未來將探索更大模型和更多數(shù)據(jù)的組合，擴(kuò)展到 Python 之外的其他編程語言和其他類型的代碼任務(wù)，處理企業(yè)級(jí)的長序列、多文件任務(wù)，并將 SWE-Lego 應(yīng)用到真實(shí)的軟件開發(fā)流程中。

參考文獻(xiàn)

[1] Badertdinov, I., Golubev, A., Nekrashevich, M., Shevtsov, A., Karasik, S., Andriushchenko, A., ... & Yangel, B. (2025). SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents. arXiv preprint arXiv:2505.20411.

[2] Yang, J., Lieret, K., Jimenez, C. E., Wettig, A., Khandpur, K., Zhang, Y., ... & Yang, D. (2025). Swe-smith: Scaling data for software engineering agents. arXiv preprint arXiv:2504.21798.

[3] https://github.com/SWE-bench/SWE-bench/issues/465

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.