<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      超6萬GitHub項目實測:Agent寫代碼效率暴漲,通過率仍落后人類

      0
      分享至

      當 AI 用 3 天完成人類程序員原本3年的代碼任務量,人類的角色會發生怎樣的變化?

      當前,AI 正在從工具變為人類的“隊友”。隨著大模型的加速發展,AI 在軟件工程領域的作用已不再是輔助代碼補全,而是正在成為可自主編碼的智能體(Agent)。

      現在,我們只需向 AI 描述代碼想要實現的功能,它就能自動生成完整代碼;借助 Agent,甚至能在十幾分鐘內完成千行級別的代碼生成或修改。

      近期,加拿大女王大學博士后李豪與所在團隊在一項研究中首次構建了一個大規模數據集 AIDev,系統分析和統計了自主編碼 Agent 在 7,000 多個較流行的軟件中的實際表現和影響。

      其覆蓋范圍包括在 GitHub 平臺上已提交的超 45.6 萬條 Agent 代碼合并請求(PR,pull requests),涵蓋 6.1 萬個代碼庫和 4.7 萬名開發者,包括主流的 AI 編碼工具 OpenAI Codex、GitHub Copilot、Devin、Cursor 和 Claude Code。


      圖丨李豪(來源:受訪者)

      研究人員在 AI 領域和軟件工程做相關研究時,往往會選擇用 SWE-bench 做測試,通過交給 AI 一些高質量、有測試樣例的任務,來優化 AI 性能以及優化系統設計等。

      但這也帶來了很多挑戰性的問題。例如,一家公司如果將測試題目用于訓練模型,極有可能因“作弊”導致分數虛高。此外,由于 SWE-bench 是一個靜態的基準集(benchmark),部分數據有可能存在一定滯后性。

      李豪指出,該研究最大的不同點在于,AIDev 是真實世界、大規模、實時采集數據的數據集,更貼近于業界實踐和生產。此外,研究人員還可以利用該數據集打造更新的 benchmark。


      (來源:arXiv)

      研究團隊在 AI 編碼 Agent 的速度和質量方面找到了有趣的發現。一項個例分析結果顯示,有開發者在使用 AI 編碼 Agent 后,3 天內完成的任務量接近其過去 3 年的總量。

      而 AI 在自然語言處理方面的優勢,也同樣值得關注。他們發現,AI 在編寫代碼或文本方面的任務中表現優異,例如從文檔相關的合并請求接受率來看,OpenAI Codex 和 Claude Code 分別為 88.6% 和 85.7%,而人類在該方面表現為 76.5%。


      (來源:arXiv)

      合并請求接受率是衡量 AI 產出質量和可信度的關鍵指標,它與人類開發者/項目維護者對 AI 貢獻的認可度密切相關。該團隊還發現,編碼 Agent 的合并請求接受率比人類開發者低 15% 至 40%(不同任務類型下區間差異顯著),尤其是在新功能開發、修復 Bug 等復雜的任務方面。例如,OpenAI Codex 的 PR 接受率為 64%,而人類開發者的 PR 接受率高達 76.8%。

      這意味著,AI 寫代碼并非全面超越了人類。需要看到的是,盡管目前 AI 編碼 Agent 生成速度很快,但性能方面還有一些缺陷,在結構上也相對較簡單,需要研究人員繼續對其進行增強,以確保代碼的長期可維護性。

      李豪對 DeepTech 表示:“短期看,AI Agent 的代碼接受率相對人類較低,效率與質量的取舍仍需權衡(trade-off),但這種磨合期對應的是數據飛輪的啟動階段,形成飛輪效應后,我們有望獲得生產力的顯著提升。”


      (來源:arXiv)

      該研究通過分析自主編碼 Agent 的表現,為未來更好地優化人與 AI 協作提供了數據基礎。這也帶來了一種全新的生成模式,開發者面臨的問題不是如何寫更多的代碼,而是接到一項任務后,如何拆分成更細的任務,再管理這些 AI 更好地執行。

      “該方向在學界和產業界還存在較大的空白。編程人員的角色也會逐漸從寫代碼的人,轉換成提供代碼審查或提供管理模式的人。目前,我們也在做相關的研究,來探索新一代軟件開發流程來支持開發者們利用 AI Agent。”李豪表示。

      此外研究還揭示出,盡管 AI 的出現推動了人機協同審查流程,但同時也可能會帶來偏見等問題。例如,假如 AI 寫代碼的 Agent 與審查代碼的機器人自同一公司,很有可能在AI審查環節忽視某些特定類型的錯誤。

      在未來的研究中,該團隊計劃建立更全面的 benchmark,對 AI 編程 Agent 進行真實的表現評測。他們還打算建立新知識庫,推動領域內的研究人員共同改進相關方向,包括如何更好地預測和分析AI可能的失敗場景,以及失敗原因等。從更長遠的發展來看,探索更自動化與標準化的審查機制,也是一個值得深入研究的方向。

      相關論文以《軟件工程 3.0 中 AI 隊友的崛起:自主編碼 Agent 如何重塑軟件工程》(The Rise of AI Teammates in Software Engineering (SE) 3.0: How Autonomous Coding Agents Are Reshaping Software Engineering)為題發表在 arXiv[1]。目前,相關代碼已在 GitHub 開源。

      參考資料:

      1.相關論文:https://arxiv.org/abs/2507.15003v1

      2.AIDev 數據集獲取:https://github.com/SAILResearch/AI_Teammates_in_SE3

      排版:胡莉花

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      淚目!谷愛凌哭了:剛拿金牌就得知奶奶去世噩耗 昨晚還夢到了她

      淚目!谷愛凌哭了:剛拿金牌就得知奶奶去世噩耗 昨晚還夢到了她

      念洲
      2026-02-22 22:15:04
      給文件加了到期自焚功能,有人說這都是黑客干的,其實操作很簡單

      給文件加了到期自焚功能,有人說這都是黑客干的,其實操作很簡單

      老田電腦
      2026-02-10 09:46:07
      我國崩塌最徹底的專業,從年薪20萬到找不到工作,畢業即失業!

      我國崩塌最徹底的專業,從年薪20萬到找不到工作,畢業即失業!

      黯泉
      2026-02-10 22:00:47
      白宮強行單方面宣布特朗普訪華!讓全世界都很尷尬,就他不尷尬

      白宮強行單方面宣布特朗普訪華!讓全世界都很尷尬,就他不尷尬

      我心縱橫天地間
      2026-02-22 22:15:49
      1-0,第97分鐘絕殺,麥卡利斯特一劍封喉,利物浦3連勝,追平曼聯

      1-0,第97分鐘絕殺,麥卡利斯特一劍封喉,利物浦3連勝,追平曼聯

      側身凌空斬
      2026-02-23 00:04:39
      昆明海埂大壩“游客比海鷗還多”,管理方:建議乘坐公共交通前往

      昆明海埂大壩“游客比海鷗還多”,管理方:建議乘坐公共交通前往

      上游新聞
      2026-02-21 13:43:15
      吳謹言洪堯海南偶遇用餐!二人世界甜度拉滿

      吳謹言洪堯海南偶遇用餐!二人世界甜度拉滿

      手工制作阿殲
      2026-02-23 00:27:44
      征服中年女人,無需套路:兩顆真心,一生相守

      征服中年女人,無需套路:兩顆真心,一生相守

      青蘋果sht
      2025-11-04 06:10:40
      寧愿銷毀也不賣給中國!現在卻又求著中國買,專家:白送都不要!

      寧愿銷毀也不賣給中國!現在卻又求著中國買,專家:白送都不要!

      紀中百大事
      2026-02-22 19:14:55
      天然“化栓王”被發現!隔天吃一點,血管干凈了,血栓繞道走

      天然“化栓王”被發現!隔天吃一點,血管干凈了,血栓繞道走

      江江食研社
      2026-02-04 07:30:11
      “人日5不做,不富也安康”,明日大年初七,5不做指啥?別犯忌諱

      “人日5不做,不富也安康”,明日大年初七,5不做指啥?別犯忌諱

      餐飲新紀元
      2026-02-22 07:10:56
      荒唐事,在人間,姓許的人家以為“有錢能使

      荒唐事,在人間,姓許的人家以為“有錢能使

      木子默
      2026-02-20 20:10:20
      “釣帝”黑大爺去世了,兒子:父親釣魚50年,釣到最大的魚四五斤

      “釣帝”黑大爺去世了,兒子:父親釣魚50年,釣到最大的魚四五斤

      漢史趣聞
      2026-02-22 19:30:43
      1959年,彭德懷去江西看望賀子珍,看見一位陌生農婦,身份很特殊

      1959年,彭德懷去江西看望賀子珍,看見一位陌生農婦,身份很特殊

      古書記史
      2025-12-29 00:08:52
      特朗普驚出一身冷汗:中美已無法開戰,一殺手锏讓美軍無計可施

      特朗普驚出一身冷汗:中美已無法開戰,一殺手锏讓美軍無計可施

      馬鞄戶外釣魚哥
      2026-02-22 14:53:23
      貝加爾湖遇難中國游客身份全部確認:七條生命,一個破碎的春節

      貝加爾湖遇難中國游客身份全部確認:七條生命,一個破碎的春節

      青木說
      2026-02-22 09:02:50
      生姜立大功?美國研究發現:生姜可在48小時內清除50%老化細胞?

      生姜立大功?美國研究發現:生姜可在48小時內清除50%老化細胞?

      39健康網
      2026-02-11 09:11:33
      回顧 老人15年在建行存120萬,兒子結婚取錢,銀行:目前倒欠13萬

      回顧 老人15年在建行存120萬,兒子結婚取錢,銀行:目前倒欠13萬

      談史論天地
      2026-02-19 13:33:44
      小沈陽一家三口海南過年!包餃子流水線笑翻網友:最真實的年味

      小沈陽一家三口海南過年!包餃子流水線笑翻網友:最真實的年味

      地球記
      2026-02-22 13:28:54
      臺灣終極解決方案:土地回歸中國,人員往來自由,逃走不是中國人

      臺灣終極解決方案:土地回歸中國,人員往來自由,逃走不是中國人

      晨光蘇醒a
      2026-02-13 09:16:50
      2026-02-23 03:55:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16302文章數 514639關注度
      往期回顧 全部

      科技要聞

      馬斯克:星艦每年將發射超過10000顆衛星

      頭條要聞

      男子持霰彈槍燃燒罐闖特朗普私宅被擊斃 細節披露

      頭條要聞

      男子持霰彈槍燃燒罐闖特朗普私宅被擊斃 細節披露

      體育要聞

      谷愛凌:6次參賽6次奪牌 我對自己非常自豪

      娛樂要聞

      谷愛凌:真正的強大 敢接納生命的節奏

      財經要聞

      特朗普新加征關稅稅率從10%提升至15%

      汽車要聞

      續航1810km!smart精靈#6 EHD超級電混2026年上市

      態度原創

      游戲
      房產
      教育
      家居
      軍事航空

      《GTA6》的第二天發售?《寶可夢》新作爆料來了!

      房產要聞

      窗前即地標!獨占三亞灣C位 自貿港總裁行宮亮相

      教育要聞

      兩所大學,合并!

      家居要聞

      本真棲居 愛暖伴流年

      軍事要聞

      約旦基地美軍戰機驟增 包括F-35隱形戰斗機

      無障礙瀏覽 進入關懷版