<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      斷崖式下跌!最強AI也搞不定長期開發:代碼堆得越多系統崩得越快

      0
      分享至

      寫一個函數,AI 幾乎無敵;但維護一個系統,為何 AI 開始崩潰?

      目前,人工智能已經進入到“下半場”。隨著 AI 編程能力不斷提升,OpenClaw 等產品逐漸興起,“CLI everything”正在成為現實,即 AI 不需要操作電腦,而是將所有的接口改為命令行界面(CLI),一個個技能正轉變成一個個軟件功能。

      現在,Agent 已不僅僅是執行單次任務的對話工具,而是正在向長期運營、與真實世界交互、執行復雜任務的系統發展。然而,一個新的問題出現了:在持續演進的過程中,AI 能不斷適應新環境并保持開發能力穩定嗎?

      騰訊“CEO/總裁辦公室”首席 AI 科學家姚順雨曾在一篇題為“The Second Half”的博客中提到,真實編程任務是連續依賴的,不是獨立并行的,但當下學界沒有這樣的基準來評估 AI 在該場景下所需要的能力,甚至缺乏勇氣打破任務間相互獨立的假設——長久以來被廣泛接受,用于簡化問題。

      近期,美國南加州大學、加利福尼亞大學河濱分校、斯坦福大學、普林斯頓大學、OpenHands 等聯合團隊發布了一項全新評估基準 EvoClaw,為上述問題上提出了新方案。研究團隊從開源項目中提取高質量代碼演進歷史,讓 Agent 在同一代碼庫上連續完成數十個相互依賴的功能迭代。

      結果顯示,頂尖 AI 能在獨立評估任務中表現優異(得分 80%+),一旦進入長周期的真實場景,即便是綜合得分最高的 Claude Opus 4.6 也只獲得了 38.03% 的得分。這意味著,AI 對于執行自由度更高的任務容易偏離軌跡,其距離真正能夠處理長周期、連續的軟件演進工作仍存在顯著差距。


      (來源:arXiv)

      這項研究揭示,AI 在長期演進中極易陷入滾雪球式的技術債。盡管能持續添加新功能,卻無法控制回歸錯誤累積,最終導致系統失控。這也意味著,AI 編程正從寫代碼向系統治理轉折。

      相關論文以《EvoClaw:面向持續軟件演進的 AI 智能體評估基準》(EvoClaw: Evaluating AI Agents on Continuous Software Evolution)為題,近期發表在預印本網站 arXiv[1]。


      圖丨相關論文(來源:arXiv)

      現有 AI 編程評測與真實體驗錯位,問題出在哪里?

      為何獨立測評獲得高分的頂尖模型,在 EvoClaw 測評中集體失利?問題的根源在于評測范式變了。

      在以往研究中,主流編程測評基準(benchmark)多數聚焦于獨立任務:給定一個議題(issue)或拉取請求(PR,Pull Request),模型在靜態的代碼快照上完成修復,驗證通過即完成測評。

      但以往基準測評成績與現實開發能力之間,存在著一道不容忽視的鴻溝:靜態環境是一種相對理想的狀態,而真實環境則是更為復雜和動態的。隨著時間的演進,即便是數月前的微小 bug,經過版本迭代后也可能像滾雪球那樣越來越大,進而導致系統崩潰。


      (來源:arXiv)

      該論文第一作者、南加州大學博士生鄧港大對 DeepTech 表示:“現有的 commit 以及 release 粒度,要么過于瑣碎要么過于粗糙。因此,這些開發歷史并不能體現軟件演進的過程。”


      圖丨鄧港大(來源:受訪者)

      研究團隊首次將時間維度引入 AI 編程能力的評估體系,采用了一種全新層級——里程碑(Milestone),對軟件演進的歷史進行重構,能夠兼具語義完整性和演進依賴關系保留能力的功能單元。其要求 AI 在同一代碼庫上按序完成多個功能單元,這樣不僅保留了每一步產出還成為下一步的起點。


      (來源:arXiv)

      為了支持從大量開源代碼庫中提取出高質量軟件演進歷史,研究人員基于頂尖 AI 強大的能力,提出了一套 Agent 驅動的自動化流水線 DeepCommit,首次實現將嘈雜的 Git 開發記錄重構為可驗證、功能內聚的里程碑任務依賴圖(Milestone DAG),并為每一個里程碑構造出評估環境。主要包括三個階段:Git 歷史預處理、Agent 驅動的 DAG 構建以及里程碑環境配置與驗證。

      實際上,用 Milestone 對 Agent 歷史演進進行重構并非易事,因為它不只是要構造一個靜態的、可純粹被觀測的 DAG,而是要一連串可以被執行的評估環境,還要在演進依賴變更的同時保證正確性。

      這意味著,當打亂 commit 的整體順序并把它重新聚類連接時,可能會面臨 commit 無法應用、接口對不齊以及編譯大面積報錯的情況。針對該問題,研究人員設計了一套迭代式修復循環:Agent 主動分析報錯日志、動態修改 Dockerfile 確保可執行。

      更關鍵的是,它會基于原有 DAG 補充被遺漏的隱式依賴,通過調整 Milestone 的先后約束關系讓接口沖突問題得以妥善解決。經過反復迭代,最終實現正確收集 87.1% 的原有測試用例。

      “與單個編程任務場景相比,穩定、可靠、有效的長周期自主編程是更前沿的研究熱點,例如 Anthropic、OpenAI 就明確表明他們已經將重心轉移到訓練模型的長周期編程能力。”鄧港大表示。


      圖丨 DeepCommit 流水線架構圖(來源:arXiv)

      研究人員將 DeepCommit 自動生成的演進圖與人類專家的手動標注進行對比,讓他們感到意外的是,二者采用了不同的組織邏輯且互為補充。

      具體而言,人類專家的 Milestone 通常在局部時間窗口內,先定議題再歸攏提交,是一種自上而下的語義切分;DeepCommit 為保證絕對準確性,從提交之間的依賴關系出發,自下而上地重建軟件演進脈絡,更強調拓撲結構與執行約束。

      對評測而言,這恰恰說明 DeepCommit 關鍵在于從代碼開發歷史中提煉出一套可執行、可驗證的里程碑結構。從結果來看,DeepCommit 能篩選出高質量、適合評估的 Milestone 任務,并且在真實環境中可執行、可驗證,為評測可靠性提供了保障。

      一進入真實開發,模型成績為何集體“腰斬”?

      EvoClaw 覆蓋五種主流語言,包括 Python、Java、Go、Rust 和 TypeScript,選取的項目橫跨最長真實開發周期達 750 天。

      在評測指標方面,研究團隊未采取簡單的通過率,而是引入了兩個更核心的維度——召回率(Recall)與精確率(Precision)的 F1 加權作為每個 Milestone 的評分。其中,召回率用于衡量功能實現完備性,而精確率則捕捉模型在新增功能時破壞既有代碼的程度。

      研究團隊對 Claude Code、OpenHands 等多種框架和模型組合進行測試。結果顯示,在獨立評測中得分普遍在 80%-90% 的頂尖模型,在進行 EvoClaw 基準測試后集體斷崖式下降,其中最高得分的 Claude Opus 4.6 僅獲得 38.03% 得分。


      圖丨 EvoClaw 主要實驗結果(來源:arXiv)

      GPT 5.3 Codex 以 28.88% 的綜合得分僅次于 Opus4.6,位居第二。分倉庫來看,GPT 5.3 Codex 在兩個 Rust 項目(Nushell、ripgrep)上表現較弱,在其余倉庫上則能接近甚至超過 Opus4.6。在完整解決率方面,得分最高的 Gemini 3 Pro 也只有 13.37%,并且絕大部分能正確實現的都是沒有前置依賴的任務。

      據了解,研究人員將整體開銷控制在合理范圍內,以 Claude Opus 4.5 為例,完整測評一次的成本約為 500 美元,Kimi K2.5 以及 Gemini 3 Flash 則在 50 美元以內,小模型的開銷會更低。


      (來源:arXiv)

      那么,如果給模型更長的開發窗口,它最終能 100% 把項目搞定嗎?

      研究給出了否定答案:無論開發窗口多長,所有模型的表現最終都會撞上“天花板”。任務執行順序越靠后、所處 DAG 層級越深,分數和解決率就越低。飽和函數外推結果證明,即便是最優的 Opus 4.6,累計分數也會被卡死在 45% 左右的漸近線上。

      “盡管 Opus 4.6 在 Anthropic 官網中提到比 4.5 在長周期的任務中表現更好,但是并沒有給出詳細的評估指標,EvoClaw 算是從另一個角度驗證了他們的說法。”鄧港大表示。

      此外,從實驗中還看到了不同模型家族之間存在顯著差異。具體而言,Claude 與 GPT 在持續演化場景中的表現,會隨著版本更新穩步提升。其中,Opus 4.6 在長周期的編程上證明了其對系統的維護性能最佳;GPT 5.3 由于在 Rust 數據集上表現不佳而拉低了分數,排名在第二位。


      (來源:arXiv)

      比較出乎意料的是,Gemini 家族呈現出完全不同的趨勢:從 3 Flash 到 3 Pro 再到 3.1 Pro,每一代都在早期啟動更快、前期表現更好,但其長程表現幾乎沒有顯著提升。鄧港大解釋道:“Gemini 長周期運行表現的明顯衰退,意味著其不僅指令遵循變差,越來越忽視軟件規格說明(SRS)的需求,同時對所構造的軟件系統缺乏維護。”

      當研究人員把整體分數進一步分解為召回率與精確率時,一個更有意思的現象出現了:召回率幾乎呈不斷上升趨勢,接近線性增長。這意味著,哪怕代碼庫變得越來越混亂、越來越脆弱,Agent 依然擅長實現當前給定的新目標功能。

      真正的瓶頸在于精確率:Agent 難以維護現有系統,回歸錯誤積累的速度超過了它們修復這些問題的能力,而這正是長期開發最終停滯的根本原因。


      圖丨左:錯誤鏈示意圖;右:錯誤鏈分布(來源:arXiv)

      為深入理解模型在迭代中失控的根本原因,研究團隊提出了錯誤鏈(Error Chains)的分析框架。他們從首次出錯開始跟蹤每個測試,并觀察錯誤在后續 Milestone 中被繼承、擴散、跳過還是修復。

      結果發現,新問題的產生速度并不會加快,模型甚至會實質性地被動修復部分歷史錯誤,但前置錯誤的累積速度遠超修復速度,最終陷入“技術債破產”。

      為 AI Harness 調試提供通用評估

      近期,有個非常火熱的概念 “Harness Engineering”,希望把軟件開發的全部流程配置成適合 Agent 參與的環境。EvoClaw 基準測試提供了這樣一個通用且評估長周期代碼演進的 playground,適合調試 AI Harness 框架。

      例如,本次研究中所提到的失敗案例,如果 Agent 突然表現出非常積極的迭代,或不斷編輯、不斷驗證,很可能是 Agent 遇到了困難。在這種情況下,可以通過在對應位置構造護欄,來盡早發現問題、及時人工介入,從而提高效率。

      既然模型的架構讓 Agent 具有“實現新功能遠強于維護長期舊功能”的通用性質,那么,未來是否會催生出新的軟件形態以及開發模式?

      例如,軟件會更強調靈活性、兼容性,更可靠的大規模改動重組;或者是更加的一次性,具體業務邏輯都是實時生成、不需要維護,重點在于強化可復用的組件、基礎設施。

      研究團隊認為,在開發模式上,適當放寬對軟件質量的約束,可減少人類的介入次數,來換取更大的吞吐量,最終加速軟件的迭代。

      鄧港大指出,“該研究證明我們正走在一條在正確的道路上,AI 的長期編程能力還沒有遇到瓶頸,能夠隨時間穩定提升。有潛力在突然某一天,由榜單分數的量變,變成改變世界的質變。”

      隨著技術的發展,未來 AI 有可能會從逐漸減少人類參與軟件開發,到 AI 自主提出新的需求來演進代碼庫,再到 AI 徹底超越人類、拋棄人類,最終實現不斷自我進化。

      參考資料:

      1. 相關論文:https://arxiv.org/pdf/2603.13428

      2. 項目主頁:https://evo-claw.com/

      3.https://ysymyth.github.io/The-Second-Half/

      排版:劉雅坤

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      4 種最佳抗衰老的運動,平均壽命延長5-10年

      4 種最佳抗衰老的運動,平均壽命延長5-10年

      增肌減脂
      2026-04-07 21:15:04
      中美GDP差距再次拉大!中國GDP跌到美國60%,到底是哪出問題了?

      中美GDP差距再次拉大!中國GDP跌到美國60%,到底是哪出問題了?

      混沌錄
      2026-04-05 16:44:05
      伊朗民眾組成人鏈保護發電廠和橋梁

      伊朗民眾組成人鏈保護發電廠和橋梁

      界面新聞
      2026-04-07 22:42:24
      交警提醒:轉向燈新規4月全面實施,不足3秒直接罰200元扣1分!

      交警提醒:轉向燈新規4月全面實施,不足3秒直接罰200元扣1分!

      復轉這些年
      2026-04-07 12:26:59
      岳西失蹤孩子案告破,樓上鄰居落網,提前踩點選盲區,親屬參與了

      岳西失蹤孩子案告破,樓上鄰居落網,提前踩點選盲區,親屬參與了

      天天熱點見聞
      2026-04-07 12:29:59
      太黑了!315晚會后,最先塌房的不是奶茶,也不是辣條,而是雞蛋

      太黑了!315晚會后,最先塌房的不是奶茶,也不是辣條,而是雞蛋

      小熊侃史
      2026-04-07 07:20:08
      伊朗稱部署雙聯裝導彈發射裝置 “打擊規模將翻倍”

      伊朗稱部署雙聯裝導彈發射裝置 “打擊規模將翻倍”

      財聯社
      2026-04-07 21:48:12
      特朗普稱若談判出現進展,將考慮改變對伊朗打擊行動

      特朗普稱若談判出現進展,將考慮改變對伊朗打擊行動

      界面新聞
      2026-04-07 23:26:45
      一個也不該拋棄---不僅救自己大兵,也救中國漁民

      一個也不該拋棄---不僅救自己大兵,也救中國漁民

      通往遠方的路
      2026-04-07 15:54:35
      因中國工人待遇問題,巴西將比亞迪列入“恥辱名單”

      因中國工人待遇問題,巴西將比亞迪列入“恥辱名單”

      互聯網大觀
      2026-04-07 15:43:15
      俄已經有三支主要的反俄武裝了  最大的一支有數萬人

      俄已經有三支主要的反俄武裝了 最大的一支有數萬人

      律法刑道
      2026-04-07 11:00:43
      特朗普威脅伊朗:“整個文明將消亡”

      特朗普威脅伊朗:“整個文明將消亡”

      界面新聞
      2026-04-07 20:22:23
      突發!美以襲擊 哈爾克島 伊朗:克制已結束

      突發!美以襲擊 哈爾克島 伊朗:克制已結束

      每日經濟新聞
      2026-04-07 20:26:13
      971萬對1616萬!幼兒園新生暴跌40%,2027年小學招生只剩50%——

      971萬對1616萬!幼兒園新生暴跌40%,2027年小學招生只剩50%——

      葉初七
      2026-04-07 11:02:01
      反詐老陳連續4年曬納稅證明:2025年收入42.3萬元,較2022年133.6萬元的總收入,其收入下降了超90萬元

      反詐老陳連續4年曬納稅證明:2025年收入42.3萬元,較2022年133.6萬元的總收入,其收入下降了超90萬元

      臺州交通廣播
      2026-04-07 18:46:55
      美國駐巴林使館建議在巴美國人就地避難

      美國駐巴林使館建議在巴美國人就地避難

      界面新聞
      2026-04-07 23:22:45
      鄭麗文已到達南京,國民黨一人口出狂言,不裝了,賴清德正式發聲

      鄭麗文已到達南京,國民黨一人口出狂言,不裝了,賴清德正式發聲

      DS北風
      2026-04-07 18:38:24
      39歲男子考研落榜后舉報復試第一,考生候考時,該考生曾被工作人員叫離座位,返回后手中持有文件夾并翻閱,華東師大回應:調查小組正在調查

      39歲男子考研落榜后舉報復試第一,考生候考時,該考生曾被工作人員叫離座位,返回后手中持有文件夾并翻閱,華東師大回應:調查小組正在調查

      觀威海
      2026-04-07 16:39:02
      宋志勇,明確為正部長級

      宋志勇,明確為正部長級

      界面新聞
      2026-04-07 20:19:05
      明天早上8點!全世界都盯著,誰先眨眼誰輸,美伊都被逼到墻角

      明天早上8點!全世界都盯著,誰先眨眼誰輸,美伊都被逼到墻角

      諦聽骨語本尊
      2026-04-07 15:24:24
      2026-04-07 23:35:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16549文章數 514854關注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      特朗普恐嚇4小時摧毀伊朗 伊朗稱"打穿"海法未見攔截

      頭條要聞

      特朗普恐嚇4小時摧毀伊朗 伊朗稱"打穿"海法未見攔截

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產

      財經要聞

      10萬億財政轉移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態體驗

      態度原創

      時尚
      藝術
      教育
      數碼
      公開課

      還是這些穿搭適合初春季節!外套不多買、常穿裙子,優雅舒適

      藝術要聞

      美麗風光看不盡

      教育要聞

      第一個「寫進政府工作報告」的春假,研學賽道加速分化

      數碼要聞

      榮耀官宣WIN系列游戲本:4月23日發布!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版