網易首頁 > 網易號 > 正文申請入駐

從“造工具”到“用倉庫”：RepoMaster，駕馭GitHub解決復雜任務的智能體大師！

2025-08-29 16:34:25　來源: AI科技評論

廣東舉報

分享至

RepoMaster旨在讓AI智能體像人類專家一樣，解決真實世界中的復雜開發任務。

作者丨QuantaAlpha

GitHub 上托管著超過5.2億個代碼倉庫，形成了一個龐大且持續增長的開源生態系統。然而，對于開發者而言，這片富饒的“代碼海洋”也常常意味著巨大的挑戰：我們都曾有過這樣的經歷——在GitHub上找到一個看似完美的項目，滿懷希望地 git clone，卻旋即陷入環境配置、依賴沖突和代碼理解的泥潭。過時的文檔、復雜的內部邏輯和隱藏的入口點，常常讓“復用”的初衷演變成一場耗時費力的“考古”。

與主流社區致力于“為AI智能體開發更多專用工具”的思路不同，我們認為，真正能被轉化的工具并不匱乏，解決智能體落地應用的挑戰并非需要耗費大量人力、時間來專門設計和制造工具，而是如何讓智能體學會駕馭這個已經存在的、海量的代碼世界。

因此，中科院、清華大學、北京大學、新加坡國立大學等機構的研究者，與前沿開源學術組織 QuantaAlpha 及階躍星辰姜大昕團隊聯合，共同推出了RepoMaster，其核心理念并非“造輪子”，而是“找到并用好輪子”——它能夠根據任務需求，首先利用深度搜索技術在海量開源項目中定位并篩選出最相關的代碼倉庫，然后將這個倉庫視為一個潛在的、可以直接調用的強大工具。RepoMaster 旨在讓AI智能體像人類專家一樣，能夠自主探索和理解陌生的代碼庫，從中快速提煉核心功能并加以利用；然后，它基于這份理解，自主地規劃任務、編寫和執行代碼，并根據環境反饋進行動態調整，從而以最小的適配成本，解決真實世界中的復雜開發任務。

論文標題：RepoMaster: Autonomous Exploration and Understanding of GitHub Repositories for Complex Task Solving
論文鏈接:https://arxiv.org/pdf/2505.21577
GitHub: https://github.com/QuantaAlpha/RepoMaster

RepoMaster核心框架：從深度理解到自主執行的三步閉環

RepoMaster的工作流程始于動態搜索與選擇：它首先根據任務需求，利用深度搜索技術在GitHub上篩選并鎖定最合適的代碼倉庫。在此之后，RepoMaster的核心優勢便體現于其三階段閉環框架，該框架系統性地解決了AI智能體在面對陌生代碼庫時“看不懂、用不來”的根本難題，從而實現高效、自主的任務執行。

第一階段：層級化倉庫分析—— 從全局到核心

面對陌生的代碼庫，RepoMaster首先進行靜態的、結構感知的分析，為后續探索建立一幅“導航地圖”。

混合結構化倉庫映射:通過AST解析，RepoMaster構建出三種互補視圖來描繪代碼庫全貌：
?層次化代碼樹 (HCT):揭示代碼的包、模塊、類、函數間的層級關系。
?函數調用圖 (FCG):描繪函數間的調用關系，追蹤程序脈絡。
?模塊依賴圖 (MDG):理清模塊間的導入依賴，洞察項目架構。
核心組件識別:RepoMaster獨創了一套多維度評分機制（綜合依賴度、復雜度、Git更新頻率等），從全局視圖中精準定位出倉庫最關鍵的核心模塊與類，為后續探索提供焦點。

第二階段：自主探索與執行 (Autonomous Exploration & Execution) —— 從靜態地圖到動態導航

有了結構化的“地圖”和初始上下文，RepoMaster便開始了任務驅動的動態探索與執行循環。

上下文感知的代碼探索 (Context-aware Code Exploration):RepoMaster配備了一套強大的探索工具集，允許智能體：
?精細化代碼查看:按需查看任意文件、類或函數的具體實現。
?依賴分析:沿著函數調用圖（FCG）和模塊依賴圖（MDG）追溯調用鏈和依賴路徑。
?代碼搜索:通過關鍵詞快速定位相關代碼片段。
基于反饋的交互式執行 (Interactive Feedback-based Execution):探索與執行并非線性序列，而是一個緊密交織的閉環。智能體可以靈活地在編寫代碼、查看文件、分析日志和追蹤依賴之間切換，并根據執行結果（成功或失敗）的反饋，實時調整下一步的行動策略，實現“邊做邊學、邊學邊做”。

第三階段：高效信息篩選—— 為LLM上下文“減負”

為在有限的token窗口內進行高效的多輪交互，RepoMaster采用了一套多層次信息篩選策略，確保每一輪交互都聚焦于高價值信息：

代碼減負:對源代碼，僅提取與任務相關的AST子樹。
文檔減負:對大型文檔，將其分塊并根據任務相關性檢索最關鍵的片段。
日志減負:對執行日志，模仿人類調試習慣，只保留包含關鍵錯誤信息的首尾部分，過濾掉冗長的中間輸出。

實驗評估：效果與效率的雙重飛躍

為了驗證RepoMaster的實力，我們選用了兩大極具挑戰性的評測基準，二者均摒棄了傳統的“從零生成代碼”模式，轉而考察智能體直接在現有代碼庫上解決復雜任務的能力。第一個是MLE-R，它改編自 OpenAI 的 MLE-Bench，將評測范式從“從零寫代碼”轉變為“復用GitHub項目解決機器學習任務”。第二個是我們全新構建的GitTaskBench，它將這一理念擴展到更廣泛的真實世界任務（如老照片修復、語音降噪等），并開創性地引入了交付質量（Task Pass Rate）作為核心指標，旨在評測AI智能體端到端“交付成果”而非僅僅“跑通代碼”的能力。

性能全面超越:無論是在MLE-R還是GitTaskBench上，RepoMaster的表現都遠超OpenHands和SWE-Agent等主流框架。以GitTaskBench為例，在Claude 3.5模型的驅動下，RepoMaster將最高任務成功率從40.74%提升至62.96%，實現了跨越式增長。
效率大幅領先:更令人印象深刻的是，RepoMaster在取得優異性能的同時，展現了極高的效率。在GitTaskBench上，RepoMaster的token消耗量僅為SWE-Agent的約57%，極大地降低了使用成本。
消融實驗驗證核心組件有效性:通過逐一移除核心組件，實驗證明了層級化分析、代碼探索和信息篩選三大模塊對于性能的決定性作用。移除任何一個組件都會導致性能顯著下降，驗證了RepoMaster設計的科學性與完整性。

案例分析：直觀對比

在一個復雜的3D姿態估計任務中，基線智能體或因無效的試錯而失敗，或因缺乏對倉庫的整體理解而偏離核心算法。相比之下，RepoMaster憑借其結構化分析能力，迅速鎖定了關鍵組件，高效地完成了任務，直觀地展示了其在解決真實世界復雜問題上的優勢。

結論與展望

RepoMaster的提出，不僅是性能指標上的突破，更重要的是，它為AI智能體如何有效利用龐大的人類代碼遺產庫指明了一條清晰可行的道路。它證明了將開源倉庫被有效利用后能被視為可組合、可復用的“工具”，而非從零開始的“負擔”，是解決復雜現實世界任務的強大范式。

未來，RepoMaster的設計理念有望推動一個更具可持續性和協作性的AI-for-code生態系統，為實現多項目的大規模協同、軟件缺陷的自動化修復，乃至向硬件描述語言、機器人中間件等領域的遷移奠定基礎。通過讓AI智能體真正學會“站在巨人的肩膀上”，RepoMaster正在加速人機協作的良性循環，推動整個開源世界的持續創新與進步。

關于 QuantaAlpha
?QuantaAlpha 成立于 2025 年 4 月，由來自清華、北大、中科院、CMU、港科大、中科大等學校的教授、博士后、博士與碩士組成。我們的使命是探索智能的“量子”世界，引領智能體研究的“阿爾法”前沿 —— 從CodeAgent到自進化智能，再到金融、醫療等跨領域專用智能體，致力于重塑人工智能的邊界。

? 2025 年，我們將在CodeAgent（真實世界任務的端到端自主執行）、DeepResearch、Agentic Reasoning/Agentic RL、自進化與協同學習等方向持續產出高質量研究成果，歡迎對我們方向感興趣的同學加入我們！

團隊主頁：https://quantaalpha.github.io/

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.