![]()
新智元報道
編輯:元宇
【新智元導讀】你開會時,AI竟在偷偷升級?伯克利等四校開源MetaClaw,讓Agent趁你開會、離席、睡覺時持續進化,直接打破「上線即凍結」這條行業鐵律。
又到了每周例會時間。
你的電腦桌面日歷上寫著「周會14:00-15:30」,屏幕鎖定。
與此同時,一個后臺AI進程確認你暫時不會回來,便自動啟動了訓練窗口:
上午剛犯過的錯誤被拆解成規則注入系統提示詞,隨后云端LoRA微調開始接管。
90分鐘后,等你散會回到工位,面前的Agent已經完成了一次自我迭代。
這就是開源MetaClaw框架所實現的功能:
讓一個已經在線服務的Agent,在不中斷服務的前提下持續從失敗中進化。
這項研究打破了「上線即凍結」這條Agent行業默認規則。
MetaClaw框架由北卡羅來納大學教堂山分校、卡內基梅隆大學、加州大學圣克魯茲分校與加州大學伯克利分校聯合推出。
![]()
https://arxiv.org/pdf/2603.17187
開源即登頂。
![]()
MetaClaw剛剛發布便霸榜HuggingFace,它所代表的「Agent持續進化」理念,已經引起了全球AI研究者和開發者的高度關注。
最能體現其工具鏈成熟度的,是它極具破壞性的部署門檻。
官方倉庫展示的控制臺操作顯示,其龐大的「快慢雙循環」機制與OMLS調度器已經被粗暴地簡化為了兩條命令。
![]()
![]()
開發者只需輸入「metaclaw setup」完成一次性配置,接著輸入「metaclaw start --daemon」,系統就會作為一個后臺守護進程靜默拉起。
這種開箱即用的封裝,徹底粉碎了學術模型與實際落地之間的壁壘。
打破Agent「上線即凍結」的結構性困境
當前絕大多數Agent在能力迭代上面臨這樣一個殘酷現狀:訓練一次、部署上線、長期不變。
但現實世界卻是在不斷變化的:任務需求在漂移,工作流程在修改,工具鏈與組織規則也在不斷更新。
在OpenClaw這類平臺上,一個Agent可能需要同時連接20多個消息渠道。
任務分布每小時都在變化,但Agent的能力卻仍停留在出廠時刻。
表面上看,行業內已有不少修補方案,例如記錄軌跡、構建靜態技能庫或進行在線強化學習。
但這些方案往往只解決了部分問題:
只存儲原始軌跡而不提煉可遷移知識,會導致信息冗長且碎片化;
靜態技能庫與權重優化彼此脫節;
重新訓練Agent通常意味著必須停機,導致在線服務與持續進化無法兼得。
這正是「靜態Agent」所面臨的現實矛盾:它必須24小時在線,但面對的世界卻在不斷變化。
無法適應新任務分布的Agent,哪怕初始能力再強,也容易在長期的實際應用中顯得刻板。
兩條腿走路
快適配與慢進化
為了打破「不停機與持續進化」之間的沖突,MetaClaw將更新機制拆分為兩條時間尺度完全不同的回路。
![]()
MetaClaw的系統架構圖中展示了MetaClaw的「快慢雙循環」學習機制。左側顯示OMLS調度器如何監控用戶的Google Calendar和鍵鼠閑置狀態,右側展示系統如何分離支持集與查詢集,進行技能提取(快適配)與LoRA權重微調(慢進化)。
第一條路徑,是技能驅動的快速適配(Skill-driven fast adaptation)。
當Agent在任務中失敗時,系統會將失敗軌跡交給另一個大模型進行分析,提煉出可復用的行為規則,并立刻將其注入系統提示詞。
這個過程不修改模型權重,不中斷服務,且能立即生效。
論文中列舉了典型的高頻規則:統一時間格式、執行高風險文件操作前先備份、嚴格遵循命名規范。
更重要的是,這些規則并非綁定于單一任務的補丁,而是跨任務的可遷移知識。
一次關于時間格式的糾錯,能夠提升后續所有涉及時間處理任務的穩定性。
第二條路徑,是機會式策略優化(Opportunistic policy optimization)。
在用戶處于不活躍狀態時,系統會結合過程獎勵模型(PRM)和LoRA進行基于梯度的強化學習(RL)權重更新。
前者如同戰術上的快速止血,后者則是戰略上的能力固化。
為了將這兩者有機結合,MetaClaw引入了一個核心設計:支持集與查詢集分離,以及嚴格的技能版本控制。
如果某條失敗樣本已經被新提取的規則修復,系統在強化學習階段繼續使用該樣本就會導致「陳舊獎勵污染」(stale reward contamination):模型會為一個已經解決的問題繼續受罰。
MetaClaw的做法是為軌跡打上技能版本號,技能庫升級后便清理舊版本的無效樣本,只保留新技能生效后的數據進入RL訓練。
這在本質上實現了「記憶」與「進化」的真正統一。
利用碎片時間訓練
OMLS調度器
模型訓練需要時間與算力,那么MetaClaw如何做到讓用戶幾乎無感?
答案在于其設計的機會式元學習調度器(OMLS)。
OMLS專門監控三類信號:預設的睡眠時段、系統層面的鍵盤鼠標閑置狀態、以及Google Calendar的日程占用情況。
只要觸發任何一個表明用戶暫時離開的信號,訓練窗口就會自動打開。
訓練器支持隨時暫停與繼續,這意味著即便是用戶離開幾分鐘的零碎時間,也能被轉化為AI持續訓練的時間窗口。
過去,AI的升級往往是一次集中式的工程,需要停服、重訓、切換版本再重新上線。
MetaClaw則將人類碎片化的空閑時間,變成了AI持續進化的微型車間。
此外,該框架采用代理架構與云端訓練接口,不強制要求昂貴的本地GPU計算資源,可以直接對接現有的個人Agent和多種模型平臺,支持一鍵部署與持續元學習。
補齊過程性知識
弱模型的數據躍升
這套框架的實際效果在測試數據中得到了直接驗證。
論文團隊構建了MetaClaw-Bench基準測試,包含934道題目,模擬了44個工作日的任務流,專門評估Agent在連續任務流中能否越用越強。
測試結果顯示,在僅進行行為規則注入的情況下,被評測模型的相對準確率最高提升可達32.2%。
在體現真實執行力的端到端任務完成率上,被評測模型從2.0%提升至16.5%,實現了8.25倍的增長。
![]()
在另一項包含23個階段的AutoResearchClaw自主研究流水線(涵蓋文獻綜述、實驗設計、代碼生成、結果分析至論文寫作)中,即便不進行權重訓練而僅依賴技能注入,系統的綜合魯棒性也提升了18.3%,階段重試率下降24.8%,迭代優化輪次減少了40%。
測試數據揭示了一個更關鍵的現象:MetaClaw首先是一個Agent持續進化框架,而且對弱底模驅動的Agent增益尤其明顯。
論文分析指出,較弱模型更缺少的是隱式的過程性知識:也就是那些具體的操作規則、執行習慣和格式紀律,而技能庫恰恰把這些知識顯式寫了出來,因此僅靠skill注入,就能帶來更大的準確率提升。
相比之下,GPT-5.2由于起點更高,可提升空間更小,更容易出現天花板效應。
但論文也強調,skills注入主要提升的是規則遵循和部分執行質量,不足以穩定解鎖高強度任務中的端到端完成率。
真正讓被評測模型實現了8.25倍增長的,是skills與權重級策略優化結合后的完整MetaClaw框架。
Agent進化時代的范式轉移
當然,MetaClaw仍存在一定邊界。
論文團隊指出,目前的基準測試在模擬環境中進行,并不完全等同于復雜的生產環境;空閑窗口的檢測也依賴于特定的用戶系統配置。
但MetaClaw明確指向了一個范式轉移的方向:Agent的生命周期正在從「訓練完成后交付」向「交付之后繼續生長」演進。
其GitHub倉庫的持續更新(包括代理式接入、多客戶端支持、跨會話記憶等工程化進展)表明,這套理念正在向可用的工具鏈快速轉化。
把它放回行業坐標里看,意味就更大了。
對比近期普林斯頓團隊提出的OpenClaw-RL(傾向于將所有交互信號直接用于訓練),MetaClaw選擇了「快規則加慢權重」的分層策略。
前者追求立即糾偏,后者追求長期固化,兩者代表了對下一代Agent演進路徑的不同工程思考。
決定未來模型能力上限的,將不再僅僅是出廠時的參數規模,更是其在真實使用場景中持續轉化經驗并自我迭代的閉環機制。
你的日歷、你的鍵鼠狀態、你的每一次離座,都有可能成為AI下一次能力升級的契機。
真正的智能演化,才剛剛在工作現場拉開序幕。
參考資料:
https://arxiv.org/abs/2603.17187
https://github.com/aiming-lab/MetaClaw
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.