網易首頁 > 網易號 > 正文申請入駐

Anthropic 3個智能體輪班寫代碼，連續跑8小時不崩潰

2026-04-04 22:35:57　來源: 閃存獵手

北京舉報

分享至

一個 AI 寫代碼，寫到一半開始"失憶"；兩個 AI 協作，互相甩鍋說對方寫得爛；三個 AI 輪班，居然能連續肝 8 小時全棧開發——這是 Anthropic 工程師最近拿出的新玩法。

4 月 4 日，Anthropic 發布了一套多智能體協作框架（multi-agent harness），專門解決"AI 編程馬拉松"里的兩個老毛病：上下文丟失和任務半途而廢。不是讓單個模型硬撐，而是把活兒拆給三個角色：規劃師、生成師、質檢員。

為什么一個 AI 干不了長活兒

用過 Claude 寫代碼的人都知道，聊到第 50 輪左右，模型開始"眼神渙散"。不是算力不夠，是上下文窗口（context window）塞滿了——之前的對話、代碼、報錯信息像堆疊的快遞盒，把通道堵死。

常見的解法是上下文壓縮（compaction），把歷史對話精簡摘要。但 Anthropic 工程師發現，這會讓模型變得"謹小慎微"：它知道快觸頂了，于是提前收手，長任務反而做不完整。

更隱蔽的問題是自我評估偏差。AI 給自己寫的 UI 打分時，往往比人類寬松得多——"這個按鈕配色挺和諧的"——結果用戶看到實物直接沉默。

單個智能體的天花板，不是算力，是自我認知的盲區。

Anthropic 的解法很產品經理思維：不卷單個模型的極限，而是設計一套"輪班制"。三個智能體各司其職，交接時不是扔一堆聊天記錄，而是結構化的狀態文檔——下一位接班者能快速定位，不用從頭翻歷史。

三班倒是怎么運轉的

這套框架把開發流程切成三道工序：

規劃智能體（Planning Agent）負責拆解任務。拿到"做一個電商后臺"這種模糊需求，它輸出技術方案、文件結構、依賴清單——相當于開工前的圖紙會審。

生成智能體（Generation Agent）是主力碼農。它只認規劃師給的藍圖，埋頭寫代碼。寫完不自己拍板，把產物打包成"交付物"（artifact）。

評估智能體（Evaluation Agent）當質檢。它用預定義的評分標準（rubric）驗收，比如"按鈕對比度是否達標""API 響應是否小于 200ms"。不通過就打回，附帶具體修改意見。

關鍵設計在交接機制。規劃師下班時，不會把腦子里想的都倒給生成師——而是輸出一份結構化文檔：技術決策、待辦事項、風險點。生成師完工后，交付物里包含代碼、測試用例、已知缺陷。評估師的反饋又是下一輪規劃的輸入。

上下文在這里不是被壓縮，而是被"歸檔"——每個角色只讀自己需要的卷宗。

這套流程支持多輪迭代。Anthropic 的測試顯示，系統能穩定運行數小時，處理前端設計到后端部署的全棧任務。對比單智能體長會話，任務完成率顯著提升——具體數字未公開，但工程師提到"從頻繁中斷到可持續交付"。

為什么專門拆出一個"質檢員"

AI 給自己打分虛高，這事 Anthropic 早有觀察。設計類任務尤其明顯：模型容易陷入"自我陶醉"，把平庸的 UI 評成優秀。

評估智能體的獨立性是刻意設計的。它不參與代碼生成，只拿著評分表當"甲方"。評分標準可以定制——可以是設計規范文檔，也可以是性能基準測試。

這種分離有個額外好處：可解釋性。當生成師抱怨"憑什么打回"時，評估師能指著評分表逐條說理。雖然都是 AI，但角色對立制造了類似"代碼評審"的張力。

Anthropic 工程師在內部文檔里打了個比方：「讓同一個廚師又做菜又寫食評，和讓獨立美食評論家打分，結果必然不同。」

質檢員的存在，本質是給系統引入"外部視角"——盡管這個外部也是機器。

長時運行的工程細節

支撐數小時不間斷運行的，是一組底層機制。

上下文重置（context reset）是核心。每個智能體啟動時，不繼承前任的完整對話歷史，而是讀取結構化的"交接文檔"。這避免了上下文線性膨脹，也讓模型始終保持"清醒"——不會被幾十輪前的錯誤假設帶偏。

狀態持久化（state persistence）確保中斷后可恢復。如果任務跑到一半服務器掛了，重啟后能從最后一個檢查點繼續，不用從頭再來。

工具調用鏈（tool chaining）被嚴格管控。生成師調用代碼解釋器、瀏覽器、文件系統時，操作日志被完整記錄，評估師可以復盤"這行 bug 是怎么引入的"。

這些設計指向同一個目標：把"AI 編程"從聊天式的即興創作，變成可管理、可追蹤的工程流程。

和前代方案的區別

多智能體協作不是新概念，但 Anthropic 的實現有幾處差異化。

一是角色固定而非動態拆分。有些框架讓 AI 自己決定"我現在該當規劃師還是碼農"，結果角色切換頻繁，狀態混亂。Anthropic 選擇硬編碼三角色，降低協調成本。

二是交接物的結構化。不是扔一段自然語言總結，而是帶格式的技術文檔——類似人類團隊里的需求文檔、接口文檔、測試報告。

三是評估的強制性。生成師的產出必須經過評估師關卡，不能自我放行。這增加了延遲，但減少了"半成品上線"的風險。

Anthropic 提到，這套框架已在內部用于原型開發，覆蓋從 React 前端到 Python 后端的完整棧。工程師特別指出，前端設計任務受益最明顯——因為評估標準相對客觀（對比度、間距、響應式斷點），質檢員能有效約束生成師的"審美放飛"。

對開發者的實際意義

這套設計目前以研究形態發布，尚未集成到 Claude 的公開 API。但技術文檔已足夠詳細，第三方可以復現。

對普通用戶的直接價值有限——你沒法明天就雇三個 AI 輪班寫自己的 App。但它揭示了 Anthropic 的產品思路：不追求單點參數突破，而是把 AI 能力封裝成可組合的工程模塊。

更深遠的影響在生態層面。如果多智能體協作成為標準做法，開發工具鏈會被重塑。IDE 不再是對話窗口，而是"智能體調度臺"：查看哪個角色在值班、當前迭代輪次、歷史評估記錄。

調試方式也會變。現在的 AI 編程，出錯了只能翻聊天記錄猜原因。未來可能是調取評估師的質檢報告，看"第三輪迭代時性能評分驟降，對應哪次代碼變更"。

從"和 AI 聊天"到"管理 AI 團隊"，交互范式正在轉移。

另一個值得注意的點是成本結構。三智能體輪班，意味著同樣的任務要調用三次模型（規劃、生成、評估）。Anthropic 沒有披露具體開銷，但承認"增加了計算資源消耗"。這是換取可靠性的代價——和雇人類團隊一樣，分工細化帶來效率，也帶來管理成本。

行業里的同類探索

多智能體編程并非 Anthropic 獨家。OpenAI 的 Swarm、Google 的 Multi-Agent Orchestration、開源社區的 AutoGen 都在嘗試類似方向。

差異主要在協調機制。Swarm 強調動態任務分配，智能體根據當前狀態自選角色；AutoGen 支持更靈活的角色定義，但配置復雜度較高。Anthropic 的選擇是"做減法"——固定三角色、強制評估關卡、結構化交接——換取可預測性。

這種取舍符合其產品調性。Claude 一貫以"更可控"為賣點，相比 GPT 的創意奔放，更強調遵循指令和減少幻覺。三智能體框架延續了這一路線：不是讓 AI 更聰明，而是讓 AI 協作更可靠。

也有批評聲音。部分開發者認為固定角色限制了靈活性，"有些任務根本不需要規劃師，直接寫代碼更快"。Anthropic 的回應是框架支持配置化——可以關閉某個角色，但默認三班倒是經過驗證的"安全模式"。

技術文檔里的一個細節

Anthropic 發布的技術文檔中，有個容易被忽略的參數：評估智能體的評分表（rubric）支持人工覆蓋。

意思是，如果自動評估和人類判斷沖突，開發者可以介入調整標準。這保留了"人在回路"（human-in-the-loop）的接口——不是完全自動化的黑箱。

這個設計很產品經理。完全自動化的 AI 團隊是遠景，但現階段"AI 干活、人類把關"更務實。評估師的存在，其實是把"把關"環節也自動化了大部分，但留了一扇后門。

文檔里還提到一個邊界案例：當生成師和評估師陷入"改-打回-再改-再打回"的循環時，系統會觸發升級機制，由規劃師重新介入調整任務拆分。這類似于人類團隊里的" escalate 到管理層"。

這些細節說明，Anthropic 設計的不是三個獨立 AI，而是一個有反饋回路、有異常處理的組織系統。

開放問題

三智能體框架能跑通，建立在 Anthropic 對 Claude 能力的深度了解上。換成其他模型，同樣的角色分工是否有效？評估智能體的評分標準，遷移到不同技術棧時需要多少調整？

更長遠的疑問是：當 AI 能組成三人小隊，四人、五人的協作邊界在哪里？規劃師是否需要再拆出"架構師"和"項目經理"？評估師要不要分化出"安全審計"和"用戶體驗"兩個專職？

Anthropic 沒有給出答案。技術文檔的結尾很克制，只提到"持續優化角色定義和交接協議"——換句話說，三班倒只是起點，不是終局。

如果這套框架開源，你會先用它做什么：是讓三個 AI 輪班維護自己的遺留代碼，還是賭一把，看它們能不能獨立交付一個完整產品？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

別學Claude Code了！OMC五大「臥槽」功能解析：自動化開發軍團來了

鈦媒體APP 2026-04-01 11:09:53
0 跟貼 0
卡帕西都整破防了：AI Coding沒門檻，可部署環節真嗯啊的難

量子位 2026-03-27 12:12:46
4 跟貼 4

告別昂貴賬單，Token直降68%，多智能體動態協作編程來了

機器之心Pro 2026-04-07 13:16:40
0 跟貼 0

AI編程“屎山危機”來了？代碼生成過載，人工審核跟不上

智東西 2026-04-07 22:53:06
0 跟貼 0
7個頂級AI集體撒謊，為救“同伴”篡改文件、偷運數據

鈦媒體APP 2026-04-07 11:01:25
4 跟貼 4

Meta員工空轉AI只為浪費token！燒的多掙的多，日均消耗2萬億

量子位 2026-04-07 17:13:17
10 跟貼 10

壞了，我成AI的乙方了！Anthropic論文爆火，誰還敢無腦Copy？

新智元 2026-04-07 20:12:55
0 跟貼 0
2026企業AI大考：別秀PPT，亮出你的「用蝦」真功夫

36氪 2026-04-07 20:54:15
0 跟貼 0

MiniMax來承包你的桌面了-4

機器之心Pro 2026-01-20 20:19:42
0 跟貼 0
支持遠程操控和通用GUI操作3

機器之心Pro 2026-03-02 13:36:13
0 跟貼 0
內容投毒，工作埋坑，打工人開始用「魔法」對抗Skill煉化？

雷科技 2026-04-07 21:42:51
0 跟貼 0
玄甲（AgentWard）全鏈路防御操作系統正式發布

機器之心Pro 2026-04-07 13:58:00
0 跟貼 0
科技巨頭集體押注自研芯，AI芯片戰場正加速向推理端遷移

華爾街見聞官方 2026-04-07 21:48:40
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
OpenAI又一關鍵高管離職！曾為GPT-4o注入靈魂

智東西 2026-04-08 00:16:16
4 跟貼 4
AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0
河南小伙，被中東大佬下300輛戰車模型，全村都上了！

乘風笑浪 2026-04-06 14:56:09
2 跟貼 2
《十年不給升職，我帶走了全部代碼》短劇免費在線觀看完整版

短劇影視達人2025 2026-04-06 11:42:19
37 跟貼 37
“Claude Code更新廢了”！思考深度降67%，無法勝任復雜工程任務

量子位 2026-04-07 14:07:07
2 跟貼 2
張雪說要革掉一些不上進的人

點時新聞 2026-04-07 14:50:35
86 跟貼 86
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
毛新宇攜家人到楊開慧烈士陵園祭掃

政知新媒體 2026-04-05 08:48:13
2675 跟貼 2675
“祖先給的特權”，河南網友稱祖墳在景區祭祖免票，景區回應：沒過檢票口，一般是附近住戶的祖墳

大風新聞 2026-04-06 15:06:12
2294 跟貼 2294
鬼手想點誰就點誰？LaSM讓GUI智能體把注意力「收回來」

機器之心Pro 2026-04-07 14:27:35
0 跟貼 0
Claude Code一周份額，一天燒完一半？有人逆向工程發現了7個bug

機器之心Pro 2026-04-07 17:34:08
0 跟貼 0
公司，開始變得多余

版面之外 2026-04-08 00:09:49
0 跟貼 0
廢除漢字幾十年后，韓語終于被確診“中國拼音”，韓國人又破防了

新一說史 2026-04-07 20:53:00
12 跟貼 12
深度剖析巧戰破局，戰術迭代，耗敵制勝

徐Toso 2026-04-07 02:06:21
0 跟貼 0
為什么說吃喝嫖賭才是底層代碼？

喬巴是只狗 2026-04-07 10:03:27
0 跟貼 0
廣州外賣騎手去年平均薪酬15萬，快遞員、貨車司機收入下降

南方都市報 2026-04-07 18:12:09
486 跟貼 486
男子和小老外結婚三年，開始健身女友這樣理解，婆婆秒接受指令！

搞笑大蘑菇 2026-04-05 13:19:09
0 跟貼 0
面壁智能完成新一輪融資,26年累計融資超10億,躋身基模獨角獸行列

機器之心Pro 2026-04-07 13:19:53
0 跟貼 0
火車上拍到的一幕，兩個女人拿著秘密文件，去蹲著研究去了

房東生活看看 2026-04-04 13:55:39
0 跟貼 0
美媒：“無法無天的世界代價高昂”

參考消息 2026-04-07 16:50:06
69 跟貼 69
便衣聽到指令立刻變換姿勢

美鹿莎 2026-04-07 01:32:58
0 跟貼 0
1020的代碼

表弟看車 2026-04-06 18:12:51
0 跟貼 0
農民養老金專題座談會在京召開專家建議提高高齡農民基礎養老金

中國青年報 2026-04-07 19:52:06
106 跟貼 106
趙心童創“三冠”新紀錄，英媒直呼：其統治力“令對手膽寒”

環球網資訊 2026-04-07 06:56:17
137 跟貼 137
業內人士談上海二手房大幅跳價：此時漲價，未必是最優解

中國能源網 2026-04-07 11:47:05
337 跟貼 337
蒸餾同事skill火了，我想蒸餾老板，可以嗎？

混沌學園官方 2026-04-07 20:18:44
0 跟貼 0

閃存獵手

全網蹲好價的野生捕手，算力與羊毛都不可辜負。

905文章數 6關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

游戲

房產

家居

時尚

手機 / 數碼

房產 / 家居

Anthropic 3個智能體輪班寫代碼，連續跑8小時不崩潰

為什么一個 AI 干不了長活兒

三班倒是怎么運轉的

為什么專門拆出一個"質檢員"

長時運行的工程細節

和前代方案的區別

對開發者的實際意義

行業里的同類探索

技術文檔里的一個細節

開放問題

滿嘴謊言！OpenAI奧特曼黑料大起底

特朗普：伊朗人愿為自由承受轟炸

特朗普：伊朗人愿為自由承受轟炸

阿韋洛亞：諾伊爾是本場最佳；我們會帶著必勝的信念前往德國

女首富陳麗華離世 被曝生前已分好遺產

10萬億財政轉移支付，被誰拿走了？

不止是大 極狐首款MPV問道V9靜態體驗

態度原創

6歲女孩確診性早熟！醫生：小心這些“營養品”和“餐具”

PlayStation全新炸裂計劃公開！利好所有玩家

重磅！三亞擬出安居房新政！

雅致愜意 感知生活之美

120元和120分鐘，哪個更奢侈？

女首富陳麗華離世被曝生前已分好遺產

不止是大極狐首款MPV問道V9靜態體驗

雅致愜意感知生活之美