<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Anthropic 3個智能體輪班寫代碼,連續跑8小時不崩潰

      0
      分享至


      一個 AI 寫代碼,寫到一半開始"失憶";兩個 AI 協作,互相甩鍋說對方寫得爛;三個 AI 輪班,居然能連續肝 8 小時全棧開發——這是 Anthropic 工程師最近拿出的新玩法。

      4 月 4 日,Anthropic 發布了一套多智能體協作框架(multi-agent harness),專門解決"AI 編程馬拉松"里的兩個老毛病:上下文丟失和任務半途而廢。不是讓單個模型硬撐,而是把活兒拆給三個角色:規劃師、生成師、質檢員。

      為什么一個 AI 干不了長活兒

      用過 Claude 寫代碼的人都知道,聊到第 50 輪左右,模型開始"眼神渙散"。不是算力不夠,是上下文窗口(context window)塞滿了——之前的對話、代碼、報錯信息像堆疊的快遞盒,把通道堵死。

      常見的解法是上下文壓縮(compaction),把歷史對話精簡摘要。但 Anthropic 工程師發現,這會讓模型變得"謹小慎微":它知道快觸頂了,于是提前收手,長任務反而做不完整。

      更隱蔽的問題是自我評估偏差。AI 給自己寫的 UI 打分時,往往比人類寬松得多——"這個按鈕配色挺和諧的"——結果用戶看到實物直接沉默。

      單個智能體的天花板,不是算力,是自我認知的盲區。

      Anthropic 的解法很產品經理思維:不卷單個模型的極限,而是設計一套"輪班制"。三個智能體各司其職,交接時不是扔一堆聊天記錄,而是結構化的狀態文檔——下一位接班者能快速定位,不用從頭翻歷史。

      三班倒是怎么運轉的

      這套框架把開發流程切成三道工序:

      規劃智能體(Planning Agent)負責拆解任務。拿到"做一個電商后臺"這種模糊需求,它輸出技術方案、文件結構、依賴清單——相當于開工前的圖紙會審。

      生成智能體(Generation Agent)是主力碼農。它只認規劃師給的藍圖,埋頭寫代碼。寫完不自己拍板,把產物打包成"交付物"(artifact)。

      評估智能體(Evaluation Agent)當質檢。它用預定義的評分標準(rubric)驗收,比如"按鈕對比度是否達標""API 響應是否小于 200ms"。不通過就打回,附帶具體修改意見。

      關鍵設計在交接機制。規劃師下班時,不會把腦子里想的都倒給生成師——而是輸出一份結構化文檔:技術決策、待辦事項、風險點。生成師完工后,交付物里包含代碼、測試用例、已知缺陷。評估師的反饋又是下一輪規劃的輸入。

      上下文在這里不是被壓縮,而是被"歸檔"——每個角色只讀自己需要的卷宗。

      這套流程支持多輪迭代。Anthropic 的測試顯示,系統能穩定運行數小時,處理前端設計到后端部署的全棧任務。對比單智能體長會話,任務完成率顯著提升——具體數字未公開,但工程師提到"從頻繁中斷到可持續交付"。

      為什么專門拆出一個"質檢員"

      AI 給自己打分虛高,這事 Anthropic 早有觀察。設計類任務尤其明顯:模型容易陷入"自我陶醉",把平庸的 UI 評成優秀。

      評估智能體的獨立性是刻意設計的。它不參與代碼生成,只拿著評分表當"甲方"。評分標準可以定制——可以是設計規范文檔,也可以是性能基準測試。

      這種分離有個額外好處:可解釋性。當生成師抱怨"憑什么打回"時,評估師能指著評分表逐條說理。雖然都是 AI,但角色對立制造了類似"代碼評審"的張力。

      Anthropic 工程師在內部文檔里打了個比方:「讓同一個廚師又做菜又寫食評,和讓獨立美食評論家打分,結果必然不同。」

      質檢員的存在,本質是給系統引入"外部視角"——盡管這個外部也是機器。

      長時運行的工程細節

      支撐數小時不間斷運行的,是一組底層機制。

      上下文重置(context reset)是核心。每個智能體啟動時,不繼承前任的完整對話歷史,而是讀取結構化的"交接文檔"。這避免了上下文線性膨脹,也讓模型始終保持"清醒"——不會被幾十輪前的錯誤假設帶偏。

      狀態持久化(state persistence)確保中斷后可恢復。如果任務跑到一半服務器掛了,重啟后能從最后一個檢查點繼續,不用從頭再來。

      工具調用鏈(tool chaining)被嚴格管控。生成師調用代碼解釋器、瀏覽器、文件系統時,操作日志被完整記錄,評估師可以復盤"這行 bug 是怎么引入的"。

      這些設計指向同一個目標:把"AI 編程"從聊天式的即興創作,變成可管理、可追蹤的工程流程。

      和前代方案的區別

      多智能體協作不是新概念,但 Anthropic 的實現有幾處差異化。

      一是角色固定而非動態拆分。有些框架讓 AI 自己決定"我現在該當規劃師還是碼農",結果角色切換頻繁,狀態混亂。Anthropic 選擇硬編碼三角色,降低協調成本。

      二是交接物的結構化。不是扔一段自然語言總結,而是帶格式的技術文檔——類似人類團隊里的需求文檔、接口文檔、測試報告。

      三是評估的強制性。生成師的產出必須經過評估師關卡,不能自我放行。這增加了延遲,但減少了"半成品上線"的風險。

      Anthropic 提到,這套框架已在內部用于原型開發,覆蓋從 React 前端到 Python 后端的完整棧。工程師特別指出,前端設計任務受益最明顯——因為評估標準相對客觀(對比度、間距、響應式斷點),質檢員能有效約束生成師的"審美放飛"。

      對開發者的實際意義

      這套設計目前以研究形態發布,尚未集成到 Claude 的公開 API。但技術文檔已足夠詳細,第三方可以復現。

      對普通用戶的直接價值有限——你沒法明天就雇三個 AI 輪班寫自己的 App。但它揭示了 Anthropic 的產品思路:不追求單點參數突破,而是把 AI 能力封裝成可組合的工程模塊。

      更深遠的影響在生態層面。如果多智能體協作成為標準做法,開發工具鏈會被重塑。IDE 不再是對話窗口,而是"智能體調度臺":查看哪個角色在值班、當前迭代輪次、歷史評估記錄。

      調試方式也會變。現在的 AI 編程,出錯了只能翻聊天記錄猜原因。未來可能是調取評估師的質檢報告,看"第三輪迭代時性能評分驟降,對應哪次代碼變更"。

      從"和 AI 聊天"到"管理 AI 團隊",交互范式正在轉移。

      另一個值得注意的點是成本結構。三智能體輪班,意味著同樣的任務要調用三次模型(規劃、生成、評估)。Anthropic 沒有披露具體開銷,但承認"增加了計算資源消耗"。這是換取可靠性的代價——和雇人類團隊一樣,分工細化帶來效率,也帶來管理成本。

      行業里的同類探索

      多智能體編程并非 Anthropic 獨家。OpenAI 的 Swarm、Google 的 Multi-Agent Orchestration、開源社區的 AutoGen 都在嘗試類似方向。

      差異主要在協調機制。Swarm 強調動態任務分配,智能體根據當前狀態自選角色;AutoGen 支持更靈活的角色定義,但配置復雜度較高。Anthropic 的選擇是"做減法"——固定三角色、強制評估關卡、結構化交接——換取可預測性。

      這種取舍符合其產品調性。Claude 一貫以"更可控"為賣點,相比 GPT 的創意奔放,更強調遵循指令和減少幻覺。三智能體框架延續了這一路線:不是讓 AI 更聰明,而是讓 AI 協作更可靠。

      也有批評聲音。部分開發者認為固定角色限制了靈活性,"有些任務根本不需要規劃師,直接寫代碼更快"。Anthropic 的回應是框架支持配置化——可以關閉某個角色,但默認三班倒是經過驗證的"安全模式"。

      技術文檔里的一個細節

      Anthropic 發布的技術文檔中,有個容易被忽略的參數:評估智能體的評分表(rubric)支持人工覆蓋。

      意思是,如果自動評估和人類判斷沖突,開發者可以介入調整標準。這保留了"人在回路"(human-in-the-loop)的接口——不是完全自動化的黑箱。

      這個設計很產品經理。完全自動化的 AI 團隊是遠景,但現階段"AI 干活、人類把關"更務實。評估師的存在,其實是把"把關"環節也自動化了大部分,但留了一扇后門。

      文檔里還提到一個邊界案例:當生成師和評估師陷入"改-打回-再改-再打回"的循環時,系統會觸發升級機制,由規劃師重新介入調整任務拆分。這類似于人類團隊里的" escalate 到管理層"。

      這些細節說明,Anthropic 設計的不是三個獨立 AI,而是一個有反饋回路、有異常處理的組織系統。

      開放問題

      三智能體框架能跑通,建立在 Anthropic 對 Claude 能力的深度了解上。換成其他模型,同樣的角色分工是否有效?評估智能體的評分標準,遷移到不同技術棧時需要多少調整?

      更長遠的疑問是:當 AI 能組成三人小隊,四人、五人的協作邊界在哪里?規劃師是否需要再拆出"架構師"和"項目經理"?評估師要不要分化出"安全審計"和"用戶體驗"兩個專職?

      Anthropic 沒有給出答案。技術文檔的結尾很克制,只提到"持續優化角色定義和交接協議"——換句話說,三班倒只是起點,不是終局。

      如果這套框架開源,你會先用它做什么:是讓三個 AI 輪班維護自己的遺留代碼,還是賭一把,看它們能不能獨立交付一個完整產品?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      陳麗華66歲兒子趙勇擔任富華國際集團總裁,是陳麗華和前夫所生

      陳麗華66歲兒子趙勇擔任富華國際集團總裁,是陳麗華和前夫所生

      觀魚聽雨
      2026-04-07 17:58:37
      廣東一家制衣廠僅有一位男員工,百余名女同事圍著輪流投喂呵護

      廣東一家制衣廠僅有一位男員工,百余名女同事圍著輪流投喂呵護

      搗蛋窩
      2026-04-07 13:22:20
      社保基金會:堅決擁護黨中央決定

      社保基金會:堅決擁護黨中央決定

      新京報
      2026-04-07 21:41:14
      85歲陳麗華去世,巨額遺產分配公道,遲重瑞已放棄

      85歲陳麗華去世,巨額遺產分配公道,遲重瑞已放棄

      無處遁形
      2026-04-07 21:08:12
      “還真把自己當盤菜了”,北京職高女被全網嘲笑,含金量0人買單

      “還真把自己當盤菜了”,北京職高女被全網嘲笑,含金量0人買單

      妍妍教育日記
      2026-04-06 09:15:12
      971萬對1616萬!幼兒園新生暴跌40%,2027年小學招生只剩50%——

      971萬對1616萬!幼兒園新生暴跌40%,2027年小學招生只剩50%——

      葉初七
      2026-04-07 11:02:01
      李小林被查!鐵血軍魂不許玷污一聲驚雷,又一只“老虎”應聲落馬

      李小林被查!鐵血軍魂不許玷污一聲驚雷,又一只“老虎”應聲落馬

      歸史
      2026-04-07 23:08:14
      時速超300!鄭麗文體驗大陸高鐵速度

      時速超300!鄭麗文體驗大陸高鐵速度

      叮當當科技
      2026-04-07 18:47:11
      美股跌幅擴大,納斯達克100指數跌幅擴大至1.5%

      美股跌幅擴大,納斯達克100指數跌幅擴大至1.5%

      每日經濟新聞
      2026-04-07 23:07:05
      蘇萊曼尼親屬在美被捕的新聞,揭開了“離岸愛國”的內幕

      蘇萊曼尼親屬在美被捕的新聞,揭開了“離岸愛國”的內幕

      清書先生
      2026-04-07 17:40:31
      重磅!慢特病新規4月1日實施:13種病報銷比例高達95%

      重磅!慢特病新規4月1日實施:13種病報銷比例高達95%

      老特有話說
      2026-04-07 20:47:38
      因中國工人待遇問題,巴西將比亞迪列入“恥辱名單”

      因中國工人待遇問題,巴西將比亞迪列入“恥辱名單”

      互聯網大觀
      2026-04-07 15:43:15
      “中國紫檀女王”陳麗華逝世,曾是中國女首富,47歲時倒追“唐僧”遲重瑞,晚年每天生活費10元

      “中國紫檀女王”陳麗華逝世,曾是中國女首富,47歲時倒追“唐僧”遲重瑞,晚年每天生活費10元

      極目新聞
      2026-04-07 12:39:33
      NASA團隊:三峽大壩造成地球自轉軸位移,極點位置移動了2公分

      NASA團隊:三峽大壩造成地球自轉軸位移,極點位置移動了2公分

      心中的麥田
      2026-04-07 19:09:35
      真夠狠!以色列提前動手大殺四方,伊朗損失慘重

      真夠狠!以色列提前動手大殺四方,伊朗損失慘重

      史政先鋒
      2026-04-07 21:03:17
      美軍新型PrSM導彈首次實戰?2月28日擊中伊朗體育館致21名青少年遇難

      美軍新型PrSM導彈首次實戰?2月28日擊中伊朗體育館致21名青少年遇難

      網易新聞出品
      2026-04-07 16:36:53
      比失業更可怕的是工資倒退,深圳的工資已經降到了10年前

      比失業更可怕的是工資倒退,深圳的工資已經降到了10年前

      細說職場
      2026-04-07 11:32:47
      鄭麗文站在千百人聚集的宴席聚光燈下,突然指著自己大聲宣告

      鄭麗文站在千百人聚集的宴席聚光燈下,突然指著自己大聲宣告

      果媽聊娛樂
      2026-04-07 08:19:43
      理想汽車高管:張雪三缸機繞開所有海外專利壁壘 解決了國產大排摩托卡脖子問題

      理想汽車高管:張雪三缸機繞開所有海外專利壁壘 解決了國產大排摩托卡脖子問題

      快科技
      2026-04-07 10:06:17
      臺灣地區前領導人馬英九:我不希望臺灣成為第二個香港!

      臺灣地區前領導人馬英九:我不希望臺灣成為第二個香港!

      共工之錨
      2026-04-06 19:29:37
      2026-04-08 06:00:49
      閃存獵手
      閃存獵手
      全網蹲好價的野生捕手,算力與羊毛都不可辜負。
      905文章數 6關注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      特朗普:伊朗人愿為自由承受轟炸

      頭條要聞

      特朗普:伊朗人愿為自由承受轟炸

      體育要聞

      阿韋洛亞:諾伊爾是本場最佳;我們會帶著必勝的信念前往德國

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產

      財經要聞

      10萬億財政轉移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態體驗

      態度原創

      親子
      游戲
      房產
      家居
      時尚

      親子要聞

      6歲女孩確診性早熟!醫生:小心這些“營養品”和“餐具”

      PlayStation全新炸裂計劃公開!利好所有玩家

      房產要聞

      重磅!三亞擬出安居房新政!

      家居要聞

      雅致愜意 感知生活之美

      120元和120分鐘,哪個更奢侈?

      無障礙瀏覽 進入關懷版