![]()
多智能體(Multi-Agent)系統的故障率,在生產環境中比單智能體高出340%。這不是模型能力問題,是架構設計問題。
你讓4個AI協作完成一個任務:A提取數據,B總結,C格式化,D發送。演示時一切完美,上線后每周崩潰3次。問題出在「傳話游戲」——每個AI都在自信地編造,誤差像滾雪球。
電話游戲的AI版本:誤差如何指數級放大
原始文章作者用了一個精準類比:電話游戲(Telephone Game),但每個參與者都在幻覺(Hallucination)。Agent A從PDF提取客戶信息,把「2024年Q3營收」寫成「2024年第三季度收入」。Agent B總結時變成「去年下半年收入」。Agent C格式化時理解為「2023年H2」。Agent D直接發給財務系統,觸發審計警報。
自然語言是損耗介質。每傳遞一次,信息熵增加15%-30%。
更隱蔽的是「自信幻覺」。大語言模型(Large Language Model,LLM)的輸出自帶確定性語氣,下游代理(Agent)無法判斷「這是事實還是推測」。作者指出:「每個步驟都在復合錯誤。到Agent D行動時,原始意圖已經變異到無法識別。」
為什么演示環境從不翻車?因為測試數據干凈、邊界情況少、鏈長短。生產環境相反:PDF掃描件模糊、客戶用俚語寫需求、第7個代理才被觸發。
「更聰明的模型」是陷阱
行業第一反應是換更強的模型。GPT-4換Claude 3,70B換400B。作者直接否定:「修復方案不是更聰明的模型,是有依據的交接(Grounded Handoffs)。」
模型能力提升的是單步準確率,但多智能體系統的誤差是乘法關系。假設每個代理準確率95%,4個串聯后整體準確率只有81.4%。換成99%準確率的模型,4串聯后是96.1%——看起來好了,但第8個代理介入時,又跌回92.3%。
核心矛盾:模型越強,幻覺越隱蔽。GPT-4編造的財務數據比GPT-3.5更像真的。
作者提出的四項修復原則,本質是「用工程約束替代模型智能」:
結構化狀態,替代自然語言。代理之間傳遞JSON Schema或類型化對象,而非段落文本。JSON可校驗、可diff、可回滾;自然語言需要二次解析,解析本身又是誤差來源。
單一事實來源(Single Source of Truth)。所有代理讀寫同一個上下文對象,消滅電話鏈。每個代理看到的都是權威狀態,而非「上一個代理的理解」。
顯式失敗模式。Agent B收到垃圾輸入時,應該拒絕而非猜測。猜測是信心螺旋的起點——下游代理會把猜測當事實繼續加工。
人工檢查點。代理鏈越長,越需要人在回路(Human-in-the-Loop)。作者沒給具體比例,但暗示超過3步的鏈必須設閘。
MCP協議的真正價值:不是工具,是共享上下文
模型上下文協議(Model Context Protocol,MCP)最近被熱炒,多數解讀聚焦「讓AI調用外部工具」。作者視角不同:「MCP不只是關于工具,是關于共享上下文。」
當所有代理從同一個MCP服務器讀取,漂移(Drift)被消除。模型不需要「記住」前一個代理說了什么——它讀取當前狀態。狀態是物化的、版本化的、可審計的。
架構圖的變化很直觀:
舊模式:Agent A → Agent B → Agent C → 輸出。鏈式結構,故障隔離差,調試時需要逐層追蹤。
新模式:Agent A → 狀態,Agent B → 狀態,Agent C → 狀態,輸出 → 狀態。星型結構,所有代理圍繞狀態樞紐運轉。
多智能體系統不是協調問題,是狀態管理問題。狀態對了,編排自然順。
作者最后拋出一個反直覺結論:「大多數代理故障不是模型故障,是上下文故障。修復上下文,修復系統。」這與行業敘事形成張力——我們過度投資模型能力,低估工程基建。
一個值得追問的細節:作者提到的「顯式失敗模式」在現有框架中如何實現?LangChain的回調機制?還是需要在應用層自建校驗層?原文沒展開,但生產部署時這往往是最大坑點。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.