![]()
去年一個實驗讓硅谷某AI團隊集體沉默:他們用同樣的工具集做了兩個系統(tǒng),一個被包裝成"自主智能體"賣給了企業(yè)客戶,另一個老老實實叫"對話式工作流"。結果客戶反饋,兩者在實際任務中的成功率差距不到3%。
這3%的差距,就是整個行業(yè)正在混淆的概念——工具調用(Tool Calling)和真正的智能體之間,隔著一整座架構的鴻溝。
現(xiàn)在打開任何一家AI公司的官網(wǎng),"智能體"這個詞的出現(xiàn)頻率比"人工智能"還高。但剝開營銷話術,大多數(shù)產(chǎn)品不過是給聊天機器人接了幾個API按鈕。用戶說"幫我訂機票",系統(tǒng)調用航班查詢接口,返回結果。這本質上和十年前的客服機器人按1查余額、按2轉人工,沒有區(qū)別。
工具調用已死,架構問題永生
2023年GPT-4發(fā)布工具調用能力時,整個行業(yè)以為難題解決了。OpenAI、Anthropic、Google的模型現(xiàn)在都能流暢地選擇函數(shù)、填充參數(shù)、解析返回。但三年過去,一個尷尬的事實浮出水面:工具調用本身成了最不值一提的能力。
真正卡住工程團隊的,是工具調用之后發(fā)生的事。
某開源智能體框架的維護者私下吐槽,他們收到的issue里,關于"模型選錯工具"的不到5%,剩下95%全是"調用成功了但任務沒完成""中途報錯后系統(tǒng)僵住""用戶刷新頁面后一切從頭再來"。這些問題有一個共同點——它們和LLM的能力無關,和工程架構有關。
原文作者打了個精準的比方:現(xiàn)在的智能體生態(tài),像是賣給了用戶一輛引擎完美的車,但剎車、方向盤、油箱全是臨時拼湊的。
四個被忽視的"基礎設施"缺陷
第一個缺陷叫狀態(tài)失憶。大多數(shù)智能體框架把每次對話當作獨立事件處理,用戶的請求、系統(tǒng)的響應、中間產(chǎn)生的數(shù)據(jù),對話結束就清空。但真實的智能體需要記住自己做過什么——不是聊天記錄那種"我記得你上周問過天氣",而是"我已經(jīng)給這個文件加了寫鎖,下次操作前要檢查"。
某金融科技公司的案例很典型。他們的"智能體"幫用戶執(zhí)行多步驟轉賬,第一步驗證身份,第二步檢查余額,第三步發(fā)起匯款。用戶中途刷新頁面,系統(tǒng)重置,重新從第一步開始。結果同一筆轉賬被執(zhí)行了三次。
第二個缺陷是行動黑箱。工具調用發(fā)出去了,然后呢?大多數(shù)實現(xiàn)采用"發(fā)射后不管"模式。API返回200就是成功?但200只代表服務器收到了請求,不代表轉賬真的到賬、文件真的寫入、郵件真的發(fā)出。智能體需要驗證行動的真實結果,而不是HTTP狀態(tài)碼。
第三個缺陷更隱蔽:故障癱瘓。當某個工具調用失敗,系統(tǒng)怎么辦?重試?換備用方案? escalate給人類?還是優(yōu)雅地告知用戶并保留已完成的進度?
現(xiàn)狀是,大部分"智能體"直接拋出錯誤堆棧,把爛攤子留給用戶。這不是智能體的失敗模式,這是腳本的失敗模式。
第四個缺陷觸及核心:目標拆解的缺失。用戶說"幫我策劃一場北京到東京的三天旅行",真正的智能體應該自主分解為查航班、訂酒店、規(guī)劃路線、預約餐廳。但當前大多數(shù)產(chǎn)品需要用戶在提示詞里寫明每一步:"第一步查航班,第二步比較價格,第三步..."
這不是智能體,這是被自然語言包裝的工作流執(zhí)行器。
為什么大家都在"假裝"?
架構問題比模型問題更難講故事。招聘時,"我們優(yōu)化了工具調用的準確率"比"我們重構了狀態(tài)持久層"更能打動投資人。產(chǎn)品發(fā)布會上,演示一個流暢的多輪對話,比解釋"我們的錯誤恢復機制覆蓋了多少種邊緣情況"更有視覺沖擊力。
結果形成了一個奇怪的景觀:底層能力(工具調用)被過度營銷,上層架構(狀態(tài)管理、驗證機制、恢復策略)被系統(tǒng)性忽視。
原文作者的判斷很直接:工具調用已經(jīng)解決,工具調用之外的一切都沒解決。這個判斷背后是一組殘酷的自檢問題——如果你的智能體在工具調用失敗后需要人類介入才能繼續(xù),它是智能體還是高級腳本?如果它需要每一步都寫在提示詞里,它是智能體還是偽裝的自動化流程?如果它記不住跨會話的狀態(tài),它是智能體還是無狀態(tài)請求處理器?
某頭部AI公司的內部評估顯示,他們標注為"agentic"的產(chǎn)品中,能通過全部三項自檢的不到15%。
下一步的戰(zhàn)場在哪
2024年開始,一些信號表明風向正在轉變。LangChain推出的檢查點(checkpointing)機制、OpenAI的Assistants API持久化線程、以及幾個新興框架對"可恢復執(zhí)行"的強調,都指向同一個方向:智能體的競爭正在從"誰能調用更多工具"轉向"誰能在工具調用失敗后優(yōu)雅地活下來"。
一個值得關注的細分領域是"執(zhí)行驗證"——不是驗證代碼語法,而是驗證行動結果。某初創(chuàng)公司在做的事很有代表性:他們的系統(tǒng)在執(zhí)行數(shù)據(jù)庫寫入后,會主動查詢確認數(shù)據(jù)真的存在;發(fā)送郵件后,會檢查收件箱的投遞狀態(tài)。這種" paranoid verification "(偏執(zhí)式驗證)增加了延遲,但將任務完成率的可靠性從72%提升到了94%。
另一個被低估的方向是人機協(xié)作的邊界設計。真正的智能體不需要完全自主,而是需要知道什么時候該停下來求助。這要求系統(tǒng)對自身的置信度有準確評估——不是模型輸出的概率分數(shù),而是對任務完成度的結構化判斷。
原文的結尾拋出了一個開放性的判斷:智能體的未來不在于更好的工具調用,而在于更好的"其他一切"。這個"其他一切"包括什么?每個團隊有自己的清單,但共識正在形成——狀態(tài)、驗證、恢復、分解,這四項基礎設施的成熟度,將決定2025年智能體產(chǎn)品的分水嶺。
某開源項目的GitHub討論區(qū)里,一個用戶留言被頂?shù)搅俗钋懊妫?我們花了六個月優(yōu)化提示詞讓模型選對工具,最后發(fā)現(xiàn)80%的失敗是因為沒做超時重試。"這條留言下面,維護者回復了一個表情:。
當整個行業(yè)終于意識到,智能體和聊天機器人的區(qū)別不在模型能力而在工程韌性時,第一批真正跨過這道坎的團隊,會建立起多寬的護城河?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.