90%的AI智能體都在假裝：工具調用≠真智能

2026-04-05 10:42:23　來源: 算力游俠

北京舉報

分享至

去年一個實驗讓硅谷某AI團隊集體沉默：他們用同樣的工具集做了兩個系統(tǒng)，一個被包裝成"自主智能體"賣給了企業(yè)客戶，另一個老老實實叫"對話式工作流"。結果客戶反饋，兩者在實際任務中的成功率差距不到3%。

這3%的差距，就是整個行業(yè)正在混淆的概念——工具調用（Tool Calling）和真正的智能體之間，隔著一整座架構的鴻溝。

現(xiàn)在打開任何一家AI公司的官網(wǎng)，"智能體"這個詞的出現(xiàn)頻率比"人工智能"還高。但剝開營銷話術，大多數(shù)產(chǎn)品不過是給聊天機器人接了幾個API按鈕。用戶說"幫我訂機票"，系統(tǒng)調用航班查詢接口，返回結果。這本質上和十年前的客服機器人按1查余額、按2轉人工，沒有區(qū)別。

工具調用已死，架構問題永生

2023年GPT-4發(fā)布工具調用能力時，整個行業(yè)以為難題解決了。OpenAI、Anthropic、Google的模型現(xiàn)在都能流暢地選擇函數(shù)、填充參數(shù)、解析返回。但三年過去，一個尷尬的事實浮出水面：工具調用本身成了最不值一提的能力。

真正卡住工程團隊的，是工具調用之后發(fā)生的事。

某開源智能體框架的維護者私下吐槽，他們收到的issue里，關于"模型選錯工具"的不到5%，剩下95%全是"調用成功了但任務沒完成""中途報錯后系統(tǒng)僵住""用戶刷新頁面后一切從頭再來"。這些問題有一個共同點——它們和LLM的能力無關，和工程架構有關。

原文作者打了個精準的比方：現(xiàn)在的智能體生態(tài)，像是賣給了用戶一輛引擎完美的車，但剎車、方向盤、油箱全是臨時拼湊的。

四個被忽視的"基礎設施"缺陷

第一個缺陷叫狀態(tài)失憶。大多數(shù)智能體框架把每次對話當作獨立事件處理，用戶的請求、系統(tǒng)的響應、中間產(chǎn)生的數(shù)據(jù)，對話結束就清空。但真實的智能體需要記住自己做過什么——不是聊天記錄那種"我記得你上周問過天氣"，而是"我已經(jīng)給這個文件加了寫鎖，下次操作前要檢查"。

某金融科技公司的案例很典型。他們的"智能體"幫用戶執(zhí)行多步驟轉賬，第一步驗證身份，第二步檢查余額，第三步發(fā)起匯款。用戶中途刷新頁面，系統(tǒng)重置，重新從第一步開始。結果同一筆轉賬被執(zhí)行了三次。

第二個缺陷是行動黑箱。工具調用發(fā)出去了，然后呢？大多數(shù)實現(xiàn)采用"發(fā)射后不管"模式。API返回200就是成功？但200只代表服務器收到了請求，不代表轉賬真的到賬、文件真的寫入、郵件真的發(fā)出。智能體需要驗證行動的真實結果，而不是HTTP狀態(tài)碼。

第三個缺陷更隱蔽：故障癱瘓。當某個工具調用失敗，系統(tǒng)怎么辦？重試？換備用方案？ escalate給人類？還是優(yōu)雅地告知用戶并保留已完成的進度？

現(xiàn)狀是，大部分"智能體"直接拋出錯誤堆棧，把爛攤子留給用戶。這不是智能體的失敗模式，這是腳本的失敗模式。

第四個缺陷觸及核心：目標拆解的缺失。用戶說"幫我策劃一場北京到東京的三天旅行"，真正的智能體應該自主分解為查航班、訂酒店、規(guī)劃路線、預約餐廳。但當前大多數(shù)產(chǎn)品需要用戶在提示詞里寫明每一步："第一步查航班，第二步比較價格，第三步..."

這不是智能體，這是被自然語言包裝的工作流執(zhí)行器。

為什么大家都在"假裝"？

架構問題比模型問題更難講故事。招聘時，"我們優(yōu)化了工具調用的準確率"比"我們重構了狀態(tài)持久層"更能打動投資人。產(chǎn)品發(fā)布會上，演示一個流暢的多輪對話，比解釋"我們的錯誤恢復機制覆蓋了多少種邊緣情況"更有視覺沖擊力。

結果形成了一個奇怪的景觀：底層能力（工具調用）被過度營銷，上層架構（狀態(tài)管理、驗證機制、恢復策略）被系統(tǒng)性忽視。

原文作者的判斷很直接：工具調用已經(jīng)解決，工具調用之外的一切都沒解決。這個判斷背后是一組殘酷的自檢問題——如果你的智能體在工具調用失敗后需要人類介入才能繼續(xù)，它是智能體還是高級腳本？如果它需要每一步都寫在提示詞里，它是智能體還是偽裝的自動化流程？如果它記不住跨會話的狀態(tài)，它是智能體還是無狀態(tài)請求處理器？

某頭部AI公司的內部評估顯示，他們標注為"agentic"的產(chǎn)品中，能通過全部三項自檢的不到15%。

下一步的戰(zhàn)場在哪

2024年開始，一些信號表明風向正在轉變。LangChain推出的檢查點（checkpointing）機制、OpenAI的Assistants API持久化線程、以及幾個新興框架對"可恢復執(zhí)行"的強調，都指向同一個方向：智能體的競爭正在從"誰能調用更多工具"轉向"誰能在工具調用失敗后優(yōu)雅地活下來"。

一個值得關注的細分領域是"執(zhí)行驗證"——不是驗證代碼語法，而是驗證行動結果。某初創(chuàng)公司在做的事很有代表性：他們的系統(tǒng)在執(zhí)行數(shù)據(jù)庫寫入后，會主動查詢確認數(shù)據(jù)真的存在；發(fā)送郵件后，會檢查收件箱的投遞狀態(tài)。這種" paranoid verification "（偏執(zhí)式驗證）增加了延遲，但將任務完成率的可靠性從72%提升到了94%。

另一個被低估的方向是人機協(xié)作的邊界設計。真正的智能體不需要完全自主，而是需要知道什么時候該停下來求助。這要求系統(tǒng)對自身的置信度有準確評估——不是模型輸出的概率分數(shù)，而是對任務完成度的結構化判斷。

原文的結尾拋出了一個開放性的判斷：智能體的未來不在于更好的工具調用，而在于更好的"其他一切"。這個"其他一切"包括什么？每個團隊有自己的清單，但共識正在形成——狀態(tài)、驗證、恢復、分解，這四項基礎設施的成熟度，將決定2025年智能體產(chǎn)品的分水嶺。

某開源項目的GitHub討論區(qū)里，一個用戶留言被頂?shù)搅俗钋懊妫?我們花了六個月優(yōu)化提示詞讓模型選對工具，最后發(fā)現(xiàn)80%的失敗是因為沒做超時重試。"這條留言下面，維護者回復了一個表情：。

當整個行業(yè)終于意識到，智能體和聊天機器人的區(qū)別不在模型能力而在工程韌性時，第一批真正跨過這道坎的團隊，會建立起多寬的護城河？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.