<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      90%的AI智能體都在假裝:工具調用≠真智能

      0
      分享至


      去年一個實驗讓硅谷某AI團隊集體沉默:他們用同樣的工具集做了兩個系統(tǒng),一個被包裝成"自主智能體"賣給了企業(yè)客戶,另一個老老實實叫"對話式工作流"。結果客戶反饋,兩者在實際任務中的成功率差距不到3%。

      這3%的差距,就是整個行業(yè)正在混淆的概念——工具調用(Tool Calling)和真正的智能體之間,隔著一整座架構的鴻溝

      現(xiàn)在打開任何一家AI公司的官網(wǎng),"智能體"這個詞的出現(xiàn)頻率比"人工智能"還高。但剝開營銷話術,大多數(shù)產(chǎn)品不過是給聊天機器人接了幾個API按鈕。用戶說"幫我訂機票",系統(tǒng)調用航班查詢接口,返回結果。這本質上和十年前的客服機器人按1查余額、按2轉人工,沒有區(qū)別。

      工具調用已死,架構問題永生

      2023年GPT-4發(fā)布工具調用能力時,整個行業(yè)以為難題解決了。OpenAI、Anthropic、Google的模型現(xiàn)在都能流暢地選擇函數(shù)、填充參數(shù)、解析返回。但三年過去,一個尷尬的事實浮出水面:工具調用本身成了最不值一提的能力

      真正卡住工程團隊的,是工具調用之后發(fā)生的事。

      某開源智能體框架的維護者私下吐槽,他們收到的issue里,關于"模型選錯工具"的不到5%,剩下95%全是"調用成功了但任務沒完成""中途報錯后系統(tǒng)僵住""用戶刷新頁面后一切從頭再來"。這些問題有一個共同點——它們和LLM的能力無關,和工程架構有關。

      原文作者打了個精準的比方:現(xiàn)在的智能體生態(tài),像是賣給了用戶一輛引擎完美的車,但剎車、方向盤、油箱全是臨時拼湊的。

      四個被忽視的"基礎設施"缺陷

      第一個缺陷叫狀態(tài)失憶。大多數(shù)智能體框架把每次對話當作獨立事件處理,用戶的請求、系統(tǒng)的響應、中間產(chǎn)生的數(shù)據(jù),對話結束就清空。但真實的智能體需要記住自己做過什么——不是聊天記錄那種"我記得你上周問過天氣",而是"我已經(jīng)給這個文件加了寫鎖,下次操作前要檢查"。

      某金融科技公司的案例很典型。他們的"智能體"幫用戶執(zhí)行多步驟轉賬,第一步驗證身份,第二步檢查余額,第三步發(fā)起匯款。用戶中途刷新頁面,系統(tǒng)重置,重新從第一步開始。結果同一筆轉賬被執(zhí)行了三次。

      第二個缺陷是行動黑箱。工具調用發(fā)出去了,然后呢?大多數(shù)實現(xiàn)采用"發(fā)射后不管"模式。API返回200就是成功?但200只代表服務器收到了請求,不代表轉賬真的到賬、文件真的寫入、郵件真的發(fā)出。智能體需要驗證行動的真實結果,而不是HTTP狀態(tài)碼。

      第三個缺陷更隱蔽:故障癱瘓。當某個工具調用失敗,系統(tǒng)怎么辦?重試?換備用方案? escalate給人類?還是優(yōu)雅地告知用戶并保留已完成的進度?

      現(xiàn)狀是,大部分"智能體"直接拋出錯誤堆棧,把爛攤子留給用戶。這不是智能體的失敗模式,這是腳本的失敗模式。

      第四個缺陷觸及核心:目標拆解的缺失。用戶說"幫我策劃一場北京到東京的三天旅行",真正的智能體應該自主分解為查航班、訂酒店、規(guī)劃路線、預約餐廳。但當前大多數(shù)產(chǎn)品需要用戶在提示詞里寫明每一步:"第一步查航班,第二步比較價格,第三步..."

      這不是智能體,這是被自然語言包裝的工作流執(zhí)行器

      為什么大家都在"假裝"?

      架構問題比模型問題更難講故事。招聘時,"我們優(yōu)化了工具調用的準確率"比"我們重構了狀態(tài)持久層"更能打動投資人。產(chǎn)品發(fā)布會上,演示一個流暢的多輪對話,比解釋"我們的錯誤恢復機制覆蓋了多少種邊緣情況"更有視覺沖擊力。

      結果形成了一個奇怪的景觀:底層能力(工具調用)被過度營銷,上層架構(狀態(tài)管理、驗證機制、恢復策略)被系統(tǒng)性忽視。

      原文作者的判斷很直接:工具調用已經(jīng)解決,工具調用之外的一切都沒解決。這個判斷背后是一組殘酷的自檢問題——如果你的智能體在工具調用失敗后需要人類介入才能繼續(xù),它是智能體還是高級腳本?如果它需要每一步都寫在提示詞里,它是智能體還是偽裝的自動化流程?如果它記不住跨會話的狀態(tài),它是智能體還是無狀態(tài)請求處理器?

      某頭部AI公司的內部評估顯示,他們標注為"agentic"的產(chǎn)品中,能通過全部三項自檢的不到15%。

      下一步的戰(zhàn)場在哪

      2024年開始,一些信號表明風向正在轉變。LangChain推出的檢查點(checkpointing)機制、OpenAI的Assistants API持久化線程、以及幾個新興框架對"可恢復執(zhí)行"的強調,都指向同一個方向:智能體的競爭正在從"誰能調用更多工具"轉向"誰能在工具調用失敗后優(yōu)雅地活下來"

      一個值得關注的細分領域是"執(zhí)行驗證"——不是驗證代碼語法,而是驗證行動結果。某初創(chuàng)公司在做的事很有代表性:他們的系統(tǒng)在執(zhí)行數(shù)據(jù)庫寫入后,會主動查詢確認數(shù)據(jù)真的存在;發(fā)送郵件后,會檢查收件箱的投遞狀態(tài)。這種" paranoid verification "(偏執(zhí)式驗證)增加了延遲,但將任務完成率的可靠性從72%提升到了94%。

      另一個被低估的方向是人機協(xié)作的邊界設計。真正的智能體不需要完全自主,而是需要知道什么時候該停下來求助。這要求系統(tǒng)對自身的置信度有準確評估——不是模型輸出的概率分數(shù),而是對任務完成度的結構化判斷。

      原文的結尾拋出了一個開放性的判斷:智能體的未來不在于更好的工具調用,而在于更好的"其他一切"。這個"其他一切"包括什么?每個團隊有自己的清單,但共識正在形成——狀態(tài)、驗證、恢復、分解,這四項基礎設施的成熟度,將決定2025年智能體產(chǎn)品的分水嶺

      某開源項目的GitHub討論區(qū)里,一個用戶留言被頂?shù)搅俗钋懊妫?我們花了六個月優(yōu)化提示詞讓模型選對工具,最后發(fā)現(xiàn)80%的失敗是因為沒做超時重試。"這條留言下面,維護者回復了一個表情:。

      當整個行業(yè)終于意識到,智能體和聊天機器人的區(qū)別不在模型能力而在工程韌性時,第一批真正跨過這道坎的團隊,會建立起多寬的護城河?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      不到24小時!特朗普要動真格,伊朗進入絕命時刻,德黑蘭炸聲響天

      不到24小時!特朗普要動真格,伊朗進入絕命時刻,德黑蘭炸聲響天

      荷蘭豆愛健康
      2026-04-07 19:36:24
      為還錢一天賺中國人3億,詐騙900億!印度“吸金王牌”令人膽寒

      為還錢一天賺中國人3億,詐騙900億!印度“吸金王牌”令人膽寒

      觸摸史跡
      2026-04-07 19:05:46
      陳麗華辭世:巨額遺產(chǎn)分配合理,“唐僧”遲重瑞可按理想方式養(yǎng)老

      陳麗華辭世:巨額遺產(chǎn)分配合理,“唐僧”遲重瑞可按理想方式養(yǎng)老

      普陀動物世界
      2026-04-07 18:00:43
      友商評張雪:他不成功天理難容,這個男人真的可以帶我們稱霸世界

      友商評張雪:他不成功天理難容,這個男人真的可以帶我們稱霸世界

      干史人
      2026-04-05 22:30:03
      你花二十塊點的外賣牛肉比米其林和牛還嫩:這不是手藝,這是騙局

      你花二十塊點的外賣牛肉比米其林和牛還嫩:這不是手藝,這是騙局

      富貴說
      2026-04-03 12:34:44
      黎姿:嫁給大15歲的殘疾富豪,一家5口3人殘疾,風光背后有心酸

      黎姿:嫁給大15歲的殘疾富豪,一家5口3人殘疾,風光背后有心酸

      小熊侃史
      2026-04-05 13:53:18
      上海市政府發(fā)布一組人事任免信息:劉健任市政府副秘書長

      上海市政府發(fā)布一組人事任免信息:劉健任市政府副秘書長

      澎湃新聞
      2026-04-07 17:04:11
      伊朗玩命了!以色列,更大噩夢來了!

      伊朗玩命了!以色列,更大噩夢來了!

      大嘴說天下
      2026-04-06 21:06:05
      特朗普稱伊朗人愿為自由承受苦難

      特朗普稱伊朗人愿為自由承受苦難

      財聯(lián)社
      2026-04-07 03:04:06
      2026年五一放假時間表:有3個好消息,2個壞消息,早安排早準備

      2026年五一放假時間表:有3個好消息,2個壞消息,早安排早準備

      小談食刻美食
      2026-04-06 17:27:45
      海豚瘋狂的繁殖行為!它們和人類一樣,不以生育為目的進行性行為

      海豚瘋狂的繁殖行為!它們和人類一樣,不以生育為目的進行性行為

      怪羅
      2026-04-05 22:14:48
      “唐僧”遲重瑞85歲妻子陳麗華去世!曝最后露面照,身家超百億

      “唐僧”遲重瑞85歲妻子陳麗華去世!曝最后露面照,身家超百億

      裕豐娛間說
      2026-04-07 11:25:23
      2年前,那個砸神像、睡墳場“八字命硬”的網(wǎng)紅,如今卻變相了?

      2年前,那個砸神像、睡墳場“八字命硬”的網(wǎng)紅,如今卻變相了?

      天天熱點見聞
      2026-03-30 06:53:48
      香椿是血糖殺手?醫(yī)生多次提醒:糖尿病患者,少吃這5種蔬菜

      香椿是血糖殺手?醫(yī)生多次提醒:糖尿病患者,少吃這5種蔬菜

      岐黃傳人孫大夫
      2026-04-07 17:45:04
      最新戰(zhàn)報!以色列又定點清除成功了!

      最新戰(zhàn)報!以色列又定點清除成功了!

      達文西看世界
      2026-04-07 20:11:48
      特別巨大是多大

      特別巨大是多大

      言立方
      2026-04-07 12:02:41
      Google把7個效率工具塞進1個App,我試了一周回不去了

      Google把7個效率工具塞進1個App,我試了一周回不去了

      摸魚算法
      2026-04-03 13:48:48
      山東旋轉門事件升級!官媒怒批,知情人曝猛料,不止道歉這么簡單

      山東旋轉門事件升級!官媒怒批,知情人曝猛料,不止道歉這么簡單

      奇思妙想草葉君
      2026-04-07 20:12:16
      伊朗革命衛(wèi)隊要笑醒了,特朗普宣布:美國應在“霍爾木茲收費”

      伊朗革命衛(wèi)隊要笑醒了,特朗普宣布:美國應在“霍爾木茲收費”

      咣當?shù)厍?/span>
      2026-04-07 17:24:18
      被假貨包圍的北面,終于忍無可忍

      被假貨包圍的北面,終于忍無可忍

      金錯刀
      2026-04-07 11:12:47
      2026-04-07 21:12:49
      算力游俠
      算力游俠
      游走在API與報錯之間,用魔法(AI)打敗魔法的非硬核玩家。
      850文章數(shù) 12關注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      美軍拯救飛行員差一點失敗 從40英里外用攝像頭對準他

      頭條要聞

      美軍拯救飛行員差一點失敗 從40英里外用攝像頭對準他

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產(chǎn)

      財經(jīng)要聞

      10萬億財政轉移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態(tài)體驗

      態(tài)度原創(chuàng)

      手機
      教育
      本地
      健康
      時尚

      手機要聞

      傳聞蘋果闊折疊命名iPhone Ultra,曝國內同品類新機也考慮跟進

      教育要聞

      教育部:學位論文抽檢,改革!

      本地新聞

      跟著歌聲游安徽,聽古村回響

      干細胞抗衰4大誤區(qū),90%的人都中招

      針織衫+闊腿褲=氣質穿搭

      無障礙瀏覽 進入關懷版