
作者 | AICon 全球人工智能開發與應用大會
策劃 | 李忠良
編輯 | 宇琪
隨著 AI 技術從“工具化”向“自主化”嚴謹,智能體(Agent)正在成為企業應用大模型的重要形態。那么,如何優化 Agent,讓它變得更可信、更好用,最終能夠成為企業優秀的“數字員工”?
近日 InfoQ《極客有約》X AICon 直播欄目特別邀請、RBC senior application support analyst 馬可薇擔任主持人,和值得買科技 CTO 王云峰、商湯科技大裝置事業群高級技術總監魯琲、明略科技集團高級技術總監吳昊宇一起,在AICon全球人工智能開發與應用大會2025 北京站即將召開之際,共同探討如何提升企業 Agent 的“可信度”。
部分精彩觀點如下:
未來可能真的不再存在傳統意義上的軟件界面,UI 可能完全消失,取而代之的是由 Agent 與系統直接交互。
協議的價值在于讓生態中的每個角色,提供大腦、數據、工具或執行能力的廠商,都能使用同一種語言溝通,使大家可以把精力集中在自身專業領域,而無需耗費大量時間做適配工作。
許多模型在長文本中間部分存在遺忘問題,大海撈針本身就是不現實的任務。盡管大家都宣稱擁有超長 context window,但真正有效的部分其實沒有那么多。
真正的難點是業務模型與技術模型如何統一、如何對齊。純技術層面的參數對齊反而是最不需要擔心的,畢竟大家都是寫程序的。
在 12 月 19-20 日將于北京舉辦的AICon 全球人工智能開發與應用大會 2025 北京站上,我們特別設置了 【企業級 Agent 的設計與落地】 專題。該專題將探討企業級 Agent 的產品設計、算法優化、工程實踐,幫助大家找到最佳的 Agent 企業落地場景。
查看大會日程解鎖更多精彩內容:
https://aicon.infoq.cn/202512/beijing/schedule
以下內容基于直播速記整理,經 InfoQ 刪減。
定義 Agent 的技術邊界
馬可薇:很多人覺得 Agent 就是 Chatbot 加了幾個插件。但從技術架構視角看,當系統目標從“對話”變成“行動”,你們認為技術棧上產生的最大一個質變是什么?
王云峰:我認為 chatbot 本身只是一個交互形態。過去大家在互聯網上主要依賴點擊,后來 AI 具備了對話能力,人們開始在對話框中和它交互;再后來端到端語音出現,AI 獲得更強的多模態能力,使對話變得更自然、更強大;隨后 Agent 的興起又進一步擴展了它的可操作范圍。
chatbot 只是一個界面,而關鍵邏輯在于背后的大模型。我們常把大模型比喻為“一個大腦”,而傳統 chatbot 只是讓用戶通過簡單的交互去壓榨它的知識。但一個聰明的大腦需要外圍系統,就像人需要眼睛、鼻子、觸覺去感知世界,需要手腳完成操作。
完整的過程包括:模型接收任務,判斷應采取的行動,感知外界、接收反饋,并基于反饋不斷調整規劃。這與過去單純的 chatbot 模式有巨大差異,其技術復雜度和對生態的要求都遠高于對話系統。
魯琲:以對話為目的的 AI 與以行動為目的的 AI,其核心區別在于前者關注過程,后者關注結果。許多程序員應該還記得 GitHub Copilot 剛問世、沒有 Agent 模式時的狀態。當時它只有代碼補全功能,本質上就是一個 chatbot。常見流程是:模型補全代碼,如果結果不理想,程序員再向模型反饋并請它修改;代碼執行報錯后再把報錯貼回去,讓模型繼續改,如此反復直到運行成功。
后來出現 Agent 模式,本質上仍是同一件事,只是 Agent 可以自動執行整套流程。之前的規劃由人來做,需要人在腦中維護任務步驟、判斷接下來要切換到測試、再根據結果回到編碼等一系列上下文管理。
Agent 的出現把這些過程都包進了系統中:Agent 會自行規劃、調用工具、管理上下文。核心在于模型具備了更強的記憶和上下文管理能力,把過去由人維持的短期、中期、長期記憶和狀態切換能力轉移到 Agent 內部。
因此,Agent 能夠在一個循環中持續工作幾十分鐘甚至數天,并且始終知道自己做了什么、正在做什么、接下來要做什么,這體現了當前 Agent 技術棧的重大質變。
吳昊宇:這也與最近豆包手機爆火有關。豆包和努比亞聯合推出的手機能夠被 AI 直接操控,但隨后微信、淘寶等平臺禁止其登錄。我體驗了一會兒,確實很強,它已經不再是對話形態,而是能夠根據你的指令在手機上逐步完成操作。
這意味著 AI 具備了任務規劃和執行能力,在企業場景中同樣重要。例如,當我們讓 AI 判斷某個話題的熱度,它不能只是簡單搜索并回答,而應該規劃整套步驟,包括檢索、匯集相關詞和帖子、進行情緒聚類、生成報告等。與過去只做問答或簡單文本分析完全不同,對規劃與調度能力的要求顯著提高。
其次,系統具備“動手”能力后,其權限與責任也隨之擴大。AI 可以訪問手機相冊、聊天記錄;在企業內部它可能訪問工作軟件、數據庫。這意味著系統必須具備可追溯、可干預的能力,并設置明確的安全邊界,否則行為將不可控。因此,在 Agent 架構中,我們加入大量監控、可驗證機制以及人工閉環控制,這也是與過去 chatbot 模式最大的差異之一。
馬可薇:目前的 Agent 經常“變笨”或“卡住”。從算力供給、數據供給、協議交互這三個環節看,目前的“短板”究竟在哪個環節?是推理速度太慢跟不上思考,還是上下文記憶太短限制了邏輯?
魯琲:更準確地說,是高性價比算力的短缺。從實際落地的 Agent 來看,問題往往不在于是否有算力,而在于成本與效果之間的權衡。很多應用場景并不會使用旗艦模型,而是選擇 30B 甚至 7B 這樣更小的模型。盡管這些模型可能支持 100K 甚至 200K 的上下文窗口,實際使用時仍會將上下文限制在 32K 或更小的范圍內,本質上是為了降低成本。同樣地,我們也會限制 Agent 深度思考的輪次,比如在 Cursor 中開啟 Max 模式、使用最好的模型讓它生成一個 feature,執行二十分鐘就能耗盡當月配額。如果未來有更多高性價比算力可用,現有的頂尖模型與算法才能在更廣泛的場景中充分發揮能力。
吳昊宇:上下文的數據質量同樣極為重要。即便上下文很長,如果信息質量低、噪聲多,模型輸出的任務規劃和結果仍然不會理想。像我們做輿情分析時,常用的是小紅書、微博等平臺的帖子,但這類信息密度普遍較低。如果直接把一萬條帖子全部丟給大模型做總結,得到的觀點和事實要么不完整,要么存在偏差。因此,我們通常會對數據進行預處理,再交給模型生成總結或報告。
此外,Agent 的上下文往往來自先前多輪的交互,其中有些信息有用,有些只是無效嘗試。現在雖然已有上下文壓縮技術,但大多是被動的:在快達到窗口上限時才進行壓縮。實際上我們需要更頻繁地壓縮,使保留下來的信息密度更高、更加真實可靠,從而提升 Agent 的規劃能力。因此,要讓 Agent 運行得更好,必須提供可信、高密度、高質量的數據。
王云峰:隨著模型變得更強、上下文窗口更大,真正決定 Agent 效果的往往不是模型,而是企業內部的私有數據質量。模型是可以選擇的,不行就換更好的,或者通過微調、蒸餾改善效果;但數據預處理的難度遠大于選模型或微調模型。我們必須承認,未經處理的數據是完全無法使用的,而高質量數據的構建難度非常高。
盡管上下文窗口越來越大,如果輸入內容過長,模型產生錯誤的概率仍然會上升。例如在一些需要了解用戶需求的場景中,一萬篇內容遠不足以形成合理判斷,合理的采樣量級應該是十萬甚至上百萬篇。但當數據量達到百萬級別時,直接輸入模型的結果幾乎不可用。并且隨著處理鏈路變長,哪怕每個環節的可用性有 90%,經過十個環節后整體可用性也會下降到不可接受的水平。
一個 Agent 的完成需要多個環節、多個模塊共同協作。大腦只是其中一個模塊,還需要大量數據,而這些數據既包括企業私有數據,也包括金融、法律、隱私保護等方面的專業信息。未來每一種能力或模塊都可能由不同廠商提供,例如大模型由一批廠商專注提供,讓“智能大腦”越來越強,而數據提供方則確保數據真實可靠、信息密度高,還有一些數據來自實時感知。
在這樣多方協作的體系中,協議的重要性就凸顯出來了。沒有任何一家廠商能夠完成所有工作,生態必然需要眾多參與者。如果每次調用外部數據或工具都要重新適配,將極大降低效率。因此協議的價值在于讓生態中的每個角色,提供大腦、數據、工具或執行能力的廠商,都能使用同一種語言溝通,使大家可以把精力集中在自身專業領域,而無需耗費大量時間做適配工作。
馬可薇:如果未來是多 Agent 協作的世界,Agent 之間溝通需要標準。王總在推 MCP (Model Context Protocol),魯總和吳總怎么看?2026 年,Agent 的互聯協議會走向開源統一,還是大廠割據?
魯琲:未來必然是多 Agent 協作的世界,而且 Agent 之間的關系將遠比今天復雜,會呈現多對多、開放式的交互。因此,統一的 Agent 交互協議顯得格外重要。我個人堅信協議最終會走向開源統一,走向中立、開放、自主的狀態,而且速度很可能會非常快。
我們可以回顧互聯網發展史。例如最初 TCP/IP 協議與 OCI 競爭了十多年,最終 TCP/IP 被交由 IETF 維護,形成中立治理。期間,硬件廠商和軟件開發者都面臨需要同時適配兩套協議的困境。HTTP 也經歷了類似的過程,花了很長時間才走向開源和自治。而更近代的協議如 Kubernetes、gRPC,大約兩三年就進入中立治理階段。MCP 也是如此,我記得就在最近,Anthropic 剛剛把 MCP 協議捐贈給 AIF,而 OpenAI、Google、微軟都是其成員,MCP 從首次發布到現在不過一年左右。
在當前的技術環境下,各大廠商都充分認識到:擁抱開源、共同建設生態、避免協議戰爭,才能為開發者和企業提供穩定預期,讓大家可以放心基于 MCP 生態構建系統,而不必擔心被某個廠商鎖定。
吳昊宇:各大廠對 MCP 的支持力度非常大,盡管它誕生僅一年,但已展現出強大的優勢,幾乎所有廠商都已接入,基本成為多 Agent 溝通的事實標準。此外,Anthropic 在 MCP 之上也推出了許多新玩法。例如標準的 MCP 需要逐次調用并等待回復,而 Anthropic 最近的 PDC 協議則通過代碼方式將多次 MCP 調用合并為一次。我們的測試結果,與 Anthropic 的官方結論一致:這種方式可使上下文長度縮短 80% 甚至更多。
因此,即便底層協議統一,上層生態仍會不斷創新,尤其在大模型時代,可能出現許多此前從未見過的新協議和新生態。如果底層協議穩定可靠,上層生態的創新空間就更大。對于做應用的廠商而言,基于協議探索新的能力和玩法,不僅是機會,也能幫助我們更好地服務企業與用戶。
圍繞 Agent 架構層層解剖
馬可薇:魯總,企業落地 Agent 最大的攔路虎往往是成本。Agent 的運行模式決定了它需要維護極長的上下文,這對顯存和帶寬的消耗是巨大的。在大裝置層面,你們有沒有針對 Agent 這種“長程推理任務”的專用優化方案?
魯琲:隨著 Agent 單任務運行時長不斷延長,上下文會出現明顯的膨脹,這不僅影響性能,也顯著增加成本。為解決長程推理中的上下文問題,目前有多種方法。最基礎的是上下文壓縮,包括摘要、結構化壓縮等;另一類是長期記憶的持久化,即將高價值、高信息量的內容保存在外部存儲,如 Vector DB 或知識圖譜,以實現高價值信息在跨 Session 之間的傳遞。這些都屬于“上下文工程”的范疇,本質上都是提升信息密度的有效手段。
此外,我們也會對 KV Cache 做優化。例如利用 CPU 內存甚至 SSD 進行分層存儲,以提升系統吞吐量;同時可對 KV Cache 進行不同層級的量化。不過,這類方案都會帶來精度損失,因為 GPU 中存儲的 KV Cache 不是完整版本,在進行前段推理時難免丟失部分信息。根據我們的測試,精度損失大約在 1% 到 10% 之間,具體取決于緩存和同步策略。不同的業務對精度的要求不同,可以選擇相應的優化方案,以支持長程、高效、高吞吐的推理過程。
馬可薇:王總,作為買單方,如果商湯告訴您“降低一點精度能便宜 50%”,但在導購推薦時可能會偶爾算錯價格,值得買的業務容忍度在哪里?
王云峰:每個業務都由多種組件組成,其中一些適合使用 AI 解決,另一些則并不適合。舉例來說,若某項能力精度下降 50%,但成本降低 50%,如果這意味著價格計算可能出現錯誤,那這種情況在業務上往往是無法接受的。相反,有些任務則完全沒有必要依賴大模型解決。例如常被討論的“3.9 和 3.11 到底誰大”的梗,在實際業務中這種計算完全可以由傳統方法處理,不必依賴大模型。因此,成本與精度的權衡必須與業務深度結合。我們內部使用了大量模型以及外部 API,不同參數規模、不同價格的模型都會用,關鍵是把合適的模型放在合適的任務中。
在一些高容忍度的業務場景中,前期并不需要極高精度,因為在海量數據下,整體系統的容錯能力非常強。例如輿情分析,其統計特性使得局部精度的誤差并不會帶來實質影響。但在某些場景下,一點錯誤也不允許,因此對精度的要求極高。企業必須結合自身特點和業務需求:若天然容錯度高,可以使用低成本、精度略低的模型;如容錯度低,則必須使用更高精度的方案。最終企業要算整體成本,使整體投入與產出合理。
馬可薇:Agent 需要外掛知識庫。現在模型窗口越來越大,很多人說直接把書扔進去就行。但對于需要“精準執行”的 Agent 來說,知識圖譜(KG)的結構化優勢是否比長文本(Long Context)更適合作為 Agent 的“長期記憶”?為什么?
吳昊宇:知識圖譜天然具備知識壓縮、事實邊界與操作約束等特性,因為它由企業大量事實性文檔中高頻出現的關系和約束構成,再經過專家校驗,因此其中存儲的內容本質上是企業知識的高度濃縮。當我們以結構化方式將這些濃縮知識提供給大模型時,其約束和提示效果遠強于輸入冗長且價值不高的文本。其次,知識圖譜具有持久性,可以長期存儲在圖譜庫中,根據上下文需求進行調取。在長期記憶方面,它比一次性塞入的大段文本更加穩定、有效。
企業知識庫常用的 RAG,本質上還是長文本檢索,但它有幾個明顯問題。第一,由于依賴相關性檢索,若關鍵知識被埋在長文本內部,整體相似度反而可能不如一些不太相關的文本片段,導致真正有用的內容無法被檢索到。第二,因為受限于上下文窗口的長度,我們不可能把檢索到的 10 段文本全部輸入,通常要經過人工篩選或重排序,但這會帶來信息覆蓋不全面的問題。
相較之下,知識圖譜更能保證信息的完整與高度相關。查詢一個實體時,其所有相關內容都能被提取,再進行過濾后輸入模型,得到的上下文質量顯著高于 RAG。此外,我們在許多 deep search 場景中測試,基于知識圖譜的 Agent 表現也比 RAG 更優,且生成所需的上下文更短、效率更高。
王云峰:人在處理復雜任務時,最近的記憶細節更豐富,但遠期記憶往往只保留關鍵內容。這種機制其實與知識圖譜很相似,都強調保留高價值的信息、過濾無用細節。
在企業中,數據對結果的影響往往大于模型本身。我們常常要面對大量原始數據,其中不少未經結構化處理,也缺乏版本管理。有時同一知識點已被更新,但舊數據無人維護卻仍然被輸入模型,導致混亂。因此,大量預處理工作十分必要,而知識圖譜就是一種極具代表性的結構化方式。它能提升信息密度、利用率,并且便于模型調用。
魯琲:我們主要用圖譜來支持 Agent 的長期記憶,并且讓 Agent 能進行一定程度的自我進化。知識圖譜是結構化數據,非常符合人類記憶模式,很多事件的細節會隨時間遺忘,但關鍵步驟和方法會被保留,而下一次遇到類似任務時,人會依賴這些高層經驗更快解決問題。
我們的一些 Agent 負責線上集群運維,例如 debug 真實故障。最開始它們可能需要反復試錯、循環許多輪才能找到解決路徑。成功經驗隨后會寫入知識圖譜作為長期記憶,并經過一定的反思。當再次遇到類似問題時,Agent 會優先檢索圖譜,看之前是否成功處理過,從而復用最佳方案。我們看到相同任務從需要 20 分鐘逐漸縮短到僅需 5 分鐘,這就是長期記憶帶來的效率躍遷。
馬可薇:魯總,從算力角度看,是“暴力增加上下文長度”(讓模型自己找)更劃算,還是“外掛一個知識圖譜檢索”更劃算?
魯琲:把整本書塞進 context window 與從知識圖譜中精準取回高信息密度的節點,兩者的算力差距是成百上千倍的,這個賬非常好算。
王云峰:千萬別動不動就扔長文本。
魯琲:許多模型在長文本中間部分存在遺忘問題,大海撈針本身就是不現實的任務。盡管大家都宣稱擁有超長 context window,但真正有效的部分其實沒有那么多。
王云峰:以前沒別的辦法,大家只能塞文本。現在如果還在往里扔長文本,某種意義上是在“為難模型”,甚至是在刻意找模型的短板。既然有更高效的方式,就應該讓模型發揮長處,而不是持續增加它的負擔。
觀眾:企業想要 AI,但不知道如何落地以及不確定投入產出,該從哪一些維度去做決策?
魯琲:對于具有長期性質的 AI 落地項目而言,大家此時關注的并不是投入產出比,而是項目是否真正能做成。以行業中常見的視角來看,目前能夠實實在在為企業賦能的,是那些已經被大規模使用的 AI 應用,比如 AI Coding。現在大型廠商,如微軟和谷歌,從去年開始就強制要求員工使用 AI 生成一定比例的代碼。如果大廠都在推行這種工作流程,那么企業跟進后帶來的效率提升幾乎是確定的,性價比也是正向的。至于那些更長期的項目,我認為干脆不必談性價比,能真正落地就已經非常不錯了。
王云峰:AI 的價值主要體現在兩個方面:一是提效,也就是原本由人完成的工作轉由 AI 處理,并且效率更高;二是 enable something,即讓過去在沒有 AI 時無法實現的事情變得可能。關于提效,當前 AI 在許多場景中基本可以達到初級到中級人員的能力水平。
如果某項工作具有較高頻次、規則性強、同時容錯率允許,那么交給 AI 來做效率往往顯著更高。而在一些強調創意性的工作中,AI 也表現突出。至少從我們觀察到的發展歷程看,AI 最初被大量應用的就是創意類任務,比如生成視覺作品,這類任務中 AI 的多樣性優勢非常明顯。
相比之下,編程反而比早期的繪圖類任務更晚成熟,因為編程對結果準確性要求更高。不過編程也有其優勢:程序本身規律性強、歷史代碼庫豐富,因此模型能夠較快適應。相反,對于那些既要求極高準確性,又缺乏明顯規律性的任務,AI 目前仍難以勝任。
現在前兩類任務 AI 已經能處理得比較好。但如果我們追求 enable something,即實現過去無法做到的事,那么此時無需過多考慮成本,只要在可承受范圍內即可。因為一旦能開拓出全新的領域,其性價比可以說是無限大。
吳昊宇:第一個問題是:業務方能否明確說明 AI 的衡量標準?也就是效果好壞需要有客觀評估,而不是憑拍腦袋判斷。第二個問題是:業務方是否掌握數據?如果沒有數據,只能完全依賴大模型從零推斷,往往難以取得理想結果;但如果業務方有數據,可以用于提示或微調,AI 的效果通常會更好。還有一點是業務方是否有預算。不能既不給資源又要求結果。如果同學們正在推進類似項目,可以用這幾條先和業務方對照一下:他們想實現什么目標?希望達到什么效果?是否有數據積累?如果完全一無所有,或許換個方向會更合適。
馬可薇:王總,您之前的分享提到了 MCP Server。在實戰中,讓通用大模型通過 MCP 協議去調用值得買復雜的電商接口(查價、領券),最難解決的“協議對齊”問題是什么? 如何防止 Agent 因為“誤解”協議參數而亂操作?
王云峰:真正最難的不是協議對齊,而是業務對齊。起初確實會遇到一些協議層面的參數不一致等問題,但從技術角度看,這些都是可解的。有時通過調整模型,或者增加一輪反思,理解用戶意圖后,再結合傳統方法與模型能力,大多能解決協議層面的對齊。真正困難的是業務層面的對齊。雖然協議提供了共同語言,但即便使用同一種語言,相同的詞在不同語境下表達的含義也不同。比如“好”或“優惠”等詞,在不同業務場景中有不同的業務語義。因此,我們在實踐中踩過的坑,往往集中在如何與合作伙伴在業務理解上達成一致。
接下來要考慮的是,這種業務預期是否應該由我們現有接口提供,還是需要新增接口。同時,我們的合作伙伴數量眾多,他們各自有自己的設計與呈現方式,而我們需要保持服務的相對標準化,不可能為每家都做定制化。因此真正的難點是業務模型與技術模型如何統一、如何對齊。純技術層面的參數對齊反而是最不需要擔心的,畢竟大家都是寫程序的。
吳昊宇:這讓我想到 text-to-SQL 的場景。老板問問題時從不會按照模型需要的方式來問,他只會說:“今年業績怎么樣?”這背后對應的是一大堆圖表。
馬可薇:是的,仍然需要把自然語言或老板的需求轉化成機器能理解的表達方式。
王云峰:大模型帶來的真正挑戰,對技術人員來說,是角色要求的變化。以前很多專業難題需要技術人員憑專業能力解決,現在模型提高了效率,也補足了短板。但這同時帶來一個誤區,讓一些人認為 AI 無所不能,把它當作許愿池。真正的挑戰是我們這些技術人員是否能向前邁一步,不僅掌握技術,還要理解業務需求,理解業務語言。大模型雖能理解自然語言,但不一定理解業務語言。
吳昊宇:業務語言需要大量“翻譯”。
王云峰:這也是未來 AI 普及后,對程序員、工程師和架構師的真正挑戰。
魯琲:隨著 Agent 能力增強,我們常舉例,現在讓一個 Agent 做圖表,工程師能輕松實現。但如果未來企業內部有大量 Agent 參與工作,你告訴 Agent 說:“我給你設一個目標:明年一季度增長 25%。”它該如何實現?這種業務語言的對齊確實很難。
馬可薇:吳總,在處理政企復雜流程時,您覺得這種“調度邏輯”是應該寫死在代碼里(SOP),還是應該讓大模型自己去“動態規劃”?
吳昊宇:兩種方式以及中間狀態都可能需要。在要求特別高的領域,例如大型企業,或者老板偏好確定性結果的場景,可以使用 SOP 的方式寫死,或采用 workflow 方法,確保可用性和正確性。
在更動態的場景下,可以充分發揮模型能力,比如調研、動態執行等場景。我們現在常用 Claude Code 的 skill 機制,通過約束把技能中的核心流程固定下來,而外圍處理交由模型自主完成。這樣既有 SOP,又能保留靈活性。
舉個例子:我們的一位 HR 想做員工能力評估模型,他給了我們一份咨詢報告,希望提煉成能力模型。我們使用“提煉技能”的能力,把文檔總結成一個能力模型技能,再將員工的郵件、績效記錄及其他非結構化數據輸入,模型就能按技能中的 SOP 自動總結。這樣 HR 在幾分鐘內就獲得了一個強大的技能。這個方式能很好地平衡 SOP 與靈活性。在輿情分析等場景也是類似,不同分析師的數據來源和路徑不同,但分析框架是一致的,而技能機制可保持這種一致性與靈活性。
馬可薇:那現在主流是兩種方式混合使用,還是更傾向代碼寫死或模型動態規劃?
吳昊宇:仍然取決于具體場景。如果業務方要求嚴格,那我們會采用 workflow 的方式處理,雖然現在基本不再直接寫代碼。
觀眾:可信 Agent 目前是主要靠 RAG 和知識圖譜嗎?有沒有其他方式?
王云峰:我認為目前如果完全依賴模型,幻覺問題在一些場景下是不可避免的。根據已有研究,在加入 RAG 后,幻覺可以被有效抑制,雖然無法降到零,但確實是目前較好的解決方案。不過,幻覺問題目前沒有 100% 徹底解決的辦法。如果業務場景要求完全無幻覺,仍需要依靠額外的外圍機制或校驗流程來確保結果的可靠性,而這也取決于具體的應用場景。
馬可薇:當成千上萬個 Agent 同時跑起來,這就不是單卡訓練的問題了。魯總,面對這種碎片化推理請求,異構集群(國產 / 英偉達混用)怎么保證調度不卡頓?
魯琲:調度本質上是推理過程,調度算法需要實時感知推理節點的負載情況,再進行 workload 分發。在同構集群中,判斷節點負載已相當復雜,需要綜合考慮 GPU 利用率、隊列長度、內存占用、以及新任務可能生成的 Token 數等因素;而在異構集群中,這些問題會被進一步放大。同一請求落在不同類型的節點(如國產芯片與英偉達芯片)時,其真實計算消耗往往不同,原因包括算子優化差異、內存訪問模式差異、精度差異,甚至節點之間通信方式(NVLink 或 RoCE)的差別。不同設備之間很難完全對齊,因此在實際落地中通常會根據不同卡的壓測結果,調整負載評估邏輯并設置不同的權重。
最終通常采用多種調度策略組合,根據不同 workload 的 SLA 要求進行分配。例如,對響應速度要求極高的請求,會優先調度到性能強、負載低的節點;對要求較低的請求,用來做整體負載均衡;而離線推理或批處理任務,會被安排到功耗更低、速度相對慢的設備上。這樣可以在保證高 SLA 請求優先滿足的同時,讓低 SLA 請求提高集群整體利用率,從而形成一套兼顧性能與性價比的組合式調度策略。
馬可薇:吳總,在算法層面,如何設計調度策略,是優先保 Agent 的響應速度,還是保系統的整體吞吐量?
吳昊宇:在我們大規模的 Agent 集群中,更關注的是調度鏈路是否穩定。因為 Agent 的執行過程通常包含規劃、工具調用、反思等多輪循環,實際的性能瓶頸往往不在 GPU 或大模型本身,而是在外部異步任務或外部調用時產生大量耗時。因此,我們優化的重點是確保 Agent 能順暢執行。
這些 Agent 也有不同類型:部分用于實時交互,部分處理異步任務,還有部分負責大批量任務,如處理海量帖子或抓取網頁。調度策略必須確保實時交互不卡頓,同時離線任務能充分利用外部資源。我們采用多 Agent、多模型尺寸的結構,讓簡單任務使用成本較低的小模型,復雜任務使用更強但更耗資源的大模型。通過這種組合優化,可以提升整體并發數,并保持較低時延。
馬可薇:王總,在電商導購場景,延遲的“生死線”是多少毫秒?超過多少毫秒用戶就會關閉頁面?”
王云峰:在 C 端場景中,尤其是對話類場景,1 秒內若不能輸出首 token,體驗基本就失敗了。雖然大家對大模型的容忍度比傳統應用高,因為用戶已經習慣稍等片刻再看到結果,但總體上仍需在 1–2 秒內給出首 token,并保持持續輸出。對于簡單問答類場景,幾秒內完成輸出較為理想;若是深度思考類任務,用戶還能接受更長的等待時間。而對離線處理來說,關注的重點變成吞吐量,時延并不那么關鍵,因此調度策略會根據不同任務類型采取不同側重。
馬可薇:企業用 Agent 最怕它“死循環”或“胡說八道”。在你們的架構中,哪里是那個“紅色按鈕”(熔斷機制)?在應用層,MCP Server 有沒有設計業務邏輯上的“熔斷機制”?在基礎設施層,有沒有資源消耗上的“硬熔斷”?
王云峰:一般來說,我們會設置一個循環閾值,超過后即可認定系統已出現崩潰,這是最基礎的做法。對于對外提供的 MCP Server,由于全部是預處理好的數據,因此通常不會出現死循環的問題,但我們會對吞吐做一定的熔斷和限制。整體機制與傳統系統中的熔斷并無本質區別。
魯琲:我們的熔斷機制更多是在技術架構層面,在基礎設施層面通常會為每個 Agent 分配獨立的 API key,并對各 API key 設置 rate limit 和預算上限。即使 Agent 進入死循環,在 Token 消耗超限后也能被限制住。MCP Server 也是類似邏輯:為了防止 Agent 死循環,需要在 API 層面設置 rate limit。整個系統的構建都基于“互相不完全信任”,因此必須做各種層次的防御。
吳昊宇:我們的 Agent 基礎設施,主要通過沙盒機制實現隔離。Agent 的執行環境運行在獨立的虛擬機中,即使出現循環、資源耗盡或掛掉的情況,也不會影響外部的主控系統。其次,我們會監控 Agent 的執行狀態,包括是否循環、資源占用是否異常、是否頻繁發送請求等,并通過網絡、硬盤、CPU、內存等維度進行監控。如果判斷運行異常,會在外部直接將其 kill 掉。
此外,在 Agent 執行過程中,人工可以隨時中斷其運行,通過外部協作判斷 Agent 是否正常。面向企業場景時,我們還需對模型及其任務規劃、執行模型進行調整,確保規劃路徑和執行動作符合可信標準,避免生成過于離譜的操作,并在執行中加入必要的安全檢查,防止觸發高危操作。
展望 Agent 的未來形態
馬可薇:如果 Agent 成為主流,未來的軟件(ERP/CRM)會不會消失,只剩下 API?作為技術人,我們現在是應該去學“怎么寫 Agent”,還是去學“怎么寫被 Agent 調用的 API”?
魯琲:我相信在非常長遠的未來,軟件形態本身會消失。但在這一未來到來之前,在相當長的一段時間里,軟件的核心功能仍將被保留,而其中與人交互的部分會逐漸淡出,由類似 Agent 的交互模式取而代之。在這種模式下,Agent 事實上承擔了軟件外殼的作用。軟件的核心功能會以 API 的形式暴露給 Agent。
對初級開發者而言,仍需通過扎實學習掌握復雜的后端 API 開發和業務核心功能,并逐漸形成對系統架構和高并發系統的深入理解。而對中高級開發者來說,在具備 API 層面的深刻認知后,可以進一步嘗試 Agent 的開發,更好地彌合 AI 應用與后端服務之間的 gap。我認為這類具備雙向能力的人,未來會在市場上變得非常稀缺。
吳昊宇:未來可能真的不再存在傳統意義上的軟件界面,UI 可能完全消失,取而代之的是由 Agent 與系統直接交互。當然,軟件本身仍可能以 API 形式存在,因為構建完整系統仍需專業軟件廠商去完成,只是 UI 不再由人直接使用,而由 Agent 處理。企業內部甚至可能形成一個“超級 Agent”,管理幾乎所有業務流程。
基于此,即便技術人員沒有從事 Agent 開發,我仍建議大家理解 Agent 的工作原理,包括它如何運作、如何被調度、運行基礎是什么,以及 Agent 之間如何交互。至于 API 的學習需求,則取決于各自的工作方向。面對高并發場景或后端基礎能力的建設,相關技能依舊必不可少。幸運的是,現在比過去有了更好的學習條件,AI 能幫助理解架構、編寫代碼和傳授經驗,對技術人員而言是非常好的時代。
王云峰:Agent 之所以強大,是因為它站在“巨人”的肩膀上,而這些巨人就是歷史上無數程序員一行行寫出的代碼。二十五年前,會寫 HTML 都是非常重要的技能,寫頁面的人收入甚至比寫 C++ 編譯器的人還高;但市場很快變化了,因為這些技能極易被新工具替代。
現階段,會使用 AI、會搭建一個 Agent 是一種偏表層的能力,而更核心的依然是對計算機整體運行機制的理解。我不知道量子計算機何時普及,但至少目前 Agent 的上層表現再“神奇”,底層仍是基于最基本的數學和計算機原理,在馮·諾依曼體系結構上運行。因此,如果希望避免被時代淘汰,就必須知其然并知其所以然。
很多依賴記憶或機械性勞動的工作未來會被 Agent 覆蓋,但真正理解底層原理的能力,才能幫助我們把握 AI 的能力邊界,識別它的長板與短板,并更有效地利用它。因此,計算機最基礎的知識永遠有價值。你可能不會顯式意識到自己在使用這些知識,但它們形成的思維習慣與直覺,會成為你使用 AI 能力的重要底層支撐。
馬可薇:在 Agent Infrastructure(基建)領域,2026 年最可能爆發的一個技術變量是什么?
魯琲:我認為未來應當形成多 Agent 的治理體系。2025 年 Agent 的發展非常迅速,從早期的 demo 已經逐漸落地到生產環境,并出現了許多現象級的 ToC 應用,如 Manus。到 2026 年,我相信 Agent 將被更多企業級應用采用,逐步成為企業運行基礎設施的重要組成部分。
生產級的多 Agent 落地很可能在 2026 年大規模發生。從技術角度看,多 Agent 之間的交互協議基礎已經初步具備。然而,單 Agent 的運維、調試、性能監控與迭代本身就極為復雜;當系統擴展到多 Agent 后,這些復雜性將呈指數增長,多 Agent 的交互邏輯會隱藏大量潛在問題,一個 Agent 的異常輸出可能污染整個系統的上下文,甚至導致系統性失敗。因此,構建完善的多 Agent 治理體系,是企業級落地的必要前提。
吳昊宇:Agent 體系確實是非常重要的發展方向。目前常見的 Claude Code 以及我們公司自研的一些 Agent 框架,實際上都在探索多 Agent,只是距離成熟還很遠。我們關注的核心問題是:如何讓企業敢在真實生產環境中使用 Agent?關鍵在于讓 Agent 的產出結果具備可信性。
我們主要從兩個層面提升可信性。第一是數據可信,即數據源是否真實、有效,并通過知識圖譜等方式增強上下文的可靠性,避免 Agent 在執行過程中偏離核心語義。第二是模型輸出可信,即從任務規劃到任務執行的整個鏈路都要可控、可靠,確保規劃合理、執行安全,不產生危險操作,并能準確落實意圖。
王云峰:從技術層面看,不確定性仍然很多,算法和算力的發展方向也未必有明確答案。但我認為最關鍵、也最希望發生的事情并不在技術本身,而在市場端:希望在 2026 年,市場對 Agent 的認可度能夠顯著提高。
AI 是一種徹底的顛覆性技術,與以往技術不同,它在很多方面甚至需要整個市場被重新教育。在人們沒有形成足夠理解之前,很難發揮其全部能力。尤其在企業場景下,對安全性、數據與結果準確性都有更高要求。如果仍停留在“要么把它當萬能許愿池,要么認為一無是處”的極端認知,那 Agent 很難發揮作用。
我們期望有越來越多的用戶和企業找到適合自身業務的 Agent 使用方式,發揮其長板、規避其短板,使 Agent 真正為業務創造價值。今年我們一直在講“Agent 元年”,而一個行業之所以能持續有人投入研究與建設,最終仍需要在市場中產生真實成效。
AI 重塑組織的浪潮已至,Agentic 企業時代正式開啟!當 AI 不再是單純的輔助工具,而是深度融入業務核心、驅動組織形態與運作邏輯全面革新的核心力量。
把握行業變革關鍵節點,12 月 19 日 - 20 日,AICon 全球人工智能開發與應用大會(北京站) 即將重磅啟幕!本屆大會精準錨定行業前沿,聚焦大模型訓練與推理、AI Agent、研發新范式與組織革新,邀您共同深入探討:如何構建起可信賴、可規模化、可商業化的 Agentic 操作系統,讓 AI 真正成為企業降本增效、突破增長天花板的核心引擎。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.