網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

工信部測試報(bào)告（全文）AI 大模型智能體哪家強(qiáng)？

2025-09-10 07:34:10　來源: AI先鋒官

北京舉報(bào)

分享至

作者｜子川

來源｜AI先鋒官

關(guān)于大模型智能體哪家強(qiáng)這個(gè)問題終于有一個(gè)明確的答案啦！最近，由國家工業(yè)信息安全發(fā)展研究中心賽昇實(shí)驗(yàn)室牽頭，給阿里云百煉、騰訊云智能體開發(fā)平臺(tái)、扣子及百度智能云千帆安排一場測試。不再是看數(shù)據(jù)，而是測試實(shí)際場景的表現(xiàn)。

此次測試圍繞RAG、工作流和Agent三大核心維度展開，涵蓋政府、電商、電力等多個(gè)場景。

測試標(biāo)準(zhǔn)非常嚴(yán)謹(jǐn)，統(tǒng)一采用DeepSeek R1進(jìn)行推理，DeepSeek V3進(jìn)行問答。數(shù)據(jù)上，30份文本（10萬字級(jí)）、5張結(jié)構(gòu)化表格（1.5萬+記錄）、10組圖文，構(gòu)成600+問題的試卷，外加13條端到端流程，從網(wǎng)頁到API，全程監(jiān)控表現(xiàn)。得到的結(jié)論很直接。

RAG領(lǐng)域：文本理解已基本定型，但結(jié)構(gòu)化數(shù)據(jù)分析和多模態(tài)協(xié)同仍是行業(yè)共同的“軟肋”。
工作流領(lǐng)域：功能基本可用，但仍需精細(xì)調(diào)優(yōu)，參數(shù)的動(dòng)態(tài)捕獲和異常回滾機(jī)制，是衡量其智能程度的關(guān)鍵指標(biāo)。
Agent領(lǐng)域：其能力的上限，在于工具生態(tài)的豐富度和工程實(shí)現(xiàn)的魯棒性。多工具的協(xié)同作戰(zhàn)能力和任務(wù)的閉環(huán)完成度，直接決定了用戶體驗(yàn)的高度。

四家平臺(tái)的測試結(jié)果成功出爐了，有人歡喜，有人愁。

阿里云百煉

優(yōu)勢：結(jié)構(gòu)化數(shù)據(jù)接入、參數(shù)提取和工作流流程控制穩(wěn)健，底層架構(gòu)成熟。

需提升：純文本RAG處理結(jié)構(gòu)化數(shù)據(jù)局限，圖文問答和部分工具調(diào)用穩(wěn)定性有待提高。

騰訊云智能體開發(fā)平臺(tái)

優(yōu)勢：端到端流程打通，原生工具鏈完善，在多工具協(xié)同、參數(shù)提取及流程容錯(cuò)上表現(xiàn)均衡領(lǐng)先。RAG在知識(shí)庫外問題拒答率高，圖文配圖回答率領(lǐng)先。

需提升：RAG多表查詢偶有偏差，工作流意圖識(shí)別精細(xì)度可優(yōu)化。

扣子

優(yōu)勢：輕量化插件系統(tǒng)與靈活工作流節(jié)點(diǎn)組合，開發(fā)效率高。

需提升：RAG多文檔信息有遺漏，結(jié)構(gòu)化數(shù)據(jù)問答和API調(diào)用穩(wěn)定性需補(bǔ)強(qiáng)；工作流參數(shù)提取和意圖識(shí)別有待加強(qiáng)；Agent圖表顯示存在技術(shù)瑕疵。

百度智能云千帆

優(yōu)勢：結(jié)構(gòu)化引擎與跨表聚合能力扎實(shí)，自有生態(tài)工具整合度高。

需提升：R AG圖文問答存在流程bug，工作流參數(shù)提取仍需加強(qiáng)；Agent圖表生成需用戶手動(dòng)轉(zhuǎn)化，多工具協(xié)同完整性及工具調(diào)用穩(wěn)定性有提升空間。

下面是完整的報(bào)告。

一、測試概述(1)測試背景與核心內(nèi)容

在產(chǎn)業(yè)智能化轉(zhuǎn)型加速的背景下，大模型驅(qū)動(dòng)的智能體(Agent)已形成多場景滲透態(tài)勢。智能體因其具備知識(shí)增強(qiáng)、流程編排和智能決策等核心能力，正重塑企業(yè)級(jí)服務(wù)的技術(shù)生態(tài)。

為用戶更好地了解大模型智能體典型場景應(yīng)用情況，對(duì)智能體開發(fā)平臺(tái)(以下簡稱“平臺(tái)”)技術(shù)實(shí)現(xiàn)路徑與行業(yè)適配機(jī)制進(jìn)行研究。

本次測試選取阿里云百煉、騰訊云智能體開發(fā)平臺(tái)、扣子及百度智能云千帆四個(gè)典型智能體開發(fā)平臺(tái)的個(gè)人電腦端，圍繞業(yè)務(wù)智能化的驅(qū)動(dòng)能力展開測試。

結(jié)合智能體的技術(shù)演進(jìn)態(tài)勢和行業(yè)應(yīng)用實(shí)踐，本報(bào)告確立RAG能力、工作流能力、智能體工具調(diào)用三個(gè)關(guān)鍵能力維度進(jìn)行測試評(píng)估。

1.RAG能力測試：RAG能力評(píng)估重點(diǎn)考察平臺(tái)的知識(shí)增強(qiáng)機(jī)制，旨在驗(yàn)證RAG在真實(shí)業(yè)務(wù)場景中的綜合表現(xiàn)，包括知識(shí)檢索精度、邏輯推理能力以及用戶體驗(yàn)的平衡性。

重點(diǎn)評(píng)估三個(gè)維度:

一是多模態(tài)知識(shí)處理能力:包括文本、表格、圖文等不同類型載體的處理:

二是任務(wù)復(fù)雜度適應(yīng)能力:蓋從單點(diǎn)信息提取到跨文檔關(guān)聯(lián)推理的不同難度層級(jí);

三是交互機(jī)制完備性:包含拒處理、澄清反饋、湖源引用等關(guān)鍵功能。

2.工作流(Workflow)能力測試:工作流能力重點(diǎn)考察復(fù)雜場景下平臺(tái)的流程控制機(jī)制，評(píng)估多輪對(duì)話中的流程穩(wěn)定性與控制精度。

以智能客服典型業(yè)務(wù)場景的訂單咨詢、退換貨等能力為研究對(duì)象，聚焦參數(shù)動(dòng)態(tài)提取、異常回退、意圖識(shí)別與容錯(cuò)處理等關(guān)鍵智能性。

3.Agent 能力測試:Agent能力圍繞工具調(diào)用智能化水平與復(fù)雜任務(wù)處理體驗(yàn)，考察單工具邏輯判斷、多工具協(xié)同及提示詞指令執(zhí)行能力，驗(yàn)證智能體對(duì)內(nèi)外部工具調(diào)用協(xié)同的意圖識(shí)別、選擇科學(xué)性與答案整合效果。

(二)測試方法與數(shù)據(jù)說明

本節(jié)圍繞智能體開發(fā)平臺(tái)核心能力評(píng)估，系統(tǒng)闡述了測試方法與數(shù)據(jù)情況。

研究通過構(gòu)建貼合企業(yè)級(jí)服務(wù)典型業(yè)務(wù)場景的標(biāo)準(zhǔn)化框架，結(jié)合多態(tài)測試數(shù)據(jù)集、統(tǒng)一配置的智能體/工作流、綜合性問題集，以及多樣化調(diào)用與過程采集方式，實(shí)現(xiàn)對(duì)平臺(tái)核心能力的系統(tǒng)測試與分析;

同時(shí)明確了測試涉及的基礎(chǔ)知識(shí)數(shù)據(jù)與響應(yīng)結(jié)果數(shù)據(jù)的具體構(gòu)成、來源及特征，為后續(xù)研究的科學(xué)性與可靠性奠定了方法與數(shù)據(jù)基礎(chǔ)。

1.測試方法

本次測試基于模擬真實(shí)應(yīng)用場景，構(gòu)建標(biāo)準(zhǔn)化測試框架實(shí)現(xiàn)對(duì)大模型驅(qū)動(dòng)的智能體開發(fā)平臺(tái)核心能力的系統(tǒng)測試、比對(duì)、分析。

場景構(gòu)建方法。場景構(gòu)建選取企業(yè)級(jí)服務(wù)中的客戶服務(wù)、訂單處理、知識(shí)問答等典型業(yè)務(wù)場景，精準(zhǔn)還原真實(shí)業(yè)務(wù)流程中的交互邏輯與任務(wù)需求，以此保障測試場景與實(shí)際業(yè)務(wù)的高度貼合。

數(shù)據(jù)集構(gòu)建方法。數(shù)據(jù)集構(gòu)建針對(duì)多模態(tài)知識(shí)處理需求，構(gòu)建包含政策文檔、業(yè)務(wù)規(guī)范等純文本，訂單數(shù)據(jù)、客戶信息等結(jié)構(gòu)化表格，產(chǎn)品說明、操作指南等圖文數(shù)據(jù)的測試數(shù)據(jù)集，實(shí)現(xiàn)對(duì)不同知識(shí)載體類型與業(yè)務(wù)領(lǐng)域的全面覆蓋。

智能體/工作流配置方法。智能體/工作流配置依據(jù)各智能體的技術(shù)架構(gòu)，在線配置相應(yīng)的智能體與工作流模塊。推理模型統(tǒng)一設(shè)定為DeepSeekRl，問答模型統(tǒng)一設(shè)定為 DeepSeekV3，其余參數(shù)采用系統(tǒng)默認(rèn)設(shè)置。

僅對(duì)影響核心能力評(píng)估的關(guān)鍵配置進(jìn)行必要對(duì)齊(若部分智能體默認(rèn)模型無法切換，則保留其默認(rèn)配置)。

測試問題及設(shè)計(jì)方法。測試問題集設(shè)計(jì)以行業(yè)真實(shí)業(yè)務(wù)流程和應(yīng)用場景為依托，圍繞三大核心能力維度，設(shè)計(jì)包含15個(gè)測試項(xiàng)、600+測試問題的綜合性問題集眚煩箏様企個(gè)銜匏屁問題均標(biāo)注對(duì)應(yīng)能力維度與預(yù)期輸出，作為評(píng)估基準(zhǔn)。

調(diào)用與過程采集方法。調(diào)用與過程采集通過網(wǎng)頁交互與API接口調(diào)用兩種方式，模擬用戶操作與系統(tǒng)集成場景，采集各智能體在問題處理過程中的響應(yīng)結(jié)果及流程軌跡，為后續(xù)的統(tǒng)計(jì)分析提供便利。

2.數(shù)據(jù)說明

本次測試使用及產(chǎn)生的數(shù)據(jù)主要包含基礎(chǔ)知識(shí)數(shù)據(jù)、響應(yīng)結(jié)果數(shù)據(jù)。

基礎(chǔ)知識(shí)數(shù)據(jù)說明。基礎(chǔ)知識(shí)涵蓋政府、電商、電力3個(gè)行業(yè)的業(yè)務(wù)資料，包括純文本文檔 30份(總字?jǐn)?shù)約10萬字)、結(jié)構(gòu)化表格5張(含15000+條記錄)、圖文內(nèi)容10組(含產(chǎn)品圖、流程圖等)。數(shù)據(jù)來源為公開政策文件、行業(yè)報(bào)告及模擬業(yè)務(wù)場景生成的標(biāo)準(zhǔn)化資料，確保數(shù)據(jù)的典型性與可控性。

響應(yīng)結(jié)果坼嗩軒據(jù)說明。響應(yīng)結(jié)果包括文本生成內(nèi)容、知識(shí)來源引用、流程參數(shù)變忸胄鴎堅(jiān)諍慰壕氹茂工?瞓殍具調(diào)用記錄等，數(shù)據(jù)記錄涵蓋時(shí)間戳、處理狀態(tài)、錯(cuò)誤信息等元數(shù)據(jù)，為能力分析提供完整軌跡。

(三)免責(zé)聲明

測試時(shí)效性說明。本測試開展時(shí)間為2025年5月20日-2025年6月15日，所有準(zhǔn)確率計(jì)算方法見附件，所有計(jì)算結(jié)果限于測試時(shí)間內(nèi)成立。

測試限制性說明。本測試基于特定模型版本與測試場景，實(shí)際應(yīng)用效果可能因業(yè)務(wù)需求、配置調(diào)整及技術(shù)迭代產(chǎn)生差異。測試結(jié)果不構(gòu)成任何商業(yè)推薦，用戶需結(jié)合自身場景進(jìn)行獨(dú)立驗(yàn)證與選型決策，

測試缺陷性說明。本測試僅針對(duì)各平臺(tái)用戶終端小樣本體驗(yàn)，有可能存在數(shù)據(jù)缺失、技術(shù)環(huán)境不完全、樣品版本 bug等缺陷限制。

本次測試最終解釋權(quán)歸國家工業(yè)信息安全發(fā)展研究中心賽昇實(shí)驗(yàn)室所有。

一、RAG 能力測試

RAG 定義:英文全稱是Retrieval-AugmentedGeneration，中文全稱是檢索增強(qiáng)生成。

是一種通過數(shù)據(jù)檢索改進(jìn)模型內(nèi)容生成效果的技術(shù)方案，它引入來自外掛向量數(shù)據(jù)庫、知識(shí)圖譜或網(wǎng)絡(luò)的數(shù)據(jù)，對(duì)原始問題補(bǔ)充增強(qiáng)后輸入給大模型，有效緩解幻覺問題，并提高知識(shí)更新速度與生成可追溯性(來源:微軟研究院)。

(一)RAG 測試采用指標(biāo)

本次測試對(duì)RAG 能力的評(píng)估從檢索精準(zhǔn)度、知識(shí)覆蓋廣度等六大核心維度展開。

一是檢索精準(zhǔn)度，衡量召回相關(guān)文檔的準(zhǔn)確率與冗余信息過濾能力;

二是知識(shí)覆蓋廣度，評(píng)估對(duì)領(lǐng)域內(nèi)知識(shí)的覆蓋完整性及邊緣信息的處理能力;

三是推理融合度，考察將檢索結(jié)果與問題深度結(jié)合、生成邏輯連貫回答的水平;

四是時(shí)效性響應(yīng)關(guān)注檢索與生成的整體效率及動(dòng)態(tài)知識(shí)更新適配性;

五是多模態(tài)適配性，檢驗(yàn)對(duì)文本、表格、圖片等多元數(shù)據(jù)的處理能力;

六是魯棒性表現(xiàn)，評(píng)估面對(duì)模糊問題、噪聲數(shù)據(jù)時(shí)的容錯(cuò)與修正能力。

(二)測試實(shí)施

本次測試重點(diǎn)探索RAG在深度行業(yè)場景中的落地能力，構(gòu)建了基于知識(shí)載體多樣性、任務(wù)復(fù)雜度與機(jī)制完備性的三維評(píng)估體系。選取政策咨詢、電商客服、銷售數(shù)據(jù)分析等6個(gè)典型場景，構(gòu)建500+個(gè)高質(zhì)量問題集。測試任務(wù)具體設(shè)計(jì)以文本問答、結(jié)構(gòu)化數(shù)據(jù)問答及圖文問答為主。

1.文本問答任務(wù)。在檢驗(yàn)RAG知識(shí)整合與意圖理解方面，綜合設(shè)置了包含單文檔查詢、多文檔交叉驗(yàn)證、邊緣案例等任務(wù)形式;在檢驗(yàn)智能體交互魯棒性方面融入語義模糊問題、知識(shí)庫外問題及多輪對(duì)話。

2.結(jié)構(gòu)化數(shù)據(jù)問答任務(wù)。為考察RAG結(jié)構(gòu)化數(shù)據(jù)處理能力，基于訂單數(shù)據(jù)表與SKU表，設(shè)計(jì)單表查詢、多表關(guān)聯(lián)統(tǒng)計(jì)等復(fù)雜任務(wù)。

3.圖文問答任務(wù)。為考察RAG的0CR圖片文字識(shí)別技術(shù)、多模態(tài)內(nèi)容關(guān)聯(lián)與配圖回答能力，設(shè)置圖片內(nèi)容識(shí)別、圖表關(guān)聯(lián)檢索、多態(tài)信息融合等任務(wù)。

(三)文本問答任務(wù)

實(shí)際測試時(shí)，設(shè)計(jì)專精特新政策咨詢以及電商客服規(guī)定查詢兩種場景，問題設(shè)計(jì)聚焦單文檔精確定位、多文檔交叉驗(yàn)證與綜合、語義模糊意圖理解、知識(shí)庫外問題拒答機(jī)制等能力維度，旨在全面檢驗(yàn)RAG系統(tǒng)在純文本領(lǐng)域的檢索、理解、整合與生成能力。

1.文本處理能力表現(xiàn)優(yōu)異

各平臺(tái)在文本問題處理上展現(xiàn)出較強(qiáng)的準(zhǔn)確性，純文本問題得分普遍較高:均能實(shí)現(xiàn)意圖識(shí)別，并在知識(shí)庫中定位對(duì)應(yīng)文檔、合理組織反饋。單文檔問題少量丟分，主要源于回答不完整或存在少量“幻覺”信息。

多文檔文本問題表現(xiàn)良好，所有模型回復(fù)準(zhǔn)確率超 80%，丟分主因是多文檔結(jié)合時(shí)存在少量信息遺漏，導(dǎo)致回答不夠全面。個(gè)別平臺(tái)調(diào)用結(jié)果穩(wěn)定性不足，如扣子在進(jìn)行API調(diào)用時(shí)，有一定比例的內(nèi)容無法從知識(shí)庫獲取，而其網(wǎng)頁端提問可正確回答。

2.拒答與澄清追問處理差異化

在采用同樣拒答配置情況下，騰訊云智能體開發(fā)平臺(tái)對(duì)知識(shí)庫中不存在的問題實(shí)現(xiàn) 100%拒答，其他平臺(tái)則出現(xiàn)不同程度基于模型知識(shí)而非知識(shí)庫內(nèi)容的回復(fù)。

面對(duì)需要澄清和追問的問題，各平臺(tái)均傾向于直接提供所有相關(guān)信息供用戶參考，其中扣子對(duì)于所有問題均未給出追問清，但在多數(shù)場景也可以符合用戶需求。

3.來源引用策略傾向提供全面信息

在默認(rèn)配置下，四個(gè)平臺(tái)在來源引用方面都傾向于盡可能提供全面的參考信息。特別是在處理多文檔問題時(shí)，雖然這種做法可能導(dǎo)致一定程度的信息余，但能夠通過多源佐證幫助用戶更全面地理解信息背景。

(四)結(jié)構(gòu)化數(shù)據(jù)問答任務(wù)

本次測試圍繞銷售數(shù)據(jù)分析場景，基于實(shí)際訂單表與在售商品SKU表數(shù)據(jù)，針對(duì)單表查詢、單表統(tǒng)計(jì)、多表匹配查詢、多表匹配統(tǒng)計(jì)4類典型任務(wù)展開，考察平臺(tái)結(jié)構(gòu)化數(shù)據(jù)處理能力。

鑒于RAG在復(fù)雜數(shù)據(jù)分析場景的局限性，當(dāng)前主流平臺(tái)均對(duì)結(jié)構(gòu)化數(shù)據(jù)分析場景進(jìn)行了優(yōu)化:阿里云百煉、百度智能云千帆與扣子均設(shè)置了獨(dú)立的結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入模塊，通過字段類型預(yù)定義、格式標(biāo)準(zhǔn)化等機(jī)制強(qiáng)化數(shù)據(jù)規(guī)范性。其中，阿里云百煉和扣子進(jìn)一步設(shè)計(jì)數(shù)據(jù)庫插件，支持多表關(guān)聯(lián)查詢與動(dòng)態(tài)計(jì)算。而騰訊云智能體開發(fā)平臺(tái)則采用后臺(tái)自動(dòng)化處理方案，簡化用戶操作但弱化了過程可控性。

根據(jù)測試數(shù)據(jù)分析，各平臺(tái)表現(xiàn)差異的關(guān)鍵因素在于其對(duì)處理流程的調(diào)優(yōu)精細(xì)程度。

從結(jié)果返回看，阿里云百煉仍然是基于文檔切片，在跨表關(guān)聯(lián)、多條件組合統(tǒng)計(jì)時(shí)易出現(xiàn)信息遺漏與聚合誤差，凸顯純文本檢索模式對(duì)結(jié)構(gòu)化分析場景的適配局限;

騰訊云智能體開發(fā)平臺(tái)單表查詢表現(xiàn)優(yōu)異，但在多表查詢時(shí)存在SL查詢未能正確執(zhí)行的情況，導(dǎo)致返回結(jié)果出現(xiàn)偏差;扣子在部分場景下存在自然語言到結(jié)構(gòu)化查詢的轉(zhuǎn)換問題，主要表現(xiàn)為邏輯條件遺漏或語義理解偏差，從而導(dǎo)致返回結(jié)果異常;

百度智能云千帆在單表統(tǒng)計(jì)、多表關(guān)聯(lián)等任務(wù)中表現(xiàn)穩(wěn)定，體現(xiàn)了其結(jié)構(gòu)化引擎能較好處理復(fù)雜條件篩選與跨表聚合。

通過自然語言交互實(shí)現(xiàn)對(duì)復(fù)雜數(shù)據(jù)的操作仍是行業(yè)共性挑戰(zhàn)。研究表明，各平臺(tái)在嵌套條件解析(如“銷售額前五且?guī)齑娴陀诰渲档纳唐贰?、字段格式容錯(cuò)(如中英文標(biāo)點(diǎn)混用)以及多表路徑推導(dǎo)等任務(wù)中均存在失誤，反映出語義理解與結(jié)構(gòu)化計(jì)算協(xié)同的不足。

此類問題暴露出當(dāng)前技術(shù)需進(jìn)一步優(yōu)化的方向:一方面需增強(qiáng)自然語言到查詢語句的精準(zhǔn)映射能力，建立上下文感知與模糊匹配機(jī)制;另一方面需強(qiáng)化字段格式兼容性校驗(yàn)，通過預(yù)處理與后驗(yàn)證雙環(huán)節(jié)來保障數(shù)據(jù)分析的可靠性。

(五)圖文問答任務(wù)

圖文問答任務(wù)場景設(shè)計(jì)為風(fēng)電行業(yè)市場與技術(shù)資料分析，采用各平臺(tái)默認(rèn)推薦的多模態(tài)模型，主要考察圖片提問與配圖回答能力，以及顯式/非顯式調(diào)用情況下圖片輸出的準(zhǔn)確性與完整性。

1.具備圖片解析與文字識(shí)別的底層技術(shù)基礎(chǔ)

各平臺(tái)均具備成熟的 0CR圖片文字識(shí)別技術(shù)，能夠有效解析圖片內(nèi)容并識(shí)別用戶提問意圖，但在研究場景下的實(shí)際表現(xiàn)存在一定差異:阿里云百煉(91.7%)、騰訊云智能體開發(fā)平臺(tái)(83.3%)、扣子(83.3%)對(duì)圖片提問的識(shí)別能力較強(qiáng)，而百度智能云千帆識(shí)別率低的原因在于流程bug(3次不同時(shí)段測試綜合結(jié)果)，未能成功調(diào)用已上傳的圖片，導(dǎo)致圖片解析鏈路斷裂。

在基于文檔的圖片定位任務(wù)中，所有平臺(tái)均無法準(zhǔn)確檢索儲(chǔ)能逆變器PCS等特定技術(shù)圖片的關(guān)聯(lián)信息，暴露多模態(tài)的場景優(yōu)化深度仍有提升空間。

2.多模態(tài)內(nèi)容關(guān)聯(lián)與配圖回答率分化

各平臺(tái)配圖回答率呈現(xiàn)梯度差異:騰訊云智能體開發(fā)平臺(tái)在顯式/非顯式調(diào)用場景下以 55%的正確回答率領(lǐng)先，百度智能云千帆存在圖片顯示故障但文檔定位邏輯正確，而阿里云百煉因網(wǎng)頁端圖片顯示異常導(dǎo)致配圖正確率為0%(3次不同時(shí)段測試綜合結(jié)果)。研究顯示，顯式調(diào)用圖片指令可提升輸出比率，表明用戶交互設(shè)計(jì)對(duì)多模態(tài)輸出效果存在直接影響。

3.圖片輸出質(zhì)量控制機(jī)制存在普遍性缺失

各平臺(tái)在圖片輸出環(huán)節(jié)均出現(xiàn)內(nèi)容校驗(yàn)失效問題，典型表現(xiàn)為返回與答案無關(guān)的頁面裝飾性圖片而非業(yè)務(wù)場景所需的技術(shù)圖表，反映當(dāng)前平臺(tái)缺乏對(duì)輸出圖片內(nèi)容相關(guān)性和準(zhǔn)確性的有效校驗(yàn)機(jī)制。

三、工作流能力測試

工作流定義:一類能夠完全自動(dòng)執(zhí)行的經(jīng)營過程，根據(jù)一系列預(yù)設(shè)的過程規(guī)則，將文檔、信息或任務(wù)在不同的執(zhí)行者之間進(jìn)行傳遞與執(zhí)行(來源:國際工作流管理聯(lián)盟(Workflow Management Coalition，WfMC)。其本質(zhì)是為復(fù)雜任務(wù)提供標(biāo)準(zhǔn)化、可預(yù)測的執(zhí)行框架，尤其在需要嚴(yán)格步驟控制的業(yè)務(wù)場景中展現(xiàn)不可替代的價(jià)值。

(一)工作流測試采用指標(biāo)

本次測試對(duì)工作流能力的評(píng)估從參數(shù)動(dòng)態(tài)提取、異常回退等四大核心維度展開一是參數(shù)動(dòng)態(tài)提取，評(píng)估從對(duì)話中精準(zhǔn)識(shí)別訂單號(hào)、地址等關(guān)鍵信息的能力;二是異常回退，檢驗(yàn)參數(shù)修改或意圖切換時(shí)流程回復(fù)與狀態(tài)恢復(fù)的穩(wěn)定性;三是意圖識(shí)別，考察區(qū)分咨詢、操作等用戶真實(shí)意圖的準(zhǔn)確性;四是容錯(cuò)處理，驗(yàn)證對(duì)模糊表述、混淆信息等異常輸入的包容與修正能力。同時(shí)關(guān)注端到端流程準(zhǔn)確率、參數(shù)提取成功率等指標(biāo)，全面衡量復(fù)雜場景下的流程控制精度。

(二)測試實(shí)施

工作流能力測試以訂單修改為核心場景，基于包含13條端到端工作流、共計(jì)80+個(gè)問題的問題集，全面覆蓋參數(shù)提取、回退、意圖識(shí)別及流程容錯(cuò)四個(gè)關(guān)鍵環(huán)節(jié)。測試通過模擬用戶在多輪對(duì)話中的多樣化需求，如一般咨詢、修改配送地址、訂單退貨等，同時(shí)故意引入“盡快送達(dá)”等模糊表述以及“放棄修改并取消訂單”等意圖切換情況，著重驗(yàn)證系統(tǒng)在參數(shù)動(dòng)態(tài)管理與流程控制方面的穩(wěn)定性。在測試過程中，詳細(xì)記錄了端到端流程準(zhǔn)確率、參數(shù)提取成功率及意圖識(shí)別率等關(guān)鍵指標(biāo)深入分析不同平臺(tái)在異常輸入下的容錯(cuò)能力與恢復(fù)能力。

各平臺(tái)工作流核心能力表現(xiàn)如下:

測試數(shù)據(jù)顯示，各平臺(tái)在意圖識(shí)別環(huán)節(jié)均保持較高水平，流程終止節(jié)點(diǎn)判斷準(zhǔn)確率達(dá)100%。

參數(shù)提取環(huán)節(jié)表現(xiàn)分化，阿里云百煉與騰訊云智能體開發(fā)平臺(tái)提取準(zhǔn)確率為 75.0%，高于百度智能云千帆與扣子，差異主要體現(xiàn)在混淆信息中訂單號(hào)等關(guān)鍵字段的識(shí)別效果。

端到端流程準(zhǔn)確率方面，阿里云百煉和騰訊云智能體開發(fā)平臺(tái)準(zhǔn)確率接近 70%，扣子和百度智能云千帆略低，這一差異主要源于參數(shù)提取節(jié)點(diǎn)的影響。

整體來看，各平臺(tái)在工作流節(jié)點(diǎn)執(zhí)行層面均能達(dá)成基礎(chǔ)功能要求，但在復(fù)雜信息處理場景下的技術(shù)實(shí)現(xiàn)深度與節(jié)點(diǎn)細(xì)節(jié)調(diào)優(yōu)水平存在一定差異。

結(jié)合典型錯(cuò)誤案例進(jìn)一步分析，在意圖識(shí)別方面，除扣子外，其他平臺(tái)都會(huì)出現(xiàn)“什么情況下，可以退貨？”直接判定為退貨意圖并進(jìn)入退貨流程，而非輸出退貨相關(guān)流程信息，

這體現(xiàn)出部分平臺(tái)在意圖識(shí)別的精細(xì)度上存在不足，未能準(zhǔn)確區(qū)分咨詢意圖與操作意圖。

在參數(shù)提取方面，百度智能云千帆、扣子在面對(duì)復(fù)雜長段文字中存在混淆信息的情況，無法正確提取多處出現(xiàn)的訂單編號(hào)，而是直接輸出提示詞中的示例訂單編號(hào)，暴露出僅依賴大模型進(jìn)行參數(shù)提取在復(fù)雜場景下的局限性，

綜合以上數(shù)據(jù)分析結(jié)果，可以發(fā)現(xiàn):

1.工作流具備基礎(chǔ)可用性但仍有提升空間

各平臺(tái)工作流已具備基礎(chǔ)可用性，在合理配置下能滿足電商客服等復(fù)雜場景的基礎(chǔ)需求。各平臺(tái)整體得分差異不大，不過該得分基于基本一致的默認(rèn)配置得出，若經(jīng)過精細(xì)化調(diào)整，其表現(xiàn)仍有提升空間。例如百度智能云千帆和扣子在參數(shù)提取環(huán)節(jié)針對(duì)多訂單、地址等信息提取的失分項(xiàng)，可通過整合代碼工具等方式加以改進(jìn)。

2.不同平臺(tái)在工作流配置上呈現(xiàn)多維度差異化設(shè)計(jì)

各平臺(tái)的工作流配置均根據(jù)自身產(chǎn)品特性進(jìn)行了深度優(yōu)化，通過個(gè)性化模塊設(shè)計(jì)，重點(diǎn)圍繞大模型能力調(diào)用、工具集成適配和邏輯流程編排等關(guān)鍵維度展開。

一個(gè)典型差異體現(xiàn)在對(duì)于“任務(wù)流”和“對(duì)話流”的處理:

阿里云百煉和扣子從工作流創(chuàng)建階段就將對(duì)話管理系統(tǒng)與任務(wù)執(zhí)行引警分離，百度智能云千帆和騰訊云智能體開發(fā)平臺(tái)則采用融合設(shè)計(jì)。

其中，騰訊云智能體開發(fā)平臺(tái)通過全局Agent機(jī)制實(shí)現(xiàn)實(shí)時(shí)對(duì)話交互管理、上下文參數(shù)自動(dòng)提取、流程狀態(tài)智能監(jiān)控，并支持參數(shù)回退、對(duì)話終止等復(fù)雜場景的智能識(shí)別和處理，

另外一個(gè)典型差異體現(xiàn)在節(jié)點(diǎn)封裝方面:騰訊云智能體開發(fā)平臺(tái)將“參數(shù)提取”獨(dú)立抽象為單獨(dú)節(jié)點(diǎn):阿里云百煉與百度智能云千帆分別提供獨(dú)立的MCP(ModelContext Protocol，模型上下文協(xié)議)節(jié)點(diǎn)組件;扣子則構(gòu)建了包含9組近40個(gè)節(jié)點(diǎn)類型的豐富矩陣。

這些差異化設(shè)計(jì)既影響了用戶配置的操作門檻與使用體驗(yàn)，也在場景適配性上形成了不同側(cè)重，使得各平臺(tái)在流程搭建、功能調(diào)試、場景落地等操作環(huán)節(jié)中，展現(xiàn)出各具特色的優(yōu)勢與局限性。

總之，當(dāng)前工作流系統(tǒng)仍定位為輔助決策工具，其運(yùn)行邏輯無法完全脫離業(yè)務(wù)人員的專業(yè)判斷，否則極易引發(fā)流程斷點(diǎn)或業(yè)務(wù)邏輯處理錯(cuò)誤。

從配置層面看，工作流的搭建需要操作人員同時(shí)具備業(yè)務(wù)場景理解能力與大模型技術(shù)認(rèn)知能力，這種雙重知識(shí)儲(chǔ)備的要求形成了較高的使用門檻。

即便在經(jīng)過抽象簡化的測試場景中，參數(shù)提取偏愀外差、意圖識(shí)別誤差等問題仍可能出現(xiàn)，這進(jìn)一步凸顯了人工千預(yù)在復(fù)雜業(yè)務(wù)處理中的不可替代性--無論是流程規(guī)則的精細(xì)化調(diào)校，還是異常場景的柔性處置，均需專業(yè)人員結(jié)合業(yè)務(wù)經(jīng)驗(yàn)與技術(shù)特性進(jìn)行動(dòng)態(tài)校準(zhǔn)。

四、Agent 能力測試

智能體 Agent定義:Agent是由大語言模型動(dòng)態(tài)編排自身工作流并自主調(diào)用工具以實(shí)現(xiàn)目標(biāo)的系統(tǒng)。其核心包含三個(gè)特征:感知、決策與行動(dòng)，強(qiáng)調(diào)其在運(yùn)行時(shí)的自主性與工具擴(kuò)展性(來源:Anthropic)。

(一)Agent 測試采用指標(biāo)

本次測試重點(diǎn)評(píng)估智能體 Agent的工具調(diào)用能力，從四大維度展開。

一是意圖理解深度，衡量智能體對(duì)模糊指令、隱含需求及復(fù)雜表述的解析能力，包括多輪對(duì)話中的上下文延續(xù)性、語義歧義消解精度等:

二是操作協(xié)同性，評(píng)估用戶與智能體在任務(wù)拆解、工具調(diào)用等環(huán)節(jié)的配合流暢度，涉及步驟銜接自然度、用戶干預(yù)成本等;

三是反饋有效性，考察智能體輸出結(jié)果的可理解性、錯(cuò)誤提示的明確性及操作引導(dǎo)的實(shí)用性:四是機(jī)制完備性，檢驗(yàn)交互過程中的異常處理(如操作回退、功能解釋)等關(guān)鍵功能的覆蓋度。

測試通過構(gòu)建包含日常咨詢、復(fù)雜任務(wù)處理等典型場景的測試集，模擬不同用戶操作習(xí)慣與需求類型，采集交互軌跡與用戶反饋數(shù)據(jù)，實(shí)現(xiàn)對(duì)Agent能力的系統(tǒng)測試。

(二)測試實(shí)施

當(dāng)前，智能體技術(shù)仍處于發(fā)展初期，其功能生態(tài)與工具鏈尚未完全成熟。

在此背景下，工具調(diào)用能力成為衡量智能體實(shí)用性的核心指標(biāo)之一。本次測試以DeepSeek R1為基礎(chǔ)模型，集成天氣查詢、數(shù)據(jù)分析、圖表生成等6大類通用工具設(shè)計(jì)40+筅廼刑個(gè)問題集，重點(diǎn)考查以下工具調(diào)用維度:

單工具調(diào)用:驗(yàn)證基礎(chǔ)意圖識(shí)別與工具匹配準(zhǔn)確性。
多工具協(xié)同:檢驗(yàn)任務(wù)分解與工具鏈?zhǔn)秸{(diào)用的完整性。
提示詞顯式調(diào)用:明確在對(duì)話中顯式指定調(diào)用工具的執(zhí)行效果。

測試過程中，通過標(biāo)準(zhǔn)化流程記錄單工具調(diào)用完成率、多工具調(diào)用完成率及提示詞調(diào)用完成率，重點(diǎn)分析智能體在工具選擇合理性、調(diào)用完成度方面的表現(xiàn)。

各平臺(tái)智能體能力對(duì)比如下:

在統(tǒng)一推理模型支撐下，各平臺(tái)智能體均構(gòu)建了基礎(chǔ)工具調(diào)度機(jī)制，實(shí)現(xiàn)從用戶需求到工具調(diào)用的邏輯映射。

例如，面對(duì)“規(guī)劃5月14日從北京出發(fā)到山西的5日假期行程”的指令，所有智能體均能識(shí)別“路徑規(guī)劃+天氣查詢+聯(lián)網(wǎng)搜索”的工具組合需求，展現(xiàn)出標(biāo)準(zhǔn)化的任務(wù)分解能力。

基礎(chǔ)推理模型的強(qiáng)邏輯能力保障了工具意圖識(shí)別的一致性，各平臺(tái)智能體在工具調(diào)用效果上的差異主要源于平臺(tái)級(jí)生態(tài)支撐與流程優(yōu)化水平。其中，騰訊云智能體開發(fā)平臺(tái)在本項(xiàng)測試中表現(xiàn)突出，工具本身的功能完整性與響應(yīng)穩(wěn)定性直接提升了調(diào)用成功率。

1.插件/工具生態(tài)成熟度與集成深度，生態(tài)綁定決定能力邊界。

各家平臺(tái)普遍依托自身既有生態(tài)進(jìn)行工具接入與能力編排:百度智能云千帆優(yōu)先整合百度文庫、百科、地圖等內(nèi)容與數(shù)據(jù)資產(chǎn)，強(qiáng)化智能體的信息調(diào)取與生成支撐:騰訊云智能體開發(fā)平臺(tái)通過與騰訊文檔、騰訊地圖等原生工具的深度打通，構(gòu)建了較為完整的工具鏈結(jié)構(gòu);扣子以輕量化工具生態(tài)見長，支持快速插件開發(fā)和嵌入;阿里云百煉則聯(lián)動(dòng)釘釘、高德地圖等業(yè)務(wù)模塊，嘗試將智能體嵌入辦公、生活等實(shí)際場景中。

2.技術(shù)穩(wěn)健性與細(xì)節(jié)打磨，非核心邏輯短板影響端到端能力和用戶體驗(yàn)。

各平臺(tái)智能體均存在不同程度的工具調(diào)用流程斷點(diǎn)問題。如百度智能云千帆盡管能通過代碼解釋器生成圖表繪制代碼，但未將代碼執(zhí)行結(jié)果轉(zhuǎn)化為可視化圖表并直接輸出，需用戶額外操作，降低了多工具協(xié)同的完整性。

技術(shù)實(shí)現(xiàn)層面的瑕疵導(dǎo)致調(diào)用失敗或結(jié)果異常，影響最終輸出質(zhì)量和用戶體驗(yàn)如阿里云百煉、百度智能云千帆均出現(xiàn)過三方天氣/地圖工具認(rèn)證失敗導(dǎo)致調(diào)用中斷的情況;扣子在繪制數(shù)據(jù)圖表時(shí)，存在由于字體問題導(dǎo)致中文標(biāo)簽無法顯示的現(xiàn)象。這些問題雖未影響基礎(chǔ)工具調(diào)用邏輯，但對(duì)最終結(jié)果輸出和用戶體驗(yàn)造成一定影響。

總的來看，當(dāng)前各平臺(tái)智能體仍處于通用工具整合的初級(jí)階段，在基礎(chǔ)意圖識(shí)別與單工具調(diào)用上已具備可用性，但在多工具深度協(xié)同、行業(yè)垂直工具適配及端到端流程閉環(huán)上仍有顯著提升空間。各平臺(tái)已搭建智能體能力的技術(shù)框架，但真正實(shí)現(xiàn)“工具即服務(wù)”的智能化調(diào)度，仍需在生態(tài)建設(shè)、流程閉環(huán)與細(xì)節(jié)優(yōu)化上持續(xù)投入。研究表明當(dāng)前發(fā)展的瓶頸分為多工具深度協(xié)同與自動(dòng)化閉環(huán)能力不足、技術(shù)實(shí)現(xiàn)穩(wěn)健性亟待加強(qiáng)以及行業(yè)垂直工具適配與生態(tài)廣度深度不足三點(diǎn)。

一是多工具深度協(xié)同與自動(dòng)化閉環(huán)能力不足。流程斷點(diǎn)(如圖表代碼執(zhí)行與呈現(xiàn)分離)是普遍存在的短板，阻礙了復(fù)雜任務(wù)的無縫完成和用戶體驗(yàn)的提升。

二是技術(shù)實(shí)現(xiàn)穩(wěn)健性亟待加強(qiáng)。鑒權(quán)失敗、渲染錯(cuò)誤等技術(shù)瑕疵雖不否定核心架構(gòu)，但對(duì)實(shí)用性和可靠性構(gòu)成顯著挑戰(zhàn)，需在工程層面重點(diǎn)投入。

三是行業(yè)垂直工具適配與生態(tài)廣度深度不足。當(dāng)前集成工具多為通用型，針對(duì)金融、醫(yī)療、工業(yè)等垂直領(lǐng)域的專業(yè)工具適配深度和覆蓋廣度遠(yuǎn)遠(yuǎn)不夠，限制了智能體在專業(yè)場景的落地價(jià)值。

各平臺(tái)智能體已成功搭建底層技術(shù)框架，證明了其可行性。然而，從“能調(diào)用工具”到真正實(shí)現(xiàn)“工具即服務(wù)”的智能化、自動(dòng)化、高可靠的服務(wù)調(diào)度與交付，仍需在生態(tài)建設(shè)、流程閉環(huán)、技術(shù)穩(wěn)健性以及垂直場景深耕上持續(xù)投入與突破。當(dāng)前正處于智能體實(shí)用化能力構(gòu)建的關(guān)鍵爬坡期，解決上述瓶頸是邁向下一階段成熟應(yīng)用的必經(jīng)之路。

五、總結(jié)與展望

從三大核心維度測試結(jié)果可見，當(dāng)前智能體開發(fā)平臺(tái)能力呈現(xiàn)“基礎(chǔ)能力趨同產(chǎn)品路徑分化”的競爭格局。各平臺(tái)在文本處理、流程控制等基礎(chǔ)場景已形成標(biāo)準(zhǔn)化能力，但在復(fù)雜場景處理、多模態(tài)協(xié)同及工具生態(tài)建設(shè)上表現(xiàn)出一定差異。

各平臺(tái)差異性主要體現(xiàn)在技術(shù)路徑選擇與工程實(shí)現(xiàn)深度上。阿里云百煉在結(jié)構(gòu)化數(shù)據(jù)接入、參數(shù)提取穩(wěn)定性及工作流流程控制等方面表現(xiàn)穩(wěn)健，體現(xiàn)了其底層架構(gòu)設(shè)計(jì)的成熟性與系統(tǒng)響應(yīng)的魯棒性.

百度智能云千帆在數(shù)據(jù)庫集成等細(xì)分能力上展現(xiàn)出一定優(yōu)勢;

扣子則以輕量化插件系統(tǒng)和靈活工作流節(jié)點(diǎn)組合，提升了開發(fā)效率與定制適配能力;

騰訊云智能體開發(fā)平臺(tái)則憑借端到端的流程打通能力和完善的原生工具鏈支持，在多工具協(xié)同調(diào)用、參數(shù)自動(dòng)提取與流程容錯(cuò)處理等多個(gè)維度均實(shí)現(xiàn)較為均衡的表現(xiàn)。

智能體開發(fā)平臺(tái)間競爭力的實(shí)質(zhì)已逐步由單點(diǎn)能力比拼轉(zhuǎn)向體系能力構(gòu)建。未來的發(fā)展將取決于三個(gè)關(guān)鍵路徑的持續(xù)演進(jìn)。

首先，場景深度適配是實(shí)現(xiàn)價(jià)值落地的前提。僅具備技術(shù)能力遠(yuǎn)不足以支撐復(fù)雜場景的業(yè)務(wù)化部署，智能體必須進(jìn)一步提升模型與真實(shí)任務(wù)需求之間的耦合精度圍繞特定行業(yè)、細(xì)分任務(wù)構(gòu)建標(biāo)準(zhǔn)化知識(shí)單元與任務(wù)模板，成為“從能用到好用”的關(guān)鍵一環(huán)。

其次，技術(shù)鏈厚度構(gòu)建決定智能體的系統(tǒng)執(zhí)行能力。大模型能力的釋放必須依賴穩(wěn)定的調(diào)用機(jī)制與閉環(huán)的流程體系。當(dāng)前部分平臺(tái)在節(jié)點(diǎn)設(shè)計(jì)、狀態(tài)控制與工具響應(yīng)穩(wěn)定性方面仍存在中斷或冗余路徑，需通過組件顆粒度優(yōu)化與自動(dòng)化控制鏈路增強(qiáng)系統(tǒng)韌性。

最后，生態(tài)廣度拓展將成為智能體可持續(xù)發(fā)展的關(guān)鍵變量。智能體能力的邊界不止于自身，而取決于其與外部MCP合作體系及開發(fā)者社群的連接能力。隨著開發(fā)者需求走向定制化與多行業(yè)融合，平臺(tái)必須進(jìn)一步釋放底層能力接口，推動(dòng)第三方工具插件接入標(biāo)準(zhǔn)化，并建設(shè)完備的開放工具市場，打造“平臺(tái)+生態(tài)”的雙輪驅(qū)動(dòng)能力體系。

總的來看，智能體開發(fā)平臺(tái)正處于能力體系構(gòu)建的關(guān)鍵爬坡期。當(dāng)前競爭尚未形成不可逾越的技術(shù)壁壘，未來能否構(gòu)建穩(wěn)定、可用、可擴(kuò)展的智能體服務(wù)體系，將決定平臺(tái)在產(chǎn)業(yè)智能化轉(zhuǎn)型進(jìn)程中的角色位次。以場景適配為牽引，以技術(shù)鏈完善為支撐，以生態(tài)擴(kuò)展為保障，唯有實(shí)現(xiàn)從“任務(wù)完成”向“任務(wù)統(tǒng)籌”再到“服務(wù)自治”的跨越，方能真正走出實(shí)驗(yàn)性應(yīng)用，邁入生產(chǎn)級(jí)交付。

掃碼邀請(qǐng)進(jìn)群，我們帶你一起來玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型，順便學(xué)一些AI搞錢技能。

往期文章回顧

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.