<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      工信部測試報(bào)告(全文)AI 大模型智能體哪家強(qiáng)?

      0
      分享至

      作者|子川

      來源|AI先鋒官

      關(guān)于大模型智能體哪家強(qiáng)這個(gè)問題終于有一個(gè)明確的答案啦!最近,由國家工業(yè)信息安全發(fā)展研究中心賽昇實(shí)驗(yàn)室牽頭,給阿里云百煉、騰訊云智能體開發(fā)平臺(tái)、扣子及百度智能云千帆安排一場測試。不再是看數(shù)據(jù),而是測試實(shí)際場景的表現(xiàn)。

      此次測試圍繞RAG、工作流和Agent三大核心維度展開,涵蓋政府、電商、電力等多個(gè)場景。

      測試標(biāo)準(zhǔn)非常嚴(yán)謹(jǐn),統(tǒng)一采用DeepSeek R1進(jìn)行推理,DeepSeek V3進(jìn)行問答。數(shù)據(jù)上,30份文本(10萬字級(jí))、5張結(jié)構(gòu)化表格(1.5萬+記錄)、10組圖文,構(gòu)成600+問題的試卷,外加13條端到端流程,從網(wǎng)頁到API,全程監(jiān)控表現(xiàn)。得到的結(jié)論很直接。

      • RAG領(lǐng)域文本理解已基本定型,但結(jié)構(gòu)化數(shù)據(jù)分析和多模態(tài)協(xié)同仍是行業(yè)共同的“軟肋”。

      • 工作流領(lǐng)域功能基本可用,但仍需精細(xì)調(diào)優(yōu),參數(shù)的動(dòng)態(tài)捕獲和異常回滾機(jī)制,是衡量其智能程度的關(guān)鍵指標(biāo)。

      • Agent領(lǐng)域其能力的上限,在于工具生態(tài)的豐富度和工程實(shí)現(xiàn)的魯棒性。多工具的協(xié)同作戰(zhàn)能力和任務(wù)的閉環(huán)完成度,直接決定了用戶體驗(yàn)的高度。

      四家平臺(tái)的測試結(jié)果成功出爐了,有人歡喜,有人愁。

      阿里云百煉

      優(yōu)勢:結(jié)構(gòu)化數(shù)據(jù)接入、參數(shù)提取和工作流流程控制穩(wěn)健,底層架構(gòu)成熟。

      需提升:純文本RAG處理結(jié)構(gòu)化數(shù)據(jù)局限,圖文問答和部分工具調(diào)用穩(wěn)定性有待提高。

      騰訊云智能體開發(fā)平臺(tái)

      優(yōu)勢:端到端流程打通,原生工具鏈完善,在多工具協(xié)同、參數(shù)提取及流程容錯(cuò)上表現(xiàn)均衡領(lǐng)先。RAG在知識(shí)庫外問題拒答率高,圖文配圖回答率領(lǐng)先。

      需提升:RAG多表查詢偶有偏差,工作流意圖識(shí)別精細(xì)度可優(yōu)化。

      扣子

      優(yōu)勢:輕量化插件系統(tǒng)與靈活工作流節(jié)點(diǎn)組合,開發(fā)效率高。

      需提升:RAG多文檔信息有遺漏,結(jié)構(gòu)化數(shù)據(jù)問答和API調(diào)用穩(wěn)定性需補(bǔ)強(qiáng);工作流參數(shù)提取和意圖識(shí)別有待加強(qiáng);Agent圖表顯示存在技術(shù)瑕疵。

      百度智能云千帆

      優(yōu)勢:結(jié)構(gòu)化引擎與跨表聚合能力扎實(shí),自有生態(tài)工具整合度高。

      需提升:R AG圖文問答存在流程bug,工作流參數(shù)提取仍需加強(qiáng);Agent圖表生成需用戶手動(dòng)轉(zhuǎn)化,多工具協(xié)同完整性及工具調(diào)用穩(wěn)定性有提升空間。

      下面是完整的報(bào)告。


      一、測試概述(1)測試背景與核心內(nèi)容

      在產(chǎn)業(yè)智能化轉(zhuǎn)型加速的背景下,大模型驅(qū)動(dòng)的智能體(Agent)已形成多場景滲透態(tài)勢。智能體因其具備知識(shí)增強(qiáng)、流程編排和智能決策等核心能力,正重塑企業(yè)級(jí)服務(wù)的技術(shù)生態(tài)。

      為用戶更好地了解大模型智能體典型場景應(yīng)用情況,對(duì)智能體開發(fā)平臺(tái)(以下簡稱“平臺(tái)”)技術(shù)實(shí)現(xiàn)路徑與行業(yè)適配機(jī)制進(jìn)行研究。

      本次測試選取阿里云百煉、騰訊云智能體開發(fā)平臺(tái)、扣子及百度智能云千帆四個(gè)典型智能體開發(fā)平臺(tái)的個(gè)人電腦端,圍繞業(yè)務(wù)智能化的驅(qū)動(dòng)能力展開測試。

      結(jié)合智能體的技術(shù)演進(jìn)態(tài)勢和行業(yè)應(yīng)用實(shí)踐,本報(bào)告確立RAG能力、工作流能力、智能體工具調(diào)用三個(gè)關(guān)鍵能力維度進(jìn)行測試評(píng)估。

      1.RAG能力測試:RAG能力評(píng)估重點(diǎn)考察平臺(tái)的知識(shí)增強(qiáng)機(jī)制,旨在驗(yàn)證RAG在真實(shí)業(yè)務(wù)場景中的綜合表現(xiàn),包括知識(shí)檢索精度、邏輯推理能力以及用戶體驗(yàn)的平衡性。

      重點(diǎn)評(píng)估三個(gè)維度:

      一是多模態(tài)知識(shí)處理能力:包括文本、表格、圖文等不同類型載體的處理:

      二是任務(wù)復(fù)雜度適應(yīng)能力:蓋從單點(diǎn)信息提取到跨文檔關(guān)聯(lián)推理的不同難度層級(jí);

      三是交互機(jī)制完備性:包含拒處理、澄清反饋、湖源引用等關(guān)鍵功能。

      2.工作流(Workflow)能力測試:工作流能力重點(diǎn)考察復(fù)雜場景下平臺(tái)的流程控制機(jī)制,評(píng)估多輪對(duì)話中的流程穩(wěn)定性與控制精度。

      以智能客服典型業(yè)務(wù)場景的訂單咨詢、退換貨等能力為研究對(duì)象,聚焦參數(shù)動(dòng)態(tài)提取、異常回退、意圖識(shí)別與容錯(cuò)處理等關(guān)鍵智能性。

      3.Agent 能力測試:Agent能力圍繞工具調(diào)用智能化水平與復(fù)雜任務(wù)處理體驗(yàn),考察單工具邏輯判斷、多工具協(xié)同及提示詞指令執(zhí)行能力,驗(yàn)證智能體對(duì)內(nèi)外部工具調(diào)用協(xié)同的意圖識(shí)別、選擇科學(xué)性與答案整合效果。

      (二)測試方法與數(shù)據(jù)說明

      本節(jié)圍繞智能體開發(fā)平臺(tái)核心能力評(píng)估,系統(tǒng)闡述了測試方法與數(shù)據(jù)情況。

      研究通過構(gòu)建貼合企業(yè)級(jí)服務(wù)典型業(yè)務(wù)場景的標(biāo)準(zhǔn)化框架,結(jié)合多態(tài)測試數(shù)據(jù)集、統(tǒng)一配置的智能體/工作流、綜合性問題集,以及多樣化調(diào)用與過程采集方式,實(shí)現(xiàn)對(duì)平臺(tái)核心能力的系統(tǒng)測試與分析;

      同時(shí)明確了測試涉及的基礎(chǔ)知識(shí)數(shù)據(jù)與響應(yīng)結(jié)果數(shù)據(jù)的具體構(gòu)成、來源及特征,為后續(xù)研究的科學(xué)性與可靠性奠定了方法與數(shù)據(jù)基礎(chǔ)。

      1.測試方法

      本次測試基于模擬真實(shí)應(yīng)用場景,構(gòu)建標(biāo)準(zhǔn)化測試框架實(shí)現(xiàn)對(duì)大模型驅(qū)動(dòng)的智能體開發(fā)平臺(tái)核心能力的系統(tǒng)測試、比對(duì)、分析。

      場景構(gòu)建方法。場景構(gòu)建選取企業(yè)級(jí)服務(wù)中的客戶服務(wù)、訂單處理、知識(shí)問答等典型業(yè)務(wù)場景,精準(zhǔn)還原真實(shí)業(yè)務(wù)流程中的交互邏輯與任務(wù)需求,以此保障測試場景與實(shí)際業(yè)務(wù)的高度貼合。

      數(shù)據(jù)集構(gòu)建方法。數(shù)據(jù)集構(gòu)建針對(duì)多模態(tài)知識(shí)處理需求,構(gòu)建包含政策文檔、業(yè)務(wù)規(guī)范等純文本,訂單數(shù)據(jù)、客戶信息等結(jié)構(gòu)化表格,產(chǎn)品說明、操作指南等圖文數(shù)據(jù)的測試數(shù)據(jù)集,實(shí)現(xiàn)對(duì)不同知識(shí)載體類型與業(yè)務(wù)領(lǐng)域的全面覆蓋。

      智能體/工作流配置方法。智能體/工作流配置依據(jù)各智能體的技術(shù)架構(gòu),在線配置相應(yīng)的智能體與工作流模塊。推理模型統(tǒng)一設(shè)定為DeepSeekRl,問答模型統(tǒng)一設(shè)定為 DeepSeekV3,其余參數(shù)采用系統(tǒng)默認(rèn)設(shè)置。

      僅對(duì)影響核心能力評(píng)估的關(guān)鍵配置進(jìn)行必要對(duì)齊(若部分智能體默認(rèn)模型無法切換,則保留其默認(rèn)配置)。

      測試問題及設(shè)計(jì)方法。測試問題集設(shè)計(jì)以行業(yè)真實(shí)業(yè)務(wù)流程和應(yīng)用場景為依托,圍繞三大核心能力維度,設(shè)計(jì)包含15個(gè)測試項(xiàng)、600+測試問題的綜合性問題集眚煩箏様企個(gè)銜匏屁問題均標(biāo)注對(duì)應(yīng)能力維度與預(yù)期輸出,作為評(píng)估基準(zhǔn)。

      調(diào)用與過程采集方法。調(diào)用與過程采集通過網(wǎng)頁交互與API接口調(diào)用兩種方式,模擬用戶操作與系統(tǒng)集成場景,采集各智能體在問題處理過程中的響應(yīng)結(jié)果及流程軌跡,為后續(xù)的統(tǒng)計(jì)分析提供便利。

      2.數(shù)據(jù)說明

      本次測試使用及產(chǎn)生的數(shù)據(jù)主要包含基礎(chǔ)知識(shí)數(shù)據(jù)、響應(yīng)結(jié)果數(shù)據(jù)。

      基礎(chǔ)知識(shí)數(shù)據(jù)說明。基礎(chǔ)知識(shí)涵蓋政府、電商、電力3個(gè)行業(yè)的業(yè)務(wù)資料,包括純文本文檔 30份(總字?jǐn)?shù)約10萬字)、結(jié)構(gòu)化表格5張(含15000+條記錄)、圖文內(nèi)容10組(含產(chǎn)品圖、流程圖等)。數(shù)據(jù)來源為公開政策文件、行業(yè)報(bào)告及模擬業(yè)務(wù)場景生成的標(biāo)準(zhǔn)化資料,確保數(shù)據(jù)的典型性與可控性。

      響應(yīng)結(jié)果坼嗩軒據(jù)說明。響應(yīng)結(jié)果包括文本生成內(nèi)容、知識(shí)來源引用、流程參數(shù)變忸胄鴎堅(jiān)諍慰壕氹茂工?瞓殍具調(diào)用記錄等,數(shù)據(jù)記錄涵蓋時(shí)間戳、處理狀態(tài)、錯(cuò)誤信息等元數(shù)據(jù),為能力分析提供完整軌跡。

      (三)免責(zé)聲明

      測試時(shí)效性說明。本測試開展時(shí)間為2025年5月20日-2025年6月15日,所有準(zhǔn)確率計(jì)算方法見附件,所有計(jì)算結(jié)果限于測試時(shí)間內(nèi)成立。

      測試限制性說明。本測試基于特定模型版本與測試場景,實(shí)際應(yīng)用效果可能因業(yè)務(wù)需求、配置調(diào)整及技術(shù)迭代產(chǎn)生差異。測試結(jié)果不構(gòu)成任何商業(yè)推薦,用戶需結(jié)合自身場景進(jìn)行獨(dú)立驗(yàn)證與選型決策,

      測試缺陷性說明。本測試僅針對(duì)各平臺(tái)用戶終端小樣本體驗(yàn),有可能存在數(shù)據(jù)缺失、技術(shù)環(huán)境不完全、樣品版本 bug等缺陷限制。

      本次測試最終解釋權(quán)歸國家工業(yè)信息安全發(fā)展研究中心賽昇實(shí)驗(yàn)室所有。

      一、RAG 能力測試

      RAG 定義:英文全稱是Retrieval-AugmentedGeneration,中文全稱是檢索增強(qiáng)生成。

      是一種通過數(shù)據(jù)檢索改進(jìn)模型內(nèi)容生成效果的技術(shù)方案,它引入來自外掛向量數(shù)據(jù)庫、知識(shí)圖譜或網(wǎng)絡(luò)的數(shù)據(jù),對(duì)原始問題補(bǔ)充增強(qiáng)后輸入給大模型,有效緩解幻覺問題,并提高知識(shí)更新速度與生成可追溯性(來源:微軟研究院)。

      (一)RAG 測試采用指標(biāo)

      本次測試對(duì)RAG 能力的評(píng)估從檢索精準(zhǔn)度、知識(shí)覆蓋廣度等六大核心維度展開。

      一是檢索精準(zhǔn)度,衡量召回相關(guān)文檔的準(zhǔn)確率與冗余信息過濾能力;

      二是知識(shí)覆蓋廣度,評(píng)估對(duì)領(lǐng)域內(nèi)知識(shí)的覆蓋完整性及邊緣信息的處理能力;

      三是推理融合度,考察將檢索結(jié)果與問題深度結(jié)合、生成邏輯連貫回答的水平;

      四是時(shí)效性響應(yīng)關(guān)注檢索與生成的整體效率及動(dòng)態(tài)知識(shí)更新適配性;

      五是多模態(tài)適配性,檢驗(yàn)對(duì)文本、表格、圖片等多元數(shù)據(jù)的處理能力;

      六是魯棒性表現(xiàn),評(píng)估面對(duì)模糊問題、噪聲數(shù)據(jù)時(shí)的容錯(cuò)與修正能力。

      (二)測試實(shí)施

      本次測試重點(diǎn)探索RAG在深度行業(yè)場景中的落地能力,構(gòu)建了基于知識(shí)載體多樣性、任務(wù)復(fù)雜度與機(jī)制完備性的三維評(píng)估體系。選取政策咨詢、電商客服、銷售數(shù)據(jù)分析等6個(gè)典型場景,構(gòu)建500+個(gè)高質(zhì)量問題集。測試任務(wù)具體設(shè)計(jì)以文本問答、結(jié)構(gòu)化數(shù)據(jù)問答及圖文問答為主。

      1.文本問答任務(wù)。在檢驗(yàn)RAG知識(shí)整合與意圖理解方面,綜合設(shè)置了包含單文檔查詢、多文檔交叉驗(yàn)證、邊緣案例等任務(wù)形式;在檢驗(yàn)智能體交互魯棒性方面融入語義模糊問題、知識(shí)庫外問題及多輪對(duì)話。

      2.結(jié)構(gòu)化數(shù)據(jù)問答任務(wù)。為考察RAG結(jié)構(gòu)化數(shù)據(jù)處理能力,基于訂單數(shù)據(jù)表與SKU表,設(shè)計(jì)單表查詢、多表關(guān)聯(lián)統(tǒng)計(jì)等復(fù)雜任務(wù)。

      3.圖文問答任務(wù)。為考察RAG的0CR圖片文字識(shí)別技術(shù)、多模態(tài)內(nèi)容關(guān)聯(lián)與配圖回答能力,設(shè)置圖片內(nèi)容識(shí)別、圖表關(guān)聯(lián)檢索、多態(tài)信息融合等任務(wù)。

      (三)文本問答任務(wù)

      實(shí)際測試時(shí),設(shè)計(jì)專精特新政策咨詢以及電商客服規(guī)定查詢兩種場景,問題設(shè)計(jì)聚焦單文檔精確定位、多文檔交叉驗(yàn)證與綜合、語義模糊意圖理解、知識(shí)庫外問題拒答機(jī)制等能力維度,旨在全面檢驗(yàn)RAG系統(tǒng)在純文本領(lǐng)域的檢索、理解、整合與生成能力。

      1.文本處理能力表現(xiàn)優(yōu)異

      各平臺(tái)在文本問題處理上展現(xiàn)出較強(qiáng)的準(zhǔn)確性,純文本問題得分普遍較高:均能實(shí)現(xiàn)意圖識(shí)別,并在知識(shí)庫中定位對(duì)應(yīng)文檔、合理組織反饋。單文檔問題少量丟分,主要源于回答不完整或存在少量“幻覺”信息。

      多文檔文本問題表現(xiàn)良好,所有模型回復(fù)準(zhǔn)確率超 80%,丟分主因是多文檔結(jié)合時(shí)存在少量信息遺漏,導(dǎo)致回答不夠全面。個(gè)別平臺(tái)調(diào)用結(jié)果穩(wěn)定性不足,如扣子在進(jìn)行API調(diào)用時(shí),有一定比例的內(nèi)容無法從知識(shí)庫獲取,而其網(wǎng)頁端提問可正確回答。

      2.拒答與澄清追問處理差異化

      在采用同樣拒答配置情況下,騰訊云智能體開發(fā)平臺(tái)對(duì)知識(shí)庫中不存在的問題實(shí)現(xiàn) 100%拒答,其他平臺(tái)則出現(xiàn)不同程度基于模型知識(shí)而非知識(shí)庫內(nèi)容的回復(fù)。

      面對(duì)需要澄清和追問的問題,各平臺(tái)均傾向于直接提供所有相關(guān)信息供用戶參考,其中扣子對(duì)于所有問題均未給出追問清,但在多數(shù)場景也可以符合用戶需求。


      3.來源引用策略傾向提供全面信息

      在默認(rèn)配置下,四個(gè)平臺(tái)在來源引用方面都傾向于盡可能提供全面的參考信息。特別是在處理多文檔問題時(shí),雖然這種做法可能導(dǎo)致一定程度的信息余,但能夠通過多源佐證幫助用戶更全面地理解信息背景。

      (四)結(jié)構(gòu)化數(shù)據(jù)問答任務(wù)

      本次測試圍繞銷售數(shù)據(jù)分析場景,基于實(shí)際訂單表與在售商品SKU表數(shù)據(jù),針對(duì)單表查詢、單表統(tǒng)計(jì)、多表匹配查詢、多表匹配統(tǒng)計(jì)4類典型任務(wù)展開,考察平臺(tái)結(jié)構(gòu)化數(shù)據(jù)處理能力。

      鑒于RAG在復(fù)雜數(shù)據(jù)分析場景的局限性,當(dāng)前主流平臺(tái)均對(duì)結(jié)構(gòu)化數(shù)據(jù)分析場景進(jìn)行了優(yōu)化:阿里云百煉、百度智能云千帆與扣子均設(shè)置了獨(dú)立的結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入模塊,通過字段類型預(yù)定義、格式標(biāo)準(zhǔn)化等機(jī)制強(qiáng)化數(shù)據(jù)規(guī)范性。其中,阿里云百煉和扣子進(jìn)一步設(shè)計(jì)數(shù)據(jù)庫插件,支持多表關(guān)聯(lián)查詢與動(dòng)態(tài)計(jì)算。而騰訊云智能體開發(fā)平臺(tái)則采用后臺(tái)自動(dòng)化處理方案,簡化用戶操作但弱化了過程可控性。


      根據(jù)測試數(shù)據(jù)分析,各平臺(tái)表現(xiàn)差異的關(guān)鍵因素在于其對(duì)處理流程的調(diào)優(yōu)精細(xì)程度。

      從結(jié)果返回看,阿里云百煉仍然是基于文檔切片,在跨表關(guān)聯(lián)、多條件組合統(tǒng)計(jì)時(shí)易出現(xiàn)信息遺漏與聚合誤差,凸顯純文本檢索模式對(duì)結(jié)構(gòu)化分析場景的適配局限;

      騰訊云智能體開發(fā)平臺(tái)單表查詢表現(xiàn)優(yōu)異,但在多表查詢時(shí)存在SL查詢未能正確執(zhí)行的情況,導(dǎo)致返回結(jié)果出現(xiàn)偏差;扣子在部分場景下存在自然語言到結(jié)構(gòu)化查詢的轉(zhuǎn)換問題,主要表現(xiàn)為邏輯條件遺漏或語義理解偏差,從而導(dǎo)致返回結(jié)果異常;

      百度智能云千帆在單表統(tǒng)計(jì)、多表關(guān)聯(lián)等任務(wù)中表現(xiàn)穩(wěn)定,體現(xiàn)了其結(jié)構(gòu)化引擎能較好處理復(fù)雜條件篩選與跨表聚合。

      通過自然語言交互實(shí)現(xiàn)對(duì)復(fù)雜數(shù)據(jù)的操作仍是行業(yè)共性挑戰(zhàn)。研究表明,各平臺(tái)在嵌套條件解析(如“銷售額前五且?guī)齑娴陀诰渲档纳唐贰?、字段格式容錯(cuò)(如中英文標(biāo)點(diǎn)混用)以及多表路徑推導(dǎo)等任務(wù)中均存在失誤,反映出語義理解與結(jié)構(gòu)化計(jì)算協(xié)同的不足。

      此類問題暴露出當(dāng)前技術(shù)需進(jìn)一步優(yōu)化的方向:一方面需增強(qiáng)自然語言到查詢語句的精準(zhǔn)映射能力,建立上下文感知與模糊匹配機(jī)制;另一方面需強(qiáng)化字段格式兼容性校驗(yàn),通過預(yù)處理與后驗(yàn)證雙環(huán)節(jié)來保障數(shù)據(jù)分析的可靠性。

      (五)圖文問答任務(wù)

      圖文問答任務(wù)場景設(shè)計(jì)為風(fēng)電行業(yè)市場與技術(shù)資料分析,采用各平臺(tái)默認(rèn)推薦的多模態(tài)模型,主要考察圖片提問與配圖回答能力,以及顯式/非顯式調(diào)用情況下圖片輸出的準(zhǔn)確性與完整性。

      1.具備圖片解析與文字識(shí)別的底層技術(shù)基礎(chǔ)

      各平臺(tái)均具備成熟的 0CR圖片文字識(shí)別技術(shù),能夠有效解析圖片內(nèi)容并識(shí)別用戶提問意圖,但在研究場景下的實(shí)際表現(xiàn)存在一定差異:阿里云百煉(91.7%)、騰訊云智能體開發(fā)平臺(tái)(83.3%)、扣子(83.3%)對(duì)圖片提問的識(shí)別能力較強(qiáng),而百度智能云千帆識(shí)別率低的原因在于流程bug(3次不同時(shí)段測試綜合結(jié)果),未能成功調(diào)用已上傳的圖片,導(dǎo)致圖片解析鏈路斷裂。

      在基于文檔的圖片定位任務(wù)中,所有平臺(tái)均無法準(zhǔn)確檢索儲(chǔ)能逆變器PCS等特定技術(shù)圖片的關(guān)聯(lián)信息,暴露多模態(tài)的場景優(yōu)化深度仍有提升空間。


      2.多模態(tài)內(nèi)容關(guān)聯(lián)與配圖回答率分化

      各平臺(tái)配圖回答率呈現(xiàn)梯度差異:騰訊云智能體開發(fā)平臺(tái)在顯式/非顯式調(diào)用場景下以 55%的正確回答率領(lǐng)先,百度智能云千帆存在圖片顯示故障但文檔定位邏輯正確,而阿里云百煉因網(wǎng)頁端圖片顯示異常導(dǎo)致配圖正確率為0%(3次不同時(shí)段測試綜合結(jié)果)。研究顯示,顯式調(diào)用圖片指令可提升輸出比率,表明用戶交互設(shè)計(jì)對(duì)多模態(tài)輸出效果存在直接影響。


      3.圖片輸出質(zhì)量控制機(jī)制存在普遍性缺失

      各平臺(tái)在圖片輸出環(huán)節(jié)均出現(xiàn)內(nèi)容校驗(yàn)失效問題,典型表現(xiàn)為返回與答案無關(guān)的頁面裝飾性圖片而非業(yè)務(wù)場景所需的技術(shù)圖表,反映當(dāng)前平臺(tái)缺乏對(duì)輸出圖片內(nèi)容相關(guān)性和準(zhǔn)確性的有效校驗(yàn)機(jī)制。


      三、工作流能力測試

      工作流定義:一類能夠完全自動(dòng)執(zhí)行的經(jīng)營過程,根據(jù)一系列預(yù)設(shè)的過程規(guī)則,將文檔、信息或任務(wù)在不同的執(zhí)行者之間進(jìn)行傳遞與執(zhí)行(來源:國際工作流管理聯(lián)盟(Workflow Management Coalition,WfMC)。其本質(zhì)是為復(fù)雜任務(wù)提供標(biāo)準(zhǔn)化、可預(yù)測的執(zhí)行框架,尤其在需要嚴(yán)格步驟控制的業(yè)務(wù)場景中展現(xiàn)不可替代的價(jià)值。

      (一)工作流測試采用指標(biāo)

      本次測試對(duì)工作流能力的評(píng)估從參數(shù)動(dòng)態(tài)提取、異常回退等四大核心維度展開一是參數(shù)動(dòng)態(tài)提取,評(píng)估從對(duì)話中精準(zhǔn)識(shí)別訂單號(hào)、地址等關(guān)鍵信息的能力;二是異常回退,檢驗(yàn)參數(shù)修改或意圖切換時(shí)流程回復(fù)與狀態(tài)恢復(fù)的穩(wěn)定性;三是意圖識(shí)別,考察區(qū)分咨詢、操作等用戶真實(shí)意圖的準(zhǔn)確性;四是容錯(cuò)處理,驗(yàn)證對(duì)模糊表述、混淆信息等異常輸入的包容與修正能力。同時(shí)關(guān)注端到端流程準(zhǔn)確率、參數(shù)提取成功率等指標(biāo),全面衡量復(fù)雜場景下的流程控制精度。

      (二)測試實(shí)施

      工作流能力測試以訂單修改為核心場景,基于包含13條端到端工作流、共計(jì)80+個(gè)問題的問題集,全面覆蓋參數(shù)提取、回退、意圖識(shí)別及流程容錯(cuò)四個(gè)關(guān)鍵環(huán)節(jié)。測試通過模擬用戶在多輪對(duì)話中的多樣化需求,如一般咨詢、修改配送地址、訂單退貨等,同時(shí)故意引入“盡快送達(dá)”等模糊表述以及“放棄修改并取消訂單”等意圖切換情況,著重驗(yàn)證系統(tǒng)在參數(shù)動(dòng)態(tài)管理與流程控制方面的穩(wěn)定性。在測試過程中,詳細(xì)記錄了端到端流程準(zhǔn)確率、參數(shù)提取成功率及意圖識(shí)別率等關(guān)鍵指標(biāo)深入分析不同平臺(tái)在異常輸入下的容錯(cuò)能力與恢復(fù)能力。

      各平臺(tái)工作流核心能力表現(xiàn)如下:


      測試數(shù)據(jù)顯示,各平臺(tái)在意圖識(shí)別環(huán)節(jié)均保持較高水平,流程終止節(jié)點(diǎn)判斷準(zhǔn)確率達(dá)100%。

      參數(shù)提取環(huán)節(jié)表現(xiàn)分化,阿里云百煉與騰訊云智能體開發(fā)平臺(tái)提取準(zhǔn)確率為 75.0%,高于百度智能云千帆與扣子,差異主要體現(xiàn)在混淆信息中訂單號(hào)等關(guān)鍵字段的識(shí)別效果。

      端到端流程準(zhǔn)確率方面,阿里云百煉和騰訊云智能體開發(fā)平臺(tái)準(zhǔn)確率接近 70%,扣子和百度智能云千帆略低,這一差異主要源于參數(shù)提取節(jié)點(diǎn)的影響。

      整體來看,各平臺(tái)在工作流節(jié)點(diǎn)執(zhí)行層面均能達(dá)成基礎(chǔ)功能要求,但在復(fù)雜信息處理場景下的技術(shù)實(shí)現(xiàn)深度與節(jié)點(diǎn)細(xì)節(jié)調(diào)優(yōu)水平存在一定差異。

      結(jié)合典型錯(cuò)誤案例進(jìn)一步分析,在意圖識(shí)別方面,除扣子外,其他平臺(tái)都會(huì)出現(xiàn)“什么情況下,可以退貨?”直接判定為退貨意圖并進(jìn)入退貨流程,而非輸出退貨相關(guān)流程信息,

      這體現(xiàn)出部分平臺(tái)在意圖識(shí)別的精細(xì)度上存在不足,未能準(zhǔn)確區(qū)分咨詢意圖與操作意圖。

      在參數(shù)提取方面,百度智能云千帆、扣子在面對(duì)復(fù)雜長段文字中存在混淆信息的情況,無法正確提取多處出現(xiàn)的訂單編號(hào),而是直接輸出提示詞中的示例訂單編號(hào),暴露出僅依賴大模型進(jìn)行參數(shù)提取在復(fù)雜場景下的局限性,


      綜合以上數(shù)據(jù)分析結(jié)果,可以發(fā)現(xiàn):

      1.工作流具備基礎(chǔ)可用性但仍有提升空間

      各平臺(tái)工作流已具備基礎(chǔ)可用性,在合理配置下能滿足電商客服等復(fù)雜場景的基礎(chǔ)需求。各平臺(tái)整體得分差異不大,不過該得分基于基本一致的默認(rèn)配置得出,若經(jīng)過精細(xì)化調(diào)整,其表現(xiàn)仍有提升空間。例如百度智能云千帆和扣子在參數(shù)提取環(huán)節(jié)針對(duì)多訂單、地址等信息提取的失分項(xiàng),可通過整合代碼工具等方式加以改進(jìn)。

      2.不同平臺(tái)在工作流配置上呈現(xiàn)多維度差異化設(shè)計(jì)

      各平臺(tái)的工作流配置均根據(jù)自身產(chǎn)品特性進(jìn)行了深度優(yōu)化,通過個(gè)性化模塊設(shè)計(jì),重點(diǎn)圍繞大模型能力調(diào)用、工具集成適配和邏輯流程編排等關(guān)鍵維度展開。

      一個(gè)典型差異體現(xiàn)在對(duì)于“任務(wù)流”和“對(duì)話流”的處理:

      阿里云百煉和扣子從工作流創(chuàng)建階段就將對(duì)話管理系統(tǒng)與任務(wù)執(zhí)行引警分離,百度智能云千帆和騰訊云智能體開發(fā)平臺(tái)則采用融合設(shè)計(jì)。

      其中,騰訊云智能體開發(fā)平臺(tái)通過全局Agent機(jī)制實(shí)現(xiàn)實(shí)時(shí)對(duì)話交互管理、上下文參數(shù)自動(dòng)提取、流程狀態(tài)智能監(jiān)控,并支持參數(shù)回退、對(duì)話終止等復(fù)雜場景的智能識(shí)別和處理,

      另外一個(gè)典型差異體現(xiàn)在節(jié)點(diǎn)封裝方面:騰訊云智能體開發(fā)平臺(tái)將“參數(shù)提取”獨(dú)立抽象為單獨(dú)節(jié)點(diǎn):阿里云百煉與百度智能云千帆分別提供獨(dú)立的MCP(ModelContext Protocol,模型上下文協(xié)議)節(jié)點(diǎn)組件;扣子則構(gòu)建了包含9組近40個(gè)節(jié)點(diǎn)類型的豐富矩陣。

      這些差異化設(shè)計(jì)既影響了用戶配置的操作門檻與使用體驗(yàn),也在場景適配性上形成了不同側(cè)重,使得各平臺(tái)在流程搭建、功能調(diào)試、場景落地等操作環(huán)節(jié)中,展現(xiàn)出各具特色的優(yōu)勢與局限性。


      總之,當(dāng)前工作流系統(tǒng)仍定位為輔助決策工具,其運(yùn)行邏輯無法完全脫離業(yè)務(wù)人員的專業(yè)判斷,否則極易引發(fā)流程斷點(diǎn)或業(yè)務(wù)邏輯處理錯(cuò)誤。

      從配置層面看,工作流的搭建需要操作人員同時(shí)具備業(yè)務(wù)場景理解能力與大模型技術(shù)認(rèn)知能力,這種雙重知識(shí)儲(chǔ)備的要求形成了較高的使用門檻。

      即便在經(jīng)過抽象簡化的測試場景中,參數(shù)提取偏愀外差、意圖識(shí)別誤差等問題仍可能出現(xiàn),這進(jìn)一步凸顯了人工千預(yù)在復(fù)雜業(yè)務(wù)處理中的不可替代性--無論是流程規(guī)則的精細(xì)化調(diào)校,還是異常場景的柔性處置,均需專業(yè)人員結(jié)合業(yè)務(wù)經(jīng)驗(yàn)與技術(shù)特性進(jìn)行動(dòng)態(tài)校準(zhǔn)。

      四、Agent 能力測試

      智能體 Agent定義:Agent是由大語言模型動(dòng)態(tài)編排自身工作流并自主調(diào)用工具以實(shí)現(xiàn)目標(biāo)的系統(tǒng)。其核心包含三個(gè)特征:感知、決策與行動(dòng),強(qiáng)調(diào)其在運(yùn)行時(shí)的自主性與工具擴(kuò)展性(來源:Anthropic)。

      (一)Agent 測試采用指標(biāo)

      本次測試重點(diǎn)評(píng)估智能體 Agent的工具調(diào)用能力,從四大維度展開。

      一是意圖理解深度,衡量智能體對(duì)模糊指令、隱含需求及復(fù)雜表述的解析能力,包括多輪對(duì)話中的上下文延續(xù)性、語義歧義消解精度等:

      二是操作協(xié)同性,評(píng)估用戶與智能體在任務(wù)拆解、工具調(diào)用等環(huán)節(jié)的配合流暢度,涉及步驟銜接自然度、用戶干預(yù)成本等;

      三是反饋有效性,考察智能體輸出結(jié)果的可理解性、錯(cuò)誤提示的明確性及操作引導(dǎo)的實(shí)用性:四是機(jī)制完備性,檢驗(yàn)交互過程中的異常處理(如操作回退、功能解釋)等關(guān)鍵功能的覆蓋度。

      測試通過構(gòu)建包含日常咨詢、復(fù)雜任務(wù)處理等典型場景的測試集,模擬不同用戶操作習(xí)慣與需求類型,采集交互軌跡與用戶反饋數(shù)據(jù),實(shí)現(xiàn)對(duì)Agent能力的系統(tǒng)測試。

      (二)測試實(shí)施

      當(dāng)前,智能體技術(shù)仍處于發(fā)展初期,其功能生態(tài)與工具鏈尚未完全成熟。

      在此背景下,工具調(diào)用能力成為衡量智能體實(shí)用性的核心指標(biāo)之一。本次測試以DeepSeek R1為基礎(chǔ)模型,集成天氣查詢、數(shù)據(jù)分析、圖表生成等6大類通用工具設(shè)計(jì)40+筅廼刑個(gè)問題集,重點(diǎn)考查以下工具調(diào)用維度:

      1. 單工具調(diào)用:驗(yàn)證基礎(chǔ)意圖識(shí)別與工具匹配準(zhǔn)確性。

      2. 多工具協(xié)同:檢驗(yàn)任務(wù)分解與工具鏈?zhǔn)秸{(diào)用的完整性。

      3. 提示詞顯式調(diào)用:明確在對(duì)話中顯式指定調(diào)用工具的執(zhí)行效果。

      測試過程中,通過標(biāo)準(zhǔn)化流程記錄單工具調(diào)用完成率、多工具調(diào)用完成率及提示詞調(diào)用完成率,重點(diǎn)分析智能體在工具選擇合理性、調(diào)用完成度方面的表現(xiàn)。

      各平臺(tái)智能體能力對(duì)比如下:


      在統(tǒng)一推理模型支撐下,各平臺(tái)智能體均構(gòu)建了基礎(chǔ)工具調(diào)度機(jī)制,實(shí)現(xiàn)從用戶需求到工具調(diào)用的邏輯映射。

      例如,面對(duì)“規(guī)劃5月14日從北京出發(fā)到山西的5日假期行程”的指令,所有智能體均能識(shí)別“路徑規(guī)劃+天氣查詢+聯(lián)網(wǎng)搜索”的工具組合需求,展現(xiàn)出標(biāo)準(zhǔn)化的任務(wù)分解能力。

      基礎(chǔ)推理模型的強(qiáng)邏輯能力保障了工具意圖識(shí)別的一致性,各平臺(tái)智能體在工具調(diào)用效果上的差異主要源于平臺(tái)級(jí)生態(tài)支撐與流程優(yōu)化水平。其中,騰訊云智能體開發(fā)平臺(tái)在本項(xiàng)測試中表現(xiàn)突出,工具本身的功能完整性與響應(yīng)穩(wěn)定性直接提升了調(diào)用成功率。

      1.插件/工具生態(tài)成熟度與集成深度,生態(tài)綁定決定能力邊界。

      各家平臺(tái)普遍依托自身既有生態(tài)進(jìn)行工具接入與能力編排:百度智能云千帆優(yōu)先整合百度文庫、百科、地圖等內(nèi)容與數(shù)據(jù)資產(chǎn),強(qiáng)化智能體的信息調(diào)取與生成支撐:騰訊云智能體開發(fā)平臺(tái)通過與騰訊文檔、騰訊地圖等原生工具的深度打通,構(gòu)建了較為完整的工具鏈結(jié)構(gòu);扣子以輕量化工具生態(tài)見長,支持快速插件開發(fā)和嵌入;阿里云百煉則聯(lián)動(dòng)釘釘、高德地圖等業(yè)務(wù)模塊,嘗試將智能體嵌入辦公、生活等實(shí)際場景中。

      2.技術(shù)穩(wěn)健性與細(xì)節(jié)打磨,非核心邏輯短板影響端到端能力和用戶體驗(yàn)。

      各平臺(tái)智能體均存在不同程度的工具調(diào)用流程斷點(diǎn)問題。如百度智能云千帆盡管能通過代碼解釋器生成圖表繪制代碼,但未將代碼執(zhí)行結(jié)果轉(zhuǎn)化為可視化圖表并直接輸出,需用戶額外操作,降低了多工具協(xié)同的完整性。


      技術(shù)實(shí)現(xiàn)層面的瑕疵導(dǎo)致調(diào)用失敗或結(jié)果異常,影響最終輸出質(zhì)量和用戶體驗(yàn)如阿里云百煉、百度智能云千帆均出現(xiàn)過三方天氣/地圖工具認(rèn)證失敗導(dǎo)致調(diào)用中斷的情況;扣子在繪制數(shù)據(jù)圖表時(shí),存在由于字體問題導(dǎo)致中文標(biāo)簽無法顯示的現(xiàn)象。這些問題雖未影響基礎(chǔ)工具調(diào)用邏輯,但對(duì)最終結(jié)果輸出和用戶體驗(yàn)造成一定影響。


      總的來看,當(dāng)前各平臺(tái)智能體仍處于通用工具整合的初級(jí)階段,在基礎(chǔ)意圖識(shí)別與單工具調(diào)用上已具備可用性,但在多工具深度協(xié)同、行業(yè)垂直工具適配及端到端流程閉環(huán)上仍有顯著提升空間。各平臺(tái)已搭建智能體能力的技術(shù)框架,但真正實(shí)現(xiàn)“工具即服務(wù)”的智能化調(diào)度,仍需在生態(tài)建設(shè)、流程閉環(huán)與細(xì)節(jié)優(yōu)化上持續(xù)投入。研究表明當(dāng)前發(fā)展的瓶頸分為多工具深度協(xié)同與自動(dòng)化閉環(huán)能力不足、技術(shù)實(shí)現(xiàn)穩(wěn)健性亟待加強(qiáng)以及行業(yè)垂直工具適配與生態(tài)廣度深度不足三點(diǎn)。

      一是多工具深度協(xié)同與自動(dòng)化閉環(huán)能力不足。流程斷點(diǎn)(如圖表代碼執(zhí)行與呈現(xiàn)分離)是普遍存在的短板,阻礙了復(fù)雜任務(wù)的無縫完成和用戶體驗(yàn)的提升。

      二是技術(shù)實(shí)現(xiàn)穩(wěn)健性亟待加強(qiáng)。鑒權(quán)失敗、渲染錯(cuò)誤等技術(shù)瑕疵雖不否定核心架構(gòu),但對(duì)實(shí)用性和可靠性構(gòu)成顯著挑戰(zhàn),需在工程層面重點(diǎn)投入。

      三是行業(yè)垂直工具適配與生態(tài)廣度深度不足。當(dāng)前集成工具多為通用型,針對(duì)金融、醫(yī)療、工業(yè)等垂直領(lǐng)域的專業(yè)工具適配深度和覆蓋廣度遠(yuǎn)遠(yuǎn)不夠,限制了智能體在專業(yè)場景的落地價(jià)值。

      各平臺(tái)智能體已成功搭建底層技術(shù)框架,證明了其可行性。然而,從“能調(diào)用工具”到真正實(shí)現(xiàn)“工具即服務(wù)”的智能化、自動(dòng)化、高可靠的服務(wù)調(diào)度與交付,仍需在生態(tài)建設(shè)、流程閉環(huán)、技術(shù)穩(wěn)健性以及垂直場景深耕上持續(xù)投入與突破。當(dāng)前正處于智能體實(shí)用化能力構(gòu)建的關(guān)鍵爬坡期,解決上述瓶頸是邁向下一階段成熟應(yīng)用的必經(jīng)之路。

      五、總結(jié)與展望

      從三大核心維度測試結(jié)果可見,當(dāng)前智能體開發(fā)平臺(tái)能力呈現(xiàn)“基礎(chǔ)能力趨同產(chǎn)品路徑分化”的競爭格局。各平臺(tái)在文本處理、流程控制等基礎(chǔ)場景已形成標(biāo)準(zhǔn)化能力,但在復(fù)雜場景處理、多模態(tài)協(xié)同及工具生態(tài)建設(shè)上表現(xiàn)出一定差異。

      各平臺(tái)差異性主要體現(xiàn)在技術(shù)路徑選擇與工程實(shí)現(xiàn)深度上。阿里云百煉在結(jié)構(gòu)化數(shù)據(jù)接入、參數(shù)提取穩(wěn)定性及工作流流程控制等方面表現(xiàn)穩(wěn)健,體現(xiàn)了其底層架構(gòu)設(shè)計(jì)的成熟性與系統(tǒng)響應(yīng)的魯棒性.

      百度智能云千帆在數(shù)據(jù)庫集成等細(xì)分能力上展現(xiàn)出一定優(yōu)勢;

      扣子則以輕量化插件系統(tǒng)和靈活工作流節(jié)點(diǎn)組合,提升了開發(fā)效率與定制適配能力;

      騰訊云智能體開發(fā)平臺(tái)則憑借端到端的流程打通能力和完善的原生工具鏈支持,在多工具協(xié)同調(diào)用、參數(shù)自動(dòng)提取與流程容錯(cuò)處理等多個(gè)維度均實(shí)現(xiàn)較為均衡的表現(xiàn)。


      智能體開發(fā)平臺(tái)間競爭力的實(shí)質(zhì)已逐步由單點(diǎn)能力比拼轉(zhuǎn)向體系能力構(gòu)建。未來的發(fā)展將取決于三個(gè)關(guān)鍵路徑的持續(xù)演進(jìn)。

      首先,場景深度適配是實(shí)現(xiàn)價(jià)值落地的前提。僅具備技術(shù)能力遠(yuǎn)不足以支撐復(fù)雜場景的業(yè)務(wù)化部署,智能體必須進(jìn)一步提升模型與真實(shí)任務(wù)需求之間的耦合精度圍繞特定行業(yè)、細(xì)分任務(wù)構(gòu)建標(biāo)準(zhǔn)化知識(shí)單元與任務(wù)模板,成為“從能用到好用”的關(guān)鍵一環(huán)。

      其次,技術(shù)鏈厚度構(gòu)建決定智能體的系統(tǒng)執(zhí)行能力。大模型能力的釋放必須依賴穩(wěn)定的調(diào)用機(jī)制與閉環(huán)的流程體系。當(dāng)前部分平臺(tái)在節(jié)點(diǎn)設(shè)計(jì)、狀態(tài)控制與工具響應(yīng)穩(wěn)定性方面仍存在中斷或冗余路徑,需通過組件顆粒度優(yōu)化與自動(dòng)化控制鏈路增強(qiáng)系統(tǒng)韌性。

      最后,生態(tài)廣度拓展將成為智能體可持續(xù)發(fā)展的關(guān)鍵變量。智能體能力的邊界不止于自身,而取決于其與外部MCP合作體系及開發(fā)者社群的連接能力。隨著開發(fā)者需求走向定制化與多行業(yè)融合,平臺(tái)必須進(jìn)一步釋放底層能力接口,推動(dòng)第三方工具插件接入標(biāo)準(zhǔn)化,并建設(shè)完備的開放工具市場,打造“平臺(tái)+生態(tài)”的雙輪驅(qū)動(dòng)能力體系。

      總的來看,智能體開發(fā)平臺(tái)正處于能力體系構(gòu)建的關(guān)鍵爬坡期。當(dāng)前競爭尚未形成不可逾越的技術(shù)壁壘,未來能否構(gòu)建穩(wěn)定、可用、可擴(kuò)展的智能體服務(wù)體系,將決定平臺(tái)在產(chǎn)業(yè)智能化轉(zhuǎn)型進(jìn)程中的角色位次。以場景適配為牽引,以技術(shù)鏈完善為支撐,以生態(tài)擴(kuò)展為保障,唯有實(shí)現(xiàn)從“任務(wù)完成”向“任務(wù)統(tǒng)籌”再到“服務(wù)自治”的跨越,方能真正走出實(shí)驗(yàn)性應(yīng)用,邁入生產(chǎn)級(jí)交付。

      掃碼邀請(qǐng)進(jìn)群,我們帶你一起來玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學(xué)一些AI搞錢技能。

      往期文章回顧

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      燒光10億,下載暴跌!騰訊元寶,輸慘了!

      燒光10億,下載暴跌!騰訊元寶,輸慘了!

      功夫財(cái)經(jīng)
      2026-02-25 08:57:30
      貝加爾湖慘案只報(bào)“救出一人”,本質(zhì)就是護(hù)著俄羅斯的臉面

      貝加爾湖慘案只報(bào)“救出一人”,本質(zhì)就是護(hù)著俄羅斯的臉面

      壹家言
      2026-02-25 16:11:34
      巴拿馬總統(tǒng)慌了,他猛然發(fā)現(xiàn):強(qiáng)吞中國18億資產(chǎn),竟是自尋死路

      巴拿馬總統(tǒng)慌了,他猛然發(fā)現(xiàn):強(qiáng)吞中國18億資產(chǎn),竟是自尋死路

      東極妙嚴(yán)
      2026-02-25 16:40:08
      痛心!江西跑友劉濤去世,僅51歲,生前堅(jiān)持晨跑,是3家公司老板

      痛心!江西跑友劉濤去世,僅51歲,生前堅(jiān)持晨跑,是3家公司老板

      離離言幾許
      2026-02-25 10:43:45
      “13萬元奢侈品被15歲女兒9300元賤賣”最新消息:新人物出現(xiàn),家長與回收方達(dá)成初步協(xié)議

      “13萬元奢侈品被15歲女兒9300元賤賣”最新消息:新人物出現(xiàn),家長與回收方達(dá)成初步協(xié)議

      極目新聞
      2026-02-25 21:24:20
      合資開年大降價(jià),今年誰都別想好過?

      合資開年大降價(jià),今年誰都別想好過?

      汽車公社
      2026-02-25 09:11:26
      微信出新功能,網(wǎng)友:簡直是社恐福音

      微信出新功能,網(wǎng)友:簡直是社恐福音

      南方都市報(bào)
      2026-02-25 16:59:07
      韓“蛇蝎美人”在汽車旅館誘殺男子致2死1傷,首個(gè)受害者系男友,曾詢問AI如何殺人;案發(fā)后漲粉50倍,評(píng)論區(qū)被“顏值即正義”刷屏

      韓“蛇蝎美人”在汽車旅館誘殺男子致2死1傷,首個(gè)受害者系男友,曾詢問AI如何殺人;案發(fā)后漲粉50倍,評(píng)論區(qū)被“顏值即正義”刷屏

      大風(fēng)新聞
      2026-02-25 16:49:05
      前國腳高峰現(xiàn)狀:54歲很顯老,妻子也是運(yùn)動(dòng)員,二兒子和繼父更親

      前國腳高峰現(xiàn)狀:54歲很顯老,妻子也是運(yùn)動(dòng)員,二兒子和繼父更親

      以茶帶書
      2026-02-25 19:52:54
      曲婉婷復(fù)出被封殺:我是真沒想到她混成了這樣……

      曲婉婷復(fù)出被封殺:我是真沒想到她混成了這樣……

      桌子的生活觀
      2026-02-25 12:20:34
      疑系統(tǒng)錯(cuò)誤致“欠款一千萬億”記錄,男子索賠200萬能成嗎?

      疑系統(tǒng)錯(cuò)誤致“欠款一千萬億”記錄,男子索賠200萬能成嗎?

      紅星新聞
      2026-02-25 15:02:59
      平頂山“夫妻打人事件”,最狠毒者是老太

      平頂山“夫妻打人事件”,最狠毒者是老太

      方清云
      2026-02-25 17:44:53
      宇樹機(jī)器人去年只賣了5500多臺(tái),普通家庭基本沒有買的

      宇樹機(jī)器人去年只賣了5500多臺(tái),普通家庭基本沒有買的

      爆角追蹤
      2026-02-25 10:08:50
      秦皇島發(fā)生當(dāng)街殺人惡性事件,疑因情感糾紛,撞停車輛后鈍器錘頭

      秦皇島發(fā)生當(dāng)街殺人惡性事件,疑因情感糾紛,撞停車輛后鈍器錘頭

      爆角追蹤
      2026-02-25 19:24:37
      一路走好!2026春節(jié)才過7天,已有6位大佬離世,最年輕的才40歲

      一路走好!2026春節(jié)才過7天,已有6位大佬離世,最年輕的才40歲

      鯨探所長
      2026-02-24 19:34:36
      近百萬元存款被悄悄轉(zhuǎn)走!上海獨(dú)居老太毫無察覺,還說“我有兩套房,你可以搬來同住”

      近百萬元存款被悄悄轉(zhuǎn)走!上海獨(dú)居老太毫無察覺,還說“我有兩套房,你可以搬來同住”

      瀟湘晨報(bào)
      2026-02-25 16:39:13
      重慶一女子隨家人爬山深夜失聯(lián),10天后遺體被找到!家屬回應(yīng)“女子曾光腳走在前面,登頂后神情恐懼”

      重慶一女子隨家人爬山深夜失聯(lián),10天后遺體被找到!家屬回應(yīng)“女子曾光腳走在前面,登頂后神情恐懼”

      封面新聞
      2026-02-25 16:37:09
      啟程訪華前,德國總理默茨在柏林機(jī)場演講說了一句“肺腑之言”!

      啟程訪華前,德國總理默茨在柏林機(jī)場演講說了一句“肺腑之言”!

      識(shí)局Insight
      2026-02-25 17:57:54
      誰搶走了訂單?外企扎堆越南后才明白,“世界工廠”只是一場美夢

      誰搶走了訂單?外企扎堆越南后才明白,“世界工廠”只是一場美夢

      百科密碼
      2026-02-25 15:17:32
      3-2逆轉(zhuǎn)狂傲!張本智和輕視國乒小將藏何底氣

      3-2逆轉(zhuǎn)狂傲!張本智和輕視國乒小將藏何底氣

      卿子書
      2026-02-25 08:52:19
      2026-02-25 22:24:49
      AI先鋒官 incentive-icons
      AI先鋒官
      AIGC大模型及應(yīng)用精選與評(píng)測
      437文章數(shù) 60關(guān)注度
      往期回顧 全部

      科技要聞

      “機(jī)器人只跳舞,沒什么用”

      頭條要聞

      被指涉愛潑斯坦案 挪威前首相自殺未遂命懸一線

      頭條要聞

      被指涉愛潑斯坦案 挪威前首相自殺未遂命懸一線

      體育要聞

      曝雄鹿計(jì)劃今夏追小卡 字母哥渴望與其并肩作戰(zhàn)

      娛樂要聞

      黃曉明新戀情!與小22歲美女同游新加坡

      財(cái)經(jīng)要聞

      上海樓市放大招,地產(chǎn)預(yù)期別太大

      汽車要聞

      750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

      態(tài)度原創(chuàng)

      藝術(shù)
      教育
      親子
      旅游
      軍事航空

      藝術(shù)要聞

      這位藝術(shù)家的馬賽克畫讓人驚嘆不已!

      教育要聞

      超短學(xué)期!新學(xué)期校歷來了!

      親子要聞

      二胎想念外婆了,媳婦帶娃回娘家,寶寶做法真暖心!

      旅游要聞

      熱氣騰騰的中國年︱天府煙火暖 新春年味濃

      軍事要聞

      俄烏沖突四周年:和平談判希望渺茫

      無障礙瀏覽 進(jìn)入關(guān)懷版