<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      AI Agent、傳統(tǒng)聊天機(jī)器人有何區(qū)別?這篇30頁綜述講明白了

      0
      分享至



      論文作者包括來自上海交通大學(xué)的朱家琛、芮仁婷、單榕、鄭琮珉、西云佳、林江浩、劉衛(wèi)文、俞勇、張偉楠,以及華為諾亞研究所的朱夢輝、陳渤、唐睿明。

      本文第一作者是朱家琛,上海交通大學(xué)博士生,主要研究興趣集中在大模型推理,個(gè)性化 Agent。本文通訊作者是張偉楠,上海交通大學(xué)教授,研究方向包含強(qiáng)化學(xué)習(xí)、數(shù)據(jù)科學(xué)、機(jī)器人控制、推薦搜索等。

      自從 Transformer 問世,NLP 領(lǐng)域發(fā)生了顛覆性變化。大語言模型極大提升了文本理解與生成能力,成為現(xiàn)代 AI 系統(tǒng)的基礎(chǔ)。而今,AI 正不斷向前,具備自主決策和復(fù)雜交互能力的新一代AI Agent也正加速崛起。

      不同于以往只會(huì)對(duì)話的 LLM 機(jī)器人,AI Agent 能夠接入互聯(lián)網(wǎng)、調(diào)用各類 API,還能根據(jù)真實(shí)環(huán)境反饋靈活調(diào)整策略。AI Agent 因此具備了感知環(huán)境和自主決策的能力,已經(jīng)突破了傳統(tǒng) “問答模式” 的限制,能夠主動(dòng)執(zhí)行任務(wù)、應(yīng)對(duì)各種復(fù)雜場景,真正成為用戶身邊可靠的智能助手。

      在這股 AI Agent 浪潮中,每個(gè)人都可以有屬于自己的 AI Agent。而如何衡量自己的 AI Agent 是否足夠強(qiáng)大呢?海量的 Agent 評(píng)測方式層出不窮,你是否挑得眼花繚亂?如何在這千軍萬馬中挑選出最適合你的測評(píng)方式呢?作為 AI Agent 的開發(fā)者,你是否也在思考該從哪個(gè)角度來提升你的 “秘密武器”,在這場激烈的 AI Agent 大戰(zhàn)中脫穎而出?

      因此,這引出了一個(gè)順理成章的問題:

      AI Agent 到底和傳統(tǒng)聊天機(jī)器人有何本質(zhì)區(qū)別?又該如何科學(xué)評(píng)測 AI Agent?



      • 論文標(biāo)題:Evolutionary Perspectives on the Evaluation of LLM-Based AI Agents: A Comprehensive Survey
      • 論文鏈接:https://arxiv.org/pdf/2506.11102

      一、從 LLM Chatbot 到 AI Agent

      論文指出,AI Agent 的出現(xiàn)是 AI 發(fā)展的新階段。它們不僅僅回復(fù)人類對(duì)話,還具備了五個(gè)維度的進(jìn)化:

      1.復(fù)雜環(huán)境:Agent 不再局限于單一對(duì)話場景,可以與代碼庫、網(wǎng)頁、操作系統(tǒng)、移動(dòng)端、科學(xué)實(shí)驗(yàn)等各類環(huán)境交互。

      2.多源指令:Agent 不只接收人工輸入,還能結(jié)合自我反思、智能體協(xié)作等多源指令。

      3.動(dòng)態(tài)反饋:Agent 運(yùn)行于連續(xù)多樣的反饋環(huán)境,可基于指標(biāo)、獎(jiǎng)勵(lì)等動(dòng)態(tài)反饋持續(xù)優(yōu)化自身能力,不再局限于被動(dòng)對(duì)話糾正。

      4.多模態(tài):Agent 擁有跨模態(tài)處理能力,能理解文本、視覺、聽覺等多種數(shù)據(jù)。

      5.高級(jí)能力:隨著外部環(huán)境復(fù)雜化,Agent 具備了復(fù)雜規(guī)劃、持久記憶、自主推理等能力,實(shí)現(xiàn)從被動(dòng)響應(yīng)到自主執(zhí)行的躍遷。



      圖 1:AI Agent 與 LLM Chatbot 演化的五個(gè)維度。

      LLM Chatbot 向 AI Agent 的演進(jìn),背后主要受兩方面推動(dòng):一是外部環(huán)境的日益復(fù)雜,二是內(nèi)部能力的不斷提升。復(fù)雜的外部環(huán)境促使 Agent 不斷成長,而 Agent 能力的提升又推動(dòng)人們?nèi)ヌ剿鞲咛魬?zhàn)性的應(yīng)用場景。正是這種內(nèi)外循環(huán)、相互促進(jìn),成為現(xiàn)代 AI Agent 加速進(jìn)化的根本動(dòng)力。因此,論文的總體框架如圖 2 所示:我們系統(tǒng)梳理了現(xiàn)有 AI Agent 評(píng)測基準(zhǔn),提出 “環(huán)境 - 能力” 兩方面的分類學(xué)。隨后進(jìn)行趨勢討論,對(duì) Agent 評(píng)測方法演化趨勢的討論,涉及環(huán)境角度,Agent 角度,評(píng)估者角度,指標(biāo)角度,并最終提出基準(zhǔn)選擇的方法論。



      圖 2:論文框架總覽

      二、評(píng)測框架與基準(zhǔn)盤點(diǎn)

      面對(duì) Agent 能力的指數(shù)級(jí)擴(kuò)展,原有的聊天機(jī)器人評(píng)測方法已無法勝任。論文系統(tǒng)梳理了現(xiàn)有 AI Agent 評(píng)測基準(zhǔn),提出 “環(huán)境 - 能力” 兩方面的分類:

      1.環(huán)境維度:細(xì)分為代碼、網(wǎng)頁、操作系統(tǒng)、移動(dòng)端、科學(xué)、游戲等環(huán)境。

      2.能力維度:涵蓋規(guī)劃、自我反省、交互、記憶等高級(jí)能力。

      針對(duì)每種環(huán)境與能力,論文整理了當(dāng)前最具代表性的評(píng)測基準(zhǔn),并梳理出一套 “實(shí)用屬性表”,幫助研究者在眼花繚亂的 benchmark 中挑選符合要求的。

      以表 1 為例,我們列出了我們認(rèn)為最重要的屬性:真實(shí)性,離線 / 在線,評(píng)測者,輸入模態(tài),主要挑戰(zhàn)。并將所有 web 環(huán)境的基準(zhǔn)歸到這些屬性中。



      表 1:Web 環(huán)境下的 Agent 基準(zhǔn)以及其各類屬性

      三、AI Agent 評(píng)測方法的進(jìn)化趨勢



      圖 3:AI Agent 評(píng)測未來演化的四個(gè)視角。

      論文深刻總結(jié)了 AI Agent 評(píng)測方法的未來趨勢,不再只是 “比誰答得對(duì)”,而是從四個(gè)關(guān)鍵視角全面升級(jí):

      1. 環(huán)境視角:從單模態(tài)到多模態(tài)、從靜態(tài)到動(dòng)態(tài)、從少狀態(tài)到多狀態(tài)。

      最初,Agent 評(píng)測只圍繞文本展開,如今則逐漸擴(kuò)展到圖片、音頻、視頻等多種信息形式。靜態(tài)的數(shù)據(jù)集已經(jīng)不能滿足需求,動(dòng)態(tài)、實(shí)時(shí)更新的真實(shí)環(huán)境成為新常態(tài)。同時(shí),評(píng)測方式也在轉(zhuǎn)變,開始關(guān)注智能體在連續(xù)任務(wù)過程中的表現(xiàn)和調(diào)整,而不再只看最終結(jié)果。

      2. 智能體視角:從單 Agent 到多 Agent、從單輪到多輪互動(dòng)。

      新一代評(píng)測不僅關(guān)注單個(gè) Agent 的能力,更重視多個(gè) Agent 間的協(xié)作與博弈。與此同時(shí),任務(wù)由簡單的一問一答,演化為多輪對(duì)話、持續(xù)推理和復(fù)雜任務(wù)鏈,考驗(yàn) Agent 的全局規(guī)劃與長期記憶。

      3. 評(píng)測者視角:從人工到 AI 自動(dòng)評(píng)測、從通用到個(gè)性化。

      AI 不再只是被動(dòng)接受人類評(píng)分,越來越多的 Agent 可以自動(dòng)評(píng)判同行,實(shí)現(xiàn)規(guī)模化、自主化評(píng)測。同時(shí),未來的評(píng)測將更加關(guān)注個(gè)性化,衡量 Agent 是否能針對(duì)不同用戶給出個(gè)性化的服務(wù)。

      4. 指標(biāo)視角:從粗粒度到細(xì)粒度,從關(guān)注正確率到關(guān)注效率、安全與社會(huì)價(jià)值。

      單一的正確率已無法反映 Agent 真實(shí)能力。未來評(píng)測更強(qiáng)調(diào)任務(wù)效率、細(xì)粒度決策的質(zhì)量、安全性和倫理性,比如防止誤操作、保障用戶利益、促進(jìn)社會(huì)善意等。

      四、行動(dòng)指南:

      如何選擇合適的 Agent 評(píng)測基準(zhǔn)

      面對(duì) AI Agent 的快速發(fā)展,論文圍繞 “如何用演化視角系統(tǒng)評(píng)估 AI Agent” 這一核心問題,提出了一套二階段的基準(zhǔn)選擇方法論:

      第一階段:從當(dāng)下出發(fā)。

      根據(jù)實(shí)際任務(wù)環(huán)境和 Agent 能力,先鎖定對(duì)應(yīng)的環(huán)境和能力分類(圖 2),從屬性表(表 1)中精準(zhǔn)匹配最適用的評(píng)測基準(zhǔn)。例如,開發(fā)者 Z 開發(fā)了能預(yù)訂航班和酒店的 Agent,應(yīng)優(yōu)先考慮 Web 環(huán)境和交互能力,選用如 WebVoyager 和 ComplexFuncBench 等基準(zhǔn)進(jìn)行測試。

      第二階段:為未來考慮。

      結(jié)合評(píng)測進(jìn)化趨勢(圖 3),開發(fā)者 Z 應(yīng)持續(xù)關(guān)注環(huán)境變化、多模態(tài)挑戰(zhàn)和社會(huì)價(jià)值等新維度。隨著產(chǎn)品商業(yè)化,適時(shí)引入動(dòng)態(tài)環(huán)境(如 BFCL)、安全性(如 ST WebAgentBench)和個(gè)性化(如 PeToolBench)等多樣化評(píng)測基準(zhǔn),確保 Agent 持續(xù)優(yōu)化與進(jìn)化。

      結(jié)語

      AI Agent 正在從 “會(huì)對(duì)話” 進(jìn)化為 “會(huì)行動(dòng)”,推動(dòng)人工智能邁向更智能、更自主、更有價(jià)值的下一個(gè)時(shí)代。而如何科學(xué)評(píng)測 AI Agent,是驅(qū)動(dòng)這一切的關(guān)鍵。如果讀者你也關(guān)心如何評(píng)測新穎的 AI Agent,我們的綜述值得一讀。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      一傳不穩(wěn)進(jìn)攻不利,吳夢潔獨(dú)木難支!上海女排擊敗江蘇贏關(guān)鍵戰(zhàn)

      一傳不穩(wěn)進(jìn)攻不利,吳夢潔獨(dú)木難支!上海女排擊敗江蘇贏關(guān)鍵戰(zhàn)

      金毛愛女排
      2025-12-17 21:42:05
      女高中生憑顏值火出圈,評(píng)論區(qū)沸騰:妥妥的985長相

      女高中生憑顏值火出圈,評(píng)論區(qū)沸騰:妥妥的985長相

      蝴蝶花雨話教育
      2025-12-13 08:53:20
      有情有義!保利尼奧拒絕巴西國家隊(duì)邀約:正考慮重回中超!

      有情有義!保利尼奧拒絕巴西國家隊(duì)邀約:正考慮重回中超!

      邱澤云
      2025-12-16 23:17:24
      夫妻性生活:女人最討厭的5種“床上行為”,男人千萬別犯!

      夫妻性生活:女人最討厭的5種“床上行為”,男人千萬別犯!

      精彩分享快樂
      2025-11-25 00:05:03
      對(duì)等關(guān)稅以來,中國對(duì)美出口下降了26%,貿(mào)易盈余減少了30%

      對(duì)等關(guān)稅以來,中國對(duì)美出口下降了26%,貿(mào)易盈余減少了30%

      子業(yè)一說財(cái)經(jīng)
      2025-12-17 16:35:11
      不行就換!CBA土豪又開始了,才打2輪就換外援,新援曝光,夠豪橫

      不行就換!CBA土豪又開始了,才打2輪就換外援,新援曝光,夠豪橫

      萌蘭聊個(gè)球
      2025-12-17 10:37:59
      “血栓大戶”被揪出,是肥肉十倍,醫(yī)生:再不忌口,小心血管變硬

      “血栓大戶”被揪出,是肥肉十倍,醫(yī)生:再不忌口,小心血管變硬

      小胡軍事愛好
      2025-12-17 21:37:46
      30萬級(jí)的瑪莎拉蒂,兩天被搶光!經(jīng)銷商稱“6點(diǎn)下班,被客戶堵到9點(diǎn)”,知情人士:這批車賣一輛虧一輛,不降價(jià)也不行

      30萬級(jí)的瑪莎拉蒂,兩天被搶光!經(jīng)銷商稱“6點(diǎn)下班,被客戶堵到9點(diǎn)”,知情人士:這批車賣一輛虧一輛,不降價(jià)也不行

      每日經(jīng)濟(jì)新聞
      2025-12-15 19:03:06
      《老舅》結(jié)局:直到二美慘死,霍東風(fēng)出手殺大濤,才知,崔國明為何得癌慘死

      《老舅》結(jié)局:直到二美慘死,霍東風(fēng)出手殺大濤,才知,崔國明為何得癌慘死

      手工制作阿殲
      2025-12-16 03:37:56
      給人養(yǎng)了7年閑人,廣汽終于要關(guān)閉洛杉磯的研發(fā)中心

      給人養(yǎng)了7年閑人,廣汽終于要關(guān)閉洛杉磯的研發(fā)中心

      與車同樂
      2025-12-04 10:05:02
      好友相繼緬懷拼湊出,何晴生命最后時(shí)光:拮據(jù)、變樣、舍不下兒子

      好友相繼緬懷拼湊出,何晴生命最后時(shí)光:拮據(jù)、變樣、舍不下兒子

      阿郎娛樂
      2025-12-17 07:38:57
      大衣哥跳樓身亡、趙本山靈堂、宋佳知三當(dāng)三,現(xiàn)在造謠越來越離譜

      大衣哥跳樓身亡、趙本山靈堂、宋佳知三當(dāng)三,現(xiàn)在造謠越來越離譜

      好賢觀史記
      2025-12-17 09:12:04
      “每天回家我都想吐!”整整3年,因頂樓住戶一個(gè)操作,廣東一小區(qū)整棟樓業(yè)主直呼“苦不堪言”,多方最新回應(yīng)

      “每天回家我都想吐!”整整3年,因頂樓住戶一個(gè)操作,廣東一小區(qū)整棟樓業(yè)主直呼“苦不堪言”,多方最新回應(yīng)

      環(huán)球網(wǎng)資訊
      2025-12-17 07:32:29
      德國新任外長訪華結(jié)束,德媒:和貝爾伯克不是一路人

      德國新任外長訪華結(jié)束,德媒:和貝爾伯克不是一路人

      道德經(jīng)
      2025-12-18 00:30:09
      被默克爾說中了!27國跟著美國對(duì)中國出手后,歐洲正滑向第三世界

      被默克爾說中了!27國跟著美國對(duì)中國出手后,歐洲正滑向第三世界

      阿離家居
      2025-12-18 01:33:15
      運(yùn)-30首飛成功,將成為世界最強(qiáng)戰(zhàn)術(shù)運(yùn)輸機(jī)嗎?

      運(yùn)-30首飛成功,將成為世界最強(qiáng)戰(zhàn)術(shù)運(yùn)輸機(jī)嗎?

      世家寶
      2025-12-17 15:22:48
      墻倒眾人推!無緣冠軍的孫穎莎到底輸在哪?鄧亞萍的話一針見血

      墻倒眾人推!無緣冠軍的孫穎莎到底輸在哪?鄧亞萍的話一針見血

      丁丁鯉史紀(jì)
      2025-11-17 15:58:28
      曾風(fēng)靡一時(shí)的潮汕牛肉火鍋,為何如今涼了?網(wǎng)友:套路太深了

      曾風(fēng)靡一時(shí)的潮汕牛肉火鍋,為何如今涼了?網(wǎng)友:套路太深了

      餐飲新紀(jì)元
      2025-12-13 07:15:41
      梅西飛印度辦活動(dòng),首富300斤的小兒子熱情接待,拉迪卡胯是真的大

      梅西飛印度辦活動(dòng),首富300斤的小兒子熱情接待,拉迪卡胯是真的大

      小魚愛魚樂
      2025-12-17 17:26:10
      女企業(yè)竟嫁19歲體育生,一天5次性生活,8年后得知丈夫隱藏身份

      女企業(yè)竟嫁19歲體育生,一天5次性生活,8年后得知丈夫隱藏身份

      今天說故事
      2025-09-12 18:14:21
      2025-12-18 02:47:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      11943文章數(shù) 142512關(guān)注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      墜亡女教師有已婚哥哥和未婚弟弟 父母被指不愿退彩禮

      頭條要聞

      墜亡女教師有已婚哥哥和未婚弟弟 父母被指不愿退彩禮

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      狗仔曝?zé)岵〗愕軕僬嬲劻耍浚浚?/h3>

      財(cái)經(jīng)要聞

      重磅信號(hào)!收入分配制度或迎重大突破

      汽車要聞

      一車多動(dòng)力+雙姿態(tài) 長城歐拉5上市 限時(shí)9.18萬元起

      態(tài)度原創(chuàng)

      游戲
      時(shí)尚
      健康
      家居
      軍事航空

      德瑪西亞杯:沒什么好說得,UP零封FRK

      你算老幾?我算老己!

      這些新療法,讓化療不再那么痛苦

      家居要聞

      溫馨獨(dú)棟 駝色與淺色碰撞

      軍事要聞

      最新現(xiàn)場:山東艦完成年度最后一次海上訓(xùn)練

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲不卡视频| 国产亚洲av| 国产日韩av在线播放| 亚洲色www永久网站| 日本一级在线播| 天堂毛片| 中文a片| 探花无码| 日韩顶级metart裸体自慰| 人人操超碰| 欧美日韩一级视频| 日本韩国一级| 无码精品黑人| 亚洲午夜视频| 会东县| 人妻人人摸| 日韩成人电影一区| 亚洲AV无码成人精品一区| 精品?一区?卡| 国产v亚洲v天堂a无码99| 少妇一边呻吟一边说使劲视频| 精品人妻无码一区二区三区| 无码精品国产va在线观看| 天天摸天天做天天爽水多| 97人人模人人爽人人喊网| 久久人人爽人人人人爽av| 人人妻一区二区三区| 一区一区三区产品乱码| 国产亚洲精品精品精品| 国产精品欧美一区二区三区| 国产午夜不卡av免费| 国产亚洲av| 欧美日韩国产图片区一区| 亚洲中文字幕无码爆乳| 久久日产一线二线三线| 国产一区二区不卡在线| 亚洲中文字幕高清| 中文字幕亚洲有码| 亚洲人妻av| 宁化县| 亚洲av天天|