<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      你的模型評測搭子上線:Evaluation Agent懂你更懂AI

      0
      分享至



      本文作者來自于上海人工智能實驗室與新加坡南洋理工大學,分別是張凡、田淑琳、黃子琪,指導老師是喬宇老師與劉子緯老師。

      怎么快速判斷一個生成模型好不好?

      最直接的辦法當然是 —— 去問一位做圖像生成、視頻生成、或者專門做評測的朋友。他們懂技術、有經驗、眼光毒辣,能告訴你模型到底強在哪、弱在哪,適不適合你的需求。

      但問題是:

      • 朋友太忙,沒法一條條幫你看;
      • 你問題太多,不只是想知道「好不好」,還想知道「哪里不好」「為啥好」「適不適合我」。

      你需要一位專業、耐心、隨叫隨到的評估顧問。

      于是,來自上海人工智能實驗室 & 南洋理工大學 S-Lab 的研究者合作研發了一個AI 版本的「懂行朋友」——Evaluation Agent。

      它不僅評測,還能聽你提問、為你定制測試、寫出人類專家一樣的分析報告。

      • 你問「它拍古風視頻怎么樣?」,它就給你規劃方案;
      • 你問「懂光圈焦距嗎?」,它就設計針對測試;
      • 你想知道適不適合你,它還真能給出解釋。

      這就是視覺生成模型評估的新范式:

      Evaluation Agent 入選 ACL 2025 主會 Oral 論文。



      • 論文:https://arxiv.org/abs/2412.09645
      • 代碼:https://github.com/Vchitect/Evaluation-Agent
      • 網頁:https://vchitect.github.io/Evaluation-Agent-project/
      • 論文標題:Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models

      為什么選擇 Evaluation Agent?

      1. 可定制:你說關注點,它來定方案。

      不同人對生成模型有不同期待 —— 風格?多樣性?一致性?

      只需用自然語言說出你的關注點,Evaluation Agent 就能:

      • 自動規劃合適的評估流程
      • 根據中間結果靈活調整評估方向
      • 針對性地深入分析你關心的能力維度

      真正實現「按需評估」,服務你的具體任務。

      2. 高效率:更少樣本,評得更快

      傳統評估動輒需要幾千張樣本,Evaluation Agent 通過多輪交互式評估與智能采樣策略,大幅減少樣本數量。整體評估過程的耗時可以壓縮到傳統方法的 10% 左右,尤其適合在迭代開發中快速反饋。

      3. 可解釋:讓評估結果說人話

      結果不僅是表格和數字,Evaluation Agent 會以自然語言生成分析報告,不僅涵蓋模型能力的全面總結,還能指出模型的局限性和改進方向。

      4. 可擴展:支持不同任務、工具、指標的集成

      Evaluation Agent 是一個開放框架,支持集成新評估工具和指標,適用于不同的視覺生成任務(如圖片生成和視頻生成)。

      框架工作原理



      Evaluation Agent 框架主要由兩個階段組成:

      1. 提案階段(Proposal Stage)

      • Plan Agent:分析用戶需求,動態規劃評估路徑。
      • PromptGen Agent:為每個子任務生成專屬的評估提示(prompt)。

      這一階段的目標是:根據你的關注點,量身定制評估方案。

      2. 執行階段(Execution Stage)

      框架利用視覺生成模型生成內容,并通過相應評估工具進行質量分析。

      • 視覺生成模型:根據上階段設計的 prompt 生成樣本
      • 評估工具包:根據提案階段的規劃選用合適的工具對采樣內容進行評估

      3. 動態多輪交互

      評估不是一次性完成的。Execution 階段的每一輪評估結果,都會反饋給 Proposal 階段,用于優化后續 prompt 和任務設置。通過這種多輪協同,Evaluation Agent 實現了對模型能力的動態、深入評估。

      結果展示

      1. 對比傳統評測框架



      視頻生成模型評測效率上與 VBench 評測框架的對比



      圖片生成模型評測效率上與 T2I-CompBench 評測框架的對比

      研究團隊在圖片生成任務(T2I)和視頻生成任務(T2V)上對 Evaluation Agent 進行了全面驗證。結果表明,其評估效率顯著高于現有基準框架(如 VBench、T2I-CompBench),相較于傳統的評測框架節省了 90% 以上的時間,且評估結果具有較高一致性。

      2. 用戶開放式評估場景



      對用戶開放問題評估的部分樣例

      Evaluation Agent 不僅能夠高效評估模型的表現,還能靈活處理用戶提出的個性化評估需求,例如:

      • 模型能否生成特定歷史場景的高質量視頻?
      • 模型是否理解并能應用焦距、光圈、ISO 等攝影概念?

      在處理用戶的開放式查詢時,Evaluation Agent 展現了卓越的靈活性和深度。它能夠根據用戶的定制需求,系統地探索模型在特定領域的能力,從基本問題開始,逐步動態深入,最終通過自然語言詳細分析和總結評估結果。

      例如,對于問題「模型是否能夠在保持原始風格的同時生成現有藝術作品的變體?」,下面展示了完整的評估過程。

      在 Evaluation Agent 工作中,開放式用戶評估問題數據集(Open-Ended User Query Dataset) 是檢驗框架開放式評估能力的重要組成部分。該數據集為系統提供了多樣化的評估場景,特別是在面臨復雜的、用戶特定的評估需求時,能夠展現出系統的靈活性和動態評估能力。

      開放式用戶評估問題數據集首先通過用戶調研收集了來自用戶的一系列針對模型能力的開放問題。隨后,經過數據清洗、過濾、擴展以及標簽打標等處理,最終完成了數據集的構建。該數據集涵蓋了廣泛的評估維度,能夠全面評估模型的各項能力。下圖展示了該數據集在不同類別下的統計分布。



      開放式用戶評估問題數據集統計分布

      前景與進一步計劃

      Evaluation Agent 的初步研究已經證明其在視覺生成模型評估中的高效性和靈活性。未來,該方向可能在以下領域進一步拓展和深入研究:

      1. 擴展評估能力,涵蓋更多視覺任務

      • 目前 Evaluation Agent 已適用于圖像和視頻生成模型,未來將擴展到3D 內容生成、AIGC 視頻編輯等更復雜的生成任務。
      • 增加對多模態 AI(如結合文本、音頻、視頻的生成模型)的評估能力,探索不同 AI 模型在跨模態任務中的表現。

      2. 優化開放式評估機制

      • 進一步完善開放式用戶評估問題數據集,提升 Evaluation Agent 對復雜、抽象概念(如風格遷移、藝術融合、情感表達等)的理解和評估能力。
      • 引入強化學習機制,使 Evaluation Agent 能夠利用基于用戶反饋的數據實現自我優化,提高評估的精準性和適應性。

      3. 從自動評測邁向智能推薦

      • 未來,該框架可拓展用于視覺生成模型的個性化推薦,依據用戶的具體需求自動匹配最合適的生成模型,并生成詳盡的評估報告。
      • 研究如何利用眾包數據,收集不同領域的專業人士(如設計師、攝影師、影視制片人)對 AI 生成內容的反饋,以提升評估框架在多領域場景下的適應性和泛化能力。

      總結

      Evaluation Agent 提出了一種高效、靈活、可解釋的視覺生成模型評估新范式。它突破了傳統評估方式的限制,能夠根據用戶需求動態分析模型表現,為生成式 AI 的理解與優化提供支持。無論關注的是準確性、多樣性,還是風格與創意,這一框架都能給出清晰、有針對性的評估結果。

      研究團隊希望這一方法能為視覺生成模型的評估帶來新的思路,推動更智能、更靈活的評估體系發展。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      今夜,飆漲!美聯儲,重大利好!

      今夜,飆漲!美聯儲,重大利好!

      中國基金報
      2025-12-19 00:24:24
      什么情況?NBA中文官網和NBA官網均顯示李凱爾國籍已為美國

      什么情況?NBA中文官網和NBA官網均顯示李凱爾國籍已為美國

      懂球帝
      2025-12-18 11:18:56
      新疆一滑雪場雪崩,一名被埋人員已無生命體征

      新疆一滑雪場雪崩,一名被埋人員已無生命體征

      澎湃新聞
      2025-12-18 21:13:14
      中日關系到了如此緊張的地步了!

      中日關系到了如此緊張的地步了!

      安安說
      2025-12-18 09:50:24
      5投0中的球隊老大,拒絕2.2億肥約,承認吧,你已沒有頂薪命了

      5投0中的球隊老大,拒絕2.2億肥約,承認吧,你已沒有頂薪命了

      籃球看比賽
      2025-12-19 11:45:21
      家道中落是啥感受?網友:吃了時代的紅利守不住而已

      家道中落是啥感受?網友:吃了時代的紅利守不住而已

      帶你感受人間冷暖
      2025-12-09 00:20:05
      出息了!汪小菲曬與大S的判決書,硬剛抖音副總裁,要找李亮聊聊

      出息了!汪小菲曬與大S的判決書,硬剛抖音副總裁,要找李亮聊聊

      小娛樂悠悠
      2025-12-19 09:03:51
      蘋果宣布解除日本 iPhone 限制,允許安裝未經審查的應用!

      蘋果宣布解除日本 iPhone 限制,允許安裝未經審查的應用!

      XCiOS俱樂部
      2025-12-18 13:31:58
      蘇聯不要的裝備,70萬武器被八路軍拉3天3夜,撿出“半個軍械庫”

      蘇聯不要的裝備,70萬武器被八路軍拉3天3夜,撿出“半個軍械庫”

      古書記史
      2025-12-15 23:29:05
      知情網友:許亞軍為何晴支付10年抗癌費,下7次病危通知仍不放棄

      知情網友:許亞軍為何晴支付10年抗癌費,下7次病危通知仍不放棄

      張發林
      2025-12-19 10:59:42
      視頻丨“我將永遠銘記中國的友好與慷慨” 外籍貨船停靠海南感謝免稅

      視頻丨“我將永遠銘記中國的友好與慷慨” 外籍貨船停靠海南感謝免稅

      國際在線
      2025-12-18 13:39:02
      年輕時貌若天仙的4位女星,如今卻跟美不沾邊,歲月何曾饒過誰

      年輕時貌若天仙的4位女星,如今卻跟美不沾邊,歲月何曾饒過誰

      庭小娛
      2025-12-12 13:44:28
      河南網紅小黑妮要生孩子啦!小黑妮本名叫范梓鶴

      河南網紅小黑妮要生孩子啦!小黑妮本名叫范梓鶴

      歲月有情1314
      2025-12-19 11:19:24
      泰柬沖突,西方挖好陷阱等中國跳,東南亞變天了,最大輸家誕生

      泰柬沖突,西方挖好陷阱等中國跳,東南亞變天了,最大輸家誕生

      凡知
      2025-12-17 14:54:54
      國安玩兒的就是心跳!三鎮解散啪啪打臉 亞泰有機會遞補 梅州回爐

      國安玩兒的就是心跳!三鎮解散啪啪打臉 亞泰有機會遞補 梅州回爐

      刀鋒體育
      2025-12-19 08:12:53
      小米新車未出園區撞人后續!司機提車10分鐘釀悲劇,雷軍被冤枉的

      小米新車未出園區撞人后續!司機提車10分鐘釀悲劇,雷軍被冤枉的

      社會日日鮮
      2025-12-19 06:52:06
      出手了!世界第二大島國“吃不飽”,中國幫其解決人口壓力

      出手了!世界第二大島國“吃不飽”,中國幫其解決人口壓力

      南權先生
      2025-12-17 16:46:52
      南京博物院《江南春》名畫被6800元出售,曾有兩任館長離奇自殺

      南京博物院《江南春》名畫被6800元出售,曾有兩任館長離奇自殺

      Mr王的飯后茶
      2025-12-19 09:29:15
      施一公、顏寧等院士簡歷從清華官網撤下, 另有多所高校撤下部分院士信息……

      施一公、顏寧等院士簡歷從清華官網撤下, 另有多所高校撤下部分院士信息……

      超級數學建模
      2025-12-16 21:08:05
      一覺醒來,臺海傳來兩個重磅消息,我們不能再對高市早苗手軟了!

      一覺醒來,臺海傳來兩個重磅消息,我們不能再對高市早苗手軟了!

      南宮一二
      2025-12-19 10:40:53
      2025-12-19 12:15:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11953文章數 142513關注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創業大賽總決賽收官

      頭條要聞

      牛彈琴:戰機又被照射后日本急了 有人第一個想到中國

      頭條要聞

      牛彈琴:戰機又被照射后日本急了 有人第一個想到中國

      體育要聞

      沒有塔圖姆,還有塔禿姆

      娛樂要聞

      曲協表態僅6天,郭德綱擔心的事還是發生

      財經要聞

      非法集資911億!"金融大鱷"終審被判無期

      汽車要聞

      軸距加長配置升級 廣汽豐田雷凌L官圖發布

      態度原創

      教育
      時尚
      房產
      親子
      軍事航空

      教育要聞

      只學習不考試,教育最怕口是心非

      “煙管褲”今年冬天爆火,怎么搭都時髦!

      房產要聞

      萬科·三亞嘉瀾地,萬科高端旅居系1號作品全球發布

      親子要聞

      父愛虧欠的女兒會在垃圾堆里找糖,父愛缺席的兒子學不會責任擔當

      軍事要聞

      福建艦入列后首過臺海 臺方談為何"甲板上沒有艦載機"

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产又粗又猛又爽又黄的视频在线观看动漫| 国产在线98福利播放视频| 精品国产重口乱子伦| 日韩精品| 亚洲国产色图| 好湿好紧太硬了我太爽了视频| 乱子轮熟睡1区| 亚洲国产成人AⅤ片在线观看| 波多野结衣无码视频一区二区三区 | 亚洲国产日韩欧美一区二区三区| 少妇下蹲露大唇无遮挡| 亚洲人妻一区二区精品| 天天躁夜夜躁狠狠躁AV| JIZZJIZZJIZZ亚洲日本| 中文字幕在线亚洲日韩6页| 亚洲色最新高清AV网站| 国产女人18毛片18精品| 精品流白浆| 福利所第一导航福利| 国产精品入口麻豆| 91成人在线播放| 无码成人精品区在线观看| 久久综合久久综合九色| 国产精品成人av电影不卡| xxx18国产| 国产精品ⅴ无码大片在线看| 日韩精品亚洲人成在线观看 | 国产精品青青在线观看爽香蕉| 亚洲激情AV| 超碰666| 人妻中出无码一区二区三区| 女人色熟女乱| 中文字幕日韩有码| 亚洲第一成人在线| 久久久久国产精品熟女影院 | 亚洲最大的成人网| 东乌珠穆沁旗| 无限看片在线版免费视频大全 | 韩日一级| a国产一区二区免费入口| 国产精品国产三级国产a|