<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      ByteDance推出XpertBench:AI智能體的"專業資格證考試"正式開啟

      0
      分享至


      這項由ByteDance Seed團隊領導的研究發表于2026年4月6日的arXiv預印本平臺,論文編號為arXiv:2604.02368v2,有興趣深入了解的讀者可以通過該編號查詢完整論文。研究團隊在人工智能評測領域推出了一個全新的評測框架XpertBench,這就好比為AI系統設計了一套真正的"專業資格證考試"。

      當前的人工智能系統就像是剛從學校畢業的學生,在考試中表現出色,但一旦進入真實的工作環境,往往會暴露出各種問題。傳統的AI評測就像是標準化考試,題目固定,答案標準,但現實中的專業工作卻充滿了不確定性和復雜性。正如一個會背誦所有醫學教科書的學生,不一定能成為一個優秀的醫生一樣,在傳統基準測試中表現優秀的AI系統,在處理真實專業任務時可能會遇到重重困難。

      研究團隊意識到,隨著AI系統從簡單的問答工具發展為專業助手,我們需要一套全新的評測標準。傳統的評測方法就像是用駕照筆試來評判一個人的實際駕駛技能,雖然有一定參考價值,但無法反映真實的駕駛能力。因此,他們決定創建一個更接近真實專業工作的評測平臺。

      XpertBench的設計理念就像是為AI系統設計一套專業執業考試。不同于傳統考試的標準化題目,這套考試完全模擬真實的專業工作場景。研究團隊招募了超過1000名真正的專業人士,包括來自985和211高校的研究者、持有CFA和CPA資格的金融專家、具有醫師執照的醫生、擁有法律資格的律師等等。這些專家就像是考試的命題委員會,他們不是坐在辦公室里憑空想象考題,而是將自己在實際工作中遇到的真實挑戰轉化為測試任務。

      整個評測系統涵蓋了七個重要的專業領域,就像是為AI系統設置了七個不同的專業科目考試。教育領域占據了最大比重,達到24.4%,這反映了教育在社會中的重要地位。工程與應用科學緊隨其后,占20.4%,體現了技術類工作的復雜性。金融領域占18.1%,法律領域占16.0%,而人文社科、計算機科學和醫療健康也都有相應的比重。這種分配就像是在考察一個全才型專業人士的綜合能力。

      在任務設計上,XpertBench完全顛覆了傳統的考試模式。傳統AI評測就像是選擇題考試,問題明確,答案標準,而XpertBench更像是讓考生完成一個完整的項目。舉個例子,在金融領域,傳統測試可能會問"什么是市盈率",而XpertBench會要求AI系統像真正的金融分析師一樣,分析兩家防務公司的財務狀況,計算各種財務比率,并給出專業的投資建議。這種差異就像是紙上談兵與實戰演練的區別。

      為了確保評測的專業性,研究團隊開發了一套精密的評分系統。每個任務都有15到40個具體的評分點,就像是專業考試中的詳細評分標準。這些評分點不是簡單的對錯判斷,而是從多個維度評估AI的表現,包括事實準確性、邏輯連貫性、專業深度等等。每個評分點還有不同的權重,就像是重要的考點分值更高一樣。

      更有趣的是,研究團隊還創新性地開發了ShotJudge評測方法。傳統的AI評測往往依賴人工判分,成本高昂且效率低下,而完全自動化的評測又可能出現"自我評價"的偏差,就像是讓學生給自己的作業打分一樣不夠客觀。ShotJudge就像是培訓了一位專業的評卷老師,先讓真正的專家對一些樣本進行評分,然后讓AI評測系統學習專家的評分邏輯,從而實現既高效又準確的自動化評測。

      當研究團隊將當前最先進的AI系統放到這套專業考試中時,結果令人深思。即使是表現最好的Claude-Opus-4.6-thinking模型,也只取得了66.2%的成績,而大多數模型的成績都在50%左右徘徊。這就好比讓一群在模擬考試中表現優異的學生參加真正的專業執業考試,結果發現通過率并不理想。

      更有趣的發現是,不同的AI系統展現出了明顯的專業偏好,就像人類專業人士一樣有自己的強項和弱項。GPT-5.4-high在金融領域表現突出,達到了84.65%的高分,但在STEM領域卻只有42.84%的成績。相反,Claude-Opus-4.6-thinking在人文社科領域表現出色,達到83.02%,但在其他領域的優勢就沒那么明顯了。這種現象就像是一個優秀的外科醫生未必是一個出色的心理醫生一樣,專業化分工在AI系統中也開始顯現。

      研究團隊還發現了AI系統在處理復雜任務時的一些典型問題。比如,一些系統在搜索信息時容易被無關信息干擾,就像是一個研究者在圖書館查資料時總是被其他有趣但不相關的書籍吸引,最終偏離了原本的研究方向。另一個常見問題是"原則性錯誤",即在處理問題的基礎概念上出現偏差,導致后續的所有推理都建立在錯誤的基礎上,就像是建房子時地基不穩,整棟建筑都會有問題。

      這項研究的意義遠不止于創建了一個新的評測工具。它實際上為AI系統的發展指明了方向:從通用助手向專業合作伙伴的轉變。就像人類社會中的專業化分工一樣,未來的AI系統可能也需要在特定領域進行深度專業化,而不是追求在所有領域都表現平均。

      XpertBench的出現也為普通用戶選擇AI工具提供了新的參考標準。過去我們可能只關心AI系統的總體表現,現在我們可以根據具體需求選擇在特定領域表現優異的系統。這就像是選擇醫生時會根據??苼磉x擇一樣,選擇AI助手也需要考慮專業對口性。

      對于AI研發團隊來說,XpertBench提供了一面真實的鏡子,讓他們看到自己系統在真實專業場景中的表現。這種反饋將有助于開發更加實用和可靠的AI系統,推動整個行業從追求基準測試高分轉向解決實際問題的能力提升。

      研究團隊還建立了Xpert平臺,這個平臺匯聚了約3000名經過嚴格篩選的專家,為AI評測和改進提供持續的專業支持。這就像是建立了一個專業顧問團,為AI系統的發展提供源源不斷的專業指導。

      說到底,XpertBench的出現標志著AI評測進入了一個新的階段。我們不再滿足于AI系統能夠回答標準化問題,而是期望它們能夠真正勝任專業工作。這種轉變反映了人們對AI技術期望的提升,也預示著AI系統將在更多專業領域發揮重要作用。當然,目前的結果也提醒我們,AI系統距離真正的專業水準還有相當的距離,這為未來的技術發展提出了明確的目標和方向。

      Q&A

      Q1:XpertBench評測系統和傳統AI基準測試有什么不同?

      A:XpertBench就像真正的職業資格考試,而傳統測試更像學??荚?。傳統測試通常是標準化的選擇題或簡單問答,而XpertBench讓AI系統處理來自真實工作場景的復雜任務,比如讓AI像金融分析師一樣分析公司財務報告,或像律師一樣處理法律文件,更能反映AI在實際工作中的表現。

      Q2:為什么最先進的AI系統在XpertBench上成績不理想?

      A:這說明當前AI系統在應對真實專業工作時還存在明顯不足。就像一個會背誦教科書的學生不一定能勝任實際工作一樣,AI系統雖然在標準化測試中表現優秀,但面對復雜多變的專業任務時,往往會出現信息干擾、邏輯錯誤等問題,這反映了從理論知識到實踐應用之間的巨大鴻溝。

      Q3:普通人如何利用XpertBench的評測結果選擇AI工具?

      A:XpertBench揭示了不同AI系統的專業強項,普通人可以根據自己的需求選擇相應的AI助手。比如需要金融分析幫助時選擇在金融領域表現出色的GPT-5.4-high,需要人文寫作支持時選擇在人文社科領域優秀的Claude-Opus-4.6-thinking,這樣可以獲得更專業、更可靠的AI服務。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      史無前例!WNBA情侶狀元同隊,達拉斯飛翼連摘兩屆狀元引爆籃壇!

      史無前例!WNBA情侶狀元同隊,達拉斯飛翼連摘兩屆狀元引爆籃壇!

      田先生籃球
      2026-04-14 08:52:57
      特朗普“罕見承認”政治后果

      特朗普“罕見承認”政治后果

      陸棄
      2026-04-14 08:50:03
      迪拜富豪來中國旅游一個月,回國感嘆:中東與中國差距真的太大了

      迪拜富豪來中國旅游一個月,回國感嘆:中東與中國差距真的太大了

      千秋文化
      2026-04-11 20:15:45
      還沒解決伊朗,美國已經暴露真實意圖:打算用48架F35給中國添堵

      還沒解決伊朗,美國已經暴露真實意圖:打算用48架F35給中國添堵

      空天力量
      2026-04-14 17:58:20
      59歲王志文已準備好了后事,一切從簡,骨灰回歸自然,遺憾公開!

      59歲王志文已準備好了后事,一切從簡,骨灰回歸自然,遺憾公開!

      翰飛觀事
      2026-04-13 22:14:07
      43歲英超名帥官宣離任 率隊客勝阿森納+12輪不敗 2大豪門或成下家

      43歲英超名帥官宣離任 率隊客勝阿森納+12輪不敗 2大豪門或成下家

      我愛英超
      2026-04-14 21:49:43
      莫氏雞煲拒收溫氏千只雞,老莫:沒地放,沒罵他;溫氏股份:在溝通更多合作想法

      莫氏雞煲拒收溫氏千只雞,老莫:沒地放,沒罵他;溫氏股份:在溝通更多合作想法

      界面新聞
      2026-04-14 10:23:03
      詹姆斯:終于不用打該死的附加賽了,我可以喝喝小酒坐那看比賽

      詹姆斯:終于不用打該死的附加賽了,我可以喝喝小酒坐那看比賽

      懂球帝
      2026-04-15 04:47:12
      深圳比亞迪火災后續:官方通報定調,知情人透露起火現場更多細節

      深圳比亞迪火災后續:官方通報定調,知情人透露起火現場更多細節

      奇思妙想草葉君
      2026-04-14 19:30:57
      裘德·洛花1個月變成普京,新片預告片里連眼神都換了

      裘德·洛花1個月變成普京,新片預告片里連眼神都換了

      影視情報室
      2026-04-14 08:05:09
      鴻蒙五界3月銷量啞火,問界獨大,四界陪跑,華為難救二線車企?

      鴻蒙五界3月銷量啞火,問界獨大,四界陪跑,華為難救二線車企?

      王新喜
      2026-04-14 19:49:11
      喬致庸臨終告誡后人:一個家族想要富過三代,秘訣只有三個字

      喬致庸臨終告誡后人:一個家族想要富過三代,秘訣只有三個字

      千秋文化
      2026-03-28 21:09:01
      52歲樸樹近況:無兒無女,沒錢沒房,成了要錢不要命的“瘋子”

      52歲樸樹近況:無兒無女,沒錢沒房,成了要錢不要命的“瘋子”

      流云隨風去遠方
      2026-04-14 12:22:59
      回京第2天,馬筱梅崩潰大哭,自曝家丑,婆婆張蘭大別墅沒她房間

      回京第2天,馬筱梅崩潰大哭,自曝家丑,婆婆張蘭大別墅沒她房間

      阿纂看事
      2026-04-14 14:39:50
      從282群的錄屏看,就是陳某汐!網友:全紅嬋說活著就好,我悟了

      從282群的錄屏看,就是陳某汐!網友:全紅嬋說活著就好,我悟了

      開成運動會
      2026-04-14 18:32:59
      風向變了?馬科斯時代恐結束,小杜特就職后,菲總統決定放手一搏

      風向變了?馬科斯時代恐結束,小杜特就職后,菲總統決定放手一搏

      面包夾知識
      2026-04-14 14:17:34
      5月1日起反腐新規正式落地!普通人送禮、幫忙、牽線全踩紅線

      5月1日起反腐新規正式落地!普通人送禮、幫忙、牽線全踩紅線

      最新聲音
      2026-04-13 21:34:22
      快手搜索人員調整:王毅離職,程稷李宣平接任

      快手搜索人員調整:王毅離職,程稷李宣平接任

      申媽的朋友圈
      2026-04-13 11:09:18
      “五一”假期航班被大批取消,主要涉及東南亞、大洋洲航線

      “五一”假期航班被大批取消,主要涉及東南亞、大洋洲航線

      南方都市報
      2026-04-14 22:36:07
      明道曬2歲女兒正臉照,手長腳長顏值像爸,一家定居上海生活富足

      明道曬2歲女兒正臉照,手長腳長顏值像爸,一家定居上海生活富足

      往史過眼云煙
      2026-04-14 19:41:44
      2026-04-15 10:36:49
      至頂AI實驗室 incentive-icons
      至頂AI實驗室
      一個專注于探索生成式AI前沿技術及其應用的實驗室。
      3213文章數 169關注度
      往期回顧 全部

      科技要聞

      手機無死角上網?亞馬遜砸百億硬剛馬斯克

      頭條要聞

      遼寧車牌號帶8888奔馳疑作為陪葬品下葬 當地再發聲

      頭條要聞

      遼寧車牌號帶8888奔馳疑作為陪葬品下葬 當地再發聲

      體育要聞

      帶出中超最大黑馬!他讓球迷們“排隊道歉”

      娛樂要聞

      曾志偉辦73歲生日派對,逾百藝人到場

      財經要聞

      特朗普稱美國對伊朗的戰爭已經結束

      汽車要聞

      2026廣汽科技日有哪些看點?

      態度原創

      藝術
      游戲
      教育
      公開課
      軍事航空

      藝術要聞

      鄭麗文火了!她的簽名竟然讓人驚呆了!

      《潛行者2》更新上線 即將開啟神秘Lab X18之門

      教育要聞

      1億美元捐贈落地!芝加哥大學同步加碼AI與校園建設

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      萬斯:對當前美伊局勢進展“感到樂觀”

      無障礙瀏覽 進入關懷版