<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      別再迷信AI跑分了:考試成績好,工作干不了

      0
      分享至


      (來源:麻省理工科技評論)

      幾十年來,人類評估 AI 能力的方法論,都是圍繞著“機器能否超越人類”的思路展開的。從國際象棋到高等數學,從編程到寫作,AI 模型和應用的性能都是讓它和人類的表現水準做對比來檢驗的。

      這種框架很有吸引力:在有明確對錯答案的獨立問題上做 AI 與人類的比較,容易標準化、容易比較、容易優化。它能生成排行榜和新聞標題。

      但問題在于:AI 被使用的方法,和 AI 被測試的方法,是兩種完全不同的體系。雖然研究人員和行業已經開始改進基準測試,從靜態測試轉向更動態的評估方法,但這些創新只解決了部分問題。因為它們仍然在脫離人類團隊和組織工作流程的條件下評估 AI 的表現,而 AI 的真實性能恰恰是在這些環境中展現的。

      AI 在真空中被逐項評估,但它的實際使用場景是混亂而復雜的,通常需要與不止一個人互動。它的表現(或表現不佳)只有經過長時間使用才能顯現。這種錯位讓我們誤判了 AI 的能力,忽視了系統性風險,也對其經濟和社會后果做出了錯誤估計。

      為了改變這一狀況,是時候從狹隘的評估方法轉向一種新的基準測試了,這種測試應當評估 AI 系統在更長時間維度內、在人類團隊、工作流程和組織中的實際表現。自 2022 年以來,我研究了 AI 在英國、美國和亞洲的小型企業、醫療、人道主義、非營利和高等教育機構中的實際部署情況,也深入了解了倫敦和硅谷領先的 AI 設計生態。我提出了一種不同的方法,稱之為 HAIC 基準測試——即“人類-AI 場景化評估”(Human–AI, Context-Specific Evaluation)。



      當前基準測試的盲區

      對政府和企業而言,AI 基準分數看起來比供應商的自我宣傳更客觀。它們是判斷一個 AI 模型或應用是否“夠格”投入實際部署的關鍵依據。想象一個 AI 模型在最前沿的基準測試上取得了亮眼的技術分數——98% 的準確率、突破性的速度、令人信服的輸出。憑借這些成績,機構可能決定采用這個模型,投入大量財務和技術資源進行采購和集成。

      但一旦投入使用,基準成績和真實表現之間的差距就迅速暴露出來了。以大量通過 FDA 批準的、能比放射科專家更快更準地判讀醫學影像的 AI 模型為例。在從加州腹地到倫敦郊區的醫院放射科,我親眼看到工作人員使用排名靠前的放射科 AI 應用。他們反復需要花額外時間將 AI 的輸出結果與醫院特定的報告標準和各國不同的監管要求進行對照解讀。一個在真空中測試時看似能提升生產力的 AI 工具,在實踐中反而帶來了延誤。

      用來評估醫療 AI 模型的基準測試并沒有捕捉到醫療決策的真實過程。醫院依靠的是放射科醫生、腫瘤科醫生、物理師、護士等多學科團隊共同會診患者,治療方案很少取決于一個靜態的決定,它隨著幾天或幾周內出現的新信息不斷演進。決策往往產生于建設性的討論,需要在專業標準、患者偏好和患者長期健康這一共同目標之間做出權衡。難怪即使得分很高的 AI 模型,一旦遇到真實臨床診療中復雜的協作流程,就難以兌現承諾的表現。

      我在其他行業的研究中也看到了同樣的模式:即使在標準化測試中表現出色的 AI 模型,一旦嵌入真實的工作環境,表現就達不到預期。

      當高基準分數無法轉化為真實表現時,即使得分最高的 AI 也很快會被丟進 AI 墳場”。代價是巨大的:時間、精力和資金都打了水漂。長此以往,這種反復的經歷會侵蝕組織對 AI 的信心,在醫療等關鍵領域,還可能侵蝕公眾對這項技術的信任。

      當現有的基準測試只能提供關于 AI 模型是否適合實際使用的片面甚至誤導性信號時,就會造成監管盲區:監管框架是基于不反映現實的指標來制定的。這也讓組織和政府承擔了在敏感的真實場景中測試 AI 的風險,而且往往缺乏資源和支持。



      如何構建更好的測試

      要彌合基準測試和真實表現之間的差距,我們必須關注 AI 模型實際使用的條件。核心問題是:AI 能否作為人類團隊中的一個有效參與者發揮作用?它能否產生持續的、集體性的價值?

      通過我對多個行業 AI 部署的研究,我看到一些組織已經在有意識、實驗性地向我所倡導的 HAIC 基準測試方向邁進。

      HAIC 基準測試從四個維度重構了現有的評估框架:

      分析單元而言,應從個人單任務表現轉向團隊和工作流程表現;從時間指標角度,應從有標準答案的一次性測試轉向長期影響評估;從性能指標而言,應從正確性和速度轉向組織層面的成效、協作質量和錯誤可發現性;從系統效應而言,應從孤立的輸出轉向上下游連鎖效應(系統效應)。

      在這套方法開始被應用的組織中,第一步是改變分析單元。

      以 2021 年至 2024 年間英國一家醫院體系為例,他們把問題從“某個醫療 AI 應用是否提高了診斷準確率”擴展為“AI 在醫院多學科團隊中的存在如何影響準確率、協作和集體討論”。醫院專門評估了使用和未使用 AI 的人類團隊在協作和討論方面的差異。院內外的多方利益相關者共同確定了評估指標,比如 AI 如何影響集體推理、它是否能發現被忽略的考量、它是加強還是削弱了協作,以及它是否改變了已有的風險管控和合規實踐。

      這一轉變具有根本性意義。在系統層面效應比單項任務準確率更重要的高風險場景中,這一點尤為關鍵。它可能有助于重新校正那些被夸大的生產力預期——這些預期迄今為止主要建立在提升個人任務表現的承諾之上。

      在這個基礎建立之后,HAIC 基準測試才能開始納入時間維度。

      今天的基準測試像學校考試,是一次性的、標準化的準確率測試。但真正的職業能力是以不同的方式來評估的。初級醫生和律師是在真實工作流程中被持續考核的,有督導、有反饋機制、有問責體系。能力評估是在一段時間內、在具體的環境中進行的,因為勝任力是關系性的。如果 AI 系統要與專業人士協同工作,它們的影響也應當以縱向視角來評判,反映其表現在反復互動中如何演變。

      我在一個人道主義領域的案例研究中看到了 HAIC 這一維度的應用。在 18 個月的時間里,一個 AI 系統在真實工作流程中被持續評估,重點關注其錯誤的可發現性,也就是人類團隊能否方便地識別和糾正錯誤。這份長期的“錯誤可發現性記錄”讓相關組織能夠設計和測試針對具體場景的安全護欄,在 AI 不可避免會偶爾犯錯的前提下促進對系統的信任。

      更長的時間維度還能揭示短期基準測試忽略的系統層面后果。一個 AI 應用可能在某個狹窄的診斷任務上超越單個醫生,但未能改善多學科決策。更糟糕的是,它可能引入系統性的扭曲:過早地讓團隊錨定在看似合理但并不完整的答案上,增加人們的認知負擔,或者在下游環節產生低效,抵消了 AI 使用點上的速度和效率收益。這些連鎖效應往往是現有基準測試看不到的,卻是理解真實影響的核心。

      HAIC 方法確實會讓基準測試變得更復雜、更消耗資源、更難標準化。但如果我們繼續在脫離真實工作環境的無菌條件下評估 AI,就會一直誤解它真正能為我們做什么、不能做什么。要在真實場景中負責任地部署 AI,我們必須衡量真正重要的東西:不僅僅是一個模型獨自能做什么,而是當真實世界中的人和團隊與它協作時,它促成了什么,又破壞了什么。

      https://www.technologyreview.com/2026/03/31/1134833/ai-benchmarks-are-broken-heres-what-we-need-instead/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      4月必辦!2個證件全國發放,人人都有,沒領的抓緊辦

      4月必辦!2個證件全國發放,人人都有,沒領的抓緊辦

      混沌錄
      2026-04-08 18:28:12
      盤后利好,社保剛剛新進47股,新進股名單出爐,核心有3個邏輯

      盤后利好,社保剛剛新進47股,新進股名單出爐,核心有3個邏輯

      風風順
      2026-04-09 07:03:10
      遲重瑞為什么不要陳麗華的遺產?其實他要了也沒任何價值

      遲重瑞為什么不要陳麗華的遺產?其實他要了也沒任何價值

      小明嘩撲
      2026-04-09 13:47:38
      控制體重最佳的時間是晚上,晚上堅持“5個不”,隔天體重輕松掉

      控制體重最佳的時間是晚上,晚上堅持“5個不”,隔天體重輕松掉

      運動健身號
      2026-04-06 10:00:11
      涉嫌嚴重違紀違法,劉昌衛被查

      涉嫌嚴重違紀違法,劉昌衛被查

      吉刻新聞
      2026-04-09 09:38:24
      潘江回應球迷換蓋伊:打籃球不光是投籃 奈特和迪亞洛進攻做得很好

      潘江回應球迷換蓋伊:打籃球不光是投籃 奈特和迪亞洛進攻做得很好

      狼叔評論
      2026-04-09 22:42:08
      福建墜河5死,司機丈夫責任不小,錯過3次救命機會,毀3個家庭

      福建墜河5死,司機丈夫責任不小,錯過3次救命機會,毀3個家庭

      奇思妙想草葉君
      2026-04-09 00:07:54
      兩性關系:男人要明白,女人無論多大年齡,都藏著同一個需求

      兩性關系:男人要明白,女人無論多大年齡,都藏著同一個需求

      距離距離
      2026-04-01 20:25:23
      鄭麗文已抵達上海,大陸高規格接待,國民黨大佬:兩岸絕不能動武

      鄭麗文已抵達上海,大陸高規格接待,國民黨大佬:兩岸絕不能動武

      探源歷史
      2026-04-10 04:00:27
      北大法律碩士因車位爭執,對方妻子意外摔死,沒碰一下卻判賠15萬

      北大法律碩士因車位爭執,對方妻子意外摔死,沒碰一下卻判賠15萬

      一絲不茍的法律人
      2026-04-08 20:52:33
      1931年她在咖啡館多坐了十分鐘,救下整個黨中央,活到110歲

      1931年她在咖啡館多坐了十分鐘,救下整個黨中央,活到110歲

      鶴羽說個事
      2026-04-07 22:55:09
      四大鐵證曝光!3位大咖表態:不是樊振東拒絕為國乒出征世乒賽

      四大鐵證曝光!3位大咖表態:不是樊振東拒絕為國乒出征世乒賽

      陳赩愛體育
      2026-04-09 15:10:26
      俄烏雙方進行新一輪陣亡軍人遺體交換,俄方向烏方移交了1000具遺體,烏方向俄方移交了41具遺體

      俄烏雙方進行新一輪陣亡軍人遺體交換,俄方向烏方移交了1000具遺體,烏方向俄方移交了41具遺體

      瀟湘晨報
      2026-04-09 19:50:06
      丈夫癱瘓在床后,公公和兒媳外出跑大車賺錢,過年回家時卻發生意外

      丈夫癱瘓在床后,公公和兒媳外出跑大車賺錢,過年回家時卻發生意外

      溫情郵局
      2025-03-26 11:58:52
      我去!內娛最大的性丑聞,拍出來了

      我去!內娛最大的性丑聞,拍出來了

      皮蛋兒電影
      2026-03-04 14:39:25
      眼鏡妹為何是系列里面人氣第一女主?

      眼鏡妹為何是系列里面人氣第一女主?

      挪威森林
      2026-02-11 12:09:26
      刁琳宇缺席集訓,原因曝光!趙勇另有打算,張籽萱首發難撼動

      刁琳宇缺席集訓,原因曝光!趙勇另有打算,張籽萱首發難撼動

      跑者排球視角
      2026-04-09 23:29:52
      7歲女孩反復陰道炎,診斷結果讓媽媽大吃一驚!體內取出完整的試用裝精華液……

      7歲女孩反復陰道炎,診斷結果讓媽媽大吃一驚!體內取出完整的試用裝精華液……

      極目新聞
      2026-04-09 16:17:20
      又一個戶外運動品牌殺入中國!

      又一個戶外運動品牌殺入中國!

      獨角Mall
      2026-04-07 15:51:43
      烏司令吹噓襲俄艦,鬧劇一場罷了

      烏司令吹噓襲俄艦,鬧劇一場罷了

      小眼睛小世界
      2026-04-09 09:43:59
      2026-04-10 05:19:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16560文章數 514858關注度
      往期回顧 全部

      科技要聞

      Meta凌晨首發閉源大模型 扎克伯格又行了?

      頭條要聞

      以色列總理:同意與黎巴嫩直接談判

      頭條要聞

      以色列總理:同意與黎巴嫩直接談判

      體育要聞

      8萬人面前心臟驟停 現在他還站在球場上

      娛樂要聞

      金莎官宣結婚 與老公孫丞瀟相差18歲

      財經要聞

      停火又懸了,最糟糕的情況要來了?

      汽車要聞

      文飛掌舵,給神行者帶來了什么?

      態度原創

      親子
      本地
      教育
      房產
      公開課

      親子要聞

      五個月的寶寶必須學溫伯格的宇宙學才不哭

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      教育要聞

      一年英碩是父母給你另一張地圖的體驗卡!

      房產要聞

      利潤暴跌44%!那個春節被罵慘了的海峽股份 正在經歷什么?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版