<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      谷歌研究揭老底:AI評測3人打分就能定生死,結(jié)果全是幻覺

      0
      分享至


      AI模型誰更強?人類評委一錘定音。但谷歌最新研究算了一筆賬:現(xiàn)在行業(yè)通行的3-5人打分制,可能正在批量制造不可靠的結(jié)論。

      研究團隊來自谷歌研究院與羅切斯特理工學院,他們用模擬器跑了數(shù)千組實驗,發(fā)現(xiàn)要得到統(tǒng)計學上站得住腳的結(jié)果,單個測試樣本往往需要超過10名評委。更反直覺的是:總預算固定時,怎么分錢比有多少錢更重要。

      一道選擇題:廣度還是深度?

      研究者打了個比方。你開餐廳想摸底菜品口碑,方案A是請1000位客人各嘗一道菜,方案B是找20位老饕把50道菜全吃一遍。前者覆蓋面廣,后者信息密度高——你能知道哪道菜真的好吃,哪道只是碰運氣。

      今天的AI評測幾乎一邊倒選A。測試集鋪得極大,每個樣本卻只撈3-5個評分,靠多數(shù)票強行壓出"正確答案"。這套做法有個致命盲區(qū):它系統(tǒng)性地抹殺了人類意見的真實分歧。

      分歧是常態(tài)。一句評論是否有毒,一個回復是否安全,不同背景的人本就看法不一。強行投票不僅浪費信息,還可能讓模型在"偽共識"上優(yōu)化,離真實人類偏好越來越遠。

      模擬器里的真相

      為了找到最優(yōu)配比,團隊搭建了一個能復現(xiàn)人類評分模式的模擬器。他們往里面喂了五個真實數(shù)據(jù)集,覆蓋毒性檢測、對話安全、跨文化冒犯評估等場景,然后控制變量讓"模型A"穩(wěn)定輸給"模型B",測試在什么條件下能可靠地檢出這個差距。

      結(jié)果讓現(xiàn)行標準很尷尬。1-5人評分的常規(guī)配置,模型對比的可重復性堪憂。要穩(wěn)定捕捉人類意見的真實分布,10人以上是更安全的起點。

      但數(shù)字不是越大越好。實驗顯示,總標注量控制在約1000條時,只要分配得當,也能拿到可靠結(jié)論。反過來,預算再多,拆錯了比例照樣翻車。

      關(guān)鍵洞察:沒有萬能公式。最優(yōu)策略完全取決于你在測什么。

      測什么,決定怎么測

      研究團隊拆解了三種常見評測目標,每種對應不同的資源配置邏輯。

      第一類是準確率(Accuracy)——模型輸出與多數(shù)票是否一致。這時候"廣撒網(wǎng)"更劃算:測試樣本越多越好,每個樣本的評委可以少些。你的目標是覆蓋盡可能多的場景邊界。

      第二類是校準度(Calibration)——模型對自己有多自信,與實際正確率是否匹配。這需要更深的采樣:樣本量可以壓縮,但每個樣本必須堆夠評委,才能摸清概率分布的真實形狀。

      第三類最棘手:捕捉人類分歧本身。如果你關(guān)心的是"不同群體對這句話的 toxicity 評分方差有多大",那每個樣本的評委數(shù)量要大幅加碼,樣本量反而可以收縮。

      研究者用一張圖總結(jié)了這場權(quán)衡:橫軸是單個樣本的評委數(shù),縱軸是總樣本量,不同目標的最優(yōu)落點散落各處。盲目抄作業(yè)的人,大概率會踩進錯誤配置的坑里。

      一個被忽視的變量:誰在打這個分?

      研究還觸及了更深層的麻煩。現(xiàn)有評測體系假設"評委"是個可互換的單元,但真實人類帶著各自的文化背景、價值取向和語境理解來干活。論文引用的一個數(shù)據(jù)集專門測量跨文化冒犯感知,結(jié)果顯示同一句話在不同群體間的分歧幅度,可能遠超模型之間的性能差距。

      這意味著什么?當你用5個北美評委的多數(shù)票定義"安全回復",模型學到的可能只是特定切片人群的偏好。把它部署到全球用戶面前,分歧不會消失,只是被推遲到了投訴和輿情里。

      谷歌團隊沒有給出簡單的"改用X人"處方。他們的核心論點是:評測設計必須透明地暴露這些權(quán)衡,而不是用"3-5人"的行業(yè)慣例假裝問題不存在。

      論文最后提到了一個未被充分探索的方向:動態(tài)采樣。與其事先固定評委數(shù),不如根據(jù)樣本的分歧程度實時調(diào)整——爭議大的多投人,共識高的少浪費預算。這會讓評測系統(tǒng)復雜得多,但可能更接近"人類到底怎么想"的真相。

      當各大實驗室忙著刷榜時,這項研究像一盆冷水:你優(yōu)化的那個數(shù)字,可能從一開始就是錯的。如果評測基準本身建立在脆弱的共識幻覺上,模型之間的勝負排名,又有多少參考價值?

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      掘金18分逆轉(zhuǎn)開拓者,賽后楊瀚森的鏡頭引熱議!他獲得約基奇認可

      掘金18分逆轉(zhuǎn)開拓者,賽后楊瀚森的鏡頭引熱議!他獲得約基奇認可

      球場沒跑道
      2026-04-07 12:28:54
      國際奧委會禁止跨性別運動員參賽,美國女足傳奇拉皮諾埃非常不滿

      國際奧委會禁止跨性別運動員參賽,美國女足傳奇拉皮諾埃非常不滿

      懂球帝
      2026-04-07 09:14:24
      美國飛行員逃跑路線曝光,附近有山,耕地,城鎮(zhèn),多山地形救了他

      美國飛行員逃跑路線曝光,附近有山,耕地,城鎮(zhèn),多山地形救了他

      魔都姐姐雜談
      2026-04-06 17:02:35
      決戰(zhàn)要來了?特朗普威脅4小時摧毀所有電廠,伊朗開出10大要求

      決戰(zhàn)要來了?特朗普威脅4小時摧毀所有電廠,伊朗開出10大要求

      游古史
      2026-04-07 18:48:16
      全線大漲!剛剛,伊朗重磅發(fā)聲!

      全線大漲!剛剛,伊朗重磅發(fā)聲!

      新浪財經(jīng)
      2026-04-06 20:39:04
      49年他婉拒了新中國外長職務:若不拒絕,恐怕開國元帥名單要改寫

      49年他婉拒了新中國外長職務:若不拒絕,恐怕開國元帥名單要改寫

      浩渺青史
      2026-03-25 13:59:19
      李世民在HK風評很差?為何教科書上全是負面評價?

      李世民在HK風評很差?為何教科書上全是負面評價?

      小豫講故事
      2026-03-31 06:00:03
      冷門牛股,歷史新高!鈉電池重大突破,徹底阻斷熱失控!業(yè)績報喜概念股出爐

      冷門牛股,歷史新高!鈉電池重大突破,徹底阻斷熱失控!業(yè)績報喜概念股出爐

      數(shù)據(jù)寶
      2026-04-07 12:08:52
      陳麗華公司曝離世內(nèi)幕,對遲重瑞稱呼暴露關(guān)系,生前的話字字催淚

      陳麗華公司曝離世內(nèi)幕,對遲重瑞稱呼暴露關(guān)系,生前的話字字催淚

      青梅侃史啊
      2026-04-07 19:50:05
      華國鋒指出13人不可特赦,主席:都放了,每人100元再請吃飯

      華國鋒指出13人不可特赦,主席:都放了,每人100元再請吃飯

      雍親王府
      2026-04-07 16:40:04
      39歲男子考研落榜后舉報復試第一考生,稱其在候考室違規(guī)翻閱資料,華東師大:正在調(diào)查

      39歲男子考研落榜后舉報復試第一考生,稱其在候考室違規(guī)翻閱資料,華東師大:正在調(diào)查

      極目新聞
      2026-04-07 14:00:56
      越南停電、印度癱瘓!全球客戶求中國復工:去中國化是個笑話?

      越南停電、印度癱瘓!全球客戶求中國復工:去中國化是個笑話?

      阿纂看事
      2026-04-07 17:35:18
      特朗普:4個小時可摧毀伊朗所有橋梁和發(fā)電廠,伊朗人民“想聽到炸彈的聲音”

      特朗普:4個小時可摧毀伊朗所有橋梁和發(fā)電廠,伊朗人民“想聽到炸彈的聲音”

      上觀新聞
      2026-04-07 08:58:18
      有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

      有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

      夜深愛雜談
      2026-02-18 20:55:58
      忠告天下子女:再孝順,也不要為年過75歲的老父老母,做這三件事

      忠告天下子女:再孝順,也不要為年過75歲的老父老母,做這三件事

      藝鑒在線
      2026-04-07 00:13:20
      中山市小欖鎮(zhèn)九洲基社區(qū)黨委書記盧常秋被查

      中山市小欖鎮(zhèn)九洲基社區(qū)黨委書記盧常秋被查

      南方都市報
      2026-04-07 13:04:06
      陳麗華立遺囑:兒女每人100億,余下歸唐僧老公!網(wǎng)友評論扎心了

      陳麗華立遺囑:兒女每人100億,余下歸唐僧老公!網(wǎng)友評論扎心了

      天光破云來
      2026-04-07 16:38:17
      一路走好!清明假期剛過完,已有4位名人離世,最大86歲 最小僅26

      一路走好!清明假期剛過完,已有4位名人離世,最大86歲 最小僅26

      潮鹿逐夢
      2026-04-07 12:33:18
      拓記:楊瀚森在G聯(lián)賽的打法,就是開拓者希望他在隊里扮演的角色

      拓記:楊瀚森在G聯(lián)賽的打法,就是開拓者希望他在隊里扮演的角色

      懂球帝
      2026-04-07 15:46:08
      當年的汗馬功臣,已成上不了臺面的炸雞,館長與鄭麗文的冷暖真相

      當年的汗馬功臣,已成上不了臺面的炸雞,館長與鄭麗文的冷暖真相

      拾這一抹殘妝月
      2026-04-02 22:05:10
      2026-04-07 20:27:00
      碼上閑敘
      碼上閑敘
      有態(tài)度網(wǎng)友ytd
      1317文章數(shù) 10關(guān)注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      英媒:伊朗最高領(lǐng)袖病重昏迷 無法參與任何國家決策

      頭條要聞

      英媒:伊朗最高領(lǐng)袖病重昏迷 無法參與任何國家決策

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產(chǎn)

      財經(jīng)要聞

      10萬億財政轉(zhuǎn)移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態(tài)體驗

      態(tài)度原創(chuàng)

      教育
      時尚
      旅游
      本地
      軍事航空

      教育要聞

      高校官宣:教師,沒有“非升即走”!

      楊超越之后,全網(wǎng)頭像錦鯉的C位被她搶走了

      旅游要聞

      春日登高正當時 濟南天橋這些登山好去處別錯過

      本地新聞

      跟著歌聲游安徽,聽古村回響

      軍事要聞

      美軍營救飛行員出動155架飛機

      無障礙瀏覽 進入關(guān)懷版